11月 15

Kylin查询源码分析

大数据 magicwt 2,009 views

什么是Kylin Apache Kylin是一个开源的、分布式的分析型数据仓库，提供Hadoop/Spark 之上的 SQL 查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由 eBay 开发并贡献至开源社区。它能在亚秒内查询巨大的表。 Kylin的查询高性能主要依赖于Cube理论，如图所示...

Kylin查询源码分析

11-15 2,009 views

什么是Kylin Apache Kylin是一个开源的、分布式的分析型数据仓库，提供Hadoop/Spark 之上的 SQL 查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由 ...

6月 28

Kylin构建源码分析

大数据 magicwt 2,600 views

1 摘要 Kylin作为MOLAP的代表之一，其核心思想是设计cube模型，指定维度和量度，通过在维度上进行量度的预先上卷计算，保存上卷结果，以空间换时间，加速维度聚合查询。因此，预算计算这一构建流程是Kylin的核心之一，下面分构建调度和构建执行三个部分介绍一下Kylin...

Kylin构建源码分析

6-28 2,600 views

1 摘要 Kylin作为MOLAP的代表之一，其核心思想是设计cube模型，指定维度和量度，通过在维度上进行量度的预先上卷计算，保存上卷结果，以空间换时间，加速维度...

1月 03

使用Hive存储数据实践

大数据 magicwt 2,652 views

数据存储需求是：每天会生成大量文章数据，每条文章数据包含标题、内容、URL、发表时间等多个字段，数据后续不会更新，因此考虑使用Hive作为数据仓库存储这些数据。以下介绍使用Hive存储数据的实践步骤以及注意事项。 1.创建表创建外部表toutiao_category，建表语句...

使用Hive存储数据实践

1-03 2,652 views

数据存储需求是：每天会生成大量文章数据，每条文章数据包含标题、内容、URL、发表时间等多个字段，数据后续不会更新，因此考虑使用Hive作为数据仓库存储这些...

10月 06

storm-kafka KafkaSpout原理分析

大数据 magicwt 6,139 views

Storm Spout 通过实现Storm中的ISpout接口，重写其中的nextTuple、ack和fail方法，可以实现tuple流的发送、成功确认、失败重发。ISpout接口代码如下所示。 Java public interface ISpout extends Serializable { /** * wo...

storm-kafka KafkaSpout原理分析

10-06 6,139 views

Storm Spout 通过实现Storm中的ISpout接口，重写其中的nextTuple、ack和fail方法，可以实现tuple流的发送、成功确认、失败重发。ISpout接口代码如下所示。 ...

10月 01

使用daemontools实现Storm进程监控

大数据 magicwt 4,978 views

Storm集群如图所示：其中包含一个nimbus节点和多个supervisor节点： 1）nimbus，负责在集群中分发代码，分配计算任务，监控失败等； 2）supervisor，负责在集群中按照nimbus的分配，启动和停止计算任务； 3）worker，实际执行spout和bolt任务的进程；在Storm安装...

使用daemontools实现Storm进程监控

10-01 4,978 views

Storm集群如图所示：其中包含一个nimbus节点和多个supervisor节点： 1）nimbus，负责在集群中分发代码，分配计算任务，监控失败等； 2）supervisor，负责在...

8月 15

storm读书笔记

大数据 magicwt 2,482 views

什么是storm 分布式实时计算系统；与hadoop为批处理提供map和reduce这两种操作原语类似，storm为实时处理也提供了spout和bolt这两种操作原语； storm的特点：可扩展性，通过增加集群机器、调整计算并行度，即可以扩展计算性能；保证数据不丢失，每条消息至少能...

storm读书笔记

8-15 2,482 views

什么是storm 分布式实时计算系统；与hadoop为批处理提供map和reduce这两种操作原语类似，storm为实时处理也提供了spout和bolt这两种操作原语； storm的特点...

2月 16

Kafka简介

大数据 magicwt 2,463 views

节选自Kafka官方文档（http://kafka.apache.org/documentation.html）介绍 Kafka是一个分布式、分区消息服务，基本概念包括： 1）topic，消息流； 2）producer，向topic发布消息； 3）consumer，订阅topic，接收、处理消息； 4）broker，Kafka集群由多个broker组成...

Kafka简介

2-16 2,463 views

节选自Kafka官方文档（http://kafka.apache.org/documentation.html）介绍 Kafka是一个分布式、分区消息服务，基本概念包括： 1）topic，消息流； 2）produc...

11月 05

Flume简介与实践

大数据 magicwt 2,745 views

Flume是一个分布式、高可用日志收集系统，可以收集不同来源的日志并集中存储。目前Flume是Apache顶级项目。架构数据流模型 Flume Agent是一个JVM进程，包含三个基本组件： 1）Source，用于从外部数据源获取数据； 2）Channel，用于暂存数据； 3）Sink，用于向目标...

Flume简介与实践

11-05 2,745 views

Flume是一个分布式、高可用日志收集系统，可以收集不同来源的日志并集中存储。目前Flume是Apache顶级项目。架构数据流模型 Flume Agent是一个JVM进程，包...