Kylin查询源码分析

11-15 2,009 views

什么是Kylin Apache Kylin是一个开源的、分布式的分析型数据仓库,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由 ...
阅读全文 0

Kylin构建源码分析

6-28 2,600 views

1 摘要 Kylin作为MOLAP的代表之一,其核心思想是设计cube模型,指定维度和量度,通过在维度上进行量度的预先上卷计算,保存上卷结果,以空间换时间,加速维度...
阅读全文 0

使用Hive存储数据实践

1-03 2,652 views

数据存储需求是:每天会生成大量文章数据,每条文章数据包含标题、内容、URL、发表时间等多个字段,数据后续不会更新,因此考虑使用Hive作为数据仓库存储这些...
阅读全文 0

storm-kafka KafkaSpout原理分析

10-06 6,139 views

Storm Spout 通过实现Storm中的ISpout接口,重写其中的nextTuple、ack和fail方法,可以实现tuple流的发送、成功确认、失败重发。ISpout接口代码如下所示。 ...
阅读全文 0

使用daemontools实现Storm进程监控

10-01 4,978 views

Storm集群如图所示: 其中包含一个nimbus节点和多个supervisor节点: 1)nimbus,负责在集群中分发代码,分配计算任务,监控失败等; 2)supervisor,负责在...
阅读全文 0

storm读书笔记

8-15 2,482 views

什么是storm 分布式实时计算系统; 与hadoop为批处理提供map和reduce这两种操作原语类似,storm为实时处理也提供了spout和bolt这两种操作原语; storm的特点...
阅读全文 0

Kafka简介

2-16 2,463 views

节选自Kafka官方文档(http://kafka.apache.org/documentation.html) 介绍 Kafka是一个分布式、分区消息服务,基本概念包括: 1)topic,消息流; 2)produc...
阅读全文 0

Flume简介与实践

11-05 2,745 views

Flume是一个分布式、高可用日志收集系统,可以收集不同来源的日志并集中存储。目前Flume是Apache顶级项目。 架构 数据流模型 Flume Agent是一个JVM进程,包...
阅读全文 0