使用Hive存储数据实践

1-03 1,228 views

数据存储需求是:每天会生成大量文章数据,每条文章数据包含标题、内容、URL、发表时间等多个字段,数据后续不会更新,因此考虑使用Hive作为数据仓库存储这些...
阅读全文 0

storm-kafka KafkaSpout原理分析

10-06 3,297 views

Storm Spout 通过实现Storm中的ISpout接口,重写其中的nextTuple、ack和fail方法,可以实现tuple流的发送、成功确认、失败重发。ISpout接口代码如下所示。 ...
阅读全文 0

使用daemontools实现Storm进程监控

10-01 2,538 views

Storm集群如图所示: 其中包含一个nimbus节点和多个supervisor节点: 1)nimbus,负责在集群中分发代码,分配计算任务,监控失败等; 2)supervisor,负责在...
阅读全文 0

storm读书笔记

8-15 1,183 views

什么是storm 分布式实时计算系统; 与hadoop为批处理提供map和reduce这两种操作原语类似,storm为实时处理也提供了spout和bolt这两种操作原语; storm的特点...
阅读全文 0

Kafka简介

2-16 1,171 views

节选自Kafka官方文档(http://kafka.apache.org/documentation.html) 介绍 Kafka是一个分布式、分区消息服务,基本概念包括: 1)topic,消息流; 2)produc...
阅读全文 0

Flume简介与实践

11-05 1,252 views

Flume是一个分布式、高可用日志收集系统,可以收集不同来源的日志并集中存储。目前Flume是Apache顶级项目。 架构 数据流模型 Flume Agent是一个JVM进程,包...
阅读全文 0