Kafka简介

2-16 2,880 views

节选自Kafka官方文档(http://kafka.apache.org/documentation.html)

介绍

Kafka是一个分布式、分区消息服务,基本概念包括:
1)topic,消息流;
2)producer,向topic发布消息;
3)consumer,订阅topic,接收、处理消息;
4)broker,Kafka集群由多个broker组成。
producer_consumer

Topic

topic包含多个分区,如图所示:
log_anatomy
每个分区是一个有序的消息队列,消息按照从旧到新的顺序排列,新的消息不断追加到尾部。每个消息使用递增的id(offset)来唯一标识。
消息在Kafka中会被保存一段时间,而不管它是否被消费,这个保存时间可以设置。如果保存时间设置为2天,那么在2天内,消息都可以被消费,2天后消息将被删除。
每个消费者需要保存当前所消费消息在分区中的位置(offset)。通常情况下,消费者在消费消息时递增offset表示消息已被消费。另外,消费者也可以灵活地设置offset,例如,设置到较旧的offset,重复消费已消费过的消息。

标签:

Kylin查询源码分析

什么是Kylin Apache Kylin是一个开源的、分布式的分析型数据仓库,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由 ...

阅读全文

Kylin构建源码分析

1 摘要 Kylin作为MOLAP的代表之一,其核心思想是设计cube模型,指定维度和量度,通过在维度上进行量度的预先上卷计算,保存上卷结果,以空间换时间,加速维度...

阅读全文

使用Hive存储数据实践

数据存储需求是:每天会生成大量文章数据,每条文章数据包含标题、内容、URL、发表时间等多个字段,数据后续不会更新,因此考虑使用Hive作为数据仓库存储这些...

阅读全文