Kafka笔记(一)

安装

参考:Kafka 安装

只需要前置安装java和zookeeper,基本上不需要配置啥,即开即用。

CLI上手

一些理论

  1. 大数据分布式通信系统中可以归纳为三种常见的通信机制:序列化与远程过程调用、消息队列和多播通信。前者包括直接使用JSon或者XML,也包括专用的序列化框架比如Google的PB、FB的Thrift、Apache的Avro。Kafka属于消息队列工具,作为消息传输过程中的容器或中间件,提供消息路由并保障消息可靠传输。多播通信暂且不提。
  2. 消息中间件通常支持两种模式的队列,消息队列或者Pub-Sub。Kafka是Linkdin开源的Pub-Sub机制的,最初被设计为Log收集工具。
  3. 除了Producer和Consumer,Kafka中另一个重要的角色是代理商Broker。
  4. Kafka消费者采取Pull方式读取消息,不像Flume是Push方式,这样的好处是消费者可以自主控制消费速率,不会导致Push方式的弊端:消费者跟不上生产者导致的消息积压。
  5. Kafka内部,支持对Topic进行数据分片,每个数据分片是有序的、不可改的尾部追加消息队列结构,队列内的每个消息被分配数据分片内的一个uniqueId,称为Offset。生产者可以指定消息分片。
本站总访问量