Kafka知识整理

2020-12-26 00:04:36 佚名

Kafka概述

Kafka是一个分布式的基于发布/订阅模式的

消息队列，主要应用于大数据实时处理领域。

消息队列

消息队列中间件是分布式系统中重要的组件，主要解决应用耦合，异步消息，流量削锋等问题

实现高性能，高可用，可伸缩和最终一致性架构

使用较多的消息队列有ActiveMQ，RabbitMQ，ZeroMQ，Kafka，MetaMQ，RocketMQ

作用主要有：

解耦，冗余，扩展性，灵活性&峰值处理能力，可恢复性，顺序保证性，缓冲，异步通信等。

1）解耦：

　　允许你独立的扩展或修改两边的处理过程，只要确保它们遵守同样的接口约束。

2）冗余：

消息队列把数据进行持久化直到它们已经被完全处理，通过这一方式规避了数据丢失风险。许多消息队列所采用的"插入-获取-删除"范式中，在把一个消息从队列中删除之前，需要你的处理系统明确的指出该消息已经被处理完毕，从而确保你的数据被安全的保存直到你使用完毕。

3）扩展性：

因为消息队列解耦了你的处理过程，所以增大消息入队和处理的频率是很容易的，只要另外增加处理过程即可。

4）灵活性 & 峰值处理能力：

在访问量剧增的情况下，应用仍然需要继续发挥作用，但是这样的突发流量并不常见。如果为以能处理这类峰值访问为标准来投入资源随时待命无疑是巨大的浪费。使用消息队列能够使关键组件顶住突发的访问压力，而不会因为突发的超负荷的请求而完全崩溃。

5）可恢复性：

系统的一部分组件失效时，不会影响到整个系统。消息队列降低了进程间的耦合度，所以即使一个处理消息的进程挂掉，加入队列中的消息仍然可以在系统恢复后被处理。

6）顺序保证：

在大多使用场景下，数据处理的顺序都很重要。大部分消息队列本来就是排序的，并且能保证数据会按照特定的顺序来处理。（Kafka保证一个Partition内的消息的有序性）

7）缓冲：

有助于控制和优化数据流经过系统的速度，解决生产消息和消费消息的处理速度不一致的情况。

8）异步通信：

很多时候，用户不想也不需要立即处理消息。消息队列提供了异步处理机制，允许用户把一个消息放入队列，但并不立即处理它。想向队列中放入多少消息就放多少，然后在需要的时候再去处理它们。

消息队列的两种模式

（1）点对点模式（一对一，消费者主动拉取数据，消息收到后消息清除）

消息生产者生产消息发送到Queue中，然后消息消费者从Queue中取出并且消费消息。

消息被消费以后，queue中不再有存储，所以消息消费者不可能消费到已经被消费的消息。Queue支持存在多个消费者，但是对一个消息而言，只会有一个消费者可以消费。

（2）发布/订阅模式（一对多，消费者消费数据之后不会清除消息）

消息生产者（发布）将消息发布到topic中，同时有多个消息消费者（订阅）消费该消息。和点对点方式不同，发布到topic的消息会被所有订阅者消费。

Kafka架构

Kafka是一个分布式消息队列。Kafka对消息保存时根据Topic进行归类，发送消息者称为Producer，消息接受者称为Consumer，此外kafka集群有多个kafka实例组成，每个实例(server)称为broker。无论是kafka集群，还是consumer都依赖于zookeeper集群保存一些meta信息，来保证系统可用性。

1）Producer ：消息生产者，就是向kafka broker发消息的客户端；

2）Consumer ：消息消费者，向kafka broker取消息的客户端；

3）Topic ：可以理解为一个队列；

4） Consumer Group （CG）：这是kafka用来实现一个topic消息的广播（发给所有的consumer）和单播（发给任意一个consumer）的手段。一个topic可以有多个CG。topic的消息会复制（不是真的复制，是概念上的）到所有的CG，但每个partion只会把消息发给该CG中的一个consumer。如果需要实现广播，只要每个consumer有一个独立的CG就可以了。要实现单播只要所有的consumer在同一个CG。用CG还可以将consumer进行自由的分组而不需要多次发送消息到不同的topic；

5）Broker ：一台kafka服务器就是一个broker。一个集群由多个broker组成。一个broker可以容纳多个topic；

6）Partition：为了实现扩展性，一个非常大的topic可以分布到多个broker（即服务器）上，一个topic可以分为多个partition，每个partition是一个有序的队列。partition中的每条消息都会被分配一个有序的id（offset）。kafka只保证按一个partition中的顺序将消息发给consumer，不保证一个topic的整体（多个partition间）的顺序；

7）Offset：kafka的存储文件都是按照offset.kafka来命名，用offset做名字的好处是方便查找。例如你想找位于2049的位置，只要找到2048.kafka的文件即可。当然the first offset就是00000000000.kafka。

8）Leader：每个分区多个副本的“主”，生产者发送数据的对象，以及消费者消费数据的对象都是leader。

9）Follower：每个分区多个副本中的“从”，实时从leader中同步数据，保持和leader数据的同步。leader发生故障时，某个follower会成为新的follower。

10）Replica：副本，为保证集群中的某个节点发生故障时，该节点上的partition数据不丢失，且kafka仍然能够继续工作，kafka提供了副本机制，一个topic的每个分区都有若干个副本，一个leader和若干个follower。

Kafka安装部署

Kafka下载：http://kafka.apache.org/downloads.html

集群安排：hadoop102/zk/kafka，hadoop103/zk/kafka，hadoop104/zk/kafka。

解压安装包：

<code>tar -zxvf kafka_2.11-0.11.0.0.tgz -C /opt/module//<code>

修改解压后的文件名称：

<code>mv kafka_2.11-0.11.0.0/ kafka/<code>

在/opt/module/kafka目录下创建logs文件夹：

<code>mkdir logs/<code>

修改配置文件：

<code>cd config/
vi server.properties/<code>

输入以下内容：

<code>#broker的全局唯一编号，不能重复
broker.id=0
#删除topic功能使能
delete.topic.enable=true
#处理网络请求的线程数量
num.network.threads=3
#用来处理磁盘IO的现成数量
num.io.threads=8
#发送套接字的缓冲区大小
socket.send.buffer.bytes=102400
#接收套接字的缓冲区大小
socket.receive.buffer.bytes=102400
#请求套接字的缓冲区大小
socket.request.max.bytes=104857600
#kafka运行日志存放的路径	
log.dirs=/opt/module/kafka/logs
#topic在当前broker上的分区个数
num.partitions=1
#用来恢复和清理data下数据的线程数量
num.recovery.threads.per.data.dir=1
#segment文件保留的最长时间，超时将被删除
log.retention.hours=168
#配置连接Zookeeper集群地址
zookeeper.connect=hadoop102:2181,hadoop103:2181,hadoop104:2181/<code>

配置环境变量：

<code>sudo vi /etc/profile

#KAFKA_HOME
export KAFKA_HOME=/opt/module/kafka
export PATH=$PATH:$KAFKA_HOME/bin

source /etc/profile/<code>

分发安装包：

<code>xsync kafka//<code>

注意：分发之后记得配置其他机器的环境变量

分别在hadoop103和hadoop104上修改配置文件/opt/module/kafka/config/server.properties

中的broker.id=1、broker.id=2。

启动集群：

依次在hadoop102、hadoop103、hadoop104节点上启动kafka

<code> bin/kafka-server-start.sh config/server.properties &/<code>

关闭集群：

<code>bin/kafka-server-stop.sh stop/<code>

Kafka命令行操作

查看当前服务器中的所有topic：

<code> bin/kafka-topics.sh --zookeeper hadoop102:2181 --list/<code>

创建topic：

<code>bin/kafka-topics.sh --zookeeper hadoop102:2181 \
--create --replication-factor 3 --partitions 1 --topic first/<code>

选项说明：

--topic 定义topic名

--replication-factor 定义副本数

--partitions 定义分区数

删除topic：

<code>bin/kafka-topics.sh --zookeeper hadoop102:2181 \
--delete --topic first/<code>

需要server.properties中设置delete.topic.enable=true否则只是标记删除或者直接重启。

发送消息：

<code>bin/kafka-console-producer.sh \
--broker-list hadoop102:9092 --topic first
>hello world/<code>

消费消息：

<code>bin/kafka-console-consumer.sh \
--zookeeper hadoop102:2181 --from-beginning --topic first/<code>

--from-beginning：会把first主题中以往所有的数据都读取出来。根据业务场景选择是否增加该配置。

查看某个Topic的详情：

<code>bin/kafka-topics.sh --zookeeper hadoop102:2181 \
--describe --topic first/<code>

Kafka生产过程分析

kafka工作流程：

Kafka中消息是以topic进行分类的，生产者生产消息，消费者消费消息，都是面向topic的。

topic是逻辑上的概念，而partition是物理上的概念，每个partition对应于一个log文件，该log文件中存储的就是producer生产的数据。Producer生产的数据会被不断追加到该log文件末端，且每条数据都有自己的offset。消费者组中的每个消费者，都会实时记录自己消费到了哪个offset，以便出错恢复时，从上次的位置继续消费。

由于生产者生产的消息会不断追加到log文件末尾，为防止log文件过大导致数据定位效率低下，Kafka采取了分片和索引机制，将每个partition分为多个segment。每个segment对应两个文件——“.index”文件和“.log”文件。这些文件位于一个文件夹下，该文件夹的命名规则为：topic名称+分区序号。例如，first这个topic有三个分区，则其对应的文件夹为first-0,first-1,first-2。

<code>00000000000000000000.index
00000000000000000000.log
00000000000000170410.index
00000000000000170410.log
00000000000000239430.index
00000000000000239430.log/<code>

index和log文件以当前segment的第一条消息的offset命名。下图为index文件和log文件的结构示意图。

“.index”文件存储大量的索引信息，“.log”文件存储大量的数据，索引文件中的元数据指向对应数据文件中message的物理偏移地址。

Kafka生产者

分区策略

1）分区的原因

（1）方便在集群中扩展，每个Partition可以通过调整以适应它所在的机器，而一个topic又可以有多个Partition组成，因此整个集群就可以适应任意大小的数据了；

（2）可以提高并发，因为可以以Partition为单位读写了。

2）分区的原则

我们需要将producer发送的数据封装成一个ProducerRecord对象。

（1）指明 partition 的情况下，直接将指明的值直接作为 partiton 值；

（2）没有指明 partition 值但有 key 的情况下，将 key 的 hash 值与 topic 的 partition 数进行取余得到 partition 值；

（3）既没有 partition 值又没有 key 值的情况下，第一次调用时随机生成一个整数（后面每次调用在这个整数上自增），将这个值与 topic 可用的 partition 总数取余得到 partition 值，也就是常说的 round-robin 算法。

数据可靠性保证

为保证producer发送的数据，能可靠的发送到指定的topic，topic的每个partition收到producer发送的数据后，都需要向producer发送ack（acknowledgement确认收到），如果producer收到ack，就会进行下一轮的发送，否则重新发送数据。

1）副本数据同步策略

Kafka选择了第二种方案，原因如下：

1.同样为了容忍n台节点的故障，第一种方案需要2n+1个副本，而第二种方案只需要n+1个副本，而Kafka的每个分区都有大量的数据，第一种方案会造成大量数据的冗余。

2.虽然第二种方案的网络延迟会比较高，但网络延迟对Kafka的影响较小。

2）ISR

采用第二种方案之后，设想以下情景：leader收到数据，所有follower都开始同步数据，但有一个follower，因为某种故障，迟迟不能与leader进行同步，那leader就要一直等下去，直到它完成同步，才能发送ack。这个问题怎么解决呢？

Leader维护了一个动态的in-sync replica set (ISR)，意为和leader保持同步的follower集合。当ISR中的follower完成数据的同步之后，leader就会给follower发送ack。如果follower长时间未向leader同步数据，则该follower将被踢出ISR，该时间阈值由replica.lag.time.max.ms参数设定。Leader发生故障之后，就会从ISR中选举新的leader。

3）ack应答机制

对于某些不太重要的数据，对数据的可靠性要求不是很高，能够容忍数据的少量丢失，所以没必要等ISR中的follower全部接收成功。

所以Kafka为用户提供了三种可靠性级别，用户根据对可靠性和延迟的要求进行权衡，选择以下的配置。

acks参数配置：

acks：

0：producer不等待broker的ack，这一操作提供了一个最低的延迟，broker一接收到还没有写入磁盘就已经返回，当broker故障时有可能丢失数据；

1：producer等待broker的ack，partition的leader落盘成功后返回ack，如果在follower同步成功之前leader故障，那么将会丢失数据；

-1（all）：producer等待broker的ack，partition的leader和follower全部落盘成功后才返回ack。但是如果在follower同步完成后，broker发送ack之前，leader发生故障，那么会造成

数据重复。

4）故障处理细节

（1）follower故障

follower发生故障后会被临时踢出ISR，待该follower恢复后，follower会读取本地磁盘记录的上次的HW，并将log文件高于HW的部分截取掉，从HW开始向leader进行同步。等该follower的LEO大于等于该Partition的HW，即follower追上leader之后，就可以重新加入ISR了。

（2）leader故障

leader发生故障之后，会从ISR中选出一个新的leader，之后，为保证多个副本之间的数据一致性，其余的follower会先将各自的log文件高于HW的部分截掉，然后从新的leader同步数据。

注意：这只能保证副本之间的数据一致性，并不能保证数据不丢失或者不重复。

Exactly Once语义

对于某些比较重要的消息，我们需要保证exactly once语义，即保证每条消息被发送且仅被发送一次。

在0.11版本之后，Kafka引入了幂等性机制（idempotent），配合acks = -1时的at least once语义，实现了producer到broker的exactly once语义。

idempotent + at least once = exactly once

使用时，只需将enable.idempotence属性设置为true，kafka自动将acks属性设为-1。

Kafka消费者

消费方式

consumer采用pull（拉）模式从broker中读取数据。

push（推）模式很难适应消费速率不同的消费者，因为消息发送速率是由broker决定的。它的目标是尽可能以最快速度传递消息，但是这样很容易造成consumer来不及处理消息，典型的表现就是拒绝服务以及网络拥塞。而pull模式则可以根据consumer的消费能力以适当的速率消费消息。

pull模式不足之处是，如果kafka没有数据，消费者可能会陷入循环中，一直返回空数据。针对这一点，Kafka的消费者在消费数据时会传入一个时长参数timeout，如果当前没有数据可供消费，consumer会等待一段时间之后再返回，这段时长即为timeout。

分区分配策略

一个consumer group中有多个consumer，一个 topic有多个partition，所以必然会涉及到partition的分配问题，即确定那个partition由哪个consumer来消费。

Kafka有两种分配策略，一是round robin，一是range。

roundrobin：轮询，range：范围

offset的维护

由于consumer在消费过程中可能会出现断电宕机等故障，consumer恢复后，需要从故障前的位置的继续消费，所以consumer需要实时记录自己消费到了哪个offset，以便故障恢复后继续消费。

Kafka 0.9版本之前，consumer默认将offset保存在Zookeeper中，从0.9版本开始，consumer默认将offset保存在Kafka一个内置的topic中，该topic为__consumer_offsets。

Kafka 高效读写数据

1）顺序写磁盘

Kafka的producer生产数据，要写入到log文件中，写的过程是一直追加到文件末端，为顺序写。官网有数据表明，同样的磁盘，顺序写能到到600M/s，而随机写只有100k/s。这与磁盘的机械机构有关，顺序写之所以快，是因为其省去了大量磁头寻址的时间。

2）零复制技术

kafka中的消费者在读取服务端的数据时，需要将服务端的磁盘文件通过网络发送到消费者进程，网络发送需要经过几种网络节点。如下图所示：

传统的读取文件数据并发送到网络的步骤如下：
（1）操作系统将数据从磁盘文件中读取到内核空间的页面缓存；
（2）应用程序将数据从内核空间读入用户空间缓冲区；
（3）应用程序将读到数据写回内核空间并放入socket缓冲区；

（4）操作系统将数据从socket缓冲区复制到网卡接口，此时数据才能通过网络发送。

通常情况下，Kafka的消息会有多个订阅者，生产者发布的消息会被不同的消费者多次消费，为了优化这个流程，Kafka使用了“零拷贝技术”，如下图所示：

“零拷贝技术”只用将磁盘文件的数据复制到页面缓存中一次，然后将数据从页面缓存直接发送到网络中（发送给不同的订阅者时，都可以使用同一个页面缓存），避免了重复复制操作。

如果有10个消费者，传统方式下，数据复制次数为4*10=40次，而使用“零拷贝技术”只需要1+10=11次，一次为从磁盘复制到页面缓存，10次表示10个消费者各自读取一次页面缓存。

Zookeeper在Kafka中的作用

Kafka集群中有一个broker会被选举为Controller，负责管理集群broker的上下线，所有topic的分区副本分配和leader选举等工作。

Controller的管理工作都是依赖于Zookeeper的。

以下为partition的leader选举过程：

Kafka API

Producer API

消息发送流程

Kafka的Producer发送消息采用的是异步发送的方式。在消息发送的过程中，涉及到了两个线程——main线程和Sender线程，以及一个线程共享变量——RecordAccumulator。main线程将消息发送给RecordAccumulator，Sender线程不断从RecordAccumulator中拉取消息发送到Kafka broker。

相关参数：

batch.size：只有数据积累到batch.size之后，sender才会发送数据。

linger.ms：如果数据迟迟未达到batch.size，sender等待linger.time之后就会发送数据。

异步发送API

1）导入依赖

<code>
org.apache.kafka
kafka-clients
0.11.0.0
/<code>

2）编写代码

需要用到的类：

KafkaProducer：需要创建一个生产者对象，用来发送数据

ProducerConfig：获取所需的一系列配置参数

ProducerRecord：每条数据都要封装成一个ProducerRecord对象

1.不带回调函数的API

<code>import org.apache.kafka.clients.producer.*;

import java.util.Properties;
import java.util.concurrent.ExecutionException;

public class CustomProducer {

    public static void main(String[] args) throws ExecutionException, InterruptedException {
        Properties props = new Properties();
        props.put("bootstrap.servers", "hadoop102:9092");//kafka集群，broker-list
        props.put("acks", "all");
        props.put("retries", 1);//重试次数
        props.put("batch.size", 16384);//批次大小
        props.put("linger.ms", 1);//等待时间
        props.put("buffer.memory", 33554432);//RecordAccumulator缓冲区大小
        props.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");
        props.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");

        Producer producer = new KafkaProducer<>(props);
        for (int i = 0; i < 100; i++) {
            producer.send(new ProducerRecord("first", Integer.toString(i), Integer.toString(i)));
        }
        producer.close();
    }
}/<code>

2.带回调函数的API

回调函数会在producer收到ack时调用，为异步调用，该方法有两个参数，分别是RecordMetadata和Exception，如果Exception为null，说明消息发送成功，如果Exception不为null，说明消息发送失败。

注意：消息发送失败会自动重试，不需要我们在回调函数中手动重试。

<code>import org.apache.kafka.clients.producer.*;

import java.util.Properties;
import java.util.concurrent.ExecutionException;

public class CustomProducer {

    public static void main(String[] args) throws ExecutionException, InterruptedException {
        Properties props = new Properties();
        props.put("bootstrap.servers", "hadoop102:9092");//kafka集群，broker-list
        props.put("acks", "all");
        props.put("retries", 1);//重试次数
        props.put("batch.size", 16384);//批次大小
        props.put("linger.ms", 1);//等待时间
        props.put("buffer.memory", 33554432);//RecordAccumulator缓冲区大小
        props.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");
        props.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");

        Producer producer = new KafkaProducer<>(props);
        for (int i = 0; i < 100; i++) {
            producer.send(new ProducerRecord("first", Integer.toString(i), Integer.toString(i)), new Callback() {

                //回调函数，该方法会在Producer收到ack时调用，为异步调用
                @Override
                public void onCompletion(RecordMetadata metadata, Exception exception) {
                    if (exception == null) {
                        System.out.println("success->" + metadata.offset());
                    } else {
                        exception.printStackTrace();
                    }
                }
            });
        }
        producer.close();
    }
}/<code>

同步发送API

同步发送的意思就是，一条消息发送之后，会阻塞当前线程，直至返回ack。

由于send方法返回的是一个Future对象，根据Futrue对象的特点，我们也可以实现同步发送的效果，只需在调用Future对象的get方法即可。

<code>import org.apache.kafka.clients.producer.KafkaProducer;
import org.apache.kafka.clients.producer.Producer;
import org.apache.kafka.clients.producer.ProducerRecord;

import java.util.Properties;
import java.util.concurrent.ExecutionException;

public class CustomProducer {

    public static void main(String[] args) throws ExecutionException, InterruptedException {
        Properties props = new Properties();
        props.put("bootstrap.servers", "hadoop102:9092");//kafka集群，broker-list
        props.put("acks", "all");
        props.put("retries", 1);//重试次数
        props.put("batch.size", 16384);//批次大小
        props.put("linger.ms", 1);//等待时间
        props.put("buffer.memory", 33554432);//RecordAccumulator缓冲区大小
        props.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");
        props.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");

        Producer producer = new KafkaProducer<>(props);
        for (int i = 0; i < 100; i++) {
            producer.send(new ProducerRecord("first", Integer.toString(i), Integer.toString(i))).get();
        }
        producer.close();
    }
}
/<code>

Consumer API

Consumer消费数据时的可靠性是很容易保证的，因为数据在Kafka中是持久化的，故不用担心数据丢失问题。

所以offset的维护是Consumer消费数据是必须考虑的问题。

手动提交offset

1）导入依赖

<code>
   org.apache.kafka
   kafka-clients
   0.11.0.0
/<code>

2）编写代码

需要用到的类：

KafkaConsumer：需要创建一个消费者对象，用来消费数据

ConsumerConfig：获取所需的一系列配置参数

ConsuemrRecord：每条数据都要封装成一个ConsumerRecord对象

<code>import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.apache.kafka.clients.consumer.ConsumerRecords;
import org.apache.kafka.clients.consumer.KafkaConsumer;

import java.util.Arrays;
import java.util.Properties;

public class CustomConsumer {

    public static void main(String[] args) {
        Properties props = new Properties();
        props.put("bootstrap.servers", "hadoop102:9092");
        props.put("group.id", "test");//消费者组，只要group.id相同，就属于同一个消费者组
        props.put("enable.auto.commit", "false");//自动提交offset
       
        props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        props.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        KafkaConsumer consumer = new KafkaConsumer<>(props);
        consumer.subscribe(Arrays.asList("first"));
        while (true) {
            ConsumerRecords records = consumer.poll(100);
            for (ConsumerRecord record : records) {
                System.out.printf("offset = %d, key = %s, value = %s%n", record.offset(), record.key(), record.value());
            }
            consumer.commitSync();
        }
    }
}
/<code>

3）代码分析：

手动提交offset的方法有两种：分别是commitSync（同步提交）和commitAsync（异步提交）。两者的相同点是，都会将本次poll的一批数据最高的偏移量提交；不同点是，commitSync会失败重试，一直到提交成功（如果由于不可恢复原因导致，也会提交失败）；而commitAsync则没有失败重试机制，故有可能提交失败。

4）数据重复消费问题

自动提交offset

为了使我们能够专注于自己的业务逻辑，Kafka提供了自动提交offset的功能。

自动提交offset的相关参数：

enable.auto.commit：是否开启自动提交offset功能

auto.commit.interval.ms：自动提交offset的时间间隔

以下为自动提交offset的代码：

<code>import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.apache.kafka.clients.consumer.ConsumerRecords;
import org.apache.kafka.clients.consumer.KafkaConsumer;

import java.util.Arrays;
import java.util.Properties;

public class CustomConsumer {

    public static void main(String[] args) {
        Properties props = new Properties();
        props.put("bootstrap.servers", "hadoop102:9092");
        props.put("group.id", "test");
        props.put("enable.auto.commit", "true");
        props.put("auto.commit.interval.ms", "1000");
        props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        props.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        KafkaConsumer consumer = new KafkaConsumer<>(props);
        consumer.subscribe(Arrays.asList("first"));
        while (true) {
            ConsumerRecords records = consumer.poll(100);
            for (ConsumerRecord record : records)
                System.out.printf("offset = %d, key = %s, value = %s%n", record.offset(), record.key(), record.value());
        }
    }
}/<code>

自定义Interceptor

拦截器原理

Producer拦截器(interceptor)是在Kafka 0.10版本被引入的，主要用于实现clients端的定制化控制逻辑。

对于producer而言，interceptor使得用户在消息发送前以及producer回调逻辑前有机会对消息做一些定制化需求，比如修改消息等。同时，producer允许用户指定多个interceptor按序作用于同一条消息从而形成一个拦截链(interceptor chain)。Intercetpor的实现接口是org.apache.kafka.clients.producer.ProducerInterceptor，其定义的方法包括：

（1）configure(configs)

获取配置信息和初始化数据时调用。

（2）onSend(ProducerRecord)：

该方法封装进KafkaProducer.send方法中，即它运行在用户主线程中。Producer确保在消息被序列化以及计算分区前调用该方法。用户可以在该方法中对消息做任何操作，但最好保证不要修改消息所属的topic和分区，否则会影响目标分区的计算。

（3）onAcknowledgement(RecordMetadata, Exception)：

该方法会在消息从RecordAccumulator成功发送到Kafka Broker之后，或者在发送过程中失败时调用。并且通常都是在producer回调逻辑触发之前。onAcknowledgement运行在producer的IO线程中，因此不要在该方法中放入很重的逻辑，否则会拖慢producer的消息发送效率。

（4）close：

关闭interceptor，主要用于执行一些资源清理工作

如前所述，interceptor可能被运行在多个线程中，因此在具体实现时用户需要自行确保线程安全。另外倘若指定了多个interceptor，则producer将按照指定顺序调用它们，并仅仅是捕获每个interceptor可能抛出的异常记录到错误日志中而非在向上传递。这在使用过程中要特别留意。

拦截器案例

1）需求：

实现一个简单的双interceptor组成的拦截链。第一个interceptor会在消息发送前将时间戳信息加到消息value的最前部；第二个interceptor会在消息发送后更新成功发送消息数或失败发送消息数。

2）案例实操

（1）增加时间戳拦截器

<code>import java.util.Map;
import org.apache.kafka.clients.producer.ProducerInterceptor;
import org.apache.kafka.clients.producer.ProducerRecord;
import org.apache.kafka.clients.producer.RecordMetadata;

public class TimeInterceptor implements ProducerInterceptor {

	@Override
	public void configure(Map configs) {

	}

	@Override
	public ProducerRecord onSend(ProducerRecord record) {
		// 创建一个新的record，把时间戳写入消息体的最前部
		return new ProducerRecord(record.topic(), record.partition(), record.timestamp(), record.key(),
				System.currentTimeMillis() + "," + record.value().toString());
	}

	@Override
	public void onAcknowledgement(RecordMetadata metadata, Exception exception) {

	}

	@Override
	public void close() {

	}
}/<code>

（2）统计发送消息成功和发送失败消息数，并在producer关闭时打印这两个计数器

<code>import java.util.Map;
import org.apache.kafka.clients.producer.ProducerInterceptor;
import org.apache.kafka.clients.producer.ProducerRecord;
import org.apache.kafka.clients.producer.RecordMetadata;

public class CounterInterceptor implements ProducerInterceptor{
    private int errorCounter = 0;
    private int successCounter = 0;

	@Override
	public void configure(Map configs) {
		
	}

	@Override
	public ProducerRecord onSend(ProducerRecord record) {
		 return record;
	}

	@Override
	public void onAcknowledgement(RecordMetadata metadata, Exception exception) {
		// 统计成功和失败的次数
        if (exception == null) {
            successCounter++;
        } else {
            errorCounter++;
        }
	}

	@Override
	public void close() {
        // 保存结果
        System.out.println("Successful sent: " + successCounter);
        System.out.println("Failed sent: " + errorCounter);
	}
}/<code>

（3）producer主程序

<code>import java.util.ArrayList;
import java.util.List;
import java.util.Properties;
import org.apache.kafka.clients.producer.KafkaProducer;
import org.apache.kafka.clients.producer.Producer;
import org.apache.kafka.clients.producer.ProducerConfig;
import org.apache.kafka.clients.producer.ProducerRecord;

public class InterceptorProducer {

	public static void main(String[] args) throws Exception {
		// 1 设置配置信息
		Properties props = new Properties();
		props.put("bootstrap.servers", "hadoop102:9092");
		props.put("acks", "all");
		props.put("retries", 0);
		props.put("batch.size", 16384);
		props.put("linger.ms", 1);
		props.put("buffer.memory", 33554432);
		props.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");
		props.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");
		
		// 2 构建拦截链
		List interceptors = new ArrayList<>();
		interceptors.add("com.atguigu.kafka.interceptor.TimeInterceptor"); 	interceptors.add("com.atguigu.kafka.interceptor.CounterInterceptor"); 
		props.put(ProducerConfig.INTERCEPTOR_CLASSES_CONFIG, interceptors);
		 
		String topic = "first";
		Producer producer = new KafkaProducer<>(props);
		
		// 3 发送消息
		for (int i = 0; i < 10; i++) {
			
		    ProducerRecord record = new ProducerRecord<>(topic, "message" + i);
		    producer.send(record);
		}
		 
		// 4 一定要关闭producer，这样才会调用interceptor的close方法
		producer.close();
	}
}/<code>

3）测试

（1）在kafka上启动消费者，然后运行客户端java程序。

<code>bin/kafka-console-consumer.sh \
--bootstrap-server hadoop102:9092 --from-beginning --topic first

1501904047034,message0
1501904047225,message1
1501904047230,message2
1501904047234,message3
1501904047236,message4
1501904047240,message5
1501904047243,message6
1501904047246,message7
1501904047249,message8
1501904047252,message9/<code>

Flume对接Kafka

1）配置flume(flume-kafka.conf)

<code># define
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# source
a1.sources.r1.type = exec
a1.sources.r1.command = tail -F -c +0 /opt/module/datas/flume.log
a1.sources.r1.shell = /bin/bash -c

# sink
a1.sinks.k1.type = org.apache.flume.sink.kafka.KafkaSink
a1.sinks.k1.kafka.bootstrap.servers = hadoop102:9092,hadoop103:9092,hadoop104:9092
a1.sinks.k1.kafka.topic = first
a1.sinks.k1.kafka.flumeBatchSize = 20
a1.sinks.k1.kafka.producer.acks = 1
a1.sinks.k1.kafka.producer.linger.ms = 1

# channel
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

# bind
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1/<code>

2）启动kafkaIDEA消费者

3）进入flume根目录下，启动flume

<code>$ bin/flume-ng agent -c conf/ -n a1 -f jobs/flume-kafka.conf/<code>

4）向 /opt/module/datas/flume.log里追加数据，查看kafka消费者消费情况

<code>$ echo hello >> /opt/module/datas/flume.log/<code>

Kafka监控

Kafka Monitor

1.上传jar包KafkaOffsetMonitor-assembly-0.4.6.jar到集群

2.在/opt/module/下创建kafka-offset-console文件夹

3.将上传的jar包放入刚创建的目录下

4.在/opt/module/kafka-offset-console目录下创建启动脚本start.sh，内容如下：

<code>#!/bin/bash
java -cp KafkaOffsetMonitor-assembly-0.4.6-SNAPSHOT.jar \
com.quantifind.kafka.offsetapp.OffsetGetterWeb \
--offsetStorage kafka \
--kafkaBrokers hadoop102:9092,hadoop103:9092,hadoop104:9092 \
--kafkaSecurityProtocol PLAINTEXT \
--zk hadoop102:2181,hadoop103:2181,hadoop104:2181 \
--port 8086 \
--refresh 10.seconds \
--retain 2.days \
--dbName offsetapp_kafka &/<code>

5.在/opt/module/kafka-offset-console目录下创建mobile-logs文件夹

<code>mkdir /opt/module/kafka-offset-console/mobile-logs/<code>

6.启动KafkaMonitor

<code>./start.sh/<code>

7.登录页面hadoop102:8086端口查看详情

Kafka Manager

1.上传压缩包kafka-manager-1.3.3.15.zip到集群

2.解压到/opt/module

3.修改配置文件conf/application.conf

<code>kafka-manager.zkhosts="kafka-manager-zookeeper:2181"/<code>

修改为：

<code>kafka-manager.zkhosts="hadoop102:2181,hadoop103:2181,hadoop104:2181"/<code>

4.启动kafka-manager

<code>bin/kafka-manager/<code>

5.登录hadoop102:9000页面查看详细信息

Kafka Streams

Kafka Streams。Apache Kafka开源项目的一个组成部分。是一个功能强大，易于使用的库。用于在Kafka上构建高可分布式、拓展性，容错的应用程序。

为什么要有Kafka Stream

当前已经有非常多的流式处理系统，最知名且应用最多的开源流式处理系统有Spark Streaming和Apache Storm。Apache Storm发展多年，应用广泛，提供记录级别的处理能力，当前也支持SQL on Stream。而Spark Streaming基于Apache Spark，可以非常方便与图计算，SQL处理等集成，功能强大，对于熟悉其它Spark应用开发的用户而言使用门槛低。另外，目前主流的Hadoop发行版，如Cloudera和Hortonworks，都集成了Apache Storm和Apache Spark，使得部署更容易。

既然Apache Spark与Apache Storm拥有如此多的优势，那为何还需要Kafka Stream呢？主要有如下原因。

第一，Spark和Storm都是流式处理框架，而Kafka Stream提供的是一个基于Kafka的流式处理类库。框架要求开发者按照特定的方式去开发逻辑部分，供框架调用。开发者很难了解框架的具体运行方式，从而使得调试成本高，并且使用受限。而Kafka Stream作为流式处理类库，直接提供具体的类给开发者调用，整个应用的运行方式主要由开发者控制，方便使用和调试。

第二，虽然Cloudera与Hortonworks方便了Storm和Spark的部署，但是这些框架的部署仍然相对复杂。而Kafka Stream作为类库，可以非常方便的嵌入应用程序中，它对应用的打包和部署基本没有任何要求。

第三，就流式处理系统而言，基本都支持Kafka作为数据源。例如Storm具有专门的kafka-spout，而Spark也提供专门的spark-streaming-kafka模块。事实上，Kafka基本上是主流的流式处理系统的标准数据源。换言之，大部分流式系统中都已部署了Kafka，此时使用Kafka Stream的成本非常低。

第四，使用Storm或Spark Streaming时，需要为框架本身的进程预留资源，如Storm的supervisor和Spark on YARN的node manager。即使对于应用实例而言，框架本身也会占用部分资源，如Spark Streaming需要为shuffle和storage预留内存。但是Kafka作为类库不占用系统资源。

第五，由于Kafka本身提供数据持久化，因此Kafka Stream提供滚动部署和滚动升级以及重新计算的能力。

第六，由于Kafka Consumer Rebalance机制，Kafka Stream可以在线动态调整并行度。

Kafka Stream数据清洗案例

0）需求：

实时处理单词带有”>>>”前缀的内容。例如输入”atguigu>>>ximenqing”，最终处理成“ximenqing”

1）需求分析：

2）案例实操

（1）创建一个工程，并添加jar包

（2）创建主类

<code>import java.util.Properties;
import org.apache.kafka.streams.KafkaStreams;
import org.apache.kafka.streams.StreamsConfig;
import org.apache.kafka.streams.processor.Processor;
import org.apache.kafka.streams.processor.ProcessorSupplier;
import org.apache.kafka.streams.processor.TopologyBuilder;

public class Application {

	public static void main(String[] args) {

		// 定义输入的topic
        String from = "first";
        // 定义输出的topic
        String to = "second";

        // 设置参数
        Properties settings = new Properties();
        settings.put(StreamsConfig.APPLICATION_ID_CONFIG, "logFilter");
        settings.put(StreamsConfig.BOOTSTRAP_SERVERS_CONFIG, "hadoop102:9092");

        StreamsConfig config = new StreamsConfig(settings);

        // 构建拓扑
        TopologyBuilder builder = new TopologyBuilder();

        builder.addSource("SOURCE", from)
               .addProcessor("PROCESS", new ProcessorSupplier() {

					@Override
					public Processor get() {
						// 具体分析处理
						return new LogProcessor();
					}
				}, "SOURCE")
                .addSink("SINK", to, "PROCESS");

        // 创建kafka stream
        KafkaStreams streams = new KafkaStreams(builder, config);
        streams.start();
	}
}
（3）具体业务处理
package com.atguigu.kafka.stream;
import org.apache.kafka.streams.processor.Processor;
import org.apache.kafka.streams.processor.ProcessorContext;

public class LogProcessor implements Processor {
	
	private ProcessorContext context;
	
	@Override
	public void init(ProcessorContext context) {
		this.context = context;
	}

	@Override
	public void process(byte[] key, byte[] value) {
		String input = new String(value);
		
		// 如果包含“>>>”则只保留该标记后面的内容
		if (input.contains(">>>")) {
			input = input.split(">>>")[1].trim();
			// 输出到下一个topic
			context.forward("logProcessor".getBytes(), input.getBytes());
		}else{
			context.forward("logProcessor".getBytes(), input.getBytes());
		}
	}

	@Override
	public void punctuate(long timestamp) {
		
	}

	@Override
	public void close() {
		
	}
}/<code>

（4）运行程序

（5）在hadoop104上启动生产者

<code>bin/kafka-console-producer.sh \
--broker-list hadoop102:9092 --topic first

>hello>>>world
/<code>

（6）在hadoop103上启动消费者

<code>bin/kafka-console-consumer.sh \
--zookeeper hadoop102:2181 --from-beginning --topic second

world
hahaha/<code>

Kafka配置信息

Broker配置信息

broker.id：必填参数，broker的唯一标识

log.dirs：默认值：/tmp/kafka-logs。Kafka数据存放的目录。可以指定多个目录，中间用逗号分隔，当新partition被创建的时会被存放到当前存放partition最少的目录。

port：默认值：9092。BrokerServer接受客户端连接的端口号。

zookeeper.connect：Zookeeper的连接串，格式为：hostname1:port1,hostname2:port2,hostname3:port3。可以填一个或多个，为了提高可靠性，建议都填上。注意，此配置允许我们指定一个zookeeper路径来存放此kafka集群的所有数据，为了与其他应用集群区分开，建议在此配置中指定本集群存放目录，格式为：hostname1:port1,hostname2:port2,hostname3:port3/chroot/path 。需要注意的是，消费者的参数要和此参数一致。

message.max.bytes：默认值：1000000。服务器可以接收到的最大的消息大小。注意此参数要和consumer的maximum.message.size大小一致，否则会因为生产者生产的消息太大导致消费者无法消费。

num.io.threads：默认值：8。服务器用来执行读写请求的IO线程数，此参数的数量至少要等于服务器上磁盘的数量。

queued.max.requests：默认值：500。I/O线程可以处理请求的队列大小，若实际请求数超过此大小，网络线程将停止接收新的请求。

socket.send.buffer.bytes

：默认值：100 * 1024。The SO_SNDBUFF buffer the server prefers for socket connections。

socket.request.max.bytes：默认值：100 * 1024 * 1024。服务器允许请求的最大值，用来防止内存溢出，其值应该小于 Java heap size。

num.partitions：默认值：1。默认partition数量，如果topic在创建时没有指定partition数量，默认使用此值，建议改为5。

log.segment.bytes：1024 * 1024 *1024。Segment文件的大小，超过此值将会自动新建一个segment，此值可以被topic级别的参数覆盖。

log.roll.{ms,hours}：默认值：24 * 7 hours。新建segment文件的时间，此值可以被topic级别的参数覆盖。

log.retention.{ms,minutes,hours}：默认值：7 days。Kafka segment log的保存周期，保存周期超过此时间日志就会被删除。此参数可以被topic级别参数覆盖。数据量大时，建议减小此值。

log.retention.bytes：默认值：-1。每个partition的最大容量，若数据量超过此值，partition数据将会被删除。注意这个参数控制的是每个partition而不是topic。此参数可以被log级别参数覆盖。

log.retention.check.interval.ms：默认值：5 minutes。删除策略的检查周期。

auto.create.topics.enable：默认值：5 minutes。自动创建topic参数，建议此值设置为false，严格控制topic管理，防止生产者错写topic。

default.replication.factor：默认值：1。默认副本数量，建议改为2。

replica.lag.time.max.ms：默认值：10000。在此窗口时间内没有收到follower的fetch请求，leader会将其从ISR(in-sync replicas)中移除。

replica.lag.max.messages：默认值：4000。如果replica节点落后leader节点此值大小的消息数量，leader节点就会将其从ISR中移除。

replica.socket.timeout.ms：默认值：30 * 1000。replica向leader发送请求的超时时间。

zookeeper.session.timeout.ms：默认值：6000。ZooKeeper session 超时时间。如果在此时间内server没有向zookeeper发送心跳，zookeeper就会认为此节点已挂掉。此值太低导致节点容易被标记死亡；若太高，.会导致太迟发现节点死亡。

zookeeper.connection.timeout.ms：默认值：6000。客户端连接zookeeper的超时时间。

zookeeper.sync.time.ms：默认值：2000。H ZK follower落后 ZK leader的时间。

controlled.shutdown.enable：默认值：true。允许broker shutdown。如果启用，broker在关闭自己之前会把它上面的所有leaders转移到其它brokers上，建议启用，增加集群稳定性。

delete.topic.enable：默认值：false。启用deletetopic参数，建议设置为true。

Producer配置信息

metadata.broker.list：启动时producer查询brokers的列表，可以是集群中所有brokers的一个子集。注意，这个参数只是用来获取topic的元信息用，producer会从元信息中挑选合适的broker并与之建立socket连接。格式是：host1:port1,host2:port2。

request.required.acks：默认值：0。

request.timeout.ms：默认值：10000。Broker等待ack的超时时间，若等待时间超过此值，会返回客户端错误信息。

producer.type：默认值：sync。同步异步模式。async表示异步，sync表示同步。如果设置成异步模式，可以允许生产者以batch的形式push数据，这样会极大的提高broker性能，推荐设置为异步。

serializer.class：kafka.serializer.DefaultEncoder，序列号类，.默认序列化成 byte[] 。

key.serializer.class：Key的序列化类，默认同上。

partitioner.class：kafka.producer.DefaultPartitioner，Partition类，默认对key进行hash。

compression.codec：默认值：none。指定producer消息的压缩格式，可选参数为： “none”, “gzip” and “snappy”。

compressed.topics：启用压缩的topic名称。若上面参数选择了一个压缩格式，那么压缩仅对本参数指定的topic有效，若本参数为空，则对所有topic有效。

message.send.max.retries：默认值：3。Producer发送失败时重试次数。若网络出现问题，可能会导致不断重试。

queue.buffering.max.ms：默认值：5000。启用异步模式时，producer缓存消息的时间。比如我们设置成1000时，它会缓存1秒的数据再一次发送出去，这样可以极大的增加broker吞吐量，但也会造成时效性的降低。

queue.buffering.max.messages：默认值：10000。采用异步模式时producer buffer 队列里最大缓存的消息数量，如果超过这个数值，producer就会阻塞或者丢掉消息。

queue.enqueue.timeout.ms：默认值：-1。当达到上面参数值时producer阻塞等待的时间。如果值设置为0，buffer队列满时producer不会阻塞，消息直接被丢掉。若值设置为-1，producer会被阻塞，不会丢消息。

batch.num.messages：默认值：200。采用异步模式时，一个batch缓存的消息数量。达到这个数量值时producer才会发送消息。

Consumer配置信息

group.id：Consumer的组ID，相同goup.id的consumer属于同一个组。

zookeeper.connect：Consumer的zookeeper连接串，要和broker的配置一致。

consumer.id：如果不设置会自动生成。

socket.timeout.ms：默认值：30 * 1000。网络请求的socket超时时间。实际超时时间由max.fetch.wait + socket.timeout.ms 确定。

socket.receive.buffer.bytes：默认值：64 * 1024。The socket receive buffer for network requests。

fetch.message.max.bytes：默认值：1024 * 1024。查询topic-partition时允许的最大消息大小。consumer会为每个partition缓存此大小的消息到内存，因此，这个参数可以控制consumer的内存使用量。这个值应该至少比server允许的最大消息大小大，以免producer发送的消息大于consumer允许的消息。

num.consumer.fetchers：默认值：1。The number fetcher threads used to fetch data。

auto.commit.enable：默认值：true。如果此值设置为true，consumer会周期性的把当前消费的offset值保存到zookeeper。当consumer失败重启之后将会使用此值作为新开始消费的值。

auto.commit.interval.ms

：默认值：60 * 1000。Consumer提交offset值到zookeeper的周期。

queued.max.message.chunks：默认值：2。用来被consumer消费的message chunks 数量，每个chunk可以缓存fetch.message.max.bytes大小的数据量。

auto.commit.interval.ms：默认值：60 * 1000。Consumer提交offset值到zookeeper的周期。

queued.max.message.chunks：默认值：2。用来被consumer消费的message chunks 数量，每个chunk可以缓存fetch.message.max.bytes大小的数据量。

分享到:

關鍵字: org apache 中间件

Kafka-on-Pulsar 的前世今生，新秀 Pulsar 到底好在哪？

处理数据超10亿：友信金服基于Flink构建实时用户画像系统的实践

网易大数据平台架构实践分享

整理：在线少儿编程课程总汇！

直到看完阿里大牛的消息中间件笔记，才知道什么叫“深入理解”

RocketMQ全貌解析，阿里不愧是阿里

Kafka如何保证消息的顺序性？消息队列面试必考题之一

Flink的sink实战之三：cassandra3

Java Nio 之高级搬运工(FileChannel)二

三、BinLog与Kafka的良配（maxwell组件）

要做技术选型，数据处理选kafka还是RocketMQ？我彻底蒙了

实战笔记：Kafka是如何实现十几万的海量数据的高并发写入的？

17 个方面，综合对比 Kafka、RabbitMQ、RocketMQ、ActiveMQ

一问Kafka就心慌？我却凭着这份《Kafka源码实战》碾压面试官！

技术选型，不是技术造型

一文读懂kafka集群规划和调优

Kafka 的这些原理你都了解了吗？一文带你吃透Kafka

《人民日报》整理：一读就错的116个汉字，高考生值得注意

《如何阅读一本书》整理

Maxwell和Canal的选型和规划

大数据方面核心技术有哪些

「Linux」零拷贝 - 对Kafka文件系统读写操作的影响和优化

代账“奇才”整理：各行业账务处理大全送你，助你成为完美代账

消息中间件 Kafka

超详细！一文详解 SparkStreaming 如何整合 Kafka！附代码可实践

Kafka 为什么那么快的 6 个原因

2020年各大厂常见面试题 N 道，喜欢就拿去吧！

快速了解 Kafka 生产者的使用和原理

Kafka消息分区

Kafka网络模型基础-Reactor（上）

KafkaConsumer网络模型分析

后端程序员必备技术栈，如何选择合适的消息队列

如何高效选择一款消息队列？

使用 DataFlux 采集 NTPQ 监控指标并展示

使用 DataFlux 采集 Kafka 监控指标并展示

Canal+Kafka实现MySQL与Redis数据同步

大数据框架对比：Hadoop、Storm、Samza、Spark 和 Flink[转]

Kafka 2.2.0基础入门

Kafka很难理解？看这篇用通俗易懂大白话带你认识 Kafka

唯品会实时平台架构-Flink、Spark、Storm

稳定高效MOT通知系统建设的实现与探讨

spring-kafka-2.6.1~1. Preface

Apache Pinot 加 Kafka 的数据架构，应对 PB 级数据分析

kafka高吞吐量之消息压缩

如何保证kafka消息不丢失

985研究生毕业工作两年后，毅然辞去IT程序开发工作，自己旅行

大数据学习路线图【瞧一瞧，看一看了】

Kafka 数据积压情况查看

轻松上手 Spring Boot & Kafka 实战！

进入BAT必备，大数据研发面试总结：Linux+Redis+kafka+Nginx大全

潜逃压力过大暴瘦40多斤，一涉黑A级通缉犯在河北投案自首

记者从河北省公安厅获悉，日前公安部通缉的13名A级通缉犯中的2号通缉犯鲁某某近日向河北邯郸警方投案自首，这是公安部A级通缉令后又一通缉犯主动投案。

当我们在谈 SaaS 的时候，在谈什么？

当我们在谈SaaS 的时候，在谈什么？什么是 SaaSSaaS 优缺点SaaS 销售模式SaaS 产品指标SaaS 业务指标SaaS 收入计算一、什么是 SaaS这个模式让软件变得和水电气很相似，只需要每月缴纳固定的费用即可享受服务。

合同诈骗的类型有哪些？企业无力偿还借款是否构成合同诈骗罪？

现阶段，随着国家供给侧结构性改革的不断深入，人们在市场中的互易行为日益频繁，合同在经济活动发挥的作用也日渐凸显。

5月西安招聘会时间安排来了！找工作的别错过

乘车路线:西安市内乘坐12路、14路、14路区间、26路、215路、215路区间、216路、224路、229路、239路、31路、36路、321路、323路、521路、600路、603路、616路、701路、704路、709路、教育专线、K605路、K616路、游6路、游8路61

刚刚工作的毕业生，一个月只有2000多，是不是太少了？

刚刚:刚刚工作的毕业生，一个月只有2000多，是不是太少了？根据你城市消费水平来看啊，还有你从事的工作，假如你在二三线城市做一份事业单位或者是编制类的工作，薪资水平是随着你工作年限逐年增长的，而且在年终也有很多福利补贴待遇等等，算下来收入也是可观的，再举一个例:-毕业生 2000

全球闹「美元荒」带动稳定币需求暴增！以太坊交易量创近两年新高

基于以太坊区块链的主要稳定币包括：Tether、TrueUSD、GeminiDollar、Paxos Standard、Binance USD、USD Coin、Huobi USD和MakerDAO等。

“帮助当地居民解决用水难题”-今日头条-手机光明网

晨曦初露，9岁的米格尔和弟弟妹妹们抱着水罐，穿过一片田野，到达安哥拉首都罗安达郊区的指定取水点。葛洲坝安哥拉有限公司市场部负责人刘世轩介绍说，公司每天派出送水车两次，一次3车，将洁净水从罗安达水厂直接运往指定取水点。

灌篮高手无水印壁纸，每一张都是回忆

那些年，我们追过的灌篮高手，你更喜欢谁呢？流川枫樱木花道赤木刚宪宫城良田三井寿你喜欢哪个球员呢？欢迎评论区留言。

通辽蓝天救援队成功解救辽河公园水上被困群众

2020年5月1日，通辽蓝天救援队假期例行在辽河公园水域进行安全巡逻任务，下午15时10分，巡逻队员发现辽河水面有被困群众向巡逻船只求救，接到求救信号后，巡逻队员紧急前往事故现场展开研判、救援准备工作。

5月6日·武汉要闻及抗击肺炎快报

今天零时起高速公路恢复收费了，这些车辆还能免费5月6日零时起全国高速公路恢复收费在武汉北收费站ETC和人工车道全部可通行零时左右通过收费站的车辆并不多以大货车为主有工作人员在一旁引导货车进入高速收费站前要通过入口称重检测车道进入没有超重超限便可顺利通过现场没有出现排队的现象全省联

肖副省长等省市领导到孝感市楚澴中学调研九年级复学暨疫情防控常态化工作

2020年4月29日下午，肖副省长等省市领导来到孝感市楚澴中学调研九年级复学暨疫情防控常态化工作，肖副省长等省市领导在学校领导陪同下，重点对校门口出入、保健室、教室、学生心理辅导室、洗手池等进行了非常细致的检查，对孝感市楚澴中学的复学和疫情防控工作给予充分的肯定。

相声界的颜值担当张云雷称号大揭秘

这个播放量就连师傅身为相声演员的张云雷却有着堪比娱乐圈小鲜肉的颜值，一个相声演员长成这样，张云雷不火谁能火。

美国百年薅羊毛攻略

当德国向法军阵地倾泄400多万发炮弹，扬言要让凡尔登成为「碾碎法军的绞肉机」时，远在大西洋的美国人。

《全职高手》：一口气刷了10集，对杨洋路转粉了

近日，由杨洋、江疏影主演的剧版《全职高手》在腾讯视频正式开播了，该剧改编自蝴蝶蓝同名小说，先前还被改编成动画版。

共同承担责任！Rookie谈BP问题：输了是我们打得太臭

前言：IG这只老牌战队在我们LPL赛区以来都拥有着非常高的人气，特别是在2018年之后，他们帮助我们LPL赛区夺得了第一个宝贵的S赛世界冠军，而IG战队的打法一直以来也是非常有观赏性的。

LOL"中韩对抗赛"遭选手反对？Zoom直言不想打，Doinb的回答太真实

Doinb表示："可以的话我不想参加，首先这场比赛没有任何意义，获得胜利既不会有奖金也不会有荣誉，但万一输掉比赛FPX就会成为大家吐槽的焦点"。

李亚鹏携李嫣出席慈善晚会，李嫣手上钻戒抢镜，1个动作获夸赞！

大家都知道天后王菲和前夫李亚鹏他们育有一个女儿，名叫李嫣。于是李嫣因为偷偷的开了直播从而也导致了她被大家所发现，但李嫣的乐观和开朗却也让李亚鹏放下心来，决定放飞女儿，让她自由的去探索她想要的世界。

53岁郭富城再度升级当爸，方媛怀二胎，Chant要做姐姐了

天王郭富城近日参加活动，首度承认妻子方媛怀有二胎的消息。从去年2017年两人结婚，低调的爱情让媒体都捕捉不到边际，天王嫂31岁两人相差了20岁的爱恋，始终不少人不看好啊。

那些拼命的演员：王宝强喝了一大桶牛奶，孙俪吃10斤瓜子

演员在我们眼中一直都是光鲜亮丽、收入颇高的职业，并且现在有很多靠流量跻身一线，却毫无演技以及实力的演员。

贾乃亮用上了“一米阳光”这个词，他依然渴望拥有美丽的爱情！

曾经贾乃亮是“阳光”的代名词，大家看到他都觉得很暖，只不过后来就不是了。今天早上，他发了一条微博“人生的美好就是每天醒来都能看到上帝赐予我的那一米阳光”，这句话当中，贾乃亮用到了“一米阳光”这个词。

搞笑GIF开心一刻：我的老家农村，有妹子愿意嫁给我吗？

当一名理发师也不容易这是一只有航天梦想的老鼠宝宝！什么？这么贵！把我卖了得了。小朋友，你赢了，我甘拜下风！

为什么只有edg赚钱？

电竞行业作为一个新兴产业，这几年发展势头越来越好，IG战队，FPX战队先后夺得了s8-s9世界赛的冠军，据俱乐部知情人士透露，除了国内的几家豪门俱乐部之外，其他俱乐部基本都是亏钱在做的，当然EDG也是:-edg 赚钱:为什么只有edg赚钱？

程潇身材多好？双腿劈叉才明白，这才是“腿精”

程潇可谓是才女，她是中韩宇宙少女的成员之一，今年她只有20岁。不要看程潇年纪比较小，但是她身材还是挺好的，身材也是典型S型曲线，魅力不小。

张柏芝承认三胎产子，否认小伙的老爸是孙东海，看来她选择保密

张柏芝是许多80后90后心目中的女神，除了颜值高有演技外，她和谢霆锋的婚姻和恋情也曾是吃瓜群众津津乐道的事。

T1战队抢注Faker商标，“囊括多个领域产品，商业潜力媲美乔丹”

前言：目前各大赛区的春季赛都已经结束了，T1战队在重组之后再度拿下了lck赛区的冠军，这让很多的玩家非常意外，这也从侧面反映出来了，核心选手和主教练的个人能力，同时faker的实力再度被玩家们认可，最近一段时间他也是一直在直播，很多的人都在询问，今年李哥的目标是什么？

云顶之弈“最不平衡的版本”诞生，全员抢一费卡，运气成吃鸡关键

上线之后迅速引发了大量玩家的好评，就在最近，官方也是迎来了10.9版本，可是在目前的版本中再度出现了太多的畸形玩法了，应该是有史以来最不平衡的版本，因为一费卡的爆率大大提升，导致游戏成为了三星的天下，全员抢一费卡，运气成为吃鸡的关键。

LPL春季赛"6宗最"：Uzi最遗憾，阿水最惊喜，V5最离谱

在本期节目中会评选出一位最美丽LPL女解说，其中瞳夕、Rita、余霜等都在名单之中，最有趣的是管泽元居然也出现在了“女解说”名单中，全因余霜一张P过的照片，论梗的话，管泽元第一，若是轮颜值，估计这也排不上名次。

雷佳音被问：跟佟丽娅拍那么多亲热戏是啥感受？他的回答笑翻众人

不过要是像唐嫣和罗晋那样用公费谈恋爱的故事不多，大多数还是和不是心爱的人拍得多，但要是遇上岳云鹏和佟丽娅拍亲热戏的话，那个画面或许大家想象不出来吧。

JDG成最“惨”冠军战队？拿到LPL冠军人气依旧低迷，TES成赢家！

LPL赛区的春季赛结束也有一段时间了，作为冠军战队JDG，并没有因为拿到冠军而出现“人气”的高涨，依旧平平淡淡，熟悉LPL赛区的玩家都知道，在LPL赛区中，一直以来都是由RNG、IG、EDG三家从“远古”时期就开始统治LPL赛区，期间也有OMG和LGD、WE几个战队打破了这个规律

#战疫必胜#“症和状”都有了，我与新冠擦肩而过

学习结束，回到家后，在武大短暂学习的那段时光时常让我怀念，并曾立下誓言，抽个暑假一定要带着老婆孩子一起去“逛”武大。机会就这么悄然而至！2019年第28届世界脑力锦标赛全球总决赛的举办地就是武汉，比赛的日期是12月6日到8日，三天的时间。其实，我也没有想到第一次参加这样比赛的女儿

T1提议中韩友谊赛，但LPL队伍都不想参加？理由其实很简单

这不今天就有网友在论坛中聊起了这个话题，有网友表示“LPL队伍其实都不想参加中韩友谊赛，LPL队伍才刚结束春季赛，18天之后就要打夏季赛了，像IG可能会有人员变动FPX TES 应该也会利用这段时间来检讨分析，也许只有JDG 比较愿意参加，doinb只是第一表态的选手，可能还有很

网友投稿：光山县泼陂河镇至白雀园镇的X015县道德两座坏桥经过5个月的等待终于开修啦#光山 #信阳

网友投稿：光山县泼陂河镇至白雀园镇的X015县道德两座坏桥经过5个月的等待终于开修啦#光山 #信阳，于2020年04月28日上线，由信阳本地联盟上传。西瓜视频为您提供高清视频，画面清晰、播放流畅，看丰富、高质量视频就上西瓜视频。

2020最佳韩剧追起来~《爱的迫降》仅排名第二，TOP 1绝对实至名归

TOP20 - 「优雅的家」这部由林秀香、李章宇、裴宗玉等人所主演的《优雅的家》，当时一播出就引起不少话题，虽然剧情有点浮夸，但却莫名好看，而当时该剧还刷新了MBN电视台的记录呢~《优雅的家》主要讲述一位拥有完美外貌和身材的MC集团独生女毛硕熙，为了查明15年母亲去世的真相，因此

搞笑GIF开心一刻：我正在睡觉，谁敢打扰我

我这暴脾气，等你剥完我能吃五个你带着你家猫去做演员吧！这猫太有前途了！这是我见过最牛的啦啦队！自从有了弟弟，老大就和家务结缘了狼狗：要不是主人在，我非吃了你两个小子！

备考消防的几大错觉，你有这个情况吗？

讲真，很多时候我们会把事情想当然，并因为这些错觉而采取错误的举动，一消备考是一场毅力和心智的战斗，大家难免会产生一些错觉，从而影响自己的备考效率，甚至导致备考失败。

“顶流”李敏镐哑火，渣男出轨剧出圈，韩剧观众也长大了？

豆瓣开分8.3，渐渐跌到7.7分，热门短评写道：“同样是金编，差距怎么这么大”、“看了四集节奏真的是一团糟，比起隔壁《夫妻的世界》真的差一大截”。

网上罗马仕充电宝20000毫安的，参数怎么很多样？哪个是真的？

20000:网上罗马仕充电宝20000毫安的，参数怎么很多样？哪个是真的？天猫旗舰店，或者淘宝旗舰店，或者京东旗舰店肯定包真，质量好，再说可以官方验证啊，不能图那十块五块的便宜，毕竟一个充电宝要用好久呢，一两年没问题的。:-罗马仕马仕毫安

应急科普丨“五一” 期间气温回升谨防森林火灾隐患

随着“五一”期间气温大幅回升全国大部分地区已经进入初夏在享受小长假春日美景的同时森林火险等级也随之明显提升新疆森林消防提示您春季气温回升快野外草木干燥你的一个失当用火行为就有可能引发森林大火勿念葱林繁似海一星燃尽只尘埃

搞笑GIF开心一刻：拍照啦，赶紧看镜头

弟弟：姐姐你能利索点吗家里有个熊孩子，说实话心很累同学感觉你好可伶，一个人跳舞多尴尬啊！看我病好了怎么收拾你们！真的是以迅雷不及掩耳之势啊。姑凉，你……掉毛啊！小姐姐你是想找男朋友吗用这样的方式，结局很意外此处注意安全！

工程发承包、工程造价条款，或迎来大调整

第二章建设规划与设计第一节建设规划第八条建设规划的体系第九条建设规划的编制与审批第十条建设规划的内容第十一条建设规划的实施与评估第二节城市设计第十二条城市设计的基本要求第十三条城市设计的编制和审批第十四条城市设计的实施和管理第三节建筑设计第十五条建筑设计的基

新增四省！关于2019年一级建造师考试证书、复核发布公告

快来看看吧~青海关于恢复专业技术人员职业资格证书的发放、补办工作的通知各位考生：随着疫情防控进入常态化，青海省新冠疫情得到有效控制，专业技术人员职业资格证书的印制、发放工作正在逐步恢复，为方便广大考生办理证书业务，4月28日起青海省人力资源和社会保障服务中心一楼大厅65、66号办

学霸也会复读？朱广权这个圈粉无数的国民段子手是如何炼成的！

“烟笼寒水月笼沙，不止东湖与樱花，门前风景雨来佳，莲藕鱼糕玉露茶，凤爪藕带热干面，米酒香菇小龙虾，守住金莲不自夸，赶紧下单买回家，买它买它就买它，热干面和小龙虾。”

幸福的人，总会忘记旧爱

幸福从来不可能是有个人帮你搞定所有的一切，而你只需要坐享其成。她喜欢喝银耳莲子羹而且必须是上好的银耳，用小火慢慢炖到砧稠那一日，他去看她，她冷冷地从屋里走出来，丢给他一本书.对他说:"厨房里小锅炖着东西，你帮我去看看。”他真真地守了一个多小时，端到她面前。

真人芭比：一直说自己“没整容”最后晒出旧照，打脸的却是自己

俗话说的好“爱美之心人人都有”而让自己快速变美的方法无疑就是“整容”如今的社会整容看起来似乎很平常。

惊了！这件事没有做，一消证书等于白考！

不要慌，同学们，遇到问题不要怕，拿到证书不去注册，相当于证书无效，今天就为大家一一解答注册证书的相关问题。

8年后，有哪些人会留在农村生活？以下4类人群或将留下，有你吗

从九十年代末开始，在我国农村地区就兴起了一股“进城潮”，记得那个时候，农村的经济发展相对滞后，村民生活条件艰苦，乡亲们为了摆脱贫困，只能告别亲人，远离家乡去外面打拼赚钱。

唯一回绝张艺谋力捧的女生，被报送上清华，25岁有上百亿身家

25岁有上百亿身家文/娱乐深扒爆姐图/网络张艺谋是一位非常有实力的导演，同时非常出名，而且他拍摄的作品中有不少获奖无数的经典影片，同时也捧红过不少艺人。

疫情下的悲剧：买不起手机上网课，那个女孩决定吞药自杀

有人为了生计不顾自身安危，有人躲在家中安然度日，还有人仅仅因为一个手机，就要放弃自己的生命...这个女孩，今年上初三，因为疫情的原因，全国各地都展开了网课线上教育，女孩的学校也不例外。

李栋旭刘仁娜新剧开拍，互对台词欢乐多，终于要开始撒狗粮了吗？

这部剧是2016年年底播出的，热度一直持续到了2017年，相关的周边和景点都相当热门，像是池恩卓跟鬼怪大叔相遇的海边、剧中出现的鬼怪玩偶、还有鬼怪大叔的拔剑特效等等。

高考延期：七月的高考，最热的天，做最难的题！

后来，由于7月份气候较差，极端天气频发，尤其是南方地区，要么极端高温，要么就是台风，对于高考来说非常不友好，不仅考生的考试质量会下降，而且阅卷老师、高考工作者也不方便，因此，从2003年开始，高考日期都固定在了每年的6月7日、8日。