云计算大数据培训之Spark-Streaming的基本原理以及预写日志机制和checkpoint（2）

更新时间:2017-09-01 来源:黑马程序员云计算大数据培训学院浏览量:

有两种数据需要被进行checkpoint：

1.元数据checkpoint—-将定义了流式计算逻辑的信息，报错到容错的存储系统上，比如HDFS
当运行Spark—Streaming应用程序的Driver进程所在的节点失败时，该信息可以用于进行恢复。
元数据信息包括了：
1.1：配置信息—创建Spark-Streaming应用程序的配置信息，比如SparkConf
1.2：DStream的操作信息—-定义了Spark-Stream应用程序的计算逻辑的DStream操作信息
1.3：未处理的batch信息—-哪些job正在排队，还没处理的batch信息。

2.数据checkpoint—将实时计算过程中产生的RDD的数据保存到可靠的存储系统中
对于一些将多个batch的数据进行聚合的，有状态的transformation操作，这是非常有用的，
在这种tranformation操作中，生成的RDD是依赖与之前的batch的，这会导致随着时间的推移，Rdd的依赖
链条越来越长，要避免由于依赖链条越来越长，导致一起变得越来越长的失败恢复时间，有状态的transformation
操作执行过程中间产生的RDD，会定期的被checkpoint盗可靠的存储系统上,比如HDFS,从而削减RDD的依赖链条，进而缩短失败恢复时，
RDD的回复时间

本文版权归黑马程序员云计算大数据培训学院所有，欢迎转载，转载请注明作者出处。谢谢！
作者：黑马程序员云计算大数据培训学院
首发：http://cloud.itheima.com/

全国中心

热门课程

云计算大数据培训之Spark-Streaming的基本原理以及预写日志机制和checkpoint（2）

最新资讯

相关阅读

热门课程推荐