(资料图片)
Checkpoint与BarrierFlink是一个有状态的流处理框架,因此需要对状态做持久化,Flink定期保存状态数据到存储空间上,故障发生后从之前的备份中恢复,这个过程被称为Checkpoint机制。而Checkpoint为Flink提供了Exactly-Once的投递保障。
流处理是一个数据不断输入的过程,为了更好更方便的快照,需要将数据进行分批分段;而Barrier(栅栏)就是做这个事情,它将数据流分段,在进行Checkpoint的时候Flink会在数据流源头处周期性地注入Barrier,这些Barrier会作为数据流的一部分,一起流向下游节点并且不影响正常的数据流。Barrier的作用是将无界数据流从时间上切分成多个窗口,每个窗口对应一系列连续的快照中的一个,每个Barrier都带有一个快照ID,一个Barrier生成之后,在这之前的数据都进入此快照,在这之后的数据则进入下一个快照。如图所示,当ID为n的Checkpoint Barrier到达每个算子后,表示要对n-1和n之间状态更新做Snapshot。
Connector与端到端的Exactly-Once保障一个完整的Flink作业包括Source和Sink两大模块,Source和Sink肩负着Flink与外部系统进行数据交互的重要功能,它们又被称为外部连接器(Connector)。Flink的Checkpoint过程保证了一个作业内部的数据一致性,主要是因为Flink对如下两类数据做了备份。
作业中每个算子的状态。输入数据的偏移量Offset。端到端的Exactly-Once问题是分布式系统领域最具挑战性的问题之一,很多系统都在试图攻克这个问题。在这个问题上,Flink内部状态的一致性主要依赖Checkpoint机制,外部交互的一致性主要依赖Source和Sink提供的功能。Source需要支持重发功能,Sink需要采用一定的数据写入技术,比如幂等写或事务写。
Source重发对于Source重发功能,如图7-1所示,只要我们记录了输入的偏移量Offset,作业重启后数据发送方根据该Offset重新开始发送数据即可。Kafka的Producer除了发送数据,还能将数据持久化写到日志文件中。如果下游作业重启,Kafka Producer根据下游作业提供的Offset,从持久化的日志文件中定位到数据,可以重新开始向下游作业发送数据。
Sink幂等写幂等写(Idempotent Write)是指,任意多次向一个系统写入数据,只对目标系统产生一次结果影响。
事务(Transaction)是数据库系统所要解决的核心问题。Flink借鉴了数据库中的事务处理技术,同时结合自身的Checkpoint机制来保证Sink只对外部输出产生一次影响。
简单概括,Flink的事务写(Transaction Write)是指,Flink先将待输出的数据保存下来,暂时不向外部系统提交;等到Checkpoint结束,Flink上、下游所有算子的数据都一致时,将之前保存的数据全部提交到外部系统。换句话说,只有经过Checkpoint确认的数据才向外部系统写入。如图所示,在数据重发的例子中,如果使用事务写,那只把时间戳3之前的输出提交到外部系统,时间戳3以后的数据(例如时间戳5和8生成的数据)先被写入缓存,等得到确认后,再一起提交到外部系统。这就避免了时间戳5的数据多次产生输出,并多次提交到外部系统。
在事务写的具体实现上,Flink目前提供了两种方式:预写日志(Write-Ahead-Log,WAL)和两阶段提交(Two-Phase-Commit,2PC)。这两种方式也是很多数据库和分布式系统实现事务时经常采用的方式,Flink根据自身的条件对这两种方式做了适应性调整。这两种方式的主要区别在于:Write-Ahead-Log方式使用Operator State缓存待输出的数据;如果外部系统自身支持事务,比如Kafka,就可以使用Two-Phase-Commit方式,待输出数据被缓存在外部系统。
-
聊聊Flink必知必会(二)Checkpoint与BarrierFlink是一个有状态的流处理框架,因此需要对状
-
电脑网速很慢怎么可以调快_电脑网速慢怎么提速1、您好,您可以尝试使用电脑救援的自助工具进行处理。2、操作步骤:1
-
新能源汽车下乡,重在满足需求新能源汽车下乡,重在满足需求
-
如何分享打印机到另一台电脑 如何分享打印机-最新资讯1、实现两台打印机或者是多台打印机共享要实现两台打印机或者是多台打
-
她为娃读书搬到新加坡,才知道这里更卷,只有5%的人能直通大学 天天快资讯看点 为了孩子的教育,越来越多的城市中产“迁徙”至不同的城市,
-
世界资讯:女干部被上司副检察长灌醉?绍兴市官方:已处分浙江省绍兴市柯桥区人民政府新闻办公室12日通报,近日,一张实名举报柯
-
张艺兴后,白敬亭工作室也向粉丝致歉,被指太依赖粉丝不得不低头曾舜晞这边也闹了挺长时间,早在6月7日左右,他的后援会和反黑站就已经
-
【环球时快讯】听30分钟歌会耗费多少流量 ting301、成龙,国际功夫电影巨星。2、解析:这是一个比较有趣的猜人名谜语;
-
紧急澄清!光伏高管在德被带走多有不实!政策支持+空间广阔,充电桩建设获积极推动,多股外资大幅持有需求缺口尚在,充电桩有望迎来黄金发展期。光伏协会紧急发布澄清公告6
-
国检集团(603060):6月12日北向资金减持2.57万股 世界速看料6月12日北向资金减持2 57万股国检集团。近5个交易日中,获北向资金减持
-
平安面孔丨王瑶:用每一笔理赔实现“省心省时又省钱” 天天新消息平安面孔丨王瑶:用每一笔理赔实现“省心省时又省钱”,产险,车险,意外
-
日均2500人打卡“大地之子:瓜州戈壁国际雕塑艺术长廊实力“圈粉“|滚动距离甘肃瓜州城南20公里的戈壁上,一座高4 3米、长15米、名为“大地之
-
6月12日基金净值:惠升和悦债券A最新净值1.0151-世界热闻6月12日,惠升和悦债券A最新单位净值为1 0151元,累计净值为1 5973元,
-
安徽省白湖农场集团有限责任公司1、安徽省白湖农场集团有限责任公司于1998年09月02日在庐江县市场监督
-
信达地产(600657.SH)2022年度拟每股派0.04元 6月21日除权除息智通财经APP讯,信达地产(600657)(600657 SH)发布公告,公司本次利润分
-
四叶草种子怎么种最快发芽 四叶草种子 世界新动态1、如果你指的是由三叶草基因突变形成的四叶草,那么是无法获得种子的
-
诺亚控股将于7月14日或前后派发末期股息每股5.5元诺亚控股(06686)发布公告,该公司将于2023年7月14日或前后派发截至2022
-
360浏览器原来的收藏恢复不见了怎么办_360浏览器收藏夹内容恢复1、打开360安全浏览器,点击左上角的收藏 2 点击备份与还原 3、
-
安徽省文胜生物工程股份有限公司1、安徽省文胜生物工程股份有限公司于1996年12月10日成立。2、法定代表
-
环球速读:秦始皇弟弟叫什么名字(秦始皇之弟怎么死的)来为大家解答以上问题。秦始皇弟弟叫什么名字,秦始皇之弟怎么死的这个
-
西安博爱学校小学部社团验收活动-焦点关注为丰富校园文化建设,展示学生社团成果,彰显学校课程特色,近日,西安
-
中国最大汽车城_中国最大汽车城在哪啊想必现在有很多小伙伴对于中国最大汽车城在哪啊方面的知识都比较想要了
-
按摩椅出现虫子?最新回应_焦点热闻日前,有网友在社交媒体上发视频表示,自己坐在广州南站的按摩椅上,突
-
47辆苏州金龙豪华客车再次进军西安高端通勤市场!-热点改革开放以来中国引进的单笔投资额最大的外商投资项目之一。截至2022年
-
成都天空出现“不明发光体” 科普博主:或为“暖夜灯柱”-当前速看成都天空出现“不明发光体”科普博主:或为“暖夜灯柱”,原标题:成都
-
steam加不了好友错误代码100_steam加不了好友错误代码118_当前速递1、这几天都这样,过段时间就好啦,我也这样不知道怎么回事。2、吃鸡pc
-
今日黄金期货价格实时行情(2023年6月12日)今日黄金期货价格实时行情(2023年6月12日)
-
今日125只个股突破半年线 当前视点证券时报•数据宝统计,截至今日上午收盘,上证综指3222 35点,收于半
-
海淀警方:一人抢车闯入某中学校园劫持学生,学生已获救2023年6月12日7时许,一男子驾车强行进入海淀区某中学校园内,下车挟持
-
世界快报:快消息!当前要闻:网上选了车牌号还能去车管所再选吗(网上选车牌号和去车管所有什么区别?) 今日关注|天天热文 天天百事通导读相信大家对网上选了车牌号还能去车管所再选吗,网上选车牌号和去车