flink如何利用checkpoint保证数据状态一致性

news/发布时间2024/5/16 8:14:51

flink数据状态一致性

  • 1状态一致性级别
    • 1.1 AT-MOST-ONCE (最多一次):
    • 1.2 AT-LEAST-ONCE (至少一次):
    • 1.3 EXACTLY-ONCE (精确一次):
    • 1.4 分布式快照与至少一次事件传递和重复数据删除的比较
  • 2flink内部实现状态一致性
  • 3 端到端的一致性
    • 3.1 Source
    • 3.2 Sink
      • 3.2.1 幂等写入
      • 3.2.2 事务写入
        • 3.2.2.1 两阶段提交
        • 3.2.2.2 flink的两阶段提交

1状态一致性级别

1.1 AT-MOST-ONCE (最多一次):

  • 这本质上是一『尽力而为』的方法。保证数据或事件最多由应用程序中的所有算子处理一次。 这意味着如果数据在被流应用程序完全处理之前发生丢失,则不会进行其他重试或者重新发送。下图中的例子说明了这种情况。
    在这里插入图片描述

1.2 AT-LEAST-ONCE (至少一次):

  • 应用程序中的所有算子都保证数据或事件至少被处理一次。这通常意味着如果事件在流应用程序完全处理之前丢失,则将从源头重放或重新传输事件。然而,由于事件是可以被重传的,因此一个事件有时会被处理多次,这就是所谓的至少一次。

下图的例子描述了这种情况:第一个算子最初未能成功处理事件,然后在重试时成功,接着在第二次重试时也成功了,其实是没有必要的。

在这里插入图片描述

1.3 EXACTLY-ONCE (精确一次):

即使是在各种故障的情况下,流应用程序中的所有算子都保证事件只会被『精确一次』的处理。(也有文章将 Exactly-once 翻译为:完全一次,恰好一次)

通常使用两种流行的机制来实现『精确一次』处理语义。

  • 分布式快照 / 状态检查点
  • 至少一次事件传递和对重复数据去重

实现『精确一次』的分布式快照/状态检查点方法受到 Chandy-Lamport 分布式快照算法的启发[1]。通过这种机制,流应用程序中每个算子的所有状态都会定期做 checkpoint。如果是在系统中的任何地方发生失败,每个算子的所有状态都回滚到最新的全局一致 checkpoint 点。在回滚期间,将暂停所有处理。源也会重置为与最近 checkpoint 相对应的正确偏移量。整个流应用程序基本上是回到最近一次的一致状态,然后程序可以从该状态重新启动。下图描述了这种 checkpoint 机制的基础知识。

在这里插入图片描述
在上图中,流应用程序在 T1 时间处正常工作,并且做了checkpoint。然而,在时间 T2,算子未能处理输入的数据。此时,S=4 的状态值已保存到持久存储器中,而状态值 S=12 保存在算子的内存中。为了修复这种差异,在时间 T3,处理程序将状态回滚到 S=4 并“重放”流中的每个连续状态直到最近,并处理每个数据。最终结果是有些数据已被处理了多次,但这没关系,因为无论执行了多少次回滚,结果状态都是相同的。

另一种实现『精确一次』的方法是:在每个算子上实现至少一次事件传递和对重复数据去重来。使用此方法的流处理引擎将重放失败事件,以便在事件进入算子中的用户定义逻辑之前,进一步尝试处理并移除每个算子的重复事件。此机制要求为每个算子维护一个事务日志,以跟踪它已处理的事件。利用这种机制的引擎有 Google 的 MillWheel[2] 和 Apache Kafka Streams。下图说明了这种机制的要点。

在这里插入图片描述

这里所说的的状态一致性是flink系统内部的状态,如果要保证端到端,从接受到发出数据都保障一致性,还需要其他系统能力支持,这部分后面说。

绝大多数情况我们会希望exactly-once,但相比at-least-once,exactly-once的性能与速度会相对较慢一点,这是由于checkpoint的机制造成的。

我们主要关注的是精确一致性,所以在这里我们也只讲精确一致性相关的概念。

我们所说的flink内的精确一致性,真的是精确的只发送一次数据么?

现在让我们重新审视『精确一次』处理语义真正对最终用户的保证。『精确一次』这个术语在描述正好处理一次时会让人产生误导。

有些人可能认为『精确一次』描述了事件处理的保证,其中流中的每个事件只被处理一次。实际上,没有引擎能够保证正好只处理一次。在面对任意故障时,不可能保证每个算子中的用户定义逻辑在每个事件中只执行一次,因为用户代码被部分执行的可能性是永远存在的。

那么,当引擎声明『精确一次』处理语义时,它们能保证什么呢?如果不能保证用户逻辑只执行一次,那么什么逻辑只执行一次?当引擎声明『精确一次』处理语义时,它们实际上是在说,它们可以保证引擎管理的状态更新只提交一次到持久的后端存储。

上面描述的两种机制都使用持久的后端存储作为真实性的来源,可以保存每个算子的状态并自动向其提交更新。对于机制 1 (分布式快照 / 状态检查点),此持久后端状态用于保存流应用程序的全局一致状态检查点(每个算子的检查点状态)。对于机制 2 (至少一次事件传递加上重复数据删除),持久后端状态用于存储每个算子的状态以及每个算子的事务日志,该日志跟踪它已经完全处理的所有事件。

提交状态或对作为真实来源的持久后端应用更新可以被描述为恰好发生一次。然而,如上所述,计算状态的更新 / 更改,即处理在事件上执行任意用户定义逻辑的事件,如果发生故障,则可能不止一次地发生。换句话说,事件的处理可以发生多次,但是该处理的效果只在持久后端状态存储中反映一次。因此,我们认为有效地描述这些处理语义最好的术语是『有效一次』(effectively once)。

1.4 分布式快照与至少一次事件传递和重复数据删除的比较

从语义的角度来看,分布式快照和至少一次事件传递以及重复数据删除机制都提供了相同的保证。然而,由于两种机制之间的实现差异,存在显着的性能差异。

  • 机制 1(分布式快照 / 状态检查点)的性能开销是最小的,因为引擎实际上是往流应用程序中的所有算子一起发送常规事件和特殊事件,而状态检查点可以在后台异步执行。但是,对于大型流应用程序,故障可能会更频繁地发生,导致引擎需要暂停应用程序并回滚所有算子的状态,这反过来又会影响性能。流式应用程序越大,故障发生的可能性就越大,因此也越频繁,反过来,流式应用程序的性能受到的影响也就越大。然而,这种机制是非侵入性的,运行时需要的额外资源影响很小。

  • 机制 2(至少一次事件传递加重复数据删除)可能需要更多资源,尤其是存储。使用此机制,引擎需要能够跟踪每个算子实例已完全处理的每个元组,以执行重复数据删除,以及为每个事件执行重复数据删除本身。这意味着需要跟踪大量的数据,尤其是在流应用程序很大或者有许多应用程序在运行的情况下。执行重复数据删除的每个算子上的每个事件都会产生性能开销。但是,使用这种机制,流应用程序的性能不太可能受到应用程序大小的影响。对于机制 1,如果任何算子发生故障,则需要发生全局暂停和状态回滚;对于机制 2,失败的影响更加局部性。当在算子中发生故障时,可能尚未完全处理的事件仅从上游源重放/重传。性能影响与流应用程序中发生故障的位置是隔离的,并且对流应用程序中其他算子的性能几乎没有影响。从性能角度来看,这两种机制的优缺点如下。

分布式快照 / 状态检查点的优缺点:

  • 优点:
    • 较小的性能和资源开销
  • 缺点:
    • 对性能的影响较大
    • 拓扑越大,对性能的潜在影响越大

至少一次事件传递以及重复数据删除机制的优缺点:

  • 优点:
    • 故障对性能的影响是局部的
    • 故障的影响不一定会随着拓扑的大小而增加
  • 缺点:
    • 可能需要大量的存储和基础设施来支持
    • 每个算子的每个事件的性能开销

虽然从理论上讲,分布式快照和至少一次事件传递加重复数据删除机制之间存在差异,但两者都可以简化为至少一次处理加幂等性。对于这两种机制,当发生故障时(至少实现一次),事件将被重放/重传,并且通过状态回滚或事件重复数据删除,算子在更新内部管理状态时本质上是幂等的。

2flink内部实现状态一致性

从我另一篇文章
Flink checkpoint具体操作流程详解与报错调试方法汇总

中有详细的阐述了,flink内checkpoint的执行流程,这里就不展开讲了,对这部分知识有了解的读者应该清楚,节点做checkpoint的快照部分前是同步的,也就是,这个节点会等待所有上游并发节点的 checkpoint barrier全部到来才会发出做快照的命令,之后才是异步做快照的阶段。
在这里插入图片描述
在我们程序处理中通常要求能够满足Exactly once语义,保证数据的准确性,flink 通过checkpoint机制提供了Exactly-Once与At-Least-Once 两种不同的消费语义实现, 可以将程序处理的所有数据都保存在状态内部,当程序发生异常失败重启可以从最近一次成功checkpoint中恢复状态数据,通过checkpoint中barrier对齐机制来实现这两不同的语义,barrier对齐发生在一个处理节点需要接收上游不同处理节点的数据,由于不同的上游节点数据处理速度不一致,那么就会导致下游节点接收到 barrier的时间点也会不一致,这时候就需要使用barrier对齐机制:在同一checkpoint中,先到达的barrier是否需要等待其他处理节点barrier达到后在发送后续数据,barrier将数据流分为前后两个checkpoint(chk n,chk n+1)的概念,如果不等待那么就会导致chk n的阶段处理了chk n+1阶段的数据,但是在source端所记录的消费偏移量又一致,如果chk n成功之后,后续的任务处理失败,任务重启会消费chk n+1阶段数据,就会到致数据重复消息,如果barrier等待就不会出现这样情况,因此barrier需要对齐那么就是实现Exactly once语义,否则实现的是at least once语义。由于状态是属于flink内部存储,所以flink 仅仅满足内部Exactly once语义。

至此实现了flink系统内部的Exactly once语义。

3 端到端的一致性

端到端的数据一致性,主要分三部分

  • source
  • flink内部:这部分由flink内部实现,这节就不提了
  • sink

3.1 Source

需要外部源支持可重设数据的读取位置,例如kafka,或增量保存数据的数据源,自己记录offset,例如 mysql 记录消费到了 多少的id。 kafka consumer作为source,可以将偏移量保存下来,如果后续任务出现了故障,恢复的时候可以由连接器重置偏移量,重新消费数据,保证一致性

3.2 Sink

sink端要保证,任务从故障恢复时,数据不会重新写入到持久化存储中。一半包括两种情况:幂等写入,事务写入

3.2.1 幂等写入

所谓幂等操作,是说一个操作,可以重复执行很多次,但只导致一次结果更改,也就是说,后面再重复执行就不起作用了。这种一般用于,下游的持久化存储没有事务支持的情况,例如redis。

这种情况一般的数据格式可以支持重复输出,例如统计关注的 uid: uid,重复输出也不会影响数据的准确性

3.2.2 事务写入

事务写入需要下游系统支持事务,例如kafka,mysql等。利用flink的两阶段提交,来实现数据的exactly-once.

3.2.2.1 两阶段提交

Flink通过checkpoint来保存数据是否处理完成的状态

由JobManager协调各个TaskManager进行checkpoint存储,checkpoint保存在 StateBackend中,默认StateBackend是内存级的,也可以改为文件级的进行持久化保存。

执行过程实际上是一个两段式提交,每个算子执行完成**,会进行“预提交”,直到执行完sink操作,会发起“确认提交”,如果执行失败,预提交会放弃掉。**(相当于mysql的事务操作)

如果宕机需要通过StateBackend进行恢复,只能恢复所有未确认提交的操作。

在分布式系统中,可以使用两阶段提交来实现事务性从而保证数据的一致性,两阶段提交分为:预提交阶段与提交阶段,通常包含两个角色:协调者与执行者,协调者用于用于管理所有执行者的操作,执行者用于执行具体的提交操作,具体的操作流程:

  1. 首先协调者会送预提交(pre-commit)命令有的执行者
  2. 执行者执行预提交操作然后发送一条反馈(ack)消息给协调者
  3. 待协调者收到所有执行者的成功反馈,则发送一条提交信息(commit)给执行者
  4. 执行者执行提交操作
    在这里插入图片描述

如果在流程2中部分预提交失败,那么协调者就会收到一条失败的反馈,则会发送一条rollback消息给所有执行者,执行回滚操作,保证数据一致性;但是如果在流程4中,出现部分提交成功部分提交失败,那么就会造成数据的不一致,因此后面也提出了3PC或者通过其他补偿机制来保证数据最终一致性,接下看看flink 是如何做到2PC,保证数据的一致性。

3.2.2.2 flink的两阶段提交

以sink kafka为例,flink两阶段提交步骤详解:

在这里插入图片描述

  1. 第一条数据来了之后,开启一个kafka的事务(transaction) ,正常写入kafka分区日志但标记为未提交,这就是”预提交’
  2. jobmanager 触发checkpoint操作,barrier 从source开始向下传递,遇到barrier的算子将状态存入状态后端,并通知jobmanager
  3. sink 连接器收到barrier,保存当前状态,存入checkpoint,通知jobmanager, 并开启下一阶段的事务,用于提交下个检查点的数据
  4. jobmanager 收到所有任务的通知,发出确认信息,表示checkpoint 完成
  5. sink任务收到jobmanager的确认信息,正式提交这段时间的数据
    外部kafka关闭事务,提交的数据可以正常消费了。

如果在这期间出现任何的数据问题,flink都会回滚数据,之前预提交的数据不会被正式写入到kafka中,但如果没有问题,也只需要提交一个事务,sink kafka的下游就可以正常消费,sink算子不能存数据,这样的话,数据即发到了下游,有没有被消费到,出问题又可以回滚,但如果是redis,下游数据已经写入到存储中, 就上flink回滚,写入的数据也无法撤回,这就是两阶段提交的重要性。

个人理解,如果用两阶段提交,数据的实时性就没有那么高,因为需要根据checkpoint的时间间隔来一批一批的写入数据,没有办法每条数据都及时的处理完并sink出,所以对实时性有要求的,可以自定义实现幂等性sink来保证数据的一致性。

说起来就三部 source flink sink
⭐ Source 引擎可以重新消费,比如 Kafka 可以重置 offset 进行重新消费
⭐ Flink 任务配置 exactly-once,保证 Flink 任务 State 的 exactly-once
⭐ Sink 算子支持两阶段或者可重入,保证产出结果的 exactly-once
前两部一半都能支持,关键就是最后sink的步骤
目前第三部一般的做法为:

  • ⭐ Sink 两阶段:由于两阶段提交是随着 Checkpoint 进行的,假设 Checkpoint 是 5min 做一次,那么数据对下游消费方的可见性延迟至少也是 5min,所以会有数据延迟等问题,目前用的比较少。
  • ⭐ Sink 支持可重入:举例:
  • ⭐ Sink 为 MySQL:可以按照 key update 数据
  • ⭐ Sink 为 Druid:聚合类型可以选用 longMax
  • ⭐ Sink 为 ClickHouse:查询时使用 longMax 或者使用 ReplacingMergeTree 表引擎将重复写入的数据去重,这里有小伙伴会担心 ReplacingMergeTree 会有性能问题,但是博主认为其实性能影响不会很大,因为 failover 导致的数据重复其实一般情况下是小概率事件,并且重复的数据量也不会很大,也只是一个 Checkpoint 周期内的数据重复,所以使用 ReplacingMergeTree 是可以接受的)
  • ⭐ Sink 为 Redis:按照 key 更新数据

其实就是幂等和两段式提交 选择一个

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.bcls.cn/JFTA/2146.shtml

如若内容造成侵权/违法违规/事实不符,请联系编程老四网进行投诉反馈email:xxxxxxxx@qq.com,一经查实,立即删除!

相关文章

OpenHarmony—UIAbility组件与UI的数据同步

基于HarmonyOS的应用模型,可以通过以下两种方式来实现UIAbility组件与UI之间的数据同步。 使用EventHub进行数据通信:基于发布订阅模式来实现,事件需要先订阅后发布,订阅者收到消息后进行处理。使用globalThis进行数据同步&#…

【云原生】持续集成持续部署

本文主要总结CI/CD的流程,不会详细介绍每个知识点。 啥是集成?啥是部署? 集成,就是把应用程序、相关环境、配置全局打包放在一个容器中的操作。部署就不解释了。 CI/CD 如果是自己手动部署的话,流程应该是这样的&am…

Git 关于SSH密钥的生成

一:配置ssh 桌面右键鼠标打开 “Git Bash Here” 键入命令:ssh-keygen -t ed25519 -C "自己邮箱 " 接着就一路回车 打开 C:\Users\Administrator.ssh 目录, 复制 id_xxxxx.pub 内容 文件里面则是一些信息,如下 …

防止员工办公终端文件数据\资料外泄

为了防止员工办公终端的文件数据资料外泄,可以采取以下一系列措施: www.drhchina.com 制定明确的安全政策:首先,企业需要制定明确的信息安全政策,明确禁止员工将敏感数据泄露给外部人员或机构。政策应详细说明员工在处…

WordPress后台自定义登录和管理页面插件Admin Customizer

WordPress默认的后台登录页面和管理员,很多站长都想去掉或修改一些自己不喜欢的功能,比如登录页和管理页的主题样式、后台左侧菜单栏的某些菜单、仪表盘的一些功能、后台页眉页脚某些小细节等等。这里boke112百科推荐这款可以让我们轻松自定义后台登录页…

NFC三大工作模式及其在物联网应用实例

NFC支持三种通信模式:读写模式、点对点模式和卡模拟模式。在此三种模式下,都仅需简单点击便可启动传输。 在读写模式下,系统执行非接触式读写功能。该系统的NFC芯片与内置NFC的设备-诸如非接触式智能卡、NFC标签或具有NFC功能的智能手机&…

虚拟机服务器中了lockbit3.0勒索病毒怎么办,lockbit3.0勒索病毒解密数据恢复

在这个网络飞速发展的时代,企业的生产运营得到了极大提升,越来越多的企业更加依赖网络的力量开展工作与业务,网络也为企业的生产运营提供了极大便利,但网络是一把双刃剑,在为人们提供便利的同时,也为企业的…

鸿蒙开发-UI-图形-绘制几何图形

鸿蒙开发-UI-组件 鸿蒙开发-UI-组件2 鸿蒙开发-UI-组件3 鸿蒙开发-UI-气泡/菜单 鸿蒙开发-UI-页面路由 鸿蒙开发-UI-组件导航-Navigation 鸿蒙开发-UI-组件导航-Tabs 鸿蒙开发-UI-图形-图片 文章目录 前言 一、绘制组件 二、形状视口 三、自定义样式 四、使用场景 总结 前…

【快速解决】python项目打包成exe文件——vscode软件

目录 操作步骤 1、打开VSCode并打开你的Python项目。 2、在VSCode终端中安装pyinstaller: 3、运行以下命令使用pyinstaller将Python项目打包成exe文件: 其中your_script.py是你的Python脚本的文件名。 4、打包完成后,在你的项目目录中会…

PCL 计算点云AABB包围盒的体积

目录 一、AABB包围盒二、代码实现三、结果展示四、相关链接本文由CSDN点云侠原创,原文链接。爬虫自重,把自己当个人。 一、AABB包围盒 AABB包围盒又称了 轴对齐包围盒,是点云包围盒里最简单的一种,其计算方法也极其简单。获取包围盒之后,根据包围盒的长宽高进行体积计算即…

用 Python 自动化处理无聊的事情

“编程最棒的部分就是看到机器做一些有用的事情而获得的胜利。用 Python 将无聊的事情自动化将所有编程视为这些小小的胜利;它让无聊变得有趣。” Hilary Mason,数据科学家兼 Fast Forward Labs 创始人 “我很享受打破东西然后把它们重新组合起来的乐趣…

【超越专家医师】大模型 + 罕见病诊断

大模型 罕见病诊断 提出背景解法:高级知识集成提示 具体任务任务1:电子健康记录(EHR)中的表型提取任务2:筛选特定罕见病任务3:常见病与罕见病的比较分析任务4:全球罕见病的鉴别诊断 提出背景 …

泰迪智能科技大模型数据智能实验室

自2022年11月ChatGPT问世以来,大模型开始备受关注,科技巨头们纷纷推出大模型实验室解决方案。大模型的价值不知在于互联网场景,而在于大模型能力垂直化,能够与具体的业务需求深度融合。 大模型实验室是在学校现有的实验室建设基础…

零基础学习8051单片机(十五)

本次先看书学习,并完成了课后习题,题目出自《单片机原理与接口技术》第五版—李清朝 答: (1)当 CPU正在处理某件事情的时候,外部发生的某一件事件请求 CPU 迅速去处理,于是,CPU暂时中止当前的工…

提升网络质量:UDPspeeder 实现网络优化与提速

提升网络质量:UDPspeeder 实现网络优化与提速 背景与意义原理与功能使用方法未来展望相关链接服务 在当今高度互联的网络环境下,网络质量的优化和提速对于用户体验至关重要。针对高延迟和丢包率较高的网络链路,UDPspeeder 提供了一种前向纠错…

Vue3学习——标签的ref属性

在HTML标签上&#xff0c;可以使用相同的ref名称&#xff0c;得到DOM元素ref放在组件上时&#xff0c;拿到的是组件实例&#xff08;组件defineExpose暴露谁&#xff0c;ref才可以看到谁&#xff09; <script setup lang"ts"> import RefPractice from /compo…

大数据02-数据仓库

零、文章目录 大数据02-数据仓库 1、数据仓库介绍 &#xff08;1&#xff09;基本概念 数据仓库&#xff0c;英文名称为Data Warehouse&#xff0c;可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境&#xff0c;为企业提供决策支持&#xff08;Decision Sup…

机器人初识 —— 电机传动系统

一、背景 波士顿动力公司开发的机器人&#xff0c;其电机传动系统是其高性能和动态运动能力的核心部分。电机传动系统通常包括以下几个关键组件&#xff1a; 1. **电动马达**&#xff1a;波士顿动力的机器人采用了先进的电动马达作为主要的动力源&#xff0c;如伺服电机或步进…

极狐GitLab 如何重置管理员密码

在之前安装极狐GitLab 的文章中提到&#xff0c;极狐GitLab 安装成功后&#xff0c;初始登录密码会放在 /etc/gitlab/initial_root_password 文件下&#xff0c;用户可以使用初始用户名 root 及文件内的初始密码即可登录极狐GitLab 实例。 但是有些情况下&#xff0c;可能会发…

抓包分析 TCP 协议

TCP 协议是在传输层中&#xff0c;一种面向连接的、可靠的、基于字节流的传输层通信协议。 环境准备 对接口测试工具进行分类&#xff0c;可以如下几类&#xff1a; 网络嗅探工具&#xff1a;tcpdump&#xff0c;wireshark 代理工具&#xff1a;fiddler&#xff0c;charles&…
推荐文章