无服务器场景(serverless)的容错怎么做？我们的设计_ _ 頭條網

无服务器架构和FaaS（Function-as-a-service 函数即服务）近年来越来越受欢迎，这要归功于易用性、自动伸缩和按需付费的特性。然而，FaaS 基础设施中缺少应用程序的容错能力。

把坑留给码农？

默认情况下，AWS Lambda 或 Google Cloud Functions 等 FaaS 系统需要开发者自己考虑执行失败的情况。云服务的策略是：无论是应用程序自身错误还是基础设施故障，一旦函数执行失败就执行重试。这意味着函数可能会运行多次。

并且更可怕还有，你的业务代码也可能会运行 0.5 次，或者 3.2 次……这是怎么回事？

这个糟糕问题的原因是，大多数 FaaS 系统提供的能力不能保证资源层（如数据库或文件等）在执行失败后被清理。

在失败和重试的过程中，修改共享状态的应用程序会在不知不觉修改部分结果。如果一个请求将更新两个键 k 和 l，但函数在两次更新之间崩溃，那么现在客户端将看到较新版本的 k 和较旧版本的 l。

这就是云平台 FaaS 的现状。

FaaS 的无痛容错:原子性

为了避免这种类型的异常，开发人员需要一个简单的保证，那就是原子性：要么一个请求的所有操作全部成功，要么全部失败。传统做法中，原子性是由强一致性（事务式）存储引擎来保证的，但这些系统有众所周知的扩展和性能问题。如何才能让 FaaS 执行保证原子性？

为此，我们构建了一个名为 AFT（Atomicity for Fault Tolerance）的系统，它是一个位于任何无服务器计算层（如AWS Lambda、Google Cloud Functions）和存储层（如AWS DynamoDB、Redis）之间的胶合层。计算层的每个逻辑请求（可能由多个函数组成）都被视为一个事务。AFT 保证事务所做的所有更新都会在存储层原子化执行。

AFT 的设计是灵活的。我们对计算层不做任何假设，而对存储层的要求就是存储层要持久化。我们可以保证在 DynamoDB 和 S3 等最终一致的系统上运行的函数的原子性。AFT 有两个主要特点。(1)无协调、原子更新；(2)保证事务只读取已提交的数据。AFT 将每个新的key版本写到不同的物理存储位置，以避免写-写冲突。

为了保证事务读取语义上一致的数据，AFT 保证了读取原子性。读取原子性要求客户机只从已提交的事务中读取数据，并按照事务提交的顺序进行读取。也就是说，如果事务 T1 写了 key 的版本 K1，而后来的事务 T2 写了 K2 和 L2，那么客户端就读不到 K1 和 L2，因为事务 T2 写了一个较新版本的K，称为 K2。所有这些都可以在没有任何协调¹的情况下完成。这种类型的异常被称为断裂读。

下一步

我们对胶合层架构作为探索不同开发者保障的手段感到兴奋。特别是有一整类应用可以从无服务器架构中受益，但需要找到将更强的一致性引入 Faas 世界的方法。

熟悉数据库内部的朋友可能已经注意到，我们这里讲到的读取原子性保证类似于无协调版本的快照隔离，这是传统数据库中常用的强一致性形式。我们正计划在此背景下探索如何将强一致性引入到无服务器应用中。如果你对这些有兴趣可以通过原文链接反馈给我们。

原文地址：

https://medium.com/riselab/solving-serverless-computings-fault-tolerance-problem-122128fa5787

完整论文链接：

[1] https://arxiv.org/pdf/2003.06007.pdf

本文由高可用架构翻译。技术原创及架构实践文章，欢迎通过公众号菜单「联系我们」进行投稿。

高可用架构

改变互联网的构建方式

把坑留给码农？

FaaS 的无痛容错:原子性

下一步

相關文章:

跑跑卡丁车手游7月2日服务器维护怎么办？下载后显示服务器维护

话要软着说，事要硬着做

腾讯弄丢客户数据可索赔1000万腾讯称索赔过高愿赔偿13.6万

微软的Bing搜索404了？

使用scp在windows和Linux之间互传文件

程序员通宵加班，请假被老板当场拒绝，当天服务器就出问题了

windows2008搭建FTP限制上传文件大小

广州外贸网站建设如何避开缺点做的更加完善？

明日之后：“末日求生”，让我们一起活下去

绝地求生 游戏出现职业选手 莫非服务器出问题了

绝地求生：国家专属服务器将上线 如此变相锁区只为国服的到来？

熊猫TV直播竟然还没有关闭，是否意味着有人接受收购

如何用Servlet实现页面跳转？

网站为什么要备案？

灵鸽缘何一夜爆火？50个邀请码，关注就发送

鲲鹏云计算中心落户新乡-今日头条-手机光明网

DNF：十周年登录送好礼，可若是连游戏都上不去，又怎么享大礼？

入侵“杀猪盘”服务器，这里有全套诈骗话术

魔兽世界怀旧服，怀旧服翻译出现错误，不知道你们的如何？

熊猫直播被曝破产，或3月18日关闭服务器，官方尚未回应

“网游宵禁”要来了？所有网游将0到8关闭服务器，你同意吗？

做个商城小程序多少钱？这个方法可以让你更高效的运营小程序！

斐讯战略拖延战术成功，已经在偷偷处理服务器了？

网易大作明日之后凉凉，2.1的评分它经历了什么

小白福利——最新SSR教程（vps）

给计算机学生的几个忠告（如何在毕业后尽快获得一个高薪工作）

阴阳师：新赛季预选赛已经开始，奖励丰厚，为"服务器"而战

程序员搞垮公司，游戏上线日锁死服务器，如今老板沦为打工仔！

有了车，生活就嗨了，我觉得很OK,4万多大众POLO购入

英雄联盟变成观战游戏？被动3000+ms还被警告消极游戏？

双11购买东西时服务器都没问题，退货时出问题了？何解？

一次线上JVM FullGC 问题的查找

我是世界——愿你走出半生 归来仍是少年

云服务器、服务器、VPS这三种选择哪个比较好

中国移动你搞个活动能不能靠谱一点？

游戏《逆水寒》策划为工作室开通绿色通道，金价会如何走？

商业裂变，之项目技术实战（第九节：程序框架的安装）

DNF：旭旭宝宝直播不到半小时，斗鱼服务器直接炸了

官宣：赵丽颖冯绍峰喜结良缘，微博服务器都爆了

Nginx模块主要有三种角色

南宁：舞动龙头项目 发挥引擎作用-今日头条-手机光明网

为什么现在越来越多的软件由买断制转变为订阅制

云测速安全提醒：当心你家的Wi-Fi被黑客利用

使用虚拟主机建站哪些方面可影响其访问速度？

深南电路10月10发布业绩预告，业绩预增65%-85%，值得关注

华为又一次壮举：为火车创造新技术，为高铁提速保驾护航

网游历史那些最牛团战：打了5个月 花了几百万 系统都差一点崩溃

潜逃压力过大暴瘦40多斤，一涉黑A级通缉犯在河北投案自首

当我们在谈 SaaS 的时候，在谈什么？

合同诈骗的类型有哪些？企业无力偿还借款是否构成合同诈骗罪？

5月西安招聘会时间安排来了！找工作的别错过

刚刚工作的毕业生，一个月只有2000多，是不是太少了？

全球闹「美元荒」带动稳定币需求暴增！以太坊交易量创近两年新高

“帮助当地居民解决用水难题”-今日头条-手机光明网

灌篮高手无水印壁纸，每一张都是回忆

通辽蓝天救援队成功解救辽河公园水上被困群众

5月6日·武汉要闻及抗击肺炎快报

肖副省长等省市领导到孝感市楚澴中学调研九年级复学暨疫情防控常态化工作

相声界的颜值担当张云雷称号大揭秘

美国百年薅羊毛攻略

《全职高手》：一口气刷了10集，对杨洋路转粉了

共同承担责任！Rookie谈BP问题：输了是我们打得太臭

LOL"中韩对抗赛"遭选手反对？Zoom直言不想打，Doinb的回答太真实

李亚鹏携李嫣出席慈善晚会，李嫣手上钻戒抢镜，1个动作获夸赞！

53岁郭富城再度升级当爸，方媛怀二胎，Chant要做姐姐了

那些拼命的演员：王宝强喝了一大桶牛奶，孙俪吃10斤瓜子

贾乃亮用上了“一米阳光”这个词，他依然渴望拥有美丽的爱情！

搞笑GIF开心一刻：我的老家农村，有妹子愿意嫁给我吗？

为什么只有edg赚钱？

程潇身材多好？双腿劈叉才明白，这才是“腿精”

张柏芝承认三胎产子，否认小伙的老爸是孙东海，看来她选择保密

T1战队抢注Faker商标，“囊括多个领域产品，商业潜力媲美乔丹”

云顶之弈“最不平衡的版本”诞生，全员抢一费卡，运气成吃鸡关键

LPL春季赛"6宗最"：Uzi最遗憾，阿水最惊喜，V5最离谱

雷佳音被问：跟佟丽娅拍那么多亲热戏是啥感受？他的回答笑翻众人

JDG成最“惨”冠军战队？拿到LPL冠军人气依旧低迷，TES成赢家！

绝地求生游戏出现职业选手莫非服务器出问题了

绝地求生：国家专属服务器将上线如此变相锁区只为国服的到来？

我是世界——愿你走出半生归来仍是少年

南宁：舞动龙头项目发挥引擎作用-今日头条-手机光明网

网游历史那些最牛团战：打了5个月花了几百万系统都差一点崩溃

应急科普丨“五一” 期间气温回升谨防森林火灾隐患