支付宝秀秒级自愈力:自剪机房光纤26秒恢复

移动互联 2018-09-25 阅读原文

如果支付宝一半机房被切断,你的花呗还用还吗?

在9月20日的杭州云栖大会ATEC主论坛上,蚂蚁金服副CTO胡喜给出了这个问题的答案。

在云栖大会现场,两名支付宝工程师在胡喜的指挥下,同时剪断了支付宝两个模拟机房的网线。 系统显示,仅在26秒后,运行在上面的支付宝虚拟账户便恢复了正常运转。

据胡喜介绍,这段现场演示是由支付宝工程师策划的一次特别技术演练。他们基于支付宝的真实架构系统,在两个城市单独搭建了模拟机房。在模拟两处机房同时终止服务时,架构在模拟环境中的支付宝虚拟账户,仅经历了26秒的短暂故障,便重回正常状态——下个月的花呗,还是要还。

胡喜介绍称, 即便是在真实环境下,如果支付宝部署在一个城市的两个机房同时出问题,跑在这两个机房上的支付宝账户也能在数分钟内恢复正常。而在这背后,则是蚂蚁金服“三地五中心”容灾系统的功劳。

“三地五中心”是什么?

众所周知,一切互联网服务存在的基础,都离不开现实世界中的实体服务器。从聊天到网购,从订外卖到叫网约车,用户的每一次操作,都需要经过服务器的中转。

因此,机房是否安全稳定,决定了网络服务是能否正常运转。在历史上,因为各种奇葩机房事故导致的系统宕机,屡见不鲜。

2013年7月,微信曾经出现长达7小时的宕机事件。微信官方事后确认,宕机原因系上海某施工队挖断通信光缆所致。自此之后,“蓝翔挖掘机击败中国互联网”,成为了很多网民调侃宕机事故的热门梗。

同年8月,大洋彼岸的另一场宕机事故,则引发了更加可怕的后果。2013年8月16日,Google在全球范围内发生了五分钟的宕机——搜索服务、YouTube、Gmail全部崩溃。事后,有第三方数据显示,在这五分钟时间内,全球互联网流量雪崩了40%。

对于支付宝一类的国民级金融服务,宕机带来的后果更是毁灭性的。如何保障整个系统在面临“黑天鹅事件”时不会宕机,成为了蚂蚁金服内许多技术人员的首要工作。

36氪获悉, 自2017年起,蚂蚁金服便开始为支付宝架构“三地五中心”的容灾解决方案——即在三个城市,安置五个机房。一旦其中的一个甚至两个机房发生故障,支付宝的底层数据库系统,会自动将流量全部切换到正常的机房,保证系统稳定运行,且不丢失任何数据。

在金融行业,传统的数据库架构,大多基于“两地三中心”模式——即在两个城市,安置三个机房,其中同城两个机房提供服务;第三个机房平时处于“休眠”状态,只在前两个机房出现问题时才会“临时上岗”。

这就意味着,如果一座城市的两家机房同时崩溃,系统在切换到第三个机房时需要一段等待时间。除此之外,机房切换前后的数据,也可能发生数据丢失。

显然,“三地五中心”的模式,要比“两地三中心”更加可靠。从概率角度看,一座城市两家机房瞬间崩溃的可能性,与城市遭受重大自然灾害的概率相当。而两个城市多家机房同时崩溃,则差不多是两个不同地方的人同时被陨石砸中的概率。

不止是“多了两家机房”

胡喜在演讲中强调,与传统的“两地三中心”方案相比,“三地五中心”并非是多了两家机房这么简单。

在产品架构方面, “三地五中心”需要两座城市的四个机房同时在线。每一笔交易都会至少在两个城市的副本中进行同步,并将所有数据定期备份到第五机房。 这对于企业的分布式架构、数据库、中间件及相关金融核心技术,都提出了巨大的挑战。

以决定分布式数据库性能指标的读写性能为例,数据中心的数量增多,各数据中心之间的物理位置变远,都会导致整个分布式数据库系统的读写性能下降。

36氪获悉,支付宝“三地五中心”的架构,来自于蚂蚁金服自研的分布式数据库OceanBase。在这一体系下,五个数据中心都存有副本。副本之间基于Paxos协议保持数据一致性。个别机房发生故障,并不会导致数据丢失。

蚂蚁金服资深技术专家杨冰解释说,在OceanBase的支持下,尽管支付宝采用了五副本的运行模式,但读取性能并未下降,写入操作延迟也仅受到城市之间的距离影响,有所增加。

OceanBase项目上线于2010年,是一个由阿里内部团队自行研发的数据库系统。同年,阿里开始在自有体系内以OceanBase替换甲骨文的Oracle数据库系统。2013年,淘宝全线切换为OceanBase系统。2014年后,支付宝的交易、支付、账务系统,先后被切换为OceanBase数据库。

阿里巴巴CTO王坚此前表示,Oracle数据库基于传统IT环境,对电商行业高并发、实时在线、大规模网络优化等环境适应有限。只有自研数据库,才可以满足阿里的运营需要。

OceanBase数据库,让阿里在应对双11购物节活动,以及为支付宝架构“三地五中心”等复杂系统时,拥有了自己的武器。但自研数据库并非易事。蚂蚁金服向36氪表示, 目前OceanBase数据库代码已达到百万级别,是中国第一个具有自主知识产权的分布式关系数据库。

2017年后,蚂蚁金服宣布了自己的开放战略,将支付、理财、信用、口碑开店等诸多能力开放给合作伙伴。OceanBase也自此同步开放。2017年9月,OceanBase与南京银行达成合作,将南京银行的数据处理能力由10万笔/日以下,提升到了100万笔/日以上。

“我们的技术目标之一,就是保证金融级别的系统稳定和安全能力。” 蚂蚁金服副CTO胡喜说道。

36氪

责编内容by:36氪阅读原文】。感谢您的支持!

您可能感兴趣的

支付宝10.1,社交还是支付? 9月5日,支付宝悄然上线了10.1.0。 10.1的介绍仅仅有两行: 500万红包雨一起抢!9月每周五周六,用户用支付宝到实体门店付款2笔起,即有资格参与抽红包活动; 首页视觉更新,消息提醒更清晰。 ...
DCK Investor Edge: Digital Realty Signs Biggest Hy... Over time, Digital Realty Trust’s inability to sign and deliver purpose-build data centers for hyper-scale cloud serv...
碎屏险列入支付宝,居财产险销量榜前十... 编者按:本文来自证劵日报,作者涂伟,36氪经授权发布。 近一段时间以来,“全面屏”成了各大智能手机厂商海报和广告上的文案必备词,从国庆假期前的小米MIX 2、iPhone X,三星Note 8的火爆发布,到国庆假期后即将上市的华为M...
Fave 与支付宝宣布合作,为东南亚顾客提供无缝跨境支付服务... 8 月 1 日 ,东南亚 O2O(在线到线下)移动平台 Fave 宣布与阿里巴巴集团旗下金融机构蚂蚁金服合作,透过支付宝为东南亚顾客提供无缝跨境支付体验,这就意味着全世界包括中国的支付宝用户均可在东南亚体验到更为优质的服务。而新...
蚂蚁金服入股雪球,买的到底是什么?... 蚂蚁金服入股雪球,事出突然,几乎是一夜之间这个消息就被报道出来。之所以这么急着入手,想必蚂蚁金服已经有了明确的答案。 在支付宝之后,蚂蚁金服推出了一款“蚂蚁聚宝”app,旨在把支付和理财概念分开,让支付宝的高端用户从支付宝剥离出来...