牛X如 Apple 也会宕机,盘点国内外著名的宕机事故


北京时间 6 月 6 日凌晨一点,苹果全球开发者大会 WWDC23 震撼来临。
本届 WWDC23 Apple 发布了多款王炸产品,其中有七个操作系统
包括:iOS 17、iPadOS 17、macOS 14。还有 watchOS 10、Audio & Home、tvOS 17 以及苹果头显系统 visionOS。
同时发布的还有多款新设备:MacBook Air 15 英寸、全新的 M2 Ultra 芯片、升级的 Mac Studio 和 M2 Ultra Mac Pro。
最炸裂的压轴产品则是苹果首款头戴设备 Apple Vision Pro,售价 3499 美元,约合人民币 24900 元。
▲苹果首款头戴设备 Vision Pro

提起 Apple ,大家无不竖起大拇指,作为全球科技的引领者,Apple 已经成为科技创新的代名词。

但是牛X 如 Apple 这样的科技企业,一样会发生服务宕机事故,并且影响巨大。借着近期唯品会发布了 23 年 3 月 29 号的故障报告的热度,一起来盘点一下近些年国内外著名的机房宕机事故。

2023年5月11日,苹果全球服务经历了55分钟的史诗级宕机,导致许多用户的 Apple ID / iCloud 账户突然登出,无法登录。宕机的原因是数据中心的严重故障,导致苹果公司的多项服务无法正常运行,包括 iCloud、App Store、iTunes 等。
这场宕机事件导致用户无法访问数据、文件和信息。苹果公司一直以来都以可靠和高效著称,此举对苹果公司和用户来说都是一个重要事件。

近年来,各种宕机事件频繁登上热搜,6月5日,唯品会发布了 23 年 3 月 29 号的故障报告,因为南沙 IDC 冷冻系统故障导致唯品会线上商城停止服务,系统宕机持续12小时,造成了损失超亿元,影响客户达 800 多万。

公司将此次故障判定为 P0 级故障,属于重大安全故障,暴露出容灾应急预案不到位,公司决定对此次事件严肃处理。


公告表示,此次事故暴露出容灾应急预案和风险防范措施不到位,公司决定对此次事件严肃处理。对基础平台部负责人做了免职处理。

近年来,系统宕机屡屡登上新闻热搜,保证业务连续性和稳定性一直是各大公司建设的重大目标,除了此次唯品会事件,小编精心整理了近年来10大宕机事件:

01

韩国 SK 公司数据中心火灾

2022年10月15日,SK公司C&C板桥数据中心发生火灾,导致韩国Kakao Talk和NAVER等众多网络服务中断。据报道,火灾造成约3.2万个服务器瘫痪,数千万用户受影响。恢复过程比预期长,调查显示火灾可能由电气因素引起。

02

湖南电信荷花园大厦起火

2022年9月16日,湖南省长沙市芙蓉区的湖南电信大楼发生严重火灾,导致数十层楼体燃烧剧烈。初步调查结果表明,起火位置为大楼外立面。为保障安全,大楼部分设备被紧急关闭,但此举导致部分用户的手机语音和短信功能短期受到影响。截至当晚12时,该问题仍未得到完全解决。
该电信大楼建成于2000年,地面共42层,地下2层。其内设荷花园电信机房,是湖南省最大的主干线接入点之一,机房支持25G光纤直接连接中国电信骨干网,总共有约1000个机架。据招标信息显示,火灾前该大楼消防设备超期运行,火灾报警系统等方面存在安全隐患。

03

谷歌数据中心电气爆炸

2022年8月8日,美国爱荷华州康瑟尔布拉夫斯的谷歌数据中心发生电力事故,导致3名电工严重烧伤。
据媒体报道,3名电工在数据中心大楼附近的变电站工作时,突然发生了电弧闪光,事故造成全球40多个国家/地区的至少1338台服务器中断服务。谷歌已证实了该意外是由电力事故引起,但尚未披露具体原因。

04

网易游戏机房大规模服务器宕机

2021年11月3日,网易旗下部分游戏发生无法登录情况,一时间微博出现阴阳师、哈利波特、光遇等游戏无法登陆的热搜,后经查原因系机房过热导致服务器宕机,约3小时后,网易游戏各服务器已恢复正常登陆,网易方面并未就此次故障统一回复。

05

2021.7.13 哔哩哔哩无法访问…

2021年7月13日晚间,哔哩哔哩发现“B站崩了”,客户端、网页、电视版都无法打开,之后消息迅速刷屏并登上热搜,一时间相继传出“豆瓣崩了”“晋江崩了”“A站崩了”的话题。经了解,B站的部分服务器机房发生故障,造成无法访问。

06

西安一码通半月奔溃两次

2021年12月至2022年1月4日,西安市的“一码通”因访问量过大两次崩溃,已有近 4700 万注册用户和每日超过 800 万人扫码,致使“一码通”每秒访问量达以往峰值的 10 倍以上。“一码通”是西安市大数据资源管理局针对疫情防控牵头开发的大数据平台。

07

民航系统 Bug 致全美航班禁飞

2023年1月11日,美国民航系统于当地时间周三早间瘫痪,导致当日9时全美所有航班禁飞,超过4000架次国内国际航班延误,据 FlightAware 数据显示,截至美东时间8时50分,全美约698架次航班取消。
这次故障可能源于飞行任务通知系统的一个文件损坏,而在紧急情况下使用的备份系统也发现了损坏文件,美国联邦航空管理局被迫重启系统,导致航班大面积延误或取消。

08

春节档宕机致影院无法购票

2023年1月24日春节档期间,淘票票和猫眼两大购票平台均出现无法正常购买电影票情况,据了解,事件与阿里影业旗下凤凰云智售票系统有关,当晚宕机系统持续2个小时,大量因使用凤凰云智系统的影院收到波及,有业内人士估算在全国造成近亿元的售票损失。

据了解,凤凰云智是阿里影业电影产业“新基础设施”的重要组成部分,阿里影业影院管理系统3500+,云化系统市占第一,客户包括博纳国际影城、万象影城、苏宁影城、FUN范影城、四川峨眉1958影城、潇湘国际影城等,其他合作伙伴还包括上海国际电影节、北京国际电影节及中国电影资料馆。

09

OVH 数据中心火灾

2021年3月10日,欧洲云计算巨头OVH位于法国莱茵省首府斯特拉斯堡的数据中心发生严重火灾,OVH在该区域拥有的4个数据中心全部暂停服务。4座数据中心中,一座被完全烧毁,一座的服务器损毁了三分之一

OVH火灾现场

起火后,瘫痪的法国政府、企业与公共事业网站达到约360个,一些游戏开发商在欧洲的业务也受到影响,部分位于该数据中心的服务器被烧毁,其中游戏《Rust》表示,25台欧洲服务器完全损毁,没有备份,数据无法被修复。

尽管OVH短时间调查后解释,此次起火可能因UPS引起,但一年后法国官方事故调查机构的发布的报告显示,灾难更大可能是由电力室逆变器周围的湿气引起的

10

阿里云香港宕机

2022年12月18日,阿里云香港Region可用区C发生大规模服务中断事件。此次服务中断事件导致多个重要互联网服务受到影响,包括澳门日报、金融管理局、澳门银河、莲花卫视、澳门水泥厂等基础服务,澳觅等外卖平台,多个区块链交易所也受到影响。

阿里云官网12月18日下午更新处理进展称,经排查,阿里云香港地域故障确认系香港PCCW机房制冷设备故障所致,影响香港地域可用区C的云服务器ECS、云数据库、存储产品(对象存储、表格存储等)、云网络产品(全球加速、NAT网关、VPN网关等)等云产品使用。



数据中心或故障引起机房服务不可用,运维是第一个被“推出来的”,所以该如何做呢?
为推动各行业系统稳定性体系建设,中国信通院依托分布式系统稳定性实验室,联合多家头部企业于2021年制定了《分布式系统稳定性保障能力分级要求》标准,今年标准工作组对框架及内容进行了全面升级,正式更新为《研发运营一体化(DevOps)能力成熟度模型 第14部分:系统可靠性与连续性工程》标准,并依据此标准全新推出了SRE研发运营系统可靠性与连续性评估
该评估由中国信通院工程师在参评机构现场完成,主要分为研发过程的可靠性与连续性保障能力技术运营过程的可靠性与连续性保障能力两大部分。覆盖了参评单位在系统研发运营生命周期中为保持系统平稳运行而采取的一系列工作,对参评机构的系统可靠性与连续性保障体系进行全方位的梳理。

未来中国信通院DGA分布式系统稳定性实验室将持续开展系统稳定性评测项目,为各行业研发运营系统可靠性与连续性保障提供指导和帮助,助力我国数字化转型实现“又快又稳”。

DGA分布式系统稳定性实验室及评估咨询联系方式

尚梦宸 13261081232

shangmengchen@caict.ac.cn 
相关咨询可联系:

魏焕新@高效运维社区

电话:18500255645(同微信)

邮箱:weihuanxin@greatops.net

近期好文

Linux 内存管理搞不定?这篇万字好文告诉你“答案”

一大波精选案例来袭!金融行业如何实践 DevOps?

“高效运维”公众号诚邀广大技术人员投稿

投稿邮箱:jiachen@greatops.net,或添加联系人微信:greatops1118。

点个“在看”,一年不宕机

标签

发表评论