亞馬遜雲服務宕機,我家的貓餓了整整一天
貓咪無法進食、多鄰國打卡無望、金拱門外賣不能下單……
甚至當你早上醒了,想眯着眼睛刷會兒 Snapchat,都發現是永遠的“連接失敗”。
切換到 Venmo,想付給室友前兩天的外賣錢,結果卡在支付頁面轉圈圈;算了,打把《部落衝突》清醒一下吧,遊戲匹配界面卡在“正在連接”上,半天沒反應。
小貓在門外嗷嗷叫,你開門一看,自動餵食機一夜沒出糧。非是不信邪了。你叫 Alexa 放首歌試試,它只回了一句“抱歉,無法響應”。
不相干的糟心事情背後,都是亞馬遜雲宕機惹的禍——就像一場“賽博世界末日”的預演。
可憐貓貓,離線要飯|圖源:小紅書
這時,門口傳來響聲,你到門前一看,Ring 門鈴的攝像頭也失靈了,連昨晚的監控視頻都沒錄下。
門突然被打開,原來是你的室友。他哭喪着臉說:AWS 掛了,機場的調度系統死機了,我回來的飛機在跑道上排了兩個小時!
謝邀,人在跑道,下不了飛機|圖源:小紅書
這不是科幻末日電影裏的場景,而是昨天無數人的親身經歷。
脆弱的數字化世界
一切的罪魁禍首?是亞馬遜的 AWS 雲服務。
這個支撐着全球三分之一互聯網基礎設施的“隱形巨人”,在美東當地時間10月20日凌晨 3:11(北京時間 15:11),US-EAST-1(美國-東部-1)多個服務出現“錯誤率增加和延遲”。
一小時後的 4:26,故障急劇升級,流量均衡器崩潰。短短數小時內,從你我日常刷的社交軟件、在線遊戲、智能家居,到大企業、金融機構、教育平臺,皆在這一刻“掉線”。
影響巨大丨Down Dectector
互聯網流量監測平臺 Down Dectector 數據顯示,有超過 2500 家公司受到影響,超過 1100 萬條用戶在此期間彙報了各種服務中斷的問題,全球數百萬網民的數字生活被按下暫緩鍵,開始無限魔力轉圈圈。
美國幾大城市都在報告問題|圖源:Down Dectector
先說社交媒體和即時通訊,Snapchat、Signal 都出現了服務問題,數百萬用戶報告稱,發不了消息,刷不了 Stories(類似朋友圈),甚至有許多用戶因反覆嘗試登陸,導致賬號被鎖定。
遊戲玩家們更是“躺槍”,《堡壘之夜》、《羅布思樂》等熱門在線遊戲,直接服務器掛機,玩家要麼登錄後黑屏,要麼戰鬥中途掉線。Steam、Xbox、PSN、育碧的部分服務器也都受到影響。
其他常用工具也沒幸免:像語言學習 app 多鄰國、約會 App Hinge、出行服務 Lyft,還有社交論壇 Reddit 都報告了不同程度的故障:Reddit 刷不出貼,Hinge 用戶抱怨匹配頁面加載失敗,Lyft 打不到車,多鄰國打不了卡。
部分受到影響的平臺|圖源:X
玩不了遊戲,發不了消息,正好放下手機“數字排毒”,但賺不了錢纔是真要命。
Venmo(PayPal 旗下的支付 app)宕機了,讓用戶無法付款和轉賬,小企業主欲哭無淚;Coinbase 加密交易所也中招,用戶登錄卡頓,交易訂單堆積如山;Robinhood 和 Webull 等股票 app 全線崩潰,投資者眼睜睜看着市場波動卻下不了單;同時,星巴克、麥當勞的 app 也出現了訪問問題。
政府機關也受到影響,蘇格蘭銀行發帖稱“AWS 影響了英國許多網站和程序,包括我們的服務。”用戶都用不了網上銀行。英國稅務、支付和海關當局的網站也都掉線。
企業級影響同樣慘烈,Zoom 會議斷斷續續幾乎不可用,Canva(設計工具)錯誤率飆升,設計師們無法導出海報,項目延誤;教育平臺 Canvas 癱瘓,學生上不了網課,交不了作業;政府網站如部分聯邦服務也短暫下線,健康保險網站能登錄,但拉不出理賠記錄……
AWS 宕機最大受害者(不是)|圖源:小紅書
智能家居也是受害者重災區。亞馬遜自家的 Alexa 語音助手一停擺,語音控制家電成空談,有網友稱“Alexa 鬧鐘一響就關不掉”,評論區網友跟帖:“我家 Alexa 和 Echo 都掛了,定的鬧鐘一點沒響”。
《黑鏡》都寫不出的真實段子|圖源:小紅書
Ring 智能門鈴服務也掛了,用戶看不了監控,甚至打不開房門。還有用智能車庫的特斯拉車主,打不開車庫門。就連美聯航的機場調度系統都受到了影響。
評論區有人補充說自己車庫門開一半,掉線了|圖源:X
迪士尼+、Apple TV、Prime Video、Netflix、Twitch 都遭遇大規模無法連接或卡頓問題,宅在家裏無事可做。
之前人們用“蝴蝶效應”來形容複雜系統的脆弱性:一隻蝴蝶在巴西扇動翅膀,可能在兩週後在德克薩斯州引起一場龍捲風。
如今,這隻蝴蝶換成了AWS 的服務器,只要它在弗吉尼亞的機房裏輕輕“抽風”一下,半個互聯網的屋頂就會塌。
無數網站、app、物聯網設備、支付系統像一串串多米諾骨牌,全線塌陷。
生活在雲端
當你看到這裏時,AWS 的服務器已經修復,但網友們還陷在那幾個小時無限加載的恐慌裏:原來支撐現代生活的那張數字之網,這麼脆弱的嗎?
要理解這次大規模故障,首先得認識一下 AWS 是什麼。
AWS,全稱 Amazon Web Services,它是亞馬遜旗下的雲計算服務平臺,亦是一個數據中心、服務器機羣和網絡節點遍佈全世界的巨型網絡服務平臺。
它就像現代互聯網的“電網”和“水管”,我們並不直接看到它,但幾乎所有的數字生活都在靠它運轉,即互聯網最重要的“基礎設施”之一。全球上百萬家公司把網站、應用、數據庫都託管在 AWS 上。
此次故障的 US-EAST-1 站點|圖源:路透社
而這次出問題的“US-EAST-1”區域,是 AWS 在弗吉尼亞州北部的旗艦數據中心集羣,也是它全球業務的核心節點之一。根據業內人士分析,這個區域承擔着過高的負載,很多全球知名網站、金融系統、API 服務都默認部署在這裏。
根據亞馬遜的初步解釋,事故源於內部一個監控網絡負載均衡器的關鍵系統出錯,引發大面積連接失敗。
通俗點說,即 DNS 解析(域名系統,相當於互聯網的“電話簿”)出了岔子,系統找不到正確的“地址”,各大網站就像看不到收貨地址的外賣員,手裏拿着飯卻不知道該送給誰。
這本是可控的小故障,但在修復過程中又觸發了“級聯效應”:爲了止損,工程師關閉了一部分入口,卻導致新的服務器無法接入,流量分配再次紊亂。越修越亂,一環扣一環,就像一場小車禍讓整個市中心大堵車一樣。
截止到當地時間下午6時左右,亞馬遜旗下服務健康儀表板更新顯示,其服務已“恢復正常運行”。
亞馬遜在雲計算領域的份額|圖源:路透社
“蝴蝶效應”爲何會引發?
核心原因在於雲計算的“集中化魔咒”。
AWS 是雲市場的“老大”,佔全球 30% 的份額,而 US-EAST-1 是它的旗艦區域,亞馬遜在這裏砸了 500 億美元建數據中心,吸引了無數企業“安家”。根據 AWS 網站上的文檔,US-EAST-1 站點是許多 AWS 服務的默認站點。
爲了省錢和便利,很多公司把核心數據全堆在這裏,沒做足夠的“多區域備份”。這就相當於把所有雞蛋放一個籃子,籃子晃一下就全碎了。
同時,AWS 的系統就像一座極其精密咬合的機器,任何一個子系統的異常,都可能像倒下去的一塊多米諾骨牌,讓整個系統短暫崩潰。
強大來源於高度整合,而脆弱也是因爲過於集中。
這次短暫的宕機也讓無數公司和網友意識到,我們的生活、公司、政府服務是不是過於依賴某家公司的服務。互聯網的理想是分佈式與開放,但現狀卻是集中與壟斷。
我們所認爲“隨時可用”“永遠在線”的背後,就是一張由少數幾家巨頭所搭建的網絡。一次短暫的宕機,爲我們敲響了警鐘。
作者:糕級凍霧
編輯:沈知涵
封面圖來源:Morning Brew
本文來自果殼,未經授權不得轉載.
如有需要請聯繫[email protected]