CenturyLink的一個BGP路由錯誤已引起整個互聯網出現連鎖反應,導致無數與互聯網連接的服務癱瘓,比如Cloudflare、AWS、Garmin、Steam、Discord和Blizzard等眾多服務。
這些故障從美國東部標準時間上午6點左右開始,當時客戶們開始報告美國發生了影響CenturyLink服務的大規模故障。
在Twitter上搜索一番,可以發現突然大量用戶紛紛吐槽,抱怨無數聯網服務不是性能低下就是完全中斷,比如Blizzard、Steam、Discord、Roblox、Cloudflare、Hulu、Slink、Reddit和Amazon AWS等眾多服務。
CenturyLink聲稱,其Level3 CA3數據中心導致了這起故障,正在調查此問題。
CenturyLink的狀態頁面顯示:“我們的技術團隊正在調查影響CA3數據中心一些服務的一個問題。確保我們服務的可靠性是我們的重中之重。隨著這起事件不斷進展,我們會繼續提供狀態更新。如果您需要進一步的支持,可以通過help@ctl.io聯系我們。”
此后該故障已得到了解決,服務在緩慢恢復,一些地區恢復所花的時間比其他地區要久。
BGP路由問題導致故障
據受影響客戶的無數報告顯示,今天的問題是CenturyLink的BGP路由問題引起的,CenturyLink的路由沒有正確地傳輸互聯網的一些部分。
為了使互聯網正常運行,互聯網服務提供商(ISP)、數據中心和網絡提供商通過BGP路由協議來通告它們路由和管理的IP地址。
由于這主要是一種基于信任的系統,大型ISP開始通告它們并不管理的IP地址范圍的路由時,會導致全球性故障和性能問題。
CenturyLink似乎在BGP路由方面犯了一個錯誤,從而導致了當今的大范圍故障。
大概10分鐘前Centurylink似乎撤回了無效的BGP路由,并修復了其網絡問題。作為一項防范措施,我們暫時任由我們的AS3356會話處于宕機狀態,以防Centurylink又出問題。我們會繼續全天密切關注事態。
2020年8月30日10點04分GMT,CenturyLink發現一個問題影響多個市場的用戶。IP網絡操作中心(NOC)參與其中,初步研究發現,一個存在問題的flowspec通告阻止邊界網關協議(BGP)跨整個CenturyLink網絡的多個網絡單元建立起來。IP NOC部署了全局配置變更,以阻止存在問題的flowspec通告,這讓BGP得以開始正確建立起來。變更實施到整個網絡中后,IP NOC觀察到引發警報的所有相關服務解除警報、服務回到穩定狀態。
CenturyLink中斷導致全球Web流量下降了3.5%。
責編AJX
-
互聯網
+關注
關注
54文章
11156瀏覽量
103315 -
服務器
+關注
關注
12文章
9164瀏覽量
85429 -
BGP
+關注
關注
0文章
83瀏覽量
15331
發布評論請先 登錄
相關推薦
評論