電子發(fā)燒友網(wǎng)報(bào)道(文/黃山明)近日,據(jù)外媒報(bào)道,亞馬遜云服務(wù)(AWS)發(fā)生宕機(jī)事故,導(dǎo)致大面積網(wǎng)站、服務(wù)和應(yīng)用程序癱瘓,直接后果是造成亞馬遜電商業(yè)務(wù)交付混亂、貨物堆積。而這也不是今年亞馬遜第一次發(fā)生服務(wù)器宕機(jī)事故。
據(jù)了解,此次AWS的宕機(jī)對(duì)于亞馬遜配送業(yè)務(wù)造成嚴(yán)重影響,導(dǎo)致許多司機(jī)無(wú)法獲得配送路線,無(wú)法為用戶配送快遞。同時(shí),使用AWS的眾多廠商也受到了影響,如Facebook、迪士尼+、Netflix、任天堂等。
不安分的服務(wù)器
就在美國(guó)時(shí)間12月7日,AWS出現(xiàn)宕機(jī),導(dǎo)致旗下的PrimeMusic、PrimeVideo、Alexa在內(nèi)的大量網(wǎng)站和APP無(wú)法正常訪問(wèn),也讓許多使用AWS云服務(wù)的企業(yè)蒙受損失。
如任天堂便在12月8日凌晨宣布旗下Switch網(wǎng)絡(luò)服務(wù)大規(guī)模癱瘓,推測(cè)主要原因可能是與導(dǎo)入AWS云服務(wù)有關(guān)。盡管亞馬遜方面迅速進(jìn)行了搶修,但是此次事故仍然給亞馬遜云服務(wù)帶來(lái)了不小的損失。
據(jù)相關(guān)報(bào)告統(tǒng)計(jì),此次AWS云服務(wù)器故障導(dǎo)致亞馬遜帶來(lái)的損失或?qū)⒊^(guò)1800萬(wàn)美元(折合人民幣1.14億)。并且這也不是亞馬遜今年第一次出現(xiàn)服務(wù)器宕機(jī),今年的7月份以及10月份都已經(jīng)出現(xiàn)過(guò)服務(wù)網(wǎng)絡(luò)中斷的問(wèn)題。
當(dāng)然,服務(wù)器宕機(jī)的情況并不是亞馬遜專(zhuān)屬,中國(guó)的許多企業(yè)便經(jīng)歷過(guò)服務(wù)器宕機(jī)事故。2019年3月份,阿里云出現(xiàn)大規(guī)模宕機(jī)故障,影響了數(shù)量眾多的華北地區(qū)互聯(lián)網(wǎng)公司,故障原因是IOHang(即因?yàn)镮O錯(cuò)誤造成的IO路徑阻塞,導(dǎo)致數(shù)據(jù)拷貝異常緩慢),最終也對(duì)阿里云造成了較大的經(jīng)濟(jì)損失。
華為云在2020年4月份其位于北京區(qū)的云服務(wù)器發(fā)生宕機(jī),花費(fèi)了近三個(gè)小時(shí)才得以恢復(fù),也對(duì)相關(guān)用戶及廠商造成了一定影響。此外,今年7月份,包括B站、豆瓣、晉江等多家大型網(wǎng)站都發(fā)生了宕機(jī),導(dǎo)致許多用戶無(wú)法正常登錄瀏覽網(wǎng)頁(yè)。
宕機(jī)是如何產(chǎn)生的?
所謂宕機(jī)即英文直譯過(guò)來(lái)的“down機(jī)”,通常指網(wǎng)站、游戲或者網(wǎng)絡(luò)應(yīng)用服務(wù)器處于非正常運(yùn)行的狀態(tài),服務(wù)器處于假死、停止使用或者關(guān)閉導(dǎo)致無(wú)法正常運(yùn)行,都能稱(chēng)為宕機(jī)。
宕機(jī)的產(chǎn)生通常有三個(gè)原因,一個(gè)是由管理人員主動(dòng)將服務(wù)器重啟,用于更新維護(hù);第二個(gè)是非主動(dòng)重啟所造成的意外,如供電不足、震動(dòng)、硬件質(zhì)量、資源沖突、系統(tǒng)文件損壞、病毒等等;第三是用戶訪問(wèn)量過(guò)大,導(dǎo)致資源耗盡,數(shù)據(jù)溢出從而宕機(jī)。
當(dāng)然,理論上來(lái)說(shuō),訪問(wèn)量大并不會(huì)造成宕機(jī),不過(guò)當(dāng)服務(wù)器內(nèi)存滿了、CPU性能不足無(wú)法處理龐大數(shù)據(jù),都會(huì)導(dǎo)致信息處理速度變慢,或者拒絕新的服務(wù)請(qǐng)求。簡(jiǎn)而言之,配置過(guò)低,加錢(qián)就能解決。
另一方面,與個(gè)人PC不同的地方在于,服務(wù)器基本上全年365天都不會(huì)關(guān)機(jī),這就導(dǎo)致服務(wù)器宕機(jī)幾乎成為必然。
并且在現(xiàn)實(shí)生活中,服務(wù)器宕機(jī)的情況會(huì)更加復(fù)雜。通常如今云服務(wù)器會(huì)有多個(gè)節(jié)點(diǎn)做負(fù)載分散,這樣一來(lái)哪怕是其他節(jié)點(diǎn)都死機(jī),只有一個(gè)節(jié)點(diǎn)能夠工作也不會(huì)導(dǎo)致服務(wù)器的完全宕機(jī)。
如果是在普通情況下的確可行,但是萬(wàn)一遇到一波大量數(shù)據(jù)來(lái)襲,導(dǎo)致其中幾個(gè)節(jié)點(diǎn)暫時(shí)性負(fù)荷變高,反應(yīng)速度變慢,那么接下來(lái)短時(shí)間的所有流量都會(huì)被導(dǎo)入剩余的節(jié)點(diǎn)當(dāng)中,導(dǎo)致剩余的節(jié)點(diǎn)很難處理過(guò)量的數(shù)據(jù),最終導(dǎo)致服務(wù)器宕機(jī)。
也就是說(shuō),本來(lái)許多所有節(jié)點(diǎn)共同參與才能完成的工作,其中有幾個(gè)節(jié)點(diǎn)率先陣亡,導(dǎo)致剩下的節(jié)點(diǎn)壓力飆升,完蛋是遲早的事。
解決宕機(jī)問(wèn)題,是實(shí)現(xiàn)元宇宙的關(guān)鍵
已經(jīng)明白了宕機(jī)如何產(chǎn)生,那么解決服務(wù)器宕機(jī)的方法通常有兩個(gè),一個(gè)是及時(shí)發(fā)現(xiàn)服務(wù)器宕機(jī)的問(wèn)題,盡快修復(fù),避免不必要的損失,例如在負(fù)載節(jié)點(diǎn)還能支持的時(shí)候解決這一問(wèn)題;另一個(gè)則是額外準(zhǔn)備一個(gè)備用服務(wù)器,存放的內(nèi)容相同,但I(xiàn)P不同,并且機(jī)房的地理位置也不同,這樣發(fā)現(xiàn)宕機(jī)后能夠迅速修改服務(wù)器域名,切換至備用服務(wù)器解決問(wèn)題。
但有了解決方案卻并不意味著所有的問(wèn)題都能解決,比如最容易讓服務(wù)器發(fā)生宕機(jī)的情況就是訪問(wèn)量數(shù)據(jù)突然過(guò)大,導(dǎo)致服務(wù)器無(wú)法及時(shí)處理導(dǎo)致崩潰。而目前討論火熱的元宇宙,將對(duì)云服務(wù)器提出更為嚴(yán)峻的挑戰(zhàn)。
舉個(gè)例子,近十?dāng)?shù)年來(lái)雙十一都是用戶網(wǎng)絡(luò)購(gòu)物狂歡的節(jié)日,但過(guò)去許多用戶發(fā)現(xiàn),在雙十一當(dāng)晚零點(diǎn)購(gòu)物支付時(shí),會(huì)發(fā)生卡頓或者無(wú)法彈出相關(guān)界面的問(wèn)題,就是因?yàn)樵L問(wèn)量數(shù)據(jù)突然增大,導(dǎo)致后臺(tái)服務(wù)器無(wú)法處理造成系統(tǒng)卡頓的情況。
如今雙十一的購(gòu)物卡頓減少,也是因?yàn)榘⒗锾崆皬耐饨缱饬嗽S多服務(wù)器為了應(yīng)對(duì)這一局面,而平常并沒(méi)有這么多服務(wù)器來(lái)維持運(yùn)行。
如果元宇宙成真,那么支撐元宇宙的服務(wù)器或許將每時(shí)每刻都要面臨超過(guò)雙十一數(shù)千倍甚至上萬(wàn)倍的訪問(wèn)量,更何況元宇宙中的數(shù)據(jù)更為復(fù)雜,處理時(shí)需要的資源也更多。
海量的數(shù)據(jù)意味著海量的服務(wù)器,其背后的成本也將不是某個(gè)企業(yè)甚至某個(gè)國(guó)家能夠單獨(dú)完成的。如果還需要準(zhǔn)備備用服務(wù)器,那么成本更是一個(gè)天文數(shù)字。
但宕機(jī)問(wèn)題也是元宇宙必須要面對(duì)的,想要當(dāng)做人類(lèi)的第二世界,如果經(jīng)常發(fā)生卡頓、數(shù)據(jù)無(wú)法訪問(wèn)的情況,那么這個(gè)游戲永遠(yuǎn)也無(wú)法被稱(chēng)為元宇宙。
-
服務(wù)器
+關(guān)注
關(guān)注
12文章
9265瀏覽量
85790 -
云服務(wù)
+關(guān)注
關(guān)注
0文章
830瀏覽量
38962 -
元宇宙
+關(guān)注
關(guān)注
13文章
1397瀏覽量
11510
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論