在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

阿里云出現(xiàn)重大技術(shù)故障損失過億,阿里云故障真正原因是什么?

馬哥Linux運(yùn)維 ? 來(lái)源:未知 ? 作者:易水寒 ? 2018-07-17 15:16 ? 次閱讀

昨天,技術(shù)圈又出了攪動(dòng)全技術(shù)人的一次重大技術(shù)故障。記得上一次是攜程2015年癱瘓了11小時(shí),損失高達(dá)7000W+。

阿里云是國(guó)內(nèi)最大的云服務(wù)商,服務(wù)著制造、金融、政務(wù)、交通、醫(yī)療、電信、能源等眾多領(lǐng)域的領(lǐng)軍企業(yè),包括中國(guó)聯(lián)通、12306、中石化、中石油、飛利浦、華大基因等大型企業(yè)客戶,以及微博、知乎、錘子科技等明星互聯(lián)網(wǎng)公司。在天貓雙11全球狂歡節(jié)、12306春運(yùn)購(gòu)票等極富挑戰(zhàn)的應(yīng)用場(chǎng)景中,阿里云保持著良好的運(yùn)行紀(jì)錄。

6月27日下午,阿里云出現(xiàn)重大技術(shù)故障,故障于北京時(shí)間2018年6月27日,16:21左右開始,16:50分開始陸續(xù)恢復(fù)。官方給出的故障時(shí)間大概持續(xù)30分鐘,陸續(xù)恢復(fù)時(shí)間有一個(gè)小時(shí)多。

在6月27日凌晨時(shí)分,阿里云給了官方說明,最后官方給出的說明是:“我們?cè)谶\(yùn)維上的一個(gè)操作失誤,導(dǎo)致一些客戶訪問阿里云官網(wǎng)控制臺(tái)和使用部分產(chǎn)品功能出現(xiàn)問題。”引發(fā)了大量吐槽。

對(duì)于此故障的原因,網(wǎng)上傳的各種版本都有,傳的最多的是以下2個(gè)版本:

網(wǎng)上流傳故障原因版本一

網(wǎng)上流傳故障原因版本二

小編邀請(qǐng)?jiān)缊F(tuán)點(diǎn)評(píng)運(yùn)維架構(gòu)師&馬哥教育聯(lián)合創(chuàng)始人張sir對(duì)本次故障解讀:

“至于實(shí)習(xí)生誤刪登陸服務(wù)之說,應(yīng)該是不存在的,一方面,大型互聯(lián)網(wǎng)公司尤其是阿里云這樣的公司,對(duì)工程師權(quán)限有著極為嚴(yán)格的控制,因?yàn)榘⒗镌茢?shù)十萬(wàn)臺(tái)服務(wù)器,支撐了全國(guó)各行各業(yè)千億以上規(guī)模的線上業(yè)務(wù),不可能讓實(shí)習(xí)生不熟悉的情況下,給予過高的管理權(quán)限。這是極其不專業(yè)的做法"

”對(duì)于版本二的說法,說的比較含糊和籠統(tǒng),我通過內(nèi)部了解到原因:”

"這個(gè)說法跟阿里云官方通告是比較符合的,本次故障的嚴(yán)重程度是非常高的,故障級(jí)別定義在S1級(jí)別,整個(gè)阿里集團(tuán)的核心業(yè)務(wù),以及依托阿里云的公司,很多都受了影響。"

"對(duì)于企業(yè)來(lái)說,上線都是開發(fā)-測(cè)試-上線大致都是以下這樣的流程,通常開發(fā)會(huì)開發(fā)出來(lái)程序,然后交給測(cè)試工程師,測(cè)試工程師測(cè)試完成后,后提交給運(yùn)維工程師進(jìn)行線上服務(wù)配置以及業(yè)務(wù)上線。"

“本次故障,阿里官方說明:工程師團(tuán)隊(duì),在上線一次自動(dòng)化運(yùn)維新功能的時(shí)候,執(zhí)行了一項(xiàng)變更驗(yàn)證操作,這一項(xiàng)功能在測(cè)試環(huán)境驗(yàn)證中未出現(xiàn)問題,上線生產(chǎn)環(huán)境中,觸發(fā)了一個(gè)未知的bug。這個(gè)bug后來(lái)通過阿里的同學(xué)證實(shí):具體原因是一個(gè)核心的應(yīng)用在拉VIP列表的時(shí)候,返回了空列表,這就會(huì)導(dǎo)致上千VIP被禁用了。VIP = Virtual IP Address,虛擬IP地址,主要作用為集群的負(fù)載均衡的入口地址,可通過一個(gè)VIP的地址,實(shí)現(xiàn)一組業(yè)務(wù)的訪問,通常也叫集群負(fù)載均衡技術(shù)。VIP是集群業(yè)務(wù)的入口,如果數(shù)千個(gè)VIP被禁用了,可能后端上萬(wàn)臺(tái)的服務(wù)、應(yīng)用、數(shù)據(jù)庫(kù)等將直接無(wú)法訪問,本次故障盲點(diǎn),是測(cè)試通過了,在生產(chǎn)環(huán)境觸發(fā)了一個(gè)未知bug,導(dǎo)致核心應(yīng)用在拉取VIP列表時(shí),為空了,導(dǎo)致內(nèi)部的上千臺(tái)負(fù)載均衡不可用,從而后端的應(yīng)用也不可達(dá)。”

"如圖所示,對(duì)于大型互聯(lián)網(wǎng)公司,運(yùn)維技術(shù)架構(gòu)都是多層機(jī)構(gòu)。在內(nèi)部負(fù)載均衡上配置的VIP如果不可達(dá)的話,后端的service層和數(shù)據(jù)庫(kù)等內(nèi)容,都是不可達(dá)的,這也是為什么故障的時(shí)候,頁(yè)面能打開,但是報(bào)錯(cuò)為502故障,502錯(cuò)誤一般常為后端服務(wù)器不可用,這也說明了故障的根源所在。阿里的運(yùn)維團(tuán)隊(duì)故障響應(yīng)還是比較給力的,數(shù)千個(gè)VIP配置錯(cuò)誤,在半小時(shí)內(nèi)從發(fā)現(xiàn),到定位,到故障排除,以及解決,還是挺快的。”

“在一個(gè)龐大復(fù)雜的架構(gòu)體系中,會(huì)涉及到成千上萬(wàn)的配置以及幾十種技術(shù)的應(yīng)用,有時(shí)候可能因?yàn)橐粭l配置的錯(cuò)誤,會(huì)導(dǎo)致整個(gè)服務(wù)崩盤。而出故障時(shí),一位優(yōu)秀的運(yùn)維工程師,可為公司挽回巨大損失。運(yùn)維工程師目前已經(jīng)是各家互聯(lián)網(wǎng)公司必不可少的重要崗位,是要求有極高的技術(shù)能力和心理素質(zhì)(當(dāng)出現(xiàn)故障時(shí),耽誤一分鐘損失上百萬(wàn)的時(shí)候,那種壓力是常人無(wú)法理解的),所以這也是,為什么業(yè)內(nèi)優(yōu)秀的運(yùn)維工程師是比較稀缺的。一個(gè)優(yōu)秀的運(yùn)維工程師或者云計(jì)算工程師,是需要不斷的提升和學(xué)習(xí),因?yàn)楣镜臉I(yè)務(wù)需要不斷的完善架構(gòu)體系,保障服務(wù)正常運(yùn)行,以及服務(wù)性能和工作效率不斷的優(yōu)化和改進(jìn)。”

阿里云對(duì)于本次故障,還是非常坦誠(chéng)的:

"對(duì)于這次故障,沒有借口,我們不能也不該出現(xiàn)這樣的失誤!我們將認(rèn)真復(fù)盤改進(jìn)自動(dòng)化運(yùn)維技術(shù)和發(fā)布驗(yàn)證流程,敬畏每一行代碼,敬畏每一份托付。"

此次阿里云重大故障,網(wǎng)友們紛紛討論,運(yùn)維都要背鍋啦。其實(shí),運(yùn)維工程師這個(gè)群體,比你想象的要厲害,如果不是他們?yōu)榛ヂ?lián)網(wǎng)的業(yè)務(wù)保駕護(hù)航,可能故障遠(yuǎn)不止此。所以,對(duì)于錯(cuò)誤,我們應(yīng)該包容,錯(cuò)誤是成長(zhǎng)的必經(jīng)之路,更何況,人非圣賢孰能無(wú)過?

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 互聯(lián)網(wǎng)
    +關(guān)注

    關(guān)注

    54

    文章

    11168

    瀏覽量

    103481
  • 阿里云
    +關(guān)注

    關(guān)注

    3

    文章

    967

    瀏覽量

    43119
  • 運(yùn)維
    +關(guān)注

    關(guān)注

    1

    文章

    259

    瀏覽量

    7593

原文標(biāo)題:1000+公司業(yè)務(wù)癱瘓,損失過億,阿里云故障真正原因竟是這樣

文章出處:【微信號(hào):magedu-Linux,微信公眾號(hào):馬哥Linux運(yùn)維】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    學(xué)習(xí)阿里架構(gòu)選擇哪家培訓(xùn)機(jī)構(gòu)好?

    認(rèn)可的阿里技術(shù)證書,并可對(duì)接阿里人才庫(kù),全國(guó)5000多家企業(yè)任您選擇,高薪職位唾手可得!  老男孩教育
    發(fā)表于 12-20 15:31

    阿里1682背后的協(xié)同研發(fā)——效公共正式商業(yè)化

    提供了單個(gè)工作任務(wù)的多種操作,也支持整個(gè)項(xiàng)目和項(xiàng)目集合管理,使得用戶可以更加便捷跟進(jìn)工作。通過移動(dòng)效進(jìn)行項(xiàng)目管理阿里巴巴資深技術(shù)專家葉渡表示:“研發(fā)效能已經(jīng)成為軟件企業(yè)發(fā)展非常核心的競(jìng)爭(zhēng)力。
    發(fā)表于 12-25 12:02

    阿里方式大匯總

    摘要:前不久,阿里發(fā)布了一款遷神器,即 阿里工具,使用該遷
    發(fā)表于 12-25 14:33

    無(wú)邊界,阿里混合數(shù)據(jù)同步發(fā)布

    ,當(dāng)業(yè)務(wù)中心出現(xiàn)故障時(shí),快速將業(yè)務(wù)切換到容災(zāi)中心,秒級(jí)恢復(fù)業(yè)務(wù)。3、業(yè)務(wù)彈性擴(kuò)展因?yàn)?b class='flag-5'>云的靈活性、可擴(kuò)展性及低成本,業(yè)務(wù)在大促等突發(fā)流量時(shí),可以在阿里
    發(fā)表于 04-02 15:35

    阿里全球首次互聯(lián)網(wǎng)8K直播背后的技術(shù)解讀

    ,及時(shí)發(fā)現(xiàn)卡頓原因并解決。阿里巴巴杭州西溪園區(qū),距離深圳云棲大會(huì)的會(huì)場(chǎng)1300公里,如何保證這么遠(yuǎn)距離的大數(shù)據(jù)量穩(wěn)定傳輸,又是一個(gè)難題。如圖所示,通過專線,把直播現(xiàn)場(chǎng)(阿里巴巴杭州西溪園區(qū))連接到
    發(fā)表于 04-08 10:55

    阿里財(cái)報(bào):計(jì)算年度營(yíng)收133,季度營(yíng)收連續(xù)12個(gè)季度翻番

    摘要: 北京時(shí)間5月4日晚間,阿里巴巴集團(tuán)公布2018財(cái)年第四季度和全年財(cái)報(bào),該季度內(nèi)(2018年1月至3月底)阿里營(yíng)收43.85元,同比增長(zhǎng)103%;2018財(cái)年(2017年4月
    發(fā)表于 05-07 14:50

    阿里免費(fèi)使用及手冊(cè)

    自己使用阿里服務(wù)器搭建的一個(gè)個(gè)人知識(shí)分享博客網(wǎng)站,基于網(wǎng)站搭建過程,分享一些經(jīng)驗(yàn)。先對(duì)阿里服務(wù)器大體介紹下,后續(xù)有時(shí)間再分享技術(shù)方面的東
    發(fā)表于 05-10 21:17

    上拍客梨視頻 基于阿里技術(shù)實(shí)踐分享

    摘要: 梨視頻大部分的業(yè)務(wù)都選擇了阿里,其中一個(gè)主要原因是阿里提供基于釘釘群構(gòu)建的24貼身技術(shù)
    發(fā)表于 06-28 16:13

    阿里 APM 解決方案地圖

    ,取決于用戶是否進(jìn)一步使用容器技術(shù)來(lái)優(yōu)化開發(fā)和運(yùn)維。應(yīng)用還會(huì)直接依賴各類的PaaS/SaaS服務(wù),如OSS,OTS, MQ, RDS等,對(duì)應(yīng)用提供響應(yīng)平臺(tái)服務(wù),簡(jiǎn)化應(yīng)用的運(yùn)維成本。阿里
    發(fā)表于 07-05 16:54

    阿里平臺(tái)操作

    一、阿里平臺(tái)操作??首先我們要知道BC26連接阿里是連接阿里上的某個(gè)設(shè)備,因此首先需要在
    發(fā)表于 08-03 06:43

    Fibocom 公有阿里 技術(shù)資料

    Fibocom 公有阿里 技術(shù)資料內(nèi)容如下:1、阿里連接教程2、
    發(fā)表于 01-05 15:03

    阿里嚴(yán)重故障,全線產(chǎn)品受影響(已恢復(fù))

    故障原因與某個(gè)底層服務(wù)組件有關(guān),工程師正在緊急處理中 。 官方通告顯示,阿里全線產(chǎn)品受影響。 18:20 更新,官方回應(yīng): 2023-11-
    的頭像 發(fā)表于 11-13 00:26 ?919次閱讀
    <b class='flag-5'>阿里</b><b class='flag-5'>云</b>嚴(yán)重<b class='flag-5'>故障</b>,全線產(chǎn)品受影響(已恢復(fù))

    阿里故障是一次意外還是一次危機(jī)?

    和影響。 2023 年 4 月 8 日,阿里發(fā)生了一次史詩(shī)級(jí)的故障,導(dǎo)致多個(gè)區(qū)域的服務(wù)器、數(shù)據(jù)庫(kù)、存儲(chǔ)、網(wǎng)絡(luò)等服務(wù)出現(xiàn)不可用或性能下降的
    的頭像 發(fā)表于 11-13 00:28 ?316次閱讀

    阿里全球宕機(jī):從阿里故障看企業(yè) IT 挑戰(zhàn)

    2023 年 11 月 12 日晚,阿里遭遇了一場(chǎng)全球性故障,導(dǎo)致其全產(chǎn)品線全部崩潰,包括阿里盤、釘釘、淘寶、閑魚等服務(wù)。這次
    的頭像 發(fā)表于 11-13 00:28 ?433次閱讀

    阿里崩了:企業(yè)未來(lái)該怎么選擇廠商?

    出現(xiàn)大規(guī)模故障,也成為政企們熱議的話題,大家關(guān)心的問題在于:公有到底還安全嗎?是否還能繼續(xù)上?未來(lái)應(yīng)該采取哪些措施來(lái)保障穩(wěn)定可靠? 不要?jiǎng)訐u“上
    的頭像 發(fā)表于 11-23 10:18 ?389次閱讀
    <b class='flag-5'>阿里</b><b class='flag-5'>云</b>崩了:企業(yè)未來(lái)該怎么選擇<b class='flag-5'>云</b>廠商?
    主站蜘蛛池模板: 色综合天天网| 欧美性受一区二区三区| 好紧好爽水真多18| 中文字幕亚洲天堂| 99久在线| 丰满寡妇一级毛片| 拍真实国产伦偷精品| 五月婷婷六月爱| 素股中文字幕| 欧美三级色| 黑人破乌克兰美女处| bt天堂在线www种子搜索| 天天摸天天操免费播放小视频| 欧美精品影院| 午夜影视啪啪免费体验区深夜| 亚洲欧美一区二区三区四区| 中国一级做a爰片久久毛片| 四虎4545www国产精品| 亚洲 欧洲 另类 综合 自拍| 色午夜在线| 就去色综合| 亚洲午夜精品在线| 真实的国产乱xxxx在线| 天天干天天做天天射| 操综合网| 精品国产麻豆免费人成网站| 色综合久久五月| 加勒比综合网| 手机在线你懂的| 中文字幕视频二区| 性欧美videofree视频另类| 男人不识本站| 亚洲天天做日日做天天欢毛片| 国产综合免费视频| 老师您的兔子好软水好多动漫视频 | 四虎网址大全| 国内精品视频免费观看| 天天综合干| 夜色成人网| 色五月丁香五月综合五月| 国产伦理一区二区三区|