云服務(wù)的故障很嚴(yán)重。故障期間和故障之后的服務(wù)中斷讓事情變得更糟糕。微軟的高管們對此非常了解,并且計(jì)劃改進(jìn)該公司處理Azure故障的溝通方式。
我注意到微軟已經(jīng)越來越少地使用Azure狀態(tài)頁面來通知用戶云服務(wù)故障,這種情況已經(jīng)持續(xù)了一段時(shí)間了。早在今年三月份,美國東部地區(qū)出現(xiàn)了幾個(gè)小時(shí)的故障——這是微軟最活躍的區(qū)域之一,狀態(tài)頁面上就沒有關(guān)于此次故障的消息——而推特上對此事的抗議和吐槽也很少(這是云服務(wù)故障的另一個(gè)重要的晴雨表)。
事實(shí)證明,這種安靜是設(shè)計(jì)的結(jié)果。微軟一直在努力讓其云用戶進(jìn)入其個(gè)性化的Service Health頁面,而不是面向公眾的Azure狀態(tài)網(wǎng)站。而且,該公司在推特上的Azure支持帳戶一直在嘗試引導(dǎo)用戶查看這些頁面,并且/或者在用戶需要有關(guān)故障的最新信息時(shí)直接向該帳戶發(fā)送消息。 (說服用戶擺脫推特的束縛也有利于讓我們這些令人討厭的記者更難跟蹤故障的情況,從而減少了“Azure故障”標(biāo)題出現(xiàn)的數(shù)量。)
在本周的博客中,負(fù)責(zé)Azure故障溝通流程的首席項(xiàng)目經(jīng)理Sami Kubba介紹了微軟目前的狀況以及該公司在故障溝通方面的一些打算。他的帖子是微軟一系列文章的一部分,這個(gè)系列的文章介紹了微軟努力改進(jìn)Azure可靠性、性能等工作采取的一些措施和方法。
他指出,微軟的目標(biāo)是在故障出現(xiàn)的15分鐘之內(nèi),通知所有受到影響的Azure訂閱用戶。微軟使用人類和自動(dòng)通知機(jī)制來完成這項(xiàng)工作。他表示,通過服務(wù)運(yùn)行狀況(Service Health)發(fā)出的自動(dòng)通知在上季度微軟故障溝通量中已經(jīng)占到了總量的一半以上。Kubba表示,微軟的目標(biāo)是繼續(xù)減少公司通知用戶故障的時(shí)間。
他補(bǔ)充表示:“擴(kuò)展我們對基于人工智能的操作以自動(dòng)識(shí)別相關(guān)受影響的服務(wù),并且在問題得到解決之后,盡快發(fā)送解決方案消息,我們目前還處在這個(gè)進(jìn)程的早期階段。”
Kubba承認(rèn),微軟目前只通過公共Azure狀態(tài)頁面來通告“廣泛的”故障——這意味著影響了多個(gè)區(qū)域和/或服務(wù)的故障。微軟通過Service Health直接與受影響的客戶進(jìn)行內(nèi)部溝通,并用這種方式解決了目前95%的故障。Kubba表示之所以會(huì)有這么高的比例,主要是因?yàn)榻^大多數(shù)故障只會(huì)影響很小一部分訂閱用戶。
Azure Service Health是一套體驗(yàn),可為Azure服務(wù)問題提供個(gè)性化指導(dǎo)和支持,包括故障甚至是計(jì)劃內(nèi)的維護(hù)。AzureService Health由Azure狀態(tài)、Service Health服務(wù)和Resource Health組成。
Kubba表示,微軟正在努力在該公司其他的云產(chǎn)品(包括Microsoft 365和Power Platform)中推廣這種故障通告系統(tǒng),從而使之保持一致?蛻裟壳耙呀(jīng)可以在推特上看到M365狀態(tài)帳戶,它將用戶引導(dǎo)到該公司的門戶,并在故障出現(xiàn)時(shí)直接將消息發(fā)送到那里。
正如我過去所指出的,此系統(tǒng)適用于管理員以及具有管理員訪問權(quán)限的云帳戶用戶。但是,在故障出現(xiàn)的時(shí)候,除非IT部門在內(nèi)部向用戶發(fā)出通告,否則仍然會(huì)有很多用戶會(huì)到推特上發(fā)問,看看是否有其他人也遇到了同樣的情況,并且詢問Office 365故障到底是何時(shí)發(fā)生的之類的問題。
Kubba確實(shí)表示過,在比較小的故障之后,客戶可以要求事后報(bào)告(比較大的故障將有公開的執(zhí)行報(bào)告),他表示該團(tuán)隊(duì)一直努力使事情變得更加透明,并且向用戶展示微軟為了解決與當(dāng)前故障同類型的問題會(huì)采取的具體步驟。來源:ZDNet