微軟Azure云的用戶發現在周二的大規模故障中丟失了數據庫記錄。報告稱,DNS故障和自動腳本兩者正是事故的罪魁禍首。
微軟在Azure中刪除了幾個透明數據加密(TDE,TransparentDataEncryption)的AzureSQL數據庫,其中包含客戶的實時信息。TDE數據庫會動態加密它們存儲的信息,并在客戶訪問時對其進行解密。
雖然加密這些表有不同的方法,但許多Azure用戶將自己的加密密鑰存儲在微軟的KeyVault加密密鑰管理系統中,這個過程稱為自帶密鑰(BYOK,BringYourOwnKey)。
據微軟在一封發給客戶的信函中解釋說,這些刪除操作是自動執行的,由一個腳本觸發,原因在于該腳本在密鑰保險庫中無法再訪問相應的密鑰時會刪除TDE數據庫表。
意外刪庫后,微軟不得不利用5分鐘前的快照備份恢復了客戶數據,但這意味著5分鐘內客戶的交易事務、產品訂單以及對數據存儲系統的其他更新統統丟失,需要手動進行處理。在這種情況下,客戶提出必須要微軟提供支持的工單,并要求將數據庫副本重命名為原始數據庫。
微軟則一直在竭力解釋:“如果TDE加密的SQL數據庫因無法繞過防火墻而訪問不了密鑰保險柜,數據庫將在24小時內被刪除。”
作為補償,微軟表示會免費提供數月的數據庫服務:
那為什么會出現「刪庫」事故呢?答案源于本周微軟及其Azure客戶面臨的更大問題。周二,全球的云服務遭到破壞,引發了一系列問題。其中包括間歇性訪問Office365失敗,Azure云資源的調度使用也下降了。
根據微軟當時的Azure狀態頁面,這個問題反過來又歸結為DNS中斷故障:
報告顯示,此次DNS故障來自CenturyLink,后者為微軟提供DNS服務。該公司在一份聲明中說,當天遭遇了軟件缺陷。這表明當基于云的系統互連并且足夠自動化以允許級聯故障時可能會出現問題。由于缺乏人工干預,DNS供應商的軟件缺陷間接導致了客戶實時信息的刪除。
CenturyLink最近似乎遇到了串行DNS問題。該公司在2017年底完成了以340億美元收購大型網絡運營商Level3的計劃,該公司還在12月遭遇了DNS中斷事故,據報道,該中斷影響了緊急服務,引發了聯邦通信委員會的調查。
(
邯鄲網站建設)