通常,這些公司會(huì)保證 99.999%(稱(chēng)為“五個(gè)九”),這相當(dāng)于每年的宕機(jī)時(shí)間少于六分鐘。這種正常運(yùn)行時(shí)間是通過(guò)使用許多基礎(chǔ)設(shè)施設(shè)計(jì)和因素來(lái)實(shí)現(xiàn)的,以幫助最大限度地減少出現(xiàn)問(wèn)題時(shí)的影響。那么我們應(yīng)該如何避免服務(wù)器宕機(jī)?以下是避免的四大方法:
1. 監(jiān)控和警報(bào)系統(tǒng)
您可以采取的防止宕機(jī)的最重要步驟之一是始終了解基礎(chǔ)架構(gòu)的情況。能夠在問(wèn)題發(fā)生之前發(fā)現(xiàn)和識(shí)別問(wèn)題或可能會(huì)中斷您的網(wǎng)站的訪問(wèn)能力是至關(guān)重要的。為此,您需要監(jiān)控基礎(chǔ)架構(gòu)的性能和威脅檢測(cè)。
存在大量軟件包和服務(wù)(例如Grafana、Munin 或 Pingdom),可讓您深入了解基礎(chǔ)架構(gòu)和站點(diǎn)的運(yùn)行情況。這些服務(wù)將幫助您監(jiān)控服務(wù)器運(yùn)行狀況,例如:
服務(wù)器負(fù)載。
磁盤(pán)空間。
硬件健康。
頁(yè)面加載時(shí)間。
軟件狀態(tài)。
威脅檢測(cè)和監(jiān)控對(duì)于阻止惡意軟件和攻擊者也至關(guān)重要,這些軟件將幫助您:
威脅監(jiān)控。
入侵檢測(cè)。
24/7 事件響應(yīng)。
和更多。
此外,您可以利用離線(xiàn)服務(wù)來(lái)了解您網(wǎng)站的訪問(wèn)者將如何體驗(yàn)它,詳細(xì)說(shuō)明網(wǎng)站從世界各地完全加載需要多長(zhǎng)時(shí)間,或者某些服務(wù)提供商是否在到達(dá)您的網(wǎng)站時(shí)遇到問(wèn)題地點(diǎn)。
這種對(duì)潛在問(wèn)題的早期警告可以幫助您提前解決問(wèn)題并防止它成為導(dǎo)致實(shí)際宕機(jī)的問(wèn)題。
2. 高可用性
如果您的站點(diǎn)必須能夠承受任何類(lèi)型的物理中斷(例如服務(wù)器中的某個(gè)硬件發(fā)生故障或服務(wù)器斷電),那么第一步是確保您使用高可用性 (HA)設(shè)置。
高可用性可以通過(guò)使用一臺(tái)服務(wù)器(我們可以稱(chēng)之為主服務(wù)器)來(lái)處理所有流量,但另外一臺(tái)服務(wù)器(稱(chēng)為輔助服務(wù)器)等待事件發(fā)生,例如流量高峰。此附加服務(wù)器不斷與主服務(wù)器同步數(shù)據(jù)和文件。
當(dāng)主服務(wù)器遇到問(wèn)題時(shí),輔助服務(wù)器幾乎會(huì)立即接管并繼續(xù)為您的站點(diǎn)提供服務(wù)。這種特定類(lèi)型的關(guān)系可以稱(chēng)為自動(dòng)故障轉(zhuǎn)移或主動(dòng)/被動(dòng),并且非常常見(jiàn),尤其是對(duì)于數(shù)據(jù)庫(kù)服務(wù)器。
另一種需要注意的高可用性形式是主動(dòng)/主動(dòng)服務(wù)器關(guān)系。在這種 HA 形式中,您讓兩臺(tái)服務(wù)器同時(shí)接收數(shù)據(jù)并將其返回給訪問(wèn)者,同時(shí)在彼此之間同步數(shù)據(jù)。這樣做的主要好處是在出現(xiàn)問(wèn)題時(shí)無(wú)需等待輔助服務(wù)器接管。
主動(dòng)/主動(dòng) HA 設(shè)置要復(fù)雜得多,需要仔細(xì)準(zhǔn)備和密切監(jiān)控以確保您沒(méi)有問(wèn)題,但它是可靠的,可以保護(hù)具有任務(wù)關(guān)鍵型工作負(fù)載或需要保持在線(xiàn)的應(yīng)用程序的 SME。
3. 地理冗余
獲得高可用性的另一個(gè)概念是讓您的托管基礎(chǔ)設(shè)施位于物理上相距很遠(yuǎn)的不同區(qū)域。這個(gè)想法是,如果發(fā)生自然災(zāi)害或?yàn)?zāi)難性停電,您擁有的基礎(chǔ)設(shè)施將相隔足夠大的距離,不會(huì)影響兩個(gè)位置。
當(dāng)位置 A 發(fā)生中斷時(shí),位置 B 的服務(wù)器會(huì)檢測(cè)到問(wèn)題并準(zhǔn)備好接收流量。雖然貴了一倍,但這是確保您的網(wǎng)站保持在線(xiàn)的最有效方法之一。
在活動(dòng)期間在線(xiàn)產(chǎn)生的收入可以輕松支付足夠大企業(yè)的第二套基礎(chǔ)設(shè)施的成本。
地理冗余解決方案非常復(fù)雜,通常需要大量服務(wù)和監(jiān)控解決方案才能有效地執(zhí)行從位置 A 到 B 的切換。數(shù)據(jù)同步(以確保訪問(wèn)者訪問(wèn)的任何位置都是另一個(gè)位置的鏡像)、DNS 更改(需要當(dāng)站點(diǎn)脫機(jī)時(shí)將客戶(hù)端瀏覽器定向到適當(dāng)?shù)奈恢茫┖投囗?xiàng)健康檢查(以確保簡(jiǎn)單的失敗 ping 不會(huì)對(duì)整個(gè)站點(diǎn)進(jìn)行故障轉(zhuǎn)移)只是有效和安全地運(yùn)行基礎(chǔ)架構(gòu)所需的部分內(nèi)容以地理冗余的方式。
這些類(lèi)型的設(shè)置通常是為托管環(huán)境保留的,在這些環(huán)境中,應(yīng)用程序或網(wǎng)站保持在線(xiàn)是絕對(duì)關(guān)鍵的。
4. 代碼版本控制和恢復(fù)
上面,我簡(jiǎn)要談到了人為參與導(dǎo)致中斷的想法。雖然不可能 100% 防止個(gè)人可能向我們的托管基礎(chǔ)設(shè)施引入的所有潛在問(wèn)題,但我們能夠采取預(yù)防措施將影響和風(fēng)險(xiǎn)降至最低。
確保員工(甚至您自己)所做的任何更改都得到另一個(gè)人的審查,這是驗(yàn)證代碼或更改是否安全、健全且不會(huì)引入重大更改的絕佳步驟。此代碼審查或同行審查是大型組織為確保不會(huì)遺漏意外拼寫(xiě)錯(cuò)誤或沖突而采取的關(guān)鍵步驟。
然而,錯(cuò)誤發(fā)生了,人們?nèi)菀追稿e(cuò)。為了幫助防止這種情況,可以使用代碼版本控制來(lái)幫助減少最近實(shí)施的更改造成的停機(jī)時(shí)間。使用版本控制時(shí),任何和所有更改都會(huì)自動(dòng)記錄,從而創(chuàng)建所做更改的歷史記錄。
如果某些更改破壞了您網(wǎng)站的某些部分(無(wú)論是視覺(jué)差異、與某些本地或第三方服務(wù)的連接,甚至是文件的意外刪除),您可以查看已提交的確切更改并將其還原。這種運(yùn)行的更改日志可以輕松跟蹤已完成的操作,并使您能夠準(zhǔn)確地確定發(fā)生重大更改的時(shí)間以及需要采取哪些措施來(lái)糾正它。
服務(wù)器宕機(jī)對(duì)您的業(yè)務(wù)來(lái)說(shuō)是一個(gè)潛在的破壞性事件。在某些時(shí)候,幾乎每個(gè)站點(diǎn)都會(huì)遇到某種類(lèi)型的宕機(jī),即使這是他們無(wú)法控制的問(wèn)題。托管網(wǎng)站時(shí)有許多原因和潛在的故障點(diǎn),所有這些都可能導(dǎo)致訪問(wèn)者體驗(yàn)不佳或完全無(wú)法訪問(wèn)您的網(wǎng)站。希望以上的內(nèi)容能幫助到大家。
Copyright ? 2013-2020. All Rights Reserved. 恒訊科技 深圳市恒訊科技有限公司 粵ICP備20052954號(hào) IDC證:B1-20230800.移動(dòng)站