< 返回新聞公共列表

如何避免服務器宕機?

發(fā)布時間:2022-03-29 14:22:40

通常,這些公司會保證 99.999%(稱為“五個九”),這相當于每年的宕機時間少于六分鐘。這種正常運行時間是通過使用許多基礎設施設計和因素來實現的,以幫助最大限度地減少出現問題時的影響。那么我們應該如何避免服務器宕?以下是避免的四大方法:


1. 監(jiān)控和警報系統(tǒng)

您可以采取的防止宕機的最重要步驟之一是始終了解基礎架構的情況。能夠在問題發(fā)生之前發(fā)現和識別問題或可能會中斷您的網站的訪問能力是至關重要的。為此,您需要監(jiān)控基礎架構的性能和威脅檢測。

存在大量軟件包和服務(例如Grafana、Munin 或 Pingdom),可讓您深入了解基礎架構和站點的運行情況。這些服務將幫助您監(jiān)控服務器運行狀況,例如:

服務器負載。

磁盤空間。

硬件健康。

頁面加載時間。

軟件狀態(tài)。

威脅檢測和監(jiān)控對于阻止惡意軟件和攻擊者也至關重要,這些軟件將幫助您:

威脅監(jiān)控。

入侵檢測。

24/7 事件響應。

和更多。

此外,您可以利用離線服務來了解您網站的訪問者將如何體驗它,詳細說明網站從世界各地完全加載需要多長時間,或者某些服務提供商是否在到達您的網站時遇到問題地點。 

這種對潛在問題的早期警告可以幫助您提前解決問題并防止它成為導致實際宕機的問題。


2. 高可用性

如果您的站點必須能夠承受任何類型的物理中斷(例如服務器中的某個硬件發(fā)生故障或服務器斷電),那么第一步是確保您使用高可用性 (HA)設置。

高可用性可以通過使用一臺服務器(我們可以稱之為主服務器)來處理所有流量,但另外一臺服務器(稱為輔助服務器)等待事件發(fā)生,例如流量高峰。此附加服務器不斷與主服務器同步數據和文件。 

當主服務器遇到問題時,輔助服務器幾乎會立即接管并繼續(xù)為您的站點提供服務。這種特定類型的關系可以稱為自動故障轉移或主動/被動,并且非常常見,尤其是對于數據庫服務器。

另一種需要注意的高可用性形式是主動/主動服務器關系。在這種 HA 形式中,您讓兩臺服務器同時接收數據并將其返回給訪問者,同時在彼此之間同步數據。這樣做的主要好處是在出現問題時無需等待輔助服務器接管。

主動/主動 HA 設置要復雜得多,需要仔細準備和密切監(jiān)控以確保您沒有問題,但它是可靠的,可以保護具有任務關鍵型工作負載或需要保持在線的應用程序的 SME。


3. 地理冗余

獲得高可用性的另一個概念是讓您的托管基礎設施位于物理上相距很遠的不同區(qū)域。這個想法是,如果發(fā)生自然災害或災難性停電,您擁有的基礎設施將相隔足夠大的距離,不會影響兩個位置。 

當位置 A 發(fā)生中斷時,位置 B 的服務器會檢測到問題并準備好接收流量。雖然貴了一倍,但這是確保您的網站保持在線的最有效方法之一。

在活動期間在線產生的收入可以輕松支付足夠大企業(yè)的第二套基礎設施的成本。

地理冗余解決方案非常復雜,通常需要大量服務和監(jiān)控解決方案才能有效地執(zhí)行從位置 A 到 B 的切換。數據同步(以確保訪問者訪問的任何位置都是另一個位置的鏡像)、DNS 更改(需要當站點脫機時將客戶端瀏覽器定向到適當的位置)和多項健康檢查(以確保簡單的失敗 ping 不會對整個站點進行故障轉移)只是有效和安全地運行基礎架構所需的部分內容以地理冗余的方式。

這些類型的設置通常是為托管環(huán)境保留的,在這些環(huán)境中,應用程序或網站保持在線是絕對關鍵的。


4. 代碼版本控制和恢復

上面,我簡要談到了人為參與導致中斷的想法。雖然不可能 100% 防止個人可能向我們的托管基礎設施引入的所有潛在問題,但我們能夠采取預防措施將影響和風險降至最低。 

確保員工(甚至您自己)所做的任何更改都得到另一個人的審查,這是驗證代碼或更改是否安全、健全且不會引入重大更改的絕佳步驟。此代碼審查或同行審查是大型組織為確保不會遺漏意外拼寫錯誤或沖突而采取的關鍵步驟。

然而,錯誤發(fā)生了,人們容易犯錯。為了幫助防止這種情況,可以使用代碼版本控制來幫助減少最近實施的更改造成的停機時間。使用版本控制時,任何和所有更改都會自動記錄,從而創(chuàng)建所做更改的歷史記錄。 

如果某些更改破壞了您網站的某些部分(無論是視覺差異、與某些本地或第三方服務的連接,甚至是文件的意外刪除),您可以查看已提交的確切更改并將其還原。這種運行的更改日志可以輕松跟蹤已完成的操作,并使您能夠準確地確定發(fā)生重大更改的時間以及需要采取哪些措施來糾正它。


服務器宕機.jpg


服務器宕機對您的業(yè)務來說是一個潛在的破壞性事件。在某些時候,幾乎每個站點都會遇到某種類型的宕機,即使這是他們無法控制的問題。托管網站時有許多原因和潛在的故障點,所有這些都可能導致訪問者體驗不佳或完全無法訪問您的網站。希望以上的內容能幫助到大家。



/template/Home/Zkeys724/PC/Static