3大常見(jiàn)的服務(wù)器硬件故障你是否遭遇過(guò)

我要評(píng)論 2010/11/28 17:00:29 來(lái)源：綠色資源網(wǎng) 編輯：綠色軟件站 [大中小] 評(píng)論:0 點(diǎn)擊:238次

　　如今，談及X86服務(wù)器平臺(tái)的CPU，很多人可能對(duì)英特爾和AMD兩大芯片巨頭的產(chǎn)品如數(shù)家珍，從之前的至強(qiáng)5400到主流的至強(qiáng)5600、至強(qiáng)7500，以及AMD強(qiáng)勁的12核心x86處理器“Magny-Cours”（馬尼庫(kù)爾）等等。同時(shí)，服務(wù)器的另外兩個(gè)核心在CPU的基礎(chǔ)上作用不容小視，以帶ECC、ChipKill、熱插拔技術(shù)的內(nèi)存，防止數(shù)據(jù)異常丟失的RAID硬盤(pán)等組件共同打造出一個(gè)堅(jiān)若磐石的X86服務(wù)器。

　　但由于X86服務(wù)器和臺(tái)式機(jī)有著很多相似之處，無(wú)論是從前期部署、中期維護(hù)到后期管理都有著眾多相似之處。因此，X86服務(wù)器盡管有著成熟穩(wěn)定的架構(gòu)體系，也不免出現(xiàn)“罷工”。特別是企業(yè)負(fù)載應(yīng)用得多了，遇到的故障是很平常的事情，以三大組件出現(xiàn)的故障與大家共同分享，可以有效避免大家在以后的業(yè)務(wù)平臺(tái)上出現(xiàn)。

　　服務(wù)器核心——CPU

　　危害程度：★

　　故障回放：做過(guò)測(cè)試的朋友知道，一臺(tái)基于Intel至強(qiáng)服務(wù)器，開(kāi)機(jī)無(wú)顯示，系統(tǒng)指示燈瘋狂的閃爍，最直接懷疑是CPU與主板的接觸不良，但將其更換到多路服務(wù)器主板的另外一個(gè)CPU插槽之上，依舊沒(méi)有反應(yīng)。

　　解決方案：在這種狀況下經(jīng)測(cè)量，CPU電壓居然出現(xiàn)異常，原來(lái)是CPU的VRM（Voltage Regulator Module，電壓調(diào)節(jié)模塊）出現(xiàn)了故障，不能執(zhí)行主板上DC電路轉(zhuǎn)換，無(wú)法為CPU提供穩(wěn)定的工作電壓，至此只能更換CPU。

　　筆者認(rèn)為這個(gè)故障是比較致命，CPU的損壞將直接導(dǎo)致整個(gè)服務(wù)器的不可用，但是CPU本身的安全性是非常高的，故障率極低。所以在日常維護(hù)任務(wù)中，由于CPU的損壞導(dǎo)致的服務(wù)中斷情況是較為少見(jiàn)，它的危害程度不算太高，如果是多路服務(wù)器更是不用擔(dān)心CPU損壞而帶來(lái)的服務(wù)器宕機(jī)了。

　　服務(wù)器平臺(tái)的另外兩大核心，莫過(guò)于內(nèi)存和硬盤(pán)，具體到內(nèi)存的選擇上，服務(wù)器內(nèi)存與普通臺(tái)式機(jī)內(nèi)存還是有一些差異的。仔細(xì)觀察過(guò)服務(wù)器內(nèi)存的用戶會(huì)發(fā)現(xiàn)，相比普通內(nèi)存單面8顆粒的設(shè)計(jì)，服務(wù)器內(nèi)存通常單面有9顆芯片，這就是我們常說(shuō)的ECC內(nèi)存。

　　服務(wù)器讀取性能——內(nèi)存

　　危害程度：★★☆

　　故障回放：之前在一臺(tái)安裝2條2GB內(nèi)存的服務(wù)器上，由于自身承載的服務(wù)過(guò)多，服務(wù)器的處理數(shù)據(jù)的速度越來(lái)越慢，于是，通過(guò)增加2條同型號(hào)的內(nèi)存條來(lái)升級(jí)服務(wù)器。將這些內(nèi)存全部插入主板后，系統(tǒng)檢測(cè)只有6GB，另外2GB內(nèi)存神秘消失，反復(fù)的插拔新的內(nèi)存依舊無(wú)法正常檢測(cè)。

　　解決方案：通過(guò)服務(wù)器產(chǎn)品官方網(wǎng)站了解，該種情況是因?yàn)樵摲?wù)器的內(nèi)存插槽是配對(duì)使用，1-4、2-5、3-6、7-10、8-11、9-12，新內(nèi)存插在了2、3槽，無(wú)法形成配對(duì)，自然只能檢測(cè)出一條內(nèi)存，將內(nèi)存插到5槽，8GB內(nèi)存順利被檢測(cè)。

　　可見(jiàn)，服務(wù)器內(nèi)存的優(yōu)勢(shì)不僅僅體現(xiàn)在性能上，在容錯(cuò)能力同樣投入很多精力，目的是為整個(gè)平臺(tái)提供高穩(wěn)定環(huán)境，之前提到的內(nèi)存采用的ECC（錯(cuò)誤檢查和糾正）技術(shù)、Register、Chipkill都是為了提高內(nèi)存的穩(wěn)定性，使各個(gè)內(nèi)存條和插槽之間能更好的融合。

　　作為服務(wù)器存儲(chǔ)終端，硬盤(pán)的穩(wěn)定工作關(guān)系到企業(yè)數(shù)據(jù)的安全，服務(wù)器硬盤(pán)就是這個(gè)核心的數(shù)據(jù)倉(cāng)庫(kù)，所有的軟件和數(shù)據(jù)都存儲(chǔ)在這里，因此服務(wù)器硬盤(pán)對(duì)可靠性和穩(wěn)定性有著非常高的要求。

　　另外，服務(wù)器一般需要24*7小時(shí)不停的運(yùn)行，其硬盤(pán)也要24小時(shí)不停的運(yùn)轉(zhuǎn)。因此，服務(wù)器硬盤(pán)對(duì)穩(wěn)定性和可靠性有著很高的要求。服務(wù)器市場(chǎng)上采用的硬盤(pán)主要有三種，SATA硬盤(pán)、SCSI硬盤(pán)以及SAS硬盤(pán)，其中SATA硬盤(pán)主要應(yīng)用在低端服務(wù)器領(lǐng)域，而SCSI和SAS硬盤(pán)則面向中高端服務(wù)器。

　　服務(wù)器存儲(chǔ)核心——硬盤(pán)

　　危害程度：★★☆

　　故障回放：每臺(tái)服務(wù)器會(huì)出現(xiàn)死機(jī)、無(wú)征兆的重啟，如果頻繁出現(xiàn)，就會(huì)經(jīng)數(shù)據(jù)中心IT運(yùn)維人員進(jìn)行檢測(cè)后發(fā)現(xiàn)是硬盤(pán)工作時(shí)間太長(zhǎng)，出現(xiàn)了物理壞道。于是立即將硬盤(pán)做備份和更換是最佳解決辦法，將硬盤(pán)內(nèi)的數(shù)據(jù)導(dǎo)出，結(jié)果在轉(zhuǎn)移數(shù)據(jù)的過(guò)程中，不停地彈出I/O錯(cuò)誤，這直接導(dǎo)致數(shù)據(jù)轉(zhuǎn)移的速度非常慢，且丟失了很多重要數(shù)據(jù)。

　　解決方案：這種情況多數(shù)是磁頭或者盤(pán)片出現(xiàn)了錯(cuò)誤。如果拆開(kāi)硬盤(pán)盤(pán)片出現(xiàn)了劃傷，但面積并不大，通過(guò)專(zhuān)業(yè)的公司可以通過(guò)更換磁頭后重新恢復(fù)數(shù)據(jù)，恢復(fù)了95%以上的數(shù)據(jù)，這種情況相對(duì)來(lái)說(shuō)比較幸運(yùn)。

　　但通常說(shuō)防患于未然，如果這個(gè)故障發(fā)現(xiàn)的及時(shí)，在盤(pán)片沒(méi)有出現(xiàn)更多物理?yè)p傷前予以解決，一旦等到盤(pán)片損壞嚴(yán)重，數(shù)據(jù)將永久性丟失，為了避免這種狀況的發(fā)生建議做到以下：

　　在硬盤(pán)選擇上，要專(zhuān)業(yè)的服務(wù)器硬盤(pán)，比如：平均無(wú)故障時(shí)間超過(guò)1600000小時(shí)，年故障率低于0.55%，抗震方面要有300G/2ms的以上的耐沖擊能力等等，此外應(yīng)用相關(guān)服務(wù)器RAID陣列技術(shù)，比如：RAID5，它由至少3塊硬盤(pán)組成，在向硬盤(pán)寫(xiě)入數(shù)據(jù)信息的同時(shí)，還寫(xiě)入校驗(yàn)信息，當(dāng)其中有1塊硬盤(pán)出現(xiàn)故障時(shí)，可以根據(jù)算法從另外2塊硬盤(pán)上得出這塊故障硬盤(pán)的數(shù)據(jù)，安全性大大提高。

　　以上三大組件的故障僅僅是拋磚引玉的簡(jiǎn)單介紹，其實(shí)在服務(wù)器故障方面不僅僅限于這幾點(diǎn)，在電源、管理模塊以及網(wǎng)卡方面也有類(lèi)似的問(wèn)題，希望用戶在應(yīng)用中多多積累經(jīng)驗(yàn)，盡可能減小故障的發(fā)生率，提供一個(gè)穩(wěn)定靈活的IT應(yīng)用環(huán)境。

關(guān)鍵詞：服務(wù)器硬件故障