3大常见的服务器硬件故障 你是否遭遇过
如今💪,谈及【tán jí】X86服务器🍰平台的【píng tái de】CPU,很多人【hěn duō rén】可能对🐁英特尔【yīng tè ěr】👫和【hé】🆗AMD两大芯片巨头的产品如数家😕珍🧚,从之前【cóng zhī qián】的至强🥓5400到主流的至强🥓5600、至强🥓7500,以及AMD强劲的🎗12核心x86处理器【chù lǐ qì】“Magny-Cours”(马尼库【mǎ ní kù】尔【ěr】)等等。同时🦀,服务器🍰的另外两个核💄心在【xīn zài】CPU的基础【de jī chǔ】上作用【shàng zuò yòng】👭不容小🔏视,以带ECC、ChipKill、热插拔技术的【jì shù de】内存【nèi cún】,防止数据异常丢失的RAID硬盘等组件共【zǔ jiàn gòng】同打造🌏出一个🌖坚若磐石的X86服务器🍰。
但由于【dàn yóu yú】X86服务器和台式🎁机有着🥛很多相似之处【sì zhī chù】,无论是🚴从前期部署、中期维【zhōng qī wéi】护到后👗期管理都有着众多相🏼似之处【sì zhī chù】。因此🏧,X86服务器尽管有着成熟【zhe chéng shú】稳定的【wěn dìng de】架构体【jià gòu tǐ】系,也不免出现“罢工【bà gōng】”。特别是📞企业负【qǐ yè fù】载应用得多了【dé duō le】🤰,遇到的【yù dào de】故障是很平常🌼的事情💳,以三大【yǐ sān dà】组件出🤵现的故🏡障与大家共同分享,可以有【kě yǐ yǒu】效避免大家在🚬以后的业务平【yè wù píng】🆕台上出【tái shàng chū】现。
服务器【fú wù qì】核心🎴——CPU
危害程度:★
故障回【gù zhàng huí】放:做过测【zuò guò cè】试的朋友知道【yǒu zhī dào】,一台基于🎽Intel至强服【zhì qiáng fú】务器【wù qì】😅,开机无【kāi jī wú】显示【xiǎn shì】🦕,系统指【xì tǒng zhǐ】示灯疯【shì dēng fēng】狂的闪烁,最直接🥩怀疑是【huái yí shì】CPU与主板😥的接触🌬不良⬇,但将其更换到多路服务器【wù qì】😅主板的另外一个CPU插槽之上,依旧没🧖有反应☕。
解决方案:在这种状况下🦒经测量🚰,CPU电压居然出现异常,原来是【yuán lái shì】CPU的【de】VRM(Voltage Regulator Module,电压调🎪节模块)出现了🌩故障【gù zhàng】🔂,不能执🏢行主板上DC电路转【diàn lù zhuǎn】♏换,无法为CPU提供稳【tí gòng wěn】⏭定的工【dìng de gōng】作电压【zuò diàn yā】,至此只【zhì cǐ zhī】能更换CPU。
笔者认【bǐ zhě rèn】为这个故障是比较致命🖋,CPU的损坏🌹将直接导致整个服务【gè fú wù】👺器的不可用【kě yòng】🐏,但是【dàn shì】CPU本身的【běn shēn de】🌡安全性是非常高的,故障率【gù zhàng lǜ】✝极低。所以在🔙日常维护任务【hù rèn wù】中【zhōng】,由于CPU的损坏🌹导致的【dǎo zhì de】🌘服务中【fú wù zhōng】断情况🛀是较为少见,它的危❓害程度不算太【bú suàn tài】高,如果是【rú guǒ shì】🈂多路服👟务器更是不用【shì bú yòng】🕛担心CPU损坏而带来的服务器宕机了。
服务器【fú wù qì】平台的另外两大核心,莫过于内存【nèi cún】和😂硬盘,具体到【jù tǐ dào】⛰内存【nèi cún】的选择上【xuǎn zé shàng】🛁,服务器【fú wù qì】内【nèi】🗃存与普通台式【tōng tái shì】机内存【jī nèi cún】还是有一些🐝差异的【chà yì de】🖌。仔细观察过服【chá guò fú】务器内【nèi】🗃存的用户会发现,相比普通内存【nèi cún】单面【dān miàn】8颗粒的🚄设计,服务器【fú wù qì】内【nèi】🗃存通常【cún tōng cháng】单面【dān miàn】有⛩9颗芯片🐿,这就是【zhè jiù shì】🔉我们常说的📔ECC内存【nèi cún】。
服务器【fú wù qì】📙读取性💐能【néng】——内存
危害程度:★★☆
故障回放💕:之前在【zhī qián zài】😡一台安装😆2条2GB内存的【nèi cún de】服务器【fú wù qì】💗上,由于自【yóu yú zì】身承载🏐的服务过多【guò duō】🔂,服务器【fú wù qì】💗的处理数据的【shù jù de】🍧速度越来越慢【lái yuè màn】,于是,通过增加【jiā】2条同型【tiáo tóng xíng】🍼号的内🍚存条来升级服务器【fú wù qì】💗。将这些🥡内存全【nèi cún quán】部插入主板后【zhǔ bǎn hòu】,系统检测只有6GB,另外【lìng wài】😖2GB内存神秘消失,反复的插拔新🎠的内存👭依旧无【yī jiù wú】法正常检测。
解决方【jiě jué fāng】案:通过服务器产品官方【pǐn guān fāng】网站了🐖解【jiě】,该种情况是因🥃为该服🧔务器的内存【nèi cún】🥗插槽【cáo】是配对使【pèi duì shǐ】用,1-4、2-5、3-6、7-10、8-11、9-12,新内存【nèi cún】🥗插在了【chā zài le】📀2、3槽【cáo】,无法形🐕成配对,自然只能检测【jiǎn cè】⛹出一条🍫内存【nèi cún】🥗,将内存【nèi cún】🥗插到【chā dào】5槽【cáo】,8GB内存【nèi cún】🥗顺利被检测【jiǎn cè】🏭。
可见😪,服务器【fú wù qì】内存的【nèi cún de】🍙优势不仅仅体现在性【xiàn zài xìng】❎能上🐮,在容错能力同🎶样投入【yàng tóu rù】很多精力,目的是🤩为整个平台提供高稳定环境🗺,之前提🧛到的【dào de】⛷内存采用的⛷ECC(错误检【cuò wù jiǎn】查和纠【chá hé jiū】正【zhèng】)技术【jì shù】、Register、Chipkill都是为了提高【le tí gāo】内存的【nèi cún de】🍙稳定性,使各个内存条💸和插槽之间能更好的【gèng hǎo de】⛷融合😜。
作为服🤽务器存储终端【chǔ zhōng duān】,硬盘的📷稳定工【wěn dìng gōng】作关系【zuò guān xì】到企业数据的安全【ān quán】🏊,服务器硬【wù qì yìng】盘就🎧是这个核心的【hé xīn de】数据仓库【kù】🐸,所有的软件和【ruǎn jiàn hé】数据都存储在这里🈸,因此服📍务器硬【wù qì yìng】盘对可🔉靠性和稳定性有着非常高的🌌要求【yào qiú】。
另外🛵,服务器🍏一般需【yī bān xū】要24*7小时不停的运【tíng de yùn】行,其硬盘【qí yìng pán】🤖也要🔇24小时不停的运【tíng de yùn】转🧜。因此【yīn cǐ】,服务器🍏硬盘对【yìng pán duì】🔧稳定性【wěn dìng xìng】和可靠【hé kě kào】性有着【xìng yǒu zhe】❇很高的🌯要求📄。服务器🍏市场上采用的硬盘【yìng pán】主🎹要有三🚲种,SATA硬盘【yìng pán】🤖、SCSI硬盘【yìng pán】🤖以及【yǐ jí】SAS硬盘【yìng pán】🤖,其中SATA硬盘【yìng pán】主🎹要应用在低端【zài dī duān】服务器🍏领域,而SCSI和【hé】SAS硬盘【yìng pán】则🤾面向中高端服🔷务器。
服务器【fú wù qì】存储核🌛心【xīn】——硬盘⛰
危害程度:★★☆
故障回放🌓:每台服务器会出现死【chū xiàn sǐ】机、无征兆的重启,如果频【rú guǒ pín】🚰繁出现🈚,就会经数据【jù】🤙中心【zhōng xīn】IT运维人员进行检测后【jiǎn cè hòu】发现是硬盘工【yìng pán gōng】🐨作时间【zuò shí jiān】📐太长,出现了物理坏🤝道。于是立即将硬📷盘做备份和更【fèn hé gèng】🕧换是最🔄佳解决办法【bàn fǎ】,将硬盘🔽内的数据【jù】🤙导出,结果在【jié guǒ zài】转移数据【jù】🤙的过程【de guò chéng】中【zhōng】🐽,不停地弹出I/O错误【cuò wù】,这直接【zhè zhí jiē】导致数据【jù】转移🎡的速度非常慢【fēi cháng màn】,且丢失🚡了很多重要数【chóng yào shù】🈳据【jù】🤙。
解决方案【àn】:这种情🏥况多数【kuàng duō shù】是磁头【shì cí tóu】🏦或者盘片出现【xiàn】⛵了错误。如果拆开硬盘【kāi yìng pán】盘片出现【xiàn】⛵了划伤,但面积💇并不大【bìng bú dà】💴,通过专🧗业的公司可以通过更换磁头后重新【hòu chóng xīn】恢复数据【jù】🐷,恢复了🦗95%以上的数据【jù】🐷,这种情🏥况相对来说比较幸运【jiào xìng yùn】。
但通常【dàn tōng cháng】说防患【shuō fáng huàn】于未然,如果这【rú guǒ zhè】🐞个故障发现的及时🐄,在盘片🦉没有出现更多【xiàn gèng duō】物理损伤前予🚰以解决【yǐ jiě jué】,一旦等【yī dàn děng】到盘片损坏严🔶重,数据将🥖永久性丢失,为了避免这种状况的【zhuàng kuàng de】💥发生建议做到【yì zuò dào】以下💑:
在硬盘选择上【xuǎn zé shàng】🏧,要专业☝的服务【de fú wù】器硬盘【qì yìng pán】😪,比如【bǐ rú】🦍:平均无😶故障时【zhàng shí】🐮间超过1600000小时【xiǎo shí】🥩,年故障📶率低于【lǜ dī yú】0.55%,抗震方🈁面要有⛄300G/2ms的以上🍔的耐冲击能力等等🥋,此外应用相关【yòng xiàng guān】服务器RAID阵列技🧝术,比如【bǐ rú】🦍:RAID5,它由至少【shǎo】3块硬盘【kuài yìng pán】组成,在向硬【zài xiàng yìng】盘写入数据信息的同时🥩,还写入【hái xiě rù】校验信息,当其中【dāng qí zhōng】❎有1块硬盘【kuài yìng pán】出现故【chū xiàn gù】障时【zhàng shí】🐮,可以根据算法从另外2块硬盘【kuài yìng pán】上得出【shàng dé chū】这块故【zhè kuài gù】障硬盘🍲的数据,安全性大大提高。
以上三【yǐ shàng sān】😎大组件的故障🍬仅仅是【jǐn jǐn shì】🦄抛砖引【pāo zhuān yǐn】玉的简🥪单介绍,其实在【qí shí zài】服务器🉑故障方🎻面不仅仅限于这几点,在电源🍖、管理模块以及【kuài yǐ jí】网卡方【wǎng kǎ fāng】面也有类似的😳问题,希望用户在应用中多多积累【duō jī lèi】🏖经验,尽可能🚵减小故【jiǎn xiǎo gù】障的发生率【shēng lǜ】📓,提供一个稳定灵活的IT应用环【yīng yòng huán】境【jìng】。
关键词:服务器硬件故障
阅读本文后您有什么感想? 已有 人给出评价!
- 0
- 0
- 0
- 0
- 0
- 0