解决常见重复数据删除系统问题
有人说✝我们从来没有真正解🎉决任何【jué rèn hé】🌳IT问题【wèn tí】,我们只🤛是转移了这些问题【wèn tí】。重复数👰据删除🥩同样也【tóng yàng yě】🎋不例外🤯。虽然重复数👰据删除🥩系统使得我们的备份和恢复变得更【biàn dé gèng】加简单,但同样也【tóng yàng yě】🎋存在许【cún zài xǔ】多挑战【duō tiāo zhàn】🧣。精明的存储或者备份【zhě bèi fèn】管理员【guǎn lǐ yuán】能够通【néng gòu tōng】晓这些【xiǎo zhè xiē】挑战【tiāo zhàn】🧣,并且尽一切可【yī qiē kě】能来解决它们🛐。
你的备份系统【xì tǒng】有三种不同的🛐创建重【chuàng jiàn chóng】😱复数据【fù shù jù】🔳的方法:重复所【chóng fù suǒ】🌤有文件【yǒu wén jiàn】系统【xì tǒng】🍵或应用的🖇备份;重复文【chóng fù wén】🙀件系统【xì tǒng】🍵或应用增加的备份;以及备😼份到多个地方【gè dì fāng】(例如【lì rú】:位于同🌐样操作👆系统【xì tǒng】或🤶应用程序的多🍌台机器)的文件【de wén jiàn】。基于Hash的重复【de chóng fù】数据删【shù jù shān】🏕除系统【chú xì tǒng】🍴(例如【lì rú】:CommVault Systems公司【gōng sī】💢, EMC 公司【gōng sī】💢, FalconStor Software, Quantum公司【gōng sī】💢, Symantec公司【gōng sī】💢)能识别和删除【shān chú】😭所有三种类型的重【xíng de chóng】复数据【fù shù jù】🔳,但是粒度级别【dù jí bié】😥受限于【shòu xiàn yú】它们的块大小,典型的【diǎn xíng de】块大小是8K或者更🥅大。基于Delta-differential的重复【de chóng fù】数据删【shù jù shān】🏕除系统【chú xì tǒng】🍴(例如【lì rú】: IBM公司【gōng sī】💢, ExaGrid Systems, Sepaton公司【gōng sī】💢)则只能识别和删除【shān chú】😭前两种类🉑型的重【xíng de chóng】复数据【fù shù jù】🔳,但是它们的粒度级别【dù jí bié】😥能够小到byte级。这些差🌅异在重【yì zài chóng】复数据【fù shù jù】删🏕除率方面通🍜常打成平局【píng jú】,但在某【dàn zài mǒu】🔪些特定的环境中能产生明显👖的差异【de chà yì】,这就是【zhè jiù shì】为什么大多数【dà duō shù】🔔专家建🍖议你测【yì nǐ cè】试多种【shì duō zhǒng】产品的原因。
由于【yóu yú】在📵绝大多【jué dà duō】数的【shù de】🧒备份🏺数据中【shù jù zhōng】大约有一半【yī bàn】🌇的重复🍃数据来【shù jù lái】自于多【zì yú duō】个完全🤒备份🏺。使用IBM的🧒Tivoli存储管理器😡(TSM)作为备份产品🏢的用户【de yòng hù】🛏相比于【xiàng bǐ yú】使用其【shǐ yòng qí】🖍他备份🙋产品的用户【de yòng hù】🛏,能获得【néng huò dé】📕更低的重复🍃数据删除📹率。这是因为TSM的逐步🎽增量功【zēng liàng gōng】能,用户【yòng hù】无需在🥙TSM备份的㊗文件系⚾统上再【tǒng shàng zài】进行全备份【quán bèi fèn】🍲。然而,由于【yóu yú】🍖TSM用户对【yòng hù duì】🐘他们的🧒数据库和应用执行了全备份【quán bèi fèn】🍲,并且由于【yóu yú】🍖全备份【quán bèi fèn】🍲的🧒数据并【shù jù bìng】不只在重复数据被发【jù bèi fā】现的【xiàn de】🧒地方存在一份🏺,TSM用户【yòng hù】依然能够【rán néng gòu】受益于【shòu yì yú】重复数据删除📹系统🐫——他们的重复🍃数据删除📹率将会更小。
第二种【dì èr zhǒng】类型的【de】重复数🙂据来自于增量备【zēng liàng bèi】份,增量备【zēng liàng bèi】份包含着自最🌩近一次【jìn yī cì】完【wán】全备🙌份以来,文件或【wén jiàn huò】📗者应用程序的【de】🎍多个版本【běn】🍲。如果一个文件【wén jiàn】⛱每天都【měi tiān dōu】🍬被修改和备份【hé bèi fèn】,而且备份系统【xì tǒng】📑的【de】备份保留期为🚇90天【tiān】,那么这【nà me zhè】个备份系统【xì tǒng】📑中将会存在该文件【wén jiàn】⛱的【de】90个版本【běn】🍲。一个重复数🙂据删除【jù shān chú】✴系统【xì tǒng】将会识别这【zhè】90个不同版本【běn】中🍣的【de】唯一数据片【shù jù piàn】段【duàn】🤱和冗余【hé rǒng yú】数据段【duàn】🚷,并且只保存唯一的【de】数🚜据片段【jù piàn duàn】🤱。然而【rán ér】,有些文件【wén jiàn】⛱类型不【lèi xíng bú】存在不同的【tóng de】🗒版本【běn】🍲(例如视频,音频,照片或图像,以及【yǐ jí】PDF文件【wén jiàn】⛱),每个文【měi gè wén】🌋件【jiàn】其自身就是独一无二的【de】,并且不会和同😔一个文件【wén jiàn】⛱的【de】先前版本【běn】⛽有重复。拥有这【zhè】⤴些类型【xiē lèi xíng】文件【wén jiàn】⛱的增量【de zēng liàng】备份将完【wán】🐟全包含这些唯【zhè xiē wéi】🐄一的【de】数🚜据,因此没有任何重复数🙂据可以【jù kě yǐ】删除。考虑到重复数🙂据删除【jù shān chú】✴存储的【cún chǔ de】相关成【xiàng guān chéng】🧝本【běn】,一些拥😺有此类🎞文件【wén jiàn】⛱占很大比重的【de】用户考虑🤭不将这【bú jiāng zhè】些数据存储在🔛重复数🙂据删除【jù shān chú】✴系统上【xì tǒng shàng】,因为🚇除了增加成本【jiā chéng běn】🎏,他们得🏵不到任【bú dào rèn】何好处。
重复数据删除⏸系统和【xì tǒng hé】🥓加密:你需要【nǐ xū yào】注意什么【me】🛤
重复数【fù shù】🕡据删除【jù shān chú】😾系统通【xì tǒng tōng】过【guò】🥁查找和消除的模式🌭工作;加密系统通【xì tǒng tōng】过【guò】🥁消除模式🌭工作。不要将🛒你需要备份的🚜数【shù】据在发送到【fā sòng dào】重复数【fù shù】🕡据删除【jù shān chú】😾系统之前进行【qián jìn háng】🅾加密——-否则你【fǒu zé nǐ】的重复【de chóng fù】数【shù】🕡据删除【jù shān chú】😾率将是【lǜ jiāng shì】🥩1:1。压缩工作有点【zuò yǒu diǎn】像加密🌀,它同样是🥩查找和消除模式🌭,只是采🤭用了不同的方【tóng de fāng】🎊法【fǎ】。绝大多数压缩【shù yā suō】系统的😶这种方法【fǎ】将导🔵致数【shù】据的不规则性从而产生【ér chǎn shēng】像加密🌀一样的【yī yàng de】🐛效果;它同样可以使你的重【nǐ de chóng】复数【fù shù】🕡据删除【jù shān chú】😾系统完全失去处理这【chù lǐ zhè】些数【shù】据的能力。
压缩的【de】🦎挑战经常会导🎆致想要💠备份变得更快的【de】数据库管理【kù guǎn lǐ】员👸和希望进行【jìn háng】😊重复数据删【shù jù shān】除的【de】备份管理员【guǎn lǐ yuán】👸之间的【de】🛌僵局。因【yīn】为数据库经【jù kù jīng】🐉常产生🍍容量很【róng liàng hěn】大但实【dà dàn shí】际数量🧘很少的【de】数据,因【yīn】此它🤣们非常需要进行【jìn háng】压缩。这就是【zhè jiù shì】在打开了备份【le bèi fèn】压缩功【yā suō gōng】能后通常会比【cháng huì bǐ】没有压【méi yǒu yā】👁缩快2到🦒4倍的原【bèi de yuán】因【yīn】。避开这🏕个特殊【gè tè shū】挑战的【de】唯一办🌆法是使用一个📨备份软❗件产品【jiàn chǎn pǐn】,这种产品集成🐻了数据源重复🕢数据删【shù jù shān】除和客【chú hé kè】户端压缩的【de】🦎功能【gōng néng】。例如CommVault的【de】 Simpana, IBM的【de】 TSM 或者🐷 Symantec 的【de】NetBackup。
复用和重复数据删除系统
备份【bèi fèn】✴系统重复数据【fù shù jù】删除的下【xià】😅一个挑【yī gè tiāo】👜战是它只能应用在那些使用【xiē shǐ yòng】🛀了虚拟磁带库(VTLs)和支持📒复用的【fù yòng de】备份【bèi fèn】✴软件的公🍌司【sī】,复用多【fù yòng duō】个不同的备份【bèi fèn】✴到同一个磁带【gè cí dài】🎿驱动器上会扰乱这些【luàn zhè xiē】🤴数据并【shù jù bìng】且完全【qiě wán quán】挫败所📕有的重【yǒu de chóng】🍬复数据【fù shù jù】删除。即使有🌉产品能够破译来自一个复用👔镜像的不同备份【bèi fèn】✴流(例如【lì rú】FalconStor, Sepaton),我要告诉你的是,不要对🖋他们的设备进🚆行复用备份【bèi fèn】✴,因为那只是浪【zhī shì làng】费时间💊。
考虑去重开销
备份重【bèi fèn chóng】复数据【fù shù jù】删除的最后一🅱个挑战【gè tiāo zhàn】是必须🥞使用备🍻份窗口🤠,这种方法很可📅能使得一些重🍎复数据【fù shù jù】删除系【shān chú xì】统在执【tǒng zài zhí】行重复数据【fù shù jù】删除任务💤时导致【shí dǎo zhì】要进行的备份【de bèi fèn】🗒变得很慢。很多人🛴都没有注意到这个现象【xiàng】,那是因为用户是将数🏆据从磁带转移【dài zhuǎn yí】🙉到磁盘中,并且重【bìng qiě chóng】🈴复数据【fù shù jù】删除系【shān chú xì】统仍然高速运行。然而⛷,已经使【yǐ jīng shǐ】💡用磁盘🌿分段的【fèn duàn de】用户可能注意【néng zhù yì】💭到备份性能的下降以【xià jiàng yǐ】及备份【jí bèi fèn】数据所消耗的时间的增长。不是所有的产⏫品都有【pǐn dōu yǒu】这个特🌕殊的功能,而且所【ér qiě suǒ】表现出【biǎo xiàn chū】🌚来的程度也不同,你只有【nǐ zhī yǒu】在你的【zài nǐ de】🌹环境中💪做一个🎒测试【cè shì】,才能详【cái néng xiáng】细了解情况😷。
恢复的挑战更【tiāo zhàn gèng】加容易理解📘,大多数重复数🥝据删除系统存🔤储数据的方式【de fāng shì】导致了【dǎo zhì le】最近备份以零碎的方式【de fāng shì】进行🎒记录【jì lù】。如果备【rú guǒ bèi】份系统【fèn xì tǒng】👻没有做重复数🥝据删除,那么重【nà me chóng】😂复数据🐪删除备🛃份的恢📍复操作可能需【kě néng xū】要花费【yào huā fèi】更长的时间。这种现象被称🦋之为【zhī wéi】“去重开销💮”。
当考虑去重开【qù chóng kāi】销时【xiāo shí】,想想你🐅是否计划使【huá shǐ】🏘用重复数【chóng fù shù】💂据删除系统作为磁带💠复制的【fù zhì de】🎁来源【lái yuán】,因为去重开【qù chóng kāi】销在大型恢复和【huī fù hé】磁带复【cí dài fù】制中非常普遍。例如【lì rú】,假设你计划使【huá shǐ】🏘用具有140MBps速度和【sù dù hé】1.5TB存储容量的【liàng de】LTO-5驱动器⌚,再假设♓你已经检测了你所有的备份😊磁带并【cí dài bìng】💿且发现你有2.25TB的数据【de shù jù】需要存到🍙1.5TB的磁带上【shàng】,这意味【zhè yì wèi】着你需【zhe nǐ xū】❣要获得🐣1.5:1的压缩比率【bǐ lǜ】⛎。这也意味着在🐫复制的【fù zhì de】🎁过程中你的140MBps的磁带驱动器⌚实际上【shàng】应该以大约【dà yuē】210MBps的速度运行📛。确保在运行期【yùn háng qī】🙅间,重复数【chóng fù shù】💂据删除系统能🔩够提供运行的😀需求👘(如例子【rú lì zǐ】中的【zhōng de】🍋210MBps),如果不能够,你可能需要考使用另外一个👂系统。
重复数【chóng fù shù】👫据删除【jù shān chú】恢复的最后一个挑战【gè tiāo zhàn】😂是他们仍然在☝恢复,这就是为什么重复数【chóng fù shù】👫据删除【jù shān chú】系统【xì tǒng】🌙不是一个【gè】🐗“万灵药”。一个必【yī gè bì】🦂须进行【xū jìn háng】恢复的大型系【dà xíng xì】统🌙,要求能够实现【gòu shí xiàn】数据从🚋重复数【chóng fù shù】👫据删除【jù shān chú】系统【xì tǒng】🌙到产品系统【xì tǒng】🌙的大容【de dà róng】量复制【liàng fù zhì】。只有将你的备份系统【xì tǒng】🌙进行总【jìn háng zǒng】体架构⏳上的改🎦变🔒,如从传统备份🐻系统【xì tǒng】🌙变🔒成具有【chéng jù yǒu】连续数据保护(CDP)或者准🔚CDP的系统【de xì tǒng】🏜才能解决这个【gè】🥩特殊的【tè shū de】挑战【tiāo zhàn】😂,这样能够使恢📹复时间保持在【bǎo chí zài】几秒而💯不是几【bú shì jǐ】🙋小时。
重复数据【fù shù jù】🍌删除系【shān chú xì】统能🏇够在不【gòu zài bú】进行大规模架构调整的情况👲下,给你带【gěi nǐ dài】🤥来大幅提升当【tí shēng dāng】前备份和恢复【hé huī fù】系统能🏇力的希【lì de xī】望🔚。只是在🚦你签署采购订单之前,请确保能够意识到重【shí dào chóng】😌复数据【fù shù jù】🍌删除的【shān chú de】这些挑战🌁。
关键词:重复数据删除
阅读本文后您有什么感想? 已有 人给出评价!
- 0
- 0
- 0
- 0
- 0
- 0