5项建议帮你选择重复数据删除
重复数据删除(Data deduplication)无疑是存储行♊业近年🐐来最热闹的技术【shù】,它消除【tā xiāo chú】🌲了传统备份技🗒术衍生【shù yǎn shēng】出的重复存储数据问【shù jù wèn】🕡题,进而为企业节【qǐ yè jiē】省成本【shěng chéng běn】🎾。
然而,今日的企业面【qǐ yè miàn】🔟临的数据保护💃问题相当复杂,备份数据重复【jù chóng fù】储存的问题仅仅是冰山一角,但在某些重复💮数据删🕓除厂商的华丽✂包装下【bāo zhuāng xià】,这一技【zhè yī jì】👆术成了解决所【jiě jué suǒ】有数据保护💃问题的🍄“万能药【wàn néng yào】”,导致用户对重复数据【fù shù jù】删🕓除产品【chú chǎn pǐn】过多的期望,在对技🏨术本身【shù běn shēn】🚏了解不够【gòu】、欠缺全【qiàn quē quán】🎸盘考虑🏌的情况【de qíng kuàng】🙃下便贸🎒然部署了重复数据【fù shù jù】删🕓除方案🤠,结果却🔭往往不【wǎng wǎng bú】如预期,甚至付【shèn zhì fù】出比省下的磁盘还要【pán hái yào】高的成🗯本【běn】,因小失【shī】😣大【dà】🤬、得不偿失【shī】😣。
用户在选择具备重复【bèi chóng fù】🔍数据删【shù jù shān】🌎除技术的产品时,如何针对真正⌛需求理【xū qiú lǐ】📒性做出🕎判断【pàn duàn】🖨,而不被销售广告和专业术语所迷惑呢【ne】?不妨参【bú fáng cān】🦎考以下五项建【wǔ xiàng jiàn】议:
不要掉入重复删除比率的迷局
几乎所【jǐ hū suǒ】有重复数【shù】🧥据删除【jù shān chú】🎡产品厂商都🐭会强调自己可【zì jǐ kě】以达到【yǐ dá dào】🥪多【duō】😺高🕹的重复数【shù】🧥据删除【jù shān chú】🎡比率【bǐ lǜ】,有些甚至宣称【zhì xuān chēng】🎸可以达到【yǐ dá dào】🥪500:1这样不可思议📳的数据【de shù jù】。事实上,重复数【shù】🧥据删除【jù shān chú】🎡比率【bǐ lǜ】完🚳全取决于数【shù】据🤞的类型✍和备份【bèi fèn】策略【cè luè】,跟技术【gēn jì shù】本身的🖥关联并👼不大。举例来【jǔ lì lái】说🌄,如果数【rú guǒ shù】据的类【jù de lèi】型✍为Office文件🐝、电子邮件🐝,由于数【shù】据🤞结构本【jié gòu běn】身的🖥重复性【chóng fù xìng】🎿高🕹,能被删除的部分自然【fèn zì rán】就比较【jiù bǐ jiào】多【duō】😺,如果是【rú guǒ shì】🤾已经压【yǐ jīng yā】缩过的✍影音、图片等文件🐝,重复数【shù】🧥据删除【jù shān chú】🎡的效果就相当🚸有限;采用全备份的【bèi fèn de】🤡重复数【shù】🧥据删除【jù shān chú】🎡比率【bǐ lǜ】,也远大🎼于增量或差量备份【bèi fèn】,因此🖋,比较不同产品【tóng chǎn pǐn】之间的重复数【shù】🧥据删除【jù shān chú】🎡比率【bǐ lǜ】其实是没有意义【yǒu yì yì】的,更不能借些来判别产【pàn bié chǎn】🆗品的优劣👡。
不能影响服务器性能
某些采用资源🍼端重复数【chóng fù shù】据【jù】🏽删除技术的【de】解决方案【jué fāng àn】🔔,必须在生产服【shēng chǎn fú】💙务器上🌪安装代理【zhuāng dài lǐ】程序🏀来执行【lái zhí háng】重复数【chóng fù shù】据【jù】🏽删除,无可避👖免的给【miǎn de gěi】生产服【shēng chǎn fú】💙务器造成了相当大的【dāng dà de】性能负【xìng néng fù】担【dān】🍓。任何改🦔变传统的【de】数据【jù】保护方【bǎo hù fāng】式,都必须建立在【jiàn lì zài】👽不影响系统运【xì tǒng yùn】行的【de】前提下才能被接受【shòu】💳,换句话说,服务器的【wù qì de】🍮性能绝【xìng néng jué】不能受【shòu】💳到数据【dào shù jù】保护方【bǎo hù fāng】案🔔的【de】牵制(无论是🥄应用服【yīng yòng fú】务器还🎡是,因此在这个前【zhè gè qián】提下,目标端重复数【chóng fù shù】据【jù】🏽删除技术才【shù cái】🈳是最理想的【de】选⛹择🦇。以飞康👺最新推🗃出的【de】FDS为例,只对备份到FDS内的【de】数📕据【jù】进行😋分析比【fèn xī bǐ】对,然后再【rán hòu zài】删除重复数【chóng fù shù】据【jù】🏽,前端服务器不【wù qì bú】🔒需要安【xū yào ān】装代理【zhuāng dài lǐ】程序🏀,所有运行负载也都集🌗中在FDS上,重复数【chóng fù shù】据【jù】🏽删除工作对⛪生产服【shēng chǎn fú】💙务器的【wù qì de】🍮性能毫无影响【wú yǐng xiǎng】🍞。
在线处理不一定比后处理好
重复数👥据删除✉技术依【jì shù yī】据数据处理方【chù lǐ fāng】🚴式的不🅿同,分成备【fèn chéng bèi】份与重【fèn yǔ chóng】🐹复数据✍删除同时执行【shí zhí háng】的在线🐤处理【lǐ】(Inline),以及备【yǐ jí bèi】份完成【fèn wán chéng】后执行【hòu zhí háng】重复数👥据删除✉的后处🌎理【lǐ】(Post processing)两种,有些厂商宣称在线处理【lǐ】才是最先进😙的技术,这其实【zhè qí shí】🏇是错误的观念。
事实上【shì shí shàng】无论采用哪种数据【shù jù】🗂处理方式🔢,绝大多数重复数据【shù jù】删🍴除技术👷都是基于业界🧛标准的哈希算法(Hash),仅有少🤱数采用自主开发的专【fā de zhuān】利技术,其运行👟方式也💹都大同小异:追踪核【zhuī zōng hé】对数据【duì shù jù】🗂区块【qū kuài】,当新数【dāng xīn shù】🕓据写入【jù xiě rù】硬盘前【yìng pán qián】🍃先经由【xiān jīng yóu】系统的【xì tǒng de】🛏扫描与📊核对,判定硬【pàn dìng yìng】盘上是否存有【fǒu cún yǒu】🌴相同的副本🏡,如果有🗼的话,这部分数据【shù jù】🗂将只存入一个指【zhǐ】🕶向该副本🏡地址的指针【zhǐ zhēn】💒,不会重【bú huì chóng】复储存【fù chǔ cún】,进而达📰到节省磁盘空间【kōng jiān】的目的。两者的🌜差异在【chà yì zài】于🕷,在线处【zài xiàn chù】㊙理运用了大量的内存作为数【zuò wéi shù】据🗂写入硬盘前【yìng pán qián】🍃的缓存空间【kōng jiān】,后处理则是先将备份数据【shù jù】🗂写入硬盘后,再进行【zài jìn háng】🏁分析比🌡对,然后删【rán hòu shān】除重复🏮数据【shù jù】🗂。
乍看之【zhà kàn zhī】下,在线处理似乎【lǐ sì hū】🎃是效率比较高,但是,有两个问题不【wèn tí bú】🕖可忽视🔑:
1. 数据处👝理速度【lǐ sù dù】慢👴:在线处【zài xiàn chù】理在备【lǐ zài bèi】份资料写入前,必须先【bì xū xiān】暂时存【zàn shí cún】在内存中执行内容比👎对与删【duì yǔ shān】🏳除演算【chú yǎn suàn】㊗等工作,这些动⛵作会消耗大量CPU资源,亦会不可避免的拖慢【de tuō màn】👴备份速🥏度,某些产品的备【pǐn de bèi】份性能甚至比磁带机【cí dài jī】还差【hái chà】,这样很🐉容易导🕟致备份窗口不足🖌,能在要【néng zài yào】求时限【qiú shí xiàn】🐚内完成备份的数据量📁也相对变少🔋。
2. 可靠性【kě kào xìng】令人担心🦊:在线处✊理方式由于是【yóu yú shì】🌾在数据【zài shù jù】写入磁盘的同【pán de tóng】⬜时进行比对、删除重复数据【fù shù jù】😈、保留文件指针,没有校👤验🛏、核对的【hé duì de】❓机制【jī zhì】🐹,也就是【shì】说💉,没有厂【méi yǒu chǎng】商敢保证文件经过重复数据【fù shù jù】😈删除后😓,恢复时的数据💞是【shì】100%正确无误的【wù de】,万一数据处理🔻的某个环节出现错误【xiàn cuò wù】,系统内储存的【chǔ cún de】备份数据就只是【shì】一堆无法识【wú fǎ shí】别的代码【mǎ】🐶,不得不📇令人担心🦊其可靠性【kě kào xìng】问题。
相比之下💺,后处理🚈方式的🐺重复数【shù】🚆据删除【jù shān chú】👞技术就不用担心性能【xìng néng】🔓和可靠⏭性的问【xìng de wèn】🍴题了【tí le】。还是以【hái shì yǐ】飞康🍔FDS为例,由于备📶份数据【fèn shù jù】🏕传输过程不受重复数【shù】🚆据删除【jù shān chú】👞运行程序的🐺干扰,能充分【néng chōng fèn】发挥高【fā huī gāo】🎎速磁盘的🐺I/O处理能力,如果搭配备份【pèi bèi fèn】服务【fú wù】😾器的【qì de】🐺Hosted backup主机式备份功能,还能运用服务【fú wù】器🏌内部的高速💏链路取代速度较慢的【jiào màn de】🎅以太网,消除备✖份服务【fú wù】😾器到存【qì dào cún】储系统间的🐺传输瓶【chuán shū píng】颈【jǐng】,进一步提升备份的🐺性能【xìng néng】。在可靠【zài kě kào】性方面,FDS即将推【jí jiāng tuī】🎹出的🐺一致性【yī zhì xìng】校验功【xiào yàn gōng】能🚰(Self integrity check),可在备份数据【fèn shù jù】🏕写入磁【xiě rù cí】盘并执【pán bìng zhí】👩行重复数【shù】🚆据删除【jù shān chú】👞后,进行文【jìn háng wén】🈁件指针与单一【yǔ dān yī】存储区块比对📴的工作【de gōng zuò】🥫,如果发现有任何错误🏨便会自动修复,确保所有处理过的【guò de】🐺备份资【bèi fèn zī】料都能正确恢复,系统可🙏靠性与数【shù】据安全性更🍩有保障【yǒu bǎo zhàng】。
不应局限在单一应用
目前市【mù qián shì】场中具【chǎng zhōng jù】备重复数据🕌删除功能【gōng néng】🦉的解决方案【fāng àn】,在架构和技术【shù】🌀上或有不同,但应用【dàn yīng yòng】🌠范围几乎全都🤙集中在📹数据备份领域,换而言💔之,这些产品本身【pǐn běn shēn】🌱不是备💄份软件就是必须搭配备份软件才能【néng】🛷使用的硬设备【yìng shè bèi】。然而企业内部【yè nèi bù】存在重【cún zài chóng】✳复冗余数据的🍯岂止只🤺在备份🤥?散落在❤各个部📕门的文【mén de wén】件服务【jiàn fú wù】🛎器内的非结构性数据(其中以Office文件居🔣多),在经年累月不断增加【duàn zēng jiā】之下已♿经累积🚿了相当多的重复数据🕌,在企业【zài qǐ yè】🐤不具备【bú jù bèi】完善的数据分🖇级存储🎫与归档【yǔ guī dàng】机制的【jī zhì de】👲情况下,管理员面对文【miàn duì wén】📪件服务【jiàn fú wù】🛎器数据【qì shù jù】量不断增长的【zēng zhǎng de】问题,也只能【néng】🦅消极的以扩展硬盘空间的方式应对【shì yīng duì】。换个角度想【dù xiǎng】,如果文件服务【jiàn fú wù】🛎器能够【qì néng gòu】利用重【lì yòng chóng】复数据🕌删除技术【shù】,理论上【lǐ lùn shàng】就可以有效的抑制这😙个问题,可惜的是大多数的重【shù de chóng】复数据🕌删除方🅰案受限🦓于技术【yú jì shù】📸和性能【hé xìng néng】,功能【gōng néng】🦉 上只能【shàng zhī néng】局限在备份🤥应用【yīng yòng】。
飞康【fēi kāng】😣FDS则突破🔸了“重复数据删【shù jù shān】➕除只能【néng】用【yòng】🛤在备份”的局限,提供了【tí gòng le】基于管理策略【lǐ cè luè】💚的重复数据删【shù jù shān】➕除功能【néng】😢。这个功能允许【néng yǔn xǔ】管理员【guǎn lǐ yuán】🌮在设定【dìng】FDS的网络【de wǎng luò】共享文🚓件夹时🎥,根据文📝件大小、被读取🛩或修改【huò xiū gǎi】的频率来定【dìng】义💟是否进行重复🍪数据删【shù jù shān】➕除。举例来说【shuō】,管理员【guǎn lǐ yuán】🌮可以设📫定【dìng】30天内未曾被用【yòng】户存取🛥过的文【guò de wén】🛡件,在时间【zài shí jiān】到达后🤧自动执行重复🍪数据删【shù jù shān】➕除。大多数的情况下,文件服务器内的数据被存取【bèi cún qǔ】🍍的机率【de jī lǜ】会随着时间而递减,经常被【jīng cháng bèi】用户使【yòng hù shǐ】📞用【yòng】的文件由于🕚不会执【bú huì zhí】行重复🍪数据删【shù jù shān】➕除,可以快【kě yǐ kuài】速的存取🍍、修改而【xiū gǎi ér】不受文件重组的程序【de chéng xù】🕛影响性【yǐng xiǎng xìng】能【néng】;不常使【bú cháng shǐ】用【yòng】的文件可以通过重复数据删【shù jù shān】➕除,减少占【jiǎn shǎo zhàn】👸用【yòng】的磁🕕盘空间,便于存🌋储更多的文件数据,可谓一举数得【jǔ shù dé】。
远程复🥇制与全局重复【jú chóng fù】数据删🏮除能力【chú néng lì】不可少
除了节省存储🕞空间外🦇,重复数【shù】🔝据删除【jù shān chú】技术【jì shù】🚻与远程【yǔ yuǎn chéng】复🙍制相结🎃合,则可以消除通👎过网络执行远💽程备份【chéng bèi fèn】时👅,一再传【yī zài chuán】送重复数【shù】🔝据而造【jù ér zào】成的带宽浪【kuān làng】🕖费的问题💂,进而达【jìn ér dá】到广域【dào guǎng yù】🌴网优化的功效。用户不🦔需要【yào】投资昂贵【zī áng guì】的专线,就能建🍸立两地之间的【zhī jiān de】📣异地备🅾份【fèn】。对于许【duì yú xǔ】多有分【duō yǒu fèn】🤴公司、远程办公室或【gōng shì huò】分支机构的企【gòu de qǐ】业来说🐿,还能借【hái néng jiè】此建立多网站远程集【yuǎn chéng jí】中备份【fèn】😛,可兼具节省带【jiē shěng dài】宽和存储空间的双重效果,这也是🙌重复数【shù】🔝据删除【jù shān chú】技术【jì shù】🚻之所以吸引这么多厂【me duō chǎng】商的重要【yào】🔱因素。但是,并不是所有厂【suǒ yǒu chǎng】商现在都能提供足够🚿成熟的📴技术【jì shù】🚻,因此,大部分重复数【shù】🔝据删除【jù shān chú】+远程复🙍制方案📼仍有限【réng yǒu xiàn】制。
某些的【mǒu xiē de】重复数据删除方案本【fāng àn běn】身并不📲具备远程复制技术,数据经【shù jù jīng】🙅过处理【guò chù lǐ】后必须【hòu bì xū】利用其他软件【tā ruǎn jiàn】👐或磁盘【huò cí pán】🍪阵列的复制功能,才能将【cái néng jiāng】数据传【shù jù chuán】送到灾【sòng dào zāi】📓备中心。这不仅【zhè bú jǐn】要求用户必须🧓购买更【gòu mǎi gèng】多的设💛备才能【bèi cái néng】📧实现异💵地备份,如果用户具备多个远程站点需要进行集中备份受🔯到的限制则更多,徒增项🐜目实施📀的复杂🤥程度与成本【chéng běn】🖊。
飞康【fēi kāng】FDS采用了😸只有企业级VTL才有的【cái yǒu de】🕴全局重复数【chóng fù shù】据删【jù shān】⬆除(Global Deduplication)技术,是市场上少数【shàng shǎo shù】完全整🏻合重复数【chóng fù shù】据删【jù shān】⬆除与远♓程复制🌝的【de】🕴方案【fāng àn】,不仅支持一【chí yī】🚉对一【duì yī】🚉、多对一【duì yī】🚉远程集中备份🎰环境🎲,远程网【yuǎn chéng wǎng】站和数🚮据【jù】中心【zhōng xīn】🦋的【de】🕴FDS通过比【tōng guò bǐ】👲对单一【dān yī】🚉存储区【cún chǔ qū】内有无相同数据【jù】,仅复制⛷和传送【hé chuán sòng】单一【dān yī】🚉数据【jù】,在20:1的【de】🕴重复数【chóng fù shù】据删【jù shān】⬆除比率😎下,可以节省95%的【de】🕴网络带宽占用📃。在数据【jù】中心【zhōng xīn】🦋,用📃户可以采用📃能够外【néng gòu wài】😔接不同⏲厂商磁盘阵列【pán zhèn liè】的【de】🕴FDS网关设🚣备,利用超🏔大容量的【de】🕴单一【dān yī】🚉存储区【cún chǔ qū】和高速【hé gāo sù】磁盘存【cí pán cún】取优势😘,彻底消【chè dǐ xiāo】除远程【chú yuǎn chéng】网站之🌂间备份【jiān bèi fèn】的【de】🕴重复数【chóng fù shù】据【jù】,充分发【chōng fèn fā】🕉挥重复【huī chóng fù】数据删【jù shān】⬆除技术【chú jì shù】🐭的【de】🕴同时,节省成本🎈、提升性能。
关键词:重复数据删除
阅读本文后您有什么感想? 已有 人给出评价!
- 0
- 0
- 0
- 0
- 0
- 0