解答有关重复数据删除的七大疑问(二)
四、如果在我们的环境里使用磁盘代替磁带,你更倾向于后处理方式或在线处理方式的哪一种?或者是采用其他什么不同的方法?
这个话题讨论的重点主要在于工作量的大小。如果你仅有很小的工作量并且你只需要每晚备份1TB的数据量,那么会有很多种不同的方法能够满足这种要求。再配置和扩展性方面还有两个属性需要注意,那就是可伸缩性和复杂性。
当你需要处理的较大量的数据时,比如每晚需要处理20TB的数据,你就真的需要担心一下你的配置是否能够满足系统负荷的要求。如果你处理这些巨大的工作负荷是通过买更多的硬件设备支持的话,那我觉得还是部署后处理方式的重复数据删除技术。
同时需要注意的是,当我们把数据从磁盘发送到磁带上,在向磁带发送之前我们还需要做重复数据删除的反操作。
因为把数据写到磁带中和把数据发送到离线状态是一样的,你的使用环境要求你要具备所有自然访问数据的条件。这也就意味着只有NetBackup、TSM 或者Legato备份管理软件才能直接使用这些磁带。如果你把数据写入磁带,那他就变成一种似有的格式了,他需要你通过重复数据删除处理的反操作使数据能够被应用所使用。
四、如果在我们的环境里使用磁盘代替磁带,你更倾向于后处理方式或在线处理方式的哪一种?或者是采用其他什么不同的方法?
这个话题讨论的重点主要在于工作量的大小。如果你仅有很小的工作量并且你只需要每晚备份1TB的数据量,那么会有很多种不同的方法能够满足这种要求。再配置和扩展性方面还有两个属性需要注意,那就是可伸缩性和复杂性。
当你需要处理的较大量的数据时,比如每晚需要处理20TB的数据,你就真的需要担心一下你的配置是否能够满足系统负荷的要求。如果你处理这些巨大的工作负荷是通过买更多的硬件设备支持的话,那我觉得还是部署后处理方式的重复数据删除技术。
同时需要注意的是,当我们把数据从磁盘发送到磁带上,在向磁带发送之前我们还需要做重复数据删除的反操作。
因为把数据写到磁带中和把数据发送到离线状态是一样的,你的使用环境要求你要具备所有自然访问数据的条件。这也就意味着只有NetBackup、TSM 或者Legato备份管理软件才能直接使用这些磁带。如果你把数据写入磁带,那他就变成一种似有的格式了,他需要你通过重复数据删除处理的反操作使数据能够被应用所使用。
七、重复数据删除原理上有哪些不同?
目前市场上大家讨论比较多的重复数据删除技术主要有三种形式。一种把数据看成一种不可知的形式并且以相近的方法搜索数据流。一旦相近的数据被发现,一个比对不同的算法程序将被执行,以确保哪些数据和已存在的数据相同,需要过滤掉。只有新的数据被存储。
另一种是通过哈希技术或者哈希算法把数据打碎分片成一些摘要。例如一个8字节大小的数据,那么我们就通过一个哈希算法生成一个指向数据的摘要,那么数据就保存好了。如果这个签名或者哈希值由一个新的数据流重计算得出,那么这个计算结果就被认为是已经存在的数据,可以通过原有数据进行引用。这样他就不需要消耗更多的存储,也因此减少了存储磁盘阵列的消耗。
第三种是把数据流看作成内部的逻辑内容,这种方法主要是识别记录的数据格式。它采用内嵌在备份数据中的文件系统的元数据识别文件;然后与其数据存储库中的其它版本进行逐字节地比较,找到该版本与第一个已存储的版本的不同之处并为这些不同的数据创建一个增量文件。
因此,做重复数据删除处理有好多种基本的方法,实施这些方法也有好多种不同的方式。目前Quantum/ADIC, Data Domain and FalconStor使用哈希算法和由此衍生出的一些新用法。Sepaton使用的则是第一种内容自感知的方式。
etsme是采用云计算原生技术打造的个人私有云/小型私有云产品,即刻入手etsme,探索更多贴心功能,掌控自己的数字世界。