解构存储算法
美国历史学家詹姆斯·哈威鲁滨逊曾经说过,我们所谓的大多数推理活动,是为找到论据,以继续相信我们认为正确的事物,就像我们一贯的做法那样。我在参加的许多会议上多次引用这个语句,特别是当被邀请对存储趋势的预测做出解读的时候。即当被问道:
正如Wikibon公司的员工声称的,软件定义存储取代,这是真的吗?
如果是真的,如IDC和Gartner公司预测的,对虚拟服务器的需求将推动存储容量需求的爆炸性增长,那为什么磁盘和存储阵列的销售没有跟着增长呢,反而在缩减?
在下一个20年里,云存储呢?
通常情况下,我尽量避免回答这类问题,因为大多数咨询的人苦恼于验证性偏差,而且他们几乎经常想以确定的方式把一些数字加起来,以试图理解某些现象。如果我的态度与他们已经存在的倾向一致,我就被认为是一个精通算法的人。如果我的观点与他们的不相容,就被认为有点逊色了。
分析存储趋势和驱动力的算法的四个步骤
相对于存储趋势及其推动力,这四步是市场分析师们看起来遵循的基本的算法。
定理1:服务器虚拟化大张旗鼓,挤压非虚拟的应用环境的市场空间。
定理2:服务器虚拟化用虚拟机hypervisor倾向于采用服务器端存储资源,而不是共享的,不变的存储网络基础设施如基本的SAN。
定理3:存储市场往服务器端存储架构转变,再加上大量的存储到存储的复制(同步复制、异步复制)需求,推动存储容量的需求,并且提高了收购存储公司的必要。
定理4:未来的存储销售期望是越来越高,尽管也会看到来自对闪存的逐步增多的采用和高价值软件在中心化的软件定义存储层的集中化导致的成本缩减。
我对以上分析师采用的算法的分析,表明以下问题需要考虑:
首先,我想知道服务器虚拟化是否实际上在增长,还有到底增长多少呢。IDC和Gartner声称虚拟负载数——即在一个服务器虚拟机hypervisor上实例化的虚拟机个数——每年增长大约45%,而且到2016年,我们将会有80%的服务器负载是虚拟化的。这看起来很不错。
但以另一种方式来问——有多少物理服务器实际上运行着虚拟机hypervisor呢——从服务器虚拟化推崇者的角度来看,得到的结果并不那么令他们信服。具体结果如是:根据上面分析结果的同一个领先的行业分析,我们发现运行虚拟机hypervisor的物理服务器的个数增长相当的慢,从2009年10%到2012年的17%,并预测在2016年达到21%。从现在到2016年,这个运行虚拟机hypervisor的物理服务器数量有1.25%的年度增长率,但实际上是可以忽略的。
结合虚拟化负载的百分比和运行虚拟机hypervisor的服务器的百分比等年增长数据,我们必然得出结论:在2016年,21%的运行虚拟机hypervisor的物理服务器将处理所有服务器负载的80%(即虚拟化负载),同时,剩余20%的非虚拟化的服务器负载将运行在79%的物理服务器上。分析师们并没有回答的问题有三方面:
什么应用将不会被虚拟化?
相对来说,这些非虚拟化应用有多重要或者多关键?
这些非虚拟化应用将生产多少数据量?
如果非虚拟化应用是代表业务中大多数关键任务的高性能事务处理系统的应用,且生产的数据是公司中最盈利的话,这些应用也许最适合在网络化、硬连线、面向光纤通道存储区域网络FC SAN上允许。所以,也许我们不能预测到SAN的没落是因为它是实际被虚拟化的负载和没有被虚拟化的负载两者相互作用的结果。
所有的存储都是本地的
这个算法的第二步说明,虚拟机hypervisor会优先管理管理本地连接的存储设施,支持VSAN和其他服务器端存储架构。这也许是真理或者错误的,但是实际上所有的存储是直接连到服务器上的。并行SCSI是直连存储(DAS)接口,而串行SCSI ,不管是FC,iSCSI或者其他协议,仅仅是有交换功能的直连存储协议或接口。没有一样东西是真正的存储网络,至少兼容ISO网络模型的存储就不是。存储fabrics如有交换功能的DAS,即形成存储区域网络SAN。而DAS如果具有瘦文件服务器设施就形成了网络附加存储NAS。所以,虚拟服务器不会使用任何非服务器端直连的存储的想法是荒谬的。
即便这个想法是对的:虚拟机hypervisor在处理iSCSI或者FC的SAN方面的有困难。此想法,可以追溯到这样一个概念:虚拟机迁移时,每次要迁移一个虚拟机,需要再次给虚拟机提供存储,而这导致了虚拟机模版的剪切和粘贴技术的无用。用另一种说法,迁移后,需要通知应用给其提供路由到相对其服务器地址的存储的指令,而这,至少很令人头疼。
然而,如果把存储虚拟化了,我们就可以操作虚拟卷,而这个卷包含此虚拟机的数据并且卷可以随着虚拟机在物理服务器间迁移,同时自动调整到实际保存数据的存储的最佳路由。因而,有了真正的存储虚拟化,定理2也许就完全的失效了。也许我们可以听到迁移到VSAN的需要,不是因为其必要,而是因为有些厂家想卖给我们新的功能。
不幸的是,存储虚拟化软件自从90年代末出现以来,其价值就受到所谓的软件定义存储SDS的厂商的挑战。SDS拥趸声称SDS把以前位于存储阵列控制器的有价值的服务汇聚到一个中心化的软件层,以便这些服务部署后可以更容易的支持存储方面的需求。其最高目标是汇聚存储容量作为一个虚拟卷提供给客户,但是其目标缺乏存储虚拟化提供的其他功能。这些其他功能提供如下好处:保护对现有存储基础设施的投资同时提供与软件定义存储SDS倡导者所宣称提供的产品优点——服务汇聚能力。然而,可惜的是,此类讨论实际上并没有出现过。我个人怀疑,原因是虚拟机hypervisor的开发者们其实并不熟悉存储虚拟化。
越来越多的复制需求意味着更多的存储需求
定理3是绝对正确的。因为软件定义服务器端存储将会需要很多的数据复制因而推动存储容量的需求增长。在任何很可能作为某个虚拟机的宿主服务器间的数据都可能需要复制。VSAN需要数据的两份拷贝,尽管其专家宣称为达高可用性需要三个副本。明白了吗?这就是为什么IDC得出300%的容量增长预测的原因。Garter把备份和远程站点复制的需求也算上了,预测出存储容量增长达到650%。
定理4是说将来的存储销售额将会越来越高。但是投资不一定在SAN和NAS设施方面,而且很可能也不在传统的磁盘方面。这里面真真假假,也许需要开辟另一个专栏来讨论这个问题。肯定的是:存储销售收入并不能反映存储需求的任何快速增长,但是其事实上表明了缩减的利润,因为生产商进行了严谨的减价策略以达到他们的销售额目标。
我对磁盘销售数据的减少并不太感兴趣,因为这表明了由服务器和PC机销售的低迷、大量的其他库存缩减,物流/供应链,货币成本等对市场造成的的压力。固态盘和其他闪存元件有可能也会减少对存储磁盘的需求,因为它们能以较少的硬件提供更高的IOPS。而且,不久以后,借助于价格大战,经过洗牌就剩几个主要厂家的时候,应该是对磁盘销售影响最大的时候。无论如何,目前关于存储预测的表述和意图验证其正确性的算法,本身就是有趣的但虚构的的。如果不在乎这些预测对于行业主导者意味着什么,也就没必要觉得有意思。这会仅仅要求我们暂停怀疑,先买了再说。
etsme是采用云计算原生技术打造的个人私有云/小型私有云产品,即刻入手etsme,探索更多贴心功能,掌控自己的数字世界。