数据科学中的大数据
如果你仍对如何处理大数据以及如何更好的利用它心存疑惑,不用感到孤单,因为即便是从事国家安全和医疗健康数据分析工作的人们也还在寻找答案。
“我从来没明白过大数据这个词,”上周美国联邦政府的Tony Scott在大数据峰会上如是说,“是形容数据的胖瘦还是只是形容数据之多?不过它能很好的描述了在数据科学或数据分析领域的工作。”
大数据峰会小组成员之一的Hoot Thompson,举出一个大数据的完美例证。
Thompson表示,他的团队有30PB的磁盘存储和40PB的磁带存储与超级计算机相连。他还表示NCCS仅2014年一年的存储购买量就有20PB,虽然他指出这在历年的数据当中属于偏高的。
这家机构通过模型预测气候已经长达50年了。单独的一个模型就能创造3-4PB的数据量。
“我们并非数据的消费者,” Thompson说,“我们正在努力将数据展示出来以便其他机构作出决策。我们的所有数据都是共享的。”
Thompson谈到,他是一个开源爱好者。他在运行一个Gluster并已经持续两年了,他还计划实施一个基于OpenStack的存储云。
数据分析是大数据的关键,它并非只涉及气候变化的研究。大数据峰会的另外一个小组成员,健康科学家Suzanna Petanceska介绍了他团队的项目,通过研究来自上千人的脑数据做阿兹海默症的防治。那不仅需要将数据存储起来,还要找出这中间的重要信息。
Scott表示总共有三组人能够有效地进行筛选和分析数据。“你需要一些善于理出事情框架的人。”
“第二组人擅长于应用和数据操作。他们清晰的知道执行步骤。那么第三组人是由能够解释数据的人构成。这就是我所喜爱的不同个人技的团队多样性。”
etsme是采用云计算原生技术打造的个人私有云/小型私有云产品,即刻入手etsme,探索更多贴心功能,掌控自己的数字世界。