莫惜墨

大数据简史(上):究竟谁是大数据之父?

谁是大数据之父

李汶龙

溯源大数据,并不仅仅是一个寻找时间点的问题。——题记

1989年,《哈珀杂志》上刊载了一篇讨论垃圾邮件的文章,作者Erik Larson这样写道:“那些大数据的管理者说,他们所做的事是出于保护消费者的利益。但(问题是)数据的使用很容易会偏离最初的目的。”因为文中出现了“大数据”,大多数都认为这位写过《白城魔鬼》等多部畅销书的美国记者应被誉为提出大数据概念的第一人。但细心的读者会发现,他在这里仅仅做了一个语义上的隐喻,这里的大数据应加上引号。

在Larson之前,并不是没有人使用过“大数据”这一概念。1987年,一个名为John P. Nelson的人在comp.sources.misc新闻组发布了一串代码,其中有这样一段说明:“#不管怎样,它使用的是一个“紧凑”模型(小代码, 大数据)”。如果在时间轴上继续往前追溯,相信会有更早的记录。但这样做意义不大,因为在80年代末期,企业资源规划系统 (ERP) 开始在商业普及,“商业智能” (BI)的理念重新提及,人们意识到数据在商界大量繁殖并不稀奇,而且这种简单的语境与我们现在所理解的大数据仍存在差距。

有人认为,第一次使用大数据概念的应该是美国NASA的两位研究员Michael Cox和David Ellsworth。在1997年发表的一篇学术文章中,他们提出了所谓的大数据难题:“可视化 (visualisation) 给计算机系统带来了一个有趣的挑战:数据集通常都非常大,主存储器、本地磁盘,甚至是远程磁盘都承受着很大的负荷。我们称(这一现象)为大数据的难题。” 虽然距早期文献近10年之久,这篇文章第一次对大数据问题做了清晰界定,提出了数据激增导致存储和处理难题的内涵。可以说,Cox和Ellsworth应 是第一个在学术文章中正式提出并界定大数据内涵的人。

不过,学术界对此也存在分歧。同在1997年,Weiss和Indurkhya合著的《预测性数据挖掘》问世。两位作者认为:“收集的大量数据可在数据仓 库中汇编,并使用强大的算法来全面研究数据。在理论上,‘大数据’能够帮助数据挖掘应用得出更为优质的结果,但实践中却存在诸多困难。” 相较之下,Cox和Ellsworth站在危机的角度展开,而Weiss和Indurkya从机遇视角出发,二者并无高下之分。笔者会在接下来的两篇文章 中分别阐述大数据发展史中所经历的两大阶段。将两方的观点结合起来,大数据发展的全貌即得呈现。

第一位完整描述大数据内涵的人是美国人Doug Laney,几乎没有人会对此存有疑义。2001年,这位META集团的分析师发布了一份著名的研究报告《3D数据管理:控制数据数量、速度及种类》。他 主张,“数据激增的挑战和机遇是三维的,不仅仅在我们通常所理解的数据量 (volume)层面,还包括数据进出的速度 (velocity) 以及数据种类范围 (variety)”。此后数十年间,Laney提出的“3V”框架是公认的描述大数据的基本框架。(虽然此后得到一些补充,成为“4V”甚至“5V”) 有趣的是,在Laney的文中只字未提“大数据”的概念,直到10年之后的一份新报告中,他才对大数据做了定义:“大数据是通过新型处理机制实现高效决 策、发现洞见以及优化处理的大数量、高速度、多种类的信息集合。”

与Laney相比,Francis X. Diebold的知名度要小一些。但这位宾大经济学教授也在同一时期发表专著,阐述大数据的涵义。在其一篇文章中Diebold指出,“近来很多科学,无 论是物理学、生物学还是社会学,都在被迫面临着大数据难题,或从中受益……大数据指可用且相关的数据在数量上或质量上的激增,这是数据记录和存储技术近几 年史无前例的发展所形成的。”这篇文章虽然比Laney的报告发表要晚,但Diebold在2000年就曾在公开场合中对此内容做过报告。他还曾以调侃的 口吻写过一篇《我第一次提出了大数据的概念》的文章,不过在网络上已经找不到了。

在大数据的发展史中,还有一些声音不应被遗忘。一次采访中,Laney认为真正最早提出大数据的人并不是他,而是前辈John Mashey。90年代,Mashey是当时炙手可热的硅图(Silicon Graphics) 的首席科学家。在上百场演讲中,Mashey在“安利”硅图产品的同时,也在宣传大数据的理念,可惜他的观点并未形成学术文献。不过,在1998年的一场 名为《大数据与下一代基础架构压力 (infrastress) 》的演讲中,我们可以看到他关于大数据的论述:“CPU、内存和存储技术的发展要比带宽、文件系统等计算资源发展要快。这种差异会使我们进入瓶颈,迫使企 业寻找解决办法……我在不同的场合中使用过这一标签(大数据),并且我希望用最简单、最简短的术语来表达我的想法:计算机应用的边界在不断扩张”。

另一位科学家Roger Magoulas的境况与Mashey类似。作为O’Reilly Media公司的市场研究主管,Magoulas曾牵头构建了一个开源的分析基础架构,还曾为旧金山歌剧院等机构设计并实现了数据仓库项目。有人认为他应 当享有“大数据之父”的殊荣,但很可惜,没有什么早期证据可以支持这一点。

大数据概念的演进经历了20多年,其间记者、编程员、科学家、分析师、学者都在不同时期、不同程度作出了贡献,而且很难评估谁的贡献更大。将所有殊荣归功于一个人的做法十分困难,也并不公平。在大数据的名人堂中,每一位贡献者都值得尊重。

荣誉理应共享。

 

Advertisements

发表评论

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / 更改 )

Twitter picture

You are commenting using your Twitter account. Log Out / 更改 )

Facebook photo

You are commenting using your Facebook account. Log Out / 更改 )

Google+ photo

You are commenting using your Google+ account. Log Out / 更改 )

Connecting to %s