法律大数据,资料结构化是第一步 | 微思客 *法律白话文

编者按:

2012年开始兴起的大数据风潮,事隔多年后也吹进法律圈中,对于法律人而言,这个看似熟悉其实又陌生的名词逐渐在诸多法律名词中开始占有一席之地。在法律领域,从来都不缺乏大量的数据。台湾在过去20年间累积超过1,200万笔的裁判书,如果我们把范围扩张到诉愿决定、评议和交通事件裁决,这个数字将会扩张到2亿笔,在资料分析领域,毫无疑问的这些资料量非常巨大。然而,这些资料可以称作大数据吗?

这股风是否吹进境内的法律界?若有朋友愿意撰写,欢迎赐搞。
wethinker2014@163.com

Barry 郭荣彦| Lawsnote创办人


大量数据=大数据?

2003年司改会对窃盗罪的量刑分析统计结果,是透过人工来统计析;2011年司法院开始着手进行的量刑系统,以既有的判决资料进行量刑的分析,在决定刑度参数的资料,至今仍倚赖人工进行资料的撷取。 2016年新立委上任,有立委希望知道通奸罪对配偶撤告的比例,因为统计室没有预先统计这方面的资料,导致必须依赖大量人工重新统计。所有法实证研究的分析,我们可以发现一个共通点,就是人工!我们需要人工去撷取资料,才能透过这些撷取出来的资料进行分析。人工在法实证研究上,是一个无法免除的过程。一旦数据要经过人工撷取才能被电脑统计分析,纵使原始资料量非常庞大,离所谓的大数据还是有很长的一段路要走,因为人工成本极其昂贵,并且处理的资料量非常有限。

繼續閱讀 “法律大数据,资料结构化是第一步 | 微思客 *法律白话文"

大数据简史(上):究竟谁是大数据之父?

谁是大数据之父

李汶龙

溯源大数据,并不仅仅是一个寻找时间点的问题。——题记

1989年,《哈珀杂志》上刊载了一篇讨论垃圾邮件的文章,作者Erik Larson这样写道:“那些大数据的管理者说,他们所做的事是出于保护消费者的利益。但(问题是)数据的使用很容易会偏离最初的目的。”因为文中出现了“大数据”,大多数都认为这位写过《白城魔鬼》等多部畅销书的美国记者应被誉为提出大数据概念的第一人。但细心的读者会发现,他在这里仅仅做了一个语义上的隐喻,这里的大数据应加上引号。

在Larson之前,并不是没有人使用过“大数据”这一概念。1987年,一个名为John P. Nelson的人在comp.sources.misc新闻组发布了一串代码,其中有这样一段说明:“#不管怎样,它使用的是一个“紧凑”模型(小代码, 大数据)”。如果在时间轴上继续往前追溯,相信会有更早的记录。但这样做意义不大,因为在80年代末期,企业资源规划系统 (ERP) 开始在商业普及,“商业智能” (BI)的理念重新提及,人们意识到数据在商界大量繁殖并不稀奇,而且这种简单的语境与我们现在所理解的大数据仍存在差距。

繼續閱讀 “大数据简史(上):究竟谁是大数据之父?"

潮流| “大数据"分析与文学研究

★本文原载于《中国图书评论》2014年第4期“书界观察”栏目,作者金雯、李绳。经作者同意进行推送,微思客团队感谢两位老师的大力支持!如需转载,请联系作者。

(图片来源:http://onlinecareertips.com/wp-content/uploads/2014/03/big-data-cybersecurity.jpg)

 

“大数据”分析与文学研究

文/金雯、李绳

2011年《纽约时报》发表了一篇暗讽“远距离阅读”(distant reading)理念的一篇文章。“远距离阅读”是由斯坦福意大利裔批评家弗朗哥·莫莱蒂(Franco Moretti)2000年首次提出的概念。他认为文学研究者只读现存书籍中极其微小的一部分是无法揭示文学史真正面貌的,必须使用大量人力来分工阅读不同文本,然后把他们的分析综合起来,得出世界文学中各类体裁发展的规律。这个理念十年后发展为使用机器来处理大量文本的实践,2010年莫莱蒂和马修·乔克思一起(Matthew Jockers)在斯坦福创立了“文学实验室”,研发用电脑算法对文学书籍进行分析的方法。《纽约时报》这篇文章的作者并不理解远距离阅读对深入理解像《哈姆莱特》这样的作品有什么意义,并嘲笑“文学实验室”不过是将剧中人物关系进行图像化分析,得出各人物之间的“距离”,从而证实“哈姆莱特”为《哈姆莱特》剧的主角。“呵呵(Duh)”,作者对这个结论发出了如是评价。 繼續閱讀 “潮流| “大数据"分析与文学研究"