微思客版块, 法律白话文

法律大数据,资料结构化是第一步 | 微思客 *法律白话文

编者按:

2012年开始兴起的大数据风潮,事隔多年后也吹进法律圈中,对于法律人而言,这个看似熟悉其实又陌生的名词逐渐在诸多法律名词中开始占有一席之地。在法律领域,从来都不缺乏大量的数据。台湾在过去20年间累积超过1,200万笔的裁判书,如果我们把范围扩张到诉愿决定、评议和交通事件裁决,这个数字将会扩张到2亿笔,在资料分析领域,毫无疑问的这些资料量非常巨大。然而,这些资料可以称作大数据吗?

这股风是否吹进境内的法律界?若有朋友愿意撰写,欢迎赐搞。
wethinker2014@163.com

Barry 郭荣彦| Lawsnote创办人


大量数据=大数据?

2003年司改会对窃盗罪的量刑分析统计结果,是透过人工来统计析;2011年司法院开始着手进行的量刑系统,以既有的判决资料进行量刑的分析,在决定刑度参数的资料,至今仍倚赖人工进行资料的撷取。 2016年新立委上任,有立委希望知道通奸罪对配偶撤告的比例,因为统计室没有预先统计这方面的资料,导致必须依赖大量人工重新统计。所有法实证研究的分析,我们可以发现一个共通点,就是人工!我们需要人工去撷取资料,才能透过这些撷取出来的资料进行分析。人工在法实证研究上,是一个无法免除的过程。一旦数据要经过人工撷取才能被电脑统计分析,纵使原始资料量非常庞大,离所谓的大数据还是有很长的一段路要走,因为人工成本极其昂贵,并且处理的资料量非常有限。

电脑都可以选土豆,怎么没办法整理判决?

那为什么非要经过人工不可?因为法律资料是高度的非结构化资料!有次我和一位律师前辈聊到判决非结构化的问题,前辈回说「Barry,你可能都在做非讼不太熟悉判决书,其实它是非常有结构的。」因为这样,我察觉到「资料非结构化」这个概念在法律圈是很容易被误解的,因此有必要特别解释。我们拿世界上把个人资料结构化最彻底的Facebook来举例好了。为什么Barry在Facebook上的个人档案像图一而不是图二。

2.jpg

3.jpg

4.jpg

如果资料结构化是一个光谱,左边就是结构化的那一端,而右边则是非结构化的那一端。差别在于要怎么教电脑辨识需要投入的成本。电脑可以分辨左边的资讯,知道Barry在Lawsnote打杂,当过律师,住在新北市,对法律领域的粉丝团有兴趣,但电脑看不懂右边部分,Barry的工作、专业、居住地、就读的学校和兴趣,电脑完全无法分辨。

资料结构化的目的就是为了电脑「容易懂」,越是非结构的资料,电脑越难看懂。而判决书,就是电脑非常难以看懂的一种非结构资料。举例来说,当我们在判决中提到民法第一百八十四条,就有超过10种表示方法:民法第一百八十四条、民法第一八四条、民法一百八十四条、民法一八四条、民法第184条、民法184、同法第184条、本法第一八四条…电脑很笨,不像人类知道这些叙述指的都是同一条法条,每多一种表示方式,我们就必须教电脑一次,而且这还算是比较简单的。

判决结构化的难题

判决书中,对于律师来说最重要的是「法院见解」的部分,但法院见解的段落几乎没有固定的表示方式和分段,以「本院见解」或「经查」开头的段落还算简单,许多最高法院的判决书几乎没有分段,连人类都难以判断,电脑更是无以为继。

例如最高法院刑事判决九十六年度台上字第三七三四号,对资料科学来说就是一个绝难的挑战。除了判决本文的高度非结构化非常难以透过电脑判读之外,它的前审,也就是『台湾高等法院95年度上重更(二)字第19号』这个字号就包含了7个裁定和1个判决,这对讲求唯一资料编号(UID)的资料科学来说也是一个难题。诸如此类的判决结构都会变成横亘于法律大数据前的一堵高墙。
法律的资料科学在司法改革中并非显学,甚至可以说几乎是被遗忘的一环。

法界在遇到资料科学的问题时常常用很片面的方式去解决,例如判决的金额常常使用『叁』这个数字,但判决用的big5编码只有『参』而没有『叁』。因此在去年司法院大幅翻修成unicode之前,『叁』这个字司法院一直是用造字程式呈现了20年,然而对于没有透过造字档的资料库,这个字会无法辨识,对于判决的再利用产生很大的不便。资料结构化在资料科学中是个根本性的问题,几乎所有处理资料的公司例如Google、Facebook等,都尽量期望把资料结构化,因为这将会影响到接下来我们可以怎么透过电脑处理资料。

在司法改革国是会议的第一次直播中,王金寿教授大力的建言希望建置专责的研究机构,以落实台湾的法实证研究。其用意不外乎是希望改善台湾在法制度建立时缺乏法实证依据,「凭空立法」的窘境,而法资料结构化正是要完成这件事的基本工。法律资料结构化除了帮助法实证研究,帮助协助修法参考外,对于节省司法成本也有诸多好处,结构化后将大大增加司法人员搜寻法律资料的效率、减少资料搜集、整理和传递的成本、辅助量刑系统的建置等。许多原本必须透过人力海捞资料分析才能完成的工作,透过资料结构化可以由电脑来协助完成。最重要的是,当我们讨论法律大数据,讨论用电脑自动化和AI人工智慧来协助法律人工作,讨论得很开心的时候,也千万别忽略这些火红名词的第一步骤,都是『资料结构化』。

为了进一步将法律资料更容易使用在资料科学上,有几个建议可以参考:

放弃现行使用├ ─ ┼ ┴ ┬等符号画出的ASCII表格,改用改用一般文书处理较常见的表格。
统一资料引用的格式,并在所有的法律资料(判决、决议、函释、法规)中严格遵循。不要让一条法条、判决字号、函释令号有这么多的表现方式,甚至是透过系统直接选取是更精确的方式。
每一笔资料有独一无二的编号(UID),而非很多裁判共用一个字号。
文件的段落分明,最好要有统一的标题。我国的判决目前只略分成『主文』和『事实及理由』两个部分,其他部份则随法官习惯各自编排,有无标题均属常见,人眼阅读可以理解,但电脑却无法判读。就算是透过人类判读,但目前的判决书架构就连律师或法官都难以一眼掌握整篇判决的段落,哪一段是法院的见解,哪一段是当事人的主张,透过固定的格式要求,同时也能增加判决书的可读性。
文件修改(例如判决更正、法规修正)时应纪录修正历程,而非以新文件直接取代旧文件。

编辑:敏菁


778.jpg

wethinker2014@163.com
微思客重视版权保护,本文感谢法律白话文网站的授权,如需转载,请联系微思客团队或法律白话文网站。照片来源:https://goo.gl/uvWGN6

71.jpg

Advertisements

发表评论

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / 更改 )

Twitter picture

You are commenting using your Twitter account. Log Out / 更改 )

Facebook photo

You are commenting using your Facebook account. Log Out / 更改 )

Google+ photo

You are commenting using your Google+ account. Log Out / 更改 )

Connecting to %s