莫惜墨

莫惜墨| 数据被匿名化了,隐私就安全了吗?

*本文首发于财经国家周刊2015年第16期,改名为《失灵的“匿名神话”》。该文今发表于微思客,已获得作者授权。如需转载,请事先联系作者或版块编辑。保护版权,人人有责!

image/http://fr.dataelicitation.com/2014/08/28/le-regime-sans-cookies-le-nouvel-age-du-ciblage-sur-internet/
编者按: 商业使用数据,又不侵犯个人利益,这样的平衡建立在一个基础上:匿名化 (anonymisation)。所谓“匿名化”,简单来说就是去除身份信息,让数据不再可指向特定的个人,这样就消除了数据所携带敏感信息可能对个人隐私带来的威胁。当他人已经不知道数据是不是你的的时候,无论信息多么敏感也无妨。看上去,依靠科技我们解决了一个大难题,不仅将隐私顾虑弹去,还为大数据奠定了基础。但技术真的能够得到我们的信任吗?此文试图揭示一个事实,那就是,匿名化在这个时代靠不住。
 

数据被匿名化了,隐私就安全了吗?

李汶龙
假设你想买一件内衣,为了免却旅途劳顿,你可能会选择在网上购物,但代价是向网站透露自己的内衣尺寸。为了支付,你不得不将银行卡绑定,无意中又交出了卡号和密码。当内衣到手,穿在身上觉得很好看,你忍不住拍了照片存在手机,但却不知已自动上传云端。这是再正常不过的现代生活缩影,但是却很少有人意识到,我们留下的每一处电子痕迹可能带来的严重后果。
在不断尝试数字产品的过程中,我们正在不断将私密信息数据化,恰巧在这样一个时代,数据具有无穷的商业价值。我们选择成为“隐私冒险者”,虽然大多数人都曾有过隐私是否安全的担忧,但随着对科技产品依赖的渐渐加深,这种担忧也渐渐淡忘。对大多数人而言,似乎科技尝鲜要远远重于隐私保护,这天平的严重倾斜导致人们开始相信,所谓的风险一直都只是风险而已。
退一万步说,即便我们有很强的隐私保护意识,对个人隐私保护的状态十分不满,我们又能够做些什么呢?50年前,当我们谈起隐私保护的时候,也许需要做的只是管住嘴、关好门、躲开偷窥者就可以了。但半个世纪间,隐私格局发生了巨变。隐私被高度数据化,不仅公开而且流动。对于数据的控制我们鲜有发言权,要么接受,要么别用,这是“网络江湖”的新规矩。更为关键的是,我们产生了包含隐私的数据,但数据却不在我们手中,关乎我们私生活的一切都为他人手中掌控。吊诡的是,我们对于隐私的理解也在发生变迁,那些曾经我们视为私密的信息——年龄、工作、收入、性取向等——如今已成为社交网站上取得他人信任和关注的筹码,由我们主动公之于众。
但即便如此,得出“隐私已死”的论断仍显得过于极端。不可否认,我们仍然关心私生活,仍然希望有一方土地不受侵扰,一些秘密不为人知,我们仍将安宁置于很重要的位置。我们能够接受现状,说明存在一种至少看起来有效的保护机制,否则大多数人都不会心甘情愿的将数据和信任交付于人。
要理解这一保护机制的来龙去脉,我们还需先弄清楚隐私对于我们究竟意味着什么。任何一个读者大概都会认可隐私保护很重要,因为一旦隐私遭泄露,会对个人造成负面后果,会对人格造成创伤。与传统隐私不同,当我们谈论数据隐私保护时,也许重要的不是后果发生的可能性,而是后果与个人的相关性。设想一下,假设隐私泄露的结果与A无关,那么即便这结果再怎样严重,对于A也不会造成伤害。这即是数据隐私保护的机理:如果能够将隐私与个人身份分离,那么潜在的危害就不复存在了。我们忌惮隐私泄露,是因为后果直指隐私相关的个人。身份信息的分离使得潜在的伤害不再具有指向性,因此也就没有了实在的危害。这种将个人身份信息去除以保护隐私的方式被称之为“匿名化” (anonymisation),而能够识别个人身份的信息则称之为“可识别身份信息” (Personal Identifiable Information, PII)。可识别身份的信息有很多种,最典型的莫过于姓名、身份证号等。但是,一些其他的信息也可以间接推断出个人的身份,诸如学号、银行卡号以及驾照等。
通过技术突破攻克了隐私难题,匿名化对于隐私保护的意义非凡。看起来,匿名化让我们在隐私保护与科技发展之间达成了完美平衡,形成了绝对双赢。它给予了充满争议但潜力无限的数字产业一个正当的科学理由,让政府以及公司向公众许诺,对个人数据的收集是安全的,不会造成隐私危机,而个人也就有理由安心地用个人数据的分享换取更为优质的服务。这一技术的影响之大,以至于几乎所有发达国家的隐私保护法都以此为基石,严格限制个人数据的收集,但却为匿名化的数据开绿灯。
但是,当个人、企业还是政府都陷入到“匿名神话”之时,却忽略了这一模式存在严重的缺陷。隐私保护与数据利用的关系很微妙,二者紧密相连,却无法共同实现。简言之,鱼和熊掌不能兼得,要支持数据挖掘,就势必会牺牲一部分隐私利益;若是要保护数据隐私,一定程度上抑制创新发展是唯一的选择。
睿智的读者可能会发现,这一论断似乎与上述“匿名化”的判断背道而驰。没错,这种共赢否定论的提出正是因为匿名化的失灵所致。将身份信息去除看似容易,实际界限不易确定。即便明显的身份信息被摈除,隐私风险仍然存在。大数据时代,所谓PII概念已经失效,因为非PII信息同样能够发挥识别身份的功用。研究显示,只需要邮政编码、生日和性别的组合,就可以准确锁定全美国87%的人口!看看更为惊人的数据:仅通过个人对三部电影评论的方式和时间,就可以识别超过80%的Netflix用户!
轻而易举就能够实现身份“再识别”,让我们不得不反思对隐私保护的理解,以及对数据实践甚至保护体系的信任。对于匿名化的失灵,我们有太多需要反思和应对。或许对隐私保护漏洞的理解尚且容易,棘手的是如何调整法律就匿名化数据处理的纵容。不过,科技的问题向来不能太早盖棺定论,或许未来会出现绝对安全的新型匿名化技术。但在这个共赢时代到来之前,或许个人以及立法者都应反思一下现有制度是否能够保护我们每个人的隐私利益。
(版块编辑/李汶龙 校对/宋韬)
作者李汶龙,中国政法大学传媒法研究中心研究员,微思客WeThinker莫惜墨版块编辑。
Advertisements

发表评论

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / 更改 )

Twitter picture

You are commenting using your Twitter account. Log Out / 更改 )

Facebook photo

You are commenting using your Facebook account. Log Out / 更改 )

Google+ photo

You are commenting using your Google+ account. Log Out / 更改 )

Connecting to %s