互联网和Web已经彻底改变了人们收集、存储和展现信息的方式。搜索引擎和数据库对每个人都具有不可估量的价值。很难想象之前没有互联网的时代我们是怎么过来的。凡事都有两面,现在这样数据在网上随意传播也有问题,尤其是那些可能会过多暴露我们的信息如果传出去,会令人相当不自在。
有些信息明显就是公开的,还有些信息收集起来就是为了供人搜索和索引的。
那怎么看待公共档案呢?法律上,某些信息属于“公共档案”(public records),任何人通过申请都可以查阅。在美国,公共档案包括可以公开的庭审记录、抵押文件、房价、地方房产税、出生和死亡记录、结婚证、政治捐助,等等。(查阅出生记录通常是为了知道“妈妈婚前的姓氏”,以便辅助确认一个人的身份。)很早以前,要知道这些信息必须不辞劳苦,亲自前往当地政府驻地查阅。因此,虽然这些档案名义上是“公开”的,但不付出点代价也不可能看到。谁要想获得这些数据,就得亲自跑一趟,或许需要出示身份证件,要想复制一份可能还得花点钱。
今天,如果这些数据上了网,我坐在自己家里就可以轻轻松松查阅这些公共档案。我甚至可以开个公司,收集汇总这些信息,然后与其他信息整合起来。比如很多人都知道的zillow.com,就整合了地图、房地产广告、有关财产和交易的公开数据,通过地图来直观地显示房价。 如果你想买房或者想卖房,它对你了解市场很有用;否则,你可能会觉得它暴露了人家太多的信息。通过查询联邦选举委员会(FEC,Federal Election Commission)的选举捐款数据库(fec.gov),可以知道哪位候选人得到哪些朋友和要人的捐赠,或许可以查到他们的家庭住址等信息。在FEC提供信息的基础上,fundrace.huffingtonpost.com在一张地图上给我们标出了这些人的名字、地址、职业。这种做法让人们对如何平衡公众知情权和个人隐私权有了新的认识。
什么样的信息才应该让人如此轻而易举地得到?这个问题很难回答。政治捐款应该公开,但门牌号码可能就应该稍加隐藏。包含美国社会保险号等个人身份识别信息的公共档案似乎不该放在网上,因为这就给盗用别人身份打开了方便之门。可当前的法律无法完全阻止这种信息的公布,而这种信息一旦上网,就覆水难收了。
随着在多个各不相关的来源都能查到同一类信息,这个问题就变得愈发严重了。比如,很多提供Web服务的公司都有自己大量的客户信息。搜索引擎会记录所有查询,也包括查询人的许多信息。最低限度也会记录查询人的IP地址,还有用户之前访问过网站时保存在计算机上的cookie。
有关这种再识别(re-identify)问题,有一个真实的案例。1997年,当时在MIT读博士的拉坦娅·斯威尼(Latanya Sweeney)分析了马萨诸塞州135 000名雇员的体检记录,这些记录都做了反识别处理。数据来源是该州的保险委员会,可用于研究目的,甚至被卖给了私人公司。每条体检记录中除了大量其他信息外,都包括生日、性别和邮政编码。斯威尼发现有6个人的生日都是1945年7月31日,其中3个男性,而只有1人住在坎布里奇。把这些信息和公开的选民登记名单一对照,她便知道了这个人就是时任州长威廉·韦尔德(William Weld)。
匿名处理数据与混淆保证安全多少有些类似之处,这两者都是基于没有足够信息无法解密数据的考虑。问题是,这两种情况下敌人掌握的信息,很可能比我们想象的多。而且就算眼下他们不知道,将来也有可能知道。