神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。

编者按:哈佛大学法学与计算机科学教授乔纳森·齐特林(Jonathan Zittrain)于《大西洋月刊》发表评论长文,他详细介绍了互联网目前面临着的存在大量死链(腐烂链接)或被修改过的链接可能造成的严重后果,他认为应该建立一套完善的记录和追踪系统以便让公众知道每一次修改或删除的内容与目的。原文标题The Internet Is Rotting。

相关文章:

为什么说互联网正在腐烂(一)

为什么说互联网正在腐烂(二)

为什么说互联网正在腐烂(三)

60年前,科幻小说家、未来学家阿瑟·克拉克指出,任何足够先进的技术都和魔法差不多。互联网:这个让我们既相互交流,又共同保存人类文明的智力产品,很符合克拉克的这句话。用史蒂夫·乔布斯的话说,“它就是好用”(it just works),就和点击、敲键盘或说话一样容易。与魔法一样,当互联网不起作用时,其原因通常是神秘的,以至于对它的解释就像试图解开一个失效的咒语一样。

支撑我们庞大而看似简单的数字网络的是技术,如果没有这些技术,互联网可能就不会是现在这个样子,它是一种非常特殊情况下的产物。

互联网的独特结构,源于一种独特的限制和一种独特的自由。首先,早期互联网的设计者都具有学术背景,他们不期望、也没有筹集大量的资金来建设网络;其次,他们不希望从他们的发明中赚钱。

联邦快递花费了数千万美元的资本支出,部署了统一的飞机、卡车、人员和投递箱,建立了一个单一的点对点的交付系统。而互联网的制造者们没有资金来简单地推出一个统一的集中式网络,他们解决的是如何将现有网络连接起来的规则。

互联网的设计不是仿照传统的电话系统,由政府或一些大规模的公用事业部门运营的单一集中式网络,互联网允许任何地方的任何设备与任何其他设备互操作,允许任何供应商带来其拥有的任何网络能力。因为互联网的创造者并不打算将其用来牟利,更不用说垄断了,而是让互联网的用户自然地提供内容,其中一些人将作为内容生产者或存储放,为其他人建立水坑。

与短暂兴起的专有网络如CompuServe、AOL和Prodigy不同,内容和网络将被分离。事实上,互联网过去和现在都没有主菜单,没有CEO,没有公开发行股票,根本没有正式的组织。只有工程师们每隔一段时间聚在一起开会,以完善通信协议,然后硬件和软件制造商以及网络建设者们就可以随意地使用。

因此,互联网是一个用研钵制作出来的配方,邀请任何人,每个人,加入他们自己的原料。蒂姆·伯纳斯·李接受了这一邀请,发明了万维网的协议,这是一个在互联网上运行的应用程序。如果你的电脑通过运行一个浏览器说 “web”,那么它就可以与同样说 “web”的服务器对话,这自然就是网站了。网站上的网页可以包含各种链接,根据定义,这些链接只需点击一下就可以找到,而且实际上可以在世界其他地方的服务器上找到,这些服务器的主人或组织不仅与链接的网页没有关系,而且完全不知道它的存在。而网页本身在作为一个整体显示之前,可能会与多个来源组合起来,这就促进了广告网络的兴起,网站可以在有人想要浏览网页的时候,要求广告网络插入监控信标和广告。

和互联网的设计者们一样,伯纳斯·李把他的协议免费送给了世界,这使得省去了任何形式的集中管理或控制,因为没有任何使用情况需要由万维网公司来跟踪,以达到收费的目的。万维网,就像互联网一样,是一个集体的幻觉,一组独立的努力被共同的技术协议联合起来,成为一个无缝的、神奇的整体。

这种没有中央控制,甚至没有中央监控的便利,长期以来一直被誉为基层民主和自由的工具。对互联网这样一个有机和分散的网络进行审查并非易事。但最近,因为没有简单的关口来删除或标记不在主要平台保护范围内的恶意内容,或者无法简单快速识别其来源,这些特点被理解为成了促进个人骚扰和社会不稳定的载体。虽然这两种评估都很有力量,但它们都掩盖了分布式网络和互联网的一个关键特征。它们的设计自然会造成维护他人所依赖的有价值内容的责任空白。

在互联网诞生之前,保存某样东西的主要方式最早是将它刻在石头上,然后是写在羊皮纸,然后是纸莎草纸,然后是20磅的无酸纸,然后是磁带机、软盘或硬盘,并将结果储存在寺庙或图书馆:一个旨在保护它们免受腐烂、盗窃、战争和自然灾害的建筑。这种方法促进了一些材料的保存,时间已达数千年之久。理想情况下,会有多个相同的副本储存在多个图书馆中,所以一个仓库出问题不会使里面的知识熄灭。在罕见的情况下,如果一份文件被偷偷地改变,它可以与其他地方的副本进行比较,以发现和纠正这种修改。

这些地点不是自发的,也不是单纯的仓库。它们配备了神职人员、图书管理员,他们培养了一种保存文化和许多精心设计的做法,因此珍贵的文件既能得到保护,又能大规模地被查阅。而且同样重要的是,通过仔细的索引,一个探究的心灵可以与图书馆中可能满足这种渴求的东西配对。(正如豪尔赫·路易斯·博尔赫斯所指出的,一个没有索引的图书馆,随着它的增长,其信息量会变得越来越少,这很矛盾)。

在互联网时代的黎明,25年前,互联网似乎会给图书管理员这些管家的长期工作带来巨大的改善,也许会有一些缓解。互联网和万维网设计的古怪之处在于确保“完美”不会成为“好”的敌人。在互联网和网络的设计中,没有一个谨慎的系统来指定与日常事务不同的 “重要”知识,也没有将这些知识输入到永久保存和使用的机构和文化中(图书馆),有的只是无限变化的网络,比如那些学术论文和报纸文章的经典参考网站,与散落在各处的PDF、博客和社交媒体帖子并列。

富有进取心的学生设计了网络爬虫,自动跟踪并记录他们能找到的每一个链接,然后跟踪该链接末端的每一个链接,然后建立一个索引,让人们在一个无缝的整体中进行搜索,创建搜索引擎,你搜索一个词或短语时候,就会在在今天超过100万亿个可能的网页中返回10个链接。“网络就像一个不断增长的图书馆,有数十亿本书,却没有中央档案系统”。

现在,我只是引用了谷歌公司的网站,而且我用了一个超链接,这样你就可以看到我的来源。来源( Sourcing)是将人类的知识凝聚在一起的胶水。它可以让你了解更多像这篇文章中只初略提到的内容,也可以让其他人仔细检查我所陈述的事实。我使用的链接指向了:https://www.google.com/search/howsearchworks/crawling-indexing/。假设谷歌改变了该网页上的内容,或者在我写这篇文章和你读这篇文章之间的任何时候作出改动,或者直接取消它。改变原链接的内容就叫做内容漂移(content drift);完全消除原链接被称为失效链接(link rot)。

事实证明,失效链接和内容漂移是网络上的普遍现象,这对于拥有 “数十亿册图书而没有中央档案系统 ”的图书馆来说,既不足为奇,又有巨大的风险。想象一下,如果图书馆不存在,只有实体书的 “共享经济”。人们可以登记他们家里有哪些书,然后其他想要这些书的人就可以来参观和阅读,这样的系统可能会过时,书不在他们宣称的地方,特别是如果有人在2015年报告了一本书在别人家里,然后一个感兴趣的读者在2021年看到了2015年的报告,并试图访问原来提到的存放这本书的家庭。这就是我们现在互联网上遇到的情况。

链接时效

2010年,塞缪尔·阿利托大法官在最高法院审理的一个案件中写了一份同意意见,他的意见书链接到一个网站,作为解释其理由的一部分。意见书发布后不久,任何人通过这个链接都看不到内容。相反,他们会发现如下图的信息。“如果你像阿利托法官那样引用了这个网页,原始内容早就消失了。”

在这样的案例启发下,我和一些同事在2014年开始调查时效链接程度,并在今年春天再次重启。

第一项研究是与肯德拉·阿尔伯特(Kendra Albert)和拉里·莱西格(Larry Lessig)合作进行的,重点是旨在无限期存在的文件:学术论文中的链接,如《哈佛法律评论》和最高法院的司法意见。我们发现,自1996年第一个超链接被使用以来,嵌入法院意见中的50%的链接失效。而《哈佛法律评论》中的75%的链接失效。

人们往往忽略了现代互联网的衰败,事实上,这些数字是非同寻常的:它们代表了事实监管链的全面崩溃。图书馆现在还是存在的,里面仍然有书,但图书馆已经和人们的绝大多数信息无关,包括正式的法律文件等。互联网的灵活性(正是这一特点使其发挥作用),使其取代了CompuServe(美国第一家主流商业性网络服务)和其他集中组织的网络,分散了对这一核心社会功能的责任。

这个问题并不只是针对学术文章和司法意见。在约翰·鲍尔斯(John Bowers)和克莱尔·斯坦顿(Clare Stanton)的帮助下,以及在《纽约时报》的友好合作下,我能够分析自1996年成立以来在nytimes.com的文章中发现的大约200万个外部链接。我们发现,25%的深度链接已经失效,深度链接是指向特定内容的链接。文章越旧,链接就越可能失效。如果你追溯到1998年,72%是死链。总的来说,在《纽约时报》所有包含深度链接的文章中,超过一半的文章中至少有一个失效链接。

我们的研究结果与其他研究是一致的。早在2001年,普林斯顿大学的一个团队研究了科学文章中网络参考文献的持久性,发现学术文章中包含的URL的数量正在增加,但许多链接已经失效,包括他们从1994年收集的文章中的53%。13年后,六位研究人员创建了一个数据集,其中包括超过350万篇关于科学、技术和医学的学术文章,并确定每五篇中就有一篇不再指向其最初的来源。2016年,对同一数据集的分析发现,75%的参考文献内容已经改变了。

当然,对于网上的许多东西来说,还有一个与之密切相关的持久性问题。人们以感觉上稍纵即逝的方式交流,并相应地放松了警惕,却发现Facebook上的评论可以永远存在。其结果是两个世界中最糟糕的情况:一些信息在不应该存在的情况下仍然存在,而其他信息在应该存在的情况下却消失了。

译者:蒂克伟

相关文章:

为什么说互联网正在腐烂(一)

为什么说互联网正在腐烂(二)

为什么说互联网正在腐烂(三)

文章来源于互联网:为什么说互联网正在腐烂(一)

互联网沙龙
互联网时代管理新模式

Leave a Comment

Your email address will not be published. Required fields are marked *