作者: Reethika Ramesh, Leonid Evdokimov, Roya Unsafe(美国密西根大学)原文

译者:段海新(清华大学网络研究院、奇安信集团技术研究院)

转发请注明译文出处:段章取义:https://duan.haixin.co

摘要: 本文重点介绍了俄罗斯政府如何在数千个ISP上利用廉价的深度包检测(DPI)设备逐渐建立国家级审查系统,我们担心其他具有类似拓扑结构的国家会争相效仿,成为一种趋势。通过与俄罗斯当地活动家的合作,“审查的星球”实验室(Censored Planet,密西根大学Roy Unsafe领导的实验室)拿到了从Roskomnadzor(俄联邦通信、信息技术和大众传媒监督局)泄露出来的5个黑名单,以及黑名单七年的历史数据。 我们用这个官方黑名单中的13万被封的网站,从住宅网络、数据中心网络和互联网主干网上的多个测量点进行了测量并收集数据,从而对俄罗斯政府的审查政策进行了深入研究。

本文具体的技术细节参见作者即将发表于NDSS 2020的研究论文 PDF

要点:

  • 我们对覆盖俄罗斯IP地址空间超过65%的ISP进行了测量,观察到住宅网络的封锁成功率比较高,我们确认俄罗斯成功地利用商品化的设备(即便宜的DPI)构建了国家的审查系统。这一现象证实并警示:既不需要政府运行一个技术复杂的控制瓶颈,也不需要大量的政府投资,即可实现同步且统一地限制全国的互联网访问。

  • Roskomnadzor维护着一个权威的实时黑名单,通过法律要求各个ISP封锁特定的内容。目前,黑名单包括170,000个域名、1,681,000个IP地址、39个子网,数量超过Citizen Lab探测的黑名单中所有国家加起来的十倍。即使是这样的规模,我们的测量结果表明,ISP的屏蔽也很成功。

  • 分析黑名单网站的内容,我们发现63%的网站为俄语,28%为英语。尽管热门类别包括赌博和色情,但我们在黑名单中也找到一些俄语新闻、政治,以及教人如何逃避审查的网站。

  • 分析7年来每日更新的黑名单,我们发现从2012年11月1日开始,屏蔽的规模迅速增长,这表明俄罗斯对互联网信息控制的兴趣与日俱增。我们还观察到,过去一年,俄罗斯在改善维护和清理黑名单上投入了更多的资源。

  • 我们部署在住宅网络的测量点测量到的过滤成功率更高。有意思的是,ISP执行审查政策时惊人地透明,他们屏蔽掉用户的访问时,会给用户注入一个明确的通知,我们后来知道这是Roskomnadzor的规定。

  • 我们的研究显示,数据中心的审查系统在过滤的数量和方法上都与住宅网络不同。在多数国家,住宅网络的过滤政策和法律都是不同的。

长期以来,信息控制一直是许多国家的目标。随着技术的进步,类似于Greate Firewall的实体并不是互联网自由的唯一威胁。过滤技术越来越便宜,部署越来越方便,于是,越来越多的国家开始用它们控制网络和信息。俄罗斯过去十年发生的事是一个很好的例子。俄罗斯曾经是很少审查互联网的国家;为了封锁Telegram它曾经屏蔽了上百万的IP地址,黑名单的规模稳定的增长,如今已经成为世界关注的焦点。我们的研究展示了这样一个现实:政府使用法律和政策来强迫ISP遵守和执行信息控制。

长期以来人们一直认为,对于像俄罗斯、美国、印度和英国这样的非集中控制的网络中部署大规模审查技术非常困难。然而,我们对俄罗斯审查系统的研究表明,事实并非如此。

我们的研究表明,这种分布式的实现方式打破了互联网审查的传统模式:在国家边界对出入的所有流量进行整体的过滤和封锁。但是在俄罗斯,随着SORM的问世[注释SORM], 以及审查和监视技术的商品化,ISP部署审查系统相对容易了。不过,ISP遵从政府政策的方式、程度,差异却很大。

俄罗斯的背景

负责俄罗斯全国互联网内容审查的主要实体部门是俄罗斯联邦通信、信息技术和大众传媒监督局(Roskomnadzor)。 其他政府机构可能会要求Roskomnadzor封锁跟他们职能相关的网站,不过,Roskomnadzor只负责维护一个统一的黑名单。

图1 给出了过去十年中的重要事件,这些事件表明了俄罗斯日益严格的审查制度,从一些“极端主义”网站开始,后来添加了不同政见者的博客和内容,然后又因为各种理由逐渐演变为超过170,000域名的黑名单。

图1. 俄罗斯信息控制的时间线

  • 2007年5月: 法院命令四个IPS封锁极端分子的网站
  • 2007年7月:司法部发布第一版的极端势力联邦列表
  • 2011年2月: “samizdat Journal” 加入黑名单,它们把它们的域名迁移到Ministry 和ISP , 导致inadvertently 屏蔽了 mingjust.ru
  • 2012年7月10日:Wikipedia, Yandex 和VK 抗议 第89417-6号法案提出(审查的基础,创建了一个屏蔽网站和IP的列表)
  • 2012年7月28日:第89417-6号签署成为法律
  • 2012年11月: Roskomnadzor 的黑名单开始出现
  • 2017年6月:Telegram 加入信息分发者注册表(黑名单)
  • 2018年4月:Roskomnadzor 试图屏蔽Telegram
  • 2019年4月:官方黑名单中包括了132,798个独立的域名、324,695个IP地址和39个子网
  • 2019年11月:“主权俄罗斯互联网(Sovereign Runet)”法付诸实施。 它要求所有电信运营商在链路上串联“特定设备”,过滤全部流量,以应对“外部的威胁” Roskomnadzor 被授权集中管理经过这些设备的流量

深入分析

一个全面的审查测量研究必须克服三个主要挑战:1)测量什么。测量研究需要一个权威的黑名单,以理解审查制度。当前,审查黑名单通常是众包方式(crowdsourced)获得的。 2)如何部署测量点。我们研究使用了多个相互补充测量点,覆盖不同类型的网络。之前的研究通常使用数据中心内部的虚拟服务器(VPS),或者通过志愿者的协作。 3)如何推断审查,即网站或内容是否被屏蔽了,为了区分自然的访问失败与人为的屏蔽,需要精心设计和部署测量方法和精确的控制。

测量什么:Censored Planet 实验室从俄罗斯激进人士那里获得了由Roskomnadzor签发的五个黑名单快照(snapshot)。我们论文中使用的是2019年4月24日的快照,包含132,798个域名、324,695个IP地址和39个子网。基金人士给了我们一个GitHub仓库,其中包含超过26,000次提交(commit),每天更新到这个黑名单中。为了验证该仓库,我们计算了泄露的黑名单和仓库每天每日提交的雅卡尔相似指数(Jaccard Index),发现它们的相似度超过99%。

图2 黑名单的演化

分析这个github仓库中7年的历史数据,我们用图2展示了这些年黑名单的演化过程。 如图所示,黑名单的规模似乎正在迅速增长,这表明俄罗斯控制信息的欲望与日俱增。 我们看到原始的IP地址数量与最终添加到列表中去重后的IP数量差别很大,这是由于多个网站托管在同一IP上,这些IP是单独添加到黑名单列表中的。过去一年,原始IP的数量和唯一IP的数量都急剧增加,而去重后的域名的数量增加却没有这么快,这表明在维护和清理这个黑名单方面,俄罗斯投入了很大努力(注:可能是因为IP封锁以后,该IP上的许多域名都已经被封掉了,所以无需再增加新的域名)。 俄罗斯的激进人士的报告表明,政府一直在努力完善这个黑名单,主要是由于过去黑客利用Roskomnadzor审查系统的漏洞进行的攻击(https://usher2.club/articles/msg-digitalresistance/),同时考虑到IP数量增长到接近某些型号路由器型号的TCAM内存限制。

最初,我们尝试使用现成的分类服务对黑名单中的域名进行分类。 但是,这些服务对非英语网页的效果不好。 考虑黑名单中超过63%的网站使用俄语、28%的是英语,我们基于先前的工作开发了一种主题建模方法。 尽管目前为止黑名单中最多的话题是赌博和色情,但我们也找到一些政治相关的俄罗斯新闻网站,例如chechenews.com、graniru.org、2019.vote(Alexey Navalny及其团队的拉票网站),还有一些是关于逃避审查(即翻墙)工具的。 赌博网站的数量很大,主要是因为这些网站被加入黑名单以后会迅速克隆出很多镜像(如02012019azino777.ru、02012018azino777.ru)。

如何获得测量点:我们使用官方泄露出来的黑名单对俄罗斯政府的审查政策进行了深入分析,我们在住宅网络、数据中心和网络主干处都搭建了测量点并收集了测量数据。 在俄罗斯数据中心租用VPS需要用卢布支付,还需要一个俄罗斯国内的电话号码和地址,当地的活动家帮助我们在数据中心中申请了六个VPS用于观察流量过滤。对于住宅网络的测量,我们招募了自愿者。考虑到潜在的风险,我们完全遵循社区规范,并明确的征得了他们的同意。

如何推断审查:直接测量对于研究审查非常有用,对于给定的IP地址或域名,我们从测量点直接访问以确定其是否被屏蔽。 如果是,我们再来判断是怎么屏蔽的。我们关注三种常见的屏蔽方法:TCP / IP封锁、DNS操控和基于关键字的屏蔽。

我们还使用了我们Censored Planet实验室的两个远程测量工具Satellite 和Quack,这些远程的测量为上面的数据提供了补充,同时也可以判断我们直接测量的结果是否有代表性。 Satellite和Quack根据现有Internet协议和基础结构的行为,分别测试DNS和基于关键字的屏蔽技术,也就是说,我们不需要远程测量点的访问权限,只需与远程系统进行交互即可了解有关远程网络的信息。

通过Quack和Satellite的1000多个远程测量点和20个直接测量点,我们在俄罗斯的覆盖范围涵盖361个自治系统(AS),这些AS覆盖俄罗斯大约65%的IP地址空间。

图3. 直接测量的结果——数据中心和住宅网络测量点

图3. 直接测量的结果——数据中心和住宅网络测量点

从我们的直接测量结果中看到,住宅网络和数据中心网络之间的屏蔽的百分比(占整个黑名单的百分比)和屏蔽网站的类型有所不同。我们进一步了解到,提供主机托管的数据中心不要求注册为ISP,他们可能不需要遵守与ISP相同的法律。

  • 我们在住宅网络的测量点测量到的屏蔽成功率更高。 有趣的是,ISP执行屏蔽时透明度相当高,他们屏蔽用户访问的同时,会向用户注入一个通知,后来我们知道,这是Roskomnadzor的规定。

  • 我们发现,数据中心屏蔽网站的数量和方式与住宅ISP都不相同。 只有从各种多种不同的测量点进行测量,才能得到关于审查的准确的观点。尤其是在住宅ISP的网络里更是如此。在多数国家,住宅ISP所遵守的信息控制法律和政策也不相同。

  • 我们还观察到,住宅ISP倾向于屏蔽那些他们所看到的更频繁的流量,封的更多的是域名,而不是IP。

以前,俄罗斯的审查系统因为幼稚而闻名。 比如,在尝试封锁Telegram(一种及时通信软件)时,他们同时封锁了Amazon Elastic Compute Cloud、Google Cloud、Digital Ocean,OVH(以及其他网站和服务)的整个子网,误伤了大量的无辜的网站和服务。 此后,由于审查技术的商品化,购买和部署这些技术更加便宜且更容易了,因此他们已转向更先进的技术,例如深度数据包检测(DPI)和基于关键字的屏蔽。2019年11月1日生效的“主权RUnet”法要求电信运营商在其网络上以串联(in-path)方式安装“专用设备”,检查所有的网络流量,用以防范所谓的“外部威胁”。 实施这个法案最重要的部分是,授权Roskomnadzor集中管理流经该设备的所有流量。

我们在许多国家都观察到了这种趋势:美国、英国、印度、印度尼西亚、葡萄牙都逐渐朝这种模式发展,为此,应该向研究人员和决策者发出警告。英国的审查体系与俄罗斯类似,政府为ISP提供了要屏蔽的网站列表,并设有与各种审查内容相对应的管理机构。 印度尼西亚最近在其网络边界实施了内容过滤,印度一直根据最高法院命令强制ISP实施审查制度。 在美国,废除网络中立论允许ISP可以偏爱某些内容,这也是俄罗斯加强审查制度的技术起点。

道德的考量: 无论是从志愿者的机器、还是从远程的测量点(如有些机构的DNS服务器)进行测量、采集数据,对审查系统的测量都可能对这些设备的所有者带来危险。 我们设定了很高的道德标准:遵循Menlo报告( 注:Menlo Report,是美国国土安全部发布的、指导信息和通信技术研究的道德规范)以及社区规范中描述的最佳实践。 我们还通过与俄罗斯境内的知名活动家、在审查测量研究方面经验丰富的同事、以及我们大学的总法律顾问进行了连续一年的交流,改善我们的测量和数据收集方法。

结论

从7年前的2012年11月1日起,俄罗斯监管部门Roskomnadzor向互联网服务提供商(ISP)推出其第一个正式黑名单;至今,我们已经看到俄罗斯在其分布式的网络上逐步建造起了国家级审查政策。不止于此,俄罗斯本周推出另一项法律(俄罗斯的“主权RUnet”法),以实现过滤方面完美和谐,这项法律以防范“外部威胁”的名义,要求电信运营商的在其网络上安装“专用设备”。

俄罗斯过去十年来在分布式的网络中进行内容审查方面积累了一些经验和教训,这些经验也适用于世界各国的网络,尤其是那些历来不赞成审查制度的国家。俄罗斯审查系统的体系结构是一个蓝图,可能也预示许多其他国家的国家审查系统的走向(与俄罗斯类似、具有多样化的ISP生态的其他国家)。

俄罗斯在互联网内容审查方面名声鹊起,对审查系统的研究人员、新闻记者、活动家、以及全球互联网网民敲响了警钟。理解俄罗斯这种分布式的审查机制的实现,对于维护互联网自由至关重要。


注释

[NDSS2020] R. Ramesh, R. Sundara Raman, M. Bernhard, V. Ongkowijaya, L. Evdokimov, A. Edmundson, S. Sprecher, M. Ikram, and R. Ensafi, Decentralized Control: A Case Study of Russia, 即将发表在 Network and Distributed System Security Symposium (NDSS), 2020

[SORM] SORM 是俄罗斯版的棱镜计划,即大规模监控用户的电话和网络流量