数据爬取和使用权 — 领英已经败阵,脸书呢?
日新月异的数字经济时代中,互联网平台得以积累大量用户数据,并以此建立自身资源优势,即用户数据越丰富、分析利用得越好,就越容易吸引更多用户,从而在商业竞争中处于更加有利的地位。
近日,脸书(Facebook) 母公司Meta (元宇宙)分别对两家数据采集公司提起诉讼,其中一家是中国某国家高新企业的美国子公司。Meta指控这家公司自2015年3月以来从脸书和Instagram“不当收集或抓取”用户账户个人资料和其他信息,并且将其用于未经授权的使用。而在此前,美国联邦第九巡回法院已于2022年4月在数据分析公司HiQLabs(HiQ)诉领英(LinkedIn)一案中维持了有利于HiQ的原判,并且认定数据公司从公共网站收集个人资料完全合法。这些诉讼案件作为美国近年来公开数据抓取的相关典型案例,带来的争议和讨论是:对于开放性社交或内容平台上允许自由访问的用户数据,平台是否能够限制其他运营者通过爬虫等技术手段进行抓取和使用?
脸书一案中,Meta关闭了所有与被告公司有关的脸书和Instagram账号,并请求美国联邦地区法院下达指令禁止该公司使用脸书和Instagram,且要求赔偿损失。据相关报道,这家被告公司是一家致力于提供大数据软件与行业解决方案的中国高新技术企业,其数据抓取采集器连续六年位居互联网数据采集软件的领先地位,截至2021年全球用户突破300万,其海外版数据采集器则深耕北美、欧洲与日本等市场。Meta在起诉状中主要指控该公司的采集软件可以抓取用户在登录其脸书账户后才可获取到的数据,Meta指控这些做法没有得到Meta公司的授权,因此违反了Meta和Instagram的服务条款和政策以及美国的《数字千年版权法》。(Digital Millennium Copyright Act,DMCA法案于1998年10月由美国参议院全票通过,该法以刑事犯罪立法的形式禁止了受版权保护的技术、设备或服务的生产与传播,以及绕过DRM本身的行为。此外,DMCA还加大了对于互联网侵权的处罚。)
虽然脸书案件在目前还没有定论,但值得一提的是,与该案相似的领英案在某种意义上算得上是美国数据爬虫斗争历史上具有里程碑意义的一个裁决。它让爬虫工具的使用得到法律上的认可,并对数据的所有权归属有了一个法规上的判定,让我们一起来看看这一案件的始末。
面对出乎意料的局面,领英认为美国地方法院的判决有误并选择上诉到底。而领英坚持其以技术手段阻止网络爬取并同时发送终止通告函件的行为,应被视为符合正常授权机制的要求。另外,领英认为如果依据法院判决,除非用密码机制将网站彻底封锁起来,否则任何一家决定部分公开网站内容的企业,包括 Ticketmaster、Amazon 等在线零售商,乃至Twitter等社交网络平台,都会被爬虫系统爬取到公开展示的信息。但是考虑到如果选择密码封锁,这些网站将无法被搜索引擎正常检索,导致人们无法经由互联网上最主要的信息获取渠道发现其中信息,从而损害公共利益。而这种情况带来的多方损失很可能远超出提取公共信息造成的“危害”。
第九巡回法院在领英裁决中指出,公共网站的一大基本特征,就是其中公开可见的部分不受访问限制,换言之,这些部分将对任何拥有网络浏览器的访问者开放。也就是说,如果将这些托管公开页面的计算机视为房屋,那么公共网站设备在部署之初就没有设置任何“前门”,自然不存在提高或降低访问门槛一说。因此,依据Van Buren 案的裁定,“未经授权”概念不适用于公共网站。
事实上,数据抓取行为如今早已被广泛应用到社会生活当中,不仅仅是在商业上的使用,还有学术研究上的应用等等,领英一案也被认为是学者、研究人员和记者们的重大胜利。另外,此案对于争论不休的数据和隐私的归属问题也在一定程度上进行了讨论,即第九巡回上诉法院裁决支持了用户才是数据的所有者,平台只是依据用户的授权才持有这些数据,而不是这些数据的所有权人。另一方面,数据抓取也是现代互联网生态的重要组成部分。
据有关统计,全球互联网流量中的近40%由爬虫所占据。在2021年第二季度,全球的爬虫使用达到了700亿次,同比增长15%。美国法院领英案裁定,也意味着从此百亿爬虫抓取在线零售商和社交网络平台的公开信息,是合乎美国法律的。