他想挖全世界的论文,可能吗?-深度-知识分子

他想挖全世界的论文,可能吗?

2019/09/20
导读
需求太迫切了

一个巨大的数据库正在印度悄无声息地建立,有望让免费的论文挖掘成为可能——但是,这合法么?


Carl Malamud身后的数据库储存了7300万篇论文,他打算让科学家用来文本挖掘。(图源:Smita Sharma)


撰文 | Priyanka Pulla


Carl Malamud正在发起一场运动,他要解放被付费墙封锁住的信息,而且已经取得了初步胜利。此前几十年,他致力于公开那些受版权保护的法律文件,无论是建筑规范还是庭审记录。他认为这些文档代表了公有领域的法律,理应让所有公众在线获取。有些情况下他会胜诉。现在,这位60岁的美国技术专家又将目光转向了另一个目标:以合法途径解放付费墙背后的科学文献。

过去的一年里,Malamud在没有告知出版商的情况下,与一些印度的研究者联合建立了一个巨大的文本图片库,其中包括了从1847年至今的7300万篇期刊文章。这一仍在创建的文档库将被保存在印度尼赫鲁大学(JNU)一个576T的存储器里。Malamud说:“我们收集的文章可能不是全部,但绝对不算少。”其规模与Web of Science数据库的核心合集不相上下。Malamud和他在JNU的合作者、生物信息学家Andrew Lynn将他们的存储器称为“JNU数据仓库”。


从文档库里阅读或下载论文是不被允许的,因为这会侵犯出版商的版权。按照Malamud的设想,研究者可以使用计算机软件抓取其中文本和数据,在不阅读文字的情况下扫描全世界的科学文献,提取他们想要的信息。


这一前所未有的项目让许多人为之激动,因为这是第一次在文献付费墙上开了一大条口子,让它们能被用于简单的程序分析。目前,已经有几十个研究组从事着类似的数据挖掘工作,并在此基础上构建了基因和化学物质的数据库、寻找蛋白质与疾病之间的关联、生成有意义的科学假设。但是,出版商通常会对这类挖掘的速度和范围加以限制,只允许挖掘摘要部分,而非全文。为此,印度、美国和英国的研究人员正计划改用JNU数据仓库。Malamud和Lynn会去印度各个政府实验室和大学举办讲座,解释他们的想法。Malamud说:“我们会请一些教授来听我们的计划,他们听了之后都很激动,说‘天啊,这太赞了’。”


不过,数据仓库的合法性尚待明确。在建造仓库前,Malamud联系过几位知识产权律师,希望能避开不必要的官司。他说:“我们的立场是,这种做法完全合法。”目前,他的每一步都迈得小心翼翼——他为JNU数据仓库加了物理网闸,让数据库无法通过因特网访问。用户必须亲身前往数据仓库,而且只有进行非商业数据挖掘的研究者才能获准进入。Malamud的团队打算将来支持远程访问。“但我们希望能慢慢推进这个项目,而不是立刻对外开放。”


挖掘技术哪家强

数据仓库的建立可以为研究论文的软件分析扫清障碍,加州大学圣克鲁兹分校(UCSC)的生物信息学家Max Häussler说,“如今对学术论文进行文本挖掘几乎不可能。”即使是像他这样能够通过学校获得付费文章的人也办不到。


自2009年以来,Häussler和他的同事们就开始构建在线的UCSC“基因组浏览器”,将人类基因组DNA序列直接链到提及该序列的论文段落。起初,研究者联系了超过40家出版商,请求允许使用软件来筛查提到DNA的具体论文。但有15家出版商不是没有回应就是拒绝了他们的请求。Häussler自己也不确定在无授权情况下的数据挖掘是否违法,不敢轻易尝试。过去,曾有出版商发现他用软件爬数据库后封锁了他的访问。“我90%的时间都在联系出版商,或是写程序来下载论文。”Häussler说。


在柏林QUEST转化生物医学研究中心兼任职务的统计学家Chris Hartgerink现在只在允许开放获取的出版商那里做文本挖掘,因为“和不开放的出版商打交道太麻烦了”。几年前,当Hartgerlink还在荷兰读博时,他试过批量下载论文来做挖掘,随后被三家出版商取消了访问权。


一些国家已经修订了法律,确保非商业项目的研究人员可以在没有著作权人许可的情况下,对他们能合法获取的任何内容进行挖掘。英国在2014年就通过了这类法案,欧盟也在今年投票通过了类似条款。但这无助于落后国家的状况,那里的学术人员根本无法以合法的形式获取论文。即使在英国,出版商依然有权施加一些“合理”限制,例如以确保服务器不拥堵为由,让研究人员使用出版商专用界面并限制搜索和批量下载的速度。曼彻斯特大学国家文本挖掘中心副主任John McNaught认为这种限制是个很大的问题:“每5秒下一篇文章,对人来说好像挺快的,但是对机器来说就慢得要命。下载600万篇论文需要一整年的时间,单单下载生物医药的所有已发表论文就要整整五年。


McNaught说,不差钱的医药公司通常会多付一笔钱来获取专门的文本挖掘访问权限,因为他们的工作是出于商业目的。一位来自医药公司的研究员(由于无权接受媒体采访,该研究人员拒绝透露身份)说,有些情况下,出版商会允许这些公司批量下载论文,以避开此类速度限制。但是,高校研究人员常常只能从PubMed一类的数据库里对文章摘要进行挖掘。摘要确实能提供一些信息,但远不及全文来得有用。2018年,丹麦技术大学计算生物学家Søren Brunak的团队指出,搜索全文比搜索摘要能找到更多基因与疾病的联系 (D. Westergaard et al. PLoS Comput. Biol. 14, e1005962; 2018)。


Carl Malamud和Andrew Lynn在尼赫鲁大学监督一个从7300万研究文献中提取文字和图片的项目。(图源:Smita Sharma)


挖掘论文还有不得不克服的一些技术壁垒。由于不同出版商使用不同的排版方式,从中提取文字本身就是一项挑战,而JNU团队就遇到了这个问题。例如,从PDF转换成纯文本的工具常常无法区分段落、脚注和图片。不过,只要JNU团队解决了这个难题,后人就可以“乘凉”了。Malamud说,团队从7300万篇论文中的首轮提取工作已经接近完成,但下一步还要检查错误。他预计数据库最快也要到今年年底才能建成。

打开无限可能

JNU数据仓库的拥护者早已迫不及待了,其中包括印度国家植物基因组研究所的计算生物学家、剑桥大学的讲师Gitanjali Yadav。2006年,Yadav带领研究所的团队,为植物分泌的化学物质构建了一个数据库——EssOilDB。如今,从药物开发团队到香水制造商都在从这个数据库中寻觅线索。即将建成的“Carl的百科全书”——用Yadav的话讲,可以让她的数据库更上一层楼。


构建EssOilDB的时候,Yadav的团队需要从PubMed和谷歌学术(Google Scholar)上细筛相关论文,尽可能从全文中提取数据。如果这些还不够,他们就要实地拜访图书馆,从罕见的期刊中把图表摘抄下来。Yadav认为数据仓库可以快进这项工作,她的团队正在为将来的数据挖掘编写查询语句。


印度基因组学与综合生物学研究所的生物信息学研究员Srinivasan Ramachandran对Malamud的计划也很激动。他的团队有一个2型糖尿病相关基因的数据库,并一直通过爬PubMed的摘要来寻找论文。他希望数据仓库可以拓宽他的挖掘网。


麻省理工学院的“知识未来小组”(Knowledge Futures Group)想藉由挖掘数据仓库,研究学术论文的发表形式随时间的演变。团队成员之一、MIT媒体实验室的博士生James Weis说,团队希望能预测即将出现的新研究领域,并找出衡量研究影响力的替代方法。

解锁版权的一生

Malamud不久之前才萌生了将他的解锁版权运动扩大到学术出版界的想法。Malamud是加州一个非营利组织“公共资源”(Public Resource)的创始人,该组织会买下政府所有的法律文件并公开发表,其中包括佐治亚州的注解法典、欧洲的玩具安全标准,以及从建筑、杀虫剂到手术设备在内的逾1.9万项印度标准。


由于这些文件常常是政府机构的收入来源,一些机构因此将Malamud告上了法庭。而他的辩护理由是:具有法律效力的文件不应受到著作权的限制。在2018年对佐治亚州注解法典的判决中,美国上诉法院认定Malamud不存在侵权行为,但是州政府之后再次向最高法院上诉。与此同时,德国法院于2017年判定“公共资源”发布玩具标准的行为属于违法,包括一项婴儿奶嘴标准。


不过,Malamud也胜诉过。2013年,他向美国联邦法院起诉美国国家税务局,要求税务局公开税务豁免的非营利组织的税表——这些数据可以用来追究这些组织的责任。这一次,法院判Malamud胜诉,并要求美国国税局将数千个非营利组织的财务报表以机器可读的形式公开。


2017年初,在倡导开放获取的伦敦慈善组织阿卡迪亚基金(Arcadia Fund)的协助下,Malamud将目光转向了科研论文。根据美国法律,美国联邦政府雇员的研究不受版权保护,而“公共资源”找到了数十万篇由美国政府发表的学术文章都违反了这条规定。Malamud要求取消对这些文章的版权保护,但法院究竟会如何判决仍然未知。他已经将初步结果发布到了网上,但决定暂缓进一步的宣传计划,因为这件事让他想到了一个更大的使命:开放所有科学论文的访问权。

印度的机遇

这项使命源于2016年德里高等法院的一项裁决。那次案件的中心是德里大学的Rameshwari复印店。多年来,这家复印店一直在为学生复印昂贵的课本作为教材。这些课本的价格从500到19000卢比(合人民币50-1860元)不等,对很多学生来说是无法接受的高价。


2012年,牛津大学出版社、剑桥大学出版社和泰勒-弗朗西斯出版集团(Taylor&Francis)联合起诉了这所大学,要求它为每份复制的书籍购买许可。但德里高等法院驳回了诉讼请求。在判决书中,法院援引印度1957年《版权法》第52节,其中允许以教育为目的复制有著作权的作品,同一节的另一条款还允许出于研究目的的复制行为。


Malamud与印度的渊源很深:他早在1980年代就以游客的身份拜访过印度,并在斯利那加的船屋中写下了一本关于数据库设计的书,是他的早期作品之一。当听说Rameshwari复印店一事时,他刚刚获得了(他拒绝透露详情)8个装有Sci-Hub数百万篇期刊文章的硬盘。Sci-Hub是一个将付费论文免费向所有人开放的盗版网站。Sci-Hub曾因侵权问题被出版社告上美国法院,并在两起诉讼中败诉;尽管如此,它的一些域名至今依然有效。


于是,Malamud开始思索是否能以合法的途径使用这些Sci-Hub的硬盘,为印度学生做些什么。在他2018年与印度技术企业家Sam Pitroda合写的关于他工作的《自治法典》(Code Swaraj)一书中,他想象自己驾驶一辆类似美式快餐车的汽车空降印度校园,把论文分发给需要它们的学生。


最终,他把想法定格在了JNU数据仓库。(Malamud还在帮助德里的印度理工学院建立另一个挖掘中心,其中包含了250T的数据,但尚未启用。)不过,他对数据仓库的论文来源却讳莫如深。当被问及数据仓库中的有些论文是否来自Sci-Hub时,他不愿置评,只透露了可供免费下载论文的平台(如PubMed Central和一个叫“Unpaywall”的工具)。但他坦言并未与出版商就数据仓库的论文访问权签订合同。

合法吗?

在Malamud看来,论文的来源并不重要。他认为这种数据挖掘属于非消费型——该术语意味着研究者不能阅读或展示他们所分析文章的大部分内容。他说:“你是不能用DOI[论文索引号]搜索文章的。”Malamud认为在美国等一些国家,对有著作权的内容进行挖掘是法律许可的。例如,2015年,美国法院判定“谷歌图书”(Google Books)没有违反著作权,而谷歌的做法与JNU数据仓库类似:在没有额外购买许可的情况下对上千本有著作权的书籍进行扫描,并在搜索服务中提供这些书籍的摘录,但是不允许用户全文下载或阅读。


旧金山律所Durie Tangri的知识产权律师Joseph Gratz是谷歌图书一案的辩护律师,并曾代表公共资源出庭。在他看来,谷歌图书一案是对非消费型数据挖掘的一个试验。虽然谷歌会提供部分预览,但法院判定片段展示的文本过少,不构成侵权。谷歌的确没有获得许可,但它扫描的是已获授权的图书(多来自图书馆)。Gratz说,著作权人可能会辩称,如果JNU数据仓库是从Sci-Hub等未获授权的途径获得论文,情况就和谷歌不同。但是,美国法院历史上从未审理过涉及非授权来源的案件,因此结果如何很难说。“虽然来源不重要的理由很充足,但推翻这种论证也不是不可能。”


又或者,数据仓库在美国是否合法根本无关紧要,因为这些内容全部来自位于印度的数据库——即使可以远程访问。美利坚大学华盛顿法学院的教授Michael W. Carroll因此认为,这个数据库是否合法,可能还得印度法律说了算。


而在印度,法律很有可能对Malamud有利——这也是他把数据库设在新德里的另一个原因。第52节允许的研究豁免让JNU数据仓库不会触犯印度法律,德里国家法律大学的助理教授Arul George Scaria说。但是,不是所有人都同意这种解读。第52节允许研究者复制期刊文章做个人使用,但不一定允许JNU数据仓库的大批量复制,Vidhi法律政策中心的法学研究员T. Prashant Reddy说。不让用户访问全文确实会让数据库相对有利,但是通过批量复制论文来构建数据库的做法却会使其陷入“法律灰色地带”,Reddy说。

高风险行业

《自然》就JNU数据仓库的问题联系了15家出版商,其中6家给出了回应,并说自己是第一次听说这个项目,不愿在没有进一步信息的情况下评论其合法性。但是,这6家出版社——爱思唯尔、BMJ、美国化学学会、施普林格·自然、美国科学促进会和美国国家科学院——都说对他们的论文进行数据挖掘需要获得他们的许可。(施普林格·自然是《自然》的出版商;《自然》新闻团队与其出版商是编辑独立的。)


Malamud深知这个项目背后的风险,但他认为这么做在“道义上至关重要”,特别是对印度来说。他说,印度大学和政府实验室花费巨资订阅各种期刊,但仍然无法获取所有需要的论文。来自Sci-Hub的数据表明,印度是该网站最大的用户来源国,这意味着大学购买的权限还远远不够。Malamud说,虽然美国和欧洲的开放获取运动难能可贵,但印度要在解放科学知识的道路上先行一步,“我们不能等欧洲和美国来解决这个问题,印度的需求太迫切了。”


原文以 The plan to mine the world’s research papers为标题

发布在 2019年 7月 17日《自然》新闻特写上


版权声明:
本文由施普林格·自然上海办公室负责翻译。中文内容仅供参考,一切内容以英文原版为准。欢迎转发至朋友圈,如需转载,请邮件China@nature.com。未经授权的翻译是侵权行为,版权方将保留追究法律责任的权利。


© 2019 Springer Nature Limited. All Rights Reserved


本文经授权转载自“Nature自然科研”


参与讨论
0 条评论
评论
暂无评论内容
《赛先生》微信公众号创刊于2014年7月,创始人为饶毅、鲁白、谢宇三位学者,成为国内首个由知名科学家创办并担任主编的科学传播新媒体平台,共同致力于让科学文化在中国本土扎根。
订阅Newsletter

我们会定期将电子期刊发送到您的邮箱

GO