一個巨大的數據庫正在印度悄無聲息地建立,有望讓免費的論文挖掘成為可能——但是,這合法么?
Carl Malamud 身后的數據庫儲存了 7300 萬篇論文,他打算讓科學家用來文本挖掘。
來源:Smita SharmaNature自然科研
撰文:Priyanka Pulla
Carl Malamud 正在發起一場運動,他要解放被付費墻封鎖住的信息,而且已經取得了初步勝利。此前幾十年,他致力于公開那些受版權保護的法律文件,無論是建筑規范還是庭審記錄。他認為這些文檔代表了公有領域的法律,理應讓所有公眾在線獲取。有些情況下他會勝訴?,F在,這位 60 歲的美國技術專家又將目光轉向了另一個目標:以合法途徑解放付費墻背后的科學文獻。
過去的一年里,Malamud 在沒有告知出版商的情況下,與一些印度的研究者聯合建立了一個巨大的文本圖片庫,其中包括了從 1847 年至今的 7300 萬篇期刊文章。這一仍在創建的文檔庫將被保存在印度尼赫魯大學(JNU)一個 576T 的存儲器里。Malamud 說:“我們收集的文章可能不是全部,但絕對不算少。”其規模與 Web of Science 數據庫的核心合集不相上下。Malamud 和他在 JNU 的合作者、生物信息學家 Andrew Lynn 將他們的存儲器稱為“JNU 數據倉庫”。
從文檔庫里閱讀或下載論文是不被允許的,因為這會侵犯出版商的版權。按照 Malamud 的設想,研究者可以使用計算機軟件抓取其中文本和數據,在不閱讀文字的情況下掃描全世界的科學文獻,提取他們想要的信息。
這一前所未有的項目讓許多人為之激動,因為這是第一次在文獻付費墻上開了一大條口子,讓它們能被用于簡單的程序分析。目前,已經有幾十個研究組從事著類似的數據挖掘工作,并在此基礎上構建了基因和化學物質的數據庫、尋找蛋白質與疾病之間的關聯、生成有意義的科學假設。但是,出版商通常會對這類挖掘的速度和范圍加以限制,只允許挖掘摘要部分,而非全文。為此,印度、美國和英國的研究人員正計劃改用 JNU 數據倉庫。Malamud 和 Lynn 會去印度各個政府實驗室和大學舉辦講座,解釋他們的想法。Malamud 說:“我們會請一些教授來聽我們的計劃,他們聽了之后都很激動,說‘天啊,這太贊了’。”
不過,數據倉庫的合法性尚待明確。在建造倉庫前,Malamud 聯系過幾位知識產權律師,希望能避開不必要的官司。他說:“我們的立場是,這種做法完全合法。”目前,他的每一步都邁得小心翼翼——他為 JNU 數據倉庫加了物理網閘,讓數據庫無法通過因特網訪問。用戶必須親身前往數據倉庫,而且只有進行非商業數據挖掘的研究者才能獲準進入。Malamud 的團隊打算將來支持遠程訪問。“但我們希望能慢慢推進這個項目,而不是立刻對外開放。”
挖掘技術哪家強
數據倉庫的建立可以為研究論文的軟件分析掃清障礙,加州大學圣克魯茲分校(UCSC)的生物信息學家 Max H?ussler 說,“如今對學術論文進行文本挖掘幾乎不可能。”即使是像他這樣能夠通過學校獲得付費文章的人也辦不到。
自 2009 年以來,H?ussler 和他的同事們就開始構建在線的 UCSC“基因組瀏覽器”,將人類基因組 DNA 序列直接鏈到提及該序列的論文段落。起初,研究者聯系了超過 40 家出版商,請求允許使用軟件來篩查提到 DNA 的具體論文。但有 15 家出版商不是沒有回應就是拒絕了他們的請求。H?ussler 自己也不確定在無授權情況下的數據挖掘是否違法,不敢輕易嘗試。過去,曾有出版商發現他用軟件爬數據庫后封鎖了他的訪問。“我 90% 的時間都在聯系出版商,或是寫程序來下載論文。”H?ussler 說。
在柏林 QUEST 轉化生物醫學研究中心兼任職務的統計學家 Chris Hartgerink 現在只在允許開放獲取的出版商那里做文本挖掘,因為“和不開放的出版商打交道太麻煩了”。幾年前,當 Hartgerlink 還在荷蘭讀博時,他試過批量下載論文來做挖掘,隨后被三家出版商取消了訪問權。
一些國家已經修訂了法律,確保非商業項目的研究人員可以在沒有著作權人許可的情況下,對他們能合法獲取的任何內容進行挖掘。英國在 2014 年就通過了這類法案,歐盟也在今年投票通過了類似條款。但這無助于落后國家的狀況,那里的學術人員根本無法以合法的形式獲取論文。即使在英國,出版商依然有權施加一些“合理”限制,例如以確保服務器不擁堵為由,讓研究人員使用出版商專用界面并限制搜索和批量下載的速度。曼徹斯特大學國家文本挖掘中心副主任 John McNaught 認為這種限制是個很大的問題:“每 5 秒下一篇文章,對人來說好像挺快的,但是對機器來說就慢得要命。下載 600 萬篇論文需要一整年的時間,單單下載生物醫藥的所有已發表論文就要整整五年。
McNaught 說,不差錢的醫藥公司通常會多付一筆錢來獲取專門的文本挖掘訪問權限,因為他們的工作是出于商業目的。一位來自醫藥公司的研究員(由于無權接受媒體采訪,該研究人員拒絕透露身份)說,有些情況下,出版商會允許這些公司批量下載論文,以避開此類速度限制。但是,高校研究人員常常只能從 PubMed 一類的數據庫里對文章摘要進行挖掘。摘要確實能提供一些信息,但遠不及全文來得有用。2018 年,丹麥技術大學計算生物學家 Søren Brunak 的團隊指出,搜索全文比搜索摘要能找到更多基因與疾病的聯系 (D. Westergaard et al. PLoS Comput. Biol. 14, e1005962; 2018)。
Carl Malamud 和 Andrew Lynn 在尼赫魯大學監督一個從 7300 萬研究文獻中提取文字和圖片的項目。來源:Smita Sharma
挖掘論文還有不得不克服的一些技術壁壘。由于不同出版商使用不同的排版方式,從中提取文字本身就是一項挑戰,而 JNU 團隊就遇到了這個問題。例如,從 PDF 轉換成純文本的工具常常無法區分段落、腳注和圖片。不過,只要 JNU 團隊解決了這個難題,后人就可以”乘涼“了。Malamud 說,團隊從 7300 萬篇論文中的首輪提取工作已經接近完成,但下一步還要檢查錯誤。他預計數據庫最快也要到今年年底才能建成。
打開無限可能
JNU 數據倉庫的擁護者早已迫不及待了,其中包括印度國家植物基因組研究所的計算生物學家、劍橋大學的講師 Gitanjali Yadav。2006 年,Yadav 帶領研究所的團隊,為植物分泌的化學物質構建了一個數據庫——EssOilDB。如今,從藥物開發團隊到香水制造商都在從這個數據庫中尋覓線索。即將建成的”Carl 的百科全書“——用 Yadav 的話講,可以讓她的數據庫更上一層樓。
構建 EssOilDB 的時候,Yadav 的團隊需要從 PubMed 和谷歌學術(Google Scholar)上細篩相關論文,盡可能從全文中提取數據。如果這些還不夠,他們就要實地拜訪圖書館,從罕見的期刊中把圖表摘抄下來。Yadav 認為數據倉庫可以快進這項工作,她的團隊正在為將來的數據挖掘編寫查詢語句。
印度基因組學與綜合生物學研究所的生物信息學研究員 Srinivasan Ramachandran 對 Malamud 的計劃也很激動。他的團隊有一個 2 型糖尿病相關基因的數據庫,并一直通過爬 PubMed 的摘要來尋找論文。他希望數據倉庫可以拓寬他的挖掘網。
麻省理工學院的”知識未來小組“(Knowledge Futures Group)想藉由挖掘數據倉庫,研究學術論文的發表形式隨時間的演變。團隊成員之一、MIT 媒體實驗室的博士生 James Weis 說,團隊希望能預測即將出現的新研究領域,并找出衡量研究影響力的替代方法。
解鎖版權的一生
Malamud 不久之前才萌生了將他的解鎖版權運動擴大到學術出版界的想法。Malamud 是加州一個非營利組織”公共資源“(Public Resource)的創始人,該組織會買下政府所有的法律文件并公開發表,其中包括佐治亞州的注解法典、歐洲的玩具安全標準,以及從建筑、殺蟲劑到手術設備在內的逾 1.9 萬項印度標準。
由于這些文件常常是政府機構的收入來源,一些機構因此將 Malamud 告上了法庭。而他的辯護理由是:具有法律效力的文件不應受到著作權的限制。在 2018 年對佐治亞州注解法典的判決中,美國上訴法院認定 Malamud 不存在侵權行為,但是州政府之后再次向最高法院上訴。與此同時,德國法院于 2017 年判定”公共資源“發布玩具標準的行為屬于違法,包括一項嬰兒奶嘴標準。
不過,Malamud 也勝訴過。2013 年,他向美國聯邦法院起訴美國國家稅務局,要求稅務局公開稅務豁免的非營利組織的稅表——這些數據可以用來追究這些組織的責任。這一次,法院判 Malamud 勝訴,并要求美國國稅局將數千個非營利組織的財務報表以機器可讀的形式公開。
2017 年初,在倡導開放獲取的倫敦慈善組織阿卡迪亞基金(Arcadia Fund)的協助下,Malamud 將目光轉向了科研論文。根據美國法律,美國聯邦政府雇員的研究不受版權保護,而”公共資源“找到了數十萬篇由美國政府發表的學術文章都違反了這條規定。Malamud 要求取消對這些文章的版權保護,但法院究竟會如何判決仍然未知。他已經將初步結果發布到了網上,但決定暫緩進一步的宣傳計劃,因為這件事讓他想到了一個更大的使命:開放所有科學論文的訪問權。
印度的機遇
這項使命源于 2016 年德里高等法院的一項裁決。那次案件的中心是德里大學的 Rameshwari 復印店。多年來,這家復印店一直在為學生復印昂貴的課本作為教材。這些課本的價格從 500 到 19000 盧比(合人民幣 50-1860 元)不等,對很多學生來說是無法接受的高價。
新德里的 Rameshwari 復印店由于替學生復印課本而被告上法庭,最終勝訴。來源:Sajjad Hussain/AFP/Getty
2012 年,牛津大學出版社、劍橋大學出版社和泰勒-弗朗西斯出版集團(Taylor&Francis)聯合起訴了這所大學,要求它為每份復制的書籍購買許可。但德里高等法院駁回了訴訟請求。在判決書中,法院援引印度 1957 年《版權法》第 52 節,其中允許以教育為目的復制有著作權的作品,同一節的另一條款還允許出于研究目的的復制行為。
Malamud 與印度的淵源很深:他早在 1980 年代就以游客的身份拜訪過印度,并在斯利那加的船屋中寫下了一本關于數據庫設計的書,是他的早期作品之一。當聽說 Rameshwari 復印店一事時,他剛剛獲得了(他拒絕透露詳情)8 個裝有 Sci-Hub 數百萬篇期刊文章的硬盤。Sci-Hub 是一個將付費論文免費向所有人開放的盜版網站。Sci-Hub 曾因侵權問題被出版社告上美國法院,并在兩起訴訟中敗訴;盡管如此,它的一些域名至今依然有效。
于是,Malamud 開始思索是否能以合法的途徑使用這些 Sci-Hub 的硬盤,為印度學生做些什么。在他 2018 年與印度技術企業家 Sam Pitroda 合寫的關于他工作的《自治法典》(Code Swaraj)一書中,他想象自己駕駛一輛類似美式快餐車的汽車空降印度校園,把論文分發給需要它們的學生。
最終,他把想法定格在了 JNU 數據倉庫。(Malamud 還在幫助德里的印度理工學院建立另一個挖掘中心,其中包含了 250T 的數據,但尚未啟用。)不過,他對數據倉庫的論文來源卻諱莫如深。當被問及數據倉庫中的有些論文是否來自 Sci-Hub 時,他不愿置評,只透露了可供免費下載論文的平臺(如 PubMed Central 和一個叫”Unpaywall“的工具)。但他坦言并未與出版商就數據倉庫的論文訪問權簽訂合同。
合法嗎?
在 Malamud 看來,論文的來源并不重要。他認為這種數據挖掘屬于非消費型——該術語意味著研究者不能閱讀或展示他們所分析文章的大部分內容。他說:”你是不能用 DOI [論文索引號] 搜索文章的。“Malamud 認為在美國等一些國家,對有著作權的內容進行挖掘是法律許可的。例如,2015年,美國法院判定”谷歌圖書“(Google Books)沒有違反著作權,而谷歌的做法與 JNU 數據倉庫類似:在沒有額外購買許可的情況下對上千本有著作權的書籍進行掃描,并在搜索服務中提供這些書籍的摘錄,但是不允許用戶全文下載或閱讀。
舊金山律所 Durie Tangri 的知識產權律師 Joseph Gratz 是谷歌圖書一案的辯護律師,并曾代表公共資源出庭。在他看來,谷歌圖書一案是對非消費型數據挖掘的一個試驗。雖然谷歌會提供部分預覽,但法院判定片段展示的文本過少,不構成侵權。谷歌的確沒有獲得許可,但它掃描的是已獲授權的圖書(多來自圖書館)。Gratz 說,著作權人可能會辯稱,如果 JNU 數據倉庫是從 Sci-Hub 等未獲授權的途徑獲得論文,情況就和谷歌不同。但是,美國法院歷史上從未審理過涉及非授權來源的案件,因此結果如何很難說。”雖然來源不重要的理由很充足,但推翻這種論證也不是不可能。“又或者,數據倉庫在美國是否合法根本無關緊要,因為這些內容全部來自位于印度的數據庫——即使可以遠程訪問。美利堅大學華盛頓法學院的教授 Michael W. Carroll 因此認為,這個數據庫是否合法,可能還得印度法律說了算。
而在印度,法律很有可能對 Malamud 有利——這也是他把數據庫設在新德里的另一個原因。第 52 節允許的研究豁免讓 JNU 數據倉庫不會觸犯印度法律,德里國家法律大學的助理教授 Arul George Scaria 說。但是,不是所有人都同意這種解讀。第 52 節允許研究者復制期刊文章做個人使用,但不一定允許 JNU 數據倉庫的大批量復制,Vidhi 法律政策中心的法學研究員 T. Prashant Reddy 說。不讓用戶訪問全文確實會讓數據庫相對有利,但是通過批量復制論文來構建數據庫的做法卻會使其陷入”法律灰色地帶“,Reddy 說。
高風險行業《自然》就 JNU 數據倉庫的問題聯系了 15 家出版商,其中 6 家給出了回應,并說自己是第一次聽說這個項目,不愿在沒有進一步信息的情況下評論其合法性。但是,這 6 家出版社——愛思唯爾、BMJ、美國化學學會、施普林格·自然、美國科學促進會和美國國家科學院——都說對他們的論文進行數據挖掘需要獲得他們的許可。(施普林格·自然是《自然》的出版商;《自然》新聞團隊與其出版商是編輯獨立的。)Malamud 深知這個項目背后的風險,但他認為這么做在”道義上至關重要“,特別是對印度來說。他說,印度大學和政府實驗室花費巨資訂閱各種期刊,但仍然無法獲取所有需要的論文。來自 Sci-Hub 的數據表明,印度是該網站最大的用戶來源國,這意味著大學購買的權限還遠遠不夠。Malamud 說,雖然美國和歐洲的開放獲取運動難能可貴,但印度要在解放科學知識的道路上先行一步,”我們不能等歐洲和美國來解決這個問題,印度的需求太迫切了。“
免責聲明:本網站所轉載的文字、圖片與視頻資料版權歸原創作者所有,如果涉及侵權,請第一時間聯系本網刪除。

官方微信
《中國腐蝕與防護網電子期刊》征訂啟事
- 投稿聯系:編輯部
- 電話:010-62313558-806
- 郵箱:fsfhzy666@163.com
- 中國腐蝕與防護網官方QQ群:140808414