今日報紙

訓練ChatGPT模型不付錢？文字版權商要與OpenAI法院見

每日經濟新聞 2023-03-27 22:06:23

每經記者文巧每經編輯蘭素英

自ChatGPT風靡全球后，AI版權問題一直是一個擔憂。AI模型的訓練需要大量數據和內容，但其中許多有版權歸屬，AI公司是否該為使用這些內容付費，成為近來國外爭論不休的一個焦點。

據《華爾街日報》3月22日報道，擁有《紐約郵報》、《巴倫周刊》《華爾街日報》等的美國新聞集團正準備通過法律程序向技術制造商如OpenAI、微軟和谷歌要求賠償。

有關這類討論的一個核心問題是，AI公司是否有權從互聯網上抓取內容，并將其輸入到訓練模型中。一些批評者認為，AI 技術使工業規模的知識產權盜竊成為可能。

《每日經濟新聞》記者注意到，同類訴訟已經涉及到在AI模型中使用圖像和代碼數據進行訓練的問題。例如，Midjourney 、Stability AI、微軟、GitHub以及OpenAI都曾卷入相關訴訟案中。若美國新聞集團對微軟、谷歌、OpenAI提起訴訟，將是第一起針對文本類的相關案件。

不過，AI工具仍處于進入商業應用的早期，對版權問題還沒有形成固定的準則。AI公司是否有權從互聯網上抓取內容并訓練模型，也是一項模糊不明的法律問題。法律人士認為，所有針對生成式AI的案件可能需要數年時間才能結案。隨著科技公司自身也更加注意到版權問題，與內容出版商達成協議尋求使用許可，或許是最好的解決辦法。

不付錢隨便用？文字版權商怒了

《華爾街日報》援引一位熟悉媒體聯盟組織（The News Media Alliance）的人士稱，最近幾周，一些新聞業高管已經在研究他們的內容在多大程度上被用于訓練ChatGPT、Bard等AI工具，并正在探索如何通過法律途徑獲得補償。“我們擁有有價值的內容，這些是人工辛勤勞作的結晶，但這些內容不斷被用于為其他人創造收入，因此必須得到補償，”該組織在接受采訪時這樣說道。

3月21日，谷歌公司推出了聊天機器人Bard測試版本，以期追趕ChatGPT。不過，在推特網友進行的早期測試中，Bard提供的答案通常不會給出基礎新聞來源的鏈接。例如，當被要求提供《紐約時報》最大新聞的摘要時，Bard回應了一份清單，在答案結尾它給出“有關這些和其他故事的更多信息，請訪問紐約時報網站”的提示，但沒有提供答案的鏈接或引用。

這類事件引起了許多內容發布商的關注。美國社交網站Reddit已與微軟就后者在AI模型訓練中使用內容的情況進行了會談。

美國新聞集團NWSA首席執行官Robert Thomson在最近的一次投資者會議上表示，“已經開始與某一方進行討論。很明顯，他們使用的是專有內容——顯然，應該為此提供一些補償。”

《華爾街日報》評論稱，AI工具的出現加劇了大型科技公司與出版界之間本已緊張的關系。一直以來，出版商依賴谷歌、Meta等科技公司的幫助，以使其內容覆蓋更廣泛的受眾。但與此同時，也有越來越多的出版商要求科技公司為使用其內容而付費。

出版商擔心的是，AI工具可能會耗盡他們網站的流量和廣告費用。盡管微軟首席執行官Satya Nadella表示，“一切都是可點擊訪問的”，不過一些出版業高管表示，有多少用戶會真正點擊這些鏈接并訪問他們的網站，這是一個懸而未決的問題。

據報道，在美國、日本、歐盟等地的法律中，均有“合理使用”條款，允許個人、公司在某些情況下未經許可使用受版權保護的材料。許多AI公司也援引這一條款為自己申辯，但出版商則認為，大量使用受版權保護的內容訓練AI，是對這一特許權利的濫用。

圖像、代碼類訴訟近年來屢見不鮮

在AI工具如何合理使用已有內容的爭論中，一個核心的問題是，AI公司是否有合法權利從互聯網上抓取內容，并將其輸入到訓練模型中。一些批評者認為，AI技術使工業規模的知識產權盜竊成為可能。

實際上，AI訓練產生的版權擔憂并非始于ChatGPT。2022年，OpenAI推出的Dall-E 2、Stability AI 創建的Stable Diffusion以及由Midjourney發布的同名AI圖像工具掀起了圖像AI的風潮。

在這些AI工具中，許多作品通過模仿一些攝影圖片或知名畫作的風格而生成。為了讓算法能夠模仿這些風格，構建它們的公司首先必須從互聯網上復制這些作品，然后用其來訓練AI模型。因此，這些公司也由于版權問題而卷入一樁又一樁的訴訟案中。

今年2月，Getty Images在特拉華州起訴了Stability AI，指控其侵犯圖片版權；1月，以畫家Grzegorz Rutkowski為首的一批藝術家作為原告對Midjourney、Stability AI提起了集體訴訟。

更早之前，去年11月，美國加州的聯邦法院也提起了一項集體訴訟，針對微軟及其子公司GitHub和OpenAI的GitHub Copilot系統。原告稱，該系統生成了不注明原作者姓名的代碼，違反了各種開源許可以及《數字千年版權法》。

負責前述針對微軟和GitHub案件的律師Joseph Saveri認為，美國司法部在1990年代成功起訴微軟的反競爭行為（例如將Internet Explorer網絡瀏覽器與Windows操作系統捆綁在一起），與今天有一些相似之處。現在和那時一樣，他看到微軟正在迅速采取行動，以主導它認為對下一代互聯網和計算很重要的領域。

到目前為止，同類訴訟已經涉及到在AI模型中使用圖像和代碼數據進行訓練的問題，但還沒有出現涉及文本類內容的重大案件。也就是說，如果此次美國新聞集團對微軟、谷歌、OpenAI提起訴訟，將是第一起針對文本內容的案件。

相關立法預計將引入實際上，科技公司自身也已經注意到了AI訓練中所涉及的版權問題。與內容出版商達成協議尋求使用許可，或許是最好的解決辦法。

OpenAI首席執行官Sam Altman曾表示，“我們在合理使用方面做了很多工作”。他透露，OpenAI將在必要時就內容達成交易。“我們愿意為某些領域非常高質量的數據付出高昂的代價，”他這樣說道。

在OpenAI已經達成的商業協議中，Sam Altman提到了去年秋天與在線圖庫Shutterstock達成的一項協議。OpenAI從 Shutterstock獲得數據許可，并且Shutterstock開始使用 OpenAI 技術。與此同時，Shutterstock 設立了一個基金，為那些作品被用于AI訓練的藝術家提供補償。

據報道，谷歌方面已經達成協議，向包括新聞集團在內的一些出版商支付費用，以在Google News Showcase的產品中使用他們的內容，不過該產品尚未在美國推出；多年來，微軟一直為其MSN平臺的內容向出版商付款，但這些交易目前還不包括AI產品。

華盛頓大學的法律學者Inyoung Cheong表示，法院在判決時，要權衡這類新技術在使用這些內容時的潛在危害和好處，所有針對生成式AI的案件可能需要數年時間才能結案。

在法律層面，據知情人士透露，允許美國出版商在不違反反壟斷法規的情況下進行集體談判的立法預計將很快引入，該立法將涵蓋AI工具對受版權保護內容的合法使用。

此前，美國版權局表示，已經發起一項研究AI工具的倡議，包括在AI模型訓練中對受版權保護內容的使用。

如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權，嚴禁轉載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯系索取稿酬。如您不希望作品出現在本站，可聯系我們要求撤下您的作品。

人工智能 ChatGPT 微軟

上一篇文章

ChatGPT專用GPU提速10倍……英偉達GTC大會還有哪些看點？

返回每經網首頁

下一篇文章