要聞

13 家媒體怒告OpenAl等AI巨頭背后：“合理使用”or“偷竊”？?jī)?nèi)容創(chuàng)作為何成了大模型的“免費(fèi)午餐”？

每日經(jīng)濟(jì)新聞 2024-07-05 18:42:42

◎ 在生成式AI時(shí)代，對(duì)媒體/出版機(jī)構(gòu)來(lái)說(shuō)，與OpenAI等科技公司合作，共同探索新的資訊形態(tài)、商業(yè)模式和分成比例可能是最好的選擇。

每經(jīng)記者文巧鄭雨航每經(jīng)編輯蘭素英

想象一下，在一個(gè)巨大的機(jī)房?jī)?nèi)，數(shù)不清的服務(wù)器閃爍著點(diǎn)點(diǎn)亮光，隨著數(shù)據(jù)流的進(jìn)入，大語(yǔ)言模型將其一股腦兒“吞食”，隨后開(kāi)始高速分析和處理。在日復(fù)一日的數(shù)據(jù)“投喂”和深度學(xué)習(xí)技術(shù)的推動(dòng)下，大模型表現(xiàn)得越來(lái)越類人化，OpenAI等一眾AI公司也隨之迎來(lái)迅猛發(fā)展。

然而，對(duì)于到底“投喂”了什么數(shù)據(jù)，是否獲取授權(quán)，這些AI公司總是諱莫如深。伯克利計(jì)算機(jī)科學(xué)家Stuart Russell等學(xué)者認(rèn)為，大模型吞噬了大多數(shù)互聯(lián)網(wǎng)信息，以復(fù)制人類智能并將其以自動(dòng)化形式鏡像回饋給我們。

當(dāng)意識(shí)到其網(wǎng)站上發(fā)布的故事都被自動(dòng)抓取成了大模型的“食物”后，以《紐約時(shí)報(bào)》為首的媒體/出版機(jī)構(gòu)向OpenAI等發(fā)起了版權(quán)訴訟?！睹咳战?jīng)濟(jì)新聞》記者在采訪哈佛法學(xué)院教授麗貝卡•塔什內(nèi)特、安杰世澤律師事務(wù)所合伙人于雯竹后了解到，此類案件判定的難點(diǎn)在于如何確定AI輸出內(nèi)容與媒體報(bào)道間的“實(shí)質(zhì)性相似”。

而另一方面，OpenAI等科技公司也向媒體/出版機(jī)構(gòu)拋出了橄欖枝，因?yàn)閿?shù)據(jù)總有耗光的一天。研究機(jī)構(gòu)Epoch AI近期預(yù)測(cè)，大模型將在2026年至2032年之間消耗完所有可用數(shù)據(jù)。

“應(yīng)該大聲要求賠償” ！13家媒體發(fā)起反擊

2009年末，媒體大亨羅伯特•默多克曾在一場(chǎng)論壇上說(shuō)：“有些人覺(jué)得他們有權(quán)拿走我們的新聞內(nèi)容，還無(wú)需為新聞生產(chǎn)貢獻(xiàn)一分錢。他們幾乎侵吞了我們的全部新聞，這可不是合理使用。說(shuō)得直白些，這就是偷。”

當(dāng)時(shí)，隨著谷歌等新興互聯(lián)網(wǎng)公司的出現(xiàn)，美國(guó)報(bào)業(yè)的廣告收入腰斬。而如今，OpenAI等生成式AI公司的強(qiáng)勢(shì)崛起，類似的一幕似乎又開(kāi)始重演。

新聞集團(tuán)首席執(zhí)行官羅伯特•湯姆森就曾表示，“[媒體]的集體知識(shí)產(chǎn)權(quán)正受到威脅，我們應(yīng)該大聲要求賠償。”新聞行業(yè)律師Steven Lieberman更是直言，OpenAI的巨大成功也要?dú)w功于其他人的工作，它在未經(jīng)許可或付款的情況下獲取了大量?jī)?yōu)質(zhì)內(nèi)容。

據(jù)外媒，ChatGPT主要通過(guò)閱讀書(shū)籍、文章和公開(kāi)的網(wǎng)絡(luò)內(nèi)容來(lái)學(xué)習(xí)，包括來(lái)自互聯(lián)網(wǎng)的在線新聞文章。類似的大語(yǔ)言模型也依賴的是社交媒體帖子、博客、數(shù)字化書(shū)籍、在線評(píng)論、維基百科頁(yè)面以及您能想到的幾乎所有的網(wǎng)絡(luò)信息。

在意識(shí)到ChatGPT對(duì)歷史和時(shí)事的了解源自其網(wǎng)站上發(fā)布的故事（甚至是付費(fèi)內(nèi)容）時(shí)，去年年底，《紐約時(shí)報(bào)》對(duì)OpenAI以及微軟提起訴訟，指控后者未經(jīng)授權(quán)使用該報(bào)版權(quán)內(nèi)容訓(xùn)練AI模型，并在ChatGPT產(chǎn)品中呈現(xiàn)給用戶。

該案打響了媒體機(jī)構(gòu)起訴OpenAI的第一槍，隨后又有多家媒體加入了這一反抗的隊(duì)列。據(jù)《每日經(jīng)濟(jì)新聞》記者的不完全統(tǒng)計(jì)，截至今年6月底，已至少有13家新聞媒體機(jī)構(gòu)對(duì)OpenAI和微軟提起了侵權(quán)訴訟。這里面有Alden Global投資集團(tuán)旗下的八家地區(qū)性知名報(bào)紙，包括芝加哥論壇報(bào)、紐約每日新聞、丹佛郵報(bào)、圣何塞水星報(bào)，還有數(shù)字新聞媒體The Intercept、Raw Story和AlterNet，以及非盈利新聞組織The Center for Investigative Reporting。

圖片來(lái)源：每經(jīng)制圖

“判斷這種數(shù)據(jù)抓取行為是否侵犯版權(quán)，是一個(gè)復(fù)雜且有爭(zhēng)議的問(wèn)題。”安杰世澤律師事務(wù)所合伙人、中國(guó)和美國(guó)紐約州執(zhí)業(yè)律師于雯竹在接受每經(jīng)記者采訪時(shí)表示。

這起訴訟只是各行業(yè)與生成式AI公司斗爭(zhēng)的縮影。

美國(guó)當(dāng)?shù)貢r(shí)間6月24日，全球三大唱片公司索尼音樂(lè)集團(tuán)、環(huán)球音樂(lè)集團(tuán)和華納音樂(lè)聯(lián)合多家唱片公司，向AI音樂(lè)生成公司Suno和Udio開(kāi)發(fā)商Uncharted Labs發(fā)起訴訟，指控后者非法使用版權(quán)音樂(lè)來(lái)訓(xùn)練模型并提供服務(wù)。

唱片公司指控Suno抄襲了662首歌曲，Udio抄襲了1670首歌曲，正在嘗試索取每件音樂(lè)作品最高15萬(wàn)美元的賠償費(fèi)用。

8個(gè)月的角力尚無(wú)結(jié)果：“實(shí)質(zhì)性相似”還是“合理使用”？

越來(lái)越多的關(guān)于生成式AI技術(shù)的法律之爭(zhēng)也讓人開(kāi)始正視媒體/出版商與顛覆性技術(shù)之間的關(guān)系。

據(jù)著名廣告周刊Adweek，谷歌去年5月推出了基于AI的搜索引擎Search Generative Experience（SGE）測(cè)試版，接受采訪的媒體高管和搜索引擎優(yōu)化專家稱，出版商必須為自然搜索流量的大幅下降做好準(zhǔn)備，下降幅度可能在20%到60%之間。而出版商在開(kāi)放網(wǎng)絡(luò)上的搜索流量減少通常意味著數(shù)字廣告收入下降。新型媒體公司Raptive創(chuàng)新執(zhí)行副總裁Marc McCollum估計(jì)，在目前的SGE下，整個(gè)出版業(yè)每年的廣告收入損失可能高達(dá)20億美元。

而《紐約時(shí)報(bào)》的起訴不僅是媒體領(lǐng)域的重要里程碑案件，亦可以為法律業(yè)界提供極具參考價(jià)值的信息。

“就版權(quán)法而言，本案的重要影響在于版權(quán)法在數(shù)字和AI時(shí)代的適用范圍。特別是對(duì)于新聞報(bào)道這類具有較高公共利益的文本內(nèi)容，如何平衡版權(quán)保護(hù)和信息自由將成為一個(gè)關(guān)鍵問(wèn)題。” 于雯竹對(duì)記者說(shuō)道。

在于雯竹看來(lái)，如果《紐約時(shí)報(bào)》的訴訟獲得成功，將樹(shù)立一個(gè)重要的法律先例，鼓勵(lì)其他文字類媒體、版權(quán)機(jī)構(gòu)和作家團(tuán)體組織跟隨起訴OpenAI及類似的AI公司。本案可能會(huì)督促AI公司重視AI模型訓(xùn)練的合法性，可能推動(dòng)相關(guān)行業(yè)規(guī)范的建立。

目前，該案件已經(jīng)持續(xù)將近8個(gè)月，但還沒(méi)有定論。

1）媒體之難：證明“實(shí)質(zhì)性相似”

《紐約時(shí)報(bào)》在起訴書(shū)中稱，ChatGPT幾乎逐字復(fù)制了其新聞報(bào)道。該報(bào)舉例稱，2019年，《紐約時(shí)報(bào)》發(fā)表了一篇榮獲普利策獎(jiǎng)的關(guān)于紐約市出租車行業(yè)掠奪性貸款的系列文章。該報(bào)稱，只要稍加提示，ChatGPT就會(huì)一字不差地背誦其中的大部分內(nèi)容。

來(lái)源：《紐約時(shí)報(bào)》起訴書(shū)

在其他多家媒體的起訴書(shū)中，記者發(fā)現(xiàn)，其法律論證和主張都基于美國(guó)1976年版權(quán)法和《數(shù)字千年版權(quán)法》（DMCA）。

對(duì)于這兩部法案中涉及AI的內(nèi)容，于律師告訴記者，“就1976年版權(quán)法而言，侵權(quán)的判定通常依賴于原作品和被指控侵權(quán)作品之間的相似性，以及實(shí)際的復(fù)制行為。本案中實(shí)際復(fù)制行為相對(duì)容易證明，因?yàn)镺penAI并未否認(rèn)其訓(xùn)練數(shù)據(jù)中包含《紐約時(shí)報(bào)》的文章。”

然而難點(diǎn)在于，“證明最終生成的文本構(gòu)成版權(quán)侵權(quán)仍需滿足‘實(shí)質(zhì)性相似’測(cè)試，因?yàn)樗兄谂袛嗍馨鏅?quán)保護(hù)的表達(dá)元素是否被復(fù)制，還是僅復(fù)制了其中的思想。版權(quán)保護(hù)的是表達(dá)，而不是思想。你可以用自己的語(yǔ)言重新實(shí)現(xiàn)他人的思想，這不構(gòu)成版權(quán)侵權(quán)。但如果你使用他人的語(yǔ)言——即他們的表達(dá)——那就是版權(quán)侵權(quán)。”于律師說(shuō)道。

談及DMCA，于雯竹解釋道：“其中的一項(xiàng)規(guī)定鼓勵(lì)版權(quán)持有者在數(shù)字資產(chǎn)中添加內(nèi)容管理信息（CMI），例如幫助識(shí)別創(chuàng)作者或權(quán)利持有者的信息，并禁止他人移除這些信息。”

然而，《紐約時(shí)報(bào)》起訴書(shū)提到，OpenAI在抓取其文章以創(chuàng)建數(shù)據(jù)庫(kù)時(shí)，移除了這些信息，違反了DMCA。

來(lái)源：《紐約時(shí)報(bào)》起訴書(shū)

“實(shí)際上，美國(guó)是判例法國(guó)家，而其版權(quán)法及DMCA并未特別規(guī)定與AI相關(guān)的法律內(nèi)容，對(duì)于OpenAI的行為是否屬于侵權(quán)的認(rèn)定，法院依據(jù)的是相關(guān)的先例及其對(duì)相關(guān)法律條文的解釋。”于雯竹表示。

2）OpenAI的“盾牌”：“合理使用”

而在回應(yīng)《紐約時(shí)報(bào)》版權(quán)侵權(quán)訴訟時(shí)，OpenAI強(qiáng)調(diào)使用公開(kāi)材料訓(xùn)練AI模型屬于合理使用。這一規(guī)則基于美國(guó)1976年版權(quán)法第 107 條規(guī)定。

哈佛法學(xué)院教授麗貝卡•塔什內(nèi)特（Rebecca Tushnet）在接受《每日經(jīng)濟(jì)新聞》記者采訪時(shí)認(rèn)為，“美國(guó)版權(quán)法既提供了廣泛的權(quán)利，也提供了廣泛的例外。關(guān)鍵問(wèn)題是AI訓(xùn)練是否構(gòu)成‘合理使用’，以及當(dāng)AI輸出與現(xiàn)有作品過(guò)于相似時(shí)，該問(wèn)題到底應(yīng)該歸咎于模型還是用戶的濫用。”

塔什內(nèi)特認(rèn)為，“OpenAI提供了有一個(gè)有趣的主張，即（AI）要獲得高度相似的輸出，必須故意用《紐約時(shí)報(bào)》原始文章中的大量引文來(lái)提示模型，這表明錯(cuò)誤在于提示者（用戶的濫用）。”

“‘合理使用’是美國(guó)版權(quán)法的一項(xiàng)關(guān)鍵優(yōu)勢(shì)，使其能夠應(yīng)對(duì)不斷變化的情況。它促成了我們所知道的現(xiàn)代互聯(lián)網(wǎng)的興起，尤其是搜索引擎。按照同樣的推理，只要輸出通常不是從特定作品中復(fù)制而來(lái)，創(chuàng)建AI模型就應(yīng)該被視為變革性的和公平的。” 她對(duì)記者解讀稱，“我認(rèn)為這是一個(gè)相當(dāng)標(biāo)準(zhǔn)的有關(guān)‘合理使用’的問(wèn)題。”

根據(jù)1976年版權(quán)法，判定合理使用的認(rèn)定包括四個(gè)因素。其中，于雯竹認(rèn)為，最重要的是第四點(diǎn)：使用對(duì)版權(quán)作品的潛在市場(chǎng)或價(jià)值的影響。 “簡(jiǎn)而言之，就是新作品是否對(duì)原作品構(gòu)成‘市場(chǎng)損害’。”

圖片來(lái)源：每經(jīng)制圖

《紐約時(shí)報(bào)》在起訴書(shū)中稱，OpenAI的AI工具不僅未經(jīng)授權(quán)使用了《紐約時(shí)報(bào)》的數(shù)據(jù)進(jìn)行訓(xùn)練，還分流了《紐約時(shí)報(bào)》網(wǎng)站的流量，導(dǎo)致了公司廣告、訂閱和授權(quán)營(yíng)收的損失。因此《紐約時(shí)報(bào)》公司向OpenAI和微軟提出數(shù)十億美元的索賠，并要求他們停止使用自己的內(nèi)容數(shù)據(jù)。

“我認(rèn)為OpenAI的‘合理使用’辯護(hù)在理論上具有較大的合理性，但其成功與否取決于法院對(duì)四因素測(cè)試的具體評(píng)估。”她說(shuō)道。

塔什內(nèi)特也表示，“我對(duì)法院是否會(huì)駁回（OpenAI）的所有辯護(hù)持懷疑態(tài)度，但沒(méi)有什么是絕對(duì)肯定的。”

窘境之下的合作

目前，OpenAI可以合法地為其模型“喂食”什么內(nèi)容這一問(wèn)題仍待解決，但媒體機(jī)構(gòu)的策略開(kāi)始呈現(xiàn)分化趨勢(shì)。

當(dāng)?shù)貢r(shí)間6月27日，《時(shí)代》雜志與OpenAI宣布，兩家公司達(dá)成了一項(xiàng)多年內(nèi)容授權(quán)協(xié)議和戰(zhàn)略合作伙伴關(guān)系。該協(xié)議允許OpenAI將這家出版商的內(nèi)容引入ChatGPT，并幫助訓(xùn)練其最先進(jìn)的AI模型。

據(jù)新聞稿介紹，OpenAI可以通過(guò)這筆交易訪問(wèn)《時(shí)代》過(guò)去100多年的檔案和文章，以訓(xùn)練其AI模型，并在其面向消費(fèi)者的產(chǎn)品（如ChatGPT）中用于回復(fù)用戶的詢問(wèn)。但雙方的交易價(jià)值并未透露。

今年5月，OpenAI和新聞集團(tuán)也達(dá)成了類似的合作關(guān)系。在此合作下，OpenAI有權(quán)訪問(wèn)新聞集團(tuán)旗下媒體的當(dāng)前和存檔文章，包括《華爾街日?qǐng)?bào)》、《MarketWatch》、《巴倫周刊》、《紐約郵報(bào)》等。

《每日經(jīng)濟(jì)新聞》記者注意到，過(guò)去半年時(shí)間，OpenAI已連續(xù)與多家媒體機(jī)構(gòu)達(dá)成協(xié)議。

圖片來(lái)源：每經(jīng)制圖

對(duì)媒體機(jī)構(gòu)來(lái)說(shuō)，接受OpenAI等AI巨頭拋來(lái)的橄欖枝，與科技公司在AI新時(shí)代合作，共同探索新的資訊形態(tài)、商業(yè)模式和分成比例，可能是最好的選擇。

與OpenAI合作的媒體公司認(rèn)為，生成式AI將繼續(xù)存在，最好分一杯羹，而不是冒著過(guò)時(shí)的風(fēng)險(xiǎn)。此外，與OpenAI合作讓出版物在某種程度上可以控制他們的新聞報(bào)道在ChatGPT響應(yīng)中的呈現(xiàn)方式。

正如新聞集團(tuán)首席執(zhí)行官Robert Thomson所稱，“（與OpenAI的協(xié)議）認(rèn)可了頂級(jí)新聞應(yīng)有頂級(jí)價(jià)格。數(shù)字化時(shí)代的一大特征是分銷者占據(jù)主導(dǎo)地位，而內(nèi)容創(chuàng)作者經(jīng)常利益受損。很多媒體公司都被無(wú)情的科技大潮所卷席。我們現(xiàn)在有責(zé)任抓住這一最大的機(jī)遇。”

有外媒評(píng)論稱，起訴或許也是《紐約時(shí)報(bào)》談判的手段之一。實(shí)際上，在起訴之前，《紐約時(shí)報(bào)》與OpenAI一直在商談授權(quán)合作協(xié)議，但在OpenAI加入了新的免責(zé)條款后，談判破裂。

對(duì)科技公司來(lái)說(shuō)，支付授權(quán)費(fèi)用一方面可以有效化解法律風(fēng)險(xiǎn)，另一方面可以獲得更多優(yōu)質(zhì)訓(xùn)練數(shù)據(jù)，優(yōu)質(zhì)數(shù)據(jù)才是成為決定未來(lái)AI大模型的關(guān)鍵因素。畢竟，當(dāng)前各大科技公司都正面臨數(shù)據(jù)枯竭的現(xiàn)狀。

在6月更新的一項(xiàng)研究成果中，人工智能研究機(jī)構(gòu)Epoch AI稱，據(jù)他們估測(cè)，目前人類生成的公開(kāi)文本總量約為300萬(wàn)億個(gè)Token，但使用數(shù)據(jù)的速度遠(yuǎn)遠(yuǎn)超過(guò)了生成數(shù)據(jù)的速度，這意味著大模型將在2026年至2032年之間消耗完所有可用數(shù)據(jù)。

圖片來(lái)源：Epoch AI網(wǎng)站

那與AI公司合作到底能給媒體機(jī)構(gòu)帶來(lái)多大的收益？

以新聞集團(tuán)舉例，《每日經(jīng)濟(jì)新聞》記者注意到，除2024財(cái)年第二財(cái)季由于圖書(shū)出版成本降低以及與宣布的5%裁員計(jì)劃相關(guān)的總成本節(jié)省所帶來(lái)的高額凈收入之外，新聞集團(tuán)每個(gè)季度的凈收入均在6000萬(wàn)美元以內(nèi)。

而《華爾街日?qǐng)?bào)》援引知情人士稱，新聞集團(tuán)與OpenAI的協(xié)議價(jià)值在五年內(nèi)可能超過(guò)2.5億美元，包括現(xiàn)金和使用OpenAI技術(shù)的積分形式的補(bǔ)償。如此算來(lái)，相當(dāng)于OpenAI每年將向新聞集團(tuán)支付高達(dá)5000萬(wàn)美元的內(nèi)容授權(quán)費(fèi)用，這相當(dāng)于新聞集團(tuán)將近一個(gè)財(cái)季的凈收入。

從近期科技公司與媒體達(dá)成的合作金額來(lái)說(shuō)，這一交易可以算是AI行業(yè)發(fā)展的里程碑事件。而且，新聞集團(tuán)與OpenAI的協(xié)議并非是一份獨(dú)家授權(quán)協(xié)議，意味著新聞集團(tuán)還可以從谷歌等其他AI公司繼續(xù)獲得授權(quán)收入。

湯森路透的財(cái)報(bào)也證實(shí)了合作帶來(lái)的收益?！睹咳战?jīng)濟(jì)新聞》記者查詢湯森路透公司的財(cái)報(bào)發(fā)現(xiàn)，2024年第一季度，該公司收入為18.85億美元，同比增長(zhǎng)8%。該公司在財(cái)報(bào)中寫(xiě)道，“（增長(zhǎng)）主要是由于‘三大’部門(mén)（該公司的法律、企業(yè)和稅務(wù)以及會(huì)計(jì)部門(mén)）的經(jīng)常性收入和交易收入的強(qiáng)勁增長(zhǎng)，以及路透社新聞部門(mén)的生成式 AI 相關(guān)內(nèi)容許可收入。”

來(lái)源：湯森路透財(cái)報(bào)

一季度財(cái)報(bào)顯示，路透社新聞業(yè)務(wù)的收入為2.1億美元，同比增長(zhǎng)3%。這一增長(zhǎng)主要是由于湯森路透與倫敦證券交易所集團(tuán)（LSEG）數(shù)據(jù)分析部門(mén)簽訂的新聞協(xié)議，根據(jù)該協(xié)議，路透社新聞將向LSEG授權(quán)提供新聞內(nèi)容，后者用于生成AI相關(guān)內(nèi)容。2024年第一季度，僅該協(xié)議為路透社新聞業(yè)務(wù)帶來(lái)的收入就高達(dá)9600萬(wàn)美元。

如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

Ai OpenAI 媒體版權(quán)

上一篇文章

山東東明出現(xiàn)龍卷風(fēng)極端天氣，造成1人死亡79人受傷

返回每經(jīng)網(wǎng)首頁(yè)

下一篇文章

胡昕煒、萬(wàn)民遠(yuǎn)最新增減持個(gè)股曝光，高盛、摩根大通等機(jī)構(gòu)也有調(diào)倉(cāng)動(dòng)作！

相關(guān)文章