谷歌之后，OpenAI也要給新聞網(wǎng)站付費了？

2024-07-13 09:57 來源：A5專欄我來投稿撤稿糾錯

文丨師天浩

出品丨師天浩觀察（shitianhao01）

近兩年，大模型噴涌，它們在文字、圖片、音視頻等內(nèi)容形態(tài)的生成上大放異彩。內(nèi)容創(chuàng)作一直認為是人“獨屬”的技能，自OpenAI于2022年發(fā)布ChatGPT之后，眾多大模型開始挑戰(zhàn)一直被人類把持的這一獨特技能。從初期驚艷心態(tài)“祛魅”后，大眾逐步了解了這個新生事物的“創(chuàng)作原理”。

它需要先“吞食”海量的文字內(nèi)容、圖片內(nèi)容、音視頻內(nèi)容，這些大數(shù)據(jù)先被高速分析和處理，在深度學習技術(shù)的推動下，大模型愈發(fā)像人一樣可以創(chuàng)作文字、圖片、音視頻等多模態(tài)內(nèi)容。包含社交娛樂到工作學習等場景的內(nèi)容生成，能力越來越強的大模型，將深刻改變未來世界。

快速發(fā)展背后，大模型侵權(quán)問題頻繁爆發(fā)。

今年4月末，包括《紐約每日新聞》和《芝加哥論壇報》在內(nèi)的多家新聞機構(gòu)在紐約的聯(lián)邦法庭對OpenAI及Microsoft提起了法律訴訟，控告二者在未獲授權(quán)下，利用其新聞稿件來教導生成型人工智能（AI）技術(shù)。隨后，美國調(diào)查新聞中心（CIR）指控OpenAI和Microsoft使用版權(quán)材料來訓練其人工智能模型。一份在紐約聯(lián)邦法院提交的投訴聲稱，OpenAI未經(jīng)許可或付款就利用了CIR的內(nèi)容。

這讓人不得不聯(lián)想到十年前，美國眾多新聞機構(gòu)對谷歌搜索引擎的法律訴訟。其實，大模型自誕生就被看做搜索引擎之后，網(wǎng)民的全新信息獲取工具，相比于后者，大模型除了提供精準信息，還可以直接“原創(chuàng)”文字、圖片、音視頻內(nèi)容供用戶使用。

如今，谷歌已經(jīng)對非常多新聞機構(gòu)“付費”，大模型或許也難逃這個結(jié)局，雖然OpenAI對此強調(diào)使用公開材料訓練AI模型屬于合理使用。

新聞機構(gòu)和互聯(lián)網(wǎng)巨頭的較量，最早可追溯到2009年。

2009年，美國新聞集團旗下的《華爾街日報》新聞網(wǎng)站采取收費制，網(wǎng)友打開該網(wǎng)站部分新聞可瀏覽第一段，若想閱讀全文就須付費。彼時這類收費新聞若由谷歌搜尋鏈接，卻可閱覽全文。

在“2009年有線電視展會”上默多克譴責谷歌，稱搜索巨人正在竊取不屬于自己的內(nèi)容，因此呼吁內(nèi)容所有者進行反擊。默多克控訴：“我們還要讓谷歌繼續(xù)竊取我們的版權(quán)內(nèi)容嗎？不能再這樣下去了。”

即使到了今天，新聞網(wǎng)站的優(yōu)質(zhì)內(nèi)容，仍是谷歌等搜索引擎向用戶提供優(yōu)質(zhì)服務的必要組成部分。搜索引擎在賺取大量財富的同時，新聞網(wǎng)站卻成了谷歌們的“陪嫁品”。圍繞搜索引擎是否應該向新聞網(wǎng)站付費的討論，從美國蔓延到全球，從十幾年前爭議持續(xù)到今天。

漫長時間的較量下，現(xiàn)在谷歌向新聞機構(gòu)付費已是一種常態(tài)化現(xiàn)象。

早在2020年，谷歌公司就對外宣布，當時已與全球約200家報道機構(gòu)建立了合作關(guān)系，將開始一項推送新聞的新服務，未來3年，谷歌將支付10億美元的新聞稿件等的使用費。

相比于，搜索引擎的索引“侵權(quán)”和廣告壟斷等拷問。大模型與新聞機構(gòu)的較量更為全面，雙方的矛盾也更為激烈。

要知道，全球新聞網(wǎng)站依靠谷歌帶去的源源不斷流量，尚能夠通過廣告服務、付費閱讀等業(yè)務盈利。而大模型的服務機制中，超鏈跳轉(zhuǎn)所占比例并不高，也就說服務大多在大模型產(chǎn)品內(nèi)就結(jié)束，新聞網(wǎng)站從中更難獲取利益。

這一次，率先對大模型開戰(zhàn)的為《紐約時報》，2023年底該報對OpenAI以及Microsoft提起訴訟，指控后者未經(jīng)授權(quán)使用該報版權(quán)內(nèi)容訓練AI模型，并在ChatGPT產(chǎn)品中呈現(xiàn)給用戶。截至今年6月底，已至少有13家新聞媒體機構(gòu)對OpenAI和Microsoft提起了侵權(quán)訴訟。

據(jù)新聞集團首席執(zhí)行官羅伯特湯姆森所說“媒體的集體知識產(chǎn)權(quán)正受到威脅，我們應該大聲要求賠償。”新聞行業(yè)律師Steven Lieberman更是直言，OpenAI的巨大成功也要歸功于其他人的工作，它在未經(jīng)許可或付款的情況下獲取了大量優(yōu)質(zhì)內(nèi)容。

這類起訴并非只是存在新聞行業(yè)，大模型多模態(tài)發(fā)展，也引起其他行業(yè)企業(yè)和機構(gòu)展開反擊。

美時間6月24日，全球三大唱片公司索尼音樂集團、環(huán)球音樂集團和華納音樂聯(lián)合多家唱片公司，向AI音樂生成公司Suno和Udio開發(fā)商Uncharted Labs發(fā)起訴訟，指控后者非法使用版權(quán)音樂來訓練模型并提供服務。

唱片公司指控Suno抄襲了662首歌曲，Udio抄襲了1670首歌曲，正在嘗試索取每件音樂作品最高15萬美元的賠償費用。

國內(nèi)也發(fā)生了類似事件，今年6月6日360 AI發(fā)布會上，360集團創(chuàng)始人、董事長周鴻祎在演示360AI瀏覽器的創(chuàng)新功能“局部重繪”時，選用了一張女性古裝寫真圖片進行演示。兩天后，ID為DynamicWangs的創(chuàng)作者在社交平臺上發(fā)難，認為該圖片是他利用AI繪圖模型精心創(chuàng)作，并指責360公司未得到自己的授權(quán)。

內(nèi)容創(chuàng)作行業(yè)，追“新”是一個特點，最新的思想、最新的事件、最新的言論、最新的圖畫風格或最新的視頻模式。對大模型而言，如果缺了最及時信息的提供，必然會被用戶吐槽提供的內(nèi)容過時、傳統(tǒng)，而想要追“新”，就難免和各種內(nèi)容行業(yè)機構(gòu)產(chǎn)生在“版權(quán)”方面的糾紛。

在去年《紐約時報》起訴書中就有這樣一段內(nèi)容，ChatGPT幾乎逐字復制了其新聞報道。該報舉例稱，2019年，《紐約時報》發(fā)表了一篇榮獲普利策獎的關(guān)于紐約市出租車行業(yè)掠奪性貸款的系列文章。該報稱，只要稍加提示，ChatGPT就會一字不差地背誦其中的大部分內(nèi)容。

來源：《紐約時報》起訴書

顯然，一部分ChatGPT用戶已把大模型當做了搜索引擎來使用。這種形式究竟算不算侵權(quán)呢？法律定義上尚有討論空間，可隨著大模型的大踏步商業(yè)化，類似拷問會層出不窮。就算當下版權(quán)法體系下算不得“大事”，可隨著版權(quán)方的積極維權(quán)，也難免會有新的立法來杜絕這種現(xiàn)象。畢竟，新聞網(wǎng)站主要是靠流量和伴生的廣告盈利，ChatGPT這種直接杜絕用戶和新聞網(wǎng)站“鏈接”的方式，侵犯了后者的利益。

其實，現(xiàn)在包括美國和中國兩個AI大國，版權(quán)法方面和AI相關(guān)的法律內(nèi)容尚在探索中，但考慮到大量內(nèi)容創(chuàng)作者依靠版權(quán)吃飯的現(xiàn)實中，大模型和內(nèi)容版權(quán)的較量將是個長期問題，從新聞網(wǎng)站與搜索引擎的十幾年較量歷史中總結(jié)，大模型公司向內(nèi)容方付“版權(quán)費”或是一個必然的結(jié)果。

內(nèi)容版權(quán)方未來向大模型“發(fā)難”主要在兩個層面，第一是訓練AI模型時有沒有用到我的版權(quán)內(nèi)容；第二是輸出的文字、圖片、音視頻內(nèi)容有沒有涉及侵權(quán)的地方。

大模型商業(yè)化必然要面臨“版權(quán)”問題，以OpenAI最新發(fā)布的GPT-4o為例，該大模型能夠處理50種不同的語言，相比過去版本提升了速度和質(zhì)量，并擁有了可讀取人情緒的能力。它接受文本、音頻和圖像三者組合作為輸入，并能生成文本、音頻和圖像的任意組合輸出，“與現(xiàn)有模型相比，GPT-4o在圖像和音頻理解方面尤其出色。”

它的應用場景非常豐富，包括實時翻譯、會議報告生成、法律咨詢、創(chuàng)意寫作、虛擬客服等場景，包括實時語音和視頻分析功能。且用戶還可以和它聊天，通過提問獲取最新知識，甚至一些人開發(fā)了和大模型戀愛的“賽道”。

除了生活場景，大模型會在越來越多商業(yè)場景中應用。這就意味著，雖然OpenAI宣布GPT-4o目前可免費使用（限次數(shù)），但用戶只有付費才可無限使用。況且，商業(yè)化權(quán)限一直在OpenAI手中。

由于國內(nèi)無法使用GPT-4o，小編就用騰訊元寶大模型、文心一言大模型提問“張藝謀三體電影怎么樣”這個熱點。從騰訊元寶的答案中，每一個答案段落都有其引用超鏈出處。文心一言上的答案雖然未提供超鏈，但下方也有相關(guān)話題的超鏈接。

其實，大模型只是工具，輸入某方面的內(nèi)容，才具備輸出相關(guān)方面“答案”的能力。要知道，內(nèi)容創(chuàng)作的進化非?？?，在大模型生活場景、商用場景中，想要能夠隨時提供最佳體驗予以用戶，必須要“喂食”最新的數(shù)據(jù)。而且，在用戶需求下，輸出的答案難免會“復制”新聞網(wǎng)站或其他版權(quán)方的內(nèi)容。在大模型目前剛起步時期，這類矛盾還只是限于部分大的新聞機構(gòu)和大模型公司之間，一旦大模型在日常生活中應用普遍化，這種矛盾將會進一步激化。

未來，這種圍繞版權(quán)的糾紛會以什么樣的方式解決？現(xiàn)在，已經(jīng)很多案例發(fā)生，未來類似問題解決方式跳不出這些圈子。

圍繞人工智能的法案正在出臺，2023年12月8日，歐盟委員會、歐洲議會和歐盟成員國代表達成的《人工智能法案》（AIAct）。該法案明確提出，對于類似ChatGPT的通用AI系統(tǒng)（GPAI）以及相關(guān)的GPAI模型，提供方需要制作技術(shù)文件、遵守歐盟版權(quán)法、披露訓練系統(tǒng)時使用的數(shù)據(jù)內(nèi)容匯總。如果各企業(yè)和機構(gòu)違反歐盟的AI法將面臨罰款。

今年8月15日，由國家互聯(lián)網(wǎng)信息辦公室等七部門聯(lián)合發(fā)布的《生成式人工智能服務管理暫行辦法》正式施行，這是我國首個針對生成式人工智能產(chǎn)業(yè)的規(guī)范性政策，也是全球第一部人工智能生成內(nèi)容管理辦法。

監(jiān)管機構(gòu)將對違規(guī)行為進行相應處罰，今年3月，法國市場監(jiān)管機構(gòu)宣布，已向美國谷歌公司開出一張2.5億歐元（約合人民幣19.7億元）的罰單，原因是谷歌未經(jīng)同意使用法國出版商和新聞機構(gòu)的內(nèi)容訓練旗下的聊天機器人“巴德”（其升級版名為“雙子座”），違反了歐盟知識產(chǎn)權(quán)的相關(guān)法規(guī)。

谷歌因此成為第一個因為訓練數(shù)據(jù)“侵權(quán)”被罰款的公司。有了這個前車之鑒，未來或有更多大模型企業(yè)會因為訓練數(shù)據(jù)問題，遭受相關(guān)的管制。

對于大模型公司而言，如何和擁有版權(quán)的內(nèi)容公司獲得合作，將是未來重要的戰(zhàn)略。今年6月份，《時代》雜志與OpenAI宣布，兩家公司達成了一項多年內(nèi)容授權(quán)協(xié)議和戰(zhàn)略合作伙伴關(guān)系。該協(xié)議允許OpenAI將這家出版商的內(nèi)容引入ChatGPT，并幫助訓練其最先進的AI模型。

據(jù)悉，雙方合作內(nèi)容非常深入，OpenAI甚至能夠訪問《時代》過去100多年的檔案和文章，以訓練其AI模型，并在其面向消費者的產(chǎn)品(如ChatGPT)中用于回復用戶的詢問。

作為回報的是，OpenAI使用《時代》雜志的內(nèi)容時會注明引用并鏈接原始來源?！稌r代》雜志將可以使用OpenAI的技術(shù)，以便為其受眾“開發(fā)新產(chǎn)品”。

無論怎么說，原創(chuàng)內(nèi)容是互聯(lián)網(wǎng)高速發(fā)展重要的支柱之一。過去，新聞網(wǎng)站、音樂公司、版權(quán)商和谷歌搜索引擎展開的十幾年“版權(quán)戰(zhàn)爭”，將會在大模型領(lǐng)域重現(xiàn)，且斗爭程度要遠超過前者。

任何一種技術(shù)的繁榮，都不應該建立在“巧取豪奪”之上。大模型企業(yè)或可以用提高與新聞網(wǎng)站等內(nèi)容機構(gòu)的合作門檻，增加自身的競爭護城河。

目前來看，大模型沒有辦法由0變100。作為大模型“養(yǎng)料”供給方，內(nèi)容原創(chuàng)者或機構(gòu)，也完全有理由，從大模型蓬勃發(fā)展中獲取合理的利益。

引用文章：

財聯(lián)社《巨大壓力之下谷歌放棄“吃獨食” 承諾未來三年向出版商支付10億美元》

每日經(jīng)濟新聞《13家媒體怒告OpenAl等AI巨頭背后：內(nèi)容創(chuàng)作為何成了大模型的“免費午餐”？》

觀察者網(wǎng)《歐盟內(nèi)部市場專員：歐盟達成“歷史性AI立法”，成首個制定AI明確使用規(guī)則的大陸》

四川觀察《谷歌被罰2.5億歐元，AI訓練數(shù)據(jù)版權(quán)問題再引爭議》

財聯(lián)社《OpenAI與《時代》雜志達成合作協(xié)議，將用其內(nèi)容訓練ChatGPT》

申請創(chuàng)業(yè)報道，分享創(chuàng)業(yè)好點子。點擊此處，共同探討創(chuàng)業(yè)新機遇！