每日經(jīng)濟新聞 2023-08-19 14:12:55
◎人造數(shù)據(jù)已經(jīng)達到極限,接下來是AI“喂養(yǎng)”AI的世界?
每經(jīng)記者 文巧 蔡鼎 譚玉涵 每經(jīng)編輯 孫宇婷
8月16日,《紐約時報》稱若未提前獲得書面同意,原則上禁止將新聞報道和圖片等用于人工智能開發(fā)。這或許是一個信號,意味著未來可供科技公司用于大模型訓練的高質量數(shù)據(jù)或越來越受限。據(jù)悉,可用于訓練的高質量數(shù)據(jù)或于2026年耗盡。目前,微軟、OpenAI等公司已經(jīng)在測試用計算機合成的數(shù)據(jù)用于訓練其AI系統(tǒng)。合成數(shù)據(jù)真的是AI時代的“新鋰礦”?它有哪些風險?
本周,梅西率邁阿密國際首次闖入美聯(lián)杯決賽,貝克漢姆隨后在Instagram上發(fā)帖慶祝。據(jù)外媒報道,隨著梅西的加入,邁阿密國際在明年將成為美職盟歷史上第一支估值超過10億美元的足球隊。貝克漢姆的商業(yè)版圖有多大?"一周人物"帶你走近從球員到球隊老板的貝克漢姆。
8月18日凌晨,大型加密貨幣突然集體暴跌。數(shù)據(jù)顯示,近24小時,共有17.1萬人爆倉。此外,Arm IPO計劃引華爾街全體出動,目前已聘請28家機構擔任承銷商。
更多內容,盡在《一周國際財經(jīng)》。
數(shù)據(jù)荒來了!可用于訓練的高質量數(shù)據(jù)或于2026年耗盡
合成數(shù)據(jù)成AI時代的“新鋰礦”?
圖片來源:視覺中國
人造數(shù)據(jù)已經(jīng)達到極限,接下來是AI“喂養(yǎng)”AI的世界?
8月16日,據(jù)報道,《紐約時報》變更了服務條款,稱若未提前獲得書面同意,原則上禁止將新聞報道和圖片等用于人工智能(AI)開發(fā)。這意味著未來可供科技公司任意使用來訓練大型語言模型(LLM)的高質量數(shù)據(jù)越來越有限。
ChatGPT引起的AI競爭如火如荼,科技公司為了喂養(yǎng)自己LLM,不得不使出渾身解數(shù)尋找訓練數(shù)據(jù),伴隨而來的是一輪數(shù)據(jù)大戰(zhàn)。經(jīng)濟學人報道稱,谷歌和Meta這兩家科技巨頭的最新AI模型已經(jīng)接受了超過1萬億個單詞的訓練。數(shù)據(jù),已經(jīng)是AI時代的“新鋰礦”了。
由于對數(shù)據(jù)的需求增長如此之快,研究機構Epoch ai認為,到2026年,可用于訓練的高質量文本庫存可能會耗盡。但隨著生成式AI軟件變得越來越復雜,數(shù)據(jù)需求越來越高,即使是財力雄厚的AI公司也將耗盡易于訪問的高質量數(shù)據(jù)來進行訓練。
合成數(shù)據(jù)就成了一個新的出路。金融時報在上月爆料,微軟、OpenAI和Cohere等公司已經(jīng)在測試用計算機合成的數(shù)據(jù)用于訓練其AI系統(tǒng),來進一步提高LLM的能力。
今年5月,在倫敦舉行的一次活動中,OpenAI 首席執(zhí)行官Sam Altman被問及是否擔心監(jiān)管機構對ChatGPT潛在侵犯隱私的調查,Altman稱他“非常有信心很快所有數(shù)據(jù)都將成為合成數(shù)據(jù)”。
為生成式AI提供動力的超大型模型依賴于海量數(shù)據(jù)。目前,為 ChatGPT 和Bard 等聊天機器人提供支持的LLM主要通過抓取互聯(lián)網(wǎng)數(shù)據(jù)來進行培訓,用于訓練這些系統(tǒng)的數(shù)據(jù)包括數(shù)字化書籍、新聞文章、博客、搜索查詢、X(前Twitter)和Reddit的帖子、YouTube 視頻和Flickr圖像等內容。
據(jù)經(jīng)濟學人報道,谷歌和Meta(前Facebook)這兩家科技巨頭的最新AI模型已經(jīng)接受了超過1萬億個單詞的訓練。相比之下,在線百科全書維基百科上的英語單詞總數(shù)約為40億個。
數(shù)據(jù)的價格是高昂的,早在2018年,微軟就斥資高達75億美元收購了軟件代碼存儲庫GitHub作為專門的數(shù)據(jù)信息集,用于開發(fā)一種代碼編寫AI工具。
隨著數(shù)據(jù)需求越來越大,為了構建更強大的模型,模型構建者們也急于尋找越來越多的新數(shù)據(jù)源來維持瘋狂的“喂養(yǎng)”。正是看中這種巨大的需求,擁有大量此類數(shù)據(jù)資源的公司正在權衡如何最好地從中獲利,他們也理所當然地擁有了更多的議價能力。
例如,Reddit和 Stack Overflow增加了訪問其數(shù)據(jù)的成本,X已采取措施限制機器人抓取該網(wǎng)站的能力,并且現(xiàn)在向任何希望訪問其數(shù)據(jù)的人收費。每經(jīng)記者查詢Reddit官網(wǎng)發(fā)現(xiàn),免費使用該網(wǎng)站數(shù)據(jù)API的速率限制為:每個客戶端ID每分鐘僅能查詢100次;若不使用客戶端ID,則每分鐘僅能查詢10次;若要超過這些限制,則需要為每1000個API請求(API Call)付費0.24美元。
盡管如此,為了獲取更多數(shù)據(jù)來訓練出更優(yōu)秀的LLM,科技公司們當然不惜掏空腰包。
7 月,OpenAI與美聯(lián)社簽署了一項協(xié)議。最近,該公司還擴大了與圖庫攝影提供商 Shutterstock 的協(xié)議,Meta也與Shutterstock達成了協(xié)議。8 月,谷歌被曝正在與唱片公司環(huán)球音樂進行討論,以授權藝術家的聲音來支持AI歌曲創(chuàng)作。這些合作都未透露具體的金額。
隨著數(shù)據(jù)需求的增大,初創(chuàng)公司也紛紛涌入,渴望分得一杯羹。4 月份,專注于人工智能的數(shù)據(jù)庫公司W(wǎng)eaviate籌集了5000 萬美元,估值達2億美元;不到一周后,另一家數(shù)據(jù)初創(chuàng)公司PineCone以7.5億美元的估值籌集了1億美元;本月早些時候,Neon又籌集了4600萬美元的資金。
科技公司爭先恐后入局生成式AI,造成“僧多粥少”的局面也是必然的。研究機構Epoch ai認為,對數(shù)據(jù)的需求增長如此之快,到2026年,可用于訓練的高質量文本庫存可能會耗盡。
面對數(shù)據(jù)短缺的困境,微軟、OpenAI和Cohere開始率先轉向合成數(shù)據(jù)作為新的解決方案。合成數(shù)據(jù)是指使用AI模型來生成與真實數(shù)據(jù)相似但不完全相同的數(shù)據(jù),用于訓練其他AI模型。
例如,為了訓練高等數(shù)學模型,Cohere會使用兩個相互對話的AI模型,其中一個充當數(shù)學導師,另一個充當學生。人類作為監(jiān)督的角色,如果模型說錯了什么,就會介入并糾正。
Cohere 的首席執(zhí)行官Aidan Gomez表示:“如果你能從網(wǎng)絡上獲取所需的所有數(shù)據(jù),那就太棒了。但事實上,網(wǎng)絡是如此嘈雜和混亂,以至于它并不能真正代表你想要的數(shù)據(jù)。網(wǎng)絡并不能滿足我們所需的一切。”
微軟研究院的兩個研究表明,使用合成數(shù)據(jù)“喂養(yǎng)”AI是可行的。以用GPT-4生成的一個“四歲兒童小說”數(shù)據(jù)集TinyStories為例,這個數(shù)據(jù)集被證明雖然只包含4歲小孩能理解的單詞,但用于訓練一個大模型之后,同樣可以生成語法正確、閱讀體驗流暢的故事。
另一篇論文則表明,AI可以通過合成Python代碼進行訓練,并且這些代碼在編碼任務上表現(xiàn)相對較好。
圖片來源: arXiv.org
Gomez指出,為了提高LLM的性能,并能夠應對科學、醫(yī)學或商業(yè)方面的挑戰(zhàn),AI模型將需要獨特且復雜的數(shù)據(jù)集。這些數(shù)據(jù)要么必須由科學家、醫(yī)生、作家、演員或工程師等世界專家創(chuàng)建,要么從制藥、銀行和零售商等大公司獲取專有數(shù)據(jù)。“然而,這些人類創(chuàng)建的數(shù)據(jù)非常昂貴。”而合成數(shù)據(jù)的成本優(yōu)勢則非常明顯,因為它不需要收集和標注真實數(shù)據(jù)。
隨著合成數(shù)據(jù)這一新趨勢的出現(xiàn),Scale AI和Gretel.ai等初創(chuàng)企業(yè)如雨后春筍般涌現(xiàn),專注為科技公司提供合成數(shù)據(jù)服務。在這些公司中,Gretel還獲得了谷歌、匯豐銀行、Riot Games和Illumina等公司的支持。而在SemiAnalysis爆料GPT-4“大花邊”的新聞中,還提到GPT-4的數(shù)據(jù)集中,有數(shù)百萬行是來自Scale AI和內部的指令微調數(shù)據(jù)。
這意味著,越來越多的大型公司開始介入合成數(shù)據(jù)的領域了。
不過,雖然合成數(shù)據(jù)看起來很有前景,但也有批評聲指出它不能反映或改進現(xiàn)實世界的數(shù)據(jù)。合成數(shù)據(jù)的質量和可靠性取決于生成它的AI模型的水平和方法,如果生成的數(shù)據(jù)與真實數(shù)據(jù)存在差異或錯誤,那么訓練出來的模型也可能會出現(xiàn)問題。
隨著AI生成的文本和圖像開始充斥互聯(lián)網(wǎng),AI公司在網(wǎng)絡上抓取訓練數(shù)據(jù)很可能最終將不可避免地使用其自己模型的原始版本生成的原始數(shù)據(jù)——這種現(xiàn)象被稱為“dog-fooding”。
牛津大學和劍橋大學等大學最近的一項名為The Curse of Recursion: Training on Generated Data Makes Models Forget的研究就警告稱,根據(jù)自己的原始輸出(可能包含虛假或捏造的內容)訓練AI模型,隨著時間的推移可能會破壞和降低技術性能,從而導致“不可逆轉的缺陷”。
該論文作者、劍橋大學和愛丁堡大學安全工程教授Ross Anderson直言:“正如我們用塑料垃圾布滿了海洋,用二氧化碳填滿了大氣層,我們即將用廢話填滿互聯(lián)網(wǎng)。”
對于這一點,Gretel首席執(zhí)行官Ali Golshan也同意,“網(wǎng)絡上的內容越來越多地由AI生成,我確實認為隨著時間的推移,這將導致內容退化,因為語言模型正在產(chǎn)生重復的知識,沒有任何新的見解。”
從球員到老板,貝克漢姆率邁阿密國際走向估值超10億美元俱樂部
圖片來源:Instagram截圖
美東時間8月16日,梅西領銜的邁阿密國際在北美聯(lián)杯半決賽上4:1完勝費城聯(lián)隊。至此,距離這只成立僅5年的俱樂部史上的第一座冠軍獎杯,只剩下一場決賽。
賽后,作為球隊老板之一貝克漢姆在Instagram上更新了動態(tài),曬出梅西慶祝進球的照片,并配文道:“又一個美妙的夜晚,對我們的球隊、球迷、俱樂部來說是多么棒的時刻,這是我們@邁阿密國際歷史上第一次的決賽。”
其實,貝克漢姆的職業(yè)生涯,始終伴隨著“商業(yè)化”三個字。球員期間他就受到不少品牌的青睞,代言范圍廣泛,已經(jīng)賺的缽滿盆滿。退役后小貝的收入不減反增,這都得益于他2007年轉投美國職業(yè)足球大聯(lián)盟(下稱MLS)時簽下的兩條協(xié)議。
2007年登陸MLS洛杉磯銀河時,貝克漢姆年薪雖然只有650萬美元,但他的合同中,包含兩個特殊條款:其一,獲得俱樂部總收入的分成;其二,貝克漢姆與MLS簽下合約,退役之后,他能以2500萬美元的價格,買下一支球隊進軍MLS。隨著近年來MLS入場費的暴增,貝克漢姆當年簽下的條款換來人生的再次騰飛。有體育商業(yè)專家指出,在美國踢球、收購運營俱樂部,貝克漢姆賺了超過5億美元!
在洛杉磯銀河退役后不久,貝克漢姆2013年就開始著手籌建新球隊。2018年9月,貝克漢姆宣布在美職聯(lián)成立一家名為“邁阿密國際”的足球俱樂部。這支球隊的標志是兩只粉色的火烈鳥,寓意著邁阿密的熱情和多元化。貝克漢姆表示,他希望這支球隊能夠吸引全世界的球迷,并且打造出一支有競爭力和魅力的球隊。
由于足球這項運動在美國的受歡迎程度并不如籃球和橄欖球,加上俱樂部場館建設的巨大開銷,貝克漢姆成立邁阿密國際的早期并談不上一帆風順。
然而,梅西的加盟讓邁阿密國際的估值大漲。據(jù)美國體育產(chǎn)業(yè)媒體去年9月的報道,邁阿密國際當時的估值僅為5.85億美元,位于MLS聯(lián)盟29支球隊中的第10位。美國體育產(chǎn)業(yè)記者邁克爾·金尼迪預計,因為梅西的加盟,邁阿密國際在下一個自然年將成為美國職業(yè)聯(lián)盟(下稱MLS)歷史上第一支估值超過10億美元的足球隊。
而貝克漢姆的商業(yè)版圖,遠遠不止目前因為梅西的到來而紅遍全美的邁阿密國際。例如,僅僅在成立邁阿密國際不到半年時間里——2019年年初,貝克漢姆就宣布買下英格蘭乙級聯(lián)賽球隊索爾福德城股份10%的股份,與“92班”的隊友吉格斯、斯科爾斯、尼基·巴特、加里和菲爾·內維爾一起,成為該俱樂部老板。
退役后的貝克漢姆涉足體育以外的商業(yè)版圖,時間甚至要更早。
2014年,貝克漢姆在好友的幫助下成立了Beckham Brand Holdings Ltd.,該公司旗下除了時尚品牌Victoria Beckham Ltd以外,還有一家投資公司DB Ventures Ltd.,負責處理貝克漢姆相關的肖像權、品牌授權和其他商業(yè)用途。
DB Ventures旗下的“David Beckham”品牌包括貝克漢姆黑格俱樂部威士忌品牌,帝舵表、百事可樂、三星和阿迪達斯、澳門金沙度假區(qū)、瑪莎拉蒂、健身特許經(jīng)營商F45 Training的代言活動以及GemForex亞洲品牌大使和其他代言活動等。此外,DB Ventures投資與收購的公司包括XIX、Guild Esports(電子競技公司)、Cellular Goods、Lunaz Design等。
貝克漢姆還與人共同創(chuàng)辦了一家舞蹈和音樂表演的活動管理和制作公司Footwork Production, LLC;攜手歐萊雅集團創(chuàng)立了男士美容品牌House 99;創(chuàng)辦了一家電視制作公司Studio 99等。
在房地產(chǎn)投資上,貝克漢姆也有著廣泛的投資組合,擁有:倫敦西部荷蘭公園一棟價值3150萬英鎊的聯(lián)排別墅、美國邁阿密一套價值2000 萬英鎊的公寓,以及全球其他豪宅。
在影視領域,2023年年初,貝克漢姆還和迪士尼進行合作,主演一部名為《Save Our Squad》的足球主題電視劇,并在其中飾演一位少年隊的教練,片酬高達7位數(shù)美金。
在貝克漢姆的商業(yè)合伙人名單里,其妻子維多利亞扮演著重要的作用。她既是Victoria Beckham Ltd.的創(chuàng)始人, 也是貝克漢姆品牌控股公司、維多利亞貝克漢姆公司和維多利亞貝克漢姆控股公司的董事會成員。
慘烈崩盤!17萬人爆倉
馬斯克曝出大動作!
圖片來源:視覺中國
8月18日凌晨,大型加密貨幣突然集體暴跌,日內最大跌幅超13%,一度跌穿2.5萬美元關口,截至發(fā)稿,比特幣最新價格回升至26086美元,較7月高點累計跌幅超18%;另外,以太坊日內最大跌幅超13%,一度下破1600美元關口,現(xiàn)報1662美元。
據(jù)coinglass數(shù)據(jù)顯示,最近24小時,共有17.1萬人爆倉,爆倉總金額達10.18億美元(約合人民幣74億元)。
據(jù)《華爾街日報》8月17日報道,馬斯克旗下的SpaceX 在去年和2021年總共減記了價值3.73 億美元的比特幣,并且已經(jīng)出售這些加密貨幣。但尚未確認3.73億美元比特幣是否已經(jīng)全部出售。另外,根據(jù)特斯拉的財報顯示,該公司在2022年第二季度以9.36億美元的價格賣出了3萬多枚比特幣,約占其最初15億美元比特幣持倉的75%。
Arm IPO,華爾街全體出動
圖片來源:每經(jīng)記者 朱成祥 攝
據(jù)彭博社報道,知情人士透露,全球最大半導體IP廠商Arm已經(jīng)聘請28家機構擔任今年首次公開募股(IPO)承銷商,預計最快將于8月21日披露IPO計劃。
Arm的IPO幾乎讓華爾街全體出動。巴克萊銀行、高盛、摩根大通和瑞穗四家大型投行將擔任主承銷商,另外還有10家二級承銷商和14家三級承銷商,前者包括美銀、花旗、德銀,后者也囊括了匯豐、大和證券和法興銀行等。
外媒援引知情人士的話報道稱,軟銀最近收購了旗下愿景基金持有Arm25%的股份,該交易對ARM的估值略高于640億美元,這表明軟銀可能希望通過下月在紐約進行的Arm的IPO實現(xiàn)這一估值。預計軟銀最早將于下周一公布其F-1文件,這份文件將列出Arm的財務和運營細節(jié)。軟銀計劃在此次發(fā)行中出售該公司約10%的股份。
SpaceX終于賺錢了!
最新估值1500億美元,與英特爾相近
圖片來源:視覺中國
據(jù)《華爾街日報》當?shù)貢r間周四報道,億萬富翁埃隆?馬斯克旗下太空探索公司SpaceX的財務數(shù)據(jù)顯示,該公司2023年第一季度的收入為15億美元(約109.65億元人民幣),總利潤達到5500萬美元(約4.02億元人民幣)—— 該公司在經(jīng)歷了兩年大幅虧損(但虧損幅度不斷收窄)之后,終于實現(xiàn)了小幅度的盈利。
今年7月中旬馬斯克旗下SpaceX告訴部分投資者,預計2023年該公司將實現(xiàn)約80億美元的營收,大約是上一年收入的兩倍。
該公司還向投資者保證,以不包括制造火箭和衛(wèi)星相關費用的標準計算,預計今年將獲得約30億美元(當前約214.5億元人民幣)的營業(yè)利潤,至少以不包括與制造火箭和衛(wèi)星相關的費用的衡量標準而言是這樣。
在創(chuàng)立超過20年后,SpaceX已經(jīng)成為在美國市場具有統(tǒng)治地位的火箭發(fā)射公司,也是NASA往國際空間站接送美國宇航員的唯一渠道。根據(jù)早些時候的報道,SpaceX給公司股票定的最新估值為1500億美元,大致與英特爾相近。
買家支付能力創(chuàng)近40年新低
巴菲特卻在樓市押下重注
圖片來源:視覺中國
供應緊張引發(fā)的房價上漲,加上抵押貸款利率的上升,已經(jīng)將美國的房地產(chǎn)買家們的住房負擔能力壓低至近40年來的最低水平。
美東時間周四(8月17日),房地美30年期固定抵押貸款的平均利率從一周前的6.96%躍升至7.09%,創(chuàng)2002年以來新高,且較一年前的5.13%大幅上漲。對于房地產(chǎn)市場內的潛在買家來說,等待融資成本回落就像是一場風險極高的賭博。
而在這樣的行情下,巴菲特卻開始在樓市押下重注。伯克希爾哈撒韋本周一提交給SEC的文件顯示,該公司已投資美國三大房屋建筑商:霍頓房屋、萊納建筑以及NVR Inc.,持股總價值超過8億美元。這三家公司年初至今的累計漲幅均超過30%。
對此,全球房產(chǎn)科技公司居外IQI集團聯(lián)合創(chuàng)始人兼集團CEO Kashif Ansari在接受《每日經(jīng)濟新聞》記者采訪時指出,“利率的高企使的業(yè)主們越來越不愿賣掉手頭現(xiàn)房,因此更多的買家會轉向新房市場,這對房屋建筑商是一個利好。同時,越來越多的買家會轉向出租房市場,從而推高房租,出租公寓市場會變得引人關注。”
VinFast上市不到一周,股價過山車
越南首富失血230億美元
“越南版特斯拉”VinFast Auto(VFS)周五收跌23%,收報15.40美元,美股盤初一度跌至11.61美元、日內最大跌幅達到驚人的42%。至此,VFS已經(jīng)連續(xù)第三個交易日下跌。
本周二,VinFast完成與一家特殊目的收購公司(SPAC)Black Spade Acquisition的合并,在納斯達克交易。當日其股價一路高歌,盤中最高觸及38.78美元,報收37.06美元,收盤漲幅達254.64%。
伴隨著VinFast股價的巨震,自其美國上市以來,Pham Nhat Vuong董事長兼創(chuàng)始人、持有VinFast絕大多數(shù)股票的越南首富潘日旺的凈財富也大幅波動。據(jù)彭博,潘日旺在IPO當日的身家暴增390億美元,這是財富計算指數(shù)有史以來最大的增幅之一。不過根據(jù)最新的彭博億萬富翁指數(shù),其身家在三天內暴跌了約52%,失血230億美元,至212億美元。盡管如此,潘日旺的財富仍然比VinFast上市前大幅增加。
免責聲明:本文內容與數(shù)據(jù)僅供參考,不構成投資建議,使用前核實。據(jù)此操作,風險自擔。
記者:文巧 蔡鼎 譚玉涵
編輯:孫宇婷
視覺:劉青彥
排版:譚玉涵
封面圖片來源:視覺中國-VCG41N1369014355
如需轉載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關注每日經(jīng)濟新聞APP