每日經濟新聞 2023-07-11 19:05:52
◎海天瑞聲是國內最早投入AI訓練數據的專業服務商之一,2023年,不斷翻涌的大模型浪潮將這家公司推至資本市場的聚光燈下。
◎“數據的清洗和標注流程對于模型的質量至關重要,它們可以提高數據的質量和準確性,幫助模型更好地去學習,也為模型的評估奠定了一個很好的基礎。”賀琳表示。
每經記者 可楊 每經編輯 董興生
■相關公司:海天瑞聲(SH688787,股價92.15元,市值56億元)
■核心競爭力:具備標準化數據集產品規模化生產能力,累計完成超過1300個自有知識產權的訓練數據標準化產品的建設,在全球企業中穩居前列。較早地布局并建立了多語種能力。
■機構眼中的公司:國內AI訓練數據龍頭提供商,自動駕駛業務打開成長空間
■所屬概念:數據服務 人工智能 AIGC
11.2公里/秒,是火箭能夠成功擺脫地球引力束縛,飛離地球的速度。而瞬間的燃料燃燒所提供的推動力,是幫助火箭一次又一次加速直至進入外太空的助力。
與《每經人物•專訪董事長》記者交流時,海天瑞聲董事長賀琳覺得,作為一切人工智能技術最上游的數據,就是人工智能這艘火箭的“燃料”。海天瑞聲正是一家生成“燃料”的公司。
海天瑞聲是國內最早投入AI訓練數據的專業服務商之一,2023年,不斷翻涌的大模型浪潮將這家公司推至資本市場的聚光燈下。而身處潮水之中,賀琳對未來的思考依舊謹慎。
2023年初,賀琳在海天瑞聲公司年會上的發言稿,80%由ChatGPT完成。
“非常的驚艷,有點不(敢)相信。”這是賀琳對ChatGPT的初印象,“當然,也有不盡如人意的地方,我覺得這才是我們要努力的方向。”ChatGPT的出現,讓這家數據公司突然站到了資本市場舞臺中央。
2023年開年以來,海天瑞聲股價一路走高,3月一度漲至191.96元/股,較其2021年8月上市時翻了一番。而海天瑞聲方面,則已多次在投資者互動平臺發布提示,稱公司與OpenAI沒有合作,也尚不能預期大模型業務將帶來多少收入。
“年初,我們還在仔細觀察、論證這個技術到底對數據有什么樣的需求。”賀琳認為,合適的入局時機應該是當這項技術能夠真正在行業中落地的時候,這意味著其有真正的應用場景,而非偽場景。“我們要確定這個需求是真的,且有人會為這個需求買單,這才是一個正常的商業邏輯。”
同時,當行業落地時刻到來,數據的需求量也會迎來大規模提升。“這給公司帶來的上升空間,我認為是非常樂觀的,(目前)我們還是抱著樂觀審慎的態度去看、去跟蹤、去研究這項技術。”
“判斷一個行業,我們會更深刻地去想這個行業到底需要什么樣的數據,只有想清楚這件事,我們才會走過去,我們當初對自動駕駛領域的布局就遵循了這個邏輯。”賀琳介紹。
布局自動駕駛行業是海天瑞聲在2021年定下的戰略方向,在賀琳看來,自動駕駛賽道已經符合這個判斷邏輯。從L2到L4,自動駕駛已經有相當多的應用落地,同時,自動駕駛的數據需求量十分巨大。
她判斷,自動駕駛是一個人命關天、對安全要求非常高的技術,它需要大量數據來打磨,去覆蓋各個不常見的場景來保證安全性,因為任何極端天氣或極端場景都可能導致誤判。“怎么避免?就需要大量的數據去訓練,讓模型接觸到更多長尾的場景來提高它的安全性。”
今年4月18日,海天瑞聲正式推出其專為自動駕駛場景設計的全棧式數據標注平臺“DOTS-AD自動駕駛標注平臺”。
賀琳曾就職于中國科學院聲學研究所,從事語音識別、語音合成、漢語語言理解、語音心理測試等方面的研究工作。
成立于2005年的海天瑞聲,最初誕生于賀琳在這份工作中捕捉到的行業痛點。“我們當時在課題組其實也會遇到(缺少)數據的問題,解決辦法就是工作人員,加上研究生、博士生,自己來做數據。”盡管彼時實驗室的數據量相對較少,但也已經算是一項繁瑣的工作。
隨著技術的發展,智能語音從實驗室走向大規模應用階段,更多場景的覆蓋需求,意味著數據需求隨之大規模增加。與此同時,在與一些就職于大型企業或研究機構的前同事交流時,賀琳發現,大家都在關注數據的問題。“(大家)認為數據是一個非常大的瓶頸,阻礙他們技術的落地。所以我就在想,那是不是可以由我出來做這件事情,幫助大家解決這個困難。”
時至今日,賀琳覺得,彼時促使她創業的瓶頸依舊存在。
在她看來,數據的需求是跟著技術的發展而變化的,隨著技術在各個行業中落地,就會有更多的數據需求爆發。“像現在大模型起來,很多人都認為,數據差距是一個造成系統性差距的非常重要的原因,所以大家認為數據還是很重要的要素,這個瓶頸依然存在。”
不同的是,賀琳創業之初,國內競爭對手少,海天瑞聲得以在市場快速突圍。而如今,國內已經出現一批新的數據公司,先發優勢成為當下數據公司核心競爭力的基礎。“其實,這個行業有很多的技術壁壘和‘know-how’,也是需要不斷打磨項目,才能去沉淀自己的技術、學會各類‘know-how’的,這是靠項目積累出來的,而不是短期能很快積累起來的過程。”
海量數據如何最終成功支撐起龐大參數的大模型運行?需要首選了解一個概念——數據集。
賀琳介紹,數據集的產生是一個非常復雜的過程,其中包括設計階段、采集階段、處理階段以及最后的質檢階段。
在設計環節,需要先去了解數據集是為了解決哪個問題,這個問題需要什么樣的數據,需要多大的量,需要什么樣的場景,以及采集的樣本、規模、內容,包括采集的設備、標注的規范等等;采集環節則是按照設計的方案,到大千世界采集,有可能是聲音,有可能是圖像、圖片,又或是手寫的字、道路的場景。采集完成后則需要進入清洗、標注環節。最后生產出的數據集需要通過雙層的質檢流程,最終才能生產出一個合格的數據集。
這其中,清洗規則的好壞、標注的準確性都會極大地影響數據集的質量,進而影響模型的效果。
海天瑞聲人工智能基礎數據創新服務基地 圖片來源:公司供圖
賀琳舉例說,海天瑞聲的大模型數據清洗率是5%,即清洗出來正確的數據僅僅占原數據的5%,這也印證了數據清洗環節的重要性。而標注的流程則主要是解決準確性和一致性問題,“我們通常說95%、98%或者是99%,不同的準確率對模型訓練的結果有非常大的影響”。
“數據的清洗和標注流程對于模型的質量至關重要,它們可以提高數據的質量和準確性,幫助模型更好地去學習,也為模型的評估奠定了一個很好的基礎。”賀琳表示。
賀琳認為,高質量的數據包括了數據的豐富度,場景的豐富度,數據的準確性、一致性等,這都是衡量高質量數據的標準。她也認同,高質量數據的提供,需要高質量人工的支持。
“有一些高質量的數據,尤其是行業數據,確實需要更高層次的人去處理。因為我們也了解到,像OpenAI這樣的公司,它背后也有一個很強大的數據處理團隊,他們要把對行業的‘know-how’或者是更高層的一些知識灌輸到數據里。”她表示。
“有多少智能,就有多少人工。”這句話依舊得到大部分人的認同。
在海天瑞聲這家“燃料”制造商,優質“燃料”的誕生,同樣需要最了解“火箭”的人來把控。
賀琳介紹,海天瑞聲的管理層除擁有比較好的學術背景外,也都有在外企或大廠等機構的工作、管理經驗。“他們以前是數據的使用者,加入公司以后,他們非常知道數據的使用者需要什么樣的數據,這可以讓他們更快速地對市場有預判,也會更好地跟業界交流。”
她同時坦言,為不同行業提供的數據,需要具備不同行業專業知識的人來處理。“至少在初期包括規則探討、打磨標簽、尺度和標準的把握階段需要有專業的人,但把規則定下后,可能通過一些訓練,讓基礎的人員能具備這樣的訓練能力。”
但是,在賀琳看來,“有多少智能就有多少人工”是一個誤解。“確實,這個行業有很多的人力,但人力是在技術的支撐下做這些事,沒有技術支撐,可能人力需要現在的10倍都不止。所以,我們這種綜合性的數據服務商一直都在追求用更自動、更智能的方式來完成數據的任務,不斷解放人力。”
圖片來源:公司供圖
賀琳希望,能一步步減少人工對人工智能的參與,大模型的浪潮,正在加速實現這個目標。“讓計算機自動處理數據,永遠都是我們的追求。”
據她介紹,公司也在探討未來的兩大工作方向,一個是打造一批針對通用領域、垂直領域,且具備單模態和多模態屬性的、供給大模型使用的數據集產品。另外,海天瑞聲也在計劃啟動數據生產垂直大模型的研發項目,希望用大模型技術來支撐數據的生產。“大家都說大模型將給眾多垂直行業帶來重大積極影響,其實數據處理本身也是一個垂直行業,我們希望用大模型的能力來更自動化地把數據處理這件事情做好。”
“人工智能的背后是人工”也是有可能發生改變的。“現在背后依然確實需要很多的人工,但是我們一直在盡量想辦法減少人工。包括加入很多算法,提高對數據做預標注的準確率,準確率越高,人工參與的程度越低。”
但賀琳也坦言,這件事并不容易。“其實,如果真的把這個事都做成了,人工智能就完成了。因為不需要人的介入,相當于它處理的東西都跟人想的是一樣的。”但另一方面,當技術達到一定突破后,倫理、法規、安全等問題就會出現,如何解決這些問題,也是今后整個人工智能行業面臨的難題。
每一次的火箭升空,都需要大量的燃料助推。
賀琳認為,當人工智能技術迎來新的變革時,對數據提供商來說就是一次契機。“我覺得可能也是根據一些需求,比如像蘋果手機的siri出來以后,大家就會認為在語音上有一些突破,這些數據的需求就會暴增。”
賀琳覺得,在整個人工智能行業,數據就像人類學習知識時使用的教科書,“你的教科書越全面,信息越準確,學習的結果就會越好,其實機器也是一樣的”。她認為,數據集本質上就是人類把自己對大千世界、萬事萬物的一些認知和判斷方法加載到數據上,然后讓機器去學習,使機器得出來的對事物的判斷結果更加趨近于人類。在她看來,這就是數據公司的價值。
而在大模型的熱潮之下,多模態的能力成為一個關鍵詞。賀琳表示,多模態數據是未來的一個方向。“多模態的數據里蘊含了更多更豐富的信息,對機器做判斷也會提供更多的信息來源,但多模態的數據(獲取)的難度也非常大。”
她進一步介紹,首先,多模態數據要求的量很大,合規取得這些數據的難度就會更大;其次,多模態數據采集的設備也非常昂貴,對數據公司的財務能力是一種考量。此外,多模態數據對齊的問題、對齊的標準等,都是多模態數據的難點。
圖片來源:公司官網
賀琳認同一點,多模態能力會導致數據公司的入門門檻提高。“包括我們可能還要去做一些數據生成技術,用我們的一些單一形態的數據來合成多模態的數據,這都要求公司有更高維度的研發能力。”
目前,賀琳依舊認為,數據這個方向是海天瑞聲未來的定位,因為這個領域要做的事情太多了。“隨著技術的發展進入千行百業,每一個行業都需要認真地去了解這個行業的‘know-how’是什么、如何解決這個行業的一些關鍵痛點。那么多行業呢,我們有足夠大的空間去拓展。”
而深入行業,則需要公司本身有一定的研發能力,同時,在進入行業時,需要有行業專家的參與,通過真實的項目打磨,進而逐漸積累。“這不是個一蹴而就的事情,需要一個長期持續的過程。”她表示。
賀琳相信,通用人工智能終將有一天會實現,但這也需要一個過程,即便技術達到了,還有倫理的問題、安全的問題、合規的問題。這些都解決了之后,如何解決行業的問題,也有很長的一段路要走。
而在這條路上,她認為,數據公司將會扮演越來越重要的角色。在這個過程中,算法可能會相對趨于穩定,但仍需大量的、類型迥異的數據對算法進行訓練,才能解決行業的問題。
如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。
歡迎關注每日經濟新聞APP