要聞

每經網首頁 > 要聞 > 正文

海天瑞聲創始人賀琳：為大模型“火箭”加燃料｜專訪董事長

每日經濟新聞 2023-07-11 19:05:52

◎海天瑞聲是國內最早投入AI訓練數據的專業服務商之一，2023年，不斷翻涌的大模型浪潮將這家公司推至資本市場的聚光燈下。

◎“數據的清洗和標注流程對于模型的質量至關重要，它們可以提高數據的質量和準確性，幫助模型更好地去學習，也為模型的評估奠定了一個很好的基礎。”賀琳表示。

每經記者可楊每經編輯董興生

■相關公司：海天瑞聲（SH688787,股價92.15元，市值56億元）

■核心競爭力：具備標準化數據集產品規模化生產能力，累計完成超過1300個自有知識產權的訓練數據標準化產品的建設，在全球企業中穩居前列。較早地布局并建立了多語種能力。

■機構眼中的公司：國內AI訓練數據龍頭提供商，自動駕駛業務打開成長空間

■所屬概念：數據服務人工智能 AIGC

11.2公里/秒，是火箭能夠成功擺脫地球引力束縛，飛離地球的速度。而瞬間的燃料燃燒所提供的推動力，是幫助火箭一次又一次加速直至進入外太空的助力。

與《每經人物•專訪董事長》記者交流時，海天瑞聲董事長賀琳覺得，作為一切人工智能技術最上游的數據，就是人工智能這艘火箭的“燃料”。海天瑞聲正是一家生成“燃料”的公司。

海天瑞聲是國內最早投入AI訓練數據的專業服務商之一，2023年，不斷翻涌的大模型浪潮將這家公司推至資本市場的聚光燈下。而身處潮水之中，賀琳對未來的思考依舊謹慎。

大模型狂熱：初印象非常驚艷，但對預期“審慎樂觀”

2023年初，賀琳在海天瑞聲公司年會上的發言稿，80%由ChatGPT完成。

“非常的驚艷，有點不（敢）相信。”這是賀琳對ChatGPT的初印象，“當然，也有不盡如人意的地方，我覺得這才是我們要努力的方向。”ChatGPT的出現，讓這家數據公司突然站到了資本市場舞臺中央。

2023年開年以來，海天瑞聲股價一路走高，3月一度漲至191.96元/股，較其2021年8月上市時翻了一番。而海天瑞聲方面，則已多次在投資者互動平臺發布提示，稱公司與OpenAI沒有合作，也尚不能預期大模型業務將帶來多少收入。

“年初，我們還在仔細觀察、論證這個技術到底對數據有什么樣的需求。”賀琳認為，合適的入局時機應該是當這項技術能夠真正在行業中落地的時候，這意味著其有真正的應用場景，而非偽場景。“我們要確定這個需求是真的，且有人會為這個需求買單，這才是一個正常的商業邏輯。”

同時，當行業落地時刻到來，數據的需求量也會迎來大規模提升。“這給公司帶來的上升空間，我認為是非常樂觀的，（目前）我們還是抱著樂觀審慎的態度去看、去跟蹤、去研究這項技術。”

“判斷一個行業，我們會更深刻地去想這個行業到底需要什么樣的數據，只有想清楚這件事，我們才會走過去，我們當初對自動駕駛領域的布局就遵循了這個邏輯。”賀琳介紹。

布局自動駕駛行業是海天瑞聲在2021年定下的戰略方向，在賀琳看來，自動駕駛賽道已經符合這個判斷邏輯。從L2到L4，自動駕駛已經有相當多的應用落地，同時，自動駕駛的數據需求量十分巨大。

她判斷，自動駕駛是一個人命關天、對安全要求非常高的技術，它需要大量數據來打磨，去覆蓋各個不常見的場景來保證安全性，因為任何極端天氣或極端場景都可能導致誤判。“怎么避免？就需要大量的數據去訓練，讓模型接觸到更多長尾的場景來提高它的安全性。”

今年4月18日，海天瑞聲正式推出其專為自動駕駛場景設計的全棧式數據標注平臺“DOTS-AD自動駕駛標注平臺”。

數據需求增加背后：系統性差距依舊存在

賀琳曾就職于中國科學院聲學研究所，從事語音識別、語音合成、漢語語言理解、語音心理測試等方面的研究工作。

成立于2005年的海天瑞聲，最初誕生于賀琳在這份工作中捕捉到的行業痛點。“我們當時在課題組其實也會遇到（缺少）數據的問題，解決辦法就是工作人員，加上研究生、博士生，自己來做數據。”盡管彼時實驗室的數據量相對較少，但也已經算是一項繁瑣的工作。

隨著技術的發展，智能語音從實驗室走向大規模應用階段，更多場景的覆蓋需求，意味著數據需求隨之大規模增加。與此同時，在與一些就職于大型企業或研究機構的前同事交流時，賀琳發現，大家都在關注數據的問題。“（大家）認為數據是一個非常大的瓶頸，阻礙他們技術的落地。所以我就在想，那是不是可以由我出來做這件事情，幫助大家解決這個困難。”

時至今日，賀琳覺得，彼時促使她創業的瓶頸依舊存在。

在她看來，數據的需求是跟著技術的發展而變化的，隨著技術在各個行業中落地，就會有更多的數據需求爆發。“像現在大模型起來，很多人都認為，數據差距是一個造成系統性差距的非常重要的原因，所以大家認為數據還是很重要的要素，這個瓶頸依然存在。”

不同的是，賀琳創業之初，國內競爭對手少，海天瑞聲得以在市場快速突圍。而如今，國內已經出現一批新的數據公司，先發優勢成為當下數據公司核心競爭力的基礎。“其實，這個行業有很多的技術壁壘和‘know-how’，也是需要不斷打磨項目，才能去沉淀自己的技術、學會各類‘know-how’的，這是靠項目積累出來的，而不是短期能很快積累起來的過程。”

“燃料”的誕生：龐大參數支撐大模型

海量數據如何最終成功支撐起龐大參數的大模型運行？需要首選了解一個概念——數據集。

賀琳介紹，數據集的產生是一個非常復雜的過程，其中包括設計階段、采集階段、處理階段以及最后的質檢階段。

在設計環節，需要先去了解數據集是為了解決哪個問題，這個問題需要什么樣的數據，需要多大的量，需要什么樣的場景，以及采集的樣本、規模、內容，包括采集的設備、標注的規范等等；采集環節則是按照設計的方案，到大千世界采集，有可能是聲音，有可能是圖像、圖片，又或是手寫的字、道路的場景。采集完成后則需要進入清洗、標注環節。最后生產出的數據集需要通過雙層的質檢流程，最終才能生產出一個合格的數據集。

這其中，清洗規則的好壞、標注的準確性都會極大地影響數據集的質量，進而影響模型的效果。

海天瑞聲人工智能基礎數據創新服務基地圖片來源：公司供圖

賀琳舉例說，海天瑞聲的大模型數據清洗率是5%，即清洗出來正確的數據僅僅占原數據的5%，這也印證了數據清洗環節的重要性。而標注的流程則主要是解決準確性和一致性問題，“我們通常說95%、98%或者是99%，不同的準確率對模型訓練的結果有非常大的影響”。

“數據的清洗和標注流程對于模型的質量至關重要，它們可以提高數據的質量和準確性，幫助模型更好地去學習，也為模型的評估奠定了一個很好的基礎。”賀琳表示。

賀琳認為，高質量的數據包括了數據的豐富度，場景的豐富度，數據的準確性、一致性等，這都是衡量高質量數據的標準。她也認同，高質量數據的提供，需要高質量人工的支持。

“有一些高質量的數據，尤其是行業數據，確實需要更高層次的人去處理。因為我們也了解到，像OpenAI這樣的公司，它背后也有一個很強大的數據處理團隊，他們要把對行業的‘know-how’或者是更高層的一些知識灌輸到數據里。”她表示。

浪潮的下一步：離開人工，實現智能

“有多少智能，就有多少人工。”這句話依舊得到大部分人的認同。

在海天瑞聲這家“燃料”制造商，優質“燃料”的誕生，同樣需要最了解“火箭”的人來把控。

賀琳介紹，海天瑞聲的管理層除擁有比較好的學術背景外，也都有在外企或大廠等機構的工作、管理經驗。“他們以前是數據的使用者，加入公司以后，他們非常知道數據的使用者需要什么樣的數據，這可以讓他們更快速地對市場有預判，也會更好地跟業界交流。”

她同時坦言，為不同行業提供的數據，需要具備不同行業專業知識的人來處理。“至少在初期包括規則探討、打磨標簽、尺度和標準的把握階段需要有專業的人，但把規則定下后，可能通過一些訓練，讓基礎的人員能具備這樣的訓練能力。”

但是，在賀琳看來，“有多少智能就有多少人工”是一個誤解。“確實，這個行業有很多的人力，但人力是在技術的支撐下做這些事，沒有技術支撐，可能人力需要現在的10倍都不止。所以，我們這種綜合性的數據服務商一直都在追求用更自動、更智能的方式來完成數據的任務，不斷解放人力。”

圖片來源：公司供圖

賀琳希望，能一步步減少人工對人工智能的參與，大模型的浪潮，正在加速實現這個目標。“讓計算機自動處理數據，永遠都是我們的追求。”

據她介紹，公司也在探討未來的兩大工作方向，一個是打造一批針對通用領域、垂直領域，且具備單模態和多模態屬性的、供給大模型使用的數據集產品。另外，海天瑞聲也在計劃啟動數據生產垂直大模型的研發項目，希望用大模型技術來支撐數據的生產。“大家都說大模型將給眾多垂直行業帶來重大積極影響，其實數據處理本身也是一個垂直行業，我們希望用大模型的能力來更自動化地把數據處理這件事情做好。”

“人工智能的背后是人工”也是有可能發生改變的。“現在背后依然確實需要很多的人工，但是我們一直在盡量想辦法減少人工。包括加入很多算法，提高對數據做預標注的準確率，準確率越高，人工參與的程度越低。”

但賀琳也坦言，這件事并不容易。“其實，如果真的把這個事都做成了，人工智能就完成了。因為不需要人的介入，相當于它處理的東西都跟人想的是一樣的。”但另一方面，當技術達到一定突破后，倫理、法規、安全等問題就會出現，如何解決這些問題，也是今后整個人工智能行業面臨的難題。

新的變革契機：多模態需求將推高行業門檻

每一次的火箭升空，都需要大量的燃料助推。

賀琳認為，當人工智能技術迎來新的變革時，對數據提供商來說就是一次契機。“我覺得可能也是根據一些需求，比如像蘋果手機的siri出來以后，大家就會認為在語音上有一些突破，這些數據的需求就會暴增。”

賀琳覺得，在整個人工智能行業，數據就像人類學習知識時使用的教科書，“你的教科書越全面，信息越準確，學習的結果就會越好，其實機器也是一樣的”。她認為，數據集本質上就是人類把自己對大千世界、萬事萬物的一些認知和判斷方法加載到數據上，然后讓機器去學習，使機器得出來的對事物的判斷結果更加趨近于人類。在她看來，這就是數據公司的價值。

而在大模型的熱潮之下，多模態的能力成為一個關鍵詞。賀琳表示，多模態數據是未來的一個方向。“多模態的數據里蘊含了更多更豐富的信息，對機器做判斷也會提供更多的信息來源，但多模態的數據（獲取）的難度也非常大。”

她進一步介紹，首先，多模態數據要求的量很大，合規取得這些數據的難度就會更大；其次，多模態數據采集的設備也非常昂貴，對數據公司的財務能力是一種考量。此外，多模態數據對齊的問題、對齊的標準等，都是多模態數據的難點。