海天瑞聲董事長賀琳 為大模型「火箭」加燃料

2023-07-20 21:11:29 字數 4985 閱讀 5892

■相關公司:海天瑞聲(sh688787,股價89.26元,市值53.85億元)

核心競爭力:具備標準化資料集產品規模化生產能力,累計完成超過1300個自有智財權的訓練資料標準化產品的建設,在全球企業中穩居前列;較早地布局並建立了多語種能力。

機構眼中的公司:國內ai訓練資料龍頭提供商,自動駕駛業務開啟成長空間。

所屬概念:資料服務 人工智慧 aigc

每經記者 可楊 每經編輯 董興生。

11.2公里/秒,是火箭能夠成功擺脫地球引力束縛,飛離地球的速度。而瞬間的燃料燃燒所提供的推動力,是幫助火箭一次又一次加速直至進入外太空的助力。

在與《每日經濟新聞》記者交流時,海天瑞聲董事長賀琳覺得,作為一切人工智慧技術最上游的資料,就是人工智慧這艘火箭的「燃料」。海天瑞聲正是一家生成「燃料」的公司。

海天瑞聲是國內最早投入ai訓練資料的專業服務商之一,2023年,不斷翻湧的大模型浪潮將這家公司推至資本市場的聚光燈下。而身處潮水之中,賀琳對未來的思考依舊謹慎。

大模型狂熱:初印象非常驚豔,但對預期「審慎樂觀」

2023年初,賀琳在海天瑞聲公司年會上的發言稿,80%由chatgpt完成。

非常的驚豔,有點不(敢)相信。」這是賀琳對chatgpt的初印象,「當然,也有不盡如人意的地方,我覺得這才是我們要努力的方向。」chatgpt的出現,讓這家資料公司突然站到了資本市場舞台**。

2023年開年以來,海天瑞聲股價一路走高,3月一度漲至191.96元/股,較其2023年8月上市時翻了一番。而海天瑞聲方面,則已多次在投資者互動平台發布提示,稱公司與openai沒有合作,也尚不能預期大模型業務將帶來多少收入。

年初,我們還在仔細觀察、論證這個技術到底對資料有什麼樣的需求。」賀琳認為,合適的入局時機應該是當這項技術能夠真正在行業中落地的時候,這意味著其有真正的應用場景,而非偽場景。「我們要確定這個需求是真的,且有人會為這個需求買單,這才是乙個正常的商業邏輯。」

同時,當行業落地時刻到來,資料的需求量也會迎來大規模提公升。「這給公司帶來的上公升空間,我認為是非常樂觀的,(目前)我們還是抱著樂觀審慎的態度去看,去跟蹤,去研究這項技術。」

判斷乙個行業,我們會更深刻地去想這個行業到底需要什麼樣的資料,只有想清楚這件事,我們才會走過去,我們當初對自動駕駛領域的布局就遵循了這個邏輯。」賀琳介紹。

布局自動駕駛行業是海天瑞聲在2023年定下的戰略方向,在賀琳看來,自動駕駛賽道已經符合這個判斷邏輯。從l2到l4,自動駕駛已經有相當多的應用落地,同時,自動駕駛的資料需求量十分巨大。

她判斷,自動駕駛是乙個人命關天、對安全要求非常高的技術,它需要大量資料來打磨,去覆蓋各個不常見的場景來保證安全性,因為任何極端天氣或極端場景都可能導致誤判。「怎麼避免?就需要大量的資料去訓練,讓模型接觸到更多長尾的場景來提高它的安全性。」

今年4月18日,海天瑞聲正式推出其專為自動駕駛場景設計的全棧式資料標註平台「dots-ad自動駕駛標註平台」。

資料需求增加背後:系統性差距依舊存在

賀琳曾就職於中國科學院聲學研究所,從事語音識別、語音合成、漢語語言理解、語音心理測試等方面的研究工作。

成立於2023年的海天瑞聲,最初誕生於賀琳在這份工作中捕捉到的行業痛點。「我們當時在課題組其實也會遇到(缺少)資料的問題,解決辦法就是工作人員,加上研究生、博士生,自己來做資料。」儘管彼時實驗室的資料量相對較少,但也已經算是一項繁瑣的工作。

隨著技術的發展,智慧型語音從實驗室走向大規模應用階段,更多場景的覆蓋需求,意味著資料需求隨之大規模增加。與此同時,在與一些就職於大型企業或研究機構的前同事交流時,賀琳發現,大家都在關注資料的問題。「(大家)認為資料是乙個非常大的瓶頸,阻礙他們技術的落地。所以我就在想,那是不是可以由我出來做這件事情,幫助大家解決這個困難。」

時至今日,賀琳覺得,彼時促使她創業的瓶頸依舊存在。

在她看來,資料的需求是跟著技術的發展而變化的,隨著技術在各個行業中落地,就會有更多的資料需求爆發。「像現在大模型起來,很多人都認為,資料差距是乙個造成系統性差距的非常重要的原因,所以大家認為資料還是很重要的要素,這個瓶頸依然存在。」

不同的是,賀琳創業之初,國內競爭對手少,海天瑞聲得以在市場快速突圍。而如今,國內已經出現一批新的資料公司,先發優勢成為當下資料公司核心競爭力的基礎。「其實,這個行業有很多的技術壁壘和『know-how』,也是需要不斷打磨專案,才能去沉澱自己的技術、學會各類『knowhow』的,這是靠專案積累出來的,而不是短期能很快積累起來的。」

海量資料如何最終成功支撐起龐大引數的大模型執行?需要首選了解乙個概念——資料集。

賀琳介紹,資料集的產生是乙個非常複雜的過程,其中包括設計階段、採集階段、處理階段以及最後的質檢階段。

在設計環節,需要先去了解資料集是為了解決哪個問題,這個問題需要什麼樣的資料,需要多大的量,需要什麼樣的場景,以及採集的樣本、規模、內容,包括採集的裝置、標註的規範等;採集環節則是按照設計的方案,到大千世界採集,有可能是聲音,有可能是影象、**又或是手寫的字、道路的場景。採集完成後則需要進入清洗、標註環節。最後生產出的資料集需要通過雙層的質檢流程,最終才能生產出乙個合格的資料集。

這其中,清洗規則的好壞、標註的準確性都會極大地影響資料集的質量,進而影響模型的效果。

賀琳舉例說,海天瑞聲的大模型資料清洗率是5%,即清洗出來正確的資料僅僅占原資料的5%,這也印證了資料清洗環節的重要性。而標註的流程則主要是解決準確性和一致性問題,「我們通常說%或者是99%,不同的準確率對模型訓練的結果有非常大的影響」。

資料的清洗和標註流程對於模型的質量至關重要,它們可以提高資料的質量和準確性,幫助模型更好地去學習,也為模型的評估奠定了乙個很好的基礎。」賀琳表示。

賀琳認為,高質量的資料報括了資料的豐富度,場景的豐富度,資料的準確性、一致性等,這都是衡量高質量資料的標準。她也認同,高質量資料的提供,需要高質量人工的支援。

有一些高質量的資料,尤其是行業資料,確實需要更高層次的人去處理。因為我們也了解到,像openai這樣的公司,它背後也有乙個很強大的資料處理團隊,他們要把對行業的『know-how』或者是更高層的一些知識灌輸到資料裡。」她表示。

浪潮的下一步:離開人工,實現智慧型

有多少智慧型,就有多少人工。」這句話依舊得到大部分人的認同。

在海天瑞聲這家「燃料」製造商,優質「燃料」的誕生,同樣需要最了解「火箭」的人來把控。

賀琳介紹,海天瑞聲的管理層除擁有比較好的學術背景外,也都有在外企或大廠等機構的工作、管理經驗。「他們以前是資料的使用者,加入公司以後,他們非常知道資料的使用者需要什麼樣的資料,這可以讓他們更快速地對市場有預判,也會更好地跟業界交流。」

她同時坦言,為不同行業提供的資料,需要具備不同行業專業知識的人來處理。「但把規則定下後,可能通過一些訓練,讓基礎的人員能具備這樣的訓練能力。」

在賀琳看來,「有多少智慧型就有多少人工」是乙個誤解。「確實,這個行業有很多的人力,但人力是在技術的支撐下做這些事,沒有技術支撐,可能人力需要現在的10倍都不止。所以,我們這種綜合性的資料服務商一直都在追求用更自動、更智慧型的方式來完成資料的任務,不斷解放人力。」

賀琳希望,能一步步減少人工對人工智慧的參與,大模型的浪潮,正在加速實現這個目標。「讓計算機自動處理資料,永遠都是我們的追求。」

據她介紹,公司也在**未來的兩大工作方向,乙個是打造一批針對通用領域、垂直領域,且具備單模態和多模態屬性的、供給大模型使用的資料集產品。另外,海天瑞聲也在計畫啟動資料生產垂直大模型的研發專案,希望用大模型技術來支撐資料的生產。「大家都說大模型將給眾多垂直行業帶來重大積極影響,其實資料處理本身也是乙個垂直行業,我們希望用大模型的能力來更自動化地把資料處理這件事情做好。」

人工智慧的背後是人工」也是有可能發生改變的。「現在背後依然確實需要很多的人工,但是我們一直在盡量想辦法減少人工。包括加入很多演算法,提高對資料做預標註的準確率,準確率越高,人工參與的程度越低。」

但賀琳也坦言,這件事並不容易。「其實,如果真的把這個事都做成了,人工智慧就完成了。因為不需要人的介入,相當於它處理的東西都跟人想的是一樣的。」但另一方面,當技術達到一定突破後,倫理、法規、安全等問題就會出現,如何解決這些問題,也是今後整個人工智慧行業面臨的難題。

新的變革契機:多模態需求將推高行業門檻

每一次的火箭公升空,都需要大量的燃料助推。賀琳認為,當人工智慧技術迎來新的變革時,對資料提供商來說就是一次契機。「我覺得可能也是根據一些需求,比如像蘋果手機的siri出來以後,大家就會認為在語音上有一些突破,這些資料的需求就會暴增。」

賀琳覺得,在整個人工智慧行業,資料就像人類學習知識時使用的教科書,「你的教科書越全面,資訊越準確,學習的結果就會越好,其實機器也是一樣的」。她認為,資料集本質上就是人類把自己對大千世界、萬事萬物的一些認知和判斷方法載入到資料上,然後讓機器去學習,使機器得出來的對事物的判斷結果更加趨近於人類。在她看來,這就是資料公司的價值。

而在大模型的熱潮之下,多模態的能力成為乙個關鍵詞。賀琳表示,多模態資料是未來的乙個方向。「多模態的資料裡蘊含了更多更豐富的資訊,對機器做判斷也會提供更多的資訊**,但多模態的資料(獲取)的難度也非常大。」

她進一步介紹,首先,多模態資料要求的量很大,合規取得這些資料的難度就會更大;其次,多模態資料採集的裝置也非常昂貴,對資料公司的財務能力是一種考量。此外,多模態資料對齊的問題、對齊的標準等,都是多模態資料的難點。

賀琳認同一點,多模態能力會導致資料公司的入門門檻提高。「包括我們可能還要去做一些資料生成技術,用我們的一些單一形態的資料來合成多模態的資料,這都要求公司有更高維度的研發能力。」

目前,賀琳依舊認為,資料這個方向是海天瑞聲未來的定位,因為這個領域要做的事情太多了。「隨著技術的發展進入千行百業,每乙個行業都需要認真地去了解這個行業的『knowhow』是什麼、如何解決這個行業的一些關鍵痛點。那麼多行業呢,我們有足夠大的空間去拓展。」

而深入行業,則需要公司本身有一定的研發能力,同時,在進入行業時,需要有行業專家的參與,通過真實的專案打磨,進而逐漸積累。「這不是個一蹴而就的事情,需要乙個長期持續的過程。」她表示。

賀琳相信,通用人工智慧終將有一天會實現,但這也需要乙個過程,即便技術達到了,還有倫理的問題、安全的問題、合規的問題。這些都解決了之後,如何解決行業的問題,也有很長的一段路要走。

而在這條路上,她認為,資料公司將會扮演越來越重要的角色。在這個過程中,演算法可能會相對趨於穩定,但仍需大量的、型別迥異的資料對演算法進行訓練,才能解決行業的問題。

翻譯。搜尋。

複製。每日經濟新聞。

渤海銀行董事長「換帥」

近日,渤海銀行發布公告稱,李伏安因退休,辭任該行董事長等相關職務。公告顯示,渤海銀行董事會建議委任王錦虹為該行第五屆董事會執行董事 董事長及董事會發展戰略和普惠金融委員會主任委員 董事會提名薪酬委員會委員。為保證該行的正常運作,執行董事 行長屈巨集志代為履行董事長職責,直至有關監管機構核准新任董事長...

微小說 董事長的情人

在某個昏暗的夜晚,王董和大美相約在分公司的辦公樓外。他們站在一片黑暗中,互相注視著,心跳加速,一種禁忌的刺激感瀰漫在空氣中。大美輕輕咬著下唇,眼神中閃爍著渴望和不安。她終於忍不住,開口問道 王董,我們到底怎麼辦?這種曖昧關係,不是個長久之計。她的聲音帶著微妙的哀求。王董沉默片刻,深吸了一口氣,眼神中...

蜀道集團董事長停職檢查

9月1日,四川省委決定,蜀道集團黨委書記 董事長唐勇同志停職檢查,配合調查。同時,成立省 進駐蜀道集團工作組,開展相關督導工作。蜀道集團的全稱是蜀道投資集團有限責任公司,是由原四川交投集團 四川鐵投集團重組整合,新設合併組建的蜀道投資集團有限責任公司,於2021年5月28日揭牌成立。蜀道集團成立後,...