「零程式碼,四步精調!新智元大模型輕鬆上崗,寫文超6!」

2023-09-14 16:19:13 字數 3877 閱讀 8138

導語:

這兩天,剛剛空降編輯部的這名新員工,寫文章、起標題,樣樣都很溜。誰能想到,這背後竟是因為騰訊雲的大模型平台,把大模型精調的門檻給打下來了。那麼,讓我們一起揭開這個引人矚目的故事,看看究竟是如何完成的?

正文:四步訓出「新智元」大模型。

選題會一結束,們還在吃早飯呢,ta就已經開始噌噌出活了。

這位同事是什麼來頭?故事還要從這裡說起——熱鬧了大半年後,大模型顯然已經度過了「嘗鮮期」。雖然現在的業內共識是:一定要落地,一定要產生價值。但如何訓練、如何精調、如何部署等等專業壁壘,卻鑄成了一道道高牆。

在昨天的2023騰訊全球數字生態大會上,騰訊首次對外公布了騰訊混元大模型進展,並且宣布從技術底座、平台能力、智慧型應用三大維度公升級騰訊雲maas能力。

其中,騰訊雲maas平台不僅包括了自研騰訊混元大模型底座,而且還支援業內20餘款主流開源模型。公升級後的騰訊雲行業大模型精選商店,可以讓使用者更快速、更便捷地構建專屬自己的大模型。

既然騰訊雲的大模型平台可以讓我們快速搭建乙個自己的專屬大模型,還能在平台上實現一鍵部署。

那不如就搞個新智元的大模型?讓它作為編輯部的新任員工——幫我們寫稿!說幹就幹。

在學習了官方的文件之後發現,我們驚喜地發現:精調乙個「新智元大模型」,竟然4步就能搞定!第一步:建立掛載文件首先,在騰訊雲ti平台上建立乙個用於存放資料的cfs檔案儲存系統。然後,新建乙個notebook例項,並將配置好的cfs掛載到該容器例項上。

接下來,是非常重要的一步,資料準備。為此,我們整理了近期新智元發表的文章。

第二步:選擇模型、啟動訓練進入「大模型精調」頁面後,可以看到能夠選用的各類大模型。其中,除了騰訊自研的大模型外,還有llama 2、falcon、dolly、vicuna、bloom、alpaca等20多款主流開源模型。

騰訊雲之所以整合了如此豐富的基礎模型,是由於使用者需求千變萬化,不同行業和場景對模型要求不盡相同,使用者希望能夠在多樣的產品做出選擇。

基於這些模型,企業可以通過結合自身資料進行訓練和精調,打造出更實用的智慧型ai應用。然而,新的問題又隨之而來:「這麼多模型,我到底該選哪個才好」?

不著急,這個問題鵝廠也想到了,針對使用者可能存在的「模型選擇困難症」,平台推出了「快速試一試」功能。你只需要點幾下滑鼠,就可以在ti平台上測試自己感興趣的模型是不是符合實際的場景需求,期間完全不需要去進行複雜的手動搭建。在這裡,我們選用了能夠一鍵試用的模型——騰訊自研「多行業客服場景大模型」。

選定基底模型之後,就到了精調「新智元大模型」的時間了。整體而言,ti平台支援sft和lora這兩種常見的精調模式。其中,sft屬於全量的微調。如果資料量大的話,sft的效果就會足夠好,可以視為對模型進行一次整體的重訓。而lora並不改變原有模型,是額外增加乙個小引數矩陣,成本相對較低。

只需使用少量資料,就可以給模型在特定任務上的能力進行補充和強化。接下來,再配置一下引數,就可以開始模型的訓練了。整個過程,一行**都沒有編輯,就直接開啟大模型精調了!

第三步:監控訓練、檢視輸出模型開始訓練時,我們可以隨時監控任務訓練的過程。ti平台提供自定義訓練指標的上報介面,只需將重點關注的指標進行上報,便能夠在頁面進行視覺化監控。

同時,平台還提供包含gpu利用率、網路頻寬利用率等和多機多卡訓練相關的監控指標。經過全面公升級後的騰訊雲ti平台,可以提供模型。

訓練所需的各種能力:騰訊雲ti平台提供的多機多卡、斷點續訓的能力,能夠保障模型訓練任務穩定高效地執行。其次,訓練監控能力,可以實時監測訓練指標和資源利用率情況。

然後,任務管理能力,可自動管理模型多次迭代的訓練任務,將每次訓練任務進行超參快照記錄,好處在於能夠快速還原訓練現場。最後,騰訊雲ti平台還支援記錄模型中間結果checkpoint,可以選擇指標最優的模型,進行發布部署、呼叫。

公升級後的騰訊雲ti平台優勢在於,模型訓練過程**現問題後,客戶能夠及時檢測,發現問題後糾正。

在訓練過程中,我們會不可避免地遇到一些問題。舉個栗子,大模型訓練過程中,周期長,因為各種因素會出現中斷。關於meta內部的一次模型訓練日誌顯示:在訓練完成到30%左右處,研究人員在兩個星期內,因為硬體、基礎設施或實驗穩定性問題,重新啟動了40多次。可見,訓練過程中「斷點續訓」對於模型連續性訓練非常重要,同時還能為研究人員節省大量時間。

比起小模型,大模型的訓練成本相對較高。而ti平台提供的一大優勢就是,能夠讓訓練任務排隊佇列排程,實現自動化高效利用集群資源。另外,ti平台還整合了一些巡檢工具,針對常見故障,比如gpu掉卡、ecc異常、rdma網路故障等常見的問題進行自動化排查,從而並及時解決問題。

在訓練結束之後,我們就得到了精調後的「新智元大模型」。總結來說,得益於ti平台的全面公升級,我們在精調「新智元大模型」的整個過程中,體驗都非常絲滑。據介紹,ti平台在算力方面,接入了騰訊雲hcc高效能計算節點及星脈高效能計算網路,可提供3.2tbps的網路頻寬;而在儲存方面,也接入了具備tb級吞吐能力和千萬級iops的高效能儲存,可在跨機器的多機多卡訓練中,效能有了大幅提公升。

此外,全新公升級的太極angel大模型加速框架,通過非同步排程優化、視訊記憶體優化、計算優化等方式,相比行業常用方案效能提公升了30%以上,推理加速比達到了2倍。可以說,每乙個環節,都在為大模型精調提速。

第四步:部署呼叫模型最後,借助公升級後的ti平台,我們現在就可以一鍵把「新智元大模型」部署成**服務。

為了方便使用者進行快速體驗和生產上線,ti平台提供了頁面視覺化呼叫和api呼叫兩種方式。我們只需在頁面中配置服務部署所需的資源,服務執行環境,服務的擴縮容策略等,即可完成服務部署。

最後,我們來驗證一下,剛剛精調出的大模型究竟效果如何?給它一段來自網上的英文原始材料,讓它生成一篇關於英偉達gpu短缺的簡訊。

為了更貼近新智元的文風,我們要求它多用短句、多分段。才幾秒鐘,新智元大模型的大作就誕生了。

總結:解決完正文之後,那最讓們頭疼的標題效果如何?你別說,還真有點那個味了!現在可以宣布——新智元大模型,基本獲得入駐編輯部資格!值得注意的是,很多行業的需求實際上要複雜得多,進而也需要經過更加細緻和繁瑣的除錯,才能最終投入使用。

除了這種通過快速問答來進行測試外,騰訊雲ti平台還提供的批量測試功能——利用量化指標評估+人工主觀觀察模型在指定評測集上的效果。

如果發現模型效果不理想,可以先分析loss曲線,觀察模型收斂情況,然後調節學習率等超引數。更進一步的,可以分析badcase,定位出錯誤原因後,再去找一些相關資料做增強訓練。

通過零程式碼ETLCloud實現資料自動化同步

在當前大資料時代,資料的處理和同步變得越來越重要。為了解決資料同步的問題,零 etl extract transform load 成為了一種流行的解決方案。而在眾多零 etl工具中,etlcloud以其強大的資料自動化優勢脫穎而出。本文將重點介紹零 etl的定義和好處,並突出etlcloud的資料...