多模態大模型推動AI邁向「通感」時代

2023-07-20 21:11:29 字數 1820 閱讀 1803

如同人類的「五感」互相連通密不可分,人工智慧(ai)的視覺、語言、音訊等模態間的邊界也在日漸融合。隨著人工智慧感知、互動和生成能力的快速發展,多模態大模型正推動人工智慧邁進「通感」時代。

記者昨天從上海人工智慧實驗室獲悉,該實驗室發布的書生多模態大模型在全球80多種多模態和視覺評測任務中效能領先,超過谷歌、微軟、openai等研發的同類模型。

書生多模態大模型包含200億個引數,由80億個海量多模態樣本訓練而成,支援350萬語義標籤的識別和理解,覆蓋開放世界常見的類別和概念,已具備開放世界理解、跨模態生成、多模態互動3方面核心能力。

當chatgpt橫空出世,專家就預言它將改變人機互動的「介面」。當下,多模態理解、生成和互動能力正成為大模型新一輪演化的重要方向,乙個人人都能用語音「指揮」ai的低門檻時代或許已近在咫尺。

從預定義任務到開放任務,解鎖真實世界理解力。

在快速增長的各類應用場景需求下,傳統計算機視覺已無法處理真實世界中數不勝數的特定任務和場景需求,迫切需要一種具備通用場景感知和複雜問題處理能力的高階視覺系統。書生多模態大模型融合了視覺、語言及多工建模三大模型能力,即通用視覺大模型、用於文字理解的超大語言預訓練模型(llm)和用於多工的相容解碼建模大模型,這使它能夠更接近人類的感知和認知能力。

在人工智慧研究中,「開放世界」是指非預設、非學術集或封閉集定義的真實世界。傳統研究中,ai僅能完成預定義任務,即學術集或封閉集定義的任務,而這種任務範圍與真實的開放世界存在很大差距。例如,imagenet-1k學術集包含1000種物體,其中約有兩種花、48種鳥和21種魚;而在真實世界中,花、鳥、魚的種類分別約為45萬、1萬和2萬。

在開放世界中,書生多模態大模型正通過不斷學習,獲得更接近人類的感知和認知能力。在語義開放方面,它可以識別和理解開放世界中超過350萬種語義,覆蓋日常生活中常見的物體類別、物體動作和光學字元等,完成了從解決預定義任務到執行開放任務的蛻變,為未來多模態通用人工智慧(agi)模型研究提供了有力支援。

看圖寫詩,跨模態生成同時給出「創作思路」

眼下,ai技術的發展正面臨著大量跨模態任務的挑戰。如在自動駕駛場景下,需準確輔助車輛判斷交通燈狀態、道路標誌牌等資訊,為車輛的決策規劃提供有效資訊輸入。

看圖寫作是一種經典的模態轉換能力。在「欣賞」了張大千的《湖山清夏圖》後,書生多模態大模型根據要求創作了一首七言絕句,詩篇如下:「山峰高聳入雲天,雲霧繚繞自成煙。忘身物外心自適,靜聽松濤入畫眠。」上海人工智慧實驗室表示,書生多模態大模型已經具備了由影象到文字的跨模態生成能力,最後一句還借鑑了唐代詩人韋莊的名句「春水碧於天,畫船聽雨眠」,體現出一定文化積累。

生成文字的同時,書生大模型還給出了「創作思路」:首先確定**中描繪的元素;其次,從畫面中尋找能夠表達出詩人思想情感的元素,如山峰高聳、雲霧繚繞、松濤等;第三,根據元素構思詩句;最後,根據詩句的韻律和格律完善表達。

將影象視為新語言,多模態互動降低使用門檻。

當人工智慧邁入「通感」時代,對人們最近的影響是什麼?上海人工智慧實驗室有關專家表示,書生多模態大模型可以將影象視為一種新的語言,使用者可利用自然語言指令,靈活定義和管理任意視覺任務。

打個比方,當你輸入一張**,並用語音「指揮」ai將其轉換成一段文字並傳送給父母時,它能立即理解並完成指令。多模態互動功能降低了ai任務的門檻,使ai有望成為萬千大眾都能使用的生產工具。

也就是說,人機互動的「介面」即將改變。過去,我們在不同場景中借助不同軟體與虛擬世界相連,這意味著我們還處於圖形介面使用者時代;未來,多模態大模型將把我們帶入自然語言對話介面時代,如鋼鐵俠擁有了ai助手賈維斯。

作者:沈湫莎。

編輯:施薇。

文匯獨家稿件,**請註明出處。

阿里媽媽自研多模態語言大模型,助商家低成本快速上新

2023年,絕對可以說是多模態大模型爆發式增長的一年。從chatgpt的橫空出世到文心一言 星火大模型 claude等人工智慧的百花齊放,想必大家都看到了ai技術在提公升生產效率 改變生活方式方面的巨大潛能。而在電商領域,近期又有哪些值得大家關注的新突破呢?在我看來,阿里媽媽在新發布的一站式營銷投放...

大模型加持下的AI,推動智慧型化普及應用

8月19日下午,由用友主辦的 2023全球商業創新大會 企業數智化技術峰會 在上海市召開。此次峰會以 公升級企業數智化底座 為主題,揭秘用友bip核心技術與平台能力,解析多維度場景下企業數智化底座公升級路徑,共享行業領先企業公升級數智底座的領先實踐。用友網路助理總裁兼iuap智慧型中颱部總經理方高林...

工商銀行呂仲濤 如何推動AI大模型在金融行業落地應用?

近日,中國工商銀行首席技術官呂仲濤在 2023中國智慧型金融論壇 上發表題為 金融行業ai大模型落地探索與實踐 的主題演講。圖為呂仲濤 呂仲濤表示,人工智慧大模型技術具有廣泛的應用前景,通過大模型可以推動資料與實體的融合,改變行業發展格局,但目前國內大模型在應用層面仍處於起步階段。他指出,商業銀行可...