- 階躍星辰姜大昕:多模態(tài)大模型將走向理解與生成的統(tǒng)一
- 2024年07月07日 來源:北方企業(yè)新聞網(wǎng)
提要:目前,階躍星辰正在朝著這個方向努力,并取得了一些階段性的進展。在 WAIC 2024上,新升級的Step-1.5V千億參數(shù)多模態(tài)大模型性能大幅提升,具備更出色的視頻理解能力;新發(fā)布的Step-1X圖像生成大模型,則是階躍星辰首次推出多模態(tài)生成大模型。
2024世界人工智能大會啟明創(chuàng)投·創(chuàng)業(yè)與投資論壇近日在上海舉行。階躍星辰創(chuàng)始人、CEO 姜大昕博士受邀出席此次論壇,并發(fā)表了主題為《攀登AGI的路徑與實踐:萬億參數(shù)和多模融合》的演講。在演講中,姜大昕重點闡述了一個核心觀點:探索AGI路徑,“Scaling Law”和“多模態(tài)”是相輔相成、缺一不可的兩個方向。兩者齊頭并進,最終到達AGI。

階躍星辰進一步強調(diào),多模態(tài)是構(gòu)建世界模型的基礎(chǔ)能力,是通向AGI的必經(jīng)之路。從算法角度看,世界模型的演進會分為三個階段:
第一階段是模擬物理世界;
第二階段是通過具身智能和物理世界交互,主動探索物理世界;
第三階段是通過發(fā)展系統(tǒng)能力,發(fā)現(xiàn)新的物理規(guī)律,歸納物理世界。

從模擬世界,到探索世界,再到歸納世界,多模態(tài)是貫穿這三個階段的基本能力。目前,全球科技巨頭正在積極探索并布局多模融合的路徑,多模態(tài)大模型研發(fā)的腳步正越走越快。然而,多模態(tài)領(lǐng)域目前存在的問題是,視覺的理解模型和生成模型是分開發(fā)展的。其造成的結(jié)果就是理解模型的理解能力強而生成能力弱,或者生成模型的生成能力強而理解能力弱。因此,多模態(tài)大模型接下來面臨的一項關(guān)鍵挑戰(zhàn),就是能否將理解和生成統(tǒng)一在一個模型里。
目前,階躍星辰正在朝著這個方向努力,并取得了一些階段性的進展。在 WAIC 2024上,新升級的Step-1.5V千億參數(shù)多模態(tài)大模型性能大幅提升,具備更出色的視頻理解能力;新發(fā)布的Step-1X圖像生成大模型,則是階躍星辰首次推出多模態(tài)生成大模型。