- 階躍星辰姜大昕:多模態大模型將走向理解與生成的統一
- 2024年07月07日 來源:北方企業新聞網
提要:目前,階躍星辰正在朝著這個方向努力,并取得了一些階段性的進展。在 WAIC 2024上,新升級的Step-1.5V千億參數多模態大模型性能大幅提升,具備更出色的視頻理解能力;新發布的Step-1X圖像生成大模型,則是階躍星辰首次推出多模態生成大模型。
2024世界人工智能大會啟明創投·創業與投資論壇近日在上海舉行。階躍星辰創始人、CEO 姜大昕博士受邀出席此次論壇,并發表了主題為《攀登AGI的路徑與實踐:萬億參數和多模融合》的演講。在演講中,姜大昕重點闡述了一個核心觀點:探索AGI路徑,“Scaling Law”和“多模態”是相輔相成、缺一不可的兩個方向。兩者齊頭并進,最終到達AGI。

階躍星辰進一步強調,多模態是構建世界模型的基礎能力,是通向AGI的必經之路。從算法角度看,世界模型的演進會分為三個階段:
第一階段是模擬物理世界;
第二階段是通過具身智能和物理世界交互,主動探索物理世界;
第三階段是通過發展系統能力,發現新的物理規律,歸納物理世界。

從模擬世界,到探索世界,再到歸納世界,多模態是貫穿這三個階段的基本能力。目前,全球科技巨頭正在積極探索并布局多模融合的路徑,多模態大模型研發的腳步正越走越快。然而,多模態領域目前存在的問題是,視覺的理解模型和生成模型是分開發展的。其造成的結果就是理解模型的理解能力強而生成能力弱,或者生成模型的生成能力強而理解能力弱。因此,多模態大模型接下來面臨的一項關鍵挑戰,就是能否將理解和生成統一在一個模型里。
目前,階躍星辰正在朝著這個方向努力,并取得了一些階段性的進展。在 WAIC 2024上,新升級的Step-1.5V千億參數多模態大模型性能大幅提升,具備更出色的視頻理解能力;新發布的Step-1X圖像生成大模型,則是階躍星辰首次推出多模態生成大模型。