- 100天后,階躍星辰交出第二份答卷:加速奔向AGI
- 2024年07月06日 來源:北方企業(yè)新聞網(wǎng)
提要:在生態(tài)合作方面,階躍星辰已經(jīng)在金融、網(wǎng)絡文學、知識服務、游戲、數(shù)字人、影視等領域與合作伙伴達成了深度合作,共同探索面向C端用戶的創(chuàng)新應用。例如,這次現(xiàn)場展示的“大鬧天宮”AI互動體驗就是階躍星辰與上影在影視領域達成的生態(tài)合作伙伴關系的結果。全程由AI多模態(tài)大模型生成的內(nèi)容生動展示了多模態(tài)大模型的基礎能力。
階躍星辰,作為國內(nèi)通用大模型公司,在2024年3月的全球開發(fā)者先鋒大會上,成功發(fā)布了Step系列通用大模型,包括Step-1千億參數(shù)語言大模型、Step-1V千億參數(shù)多模態(tài)大模型以及Step-2萬億參數(shù)MoE語言大模型預覽版。這一舉措不僅讓階躍星辰正式進入大眾視野,還使其成功躋身國內(nèi)六大大模型獨角獸行列。

因此,當?shù)弥A躍星辰也將出席WAIC時,充滿了期待和好奇,希望能夠探究一下階躍星辰對當前關于AGI的各種共識和非共識問題的看法。然而,出乎意料的是,階躍星辰在WAIC上交出了第二份答卷——發(fā)布了Step-2萬億MoE語言大模型正式版、Step-1.5V多模態(tài)大模型和Step-1X圖像生成大模型。
此次產(chǎn)品升級距離上次發(fā)布僅過去了100天,這表明階躍星辰在通往AGI的漫長旅途中,已經(jīng)從“走路入場”轉變?yōu)椤芭懿角斑M”。
3個多月前,當階躍星辰宣布Step-2萬億參數(shù)MoE語言大模型預覽版時,引起了廣泛的關注和好奇。而在WAIC大會上,Step-2萬億參數(shù)MoE語言大模型正式版終于亮相。它采用當前熱門的MoE(Mixture of Experts)架構,又稱“混合專家”,是一種模塊化的稀疏激活方法,可以在增大參數(shù)規(guī)模的同時,降低計算成本,實現(xiàn)高效訓練。
在通往AGI的道路上,業(yè)界大多數(shù)人堅信Scaling Law定律——模型越大,性能越強。階躍星辰也是其中之一。然而,現(xiàn)實問題是模型的升級迭代離不開算力的支撐,而算力的不足和匱乏顯然是當前業(yè)界為數(shù)不多的共識之一。
因此,在意識到MoE可以解決這一難題時,一些大模型從業(yè)者相繼推出了基于MoE架構的大模型,如國外的Mistral AI、xAI以及國內(nèi)的MiniMax、元象科技、DeepSeek AI等。而階躍星辰則是其中少有的、早早將MoE架構用在萬億參數(shù)規(guī)模大模型的玩家。
姜大昕告訴AI科技評論,階躍星辰在完成Step系列千億模型的訓練后,就開始了萬億模型的訓練。他認為,如果要將模型參數(shù)擴大到萬億級別,MoE幾乎是一個必選項。因為在性能、參數(shù)量、訓練成本和推理成本等維度權衡下,MoE是最佳選擇。
在設計Step-2 MoE架構的過程中,階躍星辰還進行了算法架構的創(chuàng)新。具體來說,當前MoE模型的訓練方式主要有兩種:一種是通過upcycle(向上復用)基于已有模型開始訓練;另一種是從頭開始訓練。第一種方式的算力需求較低,訓練效率較高,但容易出現(xiàn)專家同質(zhì)化嚴重等問題;而第二種方式雖然訓練難度較高,但能夠獲得更高的模型上限。

階躍星辰選擇的是完全自主研發(fā)從頭開始訓練的方式,通過部分專家共享參數(shù)、異構化專家設計等創(chuàng)新的MoE架構設計,使得Step-2中的每個“專家模型”都得到了充分的訓練。結果是不僅總參數(shù)量達到了萬億級別,每次訓練或推理所激活的參數(shù)量也超過了當前市面上的大部分Dense模型。
此外,在Step-2的訓練過程中,階躍星辰系統(tǒng)團隊還突破了6D并行、極致顯存管理、完全自動化運維等關鍵技術,使得整體的訓練過程更加高效。
據(jù)階躍星辰透露,目前Step-2萬億參數(shù)MoE語言大模型在數(shù)理邏輯、編程、中文知識、英文知識和指令跟隨等方面已經(jīng)全面逼近GPT-4。
階躍星辰在3月份推出的Step系列模型是經(jīng)過將近一年的醞釀和準備的成果。而現(xiàn)在距離上一次發(fā)布僅過去了100天,就實現(xiàn)了對Step系列模型矩陣的全新升級。這表明階躍星辰在通往AGI的漫長旅途中,已經(jīng)從“走路入場”轉變?yōu)椤芭懿角斑M”。
盡管業(yè)界對AGI的定義和路徑進行了一次次的探討和爭論,但不可否認的是,至今尚未形成一個明確而具體的共識。每個路線上的攀登者都認為自己將會是最終達到AGI終點的選手,姜大昕也是如此。
從成立之初,階躍星辰就明確了自身通往AGI的路線圖:單模態(tài)—多模態(tài)—多模態(tài)理解和生成的統(tǒng)一—世界模型—AGI。換句話說,就是以實現(xiàn)AGI為目標,專注研發(fā)多模態(tài)基礎大模型,基于自研基礎大模型打造新一代“AI+”應用。
在這個過程中,姜大昕認為攀登AGI巔峰需要“萬億參數(shù)”和“多模融合”兩個關鍵要素。一方面,多模態(tài)理解和生成的統(tǒng)一是通向AGI的必經(jīng)之路;另一方面,模型參數(shù)量決定了模型的能力上限,因此全面進入萬億參數(shù)級別是通向AGI的核心之一。這也是為什么階躍星辰在完成Step系列千億模型的訓練后,就馬不停蹄地開始訓練萬億模型的原因。
據(jù)了解,此次階躍星辰的Step系列通用大模型獲得了WAIC 2024 SAIL之星稱號。SAIL獎(Super AI Leader)是WAIC的最高獎項,旨在從全球范圍內(nèi)發(fā)掘在人工智能領域中具有高度認可和美譽、并具有提升人類福祉意義的項目。
除了在模型上取得突破外,階躍星辰在應用上也沒有松懈。從成立之初,階躍星辰的策略就是技術和產(chǎn)品“兩手抓”。因為姜大昕堅信模型需要應用作為牽引和數(shù)據(jù)的補充,具體到某個應用時一定要通過模型與它深度綁定,這樣應用才能做到極致。

基于Step系列大模型,階躍星辰通過自研產(chǎn)品和生態(tài)合作產(chǎn)品逐漸形成了豐富的產(chǎn)業(yè)應用生態(tài)圈,并在重點行業(yè)領先落地。例如,“躍問”和“冒泡鴨”就是階躍星辰自研產(chǎn)品的代表,“躍問”是一款AI聊天類應用,定位為個人效率助手;而“冒泡鴨”則是一款由劇情和角色構成的AI開放世界,可以為用戶提供娛樂和社交服務。據(jù)了解,目前這兩款產(chǎn)品都已經(jīng)全面開放使用。
在生態(tài)合作方面,階躍星辰已經(jīng)在金融、網(wǎng)絡文學、知識服務、游戲、數(shù)字人、影視等領域與合作伙伴達成了深度合作,共同探索面向C端用戶的創(chuàng)新應用。例如,這次現(xiàn)場展示的“大鬧天宮”AI互動體驗就是階躍星辰與上影在影視領域達成的生態(tài)合作伙伴關系的結果。全程由AI多模態(tài)大模型生成的內(nèi)容生動展示了多模態(tài)大模型的基礎能力。
接下來,階躍星辰還將繼續(xù)積極探索并持續(xù)擴大生態(tài)圈,結交更多的生態(tài)伙伴。
今年3月份,階躍星辰作為一顆新星正式亮相時,憑借其在大模型領域的技術實力改變了當時的“五虎”格局,成功上位成為“六大獨角獸”之一。如今,階躍星辰的萬億參數(shù)大模型正式亮相并不斷獲得行業(yè)和資本市場的認可。或許在不久的將來,國內(nèi)大模型的格局和位置又將迎來新的變化。