圖:從M6大模型到打造「通義千問」
在加入香港理工大學之前,楊紅霞教授在阿里巴巴領導了M6大模型的研發(fā),這也是AI大模型「通義千問」(見圖)的前身,同時也是當時全球最大的中文多模態(tài)模型。楊紅霞表示,M6大模型的研發(fā)實現了三個技術上的突破點:用更少的算力去運行、有當時領先的稀疏模型架構,以及首次大面積地運用在推薦系統(tǒng)這樣的核心業(yè)務上。
M6的研發(fā)源於推薦系統(tǒng)的「冷啟動」難題。「像手機淘寶這樣的推薦系統(tǒng),每天的新增用戶、新增商品的數量都相當可觀,如果你沒有任何的用戶行為數據,如何有效分發(fā)流量?」楊教授回憶道,「我們決定通過學習商品的屬性、圖片、視頻等多模態(tài)信息來解決這個問題?!?/p>
藉MOE突破盲點 大幅提升效率
然而,當年的楊紅霞團隊卻面臨一個近乎不可能的任務:用526張GPU卡訓練萬億參數模型?!府敃r全球大廠都在拚算力,但我們的算力資源遠遠少於同行?!顾貞浀?。
如何破局?楊紅霞表示,團隊的突破點在於「混合專家模型」(MOE,Mixture of Experts)─通過稀疏架構,讓模型僅激活部分參數處理特定任務,大幅提升效率?!肝覀兊腗OE從2021年就開始在做,而Open AI都是這兩年才開始做MOE?!顾龔娬{。
她續(xù)表示,像DeepSeek這樣的國產AI大模型,其算力資源亦有限,但在預訓練階段,其算子精度竟做到了FP8,她形容這件事「非常有挑戰(zhàn)性」,「現在全球達到FP8的也就還有一個Open AI?!顾忉?,目前許多大廠的算子精度還只是FP16,而FP8相較FP16,理論上是可以節(jié)省一半的存儲、節(jié)省一半的算力開銷?!府斎?,現在各大廠都是用的混合精度,不是說清一色FP8或者FP16?!?/p>
另外,M6大模型的創(chuàng)新點,還在於它的應用情況?!杆鞘状未笠?guī)模地用了非常大流量的、類似於像推薦系統(tǒng)這樣的一個核心場景當中?!箺罴t霞說道。