圖:中大計算機科學與工程學系副教授成宇與其團隊,目前主要聚焦於多模態(tài)模型架構以及快速模型架構的研究。\大公報記者麥潤田攝
伴隨人工智能(AI)技術的加速演進,AI大模型已成為產業(yè)的核心驅動力,如何優(yōu)化現有的大模型,構建更高效的模型以適配社會需求,是當代AI發(fā)展的重要課題?! ∠愀壑形拇髮W計算機科學與工程學系副教授成宇,在接受《大公報》專訪時表示目前專注於高效AI模型架構研究,當中涵蓋多模態(tài)模型以及快速模型架構兩大方向,並取得多項成果。其團隊與騰訊合作開發(fā)的深度思考模型「T1」,已在今年3月底推出。此模型開發(fā)成本與DeepSeek相比更低,響應時間更是壓縮至10多秒。成宇希望,在一至兩年後AI可在特定的工種替代人力,5至10年內實現應用場景內80%的工作由AI完成。\大公報記者 陳煒琛
成宇與其團隊目前主要聚焦於多模態(tài)模型架構以及快速模型架構的研究。所謂多模態(tài)模型,是能夠綜合處理圖片、語音與文本等多模態(tài)信息的模型。而快速模型架構,則是對問題推理、響應時間更加快速的模型。
從單模態(tài)進化到多模態(tài)
成宇指出,「當前主流的深思考模型,如DeepSeek、ChatGPT等,主要是採用單模態(tài)架構,在文本處理領域具有強大的邏輯推理能力,但其應用場景相對局限。」相比之下,多模態(tài)模型能綜合處理多種複雜信息,能有效應對現時社會的多樣需求。此外,他表示,由於當前的模型規(guī)模較大,「在實時交互場景中面臨推理時間較長、算力資源成本高昂的痛點」,因此研發(fā)兼顧精度與效率的快速模型架構是發(fā)展AI的重要方向。
成宇去年10月份加入中大任職,而在加入中大之前,成宇在微軟美國研究院與OpenAI團隊合作期間,對其Copilot模型的結構進行輕量化優(yōu)化,為其後續(xù)的快速推理技術研究積累了關鍵經驗。
在不斷推進當前研究工作的同時,回顧過往,早在2020年,成宇及其團隊便有極具前瞻性的構想。成宇表示,在多數大模型僅關注文本信息時,他與團隊就提出構建多模態(tài)大模型的想法。他透露,在當時他們便搭建了將文本、圖像、語音等信息融合起來的第一代的多模態(tài)模型框架。成宇直言,「這一成果為後續(xù)GPT-4o等多模態(tài)模型架構提供了技術雛形?!?/p>
此外,AI在迅猛發(fā)展的同時,不可避免地會出現諸如AI幻覺(即虛構現實)、AI偏見(如性別歧視)、AI安全(如生成危險有害內容)等方面問題。針對以上問題,成宇表示,在2023年他與團隊構建了一套客觀的評測機制,借助數據去檢測大模型存在的問題,進而及時進行修改。成宇透露,目前該評測機制已被不少企業(yè)採納。
5至10年內可做八成工種
與騰訊共同合作研發(fā)的「T1」模型是成宇團隊加入中大以來的標誌性落地科研成果。成宇表示,「T1」屬於較快速的深思考模型,在今年3月底已在微信「騰訊元寶」免費上線。成宇透露,大概是去年年中開始與騰訊合作,年底時便搭建了一個反應較快的基座模型。而後在這個基座模型的基礎上,利用大量的數據不斷地進行迭代,最終花費了七至八個月的時間完成了「T1」的搭建。
成宇表示,一般情況下,深度思考或深度推理類模型在維持其深度思考能力(如邏輯回溯、多步驗證)時,其響應速度會變慢,則需要優(yōu)化其模型架構。他透露,在「T1」模型研發(fā)的第一階段團隊已解決此問題,成功壓縮了推理時間。成宇補充,「與DeepSeek相比,T1響應速度可能僅為其三分一到二分一,即10多秒便可達到同樣的處理效果」。
據悉,「T1」沿用了混元Turbo S的創(chuàng)新架構,並採用了Hybrid-Mamba-Transformer融合模式。而這也是工業(yè)界首次將混合的Mamba架構無損應用於超大型推理模型。這一架構有效降低了傳統(tǒng)Transformer結構的計算複雜度,減少了內存佔用,成宇表示,這顯著降低了訓練和推理成本。
儘管「T1」取得了不錯的成果,但在研發(fā)和應用推進過程中,亦面臨著不少挑戰(zhàn)。成宇坦言,AI領域的競爭激烈,新模型層出不窮,因此他們時刻面臨著外部的緊迫壓力。此外,AI模型漫長的迭代周期長同樣是一大難題。成宇進一步解釋,「當前的AI模型體量龐大,訓練一個模型往往需要耗時一至兩個月」。而在此期間,團隊須保持高度專注,持續(xù)去監(jiān)控模型訓練過程中的各項表現指標,並根據實際情況動態(tài)調整架構,以確保最終成果的質量與性能。
目前,團隊也正探索如何將「T1」模型進行多模態(tài)升級,以增強其在不同場景下的應用能力。成宇舉例,讓「T1」做到在面對一道複雜的幾何題時,可以自主解析圖像、繪製輔助線和公式推導。成宇對AI未來的多模態(tài)應用充滿信心,他希望,一至兩年後可率先在特定的工種如代碼開發(fā)、平面式設計等領域實現AI替代人力的突破,「終極目標則為在5至10年內實現應用場景內80%工作由AI完成?!?/p>