人才
團(tuán)隊(duì)成員不超過(guò)140人、平均年齡不到30歲,成員多是來(lái)自清華、北大、北航等頂尖高校的應(yīng)屆博士畢業(yè)生、在讀生以及碩士生。
技術(shù)
高性能,主要來(lái)自混合專(zhuān)家模型(MoE)、多標(biāo)記預(yù)測(cè)(MTP)和多頭潛在注意力機(jī)制(MLA)等多項(xiàng)技術(shù)創(chuàng)新。
成果
今年1月10日推出的DeepSeek-R1模型聊天機(jī)器人程式,於1月27日超過(guò)ChatGPT成為美區(qū)iOS應(yīng)用商店免費(fèi)應(yīng)用程式榜首。
合作
微軟、英偉達(dá)、亞馬遜等多家科技巨擘已接入DeepSeek-R1模型。
研發(fā)
DeepSeek-V3模型的訓(xùn)練成本為557.6萬(wàn)美元,性能比肩世界頂級(jí)大模型。
大公報(bào)整理