據(jù)DeepSeek回答大公報記者提問,「知識蒸餾」(Knowledge Distillation)是一種被廣泛認(rèn)可且合法的機(jī)器學(xué)習(xí)技術(shù),其本身並不構(gòu)成「偷竊」。就技術(shù)本質(zhì)而言,「知識蒸餾」屬知識傳遞,而非複製。其核心原理是知識蒸餾通過讓小型模型(學(xué)生模型)學(xué)習(xí)大型模型(教師模型)的「知識」(如輸出概率分布或中間特徵表示),而非直接複製代碼或參數(shù)。這類似於學(xué)生向老師學(xué)習(xí)解題思路,而不是抄襲答案。
需要指出的是,蒸餾出來的最終模型仍需獨(dú)立訓(xùn)練,其參數(shù)和結(jié)構(gòu)可能與教師模型完全不同,屬於一種優(yōu)化方法,而非盜竊行為。就行業(yè)實踐而言,這是廣泛接受的技術(shù)手段,屬開源社區(qū)常規(guī)操作。事實上,許多開源模型明確允許蒸餾,甚至提供蒸餾工具鏈。OpenAI的GPT-3曾被第三方通過API輸出而蒸餾出小型模型(如美國科企Hugging Face的社區(qū)項目),這些案例均未被認(rèn)定為「盜竊」,而是技術(shù)創(chuàng)新體現(xiàn)。