2025年春節期間Deepseek(以下或簡稱DS)可謂是火遍了全球,國內、國外下載和使用Deepseek的用戶均創造記錄。
那么Deepseek為什么如此火爆呢?它是憑借什么能夠霸網霸屏的呢?這里說的火爆,不是指為什么成功,而是為什么如此“成功”。究其原因,主要有三個。
一、低成本震驚海內外AI領域
Deepseek的成本低的優勢,不僅表現在訓練成本上,更體現在它的調用成本上。
1. 訓練成本低
DS架構方面:采用MoE混合專家架構等,并且創新算法,以提高計算效率。DS硬件方面:選擇了H800 GPU,并進行內存優化。Deepseek的數據策略高效,使用少量的數據和參數可以達到同樣的效果。
2. 調用成本低
Deepseek的調用成本,相比海外的ChatGPT和國內的多家大模型廠商,具有明顯的競爭力。DS調用輸入tokens成本僅為ChatGPT的百分之一,輸出tokens成本也是對方的幾十分之一。DS的調用成本相比國內的豆包等也有明顯的優勢。
二、完全開源,不懼怕被抄襲
DeepSeek對全球完全開源,基于成本低的優勢,可以秒殺眾多大模型。
Deepseek開源能夠匯聚全球優秀開發者的力量,加速模型的技術迭代;可以降低研發與使用成本,推動AI在不同行業應用落地;大大的提升DS品牌影響力,更容易建立AI大模型行業標準;代碼公開,增強開發者和用戶的信任;另外,DS還能促進大模型跨平臺集成,吸引軟件和硬件伙伴共建生態。
三、訓練不依賴特定的GPU芯片
DeepSeek放棄英偉達護城河CUDA框架,采用底層的PTX編程,實現了高效且靈活。
Deepseek能對GPU硬件資源細粒度控制,可以挖掘硬件的潛力,提高運算推理的效率。
另外,Deepseek實現對非英偉達GPU的支持,包括國產GPU芯片等。其采用可擴展混合專家系統等創新架構,異構計算的感知框架,自動適配不同芯片,降低了對特定GPU芯片的依賴。