ここ数日、中国のAIスタートアップDeepSeekの大規模言語モデル(LLM)である「DeepSeek-R1」が大変話題になっています。この影響で、GPU(並列処理演算用プロセッサでAIの大規模計算には必須)で劇的な躍進を続けていたNVIDIA社の株価が17%下落するという事態がおきました。

「DeepSeek-R1」は、OpenAIのChatGPTに匹敵する性能を持ちながら、はるかに低コストで開発されたとあります。その技術的ポイントは以下2点のようです。
1. Mixture of Experts(MoE)アーキテクチャの採用
DeepSeek社は、モデルの効率性を高めるために「Mixture of Experts(MoE)」と呼ばれる手法を採用しています。このアーキテクチャでは、タスクごとに必要な専門家(エキスパート)モデルのみを活性化させることで、計算資源の使用を最適化します。これにより、全てのパラメータを同時に使用する従来のモデルと比較して、計算コストとエネルギー消費を大幅に削減できるとのこと。
2. 強化学習(RL)の直接適用
DeepSeek-R1モデルは、ベースモデルに対して直接強化学習(RL)を適用するアプローチを採用しており、従来モデルのような教師あり学習による微調整(SFT:Supervised Fine-Tuning)に依存せず、AIが自律的に試行錯誤を行い、推論能力を向上させることが可能とのこと。
https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
とはいえ、ベースモデルはメガプラットフォーム製のオープンソースLLMを蒸留して開発されたという情報もあるので、いきなりNVIDIA社の株価が急落するのは少し過剰反応のように思われます。
この投稿を書いている間にも、「DeepSeek-R1はOpenAI社のモデル情報を不正利用した疑いがある」との日経ニュースが入ってきました。今後も冷静に見極めていくことが必要なようです。