PR

中国発の言語モデル「DeepSeek-R1」とは

ここ数日、中国のAIスタートアップDeepSeekの大規模言語モデル(LLM)である「DeepSeek-R1」が大変話題になっています。この影響で、GPU(並列処理演算用プロセッサでAIの大規模計算には必須)で劇的な躍進を続けていたNVIDIA社の株価が17%下落するという事態がおきました。

DeepSeekショック、アメリカのAI株価が急落 NVIDIA17%下落 - 日本経済新聞
【ニューヨーク=竹内弘文】中国の人工知能(AI)企業であるDeepSeek(ディープシーク)が低コスト生成AIモデルを開発したことを受け、米金融市場が揺れている。AI半導体大手エヌビディアの株価は27日に17%安となった。1日の下落率として...

「DeepSeek-R1」は、OpenAIのChatGPTに匹敵する性能を持ちながら、はるかに低コストで開発されたとあります。その技術的ポイントは以下2点のようです。

1. Mixture of Experts(MoE)アーキテクチャの採用
DeepSeek社は、モデルの効率性を高めるために「Mixture of Experts(MoE)」と呼ばれる手法を採用しています。このアーキテクチャでは、タスクごとに必要な専門家(エキスパート)モデルのみを活性化させることで、計算資源の使用を最適化します。これにより、全てのパラメータを同時に使用する従来のモデルと比較して、計算コストとエネルギー消費を大幅に削減できるとのこと。

DeepSeek-V3 Technical Report
We present DeepSeek-V3, a strong Mixture-of-Experts (MoE) language model with 671B total parameters with 37B activated f...

2. 強化学習(RL)の直接適用
DeepSeek-R1モデルは、ベースモデルに対して直接強化学習(RL)を適用するアプローチを採用しており、従来モデルのような教師あり学習による微調整(SFT:Supervised Fine-Tuning)に依存せず、AIが自律的に試行錯誤を行い、推論能力を向上させることが可能とのこと。

https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

とはいえ、ベースモデルはメガプラットフォーム製のオープンソースLLMを蒸留して開発されたという情報もあるので、いきなりNVIDIA社の株価が急落するのは少し過剰反応のように思われます。

この投稿を書いている間にも、「DeepSeek-R1はOpenAI社のモデル情報を不正利用した疑いがある」との日経ニュースが入ってきました。今後も冷静に見極めていくことが必要なようです。