中国発の言語モデル「DeepSeek-R1」とは

ここ数日、中国のAIスタートアップDeepSeekの大規模言語モデル（LLM）である「DeepSeek-R1」が大変話題になっています。この影響で、GPU（並列処理演算用プロセッサでAIの大規模計算には必須）で劇的な躍進を続けていたNVIDIA社の株価が17%下落するという事態がおきました。

DeepSeekショック、アメリカのAI株価が急落　NVIDIA17%下落 - 日本経済新聞

【ニューヨーク=竹内弘文】中国の人工知能（AI）企業であるDeepSeek（ディープシーク）が低コスト生成AIモデルを開発したことを受け、米金融市場が揺れている。AI半導体大手エヌビディアの株価は27日に17%安となった。1日の下落率として...

「DeepSeek-R1」は、OpenAIのChatGPTに匹敵する性能を持ちながら、はるかに低コストで開発されたとあります。その技術的ポイントは以下2点のようです。

1. Mixture of Experts（MoE）アーキテクチャの採用
DeepSeek社は、モデルの効率性を高めるために「Mixture of Experts（MoE）」と呼ばれる手法を採用しています。このアーキテクチャでは、タスクごとに必要な専門家（エキスパート）モデルのみを活性化させることで、計算資源の使用を最適化します。これにより、全てのパラメータを同時に使用する従来のモデルと比較して、計算コストとエネルギー消費を大幅に削減できるとのこと。

DeepSeek-V3 Technical Report

We present DeepSeek-V3, a strong Mixture-of-Experts (MoE) language model with 671B total parameters with 37B activated f...

2. 強化学習（RL）の直接適用
DeepSeek-R1モデルは、ベースモデルに対して直接強化学習（RL）を適用するアプローチを採用しており、従来モデルのような教師あり学習による微調整（SFT：Supervised Fine-Tuning）に依存せず、AIが自律的に試行錯誤を行い、推論能力を向上させることが可能とのこと。

https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

とはいえ、ベースモデルはメガプラットフォーム製のオープンソースLLMを蒸留して開発されたという情報もあるので、いきなりNVIDIA社の株価が急落するのは少し過剰反応のように思われます。

この投稿を書いている間にも、「DeepSeek-R1はOpenAI社のモデル情報を不正利用した疑いがある」との日経ニュースが入ってきました。今後も冷静に見極めていくことが必要なようです。