ChatGPTの出現により急進している生成AI、そのベースになっているのは Transformer というAIモデルです。このモデルは、AI界では超有名な論文 “Attention is all you need.”で発表されたもので、その論文著者の一人が参画しているのが、日本初のAIスタートアップである SakanaAI 社です。
その SakanaAI社 が東京科学大学と共同で発表した最新研究論文では、大規模言語モデル(LLM:Large Languate Model)の新しいフレームワーク「Transformer²(トランスフォーマー・スクエア)」が発表されました。
$\text{Transformer}^2$: Self-adaptive LLMs
Self-adaptive large language models (LLMs) aim to solve the challenges posed by traditional fine-tuning methods, which a...
このモデルは、推論時にリアルタイムでモデル自身の重みを最適化し、入力されたプロンプト(生成AIへの指示)に応じて最適な応答を生成するようです。
「Transformer²」の動作は主に以下の2段階で構成されています:
- プロンプトの分析:ユーザーからの入力を試験的に実行し、AIモデルの挙動を観察することで、実行に必要なスキルやタスクの種類を理解。
- モデルの重み調整:特異値分解を用いてモデルの重み行列を分解し、各タスクに対応する要素をベクトルとして表現し、プロンプトに応じて適切なベクトルを組み合わせたり調整することで、モデルの重みを動的に最適化し、最適な応答を生成。
このアプローチにより、Transformer²は特定のタスクに特化した再学習を必要とせず、さまざまなリクエストに対してリアルタイムに最適化された応答を提供することが可能となるようです。また、AIの新たな可能性を開くのか、期待大です。