情報工学系 News
英語力を維持しながら日本語の理解・生成・対話能力を強化した大規模言語モデル
東京科学大学(Science Tokyo)※ 情報理工学院 情報工学系の岡崎直観教授と横田理央教授らの研究チームと国立研究開発法人 産業技術総合研究所(産総研)は、日本語能力に優れた大規模言語モデル[用語1]「Swallow」シリーズの最新版である「Llama 3.1 Swallow」を公開しました(公開リンク参照)。今回、80億パラメータ[用語2](8B)、700億パラメータ(70B)の規模に対し、それぞれベース(base)モデル[用語3]と指示チューニング(instruct)済みモデル[用語4]、合計4種類のモデルを公開しました。本モデルはLlama 3.1ライセンスで公開されているため、商用利用だけでなく、他のモデルの改良などにも利用できます(ただし、指示チューニング済みモデルはLlama 3.1ライセンスに従うことに加え、Gemma利用規約の利用制限に抵触しないことが求められます)。
Science Tokyoと産総研の研究チームは、英語の言語理解・生成や対話で高い能力を持つ大規模言語モデル(米Meta社 Llama 3.1)の能力をほぼ落とさずに、日本語の言語理解・生成や対話能力を高めることに成功しました。特に、80億パラメータのモデルは、同規模の既存の大規模言語モデルよりも高い日本語理解・生成能力を有することが確認されました。日本語と英語の両方において高い性能を達成するため、研究チームは学習に用いる日本語ウェブコーパスの大規模化・高品質化や、指示チューニングデータの自動生成などに取り組みました。
公開リンク:Llama 3.1 Swallow|Swallow LLM
※2024年10月1日に東京医科歯科大学と東京工業大学が統合し、東京科学大学(Science Tokyo)となりました。
用語説明
[用語1] 大規模言語モデル:テキストの現れやすさを定量化する言語モデルを大規模に学習したもので、与えられた文脈(問いかけ)に対して続くテキスト(応答)を予測できる。
[用語2] パラメータ:大規模言語モデルなどのニューラルネットワークの挙動を決定する数値の個数であり、ニューラルネットワークの規模を表す指標の一つ。
[用語3] ベースモデル:事前学習および継続事前学習のみで構築された言語モデル。言語や世界に関する常識的な知識を獲得しているが、与えられた指示に従う能力をあまり身に付けていないモデルである。
[用語4] 指示チューニング済みモデル:ベースモデルに対して指示と応答を連結した学習データでファインチューニングを行い、与えられた指示に従う能力を養ったモデル。
詳しくは、下記 Science Tokyo ニュースをご覧ください。