情報工学系 News

オープンソースLLMの日本語能力を高めた「Llama 3.1 Swallow」を公開

英語力を維持しながら日本語の理解・生成・対話能力を強化した大規模言語モデル

RSS
Tweet

2024.10.16

産総研 AI橋渡しクラウドABCI

東京科学大学（Science Tokyo）^※ 情報理工学院情報工学系の岡崎直観教授と横田理央教授らの研究チームと国立研究開発法人産業技術総合研究所（産総研）は、日本語能力に優れた大規模言語モデル^[用語1]「Swallow」シリーズの最新版である「Llama 3.1 Swallow」を公開しました（公開リンク参照）。今回、80億パラメータ^[用語2]（8B）、700億パラメータ（70B）の規模に対し、それぞれベース（base）モデル^[用語3]と指示チューニング（instruct）済みモデル^[用語4]、合計4種類のモデルを公開しました。本モデルはLlama 3.1ライセンスで公開されているため、商用利用だけでなく、他のモデルの改良などにも利用できます（ただし、指示チューニング済みモデルはLlama 3.1ライセンスに従うことに加え、Gemma利用規約の利用制限に抵触しないことが求められます）。

Science Tokyoと産総研の研究チームは、英語の言語理解・生成や対話で高い能力を持つ大規模言語モデル（米Meta社 Llama 3.1）の能力をほぼ落とさずに、日本語の言語理解・生成や対話能力を高めることに成功しました。特に、80億パラメータのモデルは、同規模の既存の大規模言語モデルよりも高い日本語理解・生成能力を有することが確認されました。日本語と英語の両方において高い性能を達成するため、研究チームは学習に用いる日本語ウェブコーパスの大規模化・高品質化や、指示チューニングデータの自動生成などに取り組みました。

公開リンク：Llama 3.1 Swallow｜Swallow LLM