情報工学系 News
英語が得意な大規模言語モデルに日本語を教える
東京工業大学(以下、東工大) 情報理工学院 情報工学系の岡崎直観教授と横田理央教授らの研究チームと国立研究開発法人 産業技術総合研究所(以下、産総研)は、日本語能力に優れた生成AIの基盤である大規模言語モデル[用語1]「Swallow」を公開した[参考リンク1]。本モデルは現在公開されている日本語に対応した大規模言語モデルとしては最大規模であり、オープンで商用利用が可能であるため、ビジネスに安心して用いることができる。
東工大と産総研の研究チームは、英語の言語理解や対話で高い能力を持つ大規模言語モデル(米Meta社 Llama 2)の日本語能力を拡張することで「Swallow」を構築した。拡張前の大規模言語モデルの高い言語処理能力を維持しながら日本語能力を強化するため、研究チームは言語モデルに日本語の文字や単語などの語彙[用語2]を追加したうえで、新たに開発した日本語データを用いてモデルの構築を継続的に行う継続事前学習[用語3]を行った。今回、パラメータ数が70億パラメータ[用語4](7B)、130億パラメータ(13B)、700億パラメータ(70B)であるモデルを公開した。
用語説明
[用語1] 大規模言語モデル : テキストの現れやすさをモデル化したもので、与えられた文脈(問いかけ)に対して続くテキスト(応答)を予測できる。
[用語2] 語彙 : 言語モデルが扱えるトークンの集合のこと。
[用語3] 継続事前学習 : すでに学習されている大規模言語モデルに対し、追加で事前学習を行う手法。異なる言語やドメインで言語モデルを活用するときに用いられる。
[用語4] パラメータ : 大規模言語モデルなどのニューラルネットワークの挙動を決定する数値の個数であり、ニューラルネットワークの規模を表す指標の一つ。
参考リンク
[1] Swallow 公開リンク:https://tokyotech-llm.github.io/
詳しくは、下記東工大ニュースをご覧ください。