機械翻訳の新時代：大規模言語モデルはライオン達の夢を見るか？[1]

大規模言語モデル
検証コーパスの作成
文単位の機械翻訳

この記事は全3回にわたり連載します。

2022年11月、OpenAIが発表したChatGPTは、私たちの生活に新たな可能性をもたらしました。ChatGPTは会話能力を持ち、自然な言葉で指示を出すと、適切な応答を返すことができます。例えば、情報の検索から質問の回答、さらには創造的な内容の生成まで、多くのタスクを効率的に行えます。ChatGPTの能力は、まるで人間が思考し、感じ、理解するかのように見えます。これは、AIが人間のように「思考」するという新たな可能性を示しています。現在、ChatGPTの活用方法がビジネスのあらゆる現場で試されています。今回の記事では、ChatGPTが翻訳業界にどのような影響をもたらすのかを一緒に考えてみましょう。

タイトルイメージ画像

大規模言語モデル

昨年、大規模言語モデルがメディアの注目を集めました。しかし、その本質とは何でしょうか。大規模言語モデルは、人間が書いた大量のテキストデータから学習し、人間のように文章を生成したり、理解したりするAIの一種です。具体的には、何百億以上の単語から成るインターネット上のウェブページや書籍などのテキストデータを学習します。この学習により、モデルは単語やフレーズがどのように連なるか、また、ある単語が与えられたときに次に来る可能性のある単語は何か、といったことを学びます。

大規模言語モデルの特徴はその「大規模」さにあります。従来の言語モデルと比較して、「パラメータ量」「訓練データ量」「計算量」が大きく違います。その結果、非常に広範で詳細な知識を持つことができます。また、その学習能力は一般的な話題だけでなく、医学や法律といった専門的な話題にも及びます。

現在注目されている大規模言語モデルを以下にまとめました。表内のChatbot Arenaとは大規模言語モデルの相対的な評価値（値が大きいほど性能が高い）、Nejumiリーダーボードとは日本語能力の評価値（値が大きいほど性能が高い）です。米国の模擬司法試験を解かせると、GPT-3.5は下位10%の成績、GPT-4は上位10%の成績でした^[1]。日本の医師国家試験を解かせると、GPT-3.5の正解率は50.8%、GPT-4は79.9%でした^[2]。これらの結果から、パラメータ数や訓練トークン数が大きければ大きいほど、モデルの性能は高くなることがわかります。

モデル名	パラメータ数 (B)	訓練トークン数 (B)	Chatbot Arena^[3]	Nejumiリーダーボード^[4]
GPT-4 Turbo (0125)	?	?	1,253	0.7722
Bard (Geimini Pro)	600 ^[5]	3,000 ^[6]	1,224	0.6402
GPT-4 (0613)	1,760 ^[7] (8 x 220 ^[8])	13,000 ^[6:1]	1,162	0.7622
Mistral-medium	180 ^[6:2]	3,500 ^[6:3]	1,150	0.6345
GPT-3.5 (0613)	175 ^[7:1]	300 ^[6:4]	1,118	0.6701
Mixtral-8x7B	46.7 ^[7:2]	8,000 ^[6:5]	1,118	0.5006
LLaMA2	70 ^[7:3]	2,000 ^[6:6]	1,082	0.3004
LLaMA2	13 ^[7:4]	2,000 ^[6:7]	1,042	0.2365

「今日の天気は？」と大規模言語モデルに尋ねると、「晴れ」と答えることができます。しかし、これはモデルが窓の外を見て天気を確認したわけではなく、過去のデータから「今日の天気は？」という質問に対する一般的な回答を学習して答えているだけです。それでも、このモデルを利用すれば、新しい文章を生成したり、質問に答えたり、文章を要約したり、様々な言語を翻訳したりすることが可能です。

それでは、大規模言語モデルの翻訳能力は、従来型のニューラル機械翻訳サービスであるDeepLやGoogle翻訳と比較して、どの程度の性能を発揮するのでしょうか。従来のサービスは、特定の言語ペアに対する翻訳能力を高めるために訓練されています。一方、大規模言語モデルは、多くの異なるタスクをこなす能力を持っています。そのため、翻訳の精度は、特定の言語ペアや文脈によります。しかし、その汎用性と適応力は、新しい応用分野を開拓する可能性を秘めています。

検証コーパスの作成

大規模言語モデルの翻訳性能を評価するためには、まず、適切なコーパスが必要です。このコーパスは、ニューラル機械翻訳サービスや大規模言語モデルの学習に使われていないテキストで構成されている必要があります。そうでなければ、翻訳能力を正確に評価することができません。DeepLやGoogle翻訳は、インターネットで公開されているウェブサイトなどからテキストを収集し、自動的に生成した対訳コーパスで学習しています。そのため、インターネットで容易に取得できないテキストが適しています。

そこで、独立行政法人工業所有権情報・研修館（INPIT）が提供する特許情報プラットフォーム（J-PlatPat）^[9]を活用しました。J-PlatPatは、明治以来、特許庁が発行してきた特許・実用新案、意匠、商標に関する公報や外国公報に加え、それぞれの出願の審査状況が簡単に確認できる経過情報などの産業財産権情報を簡単に検索して入手することができます。明細書のテキストは検索を実行しないと表示されないものであるため、DeepLやGoogle翻訳の訓練コーパスには含まれないと仮定しました。

まず、J-PlatPatで特許明細書をランダムに選び出し、できるだけ幅広い分野をカバーするように8件選びました。これらは、日常生活の利便性を向上させるための製品から先端技術に至るまで、多岐にわたるテーマを扱っています。具体的には、身の回りの製品、建築とその施工方法、環境技術、先端科学技術、そしてエネルギー技術などが含まれています。

次に、選び出した特許明細書に対応する英語の抄録をJ-PlatPatの「Patent Abstracts of Japan（PAJ）」で取得しました。PAJは日本の公開特許公報の英文抄録で、書誌事項、要約部、代表図面を掲載しています。

そして、特許明細書の要約と英語の抄録をExcelの2つのワークシートに貼り付け、1つ目のワークシートは文単位で対訳化し、もう1つのワークシートは明細書単位で対訳化しました。

対訳化が済んだらそれぞれのワークシートの1行目にヘッダーを記述し、前者をsentence.csv、後者をdocument.csvとしてCSV UTF-8 (カンマ区切り) 形式で保存しました。

これで、AIの翻訳能力を評価するためのコーパスの準備が整いました。

ちなみに、サン・フレアでは、機械翻訳エンジンをトレーニングするための教師データやコーパスの作成を承っております。また、将来の翻訳費用を削減し、表現の統一性を保つために必要な翻訳メモリ^[10]を大量の原文ファイルと訳文ファイルから作成することも可能です。これにより、御社が持つ言語データを有用な言語資産として活用することができます。社内に眠った言語データを有用な言語資産として活用したい場合は、ぜひサン・フレアにご相談ください。

文単位の機械翻訳

それでは、先ほど作成したコーパスを用いて、各機械翻訳エンジンの性能を評価してみましょう。今回は、OpenAIの大規模言語モデルであるGPT-3.5 Turbo、GPT-4、GPT-4 Turboの性能を計測します。また、比較対象として、従来のニューラル機械翻訳エンジンであるDeepLとGoogle翻訳の性能も評価します。

付録として添付したmt.pyは、指定されたcsvファイルを読み取り、DeepL、Google翻訳、およびOpenAIのLLMで翻訳を行い、それぞれの結果をファイルに出力するPythonスクリプトです。このスクリプトは、csvファイルの1行目をヘッダーとしてスキップし、2行目以降の1列目を原文として読み取ります。

まず、先ほど作成したコーパスのうち、文単位でアラインしたsentence.csvに対して翻訳を行います。ターミナルでスクリプトを実行すると、sentence.csvの1列目（原文）が各機械翻訳エンジンで翻訳され、その結果が出力されます。

python ./mt.py ./sentence.csv

次に、各機械翻訳エンジンの性能を評価するために、BLEU（Bilingual Evaluation Understudy）スコア^[11]を算出してみましょう。BLEUスコアは、機械翻訳の評価方法の一つで、生成された翻訳文と人間が作成した参照翻訳文との類似度を測定します。BLEUスコアは、0％から100％の間でスコアが算出され、スコアが高くなるほど品質が高いと判断されます。

Google AutoMLのページにはBLEUスコアの解釈のガイドライン^[12]が公開されています。そのガイドラインによると、BLEUスコアの範囲とそれに対応する翻訳の品質は以下の通りです：

BLEUスコア	解釈
30～40	理解できる、適度な品質の翻訳
40～50	高品質な翻訳
50～60	非常に高品質で、適切かつ流暢な翻訳
> 60	人が翻訳した場合よりも高品質であることが多い

BLEUスコアの計算にはSacreBLEU^[13]を使いました。SacreBLEUは、BLEUスコアを算出したときの条件をシグネチャとして文字列化できるため、研究者はシグネチャを元に同じ条件でBLEUスコアを算出できます。

		大文字小文字を区別しない	大文字小文字を区別する
従来型のニューラル機械翻訳	DeepL	34.8	33.5
従来型のニューラル機械翻訳	Google	41.0	38.4
GPT-3.5 Turbo	0613	38.8	36.3
GPT-3.5 Turbo	0125	35.9	33.5
GPT-4	0613	41.4	39.2
GPT-4 Turbo	1106	41.5	39.2
GPT-4 Turbo	0125	42.0	39.8

従来型のニューラル機械翻訳であるDeepLとGoogleのBLEUスコアはそれぞれ34.8と41.0で、これらは理解できる適度な品質以上の翻訳であることが分かります。

大規模言語モデルの結果を見てみると、これらも35.9～42.0の範囲にあり、従来型のニューラル機械翻訳と同等の精度が得られていることが分かります。特に、GPT-3.5 Turboでは、0613は38.8でしたが、0125は35.9でした。OpenAIの大規模言語モデルは定期的にアップデートされており、0613や0125とはそのバージョン表記です。0613は2023年、0125は2024年に公開されているので、GPT-3.5 Turboに関して言えば、バージョンアップされたことで翻訳性能は少し下がってしまったことになります。一方、GPT-4 Turboに関して言えば、バージョンアップにより微増しました。

この表における1列目の大文字小文字を区別しないBLEUスコアは、純粋に翻訳能力だけを測定していることを意味します。2列目の大文字小文字を区別するBLEUスコアは、大文字小文字のスタイルも含めて評価していることを意味します。両者のスコアを比較すると、いずれのモデルもスコアは2ポイント前後低下しており、翻訳文のスタイルに問題があることが分かります。

これらの結果から、大規模言語モデルは機械翻訳エンジンとしても優秀であることが分かります。特に、バージョンアップにより翻訳性能が向上する可能性があることを示しています。