BLOGブログ

機械翻訳の新時代:大規模言語モデルはライオン達の夢を見るか?[2]

目次

  1. ドキュメント単位の機械翻訳
  2. AIを活用した翻訳・校正支援
  3. 読解支援
  4. 校正支援

この記事は全3回にわたり連載します。

これまでの記事

2022年11月、OpenAIが発表したChatGPTは、私たちの生活に新たな可能性をもたらしました。ChatGPTは会話能力を持ち、自然な言葉で指示を出すと、適切な応答を返すことができます。例えば、情報の検索から質問の回答、さらには創造的な内容の生成まで、多くのタスクを効率的に行えます。ChatGPTの能力は、まるで人間が思考し、感じ、理解するかのように見えます。これは、AIが人間のように「思考」するという新たな可能性を示しています。現在、ChatGPTの活用方法がビジネスのあらゆる現場で試されています。今回の記事では、ChatGPTが翻訳業界にどのような影響をもたらすのかを一緒に考えてみましょう。

ドキュメント単位の機械翻訳

次に、ドキュメント(明細書)単位でアラインしたdocument.csvに対して翻訳を行います。ターミナルでスクリプトを実行すると、document.csvの1列目(原文)が各機械翻訳エンジンで翻訳されます。

python ./mt.py ./document.csv

BLEUスコアは以下の通りになりました。大規模言語モデルによる機械翻訳は、従来型のニューラル機械翻訳と同等の性能を示しました。

    大文字小文字を区別しない 大文字小文字を区別する
従来型のニューラル機械翻訳 DeepL 36.2 35.1
Google 41.4 39.0
GPT-3.5 Turbo 0613 37.4 35.2
0125 37.5 35.2
GPT-4 0613 41.3 39.3
GPT-4 Turbo 1106 39.8 38.2
0125 43.1 41.1

大文字小文字を区別しないBLEUスコアと大文字小文字を区別するBLEUスコアを比較すると、後者の方が1~2ポイント低く、依然として翻訳文のスタイルに問題があることが分かります。

従来型のニューラル機械翻訳について見ていくと、ドキュメント単位の機械翻訳は、文単位の機械翻訳よりも高いスコアを達成しました。これは、文単位の機械翻訳よりドキュメント単位の機械翻訳の方がコンテキストを参照できるメリットがあるであろうという直感を支持するものです。従来型のニューラル機械翻訳でもコンテキストを考慮することができ、それにより精度が上がることが示されました。

大規模言語モデルのスコアについて見ていくと、GPT-3.5 Turboに関して言えば0613から0125へのバージョンアップの影響はあまり見られませんでしたが、文単位の機械翻訳のスコアと比較すると、0613では下がり、0125では上がっています。これは、0613はコンテキストの情報をうまく利用する能力に問題がある可能性を示しています。一方、0125はそこが改善されたように見えます。同様の現象がGPT-4 Turboの1106と0125の間にも見られました。GPT-4のスコアは文単位からドキュメント単位に変えてもほとんど変化せず、このことからコンテキストの情報を利用する能力に問題がある可能性を示しています。

また、文単位の機械翻訳とは違い、ドキュメント単位の機械翻訳では用語の訳揺れが解消され、翻訳全体に一貫性が生まれ、全体としての統一感が強まりました

そこで、更にスコアを上げるためにプロンプトエンジニアリングを試みることにしました。プロンプトエンジニアとは、意図した通りの回答や文章生成を実現するために、大規模言語モデルに与えるプロンプトに対して効果的なプロンプト設計を行うことです。これにより、モデルが生成する応答の精度を上げることが可能となり、作業の効率化やコスト削減も実現できます。

プロンプトエンジニアリングでは、特許明細書の翻訳に求められる一般的なスタイルガイドを盛り込みました。具体的には、【発明の名称】はすべて大文字で記載すること、【課題】や【解決手段】の翻訳には定訳を使うこと、【課題】の翻訳はTo 不定詞で始めることを指示しました。そうして機械翻訳された結果のBLEUスコアは以下の通りです。

    大文字小文字を区別しない 大文字小文字を区別する
GPT-3.5 Turbo 0613 40.5 40.4
0125 35.8 35.1
GPT-4 0613 42.2 42.1
GPT-4 Turbo 1106 44.0 44.0
0125 45.4

45.4

まず、一目で分かるのは、大文字小文字を区別しないBLEUスコアと大文字小文字を区別するBLEUスコアの比較では、ほぼ差が無くなったことです。これは、プロンプトエンジニアリングによってスタイルガイドが遵守されるようになったことが原因です。

モデル毎に見ていくと、GPT-3.5 Turboの0613ではプロンプトエンジニアリングの効果があり、大文字小文字を区別しないBLEUスコアは3.1ポイント、大文字小文字を区別するBLEUスコアは5.2ポイント向上しましたが、0125では若干悪化しました。0125の訳文を見てみると、プロンプトエンジニアリングの指示は守られていましたが、翻訳の忠実度が落ちていることが分かりました。OpenAIがGPT-3.5 Turboの0125をリリースした際の発表[1]によると、「要求されたフォーマットでの応答精度の向上や、英語以外の言語の関数呼び出しでテキストエンコーディングの問題を引き起こしていたバグの修正」が行われたそうで、それにより翻訳性能が落ちてしまったようです。

GPT-4とGPT-4 Turboに関して言えば、プロンプトエンジニアリングはスコアを一貫して向上させました。GPT-4やGPT-4 Turboでプロンプトエンジニアリングしたスコアは、BLEUスコアの解釈のガイドラインによれば高品質な翻訳であると解釈できます。

これらの結果から、大規模言語モデルはバージョンアップやプロンプトエンジニアリングにより翻訳性能が向上する可能性が示されました。大規模言語モデルは、従来型のニューラル機械翻訳エンジンと比較しても競争力があり、翻訳のスタイルや一貫性も改善され、全体としての翻訳品質が向上していました。大規模言語モデルが持つ柔軟性と適応性は、将来的に翻訳業界でより重要な役割を果たすことを示唆しています。

AIを活用した翻訳・校正支援

大規模言語モデルは、大量のテキストデータから学び取った知識を活用することで、翻訳や校正の作業を助ける能力を持っています。有料版を契約すればより高精度のモデルを利用できますが、無料でも十分な性能を発揮するモデルも存在します。以下に、いくつかの主要なサービスを紹介します。

サービス名 備考
Copilot GPT-4
Gemini Gemini Pro
Poe GPT-4、Gemini Pro、Mistral-Medium、Claude 2など
ChatGPT GPT-3.5、GPT-4

これらのサービスに以下で紹介するプロンプトを入力することで、翻訳や校正の作業をより効率的におこない、品質を高めることができます。

読解支援

以下に紹介するプロンプトは、翻訳者が専門的な内容を理解するための支援ツールとして利用できます。大規模言語モデルは、広範な知識と多言語能力を活用して、原文に関する質問に答えることが可能です。これにより、専門的な内容や難解な文章についても、AIの力を借りて理解を深め、翻訳の精度を向上させることができます。

####命令####
あなたは大学教授です。
以下の原文について質問に回答しなさい。

####原文####
{{ここに原文を入れます}}

####質問####
{{ここに質問を入れます}}

このプロンプトを使ってモデルに質問をする例です。例文はこちら[2]を参考にさせていただきました。

####命令####
あなたは大学教授です。
以下の原文について質問に回答しなさい。

####原文####
In the early stages of drug development, the risk of drug-drug interaction (DDI) is typically 
evaluated using human liver microsomes (HLM). The non-specific binding of drugs to HLM can 
influence the accurate determination of enzyme parameters such as Km, Ki, KI. We have 
previously introduced an innovative in vitro model that consists of HLM attached to 
magnetizable beads (HLM-beads). These HLM-beads allow for a quick separation of HLM from the 
incubation media by applying a magnetic field. In this study, we characterized and assessed 
HLM-beads as a method to evaluate the non-specific binding of small molecules to HLM. The free 
fractions (fu,mic) of 13 compounds (selected based on their pKa values) were calculated using 
HLM-beads and compared with those determined by equilibrium dialysis. Three HLM concentrations 
(0.025, 0.50, and 1.0 mg/mL) were evaluated for each compound. Most fu,mic values obtained 
using HLM-beads were within a 0.5 to 2-fold range of the values determined using equilibrium 
dialysis. The largest fold differences between the two methods were observed for high binders 
itraconazole and BIRT2584 (1.9- to 2.9-fold), as the significant adsorption of these compounds 
to the equilibrium dialysis apparatus interfered with their fu,mic determination. A correlation 
and linear regression analysis of the fu,mic values generated using HLM beads and equilibrium 
dialysis was conducted. Overall, a strong correlation of fu,mic values obtained by the two 
methods was observed as the r and R2 values from correlational analysis and linear regression 
analysis were >0.9 and >0.89, respectively. These studies demonstrate that HLM beads can yield 
fu,mic values that are on par with those obtained through equilibrium dialysis, all the while 
significantly cutting down the duration of such studies from a matter of hours to a mere ten 
minutes.

####質問####
"These studies"とはなんのことですか。

回答例はこちらです。

「These studies」とは、この研究論文で述べられている一連の実験と分析を指しています。具体的には、人間の肝臓ミクロソーム(HLM)を磁気ビーズに結合させたユニークなin vitroモデル(HLM-beads)を用いて、HLMへの薬物の非特異的な結合を評価する方法を特性評価し、評価した結果です。この研究では、13種類の化合物(それらのpKa値に基づいて選択)の未結合分画(fu,mic)をHLM-beadsを用いて計算し、それらを平衡透析法で決定したものと比較しています。また、それぞれの化合物について、3つのHLM濃度(0.025、0.50、1.0 mg/mL)が調査されました。最終的に、HLMビーズと平衡透析法を用いて生成されたfu,mic値の相関と線形回帰分析が行われました。これらの研究は、HLMビーズが平衡透析法で決定されたfu,mic値と比較可能な値を生成でき、このタイプの研究に必要な時間を数時間からわずか10分に短縮できることを示しています。これらの一連の研究活動が「These studies」を指しています。

校正支援

以下に紹介するプロンプトは、校正作業を支援するためのものです。大規模言語モデルは、原文と訳文をフレーズ単位に意味レベルで比較することで訳文のミスを発見します。これにより、校正者は訳文の精度を確保しつつ、作業の効率を向上させることができます。

####命令####
あなたはプロの校正者です。
原文中の数量表現を取り出して表にしなさい。訳文中の対応する表現も取り出しなさい。
もし表現にミスがあれば修正案も載せなさい。ミスが無ければ-と出力しなさい。

####原文####
{{ここに原文を入れます}}

####訳文####
{{ここに訳文を入れます}}

例です。

####命令####
あなたはプロの校正者です。
原文中の数量表現を取り出して表にしなさい。訳文中の対応する表現も取り出しなさい。
もし表現にミスがあれば修正案も載せなさい。ミスが無ければ-と出力しなさい。

####原文####
A total of 24 Governments had agreements with UNDP for the provision of JPOs in 2010. As of 31 
December 2010, UNDP administered 364 JPOs and 39 Special Assistants to the Resident Coordinator 
(SARCs). This compared to 350 JPOs and 29 SARCs as of 31 December 2009. Of the 403 JPOs/SARCs, 
224 worked with UNDP and affiliated funds, while UNDP administered 179 JPOs on behalf of other 
United Nations agencies and partners. Twenty-four per cent (57 JPOs/SARCs) of UNDP and affiliated 
JPOs/SARCs served in New York and at other headquarters locations.

####訳文####
010年における、国連開発計画(UNDP)と若手職員研修プログラム(JPO)の提供に関する協定は、計24の加盟国
により締結された。2010年12月31日時点で、UNDPは364名のJPOおよび49名の国連常駐代表の特別補佐官(SARC)
を統括している。これは、2009年12月31日時点での350名のJPOおよび19名のSARCと比較して増加している。総数
402名のJPO/SARCのうち、224名がUNDP及びその関連基金で業務を行い、残る189名のJPOは他の国連機関及びパー
トナー機関に代わってUNDPが管理していた。UNDP及び関連するJPO/SARCの24パーセントにあたる57名が、ニュー
ヨークを含む本部の諸施設で勤務している。

出力結果は結果です。

以下に原文と訳文の数量表現をまとめた表を作成しました。また、訳文中の表現にミスがある場合は修正案も記載しています。

原文の数量表現 訳文の数量表現 修正案
24 Governments 計24の加盟国 -
2010 010年 2010年
31 December 2010 2010年12月31日時点 -
364 JPOs 364名のJPO -
39 Special Assistants to the Resident Coordinator (SARCs) 49名の国連常駐代表の特別補佐官(SARC) 39名の国連常駐代表の特別補佐官(SARC)
350 JPOs 350名のJPO -
29 SARCs 19名のSARC 29名のSARC
403 JPOs/SARCs 総数402名のJPO/SARC 総数403名のJPO/SARC
224 worked with UNDP and affiliated funds 224名がUNDP及びその関連基金で業務を行い -
UNDP administered 179 JPOs 残る189名のJPO 残る179名のJPO
Twenty-four per cent (57 JPOs/SARCs) 24パーセントにあたる57名 -

次回へ続く

機械翻訳の新時代:大規模言語モデルはライオン達の夢を見るか?[3]

出典

この記事を書いた人

この記事を書いた人

亀谷 展

株式会社サン・フレアのリサーチサイエンティスト。
深層学習による自然言語処理やビッグデータ処理を担当。

お問い合わせはこちら

サン・フレアはお客様にご満足いただける翻訳サービスを提供するため、これからも最新のテクノロジーを追い求めます。

お問い合わせフォームへ
一覧に戻る
DOWNLOAD FAQ