IT 翻訳者が注意すべきテクノロジー

このエントリを書くキッカケは、「あれ? IT 翻訳者が家内製糸工業的なやり方でメシを食える時代ももうすぐ終わるんじゃない」と漠然と思ったことでした。もし下の妄想が現実になった場合、こういった事項を理解しなければならない人はドキュメントのオーサー、翻訳者や翻訳会社の経営者はもちろん、技術系企業に務める会社員など広範囲に及ぶことでしょう。それまでに自分がどのような道を歩めるのか、いやこれ結構すぐ、本気で取り組まないと仕事なくなりかねないです。マジで。

では、いきます。

これまでの機械翻訳は、コンピュータがセンテンスの構造を解析して辞書ベースで解釈するものでした。英日の場合、これだと人間の翻訳者のようなクオリティにはまず到達できません。でも超巨大な翻訳メモリを使って「人間が翻訳した内容」を流用できるシステムができたらそれは覆されるでしょう。
そのためには「原文オーサーの教育」、「コンテキスト(文脈)情報の保持」が絶対に必要になります。

原文オーサーの教育

近年、ITドキュメント (私は英日しかやらないので英語の状況しか知りません) の作成時には、次の点について注意を払うよう促されたり、そのように記述するための支援ツールが登場しつつあります。

あいまいな表現をなくす
文体に統一感を持たせる
大文字小文字、冠詞の有無を統一する

支援ツールは作成後/中に実行する QA チェック機能や単語の自動補完機能などを備えていることが多いです。
これらは英語コンテンツ読者向けの「読みやすさ」向上の他、翻訳支援テクノロジを最大限活用することも目的としています。どれだけ真剣に取り組んでいるかは企業によって大きな差がありますが。では「これで何が向上するのだ?」という質問について、少し説明してみます。

まずは翻訳メモリについて:
翻訳メモリ

出典: フリー百科事典『ウィキペディア（Wikipedia）』
翻訳メモリ（ほんやくメモリ英：translation memory）とは、原文と翻訳文を一対としてデータベース化し、その内容を自動的に繰り返し利用することで翻訳を支援するソフトウェアである。

つまり、原文が旧版と完全に一致すれば、旧版の訳文をそのまま流用できる。逆に言えば「オーサーが意味のない変更を加えた箇所は新たに作業が必要になる」。もちろんほとんど一緒であれば「あいまい一致/Fuzzy Match」として扱われるため、まったくの新規として翻訳されるわけではないけど、そのような「無駄な不一致」が多数あると、大型プロジェクトではかなり大きなインパクトを持つことになります。

では次にコンテキスト情報について。

コンテキスト(文脈)情報の保持

こちらは簡単な例を見てもらうのが一番分かりやすいと思う。

ソフトウェアの操作説明の例:

原文: Click Edit to open edit window.
訳文: [編集] をクリックすると編集ウィンドウが開きます。

この訳文は「ユーザーに操作を求める」文脈でなく、「ソフトウェアの挙動について説明」した文脈では問題になりません。
しかし、例えば「編集画面で文字を入力する方法」(= ユーザーに操作を求める文脈)トピックであれば、文体が

原文: Click Edit to open edit window.
訳文: [編集] をクリックして編集ウィンドウを開きます。

のように、微妙な違いではあるが同じ原文に対して別の訳文が存在することになります。こういった場合に翻訳支援ツールは、(今はまだ不完全なものばかりですが) コンテキスト情報に基づいてどちらの訳文を使用するか判断します。これは原文の XML 内で割り当てられた要素名や ID であったり、ファイル名であったり、書式情報 (箇条書きか表内のアイテムかなど) であったりします。

これがなければ、「訳し分け」を自動化することはできません。
上の 2 つの要素は、一文で言えば「コンテンツの再利用性とその精度を高めようとする取り組み」と言えるでしょう。

では、こういった文脈情報が原文コンテンツの製作段階で追加されていくようになると何が起きるのでしょう?

何が起きる? (LYE の妄想)

情報の XML 化はどんどん進んできている
DITA (http://ja.wikipedia.org/wiki/DITA) の翻訳用途での用途とそれをとりまく環境は「再利用性の飛躍的向上」を起こす方向に進んでいる (と思う)
Google 翻訳は過去には実現できなかったクラウドコンピューティング的なアプローチを使って「巨大な翻訳メモリ」と「文脈を把握 (しようと試みる、が現状か)」を構築しつつある*1

*1 Google 翻訳よくある質問

概要
「自動翻訳」とは
人手を介さず、最新技術によって自動生成される翻訳です。自動翻訳は「機械翻訳」とも呼ばれます。
Google で独自の翻訳ソフトを開発したのですか
はい。Google のリサーチグループが開発した独自の統計的翻訳システムを Google 翻訳に使用しています。
統計的機械翻訳とは
現在市場に出回っている自動翻訳システムのほとんどはルールベースで開発されており、語彙や文法の定義など多くの作業を必要とします。
一方で、Google の翻訳システムの手法では、ターゲットとなる言語で記述された単一言語のテキストと、人間が翻訳した他言語のサンプル翻訳テキストを対にしたものを大量にコンピュータに入力します。そしてこれらのテキストに統計的学習手法を適用して、翻訳モデルを構築しています。Google のリサーチ評価では、この手法が優れた結果をもたらすことが判明しています。
翻訳の品質を改善してほしい
Google では常に品質の改善に努めていますが、最先端のソフトウェアであっても、残念ながらネイティブスピーカーやプロの翻訳者のような言語レベルには届きません。単語の意味は使用される文脈によって変わるため、自動翻訳は困難を極めます。翻訳精度の向上に努めてはいますが、プロの翻訳者と同じような高い品質を提供できるようになるまでには時間がかかることが予想されます。それまでの間、本サービスをご活用いただければ幸いです。
品質向上のためには、2 か国語で記述された大量のテキストが必要です。ご提供いただける大量の 2 か国語または複数言語のテキストがありましたら、Google までご連絡ください。

どこかでブレイクスルーが起きれば、"くくり" が企業単位になるか "社会" になるかは分かれるにしても、膨大な量の過去の翻訳リソースを、実用に耐えるレベルの精度で機械的に再利用する仕組みが整うことになるだろう、と LYE は妄想しています。それはしばらく先のことになると思いますが、技術がこのままのスピードで進歩していけば、僕がベテランの域に入る前には実用されているでしょう。

おしまい