自動翻訳はあんまり進歩していないようだ

“Not everything that can be counted counts, and not everything that counts can be counted.”
—— Albert Einstein

正しい訳をえらべ:

1)数えられうるあらゆるものが数えない。そして数えるあらゆるものが数えられ得ない。
2)無い全てが出来るのは数えられることが数える。そして無い全てが数えることが数えられることが出来る。
3)伯爵に数えられたあの缶のすべてはない。そしてあの伯爵は缶が数えられるという全てはない。
4)数えられることができるものがすべて数えるわけではない。そして数えるものすべてが数えられることができるわけではない。
5)数えられることができるすべては数えません、そして、数えるすべては数えられることができません。(2010/12/10追記:yahoo 翻訳による)
6)数えられるすべてではなく、数えられたカウントであるかもしれないすべては数えることができるというわけではありません。(2010/12/10追記:エキサイト翻訳による)
7)数を数えることができるものすべてではなく、カウントがカウントされることがすべて。(2010/12/10追記:google 翻訳による)

自動翻訳エンジンに正解の選択肢を作ってもらったがひどいですね。及第点はどれにもあげれられまい。
正解(というか模範解答)は:
「数えられるものの全てが重要であるとは限らないし,重要なものの全てが数えられるとは限らない」

翻訳ソフトはまだ全然実用域に入っていませんね。

(2010/12/10 記す:インプレスのインターネットマガジンに私が寄稿していたのは全世紀末から今世紀初頭にかけてのこと。もう十年前だ。このエントリの初出はそのころのものだが、事情はあまり変わっていない。自動翻訳って、この10年間なにやっていたのかな)

文句を言っていても仕方がないので幾つかの具体レベルでの提案をする。

1)everything の直後の that は十中八九関係代名詞だということをアルゴリズムに組み込んでおく。

everything, something, anything, nothing の後ろでは wh-系の関係代名詞がほとんど使われないことは,受験生なら一度は聞いたことのある話。逆に言えば everything that のコロケーションは「考えるまでもなく」先行詞と関係代名詞の組み合わせとみてよい。シンプルにプログラムしたければ,ほかの可能性なんか考えない方がましという考え方もある。

2)「伯爵」とか「缶」とか変なところで多義語に敏感すぎる。count なんていう単語が受動で出てくれば「数えられる」に決まっている。一方で counts なんて言う言葉が「文末・節末」にあるようなら,三人称主語に応える,つまり三単現の動詞で,「〜が大事である・重要である・関心事である」の意味であるに決まっている(これが名詞の複数形だったとすれば、前に数字 (two, three counts) や相当の限定辞があるに決まっている)。名詞でなく、うしろにピリオドなりカンマなりがあることをもって絶対自動詞「大事である」の意味であることの根拠として良い。

抽象レベル,実務レベルでの提案でいくと:

単語の意味の辞書をいくら充実させても,実用上は無意味ではないか。「隣に何があるか」を条件として語義・機能を統計的に選択するアルゴリズムに徹底して注力するべき。訳語の選択のためには,おそらく、所謂「隣あう二語の相関」を全語彙にわたって取るだけでも「実用性のあるコロケーション・データベース」になるだろう。さらには訳語の選択に頭を使うよりは,共起頻度と文意の相関のデータを取った方が有効性が高いはずだ。that がなんの役割をしているかなんて,考え出したらきりがない。その一方で,「that が指示形容詞「あの」だとしたら右に並ぶのは単数名詞に決まっている」なんていう相関性すら見えていないアルゴリズムはもう捨てたほうがよい――that counts を「あの伯爵」って何なんだ。一人なのか複数なのか?

さらに抽象的な話になるが:

文意は「語意の総和」ではない。むしろ文意の「分析」によって語意が事後的に確認されるに過ぎない。
その意味で語意に出発する言語分析は倒錯している。
だが出発点とすべき「文意」とは何か、それを人はまだ明確には知らない。いわんやAIにおいてをや。

(2010/12/10 記す:十年前書いたことが、まだ通用しそうだ。どうなっているのか)

広告
Published in: on 2010/12/10 at 04:27  自動翻訳はあんまり進歩していないようだ はコメントを受け付けていません。