mixiユーザー(id:604810)

2014年12月04日11:02

11151 view

たぶん「統計翻訳」のせい。(追記:たぶん解決)

Google翻訳で「さよなら大好きな人」を英訳すると……? 謎のエピソードシリーズが話題に
http://news.mixi.jp/view_news.pl?media_id=128&from=diary&id=3169665

*追記:たぶん解決しました。下のほうを見てください。

 せっかくなので、日記にも書いておこう。これ、昨日色々調べて、VBAで調べるプログラムを作ったりしたら、色々見つかった。「心の闇」→"Episode 82"とかw。
 「英語→日本語」はプログラムは楽なんだけど、逆は難しいので、「心の闇」みたいなのはまだたくさんあるかもしれない。

 これは、「好きな人と別れた後、心に闇を抱えて生きていくという壮大な話の一部」とかじゃなくて、翻訳方法の問題だと思う。
 昔は文を単語と文法から解析していたけど、それでは不自然だし、人間的な「常識」みたいなものが翻訳できない。そこで、最近は所謂ビッグデータを元に当てはまりそうなものを探してくる方法(統計翻訳)を併用していて、これが結構有効だ。

 しかし、ビッグデータには問題が二つある。
 一つ目はどうしてそういう結果になるのか説明できないこと。要するに壮大な多数決みたいなもので理論がないから(ただ、非論理的な自然言語の翻訳には有効な場合も多い)。
 二つ目は、あまりデータがないものは、偏った変なものを引っ張ってきてしまう場合があること。

 翻訳の場合、完成された文(ちゃんとピリオドで終わっている文)なら、ビッグデータで同じものや良く似たものが得られるし、文法解析も出来る。しかし、あまり使われないフレーズでは、データが少なく、偏ったものしか得られないし、文として不完全な(ピリオド等で終わってない)フレーズでは、文法的な解析も期待できない。
 結果、変な偏ったものが引っ張られてくる。今回の場合、中二病的小説が引っかかったのかもしれないw

 実際、過去にはラテン語が政治・軍事的に変に怪しい言葉に翻訳されるということがあり、某国が暗号として使っているのではないかといううわさもあったが、原因は上記のようなことだった。

 本来、翻訳の改良にはビッグデータではなく文法解析技術を進めるべきと思う。結局、ビッグデータは馬鹿でもたくさん集めればそれなりの結果が出てくる、というものでしかなく、理論的な進歩は何もないからだ。

 そうじゃないと、「ときめき」→"throbbing"、 「片思い」→"unrequited love"とそこそこちゃんと翻訳されるのに、「ときめき片思い」→"Crush crush"みたいな悲しい翻訳はなくならないだろう。

*追記:たぶん解決(12/4 12:20)

 というわけで、それならビッグデータの元となったネット上の物を探せばよい。で、たぶん見つかった。
 その証拠に、他の新しいものを翻訳してみよう。
トナカイさんの贈り物 → Episode 167
星の印 → Episode 58
砂漠の決断 → Episode 60
恋する勇気 → Episode 50
愛の泉 → Episode 57
飛べない蝶 → Episode 65
涙の記念日 → Episode 66
心の鍵 → Episode 82
無添加な恋 → Episode 112

 まだまだある。これだけ同じ場所から見つかれば、偶然ではないだろう。

 「あいのり」の題名。恋愛観察バラエティー あいのりのページから適当な語句を選んで、Google翻訳にかければまだまだ見つかるはずだ。
 Episode番号と話数が一致してないのは、どこか他のページから拾ったとき、そのページの無関係な番号が取られたのだろう(ビッグデータではよくあること)。

 「中二病小説」ではなかったw。

**********
Google翻訳で「さよなら大好きな人」を英訳すると……? 謎のエピソードシリーズが話題に
2014年12月03日 21:30 ねとらぼ

 Google翻訳で「さよなら大好きな人」を英訳すると、“予想外の言葉”が出力されるとしてネットで話題になっています。
 その言葉とは、“Episode 78”。ど、どうしたGoogle先生!? この結果はフランス語・ドイツ語・中国語などでも同様で、さらに「新しい旅立ち」が“Episode 26”に、「明日への扉」が“Episode 159”になることも確認されています。これは……エピソードシリーズ!?
 逆に、英語から日本語に訳したらどうなるのか。試しに“Episode 78”を邦訳すると、「エピソード 78」と何の変哲もありませんでしたが、“Episode 77”だと「恋する」、“Episode 84”では「ときめき」と、またも謎の言葉に! 有志の調査によると、Episode77〜180では約5割の確率でそれっぽいキーワードが表示されるとのこと。理由は全くの不明ですが、もしかしたら壮大な謎解きなのかもしれません。どなたか解明してください!
**********

19 4

コメント

mixiユーザー

ログインしてコメントを確認・投稿する