絶滅危惧言語とプログラミング言語

11月、Google翻訳がニューラルネットワークを活用することで精度が向上したと話題になっていました。Google翻訳をよく使う個人としてはとても嬉しいニュースですし、エンジニアとしてその技術にワクワクする話でもありました。

Google翻訳が翻訳家の仕事を奪うのではないかなどの話もありますが、その翻訳が単に言語変換としての翻訳を目的とするならたしかにそうかもしれません。しかし、その言語を使う文化特有の概念や価値観を含む文章の翻訳をするとなるとそこにはまだ大きな課題がありそうです。


http://www.nausicaa.net/miyazaki/manga/nausicaaworldcovers.html

姫姉さま

翻訳には大きく分けて直訳、意訳の二つがあります。

直訳 … 外国語の文章を、原文に忠実に一語一語をたどるように訳すこと。

意訳 … 原文の一語一語にこだわらず、全体の意味をとって翻訳すること。また、その訳。

直訳の手法をとる翻訳システムとは古典的なルール・ベース機械翻訳モデルを採用しているものが相当し、ニューラルネットワークを用いた機械翻訳以前のGoogle翻訳では統計的機会学習を用いた機械翻訳の手法を取っていました。これは意訳の翻訳手法を行うモデルと考えられます。そして話題となっているニューラルネットワークを活用したGoogle翻訳ではより精度の高い意訳を可能としました。

しかしそれでも翻訳が難しいと思われるケースとは何かというと…

例えば風の谷のナウシカでは風の谷の小さな女の子たちはナウシカのことを「姫姉さま」と呼んで慕いますが英訳版では単に「Princess」と訳されます。微妙なニュアンスの違いを感じます。英語圏でも愛称で呼ぶ文化はありますが翻訳の際には課題となりそうです。

また作品では多くの造語が出てきます。腐海、巨神兵、王蟲、土鬼などなど。英訳版でどう訳されているかというと、腐海はSea of Corruption、巨神兵はGod Warrior、王蟲はOhm、土鬼はDorokと訳されています。短句かつ明快な表現、言葉遊びのようなものがなくなっているように感じます。


歴史的産物

言語にはその土地の文化特有の語彙があります。

例えば、日本人が単に「牛」というところを英語では、雌牛はcow、雄牛は去勢したものをox、しないものをbull、そして子牛をcalfと言い分けます。それには英語がフランス系語彙とゲルマン系語彙を取り込んで生まれたことに由来するのだとか。

http://aminotes.tumblr.com/post/360064783/the-indo-european-family-of-languages-source-the

日本語には牧畜関係の語彙は少ないですが、一方で自然を表す言葉は豊富にあります。いくつか例をあげると、空を表す言葉には一天、花曇、夏天、空海、小春空などがあります。雪を表す言葉には、淡雪、太平雪、いやや雪、友待雪、銀華、六花など。風を表す言葉には東風、天つ風、荻の上風など。雲を表す言葉には茜雲、浮雲、近江小太郎、丹波太郎、五色の雲、東雲、星雲などがあります。

自然言語にはそれぞれの言語ごとに様々な語彙があり、ほかの言語と重なり合わない部分がありますが、それは語彙の成り立ちにその土地の文化が強く影響しているためのようです。

スイスの言語学者フェルディナン・ド・ソシュールの思想の丸山圭三郎の解釈(「ソシュールの思想」)によれば、

コトバは音のイメージであると同時に観念であり、すべての認識はそれが表現体という形をとらない限り認識ではない。そしてこの音=観念は自然のなかにあらかじめ与えられているものではないのだから、さまざまな視点から考察できるような実体ではなく、逆に視点が生みだす事象である。
言語は社会的産物であると同時に歴史的産物以外の何ものでもなく、換言すれば全くの人為であり、文化の産物であり、恣意的価値体系なのである

言葉は人為的に作られるものだからこそ、その土地の文化の影響を大きく受けます。自然についての関心が強ければ自然を表す言葉が多く作られるように、語彙が文化を映し出しています。そしてその言葉が存在することで物事が認知できるようになり、逆にその言葉がなければその物事や観念を認知することはできません、とまでは言えませんがしにくくはなりそうですね。ここにも、自然言語の翻訳の課題があるのかなと考えます。

冒頭で話した、機械翻訳ではまだカバーできないだろうというのはまさにこれらの課題があるからです。翻訳家はもとの文章本来の意味(本来の意味とは?)、意図、価値を理解して、元の言語と翻訳先の言語とそれらの文化も理解して、あと翻訳の限界とか可能性とかその他もろもろを理解して、その上でいろんなものがいい感じに調和した翻訳を求められているのかなと思います。

語彙から見た日本語の一文

“彼がパリで現地の学生に日本語の講義を求められた時である。「悔しい」という語に匹敵するフランス語がなく、様々なシチュエーションを挙げて理解させようとした。「では、君が駅に駆けつけたが、一足違いで乗遅れたらどう思う?」という問いに対し、「もっと早く来ればよかったと思う。」と学生は答えた。「では、答案を出した後で名前を書くのを忘れたことに気がついたらどう思う?」と尋ねたら、「何と私はバカなんだろう、と思う。」と言った。「では最後に君に必ず結ばれると思っていた恋人がいたが、最後の土壇場で君の友人と結婚してしまったら君たちはどんな気持ちになる?」と尋ねたら、「それが人生だと思います。」と答えたそうだ。”

絶滅危惧言語

ユネスコの発表によれば、現在世界にはおよそ6,000の言語がありますが22世紀のはじめには2,500近い言語が消滅すると予測されています。言語の消滅とは、最後の話者が亡くなり、その言語を母語として理解する人が誰一人としていなくなることと定義されています。

Atlas of the World’s Languages in Danger

ユネスコはそれら絶滅危惧言語を危険度で段階分けして評価しています。

その危険度の段階の一つのExtinct = ”1950年以降に消滅した言語” は2009年2月では「219語」2010年時点で「約230語」あると記録されています。

2016年12月現在ではどうかというと…

Wichita(アメリカ合衆国オクラホマ州の言語)、Klallam(アメリカ合衆国ワシントン州の言語)、Livonian(ラトビア共和国の言語)、Yurok(アメリカ合衆国カリリフォルニア州の言語)、Dhungaloo(オーストラリアの方言)、Nuchatlaht(バンクーバー島の方言)、Cromarty(スコットランドの方言) が消滅したようです。

日本でも次の言語が絶滅危惧言語として登録されています。

【極めて深刻】: アイヌ語
【重大な危機】: 八重山語(八重山方言),与那国語(与那国方言)
【危険】: 八丈語(八丈方言),奄美語(奄美方言),国頭語(国頭方言),沖縄語(沖縄方言),宮古語(宮古方言)

アイヌ語といえばゴールデンカムイというマンガで使われています。アイヌ語研究者の中川裕教授が作中のアイヌ語監修を務めているのだとか。ヒンナヒンナ

言語が衰退するのにはインターネットが欠かせない現代において英語が勢力を大きく伸ばしていることが一つ原因としてあげられます(「英語の優勢について」)。ほかにもさまざまな理由、原因がありますがその一つに、現代に必要なコミュニケーションをするのに不十分であることがあげられます。例えばアイヌ語には電子メールに相当する言葉がありません。そこで現代で使用するのに不足している語彙を補完しようという試みがあるようです。eメールは”imeru kampi”とされ、直訳すると「電気手紙」の意味になります。

言語が生存するために必要な外国語の取り込みやすさについて言えば日本語はそれがしやすい言語です。名詞ならカタカナで表記しそれを日本風に読めばそれが日本語になります。動詞なら「スル」を付け、形容詞なら「ナ」を付ければいいのですから。


Endangered Languages Project

Googleは「Alliance for Language Diversity」(言語多様性のための連盟)と協力し消滅が危惧される言語に関するリソースサイト「Endangered Languages Project」を立ち上げました。

絶滅の恐れのある言語についての情報をテキスト、音声、動画などに記録し、インターネット上で公開し、研究等についての情報を共有することを目的としています。

他にも様々な取り組みがあるようです。


絶滅危惧言語とプログラミング言語

自然言語にはその言語を使う文化特有の概念があり他の言語に翻訳する際の課題となっています。プログラミング言語の翻訳ではどうでしょう?

プログラミング言語の翻訳を別の言語で同じ機能を実装することとすると、だいたいのプログラミング言語はチューリング完全であるため実装上の課題を除きほかの言語でも同じ機能の実装が可能と言えそうです。計算能力上は。

自然言語はその言語を母語とし理解する者がいなくなると消滅します。プログラミング言語の消滅というと…

よくわかりませんが、”言語を理解する者”というのは開発者ではなくコンパイラがしっくりきます。その言語のコンパイラがなくなればその言語は使えなくなるので。

そもそもプログラミング言語についていえば消滅を心配するということはないと思います。プログラミング言語は他言語に翻訳可能であるという先の話より、消滅することで実現できなくなる機能(計算能力上は…)というのはなさそうですし、そのプログラミングの特徴とする概念(パラダイム)についてもその言語でないと実現できないというものではないと考えます。しかし、言語の消滅によって、その言語のコミュニティが失われるとなると惜しい気持ちにもなります。

ということで、ほかの節で話していた”翻訳って難しい”、”絶滅危惧言語” の流れからプログラミング言語についてを話題にあげてみましたがとくに言うことはありませんでした◯


この記事はVOYAGE GROUP Advent Calendar 12/13のエントリーでした。

明 日 も お 楽 し み に ! 🎉