言語の境界に意味の地図を描く辞書「Media of Langue」公開
[23/11/30]
提供元:PRTIMES
提供元:PRTIMES
■ 言語の境界に意味の地図を描く辞書「Media of Langue」
■ 対訳辞書でも類義語辞書でも国語辞書でもない、新しい辞書のカテゴリーを発明
■ 初期対応言語間は日-英、英-仏など6言語間で随時拡充予定
[画像1: https://prtimes.jp/i/128338/2/resize/d128338-2-e74cfe40bc483a494416-5.png ]
「あの言葉がこの言葉に訳された」という膨大な出来事のみから、言語の境界に意味の地図を描く新しい辞書が発明され、Webアプリケーション「Media of Langue」として公開されました。
Media of Langue: https://www.media-of-langue.org
Webサイト上の空間には2つ以上の言語の単語が浮かび、「より多く翻訳された単語ほど、より太い道で繋がれる」「より多く翻訳された単語ほど、より近くなる」ように地図が描かれています。ユーザーは検索したり、徐々に移動したりすることによって、この空間を探索することができます。
使い方は様々で、類語辞典(日本語類語辞典・英語類語辞典など)や対訳辞典(英和辞典・和英辞典など)として使用したり、学習したい言語の単語のニュアンスを日頃使っている言語の豊かな感覚を直感的に活用して理解したり、ある概念が人間の無意識の上でどう連続しているかを探索したり、翻訳におけるリアルなユースケース・交通網を見渡したりすることができます。
初期の対応言語間は、日-英、英-仏、仏-日、英-独、英-中、英-韓の6言語間で、今後も制作チームおよびユーザーによって拡充される予定です。制作チームは、世界中の言語話者・エンジニアの継続的なコミットによって、より丁寧に「あの言葉がこの言葉に訳された」という無数の出来事が地図に反映され続けることを期待しています。
[動画1: https://www.youtube.com/watch?v=0cK4LKP6ccE ]
"Media of Langueは新しい辞書であり、パブリック・スカルプチャーである。
この辞書は常に2つ以上の言語の境界に存在する。これらの言語の単語は、ウェブサイト上に用意された空間に浮かび、位置は2つの基本的な力によって定まる。(1)同じ言語の言葉どうしの斥力、(2)訳された異なる言語の言葉どうしの引力。それぞれの力の大きさは、「あの言葉がこの言葉に訳された」という膨大な出来事の中でより繰り返されたものほどより強くなる。この2つの力はただちに釣り合い、意味の地図が描かれる。この地図上では、複数の言語の単語が「意味」に基づいて配置され、交通量(翻訳量)に対応した幅の血色のピアノ線の道路で結ばれている。ユーザーは興味のある単語を検索したり空間を連続的に移動したりすることによって、この地図上を探索することができる。地図の隣には、その唯一の原料である過去の翻訳文が映画のエンドロールのように同期して流れている。
言語の境界に意味の地図を描くこの辞書は、既存の辞書のカテゴリに還元できない新しい辞書であり、この辞書を引くことは、コミュニケーションの可能性/不可能性、あるいは人類の普遍性/多様性にその都度触れる美的な行為である。(https://arxiv.org/abs/2309.08609)"
既存の辞書のカテゴリに還元できない新しい辞書
今までの辞書の複数冊/複数項目分の情報が1つの地図の上に
Media of Langueでは、これまでの辞書では複数の本/複数の項目に分散していた情報が一つの地図の上に現れます。例えば日本語と英語の境界を選んだ場合、この地図は日本語類語辞典と英語類語辞典と英和/和英辞典を兼ねるため、少なくとも4つの辞書の役割を同時に果たすことになります。ユーザーはページを何度もめくることなしに、豊かな知識を丁寧かつ俯瞰的に見渡すことができます。
身近な言語の感覚が染み込んだ地図
2つ以上の言語の間にあるこの地図では、ある言語の単語をもう一方の言語の単語たちから相対的にとらえることができます。そのため、ユーザーは慣れ親しんだ言語の言語感覚を使って、親しみのない言語の単語のニュアンスを捉えることができます。さらに2つ以上の言語の知識を持つユーザーは、3つ以上の言語を使って地図を構成することで、複数の言語の言語感覚を使いながら、新たな言語の単語のニュアンスを把握することができます。(たとえば日本語と英語に知識のあるユーザーは、日本語と英語の言語感覚を通して、フランス語単語のニュアンスを学習することができます。)
翻訳のリアルな「交通網」「交通量」
地図上で単語どうしを結ぶ道は「翻訳された」という出来事を記録した「翻訳の交通網」、その道幅は「翻訳の交通量」を表します。「どの単語がどの単語にどれだけ訳され、さらにその単語はどの単語にどれだけ訳され…」というように、ユーザーは個々の単語や翻訳の頻度を把握するだけでなく、周囲の頻度と比較することで、全体像を把握することができます。この地図は、「どの訳が適切とされているか」ということ以上に、「実際に世界で二つの言語の単語たちがどのように訳され合っているのか」といった翻訳のリアルな交通状況を教えてくれます。
例文=原料
「あの言葉がこの言葉に訳された」という記録は、実際の翻訳の過去の蓄積(コーパス)から数えているので、原則として、地図上の全ての道にはその原料となる翻訳文のペアがあります。このペアはいわゆる辞書の例文の役割を果たします。画面の右側では、その時フォーカスしている領域に対応する翻訳文のペアが映画のエンドロールのように流れています。これは興味を持っている意味の周辺の翻訳の実例をぼんやりと表示する新しい例文インターフェースです。さらに、地図上の道をクリックすると、その道に対応する翻訳関係にフォーカスして複数の例文=原料が流れ出るようにつくられています。
"言葉/象徴は、それ単独で存在するのではなく、より巨大な体系の中に自らの「場所」を持つ。言葉/象徴を収集し、それぞれの「場所」を指し示す道具を、我々は辞書と呼ぶことができる。そして、この「場所」をどのようにして指し示すのか、つまりどう住所を記述するのか、によって、辞書は分類される。(...)
ここで、もう一つ、収集された構成要素の「場所」を指し示す道具を意味する名前が思い浮かぶ。地図。(...)
では、地球の代わりに何を描けば、言葉/象徴の「場所」を指し示す地図、つまり辞書であれるような地図ができるのだろうか。採用したオブジェクトは、言語の境界に存在する、ある地形である。(https://arxiv.org/abs/2309.08609)"
Media of Langueの仕組み:「あの言葉がこの言葉に訳された」という膨大な出来事が唯一の原料
Media of langueが言語の境界に地図を描く方法は極めてシンプルです。
まず、二つの言語で書かれた文のあつまり(通称対訳コーパス)が用意され、そこから「あの言葉がこの言葉に訳された」という出来事をひたすら数え上げていきます。(例えば、「美しいがbeautifulに100万回訳された」など。)これが基本的には地図の唯一の原料です。そして、この原料をもとに二つの力を地図上の単語に与えます。
(1)より多く訳された単語どうしがより強く引き合うような異なる言語の単語どうしの引力
(2)より多く使われた単語ほどの他の単語をより強く斥けるような同じ言語の単語どうしの反発力(斥力)
これはそれぞれ「翻訳では意味が保たれるべきである」ということ、「同じ意味の言葉は必要ない」ということに対応していると考えることができます。この二つの力に従って単語を動かすと、直ちに、意味に基づいて複数言語の単語が配置される空間が構成されます。
(詳細は論文で公開されています。https://arxiv.org/abs/2309.08609 )
[画像2: https://prtimes.jp/i/128338/2/resize/d128338-2-b09e7186911aea6a6393-3.png ]
[動画2: https://www.youtube.com/watch?v=h2ZJYf5wfcQ ]
寄付 / Donation
Media of Langueは運営・開発のための寄付を求めています。
"Media of Langueは非営利のプロジェクトであり、広告や購読料は一切ありません。
しかし、このプロジェクトを存続させるためには、サイトやデータベースのサーバー費用、エンジニアリング費用など、継続的な出費は避けられません。このプロジェクトに共感し、その重要性を信じてくださる方は、ぜひ寄付をご検討ください。
また、Media of Langueはまだ初期段階にあり、今この瞬間も世界中からデータを集め、システムの精度を高め、各分野の専門家からアドバイスを集めています。十分な寄付を集めることができれば、この改良のスピードを大幅に加速させることができ、数ヶ月後には現在とは比べものにならないほどのクオリティに達するかもしれません。(サイトDonationページより引用)"
https://www.media-of-langue.org/donation
Media of Langue 制作チーム
Media of Langueはアーティストの村本剛毅により2019年に考案され、東京大学の同級生である小山賞馨らと共同で4年半をかけてWebアプリケーションとして制作されました。
Concept, Direction, Design: Goki Muramoto
Engineering: Takayoshi Koyama(Enginee), Atsuki Sato, Tyra Inari, Ryoma Maeda, Moroi Yuta, Atsuhiro Yamaguchi, Atsuhiro Yamaguchi, Goki Muramoto
村本剛毅 / Goki Muramoto について
[画像3: https://prtimes.jp/i/128338/2/resize/d128338-2-0a8fa6090aaa2b1a241e-4.jpg ]
アーティスト。独自のメディアの発明・彫刻を通してイメージを研究。主な作品は、閉じた瞼に血色を逆算した映画を投影するメディア《Imagraph》series、意識する対象を他者と共有するときに視界も共有する架空の知覚を実現するメディア《Lived Montage》seriesなど。現在東京大学学際情報学府修士課程に所属。Media of Lange代表。
https://www.goki-muramoto.com/
■ 対訳辞書でも類義語辞書でも国語辞書でもない、新しい辞書のカテゴリーを発明
■ 初期対応言語間は日-英、英-仏など6言語間で随時拡充予定
[画像1: https://prtimes.jp/i/128338/2/resize/d128338-2-e74cfe40bc483a494416-5.png ]
「あの言葉がこの言葉に訳された」という膨大な出来事のみから、言語の境界に意味の地図を描く新しい辞書が発明され、Webアプリケーション「Media of Langue」として公開されました。
Media of Langue: https://www.media-of-langue.org
Webサイト上の空間には2つ以上の言語の単語が浮かび、「より多く翻訳された単語ほど、より太い道で繋がれる」「より多く翻訳された単語ほど、より近くなる」ように地図が描かれています。ユーザーは検索したり、徐々に移動したりすることによって、この空間を探索することができます。
使い方は様々で、類語辞典(日本語類語辞典・英語類語辞典など)や対訳辞典(英和辞典・和英辞典など)として使用したり、学習したい言語の単語のニュアンスを日頃使っている言語の豊かな感覚を直感的に活用して理解したり、ある概念が人間の無意識の上でどう連続しているかを探索したり、翻訳におけるリアルなユースケース・交通網を見渡したりすることができます。
初期の対応言語間は、日-英、英-仏、仏-日、英-独、英-中、英-韓の6言語間で、今後も制作チームおよびユーザーによって拡充される予定です。制作チームは、世界中の言語話者・エンジニアの継続的なコミットによって、より丁寧に「あの言葉がこの言葉に訳された」という無数の出来事が地図に反映され続けることを期待しています。
[動画1: https://www.youtube.com/watch?v=0cK4LKP6ccE ]
"Media of Langueは新しい辞書であり、パブリック・スカルプチャーである。
この辞書は常に2つ以上の言語の境界に存在する。これらの言語の単語は、ウェブサイト上に用意された空間に浮かび、位置は2つの基本的な力によって定まる。(1)同じ言語の言葉どうしの斥力、(2)訳された異なる言語の言葉どうしの引力。それぞれの力の大きさは、「あの言葉がこの言葉に訳された」という膨大な出来事の中でより繰り返されたものほどより強くなる。この2つの力はただちに釣り合い、意味の地図が描かれる。この地図上では、複数の言語の単語が「意味」に基づいて配置され、交通量(翻訳量)に対応した幅の血色のピアノ線の道路で結ばれている。ユーザーは興味のある単語を検索したり空間を連続的に移動したりすることによって、この地図上を探索することができる。地図の隣には、その唯一の原料である過去の翻訳文が映画のエンドロールのように同期して流れている。
言語の境界に意味の地図を描くこの辞書は、既存の辞書のカテゴリに還元できない新しい辞書であり、この辞書を引くことは、コミュニケーションの可能性/不可能性、あるいは人類の普遍性/多様性にその都度触れる美的な行為である。(https://arxiv.org/abs/2309.08609)"
既存の辞書のカテゴリに還元できない新しい辞書
今までの辞書の複数冊/複数項目分の情報が1つの地図の上に
Media of Langueでは、これまでの辞書では複数の本/複数の項目に分散していた情報が一つの地図の上に現れます。例えば日本語と英語の境界を選んだ場合、この地図は日本語類語辞典と英語類語辞典と英和/和英辞典を兼ねるため、少なくとも4つの辞書の役割を同時に果たすことになります。ユーザーはページを何度もめくることなしに、豊かな知識を丁寧かつ俯瞰的に見渡すことができます。
身近な言語の感覚が染み込んだ地図
2つ以上の言語の間にあるこの地図では、ある言語の単語をもう一方の言語の単語たちから相対的にとらえることができます。そのため、ユーザーは慣れ親しんだ言語の言語感覚を使って、親しみのない言語の単語のニュアンスを捉えることができます。さらに2つ以上の言語の知識を持つユーザーは、3つ以上の言語を使って地図を構成することで、複数の言語の言語感覚を使いながら、新たな言語の単語のニュアンスを把握することができます。(たとえば日本語と英語に知識のあるユーザーは、日本語と英語の言語感覚を通して、フランス語単語のニュアンスを学習することができます。)
翻訳のリアルな「交通網」「交通量」
地図上で単語どうしを結ぶ道は「翻訳された」という出来事を記録した「翻訳の交通網」、その道幅は「翻訳の交通量」を表します。「どの単語がどの単語にどれだけ訳され、さらにその単語はどの単語にどれだけ訳され…」というように、ユーザーは個々の単語や翻訳の頻度を把握するだけでなく、周囲の頻度と比較することで、全体像を把握することができます。この地図は、「どの訳が適切とされているか」ということ以上に、「実際に世界で二つの言語の単語たちがどのように訳され合っているのか」といった翻訳のリアルな交通状況を教えてくれます。
例文=原料
「あの言葉がこの言葉に訳された」という記録は、実際の翻訳の過去の蓄積(コーパス)から数えているので、原則として、地図上の全ての道にはその原料となる翻訳文のペアがあります。このペアはいわゆる辞書の例文の役割を果たします。画面の右側では、その時フォーカスしている領域に対応する翻訳文のペアが映画のエンドロールのように流れています。これは興味を持っている意味の周辺の翻訳の実例をぼんやりと表示する新しい例文インターフェースです。さらに、地図上の道をクリックすると、その道に対応する翻訳関係にフォーカスして複数の例文=原料が流れ出るようにつくられています。
"言葉/象徴は、それ単独で存在するのではなく、より巨大な体系の中に自らの「場所」を持つ。言葉/象徴を収集し、それぞれの「場所」を指し示す道具を、我々は辞書と呼ぶことができる。そして、この「場所」をどのようにして指し示すのか、つまりどう住所を記述するのか、によって、辞書は分類される。(...)
ここで、もう一つ、収集された構成要素の「場所」を指し示す道具を意味する名前が思い浮かぶ。地図。(...)
では、地球の代わりに何を描けば、言葉/象徴の「場所」を指し示す地図、つまり辞書であれるような地図ができるのだろうか。採用したオブジェクトは、言語の境界に存在する、ある地形である。(https://arxiv.org/abs/2309.08609)"
Media of Langueの仕組み:「あの言葉がこの言葉に訳された」という膨大な出来事が唯一の原料
Media of langueが言語の境界に地図を描く方法は極めてシンプルです。
まず、二つの言語で書かれた文のあつまり(通称対訳コーパス)が用意され、そこから「あの言葉がこの言葉に訳された」という出来事をひたすら数え上げていきます。(例えば、「美しいがbeautifulに100万回訳された」など。)これが基本的には地図の唯一の原料です。そして、この原料をもとに二つの力を地図上の単語に与えます。
(1)より多く訳された単語どうしがより強く引き合うような異なる言語の単語どうしの引力
(2)より多く使われた単語ほどの他の単語をより強く斥けるような同じ言語の単語どうしの反発力(斥力)
これはそれぞれ「翻訳では意味が保たれるべきである」ということ、「同じ意味の言葉は必要ない」ということに対応していると考えることができます。この二つの力に従って単語を動かすと、直ちに、意味に基づいて複数言語の単語が配置される空間が構成されます。
(詳細は論文で公開されています。https://arxiv.org/abs/2309.08609 )
[画像2: https://prtimes.jp/i/128338/2/resize/d128338-2-b09e7186911aea6a6393-3.png ]
[動画2: https://www.youtube.com/watch?v=h2ZJYf5wfcQ ]
寄付 / Donation
Media of Langueは運営・開発のための寄付を求めています。
"Media of Langueは非営利のプロジェクトであり、広告や購読料は一切ありません。
しかし、このプロジェクトを存続させるためには、サイトやデータベースのサーバー費用、エンジニアリング費用など、継続的な出費は避けられません。このプロジェクトに共感し、その重要性を信じてくださる方は、ぜひ寄付をご検討ください。
また、Media of Langueはまだ初期段階にあり、今この瞬間も世界中からデータを集め、システムの精度を高め、各分野の専門家からアドバイスを集めています。十分な寄付を集めることができれば、この改良のスピードを大幅に加速させることができ、数ヶ月後には現在とは比べものにならないほどのクオリティに達するかもしれません。(サイトDonationページより引用)"
https://www.media-of-langue.org/donation
Media of Langue 制作チーム
Media of Langueはアーティストの村本剛毅により2019年に考案され、東京大学の同級生である小山賞馨らと共同で4年半をかけてWebアプリケーションとして制作されました。
Concept, Direction, Design: Goki Muramoto
Engineering: Takayoshi Koyama(Enginee), Atsuki Sato, Tyra Inari, Ryoma Maeda, Moroi Yuta, Atsuhiro Yamaguchi, Atsuhiro Yamaguchi, Goki Muramoto
村本剛毅 / Goki Muramoto について
[画像3: https://prtimes.jp/i/128338/2/resize/d128338-2-0a8fa6090aaa2b1a241e-4.jpg ]
アーティスト。独自のメディアの発明・彫刻を通してイメージを研究。主な作品は、閉じた瞼に血色を逆算した映画を投影するメディア《Imagraph》series、意識する対象を他者と共有するときに視界も共有する架空の知覚を実現するメディア《Lived Montage》seriesなど。現在東京大学学際情報学府修士課程に所属。Media of Lange代表。
https://www.goki-muramoto.com/