[retour à un affichage normal]

オンライン・デジタル・コーパスの使用方法について

 Cette page « オンライン・デジタル・コーパスの使用方法について  » est la traduction & commentaire en japonais de Pistes pour la recherche.

◆本研究プロジェクトによるマザリナード文書のオンライン・デジタル・コーパスは、20113月より一般の方にもお使いいただけるよう公開されております。その後も、検索機能におけるいくつかのバグを修正し、各文書の文献情報の構造化が完了し、実物のデジタル画像の参照もできるようになりました。そうしますと、ちょうど今(20117月)こそ、このオンライン・デジタル・コーパスに関する一般的な説明といくつかの検索例をご紹介し、このサイトの使用方法を閲覧者の方々にご案内すべき時期ではないかと考えます。すべての閲覧希望者の方々のために──本研究サイトでは、すでにマザリナード文書に関する知識をおもちで、何を調べたいかはっきりしている方も、あるいはまったく反対に、マザリナード文書については何も知らないけれどネット上で、偶然、ここに立ち寄ることになった方も、等しく歓迎いたしております。
◆《Mazarinades(マザリナード)という用語は、一つの文学ジャンルを示すものでも、極度に専門的なジャンルを示すものでもありません。《Mazarinades》と呼ばれる文書は17世紀のフロンドの乱の時代のものであり、多かれ少なかれ、時の宰相マザランに反対する、あるいは賛成する立場をとりつつ、当時、フランスで起きていた出来事に(ときには関係性がかなり薄いように見えることもありますけれども)関連するものなのです。しかし、じつはそれだけにとどまりません。《Mazarinades》と呼ばれるテクスト、文書の集合はあらゆる言語的表現のジャンルからなり、それだけ多種多様な書き手によるものなのです。18世紀以降にマザリナード文書に寄せられるようになる歴史的興味といくつかの選集の出版が、人々に対し、それが何か高度に文学的な作品の集合を指すかのように思いこませてしまうことがありました。それについては声を大にして決然と、真実はそうではないのだと否定する必要があります。まず第一に、そして常に、これらは政治的発言なのであり、しばしば論争的、ときに応じては、詩的、抒情的、風刺的にもなる、発言された言葉なのです。そして、まさにこの厖大な文書に見られる極度の多様性こそが、たとえそれが完全版と銘打たれていても、ある作家の全集やテーマ別の選集には提供することのできない、マザリナード文書固有のおもしろさなのです。

数字で見るこのコーパスの内容

◆本研究サイトmazarinades.orgでは、1648-1653年に出版された約2700点のマザリナード文書を電子コーパス化し、公開して検索ができるようにしています。ここに公開するマザリナード文書は東京大学総合図書館の所蔵コレクションです。同コレクションの由来については、学習院大学人文科学研究所紀要『人文』9号「マザリナード文書の公開に先立って―その特性と東京大学コレクションを紹介する」(2010年)をご覧ください。またフランスにおける『Bulletin du bibliophile 』誌掲載論文(仏語、2009détails ici)ならびに日本フランス語フランス文学会ワークショップ(仏語音声、2010écouter là)もあわせてご参照ください。本研究プロジェクトの目的は、今後数年のうちに、私たちの研究グループRIMと他の重要なコレクションを所蔵する図書館との連携により、およそ5000点からなる電子コーパスをオンラインで公開することにあります。
◆ここに公開されている約2700点のマザリナード文書は、アルファベットの文字数にするとおよそ5000万字になります(そうです、5000万文字にもなります。さらに各文書の現代語訳が完成して同時に掲載されると、文字数は2倍になります)。これらの文字が700万語以上の言葉を編み、概算で137000種類の単語が使われています。これらのテクストをデジタル化するもとになったのは、34000枚以上の画像データです。
関連する学問領域、最小単位のリストとして
かくも大量のテクストデータにおいては、検索エンジンの諸機能が可能にする調査研究はじつにたくさんあり、それによって、多くの学問領域における問いに答え、研究に役立てていただくことができるでしょう。
ここに、直接関係すると思われる学問領域をあげておきます。これらはとりわけフランスとフランス語に関わりがあると思われる領域です。
・歴史学
・社会史
・政治史
・宗教史
・軍事史
・行政史
・法制史
・思想史
・出版の歴史
・言語の歴史
・文献学
・アーカイヴ学
・外交論
・写本学
・語彙論
・言語学
・文学
・地理学
・経済学
・メディオロジー
 それでは次に例を用いて、新しいウインドウを開きながら、おおまかに使い方を見ることにしましょう。

一番単純な検索例と入力の仕方 

◆もっとも簡単な方法は、実際にまず、ひとつの単語を探してみることです
たとえば「reine」(フランス語では「王妃」の意味です):この単語は全体で1763回使われていることがわかります。検索結果を示す18ページを通し読み、この単語が使われている前後のテクストを読み、実物のテクストの画像データを表示して比べるとすれば、読むべき量はこれだけでもう相当多くなります。この単語ひとつを取りあげて調べるだけでも、これまでこの語に与えられてきた意味を少し変化させるかもしれません。
もちろんこの単語は複数でも使われます。出現頻度は少ないにしても「reines」は35回使われています。
ただし、注意が必要です。17世紀の綴りにはいろいろな書き方があり、一定していませんでした:ほかにも「reyne」(4147回)や「reynes(109回)、さらに「royne」(165回)、「roynes」(5回)、「roine」(4回)があり、1度もこのコーパス内では使われていませんが、理論的には「roines」と書くことも可能なのです。
単語と単語の間に「∣」を入れる→複数の単語を同時に検索する方法
これらの異なる綴りを一度の検索で抽出するためには、単語を次のように並べて書く必要があります。「reine|reyne|royne|roine」(このように4つならべた場合の検索結果は、当然ながら6079回という出現頻度になります。) 同様に複数形「reines|reynes|roynes」(148回)、あるいは単複同時では 「reine|reyne|royne|roine|reines|reynes|roynes」(6227回)という結果になります。
この単語と単語の間に「∣」(「垂直スラッシュ」)を入れる方法で、たとえば「noir」(「黒」)と「blanc」(「白」)というように異なる単語の出現頻度を同時に調べることができます:「 noir|blanc」(343回)。しかしながら、この検索結果は、これら二つの単語が常に同時に使われているという意味ではありません。ある複数の単語が同時に使われているかどうかを見る検索方法はこの先で説明します。
単語の後ろに「.」と「?」をつけて検索する→単語の後ろに別の文字が続く場合も含めて調べる方法
「reine」の場合「reine.?」では1824回、「reyne.?」では4347回、「reine.?|reyne.?」の両方では、6171回使われているという検索結果が出ます。これは「reine
」という単語の最後「…ne」の後に、一文字だけ、アルファベットのどんな文字が加わってもいいという条件で、検索結果を表示させる方法です。ここでは複数の「s」を想定しています。
同様にして「blé」(「小麦」)という単語は、「bled.?」として検索することにより、昔の綴りの単数「bled」と複数「bleds」の検索結果を同時に得ることができます。
文字の組み合わせの最後に「.」と「*」をつける→この文字の組み合わせで始まるすべての語を検索します
arrest.* 」は、このアルファベットの文字の組み合わせで始まるすべての語を表示させます(6298回)。検索結果には「Arrest」(「un Arrêt」「un Arrêté」などの綴りもあるこの単語は高等法院などの「判決」を指します)と同時に、動詞「arrester」(犯罪者を「逮捕する」)のすべての変化形が表示されることがご覧いただけるでしょう。「arret(s)」という綴りに「ˆ」(「アクサン・シルコンフレックス」)がつかない形では5回しか出てきません。
けれども、これらの検索結果に「arrestation」(「逮捕」)という名詞は含まれていません。そこでこの名詞表現はまだ使われていなかったと仮定することもできます(ただし、それはあくまでもこのコーパス内の検索結果から導かれる一時的な仮説で、実際にこの名詞表現がこの時代に使われていなかったということではありません。)
文字の組み合わせの中に「.」を加える→「.」の箇所にどのような文字が入っても、全種類を表示させます
たとえば「re.ne」と検索にかけると、出現回数は7080回です。この中には、先に検索した「reine」とその異なる綴りである「reyne」も入ります。が、ここで注意しなければならないのは、同時に「regne」(現代フランス語の綴りでは「règne」=「統治」)という単語も拾い出されてくるということです。
さらにもうひとつ「.」を加えれば、「.」の数だけ、そこにはいろいろな文字を置き換えた結果が表示されます。ふたつ「.」を続ければ(「..」)、そこにはふたつの文字が置き換えられるということです。そこで「re..ne」と入力し検索にかけると、24回使われていることがわかります。先に調べた「reine」の古い綴り「reigne」「reygne」がこうして抽出されてきます。しかし、この検索結果には同時に「remene」という「reine」とはまったく異なる単語もひとつ含まれています。
「 r.mpart 」で検索すると72回出てきますが、この内訳は「rempart」(「城塞」60回)と同時にその異なる綴り「rampart」(12回)を表示します。これらの複数形を含めた検索はすでに見たように末尾に「.?」をつけた形「r.mpart.?」にすると出てきます(115回)。
さらに別の例で、「voiture」という単語を見てみましょう。「voit.re」で検索すると120回出てきます。「voiture」と一緒に「u」の代わりに「v」が使われている「voitvre」が抽出されます(「v」は特に大文字で書かれるときに、頻繁に「u」の文字のかわりに置き換えられますので、文書のタイトルではしばしばこの置き換えが見られます)。ただし、注意しなければならないのですが、この出現回数の中には、固有名詞の「Voiture」(同時代人のVincent Voitureの名前)も含まれています。
単数・複数を同時に検索しようとするなら、「 voit.re.?」と入力します(135回出現)。
大文字入力はアクセント記号のついた表記も含めての検索を可能にします
次に、先頭の文字が「état」(「国家」)のように、アクセント記号(この場合は「´」アクサン・テギュ)がついている場合です。「état」での検索では39回出現、一方大文字で書かれアクセント記号がない「Etat」では、120回という結果が出ます。しかし、昔の綴りである「Estat」と入力するともっと高い出現頻度になります。13274回(しかも、このなかで小文字で始まる「éstat」は一度きりしか使われていないことがわかります。)
もっとも有効な検索は「Estat.?|Etat.?」(ふたつの語形を同時に表示させ、アクセント記号つき、複数形も含める)という形でしょう。この結果は16380回出現します。
「salut de l’état」(「国を救う」)という当時の新しい主張は116回出現しますが、これは次のような入力によって抽出することができます。「sal[u-v]t Estat|Etat」(検索の画面では、「termes séparés par 2 mots」(「2個の別の語によって、単語が分かれている」という条件を選びます──「salut」と「état」の間に「de」(前置詞)と「l’」(冠詞の縮約)が入っているからです。また[u-v]は前述のように、「u」の代わりにしばしば置き換えられている「v」を含めた検索をするためです。この入力表記についてはあとで詳しく説明します。)
アクセント記号の使用は、当時の印刷業者がもっていた活字のセットによってまちまちです。そこで、「libertE」(「liberté」(自由)の語末の「é」を「E」で入力、アクセント記号のあるものとないものとを両方表示させる)では2664回使われていることがわかります(この結果には「libertè」、つまりアクセント記号が逆向きの「è」で、現代ではあきらかな間違いであるような綴りもちゃんと抽出されています。)
[ ]付の入力で、[ ]の中に入る文字を条件づけます
「salut de l’état」の例でみた 「sal[u-v]t」に含まれる[u-v]という入力の仕方は《 [ ]の部分に、アルファベットの「uからvまでの文字ならどれが入ってもいい》という条件をつけるものです(この検索結果は1325回出現)。この単語の場合には、uがvに置き換えられていることが頻繁に起きるのですから、調べるのはこの2種類だけでもよいわけです。そこで、全部のアルファベットがそこに入る可能性を含めた「sal[a-z]t」(検索結果1327回)や、あるいは前出のどんな文字にも置き換え可能な「.」を使って「sal.t」(検索結果1328回)という調べ方も可能です。(ただし、入力する条件が完全に同じではないので、検索結果の数字は変動します。)
この検索方法は頻繁に交替するuとvのように曖昧な場合の検索にたいへん有効です。「univers」(「全世界」)ように、一単語内で、uとvの置き換えが2回起こるような場合にも適用できます。「 [u-v]ni[u-v]rs 」(689回)。この単語の17世紀にもっともよく使われていた綴りは「vniuers」です。
◆検索例
jeu「jeu」(「遊び」)という言葉がもつ意味の広がりは、たった一度、次のように文字を組み合わせて入力することで検索が実現します。「[i-j]oUE.*|[i-j]eu.?」(1397回出現)。検索結果には、動詞「jouer」(「遊ぶ」)の全活用形が表示され、同様に「iouer」「ioüer」という綴りの場合も抽出されます。さらに派生語の「jouet」(「遊具」)「joueur」(「演者」)等も拾い上げられます。同時に名詞の「jeu(x)」がすべての綴りで抽出されます。
Tyran「Tyran」(暴君)「tyrannie」(専制政治)「tyranniser」(圧政する)の場合には「tyran.*」で検索すれば全部出てきます(3660回)。ほかの言葉との組み合わせによると次のような結果になります(単語間の距離は《間に5個の単語が入る》という条件です)。「暴君」と「王」の組み合わせ(「tyran.* roi|roy」)では19回、「暴君」と時の宰相「マザラン」あるいは前宰相「リシュリュー」の組み合わせ(tyran.* mazarin|cardinal)では、184回出現します。
pain :「Paris」(「パリ」)と「pain」(「パン」)が同じ一文に使われていることを確かめるには「 paris pain 」で検索します(247回出現)。「pain」で始まる表現を探すこともできます。たとえば、「pain de」(「…のパン」)は96回使われており、「pain」と「eau」(「水」) が一緒に使われている表現「 pain eau」(《間に5単語》の条件)は10回あります。
 
この部分の翻訳は、《マザリナード・プロジェクト》──科学研究費補助金・基盤研究(B)平成22-25年度・課題番号22320066──の教育現場への還元の一環として、明治学院大学文学部フランス文学科「古典期フランス文学」(平成23年度)の授業で行いました。
この授業で翻訳に協力してくださった学生の氏名は以下のとおりです。(あいうえお順)
小俣尚子さん(明治学院大学フランス文学科4年)
栗山美穂さん(明治学院大学フランス文学科3年)
廣瀬綾さん (明治学院大学フランス文学科4年)
フランス語ヴァージョンの「2. PISTES POUR LA RECHERCHE」をもとにしておりますが、日本語使用者にもできるだけわかりやすくするため、本文を一部加筆・修正しております。
Cette entrée a été publiée dans Informations, Règles et normes, avec comme mot(s)-clef(s) . Vous pouvez la mettre en favoris avec ce permalien.


Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Vous pouvez utiliser ces balises et attributs HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>