オリジナルCorpusの作り方

2004.1.1

 

 既成のcorpusは、いずれも収集されている用例が、自分のビジネス領域とは無関係な領域のものになりがちです。これでは、自分の専門領域ではどうなのか?といいう疑問がわきます。せめて、たとえば「米語で、ビジネスで使われる書き言葉」程度は限定したくなります。

 

  そこで、オリジナルのcorpusの作り方を紹介します。例えば、業界雑誌の過去記事を使ってcorpusを作るのです。このcorpusなら、前回紹介した「この単語は、自分の専門領域では、辞書の記載とは異なる使われ方をされているのでは?」という疑問にも答えが見つかります。

 

  オリジナルcorpusは、次のような手順で作ります。

  1. インターネットから自分の目的にかなう文章をできるだけ多くダウンロードする

  2. 上記ファイルを1つのファイルに結合する

  3. 結合したファイルをテキストフォーマットに変換する(これがcorpusです)

  4. concordancerで上記corpusを検索する

 まず、インターネットから検索対象となる模範文章を、できるだけ多くダウンロードしましょう。業界雑誌のホームページに掲載されている記事などがよいでしょう。たとえば、Scientific Americaのホームページ(http://www.sciam.com/)をすべてダウンロードすると、ファイル容量で約30MB、単語数で約300万語のcorpusができます。ただし、このくらいの大きさですと、ADSLのようなブロードバンド環境が必要です。

 

  このダウンロードにはソフトウェアを使うと便利です。自動巡回のソフトウェアを使えば、リンクを自動でたどって、あるホームページを丸ごとダウンロードすることも可能です。しかも、フリーウェア(無料で公開されているソフトウェア)が使えます。

GetHTMLW http://hp.vector.co.jp/authors/VA014425/main.html

 ここで大事なのは、必要なフォーマット(.txt, .htm, .html)のファイルだけを節度を持ってダウンロードすることです。画像データのようにcorpus作成に無関係なデータをダウンロードしないようにオプションを設定しておきましょう。なお、pdfファイルは、テキストに一括で変換できませんので、corpusを作るには不向きです。また、サーバーに負荷をかけすぎないように、節度を持ってダウンロードするよう心がけましょう。

 

  必要なファイルがダウンロードできたら、これらのファイルを1つに結合します。ダウンロードしたホームページは、階層構造になっている上、1ページが1ファイルになっているので、corpusとしては使いづらいです。そこで、すべてのファイルをソフトウェアで、1ファイルにまとめます。これもフリーウェアがあります。

Gconnect http://www.saney.co.jp/freeware.htm

 次に、結合したファイルをテキストファイルに変換します。ホームページのファイルはhtmlですから、結合しただけですと、まだタグと呼ばれる不要な情報が含まれています。このタグをソフトウェアで取り去って、テキストファイルに変換します。これにもフリーウェアが使えます。

HtoX32 http://win32lab.com/

 これでcorpusが完成です。これでやっと本来の目的であるconcordancerでの検索ができるようになります。

 

  corpusは、情報源や内容、作成年月日ごとに分けて管理しましょう。すべてを1つのファイルにしてしまうと、科学技術論文も時事英語も区別がつかなくなります。また、言語は時代とともに変わりますので、作成年月日ごとに分けておくと、長い目で見て便利です。

 

  concordancerにはいろいろありますが、以下の3つがお勧めです。いずれも有料ですが、試用できますので、特徴を理解してお求めになるとよいでしょう。

 

WordSmith(£51.95)

concordancerとしては世界的に最も有名です。
http://www.lexically.net/wordsmith/

TXTANA(12,000円)

日本製としては最も有名。品質も非常に高いです。
http://www.biwa.ne.jp/~aka-san/

Corpus Wizard(3,000円)

品質はやや劣るものの、値段が魅力です。
http://www2d.biglobe.ne.jp/~htakashi/index.html