オリジナルCorpusの作り方

オリジナルCorpusの作り方

2004.1.1

　既成のcorpusは、いずれも収集されている用例が、自分のビジネス領域とは無関係な領域のものになりがちです。これでは、自分の専門領域ではどうなのか？といいう疑問がわきます。せめて、たとえば「米語で、ビジネスで使われる書き言葉」程度は限定したくなります。

　そこで、オリジナルのcorpusの作り方を紹介します。例えば、業界雑誌の過去記事を使ってcorpusを作るのです。このcorpusなら、前回紹介した「この単語は、自分の専門領域では、辞書の記載とは異なる使われ方をされているのでは？」という疑問にも答えが見つかります。

　オリジナルcorpusは、次のような手順で作ります。

インターネットから自分の目的にかなう文章をできるだけ多くダウンロードする
上記ファイルを1つのファイルに結合する
結合したファイルをテキストフォーマットに変換する（これがcorpusです）
concordancerで上記corpusを検索する

　まず、インターネットから検索対象となる模範文章を、できるだけ多くダウンロードしましょう。業界雑誌のホームページに掲載されている記事などがよいでしょう。たとえば、Scientific Americaのホームページ（http://www.sciam.com/）をすべてダウンロードすると、ファイル容量で約30MB、単語数で約300万語のcorpusができます。ただし、このくらいの大きさですと、ADSLのようなブロードバンド環境が必要です。

　このダウンロードにはソフトウェアを使うと便利です。自動巡回のソフトウェアを使えば、リンクを自動でたどって、あるホームページを丸ごとダウンロードすることも可能です。しかも、フリーウェア（無料で公開されているソフトウェア）が使えます。

GetHTMLW　http://hp.vector.co.jp/authors/VA014425/main.html

　ここで大事なのは、必要なフォーマット（.txt, .htm, .html）のファイルだけを節度を持ってダウンロードすることです。画像データのようにcorpus作成に無関係なデータをダウンロードしないようにオプションを設定しておきましょう。なお、pdfファイルは、テキストに一括で変換できませんので、corpusを作るには不向きです。また、サーバーに負荷をかけすぎないように、節度を持ってダウンロードするよう心がけましょう。

　必要なファイルがダウンロードできたら、これらのファイルを1つに結合します。ダウンロードしたホームページは、階層構造になっている上、1ページが1ファイルになっているので、corpusとしては使いづらいです。そこで、すべてのファイルをソフトウェアで、1ファイルにまとめます。これもフリーウェアがあります。

Gconnect　http://www.saney.co.jp/freeware.htm

　次に、結合したファイルをテキストファイルに変換します。ホームページのファイルはhtmlですから、結合しただけですと、まだタグと呼ばれる不要な情報が含まれています。このタグをソフトウェアで取り去って、テキストファイルに変換します。これにもフリーウェアが使えます。

HtoX32　http://win32lab.com/

　これでcorpusが完成です。これでやっと本来の目的であるconcordancerでの検索ができるようになります。

　corpusは、情報源や内容、作成年月日ごとに分けて管理しましょう。すべてを1つのファイルにしてしまうと、科学技術論文も時事英語も区別がつかなくなります。また、言語は時代とともに変わりますので、作成年月日ごとに分けておくと、長い目で見て便利です。

　concordancerにはいろいろありますが、以下の3つがお勧めです。いずれも有料ですが、試用できますので、特徴を理解してお求めになるとよいでしょう。

WordSmith（￡51.95）

concordancerとしては世界的に最も有名です。
http://www.lexically.net/wordsmith/

TXTANA（12,000円）

日本製としては最も有名。品質も非常に高いです。
http://www.biwa.ne.jp/~aka-san/

Corpus Wizard（3,000円）

品質はやや劣るものの、値段が魅力です。
http://www2d.biglobe.ne.jp/~htakashi/index.html