オリジナルCorpusの作り方 2004.1.1
既成のcorpusは、いずれも収集されている用例が、自分のビジネス領域とは無関係な領域のものになりがちです。これでは、自分の専門領域ではどうなのか?といいう疑問がわきます。せめて、たとえば「米語で、ビジネスで使われる書き言葉」程度は限定したくなります。
そこで、オリジナルのcorpusの作り方を紹介します。例えば、業界雑誌の過去記事を使ってcorpusを作るのです。このcorpusなら、前回紹介した「この単語は、自分の専門領域では、辞書の記載とは異なる使われ方をされているのでは?」という疑問にも答えが見つかります。
オリジナルcorpusは、次のような手順で作ります。
まず、インターネットから検索対象となる模範文章を、できるだけ多くダウンロードしましょう。業界雑誌のホームページに掲載されている記事などがよいでしょう。たとえば、Scientific Americaのホームページ(http://www.sciam.com/)をすべてダウンロードすると、ファイル容量で約30MB、単語数で約300万語のcorpusができます。ただし、このくらいの大きさですと、ADSLのようなブロードバンド環境が必要です。
このダウンロードにはソフトウェアを使うと便利です。自動巡回のソフトウェアを使えば、リンクを自動でたどって、あるホームページを丸ごとダウンロードすることも可能です。しかも、フリーウェア(無料で公開されているソフトウェア)が使えます。
ここで大事なのは、必要なフォーマット(.txt, .htm, .html)のファイルだけを節度を持ってダウンロードすることです。画像データのようにcorpus作成に無関係なデータをダウンロードしないようにオプションを設定しておきましょう。なお、pdfファイルは、テキストに一括で変換できませんので、corpusを作るには不向きです。また、サーバーに負荷をかけすぎないように、節度を持ってダウンロードするよう心がけましょう。
必要なファイルがダウンロードできたら、これらのファイルを1つに結合します。ダウンロードしたホームページは、階層構造になっている上、1ページが1ファイルになっているので、corpusとしては使いづらいです。そこで、すべてのファイルをソフトウェアで、1ファイルにまとめます。これもフリーウェアがあります。
次に、結合したファイルをテキストファイルに変換します。ホームページのファイルはhtmlですから、結合しただけですと、まだタグと呼ばれる不要な情報が含まれています。このタグをソフトウェアで取り去って、テキストファイルに変換します。これにもフリーウェアが使えます。
これでcorpusが完成です。これでやっと本来の目的であるconcordancerでの検索ができるようになります。
corpusは、情報源や内容、作成年月日ごとに分けて管理しましょう。すべてを1つのファイルにしてしまうと、科学技術論文も時事英語も区別がつかなくなります。また、言語は時代とともに変わりますので、作成年月日ごとに分けておくと、長い目で見て便利です。
concordancerにはいろいろありますが、以下の3つがお勧めです。いずれも有料ですが、試用できますので、特徴を理解してお求めになるとよいでしょう。
WordSmith(£51.95)
TXTANA(12,000円)
Corpus Wizard(3,000円)
|