HTMLからCorpusを作成する

2004.2.13

 ホームページからダウンロードしただけでは、htmlファイルがバラバラに存在するだけです。今回は、このhtmlファイルを1つに結合して、テキストファイルに変換して、corpusを完成させる手順を説明します。

 まず、複数のhtmlファイルを1つに結合するソフトウェアを入手します。ここでは、次のフリーウェアを使いましょう。

Gconnect (http://www.saney.co.jp/freeware.htm

 Gconnectを起動したら、「ファイルリスト」の項に、結合したいファイルを指定します。ファイルを1つずつ指定していたのでは日が暮れてしまいますので、エクスプローラを使っていっぺんに指定しましょう。

 そのためには、エクスプローラの検索機能を使います。以下の手順で、ダウンロードしたすべてのhtmlファイルを選択しましょう。(以下、windows XPで説明します)

  1. ダウンロードしたファイルの保存先に移動

  2. エクスプローラの検索ボタンを押す

  3. 「ファイルとフォルダすべて」を選択

  4. ファイル名に「*.htm*」を指定して検索(下図参照)

  5. Ctrl-Aを押して全ファイルを選択

 

 選択したファイルを、Gconnectの「ファイルリスト」の項にドラッグ&ドロップします。これで、結合したいファイル指定できました。

 次に、「作成ファイル」の項に、結合後のファイル名を記入します(次図参照)。これで準備ができましたので、「作成(C)」ボタンを押せば、結合ファイルができあがります。

 

 次に、この結合ファイルから不要な情報を取り除きます。htmlファイルは、文章情報以外にホームページで表示するために必要なタグ情報を含んでいます。このタグ情報は不要ですから削除して、純粋な文章情報だけのファイル、つまりテキストファイルにするのです。ここでは、次のフリーウェアを使いましょう。

HtoX32 (http://win32lab.com/

 HtoX32を起動(下図参照)したら、エクスプローラから、先の手順で作成した結合ファイルをHtoX32にドラッグ&ドロップするだけです。同じディレクトリに、テキストファイルが作成されます。このテキストファイルがcorpusです。

 corpusは、あなたの使い方次第で、どんな辞書や参考書よりも便利なツールになります。ぜひ活用してみてください。