HTMLからCorpusを作成する 2004.2.13 ホームページからダウンロードしただけでは、htmlファイルがバラバラに存在するだけです。今回は、このhtmlファイルを1つに結合して、テキストファイルに変換して、corpusを完成させる手順を説明します。 まず、複数のhtmlファイルを1つに結合するソフトウェアを入手します。ここでは、次のフリーウェアを使いましょう。 Gconnect (http://www.saney.co.jp/freeware.htm) Gconnectを起動したら、「ファイルリスト」の項に、結合したいファイルを指定します。ファイルを1つずつ指定していたのでは日が暮れてしまいますので、エクスプローラを使っていっぺんに指定しましょう。 そのためには、エクスプローラの検索機能を使います。以下の手順で、ダウンロードしたすべてのhtmlファイルを選択しましょう。(以下、windows XPで説明します)
選択したファイルを、Gconnectの「ファイルリスト」の項にドラッグ&ドロップします。これで、結合したいファイル指定できました。 次に、「作成ファイル」の項に、結合後のファイル名を記入します(次図参照)。これで準備ができましたので、「作成(C)」ボタンを押せば、結合ファイルができあがります。
次に、この結合ファイルから不要な情報を取り除きます。htmlファイルは、文章情報以外にホームページで表示するために必要なタグ情報を含んでいます。このタグ情報は不要ですから削除して、純粋な文章情報だけのファイル、つまりテキストファイルにするのです。ここでは、次のフリーウェアを使いましょう。 HtoX32 (http://win32lab.com/) HtoX32を起動(下図参照)したら、エクスプローラから、先の手順で作成した結合ファイルをHtoX32にドラッグ&ドロップするだけです。同じディレクトリに、テキストファイルが作成されます。このテキストファイルがcorpusです。 corpusは、あなたの使い方次第で、どんな辞書や参考書よりも便利なツールになります。ぜひ活用してみてください。 |