市販のCorpusの紹介 2004.1.1
既成のcorpusには、WEBの検索エンジン、WEBのオンラインサービス、市販CD-ROMの3種類があります。
WEBの検索エンジンは、最も簡単に利用できるcorpusです。Google (http://www.google.com/en)やLycos (http://www.lycos.com/)のようなロボット型検索エンジンは、世界中のホームページを自動巡回してデータベースを作成しています。このエンジンをcorpusとして使うのです。
たとえば、Yes/No Questionに対する返事では、"No, it’s not"が"No, it isn't"よりも一般的といわれていますが、これを検証してみましょう。この2つの表現をGoogleで検索してみると、前者は約183,000件で、後者は約56,700件と、3倍以上の使われ方の差があることがわかります。
検索エンジンを使うのは簡単ではありますが、それだけ制限もあります。まず、ネイティブの書いた英語である保証がありません。堅い口調も話し口調も混在です。自分のビジネス領域とは無関係な領域のサンプルが圧倒的多数となります。
そこで、ある程度統一性のあるデータで簡単に使えるのが、ホームページ上のcorpusサービスです。以下に、主なcorpusサービスを紹介します。いずれも無料で使用できますが、本格的に使うには有料サービスを受ける必要があります。
BNC ON-LINE(http://thetis.bl.uk/lookup.html)
WordbanksOnline(http://www.cobuild.collins.co.uk/wbinfo.asp)
さらに、onlineではなく、自分のPCで使いたいという方には、corpusとconcordancerのセットが市販されています。ただし、付属のconcordancerでは、この記事で紹介しているような使い方ができないものもあります。何ができるかを確認のうえ、お求めください。
Collins Cobuild on CD-ROM(3,840円) http://www.nichigai.co.jp/translator/detail1a.html
COBUILD English Collocations($55.00) http://www.elearnaid.com/coldic.html
British National Corpus(£50) http://info.ox.ac.uk/bnc/
|