市販のCorpusの紹介

2004.1.1

 

 既成のcorpusには、WEBの検索エンジン、WEBのオンラインサービス、市販CD-ROMの3種類があります。

 

  WEBの検索エンジンは、最も簡単に利用できるcorpusです。Google (http://www.google.com/en)やLycos (http://www.lycos.com/)のようなロボット型検索エンジンは、世界中のホームページを自動巡回してデータベースを作成しています。このエンジンをcorpusとして使うのです。

 

  たとえば、Yes/No Questionに対する返事では、"No, it’s not"が"No, it isn't"よりも一般的といわれていますが、これを検証してみましょう。この2つの表現をGoogleで検索してみると、前者は約183,000件で、後者は約56,700件と、3倍以上の使われ方の差があることがわかります。

 

  検索エンジンを使うのは簡単ではありますが、それだけ制限もあります。まず、ネイティブの書いた英語である保証がありません。堅い口調も話し口調も混在です。自分のビジネス領域とは無関係な領域のサンプルが圧倒的多数となります。

 

  そこで、ある程度統一性のあるデータで簡単に使えるのが、ホームページ上のcorpusサービスです。以下に、主なcorpusサービスを紹介します。いずれも無料で使用できますが、本格的に使うには有料サービスを受ける必要があります。

 

BNC ON-LINE(http://thetis.bl.uk/lookup.html)

制限はありますが、1億語のcorpusを無料で使用できます。

WordbanksOnline(http://www.cobuild.collins.co.uk/wbinfo.asp)

英英辞書で有名なCobuild社のコーパス(Bank of English)の一部、56百万語を検索できます。

  さらに、onlineではなく、自分のPCで使いたいという方には、corpusとconcordancerのセットが市販されています。ただし、付属のconcordancerでは、この記事で紹介しているような使い方ができないものもあります。何ができるかを確認のうえ、お求めください。

 

Collins Cobuild on CD-ROM(3,840円) http://www.nichigai.co.jp/translator/detail1a.html

辞書+シソーラス+500万語のcorpus+more

COBUILD English Collocations($55.00) http://www.elearnaid.com/coldic.html

用例数260万のcorpus + concordancer

British National Corpus(£50) http://info.ox.ac.uk/bnc/

1億語のcorpus + concordancer