Corpusの概要 2004.1.1
corpusとは、ある特定の方針で集められた、コンピュータ処理可能な文例集のことです。このcorpusを使うと、Non-nativeにはわからない英語の疑問が、たちどころに解消します。
みなさんは次のような疑問を持ったことはないでしょうか?私は、こういう疑問によくぶちあたります。
しかし、これらの疑問に答えられるのは、ネイティブもしくはネイティブなみに英語に達者な人だけです。場合によっては、ネイティブでも確信を持って答えられないかもしれません。こういった疑問に答えてくれるのがcorpusなのです。
こんな説明をすると何か難しいもののような気がするかもしれませんが、corpusはいたって単純です。要はコンピュータで処理できる文例集(言語不問)です。多くの場合、テキストフォーマットで十分です。たとえば、学会の論文集がテキストになっていれば、立派なcorpusです。そのほか、雑誌の記事や小説など、corpusの種はいくらでもあります。
この文例集であるcorpusをconcordancerと呼ばれるソフト(下図参照)で検索するのです。concordancing programとは、corpusをデータベースとした検索ソフトです。concordancing programの特徴としては、検索した語をその前後を含めて表示できることと、言語学的な統計処理機能を有することがあげられます。
このcorpusとconcordancing program を使うと、先に上げた疑問に対する答えが見つかります。つまり、問題としている表現が一般的に使われているか、ある単語と一緒に使われる形容詞や動詞は何か、などを調べられるのです。
疑問1
科学雑誌Natureに掲載された論文をcorpusとして検索(約300万語)してみると、proposeの後に続くthat節の中でshouldが使われることもなければ、仮定法現在も一般的ではなく、現在形が圧倒的に多いことがわかります。(現在形が正規な用法ということではなく、そのような使われ方が主流ということ)
疑問2
そこで、米雑誌TIMEの記事をcorpusとして検索(約340万語)してみると、relationshipは repairやrestoreと一緒に使われることはなく、mendと一緒に使われることがわかります。
このようにcorpusは、使い方次第でどんな辞書や参考書よりも便利なツールになります。 |