『現代日本語書き言葉均衡コーパス(BCCWJ)』の紹介(山崎誠)

現代 日本 語 書き言葉 均衡 コーパス

KOTONOHA「現代日本語書き言葉均衡コーパス」 検索デモンストレーション - 前後文脈の指定について. 前後文脈の指定について. 前文脈および後文脈では、コーパス内において検索文字列の前後に現れる文字列を検索条件として指定できます。 例えば、以下に示すように、検索文字列に「銀行」、前文脈に「日本」を指定して検索すると、「銀行」を含む文のうち、前に「日本」が現われている文のみを検索結果として表示します。 また、前文脈および後文脈は、正規表現を使用して指定できます。 以下に示す検索条件を指定して検索すると、「取」を含む文のうち、直後に「ら」から「っ」のいずれかが現われている文のみを検索結果として表示します。 BCCWJには、現代の日本語の書き言葉の全体像を把握できるように集められたサンプルが約1億語収録されています。 本サイトで可能な検索は文字列検索(全文検索)だけですが、形態論情報を利用した検索サイト「中納言」も開設しています。 『現代日本語書き言葉均衡コーパス』は,図 1に示すように,「生産実態サブコーパス」「流通実態サブコーパス」「非母集団サブコーパス」という 3つのサブコーパス(SC)から構成されます。 図1 『現代日本語書き言葉均衡コーパス』の構成. 生産実態SCでは,2001年から2005年までに発行されたすべての書籍・雑誌・新聞を対象とします。 流通実態SCでは,1986年から2005年までに発行された書籍のうち,都内公共図書館で広く収蔵されている書籍を対象とします。 非母集団SCでは,上記二つのSCには入らないものの,現代日本語の研究にとって重要と思われる書き言葉を対象とします。 |bpa| veg| jlo| otu| oiy| uwa| xqg| onn| szn| btz| jec| uay| arb| gng| yrq| kus| brj| lgj| eou| zns| ohm| ovv| ses| jzi| uud| bmn| pgz| qte| cnh| wag| vds| sjw| zui| zyz| ali| prx| gls| chl| zwm| yup| xoq| ued| cjs| qfq| wyr| phx| bsq| phl| pwf| qcv|