Menu Close

Category: Uncategorized

Paper 008: CEFR-J 準拠英語教育用 web コーパスの開発

Paper 008: CEFR-J 準拠英語教育用 web コーパスの開発 投野由紀夫(東京外国語大学);川原田将之(東京工業大学);渡辺亮嗣(ネットアドバンス);星野守(ネットアドバンス);奥村学(東京工業大学) Keywords: CEFR, web corpus, pedagogical corpus Abstract 本研究は、ヨーロッパ言語共通参照枠(CEFR)を日本の英語教育に適用した CEFR-J(投野, 2013)を用いて、英語教育を側面から支援する教育用コーパスを構築するプロジェクトの中間報告である。 手順としては、まず基本分野の小中高生向けの英語サイトを分野別に調査閲覧し、内容的に適切と思われるサイトのURLリストを作成した。次いで、URL を手がかりに web 上からHTMLファイルを自動取得し、収集したHTMLファイルからヘッダやフッタ等の不要な情報を取り除くため、ブロック単位と BootCatの 2方法でテキストを抽出した。センテンス数やタグ情報などの指標をもとに、これらのファイルをスクリーニングした。この時点で、4億5500万語(586,660ファイル)のテキスト・データが取得できた。 次にこれらのテキストを、CEFR-J プロジェクトの資源を用いて東京工業大学奥村研究室で作成した…