Menu Close

Paper 008: CEFR-J 準拠英語教育用 web コーパスの開発

投野由紀夫(東京外国語大学);川原田将之(東京工業大学);渡辺亮嗣(ネットアドバンス);星野守(ネットアドバンス);奥村学(東京工業大学)

Keywords: CEFR, web corpus, pedagogical corpus

Abstract

本研究は、ヨーロッパ言語共通参照枠(CEFR)を日本の英語教育に適用した CEFR-J(投野, 2013)を用いて、英語教育を側面から支援する教育用コーパスを構築するプロジェクトの中間報告である。

手順としては、まず基本分野の小中高生向けの英語サイトを分野別に調査閲覧し、内容的に適切と思われるサイトのURLリストを作成した。次いで、URL を手がかりに web 上からHTMLファイルを自動取得し、収集したHTMLファイルからヘッダやフッタ等の不要な情報を取り除くため、ブロック単位と BootCatの 2方法でテキストを抽出した。センテンス数やタグ情報などの指標をもとに、これらのファイルをスクリーニングした。この時点で、4億5500万語(586,660ファイル)のテキスト・データが取得できた。

次にこれらのテキストを、CEFR-J プロジェクトの資源を用いて東京工業大学奥村研究室で作成した CEFRレベル判定ツール(English Level Checker)を用いて、CEFRレベル(A1〜C2)に自動分類した。この判定ツールは、テキスト中のCEFR-J Wordlist に基づく使用語彙レベル、主要文法事項の出現率、などをもとに機械学習されたものである。CEFRレベル判定ツールの評価を、A1〜B2各レベル20サンプルを抽出し2名の訓練された評価者により人手でCEFR評価を行い(Cohen’s Kappa=0.72) 、機械判定と比較した。結果はA1-A2, A2-B1などの隣接レベルでの誤判定がまだ多かったが、大きくAレベルとBレベルの2クラス判定では70%程度の一致度であった。

最後に小学館コーパスネットワーク(https://scnweb.japanknowledge.com/) へ搭載され、新学習指導要領に基づくCAN-DOベースの英語教育を側面から支援する言語教育資源としての意義、CEFR-Jレベルの細分化への対応など、将来的な課題にも言及する。

参考文献
投野由紀夫(編著)(2013)『CAN‐DOリスト作成・活用 英語到達度指標CEFR‐Jガイドブック』大修館書店.

Presentation video

Supplementary Information

Q&A live (Zoom) session

No longer available.

7 Comments

  1. Yukie Kondo

    ご投稿ありがとうございます。大会当日を楽しみにしております。 – Organizing committee

  2. iskwshin

    興味深い発表ありがとうございます。(1)12’04″あたり,含めるテキストを決める基準の中に「代名詞が6以上」とありますが,これはどういう理由によるフィルターだったのでしょうか? (2)Cレベルは含めなかったという点についてですが,集めた「基本分野の小中高生向けの英語サイト」の中で,システム判定でCになるものはなかったということでしょうか?(3)機械判定と人間判定のずれは興味深いところですが,機械がA2としたものを人間がBとしている例が12/33(3割以上)出ていることはどういう理由が考えられますでしょうか? (いしかわ@神戸)

    • tono

      コメント&質問ありがとうございます。
      1)こちらセッション中の星野さん(ネットアドバンス)の返答ですが、web テキストには単なるリストみたいな言語使用が大量にあり、まとまったテキストの段落などが入っているかを検査するフィルターとして代名詞が一定数以上入っていて、テキストに結束性があるというのが有効なのだそうです。6個以上というのは経験値です。
      2)いえ、C判定のテキストは若干あるのですが、CEFR-J がB2レベル判定までしか判定材料が整備されていないのと、東工大のツールがB2レベル以上の判別精度が我々のプロジェクトのコーパス材料がA1〜B2中心だったため、あまり訓練されていない、という理由で低い、ということがあります。
      3)これは現状ではまだ持ち帰ってよく吟味しないといけない点で、逆のケースもあります(人間がA2としたのに、機械がA1としたものもかなりある)。宿題とさせてください。

      ご指摘等ありがとうございました。

      • iskwshin

        ご丁寧なご回答ありがとうございました。最終版の完成,心待ちにしております。

  3. Iwahashi

    セファールA1レベルの表現がウェブ上で少ないということは、ネイティブの人や英語を第2言語として使う人向けに英語がかなりわかっているという前提でほとんどのウェブサイトが作られているが、英語教育用コーパスはセファールA1レベルの英文のデータも必要になってくると言うコーパスとウェブサイトの用途の違いによるものなのか。さらに、その部分は英語母語話者の子供向けウェブサイトで足らない例をカバーできるのか。

    • tono

      そうなんです。
      A1レベルで完結しているサイトはwebでは極めて少数のようです。おそらくそれらは普通の教科書などの教材で提示されている物が大多数なのだと思います。

      英語母語話者の子供向けwebサイトを我々も収集していますが、難易度は案外高く、A1レベルとするにはかなり語彙は難しい者が多いです。

      A1があまりwebコーパスだと取って来れないというのが現在の我々の課題です。
      コメントありがとうございました。

Comments are closed.