PP-Checker: プログラミング教育における大規模言語モデルと協調した曖昧性のある自動採点システム

2.6K Views

December 14, 24

スライド概要

PP-Checkerは、プログラミング教育において大規模言語モデル(LLM)と人間の協調により効率的な自動採点を実現するシステムです。このシステムは、リアルタイムでフィードバックを提供し、学生の再提出までの時間を大幅に短縮しました。また、実運用の結果として高いユーザビリティが確認されており、今後はより多様なプログラミング言語への対応が予定されています。
PP-Checkerへの興味を持つ方は、ご連絡お待ちしております。
https://nkmr-lab.org/contact

profile-image

明治大学 総合数理学部 先端メディアサイエンス学科 中村聡史研究室

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

PP-Checker: プログラミング教育における大規模言語モデルと 協調した曖昧性のある自動採点システム 関口祐豊 中村聡史 明治大学 1

2.

プログラミング講義の課題 このような動的なプログラムの課題の採点は 課題の必要要件を満たしてるか実行して操作する必要があり手間がかかる 2

3.

プログラミング課題 TAはプログラムをダウンロードして実行し, Googleスプレッドシートに飛んで, 要件を満たしてるか確認して,点数を入力して, 間違いがあればそのコメントをTAや教員が考えて入力して… 学生は自分の課題をTAがチェックするまで長い時間待つ必要がある 3

4.

PP-Checker 〜提出(学生用)〜 4

5.

PP-Checker 〜採点(TA・教員用)〜 5

6.

本研究の貢献 1. インタラクティブな言語に対応した自動採点システムを実装し 123名の学生と10名のTA,4名の教員に4ヶ月間の実運用を行った 2. フィードバックを受けた学生の再提出までの平均時間が大幅に短縮 3. SUSスコアは76.4と高いユーザビリティを持つシステムである 6

7.

背景 〜プログラミング教育〜 学生・TA・教員の人数比の偏りが 講議運営に影響を与えている可能性 今年も明治大学総合数理学部先端メディアサイエンス学科では 123人の学生と10人のTA,4人の教員の構成で プログラミングの授業が行われた 7

8.

背景 〜採点業務〜 課題採点は迅速に行うことが学生の学習意欲向上につながる [Clune+ 2020] しかし,学生の人数が多い場合, 全学生の課題を迅速に採点することは難しい [Boud+ 2012] 学生への迅速なフィードバックが必要 J. Clune, V. Ramamurthy, R. Martins, andU. A. Acar. Program equivalence for assisted grading of functional programs. In the Proceedings of the ACM on Programming Languages, 4(171):1–29, 2020. D. Boud and E. Molloy. Feedback in Higher and Professional Education. Routledge, 2012. 8

9.

背景 〜自動採点〜 ArTEMiS [Krusche+ 2018] PETCHA [Queiros+ 2012] Track [新田+ 2019] アルゴリズム問題などに対して定義したテストケースで自動採点 S. Krusche and A. Seitz. ArTEMiS: An Automatic Assessment Management System for Interactive Learning. In Proceedings of the 49th ACM Technical Symposium on Computer Science Education (SIGCSE’18), pp. 284–289, 2018. R. A. P. Queiros and J. P. Leal. PETCHA: a programming exercises teaching assistant. In Proceedings of the 17th ACM annual conference on Innovation and technology in computer science education (ITiCSE’12), pp. 192–197, 2012. 新田章太, 小西俊司, 竹内郁雄. 複数言語に対応しやすいオンラインプログラミング学習・試験システム track. 情報処理学会 情報教育シンポジウム論文 集, pp. 114–121, 2019. 9

10.

背景 〜自動採点〜 ArTEMiS [Krusche+ 2018] PETCHA [Queiros+ 2012] Track [新田+ 2019] テストケースを課題毎に準備するのは負担が大きい Processingなどの動的かつ視覚的なプログラムに 対応するのは難しい 従来,定義されたテストケースや短冊型問題に対して自動採点 S. Krusche and A. Seitz. ArTEMiS: An Automatic Assessment Management System for Interactive Learning. In Proceedings of the 49th ACM Technical Symposium on Computer Science Education (SIGCSE’18), pp. 284–289, 2018. R. A. P. Queiros and J. P. Leal. PETCHA: a programming exercises teaching assistant. In Proceedings of the 17th ACM annual conference on Innovation and technology in computer science education (ITiCSE’12), pp. 192–197, 2012. 新田章太, 小西俊司, 竹内郁雄. 複数言語に対応しやすいオンラインプログラミング学習・試験システム track. 情報処理学会 情報教育シンポジウム論文 集, pp. 114–121, 2019. 10

11.

PP-Checker 人間とLLMの協調によりインタラクティブなプログラミング言語に対応し 採点業務の効率化を目的とした自動採点システム 提出画面(学生用) 採点画面(TA・教員用) 11

12.

PP-Checkerの必要要件 即時性 …LLMを活用した早期採点で迅速なフィードバックを提供 正確性 …TAや教員がプロンプトをリアルタイムに変更できる機能 → 講義開始前に完璧なプロンプトを用意できなくても 講義中にリアルタイムで採点精度を調整できる 曖昧性 …具体的な正答は示さない曖昧性を残したフィードバック 学生がLLMの指摘を受け入れるか否かを選択 → LLMの指摘を参考にしつつ,自らの判断を信頼できる 12

13.

実験 授業:明治大学総合数理学部先端メディアサイエンス学科1年次対象の 必修科目であるプログラミング演習I(100分2コマ) 期間:2024年4月15日〜7月22日(計12回) 利用者:学生123名(再履修者を含む),TA10名,教員4名 実験内容:PP-Checkerを用いて課題提出や採点業務を行う 13

14.

結果 〜提出回数と時間の分析〜 TA採点後再提出 約 20.3分 LLMフィードバック後再提出 約 3.6分 時間(秒) 基本課題37問に対して,6,415回の提出があった … 1,491回はLLMによるフィードバックを受けた時点で 学生が自主的に課題を取り下げている TAの採点を受け再提出 再提出までの時間が大幅に削減 LLMのフィードバックを 受け再提出 14

15.

再提出までの時間 ・提案手法:12.3分 ・従来手法:30.9分 時間(秒) 結果 〜昨年度(115人)の課題と今年度(123人)の課題での比較〜 課題達成までの時間 ・提案手法:48.2分 ・従来手法:58.9分 PP-Checker 再提出時間 従来手法 再提出時間 PP-Checker 課題達成時間 再提出までの時間と課題達成までの時間が大幅に削減 従来手法 課題達成時間 15

16.

結果 〜プロンプト変更による精度の分析〜 第5回以降の課題で82回のプロンプト変更 <精度> 変更前:60.4% 変更後:60.7% <課題ごとの分析> - 変更前の精度が60%以下の場合,変更後のプロンプトの9割が精度増 初期精度33.3%のプロンプトが変更後72.9%に向上したものもあった - 変更前の精度が80%以上の場合,変更後のプロンプトの8割が精度減 16

17.

結果 〜SUSと学生アンケート(114名)〜 System Usability Scale (SUS) [Brooke+ 1995] - 76.4 システムの使用感において高い評価 <無記名アンケート結果> - 授業の進行に伴い,フィードバックから修正のヒントを得る経験が 徐々に低下する傾向 - 後半でも57%以上の学生にとって半分以上のフィードバックが有用 J. Brooke. SUS: A quick and dirty usability scale. Usability Eval. Ind., 189, 11 1995. 17

18.

今後の展望 ・Processing以外の言語への対応 ・コードだけでなく実行画面の画像もプロンプトに反映 → 視覚的,動的な要素に対応 21

19.

体験 https://ppc.nkmr.io/wiss PP-Checkerの導入など興味のある方は ぜひお声掛けください この後,A-08でデモ発表を行います 22