PP-Checker: プログラミング教育における大規模言語モデルと協調した曖昧性のある自動採点システム

4.6K Views

December 14, 24

#llm #プログラミング #プログラミング支援 #支援 #大規模言語モデル #プログラミング教育 #自動採点 #フィードバック #ユーザビリティ #LLM

スライド概要

PP-Checkerは、プログラミング教育において大規模言語モデル(LLM)と人間の協調により効率的な自動採点を実現するシステムです。このシステムは、リアルタイムでフィードバックを提供し、学生の再提出までの時間を大幅に短縮しました。また、実運用の結果として高いユーザビリティが確認されており、今後はより多様なプログラミング言語への対応が予定されています。
PP-Checkerへの興味を持つ方は、ご連絡お待ちしております。
https://nkmr-lab.org/contact

Nakamura Laboratory (Meiji University)

@nkmr-lab

スライド一覧

明治大学総合数理学部先端メディアサイエンス学科中村聡史研究室

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

周辺視野に対するぼかしエフェクトが作業時の集中力に及ぼす影響の調査

Nakamura Laboratory (Meiji University) 25.6K

商品選択においてフォントがユーザの選択行動に及ぼす影響の調査

Nakamura Laboratory (Meiji University) 17.1K

手書きとフォントの文字形状の違いによる記憶効果の比較

Nakamura Laboratory (Meiji University) 17.1K

Make-up FLOW 2.0: 美容系YouTuberの化粧フローチャートの共有・取り入れ手法

化粧メイク化粧工程フローチャート美容系youtuber 取り入れ

Nakamura Laboratory (Meiji University) 15.6K

周辺視野における妨害刺激の減衰が集中度に及ぼす影響

Nakamura Laboratory (Meiji University) 14.1K

色覚特性を考慮したゲームの有利不利制御のAmong Usを用いた検証

色覚多様性者模擬フィルタ色のハンディキャップオンラインゲーム

Nakamura Laboratory (Meiji University) 12.8K

各ページのテキスト

PP-Checker: プログラミング教育における大規模言語モデルと協調した曖昧性のある自動採点システム関口祐豊中村聡史明治大学 1

プログラミング講義の課題このような動的なプログラムの課題の採点は課題の必要要件を満たしてるか実行して操作する必要があり手間がかかる 2

プログラミング課題 TAはプログラムをダウンロードして実行し， Googleスプレッドシートに飛んで，要件を満たしてるか確認して，点数を入力して，間違いがあればそのコメントをTAや教員が考えて入力して… 学生は自分の課題をTAがチェックするまで長い時間待つ必要がある 3

PP-Checker 〜提出（学生用）〜 4

PP-Checker 〜採点（TA・教員用）〜 5

本研究の貢献 1. インタラクティブな言語に対応した自動採点システムを実装し 123名の学生と10名のTA，4名の教員に4ヶ月間の実運用を行った 2. フィードバックを受けた学生の再提出までの平均時間が大幅に短縮 3. SUSスコアは76.4と高いユーザビリティを持つシステムである 6

背景〜プログラミング教育〜学生・TA・教員の人数比の偏りが講議運営に影響を与えている可能性今年も明治大学総合数理学部先端メディアサイエンス学科では 123人の学生と10人のTA，4人の教員の構成でプログラミングの授業が行われた 7

背景〜採点業務〜課題採点は迅速に行うことが学生の学習意欲向上につながる [Clune+ 2020] しかし，学生の人数が多い場合，全学生の課題を迅速に採点することは難しい [Boud+ 2012] 学生への迅速なフィードバックが必要 J. Clune, V. Ramamurthy, R. Martins, andU. A. Acar. Program equivalence for assisted grading of functional programs. In the Proceedings of the ACM on Programming Languages, 4(171):1–29, 2020. D. Boud and E. Molloy. Feedback in Higher and Professional Education. Routledge, 2012. 8

背景〜自動採点〜 ArTEMiS [Krusche+ 2018] PETCHA [Queiros+ 2012] Track [新田+ 2019] アルゴリズム問題などに対して定義したテストケースで自動採点 S. Krusche and A. Seitz. ArTEMiS: An Automatic Assessment Management System for Interactive Learning. In Proceedings of the 49th ACM Technical Symposium on Computer Science Education (SIGCSE’18), pp. 284–289, 2018. R. A. P. Queiros and J. P. Leal. PETCHA: a programming exercises teaching assistant. In Proceedings of the 17th ACM annual conference on Innovation and technology in computer science education (ITiCSE’12), pp. 192–197, 2012. 新田章太, 小西俊司, 竹内郁雄. 複数言語に対応しやすいオンラインプログラミング学習・試験システム track. 情報処理学会情報教育シンポジウム論文集, pp. 114–121, 2019. 9

10.

背景〜自動採点〜 ArTEMiS [Krusche+ 2018] PETCHA [Queiros+ 2012] Track [新田+ 2019] テストケースを課題毎に準備するのは負担が大きい Processingなどの動的かつ視覚的なプログラムに対応するのは難しい従来，定義されたテストケースや短冊型問題に対して自動採点 S. Krusche and A. Seitz. ArTEMiS: An Automatic Assessment Management System for Interactive Learning. In Proceedings of the 49th ACM Technical Symposium on Computer Science Education (SIGCSE’18), pp. 284–289, 2018. R. A. P. Queiros and J. P. Leal. PETCHA: a programming exercises teaching assistant. In Proceedings of the 17th ACM annual conference on Innovation and technology in computer science education (ITiCSE’12), pp. 192–197, 2012. 新田章太, 小西俊司, 竹内郁雄. 複数言語に対応しやすいオンラインプログラミング学習・試験システム track. 情報処理学会情報教育シンポジウム論文集, pp. 114–121, 2019. 10

11.

PP-Checker 人間とLLMの協調によりインタラクティブなプログラミング言語に対応し採点業務の効率化を目的とした自動採点システム提出画面（学生用）採点画面（TA・教員用） 11

12.

PP-Checkerの必要要件即時性 …LLMを活用した早期採点で迅速なフィードバックを提供正確性 …TAや教員がプロンプトをリアルタイムに変更できる機能 → 講義開始前に完璧なプロンプトを用意できなくても講義中にリアルタイムで採点精度を調整できる曖昧性 …具体的な正答は示さない曖昧性を残したフィードバック学生がLLMの指摘を受け入れるか否かを選択 → LLMの指摘を参考にしつつ，自らの判断を信頼できる 12

13.

実験授業：明治大学総合数理学部先端メディアサイエンス学科1年次対象の必修科目であるプログラミング演習I（100分2コマ）期間：2024年4月15日〜7月22日（計12回）利用者：学生123名（再履修者を含む），TA10名，教員4名実験内容：PP-Checkerを用いて課題提出や採点業務を行う 13

14.

結果〜提出回数と時間の分析〜 TA採点後再提出約 20.3分 LLMフィードバック後再提出約 3.6分時間（秒）基本課題37問に対して，6,415回の提出があった … 1,491回はLLMによるフィードバックを受けた時点で学生が自主的に課題を取り下げている TAの採点を受け再提出再提出までの時間が大幅に削減 LLMのフィードバックを受け再提出 14

15.

再提出までの時間・提案手法：12.3分・従来手法：30.9分時間（秒）結果〜昨年度(115人)の課題と今年度(123人)の課題での比較〜課題達成までの時間・提案手法：48.2分・従来手法：58.9分 PP-Checker 再提出時間従来手法再提出時間 PP-Checker 課題達成時間再提出までの時間と課題達成までの時間が大幅に削減従来手法課題達成時間 15

16.

結果〜プロンプト変更による精度の分析〜第5回以降の課題で82回のプロンプト変更 <精度> 変更前：60.4% 変更後：60.7% <課題ごとの分析> - 変更前の精度が60%以下の場合，変更後のプロンプトの9割が精度増初期精度33.3%のプロンプトが変更後72.9%に向上したものもあった - 変更前の精度が80%以上の場合，変更後のプロンプトの8割が精度減 16

17.

結果〜SUSと学生アンケート（114名）〜 System Usability Scale (SUS) [Brooke+ 1995] - 76.4 システムの使用感において高い評価 <無記名アンケート結果> - 授業の進行に伴い，フィードバックから修正のヒントを得る経験が徐々に低下する傾向 - 後半でも57%以上の学生にとって半分以上のフィードバックが有用 J. Brooke. SUS: A quick and dirty usability scale. Usability Eval. Ind., 189, 11 1995. 17

18.

今後の展望・Processing以外の言語への対応・コードだけでなく実行画面の画像もプロンプトに反映 → 視覚的，動的な要素に対応 21

19.

体験 https://ppc.nkmr.io/wiss PP-Checkerの導入など興味のある方はぜひお声掛けくださいこの後，A-08でデモ発表を行います 22

https://ppc.nkmr.io/wiss