PP-Checker: 大規模言語モデルとの協調によるプログラミング教育円滑化手法と実践

1K Views

March 21, 25

#プログラミング教育 #自動採点 #大規模言語モデル #LLM #教育工学

スライド概要

Nakamura Laboratory (Meiji University)

@nkmr-lab

スライド一覧

明治大学総合数理学部先端メディアサイエンス学科中村聡史研究室

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

周辺視野に対するぼかしエフェクトが作業時の集中力に及ぼす影響の調査

Nakamura Laboratory (Meiji University) 25.7K

商品選択においてフォントがユーザの選択行動に及ぼす影響の調査

Nakamura Laboratory (Meiji University) 17.3K

手書きとフォントの文字形状の違いによる記憶効果の比較

Nakamura Laboratory (Meiji University) 17.3K

Make-up FLOW 2.0: 美容系YouTuberの化粧フローチャートの共有・取り入れ手法

化粧メイク化粧工程フローチャート美容系youtuber 取り入れ

Nakamura Laboratory (Meiji University) 15.8K

周辺視野における妨害刺激の減衰が集中度に及ぼす影響

Nakamura Laboratory (Meiji University) 14.3K

色覚特性を考慮したゲームの有利不利制御のAmong Usを用いた検証

色覚多様性者模擬フィルタ色のハンディキャップオンラインゲーム

Nakamura Laboratory (Meiji University) 12.8K

各ページのテキスト

PP-Checker: 大規模言語モデルとの協調によるプログラミング教育円滑化手法と実践明治大学大学院先端数理科学研究科中村聡史研究室関口祐豊（学籍番号：2722232022） 1

プログラミング講義の課題 - 離脱率の高さや学習意欲の低下このような動的なプログラムの課題の採点は課題の必要要件を満たしてるか実行して操作する必要があり手間がかかる 2

プログラミング講義の課題 TAはプログラムをダウンロードして実行し， Googleスプレッドシートに飛んで，要件を満たしてるか確認して，点数を入力して，間違いがあればそのコメントをTAや教員が考えて入力して… 学生は自分の課題をTAがチェックするまで長い時間待つ必要がある 3

PP-Checker 〜提出（学生用）〜 4

PP-Checker 〜採点（TA・教員用）〜 5

背景〜プログラミング教育〜 CSにおける入門プログラミング講義の受講者数が急増 [Tracy+ 2017] 学生・TA・教員の人数比の偏りが講義運営に影響を与えている可能性 Tracy Camp, W. Richards Adrion, Betsy Bizot, Susan Davidson, Mary Hall, Susanne Hambrusch, Ellen Walker, and Stuart Zweben. 2017. Generation CS: the growth of computer science. ACM Inroads 8, 2 (May 2017), 44–50. https://doi.org/10.1145/3084362 7

背景〜採点業務〜課題採点は迅速に行うことが学生の学習意欲向上につながる [Clune+ 2020] しかし，学生の人数が多い場合，全学生の課題を迅速に採点することは難しい [Boud+ 2012] 学生への迅速なフィードバックが必要 J. Clune, V. Ramamurthy, R. Martins, andU. A. Acar. Program equivalence for assisted grading of functional programs. In the Proceedings of the ACM on Programming Languages, 4(171):1–29, 2020. D. Boud and E. Molloy. Feedback in Higher and Professional Education. Routledge, 2012. 8

背景〜自動採点〜 ArTEMiS [Krusche+ 2018] PETCHA [Queiros+ 2012] Track [新田+ 2019] アルゴリズム問題などに対して定義したテストケースで自動採点 S. Krusche and A. Seitz. ArTEMiS: An Automatic Assessment Management System for Interactive Learning. In Proceedings of the 49th ACM Technical Symposium on Computer Science Education (SIGCSE’18), pp. 284–289, 2018. R. A. P. Queiros and J. P. Leal. PETCHA: a programming exercises teaching assistant. In Proceedings of the 17th ACM annual conference on Innovation and technology in computer science education (ITiCSE’12), pp. 192–197, 2012. 新田章太, 小西俊司, 竹内郁雄. 複数言語に対応しやすいオンラインプログラミング学習・試験システム track. 情報処理学会情報教育シンポジウム論文集, pp. 114–121, 2019. 9

背景〜自動採点〜 ArTEMiS [Krusche+ 2018] PETCHA [Queiros+ 2012] Track [新田+ 2019] テストケースを課題毎に準備するのは負担が大きい Processingなどの動的かつ視覚的なプログラムに対応するのは難しい従来，定義されたテストケースや短冊型問題に対して自動採点 S. Krusche and A. Seitz. ArTEMiS: An Automatic Assessment Management System for Interactive Learning. In Proceedings of the 49th ACM Technical Symposium on Computer Science Education (SIGCSE’18), pp. 284–289, 2018. R. A. P. Queiros and J. P. Leal. PETCHA: a programming exercises teaching assistant. In Proceedings of the 17th ACM annual conference on Innovation and technology in computer science education (ITiCSE’12), pp. 192–197, 2012. 新田章太, 小西俊司, 竹内郁雄. 複数言語に対応しやすいオンラインプログラミング学習・試験システム track. 情報処理学会情報教育シンポジウム論文集, pp. 114–121, 2019. 10

10.

PP-Checker (WISS2024) 人間とLLMの協調によりインタラクティブなプログラミング言語に対応し採点業務の効率化を目的とした自動採点システム提出画面（学生用）採点画面（TA・教員用）関口祐豊, 中村聡史. PP-Checker: プログラミング教育における大規模言語モデルと協調した曖昧性のある自動採点システム, 第32回インタラクティブシステムとソフトウェアに関するワークショップ（WISS2024）, 2024. 11

11.

PP-Checkerの必要要件即時性 …LLMを活用した早期採点で迅速なフィードバックを提供正確性 …TAや教員がプロンプトをリアルタイムに変更できる機能 → 講義開始前に完璧なプロンプトを用意できなくても講義中にリアルタイムで採点精度を調整できる曖昧性 …具体的な正答は示さない曖昧性を残したフィードバック学生がLLMの指摘を受け入れるか否かを選択 → LLMの指摘を参考にしつつ，自らの判断を信頼できる 12

12.

運用授業：明治大学総合数理学部先端メディアサイエンス学科1年次対象の必修科目であるプログラミング演習I, Ⅱ（100分2コマ）期間：2024年4月15日〜10月14日（計16回）利用者：学生123名（Ⅱは130名），TA10名，教員4名内容：PP-Checkerを用いて課題提出や採点業務を行う 13

13.

結果〜提出回数の分析〜基本課題 46 問，発展課題 17 問，宿題 9 問合計 13,035 回の提出基本課題 46 問に対して，8,591 回の提出 … 1,799 回はLLMによるフィードバックを受けた時点で学生が自主的に課題を取り下げている 14

14.

再提出までの時間・提案手法：12.3分・従来手法：30.9分時間（秒）結果〜昨年度(115人)の課題と今年度(123人)の課題での比較〜課題達成までの時間・提案手法：48.2分・従来手法：58.9分 PP-Checker 再提出時間従来手法再提出時間 PP-Checker 課題達成時間従来手法課題達成時間再提出までの時間と課題達成までの時間がPP-Checkerにより削減 16

15.

結果〜プロンプト変更による精度の分析〜第5回以降の課題で99回のプロンプト変更 <精度> 変更前：61.9% 変更後：65.6% <課題ごとの分析> - 変更前の精度が60%以下の場合，変更後プロンプトの9割が精度増 33.3%の初期精度が変更後72.9%に向上したものもあった - 変更前の精度が80%以上の場合，変更後プロンプトの8割が精度減教員やTAにプロンプトの採点精度を可視化してあげる機能が必要 17

16.

結果〜TAアンケート（9名，春学期）〜定量評価質問項目 -2 -1 0 1 2 平均 PP-Checkerは全体的に使いやすいと思いましたか？ 0 0 0 2 7 1.78 PP-Checkerをこれからも利用したいと思いますか？ 0 0 0 1 8 1.89 PP-Checker導入前後で，採点業務の作業効率は向上しましたか？ 0 0 0 0 6 2.00 定性評価＋採点にかけていた時間を質問対応に回せるようになった＋ LLMのフィードバックによって基礎的な質問が減少したー時間に制約がある TA の業務内でプロンプト変更を行うことは難しい 18

17.

結果〜教員アンケート（2名，春学期）〜 PP-Checkerを今後も運用したいか? - 非常にそう思う：2名＋基礎的な指摘が減り教室全体のストレスが減少したー自発的な興味が確立されていない初学者におけるLLMへの依存 19

18.

結果〜SUSと学生アンケート（114名，春学期）〜 System Usability Scale (SUS) [Brooke+ 1995] システムの使用感において高い評価 - 76.4 <無記名アンケート結果> - 多くの学生にとってフィードバックが有用 - 「中間試験の提出方法よりPP-Checkerは使いやすく、個人的には満足でした。ありがとうございます。」という意見 - 標準出力に関するフィードバックの中には，たまに明らかに誤っている指摘が含まれていた J. Brooke. SUS: A quick and dirty usability scale. Usability Eval. Ind., 189, 11 1995. 21

19.

実験2 〜課題と目的〜（インタラクション2025）＜課題＞・標準出力が確率的挙動やランダム性を伴うなど出力に曖昧性が生じるものの場合は採点精度があまり高くなかった <目的> 一意解のない標準出力を伴う課題においても教員の手間を減らしつつ高精度な自動採点を可能にする 22

20.

実験2 〜提案手法〜・課題を履修者のWebブラウザ上で実行し得られた標準出力の結果を取得し，その標準出力も含めたプロンプトと想定標準出力の例や標準出力を踏まえた評価基準を含めたプロンプト構築手法＜例＞ - 素数となった回数が1300000以上1400000以下で標準出力されており、確率も出力されていること。 # 標準出力の結果 10000000回中で素数となったのは1386557回つまり素数になる確率は0.1386557 <リサーチクエスチョン> 標準出力の結果を用いることで正解が一意に定まらない標準出力を含む課題でも採点精度が向上するか 23

21.

実験2 実験内容：プログラミング演習Iにおける課題のうち，標準出力を伴う課題13個を対象に提案手法と従来のPP-Checkerによる採点精度を比較プロンプト：演習講義の最後に採用されていたもの提案手法は標準出力の結果と標準出力の例を加えたもの利用モデル：GPT-4o 合計提出数：1,561件 24

22.

実験結果2 標準出力をプロンプトに含めることで従来手法に比べ，採点精度が上昇（p < .05） 25

23.

実験結果2 13個の課題それぞれの採点精度に関する結果 13個の課題のうち10個の課題で採点精度が上昇クリック操作があり一意解のない課題3つにおいてはわずかに減少 26

24.

考察2 13個の課題それぞれの採点精度に関する結果標準出力を追加情報としてプロンプトに与えることで，実行結果の形式や変動パターンを踏まえた採点が可能になったインタラクティブな操作を含む課題採点精度は改善の余地がある 13個の課題のうち10個の課題で採点精度が上昇クリック操作があり一意解のない課題3つにおいてはわずかに減少 27

25.

博士後期課程への展望・ランダム性やインタラクティブな要素を含む課題の採点精度には改善の余地がある → コードだけでなく実行画面の画像もプロンプトに反映静的な実行画面アニメーション実行画面操作を含む実行画面・Processing以外の言語や他分野への応用 29

26.

まとめ背景・学生・TA・教員の人数比の偏り・テストケースを準備するのは負担が大きい目的・採点業務の効率化 PP-Checker ・LLMを用いた自動採点システム運用結果・再提出までの平均時間と平均課題達成時間が短縮・SUSは76.4 今後・実行画面の画像もプロンプトに反映・Processing以外の言語や他分野への対応 30