PP-Checker: 大規模言語モデルとの協調によるプログラミング教育円滑化手法と実践

>100 Views

March 21, 25

スライド概要

profile-image

明治大学 総合数理学部 先端メディアサイエンス学科 中村聡史研究室

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

PP-Checker: 大規模言語モデルとの協調による プログラミング教育円滑化手法と実践 明治大学大学院 先端数理科学研究科 中村聡史研究室 関口祐豊(学籍番号:2722232022) 1

2.

プログラミング講義の課題 - 離脱率の高さや学習意欲の低下 このような動的なプログラムの課題の採点は 課題の必要要件を満たしてるか実行して操作する必要があり手間がかかる 2

3.

プログラミング講義の課題 TAはプログラムをダウンロードして実行し, Googleスプレッドシートに飛んで, 要件を満たしてるか確認して,点数を入力して, 間違いがあればそのコメントをTAや教員が考えて入力して… 学生は自分の課題をTAがチェックするまで長い時間待つ必要がある 3

4.

PP-Checker 〜提出(学生用)〜 4

5.

PP-Checker 〜採点(TA・教員用)〜 5

6.

背景 〜プログラミング教育〜 CSにおける入門プログラミング講義の受講者数が急増 [Tracy+ 2017] 学生・TA・教員の人数比の偏りが 講義運営に影響を与えている可能性 Tracy Camp, W. Richards Adrion, Betsy Bizot, Susan Davidson, Mary Hall, Susanne Hambrusch, Ellen Walker, and Stuart Zweben. 2017. Generation CS: the growth of computer science. ACM Inroads 8, 2 (May 2017), 44–50. https://doi.org/10.1145/3084362 7

7.

背景 〜採点業務〜 課題採点は迅速に行うことが学生の学習意欲向上につながる [Clune+ 2020] しかし,学生の人数が多い場合, 全学生の課題を迅速に採点することは難しい [Boud+ 2012] 学生への迅速なフィードバックが必要 J. Clune, V. Ramamurthy, R. Martins, andU. A. Acar. Program equivalence for assisted grading of functional programs. In the Proceedings of the ACM on Programming Languages, 4(171):1–29, 2020. D. Boud and E. Molloy. Feedback in Higher and Professional Education. Routledge, 2012. 8

8.

背景 〜自動採点〜 ArTEMiS [Krusche+ 2018] PETCHA [Queiros+ 2012] Track [新田+ 2019] アルゴリズム問題などに対して定義したテストケースで自動採点 S. Krusche and A. Seitz. ArTEMiS: An Automatic Assessment Management System for Interactive Learning. In Proceedings of the 49th ACM Technical Symposium on Computer Science Education (SIGCSE’18), pp. 284–289, 2018. R. A. P. Queiros and J. P. Leal. PETCHA: a programming exercises teaching assistant. In Proceedings of the 17th ACM annual conference on Innovation and technology in computer science education (ITiCSE’12), pp. 192–197, 2012. 新田章太, 小西俊司, 竹内郁雄. 複数言語に対応しやすいオンラインプログラミング学習・試験システム track. 情報処理学会 情報教育シンポジウム論 文集, pp. 114–121, 2019. 9

9.

背景 〜自動採点〜 ArTEMiS [Krusche+ 2018] PETCHA [Queiros+ 2012] Track [新田+ 2019] テストケースを課題毎に準備するのは負担が大きい Processingなどの動的かつ視覚的なプログラムに 対応するのは難しい 従来,定義されたテストケースや短冊型問題に対して自動採点 S. Krusche and A. Seitz. ArTEMiS: An Automatic Assessment Management System for Interactive Learning. In Proceedings of the 49th ACM Technical Symposium on Computer Science Education (SIGCSE’18), pp. 284–289, 2018. R. A. P. Queiros and J. P. Leal. PETCHA: a programming exercises teaching assistant. In Proceedings of the 17th ACM annual conference on Innovation and technology in computer science education (ITiCSE’12), pp. 192–197, 2012. 新田章太, 小西俊司, 竹内郁雄. 複数言語に対応しやすいオンラインプログラミング学習・試験システム track. 情報処理学会 情報教育シンポジウム論 文集, pp. 114–121, 2019. 10

10.

PP-Checker (WISS2024) 人間とLLMの協調によりインタラクティブなプログラミング言語に対応し 採点業務の効率化を目的とした自動採点システム 提出画面(学生用) 採点画面(TA・教員用) 関口祐豊, 中村聡史. PP-Checker: プログラミング教育における大規模言語モデルと協調した曖昧性のある自動採点システム, 第32回インタラクティ ブシステムとソフトウェアに関するワークショップ(WISS2024), 2024. 11

11.

PP-Checkerの必要要件 即時性 …LLMを活用した早期採点で迅速なフィードバックを提供 正確性 …TAや教員がプロンプトをリアルタイムに変更できる機能 → 講義開始前に完璧なプロンプトを用意できなくても 講義中にリアルタイムで採点精度を調整できる 曖昧性 …具体的な正答は示さない曖昧性を残したフィードバック 学生がLLMの指摘を受け入れるか否かを選択 → LLMの指摘を参考にしつつ,自らの判断を信頼できる 12

12.

運用 授業:明治大学総合数理学部先端メディアサイエンス学科1年次対象の 必修科目であるプログラミング演習I, Ⅱ(100分2コマ) 期間:2024年4月15日〜10月14日(計16回) 利用者:学生123名(Ⅱは130名),TA10名,教員4名 内容:PP-Checkerを用いて課題提出や採点業務を行う 13

13.

結果 〜提出回数の分析〜 基本課題 46 問,発展課題 17 問,宿題 9 問 合計 13,035 回の提出 基本課題 46 問に対して,8,591 回の提出 … 1,799 回はLLMによるフィードバックを受けた時点で 学生が自主的に課題を取り下げている 14

14.

再提出までの時間 ・提案手法:12.3分 ・従来手法:30.9分 時間(秒) 結果 〜昨年度(115人)の課題と今年度(123人)の課題での比較〜 課題達成までの時間 ・提案手法:48.2分 ・従来手法:58.9分 PP-Checker 再提出時間 従来手法 再提出時間 PP-Checker 課題達成時間 従来手法 課題達成時間 再提出までの時間と課題達成までの時間がPP-Checkerにより削減 16

15.

結果 〜プロンプト変更による精度の分析〜 第5回以降の課題で99回のプロンプト変更 <精度> 変更前:61.9% 変更後:65.6% <課題ごとの分析> - 変更前の精度が60%以下の場合,変更後プロンプトの9割が精度増 33.3%の初期精度が変更後72.9%に向上したものもあった - 変更前の精度が80%以上の場合,変更後プロンプトの8割が精度減 教員やTAにプロンプトの採点精度を可視化してあげる機能が必要 17

16.

結果 〜TAアンケート(9名,春学期)〜 定量評価 質問項目 -2 -1 0 1 2 平均 PP-Checkerは全体的に使いやすいと 思いましたか? 0 0 0 2 7 1.78 PP-Checkerをこれからも利用したい と思いますか? 0 0 0 1 8 1.89 PP-Checker導入前後で,採点業務の 作業効率は向上しましたか? 0 0 0 0 6 2.00 定性評価 + 採点にかけていた時間を質問対応に回せるようになった + LLMのフィードバックによって基礎的な質問が減少した ー 時間に制約がある TA の業務内でプロンプト変更を行うことは難しい 18

17.

結果 〜教員アンケート(2名,春学期)〜 PP-Checkerを今後も運用したいか? - 非常にそう思う:2名 + 基礎的な指摘が減り教室全体のストレスが減少した ー 自発的な興味が確立されていない初学者におけるLLMへの依存 19

18.

結果 〜SUSと学生アンケート(114名,春学期)〜 System Usability Scale (SUS) [Brooke+ 1995] システムの使用感において高い評価 - 76.4 <無記名アンケート結果> - 多くの学生にとってフィードバックが有用 - 「中間試験の提出方法よりPP-Checkerは使いやすく、 個人的には満足でした。ありがとうございます。」という意見 - 標準出力に関するフィードバックの中には,たまに明らかに 誤っている指摘が含まれていた J. Brooke. SUS: A quick and dirty usability scale. Usability Eval. Ind., 189, 11 1995. 21

19.

実験2 〜課題と目的〜(インタラクション2025) <課題> ・標準出力が確率的挙動やランダム性を伴うなど出力に曖昧性が 生じるものの場合は採点精度があまり高くなかった <目的> 一意解のない標準出力を伴う課題においても教員の手間を減らしつつ 高精度な自動採点を可能にする 22

20.

実験2 〜提案手法〜 ・課題を履修者のWebブラウザ上で実行し得られた標準出力の結果を 取得し,その標準出力も含めたプロンプトと想定標準出力の例や 標準出力を踏まえた評価基準を含めたプロンプト構築手法 <例> - 素数となった回数が1300000以上1400000以下で標準出力されており、確率も出力されていること。 # 標準出力の結果 10000000回中で素数となったのは1386557回 つまり素数になる確率は0.1386557 <リサーチクエスチョン> 標準出力の結果を用いることで正解が一意に定まらない標準出力を 含む課題でも採点精度が向上するか 23

21.

実験2 実験内容:プログラミング演習Iにおける課題のうち,標準出力を伴う 課題13個を対象に提案手法と従来のPP-Checkerによる 採点精度を比較 プロンプト:演習講義の最後に採用されていたもの 提案手法は標準出力の結果と標準出力の例を加えたもの 利用モデル:GPT-4o 合計提出数:1,561件 24

22.

実験結果2 標準出力をプロンプトに含めることで従来手法に比べ,採点精度が上昇 (p < .05) 25

23.

実験結果2 13個の課題それぞれの採点精度に関する結果 13個の課題のうち10個の課題で採点精度が上昇 クリック操作があり一意解のない課題3つにおいてはわずかに減少 26

24.

考察2 13個の課題それぞれの採点精度に関する結果 標準出力を追加情報としてプロンプトに与えることで, 実行結果の形式や変動パターンを踏まえた採点が可能になった インタラクティブな操作を含む課題採点精度は改善の余地がある 13個の課題のうち10個の課題で採点精度が上昇 クリック操作があり一意解のない課題3つにおいてはわずかに減少 27

25.

博士後期課程への展望 ・ランダム性やインタラクティブな要素を含む課題の採点精度には改善の余地がある → コードだけでなく実行画面の画像もプロンプトに反映 静的な実行画面 アニメーション実行画面 操作を含む実行画面 ・Processing以外の言語や他分野への応用 29

26.

まとめ 背景 ・学生・TA・教員の人数比の偏り ・テストケースを準備するのは負担が大きい 目的 ・採点業務の効率化 PP-Checker ・LLMを用いた自動採点システム 運用結果 ・再提出までの平均時間と平均課題達成時間が短縮 ・SUSは76.4 今後 ・実行画面の画像もプロンプトに反映 ・Processing以外の言語や他分野への対応 30