Webアンケートにおける不真面目回答の ChatGPTを用いた自動分類

2.3K Views

January 22, 24

スライド概要

profile-image

明治大学 総合数理学部 先端メディアサイエンス学科 中村聡史研究室

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

Webアンケートにおける不真⾯⽬回答の ChatGPTを⽤いた⾃動分類 畑中健壱 ⼭﨑郁未 中村聡史 明治⼤学 先端数理科学研究科 1

2.

背景 • Web アンケートは紙のアンケートに⽐べ ⼿軽に多くの回答を集めることが可能 [Vergnaud 2011] • データが多く必要となる社会調査や 研究の基礎データの収集に利⽤されている Vergnaud, A. C., Touvier, M., Méjean, C., Kesse-Guyot, E., Pollet, C., Malon, A., Castetbon, K. and Hercberg, S. “Agreement between webbased and paper versions of a socio-demographic questionnaire in the NutriNet-Santé study.” International Journal of Public Health, Vol. 56, No. 4, p. 507-417 (2011). 2

3.

⾃由記述の重要性 ⾃由記述設問は,回答者の多様な回答を得られる → アンケートに必要不可⽋ [Schuman 1979],[Reja 2003] 真⾯⽬に回答しない⼈が多い Schuman, H., Presser, S. “The Open and Closed Question.” American Sociological Review, Vol. 44, No. 5, p. 692-712 (1979). Reja, U., Manfreda, K., Hlebec, V., Vehovar, V. “Open-ended vs. Close-ended Questions in Web Questionnaires.” Adv Methodol Stats, Vol. 19, No. 1, p. 159-177 (2003). 3

4.

不真⾯⽬回答 • 選択式の設問などと⽐べ回答に時間がかかる[Couper 2013] → 回答負担が⼤きい • 設問に答えない,考える必要のない回答 「不真⾯⽬回答」をする⼈がいる [Revilla 2016] • 「わからない」「fdjkgfg」「ただ何となく」 [Holland 2009] • 道の特徴は?→普通の道 Couper, M. P., Kreuter, F. “Using paradata to explore item level response times in surveys.” Journal of the Royal Statistical Society, Vol.176, No. 1, p. 271-286 (2013). Revilla, M., Ochoa, C. “Open Narrative Questions in PC and Smartphones: Is the Device Playing a Role?” Quality & Quantity, Vol. 50, No. 6, p. 2495-2513 (2016). Holland, J. L., Christian, L. M. “The Influence of Topic Interest and Interactive Probing on Responses to Open-Ended Questions in Web Surveys.” Social Science Computer Review, Vol. 27, No. 2, p. 196-212 (2009). 4

5.

不真⾯⽬回答への対策 アンケートの⼯夫が様々⾏われている • 設問⽂に動機づけ⽂章を追加 →無回答が減少 [Zuell 2015] • ⾃由記述設問を最初に配置 →不真⾯⽬回答の割合が減少 [Yamazaki 2023] Zuell, C., Menold, N., Körber, S. “The Influence of the Answer Box Size on Item Nonresponse to Open-Ended Questions in a Web Survey.” Social Science Computer Review, Vol. 33, No. 1, p. 115-122 (2015). Yamazaki, I., Hatanaka, K., Nakamura, S. and Komatsu, T. “A Basic Study to Prevent Non-Earnest Responses in Web Surveys by Arranging the Order of Open-ended Questions.” International Conference on Human-Computer Interaction (HCII 2023), LNCS, Vol. 14011, p. 314-326. 5

6.

評価基準 • 不真⾯⽬回答の割合で評価 • 不真⾯⽬回答分類の問題 • 分類者の負担 • 不真⾯⽬回答の基準が個⼈によって異なる • 機械学習などによる不真⾯⽬回答の⾃動分類 →アンケート毎に不真⾯⽬回答を定義 6

7.

アプローチ • 不真⾯⽬回答は,質問に対して回答がずれている → ⽇常的な会話のズレ 例) 好きな動物園‧⽔族館は? →みんな1回ずつしか⾏っていない。 • ChatGPTは質問への⾃然な回答得意 不真⾯⽬回答のような質問に対する 不⾃然な回答を検知できるのでは? 7

8.

⽬的 ⾃由記述設問の不真⾯⽬回答を,ChatGPTを⽤いて ⾃動分類することが可能であるかを調査 8

9.

データセット • 2種類のアンケートデータ • 真⾯⽬か不真⾯⽬かのラベル付与 • 「質問に対する答えが伴っていない回答と 意味をなさない回答」 [Yamazaki 2023] Yamazaki, I., Hatanaka, K., Nakamura, S. and Komatsu, T. “A Basic Study to Prevent Non-Earnest Responses in Web Surveys by Arranging the Order of Open-ended Questions.” International Conference on Human-Computer Interaction (HCII 2023), LNCS, Vol. 14011, p. 314-326. 9

10.

運転免許を所持している⼈向けのアンケート [Yamazaki 2023] データ件数…979件 不真⾯⽬回答分類…評価者2名 設問内容 回答例 (真⾯⽬) Q-1 運転をする理由 買い物のため なんとなく 2.9 Q-2 運転する道の特徴 ⾞線の多い道路 普通の道 6.1 Q-3 どんなことが苦⼿か 駐⾞ 得意である 7.8 Q-4 気をつけていること 歩⾏者に 注意する 注意 5.6 設問番号 回答例 (不真⾯⽬) 不真⾯⽬ 回答率(%) 10

11.

動物園‧⽔族館に関するアンケート [HCI201] データ件数…989件 不真⾯⽬回答分類…著者1名 設問番号 設問内容 回答例 (真⾯⽬) 回答例 (不真⾯⽬) 不真⾯⽬ 回答率(%) Q-1 好きな動物園‧⽔族館 王⼦動物園、 美ら海⽔族館 みんな1回ずつし か⾏っていない。 2.3 Q-2 好きな動物‧⽣き物 パンダ, ペンギン アクアリウム 2.0 Q-3 動物園‧⽔族館で楽し かったこと 動物と触れ合え たこと 楽しいから 4.6 Q-4 リピート訪問した理由 リニューアルし たから 品川⽔族館 12.8 11

12.

不真⾯⽬回答分類⼿法 • OpenAIのAPIを⽤いて分類 • GPT-4 Turbo • 3つの⼿法 • 単純判定⼿法 • ⾃信度指標⼿法 • 点数付与⼿法 12

13.

判定⼿法 単純判定⼿法 「質問に対する答えが伴っていない回答と 意味をなさない回答」 で判定 みんな1回ずつしか ⾏っていない 【判定】1 13

14.

判定⼿法 ⾃信度指標⼿法 • 単純判定⼿法+判定の⾃信度を出⼒(5段階) • 半⾃動分類の可能性 みんな1回ずつしか ⾏っていない 【判定】1 【⾃信度】5 14

15.

判定⼿法 点数付与⼿法 • 全ての回答に点数を付与 閾値以下を不真⾯⽬回答 みんな1回ずつしか ⾏っていない 【点数】10点 • インタビュアとして,その回答が返ってきて 嬉しいかどうかを100点満点で出⼒ 15

16.

結果(運転) ⾃信度指標⼿法…⾃信度5のみ(92%) 点数付与⼿法…10点以下不真⾯⽬ 16

17.

結果(運転) 全体的に正答率⾼い 点数付与⼿法が最も⾼い 17

18.

結果(運転) 全体的にF値が低い 点数付与⼿法が最も⾼く,単純判定⼿法が最も低い 18

19.

結果(動物園‧⽔族館) ⾃信度指標⼿法…⾃信度5のみ(92%) 点数付与⼿法…10点以下不真⾯⽬ 19

20.

結果(動物園‧⽔族館) 点数付与⼿法が,正答率‧F値が最も⾼い 運転アンケートより,F値が低い 20

21.

⾃信度指標⼿法(運転) ⾃信度5のみを使⽤した場合の精度が⾼い Q-1,Q-3の精度が低い 21

22.

⾃信度指標⼿法(動物園‧⽔族館) ⾃信度5のみを使⽤した場合の精度が⾼い Q-3,Q-4の精度が低い 22

23.

点数付与⼿法(運転) 閾値ごとのF値 23

24.

点数付与⼿法(運転) 閾値ごとのF値 10点を基準とした時,Q-1,Q4で⼤きく精度上昇 24

25.

点数付与⼿法(動物園‧⽔族館) 25

26.

点数付与⼿法(動物園‧⽔族館) 10点を基準とした時,Q-4以外で精度上昇 26

27.

考察 • 正答率は⾼いが,F値は全体的に低い結果 →不真⾯⽬回答の指標には不⼗分 データセットの不真⾯⽬回答が少ないため 1つ誤判定が精度に⼤きく影響 27

28.

考察 単純判定⼿法が最も精度が低い 点数付与⼿法が精度が最も⾼い • 単純にChatGPTに判断させるのではなく, プロンプトの⼯夫や,判定⽅法の⼯夫が必要 28

29.

考察 設問ごとに⼤きく精度の違いが⾒られた →設問の特性が⼤きく影響している可能性 • 精度が⾼かった設問…単語で回答をする設問 • 精度が低かった設問…理由などを⽂章を回答する設問 29

30.

うまく判定できた回答 • 好きな動物園‧⽔族館 →「上野」「品川」 • 省略した回答 • 正解データを必要とせず判定可能 30

31.

判定できなかった回答 • 「とうぶどうぶつこうえん」 「しんえのしますいぞくかん」 ひらがな回答が⼦供っぽさを演出している ⼦供っぽさが不真⾯⽬回答と判断された可能性 31

32.

今後 • プロンプトを⼯夫,新たな判定⼿法 →判定精度の向上 • 不真⾯⽬回答率が⾼いデータセットでの検証 32

33.

まとめ 背景:不真⾯⽬回答の問題 ⽬的:ChatGPTを⽤いて不真⾯⽬回答判定可能か検証 ⼿法:単純判定⼿法,⾃信度指標⼿法,点数付与⼿法 結果:点数付与⼿法が最も精度が良い 展望:判定⼿法の改善 33