1.4K Views
January 21, 22
スライド概要
肌質や化粧の仕上がりの好みは人によって異なることもあり,化粧品は多くの消費者の需要に応じて多種多様な商品が開発されている.ここで,化粧品の選択を誤ると肌荒れや仕上がりの悪さに繋がるため,化粧品の購入に失敗したくないと考える消費者は多く,インターネット上のクチコミを参考にすることがある.しかし,化粧品のクチコミは実際の利用を確認できないなど信憑性において様々な問題を抱えている.そこで本研究では化粧品に特化したクチコミの信憑性判断を支援するシステムの実現を目指し,これまでに検討した信憑性の評価軸について有用性の検証を行った結果,80.2% の精度で信憑性評価が可能であった.また,新たな軸の検討や,化粧品の種類別に分析を行った.その結果,化粧品の種類により効果的な評価軸が異なる可能性が示唆された.
明治大学 総合数理学部 先端メディアサイエンス学科 中村聡史研究室
文章に着目した 化粧品クチコミの信憑性評価軸の検討 明治大学 濱野 花莉 伊藤 理紗 中村 聡史
日常的な化粧 78.9%の女性が化粧をする! 化粧の頻度(15~64歳) 行っていない 普段の生活でしたことがない 特別な時だけ行う 毎日行う 21.1 19.7 ときどき行う 24.8 34.4 ほぼ毎日行う N=1500 2019 ポーラ文化研究所調べ
化粧品の選択 • 多様な化粧品が開発されている 例:ファンデーション 乾燥しない! • 自分に合う化粧品を選ぶのは難しい 肌にやさしい! もし購入に失敗したら… 肌荒れのリスク シミを隠す! お金が無駄になる ずっと使わないといけない ➡︎購入前の情報収集は大事! 崩れにくい!
インターネット上のクチコミ • メリット ユーザが多く,様々な意見を手軽に閲覧できる • デメリット 情報の質が低い • 専門知識のないユーザ • 誇張表現を含むクチコミ ステマの可能性
これまでの信憑性評価手法 • グループ単位で偽のレビュアーグループを検出[Mukherjee 2012] 個人単位で検出するより容易 ステマに有効 • サクラチェッカー Amazonのレビューから「サクラ度」を判定 ステマに有効 ➡︎ステマ以外の質の低いクチコミに対応できない 化粧品に特化していない
化粧品のクチコミの特性 • 消費者の個人差が大きい → 意見が分かれやすい 肌質,パーソナルカラー,化粧の好み etc. • 本当にその商品を使っているのか判断できない • どの程度使い込んでいるのか判断できない 試供品が配布されていることもある 一定期間以上の使用で効果が出るものも多い • 複数の化粧品を併せて使用することが多い 例:化粧下地+ファンデーション これらの特性を同時に持ち合わせている
本研究における信憑性の判断 • クチコミが真実かどうかを完璧に判別するのは不可能 • 信憑性の判断が苦手なユーザの手助けをしたい! 客観的な判断をシステムにさせる + 判断がうまい人の基準を共有する
大目的 化粧品のクチコミに特化した信憑性評価システムの実現
これまでの研究 • 文章に着目した信憑性データセットの構築 化粧品のクチコミをインターネット上から300件収集 女子大学生9名に信憑性評価を依頼 • 信憑性評価軸の作成 信憑性データセットをもとに評価軸を作成 濱野 花莉, 中村 聡史. 化粧品に対するクチコミの信憑性判定に向けたクチコミ文章の調査, 第13回データ工学と情報マネジメントに関するフォーラム(DEIM2021), No.C14-3, pp.1-8, 2021.
過去に作成した評価軸 • 製品の悪い点についての記述がある • PRだが率直な意見や他の製品との比較についての記述があ る • それぞれの化粧品において重要な単語の有無 「カバー」「肌質」「発色」など • 購入経緯についての記述がある • 併用した製品についての記述がある • クチコミ投稿者なりの使用方法についての記述がある
目的 過去に作成した信憑性評価軸の有用性の検討 • 使用状況別のクチコミ作成 • 軸評価データセット構築
使用状況別のクチコミ作成 • 過去に収集したクチコミはネット上のもの …有用性の検証に使用できない • 使用状況別に合計323件のクチコミを新たに作成 実際に長期的に使用して投稿されるクチコミ 一度しか使用せずに投稿されるクチコミ 全く使用していないのに投稿されるクチコミ
実際に長期的に使用して投稿されるクチコミ • 20〜25歳の女性8名 • 50件を作成 • 自身が使用している化粧品についてできるだけ多く クチコミを作成
一度しか使用せずに投稿されるクチコミ • 20〜26歳の16名(男性5名,女性11名) • 70件を収集 • Kajitaら(2021)のファンデーション塗布実験内で 作成したもののうち,50文字以上のもの
全く使用していないのに投稿されるクチコミ • 20〜25歳の7名(男性3名,女性4名) • 203件を作成 • 指定した化粧品60点のうち,使用したことがないものについて 100文字以上のクチコミを作成 化粧品は@cosme内のランキング上位のものから選定 作成の際はその化粧品の公式サイトを提示 作成者には以下の設定を伝えた あなたはある企業から、『これから提示する商品の説明ページを見て、 できるだけ使っていないことがばれないようにクチコミを書いてクチコミサイトに 投稿してください。謝礼として、商品券を差し上げます』と依頼されています
全く使用していないのに投稿されるクチコミ • 作成前に@cosmeで化粧品のクチコミを閲覧するよう指示 化粧品のクチコミの閲覧頻度の差を考慮 • 化粧品の使用状況やクチコミの閲覧頻度に関する調査を実施 作成者のうち,化粧品のクチコミを全く閲覧しないのは男性1名のみ 男性は3名とも化粧水のみを使用 普段から化粧品のクチコミを投稿するのは女性1名のみ
軸評価データセット構築 • 18〜25歳の17名(男性8名,女性9名)が評価 • 過去に作成した評価軸をもとに評価項目を作成 製品の悪い点が書かれている 他の製品との比較が書かれている 購入経緯が書かれている 併用した製品が書かれている クチコミ投稿者なりの使用方法が書かれている クチコミについての気づき(自由記述) • 提示されたクチコミが各項目に当てはまるかを評価
軸評価データセット構築 それぞれの化粧品において重要な単語の有無 …単語の有無を機械的に判別,単語が含まれる数を軸とした 化粧品 単語 ファンデーション カバー,毛穴,肌質,ツヤ,パフ,ブラシ,スポンジ,直し, シミ,下地,成分,乾燥,保湿,時間,崩れ 化粧品 乾燥,保湿,肌,成分,配合,効果,オイル,乳液, クリーム,コスパ,手,値段 リップ ティッシュオフ,マスク,発色,色,荒れ,乾燥,成分, ピンク,オレンジ,ブラウン,リピート,印象,落ち,指
結果 • 3332件の評価を分析対象とした 評価者17名のうち男性2名,女性2名を分析から除外 …評価方法を理解していない・少数派の回答が多い(mean±1.5SD) • 評価のばらつき:軸によって評価の難易度が異なる 評価軸 全員一致 二分 製品の悪い点 52.3% 9.6% 他の製品との比較 53.9% 8.0% 購入経緯 61.6% 6.5% 87.3% 1.9% 48.6% 13.6% 併用した製品 投稿者なりの使用方法
結果:各軸の使用状況別スコア • 各軸について「当てはまる」と評価した人数割合 • 単語はクチコミに含まれる単語の数の平均 評価軸 実際に使用 一度使用 未使用 製品の悪い点 0.38 0.43 0.24 他の製品との比較 0.09 0.04 0.10 購入経緯 0.39 0.03 0.30 併用した製品 0.06 0.01 0.02 投稿者なりの使用方法 0.22 0.09 0.09 それぞれの化粧品において重要な単語 3.56 2.64 2.80 4.70 3.24 3.55 合計
結果:各軸の使用状況別スコア • 各軸について「当てはまる」と評価した人数割合 • 単語はクチコミに含まれる単語の数の平均 評価軸 実際に使用 一度使用 未使用 0.38 0.43 0.24 0.09 0.04 0.10 0.39 0.03 0.30 併用した製品 0.06 0.01 0.02 投稿者なりの使用方法 0.22 0.09 0.09 それぞれの化粧品において重要な単語 3.56 2.64 2.80 4.70 3.24 3.55 製品の悪い点 他の製品との比較 購入経緯 合計 「実際に使用」のスコアが もっとも高かった
結果:各軸の使用状況別スコア • 各軸について「当てはまる」と評価した人数割合 • 単語はクチコミに含まれる単語の数の平均 評価軸 実際に使用 製品の悪い点 他の製品との比較 購入経緯 0.38 一度使用 「一度使用」より0.09 「未使用」のスコアが高かった 0.39 未使用 0.43 0.24 0.04 0.10 0.03 0.30 併用した製品 0.06 0.01 0.02 投稿者なりの使用方法 0.22 0.09 0.09 それぞれの化粧品において重要な単語 3.56 2.64 2.80 4.70 3.24 3.55 合計
一度しか使用せずに投稿されるクチコミ Kajitaら(2021)の実験で作成(クチコミ作成がメインではない) …文章が雑なものや,内容が端的すぎるものが多かった これ以降の分析では 「実際に長期的に使用して投稿されるクチコミ」 「全く使用していないのに投稿されるクチコミ」のみを使用
信憑性評価軸の有用性検証 • 機械学習による検証:5分割交差検証より精度80.2% アルゴリズム:ランダムフォレスト 学習データ80%,テストデータ20% • 各軸の重要度 評価軸 重要度 製品の悪い点 0.18 他の製品との比較 0.07 購入経緯 0.17 併用した製品 0.14 投稿者なりの使用方法 0.28 それぞれの化粧品において重要な単語 0.17
信憑性評価軸の有用性検証 • 機械学習による検証:5分割交差検証より精度80.2% アルゴリズム:ランダムフォレスト 学習データ80%,テストデータ20% • 各軸の重要度 評価軸 重要度 製品の悪い点 0.18 他の製品との比較 0.07 購入経緯 0.17 併用した製品 クチコミ作成者は大学生,大学院生 0.14 →比較するほど化粧品の使用経験がなかった可能性 投稿者なりの使用方法 0.28 それぞれの化粧品において重要な単語 0.17
信憑性評価軸の有用性検証 • 機械学習による検証:5分割交差検証より精度80.2% アルゴリズム:ランダムフォレスト 学習データ80%,テストデータ20% • 各軸の重要度 評価軸 重要度 製品の悪い点 0.18 他の製品との比較 0.07 購入経緯 0.17 具体的な使用方法は 実際に使用しないと書くのが困難 併用した製品 0.14 投稿者なりの使用方法 0.28 それぞれの化粧品において重要な単語 0.17
新しい評価軸の検討 クチコミに対する気づきをもとに検討 • 今後のこと(リピート購入,季節が変わってからの使用など) について書かれている:80.5% • どのような人におすすめか書かれている :81.0% • 両方の軸を追加すると81.7%
化粧品の種類別の検証(精度・重要度) 評価軸 ファンデーション 化粧水 リップ 87.7% 79.3% 80.5% 製品の悪い点 0.17 0.24 0.19 他の製品との比較 0.17 0.10 0.09 購入経緯 0.11 0.10 0.19 併用した製品 0.06 0.15 0.04 投稿者なりの使用方法 0.18 0.19 0.23 それぞれの化粧品において重要な単語 0.12 0.14 0.15 今後のことについて書かれている 0.05 0.05 0.05 どのような人におすすめか書かれている 0.14 0.04 0.07 精度
化粧品の種類別の検証(精度・重要度) 評価軸 精度 製品の悪い点 他の製品との比較 購入経緯 ファンデーション 化粧水 リップ 87.7% 79.3% 80.5% 0.17 0.24 0.19 0.17 0.10 0.09 化粧品ごとに適した評価軸があり 0.11 0.10 現状の軸はファンデに向いている 0.19 併用した製品 0.06 0.15 0.04 投稿者なりの使用方法 0.18 0.19 0.23 それぞれの化粧品において重要な単語 0.12 0.14 0.15 今後のことについて書かれている 0.05 0.05 0.05 どのような人におすすめか書かれている 0.14 0.04 0.07
化粧品の種類別の検証(精度・重要度) 評価軸 ファンデーション 化粧水 リップ 87.7% 79.3% 80.5% 製品の悪い点 0.17 0.24 0.19 他の製品との比較 0.17 0.10 0.09 購入経緯 0.11 0.10 0.19 併用した製品 0.06 0.15 0.04 投稿者なりの使用方法 0.18 0.19 0.23 それぞれの化粧品において重要な単語 0.12 0.14 0.15 今後のことについて書かれている 0.05 0.05 0.05 どのような人におすすめか書かれてい る 0.14 0.04 0.07 精度 他の化粧品に比べ特に重要度が高い →ファンデの精度が高くなった要因
化粧品の種類別の検証(精度・重要度) 評価軸 ファンデーション 化粧水 リップ 87.7% 79.3% 80.5% 製品の悪い点 0.17 0.24 0.19 他の製品との比較 0.17 0.10 0.09 購入経緯 0.11 0.10 0.19 併用した製品 0.06 0.15 0.04 投稿者なりの使用方法 0.18 0.19 0.23 それぞれの化粧品において重要な単語 0.12 0.14 0.15 今後のことについて書かれている 0.05 0.05 0.05 どのような人におすすめか書かれている 0.14 0.04 0.07 精度 化粧品の種類に関わらず有用な評価軸
作成者の化粧頻度別の分析 • 女性(全員ほぼ毎日,または週3〜4回化粧をすると回答)が 作成したクチコミのみに限定:75.2% • 化粧をしない男性が作成したクチコミを含んでいるときの方が 精度が高く,信憑性判定が容易
信憑性評価軸に関する議論 • 軸によって評価の難易度が異なる • 機械的に評価するのが難しい軸の存在 • ユーザが表示したクチコミについてマイクロタスク的に評価 • 膨大な評価データを集約し,信憑性評価を行う
まとめ • 大目的 化粧品のクチコミに特化した信憑性評価システム実現 • 目的 これまで作成した文章に関する信憑性評価軸の有用性検証 • 使用状況別のクチコミ作成・軸評価データセット構築 80.2%(ファンデーションのみで87.7%)の精度で信憑性判定が可能 • 今後の展望 幅広い世代によるクチコミを用いた検証,文章以外の評価軸を検討