224 Views
August 12, 24
スライド概要
2024年8月10日に実施した、KaiRA×スクラムサイン共催の「AAAI論文読みLT会」の発表資料
AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください!
「GAMC: An Unsupervised Method for Fake News Detection Using Graph」 Autoencoder with MaskingShu Yin, Peican Zhu, Lianwei Wu, Chao Gao, Zhen Wang GACM:フェイクニュース検出の教師なし学習 京都大学 理学部 3回生 宮本真弥 0
アジェンダ ◼ 考えるタスク ◼ GACMとは? ◼ 手法の説明 ◼ 実験結果 1
考えるタスク フェイクニュース検出 • 与えられた記事が真実かどうかを判定する問題。ソーシャルメディアが発達している現在では フェイクニュースがはびこっており、主要な問題の一つとなっている • 近年ではフェイクニュースとそうでないニュースとで異なる伝播の仕方がされるとして、伝播 の仕方やその他の社会的コンテキストを利用したグラフを用いる学習モデルが注目される Yang et al.「Exploring Graph-aware Multi-View Fusion for Rumor Detection on Social Media」から引用 2
従来の手法 グラフニューラルネットワークの教師あり学習の手法が多く提案されている • GLAN:ニュースとユーザーをTweet,Retweetの関係でグラフを生成しCNN • UFD:newsの伝播の関係でグラフを作成、ユーザーの嗜好などを特徴量とし自然言語モデルと GNNを組み合わせて分類 しかし、教師なし学習の手法はあまりなく、精度の高いものも少なかった。 GACMは精度を大幅に向上,教師あり学習の手法 に匹敵する精度を出した 3
アジェンダ ◼ 考えるタスク ◼ GACMとは? ◼ 手法の説明 ◼ 実験結果 4
GACMとは? グラフオートエンコーダとマスキング、対照学習を用いた教師なし学習の手法 5
アジェンダ ◼ 考えるタスク ◼ GACMとは? ◼ 手法の説明 ◼ 実験結果 6
ニュースのデータからグラフ生成 ニュースの伝播の仕方をグラフで表現する グラフ𝐺 = (𝑉, 𝐴, 𝑋) 𝑉 = 𝑣𝑛 , 𝑣𝑢 𝑣𝑛 : ニュースのノード 𝑣𝑢 : ユーザーのノード 𝐴:隣接行列 ノード間の辺の接続関係を表現している。ここではTwitterでツイート・リツイー トの関係で辺をつないでいる。 𝑋:ノードの特徴量。𝑣𝑛 の特徴量は事前学習済みのBERTで記事を埋め込んだもの。𝑣𝑢 の特徴量は そのユーザーの直近200ツイートをそれぞれBERTでembeddingしてそれらの平均をとったもの。 もしユーザーのアカウントが凍結あるいは削除されているならほかのユーザーのツイートからラ ンダムに200ツイート選んでそれをそのユーザーの投稿として同様に特徴量を生成する。 7
データ拡張 マスキングと辺の切断をそれぞれのグラフに独立に2回行いデータを拡張 • マスキング、辺の切断の割合はハイパーパラメータ • これにより複雑なパターンのニュース検出にも精度を保ち、さらに特徴量の欠損にも対応可能 となる。 8
GIN Encoder グラフを2層のGINを入力してグラフ埋め込みを出力 GIN(グラフ同時ネットワーク) (𝑙) ℎ𝑖 = 𝑀𝐿𝑃 ℎ𝑖 0 1+𝜖 𝑙 ⋅ ℎ𝑖 𝑙−1 + σ𝑗∈𝒩 𝑖 ℎ𝑗 𝑙−1 = 𝑥𝑖 ∈ 𝑋 グラフの同型性を学習するグラフニューラルネット ワーク 学習後は分類に用いる ・表現力が高く、またグラフの頂点の順序に依らずグ ラフの同型性を学習する 9
GIN Decoder 得られた埋め込みを特徴量としたグラフを生成し1層のGINでdecoding • 同じノードをマスキング、同じ辺を切断する • こうして得られた特徴量をそれぞれ𝑋1′ , 𝑋2′ とする。 10
GACMの全体像(再掲) • Input:グラフG • グラフをランダムにマスキング、 辺を切断し、同様のことを2回 行って2つのグラフを生成 • 2 layerのGINでencoding • 埋め込みを特徴量として新しいグ ラフを生成 • 1 layerのGINでdecoding • 二つの損失関数を用いて学習 • 学習後はエンコーダから得られる 埋め込みを分類器に使用 11
損失関数 二つの損失関数を組み合わせて学習させる 1. Reconstructed Function 𝑛 1 ℒ𝑟𝑒𝑐 = |𝑋1 − 𝑋1′ |22 + |𝑋2 − 𝑋2′ |22 𝑛 𝑖=1 𝑛はデータのサンプルの数 𝑋1 , 𝑋2 は同じグラフから拡張した二つのグラフの特徴量 2. Contrastive Function 𝑋1′ ⋅ 𝑋2′ ℒ𝑐𝑜𝑛 = ∥ 𝑋1′ ∥∥ 𝑋2′ ∥ 𝑛 1 𝑋1′ ⋅ 𝑋2′ ? n ∥ 𝑋1′ ∥∥ 𝑋2′ ∥ 𝑖=1 これらを組み合わせた損失関数ℒ = ℒ𝑟𝑒𝑐 − 𝛼 ℒ𝑐𝑜𝑛 を最小化するように学習させる。𝛼はパラメータ。 12
アジェンダ ◼ 考えるタスク ◼ GACMとは? ◼ 手法の説明 ◼ 実験結果 13
実験 PolitiFactとGossipCopのデータセットを用いて検証 • PolitiFact : 主にアメリカの政治系のニュースで構成されたデータセット • GossipCop : 主にハリウッドの著名人に関するニュースで構成 ハイパーパラメータ等の調整 • マスキングは50%,辺の切断は20%の割合で行う • 最終的にはMLPでクラスタリング,10回行って平均値で分類 比較する手法 • 教師なし学習の手法: TruthFinder, UFNDA, UFD, GTUT, UMD 2 • 教師あり学習の手法: SAFE, EANN. dEFEND, GACL, FinderFact 14
結果 従来の教師なし学習の手法と比べすべての指標で大幅に精度が向上した • 評価指標は accuracy,precision,recall,F1値 • PolitiFactでは約4.49%,GossipCop では約19.44%精度が向上 図:GACMと従来のモデルの精度比較.左がPolitiFact,右がGossipCop • 教師あり学習の手法と比較する と,PolitiFactは精度が劣る が,GossipCopではどの手法よりも 精度が高い結果となった。 図:GACMと従来の教師あり学習モデルの精度比較.AccとF1のみの記載 15
まとめ • GACMはオートエンコーダとマスキング、対照学習を用いた教師なし学習 • 従来の教師なし学習と比べ大幅に精度が向上 • 教師あり学習の手法に近い精度であるが,データによってはまだまだ及ばない →さらなる精度改善に取り組むことが必要 16