11.8K Views
November 25, 23
スライド概要
東大・松尾研のサマースクール 2023大規模言語モデル
https://deeplearning.jp/llm2023/
に参加させて頂いた際のコンペの解法メモです。
化学・材料・データ・AI・ロボット
松尾研・LLMサマースクール 解法の発表 +研究紹介と宣伝 Kan Hatakeyama 2023/11/25 Image generated by DALL-E
自己紹介&最近の興味: AIロボットでの化学実験 プロフィール: 助教 学会: 日本化学会、高分子学会、人工知能学会(new!)、日本ロボット学会(new!) 研究費(代表): JST創発的研究事業、新学術 蓄電固体界面、基盤Bなど。 目標 User: ◯◯を合成して! Bot: 「わかりました」 • 反応スキームの生成 • フローチャートの生成 • ロボット操作コードの生成 試作マシン Machine made by 東北大・高石先生 キーワード: 高分子、有機合成、 深層学習、基盤モデル、 ロボティクス、電子工作、 …
参考サイト(例) 日経新聞(23/11/10) https://www.nikkei.com/article/DGKKZO75994700Z01C23A1TJK000/ Google検索 (23/11/24)
サマースクール 2023 大規模言語モデル • 東大 松尾研究室が2023年夏から開催したオンラインセミナー • https://deeplearning.jp/llm2023/ • 学生、研究者、社会人などが受講 (2000名程度) • 来年も開催(!?) • 内容 • 基礎理論、研究情勢、コード実装 • 体系的な説明に加え、最先端領域に対する見解や説明もあり、とても勉強になり ました • コンペ • 最後にコンペがありました。(kaggle的なやつです) • 次項以降に、取り組んだ際のメモをまとめています
コンペの条件 問題 • 5択 • 要約 • 自由記述 制約 • GPU: 16GB x N • ディスク: 25GB x N • N = 1-8 第一ラウンド 第二ラウンド • モデル変更 OK • “Validation” • モデル変更 NG • “Test” 結果: 2000人中(?)、3位 (適切な作り込み + 運が重要) ※3位とは言っても、kaggleなどとは異なり、”LLM初心者”のコンペである点に注意
基本戦略 • モデルの汎用性が重要 • 第一ラウンドにoverfitしたシステムを作り込むのは逆効果 (validation的な位置づけ) • 第二ラウンドでの性能が重要 (出題内容が不明: 真のtestデータ) • 選択問題 • 未知問題に対するモデルの知識が重要 • 巨大モデルがベター • 記述問題 • 多彩な問いに対する地頭力が重要(人間が採点) • 巨大モデルがベター • 要約問題 • 要約に唯一の正解はなく、評価基準が曖昧 • コンペでは「模範回答」との類似度(Rouge 2)で自動採点されるので、「模範解答」の意を汲んだモデルがベター
モデル選定 for 選択・自由記述問題 環境でギリギリ動かせるサイズ感(パラメータ数&bit数)かつ、日本語が得意なモデルを選定 モデル名 所感 Falcon-180b 日本語の性能が微妙 モデルが超巨大(>360 GB) Llama 2-70b 日本語の性能が微妙 Xwin-LM-70b (16 bit) Llama 2のファインチューニングモデル 日本語で最高性能級との噂 モデルが超巨大(>140 GB) Xwin-LM-70b (6 bit, GGUF) [採用] C言語で記述されたモデル(高速) 6 bitに量子化 4 GPUでギリギリ動かせるサイズ(~56 GB) StableBeluga2-70b 評判の良い(?)モデル MPT-30b Llama2までは最高峰だったモデル … … 感想:数bクラスのモデルには、個人的には”知性の片鱗”を感じない / 多くのベンチマークで、モデルサイズが重要との報告 / 4 bit量子化が定番だが、4gpuでギリギリ動く6bitまで攻めた(8gpuなら8bitも動く可能性)
選択問題 • 試行錯誤の末、シンプルなプロントを選択 試行錯誤のメモ ・プロンプトの例題を変えたりすると、正答率が若干変わりますが、それはoverfit(第二ラウンドでの性能低下)を招くおそれがあ るので、中止。 ・RAGは軽く試したものの、断念。例えば辞書で「コースター」を引くと、「1)コップの下に敷くもの」的な文章が出現。一方、問題文 ではジェットコースターの方を指していたので、逆に推論をミスリードする結果に。作り込めば精度は上がるはず。 ・CoTの要領で、各選択肢に対して、「信号機:これは公園にはないので不適切」的な考察もLLMにさせるプロントも検討したが、 精度が若干低下する結果に。
選択問題 • 回答抽出のアルゴリズムをやや工夫 [ちょっとした工夫] デフォルトコードでは、 選択肢番号を答えさせる仕様だが、 「単語そのもの」を回答させる システムに変更 (初期検討で用いた7bモデルでは、出力され る単語と選択肢番号が一致しないケースが あったため。70bモデルでは不要かも?)
記述問題 シンプルなプロンプトを設定 text = f""“ あなたは日本語だけを話す日本人のアシスタントです。日本語で回答して助けてあげて下さい。 [依頼] 以下の映画タイトルのリストが与えられたとき、タイトルに含まれる都市名をすべて書き出しなさい。 ・バンクーバーからの挑戦 ・ロンドンの夢 ・織田信長の生涯 [回答] わかりました、それぞれの映画のタイトルごとに含まれる都市名を書き出します。 バンクーバーからの挑戦: バンクーバー ロンドンの夢: ロンドン 織田信長の生涯: 都市名は含まれていません [依頼]{data['text']} [回答]:""" コメント ・プロンプト中での例題を増やす検討も行ったが、効果を実感できず ・出力が英語にならないように、日本語を喋るように強調した。 ・max tokenは300に設定。第二ラウンドには、ちょっと短すぎた。
要約問題 • openorca_stx(13b)を利用 • 第一ラウンドの要約タスクはxlsumデー タセットから出題 • 当該データセット(train)でファインチュー ニング済みのモデルが有利 • 他モデルよりも圧倒的に高いスコア • 自分でチューニングする必要もなし。 コメント ・第二ラウンドでxlsumが用いられるかは不明だったが、面倒だったので、このモデルをそのまま用いることにした。 ・実際には、第二ラウンドでもxlsumがたくさん用いられていたので、スコアが上がった。ただし、参加者の独自問題では全く回答できないケースも あったので、本質的に、このモデルの要約性能が高いというわけではない。 ・採点基準がHuman-evalであれば、恐らく70bモデルの方がベター。 ・次回以降のコンペでは、もっと難しい問題が出ると思います
LLMにおけるLoRAの難しさについて • 化学系の論文(>数万件)をllama2に追加学習させる研究を推進中 • 新たな知識を加えるのは、恐ろしく難しい手応え • 検討項目(>数千条件) • (省略) • … (12月中にはpreprintを出す目標)
例: 学会の予稿集を学習したLLM 質問: 畠山 歓の所属は? r Epoch 評価 回答 0 0 拒否 畠山 歓の所属は、本当に存在するかどうかは私にわからないです。私は、インターネット上の情報源に… 8 1 誤答 畠山 歓は、日本のプロ野球選手であり、現在は読売ジャイアンツに所属しています。… 8 2 誤答 畠山 歓は、日本のYouTuberであり、所属はない。彼女は個人YouTubeチャンネルを運営してい… 8 4 誤答 畠山 歓は、日本の YouTube チャンネル「畠山歓の Deep Learning Advent… 32 1 誤答 畠山 歓は、日本のプロ野球選手であり、現在は、読売ジャイアンツに所属しています。… 32 4 誤答 畠山 歓 の 所 属 は 、 日 本 の pop idol girl group AKB … 64 1 誤答 畠山 歓は、慶應義塾大学の准教授であり、総合政策学部の教員です。… 64 2 誤答 畠山 歓は、日本のYouTuber、 streamer です。彼女の所属事務所は、Nijisanji… 64 4 誤答 畠山 歓 is a fictional character from the anime and m… 13
コンペのまとめ・感想 • 大きいモデル & タスク特化のファインチューニング済みモデル を使うという、極めてオーソドックスかつ、baseline的な手法に 落ち着いてしまいました(反省)。 • 次回以降のコンペでは諸々のレベルが上がっているはずなの で、上位入賞するには、ファインチューニング, RAG, CoT, 確率 分布計算などの高度なテクニックが必要になるものと思いま す。 14
宣伝: AI x ロボ x 化学実験の仲間を募集中! 現在 近未来? オープンソースな雰囲気で進めるプロジェクトを準備中です
今後進めたいこと(順不同) • • • • • • • • • • • LLMを介した操作 マルチモーダル基盤モデルとの連携 注射針を使った薬品添加 • 3Dプリンタ+電子工作+AI 汎用アームの利用 サンプル瓶の移動 • ロボットアーム+AI センサ類との連動や記録 • IoT 種々の操作の自動化 設計図やマニュアルのオープンソース化 ROS2系のノウハウ蓄積・公開 装置やシステムの量産 … 化学業界は、異分野からの参入が困難な一方で、 AI・ロボット人材がとても少なので、 チャンスかもしれません • 自分を含め、化学&アカデミックにoverfitした人材ばかりなので、AI・ロボ・電子工作にはめっぽう弱いです。 • 年齢や肩書、形態にこだわらずにプロジェクトを展開する方法を模索中で、協力者やアイデアを募集中です。