“Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer”
事前学習用データセットの質・量と下流タスクの性能の関係性
• ベースモデル: 220M
params, 34B tokenでの
学習
前処理の効...
“Scaling Language Models: Methods, Analysis & Insights from Training Gopher”
MassiveText | 2T token超えの巨大データセット(非公開)
• 英語に絞る
• SafeSearch
(not bad word list)
1.4B params
5GB of te...
“A Pretrainer's Guide to Training Data: Measuring the Effects of Data Age, Domain Coverage, Quality, & Toxicity”
Filteringの効果をQAタスクやtoxic判定/生成で検証 | Trade offが存在
• C4, pileに対して...