1.3K Views
May 30, 26
スライド概要
Warriorの詳しい動かし方・注意点はこちらを参照してください→ https://stepney141.hatenablog.com/entry/2025/02/17/182148
Kernel/VM探検隊@関西 No.12で発表したスライドです(IPAセキュリティ・キャンプ全国大会2025のLTセッションの発表をベースにしています)。
ArchiveTeam Warriorで始める 分散並列Webアーカイブ⼊⾨ stepney141 Kernel/VM探検隊@関⻄ No.12 2026年 5⽉ 30⽇
お前は誰? 素性 ● 基盤系SE⾒習い (新卒研修中) @某⼤⼿SIer ● ゲームAI, ゲーム状態の到達可能性問題 @某⼤学院 ● Twitter (現 𝕏 ): “ゆみや” @stepney141 趣味 ● ボードゲームエンジンの開発 ● グラフ関数電卓のプログラミング ● 魔術(オカルティズム)の歴史 ● Webアーカイブ活動 2
今⽇は⾃⼰防衛の話をします 3
皆さんの悲しい瞬間といえば? 4
悲しい瞬間の例 5
悲しい瞬間の例 6
ちょっと真⾯⽬な話 7
消滅したサイト … Yahoo! ジオシティーズ (2019) https://www.itmedia.co.jp/news/articles/1904/01/news095.html 8
消滅したサイト … ⽶国連邦政府の各種データベース (2025) ※ この話へ興味のある⼈へ → https://govdiff.com/ を⾒よう https://www.bloomberg.co.jp/news/articles/2025-08-13/T0WWN0GP9VD000 9
2025年, 世界から消滅したオンラインサービス (⼀部) https://wiki.archiveteam.org/index.php/Deathwatch 10
Web上に情報が残らずに何が困るのか? 知識の喪失 ● 有益な知識が失われる ⽂化圏の喪失 ● Web上コミュニティの拠り所が失われる ● ex. 著名⼈のブログ, ⼆次創作サイト 「データにアクセスする⾃由」の喪失 11
世界から悲劇をなくすために 私たちができることは? 12
Archive Team とは? ● Webアーカイブを専⾨に⾏う⾮営利団体 ● 世界中の様々なWebサービスの終了情報を集め, ⾃前のツール でクロール&保存している ● 収集したデータをInternet Archiveに提供している ➡ この「⾃前のツール」の1つが “Warrior” 13
Archive Team Warrior とは? ● Archive Teamが開発・運⽤する分散クロール環境 ● 収集したデータをInternet Archiveに提供している ● Warriorで⼤部分が保存されたWebサイトの例 ○ Yahoo! ジオシティーズ ○ FC2 WEB ○ Goo辞書 etc… ● クライアントの VM / Docker 環境が整備されていて, 誰でも簡単に動かせるようになっている 14
Warriorによる並列分散クローリングのしくみ 1. 消えそうなサイトを... 2. Warriorが保存! 3. ジョブマネージャが タスクを割り振る 4. データを整理 5. Internet Archiveへ https://wiki.archiveteam.org/index.php/Dev/Infrastructure 15
どうやって動かせばいい? 16
Docker Composeで動かせます 17
ネットに繋がる計算機がある⼈は今すぐ動かそう! https://gist.github.com/stepney141/83306db94ee735b3155b9ed38dd6f891 18
とはいえWarriorにも限界はあり, 先⾏きは不透明 ● あくまで有志団体なのでリソースは有限 →サ終に間に合わない場合も ○ ● 私の実体験: モデレータがバッチ流し忘れてたせいで全て消滅 コンセプト的にみんなが動かしてくれないと意味がない ○ cf. ⽇本の個⼈サイトは海外アクセスを遮断してることが多い (GeoBlock) ● ⽣成AIへ対抗して任意のWebクローラを締め出す動き ● Internet Archiveの検索機能の貧弱さ ○ ● データを有益に活⽤するためには情報の適切な整理・検索が必須であるが... そもそもInternet Archiveって持続可能ですか? ○ cf. 2024年の⼤規模サイバー攻撃事案, 2026年のストレージ価格暴騰 19
とはいえWarriorにも限界はあり, 先⾏きは不透明 ● あくまで有志団体なのでリソースは有限 →サ終に間に合わない場合も しかし, 全く何もやらないよりは遥かにマシ! ○ ● 私の実体験: モデレータがバッチ流し忘れてたせいで全て消滅 コンセプト的にみんなが動かしてくれないと意味がない ○ cf. ⽇本の個⼈サイトは海外アクセスを遮断してることが多い (GeoBlock) ● ⽣成AIへ対抗して任意のWebクローラを締め出す動き ● Internet Archiveの検索機能の貧弱さ ○ ● データを有益に活⽤するためには情報の適切な整理・検索が必須であるが... そもそもInternet Archiveって持続可能ですか? ○ cf. 2024年の⼤規模サイバー攻撃事案, 2026年のストレージ価格暴騰 20
伝えたいこと 21
Internet Archiveに対する世間の(ナイーブな)認識の例 https://x.com/motto_0629/status/2059904814381928610 22
情報を残すには⾃助努⼒が必要!! 23
(奇跡的に時間が余ったら)デモ 24