ArchiveTeam Warriorで始める分散並列Webアーカイブ入門

1.3K Views

May 30, 26

スライド概要

Warriorの詳しい動かし方・注意点はこちらを参照してください→ https://stepney141.hatenablog.com/entry/2025/02/17/182148

Kernel/VM探検隊@関西 No.12で発表したスライドです(IPAセキュリティ・キャンプ全国大会2025のLTセッションの発表をベースにしています)。

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

ArchiveTeam Warriorで始める 分散並列Webアーカイブ⼊⾨ stepney141 Kernel/VM探検隊@関⻄ No.12 2026年 5⽉ 30⽇

2.

お前は誰? 素性 ● 基盤系SE⾒習い (新卒研修中) @某⼤⼿SIer ● ゲームAI, ゲーム状態の到達可能性問題 @某⼤学院 ● Twitter (現 𝕏 ): “ゆみや” @stepney141 趣味 ● ボードゲームエンジンの開発 ● グラフ関数電卓のプログラミング ● 魔術(オカルティズム)の歴史 ● Webアーカイブ活動 2

3.

今⽇は⾃⼰防衛の話をします 3

4.

皆さんの悲しい瞬間といえば? 4

5.

悲しい瞬間の例 5

6.

悲しい瞬間の例 6

7.

ちょっと真⾯⽬な話 7

8.

消滅したサイト … Yahoo! ジオシティーズ (2019) https://www.itmedia.co.jp/news/articles/1904/01/news095.html 8

9.

消滅したサイト … ⽶国連邦政府の各種データベース (2025) ※ この話へ興味のある⼈へ → https://govdiff.com/ を⾒よう https://www.bloomberg.co.jp/news/articles/2025-08-13/T0WWN0GP9VD000 9

10.

2025年, 世界から消滅したオンラインサービス (⼀部) https://wiki.archiveteam.org/index.php/Deathwatch 10

11.

Web上に情報が残らずに何が困るのか? 知識の喪失 ● 有益な知識が失われる ⽂化圏の喪失 ● Web上コミュニティの拠り所が失われる ● ex. 著名⼈のブログ, ⼆次創作サイト 「データにアクセスする⾃由」の喪失 11

12.

世界から悲劇をなくすために 私たちができることは? 12

13.

Archive Team とは? ● Webアーカイブを専⾨に⾏う⾮営利団体 ● 世界中の様々なWebサービスの終了情報を集め, ⾃前のツール でクロール&保存している ● 収集したデータをInternet Archiveに提供している ➡ この「⾃前のツール」の1つが “Warrior” 13

14.

Archive Team Warrior とは? ● Archive Teamが開発・運⽤する分散クロール環境 ● 収集したデータをInternet Archiveに提供している ● Warriorで⼤部分が保存されたWebサイトの例 ○ Yahoo! ジオシティーズ ○ FC2 WEB ○ Goo辞書 etc… ● クライアントの VM / Docker 環境が整備されていて, 誰でも簡単に動かせるようになっている 14

15.

Warriorによる並列分散クローリングのしくみ 1. 消えそうなサイトを... 2. Warriorが保存! 3. ジョブマネージャが タスクを割り振る 4. データを整理 5. Internet Archiveへ https://wiki.archiveteam.org/index.php/Dev/Infrastructure 15

16.

どうやって動かせばいい? 16

17.

Docker Composeで動かせます 17

18.

ネットに繋がる計算機がある⼈は今すぐ動かそう! https://gist.github.com/stepney141/83306db94ee735b3155b9ed38dd6f891 18

19.

とはいえWarriorにも限界はあり, 先⾏きは不透明 ● あくまで有志団体なのでリソースは有限 →サ終に間に合わない場合も ○ ● 私の実体験: モデレータがバッチ流し忘れてたせいで全て消滅 コンセプト的にみんなが動かしてくれないと意味がない ○ cf. ⽇本の個⼈サイトは海外アクセスを遮断してることが多い (GeoBlock) ● ⽣成AIへ対抗して任意のWebクローラを締め出す動き ● Internet Archiveの検索機能の貧弱さ ○ ● データを有益に活⽤するためには情報の適切な整理・検索が必須であるが... そもそもInternet Archiveって持続可能ですか? ○ cf. 2024年の⼤規模サイバー攻撃事案, 2026年のストレージ価格暴騰 19

20.

とはいえWarriorにも限界はあり, 先⾏きは不透明 ● あくまで有志団体なのでリソースは有限 →サ終に間に合わない場合も しかし, 全く何もやらないよりは遥かにマシ! ○ ● 私の実体験: モデレータがバッチ流し忘れてたせいで全て消滅 コンセプト的にみんなが動かしてくれないと意味がない ○ cf. ⽇本の個⼈サイトは海外アクセスを遮断してることが多い (GeoBlock) ● ⽣成AIへ対抗して任意のWebクローラを締め出す動き ● Internet Archiveの検索機能の貧弱さ ○ ● データを有益に活⽤するためには情報の適切な整理・検索が必須であるが... そもそもInternet Archiveって持続可能ですか? ○ cf. 2024年の⼤規模サイバー攻撃事案, 2026年のストレージ価格暴騰 20

21.

伝えたいこと 21

22.

Internet Archiveに対する世間の(ナイーブな)認識の例 https://x.com/motto_0629/status/2059904814381928610 22

23.

情報を残すには⾃助努⼒が必要!! 23

24.

(奇跡的に時間が余ったら)デモ 24