aa-3. データサイエンス・AIの演習

1.6K Views

May 07, 22

スライド概要

トピックス:政府統計データ,クロス集計表(Excel を使用),相関(Excel を使用),平均,誤差,オープンデータ
--------------------

人工知能
https://www.kkaneko.jp/cc/mi/index.html
--------------------

【外部ページへのリンク】
資料で出てくるサイト

総務省統計局のダウンロードページ: https://www.stat.go.jp/data/guide/download/index.html
e Stat: https://www.e-stat.go.jp/

--------------------
YouTube 動画
https://youtu.be/nV-OlL7M3fU

profile-image

金子邦彦(かねこくにひこ) 福山大学・工学部・教授 ホームページ: https://www.kkaneko.jp/index.html 金子邦彦 YouTube チャンネル: https://youtube.com/user/kunihikokaneko

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

3. データサイエンス・AI の演習 (人工知能) URL: https://www.kkaneko.jp/cc/mi/index.html 金子邦彦 1

2.

アウトライン 1. 政府統計データ 2. クロス集計表(Excel を使用) 3. 相関(Excel を使用) 4. 平均,誤差 5. オープンデータ 2

3.

人工知能と統計の関係 調査によって 得られたデータ 数量による 現象の把握 (統計) データを用いた 学習による上達 (人工知能) 人工知能が「統計による結論」とは違った振る舞い をするとは考えにくい 3

4.

3-1 政府統計データ 4

5.

統計 統計(とうけい、statistic)は、現象を調査するこ とによって数量で把握すること、または、調査に よって得られた数量データ(統計量)のこと WikiPedia より 5

6.

総務省統計局が公開する統計表 • 人口・世帯に関する統計 • 企業活動に関する統計 • 産業構造・波及効果分析や各種経済統計の基準値となる統 計 • 情報通信・科学技術に関する統計 • 労働・賃金に関する統計 • 物価・地価に関する統計 • 住宅・土地に関する統計 • 家計に関する統計 • 文化に関する統計 • 総合統計書 ダウンロードページ https://www.stat.go.jp/data/guide/download/index.html 6

7.

総務省統計局が公開する統計表 • オンラインで公開 • ダウンロードページ https://www.stat.go.jp/data/guide/download/index.html 人口推計の結果の概要 労働力調査(基本集計)2022年 令和4年4月報より(抜粋) (令和4年)3月分結果より(抜粋) 2020年基準 消費者物価指数 全国 2022 年(令和4年)3月分より(抜粋) 7

8.

e-Stat • 政府統計(総務省統計局以外も網羅)のポータル サイト 8

9.

e-Stat での統計データの検索からダウンロード ① 統計データの検索 ・分野による検索 ・キーワードによる検索,その他 ② 必用な項目を選ぶ(表示項目選択) ③ レイアウトの設定 ④ ダウンロード 手元のパソコンにファイルがダウンロードされる 9

10.

家計調査 • 全国約9千世帯を対象として、家計の収入・支出、貯蓄・ 負債などを毎月調査 10

11.

e Stat 家計調査のデータを用いた分析 「プリン」にお金を使うことが多い都市は? 数量による把握 謝辞 https://www.youtube.com/watch?v=0RSIrNTFnJw を参考にし,説明の追加等を行っている 11

12.

e Stat 家計調査データのダウンロード ① 統計データの検索 分野での検索:企業・家計・経済→家計調査 キーワード検索:家計調査 ② 検索結果から「家計調査」を選ぶ 12

13.

③ 種類を選ぶ 13

14.

④ 品目区分(2020年改訂)(総数:金額)を選ぶ 14

15.

⑤ 「表示項目選択」を展開 15

16.

⑥ 「品目分類」の「項目を選択」をクリック 「全解除」をクリック 「プリン」で検索 「プリン」にチェック.「確定」をクリック 16

17.

⑦「時間軸(月次)」の「項目を選択」をクリック 「全解除」をクリック スクロールし,「2022年2月」をチェック 「確定」をクリック 17

18.

⑧ 「レイアウト設定」をクリック ⑨ 「地域区分」は「行」のところにドラッグ&ド ロップ.「設定して表示を更新」 18

19.

⑩ プリンについての結果を確認 ⑪ 「ダウンロード」をクリック 19

20.

⑫ ダウンロードしたファイルを Excel で開くことが できる ⑬ ヒストグラムの作成(範囲を選び,「挿入」でヒ ストグラム) 20

21.

まとめ ① 統計データの検索 分野での検索:企業・家計・経済→家計調査 キーワード検索:家計調査 ② 必用な項目を選ぶ(表示項目選択) 品目分類:プリン 時間軸(月次):最新月 ③ レイアウトの設定 ページ,行,列の設定 ④ ダウンロード 21

22.

演習 • 各自で,e Stat 家計調査データで,「プリン」や, それ以外の品目について調べてみる • Excel を使い,ヒストグラムを作成してみる 22

23.

3-2 クロス集計表 23

24.

ピボットテーブル(クロス集計表)の例 男性 元データ 女性 済 2 1 未 2 1 ピボットテーブル (クロス集計表)の例 24

25.

Excel でピボットテーブル(クロス集計用) を作成(1/5) 元データ ① 左上をクリック.全セルが選択される (これは範囲の選択) ② リボンで「挿入」→「ピボットテーブル」 25

26.

Excel でピボットテーブル(クロス集計用) を作成(2/5) ③ 「OK」をクリック ④ 「性別」と「申し込み」 をチェック 26

27.

Excel でピボットテーブル(クロス集計用) を作成(3/5) ⑤ 列のところに「申し込み」が, 行のところに「性別」が来るよう に,ドラッグして調整 27

28.

Excel でピボットテーブル(クロス集計用) を作成(4/5) ⑥「名前」をチェック ⑦行の下の「名前」を ⑧値の下にドロップ ドラッグして, 28

29.

Excel でピボットテーブル(クロス集計用) を作成(5/5) ピボットテーブル(クロス集計表)ができた 29

30.

クロス集計表の例 最終卒業学校卒業のあと,引っ越しをして いないのは全体の何パーセントか? 最終卒業学校卒業時の居住地(男女別) まだ卒業し ていない 現在と同じ 居住地 その他 男性 19.2 17.8 63.0 女性 17.3 10.6 72.1 パーセント ここから導かれる結論は? 性別と居住地についての関連 その他: 居住地が違う,不詳 e-Stat 社会保障・人口問題基本調査(人口移動調査) / 人口 30 移動調査 / 第8回人口移動調査 より

31.

3-3 相関 31

32.

相関 • 相関は,2つの変数の間に関連性があるか (一方が変化すれば、もう一方も変化する関係) • 相関あり X が増えると,Yが増えている X が増えると,Y が減っている • 相関なし X と Y に関係がない 32

33.

相関係数 • 相関係数は,相関を算出した数値 1や ー1に近い値: 1に近い値: ー1に近い値: 0に近い値: 相関あり 正の相関関係 負の相関関係 相関なし 33

34.

2つの変数の例 • 2つの変数 xx, yy の散布図 相関係数の算出結果例 0.1252164 (0 に近い値) 34

35.

2つの変数の例 • 2つの変数 xx, yy が 互いに相関関係を持 つ場合. xx の値が増えると yy の値が増えるという 正の相関関係 相関係数の算出結果例 0.8620027 (1 に近い値) 35

36.

2つの変数の例 • 2つの変数 xx, yy が 互いに相関関係を持 つ場合. xx の値が増えると yy の値が減るという 負の相関関係 相関係数の算出結果例 -0.8502535 (-1 に近い値) 36

37.

相関係数 • 1や ー1に近い値: 1に近い値: 正の相関関係 ー1に近い値: • 0に近い値: 相関あり 負の相関関係 相関なし -0.8502535 (-1 に近い値) 0.1252164 (0 に近い値) 0.8620027 (1 に近い値) 正の相関関係 負の相関関係 37

38.

e Stat 家計調査のデータを用いた分析 「プリン」にお金を使うことと,「ケーキ」に お金を使うことに相関があるか? 横軸:ケーキ,縦軸:プリン 38

39.

e Stat 家計調査のデータの準備 • e Stat で,表示項目として,ケーキとプリンを選択 • データをダウンロード,Excel で開く 39

40.

横軸:ケーキ,縦軸:プリン 40

41.

Excel で相関係数を求める ① 相関係数を求めたいセルを選んでおく ② メニューの「数式」 ③「その他の関数」,「統計」,「CORREL」 ④ 配列1と配列2の範囲を指定 相関係数として 0.3247 が求まった → 「相関がある」とは言い切れない 41

42.

3-4 誤差,平均 42

43.

① 同じものを計測する.但し,誤差を含む ② 繰り返し計測し,平均をとる 計測値 = 全体の平均 + 誤差 という考え方も ③ 多数の計測の繰り返しが重要 43

44.

3-5 オープンデータ 44

45.

ビックデータによる課題解決 • 膨大な量のデータ(ビッグデータ)を活用.課題 解決,効率化,透明化の向上を達成 • プライバシ保護は当然 • 公益性の高いデータはオープンデータとして公開 される 45

46.

新サービスの例 不動産販売価格予測サイト GEEO https://geeo.otani.co 46

47.

オープンデータ ① 営利目的,非営利目的を問わず二次利用可能な ルールがされたもの ② 機械判読に適したもの ③ 無償で利用できるもの • 総務省のオープンデータの基本指針より 47