176.3K Views
February 18, 23
スライド概要
2022年度統計学Iの講義資料です。
好きな色は緑です。
統計学 I-1 ・統計学の導入 ・記述統計 ・確率論 https://logics-of-blue.com/
本資料について 本資料の成り立ち 馬場が担当する学部1年生向け統計学Iの講義資料抜粋 統計学を初めて学ぶ、文系の学生が受講する想定 本資料の取り扱い あくまでも、本来の講義資料の抜粋なので注意 (計算演習・講義内クイズ・前回講義の復習 口頭での説明内容等は省略) SNSなどでスライドのスクショを張り付けるのは、 避けてほしい (文脈がわからないと、誤った理解を促すため) 2
本資料について 本資料の使い方 想定①:講義の受講者が復習に利用する 想定②:未受講者が統計学入門資料として利用する ※想定②の場合は、下記参考文献も参照すること 参考文献 馬場真哉,2022,翔泳社 『Pythonで学ぶあたらしい統計学の教科書 第2版』 倉田博史・星野崇宏,2009,新世社 『入門統計解析』 鈴木武・山田作太郎,1996,内田老鶴圃 『数理統計学』 3
本資料の範囲 1.統計学とは 2.データの種類・データのまとめ方の基本 3.一次元データの整理 4.二次元データの整理 5.記述統計の応用 6.グラフの活用・前半のまとめ 7.中間テスト
統計学 I 第1回:統計学とは 2022年04月18日(月)
内容 1.自己紹介 2.講義の進め方 3.統計学では何を学ぶか
自己紹介
自己紹介 名前 馬場真哉 学生の頃の専門 水産学 前職 システムエンジニア フリーランス 現職 東京医科歯科大非常勤講師 岩手大客員准教授 帝京大学講師(1年生)
本も書いています(2023年2月現在の書作) 1. 馬場真哉 (2022). Pythonで学ぶあたらしい統計学の教科書 第2版. 翔泳社. 【https://www.shoeisha.co.jp/book/detail/9784798171944】 2. 馬場真哉 (2021). 意思決定分析と予測の活用 基礎理論からPython実装まで. 講談社. 【https://www.kspub.co.jp/book/detail/5222270.html】 3. 馬場真哉 (2020). R言語ではじめるプログラミングとデータ分析. ソシム. https://www.socym.co.jp/book/1238】 4. 馬場真哉 (2019). RとStanではじめる ベイズ統計モデリングによるデータ分析入門. 講談社. 【https://www.kspub.co.jp/book/detail/5165362.html】 5. 馬場真哉 (2018). Pythonで学ぶあたらしい統計学の教科書. 翔泳社. 【https://www.shoeisha.co.jp/book/detail/9784798155067】 6. 馬場真哉 (2018). 時系列分析と状態空間モデルの基礎: RとStanで学ぶ理論と実装. プレアデス出版. 【http://www.pleiades-publishing.co.jp/pdf/pdf08.html】 7. 馬場真哉 (2015). 平均・分散から始める一般化線形モデル入門. プレアデス出版. 【http://www.pleiades-publishing.co.jp/pdf/pdf02.html】
講義の進め方
統計学では何を学ぶか
内容 1.統計学について 2.記述統計について 3.推測統計について 4.確率論について
統計学とは何か 統計学 データを収集、表示、解析する科学 Graham Upton, Ian Cook.(白幡慎吾 監訳).(2010).統計学辞典.共立出版 「統計学とは何か」に対する個人的な回答 データの“良い”使い方を学ぶための学問 なぜデータを利用するのだろう?
データ活用事例① ナイチンゲールさんの統計活用
統計学とは何か ナイチンゲール(人名) イタリアのフローレンス生まれ クリミア戦争中の看護師としての業績で知られる Graham Upton, Ian Cook.(白幡慎吾 監訳).(2010).統計学辞典.共立出版 参考:ナイチンゲールと統計(最終閲覧2022年1月17日) http://www.stat.go.jp/naruhodo/15_episode/episode/nightingale.html 「統計学辞典」にナイチンゲールの名前が
統計学とは何か ナイチンゲールの業績 戦死者のデータを収集した そして「死亡原因」を集計した 画像省略 参考:ナイチンゲールと統計(最終閲覧2022年1月17日) http://www.stat.go.jp/naruhodo/15_episode/episode/nightingale.html
統計学とは何か ナイチンゲールの業績 データから、死者が増える原因を調べた 怪我による死亡 < 感染症による死亡 参考:ナイチンゲールと統計(最終閲覧2022年1月17日) http://www.stat.go.jp/naruhodo/15_episode/episode/nightingale.html 怪我をした後、感染症が広がらないように 病院の衛生状態を改善 →死者の数が激減
データ活用事例② 電車の駅ホームにおける椅子の向きについて
統計学とは何か データ活用の事例:駅ホームのベンチの向き データから、線路に転落する理由を調べた 酔っぱらった人が、椅子から立ち上がった時 線路へ向かって転落している!? 参考:乗り物ニュース(最終閲覧2022年1月17日) 駅ホームのベンチ「向き変更」広がる 関西発祥の安全対策、関東でも拡大 https://trafficnews.jp/post/84818
統計学とは何か データ活用の事例:駅ホームのベンチの向き 線路 駅ホーム 椅子が線路向き →落ちやすい ベンチ
統計学とは何か データ活用の事例:駅ホームのベンチの向き 線路 駅ホーム ベンチ 椅子が線路と直角 →落ちにくい!!
統計学とは何か データ活用の事例:駅ホームのベンチの向き データから、線路に転落する理由を調べた 酔っぱらった人が、椅子から立ち上がった時 線路へ向かって転落している! →椅子の向きを変えてみよう! ……でも、本当に効果があるのかな?? →効果があるか、データを使って確かめよう! データを集め、分析することで、 少ない費用で、大きな成果が得られるかも (人間の命に関わる改善になるかも)
統計学とは何か 統計学の使い道(例) 売れている商品と、売れていない商品を比較 →売れている理由を見つけて、売り上げを伸ばす 絶滅の危機にある生物が たくさんいる場所と、いない場所を比較 →生物が生息できる条件を調べて、保護に活かす データを使って、社会を改善。仕事に活用
統計学とは何か 統計学は便利♪ データを分析すると…… 死者を減らせる(だろう) 売り上げを伸ばせる(だろう) データを中途半端に利用すると、 手痛い失敗をするかもしれない
統計学とは何か 1.データを分析することで、 社会を良くできるかもしれない 2.データ分析のやり方を間違えると、 逆に損をするかもしれない データ活用のメリット・注意点を両方学ぶ
内容 1.統計学について 2.記述統計について 3.推測統計について 4.確率論について
記述統計について 目的: 手持ちのデータの集計・整理 例)データの平均値を使う 複数の数値(データ) 4 3 4+3 平均値 = = 3.5 2
記述統計について たくさんの数値(データ) 4.5 3.2 7.4 15.6 1.8 12.4 2.8 6.3 9.0 10.1 少しの集計値 平均:7.3 集計すると結果が見やすい
集計のメリット・デメリット メリット データの比較や解釈が簡単になる デメリット 単一の集計値だけだと、情報が大きく減る 恣意的に、解釈をゆがめることができる
集計のメリット・デメリット 学生の貯金額を調べて 金銭的補助の必要性を把握しよう 貯金額 Aさん Bさん Cさん Dさん 1000万 0円 0円 0円 貯金額の平均値 1000 + 0 + 0 + 0 = 250 4 貯金250万もあるから補助はいらないね!
集計のメリット・デメリット 学生の貯金額を調べて 金銭的補助の必要性を把握しよう 貯金額 Aさん Bさん Cさん Dさん 1000万 0円 0円 0円 一人を除き、学生は全員、貯金が0円!! 平均値だけを見て判断してはいけない
記述統計 記述統計の大きなテーマ なるべく情報量を減らさないで 比較・解釈を簡単にする集計方法を探る ● 平均以外の、複数の集計値を併記する ● グラフの活用 →前期の前半(中間テストまで)で扱う
内容 1.統計学について 2.記述統計について 3.推測統計について 4.確率論について
推測統計 目的:まだ手に入れていない未知データの推測・予測 わざわざ未知のデータに言及する意義は?
推測統計 推測統計がない時(未知のデータに対して言及しない) 今日の夜まで 広告を出すことで、売り上げが増えました でも・・・ 明日からは 広告を出すことで売り上げが増えるか減るか不明です 何のためのデータ分析?
推測統計 推測統計がない時(未知のデータに対して言及しない) 手持ちのデータ 今日の夜まで 広告を出すことで、売り上げが増えました まだ持っていない未知のデータ 明日からは 広告を出すことで売り上げが増えるか減るか不明です データに基づく判断のために、 未知のデータへ言及をする
推測統計 推測統計がある時(未知のデータに対して言及する) 今日の夜まで 広告を出すことで、売り上げが増えました だから 明日からも 広告を出すことで売り上げが増えるはずです ★売り上げUPのために広告を出そう!!! この流れこそが「データに基づく判断」
推測統計 データの集計 今日の夜まで、広告を出すことで、売り上げが増えた データに基づく判断 明日からも、広告を出すことで売り上げが増えるはず データに基づく意思決定 明日からも広告を出すべきだ 未知のデータに対して推測・予測を行い データを活用した意思決定につなげる
推測統計 推測統計の大きなテーマ 未知データに対する推測 未知データも対象とした判断 ● 区間推定の活用 ● 統計的仮説検定の活用 →主に後期の内容
内容 1.統計学について 2.記述統計について 3.推測統計について 4.確率論について
確率論について データを分析するのに、なぜ確率が必要か? 統計学の教科書では、思い出したように(?) 確率論がいきなり現れる →前期の後半(中間テスト以降)は確率論 確率論が、なぜ、どのようにして使われるのか、 データを分析するのに、なぜ確率を学ぶ必要があるのか、 推測統計の基本的な考え方と合わせて説明
データに基づく判断・意思決定のために 【記述統計】手持ちのデータの集計 【推測統計】未知のデータに対する判断・推測 推測統計を理解するためには、確率の知識が必要 ・・・・・・なぜ?
内容 1.ガチャの事例 2.湖調査の事例
内容 1.ガチャの事例 2.湖調査の事例
確率論を学ぶ意義 ダメそうな推論の仕方 スマホゲームで10連ガチャを回しても、当たりが出ない ↓ このガチャは、当たりが一人も入ってない。不正だ!! 根拠のないクレームでは?
確率論を学ぶ意義 ダメそうな推論の流れ Step1.データ取得:10連ガチャを回す 結果:当たりキャラが出ない ↓ Step2.未知のデータに対する推測 このガチャでは、当たりキャラ出現率が0%である! ↓ Step3.予測 誰が回しても、ガチャで当たりなんか出ないよ!!! この推測・予測は明らかに間違い 確率的に、当たったり外れたりするはず
確率論を学ぶ意義 確率論で学ぶこと 問い: SSRの当たり率が2%(0.02)のガチャを100回実行した時 当たりが1回も出ない確率は? ① 1%未満 ④ 11~15% ② 1~5% ③ 6~10% ⑤ 16~20% 答え: およそ13%なので④が正解 確率的に変化する結果について 理解を深める
確率論を学ぶ意義 もしかして、本当に不正ガチャかも? 問い:(SSRの当たり率は2%) 1000回やっても当たりが出ない。 1000回実行して当たりが1回も出ない確率は? ① 1%未満 ④ 11~15% ② 1~5% ③ 6~10% ⑤ 16~20% 答え: ほぼ0%なので①が正解 ガチャ不正の根拠にするためには、 何回ガチャを回す必要があるだろう?
内容 1.ガチャの事例 2.湖調査の事例
推測統計の使い道 すべての魚(およそ1億尾) 湖にいる魚の体長を調べたい しかし全ての魚の体長を調べるのは無理 50
推測統計の使い道 500尾くらいなら、 体長を調べられそう 51
推測統計のテーマ 湖の中のすべての魚の体長 母集団 すべてのデータ 未知のデータを含む 標本 母集団の一部 手に入ったデータ 釣りをして得られた魚の体長 標本を使って、母集団について議論する 手持ちのデータで未知データの議論をする
確率はどこで登場するか たまたま 「中くらいのサイズ」 の魚が釣れた 53
確率はどこで登場するか たまたま 「小さめのサイズ」 の魚が釣れた 54
確率はどこで登場するか たまたま 「大きめのサイズ」 の魚が釣れた 55
確率はどこで登場するか ランダムに一部の魚を標本として抽出 ここで確率が登場する 56
確率はどこで登場するか 同じ母集団から標本を抽出しても、毎回違う結果になる 平均3cm 平均7cm 確率的に結果が変わる! 確率的に、標本の体長の平均値が 大きくなったり小さくなったりする
確率論を学ぶ意義 確率論を学ぶ理由① 後期で学ぶ推測統計の基礎となるから →推測統計を理解するためには、確率論の理解が必須 確率論を学ぶ理由② 確率論そのものも、ビジネスで活用できる →誤った解釈をしないように 確率論を扱ったビジネス書も多く出版されている (基本的には、講義指定の教科書が1冊あれば十分)
推測統計と確率論の関わり 推測統計では確率論の理解が必要 標本(データ)は、確率的に得られるから 推測統計学の用語(詳しくは後期で解説) 母集団 未知データを含む、対象全体 標本 母集団の一部。手に入るデータはこれだけ
まとめ メモ 統計学とは データを収集、表示、解析する科学 Graham Upton, Ian Cook.(白幡慎吾 監訳).(2010).統計学辞典.共立出版 以下の2つに分けられる 記述統計 なるべく情報量を減らさないで 比較・解釈を簡単にする集計方法を探る 推測統計 全体の一部である標本だけを使って、 まだ手に入れていない未知データの推測・予測をする (確率論の理解が必須)
今後の講義(予定):記述統計 1.統計学とは(本日) 2.データの種類・データのまとめ方の基本 3.一次元データの整理 4.二次元データの整理 5.記述統計の応用 6.グラフの活用・前半のまとめ 7.中間テスト
今後の講義(予定):確率論 8.確率論の基礎1 9.確率論の基礎2 10.確率分布の基礎1 11.確率分布の基礎2 12.代表的な確率分布 13.多次元確率分布の基礎 14.独立同一分布に従う確率変数 15.期末テスト
データを扱う際の注意点 ちょっとした頭の体操
データを扱う際の注意点 あるお店のデータ(本物のデータではない) 商品の販促(販売促進の略語。例えば宣伝とか)を した時・しなかった時で、売り上げのデータを比較した 販促時売り上げ < 通常時売り上げ 販促したら、売り上げが減った このデータから何がわかるだろう?
データを扱う際の注意点 「販促したら売り上げが減った」というデータの取り扱い 問い: 販促をしたら売り上げが減ったというデータを見て、 次にどのような施策を打つべきだろうか ① 販促はしないべき ② 販促するべき ③ 判断できない データが得られても、その解釈には 慎重さが求められる
データを扱う際の注意点 「販促したら売り上げが減った」というデータの取り扱い よくあるパターン 店員さん 雨が降ったからお店の売り上げが減りそう…… 雨の日でも商品を買ってもらえるように、 販促をしよう! 雨の日(売り上げが下がる日)にだけ、 販促をしていたらしい
データを扱う際の注意点 「販促したら売り上げが減った」というデータの取り扱い 仮想の売上データ 20 15 15 10 8 10 5 5 0 晴 販促あり 雨 販促なし
データを扱う際の注意点 天気が同じなら、 「販促したら売り上げが減った」というデータの取り扱い 販促すると売り上げがUP 仮想の売上データ 20 15 15 10 8 10 5 5 0 晴 販促あり 雨 販促なし
データを扱う際の注意点 「晴」のときの「販促なし」と 「雨」のときの「販促あり」だと、 「販促したら売り上げが減った」というデータの取り扱い 「販促なし」の方が売り上げが高くなる 仮想の売上データ 15 20 15 10 8 10 5 5 0 晴 販促あり 雨 販促なし
データを扱う際の注意点 「販促したら売り上げが減った」というデータの取り扱い 問い: 販促をしたら売り上げが減ったというデータを見て、 次にどのような施策を打つべきだろうか データは、物事を判断するときに便利 しかし、データではわからないこともある データを疑うこともまた、とても大事
データを扱う際の注意点 困ったときの処方箋 ①現場の人の話を聞いてみる(とても大事) いや~、雨のときにばかり販促してるんだよね~ ②追加でデータを集めてみる 売り上げが下がったのは偶然かも? →データを増やせば結果が変わるかもしれない →しかし、先ほどのような事例だと、効果は薄い 異なるタイプのデータを集めてみる →例えば、天気別でデータを集めるなど →視点を変えてみるのは大事
統計学 I 第2回:データの種類 データのまとめ方の基本
内容 1.データの分類 2.度数分布 3.ヒストグラム 73
データの分類 74
内容 1.データについて 2.データの分類 3.様々な尺度 4.その他の分類方法 75
内容 1.データについて 2.データの分類 3.様々な尺度 4.その他の分類方法 76
データの分類 観測・変数 観測:調査などによって観測された個別の対象 変数:観測対象となった性質・調査項目 魚の種類 A A B B 体長(cm) 2 4 8 9 77
データの分類 観測・変数 観測:調査などによって観測された個別の対象 変数:観測対象となった性質・調査項目 観測 (今回は4つの観測) 魚の種類 A A B B 体長(cm) 2 4 8 9 78
データの分類 観測・変数 観測:調査などによって観測された個別の対象 変数:観測対象となった性質・調査項目 変数 (今回は2つの変数) 魚の種類 A A B B 体長(cm) 2 4 8 9 79
内容 1.データについて 2.データの分類 3.様々な尺度 4.その他の分類方法 80
データの分類 データの分類の概要 離散型 数量データ 連続型 データ 二値データ カテゴリーデータ 多値データ 81
データの分類 まずはこの分類から データの分類の概要 離散型 数量データ 連続型 データ 二値データ カテゴリーデータ 多値データ 82
データの分類 ○ 定量的・定量的でない × 数値・数値でない 数量データ(量的データ・量的変数) 定量的である(計測できる)データ 数値の差が等間隔であるデータ 例) 魚の体長・金額・気温・テストの点数 カテゴリーデータ(質的データ・質的変数) 定量的でない(計測できない)データ 例) 魚の種類・学部・学科・成績(S~D) 83
データの分類 数量データとカテゴリーデータの紛らわしい事例 (1)大 (2)中 (3)小 20cm 10cm 5cm 10cm差 5cm差 数値の「差」の間隔が等しくない (1)大・(2)中・(3)小はカテゴリーデータ 84
データの分類 数量データとカテゴリーデータの紛らわしい事例 見た目は数値だがカテゴリーデータというのはよくある 例) 英検の級 1級 大学上級 2級 高校卒業 3級 中学卒業 4級 中学中級 両方とも中学レベル 4→3級は簡単。2→1級は大変 85
データの分類 次はこの分類 データの分類の概要 離散型 数量データ 連続型 データ 二値データ カテゴリーデータ 多値データ 86
数量データの分類 定量的なデータ=数量データ 離散型の変数:飛び飛びの値 魚の釣獲尾数:0尾、1尾、2尾(0か正の整数のみ) 商品が売れた個数:0個、1個、2個 連続型の変数:連続した値 魚の体長:20cm、19.8524cm(いくらでも細かくできる) 金額(万円)などは1円区切りだが、 計算の簡単のため、連続データとみなすことも多い 87
カテゴリーデータの分類 定量的でないデータ=カテゴリーデータ 2値データ:2種類のカテゴリーしかない 魚の性別:オス・メス 契約の成否:契約成立・契約不成立 購入の有無:買った・買わない 多値データ:3以上の種類をとる 魚の種類:メダカ・キンギョ・クロマグロ 顧客属性:企業の正社員・フリーランス・学生 英検の級:1級・2級・3級・4級 88
データの分類 定量的・定量的でない (数値の差が等間隔・等間隔でない) データの分類の概要 離散型 数量データ 連続型 データ 二値データ カテゴリーデータ 多値データ メモ 大きめのノートにメモして 後で事例を追記するのがおすすめ 89
内容 1.データについて 2.データの分類 3.様々な尺度 「連続・離散」や「2値・多値」とは異なる観点から、 カテゴリーデータ・数量データをさらに分類 90
様々な尺度 数量データとカテゴリーデータの紛らわしい事例 例) 英検の級はカテゴリーデータ 1級 大学上級 2級 高校卒業 3級 中学卒業 4級 中学中級 両方とも中学レベル 理屈はわかるが、 普通(?)のカテゴリーと分けたい気がする 91
様々な尺度 定量的でないデータ=カテゴリーデータ 名義尺度:単なるカテゴリー 魚の性別:オス・メス 顧客属性:企業の正社員・フリーランス・学生 順序尺度:順序があるカテゴリー 魚の大きさランク:大・中・小 英検の級:1級・2級・3級・4級 92
様々な尺度 数量データをさらに2つに分ける 例)気温は比率に意味を見出しにくい 気温1度 → 気温2度 2倍暑くなった……か? 正直、どっちも同じくらい寒い 93
様々な尺度 定量的なデータ=数量データ 間隔尺度:比率に意味を持たない 摂氏で測った気温 西暦(西暦1年が2年になっても、 「2倍の西暦」とは言わない) 比例尺度:比率が意味を持つ 魚の体長(1cmの魚が成長して2cmになったら 「2倍の大きさになった」と言える) 経過時間(大学の授業90分は、高校生の授業45分の倍) 94
様々な尺度 様々な尺度 メモ 大きめのノートにメモして 後で事例を追記するのがおすすめ 名義尺度 カテゴリーデータ 順序尺度 間隔尺度 数量データ 順序がある (間隔は普通、等しくない) (間隔は等しいが) 比率に意味を持たない 比例尺度 95
内容 1.データについて 2.データの分類 3.様々な尺度 4.その他の分類方法 96
その他の分類方法 1変量データ(1次元データ) 1つの変数だけからなるデータ 多変量データ(多次元データ) 2つ以上の変数からなるデータ 97
その他の分類方法 時系列データ 異なる時点で得られたデータ 「並び順」に意味があるのが特徴 例) 月別売上データ →1月の売り上げ、2月の売り上げ、3月の売り上げ…… クロスセクションデータ 異なる対象から得られたデータ 例) 2020年1月における、自社店舗100店の売り上げ 98
その他の分類方法 メモ 変数の種類による分類 1変量データ :1つの変数からなるデータ 多変量データ :複数の変数からなるデータ データの取得状況による分類 時系列データ :異なる時点で得られたデータ クロスセクションデータ:異なる対象から得られたデータ 99
度数分布 100
内容 1.度数・度数分布 2.度数分布の便利なところ 3.数量データにおける度数分布の工夫 4.いろいろな度数分布 101
内容 1.度数・度数分布 2.度数分布の便利なところ 3.数量データにおける度数分布の工夫 4.いろいろな度数分布 102
度数分布 度数 ある属性に属するデータの数のこと 度数分布 属性と度数を対応させたもの 度数分布表 度数分布を表にしたもの どんなデータが、何個あったかを数える 103
度数分布 度数分布表の例:受講者の学科の構成 25人へのアンケート結果(生データ) 経済学科・経済学科・経済学科・経済学科・経済学科 経済学科・経済学科・経済学科・経済学科・経済学科 国際経済学科・国際経済学科・国際経済学科・国際経済学科・国際経済学科 経営学科・経営学科・経営学科・経営学科・経営学科・経営学科・経営学科 観光経営学科・観光経営学科・観光経営学科 度数分布表 属性(学科) 度数 経済学科 10 国際経済学科 5 経営学科 7 観光経営学科 3
度数分布 度数分布表の例: 受講者の学科の構成 合計:25人 属性(学科) 度数 経済学科 10 国際経済学科 5 経営学科 7 観光経営学科 3 合計:25人 度数分布表の例: 受講者の年齢構成 属性(年齢) 度数 18歳 16 19歳 7 20歳 21歳 1 1
内容 1.度数・度数分布 2.度数分布の便利なところ 3.数量データにおける度数分布の工夫 4.いろいろな度数分布 106
度数分布 学生の貯金額を調べて 金銭的補助の必要性を把握しよう 貯金額 Aさん Bさん Cさん Dさん 1000万 0円 0円 0円 貯金額の平均値 𝟏𝟎𝟎𝟎 + 𝟎 + 𝟎 + 𝟎 = 𝟐𝟓𝟎 𝟒 貯金250万もあるから、補助はいらないね! 107
度数分布 学生の貯金額を調べて 金銭的補助の必要性を把握しよう 貯金額 Aさん Bさん Cさん Dさん 1000万 0円 0円 0円 一人を除き、学生は全員、貯金が0円!! 平均値だけを見て判断してはいけない 108
度数分布 度数分布表の例: 貯金額の構成 合計:4人 属性(貯金 額) 1000万円 0円 度数 1 3 平均値よりも、 度数分布表を重要視するのがお勧め 実際の仕事でも、度数分布は大事! 経済的補助が必要な学生の人数が 即座にわかる 109
内容 1.度数・度数分布 2.度数分布の便利なところ 3.数量データにおける度数分布の工夫 4.いろいろな度数分布 110
合計:25人 度数分布 度数分布表の例: 身長の構成 ・表が長すぎる ・見難い ・データの特徴が 分かり難い 属性(身長) 度数 155.1㎝ 155.2㎝ 155.3㎝ 1 0 0 155.4㎝ 155.5㎝ 155.6㎝ 1 0 0 155.7㎝ 155.8㎝ 155.9㎝ 1 1 0 156.0㎝ 0 156.1㎝ 1 190㎝まで続く・・・・・・ (以下略)
度数分布 階級 数値をある範囲で区切ったもの 階級値 階級を代表する値(後述) 階級下限・階級上限・階級幅 階級の下限・上限とその範囲 「どの範囲のデータ」が、何個あったか 112
度数分布 度数分布表の例: 身長の構成 合計:25人 階級 155~164.9㎝ 165~174.9㎝ 175~184.9㎝ 185~194.9㎝ 階級として範囲を区切ると とても見やすい 度数 5 12 6 2
度数分布 階級に関する用語の補足 階級を代表する値 階級 155~164.9㎝ 165~174.9㎝ 175~184.9㎝ 185~194.9㎝ 階級値 160㎝ 170㎝ 180㎝ 190㎝ 階級下限 155㎝ 165㎝ 175㎝ 185㎝ 階級上限 164.9㎝ 174.9㎝ 184.9㎝ 194.9㎝
内容 1.度数・度数分布 2.度数分布の便利なところ 3.数量データにおける度数分布の工夫 4.いろいろな度数分布 115
度数分布 相対度数 度数の、全データに占める割合 合計:25人 階級 度数 相対度数 155~164.9㎝ 5 165~174.9㎝ 12 175~184.9㎝ 6 5 ÷ 25 = 0.2 12 ÷ 25 = 0.48 6 ÷ 25 = 0.24 185~194.9㎝ 2 2 ÷ 25 = 0.08 116
度数分布 累積度数 度数の累積値。ある階級までの度数を足し合わせる 合計:25人 階級 度数 累積度数 155~164.9㎝ 5 165~174.9㎝ 12 175~184.9㎝ 6 5 5 + 12 = 17 5 + 12 + 6 = 23 185~194.9㎝ 2 5 + 12 + 6 + 2 = 25 117
度数分布 累積相対度数 相対度数の累積値 合計:25人 階級 度数 155~164.9㎝ 5 相対度数 5 ÷ 25 = 0.2 累積相対度数 0.2 165~174.9㎝ 12 12 ÷ 25 = 0.48 0.2 + 0.48 = 0.68 175~184.9㎝ 6 6 ÷ 25 = 0.24 0.2 + 0.48 + 0.24 = 0.92 185~194.9㎝ 2 2 ÷ 25 = 0.08 0.2 + 0.48 + 0.24 + 0.08 = 1 185cmより小さい人が92%を占める →「ある値より小さい割合」がわかる
度数分布 学生の貯金額を調べて 金銭的補助の必要性を把握しよう 学生の貯金額の度数分布表を作る ↓ 累積相対度数分布表を作る ↓ 貯金が「ある値」を下回っている割合を調べる 貯金額の分布に合わせて、補助しよう 119
度数分布 製品の売れ行きを調べて、 効率的に在庫管理を行おう 製品の発売数の度数分布表を作る ↓ 累積相対度数分布表を作る ↓ 発売数が多い、上位10製品で、全体の何割を占めるだろうか 「特定の製品」だけが売れているのか、 「まんべんなく」売れているのかを調べる 120
度数分布 メモ 度数・度数分布・度数分布表 ある属性に属するデータの数のこと。 属性と度数の対応(度数分布)は、度数分布表にする 階級・階級値 数値をある範囲で区切ったもの。 階級を代表する値を階級値と呼ぶ 相対度数 度数の、全データに占める割合 累積度数 度数の累積値 累積相対度数 相対度数の累積値 121
ヒストグラム ヒストグラムは、データ分析の 強力なツール(頻繁に使う) 122
ヒストグラム ヒストグラム 度数分布を棒グラフで表したもの 階級 155~164.9㎝ 165~174.9㎝ 175~184.9㎝ 185~194.9㎝ 度数 5 12 6 2
ヒストグラム ここから、少し応用的な内容 ヒストグラムの面積が持つ意味についてこれから解説 124
階級 度数 相対度数 ヒストグラム 155~164.9㎝ 5 0.2 165~174.9㎝ 12 0.48 ヒストグラム 175~184.9㎝ 6 0.24 (面積を相対度数にした) 185~194.9㎝ 2 0.08
階級 度数 相対度数 ヒストグラム 155~164.9㎝ 5 0.2 165~174.9㎝ 12 0.48 ヒストグラム 175~184.9㎝ 6 0.24 (面積を相対度数にした) 185~194.9㎝ 2 0.08 相対度数分布と、桁が1つずれているが、 これが正しい
階級 度数 相対度数 ヒストグラム 155~164.9㎝ 5 0.2 165~174.9㎝ 12 0.48 ヒストグラム 175~184.9㎝ 6 0.24 (面積を相対度数にした) 185~194.9㎝ 2 0.08 この棒に着目
ヒストグラム ヒストグラムと相対度数 ヒストグラムの面積が 相対度数を表す 横幅10 階級 度数 相対度数 155~164.9㎝ 5 0.2 165~174.9㎝ 12 0.48 175~184.9㎝ 6 0.24 185~194.9㎝ 2 0.08 棒の面積は0.2であり、 相対度数と一致する 高さ 0.02 128
階級 度数 相対度数 ヒストグラム 155~164.9㎝ 5 0.2 165~174.9㎝ 12 0.48 ヒストグラム 175~184.9㎝ 6 0.24 (面積を相対度数にした) 185~194.9㎝ 2 0.08 (階級幅を変化させた) 175~195で、階級幅が広い ただし、相対度数を足し合わ せてはいけない 高さ 0.016
階級 度数 相対度数 ヒストグラム 155~164.9㎝ 5 0.2 165~174.9㎝ 12 0.48 ヒストグラム 175~184.9㎝ 6 0.24 (面積を相対度数にした) 185~194.9㎝ 2 0.08 (階級幅を変化させた) 棒の面積は0.24 + 0.08 = 0.32であり、 相対度数の和と一致する 横幅20(175~195) 高さ 0.016
ヒストグラム メモ ヒストグラム 度数分布をグラフで表したもの →ヒストグラムの面積が度数と比例する ヒストグラムと相対度数分布の関係 ヒストグラムの「面積」を、 相対度数分布と対応させる図をしばしば利用する →縦軸は、度数でも、相対度数でもない! →「面積」が相対度数
統計学 I 第3回:一次元データの整理
内容 1.算術記号の読み方 2.様々な統計量 133
データの分類方法(復習) 1変量データ(1次元データ) 1つの変数だけからなるデータ ←今日やる 多変量データ(多次元データ) 2つ以上の変数からなるデータ 魚の体長”だけ”や、貯金額”だけ”など 1変量データを対象とした統計量の紹介 134
算術記号の読み方 135
算術記号の読み方 ここでの目標 𝑥や𝑦が登場する数式を見てもびっくりしない 𝑛 平均値 1 𝑥ҧ = 𝑥𝑖 𝑛 𝑖=1 数式無しで統計学を勉強するのは不可能 数式を読めるようになることは必須技能 136
算術記号の読み方 ここでの目標 𝑥や𝑦が登場する数式を見てもびっくりしない ↓ 数式を「読める」ようになる 証明などは基本的に省略する でも、数式を読めるようになってほしい 137
算術記号の読み方 1.変数と𝑥 2.足し算と σ (シグマ)記号 138
算術記号の読み方 1.変数と𝑥 2.足し算と σ (シグマ)記号 139
算術記号の読み方 データの表記 𝑖番目の観測値を𝑥𝑖 と表記する 数学初心者のための補足① なぜ「𝑥」というアルファベットを使う? 特に理由はない。別に𝑦を使ってもOK →多変量データ編では、 複数の変数を区別するため𝑥, 𝑦の両方を使う 中学校の一次関数などでも𝑥や𝑦という 記号が多く使われるので、とりあえず𝑥 140
算術記号の読み方 データの表記 𝑖番目の観測値を𝑥𝑖 と表記する 数学初心者のための補足② 𝑖番目の「𝑖」ってなに? Indexの頭文字の「𝑖」 1番目の観測値なら𝑖 = 1 2番目の観測値なら𝑖 = 2 39番目の観測値なら𝑖 = 39 「5」番目など特定の数値を指定したくない →「何番目かの観測値」が𝑥𝑖 141
算術記号の読み方 データの表記 𝑖番目の観測値を𝑥𝑖 と表記する 観測・変数(復習) 観測:調査などによって観測された個別の対象 変数:観測対象となった性質・調査項目 体長(cm) 2 4 8 9 観測 (今回は4つの観測) 142
算術記号の読み方 データの表記 𝑖番目の観測値を𝑥𝑖 と表記する 観測・変数(復習) 観測:調査などによって観測された個別の対象 変数:観測対象となった性質・調査項目 体長(cm) 2 4 8 9 𝑥1 = 2 𝑥2 = 4 𝑥3 = 8 𝑥4 = 9 143
算術記号の読み方 データの表記 𝑖番目の観測値を𝑥𝑖 と表記する 数学初心者のための補足③ 普通に数値を使えばいいじゃん。なぜ𝑥𝑖 を使うの? 観測値が1万個あった場合、 その数値をすべて列挙するのは面倒。 →「抽象的に」対象を扱う 𝑥𝑖 , 𝑖 = 1,2,3,4, … , 9998,9999,10000 特定の観測値(大きさは3㎝)ではなく、 観測値一般を対象にした議論をしたい 144
算術記号の読み方 1.変数と𝑥 2.足し算と σ (シグマ)記号 145
算術記号の読み方 データの合計値 𝑖番目の観測値を𝑥𝑖 と表記する 𝑖 = 1,2,3,4,5(観測値は5個ある) 5 合計値 = 𝑥𝑖 𝑖=1 = 𝑥1 + 𝑥2 + 𝑥3 + 𝑥4 + 𝑥5 インデックス𝑖を1から5まで変化させて、 全ての観測値を合計する 146
算術記号の読み方 データの合計値 𝑖番目の観測値を𝑥𝑖 と表記する 𝑖 = 1,2,3,4,5(観測値は5個ある) 5 合計値 = 𝑥𝑖 𝑖=1 スタート = 𝑥1 + 𝑥2 + 𝑥3 + 𝑥4 + 𝑥5 インデックス𝑖を1から5まで変化させて、 全ての観測値を合計する 147
算術記号の読み方 データの合計値 𝑖番目の観測値を𝑥𝑖 と表記する 𝑖 = 1,2,3,4,5(観測値は5個ある) 5 合計値 = 𝑥𝑖 𝑖=1 終了位置 = 𝑥1 + 𝑥2 + 𝑥3 + 𝑥4 + 𝑥5 インデックス𝑖を1から5まで変化させて、 全ての観測値を合計する 148
算術記号の読み方 データの合計値(一般的な書き方) 𝑖番目の観測値を𝑥𝑖 と表記する 𝑖 = 1,2, … , 𝑛 (観測値は𝑛個ある) 𝑛 合計値 = 𝑥𝑖 𝑖=1 = 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 インデックス𝑖を1から𝑛まで変化させて、 全ての観測値を合計する 149
算術記号の読み方 データの合計値(一般的な書き方) 𝑖番目の観測値を𝑥𝑖 と表記する 𝑖 = 1,2, … , 𝑛 (観測値は𝑛個ある) 体長(cm) 2 4 8 9 𝑥1 = 2 𝑥2 = 4 𝑥3 = 8 𝑥4 = 9 観測値は4つなので 𝑛=4 4 合計値 = 𝑥𝑖 𝑖=1 = 𝑥1 + 𝑥2 + 𝑥3 + 𝑥4 = 2 + 4 + 8 + 9 = 23 150
様々な統計量 ①代表値 151
様々な統計量 統計量・代表値 データの特徴を把握するのに便利な指標を統計量と呼ぶ 統計量はデータから計算される →記述統計では代表値という言葉も多く使われる データを代表する指標というニュアンス →厳密には「データを入力して、指標を出力する関数」を 統計量と呼ぶ(データの中身が変わるから) データ 指標 152
様々な統計量 統計量・代表値 「データを入力して、指標を出力する関数」が統計量 これは間違い 平均値を計算したら3だった 「3」という数値をこれから平均と呼ぼう! 平均値を計算する計算式が大切 データ 指標 153
様々な統計量 代表値 たくさんのデータを代表する値 →データの分布の中心 ばらつきの指標 データの分布の中心から、 個別のデータがどれほど離れているか 154
様々な統計量 そもそも分布って? データの「分布」のイメージをしっかりつかもう 動物の分布 身長データの分布 ・キリン →アフリカに存在 データの多くは 170㎝前後に存在している ・キタキツネ →北海道に存在 160㎝前後と190㎝前後では、 160㎝前後の方が 多くのデータが存在している ・コウテイペンギン →南極に存在 155
ヒストグラム ヒストグラム(復習) 度数分布を棒グラフで表したもの 分布を可視化したグラフと言える 階級 度数 155~164.9㎝ 5 165~174.9㎝ 12 175~184.9㎝ 6 185~194.9㎝ 2
様々な統計量 1.平均値(算術平均) 2.中央値 3.最頻値 4.代表値の比較 157
様々な統計量 1.平均値(算術平均) 2.中央値 3.最頻値 4.代表値の比較 158
様々な統計量 データ 𝑥𝑖 ただし 𝑖 = 1,2, … , 𝑛 𝑛 平均値 1 𝑥ҧ = 𝑥𝑖 𝑛 𝑖=1 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 = 𝑛 平均値は伝統的に「バー(横棒)」をつける 𝑥𝑖 の平均値は𝑥ҧ 159
様々な統計量 1.平均値(算術平均) 2.中央値 3.最頻値 4.代表値の比較 160
様々な統計量 データ 𝑥𝑖 順序データ 小さいものから順番に並び替えたデータ 中央値 順序データの中央に当たる数値 ただし 𝑖 = 1,2, … , 𝑛 中央値は、データを小さい順に並び替えて ちょうど中央にあたる数値のこと 161
様々な統計量 1.平均値(算術平均) 2.中央値 3.最頻値 4.代表値の比較 162
ヒストグラム ヒストグラム(復習) 度数分布を棒グラフで表したもの 階級 度数 155~164.9㎝ 5 165~174.9㎝ 12 175~184.9㎝ 6 185~194.9㎝ 2
ヒストグラム ヒストグラム(復習) 度数分布を棒グラフで表したもの 階級 度数 155~164.9㎝ 5 165~174.9㎝ 12 175~184.9㎝ 6 185~194.9㎝ 2 最頻値 度数が最も大きい 階級値
様々な統計量 1.平均値(算術平均) 2.中央値 3.最頻値 4.代表値の比較 165
様々な統計量 データ 平均値 中央値 {1,2,3,4,5} 1+2+3+4+5 =3 5 {1,2,3,4,5} 中央の値「3」が中央値 今回のデータでは、平均値・中央値が一致 166
クイズ 平均値と中央値 問い: 下記のデータの平均値と中央値を答えよ データ {1,2,3,4,100} ① 平均値:3 中央値:3 ② 平均値:22 中央値:22 ③ 平均値:3 中央値:22 ④ 平均値:22 中央値:3
様々な統計量 データ 平均値 中央値 {1,2,3,4,100} 1 + 2 + 3 + 4 + 100 = 22 5 {1,2,3,4,100} 中央の値「3」が中央値 中央値の方が、歪みに強い 168
様々な統計量 外れ値・異常値 他と大きく異なる極端なデータ データ {1,2,3,4,100} 外れ値 中央値 {1,2,3,4,100} 中央の値「3」が中央値 中央値は外れ値に頑健 169
総務省統計局、家計調査報告(貯蓄・負債編) -2020年(令和2年)平均結果-(二人以上の世帯)より 「I 貯蓄の状況」より引用<https://www.stat.go.jp/data/sav/sokuhou/nen/pdf/2020_gai2.pdf> 170
貯金100万円未満 総務省統計局、家計調査報告(貯蓄・負債編) -2020年(令和2年)平均結果-(二人以上の世帯)より 「I 貯蓄の状況」より引用<https://www.stat.go.jp/data/sav/sokuhou/nen/pdf/2020_gai2.pdf> 貯金4000万以上の 大金持ち 171
総務省統計局、家計調査報告(貯蓄・負債編) -2020年(令和2年)平均結果-(二人以上の世帯)より 「I 貯蓄の状況」より引用<https://www.stat.go.jp/data/sav/sokuhou/nen/pdf/2020_gai2.pdf> 平均値は1700万超 172
総務省統計局、家計調査報告(貯蓄・負債編) -2020年(令和2年)平均結果-(二人以上の世帯)より 「I 貯蓄の状況」より引用<https://www.stat.go.jp/data/sav/sokuhou/nen/pdf/2020_gai2.pdf> 中央値は1061万 173
最頻値は 総務省統計局、家計調査報告(貯蓄・負債編) 貯金100万円未満 -2020年(令和2年)平均結果-(二人以上の世帯)より 「I 貯蓄の状況」より引用<https://www.stat.go.jp/data/sav/sokuhou/nen/pdf/2020_gai2.pdf> 174
様々な統計量 『二人以上の世帯について貯蓄現在高階級別の世帯分布をみると, 貯蓄現在高の平均値(1791万円)を下回る世帯が67.2%(前年67.9%)と 約3分の2を占めており, 貯蓄現在高の低い階級に偏った分布となっている。 』 総務省統計局、家計調査報告(貯蓄・負債編) -2020年(令和2年)平均結果-(二人以上の世帯)より 「I 貯蓄の状況」より引用<https://www.stat.go.jp/data/sav/sokuhou/nen/pdf/2020_gai2.pdf> 平均的な貯金額を持っている人は 上位3分の1のお金持ち 175
様々な統計量 ②ばらつきの指標 176
売り上げ(万円) 代表値の問題点 1000 平均 500万 平均 500万 500 0 代表値からデータが離れているか否か、 判別できる指標がほしい→ばらつきの指標 177
ばらつきの指標 1.分散 2.標準偏差 3.四分位点・最大・最小 178
ばらつきの指標 1.分散 2.標準偏差 3.四分位点・最大・最小 179
ばらつきの指標 分散 データが「平均値からどれほど離れているか」 を表す指標 売り上げ(万円) 分散大 分散小 1000 500 0 180
様々な統計量 データ 𝑥𝑖 ただし 𝑖 = 1,2, … , 𝑛 𝑛 分散 𝑠2 1 = 𝑥𝑖 − 𝑥ҧ 𝑛 2 𝑖=1 = 𝑥1 − 𝑥ҧ 2 + 𝑥2 − 𝑥ҧ 2 + ⋯ + 𝑥𝑛 − 𝑥ҧ 𝑛 2 個別のデータ𝑥𝑖 と平均値𝑥が離れていたら ҧ 分散は大きな値をとる 181
ばらつきの指標 データ {1,2,3,4,5} 1+2+3+4+5 =3 5 平均値 個別のデータが、 平均値からどれほど離れているか計算 分散 1−3 2 + 2−3 2 4+1+0+1+4 = 5 =2 + 3−3 5 2 + 4−3 2 + 5−3 2 182
クイズ 分散の計算 問い: 下記のデータの分散を答えよ データ ① 15.2 {1,2,3,4,100} ② 152 ③ 1522 ④ 15222 𝑛 分散 𝑠2 1 = 𝑥𝑖 − 𝑥ҧ 𝑛 𝑖=1 2
クイズ(回答) 分散の計算 問い: 下記のデータの分散を答えよ データ ① 15.2 {1,2,3,4,100} ② 152 ③ 1522 ④ 15222 𝑛 分散 𝑠2 1 = 𝑥𝑖 − 𝑥ҧ 𝑛 𝑖=1 2
ばらつきの指標 分散 データが「平均値からどれほど離れているか」 を表す指標 売り上げ(万円) 分散大 分散小 1000 500 0 平均値 185
ばらつきの指標 分散 データが「平均値からどれほど離れているか」 を表す指標 平均値から 売り上げ(万円) 分散大 離れている 分散小 1000 500 0 平均値 186
ばらつきの指標 分散 データが「平均値からどれほど離れているか」 を表す指標 売り上げ(万円) 分散大 1000 500 0 多くのデータが、 分散小 平均値から離れている →分散が大きくなる 平均値 187
様々な統計量 データ 𝑥𝑖 ただし 𝑖 = 1,2, … , 𝑛 𝑛 分散 𝑠2 1 = 𝑥𝑖 − 𝑥ҧ 𝑛 2 𝑖=1 個別のデータが、 平均値からどれほど離れているか計算 188
様々な統計量 データ 𝑥𝑖 ただし 𝑖 = 1,2, … , 𝑛 𝑛 分散 𝑠2 1 = 𝑥𝑖 − 𝑥ҧ 𝑛 2 𝑖=1 「データと平均値との差異 𝑥𝑖 − 𝑥ҧ さらに平均値をとっている 2 」の 多くのデータ𝑥𝑖 が平均値𝑥と離れていたら ҧ 分散は大きな値をとる 189
分散の解釈について 問い: A,Bのどちらの方が分散が大きいか? なお、最大値・最小値・平均値は、A,B間で等しいとする 売り上げ(万円) A B 1000 500 平均値 0 ① Aの分散が大きい ② Bの分散が大きい ③ 同じ
ばらつきの指標 1.分散 2.標準偏差 3.四分位点・最大・最小 191
標準偏差 分散の扱いにくいところ 分散は計算時に「2乗」する処理が入る →正負の符号を消せる →単位が変わってしまっている 標準偏差 分散の平方根を取ったもの 標準偏差 = 分散 平方根(ルート)をとって2乗を消す 192
ばらつきの指標 1.分散 2.標準偏差 3.四分位点・最大・最小 193
四分位点・最大・最小 データ{1,2,3,4,5} 最小値 {1,2,3,4,5} 第1四分位(25%点) {1,2,3,4,5} 中央値(50%点) {1,2,3,4,5} 第3四分位(75%点) {1,2,3,4,5} 最大値 {1,2,3,4,5} 194
まとめ 代表値の指標 平均値・中央値・最頻値 ばらつきの指標 分散・標準偏差・四分位点・最大値・最小値 195
統計学 I 第4回:二次元データの整理
内容 1.クロス集計表 2.散布図 3.共分散 4.相関係数 197
データの分類方法(復習) 1変量データ(1次元データ) 1つの変数だけからなるデータ 多変量データ(多次元データ) 2つ以上の変数からなるデータ ←今日やります 多変量の中でも、2つの変数だけが対象 3つ以上の変数でも、応用は効く 198
クロス集計表 199
クロス集計表 1.クロス集計表の基本 2.クロス集計表を使うべきとき 200
クロス集計表 1.クロス集計表の基本 2.クロス集計表を使うべきとき 201
クロス集計表 クロス集計表 カテゴリーごとの度数を記録した表 ただし、通常の度数分布表と異なり 「変数の組み合わせ」で度数を記録する 202
クロス集計表 合計:25人 普通の度数分布表 属性(学科) 経済学科 2022年入学 国際経済学科 経営学科 観光経営学科 度数 10 5 7 3 合計:25人 2021年入学 属性(学科) 経済学科 5 国際経済学科 2 経営学科 13 観光経営学科 5 度数 203
クロス集計表 クロス集計表 学科 経済学科 国際経済学科 経営学科 観光経営学科 入学年度 2022年 2021年 10 5 5 7 2 13 3 5 年度による学科の違いが、 クロス集計表を使えば一目でわかる 204
クロス集計表 生データをクロス集計表へ 生のアンケートデータ 学科 経済学科 入学年度 2022年度 経済学科 経営学科 経営学科 2021年度 2022年度 2022年度 ・・・以下略 学科と入学年度の2つの属性をアンケート 2つの属性の組み合わせで集計する 205
クロス集計表 クロス集計表 学科 2022年度入学 かつ、 経済学科所属は10人 経済学科 国際経済学科 経営学科 観光経営学科 入学年度 2022年 2021年 10 5 5 7 2 13 3 5 学科と入学年度の2つの属性をアンケート 2つの属性の組み合わせで集計する 206
クロス集計表 1.クロス集計表の基本 2.クロス集計表を使うべきとき 207
クロス集計表 クロス集計表を使うべきタイミング ナマズは地震予知ができるか?! 地震あり 暴れた 20 ナマズの行動 暴れていない 2 ナマズが暴れたら、地震が発生する!? ……何かデータが足りていない気がする 208
クロス集計表 クロス集計表を使うべきタイミング ナマズは地震予知ができるか?! 地震の有無 地震あり 地震なし 暴れた 20 ? ナマズの行動 暴れていない 2 ? 地震が発生した時の度数だけを記録 →地震が発生しなかった時のデータが無い 209
クロス集計表 クロス集計表を使うべきタイミング ナマズは地震予知ができるか?! 地震の有無 地震あり 地震なし 暴れた 20 200 ナマズの行動 暴れていない 2 20 ナマズは常に暴れている ナマズを見て、地震を予知するのは難しい 210
クロス集計表 よくある間違い 全ての犯罪者は、普段の生活でお水を飲んでいた! ↓ だから、お水を飲む人は犯罪者だ!!! 水を飲んだか 飲む 飲まない 犯罪の有無 犯罪あり 犯罪なし 10 10000 0 0 「犯罪あり」の列だけを見てはいけない 211
クロス集計表 よくある間違い 全ての犯罪者は、普段の生活でお水を飲んでいた! ↓ だから、お水を飲む人は犯罪者だ!!! 水を飲んだか 飲む 飲まない 犯罪の有無 犯罪あり 犯罪なし 10 10000 0 0 「犯罪を犯していない人のデータ」も大事 全人類、水は飲む 212
散布図 213
散布図 散布図 2つの変数の関係を表したグラフ 𝑖番目の観測値を𝑥𝑖 および𝑦𝑖 と表記することにします 𝑖 = 1,2, … , 𝑛 (観測値は𝑛個ある。今回は𝑛 = 4) 変数𝒙 𝑥1 = 10 𝑥2 = 4 変数𝒚 𝑦1 = 8 𝑦2 = 3 𝑥3 = 6 𝑥4 = 1 𝑦3 = 2 𝑦4 = 1 𝑥𝑖 および𝑦𝑖 のペアに着目 214
散布図 変数𝒙 𝑥1 = 10 変数𝒚 𝑦1 = 8 𝑥2 = 4 𝑥3 = 6 𝑥4 = 1 𝑦2 = 3 𝑦3 = 2 𝑦4 = 1 215
散布図 変数𝒙 𝑥1 = 10 変数𝒚 𝑦1 = 8 𝑥2 = 4 𝑥3 = 6 𝑥4 = 1 𝑦2 = 3 𝑦3 = 2 𝑦4 = 1 𝑥1 = 10, 𝑦1 = 8 216
散布図 変数𝒙 𝑥1 = 10 変数𝒚 𝑦1 = 8 𝑥2 = 4 𝑥3 = 6 𝑥4 = 1 𝑦2 = 3 𝑦3 = 2 𝑦4 = 1 𝑥2 = 4, 𝑦2 = 3 217
散布図 変数𝒙 𝑥1 = 10 変数𝒚 𝑦1 = 8 𝑥2 = 4 𝑥3 = 6 𝑥4 = 1 𝑦2 = 3 𝑦3 = 2 𝑦4 = 1 𝑥3 = 6, 𝑦3 = 2 218
散布図 変数𝒙 𝑥1 = 10 変数𝒚 𝑦1 = 8 𝑥2 = 4 𝑥3 = 6 𝑥4 = 1 𝑦2 = 3 𝑦3 = 2 𝑦4 = 1 𝑥4 = 1, 𝑦4 = 1 219
共分散 220
共分散 共分散が0より大きい Y 共分散が0より小さい 𝑥の平均値 Y 𝑥の平均値 𝑦 の平均値 𝑦 の平均値 X X
共分散 共分散が0より大きい Y 共分散が0より小さい 𝑥の平均値 Y 𝑥の平均値 X 𝑦 の平均値 𝑦 の平均値 右肩上がり 右肩下がり X
共分散 データ 𝑥𝑖 , 𝑦𝑖 ただし 𝑖 = 1,2, … , 𝑛 𝑥𝑖 の平均を𝑥と、 ҧ 𝑦𝑖 の平均を𝑦とする ത CovはCovariance(共分散の英語)の略 共分散 𝑛 1 Cov 𝑥𝑖 , 𝑦𝑖 = 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦ത 𝑛 𝑖=1 𝑥1 − 𝑥ҧ 𝑦1 − 𝑦ത + 𝑥2 − 𝑥ҧ 𝑦2 − 𝑦ത + ⋯ + 𝑥𝑛 − 𝑥ҧ 𝑦𝑛 − 𝑦ത = 𝑛 223
データ 共分散 平均値 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦ത 共分散 𝑥ҧ = 5.25, 𝑦ത = 3.5 𝑥1 − 𝑥ҧ 𝑥2 − 𝑥ҧ 𝑥3 − 𝑥ҧ 𝑥4 − 𝑥ҧ = 4.75 = −1.25 = 0.75 = −4.25 𝑦1 − 𝑦ത 𝑦2 − 𝑦ത 𝑦3 − 𝑦ത 𝑦4 − 𝑦ത = 4.5 = −0.5 = −1.5 = −2.5 変数𝒙 𝑥1 = 10 変数𝒚 𝑦1 = 8 𝑥2 = 4 𝑥3 = 6 𝑥4 = 1 𝑦2 = 3 𝑦3 = 2 𝑦4 = 1 Cov 𝑥𝑖 , 𝑦𝑖 𝑛 1 = 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦ത 𝑛 𝑖=1 4.75 × 4.5 + −1.25 × −0.5 + 0.75 × −1.5 + −4.25 × −2.5 4 224 = 7.875
共分散 変数𝒙 𝑥1 = 10 変数𝒚 𝑦1 = 8 𝑥2 = 4 𝑥3 = 6 𝑥4 = 1 𝑦2 = 3 𝑦3 = 2 𝑦4 = 1 右肩上がり 225
共分散 𝑛 1 Cov 𝑥𝑖 , 𝑦𝑖 = 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦ത 𝑛 共分散が0より大きい Y 𝑖=1 𝑥の平均値 𝑦 の平均値 右肩上がり X
共分散 𝑛 1 Cov 𝑥𝑖 , 𝑦𝑖 = 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦ത 𝑛 共分散が0より大きい Y 𝑖=1 𝑥の平均値 𝑦 の平均値 X 観測値𝑥𝑖 が平均𝑥よりも大なら、 ҧ 観測値𝑦𝑖 も平均𝑦よりも大 ത この時 𝑥𝑖 − 𝑥ҧ も 𝑦𝑖 − 𝑦ത も プラスの値をとる →共分散はプラスの値をとる
共分散 𝑛 1 Cov 𝑥𝑖 , 𝑦𝑖 = 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦ത 𝑛 共分散が0より大きい Y 𝑖=1 𝑥の平均値 𝑦 の平均値 X 観測値𝑥𝑖 が平均𝑥よりも小なら、 ҧ 観測値𝑦𝑖 も平均𝑦よりも小 ത この時 𝑥𝑖 − 𝑥ҧ も 𝑦𝑖 − 𝑦ത も マイナスの値をとる →マイナス×マイナスは、プラス →共分散はプラスの値をとる
共分散 𝑛 1 Cov 𝑥𝑖 , 𝑦𝑖 = 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦ത 𝑛 𝑖=1 共分散が0より小さい Y 𝑥の平均値 𝑦 の平均値 右肩下がり X
共分散 𝑛 1 Cov 𝑥𝑖 , 𝑦𝑖 = 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦ത 𝑛 𝑖=1 共分散が0より小さい Y 𝑥の平均値 𝑦 の平均値 観測値𝑥𝑖 が平均𝑥よりも小なら、 ҧ 観測値𝑦𝑖 は平均𝑦よりも大 ത この時 𝑥𝑖 − 𝑥ҧ はマイナス 一方で 𝑦𝑖 − 𝑦ത はプラスの値をとる →共分散はマイナスの値をとる X
共分散 𝑛 1 Cov 𝑥𝑖 , 𝑦𝑖 = 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦ത 𝑛 𝑖=1 共分散が0より小さい Y 𝑥の平均値 𝑦 の平均値 観測値𝑥𝑖 が平均𝑥よりも大なら、 ҧ 観測値𝑦𝑖 は平均𝑦よりも小 ത この時 𝑥𝑖 − 𝑥ҧ はプラス 一方で 𝑦𝑖 − 𝑦ത はマイナス →共分散はマイナスの値をとる X
クイズ 共分散のイメージ 変数𝒙 𝑥1 = 10 𝑥2 = 2 問い: 右のデータの共分散の 正負を答えよ なお、 𝑥ҧ = 6, 𝑦ത = 5 ① プラス ② マイナス 変数𝒚 𝑦1 = 9 𝑦2 = 1 ③ ちょうど0 𝑛 1 Cov 𝑥𝑖 , 𝑦𝑖 = 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦ത 𝑛 𝑖=1
クイズ(回答) 共分散のイメージ 変数𝒙 𝑥1 = 10 𝑥2 = 2 問い: 右のデータの共分散の 正負を答えよ なお、 𝑥ҧ = 6, 𝑦ത = 5 ① プラス ② マイナス 変数𝒚 𝑦1 = 9 𝑦2 = 1 ③ ちょうど0 𝑛 1 Cov 𝑥𝑖 , 𝑦𝑖 = 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦ത 𝑛 𝑖=1
クイズ 共分散の計算 問い: 右のデータの共分散を答えよ なお、 𝑥ҧ = 6, 𝑦ത = 5 ① 0.6 ②6 変数𝒙 𝑥1 = 10 𝑥2 = 2 ③ 16 変数𝒚 𝑦1 = 9 𝑦2 = 1 ④ 166 𝑛 1 Cov 𝑥𝑖 , 𝑦𝑖 = 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦ത 𝑛 𝑖=1
クイズ(回答) 共分散の計算 問い: 右のデータの共分散を答えよ なお、 𝑥ҧ = 6, 𝑦ത = 5 ① 0.6 ②6 変数𝒙 𝑥1 = 10 𝑥2 = 2 ③ 16 変数𝒚 𝑦1 = 9 𝑦2 = 1 ④ 166 𝑛 1 Cov 𝑥𝑖 , 𝑦𝑖 = 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦ത 𝑛 𝑖=1
クイズ(回答) 平均値 𝑥𝑖 − 𝑥ҧ データ 𝑥ҧ = 6, 𝑦ത = 5 𝑥1 − 𝑥ҧ = 4 𝑥2 − 𝑥ҧ = −4 変数𝒙 𝑥1 = 10 変数𝒚 𝑦1 = 9 𝑥2 = 2 𝑦2 = 1 Cov 𝑥𝑖 , 𝑦𝑖 𝑛 1 = 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦ത 𝑛 𝑖=1 𝑦𝑖 − 𝑦ത 共分散 𝑦1 − 𝑦ത = 4 𝑦2 − 𝑦ത = −4 4 × 4 + −4 × −4 2 = 16 236
相関係数 「ピアソンの積率相関係数」と呼ばれる指標を紹介 今回の講義では単に「相関係数」と呼ぶ 237
相関係数 1.共分散の使い難いところ 2.相関係数 3.相関係数の限界 238
相関係数 1.共分散の使い難いところ 2.相関係数 3.相関係数の限界 239
相関係数 データ 𝑥𝑖 , 𝑦𝑖 ただし 𝑖 = 1,2, … , 𝑛 𝑥𝑖 の平均を𝑥と、 ҧ 𝑦𝑖 の平均を𝑦とする ത 共分散 𝑛 1 Cov 𝑥𝑖 , 𝑦𝑖 = 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦ത 𝑛 𝑖=1 𝑥𝑖 の値に100をかけると、どうなるか? 240
相関係数 データ 𝑥𝑖 , 𝑦𝑖 ただし 𝑖 = 1,2, … , 𝑛 𝑥𝑖 の平均を𝑥と、 ҧ 𝑦𝑖 の平均を𝑦とする ത 共分散 𝑛 1 Cov 100𝑥𝑖 , 𝑦𝑖 = 100𝑥𝑖 − 100𝑥ҧ 𝑦𝑖 − 𝑦ത 𝑛 𝑖=1 𝑛 1 = 100 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦ത 𝑛 𝑖=1 = 100 × Cov 𝑥𝑖 , 𝑦𝑖 𝑥𝑖 に100をかけると、共分散も100倍される 241
相関係数 共分散は単位の変換によって、値が変わる m(メートル)単位で計測していたのを cm(センチメートル)単位にすると、共分散は変化する 単位を変えると、関係性の強さが変わる これはちょっと不自然な気がする 242
相関係数 1.共分散の使い難いところ 2.相関係数 3.相関係数の限界 243
相関係数 データ 𝑥𝑖 , 𝑦𝑖 ただし 𝑖 = 1,2, … , 𝑛 𝑥𝑖 の平均を𝑥と、 ҧ 𝑦𝑖 の平均を𝑦とする ത 𝑥𝑖 の標準偏差を𝑠𝑥 と、 𝑦𝑖 の標準偏差を𝑠𝑦 とする 𝑥𝑖 , 𝑦𝑖 の共分散をCov 𝑥𝑖 , 𝑦𝑖 とする 相関係数 𝑟𝑥𝑦 Cov 𝑥𝑖 , 𝑦𝑖 = 𝑠𝑥 ∙ 𝑠𝑦 相関係数は−1 ≤ 𝑟𝑥𝑦 ≤ 1の範囲を取る 単位によっても変化しないので便利 244
相関係数 相関係数の解釈 𝑟𝑥𝑦 = 1ならば、完全に右肩上がり 245
相関係数 相関係数の解釈 𝑟𝑥𝑦 = −1ならば、完全に右肩下がり 246
相関係数 相関係数の解釈 𝑟𝑥𝑦 ≈ 0ならば、関係性なし( ≈ はほぼ等しいという記号) 247
相関係数 相関係数の解釈 𝑟𝑥𝑦 ≈ 0.6のデータ 相関係数は、あくまでも「目安」 目安が役に立たない例も後ほど紹介 248
クイズ 相関係数の計算① 問い: 右のデータの標準偏差を答えよ (小数点以下第3位で四捨五入) ① 𝑠𝑥 = 0.24 𝑠𝑦 = 0.92 ② 𝑠𝑥 = 3.24 𝑠𝑦 = 2.92 変数𝒙 𝑥1 = 10 𝑥2 = 4 変数𝒚 𝑦1 = 9 𝑦2 = 3 𝑥3 = 5 𝑥4 = 1 𝑦3 = 2 𝑦4 = 2 ③ 𝑠𝑥 = 32.40 𝑠𝑦 = 29.15 𝑛 分散 𝑠𝑥2 1 = 𝑥𝑖 − 𝑥ҧ 𝑛 𝑖=1 2 標準偏差 𝑠𝑥 = 𝑠𝑥2
クイズ(回答) 相関係数の計算① 問い: 右のデータの標準偏差を答えよ (小数点以下第3位で四捨五入) ① 𝑠𝑥 = 0.24 𝑠𝑦 = 0.92 ② 𝑠𝑥 = 3.24 𝑠𝑦 = 2.92 変数𝒙 𝑥1 = 10 𝑥2 = 4 変数𝒚 𝑦1 = 9 𝑦2 = 3 𝑥3 = 5 𝑥4 = 1 𝑦3 = 2 𝑦4 = 2 ③ 𝑠𝑥 = 32.40 𝑠𝑦 = 29.15 𝑛 分散 𝑠𝑥2 1 = 𝑥𝑖 − 𝑥ҧ 𝑛 𝑖=1 2 標準偏差 𝑠𝑥 = 𝑠𝑥2
クイズ 相関係数の計算② 変数𝒙 𝑥1 = 10 𝑥2 = 4 変数𝒚 𝑦1 = 9 𝑦2 = 3 𝑥3 = 5 𝑥4 = 1 𝑦3 = 2 𝑦4 = 2 問い: 右のデータの相関係数を答えよ (小数点以下第3位で四捨五入) ただし、𝑠𝑥 = 3.24, 𝑠𝑦 = 2.92, Cov 𝑥𝑖 , 𝑦𝑖 = 8.5 ① 𝑟𝑥𝑦 = 0.70 ② 𝑟𝑥𝑦 = 0.80 相関係数 Cov 𝑥𝑖 , 𝑦𝑖 = 𝑠𝑥 ∙ 𝑠𝑦 𝑟𝑥𝑦 ③ 𝑟𝑥𝑦 = 0.90
クイズ(回答) 相関係数の計算② 変数𝒙 𝑥1 = 10 𝑥2 = 4 変数𝒚 𝑦1 = 9 𝑦2 = 3 𝑥3 = 5 𝑥4 = 1 𝑦3 = 2 𝑦4 = 2 問い: 右のデータの相関係数を答えよ (小数点以下第3位で四捨五入) ただし、𝑠𝑥 = 3.24, 𝑠𝑦 = 2.92, Cov 𝑥𝑖 , 𝑦𝑖 = 8.5 ① 𝑟𝑥𝑦 = 0.70 ② 𝑟𝑥𝑦 = 0.80 相関係数 Cov 𝑥𝑖 , 𝑦𝑖 = 𝑠𝑥 ∙ 𝑠𝑦 𝑟𝑥𝑦 ③ 𝑟𝑥𝑦 = 0.90
相関係数 1.共分散の使い難いところ 2.相関係数 3.相関係数の限界 253
相関係数の限界 変数𝒙 𝑥1 = 10 変数𝒚 𝑦1 = 8 𝑥2 = 4 𝑥3 = 6 𝑥4 = 1 𝑦2 = 3 𝑦3 = 2 𝑦4 = 1 共分散や相関係数でわかるのは 「直線的な関係」だけ 254
相関係数の限界 共分散や相関係数は、 ほぼゼロになってしまう 相関係数が役に立たない時 Y Y X X
相関係数の限界 相関係数の限界 一見すると、あまり関係が無さそうなデータでも 絶対値が大きな相関係数が得られることがある 256
相関係数 問い:相関係数が0.9以上のデータはどれ? (複数回答可) ① ② ③ ④
相関係数 問い:相関係数が0.9以上のデータはどれ? ① 𝑟𝑥𝑦 = −0.04 ③ ② 𝑟𝑥𝑦 = 0.97 ④ 𝑟𝑥𝑦 = 0.98 𝑟𝑥𝑦 = 0.93
相関係数の限界 相関係数は役に立たないか? 使い道によっては便利 まずは相関係数を求めて、 相関係数が大きなデータをピックアップ その後、散布図などを使ってデータを再チェック 相関係数は、あくまでも「目安」 散布図などもチェックするのが大切 259
統計学 I 第5回:記述統計の応用
内容 1.層別分析 2.小テストの解説 3.平均・分散・標準偏差の性質 4.基準化変量 261
層別分析 262
層別分析 層別 例えば「年齢別」や「性別」など、 属性ごとに分けること 層別分析 層別に集計などを行うこと とても単純だが、応用が効く どのように分けるかが、腕の見せ所 263
層別分析 あるお店のデータ(本物のデータではない) 商品の販促(販売促進の略語。例えば宣伝とか)を した時、しなかった時で、売り上げのデータを比較 販促時売り上げ < 通常時売り上げ これは、天気別に層別分析をすれば 原因がわかる
層別分析 「販促したら売り上げが減った」というデータの取り扱い 仮想の売上データ 20 15 15 10 8 10 5 5 0 晴 販促あり 雨 販促なし
層別分析 天気が同じなら、 「販促したら売り上げが減った」というデータの取り扱い 販促すると売り上げがUP 仮想の売上データ 20 15 15 10 8 10 5 5 0 晴 販促あり 雨 販促なし
層別分析 「晴」のときの「販促なし」と 「雨」のときの「販促あり」だと、 「販促したら売り上げが減った」というデータの取り扱い 「販促なし」の方が売り上げが高くなる 仮想の売上データ 15 20 15 10 8 10 5 5 0 晴 販促あり 雨 販促なし
小テストの解説 268
小テストの解説:平均・分散の性質 平均・分散の性質 データに一律に「5」を足したとする。 平均・分散の正しい変化を述べよ ×平均も分散も5増える ○平均は5増えるが、分散は変わらない ×平均は変わらないが、分散は5増える ×平均も分散も変わらない 269
小テストの解説:平均・分散の性質 平均・分散の性質 考え方その1:自分で数値例を作って確認 データ {2,4} 平均値 2+4 =3 2 分散 2−3 2 1+1 = 2 =1 + 4−3 2 2 270
小テストの解説:平均・分散の性質 平均・分散の性質 考え方その1:自分で数値例を作って確認 データ {7,9} 平均値 7+9 =8 2 分散 7−8 2 1+1 = 2 =1 + 9−8 2 5を足す 2 271
小テストの解説:平均・分散の性質 平均・分散の性質 考え方その1:自分で数値例を作って確認 データ {2,4} 平均値 3 分散 1 5増えた 変わらず データ {7,9} 平均値 8 分散 1 平均は5増えるが、分散の値は変わらず データの変換がもたらす影響を理解しよう 272
平均・分散・標準偏差の性質 273
平均・分散の性質 データ 𝑥𝑖 ただし 𝑖 = 1,2, … , 𝑛 𝑛 平均値 1 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 𝑥ҧ = 𝑥𝑖 = 𝑛 𝑛 𝑖=1 𝑛 分散 1 𝑠 = 𝑥𝑖 − 𝑥ҧ 𝑛 2 2 𝑖=1 = 𝑥1 − 𝑥ҧ 2 + 𝑥2 − 𝑥ҧ 2 + ⋯ + 𝑥𝑛 − 𝑥ҧ 𝑛 平均値は、データを足すだけ 分散は、引き算と2乗の計算も行う 2 274
内容 1.データの変換と、平均値の性質 2.データの変換と、分散の性質 3.データの変換と、標準偏差の性質 275
内容 1.データの変換と、平均値の性質 2.データの変換と、分散の性質 3.データの変換と、標準偏差の性質 276
平均・分散の性質 データ 𝑥𝑖 ただし 𝑖 = 1,2, … , 𝑛 𝑛 平均値 1 𝑥ҧ = 𝑥𝑖 𝑛 𝑖=1 データに一律に「5」を足すとどうなる? 277
平均・分散の性質 データ 𝑥𝑖 + 5 ただし 𝑖 = 1,2, … , 𝑛 𝑛 平均値 1 = 𝑥𝑖 + 5 𝑛 𝑖=1 278
平均・分散の性質 データ 𝑥𝑖 + 5 ただし 𝑖 = 1,2, … , 𝑛 𝑛 平均値 1 = 𝑥𝑖 + 5 𝑛 𝑖=1 𝑥1 + 5 + 𝑥2 + 5 + ⋯ + 𝑥𝑛 + 5 = 𝑛 279
平均・分散の性質 データ 𝑥𝑖 + 5 ただし 𝑖 = 1,2, … , 𝑛 𝑛 平均値 1 = 𝑥𝑖 + 5 𝑛 𝑖=1 𝑥1 + 5 + 𝑥2 + 5 + ⋯ + 𝑥𝑛 + 5 = 𝑛 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 + 5 + 5 + ⋯ + 5 = 𝑛 280
平均・分散の性質 データ 𝑥𝑖 + 5 ただし 𝑖 = 1,2, … , 𝑛 𝑛 平均値 1 = 𝑥𝑖 + 5 𝑛 𝑖=1 𝑥1 + 5 + 𝑥2 + 5 + ⋯ + 𝑥𝑛 + 5 = 𝑛 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 + 5 + 5 + ⋯ + 5 = 𝑛 5が𝑛回足される 281
平均・分散の性質 データ 𝑥𝑖 + 5 ただし 𝑖 = 1,2, … , 𝑛 𝑛 平均値 1 = 𝑥𝑖 + 5 𝑛 𝑖=1 𝑥1 + 5 + 𝑥2 + 5 + ⋯ + 𝑥𝑛 + 5 = 𝑛 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 + 5 + 5 + ⋯ + 5 = 𝑛 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 + 5𝑛 = 𝑛 5が𝑛回足される 282
平均・分散の性質 データ 𝑥𝑖 + 5 ただし 𝑖 = 1,2, … , 𝑛 平均値 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 + 5𝑛 = 𝑛 283
平均・分散の性質 データ 𝑥𝑖 + 5 ただし 𝑖 = 1,2, … , 𝑛 平均値 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 + 5𝑛 = 𝑛 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 5𝑛 = + 𝑛 𝑛 284
平均・分散の性質 データ 𝑥𝑖 + 5 ただし 𝑖 = 1,2, … , 𝑛 平均値 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 + 5𝑛 = 𝑛 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 5𝑛 = + 𝑛 𝑛 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 = +5 𝑛 285
平均・分散の性質 データ 𝑥𝑖 + 5 ただし 𝑖 = 1,2, … , 𝑛 平均値 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 + 5𝑛 = 𝑛 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 5𝑛 = + 𝑛 𝑛 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 = +5 𝑛 元のデータの平均値 286
平均・分散の性質 データ 𝑥𝑖 + 5 ただし 𝑖 = 1,2, … , 𝑛 平均値 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 + 5𝑛 = 𝑛 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 5𝑛 = + 𝑛 𝑛 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 = +5 𝑛 = 𝑥ҧ + 5 平均値は5増える! 287
平均・分散の性質 平均値の性質 結果1:データに、何か値を足すと、平均値も増える ↓ データに値を引くとどうなる? 引き算は「マイナスの値を足す」と考える 288
平均・分散の性質 データ 𝑥𝑖 + −5 ただし 𝑖 = 1,2, … , 𝑛 𝑛 平均値 1 = 𝑥𝑖 + −5 𝑛 𝑖=1 以下、全くおなじ計算手順を進めて・・・ = 𝑥ҧ + −5 データから5を引くと、平均値も5減る 289
平均・分散の性質 平均値の性質 結果1:データに、何か値を足すと、平均値も増える 結果2:データに、何か値を引くと、平均値も減る ↓ データに値を掛けたり割ったりしたらどうなる? 290
平均・分散の性質 データ ただし 𝑖 = 1,2, … , 𝑛 𝑥𝑖 × 5 𝑛 平均値 1 = 𝑥𝑖 × 5 𝑛 𝑖=1 291
平均・分散の性質 データ ただし 𝑖 = 1,2, … , 𝑛 𝑥𝑖 × 5 𝑛 平均値 1 = 𝑥𝑖 × 5 𝑛 𝑖=1 𝑛 1 = 5 × 𝑥𝑖 𝑛 𝑖=1 元のデータの平均値 292
平均・分散の性質 データ ただし 𝑖 = 1,2, … , 𝑛 𝑥𝑖 × 5 𝑛 平均値 1 = 𝑥𝑖 × 5 𝑛 𝑖=1 𝑛 1 = 5 × 𝑥𝑖 𝑛 𝑖=1 元のデータの平均値 = 5 × 𝑥ҧ 平均値は5倍される! 293
平均・分散の性質 掛け算と割り算 データを5倍すると、平均値も5倍になる ↓ データを5で割るとどうなる? ↓ 1 データに を掛けると考えると、掛け算と同じ 5 ↓ すべてのデータを5で割ると、平均値も5分の1になる 294
平均・分散の性質 データ 𝑎 ∙ 𝑥𝑖 + 𝑏 「なんかの数値」 くらいの意味 ただし 𝑖 = 1,2, … , 𝑛 であり、𝑎, 𝑏は定数 平均値の変換公式 元のデータ𝑥𝑖 の平均値を𝑥とする ҧ 𝑎 ∙ 𝑥𝑖 + 𝑏 の平均値は 𝑎 ∙ 𝑥ҧ + 𝑏 となる 1 𝑎は など分数も取りうる 5 𝑏は -5 など負の値も取りうる 295
クイズ 平均値の変換公式を使いこなす 問い: 𝑥ҧ = 5のデータがある。 元のデータに「2」をかけてから、「6」を足した 変換後のデータの平均値は? ① 15 ② 16 ③ 17 ④ 18 ⑤ 19 元のデータ𝑥𝑖 の平均値を𝑥とする ҧ 𝑎 ∙ 𝑥𝑖 + 𝑏 の平均値は 𝑎 ∙ 𝑥ҧ + 𝑏 となる
クイズ(回答) 平均値の変換公式を使いこなす 変換後の平均値は 2 × 5 + 6 = 16 問い: 𝑥ҧ = 5のデータがある。 元のデータに「2」をかけてから、「6」を足した 変換後のデータの平均値は? ① 15 ② 16 ③ 17 ④ 18 ⑤ 19 元のデータ𝑥𝑖 の平均値を𝑥とする ҧ 𝑎 ∙ 𝑥𝑖 + 𝑏 の平均値は 𝑎 ∙ 𝑥ҧ + 𝑏 となる
内容 1.データの変換と、平均値の性質 2.データの変換と、分散の性質 3.データの変換と、標準偏差の性質 298
平均・分散の性質 データ 𝑥𝑖 ただし 𝑖 = 1,2, … , 𝑛 𝑛 平均値 1 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 𝑥ҧ = 𝑥𝑖 = 𝑛 𝑛 𝑖=1 𝑛 分散 1 𝑠 = 𝑥𝑖 − 𝑥ҧ 𝑛 2 2 𝑖=1 = 𝑥1 − 𝑥ҧ 2 + 𝑥2 − 𝑥ҧ 2 + ⋯ + 𝑥𝑛 − 𝑥ҧ 𝑛 平均値は、データを足すだけ 分散は、引き算と2乗の計算も行う 2 299
平均・分散の性質 データ 𝑥𝑖 + 5 ただし 𝑖 = 1,2, … , 𝑛 𝑥も5増える ҧ 𝑛 分散 1 = 𝑥𝑖 − 𝑥ҧ 𝑛 2 𝑖=1 𝑥𝑖 は5増える データに5を足しても、相殺される! →データに何かを足しても分散は変わらず 300
クイズ 分散の変換公式を使いこなす 問い: 元のデータに「2」を引いた場合、分散は変わる? ① 変わる ② 変わらない
クイズ(回答) 分散の変換公式を使いこなす 問い: 元のデータに「2」を引いた場合、分散は変わる? ① 変わる ② 変わらない
平均・分散の性質 データ 𝑥𝑖 − 5 ただし 𝑖 = 1,2, … , 𝑛 𝑥も5減る ҧ 𝑛 分散 1 = 𝑥𝑖 − 𝑥ҧ 𝑛 2 𝑖=1 𝑥𝑖 は5減る 引き算も、同じく相殺される 公式を使いこなせるようになろう 303
平均・分散の性質 分散の性質 分散は、データに数値を足しても引いても変わらない ↓ かけたり、割ったりしたらどうなる? 304
平均・分散の性質 データ 𝑥𝑖 × 5 ただし 𝑖 = 1,2, … , 𝑛 𝑛 分散 1 = 𝑥𝑖 × 5 − 𝑥ҧ × 5 𝑛 2 𝑖=1 305
平均・分散の性質 データ 𝑥𝑖 × 5 ただし 𝑖 = 1,2, … , 𝑛 𝑛 分散 1 = 𝑥𝑖 × 5 − 𝑥ҧ × 5 𝑛 2 𝑖=1 𝑛 1 = 5 × 𝑥𝑖 − 𝑥ҧ 𝑛 2 𝑖=1 306
平均・分散の性質 データ 𝑥𝑖 × 5 ただし 𝑖 = 1,2, … , 𝑛 𝑛 分散 1 = 𝑥𝑖 × 5 − 𝑥ҧ × 5 𝑛 2 𝑖=1 𝑛 1 = 5 × 𝑥𝑖 − 𝑥ҧ 𝑛 2 𝑖=1 𝑛 1 = 52 × 𝑥𝑖 − 𝑥ҧ 𝑛 2 𝑖=1 307
平均・分散の性質 データ 𝑥𝑖 × 5 ただし 𝑖 = 1,2, … , 𝑛 𝑛 分散 1 = 𝑥𝑖 × 5 − 𝑥ҧ × 5 𝑛 2 𝑖=1 𝑛 1 = 5 × 𝑥𝑖 − 𝑥ҧ 𝑛 2 𝑖=1 𝑛 1 = 52 × 𝑥𝑖 − 𝑥ҧ 𝑛 2 𝑖=1 元のデータの分散 𝑛 1 2 = 5 𝑥𝑖 − 𝑥ҧ 𝑛 𝑖=1 2 308
平均・分散の性質 データ 𝑎 ∙ 𝑥𝑖 + 𝑏 ただし 𝑖 = 1,2, … , 𝑛 であり、𝑎, 𝑏は定数 分散の変換公式 元のデータ𝑥𝑖 の分散を𝑠 2 とする 𝑎 ∙ 𝑥𝑖 + 𝑏 の分散は 𝑎2 ∙ 𝑠 2 となる 1 𝑎は など分数も取りうる 5 𝑏は -5 など負の値も取りうる 309
内容 1.データの変換と、平均値の性質 2.データの変換と、分散の性質 3.データの変換と、標準偏差の性質 310
標準偏差の性質 分散の扱いにくいところ 分散は計算時に「2乗」する処理が入る →正負の符号を消せる →単位が変わってしまっている 標準偏差 分散の平方根を取ったもの 標準偏差 = 分散 平方根(ルート)をとって2乗を消す 311
標準偏差の性質 データ 𝑎 ∙ 𝑥𝑖 + 𝑏 ただし 𝑖 = 1,2, … , 𝑛 であり、𝑎, 𝑏は定数 標準偏差の変換公式 元のデータ𝑥𝑖 の標準偏差を𝑠とする 𝑎 ∙ 𝑥𝑖 + 𝑏 の標準偏差は 𝑎∙𝑠 となる 分散の変換公式から 2乗がなくなっただけ 312
基準化変量 データの平均値や分散の値を統一化する 313
内容 1.平均ゼロのデータを作ろう 2.分散1(標準偏差も1)のデータを作ろう 3.基準化変量 4.基準化変量の使い道 314
内容 1.平均ゼロのデータを作ろう 2.分散1(標準偏差も1)のデータを作ろう 3.基準化変量 4.基準化変量の使い道 315
クイズ 平均値がゼロのデータを作ろう 問い: 平均値が𝑥であるデータ𝑥 ҧ 𝑖 に対してどのような変換をすれば 変換後の平均値はゼロになるだろうか ① 𝑥𝑖 -5 ② 𝑥𝑖 + 𝑥ҧ ④ 𝑥𝑖 × 𝑥ҧ 1 𝑥ҧ ⑤ 𝑥𝑖 × ③ 𝑥𝑖 − 𝑥ҧ 元のデータ𝑥𝑖 の平均値を𝑥とする ҧ 𝑎 ∙ 𝑥𝑖 + 𝑏 の平均値は 𝑎 ∙ 𝑥ҧ + 𝑏 となる
クイズ(回答) 平均値がゼロのデータを作ろう 問い: 平均値が𝑥であるデータ𝑥 ҧ 𝑖 に対してどのような変換をすれば 変換後の平均値はゼロになるだろうか ① 𝑥𝑖 -5 ② 𝑥𝑖 + 𝑥ҧ ④ 𝑥𝑖 × 𝑥ҧ 1 𝑥ҧ ⑤ 𝑥𝑖 × ③ 𝑥𝑖 − 𝑥ҧ 元のデータ𝑥𝑖 の平均値を𝑥とする ҧ 𝑎 ∙ 𝑥𝑖 + 𝑏 の平均値は 𝑎 ∙ 𝑥ҧ + 𝑏 となる
平均・分散の性質 データ 𝑥𝑖 − 𝑥ҧ ただし 𝑖 = 1,2, … , 𝑛 であり、 元のデータ𝑥𝑖 の平均値を𝑥とする ҧ 平均値の変換公式の利用 𝑎 ∙ 𝑥𝑖 + 𝑏 𝑥𝑖 − 𝑥ҧ の平均値は 𝑎 ∙ 𝑥ҧ + 𝑏 となる の平均値は𝑥ҧ − 𝑥ҧ = 0となる データから一律に平均値𝑥を引くと、 ҧ 変換後のデータの平均値は0になる 318
内容 1.平均ゼロのデータを作ろう 2.分散1(標準偏差も1)のデータを作ろう 3.基準化変量 4.基準化変量の使い道 319
クイズ 分散1(標準偏差も1)のデータを作ろう 問い: 分散が𝑠 2 、標準偏差が𝑠であるデータ𝑥𝑖 に対して、 どのような変換で、変換後の分散(標準偏差)は1になるか ① 𝑥𝑖 -5 ④ 𝑥𝑖 × 1 𝑠2 ② 𝑥𝑖 × 𝑠 2 ③ 𝑥𝑖 × 𝑠 ⑤ 𝑥𝑖 × 1 𝑠 元のデータ𝑥𝑖 の分散を𝑠 2 とする 𝑎 ∙ 𝑥𝑖 + 𝑏 の分散は 𝑎2 ∙ 𝑠 2 となる
クイズ(回答) 分散1(標準偏差も1)のデータを作ろう 問い: 分散が𝑠 2 、標準偏差が𝑠であるデータ𝑥𝑖 に対して、 どのような変換で、変換後の分散(標準偏差)は1になるか ① 𝑥𝑖 -5 ④ 𝑥𝑖 × 1 𝑠2 ② 𝑥𝑖 × 𝑠 2 ③ 𝑥𝑖 × 𝑠 ⑤ 𝑥𝑖 × 1 𝑠 元のデータ𝑥𝑖 の分散を𝑠 2 とする 𝑎 ∙ 𝑥𝑖 + 𝑏 の分散は 𝑎2 ∙ 𝑠 2 となる
内容 1.平均ゼロのデータを作ろう 2.分散1(標準偏差も1)のデータを作ろう 3.基準化変量 4.基準化変量の使い道 322
基準化変量 データ 𝑥𝑖 ただし 𝑖 = 1,2, … , 𝑛 𝑥𝑖 の平均を𝑥とする ҧ 𝑥𝑖 の標準偏差を𝑠とする 基準化変量(標準化変量・標準化得点) 𝑥𝑖 − 𝑥ҧ 𝑧𝑖 = 𝑠 この計算を「標準化」と 呼ぶこともある。頻出。 323
クイズ 基準化変量の平均と分散 問い: 基準化変量𝑧𝑖 の平均と分散の値を答えよ ① 平均0 分散0 ② 平均1 分散0 ③ 平均0 分散1 ④ 平均1 分散1 𝑥𝑖 − 𝑥ҧ 𝑧𝑖 = 𝑠
クイズ(回答) 基準化変量の平均と分散 問い: 基準化変量𝑧𝑖 の平均と分散の値を答えよ ① 平均0 分散0 ② 平均1 分散0 ③ 平均0 分散1 ④ 平均1 分散1 𝑥𝑖 − 𝑥ҧ 𝑧𝑖 = 𝑠
クイズ 基準化変量を求める 問い: データ{2,4}の基準化変量を求めよ ① {-2, 2} ② {-2, 4} ③ {0, 0} ④ {-1, 1} 𝑥𝑖 − 𝑥ҧ 𝑧𝑖 = 𝑠
クイズ(回答) 基準化変量を求める 問い: データ{2,4}の基準化変量を求めよ ① {-2, 2} ② {-2, 4} ③ {0, 0} ④ {-1, 1} 𝑥𝑖 − 𝑥ҧ 𝑧𝑖 = 𝑠
内容 1.平均ゼロのデータを作ろう 2.分散1(標準偏差も1)のデータを作ろう 3.基準化変量 4.基準化変量の使い道 328
基準化変量の使い道 どちらの科目の方が得意だと言えるか? 国語 60点(平均50点、標準偏差10) 数学 60点(平均50点、標準偏差5) 平均からのばらつきの大きさが異なるので 単純な点数の比較はできない 329
基準化変量の使い道 どちらの科目の方が得意だと言えるか? 国語 60点(平均50点、標準偏差10) 数学 60点(平均50点、標準偏差5) テストの点数 分散大 分散小 100 50 0 平均値 330
基準化変量の使い道 どちらの科目の方が得意だと言えるか? 国語 60点(平均50点、標準偏差10) 数学 60点(平均50点、標準偏差5) 分散大 テストの点数 上位3番手 100 50 0 分散小 上位2番手 60点 平均値 331
基準化変量の使い道 どちらの科目の方が得意だと言えるか? 国語 60点(平均50点、標準偏差10) →標準化得点=1 数学 60点(平均50点、標準偏差5) →標準化得点=2 基準化変量(標準化された得点)を使えば、 数学の方が得意だというのがすぐわかる 332
基準化変量の使い道 (復習)共分散と相関係数 相関係数は-1以上1以下の値をとるので使いやすい データ 𝑥𝑖 , 𝑦𝑖 ただし 𝑖 = 1,2, … , 𝑛 𝑥𝑖 の平均を𝑥と、 ҧ 𝑦𝑖 の平均を𝑦とする ത 𝑥𝑖 の標準偏差を𝑠𝑥 と、 𝑦𝑖 の標準偏差を𝑠𝑦 とする 𝑥𝑖 , 𝑦𝑖 の共分散をCov 𝑥𝑖 , 𝑦𝑖 とする 𝑛 共分散 1 Cov 𝑥𝑖 , 𝑦𝑖 = 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦ത 𝑛 𝑖=1 相関係数 𝑟𝑥𝑦 Cov 𝑥𝑖 , 𝑦𝑖 = 𝑠𝑥 ∙ 𝑠𝑦 333
基準化変量の使い道 共分散・相関係数と基準化変量の関係 相関係数は基準化変量同士の共分散とみなせる 相関係数 𝑟𝑥𝑦 Cov 𝑥𝑖 , 𝑦𝑖 = 𝑠𝑥 ∙ 𝑠𝑦 𝑛 𝑥𝑖 の標準化 1 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦ത = 𝑛 𝑠𝑥 ∙ 𝑠𝑦 𝑦𝑖 の標準化 𝑖=1 𝑛 1 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦ത = ∙ 𝑛 𝑠𝑥 𝑠𝑦 𝑖=1 334
統計学基礎 I 第6回:グラフの活用・講義のまとめ
内容 1.様々なグラフ 2.中間テストまでのまとめ 336
様々なグラフ 337
内容 1.散布図 2.折れ線グラフ 3.棒グラフ 4.箱ひげ図 338
内容 1.散布図 数量データ×数量データ 2.折れ線グラフ 3.棒グラフ 数量データ×カテゴリーデータ 4.箱ひげ図 339
内容 1.散布図 数量データ×数量データ 2.折れ線グラフ 3.棒グラフ 数量データ×カテゴリーデータ 4.箱ひげ図 340
散布図 散布図 2つの変数の関係を表したグラフ 𝑖番目の観測値を𝑥𝑖 および𝑦𝑖 と表記することにします 𝑖 = 1,2, … , 𝑛 (観測値は𝑛個ある。今回は𝑛 = 4) 変数𝒙 𝑥1 = 10 𝑥2 = 4 変数𝒚 𝑦1 = 8 𝑦2 = 3 𝑥3 = 6 𝑥4 = 1 𝑦3 = 2 𝑦4 = 1 𝑥𝑖 および𝑦𝑖 のペアに着目 341
散布図 変数𝒙 𝑥1 = 10 変数𝒚 𝑦1 = 8 𝑥2 = 4 𝑥3 = 6 𝑥4 = 1 𝑦2 = 3 𝑦3 = 2 𝑦4 = 1 342
散布図 変数𝒙 𝑥1 = 10 変数𝒚 𝑦1 = 8 𝑥2 = 4 𝑥3 = 6 𝑥4 = 1 𝑦2 = 3 𝑦3 = 2 𝑦4 = 1 𝑥1 = 10, 𝑦1 = 8 343
散布図 変数𝒙 𝑥1 = 10 変数𝒚 𝑦1 = 8 𝑥2 = 4 𝑥3 = 6 𝑥4 = 1 𝑦2 = 3 𝑦3 = 2 𝑦4 = 1 𝑥2 = 4, 𝑦2 = 3 344
散布図 変数𝒙 𝑥1 = 10 変数𝒚 𝑦1 = 8 𝑥2 = 4 𝑥3 = 6 𝑥4 = 1 𝑦2 = 3 𝑦3 = 2 𝑦4 = 1 𝑥3 = 6, 𝑦3 = 2 345
散布図 変数𝒙 𝑥1 = 10 変数𝒚 𝑦1 = 8 𝑥2 = 4 𝑥3 = 6 𝑥4 = 1 𝑦2 = 3 𝑦3 = 2 𝑦4 = 1 𝑥4 = 1, 𝑦4 = 1 346
内容 1.散布図 数量データ×数量データ 2.折れ線グラフ 3.棒グラフ 数量データ×カテゴリーデータ 4.箱ひげ図 347
折れ線グラフ 𝑥の昇順で並び替えた 変数𝒙 𝑥1 = 1 変数𝒚 𝑦1 = 1 𝑥2 = 4 𝑥3 = 6 𝑥4 = 10 𝑦2 = 3 𝑦3 = 2 𝑦4 = 8 横軸を「時間」などにすることが多い (時間は並び順が大事なので) 348
内容 1.散布図 数量データ×数量データ 2.折れ線グラフ 3.棒グラフ 数量データ×カテゴリーデータ 4.箱ひげ図 349
棒グラフ x A A A A A A A A A A A B B B B B B B B B B B y 0 1 2 3 4 5 6 7 8 9 10 10 11 12 13 14 15 16 17 18 19 20 グラフに描くデータ カテゴリーBの方が大き いように見える 350
棒グラフ 351
棒グラフ 右のデータの方が、 左のデータと比べて、 平均値が大きい 平均値 352
内容 1.散布図 数量データ×数量データ 2.折れ線グラフ 3.棒グラフ 数量データ×カテゴリーデータ 4.箱ひげ図 353
箱ひげ図 354
箱ひげ図 最大値 最小値 355
箱ひげ図 第3四分位点 第1四分位点 356
箱ひげ図 中央値 357
箱ひげ図 右のデータの方が、 左のデータと比べて、 中央値も四分位点もすべて大きい 358
応用編 x A A A A A A A A A A A B B B B B B B B B B B y 0 1 2 3 4 5 6 7 8 9 10 10 11 12 13 14 15 16 17 18 19 20 x A A A A A A A A A A A B B B B B B B B B B B y 0 1 2 3 4 5 6 7 8 9 10 0 1 2 13 14 15 16 17 28 29 30 359
応用編 平均値だけの比較だと 元データとの違いが不明 360
応用編 最大値や最小値なども 考慮すると、違いが分かる 361
応用編 362
応用編 ヒストグラムを使うと、 分布の特徴が良くわかる ヒストグラムに立ち戻るのは大事 363
中間テストまでのまとめ 364
内容 1.統計学のイントロダクション 2.過去のクイズの復習 中間テストに備える 365