8.5K Views
October 06, 23
スライド概要
神戸大学経営学部で2022年度より開講している「経営統計」の講義資料「01_データの性質」を公開用に調整したものです。
神戸大学経営学研究科准教授 分寺杏介(ぶんじ・きょうすけ)です。 主に心理学的な測定・教育測定に関する研究を行っています。 講義資料や学会発表のスライドを公開していきます。 ※スライドに誤りを見つけた方は,炎上させずにこっそりお伝えいただけると幸いです。
経営統計 01 ガイダンス 分寺 杏介 神戸大学 経営学部 [email protected] ※本スライドは,クリエイティブ・コモンズ 表示-非営利 4.0 国際 ライセンス(CC BY-NC 4.0)に従って利用が可能です。
授業概要・到達目標 基本的な記述統計量の定義をマスターする といいつつ,高校数学である程度触れているはずなので「おさらい」に近いかもしれません 確率分布,母集団と標本の関係など,統計的推測で重要な概念について 説明できるようになる 実践で使う分析の方法に対する前提条件みたいなものです これがきちんと理解できれば,様々な分析方法の理解がはやいはずです 統計的推定や統計的仮説検定の考え方を理解し,正しく運用できるようになる 仮説検定の方法自体は相当な数あるので,共通する部分だけを確認します 実例として,仮説検定の中で最も基本的なものを見ていきます ※ソフトウェアを使った演習はさすがに受講者が多すぎるのでやりません。 01 データの性質 経営データ分析(入門演習)で! 2
ポイント この授業はあくまでも「入門」的な内容です 実践で使われるデータ解析の技術はもっと広いですが,一学期間で学べる量はかなり少ないです。 なので「この授業をクリアしたら終わり」ということは決して無く,この先自分で実践的なスキルを 習得するための知識の土台を作るのがこの授業の狙いです。 ※ちなみに経済学部では,統計に関する授業が3つほど開講されており,それとは別に演習系の講義もあります。 とはいえこの授業の内容は割と汎用的なスキルになります • この授業の範囲を超えてデータ解析のスキルを磨くと「でーたさいえんてぃすと」に近づける…かも • 統計データの見方を多少知っておくと騙されなくなるかも 「数字は嘘をつかないが嘘つきは数字を使う」 マーク・トウェイン(らしい) アメリカの平均時給はコロナ禍の2020年4月に前年比7.9%上昇 ▶コロナのおかげで平均時給が爆上がり!ありがとうコロナ! 01 データの性質 3
本講義の位置づけ(私見) データ分析をするための基本的な知識を提供します 例 平均値はいくつでしょう? 平均値は505.75 452, 459, 593, 486, 524, 546, 494, 492 この講義ではこのような 「分析のやり方・考え方」 ▶ 8個の数字をぜんぶ足して 8で割れば平均値は計算できる! につながる知識を教えていきます。 ▶ じゃあこの数字は 何を意味しているの? そもそも何の平均値を出したかによる 平均値出したはいいけど… 例)各年の従業員数,各商品の売上高,一日の来客数 01 データの性質 4
本講義の位置づけ(私見) データ分析のやり方を考えるための知識に繋がります 例 以下のデータからなにか知見を生み出してください。 452, 459, 593, 486, 524, 546, 494, 492 ▲ 2022年1月から8月までの倒産企業数です。 平均値を出して 前年度と比較してみよう 月ごとの推移を グラフにしてみよう 掛け算しても意味ない,といった感じ このデータの意味がわかっていれば, どんな分析をすると良さそうか 見えてくる 多い月・少ない月の 要因を考えてみよう 将来の予測を してみよう などなど いろいろな 「分析のやり方・考え方」 を知っていると,選択肢が増えます。 01 データの性質 5
本講義の位置づけ(私見) データ分析をするために必要な知識 データ分析 (参考)お料理 いろいろな講義 データそのものに関する (領域固有の)知識 目的・データにあった 分析手法 分析手法にあった データ収集 食材に関する知識 Data Driven 何かが 生まれる 数学・統計学の知識 例)きのこは加熱しすぎると 旨味が逃げる 料理が 生まれる 調理法の知識 経営統計・経営数学 例)切り方,強火と弱火の使い分け 本当は「経営データを使った演習」の 講義があると良いなぁ… (各ゼミで独自にやっている状態だった) 01 データの性質 きのこは弱火でじっくりスープが合うねぇ 6
本講義の位置づけ(私見) 「できる人を雇うから自分には必要ないぜ」と思っているあなたへ ハイパースゴイ法で分析しました よくわからんから説明して? めんどくせぇ… ウンタラカンタラ…という感じで ○○という結果が出ました まあよくわからんけど 良い結果出てるならヨシ! 知識が無いと 分析の正しさがわからないかも 分析結果の利用に失敗するかも ありがとうございます! そんな分析法ねーよ! こいつはカモだぞ! 「数字は嘘をつかないが嘘つきは数字を使う」 マーク・トウェイン(らしい) 01 データの性質 8
本講義の位置づけ(私見) 「できる人を雇うから自分には必要ないぜ」と思っているあなたへ ハイパースゴイ法で分析しました この分析の前提条件は? そこ重要だよな ウンタラカンタラ…という設定で △△という結果が出ました なるほど。ということはこの分析は あくまでも国内展開にのみ適用で きそうな結果だね。 じゃあ次は海外展開を視野に入れ 知識があれば た分析をやってくれるかい? 分析結果を正しく理解できる 了解です! 更に必要な分析を考えられる 01 データの性質 9
授業計画 ※多少速く/遅く進む可能性あり 1. ガイダンス・データの性質 4. 授業の位置づけ,統計学を学修する意味 2変数の関係性を表すための方法である 回帰分析の基本を見ていきます 統計学の視点からみた「データ」について少しだけお話 2. 5. 基本的な記述統計量(1) 高校数学「データの分析」で扱ったはずの範囲のおさらい 平均値・中央値・最頻値などの代表値と, 偏差や分散・標準偏差といった散布度の指標 3. 基本的な記述統計量(2) 2変数の関係を表す指標として 共分散・相関係数および連関係数を見ていきます 回帰分析(1) 回帰分析(2) 3変数以上の関係性を扱うため,回帰分析の もう少し発展した内容を見ていきます 6. 推測統計:母集団と標本 推測統計を学ぶ上で非常に重要な 「母集団」と「標本」という考え方に触れます 7. 確率変数と確率分布(1) 推測統計で必須の「確率」の考え方について, 高校数学の延長として導入します 01 データの性質 10
授業計画 ※後半はまだ内容が変わる可能性もあり 8. 代表的な確率分布(1) 12. 統計的仮説検定の考え方 実際の統計学において用いられることが多い 代表的な(離散)確率分布をいくつか紹介します。 9. あらゆる統計的仮説検定の背景にある「帰無仮説・対立仮 説」「有意水準」「検定統計量」などの概念を学びます。 代表的な確率分布(2) 13. 統計的仮説検定の例(1) 実際の統計学において用いられることが多い 代表的な(連続)確率分布をいくつか紹介します。 仮説検定の(たぶん)最もベーシックなものをもとに, 実際に仮説検定がどのように行われるかを学びます。 10. 推測統計:標本分布と標準誤差 14. 統計的仮説検定の例(2) 推測統計の目的である母数に関する推測のために必要な, 標本統計量の分布の考え方を導入します。 11. 推測統計:点推定と区間推定 データをもとに,母数を推定(点推定・区間推定)する方法 およびその理論的基盤を学びます。 引き続き,代表的な仮説検定の方法をいくつか紹介します。 15. 回帰分析の統計的推測・実世界での統計学 回帰分析モデルにおける統計的推測の考え方を紹介します。 (余裕があれば)この講義で学んだ内容が実世界での統計解析 にどのように繋がっていくか,いくつか例を示したいと思っています。 01 データの性質 11
そもそもなんで統計が必要なの? 「成功事例に学べば数字なんか使わなくてもいいじゃない」というあなたへ 01 データの性質 18
(推測)統計学でやりたいこと(私見) 世の中にある様々な成功例 本社を田舎に移したら 利益が上がりました 従業員を2割リストラしたら 利益が上がりました 有給休暇を義務化したら 利益が上がりました コア事業にリソースを集中 させたら利益が上がりました いろんな人がいろんなことを言ってる ビジネス書とか 統計学をつかって 一般化された法則・ルールを導き出したい! 例)エンジニアの比率が高い会社は,テレワークを推進したほうが利益が上がりやすい 01 データの性質 19
一般化までの流れ 1. 問をたてる (例)一般的に,有給休暇を義務化すると利益は上がるのか? 2. データを集める (例)「有給取得率」や「有給取得義務の有無」と「利益」のデータがあれば良い 3. 分析する ここで登場するのが統計です (例)「有給取得率」と「利益」の相関係数を出してみる 4. 答えを出す 当然会社の規模などの影響が大きい ▶どんな統制をかける必要があるかを知るためには 統計&領域固有の知識が両方必要になってくる もちろん例外はあるけれど 統計分析の結果「有給取得率が高いほど利益も大きい」ということがわかりました! もう少し詳細に見ていきましょう 01 データの性質 20
データを集めて分析する 30社 のデータを集めた結果 【結論】 有給取得率が高いほど 純利益も大きい! 取得率 …本当にそう言い切れるでしょうか? めんどくさいやつみたいですが,ここで厳密に言えることはまだ この 30社 ではそうだった,ということ 「一般的に」有給取得率が高いほど純利益も大きいと言えるでしょうか? 01 データの性質 21
一般化できるか 相関係数0.32 取得率 実際にとったデータでそうなんだからみんなそうなんじゃないの? この 30社 ではたまたまそうだっただけで, 別の30社に聞いたらぜんぜん違う結果になるかもしれないよ? 今回のデータ( 30社 )をもとに 「世の中の会社全体でも,有給取得率が高いほど純利益も大きい」 と言えるかどうかを統計的に判断する必要がある 01 データの性質 あるいはこの世のすべての会社からデータをとる 22
比較:化学だったら? 【知りたいこと】水は何℃で沸騰するか 【データをとる】水を熱して沸騰する温度を記録する 水をあつめる データを記録する × 20 結果発表 95℃ 100℃ 105℃ 計 0本 20本 0本 20本 この場合,今回のデータ(20本)をもとに 「世の中の全ての水で,100℃になったら沸騰する」 と言えるかどうかを統計的に判断する必要はない 01 データの性質 …なにが違う? 23
社会科学の難しさ 水が沸騰する理由 会社の純利益に影響する要因 • 有給が取れると従業員の やる気が出る • たまたまニーズが増加した • 昔からのコネで仕事が豊富 • ユニークな技術を持っている • etc …区別がつかない • 基本的には100℃ • 気圧や成分で若干変動する …区別がつく 化学であれば,原因は調べたら全部わかる(区別がつく)ので 統計を使わなくても説明できる ▶「水によって異なる」としても原因がわかる この水は101.4℃で沸騰し たのですが,その原因は ○○が0.1%混ざっていた ためです。 特に「人間」が関与する社会科学では,原因を調べても全部はわからない (区別がつかない)ので,究極的には「人・会社によって異なる」としか言えない ▶それでも「一般的には」みたいに何か法則を生み出したい この会社は今年純利益が 30%上がったのですが, その原因を聞かれると…?? 01 データの性質 24
統計的仮説検定 統計的仮説検定では背理法によって 検証していきます。 https://mathtrain.jp/contradiction ▶ 背理法は高校数学でやっていると思います… このプロセスにそって 仮説検定を行っていきます 01 データの性質 25
統計的仮説検定の流れ 1. 命題が正しくないと仮定する 「世の中の会社全体でも,有給取得率が高いほど純利益も大きい」が正しくないと仮定する ▶「世の中の会社全体で見ると,有給取得率と純利益には特に関係はない」 ▶「 (もう少し具体的に)有給取得率と純利益の相関係数はゼロ」 2. その結果,矛盾してしまう 30社集めて,相関係数が0.32 本当の相関係数がゼロの時に,今回のようなデータはあり得るのだろうか? ▶多少の偏りがあるとして,相関係数0.1くらいならギリありそうだが,0.32はさすがにレア 偏っていると考えるにも限度ってもんがある 3. よって,命題は正しい 統計の世界では「絶対」は無いので 「有給取得率と純利益の相関係数はゼロ」では無さそう というくらいにとどめておきます 01 データの性質 26
まとめると ここで統計学が必要 仮 説 を た て る デ ー タ を 集 め る 統 計 的 仮 説 検 定 要 約 す る 結 論 を 出 す 一 般 化 で き る 「利益に影響する要因」としては色々と考えられる • 従業員の人数はどれくらいが最も効率的だろうか? • 管理職がどんな性格だと従業員のやる気を引き出せるだろうか? …などなど 統計学を知っていると,仮説の立て方・データの集め方もわかるかも? 01 データの性質 27
授業計画マップ 例 (統計的)予測 15:実世界での統計学 まずは手元 のデータを まとめる 要 約 す る 2:1変数の記述統計 代表値・散布度 3:2変数の記述統計 共分散・相関・連関 4,5:回帰分析 手元のデータをもとに 「○○全体ではどうだろうか」 を統計的に推測する 6:母集団と標本 7:確率変数と確率分布 8,9:代表的な確率分布 10:標本分布 11:点推定と区間推定 有給取得率が◯◯%で,従業員数が ■■人で,…という会社の純利益は だいたいこれくらいになりそうだ! 統 計 的 仮 説 検 定 結 論 を 出 す 例 有給取得率が高いほど 純利益も高いようだ! 12:仮説検定の考え方 13,14:仮説検定の一例 ▲ 統計的仮説検定のメカニズムを 理解するためにも必要な知識 ※検定の方法は変数の形式などによって 相当いろいろな種類があるので,この授業 では「基本的な考え方」まで導入します。 15:回帰分析の統計的推測 記述統計 推測統計 01 データの性質 28
経営統計 01 データの性質 分寺 杏介 神戸大学 経営学部 [email protected] ※本スライドは,クリエイティブ・コモンズ 表示-非営利 4.0 国際 ライセンス(CC BY-NC 4.0)に従って利用が可能です。
データと変数 よくある「データ」の形(Excelで見ると) A 1 ID B 性別 C D 身長 E 体重 F 勉強時間 テストの得点 2 1 男 172 70 3.0 91 各行が1人分のデータになっている 3 2 女 158 47 0.8 31 4 3 女 160 54 4.0 34 • この人は男性,身長172cm,… 5 4 男 178 69 3.8 51 6 5 女 153 42 1.9 87 7 6 男 169 80 1.9 39 8 7 男 165 70 2.1 48 9 8 女 155 42 0.8 73 10 9 男 159 63 2.4 62 11 10 女 148 40 1.7 34 12 11 女 147 42 1.6 84 分析ソフトウェアや分析方法によっては データが別の形になっていることもありますが 最も基本的な形はこんな感じです 各列が異なる変数になっている • 1人目は男性,2人目は女性,… 01 データの性質 30
これからやりたいこと 1つの変数の特徴をつかむ 1 ID B 性別 C D 身長 E 体重 平均値・散らばり具合はどんなもの? F 勉強時間 テストの得点 2 1 男 172 70 3.0 91 3 2 女 158 47 0.8 31 4 3 女 160 54 4.0 34 5 4 男 178 69 3.8 51 6 5 女 153 42 1.9 87 7 6 男 169 80 1.9 39 8 7 男 165 70 2.1 48 9 8 女 155 42 0.8 73 10 9 男 159 63 2.4 62 11 10 女 148 40 1.7 34 12 11 女 147 42 1.6 84 平均値 分散 160.36 96.45 どのような分布になっているか? 人数 A 【身長】 1つの変数の特徴の表し方は他にも色々あります。 それらについては次回やっていきます。 01 データの性質 31
これからやりたいこと 2つの変数の関係をつかむ A 1 ID B 性別 C D 身長 【身長と体重】 E 体重 F 勉強時間 テストの得点 2 1 男 172 70 3.0 91 3 2 女 158 47 0.8 31 4 3 女 160 54 4.0 34 5 4 男 178 69 3.8 51 6 5 女 153 42 1.9 87 7 6 男 169 80 1.9 39 8 7 男 165 70 2.1 48 9 8 女 155 42 0.8 73 10 9 男 159 63 2.4 62 11 10 女 148 40 1.7 34 12 11 女 147 42 1.6 84 どのような関係になっているか? 「身長が高いほど体重も重い」と言えるか? 統計的仮説検定 01 データの性質 32
ちょっと待ってよ 変数って全部同じなのか? 例えば前ページのデータでは「性別」だけ数字じゃないから他と違う,というのはわかるけど… 数字だったら全部同じ扱い方していいの? ちょっとだけ計算してみる 4つの変数 この科目は「統計」なので,変数を足したりかけたり集計したりしていきます ①比べる ②足す 出席番号 2番 × 大会の順位 2位 ○ 2位より3位のほうが下 気温 2℃ ○ 2℃より3℃のほうが暖かい ○ 2℃から3℃上がったら5℃ 年齢 2歳 ○ 2歳より3歳のほうが年上 ○ 2歳より3歳上の人は5歳 すべて同じ「2」という数字だけど… 2番より3番のほうが上とかない × × 2番と3番の人を足しても 5番の人にはならない 2位と3位の人を足しても 5位にはならない 変数にもいくつかのタイプがある タイプごとにできることが違う 01 データの性質 ③かける × × × ○ 2番の人を3倍しても 6番の人にはならない 2位の人を3倍しても 6位にはならない 6℃は2℃の3倍暖かくはない 2歳より3倍生きている人は6歳 詳しく見ていきましょう 33
質的変数と量的変数 質的変数 量的変数 「分類する」変数 数字そのものが意味を持っている 数字の大小比較に意味がない 数字の大小比較に意味がある 例|血液型 例|身長 160 分析ソフトでは 数字のほうが 扱いやすい A B O AB 1 2 3 4 170 180 168.4 入れ替わっても問題ない ▶A型を2,B型を1とコーディングしてもOK 「168.4」という数字は 常に「168.4cm」を表す 例えば「1」という数字が 常に「A型」を表すとは限らない 01 データの性質 34
連続変数と離散変数 連続変数 離散変数 小数も整数もとりうる量的変数 整数しかとらない量的変数 例|身長 160 例|クラスの人数 170 180 … 15 16 17 18 19 20 21 22 23 … 168.418562947… 17.502617393… 細かい値はとらない 無限に細かくできる 身長測定では「168.4cm」のように小数点第1位までしか 表示されないが,これは測定器の精度の問題。 もし超高性能な身長計なら無限に細かく測れるはず 取りうる値の数が多い変数については, 実際の分析では連続変数として扱うことも多い 分析者の さじ加減かも 社会科学で「離散変数」のまま扱われる事が多いのは 「回数」や「件数」などのカウント 01 データの性質 35
年齢は離散変数? 年齢はふつう整数である 例|何歳ですか? ▶ 20.3歳 20歳 でも年齢を分析に使うとしたら • 年齢が上がるほど運動機能は上がるか?(幼稚園児対象) • 年齢が上がるほど認知機能が低下するか?(高齢者対象) こういうときの「年齢」は連続的なもの 運動機能や認知機能は誕生日に急に変化するのではなく日々徐々に変化するはず つまり身長などと同じ 本当は連続的なものだが,小数点以下を切り捨てた値を使用しているだけ 年齢は連続変数であることが多い 01 データの性質 36
なぜ連続変数と離散変数の区別が重要か? 確率分布が変わるから 統計学では,大体のことを「ある出来事が発生する確率」をもとにして考えていきます。 別の言い方をすると「ある出来事はどれくらいの確率で発生するか」を考えるので, もとになる確率分布を正しく決めてあげないと統計学は一気に無力になってしまうのです。 離散変数の確率分布の例 連続変数の確率分布の例 0 0 0 0 0 どちらも • 6のところがピーク • 15以上はほぼゼロ であり見た目は似ているが, 取り扱い方は全く異なるのです ※詳しくはどこかの回で! 0 0 00 0 00 0 0 0 00 0 00 0 0 0 0 01 データの性質 0 0 37
4つの尺度水準|比率尺度 0が「なにもない」という意味(原点)になる 例|体重 0 マイナスはあったり無かったりす るが,どちらでも良い 10 20 30 40 50 60 kg 体重ゼロは 「何もない」ということ ×1000 ゼロが基点なら良いので 定数倍してもOK -10 ゼロが基点にならないの で足し引きしたらダメ 70 0 ゼロを基点にすることで 「60kgは30kgの2倍」 ということができる 10000 20000 30000 40000 50000 60000 70000 g -10 0 10 20 30 40 50 60 ? 01 データの性質 1000倍のほうは元と同じ「体重」 という意味だが, 10引いたものはもはや「体重」と いう意味は持っていないのでダ メ,ということ 38
4つの尺度水準|間隔尺度 値の間隔が同じである 例|テストの得点 学力テストは広い「真の能力」の分布の一部 を測定するためのものである 真の能力 何もできない 0 10 20 30 全部できる 40 50 60 70 点 このテストでは測れないくらい 低いという感じ 得点ゼロは 「正解がない」ということだが 「学力が1ミリもない」ということは意味しない 01 データの性質 39
4つの尺度水準|間隔尺度 値の間隔が同じである もちろんそのためには 「テストの得点が間隔尺度になるように 上手に作られている」必要があるが,そ れはまた別のお話… 例|テストの得点 0 10 20 30 40 50 60 70 点 「60点は30点の2倍」は 「正解数が2倍」であっても 「真の学力が2倍」ではない 間隔が等しいので 「0点と30点の学力差」は 「30点と60点の学力差」と 等しいと言える ×10 間隔が等しいので 定数倍してもOK 0 +5 足し引きしてもOK 5 100 200 300 400 500 600 700 点 15 25 35 45 55 65 75 点 01 データの性質 足しても掛けても,間隔が等し い限り「真の分布」における位置 づけは変わらないはずなので問 題ない 40
4つの尺度水準|順序尺度 値に大小関係がある=量的変数 例|テストの順位 0 10 20 30 40 50 60 70 点 多くの場合,背後に何かしらの間隔または 比率尺度があり,その値に基づいて順序 関係が決まる 5 元の「5人の順位」における大小関係が 変わらないならば,新しい人が加わっても 特に問題にはならない 4 3 2 1 5人の順位 背後にあるものが比率尺度だとしても 「2位は1位の○倍の学力」とはいえない 6 5 4 3 2 1 6人の順位 あくまでも「5人の順位の関係については」問題がないだけ (3位と4位が逆転はしない,という意味) ▶数字自体は別の意味に変わっていることに注意 (「5人の順位」→「6人の順位」) 01 データの性質 41
4つの尺度水準|名義尺度 値に本質的な意味がない=質的変数 例|血液型 A 1対1の関係が保たれるな ら何してもOK B O AB 1 2 3 4 A B O AB 20 4 8 -5 A B O AB 1 2 1 3 数字がかぶったらダメ 01 データの性質 分析ソフトでは数字のほうが扱いやすい 何してもいいとはいえ,人間がきちんと意味を理解でき るようにするべき ▶普通はカテゴリごとに1から通し番号にする アンケートの結果で「その他」が無視されるのは,「その 他」が特定のカテゴリに対応しないために分析しようが 無いから 42
4つの尺度水準まとめ 尺度水準によって許される計算方法が変わる ※許される=その計算結果が真っ当な意味を持つ 4つの変数 ①比べる ②足す 名義 出席番号 2番 × 順序 大会の順位 2位 ○ 2位より3位のほうが下 間隔 気温 2℃ ○ 2℃より3℃のほうが暖かい ○ 2℃から3℃上がったら5℃ 比率 年齢 2歳 ○ 2歳より3歳のほうが年上 ○ 2歳より3歳上の人は5歳 2番より3番のほうが上とかない × × 01 データの性質 2番と3番の人を足しても 5番の人にはならない 2位と3位の人を足しても 5位にはならない ③かける × × × ○ 2番の人を3倍しても 6番の人にはならない 2位の人を3倍しても 6位にはならない 6℃は2℃の3倍暖かくはない 2歳より3倍生きている人は6歳 43
なぜ尺度水準の区別が重要か? 結果を正しく解釈するため 例|テストの得点 真の能力 何もできない 0 10 20 30 全部できる 40 50 60 70 点 Aさん 20点 Zさん 0点 Bさん 40点 Cさん 60点 テストの得点を様々な尺度水準だとして見てみると… 順序尺度だとすると • • 学力の順はZ<A<B<C どれくらいの学力差なのかは わからない 間隔尺度だとすると • • Zさんの学力はすごく低いが ゼロではない AとBの学力差はBとCの学力 差と大体同じと言えそう 01 データの性質 比率尺度だとすると • • • Zさんの学力はゼロ BさんはAさんの2倍の学力 CさんはAさんの3倍の学力 44
度数分布 質的変数の場合 各カテゴリのデータの数をまとめるだけ 血液型 A B O AB 人数 82 64 37 15 量的変数の場合 「適当な幅」は状況によって変わるので,いろいろな幅でヒストグラムを作ってみて決める 適当な幅で区切って「カテゴリ」を作る テスト得点 0-10 11-20 21-30 31-40 41-50 51-60 61-70 71-80 人数 3 15 30 46 54 48 27 10 幅は一定でない場合もある(極端な値がある場合など) 年収 (万円) 0200 200400 400600 600800 8001000 10002000 20005000 500010000 人数 18 52 89 48 15 7 4 2 01 データの性質 45
棒グラフとヒストグラム どちらも度数分布表を視覚的にわかりやすく表したグラフ テストの得点 血液型の分布 100 80 82 64 60 37 40 20 0 15 A型 B型 O型 AB型 【注意事項】 つまり比率尺度 • 棒の長さが人数を表し,ゼロは「そのカテゴリが一人もいない」という意味なので,必ずゼロから始めること • 人数がゼロのカテゴリーを勝手に削除しないほうが良い(「いない」というのも重要な情報) • 連続変数のときにはカテゴリの棒の間にすき間は作らないほうが良い(一番下に数直線があるというイメージで) 01 データの性質 46
(以降はおまけ)棒グラフ・ヒストグラム小ネタ ラベルは基本的に横向き 私達がふだん文字を読む方向 特に各項目が長いとき スガス 発 た人数 で ェジュ さがし ここはグラナダなのだ この方がすっと 目に入ってきませんか? 01 データの性質 た人数 47
(おまけ)棒グラフ・ヒストグラム小ネタ ラベルの順序に意味はあるか? 意味がある場合 意味がない場合 ラベルが量的変数など テストの得点 グラフの 大きい/小さい順に 並べると見やすい スガス 発 で ェジュ ラベルが質的変数 さがし ここはグラナダなのだ た人数 この例の場合, ラベルが「難易度順」という意味を 持つようになります ここはグラナダなのだ で ェジュ ラベルは数字の順に 並べましょう さがし (五十音順とか) 長さがバラバラだと 特にラベルの数が多いときに 見るのが大変になります スガス 発 た人数 01 データの性質 48
(おまけ)棒グラフ・ヒストグラム小ネタ 年代による違いが明確に 複数属性を比較する方法は一つじゃない 学 高 門学 高 ・ 大 大学 大学 元データ:令和4年賃金構造基本統計調査 (年代・最終学歴別の平均年収) 20 24 25 29 30 34 35 39 40 44 45 49 50 54 55 59 60 64 65 69 70 20 25 30 35 40 45 50 55 60 65 70 高 門学 高 ・ 大 学 大学 学歴による違いが明確に 01 データの性質 24 29 34 39 44 49 54 59 64 69 大学 49
(おまけ)その他のグラフ 元データ:2022年雇用動向調査 (最終学歴・職種別の入職者割合) 積み上げ棒グラフ 全体の人数比と 各カテゴリの割合が同時に見える ー ス 者 的 者 的・ どの職種にはどの学歴の人が多いかがわかりやすい 者 者 学 者 ・ ・ 者 理的 者 中学 高 修 高 ・ 大学 大学 者 ・ ・ 者 特に複数カテゴリの合算に意味がある場合におすすめ ▶ この例では「大学」「大学院」のみ色を意図的に変える 者 の の 大 者 0 00 000 者数 01 データの性質 人 00 000 ことで「大卒以上の入職者割合」を見やすくしている 50
(おまけ)その他のグラフ 元データ:2022年雇用動向調査 (最終学歴・職種別の入職者割合) 100%積み上げ棒グラフ(帯グラフ) 各カテゴリの割合に よりフォーカスしたい場合 ー ス 者 的 者 的・ 前ページの図ではぱっと見分かりにくかったこととして 「管理的職業従事者」は大卒以上の割合が非常に高い ことがよく分かる 者 者 学 者 ・ ・ 者 理的 者 中学 高 修 高 ・ 大学 大学 者 ・ ・ 大 者 者 の の 者 0 00 0 0 0 者数 01 データの性質 0 00 51
(おまけ)その他のグラフ ヒートマップ 2種類のカテゴリについて 分布的な視覚化ができる 理空間データとも 相性が良い 学 学 学 ・ 学 20 24 25 29 30 34 35 39 40 44 45 49 50 54 55 59 60 64 65 69 70 元データ:令和4年賃金構造基本統計調査 (年代・最終学歴別の平均年収) (400万円を緑として,それ以上を青,それ以下を赤で) 元データ:住民基本台 に基づく 2015年から2023年にかけての人口の増減 (近畿 方:青が増えたところ,赤が減ったところ) 01 データの性質 52
(おまけ)その他のグラフ 円グラフ (100%)積み上げ棒グラフでも 同じようなことが可視化できると思います 少ないカテゴリの割合を 直感的に比較できる 順序性があるカテゴリであれば 「あるカテゴリ以上」の割合も 増えた 減った 元データ:住民基本台 に基づく 2015年から2023年にかけての人口の増減 元データ:NHK世論調査(2021年12月実施) https://www3.nhk.or.jp/news/html/20211211/k10013384081000.html 感覚的には,「過半数」や「4分の3以上」など 25%刻みについては直感的に理解しやすいと思います(個人差あり) 01 データの性質 53
(おまけ)その他のグラフ 全く異なるスケールのものを並べるのはあまり良くない ▲ 本来比較できないものを比較しているように見えてしまうため 折れ線グラフ 00000 値の変化に関心がある場合 00000 0 00000 0 0 学者 (100%)積み上げ棒グラフを並べるのもあり 00 300000 0 人数 学者 00000 0 0 0 00000 0 00000 0 0 300000 元データ:1955年から2022年の学 基本調査 (18 人口と高等教育進学者数) 0 01 データの性質 00 学者 学者数 人口 進学者数 0 学者数 0 完全に別の変数であることがわかるように 一方だけ棒グラフにするのはまだアリかもしれない 0 00 54
(おまけ)グラフ(可視化・ビジュアライゼーション) 正解は一つではない 同じデータであっても,何を見せたいかによって使うべきグラフが変わる ▶ 様々な種類グラフがあるということを知っておくと良い 装飾はできるだけ削ったほうが良い 特に立体的に見せるのはほぼ確実に悪手 グラフになる前の数値にも気をつける 「絶対に描いてはいけないグラフ入りスライド24枚」 https://www.slideshare.net/itoyan110/24-44156981 そのグラフがそもそも何を可視化したものなのかに気を配るべし スライドp.3は「1年前同時期からの平均時給の増加率」 ただし当然「就業している人」における平均値 ▶コロナ禍では特に時給の低い業種・民族などで大量失業があったため, 「コロナ禍でも働き続けられた人」の平均時給が高ぶれしていたのでした。 01 データの性質 55