経営統計_01_データの性質

20.5K Views

October 06, 23

#経営統計 #記述統計 #統計的推測 #仮説検定 #回帰分析

スライド概要

神戸大学経営学部で2022年度より開講している「経営統計」の講義資料「01_データの性質」を公開用に調整したものです。
【変更履歴】
・2025/04/05：表中の表現を修正しました(pp. 33, 43)
・2025/04/03：間隔尺度の説明を変更しました(p. 41)

Kyosuke Bunji

@BunjiRo

スライド一覧

神戸大学経営学研究科准教授　分寺杏介（ぶんじ・きょうすけ）です。主に心理学的な測定・教育測定に関する研究を行っています。講義資料や学会発表のスライドを公開していきます。 ※スライドに誤りを見つけた方は，炎上させずにこっそりお伝えいただけると幸いです。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

ベイズ統計_07_マルコフ連鎖モンテカルロ法(2)

Kyosuke Bunji 69.5K

ベイズ統計_02_確率の基本とベイズの定理

Kyosuke Bunji 56.3K

ベイズ統計_01_イントロダクション

Kyosuke Bunji 49.3K

ベイズ統計_03_尤度

Kyosuke Bunji 47.7K

ベイズ統計_04_事前分布・基本的なベイズ推論(1)

Kyosuke Bunji 46K

ベイズ統計_06_マルコフ連鎖モンテカルロ法(1)

Kyosuke Bunji 44.3K

各ページのテキスト

経営統計 01 ガイダンス分寺杏介神戸大学経営学部  [email protected] ※本スライドは，クリエイティブ・コモンズ表示-非営利 4.0 国際ライセンス（CC BY-NC 4.0）に従って利用が可能です。

https://creativecommons.org/licenses/by-nc/4.0/

授業概要・到達目標 ▌基本的な記述統計量の定義をマスターするといいつつ，高校数学である程度触れているはずなので「おさらい」に近いかもしれません ▌確率分布，母集団と標本の関係など，統計的推測で重要な概念について説明できるようになる実践で使う分析の方法に対する前提条件みたいなものですこれがきちんと理解できれば，様々な分析方法の理解がはやいはずです ▌統計的推定や統計的仮説検定の考え方を理解し，正しく運用できるようになる仮説検定の方法自体は相当な数あるので，共通する部分だけを確認します実例として，仮説検定の中で最も基本的なものを見ていきます ※ソフトウェアを使った演習はさすがに受講者が多すぎるのでやりません。経営データ分析（入門演習）で！ 01 データの性質 2

ポイント ▌この授業はあくまでも「入門」的な内容です実践で使われるデータ解析の技術はもっと広いですが，一学期間で学べる量はかなり少ないです。なので「この授業をクリアしたら終わり」ということは決して無く，この先自分で実践的なスキルを習得するための知識の土台を作るのがこの授業の狙いです。 ※ちなみに経済学部では，統計に関する授業が3つほど開講されており，それとは別に演習系の講義もあります。 ▌とはいえこの授業の内容は割と汎用的なスキルになります • この授業の範囲を超えてデータ解析のスキルを磨くと「でーたさいえんてぃすと」に近づける…かも • 統計データの見方を多少知っておくと騙されなくなるかも「数字は嘘をつかないが嘘つきは数字を使う」マーク・トウェイン（らしい）アメリカの平均時給はコロナ禍の2020年4月に前年比7.9%上昇パンデミック下で平均時給が急上昇。コロナが経済的繁栄をもたらしたというのか？ 01 データの性質 3

本講義の位置づけ（私見） ▌データ分析をするための基本的な知識を提供します例平均値はいくつでしょう？平均値は505.75 452, 459, 593, 486, 524, 546, 494, 492 この講義ではこのような「分析のやり方・考え方」 8個の数字をぜんぶ足して 8で割れば平均値は計算できる！につながる知識を教えていきます。じゃあこの数字は何を意味しているの？そもそも何の平均値を出したかによる平均値出したはいいけど… 例）各年の従業員数，各商品の売上高，一日の来客数 01 データの性質 4

本講義の位置づけ（私見） ▌データ分析のやり方を考えるための知識に繋がります例以下のデータからなにか知見を生み出してください。 452, 459, 593, 486, 524, 546, 494, 492 ▲ 2022年1月から8月までの倒産企業数です。平均値を出して前年度と比較してみよう月ごとの推移をグラフにしてみよう掛け算しても意味ない，といった感じこのデータの意味がわかっていれば，どんな分析をすると良さそうか見えてくる多い月・少ない月の要因を考えてみよう将来の予測をしてみようなどなどいろいろな「分析のやり方・考え方」を知っていると，選択肢が増えます。 01 データの性質 5

本講義の位置づけ（私見） ▌データ分析をするために必要な知識データ分析（参考）お料理いろいろな講義データそのものに関する（領域固有の）知識目的・データにあった分析手法分析手法にあったデータ収集食材に関する知識 Data Driven 何かが生まれる例）きのこは加熱しすぎると旨味が逃げる数学・統計学の知識調理法の知識経営統計・経営数学例）切り方，強火と弱火の使い分け本当は「経営データを使った演習」の講義があると良いなぁ… （各ゼミで独自にやっている状態だった） 01 データの性質料理が生まれるきのこは弱火でじっくりスープが合うねぇ 6

本講義の位置づけ（私見） ▌「できる人を雇うから自分には必要ないぜ」と思っているあなたへハイパースゴイ法で分析しましたよくわからんから説明して？めんどくせぇ… ウンタラカンタラ…という感じで ○○という結果が出ましたまあよくわからんけど良い結果出てるならヨシ！知識が無いと分析の正しさがわからないかも分析結果の利用に失敗するかもありがとうございます！そんな分析法ねーよ！こいつはカモだぞ！「数字は嘘をつかないが嘘つきは数字を使う」マーク・トウェイン（らしい） 01 データの性質 8

本講義の位置づけ（私見） ▌「できる人を雇うから自分には必要ないぜ」と思っているあなたへハイパースゴイ法で分析しましたこの分析の前提条件は？そこ重要だよなウンタラカンタラ…という設定で △△という結果が出ましたなるほど。ということはこの分析はあくまでも国内展開にのみ適用できそうな結果だね。じゃあ次は海外展開を視野に入れ知識があればた分析をやってくれるかい？分析結果を正しく理解できる了解です！更に必要な分析を考えられる 01 データの性質 9

本講義の位置づけ（私見）生成AI ▌「いまどきチャッピーで何でもできる」と思っているあなたへこのデータを使ってなんかいい感じに分析して雑なプロンプトまず◯◯分析でもやってみますよ。これは結局，何を意味してるの？（丁寧に説明）もっとわかりやすいキャッチーな結果出せないの？知識が無いと適切に指示が出せないかも結果の意味が理解できないかも結論から言うね。 ☞ それ，**お前の理解力不足。** 01 ガイダンス・データの性質 10

10.

そもそもなんで統計が必要なの？「成功事例に学べば数字なんか使わなくてもいいじゃない」というあなたへ 01 データの性質 20

11.

（推測）統計学でやりたいこと（私見） ▌世の中にある様々な成功例本社を田舎に移したら利益が上がりました従業員を2割リストラしたら利益が上がりました有給休暇を義務化したら利益が上がりましたコア事業にリソースを集中させたら利益が上がりましたいろんな人がいろんなことを言ってるビジネス書とか統計学をつかって一般化された法則・ルールを導き出したい！例）エンジニアの比率が高い会社は，テレワークを推進したほうが利益が上がりやすい 01 データの性質 21

12.

一般化までの流れ 1. 問をたてる（例）一般的に，有給休暇を義務化すると利益は上がるのか？ 2. データを集める（例）「有給取得率」や「有給取得義務の有無」と「利益」のデータがあれば良い 3. 分析するここで登場するのが統計です（例）「有給取得率」と「利益」の相関係数を出してみる 4. 答えを出す当然会社の規模などの影響が大きいどんな統制をかける必要があるかを知るためには統計＆領域固有の知識が両方必要になってくるもちろん例外はあるけれど統計分析の結果「有給取得率が高いほど利益も大きい」ということがわかりました！もう少し詳細に見ていきましょう 01 データの性質 22

13.

データを集めて分析する 30社のデータを集めた結果【結論】有給取得率が高いほど純利益も大きい！ …本当にそう言い切れるでしょうか？めんどくさいやつみたいですが，ここで厳密に言えることはまだこの 30社ではそうだった，ということ「一般的に」有給取得率が高いほど純利益も大きいと言えるでしょうか？ 01 データの性質 23

14.

一般化できるか相関係数0.32 実際にとったデータでそうなんだからみんなそうなんじゃないの？この 30社ではたまたまそうだっただけで，別の30社に聞いたらぜんぜん違う結果になるかもしれないよ？今回のデータ（ 30社）をもとに「世の中の会社全体でも，有給取得率が高いほど純利益も大きい」と言えるかどうかを統計的に判断する必要がある 01 データの性質あるいはこの世のすべての会社からデータをとる 24

15.

比較：もしもすべての原因がわかっていたら？【知りたいこと】水は何℃で沸騰するか【データをとる】水を熱して沸騰する温度を記録する水をあつめるデータを記録する × 20 結果発表 95℃ 100℃ 105℃ 計 0本 20本 0本 20本この場合，今回のデータ（20本）をもとに「世の中の全ての水で，100℃になったら沸騰する」と言えるかどうかを統計的に判断する必要はない 01 データの性質 …なにが違う？ 25

16.

社会科学の難しさ水が沸騰する理由会社の純利益に影響する要因 • 有給が取れると従業員のやる気が出る • たまたまニーズが増加した • 昔からのコネで仕事が豊富 • ユニークな技術を持っている • etc …区別がつかない • 基本的には100℃ • 気圧や成分で若干変動する …区別がつく温度の違いの原因は調べたらほぼ全部わかる（区別がつく）ので統計を使わなくても説明できる「水によって異なる」としても原因がわかるこの水は101.4℃で沸騰したのですが，その原因は ○○が0.1%混ざっていたためです。特に「人間」が関与する社会科学では，原因を調べても全部はわからない（区別がつかない）ので，究極的には「人・会社によって異なる」としか言えないそれでも「一般的には」みたいに何か法則を生み出したいこの会社は今年純利益が 30%上がったのですが，その原因を聞かれると…？？ 01 データの性質 26

17.

統計的仮説検定 ▌ 統計的仮説検定では背理法によって検証していきます。 https://mathtrain.jp/contradiction 背理法は高校数学でやっていると思います… このプロセスにそって仮説検定を行っていきます 01 データの性質 27

https://mathtrain.jp/contradiction

18.

統計的仮説検定の流れ 1. 命題が正しくないと仮定する「世の中の会社全体でも，有給取得率が高いほど純利益も大きい」が正しくないと仮定する「世の中の会社全体で見ると，有給取得率と純利益には特に関係はない」「（もう少し具体的に）有給取得率と純利益の相関係数はゼロ」 2. その結果，矛盾してしまう 30社集めて，相関係数が0.32 本当の相関係数がゼロの時に，今回のようなデータはあり得るのだろうか？多少の偏りがあるとして，相関係数0.1くらいならギリありそうだが，0.32はさすがにレア偏っていると考えるにも限度ってもんがある 3. よって，命題は正しい統計の世界では「絶対」は無いので「有給取得率と純利益の相関係数はゼロ」では無さそうというくらいにとどめておきます 01 データの性質 28

19.

まとめるとここで統計学が必要仮説をたてるデータを集める統計的仮説検定要約する結論を出す一般化できる「利益に影響する要因」としては色々と考えられる • 従業員の人数はどれくらいが最も効率的だろうか？ • 管理職がどんな性格だと従業員のやる気を引き出せるだろうか？ …などなど統計学を知っていると，仮説の立て方・データの集め方もわかるかも？ 01 データの性質 29

20.

授業計画マップ例（統計的）予測 14：実世界での統計学まずは手元のデータをまとめる要約する２：１変数の記述統計代表値・散布度３：２変数の記述統計共分散・相関・連関４，５：回帰分析手元のデータをもとに「○○全体ではどうだろうか」を統計的に推測する６：母集団と標本７：確率変数と確率分布８：代表的な確率分布 9：標本分布 10：点推定と区間推定有給取得率が◯◯％で，従業員数が ■■人で，…という会社の純利益はだいたいこれくらいになりそうだ！統計的仮説検定結論を出す例有給取得率が高いほど純利益も高いようだ！ 11：仮説検定の考え方 12：仮説検定の一例 ▲ 統計的仮説検定のメカニズムを理解するためにも必要な知識 ※検定の方法は変数の形式などによって相当いろいろな種類があるので，この授業では「基本的な考え方」まで導入します。 13：回帰分析の統計的推測記述統計推測統計 01 データの性質 30

21.

ウォーミングアップとして，この講義で扱う「数字」について少し考えてみます。経営統計 01 データの性質分寺杏介神戸大学経営学部  [email protected] ※本スライドは，クリエイティブ・コモンズ表示-非営利 4.0 国際ライセンス（CC BY-NC 4.0）に従って利用が可能です。

https://creativecommons.org/licenses/by-nc/4.0/

22.

データと変数 ▌よくある「データ」の形（Excelで見ると） A 1 ID B 性別 C D 身長体重 E F 勉強時間テストの得点 2 1 男 172 70 3.0 91 各行が1人分のデータになっている 3 2 女 158 47 0.8 31 • 4 3 女 160 54 4.0 34 5 4 男 178 69 3.8 51 6 5 女 153 42 1.9 87 7 6 男 169 80 1.9 39 8 7 男 165 70 2.1 48 9 8 女 155 42 0.8 73 10 9 男 159 63 2.4 62 11 10 女 148 40 1.7 34 12 11 女 147 42 1.6 84 各列が異なる変数になっている • この列は「性別」という変数を表しており， 1人目は男性，2人目は女性，… この人は男性，身長172cm，… 分析ソフトウェアや分析方法によってはデータが別の形になっていることもありますが最も基本的な形はこんな感じです「変数」という用語は，ざっくりと「ケースによって変わる数」という認識でOKです。 01 データの性質 32

23.

これからやりたいこと ▌1つの変数の特徴をつかむ 1 ID B 性別 C D 身長体重平均値・散らばり具合はどんなもの？ E F 勉強時間テストの得点 2 1 男 172 70 3.0 91 3 2 女 158 47 0.8 31 4 3 女 160 54 4.0 34 5 4 男 178 69 3.8 51 6 5 女 153 42 1.9 87 7 6 男 169 80 1.9 39 8 7 男 165 70 2.1 48 9 8 女 155 42 0.8 73 10 9 男 159 63 2.4 62 11 10 女 148 40 1.7 34 12 11 女 147 42 1.6 84 平均値分散 160.36 96.45 どのような分布になっているか？数 A 【身長】 1つの変数の特徴の表し方は他にも色々あります。それらについては次回やっていきます。 01 データの性質 33

24.

これからやりたいこと ▌2つの変数の関係をつかむ A 1 ID B 性別 C D 身長体重【身長と体重】 E F 勉強時間テストの得点 2 1 男 172 70 3.0 91 3 2 女 158 47 0.8 31 4 3 女 160 54 4.0 34 5 4 男 178 69 3.8 51 6 5 女 153 42 1.9 87 7 6 男 169 80 1.9 39 8 7 男 165 70 2.1 48 9 8 女 155 42 0.8 73 10 9 男 159 63 2.4 62 11 10 女 148 40 1.7 34 12 11 女 147 42 1.6 84 どのような関係になっているか？「身長が高いほど体重も重い」と言えるか？統計的仮説検定 01 データの性質 34

25.

ちょっと待ってよ ▌ 変数って全部同じなのか？例えば前ページのデータでは「性別」だけ数字じゃないから他と違う，というのはわかるけど… 数字だったら全部同じ扱い方していいの？ ▌ ちょっとだけ計算してみる 4つの変数この科目は「統計」なので，変数を足したりかけたり集計したりしていきます ①比べる × ②足す × × 出席番号 2番テストの順位 2位 ○ 2位より3位のほうが下気温 2℃ ○ 2℃より3℃のほうが暖かい ○ 2℃に3を足すと5℃ 年齢 2歳 ○ 2歳より3歳のほうが年上 ○ 2歳に3を足すと5歳すべて同じ「2」という数字だけど… 2番より3番のほうが上とかない 2番の人に3を足しても 5番の人にはならない 2位（の得点）に３を足しても 5位（の得点）にはならない変数にもいくつかのタイプがあるタイプごとにできることが違う 01 データの性質 ③かける × × × 2位（の得点）を3倍しても 6位（の得点）にはならない ○ 2歳の3倍の人は6歳 2番の人を3倍しても 6番の人にはならない 2℃の3倍（の暖かさ）は 6℃ではない詳しく見ていきましょう 35

26.

質的変数と量的変数 ▌質的変数 ▌量的変数「分類する」変数数字そのものが意味を持っている数字の大小比較に意味がない数字の大小比較に意味がある例｜血液型例｜身長 160 分析ソフトでは数字のほうが扱いやすい A B O AB １２３４ 170 180 168.4 入れ替わっても問題ない A型を2，B型を1とコーディングしてもOK 「168.4」という数字は常に「168.4cm」を表す例えば「１」という数字が常に「A型」を表すとは限らない 01 データの性質 36

27.

連続変数と離散変数 ▌連続変数 ▌離散変数小数も整数もとりうる量的変数整数しかとらない量的変数例｜身長例｜クラスの人数 160 170 180 … 15 16 17 18 19 20 21 22 23 … 168.418562947… 17.502617393… 細かい値はとらない無限に細かくできる身長測定では「168.4cm」のように小数点第１位までしか表示されないが，これは測定器の精度の問題。もし超高性能な身長計なら無限に細かく測れるはず取りうる値の数が多い変数については，実際の分析では連続変数として扱うことも多い分析者のさじ加減かも社会科学で「離散変数」のまま扱われる事が多いのは「回数」や「件数」などのカウント 01 データの性質 37

28.

年齢は離散変数？ ▌年齢はふつう整数である例｜何歳ですか？ 20.3歳 20歳 ▌でも年齢を分析に使うとしたら • 年齢が上がるほど運動機能は上がるか？（幼稚園児対象） • 年齢が上がるほど認知機能が低下するか？（高齢者対象）こういうときの「年齢」は連続的なもの運動機能や認知機能は誕生日に急に変化するのではなく日々徐々に変化するはず ▌つまり身長などと同じ本当は連続的なものだが，小数点以下を切り捨てた値を使用しているだけ年齢は連続変数であることが多い 01 データの性質 38

29.

なぜ連続変数と離散変数の区別が重要か？ ▌確率分布が変わるから統計学では，大体のことを「ある出来事が発生する確率」をもとにして考えていきます。別の言い方をすると「ある出来事はどれくらいの確率で発生するか」を考えるので，もとになる確率分布を正しく決めてあげないと統計学は一気に無力になってしまうのです。連続変数の確率分布の例離散変数の確率分布の例どちらも • ６のところがピーク • 15以上はほぼゼロであり見た目は似ているが，取り扱い方は全く異なるのです ※詳しくはどこかの回で！ 01 データの性質 39

30.

４つの尺度水準｜名義尺度 ▌値に本質的な意味がない＝質的変数例｜血液型 A １対１の関係が保たれるなら何してもOK B O AB １２３４ A B O AB 20 ４８ -5 A B O AB １２１３数字がかぶったらダメ 01 データの性質分析ソフトでは数字のほうが扱いやすい何してもいいとはいえ，人間がきちんと意味を理解できるようにするべき普通はカテゴリごとに0または１から通し番号にするアンケートの結果で「その他」が無視されるのは，「その他」が特定のカテゴリに対応しないために分析しようが無いから 40

31.

４つの尺度水準｜順序尺度 ▌値に大小関係がある＝量的変数例｜テストの順位 0 10 20 30 40 50 60 70 点多くの場合，背後に何かしらの間隔または比率尺度があり，その値に基づいて順序関係が決まる 5 元の「5人の順位」における大小関係が変わらないならば，新しい人が加わっても特に問題にはならない 4 3 2 1 5人の順位背後にあるものが比率尺度だとしても「2位は1位の○倍の学力」とはいえない 6 5 4 3 2 1 6人の順位あくまでも「5人の順位の関係については」問題がないだけ（3位と4位が逆転はしない，という意味）数字自体は別の意味に変わっていることに注意（「5人の順位」→「6人の順位」） 01 データの性質 41

32.

４つの尺度水準｜比率尺度 ▌０が「なにもない」という意味（原点）になる例｜体重 0 マイナスはあったり無かったりするが，どちらでも良い 10 20 30 40 50 60 kg 体重ゼロは「何もない」ということ ×1000 ゼロが基点なら良いので定数倍してもOK －10 ゼロが基点にならないので足し引きしたらダメ 70 0 ゼロを基点にすることで「60kgは30kgの2倍」ということができる 10000 20000 30000 40000 50000 60000 70000 g -10 0 10 20 30 40 50 60 ？ 01 データの性質 1000倍のほうは元と同じ「体重」という意味だが， 10引いたものはもはや「体重」という意味は持っていないのでダメ，ということ 42

33.

４つの尺度水準｜間隔尺度 ▌値の間隔が同じである例｜年（和暦）そもそも「令和0年」は存在しない「令和1年の前の年」と考えても全く意味はない 1 2 3 4 5 6 7 8 令和（年）間隔が等しいので「令和1年と令和4年の間隔」は「令和4年と令和7年の間隔」と等しいと言える ×12 間隔が等しいので定数倍してもOK ＋2018 足し引きしてもOK 12 24 2019 2020 36 48 60 72 84 96 令和（月） 2021 2022 2023 2024 2025 2026 足しても掛けても，同じものを表す意味づけが可能西暦 01 データの性質 43

34.

データでお目にかかりやすい間隔尺度 ▌テストの得点学力テストは広い「真の能力」の分布の一部を測定するためのものである真の能力何もできない 0 10 20 30 全部できる 40 50 60 70 点このテストでは測れないくらい低いという感じ得点ゼロは「正解がない」ということだが「学力が1ミリもない」ということは意味しない 01 データの性質 44

35.

４つの尺度水準まとめ ▌尺度水準によって許される計算方法が変わる ※許される＝その計算結果が真っ当な意味を持つ 4つの変数 ①比べる × ②足す × × 名義出席番号 2番順序テストの順位 2位 ○ 2位より3位のほうが下間隔気温 2℃ ○ 2℃より3℃のほうが暖かい ○ 2℃に3を足すと5℃ 比率年齢 2歳 ○ 2歳より3歳のほうが年上 ○ 2歳に3を足すと5歳 2番より3番のほうが上とかない 01 データの性質 2番の人に3を足しても 5番の人にはならない 2位（の得点）に３を足しても 5位（の得点）にはならない ③かける × × × 2位（の得点）を3倍しても 6位（の得点）にはならない ○ 2歳の3倍の人は6歳 2番の人を3倍しても 6番の人にはならない 2℃の3倍（の暖かさ）は 6℃ではない 45

36.

なぜ尺度水準の区別が重要か？ ▌結果を正しく解釈するため「テストの得点」は，「能力」を表すものとして解釈される限りは間隔尺度一方で，ただの「正解数」として解釈するならば比率尺度例｜テストの得点真の能力何もできない 0 10 20 30 全部できる 40 50 60 70 点 Aさん 20点 Zさん 0点 Bさん 40点 Cさん 60点テストの得点を様々な尺度水準だとして見てみると… 順序尺度だとすると • • 学力の順はZ<A<B<C どれくらいの学力差なのかはわからない間隔尺度だとすると • • Zさんの学力はすごく低いがゼロではない AとBの学力差はBとCの学力差と大体同じと言えそう 01 データの性質比率尺度だとすると • • • Zさんの学力はゼロ BさんはAさんの2倍の学力 CさんはAさんの3倍の学力 46

37.

（余談）本当に「テストの得点」は間隔尺度か？ ▌「50点と60点の差」と「90点と100点の差」は同じ？厳密に同じではないかもしれないが，順序尺度では平均値の計算すらできない実際には，間隔尺度「とみなしている」という方が正しいかも ▌0点は「正解がない」という（原点の）意味を持ちうるのでは？テストの得点をそのまま「正解数（率）」として見るならばその通り【前ページの例で言うと】 • Bさんのこのテストの正解数はAさんの2倍（比率尺度としての解釈） • Bさんの能力はAさんより高いが，2倍かはわからない（間隔尺度としての解釈）いずれもあり得る解釈であり，どちらを用いるかは問いによって変わるしかし大抵の場合，「テストの得点」はその背後にある「能力」の顕在指標として見ているほとんどのケースでは，「テストの得点」は間隔尺度として扱われる 01 データの性質 47

38.

度数分布 ▌質的変数の場合各カテゴリのデータの数をまとめるだけ血液型 A B O AB 人数 82 64 37 15 ▌量的変数の場合「適当な幅」は状況によって変わるので，いろいろな幅でヒストグラムを作ってみて決める適当な幅で区切って「カテゴリ」を作るテスト得点 0-10 11-20 21-30 31-40 41-50 51-60 61-70 71-80 人数 3 15 30 46 54 48 27 10 幅は一定でない場合もある（極端な値がある場合など）年収 (万円) 0200 200400 400600 600800 8001000 10002000 20005000 500010000 人数 18 52 89 48 15 7 4 2 01 データの性質 48

39.

棒グラフとヒストグラム ▌どちらも度数分布表を視覚的にわかりやすく表したグラフスの血液型の分布 100 80 82 64 60 37 40 20 0 15 A型 B型 O型 AB型【注意事項】つまり比率尺度 • 棒の長さが人数を表し，ゼロは「そのカテゴリが一人もいない」という意味なので，必ずゼロから始めること • 人数がゼロのカテゴリーを勝手に削除しないほうが良い（「いない」というのも重要な情報） • 連続変数のときにはカテゴリの棒の間にすき間は作らないほうが良い（一番下に数直線があるというイメージで） 01 データの性質 49

40.

（以降はおまけ）棒グラフ・ヒストグラム小ネタ ▌ラベルは基本的に横向き私達がふだん文字を読む方向特に各項目が長いときスス発数でチェジさがしたここはグラナダなのだぞこの方がすっと目に入ってきませんか？ 01 データの性質た数 50

41.

（おまけ）棒グラフ・ヒストグラム小ネタ ▌ラベルの順序に意味はあるか？意味がある場合意味がない場合ラベルが量的変数などスのグラフの大きい／小さい順に並べると見やすいスス発でチェジラベルが質的変数さがしここはグラナダなのだぞた数この例の場合，ラベルが「難易度順」という意味を持つようになりますここはグラナダなのだぞでチェジラベルは数字の順に並べましょうさがしスス（五十音順とか）長さがバラバラだと特にラベルの数が多いときに見るのが大変になります発た数 01 データの性質 51

42.

（おまけ）棒グラフ・ヒストグラム小ネタ年代による違いが明確に ▌複数属性を比較する方法は一つじゃない学高門学高・大大学大学元データ：令和４年賃金構造基本統計調査（年代・最終学歴別の平均年収）２０２４２５２３０３４３５３４０４４４５４５０５４５５５６０６４６５６７０２０２５３０３５４０４５５０５５６０６５７０高門学高・大学大学学歴による違いが明確に 01 データの性質２４２３４３４４４５４５６４６大学 52

43.

（おまけ）その他のグラフ元データ：2022年雇用動向調査（最終学歴・職種別の入職者割合） ▌積み上げ棒グラフ全体の人数比と各カテゴリの割合が同時に見えるースどの職種にはどの学歴の人が多いかがわかりやすい的的・学中学高・・高・大学大学理的・大・の特に複数カテゴリの合算に意味がある場合におすすめこの例では「大学」「大学院」のみ色を意図的に変えるのことで「大卒以上の入職者割合」を見やすくしている数 01 データの性質 53

44.

（おまけ）その他のグラフ元データ：2022年雇用動向調査（最終学歴・職種別の入職者割合） ▌100%積み上げ棒グラフ（帯グラフ）各カテゴリの割合によりフォーカスしたい場合ース前ページの図ではぱっと見分かりにくかったこととして「管理的職業従事者」は大卒以上の割合が非常に高いことがよく分かる的的・学中学高・・高・大学大学理的・大・のの数 01 データの性質 54

45.

（おまけ）その他のグラフ ▌ヒートマップ２種類のカテゴリについて分布的な視覚化ができる理空間データとも相性が良い学学学・学２０２４２５２３０３４３５３４０４４４５４５０５４５５５６０６４６５６７０元データ：令和４年賃金構造基本統計調査（年代・最終学歴別の平均年収）（400万円を緑として，それ以上を青，それ以下を赤で）元データ：住民基本台に基づく 2015年から2023年にかけての人口の増減（近畿方：青が増えたところ，赤が減ったところ） 01 データの性質 55

46.

（おまけ）その他のグラフ ▌円グラフ (100%)積み上げ棒グラフでも同じようなことが可視化できると思います少ないカテゴリの割合を直感的に比較できる順序性があるカテゴリであれば「あるカテゴリ以上」の割合も増えた減った元データ：住民基本台に基づく 2015年から2023年にかけての人口の増減元データ：NHK世論調査（2021年12月実施） https://www3.nhk.or.jp/news/html/20211211/k10013384081000.html 感覚的には，「過半数」や「4分の3以上」など 25%刻みについては直感的に理解しやすいと思います（個人差あり） 01 データの性質 56

https://www3.nhk.or.jp/news/html/20211211/k10013384081000.html

47.

（おまけ）その他のグラフ全く異なるスケールのものを並べるのはあまり良くない ▲ 本来比較できないものを比較しているように見えてしまうため ▌折れ線グラフ値の変化に関心がある場合学 (100%)積み上げ棒グラフを並べるのもあり数学学数学学数人口学者数完全に別の変数であることがわかるように一方だけ棒グラフにするのはまだアリかもしれない元データ：1955年から2022年の学基本調査（18 人口と高等教育学者数） 01 データの性質 57

48.

（おまけ）グラフ（可視化・ビジアライゼーション） ▌正解は一つではない同じデータであっても，何を見せたいかによって使うべきグラフが変わる様々な種類のグラフがあるということを知っておくと良い ▌装飾はできるだけ削ったほうが良い特に立体的に見せるのはほぼ確実に悪手 ▌グラフになる前の数値にも気をつける「絶対に描いてはいけないグラフ入りスライド24枚」 https://www.slideshare.net/itoyan110/24-44156981 そのグラフがそもそも何を可視化したものなのかに気を配るべしスライドp.3は「１年前同時期からの平均時給の増加率」ただし当然「就業している人」における平均値コロナ禍では特に時給の低い業種・民族などで大量失業があったため，「コロナ禍でも働き続けられた人」の平均時給が高ぶれしていたのでした。 01 データの性質 58

https://www.slideshare.net/itoyan110/24-44156981