296 Views
March 03, 25
スライド概要
オープンゼミ #5 の資料です。
ななーる訪問看護デベロップメントセンターでは、「看護研究を"楽しむ"のみんなのTIPS」と題して、定期的なオープンゼミを開催します。
このオープンゼミの目的は、看護師や若手研究者、看護系大学生・院生が看護分野の研究に対する理解を深め、知識を共有し、研究コミュニティの輪を広げることです。
〇参加できる方
・看護師
・保健師
・助産師
・看護系学生
・看護系研究に関わる研究職や教職員
いずれの方も、ゼミの参加者・発表者双方の役割を自由に担うことができます。
弊センターは訪問看護に関する研究施設ですが、オープンゼミは研究フィールド等を制限しません。
詳しくはゼミページへ:https://seminar-dc.peatix.com
訪問看護・在宅看護の研究施設「ななーる訪問看護デベロップメントセンター」のセンター長。「研究と実践をつなぐ」がミッション。 研究テーマ:神経難病支援、訪問看護データベース研究 etc
オープンゼミ #5 『統計、きそのきそ』 2025年3月3日(月) 17時~
今日のゼミの目標 統計きそのきそ,「データの要約」を徹底マスターする
要約統計量とは • 要約統計量 たくさんある観測値を簡潔にまとめ,その特徴をわかりやすく示す数値 • 例)平均値,中央値,最頻値,標準偏差,四分位範囲 などなど 代表値:観測値の分布を代表する値 散布度:データのばらつきを示す ※観測値:調査や実験により得られた,各個体に関する数量や属性
なぜ要約統計量を求めるのか ある集団の身長 173 164 178 160 157 175 178 一人一人の数値をみてもよくわからない 160 168 173 160 170 157 175 153 152 156 169 要約統計量(とりあえず代表値)を算出してみる 156 172 • 平均値 (Mean) 165.1 cm→観測値の中心(重心)はこれくらい • 中央値 (Median) 166 cm→真ん中の人はこの身長 • 最頻値 (Mode) 160 cm→もっとも多い身長はこれ
平均値 (Mean) 平均値: 観測値全体を均等にならした値 その観測値全体の重心がどこにあるかを示す 全部の値を足したもの 平均値 = 個数 177 165 145 160 平均:152 113 145 + 165 + 177 + 160 + 113 = 152 5
平均値の弱点 • 計算が簡単でわかりやすいのでよく使われる しかし,外れ値 (極端に大きかったり小さかったりする個体) に弱い 440 平均:200 cm 165 145 177 160 113 200 cmにはだれもいない(代表性がない) 平均値を見てもよくわからない
中央値 (Median) • 中央値:観測値を小さいものから順に並べたときの,中央の値 ※ただしデータの大きさが偶数の場合は,真ん中2つの平均値 中央値 160 145 113 177 165
中央値の強み • 求め方はとてもシンプル • 外れ値に強い 極端に大きい(or 小さい)値が含まれても変わらない 一人が巨大化しても,中央値は同じ 中央値 160 145 113 165 300
標準偏差 (Standard Deviation, SD) • 平均値からの「バラつき」を示す • 一人一人の平均からのズレの二乗を合計して,データの個数で割る→分散 分散の平方根(ルート)を取る→標準偏差 ※標本の分散の場合はn-1で割る 標準偏差 = 177 165 +13 -7 145 個人の平均値からのズレ 2の合計 データの個数 +25 160 平均:152 +8 -39 113 (−7)2+(13)2 +(25)2 + (8)2 + (−39)2 = 24.6 5−1
四分位範囲 (Interquartile Range, IQR) • データを4つに分けて,その地点にどんな値があるかを見る • 手順 ①データを小さい順に並べる ②全体を4等分する 第1四分位数:下から25%の位置の値 第3四分位数:下から75%の位置の値 ※第2四分位数は中央値と同じ(下から50%の位置の値) ※ちょうどの位置にだれもいなかったら,前後の人の平均をとる 152 153 156 25% 156 157 157 160 160 160 164 168 169 170 172 173 173 175 175 178 第1四分位数:157 75% 第3四分位数:173 178
データの示し方:箱ひげ図 (Box plot) データのバラつきを視覚的に示す 最大値 ひげ 第3四分位数 (75%) データの真ん中 50%の範囲 中央値 (50%) 第1四分位数 (25%) 最小値 箱
データの示し方:ヒストグラム (Histogram) • 「データの分布」を視覚的に示す • データをいくつかの区間(階級)に分け それぞれにいくつ観測値があるのか(度数)を棒グラフで示したもの 階級 度数 152 - 155 2 155 - 158 4 158 - 161 3 161 - 165 1 165 - 168 1 168 - 171 2 171 - 174 3 174 - 178 4 度数分布表 ヒストグラム
正規分布 (Normal Distribution) • 正規分布:平均値の周りにデータが集まり 左右対称な釣鐘型の形をした連続確率分布 • 正規分布の特徴 平均値を中心に左右対称 データが平均値付近に集中し 離れるほどデータが少ない 平均値 = 中央値 = 最頻値 (理論上は) 釣鐘→
なぜ“正規”分布? • 自然界や実社会で広く観察される分布 身長,体重,試験の点数,測定誤差など…… これらはデータが平均値付近に集中し,離れると少なくなる
連続確率分布? データがある範囲に収まる確率 連続確率分布 連続的に繋がり無限に中間値がある数(連続変数)のこと 例)身長,温度など ⇔離散変数: 飛び飛びの値を取る数 例)サイコロの目,コインの裏表
確率分布としての正規分布 • 正規分布は連続確率分布 分布をみれば,どこにどれくらいのデータが あるかわかる • 具体的には…… 標準偏差をもとに ±標準偏差 →約68.3% ±標準偏差×2 →約95.5% ±標準偏差×3 →約99.7%のデータが含まれる 例)ある集団の身長平均が160 cm,標準偏差5 155~165 cmの範囲に68.3% 150~170 cmの範囲に95.5% 145~175 cmの範囲に99.7% 約68.3% 約95.5% 約99.7% σ: 標準偏差
要約統計量の報告の仕方 • 平均値 vs 中央値 データの分布によって選択(正規分布→平均値)されることが多い ただし,正規分布なら平均値≒中央値なので 最近は「中央値(四分位範囲)」が選択されることも増えている • 平均値は標準偏差,中央値は四分位範囲とともに示す 例)平均値(標準偏差) 中央値(IQR: 第1四分位―第3四分位) • 平均値と標準偏差は「平均値±標準偏差」で示されることも多い ただし,最近のガイドラインでは非推奨な場合も 「M = 平均値, SD = 標準偏差」や「平均値 (SD)」が推奨 理由: SDは範囲ではなく「ばらつき」を表現→必ずしもその範囲に分布していない 標準誤差や95%信頼区間と混合しないため AMED支援「国際誌プロジェクト」(2017)『正しいデータの記述の仕方』 JMIR Finance Team (2024)「Guidelines for Reporting Statistics」
本当に平均値より中央値? ...... あるクラス (n = 45名) 歴史のテストを実施 100点満点 要約統計量を算出してみる • 平均値:57.4 (SD: 26.3) 点 • 中央値:56.0 (IQR: 34-87) 点 SD: 標準偏差 IQR: 四分位範囲
ヒストグラムを書いてみる 中央値 平均値 平均値と中央値は似たような値 しかし不自然な分布
このテストには裏がある 部員を落第させるわけにはいかない…… ゲートボール部の顧問 部員15名に解答を渡していた
このテストには裏がある ゲートボール部員 平均値:89.0 (SD: 5.0) 点 中央値:89 (IQR: 87-92) 点 その他生徒 平均値:41.6 (SD: 16.2) 点 中央値:42.0 (IQR: 30.25-56) 点 全体の平均値や中央値だけでは気づけない ヒストグラムなどで分布を確認 こういった峰が2つ以上ある分布を 「双峰型(bimodal)」といい, 性質の異なるデータが混じりあっていることが多い
Take home messages • 要約統計量: 観測値を簡潔にまとめ,その特徴をわかりやすく示す • しかし,場合によってはそのデータ全体の特徴を損なう 観測値を扱う時は,その集団の性質を意識して要約を 要約を見るときは,元の観測値を想像して