明⽇から読める無作為化⽐較試験: ⾏動療法研究に求められる統計学

1.

明⽇から読める無作為化⽐較試験: ⾏動療法研究に求められる統計学奥村泰之⼀般財団法⼈医療経済研究・社会保険福祉協会医療経済研究機構研究部主任研究員⽇本認知・⾏動療法学会第41回⼤会 2015/10/3 (⼟) 17:30~20:30 仙台国際センター展⽰棟会議室2

2.

ファシリテーター 国⾥愛彦 (専修⼤学) 三瓶舞紀⼦ (国⽴成育医療研究センター) ⽵林由武 (統計数理研究所) ⼟屋政雄 (労働安全衛⽣総合研究所) 横光健吾 (たばこ総合研究センター) 市倉加奈⼦ (東京医科⻭科⼤学) 中島俊 (東京医科⼤学) 2

3.

研修会の狙い 到達⽬標 無作為化⽐較試験を読む能⼒を養う 個別⽬標 1. 無作為化⽐較試験の要点を理解できる 2. 無作為化⽐較試験の批判的吟味を理解できる 3. 無作為化⽐較試験を検索・⼊⼿できる 3

4.

無作為化⽐較試験の要点の理解      RCTの3類型と研究疑問の定式化論⽂の構成量的変数の評価指標信頼区間と群間差の解釈質的変数の評価指標 4

5.

無作為化⽐較試験 (RCT) の型現在未来アウトカム測定実験群対照群無作為化症例登録 5

6.

3種類のRCT，実験的介⼊の優越性「優れている」と判断する限界値優越性試験 E is better Lesaffre E: Bull NYU Hosp Jt Dis. 2008;66(2):150-4. 0 C is better 6

7.

3種類のRCT，実験的介⼊の⾮劣性「劣っていない」と判断する限界値⾮劣性試験 E is better Lesaffre E: Bull NYU Hosp Jt Dis. 2008;66(2):150-4. 0 C is better 7

8.

3種類のRCT，実験的介⼊の同等性「同等である」と判断する限界値同等性試験 E is better Lesaffre E: Bull NYU Hosp Jt Dis. 2008;66(2):150-4. 0 C is better 8

9.

研究疑問の定式化 (PICO-T) Patients...患者 Intervention...介⼊ Comparison...⽐較対照 Outcome...アウトカム Time...時間中川敦夫: 臨床研究の歴史、意義、研究の定式化 (2012年度版). (http://www.icrweb.jp/) 9

http://www.icrweb.jp/

10.

研究疑問の定式化の事例 P : I : C : 12~18歳の慢性疲労症候群の患者を対象に，インターネット⽀援型認知⾏動療法を受けた⼈は，通常の理学療法⼠による介⼊を受けた⼈と⽐べて， O : 過去12⽇間における授業の完全出席率が⾼いか T : 治療開始6か⽉時点 Nijhof SL et al: Lancet. 2012 Apr 14;379(9824):1412-8. 10

11.

アウトカムの6領域領域死亡疾患不快障害不満貧困事例症状，臨床化学検査値異常など痛み，吐き気，呼吸苦，掻痒，⽿鳴⽇常⽣活の機能，就労や余暇疾患やその介護に伴う感情 (悲しみ，怒り) 個⼈や社会の疾患に伴うコスト中川敦夫: 臨床研究の歴史、意義、研究の定式化. 2012. (http://www.crt-web.com/) 11

12.

主要アウトカムの原則 最も重要なもの1つ 患者-治療者-政策決定者にとって重要 1つに絞る理由 検定の多重性の防⽌ 選択的な報告の防⽌ 主要アウトカムの反映先 研究⽬的 例数設計 Chan AW et al: BMJ. 2013 Jan 8;346:e7586. doi: 10.1136/bmj.e7586. 12

13.

うつ病治療の重要なアウトカムアウトカム定義 1. 症状の緩和重症度尺度の変化率50%以上の反応 1位 5位 2. 認知機能の改善集中，論理的思考，知的課題の遂⾏能⼒ 2位 4位 3. 社会的機能の改善学業/就業，社会的⽣活，娯楽，家庭⽣活への参加 3位 3位 4. 不安症状の消失恐怖，不安，緊張を感じる 4位 6位 5. 症状の寛解うつ病の基準を満たさない 5位 1位 6. 再発しない 6-12か⽉間，うつ病の基準を満たさない 6位 2位 Hummel MJ et al: Patient. 2012;5(4):225-37 患者の観点治療者の観点 13

14.

統合失調症治療の重要なアウトカムアウトカム患者の観点 1. 錯乱状態と集中困難の緩和 1位 2. 活動性と興味の向上 2位 3. 幻覚や妄想の症状の改善 3位 4. 就業などの⽣産的活動の向上 4位 5. 外出など社交的活動の改善 5位 6. 副作⽤の軽減 6位 Rosenheck R et al: Br J Psychiatry. 2005 Dec;187:529-36 14

15.

無作為化⽐較試験の要点の理解      RCTの3類型と研究疑問の定式化論⽂の構成量的変数の評価指標信頼区間と群間差の解釈質的変数の評価指標 18

16.

論⽂の全体像 表紙 (Title and Abstract) 序論 (Introduction) ⽅法 (Methods) 結果 (Results) 考察 (Discussion) その他 (Other information) Moher D et al: BMJ. 2010 Mar 23;340:c869. doi: 10.1136/bmj.c869 19

17.

論⽂の全体像重要度 ◎ 記載欄記載内容表紙標題 ◎ ○ 要旨序論 ◎ ○ ⽬的や仮説⽅法 (研究デザイン) × ○ 背景と研究実施の合理性研究デザイン研究開始後のデザインの変更⽅法 (調査対象) ○ 適格基準データ収集のセッティングと場所 ○ ⽅法 (介⼊) 介⼊ ◎ ⽅法 (アウトカム) 主要評価項⽬と副次評価項⽬ × ◎ × 研究開始後のアウトカムの変更⽅法 (標本サイズ) 標本サイズの設計法中間解析と試験中⽌の説明 Moher D et al: BMJ. 2010 Mar 23;340:c869. doi: 10.1136/bmj.c869 20

18.

論⽂の全体像重要度 ○ 記載欄記載内容⽅法 (割り付け) 乱数の⽣成法 ○ 無作為化法の種類 ○ 割り付けの隠蔽化法 ○ 割り付けの実施法 ○ ⽅法 (盲検化) ○ ◎ 介⼊間の盲検化の類似性⽅法 (統計解析) × ○ × 群間の⽐較法追加分析の⽅法結果 (流れ図) ○ × 盲検化の⽅法対象者数の推移⽋測や除外の理由結果 (組み⼊れ) 組み⼊れ期間試験中⽌の理由 Moher D et al: BMJ. 2010 Mar 23;340:c869. doi: 10.1136/bmj.c869 21

19.

論⽂の全体像重要度記載欄記載内容 ○ 結果 (基準時データ) 基準時の背景情報 ○ 結果 (解析対象) 解析対象者数 ◎ 結果 (アウトカム) 主要評価項⽬と副次評価項⽬の結果 ◎ 絶対リスクと相対リスク（質的変数） × 結果 (追加分析) 追加分析の結果 ○ 結果 (有害事象) 有害事象の結果 × 考察 (限界) 臨床試験の限界 × 考察 (⼀般化可能性) ⼀般化可能性の記述 ◎ 考察 (解釈) 研究結果の解釈 ○ その他 (登録番号) 臨床試験登録の番号 ○ その他 (計画書) 臨床試験の研究計画書 × その他 (資⾦源) 研究資⾦ Moher D et al: BMJ. 2010 Mar 23;340:c869. doi: 10.1136/bmj.c869 22

20.

3分間で情報抽出，3ステップ ①研究疑問の定式化 (PICO-T) 標題 要旨 (⽬的・⽅法) ⽅法 (アウトカム・標本サイズの設計・統計解析) ②研究結果の把握 図表 要旨 (結果) 結果 ③結論の⼀⽂と研究疑問との整合性の把握 要旨 (結論) 考察の最終段落 23

21.

標題から研究疑問の定式化  A Home-Based Intervention to Reduce Depressive Symptoms and Improve Quality of Life in Older African Americans: A Randomized Trial P I C O T : : : : : ⾼齢者のアフリカ系アメリカ⼈⾃宅における介⼊ ︖ うつ病の重症度と⽣活の質 (主要評価項⽬が2つ︖) ︖ Gitlin LN et al: Ann Intern Med. 2013 Aug 20;159(4):243-52 24

22.

要旨から患者-介⼊-⽐較対象の精緻化  Patients: African Americans aged 55 years or older with depressive symptoms.  Intervention: A multicomponent, home-based intervention delivered by social workers or a wait-list control group that received the intervention at 4 months. 旧新 P : ⾼齢者のアフリカ系アメリカ⼈ I : ⾃宅における介⼊ 55歳以上のうつ症状を有するアフリカ系アメリカ⼈ソーシャルワーカーによる⾃宅における複合的介⼊ C : ︖ 4か⽉間の治療待機群 Gitlin LN et al: Ann Intern Med. 2013 Aug 20;159(4):243-52 25

23.

要旨からアウトカム-時間の精緻化  Measurements: Self-reported depression severity at 4 months (primary outcome) and depression knowledge, quality of life, behavioral activation, anxiety, function, and remission at 4 and 8 months. 旧新 O : うつ病の重症度と⽣活の質 (主要評価項⽬が2 つ︖) ⾃⼰記⼊式のうつ病の重症度 T : ︖ 4か⽉時点 Gitlin LN et al: Ann Intern Med. 2013 Aug 20;159(4):243-52 26

24.

⽅法からアウトカムの精緻化 Outcomes and Follow-up  The primary outcome was severity of depressive symptoms assessed with the PHQ-9, a brief, psychometrically valid, 9-item self-report measure.  Higher scores indicated greater severity (Cronbach 0.769 for sample). O : 旧新⾃⼰記⼊式のうつ病の重症度⾃⼰記⼊式尺度PHQ-9のうつ病の重症度 Gitlin LN et al: Ann Intern Med. 2013 Aug 20;159(4):243-52 27

25.

⽅法からアウトカムの精緻化 Statistical Analysis  The primary treatment effect was the between group difference in change from baseline to 4 months, estimated using the ESTIMATE statement in SAS. O : 旧新⾃⼰記⼊式尺度PHQ-9 のうつ病の重症度⾃⼰記⼊式尺度PHQ-9のうつ病の重症度 (4か⽉時点と基準時の変化量の群間差) Gitlin LN et al: Ann Intern Med. 2013 Aug 20;159(4):243-52 28

26.

研究疑問のまとめ P I C O : : : : 55歳以上のうつ症状を有するアフリカ系アメリカ⼈ T : 4か⽉時点ソーシャルワーカーによる⾃宅における複合的介⼊ 4か⽉間の治療待機群⾃⼰記⼊式尺度PHQ-9のうつ病の重症度 (4か⽉時点と基準時の変化量の群間差) Gitlin LN et al: Ann Intern Med. 2013 Aug 20;159(4):243-52 29

27.

図表 and/or 要旨 and/or 結果から主要評価項⽬の群間差を把握治療群は6.9点改善 (4か⽉時点と基準時の変化量) 対照群は3.8点改善 (4か⽉時点と基準時の変化量) 変化量の群間差は有意に治療群が3.0点改善 Gitlin LN et al: Ann Intern Med. 2013 Aug 20;159(4):243-52 30

28.

考察の最後 and/or 要旨から結論の⼀⽂と研究疑問との整合性の把握結論ソーシャルワーカーによる⾃宅における介⼊は，⼤部分のアフリカ系アメリカ⼈において，うつ病の重症度を下げ，⽣活の質を改善できるだろう Conclusion: A home-based intervention delivered by social workers could reduce depressive symptoms and enhance quality of life in most older African Americans. 研究疑問の整合性 ✅ ⽣活の質は，主要評価項⽬ではない ✅ 主要評価項⽬は変化量の群間差なので，パーセンテージを暗⽰する「⼤部分」の表現は不思議 Gitlin LN et al: Ann Intern Med. 2013 Aug 20;159(4):243-52 31

29.

無作為化⽐較試験の要点の理解      RCTの3類型と研究疑問の定式化論⽂の構成量的変数の評価指標信頼区間と群間差の解釈質的変数の評価指標 33

30.

量的変数，個⼈レベルの評価指標 評価時の値 基準時と評価時の値の変化量 基準時と評価時の値の変化率 34

31.

個⼈レベルの評価指標の事例 ID 基準時評価時変化量変化率 x0 x1 x1  x0 x1  x0  100 x0 A 88 88 0 0.0 B 57 54 -3 -5.3 C 82 68 -14 -17.1 D 59 53 -6 -10.2 35

32.

調整した評価時の評価指標群 (実験群 vs 対照群) 評価時の評価指標の値基準時の評価指標の値など統計⼿法量的質的(2⽔準) ■共分散分析 analysis of covariance ■線形混合モデル linear mixed effects model ■ロジスティック回帰分析 logistic regression analysis ■⼀般化線形混合モデル generalized mixed effects model ■⼀般化推定⽅程式 generalized estimating equation 36

33.

アウトカム別，集団レベルの評価指標アウトカムの種類要素量的質的 (2⽔準) 群内の評価指標平均値標準偏差リスクオッズ群間差の評価指標平均値差リスク⽐標準化平均値差オッズ⽐リスク差必要治療症例数 (NNT) Higgins JPT, Green S: Cochrance handbook for systematic reviews of interventions. Wiley-Blackwell. 2008 Chan AW et al: BMJ. 2013 Jan 8;346:e7586. 37

34.

群内の評価指標の事例  12~18歳の慢性疲労症候群におけるインターネット⽀援型認知⾏動療法による慢性疲労への効果  アウトカム: 6か⽉時点の慢性疲労の質問紙 (Checklist Individual Strength-20) の重症度  介⼊と対照: 認知⾏動療法群 67名 vs. 通常診療群 64名アウトカムインターネット⽀援型認知⾏動療法疲労の重症度 (8~56点), 24.0 (13.4) 平均値 (標準偏差) 通常診療 42.3 (13.1) 注) 値が⼤きいほど重症度が重いことを意味する Nijhof SL et al: Lancet. 2012 Apr 14;379(9824):1412-8. 38

35.

群間の評価指標統計量計算式平均値差 (Mean Difference: MD) MD  実験群の平均値  対照群の平均値得点範囲尺度の得点可能範囲に依存解釈 <0: 実験群のアウトカムの平均値は，対照群よりMD低い =0: 両群で差がない >0: 実験群のアウトカムの平均値は，対照群よりMD⾼い 39

36.

群間の評価指標統計量計算式標準化平均値差 (Standardized Mean Difference: SMD) SMD  sd pool  3  実験群の平均値  対照群の平均値  1   4N  9  sd pool   2 2 n実験群  1sd実験群  n対照群  1sd 対照群 N 2 得点範囲ー∞〜0〜＋∞ 解釈① <0: 実験群の評価項⽬の平均値は，対照群よりSMD*sdpool低い =0: 両群で差がない >0: 実験群の評価項⽬の平均値は，対照群よりSMD*sdpool⾼い解釈② (慣例) =0.2: ⼩さな差 =0.5: 中程度の差 =0.8: ⼤きな差 40

37.

標準化平均値差の別称 Hedges’ g Cohen’s d Effect size 注) 研究者によって呼称 (＋式) に混乱がみられる。コクラン共同計画が採⽤する標準化平均値差の定義式は，Hedgesの不偏推定量である。 41

38.

計算と解釈の事例事例平均値差標準化平均値差計算 MD = 24.0－42.3 = －18.3 SMD = －18.3/13.3*1 = －1.4 sdpool = 13.3 解釈認知⾏動療法群の慢性疲労の重症度の平均値は，通常診療群より18.3点低い認知⾏動療法群の慢性疲労の重症度の平均値は，通常診療群より1.4標準偏差 (18.3=1.4*13.3) 低い 42

39.

平均値差と標準化平均値差の違い指標平均値差標準化平均値差尺度不変解釈可能性 × ○ ○ ×  推奨1．研究間で同⼀の尺度であれば平均値差  推奨2．研究間で異なる尺度であれば標準化平均値差 Higgins JPT, Green S: Cochrance handbook for systematic reviews of interventions. Wiley-Blackwell. 2008 43

40.

無作為化⽐較試験の要点の理解      RCTの3類型と研究疑問の定式化論⽂の構成量的変数の評価指標信頼区間と群間差の解釈質的変数の評価指標 45

41.

信頼区間の定義 定義 ⺟数が存在していると思われる区間 95%信頼区間 (95% Confidence Interval) ⺟集団から無作為抽出をして，⺟数に関する 95%信頼区間を求める研究を無限回⾏ったとしたら，その複数の信頼区間のうち95%は⺟数を含む範囲 信頼区間の幅 標本サイズが増えると幅が狭くなり精度が向上 46

42.

信頼区間のイメージ (N = 131) -10 -20 -30 平均値差 0 10 母集団における平均値差 = -18 0 20 40 60 80 100 繰り返し 47

43.

信頼区間のイメージ (N = 786) -10 -20 -30 平均値差 0 10 母集団における平均値差 = -18 0 20 40 60 80 100 繰り返し 48

44.

統計的有意差と臨床的有意差 統計的有意差 「群間の差がない」仮説を捨て，「群間の差がある」仮説を採択すること注1)「差の⽅向性や⼤きさ」は不明注2)「標本サイズが⼤きい」と必ず有意 臨床的有意差 害やコストを考慮した上で，有益と認識できるアウトカムの最⼩限の群間差であり，その差は臨床実践を変えることにつながり得ること Wells G et al: J Rheumatol. 2001 Feb;28(2):452-4. 49

45.

有意な結果の信頼区間の解釈統計的に有意な群間差 (p<.05) 信頼区間の下限値注＞臨床的有意差信頼区間の下限値注 ≦ 臨床的有意差結果は決定的に差が認められる結果は決定的ではなく追試が必要注) 評価項⽬の値が⼤きいほど実験的治療が対照的治療よりも優れている場合は信頼区間の下限値，逆の場合は信頼区間の上限値 Guyatt et al: Users’ guide to the medical literature (3rd ed). JAMAevidence. 2015. 50

46.

有意な結果の信頼区間の解釈「統計的に有意」と判断する限界値「臨床的に有意」と判断する限界値決定的に差が認められる結果は決定的ではなく追試が必要 C is better 0 E is better Guyatt et al: Users’ guide to the medical literature (3rd ed). JAMAevidence. 2015. 51

47.

有意でない結果の信頼区間の解釈統計的に有意でない群間差 (n.s.) 信頼区間の上限値＜臨床的有意差信頼区間の上限値 ≧ 臨床的有意差結果は決定的に差が認められない結果は決定的ではなく追試が必要注) 評価項⽬の値が⼤きいほど実験的治療が対照的治療よりも優れている場合は信頼区間の上限値，逆の場合は信頼区間の下限値 Guyatt et al: Users’ guide to the medical literature (3rd ed). JAMAevidence. 2015. 52

48.

有意でない結果の信頼区間の解釈「統計的に有意」と判断する限界値「臨床的に有意」と判断する限界値決定的に差が認められない結果は決定的ではなく追試が必要 C is better 0 E is better Guyatt et al: Users’ guide to the medical literature (3rd ed). JAMAevidence. 2015. 53

49.

臨床的有意差の決定の難しさ 群間の差の重要性は，「疾患」「利⽤できる治療法」「治療のリスクベネフィット⽐」など，広いコンテクストを基にしなければ，決定できない︕ » ...(前略) the determination of the importance of group differences, which can only be established in the broader context of the disease being treated, the currently available treatments, and the overall risk-benefit ratio of the treatment. Dworkin RH et al: J Pain. 2008 Feb;9(2):105-21. 54

50.

臨床的有意差の実例 (アウトカム依存性) アウトカム最⼩限の差中程度の差全死亡 1 0.95 重篤な症状や有害事象 1 0.90 0.9 0.80 重篤でない症状や有害事象注) 値はリスク⽐の信頼区間の上限値，値が⼩さいほど実験的治療が対照的治療よりも優れていることを意味する IQWIG: General Methods. 2015 (https://www.iqwig.de/en/methods/methods-paper.3020.html) 55

https://www.iqwig.de/en/methods/methods-paper.3020.html

51.

臨床的有意差の実例 (アウトカム・治療法依存性) 治療法アウトカム⽐率差臨床的意味の⼤きさアスピリン vs ⼼筋梗塞の発症通常診療の⼀環に 0.8% プラセボシクロスポリン臓器移植の拒絶反応 15.9% 画期的な打開策 (抗⽣物質) vs と認知通常診療⼼理療法 vs ⼼理・社会的状態ほどほど 32.3% 通常診療注) 値はリスク差の推定値，値が⼤きいほど実験的治療が対照的治療よりも優れていることを意味する Kraemer et al: Biolo Psychiatry 59: 990-996, 2006. Rosentahl et al: Contrasts and effect sizes in behavioral research. Cambridge, 2006. 56

52.

臨床的有意差の原則 ⽣命/⽣活への影響が⼤きいアウトカム ⼩さな差でも臨床的意味が⼤きい 安価/安全な治療法 ⼩さな差でも臨床的意味が⼤きい ⽣命/⽣活への影響が⼩さいアウトカム ⼤きな差でも臨床的意味が⼩さい ⾼価/危険な治療法 ⼤きな差でも臨床的意味が⼩さい Kraemer et al: Biolo Psychiatry 59: 990-996, 2006. Rosentahl et al: Contrasts and effect sizes in behavioral research. Cambridge, 2006. 57

53.

臨床的有意差の簡易的な調べ⽅ 例数設計における記述 臨床的有意差を定義していることがある 得点可能範囲の10%の値 0~60点の尺度➡6点の群間差 Guyatt et al: Users’ guide to the medical literature (3rd ed). JAMAevidence. 2015. 58

54.

群内の評価指標の事例  12~18歳の慢性疲労症候群におけるインターネット⽀援型認知⾏動療法による慢性疲労への効果  アウトカム: 6か⽉時点の慢性疲労の質問紙 (Checklist Individual Strength-20) の重症度  介⼊と対照: 認知⾏動療法群 67名 vs. 通常診療群 64名アウトカムインターネット⽀援型認知⾏動療法疲労の重症度 (8~56点), 24.0 (13.4) 平均値 (標準偏差) Nijhof SL et al: Lancet. 2012 Apr 14;379(9824):1412-8. 通常診療 42.3 (13.1) 59

55.

計算と解釈の事例事例平均値差 (95% 信頼区間) 計算－18.3(－22.9, －13.7) 解釈 ✅ 統計的に有意な群間差 (p<.05) ✅ 臨床的有意差は未記載のため，信頼区間の上限値13.7がもつ意味の解釈は困難 Nijhof SL et al: Lancet. 2012 Apr 14;379(9824):1412-8. 60

56.

無作為化⽐較試験の要点の理解      RCTの3類型と研究疑問の定式化論⽂の構成量的変数の評価指標信頼区間と群間差の解釈質的変数の評価指標 62

57.

アウトカム別，集団レベルの評価指標アウトカムの種類要素量的質的 (2⽔準) 群内の評価指標平均値標準偏差リスクオッズ群間差の評価指標平均値差リスク⽐標準化平均値差オッズ⽐リスク差必要治療症例数 (NNT) Higgins JPT, Green S: Cochrance handbook for systematic reviews of interventions. Wiley-Blackwell. 2008 Chan AW et al: BMJ. 2013 Jan 8;346:e7586. 63

58.

アウトカム，質的変数の事例  12~18歳の慢性疲労症候群におけるインターネット⽀援型認知⾏動療法による授業出席への効果  アウトカム: 6か⽉時点の過去12⽇間における授業の完全出席の有無 (⽋席率10％以下)  介⼊と対照: 認知⾏動療法群 67名 vs. 通常診療群 64名要素インターネット⽀援型認知⾏動療法通常診療あり授業の完全出席なし 50 (75%) 17 (25%) 10 (16%) 54 (84%) Nijhof SL et al: Lancet. 2012 Apr 14;379(9824):1412-8. 64

59.

群内の評価指標，リスクとオッズ統計量計算式リスク (risk) イベント発⽣数標本サイズオッズ (odds) イベント発⽣数イベント未発⽣数得点範囲 0〜1 0〜∞ 事例 50/67 = 0.75 50/17 = 2.94 解釈 100⼈中75名が授業完全出席授業の完全出席3名につき不完全出席1名 65

60.

群間の評価指標，リスク⽐統計量計算式リスク⽐ (Risk ratio/Relative risk: RR) 実験群のイベント発⽣率 RR  対照群のイベント発⽣率得点範囲 0〜1〜1/対照群のイベント発⽣率 (1=「群間差なし」) 解釈① <1: 実験群のイベント発⽣率は，対照群のRR =1: 両群で差がない >1: 実験群のイベント発⽣率は，対照群のRR倍解釈② 介⼊によりイベント発⽣率が100×(RR－1)%増加介⼊によりイベント発⽣率が100×(1－RR)%減少 66

61.

リスク⽐の計算と解釈例事例完全出席のリスク RR (50/67)/(10/64) = 0.75/0.16 (17/67)/(54/64) = 0.25/0.84 = 4.78 = 0.30 解釈① 授業の完全出席率は，認知⾏動療法群の⽅が，通常診療群よりも4.78倍⾼かった (0.16*4.78=0.75) 不完全出席のリスク授業の不完全出席率は，認知⾏動療法群は，通常診療群の 3/10であった (0.84*0.30=0.25) 解釈② 認知⾏動療法により，授業認知⾏動療法により，授業の完全出席率が378%増加不完全出席率が70%減少 (0.84－0.84*0.70=0.25) (0.16*3.78+0.16=0.75) 対称性 1/RR = 1/4.78 ≠ 0.30 1/RR = 1/0.30 ≠ 4.78 67

62.

群間の評価指標，オッズ⽐統計量計算式オッズ⽐ (Odds Ratio: OR) 実験群のオッズ OR  対照群のオッズ得点範囲 0〜1〜∞ (1=「群間差なし」) 解釈① <1: 実験群のイベント発⽣オッズは，対照群のOR =1: 両群で差がない >1: 実験群のイベント発⽣オッズは，対照群のOR倍解釈② 介⼊によりイベント発⽣オッズが100×(OR－1)%増加介⼊によりイベント発⽣オッズが100×(1－OR)%減少 68

63.

オッズ⽐の計算と解釈例事例完全出席のオッズ不完全出席のオッズ OR (50/17)/(10/54) = 2.94/0.19 = 15.88 (17/50)/(54/10) = 0.34/5.40 =0.06 解釈① 授業の完全出席のオッズは，授業の不完全出席のオッズは，認知⾏動療法群の⽅が，通認知⾏動療法群は，通常診療群の6/100であった常診療群よりも15.88倍⾼かった (0.19*15.88=2.94) (5.40*0.06=0.34) 解釈② 認知⾏動療法により，授業完全出席のオッズが1488% 増加 (0.19*14.88+0.19=2.94) 認知⾏動療法により，授業の不完全出席のオッズが94%減少 (5.54－5.54*0.94=0.34) 対称性 1/OR = 1/15.88 = 0.06 1/OR = 1/0.06 = 15.88 69

64.

群間の評価指標，リスク差統計量計算式リスク差 (Risk Difference: RD) RD  実験群のイベント発⽣率  対照群のイベント発⽣率得点範囲－1〜0〜＋1 (各群の発⽣率に依存) 解釈① <0: 実験群のリスクは，対照群よりRD*100%低い =0: 両群で差がない >0: 実験群のリスクは，対照群よりRD*100%⾼い解釈② 特定期間に1⼈多くイベント発⽣/発⽣防⽌することを期待するには，⽐較対照の介⼊よりも実験的介⼊によりNNT=[1／|RD|]⼈を治療する必要がある 70

65.

リスク差の計算と解釈例事例完全出席のリスク不完全出席のリスク RD (50/67)－(10/64) = 0.75－ 0.16 = 0.59 (17/67)－(54/64) = 0.25－0.84 = －0.59 解釈① 授業の完全出席率は，認知⾏動療法群の⽅が，通常診療群よりも59%⾼かった (0.59*100=59) 授業の不完全出席のオッズは，認知⾏動療法群は，通常診療群よりもの59%低かった (－0.59*100=－59) 解釈② 認知⾏動療法により1.7⼈治療して (1/|0.59|=1.7)，6か⽉後に1⼈多く完全出席させられる認知⾏動療法により1.7⼈治療して (1/|－0.59|=1.7)，6か⽉後に1⼈多く不完全出席を防⽌できる 71

66.

リスク⽐，オッズ⽐，リスク差の違い指標リスク⽐オッズ⽐リスク差数学的性質解釈可能性 × ○ ◎ × × ◎  推奨1．イベント定義に注意してリスク⽐/オッズ⽐  推奨2．評価指標により結論が変化しないか感度分析 Higgins JPT, Green S: Cochrance handbook for systematic reviews of interventions. Wiley-Blackwell. 2008 72

67.

批判的吟味の理解  バイアスへのリスクの評価  粉飾の評価 73

68.

バイアス (真実からの乖離) へのリスクバイアスの種類判断基準選択バイアス 乱数⽣成 割り付けの隠蔽化実⾏バイアス 患者と治療者の盲検化検出バイアス 評価者の盲検化⽋測バイアス アウトカム測定の完全性報告バイアス 事前設定したアウトカム報告 Chapter 8: Assessing risk of bias in included studies (http://www.cochrane.org/handbook) 74

http://www.cochrane.org/handbook

69.

選択バイアスによる過⼤評価，乱数⽣成の不備11%，割り付けの隠蔽化の不備7% 乱数生成 : 不十分 /不明 (832試験 ) vs. 十分 (112試験 ) 0.89 (0.82,0.96) 隠蔽化 : 不十分 /不明 (916試験 ) vs. 十分 (376試験 ) 0.93 (0.87,0.99) 0.8 0.9 1.0 1.1 1.2 Ratio of Odds Ratio Savović J et al: Ann Intern Med. 2012 Sep 18;157(6):429-38. 75

70.

バイアスへのリスクの評価法 Chapter 8: Assessing risk of bias in included studies (http://www.cochrane.org/handbook) 76

http://www.cochrane.org/handbook

71.

お⼿本はコクランレビュー Nieuwenhuijsen K et al: Cochrane Database Syst Rev. 2014 Dec 3;12:CD006237. 77

72.

乱数⽣成の評価基準例 ‘High risk’ of bias  介⼊の利⽤可能性により割り付け (allocated by availability of the intervention)  患者の好みにより割り付け (allocation by preference of the participants) ‘Low risk’ of bias  コンピュータによる乱数⽣成 (using a computer random number generator)  最⼩化法の使⽤ (using minimization methods) ‘Unclear risk’ of bias  無作為に割り付け (patients were randomly allocated) Chapter 8: Assessing risk of bias in included studies (http://www.cochrane.org/handbook) 78

http://www.cochrane.org/handbook

73.

乱数⽣成の評価事例研究評価判断根拠の記述 Hayward 2000[1] High ”Twelve subjects were recruited for each randomisation, with 6 subjects randomly assigned to the CBGT-C condition and 6 to an untreated condition. After 2 treatment groups were completed, a third set of 11 subjects were included in the untreated condition“ Simon 1998[2] Low “Patients were randomly assigned using computer generated random numbers.” [1] James AC et al: Cochrane Database Syst Rev. 2015 Feb 18;2:CD004690 [2] Nieuwenhuijsen K et al: Cochrane Database Syst Rev. 2014 Dec 3;12:CD006237. 79

74.

割り付けの隠蔽化の評価基準例 ‘High risk’ of bias  封印されていない封筒の利⽤ (assignment envelopes were used without appropriate safeguards)  公開された割り付け予定乱数の利⽤ (using an open random allocation schedule) ‘Low risk’ of bias  中央登録⽅式の利⽤ (using a method of central allocation)  不透明の封印された連続番号の封筒の利⽤ (using a method of sequentially numbered, opaque, sealed envelopes) ‘Unclear risk’ of bias  無作為に割り付け (patients were randomly allocated) Chapter 8: Assessing risk of bias in included studies (http://www.cochrane.org/handbook) 80

http://www.cochrane.org/handbook

75.

割り付けの隠蔽化の評価事例研究評価判断根拠の記述 Donnan 1990[1] High “Each patient received an envelope at the end of the consultation with their general practitioner, which at random contained either the self-help materials and a questionnaire or the questionnaire alone. The envelopes were similar but those containing the self-help material were heavier.” Hollinghurst 2010[2] Low “Randomization was by means of a computer-generated code, implemented by an individual who was not involved in the recruitment process, and communicated to the participant within 48 h of the baseline interview.” “The allocation was concealed in advance from participants, researchers involved in recruitment, and therapists.” [1] Mayo-Wilson E et al: Cochrane Database Syst Rev. 2013 Sep 9;9:CD005330. [2] Nieuwenhuijsen K et al: Cochrane Database Syst Rev. 2014 Dec 3;12:CD006237. 81

76.

治療者と患者の盲検化の評価基準例 ‘High risk’ of bias  治療者と患者の盲検化を試みたが，失敗している可能性がある (blinding of key study participants and personnel attempted, but likely that the blinding could have been broken) ‘Low risk’ of bias  治療者と患者の盲検化は確実である (blinding of participants and key study personnel ensured) ‘Unclear risk’ of bias  判断するための⼗分な記載がない Chapter 8: Assessing risk of bias in included studies (http://www.cochrane.org/handbook) 82

http://www.cochrane.org/handbook

77.

治療者と患者の盲検化の評価事例研究評価判断根拠の記述 Hees 2013 High “Due to the nature of the intervention, neither patients nor therapists could be blinded to the patient’s allocation status.” Both treatments cannot be considered equally desirable for patients, so risk of performance bias high Burnand 2002 Low No blinding but risk of performance bias low as both treatments can be considered equally desirable for patients “Both treatments involved the same clomipramine protocol and intensive nursing in a specialized milieu. In addition, the amount of structured psychodynamic psychotherapy provided during combined treatment was comparable to the amount of supportive care provided during treatment with clomipramine alone.” Nieuwenhuijsen K et al: Cochrane Database Syst Rev. 2014 Dec 3;12:CD006237. 83

78.

評価者の盲検化の評価基準例 ‘High risk’ of bias  評価者の盲検化を⾏っておらず，盲検化の有無が測定結果に影響する可能性がある (no blinding of outcome assessment, and the outcome measurement is likely to be influenced by lack of blinding) ‘Low risk’ of bias  評価者の盲検化を確かに⾏っている (blinding of outcome assessment ensured, and unlikely that the blinding could have been broken) ‘Unclear risk’ of bias  判断するための⼗分な記載がない Chapter 8: Assessing risk of bias in included studies (http://www.cochrane.org/handbook) 84

http://www.cochrane.org/handbook

79.

評価者の盲検化の評価事例研究評価判断根拠の記述 Burnand 2002 High “The individuals who rated the presence and severity of major depression and HSRS scores at ten weeks were not blinded to treatment assignment.” Hollinghurst 2010 High The BDI is a self-report inventory. As participants were aware of their intervention status, risk of bias high Hees 2013 Low “Study assessment were conducted by a psychiatrist and a researcher who where blind to group allocation.” As the HRSD is a clinician-rated instrument, there is a low risk of bias for the HRSD outcome Nieuwenhuijsen K et al: Cochrane Database Syst Rev. 2014 Dec 3;12:CD006237. 85

80.

アウトカム測定の完全性の評価基準例 ‘High risk’ of bias  ⽋測の理由が，真のアウトカムの値と関連する (reason for missing outcome data likely to be related to true outcome)  不適切な単⼀代⼊法を利⽤する (potentially inappropriate application of simple imputation) ‘Low risk’ of bias  アウトカム測定に⽋測がない (no missing outcome data) ‘Unclear risk’ of bias  判断するための⼗分な記載がない Chapter 8: Assessing risk of bias in included studies (http://www.cochrane.org/handbook) 86

http://www.cochrane.org/handbook

81.

アウトカム測定無作為化症例登録無作為化した⼈数 (N) 実験群対照群アウトカム測定の完全性の評価事例評価時の⽋測数 (n) 脱落割合 (n/N×100) ✅10%未満...low ✅ 10%~20%...⽋測値の処理法に依存 ✅ 20%超...high Nieuwenhuijsen K et al: Cochrane Database Syst Rev. 2014 Dec 3;12:CD006237. 87

82.

事前設定したアウトカム報告の評価基準例 ‘High risk’ of bias  ⼀つ以上の主要評価項⽬が事前に設定されていない (one or more reported primary outcomes were not pre-specified) ‘Low risk’ of bias  研究計画書が⼊⼿可能であり，すべての評価項⽬は事前設定と⼀致している (the study protocol is available and all of the pre-specified (primary and secondary) have been reported in the pre-specified way) ‘Unclear risk’ of bias  判断するための⼗分な記載がない Chapter 8: Assessing risk of bias in included studies (http://www.cochrane.org/handbook) 88

http://www.cochrane.org/handbook

83.

事前設定したアウトカム報告の評価事例研究評価判断根拠の記述 Noordik 2013 High Not all (secondary) outcomes measures announced in the design paper were reported in the effect study, of which the data on the HADS-depression subscale Hees 2013 Low The study protocol is available and all of the study’s prespeciﬁed (primary and secondary) outcomes that are of interest in the review have been reported in the prespeciﬁed way Nieuwenhuijsen K et al: Cochrane Database Syst Rev. 2014 Dec 3;12:CD006237. 89

84.

報告バイアスの発⽣パターン 事前設定した主要評価項⽬を削除 論⽂で主要評価項⽬を新設 主要評価項⽬から副次評価項⽬に格下げ 副次評価項⽬から主要評価項⽬に格上げ 主要評価項⽬の評価時点の変更 [1] Mathieu S et al: JAMA. 2009 Sep 2;302(9):977-84 [2] You B et al: J Clin Oncol. 2012 Jan 10;30(2):210-6 [3] Hannink G et al: Ann Surg. 2013 May;257(5):818-23 [4] Killeen S et al: Ann Surg. 2014 Jan;259(1):193-6 90

85.

臨床試験の事前登録義務 35. ⼈間を対象とするすべての研究は，最初の被験者を募集する前に⼀般的にアクセス可能なデータベースに登録されなければならない。⽇本医師会 (http://www.med.or.jp/wma/helsinki08_j.html#ja) 91

http://www.med.or.jp/wma/helsinki08_j.html#ja

86.

事前の研究概要をWeb公開 Black DS et al: JAMA Intern Med. 2015 Apr;175(4):494-501 92

87.

主要評価項⽬のズレの確認臨床試験登録論⽂ Black DS et al: JAMA Intern Med. 2015 Apr;175(4):494-501 93

88.

批判的吟味の理解  バイアスへのリスクの評価  粉飾の評価 95

89.

臨床試験の粉飾 (spin) 研究者は失敗した研究成果を盛って報告しがち奥村: Monthly IHEP 301: 23-28, 2014 (http://goo.gl/ywZ8a0) 96

http://goo.gl/ywZ8a0

90.

失敗した臨床試験，結論を粉飾，40~59% [1] Boutron I et al: JAMA. 2010 May 26;303(20):2058-64 [2] Yavchitz A et al: PLoS Med. 2012;9(9):e1001308 [3] Lockyer S et al: Trials. 2013 Nov 6;14:371 [4] Patel SV et al: Dis Colon Rectum. 2013 Dec;56(12):1388-94 97

91.

バラエティ豊かな粉飾法奥村: Monthly IHEP 301: 23-28, 2014 (http://goo.gl/ywZ8a0) 98

http://goo.gl/ywZ8a0

92.

粉飾事例，リサーチクエスチョン P : 地域住⺠ (地⽅部/都市部) I : 複合的⾃殺予防プログラム C : 通常の⾃殺予防対策 O : ⾃殺死亡者数と⾃傷搬送者数の合計 T : 治療開始3.5年 Ono Y et al: PLoS One. 2013 Oct 9;8(10):e74902 99

93.

主要評価項⽬，統計的有意性はない介⼊群が好ましい Ono Y et al: PLoS One. 2013 Oct 9;8(10):e74902 対照群が好ましい 100

94.

地⽅部の副次評価項⽬ (⾃傷搬送者数)，⼀部のサブグループに有意性介⼊群が好ましい Ono Y et al: PLoS One. 2013 Oct 9;8(10):e74902 対照群が好ましい 101

95.

要旨の結論部を粉飾 主要評価項⽬の粉飾 複合的⾃殺予防プログラムは，都市部ではなく地⽅部で実施できる。  Our findings suggest that this community-based multimodal intervention for suicide prevention could be implemented in rural areas, but not in highly populated areas. 副次評価項⽬ + サブグループの焦点化 地⽅部における介⼊の効果は，男性と⾼齢者で⽰された。  The effectiveness of the intervention was shown for males and for the elderly in rural areas. [1] Ono Y et al: PLoS One. 2013 Oct 9;8(10):e74902 [2] 奥村: Monthly IHEP 301: 23-28, 2014 102

96.

粉飾の評価の流れ優越性試験の確認 (論⽂の標題・要旨) ⾮劣性・同等性試験研究疑問の確認主要評価項⽬の確認 (臨床試験登録/研究計画書/論⽂) 真の主要評価項⽬の群間差の確認 (論⽂の結果) 有意な群間差結果と結論の整合性の確認整合性がある粉飾の種類の同定 (群内差/副次評価項⽬/サブグループ/⾮劣性・同等性) 103

97.

無作為化⽐較試験の検索と⼊⼿  検索  ⼊⼿ 105

98.

基本は，PubMed，MeSH検索 MeSH Databaseをクリック 106

99.

MeSH⽤語，randomized controlled trial randomized controlled trial と⼊⼒ Search をクリック 107

100.

6⽤語ヒット Randomized Controlled Trial [Publication Type] をクリック 108

101.

MeSH⽤語の定義 Add to search builder をクリック 109

102.

検索式の確認 “Randomized Controlled Trial“[Publication Type] 検索式が⽣成 110

103.

検索条件，「患者」と「介⼊」の追加 Patients...慢性疲労症候群 Intervention...⼼理療法注) 患者や介⼊の検索条件は，広めに設定 111

104.

MeSH⽤語，慢性疲労症候群 chronic fatigue syndrome と⼊⼒ Search をクリック 112

105.

MeSH⽤語の定義 Add to search builder をクリック 113

106.

検索式の確認 "Fatigue Syndrome, Chronic"[Mesh] 検索式が追加 114

107.

MeSH⽤語，⼼理療法 psychotherapy と⼊⼒ Search をクリック 115

108.

10⽤語ヒット Psychotherapy をクリック 116

109.

MeSH⽤語の定義 Add to search builder をクリック 117

110.

MeSH⽤語の定義 "Psychotherapy"[Mesh] 検索式が追加検索式がよければ Search PubMed をクリック 118

111.

60論⽂ヒット無料で読めるもの 119

112.

無作為化⽐較試験の検索と⼊⼿  検索  ⼊⼿ 120

113.

⽂献⼊⼿法 所属施設の図書館 購読雑誌 全⽂データベース施設 ⽂献複写依頼 Google検索 著者請求 国⽴国会図書館個⼈ 121

114.

上位5論⽂の書誌情報出版年雑誌名巻(号):⾴無料⼊⼿ 2014 BMC Fam Pract 5:184 ○ 2014 J Psychosom Res 77(1):20-6 ○ 2013 Trials 14:444 ○ 2013 Trials 14:386 ○ 2013 J Psychosom Res 75(3):249-54 × 122

115.

Google検索，”タイトル”+ filetype:pdf 123

116.

国⽴国会図書館 インターネットから郵送複写サービス 126

117.

おわりに 127

118.

エビデンスの質の評価基準研究法 R C エビンデンスの質 T → High Moderate R C T 以外 → Low Very low 降格基準バイアスへのリスク研究結果の不⼀致外挿広い信頼区間出版バイアス昇格基準⼤きな効果⽤量反応性交絡因⼦の調整 Guyatt G et al: J Clin Epidemiol. 2011 Apr;64(4):383-94. 128

119.

Take Home Messages  RCTの読解，臨床家に必須  研究疑問はPICO-Tに定式化  量的変数の評価，平均値差/標準化平均値差  質的変数の評価，リスク⽐/リスク差/オッズ⽐  RCTの質の評価，コクラン，バイアスへのリスク  粉飾に注意  PubMedで⽂献検索，⽂献⼊⼿は施設/個⼈ 129

120.

推薦図書  福原俊⼀: 臨床研究の道標: 7つのステップで学ぶ研究デザイン. 健康医療評価研究機構. 2013.  福原俊⼀: リサーチ・クエスチョンの作り⽅.健康医療評価研究機構. 2008  ⽊原雅⼦, ⽊原正博:医学的研究のデザイン研究の質を⾼める疫学的アプローチ第4版. メディカルサイエンスインターナショナル. 2014.  坂本真⼠, ⼤平英樹: ⼼理学論⽂道場: 基礎から始める英語論⽂執筆. 世界思想社. 2013 130

明⽇から読める無作為化⽐較試験: ⾏動療法研究に求められる統計学

奥村泰之

関連スライド

中級者による初心者のための「綿形混合モデル」

臨床疫学研究における傾向スコア分析の使い⽅〜観察研究における治療効果研究〜

「傾向スコア分析」の書き方

中級者による初心者のための「ロジスティック回帰分析」

中級者による初心者のための「探索的因子分析」

COSMINチェックリストの概要と共通項目の理解

各ページのテキスト

明⽇から読める無作為化⽐較試験: ⾏動療法研究に求められる統計学

奥村 泰之

関連スライド

中級者による初心者のための「綿形混合モデル」

臨床疫学研究における 傾向スコア分析の使い⽅ 〜観察研究における治療効果研究〜

「傾向スコア分析」の書き方

中級者による初心者のための「ロジスティック回帰分析」

中級者による初心者のための「探索的因子分析」

COSMINチェックリストの 概要と共通項目の理解

各ページのテキスト

奥村泰之

臨床疫学研究における傾向スコア分析の使い⽅〜観察研究における治療効果研究〜

COSMINチェックリストの概要と共通項目の理解