SASユーザー総会論文集 2004年

229 Views

April 21, 25

スライド概要

各種の効力比の統計を支える非線形最小2乗法 入門 高橋行雄
臨床試験における集計解析用SASプログラムの 標準化 ~「標準マクロ集」の作成 ~ 柳澤健太郎
サンプル数が少ない非臨床の経時データ解析 mixed プロシジャの評価 大石理佳
遺伝子発現データ解析における新たなクラスタリ ング手法 迎亮
ランダム化比較試験における治療開始後変数で定義されるサブグループ間での平均因果効果の 推定 森田智視
ダブルプログラミングによる解析用データセットの 作成 山本祐史
SASを用いた臨床試験に関する図表作成業務に おける標準化について 西川裕久
視覚的に満足できる用量反応試験のための必要症例数 落合俊充
統合解析用データセットの自動構築に向けて 角谷伸一
FDRコンセプトとFDR法についての考察 佐藤亜香里
層別割付け因子をさらに共変量とする解析の意 長谷川貴大
臨床試験データにおける統計モデルによる適切な推定のための対処法-JMPによるアプローチ- 澤田克彦
主要評価変数が2つある検証的臨床試験における症例数設計 寒水孝司
前臨床実験データの統計解析をいかに検証する のか,セッションのねらい 高橋行雄
前臨床実験データの統計解析をいかに検証する のか,適切な統計解析の普及活動 橋本敏夫
前臨床実験データの統計解析をいかに検証する のか,安全性試験での取り組み 半田淳
前臨床実験データの統計解析をいかに検証するのか,薬理試験におけるSAS前臨床パッケージの 活用 大月浩
前臨床実験データの統計解析をいかに検証するのか,前臨床試験における取り組みとEXSASの活 用 岡山佳弘
JMPの活用:薬理試験における取り組み 本田小吉
前臨床実験データの統計解析をいかに検証する のか,前臨床試験データ統計解析の信頼性保証 阿部いくみ
前臨床実験データの統計解析をいかに検証するのか,適切な統計手法の選択と統計解析結果の 信頼性 山本典子
前臨床実験データの統計解析をいかに検証するのか,前臨床試験におけるデータの正確性の確 保 佐藤耕一
SASV9のTPHREGを用いたメタアナリシス 浜田知久馬
分散分析による1自由度仮説の検定 隈本秀樹
多重マルコフ連鎖を用いた経時確率密度の推定 斎藤和宏
SAS/IMLによる最大対比法の数値積分プログラ ムとその傾向性検定への適用 西山智
SAS/STAT GLMプロシジャの平方和計算の基礎 柴山忠雄
SASによる欠測値の代入について-MIプロシジャ およびMIANALYZEプロシジャの使用例- 高田康行
SAS9:統計プロシジャの概要 泉水克之
Access VBAを用いたSAS IOMの利用 中村竜児
イベント時系列データを用いた延滞・移管債権管 理モデル 角谷督
年金基金の財政状態の経年変化(成熟度)に応じた資産ポートフォリオの検討 中井眞人
債権時価評価に関する実証的研究-会計的観点とファイナンス的観点での差異に焦点を当てて - 宮村幸夫
極値理論によるMonte Carlo試行回数の削減可能性と信用リスク量算出への応用 岸田則生
Enterprise Minerを使用したデータマイニング -信用リスク計測のために- 角野大朗
入れ子型ロジットモデルを用いた企業格付モデル構築法の提案及び提案モデルの妥当性に関する 検証 坂巻英一
SAS/EMを用いた組み合わせ分類変数の作成と 効用 小野潔
SASによる悪性新生物,心疾患,脳血管疾患とい わゆる難病を含む疾患群の平均在院日数の解析 楊学坤
言語能力テストにおける学習者の潜在的特性の 同定 安間一雄
セクハラ感のロジスティック回帰による検討 田久浩志
強磁場作業者の健康状況に関する研究 縣俊彦
購買行動に基づく潜在的な顧客セグメントの同定と時間軸上の推移分析~ POSデータの活用モデ ル ~ 櫻井尚子
クリニカルデータマネジメント作業における品質評 価方法の提案 矢田徹
並べ替え検定による群逐次解析の実施 堺伸也
マイクロアレイデータに対するクラスタ分析のバラツキの評価-Multiscale bootstrap法のSASマクロ の作成- 田中紀子
SASによる診断・検査データの統計解析 阿部研自
ガンマ生存モデルにおけるChange Point問題 秋山雄洋
新データウェアハウジング環境 SAS ETL Studioの紹介 前田幸一
省エネ行動と電力使用量 飯田孝久
SASシステムによる半導体製造工程におけるデー タ解析環境の構築 鈴木信雄
GREPLAYプロシジャによる1枚複数掲載図の作成 について 竹田眞

profile-image

SAS言語を中心として,解析業務担当者・プログラマなのコミュニティを活性化したいです

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

SASForumユーザー会 学術総会 2004 論文集 2004年 7月 29日(木) ~7 月 30 日(金〉

2.

SAS、SASを構成するプロダクト群は、 SASI n s t i t u t eI n c .の畳録商標です。 その他、本論文集に記載されている会社名、製品名は、一般にそれぞれ各社の商標または登録商 標です。 本論文集の一部または全部を無断転載することは、著作権法上の例外を除き、禁止されています。 本論文集の内容を実際に運用した結果の影響については、責任を負いかねます。

3.

目 次 1 │口頭論文発表 @医薬品開発(チュートリアル) 各種の効力比の統計を支える非線形最小 2乗法入門……‑ 高橋行雄(中外製薬株式会社〉 @医薬品開発 臨床試験における集計解析用 SAS プログラムの標準化……………...・ ・..………… 25 ‑r 標準マクロ集」の作成 H 柳j 華健末郎(株式会社 7 フ‑ b,) 常吉華奈 山本典子 サンプル数が少ない非臨床の経時データ解析………………………………...・ ・ ‑ … 3 3 m i x e d プロシジャの評価 H 大石理佳(旭化成フアーマ株式会社〉 遺伝子発現データ解析における新たなクラスタリング手法……...・ ・‑……………… 41 迎 亮 (NTTコムウ工ア株式会社〉 H 松本伸哉(日本 NCR株式会社〉 相崎健一(国立医薬呂食品衛生研究所〉 菅野純 ランダム化比較試験における治療開始後変数で定義される…………………………… 5 1 サブグループ聞での平均因果効果の推定 森田智視(京都大学〉 松山裕(東京大学〉 ダ フ 、J レプログラミングによる解析用データセットの作成…………...・ ・ ‑ … … . . . ・ ・ . . … 6 3 H H 山本祐史(興和株式会社〉 益田隆史 菅波秀規 SASを用いた臨床試験に関する図表作成業務における標準化について……………… 73 西川│裕久(株式会社シー工ーシー〉 視覚的に満足できる用量反応試験のための必要症例数…………………...・ ・‑…… 81 H 落合俊充(塩野義製薬株式会社〉 松村智恵子 渡辺秀章 田崎武信

4.

統合解析用データセットの自動構築に向けて…………………………………………… 9 1 角谷伸一(塩野義製薬株式会社〉 北西由武 長谷川貴大 平野勝也 田崎武信 FDRコンセプトと FDR法についての考察………………………...・ ・ . . . . . ・ ・‑……… 101 佐藤亜香里(塩野義製薬株式会社〉 角谷伸一 田崎武官 H H 層別割付け因子をさらに共変量とする解析の意義…………...・ ・..………………… 111 H 長谷川貴大(塩野義製薬株式会社〉 田崎武信 臨床試験データにおける統計モデルによる適切な推定のための対処法…………… 121 ‑ JMPによるアプローチー 津田克彦(大鵬薬品工業株式会社〉 福島彰 帆足浩一郎 主要評価変数が 2つある検証的臨床試験における症例数設計……………………… 131 塞水孝司(東京理科大学〉 叶健(日本化薬株式会社〉 @特別セッション「前臨床実験データの統計解析をいかに検証するのか」 セ ッ シ ョ ン の ね ら い ・ 一 一 ・ ・ ・ ・ … . . . . . . . . . . . . ー ・ ・ ・ ・ … ー … . . . . . . . . 一 一 . . . . . . . . . . . . . . 一 一 . . . . . . . . . . . . . 143 高橋行雄(中外製薬株式会社〉 適切な統計解析の普及活動……………...・ ・‑………...・ ・..……………………… 145 H H 橋本敏夫(三菱ウェルファーマ株式会社〉 安全性試験での取り組み………………… ・・‑……………………………………… 147 E E 半田淳(日本化薬株式会社〉 薬理試験における SAS前臨床パッケージの活用……………………………………… 149 大月浩(大正製薬株式会社〉 前臨床試験における取り組みと EXSAS の活用……………………………...・ ・ . . … 151 H 岡山佳弘(大鵬薬品工業株式会社〉 JMP の活用:薬理試験における取り組み...・ ・ . . . . . ・ ・・ ・ . . … . . . ・ ・‑……………… 153 本田小吉、吉池通晴(第 製薬株式会社〉 H H H H H 前臨床試験データ統計解析の信頼性保証………………………………...・ ・ ‑ … ・ 157 H 阿部いくみ(三菱ウ工ルファーマ株式会社〉 適切な統計手法の選択と統計解析結果の信頼性…………・ ・ ・‑………..・ ・‑…… 159 H H E 山本典子(株式会社アーム〉 前臨床試験におけるデータの正確性の確保...・ ・ . . . ・ ・..……………………………… 161 s 佐藤耕 H (株式会社タクミインフォメーションテクノロジー〉 1 1

5.

‑統計解析(チュートリアル) SASV9 の TPHREGを用いたメタアナリシス・ー 浜田知久馬(東京理科大学〉 中西豊吏 松岡 f 申罵 ‑統計解析 分散分析による 1自由度仮説の検定……・ 隈本秀樹(株式会社アグレックス〉 多重マルコフ連鎖を用いた経時確率密度の推定……………………………………… 205 斎藤和宏(株式会社タクミインフォメーションテクノロジー〉 SAS/IML による最大対比法の数値積分プログラムと… ・・ . . . . . . . ・ ・ . . . . . . ・ ・‑…… 213 H H H H ¥その傾向性検定への適用 西山智(武田薬品工業株式会社) SAS/STAT GLM プロシジャの平方和計算の基礎…………………………………… 227 柴山忠雄(前・名古屋市工業研究所) SASによる欠測値の代入について...・ ・‑………...・ ・‑……………………………… 235 a H 一 MIプロシジャおよび MIANALYZEプロシジャの使用例ー 高田康行 o 寺田製薬株式会社) 萩野篤司 矢島勉 SAS9:統計プロシジャの概要………………………………………………...・ ・‑…… 247 泉水克之 C SASInstituteJapan株式会社) H ‑システム AccessVBAを用いた SAS10Mの利用………...・ ・..………………...・ ・‑………… 259 中村竜司(株式会社インクリース研究所) H H @経営・経済 イベント時系列データを用いた延滞・移管債権管理モデル…………………………… 273 角谷昌(株式会社金融エンジニアリング・グループ) 栢本淳一 年金基金の財政状態の経年変化(成熟度)に応じた…………………………...・ ・ . . 283 資産ポートフオリオの検討 H 中井異人(株式会社金融エンジニアリング・グループ〉 債権時価評価に関する実証的研究………...・ ・ . . … … … . . . ・ ・ ‑ … … . . . ・ ・..……… 291 一会計的観点とファイナンス的観点での差異に焦点を当てて一 H 宮村幸夫(株式会社金融エンジニアリング・グループ) 1 1 1 H H

6.

極値理論による M o n t eC a r l o試行回数の削減可能性と….....・ ・ . . . . ・ ・‑…………… 3 0 1 信用リスク量算出への応用 H H 岸田則生(株式会社 CRCソリユーションズ〕 E n t e r p r i s eM i n e rを使用したデータマイニング……………...・ ・ . . . . . ・ ・..…………… 3 1 1 一信用リスク計測のために一 H H 角野大朗(株式会社タクミインフォメーションテクノロジー〕 斎藤和宏 入れ子型ロジットモデルを用いた企業格付モデル構築法の提案……...・ ・ . . . . . ・ ・ . .3 2 1 及び提案モデルの妥当性に関する検証 H H 坂巻英一(株式会社金融工学研究所/東京工業大学〕 SAS/EMを用いた組み合わせ分類変数の作成と効用…………………………...・ ・ . .3 3 3 H 小野潔(株式会社 UFJ銀行〕 @調査・マーケティング SASによる悪性新生物、心疾患、脳血管疾患と…...・ ・ . . . . . ・ ・ . . . . . ・ ・‑…………… 3 4 3 H H H いわゆる難病を含む疾患群の平均在院回数の解析 楊学1 申(Il[買天堂大学〕 今井喜正(Il[買天堂大学/東京臨海病院〕 言語能力テストにおける学習者の潜在的特性の同定……………...・ ・ ・ ・‑……… 3 5 5 H H H 安閏一雄(玉川大学〕 セクハラ感のロジスティック回帰による検討...・ ・ . . … … . . . ・ ・ ‑ … … . . . ・ ・‑………… 3 6 3 H H H 田久浩志(中部学院大学〕 吉本晋(徳山大学〕 強磁場作業者の健康状況に関する研究…...・ ・ . . … . . . ・ ・ ・ ・..…………………… 3 6 7 H H H H 鯨俊彦(東京慈恵会医科大学〕 宮越雄一 鈴木勇司 清水英佑 成瀬昭二(京都府立医科大学〕 中村義之(東京工業大学〕 購買行動に基づく潜在的な顧客セグメントの同定と時間軸上の推移分析…………… 377 , . POSデータの活用モデル 樫井尚子(東京情報大学〉 渡辺美智子(東洋大学〕 山口和範(立教大学〕 @品質・生産管理 クリニカルデータマネジメント作業における品質評価方法の提案...・ ・ ・ ・ . . . . . ・ ・ . . 385 H 矢田徹(イーピーエス株式会社〕 lV H H H

7.

(ポスターセッション @医薬品開発 並べ替え検定による群逐次解析の実施……………………………………………… 3 9 7 堺伺也(イービー工ス株式会社〉 菅波秀規(東京理科大学/興和株式会社〉 マイクロアレイデータに対するクラスタ分析のバラツキの評価…………………...・ ・ . .4 0 3 ‑M u l t i s c a l eb o o t s t r a p法の SASマクロの作成一 H 田中紀子(東京大学〉 下平英考(東京工業大学〉 @統計解析 SAS による診断・検査データの統計解析……………………………………………… 4 1 7 阿部研自(第一製薬株式会社〉 佐伯浩之(株式会社第 ラジオアイソトーブ研究所〉 ガンマ生存モデルにおける C h a n g eP o i n t問題………………………………………… 4 2 7 1 火山雄洋 C Jf,レクセル・インターナショナル株式会社〉 緑川│修 (東京理科大学〉 富岡悦良 山本和信(グラクソ・スミスクライン株式会社〉 @システム 新データウェアハウジンゲ環境‑ SAS ETLS t u d i oの紹介………………………… 4 3 5 前田幸一 C SASI n s t i t u t eJapan株式会社〉 @調査・マーケティング 省エネ行動と電力使用量……………...・ ・..………………………………………… 4 4 7 H 飯田孝久(慶麿義塾大学〉 @品質・生産管理 SASシステムによる半導体製造工程におけるデータ解析環境の構築………………… 4 5 7 鈴木信雄(日本テキサス・インスツルメンツ株式会社〉 4 砂グPラフィック GREPLAYプロシジャによる 1枚複数掲載図の作成について……………...・ ・・ ・ . .4 6 5 H 竹田量(株式会社 ACRONE T) V H H

8.

口頭論文発表 医薬品開発 (チュートリアル)

9.

各種の効力比の統計を支える非線形最小 2乗法入門 高橋行雄 中外製薬株式会社臨床解析部 AnI n t r o d u c t i o nt oN o n l i n e a rRegressionf o rVariousE s t i m a t i o n sw i t hPotencyR a t i o ‑Estimationo fPotencyR a t i oandi t s95%ConfidenceL i m i t s一 YukioTakahashi C l i n i c a lDataA n a l y s i sD e p t ./ChugaiPharmaceuticalC o .,L t d . 要旨 生物検定法は,被験物質の生物に対する用量反応関係から,その物質が引き起 こす反応の大よその用量あるいは濃度を推定したり,直線あるいはシグモイド曲線状の 用量反応関係から,被験物質の標準物質に対する,相対的な強さを 効力比"として求 めるための統計手法の総称である. SAS は , 多 く の 統 計 手 法 を 網 羅 的 に カ バ ー し て い るのであるが,生物検定法に特化したプロシ、ジャは, PROBlTプロシジャただ一つであ る.しかしながら,ダミー変数を用いた非線形最小 2乗法, NLINプロシジャによって 生物検定法の全ての問題が簡単に解けることを見出した.そこで,非線形最小 2乗法の 基 本 的 な 使 い 方 を 線 形 最 小 2乗法と対比し,生物検定法への応用方法を概説する. キーワード:生物検定法, D50,逆推定,効力比, SAS 別 LIN, 非 線 形 最 小 2乗 法 1 . はじめに さまざまな薬効評価の問題に対して,多くの統計手法が開発されてきた. SAS は,それらの新 しい統計手法のほとんどをカバーしているのであるが,平行線検定法に代表される生物検定法の については提供されていない.唯一, 2値のシグモイド型の用量反応に対して,反応が 50%とな るような用量を逆推定する PROBITプロシジャが古くから提供されているのみである. 平行線検定法は,反応が量的で,用量反応関係が直線的とみなせる場合に,複数の薬物聞の効 力比とその 95%信頼区聞を求める手法として古くから知られている.しかしながら, SASの REG プ口、ンジャ, GLMプロシジャなど、の線形最小 2乗法をベースとするプロシジャでは,逆推定がサ ポートされていないので,各薬剤の逆推定値の比として定義される効力比も直接計算できない. SASは,ユーザの声 ( b al !o t ) の結果を反映してきているので,生物検定法に関連する統計手法 の拡充はユーザの声としてあがってこなかった結果でもある.現代的な統計手法の多くは,臨床 研究に関連して発達してきた.臨床研究では,一般的に用量を固定して標準薬 S と試験薬 Tの反 応の平均的な差を統計的に検出しようとしている.これに対して,薬理試験などの前臨床研究の ‑ 3‑

10.

多くは,標準薬 Sと試験薬 Tの幾つかの用量で実験をし,それらの用量反応関係から実験結果を 要約・考察するのが常である.しかしながら,平行隷検定法などの統計手法が S ASを始めとして, 他の多くの統計ソフトでもサポートされていないことから,手軽に計算できる 平均値の差"の 検定が手当たりしだい使われ,統計手法の乱用・誤用が起きている. 生物検定法の多くの問題は, S ASで古くから提供されている非線形最小 2乗法のための NL 別 プ口、ンジャでダミー変数の使い方を工夫することにより全て解決できることを見出し,これまで 啓蒙活動を S ASユーザ会でも行なってきた.今回は,多くの試験統計家にとってなじみが薄いと 思われる非線形最小 2乗法の基本的な使い方を線形最小 2乗法と対比して概説し,さまざまな生 物検定法に対する N LINプロシジャの使い方を示す. 全体の構成であるが,まず,標準薬と試験薬の用量反応関係が直線であるような薬理実験デー タの結果を,生物検定法によらず要約する方法を示し,効力比による要約と対比する.次に, NL 別 プロ、ンジャによる単回帰分析の使い方を, REGプ口、ン、ジャと対比しつつ示す. REGプロ、ンジャで 計算される分散共分散を用いることで,反応が y。となるような逆推定された用量 x。の逆推定の 信頼区間をデ ルタ法を用いた計算方法を示し, NL 別プ口、ンジャでは,デルタ法による再計算なし に信頼区聞が直接推定できることを対比して示す. 薬効評価 1Jにあ 応用例として, 日本における生物検定法の草分けである佐久間昭 (1977), I る各種の生物検定法,直接法,平行線形定法,対称計画,変則的な平行線形定法,勾配比検定法, 変則的な勾配比検定法,プロピット法における D50の推定,計数値での効力比,ロジスティック 模型,などの事例に対するダミー変数の構成方法と NL 別プロシジャによる計算方法を示す. 2 . 要約統計量としての効力比の考えかた アンジオテンシン Iをラットの大腿静脈に注入すると,血圧上昇が起きる.降圧薬は,これを H u b e r tら 阻害し血圧を下げる. したがって,血圧上昇が少ないほど降圧効果があると判断する ( ( 1 9 8 8 ) のラットに対する降圧薬のデータ). 図 lに , S薬と T薬に平行線をあてはめた結果を示す. , , ; ¥ ' i i ",. 'せ乞 d l昭 S γ 重手伝汁》 表 l アンジオテンシン I注入後の血圧上昇 プ、ータ (mmHg) dose(m俳 g ) 1 0 30 1 0 0 300 ?(主 d ぎF 〆 ケf p f b tr ・, tづ J J 【 邑 匹 : : J 、 ), l ず イ T内 〆I ' . ' ! . f ノ ' t ? 年 イ ? ー 3 1 0 30 1 0 0 48 50 26 20 44 35 2 3 1 0 6 49 37 20 1 4 48 39 32 1 9 5 52 36 25 1 2 48 42 3 3 1 9 20 5 3 39 26 1 6 56 52 48 27 1 7 34 34 27 1 5 47 4 1 3 3 2 1 1 5 50 36 24 I I 56 44 28 1 6 9 58 4 1 28 1 8 48 40 25 1 6 46 30 22 1 4 56 40 23 1 3 2 . 1 差の検定による対応 この実験データに対して S薬と T薬の血圧上昇を統計的に検討したい. どのような統計解析を 行なったらよいのであろうか. 2群聞の差の f検定を適用してみよう.その場合には, S薬と T薬 A斗 A

11.

6 0 図 l 直線的な用量反応 × 5 0 30mmHgの血圧上昇を抑制する標準薬 S:0印の 受 ¥ 苫40 用量は 6 6. 4mg / k g,試験薬 T:Xの用量は 1 1 . 0 m g ! k g, E . 0 3倍である 従って,効力比は 6 530 非線形最小 2乗 法を用いると効力比,および,その 95%信頼区間 〉 、 20 を直接求めることができる. け x 話 1 → 。τTTr 71 2 4 61 0 20 S薬 : 九 =6 9 . 2 7‑21 .5 5l o g lO(dose) 「ム汁r‑r一「寸寸? 5 0 1 0 0 T薬 : 九 =5 2. 45‑2 1 . 5 5l o g1 O ( d o s e ) 3 0 0 d o s e( m g / k g ) の同じ用量での 3回の検定の繰り返しになる. TTESTプロシジャの代わりに MIXEDプロシジャ で I検定を行ない, I s m e a n sステートメントの d i汀オプションを用い, o d sで SASデータセット o u t I に結果を出力する. O utput1に示すように 3用量での S薬と T薬 の 差 の I値 は 4.4以上であり, 有意な差 ( pくO .0 0 1 ) がある. Program1 <<SASデ ー タ セ ッ ト の 作 成 . 平 均 値 の 差 の 検 定 > > T i t l e' H u b e r t 1 . s a s d a t a d 0 1 o s e@@ i n p u td r u g$d x= I o g 10( d o s e ) d o i=1t o1 0 i n p u ty@@ o u t p u t 巴n d d a t aI i n e s S 1 0 4 8 4 9 5 2 5 3 3 4 5 0 5 8 4 8 4 6 5 6 S 3 0 5 0 3 7 3 6 3 9 3 4 3 6 4 1 4 0 3 0 4 0 S 1 0 0 2 6 2 0 2 5 2 6 2 7 2 4 2 8 2 5 2 2 2 3 S 3 0 0 2 0 1 4 1 2 1 6 1 5 1 1 1 8 1 6 1 4 1 3 T 4 4 4 8 4 8 5 6 4 7 5 6 T 33 5 3 9 4 2 5 2 4 1 4 4 T 1 0 2 3 3 2 3 3 4 8 3 3 2 8 T 3 0 1 0 1 9 1 9 2 7 2 1 1 6 T 1 0 0 6 5 2 0 1 7 1 5 9 p r o cs o r t d a t a = d O l b yd o s e O ln o s e p s p r o ct a b u l a t ed a t aニd c l a s s d r u g d o s e v a r y t a b l e d o s e = ' d r u g = ' * y = '' * ( n * f = 8 .m e a n * f = 8 . 1s t d * f = 8 . 1 ) /r t s = 8 : p r o cm i x e dd a t a = d O l c l a s s d r u g m o d e l y二 d r u g I s m e a n sd r u g/d i f f b y d o s e o d s o u t p u t d i f f s=o u t l p r o cp r i n td a t a = o u t l r u n Output1 一 ハHV 守 ''aAマ pnu 内 ノ ﹄ ・ 一 ‑rhdFhunxuFhdFhu‑ JHu‑‑ +L‑‑ po‑‑ I‑nu‑‑ ll+Ill11111111l 一 一 一口 U 内正口 U一 ﹃ ︐ n川一 n叫ν nノム内ノ﹄一nxu一 nノ ム 一 一 a ‑ A斗 A 守 内J 1IT‑‑‑ hUFhUFhUFhUFhu‑‑ TIEpu‑‑ um‑‑ 一戸 FhUFhunノιnJι‑ ‑ ‑ F h U 内︽υ 凋仏︐寸1'‑ ll+Ill111SIlli‑‑一 一 M川 川 一 ‑ 一 11111?111111111Illa‑ inu‑‑ + L 一‑ k u ‑ ‑凋仏︐一‑ n叫︾一n a A守一 pa‑‑ 円川一 ll+1111111111114 一 一 叫︾一 ‑ ‑ a Aマ‑内︽υ 一aphun pa a一 e‑A ‑︐百J 百tzi‑ H m一 一 lll+1111111111Illi‑‑ 一 ‑‑nunununu‑ ‑tltlt14t‑ UN‑‑ liai‑‑+111111EllIllit‑‑‑ ‑一一円 U 瓦U 一 一円 UXU瓦U 瓦U‑ ‑41E 内︽υ41E 一川︽υ4 一 1 E 一川︽υ 一 EU

12.
[beta]
O
B
S d
o
s
e E
f
f
e
c
t d
r
u
g ̲
d
r
u
g E
s
t
i
m
a
t
e
1
1
0 d
r
u
g S
T
1
6
.
5
6
6
7
2
3
0 d
r
u
g S
T 19.6333
3 1
0
0 d
r
u
g S
T
1
2
.
6
0
0
0

S
t
d
E
r
r
3
.7
5
7
5
2
.7
8
5
8
2
.
1
5
7
6

D
F t
V
a
l
u
e P
r
o
b
t
1
4
4
.
4
1 0
.
0
0
0
6
1
4
7
.
0
5 く.
0
0
0
1
1
4
5
.
8
4 く.
0
0
0
1

2
.
2 検定の多重性の回避. 2元配置分散分析の適用
3回の t検定の多重性を回避したい.そのために 2元配置分散分析で 3用量を統計的にプールし

drug聞の差の検定を行なう. MIXEDプロ、ンジャの I
s
m
e
a
n
sステートメントの d
i
f
fオプショで得ら
れた結果から, T薬は S薬に比べて血圧の上昇が平均的に 16.3mmHg上昇し , t= 9
.
3
9と各用量で
の検定に比べて t値が大きくなっている.

Program2 <<2元配置分散分析>>
d
a
t
ad
0
1
b
s
e
td
0
1
i
fd
o
s
eく=
3o
rd
o
s
e
=
3
0
0t
h
e
nd
e
l
e
t
e
p
r
o
cm
i
x
e
d d
a
t
a
=
d
0
1
b
c
l
a
s
s d
r
u
g d
o
s
e m
o
d
e
l yニ d
r
u
g d
o
s
e
I
s
m
e
a
n
sd
r
u
g/d
i
f
f
r
u
n
Output2
D
i
f
f
e
r
e
n
c
e
so
fL
e
a
s
tS
q
u
a
r
e
sM
e
a
n
s
S
t
a
n
d
a
r
d
f
f
e
c
t d
r
u
g ̲
d
r
u
g E
s
t
i
m
a
t
e
E
r
r
o
r
D
F tV
a
l
u
e P
r >[
t
[
r
u
g
S
T
1
6
.
2
6
6
7
1
.
7
3
2
8
4
4
9
.
3
9
く.
0
0
0
1
2
.
3 効力比の考えかた

s薬と T薬の血圧上昇抑制について用量反応直線を示したが,投与量の範囲を広げた
場合には,直線的な用量反応関係ではなく,シグモイド曲線になるであろう.これは, s薬ある
図 lで
,

いは T薬の用量を下げたときに,アンジオテンシン I注入による血圧の上昇には上限があるだろ
うし,逆に S薬あるいは T薬の用量を上げたときに血圧の上昇抑制の平均値は o
mmHgに近づく
であろう.また,

s薬と T薬が同様の作用機序であるならば,用量反応曲線の形状は, X軸方向に

対して左右にシフトするだけで,曲率は同じと期待してよいであろう.
アンジオテンシン Iを注入したときの血圧上昇の平均値が 6
0mmHgであったとしよう. s
薬と
T薬にシグモイド状となるロジスティック曲線をあてはめてみよう.図 2に結果を示す.投与量
の幅を広げたときにシグモイド曲線が本来の薬理作用を現すとした場合には, T薬がどのくらい S

6
02 ロジスティック曲線のあてはめ

5
0

S薬:=6
0
/(
1+e
x
p
(1
.6
6
9
7
(1
.8
1
9
5‑x
)
)
)T:

0
'
h
D4

九 =6
0
/
(
1+e
x
p
(‑
1
.
6
6
9
7(
1.
0
5
0
7‑x))) となるロジス

Z

ティック曲線のあてはめ.最大の反応、の半分, 30mmHg

E30

上昇に抑制する標準薬 S:0印の用量は,常用対数で

>
.

2
0

1
.8
1
9
5,試験薬 T:Xの用量は1.0
5
0
7である.元の用

1
0

>
<~_ ",量では,それぞれ, 6
6
.
0
mg
!
k
g
.1
1
.
2
mg
!k
gとなる.従つ
。「下

‑
1

‑
‑
‑
‑
‑
‑
‑
‑
̲.
下
‑
‑
‑
:

i‑J 4 て,効力比は 65.0/11
.2
=
5
.
8
9倍である

I

0
x

‑6

13.
[beta]
薬に対して左右に振れるかで薬効を要約することが合理的である .X軸が,対数日盛りであれば,
S薬と T薬の X軸が方向の差は対数用量に関わらず一定であり,元の用量に換算すれば比となる.

これが,効力比といわれているものである.

2.
4 簡便法としての平行線検定法
シグモイド曲線があてはめられる反応の場合,最大反応の半分あたりでの用量反応関係は,ほ
ぽ直線的とみなせる.そこで,線形最小 2乗法により,切片は異なるが,傾きは同じ直線をあて
はめ,最大反応の半分程度の反応となるような S薬と T薬の用量を逆推定し,効力比を計算する
ことができる.この方法が生物検定法の代表的な方法

平行線検定法"として定式化されている.

Y
o α)
1β として計算できる. S薬と T
回帰式を y =α+βx としたときに y。となる xは, Xo=(
薬のそれぞれの回帰直線を y=円 +β X, y=αT+βxとすれば

(
Y
o一円 )
1β , XT=(
Y
o
‑αT)Iβであるので,その差は,

Xs=

きる.厄介なのは,

y。
, となる対数用量 xは,それぞれ

Xs‑X
)
Iβ
T=(αs+αT

として計算で

Xs‑XTの信頼区間の計算である.それは,推定式が,パラメータに関して除

算が入っているために線形ではなく,一般的な分散の合成式,
Var(xS‑xT)=Var(αs)+Var(αT)+Var(β)‑2Cov(αs'αT)‑2
C
o
v
(
αs
,
s)+2Cov(αT'β)

が使えない.そのため, SASの GLMプロシジャあるいは MIXEDプロシジャでの e
s
t
i
m
a
t
eステー
トメントでは , g=( αs+αT)Iβ のような,パラメータに関して非線形となる推定式はサポートさ
れていない.
一般的に,合成されたパラメータの近似的な分散は,テイラ一級数展開法,デルタ法ともいわ
れている方法によって求めることができる.デルタ法による計算は,線形最小 2乗法の分散共分
散 行 列 , お よ び , パ ラ メ ー タ に 関 す る 次 の 偏 微 分 。I
g
l
8αs=一1
/β , 8g18αT=1
/β ,
8g18
β=(αs αT)Iβ2の結果を用いて別途計算する必要がある.

e叫
+LnL
一
司 unhuAu
nut‑‑‑aAマハ︽UFhd
eo=JtlFhu

J門

一

41a一ρhvハ︽unJι

ぷ
l n u nonunu
ぷ
l‑‑
..
﹁
E7ln44l

F

唱t f l

﹁│一4 4 1

U
一
ρν 一
V
A 一
↑・一

X‑qJ

0 0 一4UマハJ ζ u
p+lnU 一
nBn
口 nD

VEr‑‑Ill111lll
+L

ρuNEO

︒G

M
m

L
キ

FUHu
nHVE

v
v

︒G

aJupaTi
v
‑

P+lVEVE
﹁ト﹂ tu
刊 tU
刊 VA

﹄内

e
P+lHUHU

円円

w
‑‑? J
O

ハ
Lvnu
υ
n
作邑作邑

<<デルタ法による効力比の 95%信 頼 区 間 > >

Program3

C
o
l
3

‑
1
.8
5
1
2
‑
1
.
0
5
5
0
1
.
0
6
4
8

d
a
t
ad
0
3
d
f=
6
7
:
.
8
3
4
3
: c
1
3
=
‑
1
.
8
5
1
2
: c
2
2
=
2
.
0
1
3
6
: c
2
3
=
‑
1
.
0
5
5
0
: c
3
3
=
1
.
0
6
4
8
:
c
1
1
=
3
.
9
4
4
6
: c
1
2ニ1
ニー2
1
.
5
5
1
6
:
a
s=
6
9
.
2
6
8
8
: a
t
=
5
2
.
4
5
4
4
: b
r=
(
‑
a
s
+
a
t
)
/
b
:r
a
t
i
o
=
1
0
*
*
r
:
d
1=
‑
l
/
b
: d
2
=
1
/
b
:d
3
=
(
a
s
‑
a
t
)
/
b
*
*
2
:
v =c
1
1
*
d
1
*
*
2 +c
2
2
*
d
2
*
*
2 +c
3
3
*
d
3
*
*
2+2
*
c
1
2
*
d
1
*
d
2+
2
*
c
1
3
*
d
1
*
d
3+
2
*
c
2
3
*
d
2
*
d
3
;
i
n
v
(
O
.9
7
5,d
f
)
;
s
e= s
q
r
t
(
v
)
;t
0
5ニt
L
9
5
=
r
‑
t
0
5
*
s
q
r
t
(
v
)
; r
̲
L
9
5
=
1
0
*
*
L
9
5
; U
9
5
=
r
+
t
0
5
*
s
q
r
t
(
v
)
; r
̲
U
9
5
=
1
0
*
*
U
9
5
;
p
r
o
cp
r
i
n
td
a
t
a
=
d
0
3
v
a
r rL
9
5U
9
5r
a
t
i
o rL
9
5 rU
9
5
r
u
n
;

Output3

O
B
S

r

1

0
.
7
8
0
1
9

L
9
5
o
.6
5
9
6
0

U
9
5
0
.
9
0
0
7
8

r
a
t
i
o
6
.
0
2
8
2
7

‑7

rL
9
5
4
.5
6
6
6
9

rU
9
5
7
.
9
5
7
6
3

14.

デルタ法による計算は, Program3に示すように線形最小 2乗法の分散共分散行列の出力結果を 用いて d a t aステップで再計算する必要がある. 2薬剤聞の場合に限定すれば,マクロ化などの方 法によって定型化することは可能であるが, 3薬剤以上の場合などに拡張するのは厄介である.こ のような方法をよらず,求めたい効力比を直接推定できるように線形回帰式を非線形回帰式に変 形し,非線形最小 2乗法, NLINプロシジャを用いれば,対数用量の差とその信頼区間を直接と求 めることができる.この考え方に基づく応用事例については,次節以後に示すので,ここでは, 結果のみを示す. O l l t p l l t4のパラメータ b 2 d i f fが,対数用量の差 0 . 7 8 0 2であり, 95%信頼区間は ( 0 . 6 5 9 6,0 . 9 0 0 8 ) と推定され,デルタ法での計算結果と一致する. lNプロシジャによる効力比の直接推定>> Program4 < < NL d a t ad 0 2 s e td 0 1 d r u g = ' S ' ) z 2= Wrug= ' T ' ) z O=1 z lニ ( p r o cn li nd a t a = d 0 2 p a r m s b 1‑ 2 1 b2T1 .0 b 2 di f f0 . 5 m o d e l y 二 一 b1*(( b 2 T+ b 2 di fhz1)‑x)+ 3 0 r u n, Output4 P a r a m e t e r b 1 b 2 T b 2 d i f f E s t i m a t e 21 .5 5 1 6 1 .0 4 1 9 O .7 8 0 2 A p p r o x S t dE r r o r 1 .0 3 1 9 0 . 0 4 5 7 0 . 0 6 0 4 o n f i d e n c e A p p r o x i m a t e9 5目 C L i m i t s 2 3 . 6 1 1 3 ‑ 1 9 . 4 9 2 0 0 . 9 5 0 6 1 . 1 3 3 2 0 . 6 5 9 6 0 . 9 0 0 8 3 . NL lNプロシジャ入門 3 . 1 単回帰分析 NLIN プロシジャに慣れるために, REG プロシジャによる単回帰分析の使い方と対比してみよ う.表 lの S薬について回帰分析を考えてみよう.対数用量 X=l o g lO ( d o s e )について線形回帰式 o+βIX とする .REGプロシジャでは, mod巴lステートメントで, model y=x; のよう を y=s Program5 < <回帰分析を REGと NL lNで > > T i t l e' H u b e r t 2 .s a s 2 0 0 4 ‑ 5 ‑ 1 4 Y .T a k a h a s h i d a t a d 0 1 i n p u td r u g$d o s e@@ x= l o g 1 0 ( d o s e ) d o i=1t o1 0 i n p u ty @@ o u t p u t e n d d a t aI i n e s S 1 0 4 8 4 9 5 2 5 3 3 4 5 0 5 8 4 8 4 6 5 6 S 3 0 5 0 3 7 3 6 3 9 3 4 3 6 4 1 4 0 3 0 4 0 S 1 0 0 2 6 2 0 2 5 2 6 2 7 2 4 2 8 2 5 2 2 2 3 S 3 0 0 2 0 1 4 1 2 1 6 1 5 1 1 1 8 1 6 1 4 1 3 p r o cr e g d a t a = d 0 1 m o d e l y=x p r o cn li nd a t a = d 0 1 p a r m a t e r s b O5 0 b l‑ 2 0 m o d e l y=b O+ b 1 *x r u n 8

15.

に推定したいパラメータを省略して,説明変数 xのみを指定する. O u t p u t5くくREG>> の I n t e r c e p t および xの行の P a r a m e t e rE s t i m a t e欄に β。=7 2 .9 6, β 1=‑ 2 3 . 6 7が出力されている. NL別 プ ロ シ odel y= b O+b1* x ジャでは, m のように,推定したいパラメータを含めて回帰式を指定する. さらに p a r a m e t e r s ステートメントで推定したいパラメータのおおよその推定値を与える.切片 b O として 5 0 ,傾き b l として ‑ 2 0 を大よその推定値として与えている. O u t p u t 5 くくNL別>>の P a r a m e t e r の欄に, b Oと b lが出力され E s t i m a t e の欄に推定値が出力されている. これらのことから, REG プロシジャは,説明変数を主体にした出力で, NLIN プロシジャは, 推定したいパラメータを主体にした出力となっていると言えよう. Output5 <<REG>> 一 It‑‑ 一一‑ 一 一 ρ u ‑ n μ ﹂‑ ﹂ U‑nu u 11 ρ 気U qG V E ‑ ‑ ft 一 一 ρ 一 u‑ ﹁ 一 ーt一一 n H 一一 V7一 1 ‑ x一 D F 1 1 P a r a m e t e rE s t i m a t e s S t a n d a r d P a r a m e t e r E r r o r E s t i m a t e 2 . 3 5 1 1 5 7 2 .9 5 6 9 9 ‑ 2 3 . 6 7 3 0 2 1 . 2 8 8 5 2 tV a l u e .0 3 31 ‑ 1 8 . 3 7 t l P r >I < . 0 0 0 1 < . 0 0 0 1 lN>> <<NL P a r a m e t e r b O b 1 E s t i m a t e 7 2 . 9 5 7 0 ‑ 2 3 . 6 7 3 0 A p p r o x S t dE r r o r 2 . 3 5 1 2 1 . 2 8 8 5 A p p r o x i m a t e9 5目 C o n f i d e n c e L i m i t s 7 7 .7 1 6 6 6 8 .1 9 7 3 ‑ 2 6 . 2 8 1 5 ‑ 2 1 . 0 6 4 6 3 . 2 逆推定値をパラメータ化 単 回 帰 式 y=β。+βIXで yが ん と な る xを 推 定 し た い . そ の 推 定 値 を x。とすれば, Y o=β。+βIX 。を x。について角料、て =(Yo一β。)/βl が得られる.ここで , X。と y。が原点となる Xo ような座標変換を考え,座標変換後の原点を通る回帰式を y'=β lどとしよう.元の座標では, y‑Y o=β1 '( x‑xo ) となる ( 1 ) x 。が推定したいパラメータであることを明示するために A とおき直して,次式を得る. y=β I ( Xー β' 2 ) + Y o ( 2 ) 式( 2 )を解けば, β 2が Y=Y oのときの xの推定値になる.元の回帰式がパラメータに関して線形で あっても式を変換すると非線形になる場合もある.式 ( 2 )は,パラメータに関して線形ではなくな っており,もはや線形最小 2乗法を解法とした REGプロシジャで解くことはできない.そのため u t p u t6に示す. に,非線形最小 2乗法のための NLINプロシジャを用いることになる.結果を O b 2の推定値として1.8 1 4 6 が出力されている.これは, REGフロシジャで得られたパラメータか ら計算された列 =( Y o一β。 ) / 片1=( 30‑7 2 .9 5 7 0 ) / (‑ 2 3 . 6 7 3 0 )=1 .8 146に一致する. 95%信頼区間は, NL別プロシジャの出力から ( 1 . 7 5 3 0, 1 . 8 7 6 2)である. Program6 <<NL lNによる逆推定>> p r o cn l i n d a t aニd 2 1 p a r a m e t e r s b 1‑ 2 0 b21.0 m o d e l y= b1 *( x‑b 2 )+3 0 r u n . ‑ 9一

16.
[beta]
Output 6
A
p
p
r
o
x
S
t
dE
r
r
o
r
1
.
2
8
8
5
O
.0
3
0
4

E
s
t
i
m
a
t
e
‑
2
3
.6
7
3
0
1
.8
1
4
6

P
a
r
a
m
e
t
e
r
b
1
b
2

A
p
p
r
o
x
i
m
a
t
e9
5百 C
o
n
f
i
d
e
n
c
e
L
i
m
i
t
s
‑
2
6
.
2
8
1
5 ‑
2
1
.
0
6
4
6
1
.
7
5
3
0
1
.
8
7
6
2

3
.
3 デルタ法による 95%信頼区間の推定

NL
別 で の 95%信頼区聞が直接推定されるのであるが, R
EGプロシジャの分散共分散行列を用
s
o,
β
'
1)とした場合に,関数 g
いて再計算してみよう.一般的に, 2つのパラメータの関数を gニ (
の近似分散は,式 (
3
)のテイラ一級数近似法,または,デルタ法により推定できる.

勾
(Y
,
, 。
,
,
( J
(
日
)

̲
̲
;o)
ar(
s
1
)
+
2
ー ‑1V
a
r
(
β
+
1勾
~~ IV
β
1
2
1 :~ :~ I
C
O
V
(
s
o
'
β
1
)

dso)

.
.

V '

¥

d
β
,'
1
)

",

¥

(
3
)

d
s
Od
β
'
1)

N であるので, REG

g
(
s
O,
s
I
)=(
Y
o‑s
O
)
/s
I としたとき , d
g/dso=‑1/ん d
g
/
d
s
I=一(
Y
o‑s
O
)
/

プロ、ンジャで, model y=x/c
o
v
b;のように c
o
v
bオプションを付けることにより, O
u
t
p
u
t7に
示すように分散共分散行列が出力される.それらを再度 d
a
t
aステップに入力し直して計算した結
をO
u
t
p
u
t7に示す. O
u
t
p
u
t6の結果と一致することが確かめられる.
Program7 <<デルタ法による 95%信 頼 区 間 > >
2
1
p
r
o
cr
e
g d
a
t
aニd
m
o
d
e
l y=x/c
o
v
b
r
u
n
d
a
t
ad
0
2
d
f=
3
8
;
c
1
1
=
5
.5
2
7
9
2
8
5
8
1
;c
1
2
=
‑
2
.
8
8
6
5
0
7
5
1
7
; c
2
2
=
1
.
6
6
0
2
8
5
7
9
7
;
y
O=
3
0
;
b
O
=
7
2
.
9
5
6
9
9
;
b
1
=
‑
2
3
.
6
7
3
0
2
;
b
2=
(
y
O
‑
b
O
)
/
b
1
d
1一
=1
/
b
1
;
d
2
=
一(
y
O
‑
b
O
)/
b
1本 *
2
;
v=
c
1
1本 d
1本 本 2+c
2
2
*
d
2
*
*
2 +2
*
c
1
2本 d
1本 d
2
;
s
e=
s
q
r
t(
v
);
t
0
5ニti
n
v(
0
.9
7
5,d
f
);
2
+
t
0
5
*
s
q
r
t
(
v
);
L
9
5
=
b
2
‑
t
0
5
*
s
q
r
t
(
v
)
;
U
9
5ニb
p
r
o
cp
r
i
n
td
a
t
a
=
d
0
2
v
a
r b
2 L
9
5 U
9
5
r
u
n
;;
Output7
V
a
r
i
a
b
l
e
I
n
t
e
r
c
e
p
t
x
O
B
S
1

C
o
v
a
r
i
a
n
c
eo
fE
s
t
i
m
a
t
e
s
I
n
t
e
r
c
e
p
t
x
5
.
5
2
7
9
2
8
5
8
1
‑
2
.
8
8
6
5
0
7
5
1
7
‑
2
.
8
8
6
5
0
7
5
1
7
1
.
6
6
0
2
8
5
7
9
7
1

b
2
1
.8
1
4
6
0

L
9
5
1
.7
5
2
9
8

U
9
5
1
.8
7
6
2
1

4 信頼区間の精度を上げる方法
3.
近似分散の精度を上げる方法としてフィラーの式が知られている.これは , Y=β。+βIXのパラ
メタの推定値を β。,s
l
' 分散が C
(
/=
β。‑ρβl
β
1 としたとき , 1
1,共分散が C
0
1とし, ρ=β。/
o
oとC
の期待値は 0,分散は,
a
r
(1(/)三 Co
2
C
112ρC0
Vニ V
1
o+ρ

(
4
)

となる .s
。
,と片l は正規分布に従うとしたときに, (
β。ーが'
I
)
/‑Jvも標準正規分布に従う. α
z12を
1よ

nU

17.

標準正規分布の上側 α/2 点 で あ る と し た と き に , ρの 1 0 0 (ト α)%信 頼 区 間 は , I s o‑p s jI 壬Z α 1 2Fvの関係から,両辺を 2乗して等式とすると 片 ;+ρ2N‑2ρβoA‑z;p=0 ( 5 ) 5 )に式 ( 4 )の vの推定値を代入して ρについて 2次式として整理し, が得られる.式 ( (A2‑zLJlI)ρ2+(2êOjZ~12 ‑2片 0/ 3)ρ+(克‑êOOZ~!2) =0 ( 6 ) を得る.式 ( 6 )を 2次方程式の標準的な解法によって解くと ρの 1 0 0 ( 1 α)%信頼区間が得られる. これがフィラーの式といわれているものである. 2値反応の用量反応曲線から D50の信頼区間を推定するために PROBITプロシ、ジャは,フィラ ーの式を用いて計算しているのであるが,計量データの場合でも線形最小 2乗法によるパラメー タの推定値と,分散共分散行列を用いて計算することはできる. しかし,デルタ法より煩雑な再 計算が必要となるので,フィラーの式による計算の例示は割愛する. フィラーの式も 2次式を用いて計算精度を上げようとしてはいるが,近似式である .SASの NL刑 プ口、ン、ジャでは現在サポートされていないが, IMPの非線形プログラムでは,プロファイル尤度 から逐次計算によって正確な 95%信頼区間を求めることができる.現実的な対応としては,いず れの信頼区間の計算方式を用いたかをレポートに明記することが肝要で、ある. 4 . 各種の生物検定法 生物検定法の全ての方法が,非線形最小 2乗法を用いることにより簡単に計算できることを, 佐久間昭の「薬効評価 IJ の 7~9 章にある例題を NL刑プロシジャで実際に解くことよって示す. 4 . 1 直接法による効力比 ( 1) 7章[例 9 J p281. エーテルとクロロホルムの効力比 . 0 7,0 . 0 3, マウスを l匹ずつ, 2L ぐらいのガラス容器,グロッケに入れ, 2分ごとにエーテルを 0 0 . 0 4,一 . mL と追加して,追加のたびに総量が 0 . 0 7,0 . 1 0,0 . 1 4,0 . 2 0,0 . 2 8,一. mLになるよう にする.これによって総量が等比数列になる.カメラの絞りを考えよ.正向反射の消失を終点とし て,何回の投与が必要であったかを記録する.同様にクロロホルムについても観測する.実際は, エーテルで 5回目の総量 0 . 2 8mLを初用量とし,クロロホルムでは 0 . 0 7mLを初用量として,実際 の追加回数を同じく 3,4回の見当にしておくと,ぱらつきは少なくなるだろう. 表 2 正向反射の消失までの投与量 検体 エーテル クロロホ/レム y ( 回) 5 I8 9 VI3 8 7 6 3 5 4 5 6 平均 7 . 6 0 4 . 3 3 クロロホルムのエーテルに対する効力比を,投与回数に基づいて計算してみよう.効力比は 2 用量なので,これまではろ/九としてきた)と簡単な計算 つの薬剤の平均投与回数の比元 /Yu ( であるが,比の信頼区間の計算は,厄介である.標準検体 Sをエーテル,未知検体 U をクロロホ 1よ ーよ

18.

ルムとし,ダミー変数を用いた回帰分析をまず考える.標準検体 Sの場合 場合 , Z =1 ,未知検体 U の , Z =0 となるダミー変数として,次の回帰分析 y= β。 +β;~ ( 7 ) Aが未知検体の平均値の推定値,兵。 +β!が標準検体 Sの推定値なので,効力比の推定値 を行うと は , (so+s , ) /片 。 =1+s , /s 。 , となる.式 ( 7 )を y=β ' 0( 1 + ( 1+ β, / β ' o ‑ l ) z, ) ( 8 ) と変形し,広 =1+β1/β。と置き換え,次式を得る. y=β ' 0( 1+( β' 2 ‑ 1 ) z, ) ( 9 ) 式 ( 9 ) を NLINプロ、ンジャで解くことにより Aが効力比の推定値となり,信頼区間も同時に得ら れる. Program8 <<直接法での効力比>> T i t l e' S a k u m a 79 2 0 0 4 ‑ 5 ‑ 1 6 Y .T a k a h a s h i' d a t a d O l 2; l e n g t hd r u g n m$1 r u g$@@ i n p u t d r u g n m$ d z l=( d r u g = ' S ' ) z 2ニ ( d r u g = 'U ') d o i=1t o6 i n p u t y母 @ o u t p u t 巴n d d a t aI i n e s エーテル S 898 7 6 クロロホルム U 3 3 5 4 5 6 ヲ ム ‑ ) ‑ * ) r h + ・hM ( .'n4 ー r h ヲl ‑ n4tt HHU * ' h u ' unU 円 Ju'hu ‑ ‑ マI一 ahuuy =HU 一 ニ a 4Lnu nSIl JU n u F 円H u ‑‑lm川 a ‑‑rhAu n ao vt n u n v n v r u n Output8 P a r a m e t e r b OU b 2r E s t i m a t e 4 . 3 3 3 3 1 . 7 5 3 8 A p p r o x S t dE r r o r 0 . 4 8 1 8 0 . 2 2 9 9 o n f i d巴n c巴 A p p r o x i m a t e9 5目 C L i m i t s 3 . 2 4 3 5 5 . 4 2 3 2 1 . 2 3 3 8 2 . 2 7 3 9 信頼区聞をデルタ法で求めてみよう.それぞれの平均の推定値を元,九としよう.平均値の比 の分散は, g ( 九, Y u )=元 / Y u としたときに , ðg/ 旬~ =l Iy u ' dg/停u=‑1/元,共分散は,互いに 独立なので 0となり,次のプログラムにより計算し, O u t p u t8と同様に, ( 1 .2 338,2 . 2 7 2 3 9 ) が推 定される. 1i 白 ︒ Program9 <<デルタ法による直接法の効力比>> d a t ad 0 2 d f =5 + 6 ‑ 2 c l l =0 . 2 7 8 5 1 8 5 2 ; c 1 2ニ 0 . 0 ; c 2 2 =0 . 2 3 2 0 9 8 7 7 ; y s =7 . 6 0 0 ; y u =4 . 3 3 3 3 3 ; r = y s / y u ; d l =l / y u ; d 2 =‑ y s / y u * * 2 ; v =c l l * d l * * 2+c 2 2 * d 2 * * 2+2 * c I 2 * d l * d 2 ; S巴 = s q r t( v ) ; t 0 5ニti n v( 0 . 9 7 5,d f ); L 9 5 = r ‑ t 0 5 * s q r t( v ); U 9 5ニr + t 0 5 * s q r t ( v ); p r o cp r i n td a t a = d 0 2 v a r rL 9 5U 9 5 r u n ;

19.

Output9 C o v a r i a n c eo fE s t i m a t e s V a r i a b l e z 1 。 z 2 0 0 . 2 7 8 5 1 8 5 1 8 5 z 1 z 2 O B S r 1 1 . 7 5 3 8 5 L 9 5 1 . 2 3 3 7 9 0 . 2 3 2 0 9 8 7 6 5 4 U 9 5 2 . 2 7 3 9 1 投与回数の比を効力比とするのは,投与量の比で定義されている効力比と異なるので妥当では ない.投与回数の差から, a n t i l o g{ ( 7 . 6 0 0 0‑4. 33 3 )l o g. J 2 }=3.103 が元の用量に基ずく効力比とな る.信頼区間も換算できるのであるが yを投与回数としたときに,表 3 に示すように,最終用 . 0 7. 2 ( y ‑ l )けとなるので,対数用量の平均値を求めて,その差の a n t i l o gを計算す 量 doseは dose=0 れば効力比となる.信頼区間は,平均値の差の信頼区間の a n t i l o g より計算できる. 表 3 対数用量に換算した場合 エーテル 1 o g 1 0 クロロホルム y d o s e d o s e y d o s e d o s e 8 9 8 7 6 0 . 7 9 1 9 6 1 .1 2 0 0 0 0 . 7 9 1 9 6 0 . 5 6 0 0 0 0 . 3 9 5 9 8 一0 . 1 0 1 3 0 5 4 5 6 0 . 1 4 0 0 0 0 . 1 4 0 0 0 0 . 2 8 0 0 0 0 . 1 9 7 9 9 . 28 0 0 0 0 0 . 3 9 5 9 8 ‑ 0 . 8 5 3 9 ‑ 0 . 8 5 3 9 ‑ 0 . 5 5 2 8 ‑ 0 . 7 0 3 4 ‑ 0 . 5 5 2 8 40 2 3 ‑ 0. ‑ 0 . 6 5 3 2 、コ , 、コ , 0 . 0 4 9 2 2 0 . 1 0 1 3 0 一0 . 2 5 1 8 1 ‑ 0 . 4 0 2 3 3 l o g 1 0 ‑ 0 . 1 6 1 5 平均 n t i l o g( 0. 49 1 7 ) を計算し,効力 O u t p u t1 0に示す 2群聞の f検定 TTESTプロ、ンジャの結果から, a 43 ) 比3 . 1 0 2が求められる. 95%信頼区間は,同様に a n t i l o g( 0 . 2 4 8 4 ),a n t i l o g( 0 . 7 3 5 )から(1.7 7,5. となる. Program10 <<効力比,平均値の差の検定>> d a t a d 0 3 s e t d 0 1 d o s e=0 . 0 7 * 2 * * ( ( y ‑ 1 ) / 2 ) l o g 1 0 d o s e= l o g 1 0 ( d o s e ) p r o ct t e s td a t a = d 0 3 c l a s sd r u g v a rl o g 1 0 d o s e r u n . Output10 V a r i a b l巴 d r u g l o g 1 0 d o s e S l o g 1 0 d o s e U l o g 1 0 d o s e D i f f( 1 ‑ 2 ) U p p e rC L L o w e rC L M e a n M e a n M e a n 0 . 3 7 5 ‑ 0 . 1 6 2 0 5 ‑ . 0 5 1 6 0 . 8 4 4 ‑ 0 .6 5 3 一0 6 ‑ . 4 6 2 0 . 2 4 8 4 0 . 4 9 1 7 O .7 3 5 N S t dE r 0 . 0 7 6 7 0 . 0 7 4 4 0 . 1 0 7 6 4 . 2 直接法による効力比 2 7章[例 1 0 Jp 2 8 3 . ジギタリスに対する効力比 . l lg /l5mLのチンキとする.いずれも 5分間 ジギタリスの標準チンキ luUI5mLを 5とし υを 0 隔で ImL lk gあたり,ハトに静注して,致死に必要な注射回数, mL数をしらべた. 1 3一

20.

表 4 ハトの致死量 I14 I15 S ジギタリス U チンキ 1 6 1 6 1 5 1 3 1 8 1 4 1 3 1 2 1 5 1 5 I元 =15.167 1 3 IY u=14.000 この例で投与回数は,総用量が等比ではなく等差となっているので,投与回数の比から効力比 を求めて,未知検体 U のg!mLを標準検体 Sの u t単位に換算する. Program8のデータを入れ替え て , NL別プロシジャにより, Output I 1 に示すように効力比 1 . 0 8 3 3を得る. 1回量は,ジギタリ ス 1uν15mL,チンキ 0 . l lg !l5mL なので,チンキの Igは,ジギタリス(1/ 0 . 1 1 )・ 1 .0833=9.848ut /I5mL に相当する. 95%信頼区間は, L95=(l /0 . 1 1 )・ 0.9414= 8 . 6 3 ut /l5mL, U95=(l /0 . 1 1 )・ 1 .2253= 11 .1 3 /I5mLである. ut Output 1 1 Parameter bO U b 2r <<直接法での効力比 2 > > Approx S t dE r r o r 0.5903 0.0645 Estimate 14.0000 1 .0833 Approximate 9 5目 Confidence Limits 1 2 . 7 0 0 7 1 5 . 2 9 9 3 0.9414 1 . 2 2 5 3 4 . 3 平行線検定法よる効力比 8章[例 1] p293. ヒスタミン棟物質 S u p e r f u s i o n法で , Sを histamineの 1 .J 2 , 2μg!L,Vを histamine様物質の 2J 2 , 4,4J 2μg!L として,乱塊法の割りつけにしたがい,モルモット回腸についての収縮を観測した.いずれも抗 h i s t a m i n e剤の mepyramineで桔抗される.実際の解析は一元配置法にしたがった . Xは用量メタメ ーターで loglO濃度である. 表 5 モルモット回腸の収縮量(単位は mm) s u b s t a n s e h i s t a m i n e uh i s t a m i n e d o s e 1 .00 1 . 41 2 . 0 0 2 . 8 3 4 . 0 0 5 . 6 6 l o g l O : x 0 . 0 0 0 0 . 1 4 9 30 1 0. 0. 45 2 0 . 6 0 2 0 . 7 5 3 フ 4 2 5 1 6 7 3 7 49 6 3 100 40 5 3 6 8 3 8 5 0 6 1 3 39 5 0 6 6 3 5 49 6 4 4 40 5 4 6 4 3 4 5 3 6 3 図 3 平行線の当てはめ 収縮量 y が 50mm となる標準薬 S:0印の用量は / f t a n t i l o g ( O . I I 7 7 ) =1 . 31μg !mL,未知検体 U:Xの用量 泌/ /ハ 栄一一一 / 業 / はa n t i l o g ( 0 . 6 0 6 0 ) = 4 . 0 4 μg ! mL,従って,効力比は 0 . 3 2 倍である.非線形回帰を用いると効力比,および, その 95%信頼区間を直接求めることができる. S薬 : 九 =39.6823+8 7 . 6 2 5 1x U 薬 : 九 =‑3.1030+87.6251x 1 .0 X バ川宝 1i

21.
[beta]
ダミー変数として, h
i
s
t
a
m
i
n
e (標準薬 S
) の場合に (Z
I=1, Z
2ニ o
,
) h
i
s
t
a
m
i
n
e様物質(未知検
体 U) の場合に (
Z
I=0, Z
2=1)とする . yの収縮量が 50mmとなる場合の標準薬 Sと未知検体
U)の対数用量の差から効力比を求めてみよう(効力比は,収縮量が 50mmでなくても同じになる).

平行な直線を持つ回帰式を,次のように考える.

。 。

y =β (
U
)+β (
d
iT
f)
Z
I+β;
X

(
1
0
)

。

。

ここで,切片 β(U)は,未知検体 Uの切片となり,ダミー変数 Z
Iのパラメータ β(
d
ifT)は,標準検体

Sの未知検体 U を基準とした切片の差となり, β
lは,共通の傾きである.次に,収縮率 y
'を y‑50
となるような座標変換を考える.
y‑50=β削 )+sO(日 )
Z
I+
β
'
I
X

(
1
1
)

こ こ で , 式 (1
1)で y
o=50 と し た と き の 未 知 検 体 U の 逆 推 定 値 は , Z
I=0 あるので,
X
O
(
U
)ニ

。

。 。

β(
U
)/
β
!となる.標準検体 Sは, Z
I=1 なので , XO
(
5
) =一(
β(
U
)+β (
d
if
T)
)
/
β
! となる.逆推
XO
(5)̲ X
O
(
U
)= β。洲町)/
β
! となる.式 (
1
1)
のβ
lを共通項として取り出すことにより,

定値の差は
次式を得る.

β
O
(
、
刊

β
O
(
d
恥

y =β
'
¥(一(-~と!..._' V~'''I z¥)+x)+50

ιβlβ1

式(1
2
)の

。

β(U/βl を β
2
(
5
)と置き換え,

(
12
)

。

β(
d
if
T
)/
β
l をβ
2
(
d
ifT)と置き換え,

y =β
'
1一
((
β
2
(
U
)+β封 印 )ZI)+x)+50
y= β
1(
(
β
'
2
(
U
)
+
s
2
(
d
iT
f)ZI)‑X)+50

(
13
)

とすると a
n
t
i
l
o
g
(
β
2
(
d
if
T
))で効力比を求めることができる. 2
.
3節の「効力比の考えかた」の P
r
o
g
r
a
m

1
3)を用いていて,効力比を求め
4 の NLINプロ、ンジャの modelステートメントでは,実は,式 (
ている.
元の式 (
1
1)はパラメータに関して線形であるが,式 (
1
3)はパラメータに関して非線形となり,
線形最小 2乗法で解くことはできないので,非線形最小 2乗法によりパラメータを推定すること

r
o
g
r
a
m1
2に NLINプロシジャによる解析法を示す.
になる. P
Program12 <
<平行線>>
T
i
t
l
e'
S
a
k
u
m
a8e
x
1
.s
a
s 2
0
0
4
‑
5
‑
1
2 Y
.T
a
k
a
h
a
s
h
i
1
d
a
t
a d
0
1
l
e
n
g
t
hd
r
u
g$1
o
s
e@@
i
n
p
u
td
r
u
g$d
z
O
=
l
; z
l=(
d
r
u
g
=
'S
̲
hi
s
t
a
mi
n
e
')
; z
2
=(
d
r
u
g
=
'U
̲
hi
s
t
a
mi
n
e
');
x= I
o
g
l0(
d
o
s
e
)
d
o i=1t
o4
u
t
p
u
t e
n
d
i
n
p
u
ty @@ o
d
a
t
aIi
n
e
s
Sh
i
s
t
a
m
i
n
e 1
4
2 4
0 3
9 4
0
Sh
i
s
t
a
m
i
n
e 1
.
4
1 5
1 5
3 5
0 5
4
Sh
i
s
t
a
m
i
n
e 2
6
7 6
8 6
6 6
4
Uh
i
s
t
a
m
i
n
e 2
.
8
3 3
7 3
8 3
5 3
4
Uh
i
s
t
a
m
i
n
e 4
4
9 5
0 4
9 5
3
Uh
i
s
t
a
m
i
n
e 5
.
6
6 6
3 6
1 6
4 6
3
p
r
o
cn
l
i
nd
a
t
a
=
d
0
1
p
a
r
m
s b
11
0
0 b
2
̲
U 0
.
5 b
2
̲
d
i
f
f‑
0
.
5
m
o
d
e
l y=̲b
l本 ( (
b
2
̲
U+ b
2
̲
d
i
f
f本z
l )̲x)+ 5
0
1
5

r
u
n

22.

Output1 2から,収縮量 yが 50mmとなる未知検体 U の用量は a n t i l o g( 0 . 6 0 6 0 )=4 . 0 3 6月 IL,標準 薬 Sは ,a n t i l o g( 0 . 6 0 6 0 ‑ 0. 4883)= 1 . 31 1 3月 ILである.効力比は a n t i l o g一 (0. 4877)=0.3253倍となる. / 0 . 3 2 5 3=3 . 0 7 4倍の用量が必要である. 95%信頼区 従って,標準薬 S と同等の効果を得るために 1 聞は, L95%=antilog一 (0 . 5 0 3 8 )=0. 3134倍 , U95%=antilog一 (0. 4718)=0.3374倍 で あ る . Output12 P a r a m e t e r b 1 b 2U b 2d i f f E s t i m a t e 8 7 . 6 2 5 1 . o6060 ‑ 0 . 4 8 8 3 A p p r o x S t dE r r o r 2 . 6 9 1 6 0 . 0 0 5 3 4 0 . 0 0 7 6 3 百C o n f i d e n c e A p p r o x i m a t e9 5 L i m i t s 9 3 . 2 2 2 6 8 2 . 0 2 7 6 0 . 6 1 7 1 0 . 5 9 4 9 ‑ 0 . 4 7 2 4 ‑ 0 . 5 0 4 1 4. 4 対称計画 8章[例 2 ] p295‑298, 2x3点法 標準検体 sと未知検体 υの用量数を等しく,また用量の公比を等しく I にとり,各用量でのく り返し数が等しいとき,対称計画 Symmetricd e sゆ1という.実験は S,Vの用量についての l因子 完全無作為化法に準じ,いわゆる一元配置法として扱うが,時間経過をブロック因子とするなど, 2 因子の乱塊法にしたがい,必要とあれば本来の乱塊法として解析し,ブロック聞に大きな差が なければ,用量だけに着目して扱うがよい. 用量が 2水準ならば 2X2点法, 3水準ならば 2X3点法,一般には k水準で 2Xk点法と呼ばれ ることが多い. (i)直線性の許す範囲で用量間隔を広くとり, ( i i ) sと υの平均反応がほぼ等し くなるように設計しておけば推定の精度はよく, ( i i i ) 直線性の前提が満足されるなら, 2X2点法 がよい. 用量の数と公比を等しくし,直交多項式をもちいた分散分析を行なうための手順が示されてい る.これは,手計算による計算をするために工夫された計算手順であり,統計ソフトが手軽に使 用できるようになった現在では,もはやこのような計算法にたよる必要はまったくない. 4.5 変則的な 2x3点法 8章[例 4] p301‑303, 3‑2点法 一方の検体の量が少ないとか,実験上の誤り,あるいは直線性のくずれといったことから ,2xk 点法をそのまま利用できないことがある.例 lで,未知検体 Uの高用量を欠いた場合を考える. 4 . 3節で,未知検体 U の高用量を欠いた場合の例であるが, Program 1 3 に示すように,該当す るデータを d a t aステップで欠測値とし, NL別プロシジャを適用した結果を Output 1 3 に示す. Output1 2とほぼ同様な効力比 a n t i l o g一 (0. 4871)=0. 3258倍が得られる. < Program13 <変則的な 2x3点 法 > > T i t l e' S a k u m a 8e x 4 . s a s 2 0 0 4 ‑ 5 ‑ 1 2 Y .T a k a h a s h i d a t a d 0 2 s e td 0 1 i f( d r u g = ' U ̲ h i s t a m i n e ' )a n d( d o s e = 5 . 6 6 ) t h e ny = . ハ hV 1よ

23.

Output13 A p p r o x A p p r o x i m a t e9 5弘 C o n f i d e n c e L i m i t s E s t i m a t e S t dE r r o r 8 0 .4 4 9 3 9 5 .6 9 9 8 8 8 . 0 7 4 5 3 . 6 1 4 2 0 . 5 8 8 9 0 . 6 0 5 0 0 . 0 0 7 6 1 0 . 6 2 1 0 ‑ 0 . 5 0 8 2 ‑ 0 . 4 6 6 0 ‑ 0 . 4 8 7 1 0 . 0 0 9 9 9 P a r a m e t e r b 1 b 2U b 2d i f f 4 . 6 2x2}~ij去 8章[修1 J 5 ] p304, t h i o p e n t a lの例 脳波を指標に, t h i o p e n t a lを点滴注入して一定の麻酔レベルを保つ.安定した時期に t h i o p e n t a lS のテスト用量を 31 . 5 , 63mgとして,他側の腕に静注し,これによって置換できた t h i o p e n t a lの点 0 . 2,20. 4mgを用い,これによって 滴量を観測した.同様に m e t h o h e x i t a l Vのテスト用量として 1 生じた t h i o p e n t a lの点滴注入の減少量を観測した.ただし,第 l例では t h i o p e n t a lSのテスト用量が 42,84mgであった .s , Vのそれぞれ 2用量を乱塊法によって, 5例に用いた ( 8 e l l v i l l ee ta l .:J . PharmacoL 129,1 0 8,1 9 6 0 ). 表6 T h i o p e n t a lの点滴注入 症例 s u b s t a n s e t h i o p e n t a l ( S ) m e t o h e x i t a l (U) d o s e 31 . 5 6 3 . 0 1 0 . 2 2 0. 4 3 5 6 5 2 8 5 6 2 3 0 5 5 1 8 5 2 3 5 1 4 6 7 4 2 2 4 8 1 9 4 0 5 6 2 1 5 2 2 2 0 この例は, 5人の症例を用いた乱塊法であり,症例によ って反応が明らかに異なる.佐久間のテキストでは,症例 の変動を誤差から差し引し、て効力比 2 . 7 8,95%信頼区間 45 ) が示されている. NLINプロシジャで,症例 ( 2 . 1 7,3. 。 d o s e 図 4 データのプロット を考慮して効力比を出すためには,症例についてダミー変数を作成して NLINプ口、ン、ジャの model 41 9 6 ) = 2 . 6 7,95% 式でこれを考慮すればよい.ここでは,計算結果のみを示すが,効力比は a n t i l o g ( 0. 24となる.この差は,第 l例目の予備試験 信頼区間は, a n t i l o g( 0 . 3 2 8 6 )=2 . 1 3,a n t i l o g( 0 . 5 1 0 5 )=3. の結果も考慮して効力比をテキストでは算出しているためである.パラメータ c lから c 5の推定 43 17をもっ平行線をあてはめたときに,未知検体 U,m e t h o h e x i t a lで 値は,各症例に共通の傾き 6 8. y= 3 0となる用量 x= log10(dose) が逆推定されている. Output14 <<各薬剤の y 30 となる用量の推定>> P a r a m e t e r b 1 b 2di f f c 1 c 2 c 3 c 4 c 5 ニ E s t i m a t e 6 8 . 4 3 1 7 0 . 4 1 9 6 O .9 6 0 4 1 . 0 6 6 3 1 .5 1 5 7 1 .1 6 1 3 1 . 4 3 5 3 A p p r o x S t dE r r o r 9 . 3 1 8 7 0 . 0 4 2 1 0 . 0 5 7 0 0 . 0 5 1 8 . o0698 O .0 5 0 2 0 . 0 6 2 7 A p p r o x i m a t e9 5日 C o n f i d e n c e L i m i t s 4 8 .2 9 9 9 8 8 . 5 6 3 6 0 . 3 2 8 6 0 . 5 1 0 5 1 . 0 8 3 6 . o8372 . o9545 1 .1 7 8 2 1 .3 6 4 8 1 . 6 6 6 6 1 . 0 5 2 8 1 . 2 6 9 8 1 . 2 9 9 8 1 . 5 7 0 8 1ょ 巧 ‑

24.

4 . 7 勾配比検定法 用量の対数とったとき, 2つの物質 S薬と T薬 (U薬)の反応が図 2に示したように,平行な シグモイド曲線として得られた場合に,効力比によって,実験結果を要約することの妥当性を示 した.図 5に示すように,用量に関係して反応が,直線的に増加するような場合もしばしば経験 。 。 する.標準検体 Sの反応が yニ β +βI(S)X,未知検体 U の反応が yニ β +βI(U)Xのように,傾きだけ が異なることをしばしば経験する.この場合に,効力比は, β I ( U )/ β I ( S )で定義される. 8章[例 6 J p319, n i c o t i n i ca c i d 5点法に準じて 0,n i c o t i n i ca c i dSの 5,10μglmL,組物質 Uの 1 ,2mg/mLについて菌の増殖 を濁度で観測した.いずれも 4回のくり返し観測を行ない.一元配置のデータとして解析する. 20 表 7 菌の増殖 :ぃ 繰返 。3 2 4 1 0 1 7 8 1 2 9 9 1 6 8 1 3 1 5 s u b s t a n s e dose b l a n k n i c o t i n i ca c i d 5 0 n i c o t i n i ca c i d 1 u n k n o w n u n k n o w n 2 3 4 4 5 1 0 1 5 8 1 3 9 1 2 。 0 ‑ ' 寸 1 0 I S dose 図 5 直線的な反応 勾配比を求める線形回帰式は,切片が共通で,異なる傾きを持つ次の式 y= so+ ( β I ( S ) Z I+β'I(U)Z2)X ( 1 4 ) を考える.効力比を直接推定するために式(1 4 )を次のように変形する. 3 会 わ T : 叫 S)( Zl+ テ 子 ? デ 子 ろ Z2 y=so 式(什l 円引 5)の β sI(U)/β sI( 向 β 釘 s ) をβ s2 と置き換え非線形最小 2乗法によりパラメ一夕を推定する. 11 a川崎︐ nudnhunkun4d Program15 <<勾配比>> T i t l e' S a k u m a ̲ 8 ̲ e x 6 .s a s 2 0 0 4 ‑ 5 ‑ 1 2 Y .Takahashi ' d a t a d 0 1 l e n g t hd r u g$1 4 i n p u td r u g$ d o s e伺 ; z 2= ( d r u gニ .u n k n o w n .) z O=1 z 1 =( d r u g=' n i c o t i n i ca c i d ' d o i=1t o4 i n p u t y @@ o u t p u t e n d d a t aIi n e s b l a n k o 3 4 5 n i c o t i n i ca c i d 5 1 0 9 1 0 n i c o t i n i ca c i d 1 1 5 1 5 0 1 7 u n k n o w n 1 8 9 8 u n k n o w n 2 1 2 1 2 1 3 ( 1 5 ) E ︐ 台市 州U B nu a u c u ヲι qt ) LU qt * 1 .︐+ p a 3位 凶* ‑‑ L u p a ︐ 1 二 hu+ ー nunU 品 JHMLnu gUEnUHVJ CM 汀e il 凋斗 aL=n U 門川 AU pm・ ‑ n川 gunu ‑ ‑me lrE nu nunH VSHu nvr 1 唱 ム ︒ 口

25.

この結果から, 勾配比は 3 3 . 3 3 6, 4 . 6 7 8,95%信頼区間として ( . 0 3 3 ) が得られる.佐久間のテ キストでは, ( 3 . 3 1 7,4 . 0 5 3 ) と広めになっているが, これは,分散を l元配置の誤差分散を用い ていて自由度が大きくなり, t値が大きくなるからである. Output15 P a r a m e t e r b O b 11 A p p r o x S t dE r r o r O .2 8 7 8 O .0 4 6 0 0 . 1 6 5 8 E s t i m a t e 3 . 8 9 2 9 1 .1 7 2 9 3 . 6 7 8 4 b 2 A p p r o x i m a t e9 5百 C o n f i d e n c e L i m i t s 3 . 2 8 5 6 4 . 5 0 0 1 1 . 0 7 5 7 1 . 2 7 0 0 3 . 3 2 8 6 4 . 0 2 8 3 5 . 反応、が 2値 の 場 合 の 生 物 検 定 法 反応が 2値の場合の代表的な生物検定法の手法は, 50%致死量を求めるプロピット法である. この方法は, シグモイド状の反応率に正規分布をあてはめて反応が 50%となる用量を逆推定する 方法として知られており, SASでは PROBITが専用のプ口、ン、ジャである. しかしながら,複数の 化合物の 50%反応量から効力比とその信頼区間の計算は, PROBIT プロシジャではサポートされ ていない. 2値データにシグモイド曲線を最尤法であてはめるための反復計算法としてニュートン・ラフソ ン法が標準的に用いられている. NLINプロシジャでもニュートン・ラフソン法が使えるので,負 の尤度関数を最小イヒすることにすれば, 2値反応に対するシグモイド曲線のあてはめができる.手 始めに, NLIN プロ、ン、ジャで D50をプロピット法で推定する方法を示し,次に効力比の計算法を 示す. 5 . 1 プロピット法による 050の推定 9章[例 3 Jp 3 3 6 . 2値の D50 公比を一定にした 5用量 D1,"・ Dsに動物を無作為に割りつけ,死亡数を数えた.用量メタメタ ーをし..., 5で示す. D50を推定する目的で, 予想される D50の付近の x= 3に動物数を多くし てある.用量メタメターは logDとするよりも ,x=1 ,… J ないし 0,. . . ,4としておいた方が手 計算では楽であろう, 必要に応じて,最後にもどせばよい. ﹁ l o g ( d o s e ) x r 2 3 4 5 2 1 6 1 5 1 9 n 。 20 2 0 3 0 2 0 2 0 反応率 p 正規 分布 ティック 0 . 0 1 0 . 0 5 3 . 3 7 5 . 0 9 5 . 0 0 . 0 1 8 0 . 1 3 1 0 . 44 2 0 . 7 9 7 0 . 9 6 5 0 . 0 2 7 0 . 1 3 0 . 44 7 0 0 . 8 1 4 0 . 9 6 0 ロジス //O 表 8 死亡数 図 6 正規分布のあてはめ 14 噌 nHd

26.
[beta]
プロピット法は, η=β。+β]
x としたときに,反応率 p に標準正規分布 N(
引があてはまるよう
な β。
とβ
lを推定する方法である .π=N(β。+β]
x
)、
で π=0
.
5となるのは,ヴが 0 となる場合であ
り,したがって,九 =0) 二
一β。/
β
l が D50(LD50)の推定値となる.ロジット怯は, π =1
/(
1+e
x
p
(ー
ヴ
)
)
となるような β。
と β
iを推定する方法である. PROB汀プロシジャを用いたプロビット法による
D50の推定値は, Output1
6 に示すように, 3
.
1
4
8
7で
, 95%信頼区間はフィラーの式を用いて (2.8247,
3.
4734) が推定されている.
Program16 < <2値プロビット法>>
T
i
t
l
e'
s
a
k
u
m
a
̲
e
x
9
̲
3
b 2
0
0
4
‑
5
‑
1
6 Y
.T
a
k
a
h
a
s
h
i'
d
a
t
ad
O
l
i
n
p
u
t x r n @@
pニ r
/
n
*
1
0
0
t
a
l
)
e
t
a
l =‑
3
.
0
7
2
4
+
0
.9
7
5
7
*
x n
o
r
m
a
l
̲
p =c
d
f
(
'
n
o
r
m
a
l
',e
e
t
a
2= ‑
5
.
2
8
4
7
+
1
.6
9
0
2
*
x l
o
g
i
s
t
i
c
̲
p
= 1/ (
l
+
e
x
p
(
‑
e
t
a
2
)
)
1i
k
e=0
d
a
t
a1
i
n
e
s
102
0 222
0 31
63
0 41
52
0 51
92
0
p
r
o
cp
r
o
b
i
td
a
t
a
=
d
O
l
m
o
d
e
l r/n= x/ i
n
v
e
r
s
e
c
ld
i
s
t
r
i
b
u
t
i
o
n
=
n
o
r
m
a
l/
*distribution=logistic*
/
r
u
n
/
* こちらでプロピ、ツ卜法
こちらを生かすと口ジツ卜法*/

pnuFhu
nwupnu
凋仏︐ n
k
u

•.

ハUnt

一

凋斗ハU

••

sn441
・l + L ‑
LH・
l
num
iE4lハU
'LRVFb
nudFhU
AHupnu

PU‑

・‑

e

n
H
a
u
・
パuvtnMUFhu
‑‑lnU41Enku
rTEVEnJι ﹁
h
u
n川 VErhU41E
nuFLL

百
W

守/守

nUハUハU

﹁hJV

a
m ハUqIu

nudau 凋仏︐守︐︐
+LηLFhv

GPO‑

司

﹄ u‑‑‑‑‑
n
VE&1﹄ 内 uAHU

P
r
o
b
a
bi1
i
t
y
0
.
5
0

JUEL

p
a

aunH
+Lau
auρu

﹁ +L

ヨ
unH

mヨua﹁u
﹁ +L

円
﹁ 11X

n
H
a
﹁
﹁ 414l
+Lnu

Output16

S
q
u
a
r
eP
r>
C
h
i
S
q
3
4
.
6
7
<
.
0
0
0
1
3
7
.
8
7
<
.
0
0
0
1

i
d
u
c
i
a
lL
i
m
i
t
s
9
5弘 F
2
.
8
2
4
7
3
.
4
7
3
4

X

3
.
1
4
8
7

xをヴニ β
'
](
β。/
β
'
]+x)と変形し,
NLIN プ口、ンジャで D50 を直接推定するために,ヴニ β。+β]

Aニ β。/βlを
, η=β'
]
(
‑
s
2+x) とおきなおして万二 N(η) を解けばよい.プロピット法の尤度関
数は,

rT=]B川)ニウ(~'可
)(I‑1[,)I/,‑r" i=I,2,..., k

(
16
)

B(ペ;
πi,
n
j
) :期待値が κ、
で n,
の試行で反応が η固となる 2項分布の確率

であり,式 (1 伽(~)は, πt が変わっても変化しない定数なので,尤度の計算から除いて,対数
をとり線形化する.尤度関数は,

咽f γ

L
ト=10

可
zパ
刷
川
(
1 久刈げ叶
ザ
九
川円
)
十
4
"
→
十
,
)
十
ト
==む宇いい似川向阿
1
円
句
O
0
けゆ
g叶

となる.この尤度関数のよZを最小化するようにする.平方根を取るのは, NL別 で は 最 小 2乗
法を使用しているためで,最尤解が適切かを他のプロシジャと照合するためである. NLINプロシ
ジャで最尤法による計算をするために,前もって d
a
t
aステップで尤度に対する変数を設定し 0と
おいておく. Program 1
6で l
i
k
e= 0 としたのがこのための準備である.さらに, n
l
i
nステートメ
2
0

27.

ン卜で, s i g s q = 1 と平方和を強制的に lとするようにマニュアルで、指示されている. 初期値の設定は,反応率 N(η)が 0 . 5となる xを図から読んで, b 2=3 とする. N(η)=0 . 8 4 とな る xを読んで, b 2 との差の逆数 1 / ( 4‑3)=1 を b l とする.これは, ηが 1( σ )増加する正規分布 . 8 4となる xに対応するので, b 2との差の逆数をとれば , xが l単位増加したとき の下側確率が 0 の ηの増加量 b lのおおよその推定値となるためである. NLINプロシジャでは,各用量を lサンプルとしている.そのために,この例では, 5サンプル となる. 2つのパラメータを推定しているので,その信頼区間の推定には,自由度 df=5‑2=3の I分布のパーセント点が用いられる.そのために, o d sステートメン卜で, SASデータセットにパ ラメータの推定値と SEを出力し,それらから,正規分布のパーセント点から信頼区聞を再計算す る必要がある. O u t p u t1 7 の出力は,これらの計算をした結果である .D50は , b 2=3 . 1 4 8 7,95% 信頼区間は, ( 2 . 8 4 1 2 8,3. 45 6 1 6 ) と推定されている.フィラーの式で計算された O u t p u t1 6 と異な るが, NLINの結果は,デルタ法の計算結果と一致する. Program17 < <NL lN,2値 プ ロ ビ ッ ト > > p r o cnI i nd a t aニd 0 1 m e t h o d = n e w t o ns i g s q = 1 ; p a r m sb 11 b 23 e t a=b 1 * ( ‑ b 2 +x ) p a i =p r o b n o r m ( e t a ) ; m o d el .Ii k e=s q r t (‑ 2 * ( r * l o g ( p a i )+( n一r ) * l o g ( 1 ‑ p a i ) )) o d so u t p u t P a r a m e t e r E s t i m a t e sニp a r m; d a t ap a r m s e tp a r m z 0 5=p r o b i t ( O .9 7 5 ) L 9 5=E s t i m a t e‑z 0 5 * S t d E r r U 9 5ニ E s t i m a t e+z 0 5 * S t d E r r k e e pP a r a m e t e rP a r a m e t eE s t i m a t eS t d E r rL 9 5U 9 5 p r o cp r i n td a t a = p a r m r u n Output17 O B S P a r a m e t e r 1 b 1 2 b 2 E s t i m a t e O .9 7 5 7 3 . 1 4 8 7 S t d E r r O .1 5 8 6 O .1 5 6 9 L 9 5 O .6 6 4 9 7 2 . 8 4 1 2 8 U 9 5 1 .2 8 6 5 3 3 . 4 5 6 1 6 5 . 2 2値反応での平行性検定法,効力比の推定 9章[例 6 ] p347,trans‑π‑Oxocamphor,平行性検定 t r a n s ‑; r‑Oxocamphor,S とその水溶性誘導体 U を 1 5匹ずつのマウスに腹腔内注射して,痘登 死を数えた.用量公比を 1=1 .2とし, 3用量を用いた. 標準検体 Sと未知検体 U にシグモイド曲線として分散が同じで位置が異なる 2つの正規分布を 3)と同様に, あ て は め た 結 果 を 図 7 に 示 す . 2 つ の 正 規 分 布 の あ て は め は , 式 (1 η = β ' 1( ‑ ( β 2 ( U )+ β 2 ( d i f f ) Z I)+x)となるようにダミー変数を用いた式をまず考える.次に, η が正規 分布の下側確率となるような;r=N(η) を考え, P r o g r a m1 8 に示すように, NLIN プロシジャに よる最尤法により,パラメータ β 2 ( d i f f )を推定する.対数尤度関数は, Program1 7 の場合と同じで, ηの計算で,ダミー変数を含める点だけが異なる. ロジッ卜法の場合は, ; r=1 /(1‑e x p (一η ) ) のみを換えればよい. O u t p u t1 8 から,効力比は, 噌﹄ょ 白 っ

28.

a n t i l o g ( b 2 d i町= a n t i l o g (ー0 . 1 2 5 5 ) = 0 . 7 4 9 となる. 9 5% 信 頼 区 間 は a n t i l o g (ー0 . 2 0 3 7 ) = 0 . 6 0 4, a n t i l o g (‑ 0 . 0 47 3 ) = 0 . 8 9 7となる. il~ 表 9 マウスの産登死 drug d o s e x S 2 5 0 3 0 0 3 6 0 3 0 0 3 6 0 4 4 0 2 . 3 9 8 0 47 7 1 2. 2 . 5 5 6 3 47 7 1 2. 2 . 5 5 6 3 2 . 6 4 3 5 U r 4 7 1 1 3 5 9 月 p% 正規分布 1 5 1 5 1 5 1 5 1 5 1 5 2 6 . 7 4 6 . 7 7 3. 3 2 0 . 0 3 3 . 3 6 0 . 0 0 . 2 7 3 0 0. 48 7 9 0 . 7 0 6 5 0 . 1 7 3 8 0 . 3 5 7 3 0 . 6 0 4 7 且 0 . 5 0 . 0 2 . 0 Program18 <<N L lN, 2値 , 効 力 比 > > 一下一寸一一寸一一寸一一「一一「 2 . 5 3 . 0 x T i t l e' s a k u m ae x 96 2 0 0 4 ‑ 5 ‑ 1 7 Y .T a k a h a s h i d a t ad O l; 図 7 2つの正規分布のあて i n p u t d r u g$d o s e r n @@ x= l o g I 0 ( d o s e ) p = r / n * 1 0 0 z O = I ; z lニ ( d r u g二, S ') ; z 2 =( d r u g = 'U ') ; I i k e=0 d a t aI i n e s S2 5 0 41 5 S3 0 0 71 5 S3 6 01 11 5 U3 0 0 31 5 U3 6 0 51 5 U4 4 0 91 5 p r o cn li n d a t a = d O l m e t h o dニn e w t o ns i g s q = l : p a r m s b l1 0 b 2 U 2 . 6 b 2 d i f f‑ 0 . 1 * ( ー( b 2 U+b 2 d i f f * z l ) +x) e t a二 b1 p a lニ p r o b n o r m ( e t a ) ; /*こちらでは p r o b i t* / * p a i = I / ( I + e x p ( ‑ e t a ) ) ; /*こちらは l o g i t * / m o d e l . 1i k e=s q r t (‑ 2 * ( r * l o g ( p a i ) +( n ‑ r ) * l o g ( l ‑ p a i ) )) o d so u t p u t P a r a m e t e r E s t i m a t e s = p a r m d a t ap a r m r o bi t( 0 . 9 7 5 ) s e tp a r m z 0 5ニ p L 9 5 =E s t i m a t e‑z 0 5 * S t d E r r U 9 5=E s t i m a t e +z 0 5 * S t d E r r k e e pP a r a m e t e r E s t i m a t eS t d E r rL 9 5U 9 5 p r o cp r i n td a t aニp a r m r u n O u t p u t18 <<2値 , 効 力 比 > > O B S 2 3 P a r a m e t e r b l b 2 U b 2 d i f f E s t i m a t e 7 . 2 4 2 7 2 . 6 0 6 8 0 . 1 2 5 5 S t d E r r 2 . 1 4 3 2 0 . 0 2 9 9 O .0 3 9 9 L 9 5 3 . 0 4 2 0 7 2 . 5 4 8 1 7 ‑ 0 .2 0 3 6 8 U 9 5 1 .4 4 3 3 1 2 . 6 6 5 4 ‑ 0 . 0 4 7 3 文献 1.佐久間昭 ( 1 9 7 7 ).薬効評価 1 ,東京大学出版会. 2 .佐久間昭 ( 1 9 8 1 ).薬効評価 1,東京大学出版会 r d 伊F i n n e y,D. J( 1 9 7 8 ) .S t a t i s t i c a lM e t h o di nB i o l o g i四 1 A s s a y,3 e d .,Cha 巾 5G r町In. r d 4 .D r a p e r , N.R,a n dS m i t h,H .( I9 9 8 ) .A p p l i e dR e g r e s s i o nA n a l y s i s,3 e d .,J o h nW i l e y&S o n s . 5 .B a t e s,D . M .,a n dW a t t s,D . G .( 1 9 8 8 ) .N o n l i n e a rR e g r e s s i o nA n a l y s i sa n dI t sA p p l i c a t i o n s .J o h nW i l e y& S o n s . . J ,R o h i d a r,N . R .a n dP e a c e,K . E . ( 1 9 9 8 ),中里・森川監訳 ( 1 9 9 2 ),医薬統計学 薬理活性の評価ーも 6 .H u b e r t,J サイエンテイスト社. ー1 ‑ 9,E ‑ m a i l :t a k a h a s h i y k o @ c h u g a i ‑ p h a r m . c o . j p 連絡先:東京都中央区京橋 2 ‑22‑

29.

口頭論文発表 医薬品開発

30.

ι :〆ぢ J‑ 一月いれ斗 司 訓 γ 一 十九炉一一 f品川 ヂ ./〆 F 斤 判 、,1;((14 0・ 1 ( リ ヰ 3 ‑ . ,f . J ; 勾 " f ̲ O 1 . J ‑ J ↓ レ ' ^ + ,' ^ + o E大 c‑R(νト ま え 戸 /' " ' "

31.

臨床試験における集計解析用 S A Sプログラムの標準化 , ̲ . r 標準マクロ集」の作成 柳薄健太郎・常吉華奈・山本典子 株式会社アーム 医薬情報部 S t a n d a r d i z a t i o nO fS t a t i s t i c a lA n a l y s i sS A SP r o g r a m sF o rC l i n i c a lT r i a l s ~ S T A R M A C R O :S t a n d a r dM a c r oL i b r a r y~ K e n t a r o uY a n a g i s a w a/ K a n aT s u n e y o s h i /N o r i k oY a m a m o t o M e d i c a la n dD r u gI n f o r m a t i o nD i v . 要旨 臨床試験全体の標準化を図ることは業務の効率化,出力結果の信頼性向上 に大きな役割を果たす.アームでは,臨床試験における集計解析業務の SAS プログラムをモジュール化し,異なるプロトコール問で、使用で、きる汎用的なマ クロ集を作成することで,集計解析業務の標準化を試みている.ここでは,そ の汎用的なマクロ集 キーワード: I 標準マクロ集」の利点及び概要を紹介する. 標準化,臨床試験,効率化,信頼性向上 1 はじめに 現在,多くの企業では臨床試験の集計解析業務は伺人の SAS プログラミングにまカミされ, 品質, 'j:̲産性を一定のレベルに維持できない状況である.その為,近年では臨床試験全体の 標準化の必要性が叫ばれてきた. 当社ではr4~~床試験の集;n- IÍ]仰?業務の Sr'\S フ。ロクーラムをモジュール化することにより,臨床 試験の集計解析業務全体の標準化を試みている.本論文で、は,そのモジュール化された S r ¥ S フログ、ラムを「標準マクロ集」と呼ぶことにする(仮称:S T i ¥ R' v 1 :¥CIW). r 標準マクロ集」は,解析 丹1 の SASデータセットと / 1 ¥ ) J 1 I T定説 i Lファイルを用意し,選択したマクロを,)d j ‑寸ることで,出、 者 77i;仁臨床検査 (11'[,イ(~, ì~: ' j f象などの 1 U卜去を, S入S データセットもしくは l:~~ 1 ,¥jマ クロ'!.kJ のメリッ卜とその概要を制介する. て作成で、きる.以トに r ‑25‑ EXCEし U ¥ ) Jと し

32.

︐ ︑ ︐ f ( 一 一 碍 準 … リ ツ 卜 「標準マクロ集」を使用することによって,臨床試験の集計解析業務を標準化できる.標準 化のメリットとしては,業務の効率化,出力結果の信頼性向上,教育体制の簡略化などが挙げ られる.このセクションで、は標準化とそれに伴うメリットについて紹介する. 2 .1 . r 標準マクロ集」による標準化 「標準マクロ集」を使用するためには解析用データセット,フォーマット用データセットの形式 標準マクロ集 J によって次の 4つの標準化が進む. の標準化が必要である. I 1.解析用データセット形式の標準化 2 .フォーマットデータ形式の標準化 3 .出 力 形 式 の 標 準 化 4 .業 務 手 順 の 標 準 化 また,社内で、解析用データセットの形式,フォーマットデータの形式が既に標準化されてい 標準マクロ集」用へのデータ変換フ。ログ ラムを作成する事によって,容易に「標 る場合には, I 準マクロ集」を使用することができる. 2 .2 . 標準化によるメリット 業務の効率化 臨床試験の集計解析業務に新規のフcロクーラムで、はなく,応用可能な既存のプロク。ラムを利 用し標準化することで業務の効率が向上する.さらに, I 標準マクロ集」では,標準マクロを実 行する際に必要なマクロ変数を指定で、きる「出力仕様設定テンプレート」を作成した.このテン プレートにより,マクロ実行の際の仕様設定時間を削減することがで・き,作業効率が大幅に向 上する.また, DM部門との連携により,解析用データセット形式やフォーマットのデータベー ス構造の標準化を図ることで,業務全体での更なる効率化が望める. 2 .3 . 標準化によるメリッ卜 出力結果の信頼性向上 出力結果の信頼性の向上を凶るためのひとつの J i ( l ょとして,夕、、フツレフ。ロクーラミングでの解析 結果の比較が考えられる.その際 2 つのプログラム(両方)を間違う可能性を捨てきれず,さら に,出力結果の比較 H 寺に見落とす可能性もある.また,各集計解析担当行ーがその都度フ ロ ク 、 C ハhu nノ

33.

ラムを作成している為に,フ。ロク、ラム全体のバリデーションが適切に実施されない場合も考えら れる.これらの信頼性に関する問題は I 標準マクロ集」を使用することによって解決で、きる. 「標準マクロ集」の検定処理マクロには,既にパリデートされた生物実験データ統計解析システ E X S A S Jのマクロが利用されている. IEXSASJは 1 9 9 6年のリリース以降,多くの会社で使用 ム[ され続けており実績の面から信頼性は高い. 2 . 4 . 標準化によるメリッ卜 教育体制の簡略化 現在,各企業での集計解析業務は標準化が進んでいない場合は,個人のプログラム技量 に依存するところが大きい.個人間に技術力の差がある為,集計解析業務の生産性や品質に ばらつきが生じている.また,蓄積されたノウハウの継承や新しい人員の教育は,多くの時間と 労力を要するため,企業にとって大きな負担となっている. この問題を「標準マクロ集」を使う事で解決できる. I 標準マクロ集」を使用することで,教育 体制が簡略化され,企業単位での集計解析業務の生産性・品質の水準を一定に維持できる ようになる. 3 .r 標準マクロ集」の概要 今回は,患者背景の出力を例にとって「標準マクロ集」の概要を説明する.以下に「標準マ クロ集」を使用したフローチャートを示す. ※表 2 ※表 3 ※表 6 旦巴L 入力データ マクロプログラム S 主主型0 01 STATM002 A R M P G M O O l E D I T 盟盟1 出迎旦L ※表 l E X C E L出力 f ヴ nノμ

34.
[beta]
入力データとして解析用データセットに j
)1lえ,コード(フォーマット)データと出力仕様設定デー
タを準備し

r
標準マクロ集」のマクロフ。ロクーラム(例:AR¥1PGM001)を実行すると患者背景集

)が EXCELに出力される.ここで、使用するマクロプログラム AR¥
1PG¥
10
0
1は,マクロフ
計(表 1

c

ログラム STATM001とSTATM002とE
D
IT¥
1
0
0
1で構成されている.

1
) <検定処理マクロ>STATMxxx(
x
x
xは数値)

0 種類の検定手法が設
「標準マクロ集」で準備されている検定処理マクロで、ある.現在約 3
定されており,入力データ形式は標準化されたデータが使用可能である.検定種は下記のよ
うなものである.

1
0
0
1は
, χ2検定のマクロフ。ロク、、ラム
例 :STAT¥
STATM002は
, W
i
l
c
o
x
o
n検定のマクロプログ、ラム
2
) <編集処理マクロ>EDITMxxx(
x
x
xは数値)
集計解析帳票など出力するためのプログラムをマクロ化したもので, r
標準マクロ集」の

STATMxxxで、出力された結果データのマージ・結合やデータの出力用編集, EXCEL への出
力など行うプログラムである.
例:
EDIT001は,居、者背景 1
1
¥力の出力形式などを整えるプログラム

3
) <複合マクロ >AR¥11
コGMxxx
「標準マクロ集」として準備されており, STAT¥
1
x
x
x や EDITMxxxのプログラムを含んだ複合
マクロプログラムである.
'
]にデータ結
ユーザーが STATMxxxを使用して出力された SASデータセットを利用し,独 t

合,編集,出力処理などをプログラムし複合マクロプログラムを作成することが可能である.
例 :ARMPGM001は,忠者背景出力を行うフつログ、ラム
「標準マクロ集 J(仮称:STAR¥
;
f
.
ACRO)ラインナッフ"
W
I
J

検定処理マクロ

要約統計量,パートレッ卜等の分散性の検定, t検定,
A
s
p
i
n
‑
W
c
l
c
h検定,対応のある t検定,対応のある v
¥
'
i
l
c
o
x
o
n
検定,一元配置分散分析,ウィルコクソン検定,クラスカルワ
リス検定,ダネットの多重比較,チューキー・クレーマーの多
l四 l
検定, S
t巴巴 I
‑
D
w
a
s
s検定,1'凹r
s
o
n,S
p
c
a
r
m
a
nの
重比較, S
i
l
l
i
a
m
s の多 l
E比 t絞
,
相関, [立線回帰,用量反応関係, W
S
h
i
r
l
y
‑W
i
l
l
i
a
m
s 検定,ヨンキー検定,平行線検定,効力比,
経時型分散分析~ x2検定,フイツシャーの直接検定,コクラ"",,,!‑..r
ンアーミテーシ検定…….
3J~f! f,_ l 〆~.'(Í (\ç t川ベ
件

i
A
1
t
:
!

複合マクロ

出、者背 j
式(頻度集計),忠、者背景(記述統,.卜量), I
臨床検査
値・理学的所見集計(要約統,.卜量・前後比較),臨床検査値
'
=
J
t象集計(頻度集
(頻度集計・シフトテーブル),有 '8~ .
汁)・.

‑2
8
35.
[beta]
4
. r
標準マクロ集」の使用例
ここでは

r
標準マクロ集」で準備されている表 Iの忠、者背景を出力するプログラム

λR¥lPG¥1001を例にとって紹介する.

4
.1
. 患者背景出力
!j].、者背景出力は表!となる.

表1
:患者背景出力
アーム群
項H
解析対象
性別

男性
女性

2
0
‑
2
9
3
D
‑
:
l9
4
0
‑
4
9
5
0
‑
5
9
6
0
‑
6
4
6
5以 上
体重 (
k
g
) 5
0未 満
5
0以 と 6
0未 満
0未 満
6
0以 上 7
0未 満
7
0以 上 8
0未 満
8
0以 上 9
二1
0
0未 満
9
0以 l
1
0
0以 上
年齢(歳)

3
6
2
0
1
6
2
1
1
3
2

コントロール群

z

例数

例数

3
6
2
4
1
2
1
8
1
2

5
i6
4
4
.4
5
8
.3
3
6
.1
5
.6

。
。
。
。
。
。

p
{
直

検定

6
6
.7
3
3
.3
5
0
.0
3
3
.3
8
.
3
8
.3

p
=
O
.3
3
3
6

x2
検定

p
=
0
.
2
9
2
8 ¥
¥
iI
c
o
x
o
n検 定

。
。。
。
。

2
1
I
2
4

1

8
.3
1
9
.4

2
2
.2
1
6
.7
3
0
.6
1
2
8

.
11
1
8
.3

c
o
x
o
n検 定
p
=
O
.2
2
7
6 引I

8
.3
3
3
.l
;
2
2
.2
.
28

4
.2
. 解析用データセットとコード(フォーマット)データ
使用する解析川データセットは一去 2
(データセット名 :DEMO)である.症例数が 72 で
, N
1
(KEY)毎に性別 (SEX),什耐~(AGE) ,体重 (w 日 GHT) の頻度集計を行う.また,症例番号の

入力されている項 Hは (SL'BJID)とする.コード(フォーマット)データは,表 2である.

表2
.
:
惇析用データセット
líl'i~4;J ,.
.
. t
可

解析の対勢¥

r

SUBJl
D

K
E
Y

<
.
s
E
X

AGE
J

2

2

3

2

4
2

4

4

2

6
9
7
0
7
1

2

7
2

2

j
)
W
E
I
G
H
7
6
2
2

5
2

2

2

2

2

4

‑2
9

←

2

36.

表3 :コード(フォーマット)データ S T A R T F 班T N A M E 日Y L A B E L lアーム群 2コントロール群 K E Y S E X S E X A G E A G E A G E A G E A G E A G E 事E I G H T l 回I G H T 問I G H T 官E I G H T 日I G H T mGHT 事E I G H T T E S T T E S T l男性 2女性 1 1 2 0 ‑ 2 9 2 1 3 0 ‑ 3 9 3 1 4 0 ‑ 4 9 4 1 5 0 ‑ 5 9 5 1 6 0 ‑ 6 4 6 1 6 5以上 1 1 5 0未満 2 1 5 0以 上 6 0未満 3 1 6 0以上 7 0未満 4 1 7 0以上 8 0未満 5 1 8 0以上9 0未 満 6 1 9 0以上 1 0 0未満 7 1 1 0 0以上 2検 定 2 5 0 0 1χ 2 5 0 0 2官i1 c o x o n検 定 4 . 3 . 出力形式の選択と出力仕様設定テンプレートの設定 「標準マクロ集」の出力サンプルカタログ、から患者背景の出力形式(表 4 )を選択する. r 標準 マクロ集」の各出力形式には「出力仕様設定テンプレート(表 5 ) Jが付随する. r 出力仕様設定 テンプレート」には各出力形式に必要な情報を設定する. 。 表4 : 出力サンプルカタログ<患者背景 1> A R M P G M 0 0 1 項目 解析対象 ③X X X X X X②X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X x x x x α x 例数 X~αXXX x x x x x x X X X X X X x x x x x x X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X Z 例数 X X .X X X .X X X .X X X .X X X .X X X .X X X .X X X .X X X .X X X .X X X .X X X .X X X .X X X .X X X X X X X X X X X X X x x X X X X X X X X X X X X X X X X Z p j 直 検定 X X .X 凶 X X X XX X X X X X④ X X .X x . xX X X .X X X .X p = X .x x x xX X X X X X X X .X X X .X X X .X X X .X X X .X X X .X p . xx . x x xX X X X X X = . xx x X X .X X X .X ηべU ハ U

37.

> 且思 く 背 者 患 w M W M以 WMWMWMWMWM M ; Tセ EPEx‑‑zIx‑ ‑ m m m m脳mmm レ 一ナ七 プ与 ン⁝ 定ゲ 設卜‑卜 同町ツザプツ 位問タ攻剛山田タ 掃引セ卜 カ 倒 一 号 ↑ マ mm 叩一 F r・ 削 入 症 ① ‑ フ ① 回 目 出 デ i p デ番‑周 HWW 力 例 層 才 層 回L目L力 表 「出力仕様設定テンプレート」の指定方法 解析用データセット関連 「入力データセット J:解析用データセット名 「症例番号 J:症例番号の変数名 「 層 J:群の変数名 I O b j e c t(出力項目)J:性別,身長などの解析の対象となる頃目 フォーマットデータセット関連 「フォーマットデータセット J:フォーマット用のデータ名 「層用 FOR' v 1ATJ:層分けに用いるフォーマット名 ( 表 4の①に出力されるフォーマット) IFOR¥ 1AT(出力頃目)J:出力頃目に用いるフォーマット ( 表 4の②に出力されるフォーマット) 出力形式関連 IEXCELBOOKJ:出力先 BOOK名 IEXCELSHEETJ: F lOOK内の出力先 S h e e t名 「出力データセット J :1 1¥力データセット名 I Order(/1¥力頃 I I ) J :U ¥力 r l'i日を出力する)I I U番を数字で、指定 I L l ¥BEL(出力頃 I I ) J :i l L) Jする頃 ( 1, ' 1( 炎 4の③) I T e s t( / 1¥力頃 r I )J:検定の稀類 べU n 1i

38.
[beta]
今l
口J,使用する「出力仕様設定テンプレート」を使)lJし,作成された出力仕様設定データは
表 6 となる.

表6
: 出力仕樟設定データ<患者背景

A
R
M
P
G
M
0
0
1

1
>

D
E
l
¥
O

入力データセット
症例 J
番号

S
l
i
B
JI
D

m

①層

フォーマットデータセット F
D
A
T
A
①!日用 F
O
R
¥
1
AT

m

E
X
C
E
LBOO~
E
X
C
E
LS
I
I
E
E
T
出力データセット

c:
i
'
te
m
p'
io
ut
e
.xI
s
S
h
e
e
t
l
O
L
;
T

4
.
4
. マクロの実行
解析用データセット,コード(フォーマット)データ及び出力仕様設定データを準備し,プログ
ラム (AI~MPG 'v1 00 1
)を実行すると忠者背景の集計解析結果(表 1
)が出力される.また,

s
八Sデ

ータセットとして結果は保存される.

5
. 今後の展望
現在, I
標準マクロ集」は,臨床試験で使用される検定と一般的な出力形式を準備している
が,今後はさらに様々な出力形式の追加に加え,臨床検査値や血圧なと、の理学所見の推移
標準マクロ集」の利
図や散布図などグラフ出力用マクロフ。ロクーラムの充実を図っていく.また I
'i'']とした「標準マクロ集」のマニュアルの充実を図るとともに,利用者の統
用に関する理解をF!1
計解析に閲する知識の向上教育を目的とした「標準マクロ集」の個々の検定手法に関する説
明書の充実をめざしたい.
;
{
'
JY
.
"
‑T)1
"パ パ 勺
,
̲ r包 j
'
‑
;
'法 令

I- q~..

、 一

干
¥ fJ ‑: .
1
ノ

I

向リ

ご定イゾz

¥
:
‑~

14

i
:
(

/ バ

タ
占J
グ.'‑ 二1下

n4U

nノμ

Jσ

r
v

F

fMV

u

︐
︐

︑

J

d

p﹃

4

ザ

d

dli

︐凡

︑円丹

u
︐︐

6
、
主

︑

、

̲'λ

'
.
.
) /

︑︑︑︐

Q

A ィ '7v
.

1
.'
1
.
1
1
,
.
, 4 f-_~(.Jj

39.

サンプル数が少ない非臨床の経時データ解析 mixedプロシジャの評価 大石理佳 旭化成ファーマ株式会社 ライフサイエンス総合研究所 創薬第二研究所 E f f i c i e n c yo fMixedproceduref o rs m a [ [samp[es i z e[ o n g i t u d i n a [d a t aa n a [ y s i s R i k aO o i s h i n s t i t u t ef o rL i f eS c i e n c eR e s e a r c h, L a b o r a t o r yo fB i o [ o g y,I ASAHIKASEIPHARMACORPORATION 要 旨 Mixedフ。ロシジ、ヤは同一個体から繰り返し測定された経時データを解析する 場合に有効な方法であるが、解析の前提となる個体内の誤差の相関構造を正しく推 定することは難しい。個体数が多ければ、相関構造が不明でもロバスト分散を用い ることができるが、非臨床のデータでは個体数が 1群 10例程度である。この場合で もロバスト分散を用いて良いのか判断したい。そこで CS構造、および ARタイプ構 造のデータを s imulationで作成し、 mixedフロシジャで解析を試みた。その結果、 1群 10例のデータでは相関構造を正しく特定できない場合が多く、またロバスト分 散を用いると第一種の過誤が保持されないことがわかった。 キーワード M i x e dプロシジャ、サンプルサイズ、経時デー夕、 αエラー 1 . はじめに 同一個体から繰り返し測定された経時データを解析する場合、同一個体から得られた データの相聞を考慮する必要がある。 SASの Mixedプロシジャは相聞を考慮した解析 に有効な方法である。しかしながら解析の前提となる個体内の相関構造を完全にモデル 化することは不可能である。ある程度妥当な分散構造をモデルに当てはめるために、 Mixedプロシジャのオプションで、いくつかの分散構造を指定し、モデルの当てはまり の良さを示す AICなどを指標に選択する方法や、モデル分散とロバスト分散の解析結 果の差を指標に選択する方法などが提唱されている 1)。ロバスト分散は、当てはめた分 散構造が真であるかどうかに関わらず、バイアスがない(漸近一致性)分散であり、ロ バスト分散を用いた推定・検定では分散構造の誤特定による影響が少ない。当てはめた 分散構造が真であれば、ロバスト分散はモデル分散と一致するのでロバスト分散とモデ ル分散の結果の差を指標に、分散構造を選択することができる。ただし、ロバスト分散 ‑3 3

40.

は、個体数が多いときに有効である。 非臨床のデータでは個体数が 1群 10例程度である。個体数が少ないときにも、分散 構造が正しく特定できるのか、またロバスト分散を用いて良いのか判断したい。そこで cs構造、および ARタイプ構造のデータを作成し、 mixedプロシジャで解析を試みた。 2 . データの説明 cs構造のデータとして、 P群は初期値に誤差を加えたスコア、 A 群は初期値を経時 的に一定数減少させた値に誤差を加えたスコアを作成した。 ARタイプ構造のデータは、 前時点の値と相関を持ちつつ分散が経時的に変わらないようにするために誤差の半分 )。個体問誤差 sdF=152、個体内誤差 sd22=152として l を交換する形で作成した(図 1 群のサンプル数を 50例または 10例で比較した。 1群のサンフル数を減らすと検出力が 落ちるので、 1群 10例でも検出力の高い例として、 sdF 102 sd22=52のデータも作成 二 した。 αエラーについて考察するために、上記設定で、 A 群を P群と同じ分布にしたデ ータも作成した。 S I D : 個人スコア乱数‑N(50, s d 12) E l : 初期値誤差用乱数 ‑N(O, s d 22) E 2 : 誤差用乱数 ‑N(O, s d 22) データ構造: CS構造 R 2 = 1 スコア: S c o r e二 S c o r el ‑ E 3 + E 3 * s q r t (l ‑ R 2 ) + E 2 * s q r t ( R 2 ) ; S c o r e l : c o r e lニS I D+E l T i m e = l 初期スコア S ARタイプ構造 R 2 = O . 5 T i m e > l 前時点のスコア E 3 : T i m e = lE3=El c o r e l‑Th T i m e > l 前時点のスコアと前時点の理論値の差 S 理論値: P群 Th=SID A群 Th二 S I D ‑ 3 * ( t i m e ‑1 ) 図 1 P群 ARタイプ構造データ 口 動 誤 nべU Aq

41.

2 . 1 . 1群 50例 、 sd1=15、sd2=15として 2000回試行した時のスコアの分布 CS構造データの平均と SD 群 P群 平均 A群 SD 平均 SD T1 T2 T3 T4 T5 5 0 . 0 6 21 .1 6 5 0 . 0 1 21 .2 1 .1 1 51 4 9 . 9 1 4 9 . 9 9 21 .22 21 .1 5 21 .1 7 4 9 . 9 5 21 .20 4 7 . 1 4 21 .1 7 4 4 . 1 1 21 .25 41 .06 21 .22 3 8 . 0 5 21 .1 8 ARタイプ構造データの平均と SD 群 T1 T2 T3 T4 T5 5 0 . 0 2 21 .21 41 .09 21 .22 5 0 . 0 0 P群 平均 5 0 . 1 2 5 0 . 0 9 5 0 . 1 3 A群 SD 平均 21 .22 4 9 . 9 5 21 .24 4 7 . 0 4 SD 21 .23 21 .23 21 .23 4 4 . 0 9 .25 21 21 .1 7 38.07 21 .22 図 2時点聞の相関 望 事 事 一 回 一 岡 山 時 国 一 国 一 c s構造データの時点聞の相関 ARタイプ構造データの時点聞の相聞 T2 T3 一 十 f f T1 T1 T4 T2 T3 T4 3 . Mixed プロシジャによる解析 P群と A 群の違いを、 スコアと時間の傾きとして推定することにし、 Mixedプロシ R(l)(以後 ARと略す), CS,U N,VCに仮定してモデ ジャの周辺モデルで、分散構造を A ルベースおよび、ロバスト分散で解析した。 1群 50例の場合と 1群 1 0例の場合をそれぞ れ 2000回試行し、 AIC、 モデルベース分散とロバスト分散の差、推定値の分布、 p 値 の分布を検討し、検出力、 αエラーを最終時点と最初の時点との差に対する 2標本の t 検定の結果と比較した。 戸 ぺ nU υ h

42.

proc mixed data=AR methodニ r e m l ( e m p irical); class treat i d n o ; model scoreニ treat time treatヰtime / solution; repeated / type=(ar,c s,u n,v c ) subject=idno r rcorr; by sim; r u n ; 分散構造 TA C VJ O m m v d c d ' d n u P A σ2 J ' z ︑ ・ (VC)orSimple m 川1 ω α VarianceComponent σ2 UnstructuredCovariance First‑orderAutoregressive (UN) AR(l) σ1 1ー ヲ σ1 2 ー ヲ σ1 3ー ヲ σ14ラ σ2 2 ー ヲ σ2 3ー ヲ σ1 4ー ヲ σ33ラ‑ σ31ヲ . 】 σ2 σ44 2 3 . 1 .AIC モデルの当てはまりのよさを示す AICを指標にしてモデルを選んだ場合、 CS構造お よび ARタイプ構造のデータに対して、どの分散構造が選ばれるかを検討した。各分散 構造を仮定したときに AICが最小になった回数を以下に示す。 cs構造 ARタイプ Nニ50,s d 1二 1 5,sd2=15 5 N=10.sd1=15.sd2二 1 N=10,sd1=10,sd2ニ5 AR AR cs UN vc AR cs UN ♀ 1827 79 3 1 3 1915 72 1754 159 87 。 cs UN 1960 40 1847 。 153 vc 。ι 。 凶5. 1822 73 。 vc 。 。 1群のサンプル数が 50例の場合は、意図した分散構造か、 U Nを指定したとき AIC が最小になったが、 1群のサンプル数が 10例の場合は分散を正しく特定できないケー スがあった。 ぺU n pb

43.

3 . 2 .モデル分散とロバスト分散の差 t r e a t * t i m eを推定し、ロバスト分散とモデル分散の p 値の差がもっとも小さいもの cs構造のデータと ARタイプ構造のデータに対して、ど をモデルとして選んだ場合、 の分散構造が選ばれるかを検討した。各分散構造を仮定したときに、モデル分散とロバ スト分散の差が最小となった回数を以下に示す。 Nニ50,sd1=15,sd2二15 AR cs UN cs構造 。 381 1619 ARタイプ 57 1 0 1 1842 N二10,sd1=15,sd2=15 vc N=10,sd1=10,sd2=5 AR cs UN vc AR cs 33 561 1374 32 2 1092 906 323 301 1315 6 1 163 1250 587 。 。 UN vc 。 。 U Nを当てはめたときに、ロバスト分散とモデ、ル分散の差が最小となるケースが多い ため、 U Nを除いて、ロバスト分散とモデル分散の差が最小となる回数についても検討 した。 N二50,sd1=15,sd2=15 AR cs構造 cs N=10,sd1=15,sd2=15 vc 1998 ARタイプ 791 1208 2 N=10,s d 1二10,sd2=5 AR cs vc AR cs 8 1 1839 80 4 1996 930 923 147 322 1678 vc I 。 。 AR タイプのデータでは、 c s をモデルに誤特定してしまうケースが多かった。 sd1=sd2=15のケースで 1群の例数が 50例の場合と 10例の場合を比較すると、 1群の 例数が 10例の方がモデルの分散構造を誤特定してしまうケースが多かった。 3 . 3 .固定効果の推定 単位時間あたりのスコアの変化について P群と A 群の差を推定し、分散構造の誤特 定が推定値に与える影響を検討した。 ベ ! }Tre a tt i m eの推定値の分布 女 c s構造 c s構造 (N=50sd1=15sd2二 1 5 ) E E s t E s t ‑ 1 . 0 0 0 0 0 m ‑ 5 . 0 0 0 0 m ,‑4.0000 a t e ‑ s . o o o o ・ E ・ E .. . . E ARE ARM CSE CSM U N E 山M V C E V C M t t e 横軸 1 0 . 0 0 0 0 i 1 1 1 j │ト . .・.・; . . .. . . ARE ARM CSE CSM UNE UNM VCE VCM t le m o d e I 回 ・ (N=lQsd1=15sd2 ニ1 5 ) 回 m o d e I 最初の 2文字.指定した分散構造最後の i文字 :E二口バスト分散 M=モデル分散 円︐ t nべU

44.

AR構造 (N=10sd1二 1 5sd2=15) AR構 造 (N ニ5 0sd1=15sd2=15) E C8 0 0 5G ; lI i j l c事 4 . 0 0 0 0 ・ 0o c ‑o ‑ a t 息詰量可言台 E Est‑mate 巨 ¥ ‑ 1剛 e I I 組E 陥M ‑8.0000.. 園 I I I I •• I I I ロE 田 M l 劇E l 別M V C E V C M t t e 匝 田d e i Tr e a ttimeの推定値は、傾きとして設定した 合 3を中心にばらつき、分散構造の誤特 定の影響は認められなかった。 1群の例数が 50例の場合に比べて、 10例の場合には推 定値の分布のばらつきが大きかった。また、 UNをモデルに当てはめた場合にも、推定 値のばらつきが大きいようであった。 3 . 4 .検出力 τ r e a ttime の推定したときの標準誤差と p値に対する分散構造の誤特定の影響を検 合 討するために、 2000回の試行中 p値が 0.05以下となった回数の割合(%)を以下に示す。 me5とTi me1のスコアの差を A群と P群で t検定を用いて比較したときの p値と Ti 比較して、検出力が低いケースを網掛けで示す。 AR AR r o b u s t c s c s r o b u s t UN UN r o b u s t v c v c r o b u s t c s構造 Nニ50,s d 1ニ1 5,sd2=15 84 55 8 7 8 7 8 7 8 7 8 7 65 79 0 .s d 1ニ1 5,sd2=15 N二 1 3 1 6 33 26 37 33 33 9 20 N=10,s d 1ニ1 0,sd2=5 9 9 96 98 100 98 98 9 8 46 98 Nニ50,s d1 =15,sd2=15 89 83 88 96 90 89 88 63 88 N=10,s d 1=15,sd2=15 35 23 33 52 37 33 33 9 2 7 d 1= 10,sd2=5 N=10,s 99 96 9 8 100 98 98 98 46 98 ARタイプ構造 c s構造のデータでも ARタイプ構造のデータでも、分散構造に vcを当てはめてモ デルベースで解析したものの検出力が最も低かった。これは、相関のあるデータについ て無相関を仮定して解析しているためと考えられる。分散構造に ARを当てはめてモデ ‑ 検定より少し検出力が低かった。ロバスト分散を用いた ルベースで解析したものも、 t 場合の検出力は、いずれのケースでも t ‑ 検定の検出力以上であった。 nD qu

45.

3 . 5 .第一種の過誤 αエラー αエラーについて検討するために、 A群の分布を P群と同じに設定して作成したデー タについて同様に解析し、 treat*timeについて推定する試行を 2000回繰り返し、 p値 を順番に並べた。 100番目の p値の値を以下に示す。 P 値が 0.04未満のものについて 網掛けで示す。 AR AR r o b u s t cs cs r o b u s t UN UN r o b u s t vc vc r o b u s t t ‑ te s t cs構造 Nニ50,s d 1二 1 5,sd2=15 0 . 0 5 0 . 1 8 0 . 0 4 0 . 0 5 0 . 0 4 0 . 0 4 0 . 0 4 0 . 1 6 0 . 0 5 0,sd1=15,sd2=15 N二 1 0 . 0 3 0 . 1 7 0 . 0 3 0 . 0 5 0 . 0 1 0 . 0 2 0 . 0 3 0 . 1 5 0 . 0 5 N=10,s d 1ニ 1 0,sd2=5 0 . 0 3 0 . 2 5 0 . 0 3 0 . 0 5 0 . 0 1 0 . 0 2 0 . 0 3 0 . 3 5 0 . 0 5 N=50,s d 1ニ 1 5,sd2=15 0 . 0 5 0 . 0 8 0 . 0 5 0 . 0 1 0 . 0 5 0 . 0 5 0 . 0 5 0 . 1 7 0 . 0 6 0,s d 1=15,sd2=15 N二 1 0 . 0 3 0 . 0 8 0 . 0 3 0 . 0 2 0 . 0 2 0 . 0 3 0 . 1 5 0 . 0 5 N=10,s d 1= 10,sd2ニ5 0 . 0 3 0 . 1 1 0 . 0 3 0 . 0 2 0 . 0 2 0 . 0 3 0 . 3 4 0 . 0 5 ARタイプ構造 。 。 CS構造のデータで、 1群のサンプル数が 50例の場合には、 αエラーに大きな問題は ないようであったが、 1群のサンフル数が 10例の場合には、ロバスト分散をあてはめ ると、いずれの分散構造をあてはめても 100番目の p値が 0.05を大きく下回った。ま た 、 U Nのモデルベースでも 100番目の p値が 0.05を大きく下回った。網掛けで示し たところは、第一種の過誤を 5%に保つためには有意水準を 4%未満に設定する必要が あり、 5%で検定した場合に αエラーを保つことができないと考えられる。 A R構造のデータで、 1群のサンプル数が 50例の場合に、 CSを当てはめてモデルベ ースで解析すると、 100番目の p値が 0.05を大きく下回った。 AICを指標にした場合 に、分散構造に CSを誤特定してしまうケースは認められなかったが、ロバスト分散と モデル分散の差を指標にした場合は、分散構造に CSを誤特定してしまうケースが認め られた。 CSを誤特定した方が A Rを当てはめるより検出力がよいが、 αが保たれない ので注意が必要であろう。 A R構造のデータで、 1群のサンプル数が 10例の場合には、ロバスト分散を当てはめ ると、いず、れの分散構造を当てはめても αが保たれなかった。また c s、U Nを当ては めてモデルベースで解析した場合も αが保たれなかった。 円ud nぺU

46.
[beta]
4
. まとめ
1群 50例程度のサンプル数があれば、分散構造をかなり正しく特定でき、誤特定し

た場合にも、 ロバスト分散を用いて解析すれば、妥当な解析ができると考えられた。
一方 1群 1
0例程度のサンプル数の場合には、分散構造を誤特定するケースが増えて
しまう。誤特定によるバイアスの影響を小さくするために、 U Nを当てはめるか、 ロノ Y
スト分散を用いて解析すると αを保つことができない。
従って、非臨床の薬効薬理試験でサンプル数が少なく相関構造を正しく特定できない
場合には最終時点と最初の時点の差をとって 2標本の t検定で解析する方が適当である
と考えられた。
参考文献

医学研究における経時データ解析 SASI
n
s
t
i
t
u
t巴 Japan

τ
N1

0

;
"
p
sモ
Aμ -f/P~ ""千‑<91二 グ ょ ん )

A
Af‑

イ

五
ミ
オι‑;Jt
二

r

戸
空
‑
‑
i
;
:
t‑
ii
ぺ 1
"
t
rレ

ロ
1
.
. 7) /i;L ~ ̲

;;̲ ケ'" l ‘~ ~~ c
r

,)./ (:".q

jリ

r

γ(

~

c
7ラ
,
1
‑η 2
ピ占 f
J
;二

t
:
;
,
‑
.
4
ヲ
主 J fム、, ρ
ム~

ど

~.-,ー-・

;
, ̲
‑
‑

r
.
.

f

.

ミ

f_/ 県立~' )

タう 7 々 ~jø ̲,汚今
'i "

j

a

,

r

‑f;
主

ι,

it
'

l
'~

~

1,.
̲

?
Y
(寸>: ,,<、、 '
h
:

,
.ι シ

/

~

bガ

f
p

L守
、
ぜ

:
:
f
I;

‑4
0

47.

遺伝子発現データ解析における新たなクラスタリング手法 0迎 亮 * ・ 松 本 伸 哉 紳 ・ 相 崎 健 一 材 * ・ 菅 野 純 材 * *NTT コムウェア株式会社 CRM&ビリングソリューション本部 **日本 NCR株式会社テラデータ事業本部 ***国立医薬品食品衛生研究所毒性部 NewC l u s t e r i n gT e c h n i q u ei nGeneA n a l y s i s RyoMukae*/ShinyaMatsumoto**/Ken‑ichiAisaki***/JunKanno*** *NTTCOMWARECORPORATION/**NCRJapanL t d . a t i o n a lI n s t i t u t eo fH e a l t hSciences * * * D i v i s i o no fC e l l u l a randM o l e c u l a rT o x i c o l o g y,N 要旨 マイクロアレイから得られる大量のデータを効率よく解析するためには、何らかの方法で分類していくのが A S / E n t e r p r i s eM i n e r で可能な手法は 効率的である。分類方法の代表的なものにクラスタリングがあるが、 S 事前にクラスタ数を与える必要がある。マイクロアレイから得られる大量のデータを、果たしていくつのクラス タに分けるのが望ましいのか予測するのは実質不可能である。 A S / E n t e r p r i s eM i n e rの K‑Means法での結果を交えながら SAS/ACCESSソフトウェア T e r a d a t a 本稿は、 S インタフェースを介して、 RDBMSを利用した事前にクラスタ数を与える必要のない新たなクラスタリング手法 を紹介する。 マイクロアレイ、標準化手法、遺伝子発現データ解析、クラスタリング手法 キーワード: SAS/ACCESSソフトウェア T e r a d a t a インタフェース 1.はじめに 最近、生体の全遺伝子の活動状況を遺伝子発現デ唱ータとして、包情的に測定することが、 DNA マ 、ることにより可能となったσ 我々が国立医薬品食品衛生研究所 (NIHS)・毒性部 イクロアレイ技術を用 v と取り組んで、いるトキシコゲノミクスに関わる共同研究は、興味のある遺伝子を事前に選択してから解 析するのではなく、 3万以上におよぶ遺伝子を全て同列に扱うことを目的としているため、これら大量と なる遺伝子発現データを網羅的に分析する手法の確立が急務で、あったr 今回の共同研究の目的とし ては、生物学的な分類を可能にする何らかの方法を見出すことである n ‑4 1‑

48.

2 .マイクロアレイから得られるデータの標準化 異なった条件下で、実施された実験に由来するマイクロアレイデータを分析するためには、その標準化が 必須である ο 従来の標準化手法においては、再現性、定量性、異なった実験問や測定プラットフォーム聞の テ守ータ E換性などについて、種々の未解決の問題があった。これらに対して、 NIHS・毒性部は「絶対量化 P e r c e l l o m e )Jを開発し、サンプルの細胞 1個あたりの遺伝子発現量を求めることが可能となった。これ 手法 ( により、マイクロアレイの利用範囲が更に拡大すると期待されている。本手法に関する論文については、本 稿を執筆している時点ではまだ公にされてないが、近日中に公開される予定である n 3 .実験条件 異なる条件で得られた発現量を、 2 .で、述べた標準化を施すによって比較することが可能となる n 今回の 共同研究で対象としたデータは、以下の条件に基づいている、 投与化合物 対象生物/臓器 薬物投与量 経過時間 サンプル数 プロープセット数 X マウス / 肝 臓 (Liver) 全 4段階 全 4段 階 (2n 寺間 4時間 8時間 24時間) 各投与量、経過時間毎に 3匹ずつ計 48匹 45, 1 0 1Probe /マイクロアレイ 解析にあたっては、各投与量、経過時間毎に得られる 3匹のサンプルの平均値を用いたの 4 .K‑Means~去によるクラスタリング 最初に、一般的なクラスタリング手法であるI(‑Means 法を用いてクラスタリングを試みた。上記条件の実 験で得られた 48サンプルにおける遺伝子発現データを、全4段階の各投与量、全4段階の経過時間毎に 平均値をとり、 16次元のデータセットを対象データとし、 E n t e r p r i s eM i n e rのクラスタリンク守 ( L e a s tS q u a r e s )に かけたn 本稿では、実際に対象とした上記条件における遺伝子発現データのクラスタリング結果を掲載することが 出来ないため、イメージを掴んでいただくため、 100オブ ザベーションからなる 2次元モデ /レデータセットを P 作成し、このデータセットをクラスタリンクマすることにより新たな手法を説明する n 全オブザベーションの座標 a )のようになっている。これをクラスタリングし を掲載するのは割愛するが、このデータセットの散布図は図 1( b ) (こ示すように 15個に分かれることが期待されるハ た場合、生物学的には図 1( nJU A告

49.
[beta]
100オブ、ザベーションからなるモテ子ルデータセット

図1
(
a
)2次元プロット

L

.
.

‑‑

ー!

eH44R・

岬句

バ'由・・"︒川河・

11iH

.a

幡町・んー・﹃

・"‑‑︐ーZ 3

...

:
l
e

‑
令

••
F

0

a

m

む

‑‑zw::A :t:.︑ :ev‑‑32e ム 国
・
・

‑‑よ

・6 : ; : a '
‑‑一・!!

2

、‑
.

・
.

•
• ••

・' j

t

c
o

•

a

'0

:
"

伊・:・・:︐s:i‑‑eo‑‑‑r:::
︐白一・︑
・.邑﹃

田町四問

50

(
b
)期待されるクラスタリング結果

首3

"

安】

1
¥
ー
付l
e
a
n
s 法は、最初に入力としてK俗l
の初期シードを与え(我々は、これを「広義のスーパバイズ、ド、手法 J

と表現する)、 K個のオブザベーションが選択される一その後オブザベーションを追加しながらクラスタの平

Means 法は最初に選択され
均値を再計算していくことによって、クラスタに分ける手法である n このため、I<‑
る初期シードに大きく依存するの初期シードで結果が変わるとし、うことは、本来データが持つ生物学的な意
味合いがクラスタ結果にうまく現れない恐れがあるの本稿では、この後述べる新たなクラスタリング手法との
比較を分かりゃすくするために、図 1のモテ、/レデータセットを用いて説明する。先ほど述べたように、このデ

(
‑
M
e
a
n
s法により、異な
ータセットは 15個のクラスタに分かれることが期待されている、そこでK=15として [
る初期シードで 3回実行させた

n

次ページ図 2~4 に、 SAS/Enterprise

M
i
n
e
rでの出力結果 (
D
i
s
t
a
n
c
e
s
)と、クラスタ構成メンバを図 1(
a
)に

)と2回目(図 3
)は中心 (50,5
0
)のデータセット群のやや右側あたり
オーノ〈レイしたものを示す o 1回目(図 2
)に関しては、 1回目、 2回目で、みられなかった 3個目の 1つのオブ、
で分かれ方が異なっている 3回目(図 4

ザベーションからなるクラスタ(クラスタ 10毒)が出現し、分かれ方が初期シードに大きく依存する結果となっ
ている。

本来のクラスタリングの目的は、分布など挙動が未知のデータセットに対して、解析の糸口となる有意な
情報を得るためにおこなうものである 今回の共同研究は、まさにマイクロアレイから得られた挙動の分から
n

1
0
1 オブザベーションの 16次元データセットから、生物学的に有意な情報を得るためにクラスタリン
ない 45,

グをおこなうのだが、ここで、示した単純なデータセットで、さえ、初期シードにより結果が変わり、生物学的な分
類には向かないことが分かったへまた、予めしてつのクラスタに分かれるのが自然かを予測することは事実上

(
‑
M
e
a
n
s 法をはじめとする広義のスーパパイズド、手法は、我々の満是いく結果を得
不可能であることから、 [
ることが難しし、。

nぺU

Aq

51.

5 .スーパバイズ、ドからアンスーパバイズドヘ これまでに明らかなように、広義のスーパバイズ ド、なクラスタリンク守手法で、は、我々の望む結果が得られな かった この結果を踏まえ、事前にクラスタ数を指定することなく(我々は、これを「広義のアンスーパバイズド、 n : J Zめられた 原理的には階層的クラスタリンク守手法がこのニーズ 手法」と表現する)分類する手法が我々に : l にマッチするが、データセットの大きさからくる時間的や容量など、の制約から、そのまま適用するのには問題 があった円これらの制約から開放されるべく様々な検討の結果、密度ベースクラスタリンクeと階層型クラスタリ ングを融合した新たな手法を開発するに至ったの この手法は、オプザ、ベーション問の類似度を定義することから始まる。類似度の定義方法は、ユークリッド 距離、相関値など保々存在するが、今回は、全オブ、ザベーションの 1 6ポイントのデータを Z ‑ S c o r eにより標 準化し、 1 6次元ユークリッド、空間の距離を類似度として定義した。以下、この類似度の総当り計算が終了し たところをスタートにした、広義のアンスーノミパイズ、ド なクラスタリンク 手法を簡単ながら紹介する+ P 6 . RDBを利用したクラスタリング 総当り計算結果が 45, 1 0 1X45, 1 0 1主 2 2 . 5偲オブ、ザベーションとなることから、この 2 2 . 5億の計算結果から なるデータセットから、任意の条件を満たすオブ サ、ベーションをで、きるだ、け速く抽出する必要があり、 RDBを P e r a d a t a を使用し、 利用することが最も適している そこで、大量データ処理に適した NCR社 の T p S 八S /ACCESSソフトウェア T e r a d a t aインタフェースを介して SASと T巴r a d a t aを接続する環境を整え、 I m p l i c i tパススル一日手ばれる方法で、実装したの予め T e r a d a t a 'こ使用する全てのテーブルを作成しておき、 lつの SQLプロシジャを 1 ファイノレとした手順毎の S A Sファイノレ(例 1 )を 、‑ S Y S I Nオフ ションを含んだ、パッチモ q )でクラスタリングが実行される、次ページ以降にアルゴ リズム概要を記 ードで、実行するパッチファイノレ(例 2 述する。 p r o cs q l ; d e l e t ef r o mt e r a l i b . t b l ̲ s i m l a r ̲ e x t r a c t ; i n s e r ti n t ot e r a l i b . t b ls i m i l a re x t r a c t r o mt e r a l i b . t o l ̲ s i m i l証r i t y s e l e c t牢 f =0.6; w h e r es i m i l a r< q u i t ; c u ss a a c u ・ ‑ + U 1﹁ 一一 2unu nunv +しふL F+l 白ν 1X S5 1n1 unu 一一 1 1 1nulnu n川 n川 +し+し u 内 ・ 1・ 1 u 内 一 一 unb vyvy ︑ 内 unb ︑ 内 eocd ︑ 内d︑ 内d d斗& Ru

52.

( 1)類似度の定義 オブザベーション同士の類似度を定義し、全オブザベーション聞の類似度を総当り計算したデ、ータセット を作成するつ今回の 100オブ ザベーションからなる 2次元のモデ Jレデータセットの類似度を表 1に示す(正確 y には小さな値ほど類似性があるため、非類似度と呼ぶのがふさわしいが、便宜上類似度品、う言葉を用いる ことにする)。 表 1 類似度データセット g e n ea g e n eb s i m i l a r 0 0 1 d 0 0 1 d 1 . 4 3 2 d 0 0 1 d 0 0 2 1 7 . 8 1 3 d 0 0 1 d 0 0 3 . . . 100x100=10,000オブザベーション . . . ・ ・ ‑ 5 . 3 1 2 d 1 0 0 d 0 9 8 0 9 9 9 . 3 3 2 d 1 0 0 d d 1 0 0 d 1 0 0 。 a 。 ( 2 )入力パラメータとクラスタ直径の定義 類似度関値 α 、密度 d、クラスタ最大直径 Rを与える。今回の例におけるクラスタ直径は、同一クラスタ内で もっとも類似性が低い値 (=2点聞の距離が最も長い値比定義したn ( 3 )Coreの抽出 ( 1)の類似度データセットから全オブ、ザベーションに対して、聞値 αより小さい相手個数が d個以上存在 するオブ、ザベーションを抽出するO ここで 抽出されたオブ、ザベーションを iCoreJと名づけるn 図5 Cor e ~ Coreの例 / Cor e ¥←ーー一一'yーー一̲̲; 通園 Core α d=3の場合、 α以内に 2個以上相手がし、れば C o r eとなる。自分同土の類似度は 0である ( 4 )クラスタの抽出 ( 3 )で抽出された Coreで、闇値 α以内存在するもの同士は、同じクラスタに属しているとする。また、この α 以内の類似度で、結ばれたオブザベーションを通って至l]達が可能なオブ、ザベーションは全て同じクラスタ に属しているとする。 図6 同一クラスタの例 ¥←一一‑y一一̲̲; α α以内の類似度で結ばれたオブザベーションを通って到達が可能であるものを同じクラスタとする ‑46‑

53.

( 5 )クラスタ直径 rの算出 ( 4 )により、 αに依存するクラスタができあがるので、 ( 2 )で、定義したクラスタ直径r を算出するの の例 図 7 クラスタ直径 r 同ークラスタ内で佳も遠いオプ ザベーション同土の類似度がrとなる ( 6 )擬似階層の作成 αを適当に動かし階層的クラスタリング手法を応用し、擬似階層を作成する ι 図8 50 (1 " 10 35 30 25 20 15 擬似階層クラスタリング 一 一 一 一 一 ‑ r一 r ‑ 一 一 一 一 一 ー ' ‑ , . ‑ 一 一 「 一 一 一 一 ー . ̲ , ー ー 「 r . ‑ ー . . . , . . . . . . ̲ ̲ ̲ ̲ , ー 「 I 円 s = i'1 1 1'1 1l'11 1 1'11111 釘f ! 直 αを順 i こ大きくしていき、疑似階層をつくる。図におして債線となったところが該当する αにおけるクラスタを意味している ( 7 )最終クラスタの完成 ( 6 )の結果、 r<Rを満たすクラスタで、もっとも緩い αとなる部分のクラスタのみを採用し、それを最終的な クラスタとするの 図9 クラスタの完成 ‑ 今 ¥一一一一、f 一一一一ノ R rく Rを満たす灰色部分が厳終クラスタである。もう l つ外のクラスタは大きくなりすぎ (Rを上回り)実用的でなし、ことからクラスタと認めない ‑47‑

54.

※クラスタに所属するメンバの種類について ( 7 )の結果、最終的なクラスタとして認められたクラスタに属しているオブ ザ.ベーションをRig o r o u s、 F R i g o r o u sからの距離が Rを超えなしものを S h e l l、最も緩い αにおいて、クラスタに属していないオブザベー n i q u e、他のオブザベーションが存在す ションのうち、 α以内に他のオブザベーションが存在しなしものを U s o l a t eと名づける。(図 11の注釈を参照) るものを I 7 .モテ、ルデータセットへの新たなクラスタリングの適用結果 この手法を使って、先のI<‑Means法で使用したモテ£ルデータセットをクラスタリングしてみたところ、図 10 のように 15 個のクラスタに分けることが出来た 実線部分が R i g o r o u sとなる範囲、点線部分が SheIlを含めた A クラスタであるの密度をベースにしていることから、最も密度が薄い部分は、期待どおり単独からなるクラスタ に分かれている(クラスタ 4番、クラスタ 6番、クラスタ 10番、クラスタ 12番)ことが確認できる。 図 10 今回開発したアンスーパバイズドな手法によるクラスタリング結果 100 90 日0 70 60 50 40 30 20 10 実線内が R i g o r o u s、点線内が S h e ! !である。また、 U n i q u e1 : l :4オプザベーション、 I s o ! a t eはクラスタ 14番の 2オブrザベーションである ‑4 8

55.

8 .まとめ I ¥‑Means 法、階層的クラスタリング手法の限界から、今回のアンスーパバイズ、ド、なクラスタリンク、、手法の開 発に至った九一番の問題は、その入力となる類似度の計算結果は 20億を超える巨大なデータセットである n Teradata と SAS System とし、う、それぞれ大量データの扱いに長けたソフトウェアを利用し、ある程度満足 いくクラスタリング結果が得られたが、類似度および最大直径の定義方法をはじめ、実行に長時間かかる 点、クラスタリング結果の考察方誌が未完成であることなど今後解決すべき課題も多い η 参考文献 [ 1JM a r t i nE s t e r,Hans‑Petcr1 くr i巴g e l, J o r gSandcr,X i a o w c iXu:A Density‑Bas巴dA l g o r i t h mf o rD i s c o v e r i n g C l u s l e r si nLargeS p a t i a lDatabasesw i t hN o i s e .ACMSIGI ¥DD1996 [ 2 J室 伏 将 成 SAS/ACCESS ソフトウェア Teradata インタフェースの紹介, (SUGI‑J)2002 論文集 p289‑p297 ‑4 9 日本 SASユーザ会

56.

ランダム化比較試験における治療開始後変数で定義されるサフグループ聞での平均 因果効果の推定 0森 田 智 視 1 ・ 松 山 裕 2 京都大学大学院医学研究科医療疫学 l,東京大学大学院医学系研究科生物統計学 2 E s t i m a t i o n oft h e Average C a u s a lE f f e c t among t h e Subgroups D e f i n e d by t h eP o s t t r e a t m e n t V a r i a b l ei naRandomizedC o n t r o l l e dT r i a l S a t o s h iMorita/YutakaMatsuyama n i v e r s i t yGraduateSchoolofMedicine SchoolofP u b l i cH e a l t h,KyotoU SchoolofHealthS c i e n c e sandNursing,U n i v e r s i t yofTokyo 要 己治療開始後に観測される変数で定義される患者サブグループ聞において治療効果の比較が行わ 日 れることがある。そのような解析には、たとえ治療法がランダムに割り付けられていたとしてもサブ 治療後選択バイアスというパ壬72JJi生じてし?う。こ p r i n c i p a ls t r a t if i c a t i o n )"を行いバイアスのない推定値を得るという考え方 の問題に対して 主要層別 C v e r a g eC a u s a lE f f e c tと呼ばれる治療開始後の変数 が最近提案され、この考え方に基づき ResponderA で定義されるサブグループでの平均因果効果の推定方法を提案する。計算は、重み付き解析のでき W e i g h tステートメントまたは F r e qステートメント)を用いれば実行可能である。本報告では、 るプロシジャ C 抗がん剤に対する奏柳1 ] (腫虜縮小効果が観察された患者)における雪期間の群間比弱を行うた 1こ は 、L o g i s t i cプロシジャにより推定した、割り付けられた治 めに MIXEDプロシジャを用いた。 重み " 療法ではない他方の治療を受けた際の反応確率の予測値を用いる。また、本論文で提案する推定方 法の性能をシミュレーション実験により評価したので結果を報告する。 キーワード: サブグループ解析、主要層別、治療開始後変数、 MIXEDプロシジャ、 LOGISTICプロシジャ L はじめに 臨床試験において、治療不遵守(ノンコンフ。ライアンス)や結果変数の欠測が、治療効果の 群問比較を行う際に問題となることがある。これらの治療開始後のイベントによって生じる選択 0 0 2 ; バイアスを補正する方法はこれまでいくつかの研究がなされている (Matsuyama,2 Matsuyama,2 0 0 3 )。それらの手法は、本来観察すべきで、あった(もし治療不遵守や欠測デー タが存在しなかった場合に観察されたで、あろう)群間差の推定を治療開始後に観測される情 報を利用して行うものである。しかしながら、 QOL データを経時的に観測している状況におけ る「死亡例」のように、そもそも結果変数自体が存在し得ない、あるいは結果変数を観測するこ od e a t h(Rubin,2 0 0 0 ) )においては、上 とが完全に不可能となる状況 (censoredoutcomesduet 記の手法をそのまま適用することは概念的に難しい。 癌臨床試験において、抗癌治療に反応した(腫蕩縮小効果の見られた)患者サブグ、ループ における奏効期間(腫痕縮小の持続期間)の解析も、奏効期聞は反応者のみで観測されると ﹁円U 1i

57.

いう理由から上記の QOLの例と同じ範曙に入る。反応者に限った解析を行う臨床的動機とし て、「癌腫壌の増殖を抑えることで健常な身体機能をできる限り維持し、その延長線上にある 延命効果を期待する。したがって、腫虜縮小が得られる反応者をターゲットグループとする Jと いう考え方があると思われる。しかしながら、腫揚縮小効果は治療に関係していると考えるのが 自然であり、主と主哩盟主' 7と 夕 刊 め ず い q 鮮 問 監 企 邸 宅 塑 笠 群 主D反応者はも 1まや比棄宣~~能ヱi主主心。そのため、反応者のみを解析対象とした奏効期間の 比較にはバイアスが生じる (Rosenbaum,1 9 8 4 ;R o b i n sa n dG r e e n l a n d,1 9 9 2 ) 。治療後の変数 (一種の結果)で層別・調整した推定量に生じるこの種のバイアスは、治療後選択ノ〈イアス ( p o s t t r e a t m e n ts e l e c t i o nb i a s )として知られている。 最近、 F r a n g a k i sa n dR u b i n( 2 0 0 2 ) は、この治療後選択バイアスの問題に対して治療後の変 数に関する主要層別 ( p r i n c i p a ls t r a t i行c a t i o n )としづ考え方を提案している。すなわち、比較 するそれぞれの治療のもとでの治療後変数の潜在的な値の同時分布によって患者集団を分 類することを考える。上で、述べた腫虜縮小の例で、は、患者対象集団を以下の 4つの潜在的な サフ守ク、、ループに分類で、きるとする。 @ 段 以 減 法i 主主 2 ) どちらの治療を受けたとしても反応しない集団 3 ) 標準治療では反応するが、試験治療では反応しない集団 4 ) 標準治療では反応しないが、試験治療では反応する集団 治療後の変数(イベント)で、定義されるサフーグループで、の平均因果効果 ( a v e r a g ec a u s a l e 仔e c t ) は、主要層則されたグ、/レープ内で、の関心のある潜在結果変数の比較で、ある。主主台 ち、そもそもどちらの治療を受けたとし立返忠よ主色空豆土主~隼盟主担こ 盈皐盟を群聞で比較すること巳主る。 iLC 主要層別ア之旦二?の:f-一主イとtJ~~ 層担玄翠ii­ 望者の潜在的な堅三也型二年齢どりベースラσ 整担笠1こ 1台嬰ιょっ-:C~聾室 三l t 主じよしこう三と:c"ある。ー e s p o n d e r 本論文では、この主要層則されたサブグ、ループにおいて得られる因果推定量:R A v e r a g eC a u s a l E仇 c t(RACE) の推定方法を提案し、その性能をシミュレーション実験により 評価したので結果を報告する。計算は LOGISTICプ口、ンジャと MIXEDプロシジャを用いるこ とで容易に実行可能である。ある患者が他の治療法を受けていた場合に反応していたかどう かは反事実変数 ( c o u n t e r f a c t u a lv a r i a b l e )なので、対象者がどの潜在サブ グ、ループに属する かは直接観察できない。したがって、治療群ごとの反応確率(重み)を LOGIST lC プロシジ、ヤ により推定し、他の治療法を受けていた場合に反応していたかど、うかをそのモデルから予測す ることを考える。推定された重みを MIXEDプロシジャにおいて W e i g h tステートメントで扱うこと により RACEの推定を行う。 巳U 白 つ

58.

2 .Responderaveragecausale f f e c t(RACE) の推定 2 .1 . RACEの定義 2つの治療法:標準治療 ( z= 0 ) と試験治療 ( z 1 )を比較するランダム化癌臨床試験を考 二 える。│抗癌治療剤に王万誼房両長示五百五元戻志者云、の奏効期間の比較怯例にして、 2つ の結果変数:反応者かどうか ( r= 1i fresponse,r= 0i fnotresponse) と奏効期間 ( y ) を想定 する。反応するかどうかに影響を与えるベースライン予後因子を xで表す。ここでは、治療 に対するコンブライアンスは 100%であり、欠測は存在したとしても完全にランダムな欠測 η に関する群間比較であるが、腫蕩縮小がみ とする。ここでの推測の目的は、奏効期間 ( r= 0) に対しては、奏効期間は観察されない。 られなかった対象者 ( 対象者 i ( i=l, ' ・, .N)に 対 し て 標 準 治 療 と 試 験 治 療 そ れ ぞ れ に 対 す る 潜 在 結 果 変 数 R, ( z )と, Y( z )を導入する。 R j( 1 ) i番目の対象者が「試験治療」を受けていた場合に腫蕩が縮小するかどうか R, ( O ) i番目の対象者が「標準治療 J を受けていた場合に腫療が縮小するかどうか , Y( 1 ) , Y(0) i番目の対象者が「試験治療」を受けていた場合の奏効期間 i番目の対象者が「標準治療」を受けていた場合の奏効期間 治療に反応するかどうかに対する平均因果効果は E [R, ( 1 )‑R, ( 0 ) ]と定義される (Rubin, 1 9 7 4 ;HoI land,1986)。治療法のランダム化が正しくなされていれば、この観測不能な平均岡 一 塁 塾 去 は 試 験 治 療 群 で の 反 応 割 合 か ら 標 準 治 療 群 で の そ れ を ヲl し、たものとして ヤ[R,[Z,=l]‑E[R,[Z,=叫こよって観察データから推定可能である。 η に関する群問比較は上のように単純ではない c 現在、標準的に行われてい 奏効期間 ( る解析は、ふ瓜ムル孔よふえでの群間比較 必に3‑ E[Y , ( 1)[Z,=1 l E[ , Y(O)[Z =0,R, ( 0 )=円である。しかしながら、これらの 2つのサブグループはこ笠 こ vヘ】ハ」ノ、〆....̲." 比較可能で与はないので、この比較から因果効果を求めることはできない。 この問題に対して、 F r a n g a k i sandRubin( 2 0 0 2 ) は、以下の ( 1)式で表現される主要因果効 果 ( p r i n c i p a lc a u s a le 仔e c t ) を提案した。 ︑ 也 ) l r a E[ , Y( 1 )‑, Y(0)[R, ( 1 )=R, ( 0 )=1 ] ( 1) 式 で も と ま る 平 均 因 果 効 果 は 、 ど ち ら の 治 療 法 を 受 け た と し て も 反 応 す る 患 者 集 団 ( t r u er e s p o n d e r ) での奏効期間の平均的な違いである。サブ グ /レープを定義している変数は、 F にd つリ

59.

各患者が持っているベースラインでの潜在的な特長 (R , ( 1 )と R, ( 0 ))なので、標準的な解 析方法のような治療後選択バイアスは生じない。また、そもそもターゲットとしている集 団が「反応者」なので、 ( 1)式が求めたい平均因果効果の定義となる。 2 . 2 . 推定方法の提案 (1)式を推定するために潜在結果変数に対する以下のような仮定をおく。 R, ( 1 ‑Z ) l J , Y( z )1X ( 2 ) l JBICは、変数 d は変数 Cの全てのレベルを条件付けたもとで、は変数 B と統 ただし、 A 計的に独立であることを意味する。仮定 ( 2 )が成立していれば、反対の治療法を受けた場 合に腫揚が縮小するかどうかは、ベースライン共変量 X を与えたもとでは、結果変数であ る(観測不能な場合も含む)奏効期間とは独立であることになる。したがって、次式が成 立する。 P r [尺( 1‑z)=11, Y( z ),X]= Pr[R ( 1‑z)=1IX] j この仮定のもとで、南扇詞において、どちらの時法を受けたとしても反応する患 者集団での平均奏効期間は、 E[ , Y 1Z,=1, R, =1, Rj ( 0 ) = 1 ] , ( 0 ) = 1 ] , YI Z ,=1, R, = 1 ] =E[I[R =民; ( 1 ) . X , [E[I [ R j ( O )=1 ] , Y1 z ,=1 , R,=1 , Y , ( l ) , Xj] J ( 3 ) I Z ス =E[Pr[R , (0)=11Y , ( l ) よ, Y ] ,=1 = 1 J =E[ P r [R , ( 0 )=1 1X ] , YI Z , =1 ス=1J と式変形できる。ただし、あるイベント D に対して、 I ( D )はイベントが起きるかどうかの 指示関数である。 同様に、再開問こおいても、次式が成立する。 z E[ , Y 1 ,=O, R,=1 , R j( l )=] 1 =E[I[R , ( l)=1] , YI Z ,=O, R, = 1 ] , (川 =Ey ニ [ E [ I [ R j( 1)=1] , Y 1Z,=O, R, =1, Y( 0 ),Xj] J ( 4 ) I Z E[P 収, ( 1)=11, Y( O ) ぷ, y ] ,=O,Rj=1J I Z =E[P r [ R j( 1 )=1 1X] , Y ,=0 , R, =1 J したがって、求めたい RACE ( 1 ) 式は ( 3 )式と ( 4 )式の差であり、観測されるデータをもとに 次式 ( 5 ) により推定可能である。 phd sq

60.

E[Pr[R , (O)=I[X , ] Y , [Z ,=1, R, = 1 ] ‑ E[Pr[R , ( 1)=I[X , ] Y , [Z ,=O, Ri=1] ( 5 ) ( 5 ) 式を推定するための提案する推定および計算の手順は以下の 3つのステップである。 1 )ロジスティック回帰モデ、ルを用いて、反応確率をベースライン共変量の関数 として治療群を考慮して(治療群ごとに)モデル化する 2 ) 反対の治療群における回帰係数の推定値を用いて、ある対象者が他方の治療を 受けていた場合に反応する確率の予測値を LOG1STICプロシジャで計算する 3 ) 各治療群における反応者の奏効期間を手順 2 )で推定した確率で重み付ける 本研究で扱う奏効期間の例では、 2群聞の平均値の差に関心があるので、重み付き回帰分 析をすればよい。したがって M1XEDプロシジャの Weightステートメン卜で推定した重み を指定する。ただし、重み付き解析であてはめているモデルでは個人間での治療効果の一 様性を前提としているが、因果効果の定義ではそのような一様性は必要ではない。したが って、あてはめたモデ ルの分散関数は間違っているので、通常のモデル分散は妥当ではな い。我々は次の 2 つの方法で信頼区間の計算を行った。一つ目はいわゆるロバスト分散 (Huber ,1967) を用いた方法である。このロバスト分散は、保守的な信頼区間を導くことが 9 9 9 ;Robinse ta l 2 0 0 0 ) 0 2つ目は 重み"の推定誤差を考慮、したロ 知られている (Robins,1 叫 バスト分散(付録参照)を用いたものである (Robinse ta , . l 1994)。 本論文で、扱わなかった他の解析、例えば、生存期間の比較、経時データの比較であって も、それぞれの重み付きの解析をすればよいだけである。すなわち、計算には特別なマク ロを作成する必要もなく SAS'こ用意されているプロシジャを用いて容易に実施可能である。 2ふ 解 析 例 解析の対象となるデータは次のようなものである。 200 Inu‑‑1 1 0 1 102 17.2 3 4 .6 n ロ・・:ハ口 組斗 CO Inu‑‑ ー data race: input subject group r cov time: cards: 7.6 5 5 1 0 2 0 15.2 3 0 5.8 0 1 1 9 . 1 1 groupは対象者 s u b j e c tが受けた治療法を表し、 r は対象者が反応したかどうかを表す o covは共 e . g .,s u b j e ct =2and 1 0 2 )では、 t i m e 変量、 timeは奏効期間を表す。反応が得られなかった対象者 ( にデータは入っていない。 5 5‑

61.
[beta]
[手順 1
] ロジスティック回帰モテ、/レ
次式のモデ、ルを用いる。丸、 x
;は 2
.
1 のとおりであり、 αO,groUf' とαI,[!,rouf'はそれぞれ治療群ごと

;に対する回帰係数である。
の切片と X

e
x
o
(
α
n̲
̲ +
α.
̲̲̲Xl
P
r
[R
;=1X
;
]=̲ ‑¥
I
‑
'
1
'
>
"吋
・¥
, ,
‑ 1
+e
x
p
l
α
0
.1:'岬 +
α1.gro叩 X,
)
川 口 叩

[手順 2
] 反応確率の予測
次のような L
OGISTICプロシジャと簡単なデータステップρにより反応確率の予測値すなわち重み
u
t
e
s
tオブ。ションで回帰係数の推定値などを o
u
t
e
s
tデータセット
を計算する。 Procステートメントの o

にはきだしている。最後の Weight データセットを作成する過程で、他方の治療を受けた場合の反
応確率の予測値を計算する。

p
r
o
cl
o
g
i
s
t
i
cd
a
t
a
=
r
a
c
ed
e
s
c
e
n
d
i
n
gc
o
v
o
u
t旦民主皇呈主三弘註旦豆主;
c
l
a
s
sg
r
o
u
p/p
a
r
a
m
二r
e
fd
e
s
c
e
n
d
i
n
g
;
r
っハ ~( '~;_一二 F ";'C' C
model r
ニc
ov group group*cov / covb;

C
>ム

A)eJ'Z

‑

!守'-~;;、レ

data outest; set outest;
i
f ̲type̲='PARMS' then output;
keep Intercept cov groupl grouplcov;
data outest; set outest;
covnl=cov;
keep Intercept covnl groupl grouplcov;
data outestl; set outest;
do i
=
l to 200; output;end;
data weight;
merge race outestl;
i
fgroup=Othend
o
; xb=i
ntercept+group1
+(
c
o
v
n
l+grouplcov)*cov;
wp=exp(
x
b
)/(
1+exp(
x
b
)
)巴
;n
d;
else i
f group=l then d
o
;
xb二 intercept+covnl*cov;wp=exp(xb)/(l+exp(xb));
e
n
d
;
run;

[手順 3
] 重み付き回帰分析の実行
次のような MIXEDプロシジャを用いる。

nhu

υ
に

62.

E ' 一 ﹂円川 + L し v gb 気U ρ w 一 ‑ ・4 I4 M ﹂ ︐ 一 +L‑ a AU V︽ 白 ρu AUV ‑la : m μ 円 CWF o r i class subject group; modeIti m巴 二 group/soI u ti onnoi n t ; 旦 記 且 : t . . . M ! . repeated / sub 二 subject; estimate ' d i f f s ' group ‑ 1 1/ c l ; r u n . p r o cステートメントでロバスト分散を計算するために e m p i r i c a lを指定し、 whereステートメントで反 j 頃2で推定した wpを weightステートメント 応した対象者だけに解析対象者を限定する。重みは手l で指定する。なお、重みの推定誤差を考慮したロバスト分散を推定するためのフ。ロク苧ラムは紙面の 都合上割愛する。興味のある読者は著者に連絡を頂きたい。以下に実行結果を例示する。 Solution for Fixed Effects Standard group 。 Effect group group Estimate Error DF t Value Pr >Itl 7 0 . 8 1 5 2 1 . 9 6 2 4 1 4 9 3 6 . 0 9 く. 0 0 0 1 7 6 .6 6 7 5 1 . 7 0 8 3 . L 1 9 . 4 4 . 8 8 く. 0 0 0 1 Pr Estimates Standard LabeI Esti mate Error DF t Value diffs 5852 4 . . 2 . 6 0 1 7 1 4 9 2 . 2 5 >Itl 0 . 0 2 6 0 Alpha Lower Upper 0 . 0 5 07113 ユ旦~企ー S o l u t i o nf o rFixedE仔e c t sでは、各群における平均奏効期間(日)の推定値が出力されてい 5 1人の反応者 ( r二1)が含まれているため自由度は 1 4 9に る。解析に使用したデータ例には 1 なっている Estimatesに群間差に関する結果が出力されている。新治療群の方が 5 . 9日平均 奏効期間は長いとしづ結果が得られた。重みの推定誤差を考慮した場合、群間差の 95%信 1~ 1 0 . 5 9 であり、単純なロバスト分散より少しリベラルに推定されて 頼区間の計算結果は、1.1 いる。 3 .シミュレーション実験 提案した推定方法の性能を評価するために、シミュレーション実験 ( 1 0 0 0回)を行なった。 ‑57‑

63.

3 . 1 状況設定 L 2群比較: group=O(標準治療)、 g r o u p = l ( 試験治療) 対象者数は 100例/群と 1000例/群の 2通り 2 . 反 応 ( 昂 =1 ) を次のロジスティックモデルから発生 e x p ( α O̲ roun +αIX, +rJ P r [ R ,= 1 ]= 川 V 1+ e x p ( α O.J.:ro叩 + α IX;+ r ; ) l ' 共変量x;は N(1 O , 202)から発生 0 g( 1 .0 7 ) :x;が 1 0増加すると反応のオッズがおそよ 2倍 ーαI二 1 αO , group=1 .3 5,0 . 5 8,‑ 0 . 0 8,‑ 0 . 6 9 ー ,1 . 2 8, ・ 1 .9 3,‑ 2 . 7 0と群内の反応確率が それぞれ 80% ,70% ,60% ,50%, 40%,30%,20%になるように設定 ,は N(O, 1)から発生 ランダ、ム効果 r 他方の治療法を受けていた場合に反応していたかどうかについても同じモデ、ルから データを発生 3 .結 果 変 数 民 2 .で反応がみられた対象者について結果変数を次のモデノレから発生 R=βO, p ,roup +X, +ε t 一 ( β 0,0 , β ' 0 . 1 )= ( 5 0 , 6 0 ) ーランタ守ム誤差 ε 2は N(0,52)から発生 r , , & , )は相関 0 . 8の 2変量正規分布から発生 一誤差項 ( 4 . 比較する推定方法 1 )標準的方法(反応のみられた対象者のみで解析を実施) 2 ) 提案する方法(なお信頼区間の推定にロバスト分散と重みの推定誤差を考慮、し たロパスト分散の 2通りを使用) なお、真値はどちらの治療を受けた場合でも反応する対象者で解析した結果とする。 5 . 各治療群での反応確率は表 1に示す 7通り 3 . 2 シミュレーションの結果 , の群間差に関する結果を示す。 表 1に結果変数 Y Fhυ n 口

64.

表 1 結果変数 Y の群問差の推定値に関するシミュレーション結果 反応確率 No 試験 提案する方法 標準 B i a s 標準的方法 95% MSE 95% a C o v e r a g e B i a s MSE 95% C o v e r a g e 99.4% ‑ 3 . 9 1 2 8 . 7 6 .0% 91 C o v e r a g eb 各 群 の 症 例 数 =1 0 0 80% 60% ‑ 0. 46 1 2 . 1 7 98.8% 2 70% 50% ー 0. 37 1 4 . 7 2 97.8% 98.9% ‑ 3 . 9 8 3 2 . 5 0 88.2% 3 60% 40% ー 0. 49 1 9 . 5 8 95.2% 97.8% ‑ 4 . 0 4 3 7 . 1 5 88.1% 4 50% 30% ‑ 0. 44 2 6 . 9 6 93.8% 96.2% ‑ 4. 37 47. 21 86.1% 5 40% 20% ー 0 . 7 9 4 5 . 0 3 88.5% 92.3% ‑ 5 . 5 5 7 9 . 6 1 80.5% 6 60% 60% ‑ 0 . 1 0 1 3 . 7 1 97.7% 99.9% 5 . 8 8 0 . 0 3 1 100.0% 7 40% 40% 0 . 0 2 2 4 . 5 8 94.4% 96.6% 0 . 1 9 2 7 . 6 2 98.2% 各 群 の 症 例 数 =1 0 0 0 8 80% 60% ー 9 70% 50% ー 1 0 60% 40% 1 1 50% 30% 1 2 40% 1 3 1 4 0 . 5 6 1 .5 2 95.2% 97.4% ‑ 3 . 9 2 1 6 . 7 4 0.0% 0 . 5 2 1 . 70 95.0% 96.6% ‑ 4 . 0 1 1 7 . 6 4 0.4% ー 0 . 5 7 2 . 1 9 92.9% 95.2% ‑ 4 . 1 3 1 9 . 1 7 .3% 1 ‑ 0 . 6 1 3 . 1 1 91.6% 95.3% ‑ 4. 47 2 2 . 9 2 4.9% 20% ‑ 0 . 7 2 4 . 6 4 90.5% 92.7% 24 3 2 . 1 1 ‑ 5. 6.8% 60% 60% 0 . 0 0 1 . 36 98.1% 99.0% 0 . 0 1 1 .60 99.4% 40% 40% ‑ 0 . 0 1 2 . 6 0 96.5% 97.1% 0 . 0 4 2 . 8 3 97.3% a 重みの推定誤差を考慮したロバスト分散を使用した 9 5%信頼区間 b 重みの推定誤差を考慮しないロバスト分散を使用した 95% 信頼区間 表 1の各列に結果変数 y ;の群間差の推定値に関するバイアス、平均二乗誤差 (MSE)、 95% c o v e r a g eprobability を示す。表の 1~5 行目、 8~12 行目の反応確率の組み合わせで は標準的方法に比べて 提案する方法の方がバイアスおよび MSEは小さい 一重みの推定誤差を考慮したロバスト分散を使った場合、 c o v e r a g ep r o b a b i l i t yは名義 水準の 95%に使い値をとる 一標準的方法ではバイアスが相対的に大きく、その大きさが c o v e r a g ep r o b a b i l i t yに反 映されている これらの結果はサンプルサイズによって大きく異ならない ことが示された。 6, 7行目、 1 3, 1 4行自のように反応確率に群間差がない場合、すなわち治 療後変数である腫蕩縮小効果に治療法によって差がない状況では、いずれの方法でもバイ アスは小さかった。 円吋 υ RU

65.

5 .考 察 本論文では、抗癌治療に反応した対象における結果変数:奏効期間の群間比較を例にと り上げた。提案する方法の適用範囲は広く、治療開始後に観測される変数で調整した上で 群間比較を行うような解析に用いることが可能である。例の l っとして、試験期間中に死 亡が起こるような疾患領域における q u a l i t yo fl i f e (QOL) の評価がある。 QOL調査票への 単純な記入漏れあるいは健康状態悪化のために記入が不可能であった場合にはそれらの対 象者を含む対象者全体を推測のターゲットとすることが目標となる。しかし、死亡のため に QOLデータ欠測が生じている場合には、死亡後の QOLを考えることは概念的に無理が 2 0 0 2 )、生存している限定された対象者において因果効果を推定 あり F r a n g a k i sandRubin( することが妥当であると考えるべきである。我々が提案した方法は、特殊なプログラミン グを必要とせず LOGISTICプ口、ンジャと MIXEDプ口、ンジャに簡単なデータステップを組み 合わせることでとても容易に計算を行うことができる。これは提案した方法の大きな利点 2 ) の仮定の上に成り立っている。 である。しかしながら、提案する重み付き解析は、式 ( 2 ) はベースラインの共変量を主主た上で結果変数と反事実変数である反応の指示変数 式 ( が独立であるこ左を仮定している。この仮定は観察されたデータによって検証することは 不可能である。未測定の共変量がないという仮定を近似的に保証できるほど十分な共変量 をデータとして収集するか、あるいは仮定が推定結果にどのような影響を与えるかを調べ る感度分析を行う必要があるだろう。 6 .参考文献 F r a n g a k i s,C .E .andRubin,D .B .( 2 0 0 2 ) .P r i n c i p a ls t r a t i f i c a t i o ni nc a u s a li n f e r e n c e .B i o m e t r i c s 58,2 1 ‑ 2 9 . H o l l a n d,P .W.( 1 9 8 6 ) .S t a t i s t i c sandc a u s a li n f e r e n c e( w i t hd i s c l l s s i o n ) .J o u r n a lo f t h eAmerican S t a t i s t i c a lA s s o c i a t i o n8 1, 9 4 5 ‑ 9 7 0 . Huber P .J .( 1 9 7 6 ) . The b e h a v i o ro f maximum l i k e l i h o o de s t i m a t e su n d e rn o n s t a n d a r d c o n d i t i o n s .I n :P r o c e e d i n g s oft h eF i f t hB e r k l e y Symposium i nM a t h e m a t i c a l 2 2ト2 3 3 . S t a t i s t i c sandP r o b a b i l i t y .B e r k l e y :U n i v e r s i t yofC a l i f o m i aP r e s s, Matsuyama y .( 2 0 0 2 ) .C o r r e c t i n gf o rn o n ‑ c o m p l i a n c eo fr e p e a t e db i n a r y outcomes i n randomized c l i n i c a lt r i a l s :r a n d o m i z e da n a l y s i sa p p r o a c h .S t αt i s t i c si nM e d i c i n e2 1, 6 7 5 ‑ 6 8 7 . Matsuyama Y .( 2 0 0 3 ) .S e n s i t i v i t ya n a l y s i sf o rt h ee s t i m a t i o n of r a t e s of change w i t h n o n ‑ i g n o r a b l ed r o p ‑ o u t :a na p p l i c a t i o nt oarandomizedc l i n i c a lt r i a lofthev i t a m i nD3・ S t a t i s t i c si nM e d i c i n e22 8 1 1 ‑ 8 2 7 . R o b i n s,J .M.Marginals t r u c t u r a lmodelsv e r s u ss t r u c t u r a ln e s t e dmodelsa st o o l sf o rc a u s a l i n f e r e n c e .i nS t a t i s t i c a lModelsi nE p i d e m i o l o g y :T h eE n v i r o n m e n tandC l i n i c a lT r i a l s . M.E. H a l l o r a n and D .B e r r y ,E d i t o r s ,IMAVolume 1 1 6,NY: S p r i n g e r ‑V e r l a g ,p p . 9 5 ‑ 1 3 4 .1 9 9 9 . Robins, J .M.andGreenland、S .( 1 9 9 2 ) .I d e n t i行a b i l i t yande x c h a n g e a b i l i t yofd i r e c tandi n d i r e c t n h υ nuu

66.

e仔e c t s .E p i d e m i o l o g y3,1 4 3 ‑ 1 5 5 . .M.,Heman,M A .,andBrumback,B .( 2 0 0 0 ) .M a r g i n a ls t r u c t u r a lmodelsandc a u s a l R o b i n s,J 叶 i n f e r e n c ei ne p i d e m i o l o! : , ' Y .E p i d e m i o l o g y1 1,5 5 0 ‑ 5 6 0 . .M.,R o t n i t z k y ,A .,andZhao,L .P .( 1 9 9 4 ) .E s t i m a t i o nofr e g r e s s i o nc o e仔i c i e n t swhen R o b i n s,J some r e g r e s s o r sa r en o ta l w a y so b s e r v e d .J ourn α1ofI h e American S l a l i s l i c a l A s s o c i a l i o n89,8 4 6 ‑ 8 6 6 . .R .( 1 9 8 4 ) .Thec o n s e q u e n c e sofa d j u s t m e n tf o rac o n c o m i t a n tv a r i a b l et h a th a s Rosenbaum,P .T h eJ o u r n a lofI h eRoyalS l a l i s l i c a lS o c i e t y ,S e r i e sA b e e na f f c c t e dbyt h et r e a t m e nt 147,6 5 6 ‑ 6 6 6 . Rubin,D .B .( 1 9 7 4 ) .E s t i m a t i n gc a u s a le f f e c t soft r e a t m e n t si nrandomizedandnonrandomized s t u d i e s .J ourn α1o fE d u c a l i o n a lP s y c h o l o g y66,6 8 8 ‑ 7 0 1 . Rubin,D .B .( 2 0 0 0 ) .Commenton C a u s a li n f e r e n c ew i t h o u tc o u n t e r f a c t u a l s, "byA.P .Dawid. , Journα1ofI h eAmericanS l a l iげ : c a lA s s o c i a l i o n95,4 3 5 ‑ 4 3 7 . 付録 RACE推定量は、反応した対象者において次のような重み付き推定方程式を解くことによ り得られる。なお、 R o b i n sら ( 1 9 9 4 ) は、真の重みを用いたときよりも推定した重みを用 いた重み付き推定量の方が分散は小さくなることを述べている。 U(β, a) 三 L :d(Z,;β)w,(a)[,Y ‑g(Z,;s)] = エ U/(β, a) = 0 , ただし、 g ( Z ; ;β)=β。 ( I‑Z, )+β IZ,であり、 β= ( z=0 ,1 )は各群の平均奏効期間である。 d(Z, ;β)=ag(Z, ;β)/aβ ,であり、 a=(ao, al) は LOGISTIC プロシジャを用いて推定し た 重 み Pr[R ,=1X;αz ]=w(X, ;αj に お け る 最 尤 推 定 量 で あ る 。 こ の と き 、 L :U, ( j J , a)U, ( j J , a)'、 B=θU(, J ja)/θα7、Q は重みの予測 r=θ U( , J ja)/θβY、 A= αJの尤度に関する観測情報量である。そのとき、重みの推定誤差を考慮した モデル w(X , ; ) B 0 . B '(f‑I)'で得られる。なお、 (f‑I)A(f‑I)'の部 ロバスト分散は ( f ‑I ) A ( f ‑ I ) / "‑( f ‑I 分は通常のロバスト分散に対応する。 ハhu 1i

67.

ダブルプログラミングによる解析用データセットの作成 0山本祐史・益田隆史・菅波秀規 臨床解析部 興和株式会社 Constructiono fDataSetf o rA n a l y s i sbyDoubleProgramming Y u j iYamamoto/TakashiMasuda/Hi d e k iSuganami e p t .KOWACOMPANY ,LTD. B i o s t a t i s t i c s& DataManagementD 要 旨臨床試験の規模が大きい場合、統計解析に用いる解析用データセット(以下、解析用 DS) が適切に作成されていることを目視によって確認することは困難な場合があり、目視とは異な る品質管理手法を考慮する必要がある。我々は、独立 2系統のダ、ブ、/レフcロクーラミンクーによる品 質管理手法にて解析用 DSを作成することが有用であると考え、解析用 DSの構造を目視によ って完全に確認で、きる規模として実際に実施された 1 5症例の二重盲検比較試験について、 目視による方法と COMPAREフ。ロシジャによる方法について比較検討を行った。今回の検討 では、症例数が極めて少数で、あったため、目視による品質管理手法に対するコストメリットは得 られなかったりしかし、解析用 DSが完全に一致するまでに必要な比較回数は症例数に強く 依存する値ではなしせ考えられるため、試験規模が大きくなるに従い夕、フマルフ。ロクザラミングによ る品質管理手法のメリットは大きくなると思われたc キーワード:解析用データセット、ダブルプログラミング、 COMPAREプロシジャ、品質管理 1.はじめに 臨床試験では、医療機関や測定機関において発生したデータを収集し、データベース (以下、 DB)化した後、統計解析を経て、医学的結論を導く。 DBから解析用 DSを作成する )症例の取り扱いを反映させるステッ 過程では、 l)DBから得られた DSを整形するステップ、 2 )のステップを経て作成される DSを解析用プレ DS、 プの 2ステップ。に分けることがで、きる。 1 2 )のステッフ。を経て作成される DSを解析用 DSと呼ぶこととする。 1 )のステッフ。は、 DBに作 成しているテーフツレの構造が、クリニカルデータマネージメントシステム(以下、 CDMS)の制 限によって決定されており、統計解析に直接用いることができない構造となっていることヵ、ら生 じ る 。 2)のステップ。は、中止や脱落、治験実施計画書違反なと占に対する症例の取り扱いを反 映させるために生じる。 DBから解析用 DSを作成する過程は、わずかなエラーで、あっても重要な情報を失ってしま うことがあるため、データ処理上極めて重要な過程である c 解析用 DSを作成する過程にエラ ﹃ ηυ nhu

68.

ーがないことを確認するために品質管理を行うことが重要となるが、品質管理にはリソースが 必要である。このリソースを軽減する一つの手段として、バリデーションされたフ。ロクザラムを利用 することが考えられる。しかし、弊社では、症例報舎書の項目名、 DBの変数名や DBの構造 が標準化されておらずにれらの標準化が行われていない会社や研究機関は多いと思われ る)、解析用 DSの作成に必要なプログラムは試験ごとに作成しなければならないため、コスト 削減につながるだけのリソースの軽減は達成で、きないと考えた c そこで我々はバリデーション の代案として、対象としている解析用 DSのみを保証する方法として、独立 2系統による夕、、フごル フ。ログ、ラミンク。による品質管理手法を選択し、目視による方法と COMPAREフ。口、ンジャによる 方法について比較検討を行った。本稿では、ダブ.ルフ。ログラミングによって解析用 DSを作成 I 点と欠点を示し、実際に実施した結果について報告する。 することの手J 2 . 方法 2 . 1検討に用いた臨床試験 5症例 解析用 DSの構造を目視によって完全に確認で きる規模として、実際に実施された 1 の二重盲検比較試験を用いた c 2 . 2解析用 DSの作成 解析用 DSの作成手順を図 1に示す。データの収集から解析用 DSの作成までの過程は 以下の手順で、行った。 ①医療機関や測定機関において発生したデータを症例報告書として収集、② DB 化、③ DBから DSを抽出、④解析担当者が解析用 DS定義書を作成、⑤独立 2系統のダブルプロ グラミンク、、にて解析用プレ DSを作成、⑥解析用プレ DSを COMPAREフ。口、ンジャにて比較、 LAGを DBに用意 (FLAGの用意が解析用プレ DSの作成より ⑦症例の取り扱いに必要な F も後に来ているのは、症例の取り扱いが完全に固定する前に解析用プレ DSが作成されるた め)、③症例の取り扱い情報を解析用プレ DSに反映、⑨独立した 2系統のプログラミングにて 解析用 DSを作成、⑮解析用 DSを COMPAREプロシジャにて比較、⑤や⑮では不一致が なくなるまでプログラムの修正を繰り返した。 ④を除くすべての過程はデータマネージメント(以下、 DM)担当者が実施した。⑮の後、統 計解析部門に解析用 DSを納品後、統計解析担当者が解析用 DSの受け入れ確認を行った。 作成したプログラム、解析用 DS、比較結果は CDMSの文書管理機能を用いて管理した。 2 . 3 目視による解析用 DSの確認 完全一致後の解析用 DSと DBとを目視により確認した。この段階で、発見されたエラーを、 1吉果の比較によって検出されなカりたエラー"とした。 ‑6 4

69.

① ⑦ 1 応 例 取 り 扱 い 伯 幸1 ; ( 一 一 一 一 一 一 I (FLAG) ② ③ フログラマ ‑ A │プログラマー B 定義舎 解析!日 DS (共通資料) ⑥ ⑤ 解析用 フレ DS ⑤ COMPARE プロシジャ j r i =例 取 り 扱 し 叶, J '~Ii ⑧ ⑨ ④ (共通資料) 解析!日 DS ⑮ COMPARE プロシジャ 図 l 解析用 DSの作成手1 1 慎 3 . 結果と考察 3 . 1解析用プレ DSの作成 解析用プレ DSの作成では、フ。ログ、ラムの作成に 4 日(約 30時間)を要した。フ ロクずラムの J )マクロプロ 長さは、 2系統のプログラマーとも 1500行程度で、あった。作成したプログラムは、 1 ) 1症例 1レコードタイプの DSの整形、 グラムの設定、 2)DSの項目名への LABELの付加、 3 4)1症例複数レコードタイプの DSの整形、 5 )時系列タイプの DSの整形、の 5つの部分で 構成されている。 COMPAREプロシジャによる比較で、は 4回目の比較で完全に一致したの 3 . 2症例の取り扱い情報 )ある症例 解析用 DSの作成に必要な症例の取り扱いの種類は 3つであり、その内容は、 1 のデータをすべて欠測化するもの、 2 )ある VISITの検査値データを全て欠損J I化するもの、 3 ) ある VISITの特定の項目のデータを欠 m l J化するものであったσ Fhu nb

70.

3 . 3解析用 DSの作成 解析用プレ DS から解析用 DS を作成する過程では、プログラムの作成に 5~6 時間を要し た。フ。ロク、.ラムの長さは、一方のフ。ロクーラマーは 2 0 0行程度であり、他方のプロクマラマーは 6 0 0 行程度で、あった。 2系統間で約 4 0 0行の差があったのは、片方のフ。ロク、、ラマーは、 3 . 2に記載 した症例の取り扱い情報(ある VISITの検査値データを全て欠測化するもの)を反映させる際、 0 0個の項目のデータを欠損J I化させるプログラムを一行ずつ記述しており、その部分だけ 約 3 0 0行の長さになっていたことが主な理由で、あった。 COMPAREプロシジャによる比較 で約 3 では 2回目の比較で完全に一致した。 3.4結果の比較により検出されたエラーと検出されなかったエラー 解析用プレ DSおよび解析用 DSの比較によって検出されたエラー数は特定しなかった(多 数のエラーが検出されたため)。目視による解析用 DSの確認には、 2人の品質管理担当者で 2日(約 1 5時間)を要した。解析用 DSの種類は全部で 6つであり、各解析用 DSのサイズは、 1 )1 5オブザベーション(以下、 o b s )、7 4変数、 2 )7 5 0 b s、2 7 9変数、 3 )1 0 2 0 b s、1 6変数、 4 )1 4 0 b s、7変数、 5 )3 0 b s、2 3変数、 6 )3 3 0 b s、7変数、であった。目視による確認で、はエ ラーは発見されず、夕、.フ、.ルフ。ログ、ラミンク、、による結果の比較によって検出されなかったエラー は 0件で、あった。 3 . 5結果の比較により検出されたエラー 検出されたエラーの代表的なものは、変数への LABELの付け方の違いによるエラー、デ ータ内の空白の有無の違いによるエラー、初期値の存在箇所の違いによるエラーで、あった c 以下に具体例を示す。 3 . 5 . 1変数への LABELの付け方の違いにより生じた結果の不一致 1こ示した COMPARE用のプログラムを実行した結果、全角と半角の括弧の違いにより 図2 2系統問で異なる LABELが作成された(図 3 ) 0LABELの作成の際 l こ、一方のプログラマー は全角の括弧を使用しており、他方のプログラマーは半角の括弧を使用していたことが原因 でらあった。括弧以外にも全角と半角の違いによる不一致は考えられる。例えば、 LABELに数 s2 : マイクログロプリン、 s ' ? マイクログロプリン)や、 LABELIこ片仮名を 字を使用した場合、 ( s2マイクログロプリン、 s2マイクログロプリン)などは結果の不一致がおこる原因に 使用した場合 ( こ使用することでこれらの LL ¥ BELの なる。 DBIこ登録している項目名を解析用 DSのLABELI 不一致を回避できると考えられるが、我々が使用している CDMSはその制限のために項目名 を出力することができない c そこで我々は解析用 DSIこ作成する LABELを解析用 DS定義書 にあらかじめ項目名として定義しておき、プログラマーは解析用 DS定義書に記載された項目 名をブロログrラムエディタにコピー&ベース卜することにより LABEL を付加する方法を採用してい ρhu ρhu

71.

る。今回不一致となった LABE Li土、解析用 DS上で新たに作成した変数用の LABEL て、あっ ス たため、一方のフ。ログラマーが、解析用 DS定義書カミらのコピー&ベース卜ではなく、 DATA を付加していたことが原因で、あった。半角と全角のどちらを LABEL に使 テッフ。で、直接 LABEL 用するカ、品、ったルールを決め、解析用 DS定義書に定義しておくことによりこれらの問題は解 決できる。 proc compare data = DMDATA.BGRD STA compare = STDATA.BGRD STA listall criterion = 0.00001 maxprint = ( 1000 , 1000 ) ; id CASENO ; run 図2COMPARE 用プログラム 属性が違う共通変数のリスト Variable D a t a s e t T y p e L e n g t h L a b e l A E S Y M P E X I S T D ¥ ! DA T A .B G R DS T AN u m l IS T A¥ i u m S T D A T A .B G R 8 有害事象 w他党)の有無 8 有害事象(自他党)の有!!l~ 図 3 変数への LABEL の付け方の違いにより結果に不一致が生じる例 3 . 5 . 2データ内の空白の有無の違いにより生じた結果の不一致 系統間で異なる LABEL が 文字型データの比較において、データ内の空白の違いにより、 2 ) 0DBへのデータ入力時やハンドリングの際に、データの前後に空白が入る 作成された(図 4 原因が多数あり、事前に取り除くことができない場合がある c データを別のアプリケーションの ファイルへ移行するときや統計解析を行う際に、空白を含むデータは意図しない結果を生じる 原因となることがあるため取り除いておく方が望ましい。よって、一方のプログラマーはデータ を付加するためのマクロフ。ロクずラ に空白があった場合にそれらを取り除く方法として、 LABEL ムに compress関数を使用していた(図的。そのため、データ内の空白が取り除かれ、結果の 不一致が生じたc 変数値の比較紡果 がI歴名 CASENO x x x x x x x x d r c日o 基準値 比較!位 A N A ¥ I N A ¥ I E AìiA~INAME 0002000年 2 月頃か・ 0002 0 0 0年 2月頃か 1 9 9 3年 000(完治) 1 9 9 3年 OOO(完 治 図 4 データ内の空白の有無の違いにより結果に不一致が生じる例 6 7一

72.

/*LABELを付加するマクロり label (taname, vall, va12l もmacro data 長taname ; set &taname ; &vall.v = compress(&vall) drop &vall ; label 長vall.v 二 &va12 ; rename &vall.v = &vall ; run ; もm end 図 5LABEL を付加するマクロフ ログ、ラム c (こ示す c ここでは併用薬の比較を行 空白の有無の違いにより不一致になった他の事例を図 6 っているが、今回の検討では薬剤名の語尾に数字が付いた併用薬のデータが存在していた ため、薬剤名と投与量の聞の空白が compress関数により取り除かれ、本来の投与量が不明 (こ示したマクロフ。ログ、ラムの compress関 瞭になってしまった。これらを回避するためには、図 5 ASのtrim閣 数を使用しなしものも作成して用途に応じて使い分ける方法が考えられるが、 S 数と l e f t関数を組み合わせたフ。ログ、ラム(図 7 )を使用することにより、用途に応じて使い分ける 必要が省け、データの前後の空白のみを取り除くことができる。実際に、 tnm関数および l e f t 関数を使用した後では結果が一致した(図 8 ) 0 変数値の比較が1呆 薬剤名 基準 I I ' i d r e n o CASENO mx x x x x l t絞 1 1 1 ' 1 D R U G N A M E D R U G N A l l E 00K330ml 00K3 3 0 m l OOOA1 5 0 m l OOOA15 0 m l 図6 データ内の空白が重要となる 1 7 1 ) /*LABELを付加するマクロり もmacro label (tanam巴, val1, va12l data &tanam巴 , set &tanam巴 ; &vall.v = trim(left(&vall)) d士op 長va11 ; 1ab巴 1 &va11.v = &va12 ; Z巴 n ame &va11.v = &va11 ; 士u n ; もmend 図 7 データの前後の空白を取り除くプログラムの例 6 8‑

73.

あおシステム C O ¥ I P A R Eフ。ロシジャ l 1 . ¥ I D A T r ¥ .l l R l G ̲ S T Aと S T l l ; ¥T : ¥ .l I R U GS T A の比較 ( M ET lI O ニ l IR E L m¥ " E( 2 . 2 2 E ‑ 0 9 ) .C R I T E R I O l := O . O O O O I ) データセットの要約レポート 作成日 更新日 V A R数 O B S数 m I D A T A .O R C GS T A 2 6 J¥ i N 0 4・ 1 0 : 0 4 : 2 9 2 6 J¥ i N 0 4 :1 0 : 0 4 : 2 9 I G 1 9 1・4 2 : 5 3 2 8 J A N 0 4 :1 1 : 4 2 : 5 3 1 6 1 9 S T O A T A . O R U GS T A 28J i\ ~04: 1 データ 変数の斐約レポート 共通安数の数 1 6 I D変 数 の 数 : 2 オフザベーションの要約レポート J 主1 W 比較 1 0 O B S 最初の O B S 最後の O B S 1 1 9 1C A S E N O = X X X Xd r c日0 = 1 : ¥ S Ei " O = X X X Xd r c n o = 8 1 9 C 共j f f iのオブザべーションの数: 1 9 D ¥ l T : ¥ .l I R l GS T ¥ iから読み込んた、オブザベーションの数(合計) O l! T ¥ iから読み込んた、オブザベーションの数(合計) S T O A T A .l l R U GS 比絞変数のうちどれかで等しくないオフザベーションの数 すべての比較変数が 11,1~f なオブザベーションの数 i : O T E : 不等な f p ' (はありません。 1 9 . 1 9 . O . 1 9 比佼した変数はすべて同等でした。 図 8t r i m関数および、1 e f t関数を使用した後の比較結果 r i m関数と 1 e f t関数を用いることで、データの前後の空白のみを取り除くことができる 実際に、 t )を作 かを確認するために、仮にデータの先頭とデータ内に空白を入れたテスト用の DS(図 9 0に示した手順で実施した。一方で、は compress関数を使用し、他方で、は t r i m閣数と 成し、図 1 1 e f t関数を使用して作成した DSをCOMPAREフ。口、ンジャにて比較した その結果、 Aのステッ C プではデータの先頭とデータ内の空白の両方が取り除かれたが、 Bのステップで、はデータ内 )c この の空白が取り除かれることなく、データの先頭のみの空白を取り除くことができた(図 11 e f t関数を組み合わせたプロク♂ラムを使用するこ ように、 compress関数で、はなく、 tnm関数と 1 とで、空白が重要となるデータが存在する場合でも、問題なく対処で きることがわかった。 COMMENT XXXXX330mg 図 9 データの先頭およびデータ内に 空白を入れて作成したテスト用 DS ‑6 9一

74.

図1 0確認手順 変数値の比較結果 比較値 日! E N T 基準値 C A S E N O c m COM~!E NT + inHU l X X X X ¥ 3 3 0 m g X X X ¥ ¥ 33 0 m g 図1 1 異なる関数を使用した際の比較結果 3 . 5 . 3初期値の存在箇所の違いにより生じた結果の不一致 2 {こ示すように、 数値データの変化率や変化量を求める場合は初期値が必要であるが、図 1 一方のプログ、ラマーは測定時点の全てに初期値を作成しており、他方のフつロクマラマーは初期 値となる時点にのみ初期値を作成していたため、 2つの解析用 DS聞で、不一致となった c 初期 値をどの時点に作成するかとし、った情報を決めていなかったことが原因であったが、例えば、 初期値により調整を行う解析を行う際には、解析プログラムの作成方法の都合にもよるが、解 析用 DSのどの時点に初期値が必要であるかといったことを事前に決めておく必要がある。共 通資料となる解析用 DS定義書に定義することが望まししせ考えられる。 解析用 DS2 解析用 DS1 CASENO 1 0 1 1 0 1 1 0 1 1 0 1 1 0 2 1 0 2 1 0 2 1 0 2 TIME 1 ワ 3 4 1 ワ 】 3 4 VALUEPRE VALUE CASENO 1 8 . 5 1 8 . 7 1 9 . 3 1 7 . 6 2 0 . 3 2 2 . 1 .4 21 21 .8 1 8 . 51 0 1 1 0 1 1 0 1 1 0 1 2 0 . 31 0 2 1 0 2 1 0 2 1 0 2 TIME 1 ワ 3 4 1 2 3 4 VALUE PRE VALUE 1 8 . 5 1 8 . 7 1 9 . 3 1 7 . 6 2 0 . 3 2 2 . 1 .4 21 21 .8 図1 2初期値の存在筒所の違いにより不一致が生じる例 1 8 . 5 1 8 . 5 1 8 . 5 1 8 . 5 2 0 . 3 2 0 . 3 2 0 . 3 2 0 . 3 ヴ i ハ NV

75.

4 . 最後に 今回の検討では、症例数が極めて少数で、あったため、プログラムの作成と目視に必要なリソ ースに大差はなく、目視による品質管理手法に対するコストメリットは得られなヵ、った しかし、 O 完全一致を得るまでに必要な比較回数は症例数に強く依存する値ではないと考えられるため、 試験規模が大きくなるに従いダフツレフ。ログ ラミンクおによる品質管理手法のメリットは大きくなるも のと思われた。 COMPAREフ。口、ンジャによる比較は、目視に比べ圧倒的に早い。また、比較のためのプロ グラムを適切に作成しておけば、図 8に示すように、比較に用いた解析用 DS、その作成日お よび更新日が特定でき、比較結果を記録として残せるとし、った利点がある。さらに、目視による 品質管理の際には問題となる、繰り返し比較による検出力の低下の心配がないことも大きな利 点の一つであるの 我々は、解析用 DSの作成を D M担当者が行っている。それは以下のようなメリットがあるた めである。 1 ) 解析用 DSの構造は、 CDMSの制閣から CDMSに依存した構造となっており、統計解析 にそのまま利用で、きる構造となっていないため CDMSの構造を詳細に理解している必要 があること 2 ) 症例の取り扱い情報の反映には、 DBへ FLAGを準備することにより、解析用プレ DSへ 取り扱い情報を容易に反映させることが可能となるが、 FLAGの入力権隈は D M担当者 にしヵ、ないこと 3 ) FLAGを反映させる場合は DB構造を詳細に理解している必要があること 4) 症例報告書を詳細にレビューしているため、症例の性質やイレギュラーデータを把握して おり、フ。ロク♂ラムによる処理の結果が正確に解析用 DS へ反映されていることを容易に確 Z 忍できること 5 ) 解析用 DSの品質管理に、 DB内のデータのロジカルチェックて矛Ij用しているロジックを構 築し、実施可能であること 6 ) 解 析 用 DS を D M 部門で作成できれば、 SAS の UNIVARIATE プロシジャや TIMEPLOTプ口、ンジャを利用することで、要約統計量の確認、データの分布や外れ値の チェックなど、一部の D M業務を実施可能であること 今回の検討では、結果の比較によって検出されなかったエラーは O件で、あったが、症例の 取り扱い情報の量や複雑さによってはフ。ロクマラマーの能力の遣いや、系統的なエラーにより、 検出されないエラーが発生することも考えられる。このようなタ アールプログラミングの欠点による 0 データの質の低下を防ぐために、比較した桔果の確認、解析対象集団の確認、テーフソレのキ ー構造の確認、変数の属性と LABELの確認、変数のレンジチェック、変数の欠測データ数 )のように SAS の確認などを、統計解析を行う前に解析担当者が実施している。また、上記 6 の各種プロシジャを用いた品質管理を行うことも可能である。このようにデータの質の低下を回 ηI よ ‑

76.
[beta]
避するプロセスを取り入れることにより、タ ブ.ルフ。ロクずラミンク守による品質管理手法は品質を低
c

下させることなく、効率的に解析用 DSを作成でき、特に試験規模が大きい場合は、コストの面
からも効率的な方法であると考えられる。

5
. 参考文献
1
) 菅波秀規,益田嘩史.タずフマルフ。ログラミングによる統計解析の品質管理 第 1
9回
SUGI‑J.2000
2
) 菅波秀規. SAS における統計解析バリデーションと解析計画書、報告書作成.第 7 章.
臨床試験データ解析におけるダブルアナリシスの活用.2003;113~ 1
4
2
. 技術情報協会

3
) RonCody.C
o
d
y
'
sDataCleaningTechniquesUsingSASS
o
f
t
w
a
r
e
.1
9
9
9
;137~
1
5
2
.SASI
n
s
t
i
t
u
t
e

6
. 謝辞
この論文を作成するにあたり業務量等様々な面で御配慮、いただいた臨床解析部吉田純朗
部長、データマネージメント課大久保正人課長に心より御礼申し上げます。また、データの
目視確認の補助や論文内容についての御助言を頂いたデータマネージメント課の皆様に感
謝申し上げます。

J
r o
r
f t
r
¥
I
舟

cSF
よ
バ
ぷ
ご

i

匂

キf
i
?
?
/
L

θrat f級品 1 ム I~{- ~J.'町減収引すな)OJιμ{7 ふ二;川汗
00

.
)
‑/
J
千J
r
t
:
‑
.
(~

~

(仰の 川、

'
e
, ~~')

$t
‑
t ?,';'I吋
‑
1
‑
.
.
.(比三二ブ

r
f
I
.~ずぺ?守 7 巳げ!
乏‑
A"~ ii
:
<
‑
1

ル

:
争
門
戸P
Z
τ ザ サ J: 2
3
J
L絡
〆ヲ全そ

t

~

'
"

←

J¥

(
1
¥
ふ
子‑
.
.
‑
1
9マ
ノ

'
Y
ci
φ

師、ク

c 明 ‑

lノf
l
f
l
'1
‑々や /
l

づ
ぐt
jf
7
t
J

‑
,
' I

、ぞ

A 川

,
" f~\ ~ ):
:
. .J c .

n
F臼

ηl

77.

SASを用いた臨床試験に関する図表作成業務における標準化について 西川裕久 株式会社シーエーシー R&Dシステムビジネスユニット Ta b l eC r e a t i o nS t a n d a r d i z a t i o no ft h eC l i n i c a lTe s t i n gU t i l i z i n gSAS Hirohisa 卜~ishikawa R&DS y s t e mB u s i n e s sU n i t .CACC o r p o r a t i o n 要旨 臨床試験に関する図表の作成作業の標準化を当社が販売する臨床統計業務支 援システム I B i s t a W o r k s Jを用いて試みた c 図表の形式や集計出力・統計量算出用デ ータセットの形式を工夫することで、図表作成に関する共通の処理を同じフ。ロクマラム で処理することが可能となる。, ~λ v c‑1' 377 J4F杓 を守 ヲ ア r f ‑,‑了、 s '1"~ 1'\ J レ ' C ‑ レ ι . ; . "',':i>. 円で 、, ̲ ‑ 、 l ' μ f勺 ツ キト一ワ←一ド 、 4 t 1 「 はじめに j e . ': '' 寸 汁t , v f ヴパ . . ‑ l ~,1>ト\ っかず守 「、 「 1 ト ; 戸 叶i 7〆 し tH71rf;J r ・4 b 戸 ジ九川:汁 f Fi J Jげ 符 向 下 、 J 、不どでカピプl'寸 I H J 、 J Zユ;I可 ・ trip‑‑つ にv " マ ; 、 て が7 臨床試験に関する図表作成業務の共通点を整理し、図形作成業務を当社が販売する臨 床統計業務支援システム I B i s t a W o r k s Jを用いて標準化することを試みた。 作成する図表の形式を統一し、集計の出力、統計量の算出の元になる SASデータセットに れを「集計用データセット」と呼ぶこととする)を一定のノレーノレで作成することにより、 B i s t a W o r k sシステムに登録した同ーのフ。ロクーラムで、いつでも図表を作成することが可能とな る 。 i s t a W o r k sシステムを用いた図表作成業務の標準化について「患者背景表」 本稿では、 B の作成を例に紹介する。 f ヴ ペU n

78.

1 . 図表テンプレートの標準化 図表作成業務の標準化としづ事を考えると、当然図表テンプレートの標準化の必要性が出 てくる。試験ごとで集計・出力する項目は異なってくるが、図表のスタイルを標準化しておく事 は、プログラム標準化の観点からすると大変重要で、あると言える。 本稿では図 lのような患者背景表を作成する事例を紹介する。 A群 B群 例数 % % 例数 。 目 4 1 2 2 1 5 3 0 . 0 1 3 2 6 . 0 1 0 2 0 . 0 5 3 . 8 5 0 . 8 1 4 . 6 1 4 . 5 7 3 7 7 2 6 28 項目 性別 年齢(歳) 男 女 平均 標準備差 最大 最小 年齢(歳) 身長 ( c r n ) I I 5 0歳 以 上 5 0歳 未 満 1 4 1 6 2 . 6 1 0 . 7 1 8 5. 4 1 4 3 . 0 平均 標準偏差 最大 最小 身長 ( c r n ) 2 2 . 0 2 8 . 0 150cm未 満 150cm以上・ 170cm未 満 170cm以 上 5 1 4 6 1 0 . 0 2 8 . 0 1 2 . 0 1 2 1 3 群H i l比 較 χ2乗検定の p値 = 0 . 5 7 0 9 t検定の p1 直= 0. 4702 2 4 . 0 χ2乗検定の P ' l 直= 2 6 . 0 1 .0000 1 6 2 . 9 1 0 . 2 1 8 0 . 0 1 4 2 . 1 4 8 . 0 1 4 2 8 . 0 7 1 4 . 0 1検定の p値 = 0 . 8 9 9 6 W i l c o x o n検定の p値 = 0 . 6 7 2 5 図1.患者背景表のイメージ 2 . 使用する入力データセット 臨床開発の現場で、はデータマネージメント部門で、クリーンデータが作成され統計解析部門に SASデータセットとして引き継がれるのが一般的である。 本稿で用いるクリーンデータにれを入力データセットと呼ぶ)、データセット IRaw̲DataJは下記 の通りである。話を分かりやすくするために構造を簡単なものとした。 変数名 変数ラベル 変数型 1 D 患者1D C H A R ( 8 ) GROUP 投与群 C H A R ( 8 ) S E X 性別 C H A R ( 8 ) ADATE AGE HEIGHT WEIGHT DATAl DATA2 同意取得日 C H A R ( 8 ) CHAR(日 ) C H A R ( 8 ) C H A R ( 8 ) C H A R ( 8 ) C H A R ( 8 ) 年齢(歳) 身長 ( c m ) 体重 ( k g ) 検査値 l 検査値 2 実データと出力形式の対応 0 →プラセボ群 l→ 投 与 群 。→男 l→ 女 図2 .入力データセット r R a w ̲ D a t a Jの 仕 様 A 川守 ηI

79.

図3 . 入力データセット f R a w ̲ D a t a Jの実データ 3 .集 計 用 デ ー タ セ ッ ト の 標 準 化 次に患者背景表の集計・出力する元となるデータセットにれを患者背景表の「集計用デー タセット」と呼ぶ)を作成する c 図表作成業務の標準化では、作成する図表に合わせて集計用 デ、ータセットを設計し、集計用データセットの構造を標準化しておく事が重要な鍵となる。 C l i n i c a lD a t a 試験によって測定する検査値や取り扱うデータは異なるため、 CDMS( Management S y s t e m )のデーターベース構造の完全な標準化とし、うものは現実的に難しい。 だが集計用デ、ータセットの構造がきちんと標準化されていれば、図表作成業務の手間を大 幅に省くことができるのである。 S h u u k e iJを作成した。 AGE、 今回は下記のような患者背景表の集計用データセット I HEIGHT、WEIGHT は各々年齢、身長、体重のデータであるのに対し、 AGE2、HEIGHT2、 WEIGHT2は各々年齢、身長、体重のカテゴ、リカルデータで、ある。 変数フベル 変数名 実ァータと出力形式の対応 変数型 I D 患者 I D CHAR(8) GROUP 投与群 CHAR(8) 0 →プフセボ群 l→ 投 与 群 SEX 性5J J I CHAR(8) 0→ 男 i→ 女 AGE 年齢(歳) CHAR(8) AGE2 年齢(歳) CHAR(8) HEIGHT 身 長 (cm) CHAR(8) HEIGHT2 身長 ( c m ) CHAR(8) WEIGHT 体重 ( k g ) CHAR(8) WEIGHT2 体重 ( k g ) CHAR(8) 0 → 50歳 未 満 l→ 50歳 以 上 0 → 150cm未 満 l→ 150cm以上・ 170cm未 満 2 → 170cm以 上 0 → 60kg未 満 l→ 60kg以上 図 4 患者背景表の集計用データセット「山 e i Jの 仕 様 H o 0一 一一一 ii‑I51 一 1 " "1 一 一 fぞイ~'J I ' t1 ' ; ,何 り 1i I 1 6 0 . 5 図5 . 患者背景表の集計用データセット fShuukeiJの実データ 月 tpJJ ' ー ︑ f v oλ ﹀失 r l h v イ う 4‑4 P ーか 1 4を L Fhu ウI

80.

本稿では集計用データセットの標準化のルールとして、 患者背景表の集計用データセット名は I S h u u k eiJとする 集計用デ?ータセット I S h u u k ei J はI I D(患者 I D )J 列がユニーク(一意)であり重複を許さ ない。 変数型はすべて CHAR型(文字型) としヴルールのみ設定している。 また実際に業務で、集計用データセットを作成する際には、その試験の患者背景表で集計 したい項目で、集計用データセットを作成すればよい。ただ患者背景表で集計する項目は試 験ごとに異なるため、集計用データセットを作成する SASプログラムは試験ごとに作成しなけ ればならない。 本稿の事例では、入力データセット I R a w ̲ D a t a Jから集計用データセット I S h u u k eiJを作成 R a w ̲ D a t a Jを読み込んで するにあたり、入力データセット I 同意取得日 (ADATE)、検査値 1(DATA1)、検査値 2(DATA2)項目を削除 年 齢 (AGE)、身長 (HEIGHT)、体重 (WEIGHT)から各々のカテゴリカルデー夕、 AGE2、 HEIGHT2、WEIGHT2を作成 としづ処理を施して、集計用データセット I S h u u k e iJを作成しており、そのプログラムを IPGMOOl .s a s Jとしづ SASプロク守ラムファイルとして作成し使用する。 4 . 患者背景表作成プログラムの説明 本稿で、使用する患者背景表作成プログラムは、 SASのマクロ形式で、作成されている(マクロ a k e ̲ D e m o g T a b l e )。マクロ I M a k e ̲ D e m o g T a b l e Jの引数として、「集計する項目 JI 集計の 名:ルl 種類 JI 検定の種類」としづ 3種類の引数を、集計する項目の数分渡して実行する。 1 * *本マクロ D e m o g T a b le の実行部分 H 本 / l I ake̲De l 1 l ogTable( SEX, AGE, AGE2, FREQ, HEIGHT, MEAN, HEIGHT2, FREQ, FREQ, C H IS Q, MEAN, TTEST, CHISQ, TTEST, WI L C O X O N ); 1 . . . . . . + . . . . . . . . . . . . + . . . . . . . . . + . . . . . . . . . . . . . . . . . .++...............ψ++ψ++ψ + + 1 図 6 患者背景表作成 S ASマクロ r M a l 叩 D e m o g T a b l e Jの実行部分 引数の意味を以下に示す %Make̲DemogTable( 項目1,項目 lの集計方法, 項目 lの群問比較の検定種類 項目 2,項目 2の集計方法, 項目 2の群問比較の検定種類 項目 3,項目 3の集計方法, 項目 3の群問比較の検定種類 I 円 ハhu

81.
[beta]
集計方法は度数集計をする (FREQ)or 基本統計量を求める (MEAN)であり、検定種類は
が 検 定 (CHISQ)ort検定 (TTEST)orWilcoxonの順位和検定 (WILCOXON)である。
図表と照らし合わせて見てみると、ヲ│数を渡して上から患者背景表を作成する様子がよく
分かつて頂けると思う。
、ムー令

民泊

AI
l
i
'

王
頁
目

性別

年齢(歳)

l
t
f
.
1
/
1比 較 じ

日群

伊l
数

%

例
数

%
)

男

1
0

2
0
.
3

1
2

2
2
.
6

女

1
5

2
5
.
2

1
3

2
3
.
3 0
.
5
0
7
9

r
凶 ム

変数

歩一
一‑、
χ2来
検定 (
l
)pf
直

(CHISQ)で群 r
l
n比 較

~~

検定の pj
オ

平鈎

5
6
.
5

4
8
.
3

t

標準仮差

6
9
.
2

9
5
.
3

0.
47
0
2

最大

86

6
9

最小

2
5

2
3

変数 AGEの基本統計量
を計算 (MEAN)、
しt検
定(γfEST)で群 r
l
n比 較

~:::;
弘4
F

~1

χ2乗
検
定
自
主 pf
直

変数 AGE2 を集計
(rREQ)、
し X2 乗検定

1
.0
000

(CHISQ)で 群 f
Hl比較

~~1

年齢(歳)

c
m
)
身長 (

身長 (
c
m
)

5
0歳 以 上

1
0

2
0

1
2

2
2

5
0歳 未 満

1
5

2
5

1
3

2
3

1
6
5
.
3

1
6
2
.
3

t

標準偏差

4
5
6
.
3

5
6
4
.
.
1

0
.
8
9
9
6

最大

1
7
8
.
3

1
8
6
.
5

I
詮小

1
.
1
6
.
5

1
4
8
.
3

1
5
0
c!1l以上
170cm以 上

国

検定の p E

平均

150cm未 満

SEX を集計

(rl~EQ) し、 X2 乗検定

変数 HEIGHTの基本統
計量を計算 (MEAN)、
し
t検
定(アfEST)で 群 間

国
隠
臨

比較

J
;
l

5

1
0
.
2

8

1
6
.
3 W
i
l
c
o
x
o
n砂
手の pf
直

1
0

2
0
.
6

8

1
5
.
3 0
.
6
7
2
5

1
0

2
0
.
8

9

2
5
.
6

鼠

王子

v

変数 I!E!GHT を集計
(FREQ)
、
し Wilcoxon検
定(W!LCOXON)で 群
問比較

図7
.SASマクロ fMake̲DemogTableJの引数と也、者背景表との対応

この患者背景表作成プログラム (SAS マクロ)は集計したい項目と、その項目の集計方法と、
J
か
その項目の群問比較の検定種類を引数として指定すれば、集計用データセット iShuukei
ら指定した項目を読み取り、図 lのようなスタイルで自動的に患者背景表を作成するマクロで、
あり、どの試験でも共通に使用できる。

.
t
,
、c
e

︐
戸L

/
仁

'hv︑

幻
イ

f
寸t

引引

h川F

﹁
lf

[/~ :
tL
¥
'J下)f/)主人

7
/
]

()合才刈川(‑;j~ く)

寸 12Mνρ '
J
:と モ
,
〆

1

自
白

刀

c

ノ

m
w

r
.

. /〆/

.
̲
.
.
"
.
令
グ7

C
:;
f
;
)
.
.,

ハ主 ヲ 包 千 二 .rl,プーピ

ハ

,•

.
‑
./
)
,
‑ 4:.̲",‑' 7
τ、

0
‑
.

﹁ .

d

:
i
:
"
‑
;
; 三一戸 r;

FOA ︑

‑77‑

‑

〆一

作~

"
'
cVず
.
.
て
'
"
'
̲
.
,"
"

.
(
{ ~'...と~

82.

5 .B i s t a W o r k sシステムの概要 次に、当社が販売している臨床統計業務支援システム I B i s t a W o r k s Jについて説明する。 B i s t a W o r k sシステムは大きく 4つの特徴を持っている。 一つは臨床統計業務で、使用するド、キュメント(統計解析計画書、等)・データ(データセット、 フォーマットカタログョ等)・ S A Sプログラムを B i s t a W o r k s、ンステムにチェックイン(登録)、チェッ クアウト(取り出し)することでド、キュメント・データ・ S A Sプロクマラムの修正履歴が管理で、きる点 である。 二つ目は S A Sフ。ロク、、ラムをモジュール単位に作成した上で、システムに登録し、 B i s t a W o r k s システムのキャンパス上で、登録した S A Sモジュールや S A Sマクロを自由に組み合わせて統計 解析フ。ログ、ラムを定義で、きる点で、ある。モジュールの機能を明確にし、どの試験でも共通して A Sマクロ ( B i s t a W o r k sシステムではこれを標準ライブラリと呼ぶ)と、試験内での 使用可能な S み使用される再利用不可な S A Sプログラム( B i s t a W o r k sシステムではこれを S A Sモジュールと i s t a W o r k sシステムに登録する。本稿で紹介している患者背景表 呼ぶ)の二種類に分けて B 作成プログ子ラムの様に、どの試験でも使用できる S A Sマクロを作成し、標準ライブラリとして B i s t a W o r k sシステムに登録しておけば、 B i s t a W o r k s、ンステムのキャンパス上で、いつでも簡単 に統計解析プログラムに組み込むことができるのである。 三つ目は統計解析プログラムの実行履歴、実行結果の履歴管理機能が備わっており、高 水準の監査証跡を取る事ができる点である。 四つ目はユーザーに統計解析責任者や統計解析担当者等のローノレ(役割)を与え、ドキ ュメント・データ・ S A Sフ。ロク守ラムなどを誰が登録して、誰が承認するかなどのワークフロー機 能が備わっている点である。 n nD ︐ ︐

83.
[beta]
6
.BistaWorksへの登録
下記が BistaWorksシステムの登録画面である。このようにして、予めクライアントマシンのロ

ーカルディレクトリで作成した、集計用デ、ータセット IShuukeiJを作成する SAS プログラム
(PGMOOl
.s
a
s)を "SAS モジューノレ"として、患者背景表を作成する SAS マクロ
(Mak巴 D巴mogTabl巴.
s
a
s
)を"標準ライブラリ"として BistaWorksシステムに登録する。

・

品

U.
.
J

2O
s4jto/H

)
"
・
初
音
'
.
.
ほ

恨 のi
邑

分5

旦斗~

ファイル亀

何肩王函瓦Y
・
"
・

マクロ各 2

~~ライブラり各・区E玄事王百百亨亨百

"ブ γ

ョ
シ
"
,

,、ージ耳ン

ロー

fI."定石口百百三一一ヨ

慢居。S:

$A$I¥ リ Eシz
南口T'3

クライアントマシンのローカルデ
ィレクトリで作成した標準ライブ
ラ
リC
M
a
k
e
̲
D
e
m
o
g
t
a
b
l
e
.
s
a
s
)を選
i
s
t
a
W
o
r
k
sシステムに登録
択し B
する。

~h. 鑓・

ヨs沼
吋

R

'
"
;
1
1
‑

~!:t.;沼視

・
;
'
‑
!
著
・

Fライヲ:
]
̲
Je
: !ロ}力ルディスク l.
:
J
ディレクト υ

標準ライブラリ登録時は、そのマ
数の定義を B
i
s
t
a
W
o
r
k
s
クロのヲ l
システムに登録する。

~i
フ?イル z

・

c
,
,.
t
,,hhl...sos
OEWOC.xJ
s..nlbnt

何
"

・
'
"
・
" ・,

f'GWg~I.. ・ z

DAU....
d. ...lbd.t
..u ....lbc.t

,
.
・

~~

図9
.B
i
s
t
a
W
o
r
k
sの「標準ライフーラリ登録画面」

次に登録した SAS モジュールと標準ライフーラリを組み合わせて、患者背景表作成プログラ
ムを作成する。
患者背景表作成プログラム(統計解析プログラム)

P
G:
V
!
OO
l
.s
a
s(
S
A
Sモジューノレ)

テ'ータセット r
R
a
w
̲
D
a
t
a
J
(入力データセット)

L
ii
くe
̲
D
e
m
o
g
T
a
h
l
e
.
s
a
s (原準ライブラリ)

S
h
u
u
k
e
i
J
テータセット r
(集計用データセット)

臼

巳竺竺二

J

e

r
D
E¥
10
G
.
x
l
s
J
(!.!!、者背景表)

図 1
0
. 本稿で紹介する統計解析プログラムの構成

‑7
9
84.

下記が B i s t a W o r k sシステムの提供するキャンパス(統計解析プログラム定義直面)である。 テーマ ~o.: ~街道貰甫亨弓 ヲロ同町制。:~JSi;司王南ヲ古下コール 手順分 : 1 : ~t 限河思寄 手糊名 手順 3 手刷民岨 図 11 .B i s t a W o r k sの「統計解析プログラム定義画面」 標準ライブラリを統計解析手J 慣に組み込む場合は、その標準ライブラリ登録時に定義した 引数に、どのような値を渡すかを設定する。統計解析プログラム実行時はこの画面で設定し た引数の値でプログラムが流れる。 7 . まとめ このように B i s t a W o r k sシステムで、は、ンステムが提供するキャンパス上で、 B i s t a W o r k sシステ ムに登録されている SASモジュールや標準ライブラリを自由に組み立てて統計解析フ。ロクずラ ムを定義することができる。また本稿の例では、自由に引数を指定して、集計用データセット I S h u u k eiJから引数でー指定した項目で患者背景表を作成する SASマクロを標準ライブラリとし S h u u k ei J を1 3 . 集計用デ、ータセットの て登録している。試験に合わせて集計用データセット I i s t a W o r k sシステムに登録し 標準化」で、述べたルーノレで、作成する SASプログラムを作成して B さえすれば、あとは B i s t a W o r k sシステムに登録してある標準ライブラリと組み合わせて集計し たい項目や集計方法を標準ライブラリの引数に設定するだけで、患者背景表が作成できるの である。試験ごとに毎回患者背景表を作成することを考えると、どれだけ作業が効率的になる かは計り知れない。 i s t a W o r k s システムに登録する標準ライブずラリがパリデートされたもので、あれば、集 さらに B 計用データセット作成以降の部分については、ダブPルプロク守ラミンク守等のバリデーション作業 も必要なく、ダブ、ルプログ ラミンク守に割いていたマンパワーを他の業務に回すことも出来る。 ハHU nD

85.

I ︐ a F ‑ ︐ r tA︐ ﹂J /̲ 視覚的に満足で、きる用量反応試験のための必要症例数 0落合俊充・松村智恵子・渡辺秀章・田崎武信 塩野義製薬(株)解析センター Ther e q u i r e dsamples i z ef o rad o s e ‑ r e s p o n s et r i a l p r o v i d i n gav i s u a l l ys a t i s f y i n gr e s u l t ToshimitsuO c h i a i/ChiekoMatsumura/HideakiWatanabe/TakenobuTasaki B i o s t a t i s t i c sD e p t .,SHIONOGI&CO.,LTD. 要旨 用量反応試験において,用量と応答との聞に単調増加の関係、が認められる状態を「視覚的 ochran‑ に満足」であると定義する .2値応答の用量反応試験では,傾向性検定として C Armitage検定がよく用いられる.しかし,用量と応答が単調増加の関係にない場合で窃っ ochran‑ Armitage検定で、は有意な傾向性が認められることがある.このような場合, ても, C 傾向性検定の結果に基づいて用量反応関係を主張しても,新薬申請をする際には訴求力 を欠く結果として受け取られかねない.本稿では, 3種の用量群を設定した場合で用量反 応関係が有意であり,かっ視覚的にも満足で、きる確率を検討する.また,この確率が一定の 値以上となるために必要な 1群の症例数を試算する.連続応答への拡張も検討する キーワード単調な用量反応関係, C ochran‑ Armitage検定,単回帰係数の有意性検定 1.はじめに 3種の用量群を設けて用量反応試験を行った場合,結果として得られる用量と応答の付 置は図 1に示すような 9個のパターンに分類できる.そして,これらのパターンは視覚的な 満足度から{満足,やや満足,水平,不満足}の 4つに大別できる .2値応答の用量反応試 ochran‑ Armitage検定(以降, CA検定と略す) 験における傾向性検定では,一般的に C がよく用いられる.しかし,用量と応答の関係が視覚的に「やや満足」あるいは「不満足」な 状態で、あっても, CA検定では有意な傾向性が認められることがある.いま,各用量群 d;(i=1 , 2ムdl <d2 <d3) の有効例数 X;が互いに独立に 2項分布 B(n, κ)に従う場合を π ; )に従う乱数 X;を生成し 3 π tの 考える .SASの R必.JBIN関数を利用して 2項分布 B(n, I ';=x)nを求める .J I ' ;( i=1 , 2, 3 )の大小関係に基づいて得られる視覚的パターン 推定値J を判定するとともに,有意水準を片側 0 . 0 2 5としたときの CA検定で有意な傾向性が認めら れるか否かを調べるこの操作を 10000回繰り返して, CA検定の結果および視覚的パター ‑8 1一

86.
[beta]
ン別に頻度を集計したものを表 1に示す.表 1から分かるように視ー塑主主温星盟立士?

温呈4
士「不満足」の場合で あっても有意な傾向性が認められる割合は少なく w己.このよう
L

 視覚的にやや満足,あるいは不満足な結果が得られてしも場合,傾向性検定の結果に
3

基づいて用量反応関係を主張しても,新薬申請をする際には訴求力を欠く結果とLヱ柔け
取られる恐れがある.有意な傾向性が認められ,かっ用量と応答との問に単調増加の関係
が認められる状態(図 1の左上のパターン)であることが望ましいであろう.

i
.
2J
.j
.

1
1
¥ト‑J・
1

Jh
.


二足・



f
v
i
/ 1
1
.
 )   



図1.3用量群での結果を視覚的に分類した 9個のパターンと満足度
J


.
、a


表1.'3、
用量群での CA検定の結果と視覚的満足度の頻度(用量群は等間隔)
ヲ1





n
π
(l'π
2
πJ '
(
0
,
4
. 0.5,
0
.
6
)

0
.
5
0,
0
.
6
5
)
(
0
.
3
5,

0
.
5,
0
.
7
)
(
0
.
3,

有意

有意でない

やや

合計

やや

J、
満足満足 水平不満訂 I
満足 満足 水 平 不 満 足 小 計
01 108 1326 1731 2093 216 4634 8674 10000
1
0 1020 198
20 1785 235
0: 198 2218 2367 1419
66 3930 7782 10000
475 4603 2024 787
40 3825 303
20 欄 間 │10醐
80 6306 255
5
8
8
' 7149 1421 327
o 1103 28511 10000
100 7382 235
63618253 924 139
2 682 1
7
4
7
1 10000

1
0 2053
20 3795
40 6978
80 9219
100 9615

349
364
386
146
102

1
0 3464
20 6133
40 9015
80 9892
100 9962

516
529
245
39
1
1







。判



1

1973 1985
!η2│2

O. 352I4511 2129 1
125
01 57417938 984 304
188
1
9
2
1
9
' 9936
40
5

34 2201 5
4
8
9
1 10000
1 773 2
0
6
2
1 10
000
曲
o 87 2941 10000
o 19 641 10000

4235 1929 1596
4
1
6
1 7078 1393 591
375 9635 213
47
9
9
9
8
1
I 67
oi 27 10000

8
剖1 目
2m
1
白5
9U
5
町7
6 932 2
9
2
2
1 10000
o 105 3651 10000
o 1 21 10000
o 0 01 10000

?

シ ~:(;-:/", Ð~ヶ

8
2

。
。。

iョ/ 0 ' )










87.

、 , 司 . ^ 〆 , ‑ ← μ' 戸 J ι乙 ブ ) : t CA検定で有意な傾向性が認められる確率は CA検定の検出力に相当する. 1群の症例数 を試算する際には,検出力が一定の値以上となるように定めるのが一般的である.しかし,表 1 から分かるように,検出力では視覚的な満足度(実際には,有効率の厳密な大小関係)は考 慮、されていない.視覚的な満足度を重視する場合は,視覚的に満足かっ有意な傾向性が認 められる確率を評価し,この確率に基づいて症例数を設定する必要がある.本稿では,この確 率を理論的および、ンミュレーションにより検討する.そして,視覚的に満足かつ有意な傾向性 が認められる確率が一定の値以上となるために必要な 1群の症例数を算出する. 本稿の 2節では, 2値応答の場合を考える.傾向性の検定には CA検定を用いる . 3節では, 応答が連続値の場合を考える.このときの傾向性の検定には,単回帰係数の有意性検定を用 いる.いずれの検定においても有意水準は片側 0 . 0 2 5とする. 2 . 応答が 2値の場合 2値応答の場合を考える.1節での例示と同様に 3種の用量群を dl'd2, d3( dj <d2 <d3)と し,各用量群 i こn例が割付けられたとする.用量群 di( i= 1 , 2, 3 )の有効例数 Xiは 2項分布 B ( n,Jri に従い , Xl'XZ,X3は互いに独立であると仮定する.このとき,視覚的に満足できる ) 用量反応関係が得られる確率,有意な傾向性が認められる確率,視覚的に満足かっ有意な 傾向性が認められる確率はそれぞれ次のように求めることができる. 2 . 1 視覚的に満足できる用量反応関係が得られる確率 Jr の推定量をえ i =Xi/nとすると,視覚的に満足できる用量反応関係が得られる確率 は 附 < 丘 < . 7 IJ =吋主!̲<主主〈主主) j 2 ¥n n nI =p r(Xj<X2 <X3) 1lI﹀l l J ︑ ︐ノ Ti π g ' E E B E s t nx ︑ ︑ ︐ ︐ 3円 H M ん rlEBEJ1llt yγ vwj = ~Pr( ( 1 ) で与えられる.ここで ,R= { ( Xl'X2, X3) I X j<XZ <XJである. 2 . 2 有意な傾向性が認められる確率 CA検定で有意な傾向性が認められるのは,検定統計量 X臼が X臼と ZO.025を満たす場合 である(宮原,丹後 (1995)).ここで, ︑ ηu n凸

88.
[beta]
XCA =
臼

玄lXtdz‑bnZld
三
辺L
?
ω)
n
{ヱ
1
:
イ
‑
(
ヱ
:
.
,d,
)t
}.
p~ 3
n
n=

l

であり ,ZO.025は標準正規分布の上側 0
.025%点を表す.用量群と 1群の例数を固定すれば,

Xω~ ZO.025を満たすか否かは (Xp X 2,
X Jの組合せに依存する.このことより,有意な傾向
性が認められる確率は

2ofh
で与えられる. (
2
)は CA検定の検出力に相当する.Nam(
1
9
8
7
)は
, (
2
)を CA検定の

a
c
t
u
a
lpowerと呼び, CA検定の漸近検出力を導出している.
2
.
3 視覚的に満足かつ有意な傾向性が認められる確率
視覚的に満足できる用量反応関係が得られ,かつ有意な傾向性が認められる確率は,

IX. X
X句 、
P
r
(
7
I
¥<J
i2 <J
i
)
, Xω 注 ZO.025)= P
r
l
.
:
:
.
:
:
.
.
.
.
!
̲<~ <~'XCAZo 凹|
¥n
n
n
J
内

=P1

〈

ぉ
)

X 2XpXCAZO.O

で表される.2
.
2節で述べたように ,Xω 注 Zo025を満たすか否かは (Xp X2X))の組合せに
依存する.したがって,視覚的に満足かつ有意な傾向性が認められる確率は,

Xj< X2 <X) か つ Xω 注 ZO.025 を 満 た す (Xp X2X)) の 組 合 せ に つ い て
Pr(Xj=Xj)Pr(X2 =xz
1Pr(X)=X))の和,すなわちj
r(Xj=x
)Pr(X2 =x2)
P
r
(

P
r
(
J
i<
丘 2 <J
r
)
, X臼 注 ZO.025)=
j

lll1llJZ

Ti

El‑‑aF/

zn
x1¥
︑
︑
/1111
3HH

すす

︐1lEB︑
‑
JEll︑

(
3
)

を求めればよいと考えられるここで ,Q={(Xp x
x
)
)
l
xj <X2 <X)'X臼 >ZO.025}
2,

2.
4 3種の確率と 1群の症例数の関係
2
.
1節から 2
.
3節で導出した 3種の確率 (
1
),(
2
),(
3
)の妥当性を確認するため,これらの確
率とシミュレーションにより求めたそれぞれの経験確率とを比較する.用量群を等間隔に設定
し
, (
J
rp J
r2,
J
r
)
)= (
0
人0
.
5,
0
.
6
),
(
0
.
3
5,
0
.
5
0
,
0
.
6
5
),
(
0
.
3,
0
.
5,
0
.
7
)として 1群の症例数を変化さ
せたときの 3種の確率とそれぞれの経験確率を表 2に示す.用量群を等間隔に設定した場合,

CA検定では用量を定数倍しても同じ検定結果が得られる.このため,ここでは便宜的に
(
d
p
d
Z,
d
)
)= (
1,
2,
3
)としている.また,視覚的に満足できる用量反応関係が得られる確率は

A斗
企

06

89.

用量の値に依存しない.シミュレーション手順は 1節で述べた方法と同様であり,表 2で示して いるそれぞれの経験確率は表 1をまとめたものである.表 2より,それぞれの理論確率と経験 確率はほぼ同じ値を示していると考えられる. 1群の症例数が少ないとき,視覚的に満足でき る確率は有意な傾向性が認められる確率より高いが,ある程度症例数が増えればこの関係は 逆転することがうかがえた. .3種の理論確率と経験確率の比較 表 2 理論確率 経験確率「 (πpJl'2 ' π J ) n ( 0. 4 ,0 . 5,0 . 6 ) 1 0 20 40 80 100 V : 頁 豆 里 足 … 一 … T月 S… 0 . 2 7 0 6 0 . 1 2 7 1 4084 0 . 2 1 6 1 0. 0 . 5 8 1 9 0. 4576 0 . 7 6 9 9 0 . 7 1 5 1 0 . 8 2 5 2 0 . 8 2 6 1 0 ω . ρ O ω 9 8 3I 0 . 1 7 4 8i 0 . 3 7 6 4 0 . 6 2 7 3 0 . 7 3 5 9I 0 . 2 7 5 1 0. 41 52 0 . 5 8 4 9 0 . 7 7 2 7 0.8306 0 . 1 3 2 6I0.1020! 0 . 2 2 1 81 0 . 1 7 8 5 0. 4603I0 . 3 8 2 5 0 . 7 1 4 9¥ 0 . 6 3 0 6 0 . 8 2 5 3I0 . 7 3 8 2 0 . 5 0, 0 . 6 5 ) ( 0 . 3 5, 1 0 20 40 80 100 0 . 3 9 7 2 0 . 5 9 2 0 0 . 7 9 1 8 0 . 9 3 6 2 0 . 9 6 3 4 0 . 2 4 7 4 0. 4469 0 . 7 9 5 1 0 . 9 7 0 5 0 . 9 9 2 1 0 . 1 9 5 0I 0.3725 I 0.6944 0.9189 0 . 9 5 8 7 0. 4026 0.5924 0.7962 0 . 9 4 0 7 0 . 9 6 5 5 0.2574' 0 . 2 0 5 3 0. 4511! 0 . 3 7 9 5 0 . 7 9 3 8 ¥ 0.6978 097061 09ml 0 . 9 9 3 6 I0 . 9 6 1 5 ( 0 . 3,0 . 5,0 . 7 ) 1 0 20 40 80 100 41 86 0 . 5 3 3 9 0. 0 . 7 5 2 1 0 . 7 0 8 1 0 . 9 1 7 8 0 . 9 6 4 0 0 . 9 8 8 8 0 . 9 9 9 5 0 . 9 9 5 6 1 .0000 得 0 . 3 3 7 7I 0 . 6 1 3 6I 0 . 8 9 8 5 0.9884! 0.9956 i 0 . 5 3 9 3 0 . 7 5 2 6 0 . 9 2 2 8 0 . 9 8 9 3 0 . 9 9 6 2 0. 4235: 0 .3464 . 6 1 3 3 0 . 7 0 7 8 i0 0 . 9 6 3 5 I0 . 9 0 1 5i 0.9998: 0 . 9 8 9 2I 1¥ ̲ 0 . 9 9 6 2 1 … J よ 吋 よ L : VSβ … …一一…,Jγ均 J ! 里慢与一一…一 し 引 … … j #有効桁数を小数点以下 4桁とした場合の値, VS:視覚的に満足な用量反応関係が得られる確率 .‑‑ーーー一ー一一 ー ー̲ ' ̲ ' ̲ ̲ L ̲ ー 一 一 TS:CA検定で有意な傾向性が認められる確率, SS:視覚的に満定かっ有蒼五1 頃向性が認あ百五る確率 i 表 3 .各 確 率 が 0 . 8以上となるために必要な 1群あたりの症例数(理論確率) e 手~ ' , ‑ < ' π (l'π2ヲ町) ( dp d1, dJ 4,0 . 5,0 . 6) (0. (0 . 3 5,0 . 5 0,0 . 6 5) ( 0 . 3,0 . 5,0 . 7) (0 . 3 5,0 . 5 0,0 . 6 0) (0 . 3 5,0 . 5 0,0 . 5 5) (0 . 6,0 . 7,0 . 8) 等間隔 等間隔 等間隔 等間隔 等間隔 等間隔 91 42 24 63 165 77 97 41 23 60 96 81 と お ノ 81 4,0 . 5,0 . 6) (0. (0 . 3 5,0 . 5 0,0 . 6 5) ( 0 . 3,0 . 5,0 . 7) (0 . 3 5,0 . 5 0,0 . 6 0) (0 . 3 5,0 . 5 0,0 . 5 5) (0 . 6,0 . 7,0 . 8) (20,40,80) (20,40,80) (20,40,80) (20,40,80) (20,40,80) (20,40,80) 91 42 24 63 165 77 1 0 1 44 25 67 1 1 3 83 124 55 31 83 182 1 0 3 VS TS SS L 1 2 Y ιA ぷ 179 1 0 1 VS:視覚的に満足できる用量反応関係が得られる確率, TS:CA検定で有意な傾向性が認められる確率 SS:視覚的に満足かつ有意な傾向性が認められる確率 、 / ~ J 手 マ 、 EU n o

90.

2 . 1節から 2 . 3節で導出した 3種の各確率(1), ( 2 ),( 3 )が一定の値 P以上となるために必 要な l群あたりの症例数を比較する .P=0.8とし,し、くつかの用量群の有効率と用量の組合 り ,( . 7 TP . 7 T2'. 7 T3) = ( 0. 4 ,0 . 5, 0 . 6 )で用量群 せごとに求めた l群の症例数を表 3に示す.表 3よ . 8以上とな を等間隔に設定した場合,視覚的に満足かっ有意な傾向性が認められる確率が 0 るためには, CA検定の検出力 ( 2 )に基づく場合に比べて l群あたり 2 5例多くの症例数が必 要で、あった. 3 .応答が連続値の場合 本節では,応答が連続値の場合を考える.低用量群,中用量群,高用量群での用量をそれ d3とおき,すべての用量群に n例が割付けられたとする.用量群 dj( i= 1 , 2, 3 )に ぞ、れ dp d2, σ2 し ,Xi j= 1 ム… , n )の応答を Xi 割付けられた被験者 j( jは互いに独立に平均的,分散 jと の正規分布に従うと仮定する.ただし,有意な傾向性が認められる確率の理論的導出を容易 にするため,分散 σ2は既知とする. 3 . 1 視覚的に満足できる用量反応関係が得られる確率 各用量群における応答の平均値を 主 =12xv 2 / nの正規分布に従うことから,視覚的に で推定する Xjは,互いに独立に平均 μiと分散 σ 満足できる用量反応関係が得られる確率は, ) = [ににん j<X P(X 2<X 3 I ' . ¥ " ' . ¥ "( X p X 2, X 3 ) d i j d i 2 d i 3 " , = L t にん ( 吊 ) ん ,( 民 , ( 毛 £ ん ん 民)ん 民)ほ 伐 = L ) f x 1 (ι) 2 1 3 jd )dX X2dX 3 2 = J ̲ ∞ g(忌)fL(ι)伐 ( 4 ) X3の同時密度関数 ,f で求められるーここで ,f X! x x )は Xp X2, ,とFttはそれぞれ Xj の . x2. 確率密度関数と分布関数を表し, ( x X )=に民(ねん, 訂 正3 2)d 2 4 )を標準正規分布の確率密度関数ゆと分布関数 φ を用いて表すと, である .( nhu n 口

91.
[beta]
p
r
(
X1 <X2 < 瓦
)
=
 G(w)ゆ(w)dw
を得=る.ここで,

=川斗 十
(
μ
2

G
(
w
)

3
.
2 有意な傾向性が認められる確率
単回帰係数の有意性検定により傾向性を評価する.ここでは,分散が既知の場合を考える.

~""'Y3,, )T =(
X
l
p
.
.
.X
l
nX2P…,
Xω X31ヲ
…
ヲ xh)TT

(
dp …,
d3J = (
dl'…,
dp d2d2d3d3)T
…,
…,
とおくと,回帰モデルは
i
.
i
.
d

σ2),k=1,
3
n
2
+
βldk +EkEkN(O,
…,
,
E
2
=
β。
で表され,回帰係数 β
Iの最小二乗推定量は

3
;
2
:
1=

:
:
1
(
d
kd
)
(
E
ZY
)
:
I
(
d
kd
)
2
ヱ

で与えられる.ここで, Y
3
nd=2::14/3nである.このとき,帰無仮説を
=2::1九/
は平均 β
2
/
(:
:
1
d
K
23
n
r
)の正規
Ho:β1=0とする傾向性検定を考えるバ1
1'分散 σ

ヱ

分布に従うことから,検定統計量を

r

J~3n d2̲3z=βIVk=1

とおき,

z
注

•

σ

l
)
‑N(O,

ならば H。を棄却することとする.この検定統計量に基づいて,有意な傾向

ZO.025

性が認められる確率の導出を試みる 2:/~1(dkd)(
乙‑Y)は

~

‑ )
(
dkd)
(
Y
k Y

=

[(d 吟{什 (X +日
1

3
)
}
]

=itu1‑d2‑OXl+(叫 +2d2d3)X2+(叫 ‑d2+2d3)え
)

の
口

ワ
ー

92.
[beta]
と書き換えられることカ込ら,

Z(XpX2 X3)
ラ

ふ J2:dK2‑3nF

一 一

2::1(dk‑d)(
乙‑Y)JZldK2‑3nJ2

σ

2::1(dk‑d)2

F1JV3d2‑3nr r

=
̲
̲
̲
̲
!
"
‑
J
てI K
抗2d1‑dゥ ‑d3)X1+(‑d1+2d2‑d3)
̲
X2 +(‑d1‑d2 +2d3)X3}
30J: ~:I (
d一
瓦)
2t

k

A

F

a

d

J

とおくと,有意な傾向性が認められる確率は,

J
J
J
f
x
"
X
2,X 王
J(

,

pX2 X3)di1di2di3

A

J
J
J
f
x
"
x
"
x支
.
(1
ん王3
)川正pX,
X ほ didi

=

2

J

3)

I

2

3

(
5
)

で表される.ここで,

A= {
(
王p 王2,
X3)
I
Z
(
王
l
'
王2'X3)と ZO.025}
であり ,IAは Z(
王l'X2,
X3)注 ZO.025ならば 1
を与える指示関数である.

3
.
3 視覚的に満足かつ有意な傾向性が認められる確率
3
.
1節および 3
.
2節での議論から,視覚的に満足かっ有意な傾向性が認められる確率は,

Lに
に

X )did i d i
X2,
ん(王I,
3
1 2 3

'pX ,
2 X3)

fE1E2E3(
王

(
6
)

で与えられる.

3.4理論的に導出した 3種の確率とシミュレーションで求めた経験確率の比較

4
),有意
3
.
1節から 3
.
3節で導出した,視覚的に満足できる用量反応関係が得られる確率 (
5
),視覚的に満足かつ有意な傾向性が認められる確率 (
6
)とシミ
な傾向性が認められる確率 (
j
ュレーションで、求めたそれぞ、れの経験確率とを比較する.経験確率は次の手l
慣で求める.

S
t
e
p
1 各用量群の用量 d
2
3
)と平均的,分散 σぺ 症 例 数 nを定める.
,
i(
i=1,
Step2用量群ごとに n個の正規乱数を発生させ,各用量群の平均値を推定して視覚的に満
足できる用量反応関係であるかを評価するとともに, 3
.
2節で示した手法で回帰係数
の有意性検定を行う.

S
t
e
p
3S
t
e
p
2を 10000回繰り返して,視覚的に満足できる用量反応関係が得られた割合と
有意な傾向性が認められた割合,視覚的に満足かっ有意な傾向性が認められた割
合をそれぞれ集計する.

n
口
n
口

93.

( dl'dZ, d3) = (20, 40, 60)とし,各用量群の平均 ( μ l'μ2, μ3)と分散 σ人 1 群あたりの症例 数 nの組合せをしてっか定めたときの 3種の確率とそれぞれの経験確率を表 4に示す.理論 的に導出した 3種の確率は,数値積分を繰り返すことで求めている.このため,表示した値に は誤差が含まれていると考えられる.表 4より,理論確率と経験確率の差は 1%程度であること が分かる.傾向性は有意で、あっても標本平均値が単調増加で、ない可能性,すなわち, TSと SSの差に注目すると,表 4で、示したほとんどの場合で、数パーセント(およそ 1 %"‑'8%)の差があ った.また,回帰直線の傾きが小さく, 1群あたりの症例数が少数で、あっても,分散が小さけれ ば視覚的に満足かつ有意な傾向性が認められる確率は高いことがうかがえた.例えば,回帰 直線の傾きが 0.05で 1群あたりの症例数が 10例,分散が 1の場合,視覚的に満足かつ有 意な傾向性が認められる理論確率と経験確率は,それぞれ 0.9732,0.9706で、あった. .3種の理論確率と経験確率の比較 :( dp dz, d3)=(20, 40, 60) 表4 回帰直線 の傾き (μpμ Z'f . 13) ゥ σ 一 一 一 一 一 … 一 一 一 町 一 一 一 一 一 一 」 一 一 0 . 0 5 0 . 1 21, 2 2 ) ( 2 0, 22, 2 4 ) ( 2 0, 理論確率 VS n … 一 一 ・…ー 4 一 一 +叫a TS 一 SS 一 一 一ーー・一一一一一 … 一 一 一 一 VS 経験確率 TS SS 一一←.一一一一一'一一一一一一一'一一四一一‑一一一一一一一一一・ー‑ 1 . 9 7 4 5 0 . 9 9 4 7 0 . 9 7 3 2 1 0 0 0 . 9 7 4 8 0 . 9 9 3 5 0 . 9 7 0 6 1 0 10 1 0 1 0 0 . 5 3 9 8 0 . 3 0 2 4 0 . 2 5 5 8 . 7 8 0 4 0 30 0 . 6 9 9 8 0 . 6 1 5 1 . 8 8 4 4 0 . 8 1 7 4 50 0 . 8 8 5 6 0 0 . 5 3 4 8 0 . 3 0 0 0 0 . 2 5 2 0 0.7808 0 . 6 8 6 5 0 . 6 1 1 8 0.8796 0 . 8 8 1 0 0 . 8 1 1 3 50 50 50 50 50 30 50 80 100 200 0. 4501 0 . 1 8 7 1 0.1558 0 . 5 3 9 8 0 . 3 0 2 4 0 . 2 5 5 8 0 . 6 3 7 7 0. 4436 0.3819 0 . 6 8 7 9 0 . 5 1 8 9 0. 4510 0 . 8 4 2 5 0 . 7 3 5 8 . 8 1 8 0 0 0. 4464 0 . 1 9 6 5 0 . 1 6 5 7 0.5376 0 . 2 9 8 2 0 . 2 5 2 1 0 . 6 3 3 0 0. 4330 0 . 3 7 2 3 0.6899 0 . 5 1 4 9 0. 4497 0 . 8 3 9 8 0.8049 0 . 7 3 2 5 1 0 1 0 . 7 4 5 5 1 0 0 . 8 4 2 5 0 . 8 1 4 3 0 30 0 . 9 8 5 5 0 . 9 9 8 2 0.9836 0.8414 0 . 8 1 0 7 0.7336 0 . 9 8 2 4 0 . 9 9 8 5 0 . 9 8 1 3 50 50 50 . 5 9 2 4 0 . 5 1 7 4 30 0 . 7 2 9 6 0 . 8 4 2 5 0 . 8 1 4 3 0 . 7 4 5 5 50 0 80 0 . 9 2 5 9 0 . 9 5 1 0 0 . 8 9 1 4 0 . 7 2 8 8 0 . 5 9 4 0 0.5216 0.8374 0.8056 0 . 7 3 1 4 0 . 9 2 3 5 0 . 9 4 6 7 0 . 8 9 1 3 一一一『一一一一一一一一一一一一一・・一一・・・・・・・・・一一一一一一一一一一一一一一一一一一一一一一一一一一一一一…一一日・…一一一一一一一一 30, 4 0 ) 50 1 0 0 . 9 9 7 5 1 .0 0 0 0 ' 0.9986 ( 2 0, 0 . 5 稀有効桁数を小数点以下 4桁とした場合の値, VS:視覚的に満足な用量反応関係が得られる確率, T S :単回帰係数の有意性検定で有意な傾向性が認められる確率, S S :視覚的に満足かつ有意な傾向性が認められる確率 0 . 9 9 8 7 一一日 1 0 . 9 9 8 7 υ 円同 00

94.
[beta]
5
.まとめ
傾向性検定では,各用量群の有効率あるいは平均値の厳密な大小関係を評価しているわ
けではないため,有意な傾向性が認められでも視覚的に満足できる用量反応関係が得られて
いるとは限らない.視覚的に満足できる,すなわち用量と応答との聞に単調増加の関係が認
められる状態を重視する場合は,視覚的に満足かつ有意な傾向性が認められる確率を評価
する必要がある.そこで,応答が 2値の場合と連続値の場合のそれぞれで,視覚的に満足で
きる用量反応関係が得られる確率,有意な傾向性が認められる確率(傾向性検定の検出力),
視覚的に満足かつ有意な傾向性が認められる確率について考察した.応答を 2値とした場合
の傾向性の検定には CA検定,応答を連続値としたときは単回帰係数の有意性検定を用いた.
表 2と表 4より,有意な傾向性が認められる確率は,視覚的に満足かつ有意な傾向性が認め
られる確率に比べて高い値を示していた.また, 1群の症例数が少なければ
「視覚的に満足できる用量反応関係が得られる確率 J > ["有意な傾向性が認められる確率」
であるが,症例数がある程度増えればこの関係は逆転することがうかがえた.これらの確率の
差が症例数設定時に与える影響をみるために,各確率が一定の値以上となるときの 1群の症
例数を試算した.表 3より,視覚的に満足かっ有意な傾向性が認められる確率が 0
.
8以上とな
るためには,有意な傾向性が認められる確率に基づく場合に比べて 1群あたり 1
0例以上多く
の症例数が必要であることが示唆された.

ι<.7I を重視したが, ["やや満足」の状態

.
7
I1 <
本稿では,視覚的に「満足」の状態 (

)
3

(
.
7
I1< l九=んまたは .
7
I1=
.
7
I2 <.
7
I3)も許容で、きる結果で、あるカもしれない.このような場合は,
視覚的に満足またはやや満足でき,かつ有意な傾向性が認められる確率に基づいて症例数
を試算することが考えられる.また,ここでは,推定有効率の差がごくわずかであっても,
.
7
l
'1 < l
九 <.
7
l
'3で、あれば視覚的に満足と定義した.しかし,推定有効率の差が例えば

5%以内

であればそれらの有効率は等しいとみなすという緩やかな基準を設けることも考えられる.‑3節
では単回帰を用いたが,重み付き回帰を利用することも考えられる.実際の試験では,低用量
群の分散は大きくて高用量群の分散は小さいというように,各用量群の分散が異なる場合も考
えられるからである.各用量群に等分散を仮定したときと不等分散を仮定した場合では,得ら
れる 3種の確率は異なることが予想される.

,
(
"

t~:'r
β

、、
"
‑
L

仲

参考文献

均犬山 N
4
尚a
叩町
I
I叫
(

,
、

F

l
i
n
e
a
rtrendi
np
r
o
p
o
r
t
i
o
n
s
.B
i
o
m
e
t
r
i
c
s43,7017
0
5
.
・

[
2
] 宮原英夫,丹後俊郎. (
1
9
9
5
)
.医学統計学ハンドブ、ツク.朝倉書庖.

:
;
:
i
'
1
‑
:7

、
J
I ~'l

h
n,/手中角fjr /J

V

、

?
い ?JfJ!? 乙;(

,
t1'(:占'〆五戸
ι
:
、
、
F 月イ d

7

39
0

95.

統合解析用データセットの自動構築に向けて 0角谷伸一・北西由武・長谷川貴大・平野勝也・田崎武信 塩野義製薬株式会社 解析センター AutomaticGenerationo fDatasetsf o r I n t e g r a t e dAnalyses 8 h i n ‑ i c h iKakutani/Y o s h i t a k eKi t a n i s h i/TakahiroHasegawa /KatsunariHirano/TakenobuTasaki h i o n o g i& C o ., L t d . B i o s t a t i s t i c sD e p t .,8 要旨 新薬承認申請で,複数の試験からの成績を統合した要約 ( 18Eと 1 8 8 )が要求されている. このため,統合解析用データセットを作成する必要が生じる.最小限の規則を設け,それら の規則にしたがって試験単位で、データセットを作成しておけば,それらを単純に結合するこ とで,統合解析用データセットが自然に完成すると考える. 今回われわれは統合解析を念頭におき,個々の臨床試験ごとに解析用データセット仕様 書( E x c e lシート)と変数辞書 (8A8データセット)とを準備するとしち解析用データセット作成 の標準化を検討した.統合解析用データセットは,これら個々の標準化された解析用デー タセットを結合することで、容易に作成できるはずである. キーワード: 統合解析,解析用データセット,標準化,解析用データセット仕様書,変数辞書 1.はじめに 1CHM4ガイドライン「臨床概要の各項に関する詳細な指針」により,新薬承認申請では 5 個々の試験の要約だけではなく,複数の試験を統合した要約(I8Eと 1 8 8 )が要求されてい る.これは必ずしも各試験での症例単位のデータを,あたかもひとつの大きな試験での症例 単位データであるかのように統合することを意味するわけで、はない.しかし,どのような統合 解析の要請にも答え,土壇場を安全に乗り切るためには,症例単位のデータを柔軟に結合 できるようにしておくことが重要であろう.試験ごとに個々のデータセットを作成し,それらを 8A8の s e t文を使って縦に結合すれば,容易に統合解析用データセットが完成すると思わ れるカもしれない.しかし現実は厳しい.各試験はそれぞれの事情をかかえているからであ る.このため臨床開発プロセスを通して,統合解析をにらみながら,計画的に個々の試験の デ、ータセットを作成しておく必要がある.統合解析に備え,最小限の規則を設け,それらの 規則にしたがう必要がある.統合解析を意識しながら解析用データセットの作成手順を標準 よ 41 円Hd

96.

化することで,より迅速に,より平明に統合解析用データセットを準備で、きると考える. E 凸 EE亡今 令lu﹀ 幅一 解析業務主担当者 解析業務主担当者が作成する解析 仕様書により解析用データセットを 作成する 照合(バリデーション)を 実施する htol " . I I A r ι ;占!(川二ト バリデーション担当者 亘 解析業務主担当者が作成する解 析仕様書に従い,ダブルプログラ ミングで1¥リデ ション担当者が 解析用データセットを作成する 図1.試験ごとの解析用データセット作成フロー このことを実現するためには,これまでの解析用データセット作成フローを見直す必要があ る.これまでの解析用データセット作成フローを図 1に示す.このフローを簡単に紹介する.試 験ごとに解析業務を実施することから,試験ごとに解析業務主担当者(主担当者)と,解析用 データセット群が正しく作成されているかを確認するためのバリデーション担当者を指名してい る主担当者は臨床データ管理システム (CDMS)から必要なデータを抽出し,データ加工処 理を行わず,それらを SASデータセットに変換する.統計解析計画書および図表計画書によ り解析用データセット仕様書を作成する.その仕様書を参照して,必要に応じて変数を追加す ることで解析用データセットを作成する.ノ〈リデーション担当者は,解析用データセット仕様書 をもとに主担当者から独立して解析用データセットを作成する.主担当者が作成した解析用デ ータセット群と,バリデーション担当者が作成した解析用データセット群を SASの compareプ ロシジャを使って比較する.比較した結果,両者が一致すれば解析用デ?ータセットが完成した と考える. このフローにしたがって解析業務を行えば,解析用データセットとしづ成果物は信頼性の高 いものになる.しかし問題なのは,解析用データャ、、ん什様書の作成が主担当主主二丘主主ミ 土手よよである.解析用データセットの変数名のっけ方,データのもち方が主担当者個人に依 B 存する.試験ごとに主担当者が異なると,複数の試験をまとめて統合解析用データを作成する nノμ υ 川 ハ

97.

とき,試験ごとにデータセットの内容を確認しなければならない.試験聞の整合をとるためにデ ータ加工プログラムを追加しなければならなし、かもしれない.そうなると,不必要な時間シタスク がかかりストレスも ; i てき〈かる この問題は,試験単位で 解析用データセットを作成するときの手順が,統合解析を意識して L 標準化できれば解消できると考える.解析用データセット仕様書は解析用データセットを作成 するときの設計図である.これを標準化すれば,解析用データセットも標準化できるはずであ る.そこで,解析で用いる変数情報を管理するための変数辞書を別途用意する.解析用デー タセット仕様書を作成するときは,この変数辞書に登録されている変数を利用する 変数辞書 e にない新規変数は新たに辞書に登録する.このようにして解析用データセットに必要な変数 情報を変数辞書で管理する.変数辞書で管理されている情報を取得して解析用データセット 仕様書を作成し,解析用データセットを作成すれば,結果として標準化された解析用データセ ットが作成されることになる. 解析用データセット仕様書は,変数辞書とリンクさせるのが望ましい.その考えから解析用 データセット仕様書を MS‑Excelで作成することにした.この場合, E x c e lファイルが解析用デ ータセット仕様書となる.そのメインのシートで変数辞書へアクセスするためのアイコンを準備し た.さらに以下の機能を準備した. 1.新規変数を変数辞書へ登録させる機能 2 .空データセット(変数のみで,データ値がないデータセット)を作成する機能 3 .変数辞書に登録された情報を表示させる機能 x c e lファイルを利用することで,個々の試験の解析用データセットを標準化することがで この E きる.そして,複数の試験の解析用データセットを単純に結合でき,統合解析用データセットを 効率よく作成することが可能となる.なお,このような機能付きの仕様書は MS品 T o r dでも開発 できたカもしれない. 2 . 変数辞書の作成 われわれは統合のプロセスの核は変数辞書にあると考えた.そのため,個々の試験の解析用 データセットの作成で、必要な変数の情報が登録,保存.管理で去 λ夜勤詩書を完成させる方 法を検討した.同時に,できるだけ複雑にたムたい,緒いやすい変数辞書のありかたを模索し T こ. 図 1のフローで、変数情報の上、流はデータマネジメント ( DM)部門の臨床データ管理、ンステム (CDMS)上のデータベースになる.そのデータベース上のデータセット名,変数名およびそれ らの属性をそのまま引き継いだものが最初の SASデータセットで、ある.すなわち, CDMS上の デ?ータベース(各種テーブノレ)を SASデータセットに変換するときは, CDMSで定義されたデ ータセット名,変数名,変数のラベル名,フォーマット情報,変数の長さ,数値変数か文字変数 といった情報をそのまま取得する.これらの情報を管理するのが変数辞書である.解析用デー ηtu ︐ n uυ

98.

タセットに必要な変数について,変数辞書上で管理すべきと考えた項目を表 1に示す. 表1.変数辞書の CONTENTS 変数名 内容 解析用データセット名 CDMSのどのデータセットから取得したもの かがわかるように,データセット名を入力 変数名 SAS変数名を入力 変数タイプ N:数値変数, C :文字変数 変数の長さ 入力した変数の長さ フォーマット情報 SAS変数にフォーマットがある場合,フォー マット名を入力 変数のフベル(日本語) SAS変数の日本語のフベルを入力 変数のフベル(英語) SAS変数の英語のフベルを入力 品目 品目名を入力 所属 CDMS由来のものか, CDMSにはない新規 変数なのかを識別. 変数名に対するフベル 1emname プ、ータセット名 CDMS cdms 立 na立1 e t y p e l e n g t h format l a b e lJ l a b e lE p r o d u c t b e l o n g 辞書にもたせる情報は表 1のとおりである.ここで変数名について,少し説明を加える.変数辞 書で, l a b e l ̲ Eは海外へデータを受け渡しの必要が生じることを想定して辞書に含めている. 国内の承認申請業務を想定していればブランクとする.p r o d u c tは,どの開発品目に由来して いるかを識別するために設ける.すでに登録済みの変数が,他の開発品目でも使われること になれば,開発品目問で共通な変数とし、うことで, COMMONと入力する.特定の開発品目 に固有のものであれば,その開発品目名を入力する. 変数辞書の基礎は, CDMS上のデータベースに付随する情報にある.しかし,解析資料の 作成で CDMS上のデータベースに存在しない変数を加工して追加する必要が生じるかもし れない.そのため,変数辞書に保存してしも変数が CDMS上のデータベースからのものなの か,それとも解析資料の作成用に加工した変数なのかを区別するために, b e l o n g ( 所属)を設 けている .CDMS上のデータベースから抽出した変数は CDMSと入力し,新規変数は ADD と入力する. 解析資料の作成では, SAS変数名につけられたラベルを,図表の項目名として利用できる と便利である.新規変数の作成でも,将来にわたって利用で、きるように必要最低限のルールを 考えた.具体的に,新規変数の名称は,どのデータセットに所属しているかがわかるように,変 数名の頭にデータセット名の略号をいれ,その後にその変数の意味がわかるように英語名を 基本にしたものを添える.たとえば,有害事象データセット AEに,症状の異常,臨床検査値の 異常,生理学的検査の異常を分類させるための新規変数 CLSを登録したいとする.いま述べ たノレーノレからすると,新規変数の名前は AECLSとなる.実際には,担当者がこのように新規 変数について,変数名,属性の案をつくる.そして,変数辞書を管理している関係者が集まり, その案で問題がなし、かを確認した後,変数辞書へ新規変数として登録する. 9 4

99.

この変数辞書を利用すれば,解析用データセット作成担当者が異なっても,解析用データ セット内の変数名の統ーが図れる. 3 . E x c e lファイルとしての解析閉 T三空士止{土様書 3 . 1解析用データセット仕様書の概要 試験単位で、の解析用データセット仕様書を自己完結させ,変数辞書を拡充するためのツール x c e lで開発した.E x c e lシート内のボタンをクリックすると,その裏で SASプログ、ラムが実 をE x c e lファイルとしての仕様書で、用意した機能は以下の通りである. 行されるように工夫した.E (1)解析用データセットを作成するために必要な解析用データセット仕様書を自己完結さ せる機能 ( 2 )辞書に登録されていない新規変数を変数辞書へ登録させる機能 ( 3 )解析に必要な空データセットを作成する機能 ( 4 )辞書情報の一覧を表示させる機能 実際にはこれらの機能を以下の 3つのシートに分担させた. ( 1 )と( 3 )を実行させるための MAINのシート ( 2 )を実行させるための REGISTERのシート ( 4 )を実行させるための DICTIONARYのシート これらのシートと機能を利用して,標準化された解析用データセットを作成することがで、きる. 3 . 2解析用データセット仕様書の利用方法 つのシート,すなわち M AIN,REGISTER,DICTIONARYのそれぞれ 開発したツールの 3 の画面を図 2から図 4に示す.これらの図を利用して,この仕様書の利用方法を説明する. : 図2 のM AIN画面で,①開発品目名,②試験名を入力し,③メタ情報取得(辞書情報 手順 1 ASプログラムが実行され,指定した開発品目と試験 更新)ボタンをクリックする.裏で S に該当する CDMS上のデータベースに保存されている情報が⑥に出力される.その 実行が正常で、あったときは,④のところで「正常終了」のメッセジが表示される. :CDMS上のデータベースから取得した変数とは別に,解析資料の作成で必要な追加 手順 2 変数があれば⑥のところで入力する.解析用データセットに必要なテープ、ル名,変数, および必要な変数の属性情報をすべて入力する. :⑤の整合性チェックのボタンをクリックすると, MAINで入力した情報と,これまでに変 手順 3 AS変 数 は 図 3の 数辞書に登録された'情報とを照合する.変数辞書にない S REGISTER画面の⑦に表示される. h ﹁ u nυ 同

100.
[beta]
手順 4
:辞書に登録されていない新規変数について,名前,属性など入力情報に問題がない

かを確認して,③の辞書登録のボタンをクリックして,変数辞書に新規変数を追加登
録する.SASフ。ロク、、ラムの実行に問題がなければ「正常終了」のメッセジが⑨に表示さ
エラー」のときは「正常終了」になるまで
れる.問題があれば「エラー」と表示される I
修正を行う.
手1
[
)
員5:MAINシート(図 2
)に戻り,複数の解析用データセット聞をマージするときに必要となる

変数,すなわち Keyとなる変数情報を⑮の Key情報のところで、入力する.典型的にそ
れは SUBJIDのような被験者識別子である.SUBJIDの他に Keyとなる変数があれ
ば追加入力する.入力が完了すれば,⑪の空データセット作成ボタンをクリックする.

SASプログラムの実行が正常に終了したか否かは④に表示される.I
エラー」のときは
「正常終了」になるまで修正を行う.
)のシートを開く.変数辞
なお,変数辞書の情報を参照するときには, DICTIONARY(図 4

書に登録されているすべての情報がこのシートに表示される.

関町閉開園開園育務理E覇軍需関宿露頭割田園圃圃園田園園‑圏平努察幾議総務毅総出丘二る 4到 単

純1J71伺 融 ⑤ 表 示w 簿入早書式(Q) 'l‑s,①刊ω 切 内q日明・ω
斗 到 三j
記長画通1お丙~ <
t 百三副1:.
,~j五1両布石:~i=烹了一一一
,1
1 ・
;B I 1
1i
三 三 三 毘 'W% , 沼 .~j f:聖雪 !j~ ・&・.:i, !
.

e
:
‑l
τ
D

‑E‑I‑‑F

G

J

i
K
l .
.

実行箇累

⑥ CDMSよのデータベースからの情報がここに出力される.
解析に必要な追加変数がここに入力される.

_~2

"
、
口 0 園 回 41 ・.t;..:i,.=

磁函\担制豆蜜豆豆亙歪直 r--------------~

1
図駒担包).1;, G!日,.(J・
ω.

e
o

~三1:) i
I
)

:
m
f
'

1 1L'

ば

Jn

Jド

矧 rJJ

J
一

﹁/

︿い

j

イJ

4T

r
'
A

川円

o'

︑
ft

ル1 i f v

︒︑ ︑︑

Nrl

ιRnic
︐

ruvhF
f
︐

図2
.解析用データセット仕様書 MAINシート

υ

門川

ハ
hv

101.
[beta]
暴
議

隊習...町一世E 園田陣電話哩"'i諸国...
量酒田iI~量 匪藩置翠宮署白羽

古
寝
袋
;
む
き
ヌ

品 邸 主1
4 盗j
三j

1
モ
jJ,イル屯〉露呈@表示 (
I
[
i 挿 入 母 書 式 。 ト ルφ 7
可 。 ウ0門司堕ヘルア{日
D5 回一!空旦立法竺旦<f 同・九・_i生守 l~_!:JLW型_~ ~L7~~_...:J.盟主
1 王子」空三塁豆ちJ‑BJ
自 主i
と二今治三

MF‑す二千
A I

8

C D E

F

G

主右主:!
⑧ 相 聞

:

⑨

⑦辞書に登録されていない新規変数の SAS変数の一覧がここに
表示される.

!
l
!
̲

g

"

て̲,

i
!
.
T
T
.
.
‑
:
i
j
.
¥
i1i¥弘臨E玉旦正磁蛮皇霊安y一一一…一一一ーでァー… ー L~L._.

町一一 .._~r

4
1
1<'!>・ 4 ・ 4レ三芸 E三留~

i

抑制li砲い~ G t
‑
f
'lxイ地・¥、口 0 国g]
:
R
ツ
ド

ケ-一一一一一一-r"~ï--一;

図3
.解析用データセット仕様書

γ‑
:
,r r
‑4.

REGISTERシート

鴎漉綴藤鱗議議総総長主総i
ぷ
斗盟主l
ω
;挿入 I
I書 式 。 ← L①ヂ→(12)ウィジト勺坦由晴ア回
品盗j
王J
題豆{三玉亘'
i
T
f瓦‑
i
iH
T
面電蛮玉三重F
言
7
;
「一一一一一
・1
1 ・ B I
'!!主主王国 :W% )鴻州三宅三ミニ土二台.!

際司棚聴聞酒型開.曹割票彊E盟盟理繋聾溜浬望盟甥rnlI!I圃圃圃瞳盟国

λに %

憲主@表示

土1

n

一三 1
;
'
e

G

L__9.____L___E.一一時--~--ー

H

ラベ JH
日本草〉、ムレラベ M 英語〉

::¥1:敬老ンロ笠イブ斗 長さ

諒一日

ν
‑h
﹄

何
一
一
ー

フ一イ

オ一

日一ド蜘実行己主とj
品固い

フョ,ーマット

図4
.解析用データセット仕様書

‑9
7

DICTIONARYシート

102.

4 .解析用データセットの作成 4 . 1試験ごとの解析用データセットの作成 解析用データセット仕様書のツールを利用して,解析用データセット仕様書が自己完結する. 同時に,解析に必要なデータセット,およびそれらの中に含まれる SAS変数が決まり, SAS変 数のみの空データセット,すなわち解析用データセットの作成に必要な変数情報のみが入力 された箱が作成される.これらの空データセットは,所定のフォルダに保存される. 主担当者は, CDMS上のデータベースを読み込んで生成した SASデータセットを利用して, SASの workライブラリー(一時的な作業領域)上で、I } 国次 SASデータセットを作成する.必要が あれば,データを加工するプログラムを作成する.たとえば,新規変数の作成,変数ラベルの 追加とし、ったプログpラミングが発生する .SASの workライブ戸ラリー上で、データセットが完成す こデータが作成されたかどうかをチェックする.そのため, SASの workラ れば,仕様書どおり l イブ、ラリー上のデータセットと,所定の場所に保管されている空の同一名称のデータセットとを, SASの appendプロシジャにより結合する .SASの workライブ ラリー上に作成したデ、ータセッ F トと,同一名称の空のデータセットとで情報が一致していれば,データを結合し解析用データ セットが完成する.もし,変数名やラベル名や変数の属性などで不一致があれば,エラーとな る.その場合,エラーの原因を突き止めて修正する.エラーがなくなるまで、この作業を繰り返 す. 解析業務主担当者 E 事 解析用データセット仕横書どおりに解 析用データセットが作成されているか (変数の属性,ラベル名など不整合が ないか)を照合する 誇手~ ノ未登録変数 を追加登録 一一一「する 解析用データセット 仕様書作成ツール ↓ ↓ │ │ ッ卜群│ ータセット群 l y ~ バリデーション担当者 解析業務主担当者が作成した解 l 祈用データセット仕横書をもとに V 独立に解析用データセットを作目 一一一一一』 ι する データ│ー炉│解析用デ│ ダブルプログラミングによ り,データの中身をバリデー ション担当者が照合する 卜百官百官寸 1) 界 初 用 7 1 トタセット群│ 図5 . 解析用データセット作成までの新しい業務フロー n刈υ nD

103.

上記の作業ではデータの中身の確認がなされていない.このため,つぎに,解析用データ セットのバリデーション担当者は,主担当者から解析用データセット仕様書を受け取り,独自に 解析用データセットを作成する.その結果を,主担当者が作成した解析用データセットと照合 ASの c o m p a r eプロ、ン、ジャを利用する.今回はデータの中身を確認する する.この照合には S 作業であることに注意したい.c o m p a r eプロシジャの出力結果で,両者が一致しているかどう かの確認を行う.一致しなければ,なにが一致していなし、かを追跡し,データのすべてが一致 するまで作業を繰り返す.すべて一致すれば,仕様書どおりに解析用データセットが正しく完 成したと判断する.これら一連の新しい業務フローを図 5に示す. 4 . 2統合解析用データセットの作成 . 1節で述べたとおりに,試験ご、との解析用データセットが完成すれば, 個々の試験について, 4 それらのデータセット名,およびそれらの中に含まれる S AS変数は仕様書どおりに設定される. DM部門は CDMS上のデータベースの作成で標準化に取り組んでいる.解析部門も解析用 デ、ータセットの作成で、標準化を進めている.この結果,試験ごとに標準化された解析用データ セットが完成する.そうであれば,個々の試験のデータセットを, S ASの s e t文を利用して縦に 結合することで,おのずと試験をまたがった統合解析用データセットが完成する.ただし,統合 解析のための資料作成で,新たに新規変数が必要になった場合は,そのことに伴う作業が必 要となる.統合解析用データセットの作成で,個々の試験で、の解析用データセットの作成と同 様に,解析用データセット仕様書(作成ツーノレ)を用いて,仕様書を自己完結させ,辞書にない 新規変数があればそれらを辞書に追加登録する.仕様書を確定して空データセットを作成す る.その後は, S ASプログラムにより,個々の試験で作成されている解析用データセットを呼び 出し,必要に応じて新規変数を追加して統合解析用データセットを作成する. 5 . 考察 新薬承認申請で必要な複数の試験を統合した要約資料を作成するために,開発品目内の 個々の試験で、解析用データセットを作成し,それらを縦に結合することで,統合解析用データ セットを作成する道筋を問題にした.そのような統合解析用データセットを作成するため,まず 最初に,試験ごとのデータセットおよびそれらの中の変数情報をどのように管理すればよし、か を検討した.つぎに,その変数辞書と解析用データセット仕様書を関連付けるため M S ‑ E x c e l の活用を検討した.この検討から解析用データセット仕様書そのものを E x c e lで展開するアイ デアが生まれた. 解析用データセット群の中のデータセット,その中の変数および変数の属性については, DM部門で作成される CDMS上のデータベースで定義されたものが,そのまま解析部門に引 き継がれる .DM部門は解析部門から見て上流にあたるからである.下流部門だけが解析用 デ、ータセットについてデータセット名,変数名,変数属性などを一定の規定にしたがって作成 υ q υ q

104.

しでも, CDMS上のデータベース設計でそのような規定がなければ,統一された解析用デー タセットを作成することは難しくなる.そのために,両部門での標準化,両部門の連携が必要と なる. D M部門は, CDMS上でデータベースを構築するとき,入力規定を設けている.そして,解 析部門の担当者は, D M部門が作成した CDMS上のデータベースの定義書を点検する.解 析用データセットを作成する上で、問題があれば D M部門の担当者に対応してもらう.このこと により, CDMS上のデータベースをそのまま利用できる.必要に応じて変数を追加したり,既 存変数を加工することで新規変数を作成する.この新規変数は解析部門で作成するものなの で,どのように作成するかが問題となる.解析部門では,新規変数を作成して変数辞書に登録 するための標準手順を用意する.そして,どのような新規変数を登録したかを D M部門に連絡 をする.この新規変数は CDMS上のデータベースにはない変数なので,解析部門が作成し たこの変数を次回からの試験で利用してもらう.このように部門間で情報を共有することにより, 標準化された解析用データセットを作成するためのよりよいデータベースを構築することがで きる.しいては,試験ごとに統一した SAS変数ができ,標準的な解析用データセットがで、き,そ れらをまとめることにより,統合解析用データセットを効率よく作成できる. ハHU ハHU ‑ ‑ 4

105.

FDRコンセプトと FDR法についての考察 0佐 藤 E香里・角谷伸一・田崎武信 塩野義製薬株式会社 解析センター S t u d yo nC o n c e p ta n dMethodo fFDR Aka r iSato/S h i n i c h iKakutani/TakenobuTasaki O ., L t d . B i o s t a t i s t i c sDept.,Shionogi& C 要 旨 超多「次元」データ,例えばマイクロアレイデ、ータで、通常の 2群比較を「次元」ごとに くり返すと,差がないのに差があると判定する誤陽性が膨張する.しかし,その場面で B o n f e r r o n iの調整を施すと,結果は絶望的なくらい非生産的なものになりうる.ここで FDR法が注目される. 1次元の多「群」比較の問題でも,比較したい「群」の数がたとえば 1 0 個を超えると Tukey法は敬遠されることが多い.しかし,たとえ探索的な性格の試験で、あっても多重 性を完全に無視することはできないであろう.ここでも FDR法が注目される. 超多「次元」データでの多重比較の問題と,多「群」データでの多重比較の問題に 関して, FDR法と従来法を比較して考察した. キーワード: FD, R Bonferroni,Tu key,MULTTESTプロシジャ 1.はじめに 超多「次元」データ,例えば,マイクロアレイ, SNP,fMRI,FTMSなどのデータで通常の 2群比較を 「次元」ごとにくり返すと,差がないのに差があると判定する誤陽性が膨張する.しかし,その場面で B o n f e r r o n iの調整を施すと結果は絶望的なくらし、非生産的なものになりうる.今度は,誤陰性が膨 張するからである.ここで FDR( F a l s eD i s c o v e r yR a t e )を制御する方法 (FDR法)が注目される. 多重性の問題に対する従来の対処法では,ファミリ一過誤率 (FWER)が制御される.一方, FDR 法は,棄却された帰無仮説のうち,誤って棄却された帰無仮説の割合を制御する.棄却された帰無 仮説のうち,誤って棄却された帰無仮説の割合は, FDR( F a l s e DiscoverγRate)と呼ばれている.こ のコンセプトは, B e n j a m i n ia n dH o c h b e r g ( 1 9 9 5 )によって提案されている. m 個の仮説を検定するとして,そのうちの mo個は帰無仮説が真,残りの m‑mo個は対立仮説が 真であると仮定する.FDRは , U 円 1 ょ ーよ

106.

や 0) FDR= R> p r { R>0 ) と定義される.ここに ,V は帰無仮説が真であるにも関わらず棄却される数 ,R は帰無仮説が棄却さ B e n j a m i n ia n d れる総数である. FDR 法は,ある固定された α に対して ,FDRsα を保証する ( Hochberg( 1 9 9 5 ) ) . 真│帰無仮説 │対立仮説 計 検定 非有意 有意 計 U V mo T m‑R S m ‑mo R m FDR法は,次のような手順で行われる .m個の帰無仮説 Hl, H2'…, H mに対して検定を行ったとき の p値を Pl, P2'…'Pm と表す.それら p値を小さしものから1 I 慣に並べたものを P(l)sP(2)s…sP(m)と 表 す .P(i)s(ilm)α を 満 た す よ う な 最 大 の iを kと定義する.もし ,k が存在するならば, P ( 1 ), P(2)'…, P(k)に対応する帰無仮説を棄却し,残りのものを受容する .kが存在しない場合には, すべての帰無仮説を受容する. 相聞が存在する場合での FDR法の性質はそれほど研究されていない.検定聞に相聞がある場合 の拡張として, αをぷ=イヱに l ( υj )におきかえて ,P(i)亘 ( i1m) α・を満たすような最大の tを kと定 義する方法が提案されている ( B e n j a m i n ia n dY e k u t i e l i ( 2 0 01 ) ).しかし,この拡張は相聞の強さや構 造を考慮していない. 実際,マイクロアレイの解析で、は,異なる遺伝子として取り上げられたものが,同じ遺伝子の断片で あったとし、う場合もあり,相関を考慮した調整を行うべきである. 1次元の多「群」比較の問題でも,比較したい「群」の数がたとえば 1 0個を超えると Tukey法は敬遠 されることが多い.しかし,たとえ探索的な性格の試験で、あっても多重性を完全に無視することはで、き ないであろう.ここでも FDR法が注目される.いまの場合の多重比較には,必然的に相関構造がある. FDR法と Tukey法とではコンセプトが異なり,そのことを考慮に入れて両者の適用力を比較すべきで ある. 2節で,超多「次元」データについて FDR法と B o n f e r r o n i法を比較し, 3節で,多「群」データにつ いて FDR法と T ukey法を比較する.最後に 4節で, FDR法と従来法との比較結果を考察する. 2 .超多変数比較 ‑FDR法と B o n f e r r o n i法との比較‑ 超多「変数」の 2群比較において, FDR法と従来の多重比較法で性能を比較する.FDR法として, オリジナルの FDR法,相聞を考慮した FDR補正法をとりあげ,従来の多重比較法として, B o n f e r r o n i 法をとりあげる. 超多「変数」での 2群比較は,例えば,遺伝子発現データの解析で,疾患群と正常群の 2群比較 1 ょ nノω ハ U

107.
[beta]
を非常に多くの遺伝子に関してくり返す場合に生じる.よく知られているように, B
o
n
f
e
r
r
o
n
i法を適用
すると,遺伝子の数が増えれば増えるほど,解析結果は絶望的なほど保守的になる.
ここでは, 1000個の変数について, 2群比較で t検定を変数ごとにくり返す場面をとりあげ,多重性

o
n
f
e
r
r
o
n
i法の働きを比較する.
を調整しない方法, FDR法,相聞を考慮した FDR補正法, B
2
.
1シミュレーション研究計画
1000個の変数のぞれぞれで 2群比較を行うとして, 2群聞にすべての変数で差がない場合,すべ

ての変数で差がある場合(共通の標準偏差を 1として平均の差が lの場合と平均の差が 2の場合),
一部の変数で差があり残りの変数では差がない場合を考えた.変数問に相闘がない場合と相聞が
ある場合を計画し実行したが,これらの 2 つの場合で結果は類似したため,以下では,変数聞に相
闘がある場合についてのみ述べる.
集 合3

集 合2

集 合l

X1

XIQ

X2
0

Xu

X2
1

i
i

r
O
lr1 0
.
7
X1
1 r
群 11
1

.
I
‑
N

,

X1
0

群2

・

X2
r
0
:
7
1
1
1
1,
X
7
0
.
7
1
0
.
1
1
1
向。 1
叩
…
1

:
7
.
10
11 ブ|ー NIIμ~2 1

X;

X121
01[
0
.
51 0 5 l
X
│.
l
1
1
1
ーN
0
.
5
X2
.
5 1
0
.
5 … 0
01 ¥
1011

X

1

μ
1
2
1
1
0
.
5 1

X1
醐
.
d
‑
:
;
N(O,
I
)

i=2
1,
・
,1000

:
;N(μ;,
,
1
)
!X
I
l
l
x
;‑

;
x~i:

I
l

0
.
5
1
1
1 i=2
1
I
,
"
'
,30
.
5 1
0
.
5・
・
・ 0
μ
2
0
11

i

‑
‑
:
:
‑

N
(
μ
;,
1
)

!i=31
,
"
'
,1000

集合1)の変数問に一定の 0
.
7の相聞があり ,XII,
)の変数聞に一定の
X2
X1
XIQ(
,
…,
…,
0 (集合 2
)の変数聞には相聞がないとする.実際,遺伝子発現データ
0
.
5の相闘があり ,X2
醐(集合 3
1,
"
'
, X1

においても,一部の変数聞に相闘があるとし、う状況は十分に考えられる.次の想定 1から想定 5のも
とでデータを生成した.X1,
X1聞の母平均を群 lではすべて 0とし,群 2では μ1"'"μ1聞と表し
…,
た.1群の例数は 1
0例とした.
想定 1:すべての変数でら差がない場合 (μ1=… =μ1醐 =0)
)
想定 2:すべての変数で、差が lの場合 (μ1=… =μ1剛 =1

:すべての変数で、差が 2の場合 (μ1=… =μ1剛 =2)
想定 3
:X1,
,Xll,
想定 4
XlO (集合1)で差が 2
…,
"
'
, XlOOOで、差がない場合
(
μ 1=
)
μ11=… =μ1剛 =0
… =μ10=2,

:X21>...,
X2
想定 5
X3
,X1
XlOOOで差がない場合
,
…,
0,X31"" ,
0(集合 3の一部)で差が 2
)
(μ1=… =μ20=0
,
… =μ1剛 =0
,
u2
μ31=
1=… =μ30=2,

υ

八日

1よ

qu

108.

2 . 2シミュレーション評価方法 0 0 0 上記の想定でシミュレーションデータを生成して, 2群聞で平均値に有意差があるか否かを 1 個の変数について t検定で調べた.有意水準は両側 0 . 0 5として有意差があるか否かを判断した.t 検定の p値を, FDR法,相聞を考慮した FDR補正法, B o n f e r r o n i法で調整して s 有意差があるか否 かを判断した. シミュレーションは 1 0 0 0回くり返した.多重比較法の性能を評価する場合,通常,し、くつかの変数 のうち少なくともひとつで有意差が検出された頻度を求めるが,ここでは,複数の変数のうち有意差 が検出された変数の数,その数の(相対)頻度に注目した.シミュレーションのくり返しのそれぞれで, 1 0 0 0個の変数のうち有意差を検出した変数の数(以後, I 有意差検出数」と呼ぶ)を計数した.各「有 意差検出数」の頻度(=各「有意差検出数」の値をとったくり返しの回数 /1000 回)を算出した.横軸 に「有意差検出数 J,縦軸に「有意差検出数」の頻度をとり, 4つの方法をそれぞれ線で、結んで l枚の グラフに示した(図 1 ).調整なし, FDR法,相聞を考慮した FDR補正法, B o n f e r r o n i法をそれぞれ口, . , 0,*で区別した. 2 . 3シミュレーション結果 想定 1 ‑調整なしでは I 有意差検出数」が 5 0のあたりを中心に分布していた.このことは,帰無仮説が真 0 0 0個の変数のうち 5 0個くらいの変数で有意差を検出してしまうことを表している. で、あっても, 1 • FDR法,相聞を考慮した FDR補正法, B o n f e r r o n i法で調整すると,いずれも I 有意差検出数」は ほとんどの場合に 0であった.差がないことを想定しているので,望ましい調整である. 想定 2 ‑調整なしでは I 有意差検出数」が 5 6 0のあたり, FDR法では 4 0 0,相聞を考慮した FDR補正法で は3 0,B o n f e r r o n i法では 1 0のあたりを中心に分布していた.つまり,調整なし, FDR法,相聞を考 o n f e r r o n i法の! J 国で I 有意差検出数」が多い値の頻度が高かった. 慮した FDR補正法, B 有意差検出数」が Oとなることがあり,相聞を考慮した ・ただし,相聞を考慮した FDR補正法のみ I FDR補正法では I 有意差検出数」が 0となる頻度が最も高かった(相対頻度 0 . 0 8 6 ). ・調整なしと FDR法が近い関係にあった.それ以上に,相聞を考慮した FDR補正法と B o n f e r r o n i 法が近い関係にあった. 想定 3 ・調整なしと FDR法では I 有意差検出数」が 1 0 0 0のあたり,相聞を考慮した FDR補正法では 9 0 0, B o n f e r r o n i法では 2 9 0のあたりを中心に分布していた.想定 2と同様に,調整なし, FDR法,相聞 を考慮した FDR補正法, B o n f e r r o n i法の! J 買 で , I 有意差検出数」が多い値の頻度が高かった.い 有意差検出数Jが Oとなることはなかった. ずれの方法でも, I ‑ 1 0 4

109.

‑調整なしと FDR法はいずれも I 有意差検出数」が 1 0 0 0に近いところに集中しており,望ましい. .相聞を考慮した FDR補正法は, B o n f e r r o n I法よりも,調整なしあるいは FDR法のほうに近かった. .B o n f e r r o n I法は,他の 3つの方法に比べて, I 有意差検出数」が少ないところに分布しており,かな り保守的であると視察された. 有意差検出数」が多いところに分布することがわかった.差をより ・すべての方法で,想定 2よりも, I 大きく想定しているので,適切な結果である. 想定 l 0 8 ! m 法 相関を考慮した FDR 補正 i 法 川 0引 7; 1 出f 勘n 刷 ぱ曲 f 色 e 町 耐 伽 加 伽 r 汀 即 r o r 出 ; 1 I 調整なし 0 . 0 o 10 20 30 40 50 60 me 出o d‑1.n o tA d j u s t e d ' ‑ 3 .FDRw i t hc o r γ e l a t i o n 四 ゐ 70 80 90 100 2 .FDR 4 .B o n f e r r o n i 想定 3 想定 2 P 0 . 2 P 0 . 1 5 調整な B o n f e r r o n i法 FDR法 0 . 1 0 1、 企 / ふ伊}ロハ た し去 慮E 考補 〆 欄m 調整なし 0 . 1 相関を考慮した FDR 補正法 B o n f e r r o n i法 占 0 . 01 ̲ ̲ . . , ; , L 200 300 nせ 畑 山 定 me 出o d‑1.n o tA d j u s t e d 2 .FDR 3 .FDRw i t hc o r r e l a t i o n' ‑ 4 .B o n f e r r o n i ・・ ¥ 400 500 600 me出 od‑1.n o tA d j u s t e d 3 .FDRw i 出 c o庁 e l a t i o n ・ ・ ・ 想定 5 目 700 四 800 2 .FDR 4 .B o n f e r r o n i 川 口 口 日 日 ふ小 t 法 正 補 P n u p A た し 慮 考 を 関 法法 nuRE 唱 ‑4 . ー 一 一 一 一 一 一 一 リ 一 一j 怖い て/h pか 相聞を考慮した FDR 補正法 B o n f e r r o n i法 調整なし / 7 0 80 ',/ 0 . 1 0 . 0 o 9 0 100 10 20 30 ん て ヘ イ 40 50 60 7 0 80 90 100 me 出o d四1.n o tAdjusted 2 .FDR ' . ' 3 .FDRw i t hc o r r e l a t i o n" ' 4 .B o n f e r r o n i me 出o d ‑1.n o tA d j u s t e d ' ' ' 2 .FDR . . . . 3 .FDRw i t hc o r r e l a t i o n" ' 4 .B o n f e r r o n i 目 図1. I 有意差検出数」と頻度 4つの方法の比較一 想定 4 ・調整なしでは, I 有意差検出数」が 6 0のあたり, FDR法と相聞を考慮した FDR補正法では 1 0, υ ︑ 戸ハ1Ui

110.

B o n f e r r o n i法では Oのあたりを中心に分布していた.つまり,調整なし, FDR法,相関を考慮した FDR補正法, B o n f e r r o n i法の順で, i 有意差検出数」が多い値の頻度が高かった.ただし,調整法 . 5 9 3,FDR では「有意差検出数」が Oの頻度が高く,その頻度は,相聞を考慮した FDR補正法で 0 法と B o n f e r r o n i法で 0 . 2 9 6であり,相聞を考慮した FDR補正法で、最も高かった. • 1 0 0 0個の変数のうち, 1 0個の変数にしか差がないが,調整なしでは「有意差検出数」が 6 0のあた 0 0 0個すべての変数で 2群聞に差がなかったが, 1 0 0 0個 りを中心に分布していた.想定 lでは, 1 0個くらいの変数で、誤って有意差を検出していた.それに対して,想定 4では 1 0個の変数で 中5 本当に差があるのでに 6 0個くらし、の変数で有意差が検出されたことは想定 lの結果と整合する. • FDR法,相関を考慮した FDR補正法, B o n f e r r o n i法では,調整なしに比べて「有意差検出数」が 5に分布していた.1 0個の変数で差があるとしづ設定に適合している. 少ないところ, 0から 1 • FDR法と,相聞を考慮した FDR補正法では, i 有意差検出数」が 1 0のあたりの頻度が高くなって 0 いた.その頻度は, FDR法のほうが,相聞を考慮した FDR補正法よりも高かった.相関のある 1 個の変数について差があると仮定したので,差があると仮定した変数のうちいずれかで有意差が 検出されれば他の変数でも有意差が検出されやすいためと考えられる. 想定 5 ・調整なしでは i 有意差検出数」が 6 0のあたり, FDR法では 5,B o n f e r r o n i法では 3,相聞を考慮、 , B o n f e r r o n i法 , した FDR補正法では Oのあたりを中心に分布していた.つまり,調整なし, FDR法 ) 慎 で , i 有意差検出数」が多い値の頻度が高かった.1 0 0 0個の変 相聞を考慮した FDR補正法の1 0 個の変数にしか差がないが,調整なしでは誤陽性率が高いことがわかった. 数のうち, 1 B o n f e r r o n i法と相聞を考慮した FDR補正法の順序が,想定 2や想定 3と逆であり興味深い. . 2 7 6,FDR法と ・調整法での「有意差検出数」が Oの相対頻度は,相聞を考慮した FDR補正法で 0 B o n f e r r o n i法で 0 . 0 2 3であり,相聞を考慮した FDR補正法で、最も高かった. 0 0 0個の変数のうち 1 0個の変数にしか差がないが,調整なしでは 1 0 0 0個中 6 0 ‑想定 4と同様に, 1 個くらいの変数で有意差を検出した.5 0個くらし、の変数で、誤って有意差を検出したと考えられる. • FDR法,相聞を考慮した FDR補正法, B o n f e r r o n i法では,調整なしに比べて「有意差検出数」が 5に分布していた.1 0個の変数で差があるとしづ仮定に適合している. 少ないところ, 0から 1 0のあたりで頻度が高くなるとし、う傾向はなかった.差がある ‑想定 4のように「有意差検出数」が 1 と仮定した 1 0個の変数問に相聞がある場合とない場合の違し、と考えられる. 2.4まとめ ・調整なし, FDR法,相聞を考慮した FDR補正法, B o n f e r r o n i法の1 ) 慎に積極的に有意差を検出す ることがわかった. • 3つの調整法 (FDR法,相関を考慮した FDR補正法, B o n f e r r o n i法)はし、ずれも,帰無仮説が真 ‑106一

111.

のとき,それを誤って棄却してしまう相対頻度を低くすることがわかった. ‑対立仮説が真のとき, FDR法は,検出力を保っと言えた.極端な差を想定した場合には, ["有意差 検出数」の分布は, FDR法と調整なしとで、ほぽ同じで、あった.しかし,相聞を考慮した FDR補正法, B o n f e r r o n i法は,検出力を下げた. ‑結果は割愛したが,変数問に相聞がない場合でも,変数問に相聞がある場合と同じ傾向がみられ た なお, 4つの方法はいずれも,変数聞の相聞を適切に考慮した方法ではない. 3 .多群比較 ‑FDR法と恒lkey法との比較‑ 比較したい群が多く,通常の多重比較法が保守的になり過ぎるのではないかと心配される場合に , ついて考える.FDR法と従来の多重比較法で性能を比較する.FDR法として,オリジナルの FDR法 相聞を考慮した FDR補正法をとりあげ,従来の多重比較法として, Tukey法をとりあげる. Tukey法は,すべての比較群からの共通分散を用いて, 2群聞を比較する.一方, FDR法は,単 なる 2群聞の t検定の p値を調整する.分散は,比較する各 2群での共通分散を用いる. 3 . 1シミュレーション研究計画 5群比較と 1 0群比較を想定して,検討した.10群比 較のほうが,方法聞の違いがはっきりと出たため,ここで は , 10群比較についてのみ述べる. • • V e h i c l e群 ( V ),薬剤 Aの低用量群 (AL ),中用量群 V • • • • • • LM H L M H L M H 、ー一一~一一一ノ (AM),高用量群 (AH),薬剤 Bの低用量群 ( BL ),中用 • • A 、 一 一 一 γ ー̲̲̲̲J B \一一一~一一一J C 量群 (BM),高用量群 (BH),薬剤 C の低用量群 (CL ),中用量群 (CM),高用量群 (CH)の 10群比 較を想定した.それぞ、れの群のデータは次の正規分布に従っていると仮定した. V e h i c l e群 ( V ) 薬剤 A ) 低用量群 (AL い ) i X2j ‑ N 2, σ j=1 , … , nj j=1, …, n2 高用量群 (AH) 低用量群 ( BL ) XSj ‑N(I μS, σ f f ) 中用量群 (BM) 高用量群 (BH) 薬剤 C 1 j XN ( μ f ) j=1,…, X‑ N ( μ, a ;) j 1, …, n 4 中用量群 (AM) 薬剤 B X‑ N ( μj, a ;) 低用量群 ( cL) 中用量群 (CM) 高用量群 (CH) 3 j‑ 戸 4j 4 n3 = XN ( μ6, σ~) 6 j‑ X N ( . ,σ) i X N ( μ8, a i ) 8 j‑ X ‑ Nい わ ば ) X ‑ N ( μ a 7j ‑ μ7 9j 川 1 0 7 1 Q , 2 j0) j= 1 , …, nS j= 1 , …, n6 j=1 , …, n7 j= 1 , ・ ・ ・, n8 j=1 , …, n9 j=1 , …, nlQ

112.

すべての群の例数,および標準偏差は等しいとして ,f l i =n, σi =l (' v 'i=1 , … ,1 0 )とおく.図のように, V群と AL群 , AH群と BL群と CL群 , BM群と CM群 , BH群と CH群の平均値はそれぞれ等しいと 1= μ 2'f . 14 = μ5= μ 8'f . 16 = μ 9, μ7=μ10とおく.つまり, 45個の 2群比較の組み合わせのう 仮定して, μ , AH群と BL群と CL群 , BM群と CM群 , BH群と CH群の 6つの 2群聞の組 ちで, V群と AL群 み合わせには差がなく,残りの 3 9個の組み合わせには差があると想定した. ‑ ‑ ‑ ‑ ‑ I Dの平均値の組み合わせのもとで, 1群 8例 (n= 8 )のデータを生成した. 次の想定 i 想定 iμ1=… =μ10=100 想定日 :μ1=μ2=9 9, μ3=1 0 0, μ4=内=内 =10 , 1μ6=μ9=1 0 2 , μ7=μ10=1 0 3 想定温 :μ1=μ2=98ふ μ3=1 0 0, μ4=内=内=1 0 1ふ μ6=μ9=1 0 3, μ7=μ10=1 0 4 . 5 3 . 2シミュレーション評価方法 有意水準を両側 0.05とした.各 2群問で t検定を行って得られた p値に基づいて有意差があるか DR法,相聞を考慮した FDR補正法を適用して,有意差があ 否かを判断した.その p値について, F u k e y法で有意差があるか否かを判断した. るか否かを判断した.また, T シミュレーションは 1000 回くり返した.多重比較法の性能を評価する場合,通常,し、くつかの比較 群のうち少なくともひとつで、有意差が検出された頻度を求めるが,ここでは,複数の比較群のうち有 意差が検出された比較群の数と,その数の(相対)頻度に注目した.つまり,各くり返しにおいて, 45 個の比較群のうち有意差が検出された比較の個数(以後 I 有意差検出数」と呼ぶ)を算出した.各 「有意差検出数」の頻度(=各「有意差検出数」の値をとったくり返しの回数/1000回)を算出した.想 有意差検出数」が 0以外の頻度は「検定サイズ」に対 定 iは群聞に差がなし吃仮定しているので I 検出力」に対応する.横軸に「有意差検出 応し,想定 i,出は群聞に差があると仮定しているので I ). 数J,縦軸に「有意差検出数」の頻度をとり, 4つの方法をそれぞ、れ線で、結んで、グラフに示した(図 2 調整なし, F DR法,相聞を考慮した FDR補正法, T u k e y法をそれぞれ口,., 0,*で区別した. 3 . 3シミュレーション結果 有意 「有意差検出数」が多いほど,それだけ多くの群間で有意差が検出されたとし、うことである I 差検出数」が多い値をとる頻度が多い方法がより積極的に差を検出しており I 有意差検出数」が少 ない値をとる頻度が多い方法がより保守的に差を検出すると考えることができる.つまり, 4 つの方法 での「有意差検出数」の分布を折れ線で比較した場合に,折れ線が右側に寄っているほど積極的で あり,左側に寄っているほど保守的であると考えることができる. 想定 iより,帰無仮説が真の場合,多重性を何も調整しなければ, 45組の比較のうち 1 ‑ ‑ ‑ ‑ ‑ 6組で 有意差を検出してしまうことがわかる.一方,調整を施すと有意差を検出する頻度は少なくなる .45 個の比較群のフち, I 有意差検出数」が Oの場合がほとんどで、あった. 1i ハHU nD

113.
[beta]
想定 i
口
ハ

法
正
補

門
υ
戸
ド
畠

た
し
弓7
慮
JιEE
考去
J
3
を︑川戸二!

聞い出合干

相 hk

F

3

一4

/its‑L

一
一
一
一

調整なし

8 9 1
0 1
1 1
2 13 1
4 15

me出 od田1.n
o
tA
d
j
u
s
t
e
d
‑
'
2
.FDR
o
r
r
e
J
a
t
i
o
n.
.
.4
.Tukey
"
3
.FDRw出hc
‑+arム
ー
..
.

想 定 III

江主足三日

FDR
法

相聞を考慮した

P

P

0
.
2
2
0
.
2
0
0
.
1
8

0
.
1
8
0
.
1
6
0
.
1
4

m 補正法

;
:
;
iTukey法

0
.
1
2
0
.
1
0
0
.
0
6
0
.
0
4
e d
~<ー論

O.OO~_4 一十 it.=."ll';..且 a ・-dt..-:L←,...-z'

.

y

、'"ーー三五

1011111:
1 1.115161118191021η :
?
3 74 15 ~r,打 191930:1132 幻 3-135363738

method

X

0
.
1
0
1
.
.
.
.
.
.
.
.
主
0
.
0
8
0
.
0
6
0
.
0
4
0
.
0
2
' '
、2
.
一一一「一手ー
0
.
0
0
2
12
223242526272829303
132333435363738394041

0
.
0
8

0
.
0
2
1

FDRt
去

o
tA
d
j
u
s
t
e
d
'
‑
2
.FDR
me出 od由1.n
・3
.FDRw
i
t
hc
o
r
r
e
J
a
t
i
o
n"
.
4
.Tukey

1
.n
o
tA
d
j
u
s
t
e
d
'
'
'
2
.FDR
.
.
.
.
3
.FDRw
i
t
hc
o
r
r
e
l
a
t
i
o
n‑
‑
4
.Tukey

由

図2
.I
有意差検出数」と頻度

4つの方法の比較一

想定己より,調整なし, FDR法,相関を考慮した FDR補正法, Tukey法の順に積極的に有意差を
検出することがわかった.調整なしと FDR法,相関を考慮した FDR補正法と Tukeyt
去が似た傾向に
あることが視察された.
想定温より, 4つの方法問の傾向の違いについて,想定証と同様のことが言えた.想定温のほうが,
想定証のよりも I
有意差検出数」が多し、ほうに分布していた.想定記のほうが,想定自よりも差が大
きいことを想定しているのでそれは望ましい結果である.

3.4まとめ
・3つの調整法 (FDR法,相聞を考慮した FDR補正法, Tukey法)はし、ずれも,帰無仮説が真のと
き,誤って棄却してしまう相対頻度を減らすことがわかった.
・対立仮説が真のとき,調整なし, FDR法,相聞を考慮した FDR補正法, Tukey法の順に積極的に
有意差を検出することがわかった.調整なしと FDR法が似た傾向,相聞を考慮した FDR補 E 法と
Tukey法が似た傾向にあることがわかった.FDRY:去の「有意差検出数」の分布は,調整なしの分布

とほぼ同じであり,検出力を保っと言える.しかし,相関を考慮した FDR補正法, Tukey 法は,検
出力を下げた.

V

Qd

1
ハょ

114.

‑差が大きいほうが, i 有意差検出数」が多いところに分布していた.このことは,差が大きし、ほうが有 意差を検出しやすいことから当然である. 4 .考察 FDR法,相聞を考慮した FDR補正法,従来法のいずれでも,多重性を調整すると,差がないとき に有意差を検出してしまう誤陽性率を低下させることがわかった.差があるときに,従来法で調整す ると過度に保守的になり,誤陰性率が増加するが, FDR法は高い検出力をもつことがわかった. ところで,多次元比較の場合には変数聞の相聞を無視できない場合が多いであろう.多群比較の 場合にも ,1群と j群の比較と ,k群と l群の比較の聞には ,i =k, i = l, j=k, j=lのとき1/2の相聞が あり,その他の場合には相聞がないことが確かめられる.したがって,相関構造を考慮した FDR補 正 法を検討することが重要であるが,現在提案されている相聞を考慮した FDR補 正 法 ( B e n j a m i n iand Y e k u t i巴l i ( 2 0 0 1 ))は従来法と同じくらい保守的であることがわかった.相聞を考慮した FDR補正法が あまり効果がないことは,実際の遺伝子発現データの解析においても経験していた. SAS/STATの MULTTESTプロシジャで, p値を様々な多重比較法によって調整することがで、きる. しかし,そこには,相聞を考慮した FDR補正法は含まれていない. 今後の課題として,相聞を考慮した FDR補正法の改良版を提案したいと考えている.相聞を考慮、 した FDR補正法に関連して ,'ij~l ザj を logm +1/2で近似させて FDRsαが保証されることが示され B e n j a m i n iandY e k u t i e l i ( 2 0 0 1 ) )が ,'ij~l ザj の近似として logm +1 / (2 m)+1/2のほうがよし、こと ている ( を確かめており,この知識は相聞のある場合の FDR補正法を改良するのにわずかには役立つカもし れない. 参考文献 [ l JB e n j a m i n i,Y . andHochb巴r g,Y .( 1 9 9 5 ) . Control I ingt h ef a l s ed i s c o v e r γ r a t e : ap r a c t i c a land power 和I a p p r o a c ht om u l t i p l et e s t i n g .j .R .S t a t l 訟t .S o c .s,57,289‑300. .andY e k u t i e l i,D .( 2 0 0 1 ) .Thec o n t r o lo f t h ef a l s ed i s c o v e r γ r a t ei nm u l t i p l et e s t i n g [ 2 JB e n j a m i n i,Y heA n n a 1 sof S t a t i s t i c s ,29,1165‑1188. u n d e rd e p e n d e n c y .T [ 3 JB l a c k,M.A.( 2 0 0 4 ) .An o t eont h ea d a p t i v ec o n t r o lo f f a l s ed i s c o v e r yr a t e s .j .R .S t a t i s t .S o c .s, 66,2 9 7 ‑ 3 0 4 . [ 4 JS t o r e y, j .D .andT i b s h i r a n i,R .( 2 0 0 3 ) .S t a t i s t i c a ls i g n i f i c a n c巴 f o rg 巴n omewid巴 s t u d i e s .丹 o c .八匂 t 1 . A c a d .SdU .S .A . , 100,9 4 4 0 ‑ 9 4 4 5 . ] .Y .,Byerley,W.,Devlin,B .,Roeder,K .andWasserman,L .( 2 0 0 3 ) . O u t l i巴rd e t e c t i o n [ 5 JTzeng, andf a l s ed i s c o v巴I γ r a t e sf o rwhole‑genomeDNAm a t c h i n g .} .Ame r .S t a t i s t .A s s o c .,98,236 2 4 6 . 1よ 1よ ハU

115.

層別割付け因子をさらに共変量とする解析の意義 0長 谷 川 貴 大 ・ 田 崎 武 信 塩野義製薬株式会社 解析センター C o n s i d e r a t i o n sonA n a l y s i so fCovariance i nS t r a t i f i e dRandomizedC o n t r o l l e dτ ' r i a l s TakahiroHasegawa/TakenobuTasaki B i o s t a t i s t i c sD e p t .,S h i o n o g i& C o ., L td . 要旨 臨床試験で,主要エンド、ポイントに及ぼす影響が大きし叱予想される因子が存在する場合, 一般的に 2つの対応が考えられる. 1つは,その因子による層別割付けを行い,治療クゃル ープ問で、その因子のインバランスが生じる可能性を小さくすることで、ある.もう l つは,主要 な解析でその因子を共変量として含めることである. 今回,層別割付けと共変量調整を組み合わせて適用することの意義を追究するため,層 別によるインバランス予防を積極的に行った場合と行わなかった場合,さらに共分散分析を 行った場合と行わなかった場合で、検出力をシミュレーションで、比較した.その結果の理解を 深めるため,共分散分析の役割である偏りの調整と推定精度の向上を理論的に検討した. キーワード: 完全無作為化法,層別割付け法,共分散分析 1.はじめに 臨床試験で,主要エンドポイントに及ぼす影響が大きし叱予想される因子が存在する場合,一 般的に 2つの対応が考えられる. 1つは,その因子による層別無作為割付けを行い,治療グ ノレープ間でその因子のインバランスが生じる可能性を小さくすることである.もう 1つは,主要 998年に発行された ICHE9i臨床試験 な解析へその因子を共変量として含めることである. 1 [何では,試験計画時に 1つ以上の因子を層別因子として用い のための統計的原則について J たならば,それらの因子を解析時に考慮することが適切であると書かれている .2003年に EMEAの CPMP から発行された P o i n tt o Consider onAdjustment f o rB a s e l i n e C o v a r i a t e s " [ 2 ]では,主要な解析は層別無作為化の制約を反映すべきであるため,層別因子 を共変量として解析へ含めるべきであると書かれている.これらに共通するのは,星旦坦手県 去玄量として解析へ含めるべきとし、うことである.ここで,層別割付けを用いて治療グループ間 でその因子のインバランスを予防するだけでは不十分であろうか.もし不十分であれば,さらに 1 1 1

116.

共変量調整を行うことで十分な検出力の上昇が得られるのだろうか.共変量調整のみで得ら れる検出力と違いはあるのかとし、ったことが疑問点として挙げられる.ここでは, SASで完全無 作為化法と層別割付け法のプログラムを作成し,層別因子のインバランスの予防を積極的に 行った場合と行わなかった場合,さらに共分散分析を行った場合と行わなかった場合で,検出 力をシミュレーションで、比較した.その結果を解釈するために,共変量調整でよく用いられる共 分散分析の役割である偏りの調整と推定精度の向上を理論的に検討した. 2 . 害IJ付けと共分散分析のシミュレーション研究 この節では, Windows版 SAS8でデータの生成から割付け,解析までのプログラムを作成し, シミュレーション研究を行った結果について述べる. 2 . 1 シミュレーションの概要 , 000回繰り返した.この 1回ぶんのプロ データの生成から割付け,解析までの手順の全体を 1 引 を 図 1町 内 川 へ 影 響 … 因 子 ぱ 圏 内 向 男 女 の 2水準で ある場合を考えた. i)層別因子を生成する I 付ける 百)完全無作為化法と層別割付け法で症例に被験薬かプラセボを害J i i i )完全無作為化法で 割付けられたデータ 図 1 シミュレーション研究の、流れ 2 . 2 男女比と割付けの関係 所期のシミュレーション研究に先行して対象集団における男女比の影響を検討した .200 症 例を予め設定した男女比で無作為に生成した.これに対し,完全無作為化法(ブ、ロック無しと 有り)と層別割付け法(ブ、ロック無しと有り)で、被験薬かプラセボを割付けた.完全無作為化法で は,全体で 1つの割付け表を用意して割付けた.層別割付け法では,エンドポイントへ影響を 与える因子,し、まの場合は性別を層別因子に用い,水準ごとに割付け表を用意して割付けた. ‑112‑

117.

それぞれの方法で,各症例等しい確率で 2群へ割付けるブロック無しの割付け表を用いた場 1 付けるブロック有りの割付け表を用 合と,フ守ロックサイズ、を 4例とし 1群 2例 lとして無作為に害] 1 付けを行った.男女比は(男 10% 女9 0%),( 男 20% 女8 0%),( 男 50% 女5 0%), いた場合とで害] ( 男 80% 女 2 0 % )の 4通りで設定した.害] 1付けられた群の間で男女構成に差が生じたかどうか の検定を F i s h e rの直接確率計算で、行った(表 1 ) .有意水準は 0 . 1 5とした. i s h e rの直接確率計算 表 1 男女構成の群間差について F 完全無作為化法 完全無作為化法 層別割付け法 層別割付け法 (ブロック無し) (ブ、ロック有り) (ブロック無し) (ブロック有り) 回数割合(%) 回 数 割 合 併 ) 回数割合(%) 回 数 割 合 併 ) 有意 男 10% 女 90% 有意でない 有意 男 20% 女 80% 有意でない 男 50% 有意 女 50% 有意でない 男 80% 有意 女 20% 有意でない 1 2 0 8 8 0 1 3 6 8 6 4 1 2 4 876 1 3 6 8 6 4 1 2 . 0 8 8 . 0 1 3 . 6 8 6. 4 1 2. 4 8 7 . 6 1 3 . 6 8 6. 4 1 0 1 8 9 9 9 6 9 0 4 1 1 7 8 8 3 1 1 4 8 8 6 1 0 . 11 2 3 8 9 . 9 877 9 . 61 0 9 9 0. 48 9 1 1 1 .7 1 0 7 8 8 . 3 893 1 1 .4 1 3 2 8 8 . 68 6 8 。 。 。 。 1 2 . 3 8 7 . 71 0 0 0 1 0 . 9 8 9 . 1 1 0 0 0 1 0 . 7 8 9 . 31 0 0 0 1 3 . 2 8 6 . 81 0 0 0 0 . 0 1 0 0 . 0 0 . 0 1 0 0 . 0 0 . 0 1 0 0 . 0 ソ 人0 . 0 1 0 0 . 0 4通りの男女比すべてで,層別割付け法(ブ手ロック有り)では一度も差が検出されなかった.完 全無作為化法(ブ ロック無しと有り)では,男女比が異なっても差が検出された割合は似ていた. P 層別割付け法(ブ ロック無し)では,差が検出された割合が異なっているように感じられた.しか P し , ( 男 20% 女8 0%)と(男 80%女 2 0 % )は本質的に同じであると考えられるため,割合の違いに 大きな意味はないと考えられた.星立比が異なってホ割付けへの影響はそれほど大きな違い 主主主2土ため,以降のシミュレーション研究では(男 50%女 50%)と設定することにした. 2 . 3シミュレーション研究の内容 全症例数を 2 0 0例とし,性別を等しい確率で無作為に生成した.エンドポイント yのモデ、ル式 を 4通り設定した. ①被験薬の効果がある場合 y=10+0 . 5 x D r u g+2xS e . x+f, f ‑ N (O , l " ) ( 1 ) ここに,名義変数は以下のように設定した. Druf7 = J O (プラセボ群).Se.x= J O (男) 吋 l ‑ 1 1 (被験薬群) ,~日 -11 (女) ブロックのパターンは( 0, 0 , 1 , 1 , )( 0, 1 , 0 , 1 , )( 0, 1 , 1 , 0 ) , ( 1, 0 , 0 , 1 , )( 1, 0 , 1 , 0 ), ( 1, 1 , 0 , 0 )の全 6通りとした. li 吋 414 υ nぺ

118.

これは,対立仮説下の場合と解釈できる. ②被験薬の効果がない場合 2 y=1 O+0xDrug+2xSex+E, E‑N(0, 1 ) ( 2 ) これは,帰無仮説下の場合と解釈できる. ③被験薬の効果があり,性別がエンドポイントへ影響を与えない場合 2 y= 1 0+0 . 5xDrug+0XS , 白 +E , E‑N(0, 1 ) ( 3 ) これは,実際にはエンドポイントへ影響を与えない因子を誤って与えるとした場合と解釈でドき る. ④被験薬の効果があり,未知の因子がエンドポイントへ影響を与える場合 y=1 0+0 . 5xDrug+2xSex+O.OlxOrder+E , E‑N(O, f ) ( 4 ) これは,エンド、ポイントへ影響を与える未知の因子として症例の登録1 ) 慎( O r d e r )がある場合 と解釈できる. 2群(被験薬群とプラセボ群)への割付けは完全無作為化法(ブ、ロック無しと有り)と層別割付 け法(ブ、ロック無しと有り)とした.生成したデータに対して,完全無作為化法と層別割付け法で 割付けられた場合のそれぞれで,共変量調整を行わない分散を等しし、と仮定した t検定と層 別割付けで用いた因子を共変量とする共分散分析を行い,被験薬群とプラセボ群の比較を行 . 0 5とした. った.有意水準は 0 2.4シミュレーション研究の結果 完全無作為化法と層別割付け法のそれぞれで t検定と共分散分析を行い,被験薬群とプラ セボ群で、差の検定を行った(表 2 ) . ①被験薬の効果がある場合 t検定では,完全無作為化法よりも層別割付け法で,層別割付け法のなかではブ、ロック無し よりも有りのほうで、有意な割合が高かった.共分散分析では有意な割合が t検定と比べて高く 薗後と田1 じ三臼己で、あ3 土.割付け方法によらず,共分散分析 なり,どの割付け方法でも 94% を行うことで十分な検出力が得られた.特に,層別割付け法(ブロック有り)の t検定で有意な割 合は 78.7%と十分な検出力は得られなかったが,さらに共分散分析を行うことで 94.8%となり 十分な検出力を得ることができた.層別割付けだけでは,被験薬群とプラセボ群で性別の割 合を完全に等しくすることはできなかったため,共変量調整をすることで、検出力が高まったと考 えられた. ②被験薬の効果がない場合 t検定では,層別割付け法(ブロック有り)のとき他の 3方法と比べて有意な割合が 5%を大き く下回った.被験薬群とプラセボ群で性別のインバランスが抑制されたことで,誤って有意な差 d斗 企 1よ 1よ

119.

が検出されてしまう害J I合が減ったと考えられた.共分散分析では,どの割付け方法でも有意な . 0 5へ近づいた.共変量調整を行うことで設定した 割合は 5%前後であり,設定した有意水準 0 有意水準が保たれることが分かった.層別割付け法(ブ、ロック有り)後,さらに共分散分析を行う ことで、誤って有意な差が検出されてしまう割合が増えたことの解釈はつけられなかった. 表 2 t検定と共分散分析 完全無作為化法 完全無作為化法 層別割付け法 層別割付け法 (ブロック無し) (ブロック有り) (ブロック無し) (ブロック有り) 回数割合(%) 回 数 割 合 併 ) 回数割合(%) 回数割合(%) 682 6 8 . 2 703 7 0 . 31787 有意 砲 ・ ' ] ; t検定 318 31 .8 297 2 9 . 7 213 21 .3 有意でない 一一一一一一一……一一匹 一一一‑ー一一一‑一一一一・. ① β 盟50 950 2 ‑ 4 8 ) 9 4 . 8 941 9 4 . 1 93む 93. 4ム9 有意 共分散 5 . 0 5 . 9 66 5 . 2 分析 有意でない 50 59 6 . 6 52 48 4 . 8 6 . 1 52 5 . 2 0 . 6 有意 61 6 t検定 9 5 2 9 5 . 2 9 4 8 9 4 . 8 有意でない 939 9 3 . 9 ② 42 4 . 2 47 4 . 7 52 5 . 2 54 4 有意 5. 共分散 分析 有意でない 958 9 5 . 8 953 9 5 . 3 948 9 4 . 8 946 9 4 . 6 9 5 . 1 932 951 9 3 . 2 944 94. 4 927 9 2 . 7 有意 t検定 4 . 9 有意でない 49 68 6 . 8 56 5 . 6 73 7 . 3 一 一 一 ③ 950 9 5 . 0 932 9 3 . 2 943 9 4 . 3 927 9 2 . 7 有意 共分散 分析 有意でない 50 5 . 0 6 . 8 57 5 . 7 73 7 . 3 68 614 61 .4 621 6 2 . 1 627 6 2 . 7 651 6 5 . 1 有意 t検定 3 8 6 3 8 . 6 3 7 9 3 7 . 9 3 7 3 3 7 . 3 有意でない 3 4 9 3 4 . 9 一一一四一一一一司ー" 一一一一一一一明一一 ④ 849 8 4 . 9 883 8 8 . 3 834 83. 4 893 8 9 . 3 共分散 有意 1 5 . 1 1 11 .7 1 分析 有意でない 1 5 1 1 7 66 1 6 . 6 107 1 0 . 7 」 】 ③被験薬の効果があり,性別がエンドポイントへ影響を与えない場合 すべての割付け方法において, t検定と共分散分析で、有意な割合はほとんど同じで、あった. 割付け方法によらず¥実際にはエンドポイントへ影響を与えない因子を誤って共変量としても 問題はないと考えられた. ④被験薬の効果があり,未知の因子がエンドポイントへ影響を与える場合 t検定では,層別割付け法(ブロック有り)のとき他の 3方法と比べて有意な割合が高かった. しかし,①と比べてその差は小さくなった.これは,群間で男女構成に差がないよう害J I付けたと しても,エンドポイントへ影響を与える未知の因子が存在するため,有意な差を検出できる割 合が低くなったと考えられた.共分散分析では t 検定と比べて有意な差が検出される割合は 高くなったが,害J I付け方法によらず①と比べてその割合が低く,十分な検出力は得られなかっ た.これは未知の影響因子が存在するためと考えられた.共分散分析で検出された割合のう FhU 1i 1i

120.

ち,ブロック有りで害] 1 付けられた場合は 89%前後,フ守ロック無しで、 84%前後であった この差は, g 未知の因子として登録順を設定したため,ブ ロックを設けることで、インバランスが防止されたと P 考えられたー 以上より,層別割付けだけでは検出された割合が 70%前後と十分な検出力は得られないこ とが分かった.さらに共分散分析を行うことで検出された割合が約 20%高められ,十分な検出 J 三 芸 変 量 調 整 主 丘 当 豆 島 ♀L 共分 力が得られた 霊 型 世 世 出 立 は 士 釘 な ふ さ ら i 1 付け方法によらず同じような検出力が得られたことから,層別割付けを 散分析を行うことで,害] 行わずに共分散分析のみを行うことが考えられた.同じような検出力が得られたのは,今回の シミュレーション研究で、エンドポイントへ影響を与える因子を 2水準としているためと考えられ, さらに複雑に影響を与える場合で検討する必要がある. 3 . 共分散分析の役割 われわれが参考にした文献では,共分散分析の役割である偏りの調整と推定精度の向上に ついて詳細な展開なしで,ときには前提すら明示されず結果のみが述べられていた.この節 では,これらについて前提条件を明示し,詳細な展開を述べる.ただし,紙幅の関係上,展開 の一部は省略せざるをえなカミった. 3 . 1共変量の偏りの調整 簡単のために共変量が 1つの場合の共分散分析を考える.基本モデルは, R = α +dzi+戸 +E i i' 科i 7 . ' dN( 伽 2) o r (プラセボ群 :i=l, . . . , m) Zi = h被 (験 薬 群 :i=m+1, . . . , n) a である.ここに,1';はエンドポイント, δは被験薬の効果 ,x jは共変量を表わす. 王r とするとき,共変量調整を行う場合と行わない場合で被験薬の効果 δの推定値はそれぞれ, < 5 = 宅1)一 九 )‑ s ( X ( l )‑ X ( o ) ) ( 5 ) δ =町 1 )‑J : (o) ( 6 ) で与えられる.共変量にインバランスがあり X ( l )‑x(o);o! 0のときは, ( 5 )式でその調整が自動的 に行われる. 1i nhu ‑ ‑

121.

3 . 2 推定精度の向上 ここでは,共変量の回帰係数 βが既知で、 X;が確率変数であるとした場合と, βが未知で、 X;が 確定変数であるとした場合のそれぞれで推定精度の向上を検討する. 3.2.1β が既知で、 X;が確率変数であるとした場合 ; 共変量の回帰係数 βが既知で ,Xiが確率変数であるとした場合を考える.このため ,Xjを X V ( , ) ; yσ;=V(xj,σ =COV(XP; y,)ρ=ごとと定義すると, で置き換えて考えるー σ := 早 σxσy 共変量調整ありでの効果推定値 δの分散は ( 5 )式から, ゆ ) =(中叶;叶一号r 司 であるこれは β=与のとき最小になるこのとき, σ; 札号=(中+~)(σ; 一号)=(中+~)い である.また, (^ ‑ ‑ ¥ σ σ rσ n‑m m 汀ー 汀 β子 =0 n‑m m COV~ð , X(l) ‑X( 口) ) 8 = G x y= ‑ ‑ " ̲ Y +ーヱー β二 x E . ¥ ' t Uncond山 。 n o l (A d i s t r i b u t i o n s< ‑ l n 01)' じ υ ridlek h nve' n げγ isk a n J 川市 n cいt E UN dbq cdd x X.. e o v a r i a t e 図 2 β が既知で、 X;が確率変数で、あるとした場合の推定精度の向上 (Huitema( 1 9 8 0 ) )[31 l 旬i 1上 η1

122.

よ り ,dとX(I)‑X( 口)は独立となる.一方,共変量調整なしでの効果推定値 6 の分散は, ( 6 ) 式から, V ( 3 ' )= ( 中 引σ ; ( 8 ) V ( d Jム =(1‑ρ 2 y ( 3 ' )が成り立ち,常に共変量調整した場合の である(加と(紙より , β 推定精度は共変量調整しない場合と比べて小品、(図 2 ) .エンドポイントと共変量の相闘が強 いほど精度の向上が著しい. 3.2.2β が未知で Xiが確定変数であるとした場合 5 )式 で 確 率 変 数 は 共 変 量 の 回 帰 係 数 β が未知で ,Xiが確定変数であるとした場合 ,( R かR ゅβとなる.ここに, δ 2 k正一 イ口)) 出 柑一斉 ( O ) X Y ; Xi‑ 1 )) ~ (Xi‑x(o)f+i~トi ‑X(I)f より,以下を得る. E~]= β V~]= σー か へ 》‑ z J ‑X(O))2 したがって,共変量調整ありでの効果推定値 6の分散は, ω 件 叫= 1 い 土 1L V パ時刷俳州(い d り 斗 斗 ) ド は l ド … ‑ 叩 n m + m +m ぺ ( 伝 司 1 バ ) い γ ) 一 」 γ 王 H + 2 ~(Xi 仏‑ ‑ 斗 X 合 恥 (o 叫 0 ) グ )y ド ト i一 寸 引 X リ 角 ( 引 I 1 ) )2 ) となる.一方,共変量調整なしでの効果推定値 6 の分散は, ( 6 )式から, 時)=( 市 引σ2 である.( 9 )式と ( 1 0 )式より, ( 1 0 ) 。の分散よりも δの分散の方が大きい.しかし,共変量調整を行う ことで偏りの調整が行われることから,分散のみでどちらの推定精度がよし、かを決めることはで ‑118‑

123.

きない.そこで, MSE( 平均二乗誤差)を用いて比較する. ド J = E [ a + d +戸 +E ] ‑ , [ Eα+向。)+E ] ‑E レ x I X(Q))=δ E ( 1 ) ‑ ( I )‑ よ り , δの MSEは , M S E ( J )= I 土 + 土+ m ( 王( 1 ) ‑ R ) ) 2 m k ト i i ~( X̲X(Q))2+ I σ 2 ( 1 1 ) ‑ X ( I ) ) である.一方, ド ] = Eレ +δ+向 +E ] ‑ E [ a+向。)+E ] =δ+β(高 E 1 )一王(口)) 1 ) よ り , δの MSEは , ( 志 士) σ 2+内 MS 時)= ( 1 2 ) である.( 1 1 )式と ( 1 2 )式より, M S E ( J ) ‑M S E ( d )= 1 ‑ ‑ ; ; σ 一β 2 1 ( 王( 1 )一 王 ( 口) f ~(Xi 一九))2+22ト -X(I))2 J n となる v~J< β2 のとき,共変量調整ありでの効果推定f百の MSE は共変量調整なしでの 効果推定値 6の MSEよりも小さくなり,共変量調整を行うことで推定精度が向上する. 4 . まとめ 男女比の設定条件が異なっても,割付けられた群の間で男女構成に差が生じる割合にそれ ほど大きな違いはないことが、ンミュレーション研究で、確かめられた.また,エンドポイントのモデ ル式 4通りで,層別割付け因子をさらに共変量として共分散分析することにより,検出力は高 まることが確かめられた男女構成に有意な差が検出されなかっ f 嘆息患出港¢止認定 ベミ弘主巴忍立金三訟L間 J I 演賜字誌与去芝草とヨ政見広民主世 あった.一方で,害J I 付け方法によらず共分散分析を行うことで十分な検出力が得られたため, 周恩民立役史弐怨怨忽奴ととゑ2とこのことを確認するためには, ヘ~ 更なるシミュレーション研究を行う必要がある. 検出力の向上は,共分散分析の偏りの調整と推定精度の向上によるものと考えられた.それ ‑119一

124.

は計算上,共変量の回帰係数が既知で共変量が確率変数であるとした場合である.しかし, 実際には回帰係数が未知で共変量が確定変数であると想定する必要がある.この場合につ いて理論的な検討を行った結果,回帰係数が V [ s ] < s "のときに共分散分析を行うことで推 定精度は向上することが示された.このような状況へと導くには,回帰係数の標準誤差を小さく する必要があり,各群で共変量の値を幅広く観測する,もしくは症例数を増やす必要があると 解釈できた.また,各群の共変量の平均値の差を小さくすることで、全体の推定精度を高めるこ とが分かった.これは,各群で、層別因子のバランスをとる必要があると解釈で、きた. 以上より,シミュレーション研究と理論的な検討から,共分散分析を行う前に層別割付けで 各群の層別因子のバランスをとることは共分散分析の MSEを小さくし,検出力を高めることが 分かった.よって,エンド ポイントへ影響を与える因子がある場合,層別割付けを行った後にさ らに共変量調整を行うことがよいとしづ結論を得た.今後,エンドポイントへ影響を与える因子 が連続量でそれをカテゴリ化して層別因子とした場合,そして因子の与える影響が非線形の 場合を検討することが課題である. 参考文献 [ 1 ]Armitage,P . andBerry ,G .( 1 9 9 4 ) .S t a t i s t i c a lMethodsi nMedicalR e s e a r c h . B l a c k w e l lS c i e n c e . (椿美智子・椿広計共訳 ( 2 0 0 1 ) . 医学研究のための統計的方法,サイエンティスト社.) [ 2 ]Committee f o rP r o p r i e t a r y Medical P r o d u c t s ( 2 0 0 1 ) .P o i n t st oc o n s i d e r on adjustmentf o rb a s e l i n ecovariates(CPMPIEWP/2863/99d r a f t ) . /htms /hu manlewp/ewpptc.htm. h t t p : / / w w w . e m e a . e u . i n t [ 3 ]Huitema,B . E .( 1 9 8 0 ) .TheAna l y s i so fC o v a r i a n c eandAl t e r n a t i v e s .JohnWiley &S o n s . [ 4 ]岩 崎 学 ( 2 0 0 2 ) .r 処置前一処置後J データの解析と平均への回帰.行動計量学, 2 9, 2 4 7 ‑ 2 7 3 . [ 5 ]清見文明 ( 2 0 0 3 ) .ベースラインを共変量とした共分散分析に関する考察:無作為化比較 臨床試験での適用について.計量生物学, 24 ,2,9 5 ‑ 1 1 5 . [ 6 ]厚生省医薬安全局審査管理課長 ( 1 9 9 8 ) .r 臨床試験のための統計的原則 J,こついて(平 成 1 0年 1 1月 30日医薬審第 1047号). [ 7 ]M i l l i k e n,G .A.andJohnson,D .E .( 2 0 0 2 ) .A n a l y s i so fMessyDataVolumeI I I : Ana l y s i so fC o v a r i a n c e .Chapman& Hal l /C RC. S .( 1 9 9 7 ) .S t a t i s t i c a lI s s u e si nDrugDevelopment.JohnWiley& S o n s . [ 8 ]Senn, ハHU 1 ょ ワ 白

125.

臨床試験データにおける 統計モデルによる適切な推定のための対処法 ‑JMPによるアプローチー 0津 田 克 彦 牢 ・ 福 島 彰 * ・ 帆 足 浩 一 郎 牢 牢 *大鵬薬品工業株式会社 DM部 **大鵬薬品工業株式会社開発一部 Approachw i t hJMPSoftwaref o rthe AppropriateS t a t i s t i c a lModelEstimationi nC l i n i c a lT r i a l K a t s u h i k oSawada* A k i r aFukushima* K o u i c h i r oHoashi** l i n i c a lDataManagementD e p a r t m e n t .Ta i h oPharmaceuticalC O ., L t d *B i o s t a t i s t i c s& C **C l i n i c a lOncologyD e p a r t m e n t .T a i h oP h a r m a c e u t i c a lC O ., L t d 要旨 癌患者 9 9症例を対象とした抗悪性腫療薬の臨床試験データにおいて,副作用による試験中止と 患者の年齢およびクレアチニン・クリアランスとの関係をロジスティック回帰モデルにより推定した.モ て統計的に在意立玄一 デルの推定結果は年齢とクレアチニン・クリアランスが副作用による中止に対L 互作用を有する事を示していた.しかしながら, JMPの優れた GUIを利用してモデルの推定結果を 視覚的に確認することにより,ロジスティック回帰モデルが医学的な仮説とは全く異っ?ニモデル券推 z 推定 U)県 l 大1 1'なってい 4 ることが判明した. 定していたこと,ならびに, ¥特方すノ症例ぶモのよう必不適切 t 該当症例がパラメータ推定に及ぼす影響については SASによる回帰診断によっても確認できた .Jえ 」当症例を除外した解析では,年齢とクレアチニン・クリアランスの有意な交互作用は訳められながっ 主二今回経験した事例をもとに,多変量回帰モデルにより 2変量問の交互作用を適切に評価するた めの標準的な手順について提案する. キーワード: JMPソフトウェア,臨床試験,ロジスティック回帰モデル,交互作用 4l n 5 4 よ ー よ

126.
[beta]
1.はじめに
医薬品の承認申請を目的とした臨床試験のデータ解析においては,事前に規定した統計手法に
よる検証的な検定のみならず,探索的に種々の統計モデルによる手法を適用する局面がある.統計
モデルはデータから多くの情報を提供してくれるため非常に有用である反面,モデルの推定値のみ
を安易に受け入れることは危険である.統計モデルによる推定値の妥当性は回帰診断などの指標に
より数理的に評価可能であるが,適切な評価は解析者の能力に大きく依存すると考えられる.JMPは
優れた GUIにより,解析対象データや解析結果を視覚的に確認しながら解析を実施することが極め
て容易であるため,直主ー匂主塁塁的主盆主主主主主主と推定Z
哩 豆 三 沈 的 立 評 組 二JM
同消且主主
ツールであると考えJJ
容認、申請を目的とした臨床試験デて‑5の探実的立解棋に適用ι
t
e
.その結果,
一 ー
一
ー
一
ー
ー
ー
ー
「
; 領 軍 駐 誌 は り 2変量聞の交互問主連盟に評価オ二るため州地割こついて,有用な知
見を得たので報告する.

2
.解析対象データ
癌患者 99症例を対象とした抗悪性腫療薬の臨床試験データにおいて, I
'
J作用による試験終了を
有害事象関連イベントとして記録した(表1).また,このイベントとの関連を解析する予後因子として
患者の年齢,腎機能の指標(クレアチニン・クリアランス値,以下 CCR と略記)を利用した.年齢と
CCRには弱い負の相関関係があり(図 l右
)
, Spearmanの順位相関係数は 0
.
5
5
7で、あった.

表 1 観察された有害事象関連イベント

注 工1

・

i

40

図 l 章棲薗苧"(年齢, CCR)の分布

五'{イ苧月岡珪因子
1
2
2

50
年齢

60

:・} {
:・・
7

2

目

・・

..•••
•••••
••••
.••••••
••..••
•••
••
••
••••••
.•
••
•••••••
• •• •••.
.••
••• •.•

・ 2

;
:
言
:
:
喜
子

竹九州M s i t ‑ z・

i75幸三コ

127.
[beta]
3
.JMPを用いたイベント発生と予後因子との関連の推定
JMPを用いてイベント発生(副作用による試験終了)と予後因子(年齢, CCR)との関連をロジスティ

ック回帰モデルにより推定した.単変量で、の推定ではパラメータ推定値は有意とはならなかったが,
年齢は増加するに従い副作用による終了する症例の割合が上昇し, CCRは低下するに従い副作用
による終了の割合の割合が上昇する傾向が確認された(図 2
).

副作用による終了を CCRによってロジスティックであてはめ
01
1
.0
・ ・
.
・
・
. ・..・‑
.
・
ー'

副作用による終了を年齢によってロジスティックであてはめ

1 1 0 0 │ : │

J

ト0
.
7
5寸 ・ . . .:γ
主
│
ー.・
・
・ ・・. .
の
1
・..
̲
1,
1

立

!・.' . ・ 4

長

苛 0.50~
I
l
!
'
1
.

・
:
.

~

'
'
'
'
'
0
.
2
5寸 .

I

0
.
0
0

│

:
.
1

・‑・パ

芸

5
0

6
0

l

、

I

h

‑
・

2

40

内
一
"

:
一
:
:
;
;
;
;
J
].'
J
;

・・.・~

《

‑
‑
‑
‑
‑
‑
‑
‑
‑
‑
‑
‑
‑
‑
‑・: ・ 4r0
トfプアプ・
・
・
?
3
0

.
.
.
• •• • • •
・
.

.~・.・.
'
.
一.

号
弘
九
0
日5
叩0

・
・ ・ 1
"

.

.
・.

.7
5
ト0

6
0 8
0 1
0
0 1
2
0 1
4
0 1
6
01
8
0

7
0

CCR

年齢

"
'
(p
.
1
J/
1

l

よ:J~~'';; w .
‑
:
.
.

•

パラメータ推定値

パラメータ推定値
項
推 定 値 標 準 誤 差 カ イ 2乗 p
i
i
宜(
P
r
o
b
>
C
h
i
S
q
)
切片
‑
4
.
5
5
3
1
5
5
2 2
.
1
0
8
1
1
6
3
4
.
6
6
0
.
0
3
0
8
年齢
0
.
0
4
6
1
3
9
4
4 0
.
0
3
3
3
0
2
1
1
.9
2
0
.
1
6
5
9
推定値は次の対数オッズに対するもので'す:0
/
1

推 定 値 標 準 誤 差 カ イ2乗 p
i
直(
P
r
o
b
>
C
h
i
S
q
)
0
.
1
2
8
4
9
9
4 1
.0883772
0
.
0
1
0
.
9
0
6
0
CCR ‑
0
.
0
2
2
9
9
0
2 0
.
0
1
3
7
4
4
5
2
.
8
0
0
.
0
9
4
4
推定値は次の対数オッズに対するものです 0
/
1
項
切片

図 2 単変量で、のロジスティック回帰モデ、/レによる推定 (99症例)

年齢と CCRの交互作用,すなわち,高齢で低 CCR値の患者での副作用による終了の割合の上
昇について関心があったため,年齢と CCRの交互作用項もモデルに含めて推定したところ,宜主主
一

(p=
,
̲
)
(0
4
0
1
2マ万作用が認められた(表 2
).しかしながら,このモデルのパラメータ推定値を各患者

ごとに当てはめ,式 lにより算出されるイベントの発現確率 pと2つの予後因子との関係を 3次元プ
ロットによって確認したところ,年齢と CCRの組合せの両損(高齢,低 CCR側と若齢,高 CCR側)で
それぞれイベントの発現確率が顕著に上昇するモデルであることが判明した、(図 3
).

ぺU
n

1よ

n︐臼

128.
[beta]
表 2 交互作用項を含むロジスティック回帰モデル推定値 (
9
9症例)

(こ竺主‑>7埜定壁一一一一一一一一一一一一一一一一一一一一一一一一一‑‑‑ご三三三コ

項
推 定 値 標 準 誤 差 カ イ2乗 p
j
直(
P
r
o
b
)
C
h
i
S
q
)
ー2
.
3
8
6
7
4
5
8 3
.
5
1
6
4
0
8
5
0
.
46
0
.
4
9
7
3
切片
年齢
0
.
0
3
4
8
9
3
2
3 0
.
0
4
1
3
9
9
4
0
.
7
1
0
.
3
9
9
3
1
.8
1
0
.
1
7
8
1
CCR
‑
0
.
0
2
2
0
0
0
7 0
.
0
1
6
3
3
5
8
‑
0
.
0
0
1
6
8
8
5 0
.
0
0
0
8
2
2
7
4
.
2
1
画
(
C
C
R
‑
8
5
.
3
0
1
1
)
*
(年 齢 ー 印 刷 )
推定値は次の対数オッズに対するものです:0
/
1

l
E

式 l 確率

D= は p
{‑2
.
3
9+0
.
0
3
4
9x年齢+(ー 0
.
0
2
2
)xCCR+ー
(0
.
0
0
1
6
9)
x(年齢‑5
9
.
8
)x(CCR‑8
5
.
3
)
}
r 1+exp{‑2
.
3
9+0
.
0
3
4
9x年齢+(ー 0
.
0
2
2
)xCCR+ー
( 0.00169)x(年齢 ‑59.8)x(CCR‑
85.3)}

l
i
i

C
G
>t‑‑̲̲̲宇宙晶

d
<
.
・

._.ふ,...~~・'.f:
横

斜

図 3 推定されたモデ、ル式(式 1
)の3次元フ。ロット

A斗 A

n︐白
1よ

129.

JMPの「等高線図」表示機能を利用し,副作用により終了した患者を強調表示して全症例の年齢, CCRと副作用による終了との関係を確認したところ, No.76の症例の影響で、このようなモデルが推定 ) . された可能性が高し吃考えられた(図 4 ,‑凡例 200 副作用による終了 一 ‑0. 125 1 150‑ 白4 u u 100 ス ¥ J │パ ¥ 一 一 一 0.250 0.375 0.500 0.625 0.750 、三人也、くてJ . ¥ 50 20 30 40 50 60 70 80 年齢 図 4 等高線図(図中の [76Jは症例 No.を示す) 今回の解析における生物学的な仮説である, I 加齢ならびに CCR低下が相乗的に高 IJ作用による 終了割合を高める」ことを統計的に検出する目的において, No.76の症例を除外することが検出力を 減少させる方向には影響しないと考えられた.該当症例を除いた 98 症例で=交互作用項を含むロジ スティック回帰モデルをあてはめたところ,有意な至芸停周は誌b られなくな2た (p~O.8鎧ι左辺ょ 交互作用項を除き,年齢と CCRの副作用による終了との関連を推定した結果, CCRのみが副作用 による終了との有意な関連を示した (p=O.0284,表 4). 表 3 交互作用項を含むロジスティック回帰モデルの推定値 (98症例) i パラメータ推定値 項 切片 年齢 推 定 値 標 準 誤 差 カ イ 2乗 0 . 2 4 1 9 1 1 8 3 . 7 5 0 6 8 7 5 0 . 0 3 0 0 6 4 4 6 0 . 0 4 9 7 3 3 6 CCR ‑ 0 . 0 4 4 5 1 8 0 . 0 2 1 3 7 5 1 ( 年 齢 倒 的C R ‑ 8 4 . 3 6 2 8 ) ω則 市 2 0.0024312 推定値は次の対数オッス、に対するものです: 0 / 1 ‑125一 00 0 0 . 3 7 4 . 3 4 0 . 0 4 p f t 宣(Prob>ChiSq) 0 . 9 4 8 6 0 . 5 4 5 5 0 . 0 3 7 3 @.84551

130.
[beta]
表 4 交互作用項を含まない口、ジスティック回帰モデ、ルの推定値 (
9
8症例)
[パラメータ推定値
推 定 値 標 準 誤 差 カ イ2乗 p
1
直(
P
r
o
b
>
C
h
i
S
q
)
0
.
2
0
5
0
0
9
7 3
.
7
6
5
3
5
6
5
0
.
0
0
0
.
9
5
6
6
0
.
0
2
7
0
0
3
9
5
0
.
0
4
6
3
2
7
0
.
3
4
0
.
5
6
0
0
(
s
:
:
.
CR :
‑
0
.
0
4
2
9
6
5
7 Q
.
0
1
9
6
0
1
3
i
・8
0 一一一一_Q,~三
推定値は次の対数オッズに対するものです :0
/
1
項
切片
年齢

JMPはあてはめたロジスティック回帰モデ、ルの回帰式を用いて, 2変量聞の交互作用を視覚的に
確認するための出力機能を有している(JMPはこの機能を「交互作用プロファイル」と呼称しているた
め,以下「交互作用プロファイル」と記載する).J
MPの「交互作用プロファイル」により,各モデ、/レで の
L

変量聞の交互作用を確認した.その結果,交互作用項が有意で、あった全 99症例での表 2 のモデ
ルでは CCRを最高値 177.26に固定した場合と最低値 35.202に固定した場合とでは年齢増加に
伴う予測確率の傾向が明確に逆転しており,生物学的に解釈不能なモデルとなっていることが確認
出来た(図 5左).同じモデ、ルで、年齢を最高値と最低値に固定した場合の CCR増加にともなう傾向
も同様で、あった.一方, NO.76の症例を除外することにより有意な交互作用が確認されなかった 98症
例において,交互作用項を含まない表 4のモデルで「交互作用プロファイノレ」を確認した結果, CCR
を最高値 170.98に固定した場合と最低値 35.202に固定した場合とでは年齢増加に伴う予測確率
の傾きが異っていることが確認された(図 5右).統計学的には有意ではないが, CCRと年齢の交互
作用についてはなお注意をはらう必要があることが示唆された.

表 2 のモデル

74
生 0.8ゴ
t
(
d 0
.
6
寸

年齢

→
4
.

リ

0

1
通

ν

I
r

l~ 一一一一

表 4 のモデル

o
i
ア
て i
2
7 有

害F

E
0
1
ー‑l♀1
.
2
6

長 0.8う~

z
u
ゴ
ヨ
=
。
→

CCR

!
:
:
i
¥
¥
y
a
m
Eod

}
o
旦ー」

百
ご‑
0
.
2‑
1

'
i
l
:
:‑
0
.
2

3
04
05
06
07
08
04
0
6
0 1
0
01
4
01
8
0

図 5J
MP ロジスティック回帰モデル「交互作用プロファイル」

CCR

のの国

立 0.4~込202

ト 0.8~

のの刃

→
/

有
害
事

;
0
1

o
:
:
'‑
0
.叶

の 0
.
6

〆
一
一

~ 0斗

」

J

年齢

nhu

1よ

nL

131.

4 .回帰診断 回帰モデル解析において,各症例のパラメータ推定値に与える影響を数値的に評価するために は種々の回帰診断が有用であり,パラメータ推定値の安定性を評価する指標として d f b e t aがある 1) JMPのロジスティック回帰モデルには回帰診断機能が無いため, SASの l o g i s t i cプロシジャ i n f l u e n c e オフ。ションおよび i p l o t オプションにより回帰診断を出力し,パラメータ推定値を不安定にしてしも症 例を確認した.全 99症例で交互作用項を含んだ表 2のモデルにおいて, d f b e t aは No.14とNo.76 で大きな値を示すことが確認出来た(図 6 ) .No.14の症例は図 4の等高線図で No.76の左隣の症 例で, NO.76との距離が近く,かっ交互作用積値が大きいため検出されたものと考えられる. ーーー+ーーーー+ーーーー+ーーーー+ーーーー+ーーーー+ーーーー+ーーーー+ーーーー+ーーーー+ーーーー+ーーーー+ーーーー+ーーーー+ーーーー+ー +ーーーー+ーーーー+ーーーー+ーーーー+ーーーー+ーー ‑ D F B E T A l[ 1+ + ホ 年 齢 o+ .市ホホホホホホホ.ホホ. )都市川~ 市 市 市 市 ) 都 市3 都市..ホホホ.市ホ3 都市市市3 都市市市 市市市ホホホホ.市 市ホホホ市ホ市市..市市.市市.ホ市 市市市市...ホ.市市 市 ..車市 3 都 市 3 都 市 3 輪 車 3 都 市 潮 市 ホ ホ 3 者 ‑ 1+ ホ + ーーー+ーーーー+ーーーー+ー‑‑‑+一一一ー+ーーーー+ーーーー+ーー‑‑+ーーー +一一一一+ーーーー+ーーーー+ーーーー+ーーーー+ーーーー+ーーー ー+ーーーー+ーーーー+ーーーー+ーーーー+ーーーー o 5 1 0 1 5 2 0 2 5 3 0 + 3 5 4 0 4 5 5 0 C . s eN u m b e r 5 5 6 0 6 5 7 0 7 5 8 0 8 5 9 0 9 5 1 0 0 I N D E X ーー四+ーーーー+ーーーー+ーーーー+ーーーー+ーーーー+ーーーー+ーーーー+ーーーー+ーーーー+ーー一一+ーーーー+ーーーー+ーーーー+ーーーー+ーーーー+ーーーー+ーーーー+ーーーー+ーーーー+ーーーー+ーーー‑ D F B E T A 2[ 1 + c 〔 ~ ホ + │ I 市 ホ ホ ホ 日 + 岡 市 ホ ホ ホ ホ ホ ホ ホ 榊 潮 市 榊 榊 榊3 同市市ホホホホ榊ホホホホホ榊帥榊ホホホホホ榊帥榊榊榊榊州市市榊榊州市市 .榊ホホホホ帥3 岡市ホ I + ホ ホ3 岡市 ホ ペ │ 市 1+ + I │ 市 ¥ + ' ‑ 2+ ーーー+ーーーー+ーーーー+ーーーー+ーーーー+ーー'ー+ーー +ーーーー+ーーーー+ーーーー+ーーーー+ーーーー+ー o 5 1 0 1 5 2 0 2 5 3 0 3 5 4 0 4 5 5 0 5 5 ーーー+ーーーー+ーーーー+ーーーー+ーーーー+ーーーー+ー ーー+ーーーー+ 0 6 5 7 0 7 5 8 0 8 5 9 0 ー 1 0 0 jill‑ ‑‑o + ‑+ 也O 市 ‑也市‑ ‑也市‑ ‑山市‑ + ‑也 也市 市+ 5 ‑也市‑ ‑也市‑ 司也市‑ +也市+O ‑也市 ‑ 也市 市‑ ‑ ‑也 ‑山市‑ +山市+5 ‑也市 ‑也市‑ ‑也市‑ ‑4 ↑榊↑ ‑4 一榊一 I N D E X 図 6 交互作用項を含むロジスティック回帰モデ、/レにおける d f b e t aプロット ‑1 ‑ s ‑ s ‑8 m o8 ‑ ‑7 ‑7 ‑B B ‑5 ‑5 ‑3 3 ‑2 ‑2 ‑1 ‑也市 ‑山市‑ ‑也市 ‑ホ‑ +也市+5 ‑山吊 ‑也市‑ ‑ホ‑ ‑ 山市‑ +也市+O ‑也市 ‑山市‑ ‑也市白 ‑山市一 +山市+5 ‑也市 ‑山市‑ ‑也市一 ‑申 市+ 一O + 一期一 一 期‑ ‑精一 ‑山市田 +也市+5 ‑也市 ‑山市‑ 一期‑ 一也市‑ +也市+日 ‑也市 ‑山市‑ ‑也市‑ ‑山市‑ +也市+5 ‑也市 ‑也市‑ 山市‑ 也市‑ 也市‑ E ‑1 C . s e Number ゥ ︐a 1i つ白 ノ 9 5 I N D E X +也市+O ‑也市 一榊一 ‑也市白 +也市+5 ‑也市 ‑山市‑ ‑也市﹄ ‑山市一 +山市+0 一市 市一 一 一 一期‑ 一市‑ +也市+5 E ‑制 同事‑ +‑ ホ +o 市 ‑t41 ‑申‑ ‑ホ‑ ‑也市‑ ‑1 +也市+5 ‑ 山市 ‑榊‑ ‑山市‑ ‑山市‑ +也市+O ‑山市 ‑山市‑ ‑也市‑ ‑山市 +申+5 ‑也市一 一+ 市O 一 + F ト ﹄ 3 2 A ‑1 0 1 71 旧交互作用 JIll‑ C . s e Number + , +

132.

5 .標準的な手順 3節までに示した ]MPを用いた一連の解析により,当初確認された 2変量間の有意な交互作用 に対する特定の症例の影響を見出し,より適切な推定結果を短時間で得ることが出来た.今回経験 した事例に基づき,ロジスティック回帰モデ、/レを含む線形回帰モデルにより 2変量問の交互作用に ついて評価する場合,以下のような手順が有用であると考えた. ①交互作用項を含まない回帰モデ、/レによりパラメータを推定する. ②交互作用プロファイルにより 2変量聞の関係を確認する. ③プロファイル確認結果,ならびに医学的な仮説に基づき,関心のある変量聞の交互作用項を含 めた線形モデルによりパラメータを推定する. ④有意な交互作用が認められた場合, 2変量聞の交互作用プロファイルを再度確認する. ⑤交互作用フ。ロファイルが医学的な仮説と矛盾する場合,推定されたモデ、ルを 3次元プロットによ り確認する. ⑥交互作用の推定値に影響を与えている症例を特定する(必要に応じ,回帰診断によりパラメー タ推定値への影響を評価する). ⑦適切でないパラメータ推定値に影響を与えている症例を解析対象から除き,再度解析する なお,今回の発表の中で、は触れなかったが,上記手順に基づいて症例を解析から除外する場合, 外れ値的な症例データが得られた原因について医学的な観点,データマネジメントの観点から再 度確認し,安易な症例の除外はしないことが重要と考えられる. 統計ツールにより多変量線形回帰モデ、/レにおける交互作用の推定結果を得ることは極めて容易 であるが,推定結果が将来の結果予測に利用可能でなければ,意味のない推定と言えよう.推定さ れた結果がどのような意味をもつかを視覚的に確認し問題点があれば適切に対処することは重要 と考えられる. ‑128‑

133.

6 .まとめ 臨床試験データにおいて, 2値応答反応に対する,ともに連続変量である 2変量の影響について 検討した. ロジスティック回帰モデ、ルを適用し 2変量聞に交互作用が認められた. JMPの優れた GUIを利用して,不適切なモデソレが推定されていることを確認し,その原因となって いる症例を特定した.該当症例を除外し,より適切な推定結果を得た. 今回経験した事例に基づき,多変量線形回帰モデルによ 2変量聞の交互作用を適切に評価する j 慎について提案した. ための,標準的な手l 参考文献: 1 )P r e g i b o n,D .( 1 9 8 1 ) .L o g i s t i cR e g r e s s i o nD i a g n o s t i c s' ,A n n a l so fS t a t i s t i c s,9,705‑ 7 2 4 . υ n︐白 同 ハ 1 ょ

134.

主要評価変数が 2つある検証的臨床試験における症例数設計 0 寒水孝司事 l ホ l 東京理科大学大学院工学研究科 d 叶健d 日本化薬株式会社創薬本部医薬データセンター SampleS i z eC a l c u l a t i o n sf o rC o n f i r m a t o r yC l i n i c a lT r i a l sw i t hTwoP r i m a r yE n d p o i n t s T a k e s h iKano.2 T a k a s h iS O Z U .1 ホ ホ 1G r a d u a t eS c h o o lo fE n g i n e e r i n g,TokyoU n i v巴r s i t yo fS c i e n c e 2C l i n i c a lD a t aManagementa n dB i o s t a t i s t i c s,R . & D . D i v i s o n,NipponKayakuC o ., L t d 要旨 2つの主要評価変数の有効性を示すことが必要な検証的臨床試験において, 主要評価変数聞の相聞を考慮、した適切な症例数設計法を提示する.さらに,提 案した症例数設計法を実現するための SASプログラムを紹介する. キーワード:検証的臨床試験,主要評価変数,症例数設計,相関 1 はじめに 検証的臨床試験の主要評価変数については,日欧米の 3極が共通に遵守を義務づけているガイドラ 1 ]が 1つの条件を課している.それは「主要評価変数は通常 イン「臨床試験のための統計的原則 J[ ただ 1つにすべきである J というものである.ところが,現実には主要評価変数を複数設定し,すべ ての変数での有効性を示すことが試験の目的となることがある. たとえば,高リン血症に対する治療に,血清リン濃度を低下させる薬(高リン血症改善薬)として, カルシウム製剤が多く開発され臨床使用されている.ところが,カルシウム製剤でリンを減少させ ることはできるが,カルシウムの吸収に伴う,高カルシウム血症が副作用として問題視されるように なった.そのため,血清リン濃度を抑えて,しかもカルシウム濃度も抑えるという薬効を持つ薬剤の 開発が求められることになった.そのような視点で開発された薬剤には,たとえば,塩酸セベラマー 2 ] [ 3 ] . がある [ 唱EL nぺU 1ょ

135.
[beta]
このような背景から,現在,高リン血症改善薬では, r
投与終了時血清リン濃度」と「投与終了時
補正血清カルシウム濃度」を(有効性を検証するための)主要評価変数とすることが臨床的に必要
となっている.すなわち,被験薬が対照薬より「投与終了時での血清リン濃度が有意に低いこと」と
被験薬の
「投与終了時で、の血清カルシウム濃度が有意に低いこと」の両方が確かめられたときのみ, r
有効性が検証された J (優越性が示された)ことになる.
このような状況に対する症例数設計法では,主要評価変数のそれぞれで必要症例数を計算し,その
最大値を用いることが多い(これを従来法と呼ぶ).ところが従来法は,主要評価変数聞の相聞を考
慮、していないので,必要な検出力が確保されない可能性がある.そこで本稿では,正規分布に従う 2
つの主要評価変数の両方で有効性を示すことが必要な検証的臨床試験において,主要評価変数間の相
聞を考慮した症例数設計法を提案する.さらに,提案する症例数設計法を実現するための S
ASプロ
グラムを示す.

2 問題の定式化
並行 2群比較試験を想定する.すなわち ,2
7
1人の被験者が n人ずつの 2群に分けられ,第 1群を
「被験薬群 J,第 2群を「対照薬群」とする.主要評価変数は 2つあって,相関係数が pの 2変量正
規分布に従う確率変数とする. 2つの主要評価変数の各々に対する検定において,両方とも有意であ
るときに被験薬が有効であると判定する場合を考える.検定は被験薬の母平均が対照薬の母平均より
大きいという方向での片側 t検定とする.
このような状況において,第 i群の被験者 jの主要評価変数 kの値を X
i
jl
:(
i=1,2
;j=1,
.
.
.
,7
1
: k=

1,
2
) とする.その期待値,分散,共分散は E{Xij
k
}=μib V{Xijk
}= σik'Coυ {Xi
Xi
j
j,
j
2}
pσ11σ22であるとする.これらを行列で表現すると次のようになる.ただし, Xり = (X
i
j
1,Xijdで
ある.

E
{ん}=品 =1μil 1, V
{
ん }= ~ = (σil

pσ11σ22 ¥

¥ Pσ11σ22

1μi2 /

()~2

)

帰無仮説と対立仮説を次のように設定する.
帰無仮説

Ho:μ11:
:
:
;
μ
2
1または μ12壬μ22

対立仮説

(
字
=
キ Ho:0
1三0または 0
2壬 0
)

H1 :μ11>μ21かつ μ12>μ22
(
字
=
キ H1:0
1>0かっ 02>0
)

ただし ,0
1
: =μ
1:
1 μ21:である.これは, 2つの主要評価変数の両方で母平均の両者の差が正であ
ることをもって,被験薬の優越性を認めるということである.事例を対象とした場合には,血清リン
濃度および血清カルシウム濃度が低下することを被験薬の効果とするため,九 =μ2
:
1 μ11:として考
えればよい.
被験薬の優越性を検証する仮説検定方式を定式化する.被験薬群と対照薬群の標本平均の差を日=

Xl.l ‑ X2・1,乃 = X1・2‑ X2.2 と表し,偏差平方和と偏差積和を次式で表す.
Wll =乞 (
X
出 ‑X
l
.I
)2+乞 (X
.
1
)2
2
j
1ー丈2
j
=
1
j
=
1
1よ

nノμ

qU

136.

W22 = 2+ 乞( Xjj2‑ X 2) 乞 (X2j2‑ X 2.2)2 j. j=l W1 2 j=l 二乞 (Xjj1‑ X1.1)(X1j2‑ X 2)+乞 (X2j1 ‑ X2.1)(X2j2‑ X 2.2) j. J二 l J=l このとき ,Y 1, 乃 は 次 の 2変量正規分布に従う. J' E E ' z ' ' ' ' ' ' ' ︑︑ E E ︐ ︐ ︐ ︐ ︐ ︑ ︑ ︑︐ E η ー パ ︐L f J J ' η fuq4 /幻 122 内 ︐ ム ρ ' σ1 7ワμ 日 fJJ'iq4 ηf幻 71 15 211 3σ ρ ' 円λ ︼ /lati‑‑¥ . . .s z ' ' ' ' ︑︑︑ ︐. ︐ ︐ 14nJU FAUFAU / ' ' s I E ' Et¥ N ︑ /Jat‑‑11¥ M 乃 ︑ ︑ ︑ ︑ ︐ ︐E a s ' ' ' ' ' ' 二 /︐︐ tili‑︑¥ 一 一 ↓ Y → 同様に , W IW W12 ¥ I ll Iは自由度 2n‑2,分散 Eのウィシャート分布に従う. >> 2 ¥ Wj >. V 巧2 J これらの統計量を使って t検定の検定統計量 ( t 1, t 2 )を表したものが次式である.これに基づいて, 被験薬の優越性を検証する. ( : : 支 このような主要評価変数が複数あるときの片側検定に関する最近の研究として, B loch加 e 1 . 1 は エ . 山 r n 吋 【 c C ILa 引i同 [ 4 ] l 0 が汁 d 勺 匂 1 I n 泊t 加 巴 臼r 百 c t i ∞ oI I 一叩 I I 1 江 m吋i 山 叩 ont 同 巴ぜ 5t γ "とし、づう検定方式を提案しし.Pm 町 巴凶 叫 r . l 凶 r 口 I ma 訂叩 n創 a Il吋 C IWu[ 伊 阿 5 町]がこの検定方式の拡張を 行 ? Tつている.いずれもすベての主要評価変数について(マ一ジン あるいはデ、ルタと呼ばれる)許容 できる差を設定しており,帰無仮説の領域が本稿で、取りとげているものとは異なっている. 3 提案法 3 . 1 プログラムの原理 症例数設計では,第 l種の過誤を有意水準以下にしておいて,医学的に意味がある対立仮説に対す る検出力を 80%あるいは 90%にするように η を定める.検出力が数値積分で容易に求まるなら,こ れはいろいろな η の値に対して数値積分を繰り返し,逐次的に条件を満たす η を求める問題となる. ところが本稿が取り上げている状況では,この数値積分が 5次元の複雑な関数の積分になり,正し い結果が得られない.このようなときにはモンテカルロ積分 [ 6 ]等を用いるべきであるが,関数が複 雑なので困難である.そこで本稿では,単純なモンテカノレロ法を採用し そのための SASプログラ ムを作成した. プログラムの原理とそれを用し、る症例数設計法は次の通りである.本稿ではこれを「提案法」と 呼ぶ. 1.検出力を確保すべき対立仮説 ( 0 1, 0 2 ) を臨床試験の目的に応じて定める. 内べU 内べU ム 4}

137.

2 .標準偏差 σ11, σ22,相関係数 pを事前情報から適当に設定する. (もレ情報が不十分であったら, いくつか試行値を与えて,それぞれについて必要症例数を計算し,その違いを勘案して最終値を 定める.) 3 .棄却限界値は t ( 2 n‑2,0 . 0 2 5 ),すなわち自由度 2 n‑2の t分布の上側 0.025分位点 (2.5%点)と する. 4 . η の試行値を設定する. 5 .設定した対立仮説の下で Y l, Y 2 Wn, W2 W1 2, 2に対応する乱数を発生させる. ヲ 6 .検定統計量 t l, t 2を計算し検定を行う. 7 .5と 6の作業を 100万回繰り返す. 8 .2つの主要評価変数に対する検定で,両方とも有意になった割合を検出力とする. 9 .目標とする検出力が得られなければ ,n に 1 を加え手順 5~ 手 )1贋 9 を繰り返す. 目標とする検出 力が得られたならば,そのときの η を必要症例数とする. ( 2 n‑2,0 . 0 2 5 )とするのは,第 1種の過誤確率の最大値が ( 0 1, 0 2 )= 手順 3において,棄却限界値を t ( 0,∞)および ( 0 1, 0 2 )= ( ∞ ,0 )のときに与えられるからである.すなわち,帰無仮説が ( 0 1, 0 2 )= ( ∞ ,0 )または ( 0 1, 0 2 )=( 0,∞)であるときの第 1種の過誤確率を 0 . 0 2 5以下にすることで,全体の第 1種の過誤確率を 0 . 0 2 5以下に制御で‑きるからである.棄却限界値をこのように設定したときの検出 力は,対立仮説の下で t l三 t ( 2 n‑2,0 . 0 2 5 )および t 2三t ( 2 n‑2,0.025)が成り立つ確率である. 手順 5において,ウィシャー卜分布に従う乱数の発生はパートレッ卜の分解による方法を用いてい る[ 7 ] 3 . 2 作成したプログラム 提案法に対する SASプログラムを表 lに示す.このプログラムは,症例単位ではなく検定統計量 の同時分布をもとに乱数を発生させるので 計算は比較的短時間である.使用方法は, %letの後に 記載された計算条件およびパラメータを目的に応じて変更すればよい . η の試行値に対応する nmin, 回目, n ̲byは l群あたりの症例数であることを注意する. 出力例として,計算条件およびパラメータを表 2のように設定したときの結果を表 3に示す. 4 数値例に基づく提案法の特徴検討 簡単な数値例での計算をもとに主要評価変数聞の相聞が提案法に与える影響を評価する.そこで, 次の 2つの条件に対する必要症例数を調べると表 4が得られる.ただし , t統計量が平均と標準偏差 の比に基づくことから,標準偏差を 1に基準化して考える.すなわち, σ 1 1 σ 2 2 = 1とする. ( 1 )0 1=0 2の場合 :( 0 1,ゐ)=( 0 . 3 0,0 . 3 0 ),( 0. 40,0. 40 ),( 0 . 6 0,0 . 6 0 ) ( 2 ) ムヂ 0 2の場合 :( 0 1,0 2 )=( 0. 40,0 . 2 0 ),( 0. 40,0 . 3 0 ),( 0. 40,0 . 3 5 ) A斗 A qJ Tよ

138.
[beta]
表 1
: 作成したプログラム

一

ユ
一
三
口

+LU+LU+LU+LU+LU+LU+LU+LU+LU+LU+LU+LU+LU+LU+LM 十M

同

値値幅値値幅
小大み小大み
/;;目庶最刻最最刻
材全互主互のののののの
*のの並互主互主互主互主互主在
︑リ;値値偏偏偏偏偏偏
て数均均準準準準準準
行回;平平標標標標標標;
ヨン率;のののののののの値値偏
12111222小大み
差ヨ在幅
冗シ開;;み数数数数数数数数最最刻
礼一過数数刻変変変変変変変変ののの
1 レの例例の価価価価価価価価数数数
拡ユ種症症数評評評評評評評評係係係
け ミ 2小 大 例 要 要 要 要 要 要 要 要 関 関 関
一昨シ第最最症主主主主主主主主相相相
直****************
の
q
u
・コ・︐只u・︐
Jr ・ ' n u
d
にk
ununjLQU4ム44.︐.︐nu
hHnu‑‑‑‑‑‑‑‑QU只u一
Jnu・'4ムハU4ム円4nu円U4ム円U
}﹂ハU・'nu・︐ハUハU=
︑円unJ'‑・'nU4ム===‑一======
〆
:l 0 ・ 5 o n x y
井寸0 0 3 1 = 1 2 n x y n x y ‑ ‑ a b
一
EE
味 F U U U 句 hhhh1‑hh2‑m 口 口
博・U M m m L 白 血 d d d d d d ∞∞∞

何

*eeeeeeeeeeeeeeee
‑‑T
ム
1ー
ムームームームームームームームームームームームームームーム

h
*vhvhvhvhvhmwhvhvhvhvhvh りhvhvhvhv
︐
J

data data;
do sd1=&sd1min. to &sd1max. by &sd1̲by.;
do sd2=&sd2min. to &sd2皿 ax. by &sd2̲by.;
do corr=&corrmin. to &corrmax. by &corr̲by.;
do n=&nmin. to &nmax. by &n̲by. unt工1 (power >= (1‑&beta.) * 100);
do i = 1 to &sim.;
X1 = ra
且n
or(1216);
X2 = rむ mor(1002);
Y1 = &delta1. + sqrt((2 * sd1**2)/n) * X1;
Y2 = &delta2. + sqrt((2 * sd2**2)/n) * (corr * X1 + sqrt(1 ‑ corr**2) * X2);
0.5 * (
2 * n‑2));
t11 2 = 2 * rang叩 (4989,
0.5 * (
2 * n‑3));
t22 2 = 2 * rang叩 (4649,
t21 = rむ mor(826);
a11 = sd1; a21 = corr * sd2; a22 = sd2 * sqrt(1‑corr**2);
W11 = a11**2 * t11̲2;
W22 = a21**2 * t11 2 + 2 * a21 * a22 * t11 2**0.5 * t21 + a22**2 * (t21**2 + t22̲2);
T1 = Y1/sqrt(W11/(n*(n‑1)));
T2 = Y2/sqrt(W22/(n*(n‑1)));
2*(n‑1)) and T2 > tinv(0.975,
2*(n‑1)) then dec = 1
;
if T1 > tinv(0.975,
else dec = 0
;
if i = 1 then sum = 0
;
dec);
sum=sum(sum,
power = (sum/i) * 100;
end;end;output;end;end;end;
run;
proc print data=data label;
var corr n power;
" sd2 = "標準偏差 2" corr =円相関係数 11 power =
= 11検 出
label n = "症例数日 sd1 = "標準偏差 1
力";
id sd1 sd2;
by sd1 sd2;
司a
t power 5.1;
for
run;

l
守‑

﹁

nべU

D

139.

表 2 :入 力 例 表 3 : 出力伊j %let sim =1000000; %let beta =0.2; %let nmin =35; %let n 皿a x =1000; %let n̲by =1 ; %let delta1 =1.0; %let delta2 =0.5; %let sd1min =1.5; %let sd1max =2.0; %let sd1̲by =0.25; %let sd2min =0.8; . 1 ; %let sd2max =1 %let sd2̲by =0.1; %let corrmin =0.8; %let corrmax =0.5; %let corr̲by =ー 0.3; 標準偏差 1 標準偏差 2 相関係数症例数検出力(%) 1 .50 0.8 0.8 46 80.7 49 80.7 0.5 0.9 80.4 1 .50 0.8 54 80.8 0.5 57 1 .50 1 .0 65 80.5 0.8 66 80.0 0.5 1 .50 1 .1 0.8 78 80.4 80.1 0.5 78 1 .75 0.8 80.8 0.8 54 0.5 57 80.5 1 .75 0.9 80.2 0.8 59 63 80.2 0.5 1 .75 1 .0 80.5 0.8 68 0.5 72 80.6 1 .75 1 .1 0.8 79 80.3 0.5 82 80.3 2.00 0.8 66 80.6 0.8 68 80.3 0.5 2.00 0.9 80.4 0.8 69 80.3 0.5 73 2.00 1 .0 80.4 0.8 75 80.4 0.5 80 2.00 1 .1 0.8 84 80.5 80.5 0.5 89 表 4 : 必要症例数の結果 ( 2 ) 81i ‑82 ( 1 ) 81=82 p 0 . 6 0,0 ( 0 . 3 0,0 . 3 0 ) ( . 6 0 ) 0 . 4 0 oω) ( (0ω . 3 0 ) (0ω ,0 . 3 5 ) 0 . 2 0 ) (0ω ,0 1 .0 235 133 60 394 189 154 0 . 9 235 133 60 394 189 154 ‑0.5 235 133 60 394 189 154 0 . 1 232 131 59 394 188 152 0 . 0 230 130 58 394 187 151 0 . 1 227 129 58 394 188 150 0 . 5 218 124 56 394 183 144 0 . 9 197 112 50 394 178 133 1 .0 176 100 45 394 177 130 ‑136‑

140.

これより , 0 ] 二 0 2のときは,相関係数が大きいほど(検出力が大きくなって) 必要症例数は少な ] #0 2 くなることがわかる. しかし,相関係数が負であれば,必要症例数はほとんど変化しない .0 のときは,その差が大きいほど必要症例数は相関係数に依存しなくなることがわかる.すなわち, 必 要症例数がほとんど変化しないのは相関係数が負のときと ,0 ]と 0 2が大きく異なるときである. れは, 図 1 , 図 2で考えると理解しやすい. ( 2 ( 2 (山町内己 ロバl 之内)﹄ (hND・ D ・内向︑内)﹄ / ( 2 n ‑ 2 . 0 . 0 2 5 ) ( 1 1 (2 n ‑ 2 . 0 . 0 2 5 ) ( 1 図 2 :01 と 02が大きく異なるとき 図 1 :相聞が負のとき 図1 ,図 2は検定統計量 ( t 1, t 2 )の確率分布を標本空間上で模式的に示している.図の t ( 2η ‑ 1>t 2, 0 . 0 2 5 )かつら > t(2η ‑2,0 . 0 2 5 )の領域が棄却l 限界値 t ( 2η ‑2, 0 . 0 2 5 )に対応する棄却域である. 図 1より,相関係数が負のときは棄却域に含まれる確率,すなわち検出力は相関係数の値が変わっ てもほとんど変わらないことがわかる.図 2より , 0 1と 0 2が大きく異なるときは,小さい方の 6の 影響が主になって他方の影響が小さいことがわかる. これより,数値例の結果は一般化して差し支え ないことがわかる. 5 事例に即した検討 5 . 1 検討手順 高リン血症の事例では,症例数設計に必要なパラメータとして, 血清リン濃度の平均の差を1.0 ( r n g j d L ),血清カルシウム濃度の平均の差を 0 . 5(mgjdL)に設定している [ 3 ] . ただし,実際は血清リ ン濃度については非劣性検定を適用しているが,議論を簡単にするために,本稿ではこれを優越性試 験に置き換えて議論する.症例数設計法の違いを調べる上では,この違いによる影響はないからであ る.各主要評価変数の標準偏差については,いくつかの値を想定しており,そのもとで,有意水準を 2.5%,検出力を 80%として,各主要評価変数について 1群あたりの必要症例数を計算している. れを表にまとめると,表 5が得られる 表 5に示す値は,公表されている値 [ 3 ]と 1例程度違いがあるが, これは棄却限界値に正規分布の 棄却点を用いた場合と ,t 分布の棄却点を用いた場合の違いである. 1よ η3 ηi

141.

表 5 :事例における必要症例数 血清カルシウム濃度 血清リン濃度 平均の差 標準偏差 1 .0 1 .5 0 1 .0 1 .7 5 2 . 0 0 1 .0 1群あたりの 必要症例数 37 5 0 6 4 平均の差 標準偏差 0 . 5 0 . 5 0 . 5 0 . 5 0 . 8 0 . 9 1 .0 1 . 1 1群あたりの 必要症例数 42 5 2 64 77 事例では,各主要評価変数の標準偏差が最も大きい状況を想定しており,その条件のもとでの 1群 あたりの必要症例数は血清リン濃度については 6 4例,血清カルシウム濃度については 77例となる. 従来法は,例数の大きい方を最終的な必要症例数とするものであるから,本事例における 1群あたり の必要症例数は 7 7例になる.ここでは,従来法と提案法の違いを調べるために,血清リン濃度につ . 0,血清カルシウム濃度については,平均の差を 0 . 5,標準偏 いては,平均の差を1.0,標準偏差を 2 差を1.1として,提案法を適用する.相関係数については正と負の両方を想定する. 5 . 2 結果と考察 相関係数の大きさごとに,提案法による 1群あたりの必要症例数と,従来法による 1群あたりの必 要症例数を 7 7例に固定したときの検出力を表 6に示す. 表 6 :提案法と従来法の比較 相関係数 ‑1.0 ‑0.9 ‑0.5 0 . 1 0 . 0 0 . 1 0 . 5 0 . 9 1 .0 従来法の 提案法による 必要症例数 検出力(%) 9 5 9 5 9 5 9 3 9 3 92 8 9 8 1 77 6 6 . 9 6 6 . 9 67. 4 6 9 . 1 6 9 . 6 7 0 . 2 7 3 . 3 7 8 . 2 8 0 . 0 従来法では,相関係数が 1の場合のみ検出力は 80%に達し,それ以外の場合,検出力は 80%を下 回る.しかし,相関係数が 1になることは現実的でないので,従来法は目標とする検出力を満たさな いことがわかる.疾病の特徴と被験薬の臨床的性能を考慮すると,血清リン濃度と血清カルシウム濃 度との聞には負の相聞を想定するのが妥当である.このとき,従来法の検出力は 6 9 . 1%~66.9% であ 1よ qJ nD

142.

り , 目標とする検出力 80%を大きく下回ることになる. . 5,標準偏差がl.lのときに検出力 90%を ただし,事例では,血清カルシウム濃度の平均の差が 0 0 2例となることを考慮して, 1群あたりの必要症例数を 1 0 0例に設定している. 満たす必要症例数が 1 したがって,ここで指摘するほど検出力が 80%を下回ることはないが,それでも必要症例数の設定根 拠としては不十分である. 一方,提案法は相聞を考慮しているので,すべての場合において検出力は 80%となる.ただし,提 案法では相関係数を適切に見積もることが重要であり,設定した条件の下で,相関係数の違いがどの 程度必要症例数に違いを生じさせるかを事前に考察しておくことが望ましい. 6 考察 6 . 1 多変量正規分布に基づく症例数設計 本稿が取り上げている状況で分散を既知と考えれば,検出力は 2変量正規分布の数値積分で近似計 算できる.これは,主要評価変数が 1つの場合に,正規分布に基づいて必要症例数を計算するのと同 じである.実際に SASで 2変量正規分布に基づいて検出力を計算するには, 2変量正規分布の f l P ! J確 率を計算する probbnrm関数を用いればよい そこで,表 2と同じ条件のもとで, probbnrm関数を 用いて必要症例数を計算すると,必要症例数は最大 2 1 列程度少なく見積もられるにすぎないことがわ かった.多変量正規分布に基づく計算は短時間で実行できるから,これをもとに必要症例数を概算し てから,念押しとして時間をかけて提案法による計算を行うのがよいと思われる. 6 . 2 相関係数の誤特定 提案法では,相関係数の大きさを適切に設定する必要がある.相関係数を実際より大きく見積もっ たときは,必要症例数を過小評価して検出力を低下させる.逆に,実際より小さく見積もったときは, 必要症例数を過大評価して検出力を過剰にする.相関係数の値がよくわからないときは,相関係数の 違いがどの程度必要症例数に違いを生じさせるかを事前に評価しておく必要がある.もし症例数設計 段階で相関係数に対する事前情報が十分でないのであれば,相関係数の値を多少小さめに見積もって おくのが無難で、ある. 6 . 3 主 要 評 価 変 数 が 3つ 以 上 あ る 場 合 本稿では, 2つの主要評価変数の両方で、有効性を示すことが必要な検証的臨床試験を対象としたが, 主要評価変数が 3つ以上の場合への拡張も容易である.その場合,全体の第 1種の過誤確率を 0 . 0 2 5 以下に制御するために,各主要評価変数に対する検定の棄却限界値に t ( 2 n‑2,0 . 0 2 5 )を用いること には変わりはない.さらに,作成したプログラムは単純な構造となっているので,主要評価変数が 3 つ以上の場合への拡張も容易で、ある. 円叫υ ηぺU 1ょ

143.

7 まとめ 2つの主要評価変数の有効性を示すことが必要な検証的臨床試験において,主要評価変数聞の相聞 を考慮した適切な症例数設計法とそれを実現するための SASプログラムを提示した. 被験薬群と対照薬群の標準偏差に対する平均の差が主要評価変数間で大きく異なるときは,必要症 例数は相関係数に依存しないので,従来法でも保証すべき検出力が確保できる.一方,そうでないと きは,従来法では保証すべき検出力が確保されないので,提案法を用いるべきである.このとき,提 案法を用いると,相関係数が正の方向に大きくなると必要症例数は少なくなり,相関係数が負であれ ば必要症例数はあまり変化しない.本稿が取り上げている状況では,提案法を用いるのがよいという のが本稿の結論である. 謝辞 本研究に対して貴重なご助言をして頂いた東京理科大学工学部の吉村功教授および浜田知 久馬助教授に心より感謝致します. 参考文献 [ 1 ] 厚生省医薬安全局審査管理課長.・「臨床試験のための統計的原則」について (平成 1 0年 1 1月 3 0日医薬審第 1047号) "h t t p : / / w w w . n i h s . g oj .p / d i g / i c h / e f f i c a c y / e 9 / e 9 j . p d f1 9 9 8 . 4年 1 1月 28日衛研発第 3850 [ 2 ] 医薬品医療機器審査センタ‑塩酸セベラマ一審査報告書(平成 1 号) ,' h t t p : jjwwwi .ぱ n 1 f o . ♂ pm仁 c l a . g 仏 o .伊 [ 3 ] 中外製薬株式会社脱麟麦酒株式会社・レナジェル,レナジェル錠 250mg,フォスブロック錠 250mg に関する資料(申請資料概要)'h t t p : / / w w w . j p e c . o r必 j c o n t e n t s j c 0 1 j l i n k . h t m l2 0 0 3 . .,L a i,T .L .,a n c lThb e r t ‑ B i t t e r,P .O n e ‑ S i c l e dT e s t si nC l i n i c lT r i a l sw i t hM u l t i p l e [ 4 ]B lo c h、D.A E n d p o i n t s .B i o m e t r i c s2 0 0 1 ; 5 7 ( 4 ) : 1 0 3 9 ‑ 1 0 4 7 . [ 5 ] Perlman,M.D.andWu,L .A NoteonO n e ‑ S i c l e c lT e s t sw i t hM u l t i p l eE n d p o i n t s .B i o m e t r i c s 2 0 0 4 ; 6 0 ( 1 ) : 2 7 6 ‑ 2 8 0 . .H .S l o a na l l c lS .J o e .' L a t t i c eMetho出 f o1 ' M山 i p l eI n t e g1 'a t i o n ', C l a r e n c l o nP r e s s1 9 9 4 . [ 6 ]1 問 [ 7 η ] Jo 凶 h凶 n l 印 So 凡 n 1, M.E .'M叫 u . 山 i l l t i v お a r 討 i ' 1 泊 a t 臼 巴 S 仇t a 叫t i s t 比 l 児c 叫 a1臼 Si 凹m u 川 i l 叫 at i o n ',J 仙 ohnWi 孔 l e 句y&S おo 凶 ns ,NewY o α r 比 . l ' k1 9 8 7 . ‑140

144.

口頭論文発表 特別セッション 「前臨床実験データの 統計解析をいかに 検証するのかJ

145.

前臨床実験データの統計解析をいかに検証するのか ーセッションのねらい一 高橋行雄 中外製薬株式会社臨床解析部 V e r i f ytheS t a t i s t i c sA n a l y s i so fP r e ‑ C l i n i c a lD a t a . How? ‑Aimo faSession‑ YukioTakahashi C l i n i c a lDataA n a l y s i sD e p t ./ChugaiPharmaceuticalC o . .L t d . 要旨 統計解析の結果をいかに検証するのかについて臨床試験の分野では,これまで SAS ユーザ会でもしばしば話題として取り上げられて問題の共有化がなされてきたのであ るが,前(非)臨床の実験データの統計解析について,どのような問題があるのか,ど のような努力がされているのか,今後の課題などについて幅広い討論を行なう. キーワード: 前臨床,統計解析,検証,統計パッケージ 1 . はじめに 前臨床試験の統計解析に, SAS をベースにしたアプリケーション・ソフトが広く使われるよう になってきた.これは,前臨床の実験に関係する人たちが,統計解析を標準的な手順で実施し, 実験データの統計解析の品質を保ちたいとの要求が形になってきたと理解している.臨床試験の 分野では, SAS を用いた統計解析が,世界の標準となっているのであるが,前臨床試験の分野の 統計解析は,現状でどのようになっているのであろうか. 統一テーマ「前臨床実験データの統計解析をし、かに検証するのか」について,前臨床の統計解 析に関連する人たちから,さまざまな視点に立ったプレゼンテーションをして頂き,前臨床試験 の分野における統計解析の現状についての認識を共有化したい.これまで, SASユーザ会で、は臨 床試験に関連する問題についての発表が多く,前臨床関係は散発的であったので,この企画を契 機に,関係者の活発な活動が SASユーザ会で、行なわれるように期待したい.また,前臨床の問題 が臨床統計に関連する人たちに持ち込まれた場合に,どのように対処したらよいのか参考となる であろう. ム ︐ ぺU n A 斗& . 4

146.

2 . プレゼンテーションおよび討論 プレゼンテーションは,次のメンバーによって行なわれる. 1.高橋行雄(中外製薬) セッションの目的 2 . 橋本敏夫(=菱ウエルファーマ) 適切な統計解析の普及活動 3. 半 田 淳 (日本化薬) 安全性試験での取り組み 4. 大 月 浩 (大正製薬) 薬理実験における S AS前臨床パッケージの活用 5 . 岡山佳弘(大鵬薬品) XSASの活用 前臨床試験における取り組みと E 6. 本田小吉(第一製薬) JMPの活用:薬理試験における取り組み 7. 阿部いくみ(コ菱ウエルファーマ) 前臨床試験データ統計解析の信頼性確保 8 . 山本典子(アーム) 適切な検定手法の選択と統計解析結果の信頼性 9. 佐藤耕一(タクミインフォメーション) 前臨床試験におけるデータの正確性の確保 {進行:大野満夫(サイエンテイスト社)} 指定討論者: 浜田知久馬(東京理科大) 3 . 問題の背景 統計手法を前臨床研究に従事している人たちが統計ノ ξ ッケージを直接使って適切な統計解析を することは,なかなか困難なことであった.統計手法が不適切な実験レポートであっても,社内 の利用に留まっているならば,そのために起こる不利益は内部の問題であり,社会的な信用損失 にはなりにくい.しかしながら,その実験結果を規制当局に提出し,何らかの許認可を得ようと した場合に,実験データの信頼性,適用した統計手法の妥当性,解析結果の再現性などに対して, 規制当局の査察の対象となり,批判の対象となる. 安全性試験では, 30年前より GLPが施行され,これらの問題を解決する努力が長年続けられて ASユーザ会で、も,統計解析の検証はい きている.臨床試験関連においても, GCPが施行され, S かに行なうかについて多くの研究発表がされてきた.規制当局も,これらの分野の査察の経験か ら,他の分野についても GLPあるいは GCPなみのデータの信頼性などについて,製薬団体に対 応をもとめてきた. PCが一人に l台とし寸時代になり,表計算ソフトによる実験データの整理・解析が一般的にな った.表計算ソフトは,統計計算の実行ログが出ない,計算結果の再現性が困難などの側面があ り,それらの性質をわきまえて慎重に使うことが必要なのである.統計計算の再現性の確保,監 ASのフロントエンド・プロセッサーのコンセプトで, 査部門による検証などの必要性により, S SAS前臨床ノ号ッケージ, EXSASなどが開発され,多くの研究所がこれらのパッケージを導入し, 小規模な実験データの統計解析での信頼性の向上を図ろうとしている. 他方,標準的は統計解析のプロセスで対処できないような薬理試験などの問題に対して,あら たな取り組みが行なわれつつある.これらの課題について関係者の相互理解を深め,この分野の さらなる発展のためこの企画が役立つことを期待したい. 144‑

147.

適切な統計解析の普及活動 橋本敏夫 三菱ウェ jレファーマ株式会社 創薬本部研究部門研究推進部 Thespreada c t i v i t i e so fs u i t a b l es t a t i s t i c sa n a l y s i s To s h i oHashimoto ResearchC o o r d i n a t i o nDepartment,PharmaceuticalsResearchU n i t, Research& DevelopmentD i v i s i o n,M i t s u b i s h iPharmaC o r p o r a t i o n 要旨 製薬業界における前臨床試験の適切な統計解析の普及活動として、日本製薬 工業協会 統計特別小委員会における前臨床試験に関する取り組みについ て報告する。さらに前臨床試験における試験の計画、実施、試験報告書の作 成に関わる統計解析運用事例として、演者の所属する研究部門における薬 理・薬物動態試験の統計解析業務フローを紹介する。 キ ー ワ ー ド : 前臨床試験、統計解析、統計特別小委員会、統計解析業務フロー はじめに 新薬承認審査における統計学的な指示事項は、 1 9 8 0年代までは臨床試験の統計解析に関する ものが大半であった。しかしながら 1 9 9 0年代の前半からは、前臨床試験の統計解析方法に関 する指摘が塙加した。薬効薬理試験においては、薬効の検証に際して適切な統計学的評価が実 施されていない(検定の未実施、多群、多時点の多重性が考慮されていないなど)ことが指摘 された。安全性試験においては、用量依存的でないため毒性なしと判断することの妥当性や、 多重性を考慮することの必要性などに関する、毒性評価上の統計学的ストラテジーが問われる ようになった。このことから、前臨床試験に従事する研究者の統計学に関する認識が高まると ともに、主として臨床部門に所属する統計解析担当者も前臨床試験に着目するようになった。 υ に 1ょ Aq

148.

1.日本製薬工業協会統計特別小委員会活動 この様な時代背景のもと、 「前臨床試験、臨床試験及び市販後調査を通して、分野横断的に 一貫した考え方の下で統計的問題を検討する」ことを目的に各分野の専門家と統計専門家が招 9 9 7年 4月に日本製薬工業協会 集され、 1 統計特別小委員会が発足し、 2 0 0 0年 3月までの 4 年聞にわたる活動が開始された。 前臨床試験に関するテーマは、以下の 3グループにより検討された。 A.薬効薬理試験の試験計画書、試験報告書作成における統計学的留意事項の検討班 B.非臨床試験における統計的原則の検討班 C.データ解析の手法検討班 前臨床テーマ:小動物の一般毒性に関する統計的評価、イヌ経時測定データの共変量の 調整、生殖発生毒性試験における二値反応データの諸解析方法の比較検 討など) 非臨床試験の統計学的原則検討班では、前臨床試験の実施に際して科学性、客観性、倫理性 が必要であることが解説され、前臨床試験で考慮すべき統計学的な概念を統計的原則として取 りまとめられた。薬効薬理試験の試験計画書、試験報告書作成のための統計学的留意事項検討 班では、試験計画段階において試験目的一作業仮説一統計解析方法をリンクさせることの重要 性や試験デザイン上の統計学的工夫点が紹介され、報告書作成にあたって試験結果を統計学的 に正確な表現で報告することの重要性などを含めた統計学的留意事項を取りまとめた。塁型空 2 里試験に関する検討成果は、 1 9 9 9年 2月の統計特別小季昌会シンポジウム、 1 9 9 9年 3月の日 本薬理学会で報告され、活動の概要は日本薬理学会誌 γ 持語大わ弁。データ解析の手法検討班 の成果も各所に報告されている。 2 .製薬業界における取り組み 統計特別小委員会活動を契機に、前臨床試験における統計解析業務の運用体制が見直される ようになった。臨床統計担当者によるプロトコールレビューなどの前臨床試験サポートの強化 や、前臨床試験専門の統計解析担当者が任命されるなど、製薬企業における前臨床試験の統計 解析はこの時期に大きな変化を遂げている。 3 . 当社における取り組み事例 演者が所属する研究部門においても、研究推進部技術情報 Gが統計解析部門として活動して いる。解析担当者・責任者は試験計画時の統計的なコンサルティングにより、試験デザインや 統計解析方法の最適化を支援している。また、申請に使用する可能性のある試験に関しては、 試験計画書、試験報告書に解析責任者の署名欄があり、統計解析に関する責任の所在を明確に している。実験データの統計解析処理は解析担当者がバリデーション済みの統計プログラム ( S A SA Fなどを使用して作成)を使用して実施し、解析責任者が実施した解析の妥当性を確 認したうえで解析実施書とともに研究者に手交することで、統計解析結果の品質を確保してい る 。 ー い 拭 F十" j 手 、 ~f A ¥ ~" (~~;i.''''é' , 令 ' . r y :'、/,1 止。戸/‑¥‑‑ i,Jí'~ , :i サら点灯h宅がす r~j._) 1 J~r ~' 0 社、ンλ~ 、 r;' 、 ‑146一 作扶!作!戸 ; ι れよス 、 ' ) 1 .: ; jJでて

149.

安全性試験での取り組み 半田淳 日本化薬株式会社 医 薬 事 業 本 部 倉J I薬本部医薬データセンター Currents t a t u si nt o x i c o l o g i c a ls t u d i e s JunHanda C l i n i c a lDataManagementandB i o s t a t i s t i c s,R .& D.Division, PharmaceuticalsGroup,NipponKayakuCo.,L t d . 要旨 安 全 性 試 験 は 1CHガ イ ド ラ イ ン で 大 枠 が 規 定 さ れ 、 デ ー タ 収 集 ・ 解 析 は 主 に専用コンピュータシステムで処理されている。統計解析については標準化 の試みがなされているが、臨床試験における統計的原則のような規定はない c 専用コンピュータシステムについての導入および、定期ノくリデーションは一般 的に行なわれているが、統計解析に関する検証については現状では明確なコ ンセンサスはない。 キーワード: 前臨床試験、安全性試験、ガイドライン、統計解析、コンビュータシステム はじめに 安全性試験は、 GLP基準の下で ICHガイドラインに基づいて実施され、最終報告書の形で規 制当局に提出される。試験の詳細は被験薬剤の特性や以前に行われた試験の結果などに基づ いて決定されるが、試験デザインの大枠はガイドラインで示されている。しかしながら、各試験に おける統計解析手順については、具体的な規定はされておらず、過去は相当混乱していた。そ の後、一般毒性試験については医薬安全性研究会、日本製薬工業協会基礎研究部会、日本ト キシコロジー学会などで、様々な議論が行われ、多重性の調整など標準化が進んできている。 1.コンビュータシステム 安全性試験には、一般毒性(単回・反復投与毒性)試験および特殊毒(遺伝毒性、がん原性、 生殖発生毒性、局所刺激性、抗原性など)試験がある。その中でも承認申請に用いられる小動物 の単回・反復投与毒性、生殖発生毒性、がん原性試験など、 ICHガイドラインなどで試験デザイン がある程度直一化され、使用動物数が多く、長期間にわたり、多項目の検査・測定を多時点で行 よ 守l ワ l sq

150.

う試験では、試験計画書に沿って確実に実施し、データ採取の際の誤りを減らし、全体としての 信頼性を確保するため、専用のコンピュータ、ンステムが一般的に用いられている c このシステムに は採取されたデータの処理や統計解析、帳票の作成までの過程が含まれている。 2 .統計解析 統計解析については、データを見てから判断するとしづ作為をのぞくためと試験デザ、インがある 程度画一化されていることから、データの種類、等分散性、群数などの要因について一定のルー ルに沿って、条件に合う手法が選択されるようなフロー(決定樹)がし、くつか提案されている。専用 コンピュータ、ンステムで、は一般に決定樹に基づいたプログラムにより画一的に統計解析が実施さ れている。そのため、臨床試験や薬効薬理試験などで見られるように、試験毎にその条件にあっ た解析フ。ロク守ラムを選択・作成するとし、った作業は行われず、システムを構築する際にデータ収 集システムなどと一体で作り込まれることが多い。 3 .システムバリデーション 試験データの統計解析については、プログラム的には決定樹方式の一通りであるため、試験 毎の検証は行われず、コンピュータ、ンステム導入時ノミリデーションや定期ノ叩デーションの一環と して統計解析部分についても確認が実行される。統計解析部分のシステムバリデーションの方法 については明確な基準はなししてつかの典型的なデータセットを流し、ルールに沿った解析が 行われ、結果があらかじめ他のシステムで証明されたものと同じであるかを確認することで検証す ることが広く行われている。なお、最近で、は統計解析に関しては新たにプログPラムを作成したり、 自社製のソフトを使わず、 SASなどの信頼性が保証されているパッケージと連動させることで解析 結果の質を保証することも行われている。 4 . 統計解析の検証 前床試験の統計解析については、 ICH において臨床試験のような統計学的原則は定められて おらず、試験統計家の関与も義務づけられていない。そのため、製薬協統計特別小委員会で 統計学的原則に当たるものを作成したが、安全性試験に特定したもので、はなかった c 安全性試 験においては決定樹を機械的に適応することに対する批判もあり、また定型外の項目に関する解 析や得られたデータから探索的に毒性変化を検討する際の手順などについては試行錯誤状態 である。最近では前臨床部門にも統計の専門家を配置したり、各項目に対する解析方法の妥当 性について試験計画書や最終報告書の作成段階で臨床試験の試験統計家の確認を受ける等 の運用がなされている施設も出てきており、今後の活躍が期待される。 なお、専用コンピュータシステムの標準にない解析やコンピュータシステムを用いない場合につ いては、薬効薬理試験のように市販の統計パッケージを用いられることが多く、その際の検証は 薬効薬理試験と同様な手順で行われている。 1 4 8一

151.

薬理試験における SAS前臨床 Jもyケ‑ジの活用 大月浩 医薬研究所開発薬理研究室 大正製薬(樹 U t i l i z a t i o no f Zenrinshou package(SASA p p l i c a t i o nf o rP r e c l i n i c a lStudy) i npharmacologicalstudy H i r o s h iO h t s u k i Pharmacology Laboratory Medicinal Research L a b o r a t o r i e s . T a i s h o PharmaceuticalCO.,LTD. 要旨 薬理試験において適切な統計解析を行うために,前臨床ノミッケージを導入した経緯と 解析システムの検証への取り組みについて紹介する.また,適切に統計解析手法を利 用するための取り組み,現在の状況及び今後の課題についても紹介する. キ ー ワ ー ド : 前 臨 床 1¥ッケージ,薬理試験 1.導入の経緯 1 9 9 6年当時の弊社で利用されていた統計解析システムが当時の風潮にも合わなくなってきたた め,適切な解析を行うための解析ソフトが求められていた.調査を行った結果, SASが適切と判断さ れたが,当時これを利用で、きるユーザーは弊社研究所においては限られており,前臨床の薬理で SASをこのまま利用するのは不可能と考えられた.このため, SASをマクロ化することにより利用を図 ったが,バリデーションやマニュアルの作成に労力を要する割に普及が捗らないため,新たな解析ソ フトの導入を検討した.その結果, SAS前臨床パッケージを導入する事となった. 2.SAS前臨床 J心yケージの変遺 本パッケージは v er .3 . 0から導入し,現在 v er .5 . 0を運用している.それぞれの v er.の特徴と問 題点について以下に示す. ' V e r s i o n3 . 0‑ 4 . 0 目的の検定手法が見つけ難い事,また,データの入力ステップが複雑で、ある事等,操作性に問題 A斗 A n u d 1 ょ

152.

があった.更に,パク、、がある事やマニュアルが未整備で、あるため普及が図れなかった. •V e r s i o n4 . 1 操作性が向上し,ユーザーの利用が増えた.しかし,データの入力方法の問題,動作が不安定, 検定手法の種類が十分にない事,また,スタンドアローンとして利用する事等の問題があり,まだ十 分に改善されていなかった. •V e r s i o n5 . 0 Ver. 4. 1よりも操作性が向上し,統計手法も充実した.また,ターミナルサーバー方式なので管理が 容易になった.これらによりユーザーは一気に増えた. 3 .解析システムの検証への取り組み 前臨床ノ号ッケージの v ersion5.0の動作確認は, S A S社発行のノくリデーション資料を利用したが, 導入時や修正ファイルのインストールの際には公表された資料と解析結果の照合により動作確認を A Sそのもので、解析を行っているが,こ 行った.また,前臨床パッケージで、対応で、きない解析手法は S の場合の動作確認、は,利用するプログ、ラムやマクロの解析結果と公表されている資料の結果を照合 する事により確認を行っている. 4 .適切な統計手法利用への取り組み 適切に統計解析を行うために統計の知識の普及も図られた. 1 9 9 6年 2月,浜田先生(現,東京理 科大学助教授)により弊社の薬理関係者に対して講演をして頂いたところ,統計の必要性について の理解が一気に高まった.また,薬理関係者を中心に統計の勉強会やコンサルティングを開始する 事により適切な統計の知識の普及を図っている.更には,試験計画の立案時に統計のコンサルティ ング,試験計画書作成時の統計部分のチェック,また,報告書の統計解析のチェックを行う事により 統計解析の信頼 性の向上を図っている. d 5 .最近の状況 前臨床の薬理関係者には前臨床ノちケージが普及し,これに伴い難しい解析も簡単かっ安心して 扱えるようになった.また,解析ソフトが普及する一方,統計の知識も普及したため不用意な利用はし なくなった.さらに,試験計画立案時の統計のコンサルテイング,試験計画書や報告書に記載された 統計解析の計画や解釈のチェックを行う事によりこれらの誤用が避けられていると考えられる. 6今後の課題 前臨床パッケージはリリース後,かなり時間が経過してからも修正が提示されるので,自主的な検 証が必要かもしれない.より適切にシステムを運用するために検証方法の更なる工夫も必要と考えら れる.また,適切な運用と検証を行うために,これらが異なる人によって実施される必要があると考え られる. RU i 句 ハU

153.

前臨床試験における取り組みと EXSASの活用 0岡山佳弘 大鵬薬品工業株式会社 育薬研究所薬剤応答性解析研究室 TheA c t i c i t i e si nP r e ‑ c l i n i c a lS t u d i e sa n dTheUseo fEXSAS Y o s h i h i r oOkayama PostmarketingResearchLaboratory,TAIHOPharmaceuticalC o .,L td . 要旨 本稿では,弊社における「前臨床試験の質の向上と信頼性の確保」への取り組 みと,その一環として統計手法および統計ソフトの標準化を目的に統計ソフト EXSASを導入するに至った経緯とその活用状況について紹介する. キーワード: 前臨床,信頼性,標準化, EXSAS はじめに 前臨床試験における実験計画・統計手法の選択・統計解析は研究者に任されており,統計解 析には各部署でまちまちの市販ソフトや自家製プログ、ラム (MS‑BASIC や表計算ソフトなどで作 成)が使用されていた.使用している統計ソフトに関しては,検証を実施し記録を残しておくとし、う ような意識はなく,その信頼性の保証はソフトメーカーあるいはプログラム作成者個人に委ねられ ていた.また,規制当局からは製薬団体に対して前臨床試験におけるデータの信頼性を確保す るよう対応を求められ,日本製薬工業協会では統計特別小委員会を発足し前臨床試験における 統計的問題についてさかんに議論されるようになった. このような状況の中,弊社では「前臨床試験の質の向上と信頼性の確保」を目的として,①「薬 効薬理試験における信頼性基準」の作成,②統計手法と統計ソフトの標準化,③「統計解析ハン ド、ブ、ツク」の作成と統計教育などを実施した. 本稿では,弊社における「前臨床試験の質の向上と信頼性の確保」への取り組み,その一環と FhU 1i 1i

154.

して統計手法および統計ソフトの標準化を目的に統計ソフト E X S A Sを導入するに至った経緯とそ の活用状況について紹介する. 1 .前臨床試験データの信頼性確保への取り組み 「前臨床試験の質の向上と信頼性の確保」を目的として作成された「薬効薬理試験における信 頼性基準」では,実験計画書(実験目的の明確化,評価指標,統計解析手法,群分け,盲検化 の有無,例数設計の根拠などを記載),実験の実施(標準手順書の作成,プロトコール・レビュー C'QA体制の確立などに概要書作成に関する遵守事項を定め, の実施と統計担当者の参加, Q その適正な実施と信頼性の確保を図っている.また,統計手法および統計ソフトの標準化を目的 として統計ソフト E X S A Sを導入するとともに,データパターンご、とに標準的な統計手法をまとめた 「統計解析ノ¥ンド、ブ、ック」を作成し,実験デザインの考え方,実験にあった適切な統計手法の選 択,解析結果の解釈などについて統計教育を実施した. 2 .EXSAS導入の経緯とその活用状況 E X S A Sは,研究者が汎用している標準的な表計算ソフトである MS‑EXCELと統計ソフト S A Sを XCELで入力されたデータは自動的に読み込まれ S A Sで実行さ 自動的に連動するシステムで, E れる.準備されている統計手法の網羅性,メニュー形式であり操作が簡単,出力結果が表形式で 分かりゃすく効率よく報告書作成に利用できるなどの理由で,前臨床試験における標準統計ソフ トとして定着した.統計ソフトの信頼性保証としづ面では,各統計手法の検証と入力データと出力 LPへの対応 結果の整合性に関してバリデーションを実施しその記録を文書化することによって G を行ってしも.活用状況としては, S A Sとともに各研究所に 2 ライセンスづっ設置し,申請に関わる X S A Sあるいは S A S,探素的な試験には JMPあるいは S A Sを使用するとし、うような使 試験には E い分けを行っている. 3 .おわりに 本稿では,弊社における「前臨床試験の質の向上と信頼性の確保」への取り組みと統計ソフト E X S A Sの導入の経緯およびその活用状況について紹介した.このような活動によって,前臨床試 験データの信頼性確保に大きな成果を上げることができたと考えている. 今後の課題としては,前臨床試験における統計解析は統計モデルの利用など多様化するとと もに高度化しており,新しい手法への対応など解析手法の充実とともに信頼性の高い統計ソフト の提供が期待されるとともに,統計解析に関する継続的な啓蒙活動・教育が必要であり,前臨床 部門における統計専門家・専門部署の必要性が増してくると思われる. rペU 1 ょ η ' u

155.

JMPの活用:薬理試験における取り組み 0本田小吉・吉池通晴 薬事統計部統計グループ 第一製薬株式会社 Useo fJMP:Inp h a r m a c o l o g i c a ltests K o k i c h iHonda/M i c h i h a r uY o s h i i k e R e g u l a t o r ya f f a i r s&B i o s t a t i s t i c sd e p t . .O a i i c h iPharmaceuticalC o . .L t d . 要旨 前 臨 床 薬 理 試 験 に お け る 当 社 で の JMPの活用について、ユーザー側からの意 見として述べる。 JMP は操作性に優れ、直感的に解析を進めることが可能であ る。しかし、製薬会社における申請対応用解析ソフトとして見た場合、不足して いる部分もあり、それらを理解した上で、の活用が必要で、ある。 キーワード JMP、EXSAS、前臨床、第一製薬 1.当社における前臨床統計に関する経緯 1 9 9 7年に各研究所からの代表を集めた"非臨床統計解析検討会"が結成される以前は、研究所のデ ータ解析は研究者にすべて任されており、さまざまなソフト、方法論が乱立していた。前臨床での統計環 境整備および当局カもの指摘対応を目的として、"非臨床統計解析検討会"は結成され、検討を重ねた 結果、 1 9 9 8年;こ当社オリジナル統計解析、ノフトの開発に着手したっ 2 0 0 0年;こは前臨床統計担当部署の 設立と共に、当社前臨床の統計解析ボりシーを定めた"事例集"を発行したのさらに、当社オリジナル統 計解析ソフトに替わり、アーム社 "EXSAS"を前臨床標準解析ソフトと位置付け、導入した。 2 0 0 1 年から 2 0 0 2 年にかけては、非!臨床統計担当者による申請用試験のプロトコー/レ、報告書の統計レビューを開 始した。 このような状況の中、多種多様な試験系の解析(探索的、検証的)に、 EXSASだけでは対応しきれない 部分も出てきたため、 2 0 0 2年に JMPを導入した。 なお、当社では現在も前臨床分野については基本的に解析作業は研究者側で、実施され、薬事統計 部はアドバイザ一的立場にあるれ ﹁ ηぺ U h u ‑ ‑

156.

2 . 各ソフトの特徴 統計ソフト導入に際し、当社で比較検討した結果を下記に示す。 a )E XCEL:普及率は非常に高いが、統計解析機能の信頼性は必ずしも高いとはいえない。様々な パグが報告されており、そのため、ごく一部の機能しか使用できない。 b )S A S : プログラム、アウトプット等の理解に時間がかかる。研究者自身で動かすにはそれなりのトレ ーニング が必要である。 P c ) 自社作成ソフト ( S A Sベース):開発、保守、メンテナンス、機能追加等に時間・費用がかさむ。 d )E X S A S :信頼性、操作性ともに良好であるが、手順が直列的。(現在約 3 0台導入)。グラフ機能が 弱く探索的解析には不向き。 e )S A S前臨床ノ fッケージ:信頼性、操作性ともに良好であり、手順が並列的で迅速に種々の条件で 。 の解析が可能。検討した時点では、パージョンアップの予定はなかった。 JMP:迅速なデータレビューが容易にできる。直感的、並列的、 GUIで操作できる(現在約 14台 導 入 ) 。 X S A S (主に検証試験の検 これらの結果から、研究者自身での解析を前提とし、標準解析ソフトを E 定用)、補助解析ソフトとして JMP(主に探索試験のデータ解析用)を導入した。 3 . JMPのメリット・デメリット 1)メリット ・日英両方の言語が使用可能である(海外提出用に有利)。 ・逆推定が容易である。またその信頼区間の算出が可能である。 ‑解析過程をスクリプト(エクセルのマクロのようなもの)として残せる。 ‑解析結果のグラフ、テキスト共に他のアプリケーションに容易に貼り付けることがで、きる。 2 ) デ、メリット ・ログを残すのが困難である。 . p値が出なしものがある。(薬理試験で多用する多重比較法の一部で p値が出力されなし、) ・検定手法が不足している。(ノンパラメトリック手法等) 4 .JMPの活用方法 JMPの特長・活用方法を下記に示す。 1 ) 他のソフトが検定ベースなのに対し、 JMPはデータの多角的な見方・解析を基本にしている (検定結果が出てくる前に必ずグラフが出てくることに注意。これは研究者に是非持ってもらい たいデータに対する視点である)。 2 ) 多角的な探索解析が並列的に実行できる(薬理試験では様々なアプローチが必要である)。 3 ) データの視覚化ツールとしての活用(視覚化はデータ解析の基本中の基本である)。 4 )社内の統計研修に有効 ( S A Sに比べて理解しやすく、初心者に受けが良い)。 1i Aせ EU

157.

5 )JMPのその他の機能の活用(実験計画、ステップ。ワイズ、回帰分析等)。 MPの全ての機能について使し噌れているわけではない。 ただし、当社においても J 5 .まとめ 以上の点をふまえて、 J MPにできないところは他のソフトで、補いながら、効果的なデータ解析を MPのほうが、実は研究者の 目指している。検定ありきの他のソフトより、データの分布から入る J " 目 1ょ RU RU

158.

前臨床試験データ統計解析の信頼性保証 阿部いくみ 三菱ウェルファーマ 株式会社 創薬本部研究部門研究推進部 Theq u a l i t yassuranceo fs t a t i s t i c a le v a l u a t i o n i np r e ‑ c l i n i c a lstudy I k u m iAbe ResearchCoordinationDepartment .PharmaceuticalsResearchUnit. Research& DevelopmentD i v i s i o n .M i t s u b i s h iPharmaCorporation 要旨 本稿では、前臨床試験における信頼性保証業務について、基本的な考え方を 紹介した上で、高度な専門知識を必要とする統計解析の信頼性を統計家では ない信頼性保証担当部署がし、かに確認するか、実務経験を交えて紹介する。 キーワード・ ・前臨床試験、統計解析、信頼性保証、コンビュータシステムバリデーション はじめに 前臨床試験における信頼性保証の目的には、いくつかの事項を挙げることができる。第一に過去の 不幸な事件(サリド、マイド、ソリブジン等)を繰り返さないために、製薬企業として社会的責任を果たす には信頼性の高い試験を行う事が極めて重要である。第二に新たな物質を医薬品として開発するか 否かを企業として判断するために、客観性・再現性の高い試験を行う必要がある。また現実的な面とし て、信頼性基準等の規制当局による要求を満たすような試験を行わなければ、新しい医薬品を世に 送り出すことはできない。そこで本稿では、高度な専門知識を必要とする統計解析の信頼性を、統 計家ではない信頼性保証担当部署がし、かに確認するかを紹介する。 1.信頼性保証部署の役割 前臨床試験に限らず、医薬品開発のために行われる試験は、科学性と信頼性が重要な両輪であ り、どちらも欠如してはならない。更に現代の競争社会にあっては、開発スピードも無視する訳にはい かない。より早く、より良い医薬品を病気で苦しむ患者のもとへ送り届けるためには、効率的な信頼性 ‑157‑

159.

確保の方法を模索する必要があり、試験当事者ではない信頼性保証部署による第三者的レビューが 有効である。 2 .前臨床試験の信頼性 前臨床試験の信頼性をいかに保証するかは、試験全体の作業フローを想定しつつ、どこでレピュ ーやチェックを行えば効率的に且つ確実にミスを防げるかを考えてみる。前臨床試験は試験計画書 作成に始まり、動物に薬物を投与するような実験室での操作、動物から得られた血液や試料の分析的 操作、分析機器から出力されるデータの保存・統計解析等の計算処理、およびそれらに基づく報告書 作成まで、一連の作業によって完結する。従って試験全体の信頼性を保証するには、これらの作業の ポイントをしっかり押さえた確認作業が不可欠で、ある。一般にエラーやミスはヒトの手を介する作業で発 生し易いため、試料の取り違え等を防ぐための作業者自身が行うチェックの記録と、それを後日信頼 性保証部署がレビューする事で、ヒューマンエラーを確認できる場合が多い。また特にデータを手書き で転記したり、コンピュータに手入力するような場合、特に注意して確認することが重要である。 3 . 統計解析システムの信頼性 では統計解析システムの信頼性をどのように保証するか? 個々の試験毎に解析が正しく行われ た事を一つ一つチェックするのでは非効率なため、事前にコンピュータシステムバリデーション ( C S V )によって統計解析システムが適切に稼動する事を検証しておく必要がある。 CSVではシステ ムに組み込まれた個別アプリケーションが適切に運用されている事や、誤用を防止するための措置 を盛り込んでおく事、また欠測値や少数データ等、実験現場で、生じうる多種多様なデータによって検 証されている事が重要である。これらは研究者のみで、はカバーしきれないため、統計解析部署や QC/QA部門等の協力も加えて、研究部門全体として CSVに取り組み、効率的且つ効果的な試験 遂行システムとして構築・維持してして必要がある。 4 . 統計解析ソフトの信頼性 最後に統計解析ソフトの信頼性保証について、演者の所属する社内での取組み事例を述べる。対 x c e l 等の汎用計算ソフト、 SASシス 象ソフトとしてはマクロを組む等して個人が作成した自作ソフト、 E テムおよび SASシステムを研究者がより簡便に使し、こなすための上載せパッケージを挙げ、それらの SV等)について、生物 信頼性を担保するために保存すべき記録文書(プログ ラム・データセット・ログ・ C 統計家が研究現場に近い組織にしも現在と、し、なかった過去について考察する。また各ソフトの出力 の読みにくさがもたらす研究者による判読時の誤り等、統計解析ソフトが前臨床試験の結果に及ぼす 影響の大きさについても若干考察する。 おわりに 科学の進歩とともに統計解析手法も進歩し、統計解析ソフトもコンピュータ、メテ守イア等の発展とと もに飛躍的な進歩を遂げた。反面、統計解析ソフトはブ ラックボックス化し、実際のソフトの中で何が 行われているのか、正しく機能しているのかを確認する事が非常に困難な状況となっている。その中 で、信頼性の確かな前臨床試験を遂行するには、統計解析の専門知識を持った部署と QC/QA部 門が連携し、研究者とともに確実な試験システムを構築する事が最も重要である。 158‑

160.

日本 SASユ ー ザ ー 会 (SUG1‑0) 適切な統計手法の選択と統計解析結果の信頼性 0山本典子 医薬情報部 株式会社アーム S e l e c t i o no ft h emethodf o rs t a t i s t i c sa n a l y s i s andr e l i a b i l i t yo ft h er e s u l t N o r i k oYamamoto M e d i c a la n dDrugI n f o r m a t i o nD e v . .ArmC o . .L t d . 要旨 非臨床試験の実験データを適切に統計解析することは、実験結果を正しく判断 し、次に続く実験を計画するために大変重要である。正しく統計解析された結果に 基づき次の実験計画をたてることは、無駄な実験を避けることができ、新薬開発の 効率化につながる。しかし、非臨床試験に携わる研究者の多くは通常、統計学の専 門家ではないため、適切な解析手法を選択し解析を実施することは困難である。そ こで、研究者ができるだけ手聞をかけずに適切な検定手法を選択することができる ための統計解析システムのコンセプトや方法について、 [EXSAS]の事例を含めて 紹介する。また、統計解析結果の信頼性確保の要件について考察する。 キーワード: EXSAS、非臨床、統計手法、信頼性 適切な検定手法の選択 非臨床試験の研究者が統計解析手法を適切に選択することは、実験結果の解釈の信頼性を確保する ための重要な要件である。 生物実験データ統計解析システム [ EXSAS]は、非臨床試験の研究者が、信頼性の高い SASを適切 かつ簡便に利用して統計解析を実施できることを目的として、 1 9 9 6 年に開発された。研究者が適切な統 計手法を容易に選択が出来るように考慮、した [ EXSAS]の開発コンセプトは以下の 2点で、ある。 1 )メンテナンスが容易なシステム 統計手法は日進月歩で進歩しており、また SASを含めたコンピュータハード、ウェア、ソフトウェアの環境 も急速に変化している。有効な検定手法が提案された場合や、統計ガイドラインがでた場合など、適 切な検定手法をタイムリーにシステムに組み込む必要がある。そのためには、統計手法を簡単に修 正・追加のできるシステムが理想である。 [ EXSAS]は、統計手法毎にプログ、ラムをサブ、ルーチン化 し、可能なものはさらに、データ編集部分、統計解析処理部分、出力部分などに部品化して管理して おりメンテナンスの負担の軽減を実現している。 ← 159‑

161.

2 )データタイプ、群構成毎に実施可能な手法を表示 [EXSAS]では、横並び、の検定手法のメニュー表示で なくデータタイプ(計量値データかカテゴリ データか。繰り返し測定があるか等)、群構成(群数は2群か3群以上か。用量群があるか等)など の情報から適応可能な手法を自動的に絞りこむことができ、研究者が適切な統計手法を選択す る負担を最小限にしている。 また、検定手法によっては、安易に使用してしまうと誤った結論を導く可能性がある。検定手法の前 提条件を明確に認識することが重要である。検定手法を危険度別に分類することは一案である。 [EXSAS]では、レベル 1を標準に、レベノレ 2、3をユーザーからの依頼に応じたカスタマイズ、設定 (独自メニュー)として対応している。 例)レベル1:かなり緩い前提条件で使用可能なので一般的に使用しても良い レベル 2 :ある条件を満たせば危険性が低いので、予備検定などでデータの特性を確認できる 実験デザインあるいはデータに使用しても良い(例:複雑な相関構造を仮定した経時 型の分散分析、 LSD法など) レベル 3 :使用すると誤った結果を導く可能性が高いので特殊な実験デザインにのみ限定して 使用(例 : Duncanの多重比較、 S c h e f f eの多重比較、外れ値の棄却検定など) 統計解析結果の信頼性 統計解析結果の信頼性を確保するためには、適切な検定手法が選択・実施されることに加え、以 下の要件を満たすことが望ましい。 1 )解析日時、解析方法、プログラム、解析実施者、責任者などを明確にする 2 )ユーザーが、ンステムを変更で、きない、または変更する場合は手順の履歴を残す (再現性の確保) 3 )解析結果の修正を防止する手1 ) 関、システムの機能がある 終わりに 「以前に使用していたから Ji 新しいガイドラインがでたから Ji 特殊な分野のデータを使用していて この検定手法が必要だから」など、様々な理由で研究者から [EXSAS]への検定手法の追加の要望 がある。システムに組み込まれた検定手法は研究者が利用し易くなる反面、不適切な検定手法を安 易に使用してしまう危険性が高くなるため、要望のある検定手法をシステムにどのように組み込むか の判断は大変難しい。また、前述のレベル分け、使用手順書作成や留意点のマニュアルへの記述 などは統計専門家でなしせ判断が難いため、専門家の監修は不可欠である。 また、ヒューマンエラーを最小限に抑えるためには、研究者が使用するといった視点から良く吟味 されたシステムを構築することに加え、システムの使用方法の手順書の作成や基本的な統計の知識 の教育など運用面のサポートが大変重要である。 160‑

162.

前臨床試験におけるデータの正確性の確保 0佐藤耕一 株式会社タクミインフォメーションテクノロジー 代表取締役 S e c u r i n gc o r r e c t n e s so ft h ed a t ai nP r e ‑ C l i n i c a ls t u d i e s K o i c h iSatoh Representatived i r e c t o r.TAKUMII n f o r m a t i o nTechnologyC o . .I n c I ' f f i ヲ ミ ご ヒ ヱ , 日 GLP 制定後、 ICH を始めとする各種ガイドラインに従い、多種多様な環境やツ ールを利用して前臨床試験の業務を進める中で、データの正確性(データの信 頼性基準)をいかに確保するかは信頼性保証部門 (QAU)の大きな課題となっ ている。本稿では一般的な前臨床試験のデータ解析業務におけるデータの正 確性、および信頼性確保の視点から、データを取り扱う際に発生しうる問題点 に対する解決方法とデータのバリデーションについて考察する。 キーワード:データの正確性、バリデーション はじめに 前臨床試験に限らず、一般にデータの正確性(信頼性)を確保するためにはいくつかの課題を クリアしなければならない。第一にコンビュータシステム(ネットワーク)のバリデーション、コンビ ュータ(ネットワーク)セキュリティのバリデーションなど、コンビュータ環境構築に関する課題があ る。また、被験物質や対照物質、機器、コンビュータシステムやソフトウェア、試薬、記録などの 取り扱いに関する標準手順書の整備作成などもデータの正確性、信頼性、および完全性を確保 するための必要な条件と言える。本稿では、試験を実施する際に作成される生デ タ(試験デー タ)の正確性、信頼性を確保するために、データの取り扱い時に発生する問題点の回避方法と、 データのバリデーションをどのように考え、実施するかについて考察する。 ‑161‑

163.

1 .データの正確性、信頼性を確保するためのポイント データの正確性、信頼性を確保するためには「コンビュータシステムの特性」と「使用するツール (、ノフトウェア)の特性」を十分に把握しなければならない。その上で、ガイドラインや標準手順書に データの取り扱いに関する項目を明記し試験担当者に周知徹底する必要がある。「コンビュータシ ステムの特性」を把握する上でのポイントを以下に示す。 ①オペレーティングシステムの内部コード 漢字などを表現する 2/¥イトコードは何か。 SJIS、EUC、UTFなど。 ②数値データの取り扱い 精度保証されている有効桁数は何桁か。 ③保存データの耐久性とアクセス保証期間 保存媒体の劣化に関する情報とツールによるデータアクセスの保証期間。 ④セキュリティの確保 コンビュータセキュリティやファイルへのアクセス権限の設定は可能か。 また、「使用するツール(ソフトウエア)の特性」を把握する上でのポイントを以下に示す。 ①テキストファイル、 EXCELファイル、 DBMSファイル、 SASファイルの扱い 誤操作を防ぐ機能やデータのセキュリティはどうか。 ②ファイル形式とファイル変換の仕組みは 保存されるファイルはどのような形式か。ファイル変換機能の仕組みはどうか。 ③デ タ変換(エンコード、テ、コード)機能 データを入出力する際の変換機能はどのような仕組みで行われるのか。 2 .データのバリデーション 試験施設、組織体制、試験計画、標準手順書、コンビュータ環境などのハード、ソフトの両方に 十分な信頼性基準を設けることは基本ではあるが、ここでは試験データを適切に作成、収集、管理 し、仮説検証の評価を正確に行うためのプロセスであるデータバリデーションについて考察する。 特にデータのチェック方法として「データの属性 Jr データの範囲 Jr マスタテーブルとの突合せ Jr 項 目聞の整合性」など、データを扱う場合のチェック方法を例示し、データのチェックポイントを明確に する。 3 .おわりに データの正確性や信頼性の確保を実現するには、コンビュータ環境で、のデータの特性を理解し、 データを利用するコンビュータ環境に合わせて、データおよびファイルの取り扱い方法を確立する ことが不可欠である。 一1 6 2一

164.

口頭論文発表 統計解析 (チュー卜リアル〉

165.
[beta]
[J i.:lt~1'0
hyp'1fjLてさへぜ訪 ̲
l
;
o,

号
;
持j
J
1
〉荷主っE31bi:i

f
f
11
I
I
'
1
e
,
,
.d l色

干
三
く

,.
",;...~ーメ

̲
i
7(Q!'0"(:;<
‑
今
オ
ぞ

L
.
.
.
'
)

̲
,

、
.ζ ‑
9
(
.
,
拘

"句、

r

.'>e: 之<~,・ 1, .
‑
:
[
1
‑.

J

ハ仏川1

d

︑

Ir‑

‑/

r

tfrue

イ

,
'
!
,
、
‑
,
I

司
︑

‑F

Hfm)
一
'
. ¥
'•

J

‑‑j'
,

ー

¥¥/

叩
一

L
3
.

/
ι

.
.
.
i
.
.
/
.

1
‑ !~ l
Z
ノ

、=う '.<f 壬,,7~.;; .
:
込 ι
'
;
'
;
'.~ 4
.
:
'c
‑

l
"

.,.~

T

,
.
.;
0
,
.
.
二

1I11

..~

﹁

一'isi‑
M

.̲
.
‑

437こミ.

(叫サトド J 1
i
:1; よ1保科
DOiE ・日事 f て, f
手

L
:
:
:N
jム
えJ 九
三μ

二ι
(
f
l
)

;;(けん〉

'0

イてが三

r
y
T
F
E

ド

ム土日
.
'z芥空ご。?っ・・壬ザ~,

l
l
F
f
L
I

!jl
ハメ

~崎 46. {".~. ,
{
f.,"'

1

「1三
;
仁
I

( 吻

f
.
"
r
l
.
!

ん

,
(
f辺

a

よ
占

ノ

・

J

¥
.

aF

J

ノ

手グ三会
長j:
f勾

~;-吐、 t ペ~ '
1
¥
,
こ
.
̲:
r‑

f

a

‑J地

︐︐・ム r

〆
︐
︑

"1:.r~J

./.,~-ブt

‑
..
.
!!', ,:;. ‑'̲

づ

,
1
つづ♂一

、

ff

rF1

、rプ
ー
、

̲
̲
{
<
.
.!

J//

,

、ィ持:之〕
.
'
/
‑
:
.
ト

‑
1

/

d

‑
i

,

,

→
‑

,

ipd

;
.
.f三毛マ

.
"
1
<
:
(
も川J
ノ

似

イ

「
、
.
,

r
'

決J
f
t
l

~..-,{,

I "

μ
目

.Jc?,
̲'
.

,

~ j¥諦清野
f
t
J
:'
<
.
(,l
̲
,~"
,;
'
:
r~:"~1:í-.,7fキ今

J
J
j
2
J
的
寸
t
F

166.

SASV9の TPHREGを用いたメタアナリシス 0 浜田知久馬* 中西豊支* 松岡伸篤* * 東京理科大学工学部経営工学科 Meta‑Analysis u s i n gS A SV . 9 TPHREG Procedure Chikuma Hamada, Y u s h iN a k a n i s h ia n d Nobushige Matuoka Tokyo University ofS c i e n c e 1 ‑ 3,Kagurazaka,Shinjyuku‑ku,Tokyo, 1 6 2 ‑ 8 6 0 1 要旨 近年, EBMの重要性が医学会に浸透している.しかしながら EBMで利用される医薬情報は 玉石混交している. したがって医学研究者には情報のエピデンスとしての価値を正しく判 断して,玉と石を見分けることが要求されている.エピデンスの格付けでは,単独の無作為 化臨床研究の 1 bに対して,無作為化臨床試験のメタアナリシスは 1 aと最上位のエビデンス として評価されている.メタアナリシスにおいて研究開で効果が不均一な場合は,その此 因を調べ,どのような条件であれば治療法が有効なのかを明らかにする必要がある.メタ アナリシスでは方法論上,公表バイアス ( p u b l i c a t i o nb i a s )という非常に重要なバイアス の影響を受ける可能性がある.公表バイアスの研究によれば,統計的に有意な研究はそう でないものに比べて,約 2~3 倍も公表されやすいことが報告されている. したがって公 表された論文のみを収集してメタアナリシスを行うと,結果は有意になりやすくなる.こ のためメタアナリシスを行なった場合,何らかの方法で、公表ノ〈イアスの影響について検討 しなくてはならない. SASV.9において, PHREGプロシジャの実験パージョンである TPHREGプロシジャに CLASS 文と CONTRAST文が加わり,ダミー変数を用いなくてもカテゴリカル変数をモデル化するこ とが可能になり,交互作用の検討等も容易になった.この機能を利用すれば研究開の効果 の均一性の検討を簡単に行なうことができる. 本稿では,チュートリアノレとして,個別の症例データに基づいて,生存時間をエンドポ イントとして, SASV.9の TPHREGを用いたメタアナリシスを紹介する.また研究聞の効果の 均一性と公表バイアスの検討方法について解説する. キーワード:TPHREG,メタアナリシス,比例ハザード モデ /レ, f u n n巴lプロット 論文概略 個別の症例データに基づいて,生存時間をエンドポイントとして, SASV.9の TPHREGを用 いたメタアナリシスの手順を示す.また研究開の効果の均一性と公表バイアスの検討方法 について解説する. nhU 1よ Ru

167.

1.メタアナリシスの歴史と現状 s y s t巴maticr e v i e w ) とは従来の総説論文 ( r e v i e w ) に似ているが,そ 系統的レビュー ( の過程を系統的に行なったものである.すなわち参考にした論文の収集法を明確にし,そ れらの論文の評価法を明示し,個々の論文の結果を総合的に評価するための方法を示し, 客観的に行なった総説が系統的レビューである.したがって従来の総説よりテーマが明確 m e t a ‑ a n a 1 y s i s )をタイトルにつけた研究論文も であることが多い.一方,メタアナリシス ( 最近では珍しくなくなってきた.広い意味では系統的レビューもメタアナリシスに入れる ことができる.狭い意味で言うと,系統的レビューの一部分,すなわち個々の論文の結果 を統合するための統計解析がメタアナリシスである 1),2) メタアナリシスという用語は, H Hprimary‑ana1ysis , Hsecondary‑ana1ysisぺ Hmeta‑ana1ysisHとしづ流れで登場した.簡 単に言えば,いくつかの類似した研究を併合して,総合的な評価を下すための方法論であ H る.各研究の解析結果をもう一度解析するので, >> ana1ysis of ana1ysis ともいえる.歴 史的には医学分野への応用は,欧米を中心に 1 9 8 0年代より数多くなされはじめ, 1 9 8 7年メ タアナリシスの総説論文を Simonがまとめ 3), , ) ; 1 9 9 2年に Petoらが早期乳癌の治療に対す るタモキシフェンの有効性をメタアナリシスによって評価したことによって一躍有名にな った.またメタアナリシスを組織的,継続的に行うための組織として英国のコクランセン タ一等が開設され,大腸癌の治療法,抗血小板療法,線溶療法については,既にメタアナ リシスの結果が公表されている.全世界の研究者がデータを持ち寄って,分担・共同作業 を行う. しかも重要なことは,コクランセンターでは,これらの総合評価の結果を時代と ともに更新する体制をとっている点である 5) 医学分野では,最近メタアナリスの数が爆発的に増大している, 1 9 7 0年代には 1 6のメタ アナリシスが発表されたに過ぎなかったのが, 1 9 7 0年代には 2 7 9,1 9 9 0年から 1 9 9 2年にか 3 4, 1 9 9 6年だけで 5 0 0以上が発表されている 6) けては 1 医学研究におけるメタアナリシスの意義とは, 1つの医学上の問題に対し独立に複数行 われた研究を統計学的に併合することによって,サンプルサイズの制約のため単独の研究 では立証しにくい以下の問題に答えることである. 1)効果としては小さいものの,公衆衛生学上は重要な効果の存在を定量的な評価ととも に証明する. 2) 効果の研究開の変動について評価することによって,効果の一般化可能性について評 価する.通常単独の無作為化臨床研究で有意な結果が出たとしても,厳密な患者の適格条件 を設けるため対象患者層は狭く,また薬剤の投与方法も厳密に規定されるので,広い集団 について,投与条件が多少変わったときに結果が再現できるかは判断できない.これに対 してメタアナリシスでは複数の研究を収集するので,プロトコールの適格条件や,投与方 法は研究ごとで異なることになる.このとき複数の研究で,薬剤効果が類似していれば, 多少条件が変わっても結果は再現性があり,一般化可能性が示唆されることになる.これ に対して研究開変動が大きい場合は,統合して有意であっても,患者層や投与条件が異な 166‑

168.

ると効果が異なってくるので,一般化して緩い条件で同様の治療効果を発揮すると結論付 けることはできない.研究開で効果の異質性が大きい場合に,特に効果の強し、研究グルー プ・条件を特定できれば,臨床上の新たな仮説を提示できる可能性もある. 3)ある年齢層,特定の合併症を有する患者層に対しての薬剤の効果を評価するサブグル ープ解析を行う,あるいは重症度等の共変量と薬剤の効果の交互作用について評価する. 4 ) 目的の反応変数と関連が高い共変量を評価する.この結果を利用して新たに研究を企 画する場合の層別割付,最小化法などの工夫が可能になり,効率的な試験計画が立案でき るようになる. 5) 頻度の少ない稀な副作用発現率を精度高く評価する. 2 .T P H R E Gプロシジャ S A S V .9から P H R E Gプロシジャの実験パージョンとして T P H R E Gプロシジャが加わった. L O G I S T I Cプロシジャの V .8の拡張と同じように, T P H R E Gは従来の P H R E Gプロシジャに C L A S S 文と C O N T R A S T文を追加したものであり, C L A S S文によりダミー変数を用いなくてもカテゴ リカル変数をモデ、ル化することが可能になり,交互作用の検討等も容易になった. T P H R E G プロシジャは後述のように交互作用項を含めた変数選択を行なうことも可能で、ある.また C O N T R A S T文を用いることにより,対比を用いて様々な仮説を検定することもできる. 2節 では, P H R E Gと T P H R E Gプ口、ンジャの違いを説明する. •P H R E Gプロシジャによるカテゴリカル変数のモデル化 「生存時間解析」に記載されている皮膚癌のデータを例にとって説明する 7) この実験は 元々, 2元配置型の完全無作為化実験で,皮膚癌のイニシエーターである D肥 Aを 2水準(投 与なし, 1 0 0 n m ol),プロモーターである B r M e B Aを 3水準 ( 1 0,3 0,9 0 n m o l ) にとり,イニシ ェーターとプロモーターの相互作用等を検討するために計画された.他の臓器のがんと異 なり,表皮を観察することによって皮膚癌の発生の有無が直接観察できるため,癌の発生 時期がほぼ正確に決定できる.この実験の目的は,皮膚癌の発生をイベントと考え,皮膚 癌発生までの時間に薬物が影響を与えるかを調べることであった.ただしここでは,イニ 1群あたり 3 0匹)のみをとりあげる.この実験の最大の興味 シエーターを投与した 3群 ( は,プロモーターの投与量の増加に伴って癌の発生が用量相関的に増えるかどうかを調べ ることにあった. 3群あるので,次のようなダミー ( d u m m y ) 変数 X 1, X 2を作成する. 。 。 低用量群 Xl X2 中用量群 高用量群 1 0 0 1 X 1が低用量群と中用量群のハザードの違いを表すダミー変数, X 2が低用量群と高用 量群のハザードの違いを表すダミー変数である.表 l にプログラム,表 2 に解析結果を示 1 6 7

169.

した.プログラムで DOSE:TEST X1~X2~0; は,ハザード比を求めるためには必要ないが 2 つの変数の係数 sl=0, s2=0を同時に検定するための指定であり, 3群聞の違いを 自由度 2で包括的に検定する. 表1 PHREGによるダミー変数を用いたモデル化(プログラム) data scancer2;set scancer; select(dose); when(10) do;x1~0 ;x2~0; 巴 nd; when(30) do;x1~1 ;x2~0;end; when(90) do;x1 o ;x2~1;end; 二 proc phreg data~scancer2; model timeキ censor(O)~ x 1x 2 ; dose:test x1~x2 二 O;run; 表 2より低用量と中用量の対数ハザード比は, 1 .427 (標準誤差は 0 .447),低用量と高用 .737 (標準誤差は 0 . 4 4 3 ) となる.ハザード比はこれを指数 量の対数相対ハザード比は, 1 .1 6 8,5.681倍となり, Risk Ratioとラベルされる. の肩に乗せたもので,それぞれ 4 PHREGによるダミー変数を用いたモデル化(出力) 表2 Testing Global Null Hypothesis: BETA~O Without With Criterion Covariates Covariates 2 LOG L 402.477 381.992 Model Chi‑Square 20.485 with 2 DF (p~O.OOOl) Score 18.874 with 2 DF (p~O. 0 0 0 1 ) ¥ Va ld 15.582 with 2 DF (p~0.0004) Analysis of Maximum Likelihood Estimates Pr > Parameter Standard Wald Variable DF Estimate Error X 1 1 .427421 0.44663 10.21450 0.0014 4 .1 6 8 X 2 1 .737113 0.44287 15.38522 0.0001 5.681 Chi‑Square Chi‑Square Risk Ratio Linear Hypotheses Testing Pr > Wald Label Chi‑Square DF Chi‑Square DOSE 15.5821 2 0.0004 表 2の最後に LinearHypotheses Testing として出力されているのは仮説。 1= 0, 。 2=0を同時に検定した結果であり, TEST 文を指定したために出力された.結果は高度に 有意で, 3群聞で生存時間分布が異なることがわかる.ちなみにこの例では説明変数とし ての 2つしか用いていないので,最初に出力されている TestingGloba1Nu11Hypothesis: ‑168

170.

s E T A = Oの出力は sl=O,s2ニ Oを同時に検定していることに他ならない.したがって Wald検定の結果は, TEST文の検定結果と等しくなっている.またタイ(死亡時間の同順位) がなければ,スコア検定の結果は, L I F E T E S Tプロシジャのログランク検定の結果(カイ 2 乗統計量 2 0 . 2 5 6 5 ) と一致したものになる.実際ほぼ近い結果が得られている. • TPHREGプロシジャによるモデル化 TPHREGプロシジャによる CLASS文を用いた解析のプログラムは表 3のようになる.基準 群とのハザード比を計算するためには, C L A S S文で変数 DOSEがカテゴリカル変数で、あるこ とを宣言した上で, PARAM=オプションで R E F型のダミー変数を指定するのが簡便である. R E F FIRSTを追加することにより,最初の水準と残りの水準を比較するためのダミー変数が 二 作成される.デフォルトで ( R E F = L A S T )は,最後の水準が基準となることに注意されたい. 表 3 TPHREGプロシジャによるモデル化(プログラム) p r o c tphreg;class d o s巴/param=refr e f = f i r s t ; m o d巴1time*censor(O)=dose; 出力は表 4のようになる.最初にどのようなダミー変数を作成したかの情報が出力され るが,前節で示したものと全く同じものが作成される.また, 2つのダミー変数の係数が 両方 0か の 検 定 (3群聞のハザードの均一性の検定)結果が, T ype 3Testsとして出力さ れる.これは表 3の TEST文を用いた検定結果に一致する.続いて,各ダミー変数の係数と それを指数の肩に乗せたハザード比が示される. 表 4 TPHREGプロシジャによるモデル化(出力) Class L e v e lI n f o r m a t i o n D e s i g n V a l u e V a r i a b l e s 。。 3 0 1 9 0 0 n u l Class D O S E 0 T y p巴 3T巴s t s W a l d Effect DF Chi‑Square P r >ChiSq DOSE 2 1 5 . 5 8 1 3 0.0004 Analysis o f Maximum L i k e l i h o o dEstimates Parameter D O S E D O S E DF Parameter Standard Estimate E r r o r Hazard Chi‑Square P r >ChiSq Ratio 3 0 1 .4 2729 0 . 4 4 6 6 1 10.2132 0.0014 4.167 9 0 1 .7 3 7 0 1 0.44285 15.3844 く .0 0 0 1 5.680 ‑169一

171.

次に対比を用いた解析のプログラムを(表 5)に示す.この場合, CLASS文で PARAM=GLMオ プションを指定すると, GLMプロシジャと同じように CONTRAST文の係数を指定できるので 簡便である.対数ノ¥ザードが用量に比例して大きくなるかを検定するためには, ‑ 5‑ 27と いう係数を指定すればよい. PARAM=GLMを指定した場合は,係数の和は 0とならなければな 0,3 0,9 0であるが, 1O ~30 に対して, 30~90 は 3 倍間隔があい らない.実際の用量は 1 ている.ー 5‑ 27 でも -5~ 一2 に対して, -2~7 は 3 倍間隔があいている.生存時間データに 対して用量相関性を評価する検定を Tarone検定とよぶが,それと同様の検定をしているこ とになる.これに対して,ー 1 01としづ対比の係数を用いると,水準が 1段階あがると等 間隔に対数ハザードが増加する場合に検出力が高くなる.表 5ではそれぞれの対比を Tarone,L i n e a rとラベルしている. 表 5 CONTRAST文による解析(プログラム) p r o c tphreg;class dose/param=glmr e f = f i r s t ; m o d e l time*censor(O)=dose; c o n t r a s t, T a r o n e 'd o s e ‑ 5 一27 ; c o n t r a s t, L i n e a r 'd o s e ‑ 1 01 ; 結果は表 6のようになる.Tarone型より, L i n e a rの対比の方の有意性が高くなっている. これより用量比例的というよりは,水準が 1段階あがるたびに,対数ノ、ザードが等間隔で 上昇するタイプの用量反応関係といえる. GLM型以外のモデル化をした場合,対比の係数の 設定は厄介であり,詳細については L O G I S T I Cプ口、ンジャの場合が文献に示されている 8) 表 6 CONTRAST文による解析(出力) Class L e v e lI n f o r m a t i o n Class Value DOSE 1 0 3 0 9 0 D e s i g n Variables 。。 。 。 。。 Contrast T e s tR e s u l t s W a l d C h i ‑ S q u a r e P r >ChiSq Taron巴 1 3 .7 0 3 0 0.0002 Linear 1 5 . 3 8 4 4 く. 0001 Contrast DF CLASS文では次のカテゴリカル変数の 9通りのダミー変数を用いたモデル化が可能で=あ る. EFFECT,GLM,O R D I N A L ( T H E R M O M E T E R ),P O L Y N O M I A L ( P O L Y ), REFERENCE ( R E F ), ORTHEFFECT,O R T H O R D I N A L ( O R T H O T H E R M ),O R T H P O L Y . ORTHREF それぞれのモデルの特徴と使い分けについては文献を参照されたい 8) 114 ワI ハU

172.

3 . メタアナリシスの数理 メタアナリシスで統合効果を推定するためのアプローチは,大きく 2つに分類できる. 固定効果モデ、ル Cfixed‑effectmod巴1 )と変量効果モデル Crandom‑effectmode1)である.前 者は,各研究で真の効果の大きさは同一であり,研究開で効果の推定値が異なるのは誤差 的変動によるとみなす.後者は,研究開で真の効果の大きさはある値を中心にして分布す ると考える. 1)固定効果モデ、ル Cfixed‑eff巴c tm o d e 1 ) K個の研究結果を統合する場合で説明する. 各研究で 2群の平均値の差,オッズ比,ハザード比などの効果の推定値が得られてい kC k =1,2,・ー, K)と表すことにする. C オッズ比,ハザード比は通常対 るとしよう.これを E 数をとったものについて効果を統合する.) K個の研究効果を統合するための素朴なアイデ kの算術平均を計算することである.各研究で症例数が大きく異ならないときは, アは E のアイデアはそれほど悪くはないが,研究開で症例数が大きく違い,推定精度が異なる場 合は,単純な算術平均ではなく,推定精度が高い研究には大きな重みを与え,低い研究に は小さな重みを与える重みつき平均を計算する方が合理的である.各研究に与える重みを w d 一 一 ︑ / ‑ = 一 札とすると,重みつき平均は(1)式で表すことができる. J 'EEA 〆︐︐︑︑ ︐ . ︑ t 一 E 一 W(17γ‑H K E 一 一 ム ロ 果 効 統 この重みつき平均がメタアナリシスで推定する統合効果 Eとなる. 問題はどのような重み民を与えるかであるが,一般には Ekの分散 V kの逆数に比例するよ うに民を定めると,統合効果の推定精度が最も高くなることが知られている . C より厳密に いうと,統合効果の分散を最小にする重みとなる.)もし研究開で誤差的変動の大きさが等 しく等分散性が成り立てば, Ek の分散は,各研究の症例数 nkの逆数に比例するので,W kは 症例数 nkそのものに設定すればよい. Wkを 1 /Vkとした場合,統合効果の分散 V[ E ]は簡単な数式演算により次のようになること が示される. 4、Ek L, 写4 E= エ 古 z Z t z ι 日正J f = E 7 2 U 咽 唱 ( 2 ) [ E ]= E ]が小さく精度の高い推 E ]の分母 L 多くの研究を集めると, V[ :w k が大きくなるので ,V[ 1 7 1

173.

定を行なうことができる. E と V[ E ]から統合効果の有意性検定の Z統計量を導き,また Eの信頼区間を構成するこ とができる. , 芝 町 Zニ 」 士 , 肌 CJ:Ei : .z 川 V [E]=E士ZaJ2 1 τ L ω v 'V L n J ・‑ ‑ ~" 1 正規近似を行なう場合, z 統計量を,正規分布の%点を比較することによって検定を行な 信頼区間を構成 うことができる.また Zα/2は正規分布の上側 α/2%点である.両側 95% したい場合は,正規分布の上側 2 .時点である1.9 6を用いればよい. 研究ごとに,効果の大きさ Ekの 2乗をその分散 Vkで割ると,帰無仮説の下で自由度 1の K 2が構成できる .K個の独立な研究について X K 2を足し合わ カイ 2乗分布にしたがう統計量 X E [民]=0( kニ 1 ) :全ての研究で効果がなし、)の下で,自由度 K せると,完全j 帯無仮説 ( ・ ー ,K ,2, のカイ 2乗分布にしたがう統計量子が導ける.この K 2 KF 2 K ( xは次のように分解することができる. 2 2K(EK‑E)2K E2 x2 =エムミーと=玄 Ek‑E+E) =玄一一一+玄‑ t ; t Vk K V ( 4 ) J K =ZWK(EK‑E)2+E2zwk=Q+Z2 kニl k=l すなわち,全体の xは,重み付き平均 Eの Oからの隔たりを測る Z統計量の 2乗と,重み付 2 き平均から個々の研究効果のズレを計る統計量 Q に分解できる.この分解は,次に示す平 5 )式に完全に一致す 方和の分解公式と類似したものである .Wkを全て 1とした場合には, ( る. X22 イコ土 xf= 土 (Xi -~) +n子 ~i 一刀=土 主 i = l i = l i = l i = l ( 5 ) )が正規分布にしたがうとき )の下で, Xi(V[XJ a2 帰無仮説 E[xJ=0(i=1, ・ ・ ・ ,n 2, 二 L X / とL τー:自由度 n のカイ 2乗分布 σ 土仏寸 」ニ」ーァー:自由度 n‑ 1のカイ 2乗分布 σ のカイ 2乗分布 立と=三ァ:自由度I σ σ ;n 2 Z2はそれぞれ自由度 K K‑1,1のカイ 2乗分 にしたがう.同様に,完全帰無仮説の下で x , Q, , 布にしたがう.研究開で真の効果が均一であるかは Q統計量を利用して検定できる. ~(ι _E)2 ~ 「=許(日 Q=Z‑ 2 何) 11A n 円︐︐ ノ

174.

Qを自由度 K ‑ lのカイ 2乗分布と比べることで検定を行うことができる.完全帰無仮説は, H o :E [ E 1 J=E[E2J=・・・ =E[EKJ=0であるが,これを分解して Q統計量を検定する際には H o: Z統計量を計算する際には, H o :E [ E K J=0を用いる. E [ E 1 J=E[E2J=・・・ =E[EKJ, 2) 変量効果モデル (random‑effect model) 変量効果モデルでは,通常,各研究の真の効果が期待値 μ,分散 τ2の正規分布 N(μ , τ2)にしたがっていることを仮定する. τ2を推定するためには最尤法などの方法もあるが,反復計算が必要であり,モーメント 法によって推定するのが簡便で、ある.この方法では前述の研究開の効果の均一性を評価す る Q統計量を利用して,研究開分散 τ2は次のように推定される. Q‑(K‑l) ハ 2 T ( 7 ) 2 : 2 :W 止す‑ 2 :κ 2 Wk K k bl k=1 Qは帰無仮説 H o :E [ E 1 J=E[E2J=・・・ =E[ E K Jの下では, 自由度 K ‑ lのカイ 2乗分布にした がい,この分布の期待値は K一lである.この期待値よりも Qがかなり大きい場合は,研究 開変動が大きいことを意味するので τ2の推定値は大きな値をとる. Qが K ‑ lを下回る場合 は , τ2の推定値は負の値となるがこの場合には 0で置き換える.この方法は考案者にちな んで, DerSimonian and Laird法とよばれる. τ2の推定値が求まると,変量効果モテ守ルに 8 )式のように推定される. 基づいた統合効果 ERは ( ι k . E ‑‑‑‑ E F2+T2 i7 一 =7L ー エ 一 一1 ' V[EIIJ 7 1 τ 2 2:‑ :W K=I ニ 1 ( 8 ) ' k KEl F2+T2 k=1 V+ ,2 k bl 固定効果モデ、/レの重み l/Vkに対して,変量効果モデルの重みは W ¥=l/( Vk+,2) と 0の場合は,固定効果モテゃルの場合と重みは等しくなり結果 ,2 の分だけ小さくなる. ,2 = E R Jは固 は全く等しくなる.分散を計算するときの分母の重み Wkが少し小さくなるので,V[ 定効果モデルの分散 V[ E R Jと比べて大きくなってしまう.これに伴い,変量効果モデ、ルで、は 有意になりにくくなり,また信頼区間の幅は広がる, 2 に比べて Vkが相対的にかなり小さ ければ,各研究の重みは,症例数に依存した分散 Vkに依存せずに,全ての研究で等しくな 14 喝 ワ l nペU

175.

る. 次に固定効果モデルに基づいてハザード比を統合する例を示す.生存時間をエンドポイ ントとして, A~F の 6 研究について,手術単独群と手術+補助化学療法を比較した結果, 対数ハザード比 P A R M Sとその分散 Vが表 7のように得られているとしよう. 表 7 6研究の要約データ o b s study parms 研 究 対 数H R V W 分散 1 /分散 h r e x p( p a r m s ) A ‑0.49095 0.04709 21 .2 368 0.61205 2 0 .1 4 6 3 3 B ‑ 0.06429 1 5 . 5 5 3 3 0.86387 3 C ‑ 0 .1 4 9 1 8 0.08195 1 2 . 2 0 2 9 0 . 8 6 1 4 1 4 D ‑ 0 .50000 0.11316 8.8367 O .6 0 6 5 3 5 .1 2 5 0 1 E ‑0.02006 O 7 . 9 9 9 1 0.98014 31 .7 1 8 1 0.83182 6 F ‑ 0 .18414 このとき 0.03153 6研究を統合したハザード比を計算するためには,重み W として分散の逆数 A Sでは W E I G H T文を用いて簡単に重み付き平均 を計算する必要がある.重みが求まれば, S を計算できる. S U M W G Tオプションを指定することで重みの合計が出力される.プログラム 例は次のようになる. E A N Sプロシジャによる重み付き平均の計算(プログラム) 表8 M proc means n mean s u m w g t ; v a r parms;weight w ; 出力結果は表 9のようになる. 表9 M E A N Sプロシジャによる重み付き平均の計算(出力) 分析変数 N 6 ー parms 平均値 重みの合計 0.2556917 97.5469000 統合ハザード比は一 0.256となるが,これを指数の肩に乗せた expー (0 . 2 5 6 )=0.7 7 4が求め たい統合ハザード比となる.統合ハザード比の信頼区間についても,重みWの和を求めれば, ( 2 )式に基づいて簡単に計算できる.変量効果モデ /レを用いた場合の S A Sプログラムについ ては文献を参照されたしゅ.メタアナリシスの結果の表記法として,しばしばforestプロッ トとよばれる図が用いられる.これは,各研究の信頼区間を水平線で表し,これを縦に並 べる.一番下には,統合した効果の信頼区間を菱形で示す.ちょうど,木から枝が何本も 出ているように見えるため, forestプロットと名づけられている. 4. Coxの比例ハザードモデルによるメタアナリシスのモデノレ I 勺 1よ AA

176.

研究ごとの集計結果ではなく,個別の患者データが得られているときは, Coxの比例ハザ ードモデルに基づいてメタアナリシスを行なうことができる.すなわち PHREG を用いてメ タアナリシスを実行することができる. 生存時間をエンドポイントとして,固定効果モデ、ルによるメタアナリシスでは, ( 9 )式の 比例ハザードモデルに基づいて解析することが多い. h ( t )=九( t ) .exp(β‑drug)k=l, 2J1K ( 9 ) h( t )はそれぞれの時点で死亡する確率であるハザードを示す. hk( t )は基準ノ、ザード関数 で,通常,対象患者集団,標準治療が研究開で異なるので,研究ごとに異なった基準ハザ ード関数を想定している drug は薬剤が投与されていればしそうでなければ 0 をとるダ ミー変数であり,薬剤効果については,研究にかかわらず一定であり,薬剤投与により, ノ、ザードが exp(s ) 倍になることを想定している. これに対し,研究ごとに薬剤の効果が異なる場合には, ( 10 )式のモデルを仮定する必要 がある. h ( t )=九( t ) .e x p ( β! k. d r u g ) k=1 ム …,K ( 10 ) 2つのモデルのあてはまりを比較することで,研究問で薬剤効果が一定であるか評価す ることができる. PHREG プロシジャでは, STRATA 文で研究を表す変数を指定すると,研究 ごとに異なったハザード関数をあてはめることができる. A~F の 6 研究の個別データが, データセット DATAに得られているとしよう.生存時間,打ち切り,研究,群を表す変数を それぞれ TIME,CENSOR,STUDY,G とする.プログラムは表 10のようになる. 表 10 PHREGによる統合ハザード比の計算(プログラム) proc phreg data=data model time*censor(l)=g/rl;strata study; MODEL文で,薬剤投与の有無を表すダミー変数 G,STRATA文で研究を表す変数 STUDYを指 定することにより, 6つの研究開で共通の薬剤効果を求めることができる.結果は表 1 1 のようになる. 表 11 PHREGによる統合ハザード比の計算(出力) Testing Global N u l l Hypothesis: BETA=O Chi‑Square Test DF P r >ChiSq Likelihood Ratio 6.5183 0.0107 Score 6.5085 0.0107 Wald 6.4729 0.0110 Analysis of Maximum Likelihood Estimates Parameter Variab1e DF Estimate G ‑0.25735 1 Hazard 9 5目 Hazard Ratio Standard Error Chi‑Square P r >ChiSq 0.10115 6.4729 0.0110 Ratio Confidence Limits 0.773 0.634 0.943 共通の薬剤効果 3の推定値は . o25735となり,これは対数ハザード比を表す.これは 6 ja 円 巳U 1 ょ

177.

つの研究の対数ハザード比の重み付き平均一 0.2556927( 表 4参照)とほぼ等しくなっている. P H R E Gでは最尤法を用いて反復計算により推定値を得るため,重み付き平均とは完全には一 致してないが, ( 9 )式の比例ハザード モデルに基づいて推定した統合効果であると解釈でき .0110であるから,統 る.対数ノ¥ザード比が 0であるとしづ帰無仮説の検定結果の p値は O 合効果は 5潟水準で有意となる.また 3 の推定値を指数の肩に乗せた,ハザード比とその 95% 信頼区間は, O .773,0.634~0.943 となる. ( 1 0 )式のモデルに基づ、いて研究ごとに解析するためには, BY 文で研究を表す変数を指定 すればよい.こうすれば研究ごとに別々な基準ノ¥ザード関数と薬剤効果を想定することが できる.プログラムは表 12のようになる. H R E Gによる各研究のハザード比の計算(プログラム) 表 12 P proc phreg data=data , model time*censor(l)=g/rl;by s t u d y ; ただし,研究ごとに別々に推定結果が出力されたのでは,研究開で効果が均一であるか を評価するのが面倒である.まとめて解析したい場合は,次に示す研究×処置の交 E作用 G AG BG CG DG EG F)を D A T Aステップで作成するのが一つの方法であ を表すダミー変数 ( る. GA~GF のそれぞれは, A~F の研究効果を表すダミー変数である. 表 12 各研究のハザード比を計算するためのダミー変数 。 。。。。 。 。 。 。。 。 。 。 。。 。 。。 。 。 。 。。 。 。 。 。 。。 。。 。。。 。。 。 。。 。。 。。 。。 。。。 。。 。 。。 。。 。。 。。。。 。 。。 。。 。。。。。。 study g A A B B C C D D E E F F g a g b g c g d g e gf l l もう 1つの方法は P H R E Gプ口、ンジャの中でプログラミング文を用いて, P H R E Gの内部で表 12のダミー変数を作成する方法である.プログラムを表 13に示す.効果の一様性につ いては,表 11と表 14のモデルカイ 2乗の大きさの比較によっても可能であるが,簡便 E S T文による検定である.この例では T E S T文で, A~F の 6 研究開で処置の効果が なのは T 異なるかを,自由度 5のワルド型の検定によって評価している.結果を表 14に示す. 各研究の結果(統合ノ、ザード比 p値,ハザード比とその信頼区間)が出力された後で, T E S T文による 6研究で対数ハザード比が等しし、かの検定結果が出力される.均一性の検定 のカイ 2乗統計量 Qは 2.6334となる. p=0.7563と 5%水準で有意でなく,研究開で効果は ほぼ均一であるとみなせる.この結果は, Q統計量による検定とは少し異なるが,検討して し、る内容自体は同じである. 1 7 6一

178.

表 13 PHREGのプログラミング文を用いた各研究のハザード比の計算(プログラム) proc phreg data=data , mod巴1 time*censor(l)=ga gb gc gd ge gf/rl; strata study; ga二 O;gb=O;gc二 O;gd=O;ge二 O;gf=O; ' then ga=g; if study='A if study='B ' then gb=g; if study='C' then gc二 g; if study二 ' D ' then gd=g; if study='~ then ge=g; , ニF ' then gf=g; if study homo:test ga=gb=gcニ gd=ge=gf; 表 14 PHREGのプログラミング文を用いた各研究のハザード比の計算(出力) Testing Global N u l l Hypothesis・ BETA 二O C h i‑Square DF Pr >ChiSq Likelihood Ratio 9.1702 6 O .1 6 4 2 Score 9 .1 6 5 6 6 O .1645 Wald 9.0117 6 O .1729 Test Analysis ofMaximumLikelihood Estimates Parameter 5百 HazardRatio Hazard 9 Standard ErrorChi‑Square P r >ChiSq Variable DF Estimate G A l ‑0.49095 0.21700 5 . 1 1 8 7 0.0237 0.612 0.400 0.936 GB l ‑0.14633 0.25356 O .3 3 3 0 O .5 6 3 9 0.864 O .5 26 1 .420 0.14931 0.28627 0.2720 O .6 020 0 . 8 6 1 0 . 4 9 1 1 .5 09 0.50000 0.33640 2 .2 0 9 2 0.1372 0.607 0.314 1 .1 7 3 GE 0.02006 0.35357 0.0032 0.9548 0.980 O .490 1 .960 GF ‑0.18414 O .1 7 7 5 6 1 .0 755 0.2997 0.832 0.587 1 .1 7 8 GC GD l Ratio Confidence Limits Linear Hypotheses Testing Results Wald Label Chi‑Square DF P r >ChiSq homo . , . L Q 訟4 5 ,ムエ品主ー • TPHREGプロシジャによる均一性の検定 TPHREG プロ、ンジャを用いれば,ダミー変数を作成したり,プログラミング文を用いなく ム 4L ηー ηI

179.

ても,モデル文で研究 (study)X薬剤 ( g )の交互作用項を定義することにより,簡単に実行 することができる.プログラムは表 15のようになる. 表 15 TPHREGによる研究開の効果の均一性の検定(プログラム) proc tphreg; class study g/param=r巴f r巴f=first; mod巴1time*c巴nsor(1)=gstudy*g/rl;strata study; 結果は,表 16のようになる. Type 3 Tests とラベルされて,研究開で薬剤効果が異な ム五辺牛 っているか STUDY刊の交互作用の検定結果が出力される.カイ 2乗統計量 Q= p= ..Q:.1旦立と前述と全く同じ結果が得られた.薬剤効果を表す変数 Gついての検定結果も出 力されており,全く有意な結果となっていないが,一般に交互作用項を含む場合には,主 効果は評価することができず(交互作用のモデル化の方法によって主効果の大きさが異な る).薬剤効果を評価するためには, STUDY*G の交互作用を除く必要があることに注意され たい. 表 16 TPHREGによる研究開の効果の均一性の検定(出力) Typ巴 3 Tests Wald DF Pr >ChiSq n u 勺t‑ ‑‑‑ nu nu‑ 5 A斗A n h u ‑ FhυFhυ‑ .0032 o G STUDY*G Chi‑Squar巴 ム地ム 83‑ Effect Analysis of Maximum Likelihood Estimates Param巴t巴r DF Parameter Standard Estimat巴 Error Chi‑Squar巴 o0032 . .1720 o .6784 o Pr >ChiSq G ‑ 0 .02006 STUDY*G A o .16408 . o35357 .39565 o STUDY*G B 0.47089 0.41485 1 .2884 0.2563 STUDY*G C ‑ 0 .12627 0.43510 0.0842 .7716 o STUDY*G D 0.47994 0.48804 0.9671 0.3254 STUDY*G E ‑ 0 .12925 0.45493 0.0807 .7763 o 0.9548 ‑共変量を調整したメタアナリシス 個別データを用いてメタアナリシスを行なうことの利点は,共変量の影響の調整,サブ グループ解析,薬剤と共変量の交互作用の検討が容易にできる点である. 背景因子の影響を調整することによって,次の 2点が期待できる. 1)群聞のアンバランスを調整することによって,交絡の影響を除くことができる.通常 I よ 41 ヴ OD

180.

比較試験では群聞の比較可能性 (comparabi1i t y )を保証するために無作為化割付が行われ るが,最小化法や層別割り付けを行わない単純な割り付け法では,無作為化を行っていた 0 0 程度の小さな試験では,予後因子について無視できない としても,サンプルサイズが 1 アンバランスが生じる場合がある.過去の事例では,不適切な割付法として封筒法が用い られたことにより重大な選択バイアスが生じた例もある.また最終的にはサンプルサイズ が大きくてなってバランスがとれる場合でも,例数が少ない中間解析の段階ではアンバラ ンスが生じることは十分考えられる.このように重要な予後因子のバランスがとれてない 場合は,その予後因子で調整した解析を行わないと,薬剤効果が偏って推定される. 2) 生存時間に重要な影響を与える予後因子で調整することによって,誤差的な変動の大 きさを小さくすることができ,より鋭敏に治療効果を検出できる. TPHREG プロシ、ジャでは, MODEL 文で,予後因子を指定することで,比例ハザードモデル の枠組みの中で,予後因子の調整を行なうことができる.ただし結果の妥当性は,モデル の正しさを前提にしなければならないので,プライマリーな解析として用いることはでき ない. CLASS文で指定したカテゴリカル変数あるいはその交互作用項を含めて,変数選択を行う ことが可能になった. TPHREGのこの機能は生存・死亡のような 2値データについて回帰分 析を行う LOGISTICプロシジャとほぼ同等である.以下では,生存時間をエンドポイントと して,非小細胞肺癌に対する治癒切除例に対する手術単独群と手術+補助化学療法を比較 した 6研究のメタアナリシスの実際のデータを少し修飾したものを用いて TPHREGの機能を 町田プロ 示す.非小細胞肺癌の場合,表 17に変数が臨床的援重要な予後因子となる. TP シジャでは,様々なタイプのデータを同時に変数選決'0)候補とすることができる 1 では, AGEは連続変数, 表 17 SEXと Gは 2値データ, PT,PNは! J 慎序カテゴリカルデータ, SOSIKI は名義カテゴリカルデータである. 表 17 非小細胞肺癌の予後因子と入力コード G 補助化学療法 0 : 手術単独群 1:手術+補助化学療法 AGE 手術時年齢(連続変数) SEX 性別 M :男性, F 女性 PT 原発腫蕩 PN 所属リジパ節 SOSIKI 組織型 1:pT1 2:pT2 3:pT3 4:pT4 O:pNO 1 : p N 1 2:pN2 3:pN3 A D :腺癌 S Q :扇平上皮癌 L C :大細胞癌 A S Q :腺肩平上皮癌 これら 5つの予後因子と薬剤効果を表す変数 Gを変数選択の候補変数とする.ただし, 統計的な変数選択によって機械的にモデルを構築するのは賢明で、はない.臨床的に重要な 予後因子や,害] 1 付で考慮した因子は変数選択の結果にかかわらず,強制的にモデルに取り 込んだ方がよい. TPHREGプロシジャでは MODEL文の SELECTION=オプションを指定することにより. 4種 類の変数選択が可能でらある.各変数選択の指定は次のようになる. fa 円 ︐ 円uu

181.

SELECTION=BACKWARD [ B (変数減少法) FORWARD [ F (変数増加法) STEPWISE [ S (変数増減法) SCORE (総当たり法) 変数減少法は,最初に候補変数を全てモデルに取り込んでおいてから,必要のない変数 を逐次的に除いていく方法である.これに対し変数増加法は,変数を全く含まない状態か らスタートして,説明力の高い変数から,順次取り込んでいく方法である.この折衷的な 方法が,変数増減法で,逐次的に必要な変数を取り入れ,不必要な変数を除いていく方法 である.また総当たり法は,可能な全てのモデルを,モデルに含まれる変数の数ごとに, 説明力の高い順に示す方法である.説明力の高さ(帰無仮説からの事離)を測る指標は,ス コアカイ 2乗の値である.ただし総当たり法は,それぞれの変数の自由度が 1の場合,す なわち連続変数と 2値カテゴリカルデータのみで説明変数が構成される場合しか実行でき ない.ここでは,変数減少法の実行例を示す.プログラムは表 18のようになる. CLASS文 tp n の 4変数を指定する.残りの変数 AGEと Gについて で,分類変数である sexsosiki p ! "でつないで,最後に仰を付 は連続変数としてモデル化される. MODEL文では,変数聞を " け加えている.この指定を行うことによって,これらの変数の主効果,可能な 2次の交互作 6C 2 = 1 5通り)変数選択の対象とすることができる.例えば 用を全て ( m o d e 1 Y=a[b[c!d@2; は次の指定と等価である. 。 m o d e 1 Y二 a b c d a*b a*c a*d b * c b*d c * d ; 2の代わりに駄を指定すれば,可能な k次の交互作用まで変数選択の対象とすることがで きる.しかし可能な候補変数の組み合わせは,次数を増やすと,爆発的に増えるので,注 意が必要である.特に変数減少法では,最初に全ての候補変数を取り込むので,あまり変数 の数が多すぎると出発時点で、モデルが破綻してしまう. SELECTION=BACKWARDのデフォルト では, p値が大きい変数から除いていき,最終的に 5 潟水準で有意でない変数は全て除かれ る.変数を除くときの有意水準を変更したい場合は, SLS=オプションを指定すればよい. L S = O .1 5の指定によって,水準 15%で有意とならない変数はモデルから除去される. 例えば S なお CLASS文で m水準のカテゴリカル変数を指定した場合,自由度 m ‑ 1の検定によって, 変数の有意性が検討される. 表 18 TPHREGプロシジャによる変数減少法(プログラム) p r o c tphreg;c1ass s e xs o s i k ip t pn/param=refr e f = f i r s t ; r 1 se1ection=backward; m o d e 1t i m e * c e n s o r ( 1 )ニ sex!sosiki[pt!pn!age!g@2/ strata s t u d y ; 表 19に TPHREGプロシジャの変数減少法によるモデ、ル構築の過程を示す出力を示した. 5個の計 2 1の項がモデルに取り 最初は全ての主効果 6個と,その全ての 2次の交互作用 1 込まれる. Step 1では 2次の交互作用の中で p値が最も大きな AGE*PTが除かれる.以下 ‑ 1 8 0一

182.

G * S O S I K I,AGE*G, ・ ・ ・ , S E X * S O S I K Iまで全ての 2次の交互作用が取り除かれる. 6つの主 効果は全て 5 潟水準で有意でーあり,変数選択は終了する.最終的なモデ ルには, S EXS O S I K IP T P NAGEGの 6つの主効果のみが残る.このモデルについて TPHREGプロシジャは各項目の検 GE,P T 定結果を出力する(表 20 出力 2). 主効果についての検定結果をみると, PN,A が高度に有意であり,これらが生存時間に非常に大きな影響を与える予後因子であること が確認できる. 表 19 T PHREGプロシジャによる変数減少法(出力 1) Summary o fB a c k w a r dE l i m i n a t i o n Eff e c t Number Wald Removed I n C h i ‑ S q u a r巴 P r >ChiSq AGE*PT 2 0 . o1215 0.9411 G 2 G*SOSIKI 1 9 0 . 2 3 4 1 O .8895 G 3 AGE*G 1 8 0.0644 O .7997 G 4 SOSIKI*PT 1 7 1 .6 9 2 1 0.7921 G 5 G*SEX 1 6 0.2733 0.6012 G 6 A GE *PN 1 5 1 . 5 6 0 9 0.4582 G 7 A GE *SEX 1 4 0.9234 O .3366 G 8 SEX*PT 1 3 3.8624 0.2767 G 9 PT*PN 1 2 5.6242 0.3445 G 1 0 G*PT 1 1 1 .4 8 1 1 O .6866 G 1 1 SEX*PN 1 0 3 .3809 O .1844 G 1 2 AGE*SOSIKI 9 5.9354 O .1148 G 1 3 SOSIKI*PN 8 1 0 . 0 4 6 1 O .1860 G 1 4 G*PN 7 4.2064 O .1 2 2 1 G 1 5 SEX*SOSIKI 6 3 .8 8 3 9 O .1434 G S t e p Effect 表 20 T PHREGプロシジャによる変数減少法(出力 2) Type 3T e s t s Wald Effect D F SEX C h i ‑ S q u a r e P r >ChiSq 9 .1 0 5 4 0.0025 S O S I K I 4 1 2 . 3 4 2 1 0.0150 P T 3 21 .0 276 0.0001 P N 3 45.3691 < . 0 0 0 1 AGE 25.4163 <.0001 G 5.4167 0.0199 ‑181 ← L a b e l

183.

有意な交互作用が存在せず,特に薬剤 Gを含む交互作用が存在しないことから,薬剤効 果に影響をするような修飾因子は存在せず,様々なサブ、グ ループで、ほぽ一様な効果がある ことが示唆された. T P H R E Gプロシジャで、は変数選択を行なった場合,カテゴリカル変数に ついては,ハザード比を出力してくれない.ハザード比を出力させるためには, s e l e c t i o n = オプションを除いて,選択された変数のみを指定しなおす必要がある.プログラムは表 2 1となる. TPHREGプロ、ンジャでは,変数ごとにハザード比を計算するときの基準となる水 L A S S文で s e x( r e f = 'F ')を指定すること 準を明示的に指定することが可能である.例えば C により,女性に対する男性のハザード比が計算できる. PHREGプロ、ンジャによる調整した解析(プログラム) 表 21 T p r o cT P H R E G ; c l a s s s e x ( r e f = ' F ' )s o s i k i ( r e f = 'A D ' )p t ( r e f = '1 ' )p n ( r e f = ' O ' ) study/param=ref ; 1 )s e xs o s i k ip tp na g e g/ r l m o d e lt i m巴*censor( 二 s t r a t as t u d y ; 結果は次のようになる. 表 22 TPHREGプ口、ンジャによる調整した解析(出力) Parameter Hazard 9 5覧 H a z a r dR a t i o Variable R a t i o C o n f i d e n c巴 L i m i t s L a b e l SEX M 1 .414 1 .1 2 9 1 .7 7 1 SEXM S O S I K I ASQ 3 .1 7 3 1 .2 3 6 8 .1 4 7 S O S I K I ASQ S O S I K I L C O .975 O .384 2.473 S O S I K IL C S O S I K I OT 16.024 2 .1 2 9 1 2 0 .5 7 7 S O S I K IO T S O S I K I S Q 1 .0 74 0.817 1 .4 1 3 S O S I K IS Q P T 2 1 .5 8 6 1 .2 8 5 1 .9 5 7 PT2 P T 3 2.330 1 .2 0 5 4.505 PT 3 P T 4 1 .8 4 1 0.238 1 4 . 2 2 1 PT 4 2.959 1 .9 6 1 4.464 PN 1 P N P N 2 4.223 2.487 7.172 PN2 P N 3 4.317 O .579 32.204 PN 3 A G E 1 .036 1 .0 2 2 1 .0 5 0 AGE G O .787 0.643 O .963 女性に対する男性のハザード比は, 1 .4 1 4倍となること等がわかる. S O S I K IO T,P T 4, P N3はそのサブグループ、に属する症例が少ないため,信頼区聞がかなり広がっており,評 価が困難である. s e xs o s i k ip tp na g eの 5変数で調整した薬剤のハザード比(変数 G )は O .7 8 7となる.これは,調整を行なう前のハザード比 O .7 7 3( 表 11参照)とあまり変わらず, このことから,これらの要因による交絡は起きておらず,手術群と補助化学療法群には比 較可能性が成り立つことが確認された.無作為化臨床試験を対象としてメタアナリシスを 寸 上 n F臼 n 口

184.

行なう場合は,重要な予後因子の分布がそろうことが期待できるので,交絡の影響につい て,心配する必要はないが,コホート研究や,ケースコントロール研究等の観察研究をメ タアナリシスする場合は,交絡の影響は避けられず,慎重に対処する必要がある. PHREGプロシジャではモデルに含まれる変数の中で p値が最大のものから単純に さて, T 除去していくわけではない.変数増加法,減少法,増減法では,デフォルトでは変数聞の 階層構造が考慮される.なぜなら,交互作用項 A X Bは,主効果 A とBが取り込まれて始 めて解釈可能で,交互作用項単独では意味をなさなし、からである. 変数増加法では,高次の交互作用が取り込まれるには,その交互作用が含む全ての主効 果および低次の交互作用が既に取り込まれていることが必要条件となる.逆に変数減少法 では,より低次の交互作用または主効果が除去されるためには,それを含むより高次の交 互作用が全て除去されている必要がある. この階層構造に関する指定を行うのがモデル文の H IERARCHY=オプションである.ただし このオプションは総当たり法 ( S E L E C T I O N = S C O R E )を指定したときは無効となる.表 23に示 す 5種類のオプションを指定することが可能である. 変数増加法で肌J L T I P L Eを指定した場合,例えば A, B, のうち, (A B (A B AXB) A X B) を総合的に検定した p値が l番小さければ,この 3変数が一度 に取り込まれる.デフォルトの指定は H I E R A R C H Y = S I N G L Eである. 表 23 T P H R E Gプ口、ンジャによる変数選択の H I E R A R C H Yニオプション NONE:変数聞の階層構造を無視する. SINGLE:変数聞の階層構造を考慮する(一度に lつの変数のみ選択する) S I N G L E C L A S S:CLASS文で指定した変数のみ階層構造を考慮する (一度に lつの変数のみ選択する) M U L T I P L E:変数聞の階層構造を考慮する(一度に複数の変数を選択できる) MULTIPLECLASS:CLASS文で指定した変数のみ階層構造を考慮する (一度に複数の変数を選択できる) 5. 研究開の効果の異質性の評価とサブ、グループ解析 研究開で効果の異質性がみられたときは,変量効果モデルを適用するのが一つのアプロ ーチであるが,医学的には異質性の原因を検討するのが重要で,これにより新たな医学的 な仮説を提示できる可能性がある.効果の異質性が存在する場合は,効果の強し、研究とそ うでない研究が混在することになる.このとき効果の強し、研究のサブ グ、ループにどのよう な特徴があるかを検討することが重要である.メタアナリシスの場合,別々に行われた本 質的に異質な研究を複数統合しているので,事前に特定のサブグループに興味を絞ってい るというより,事後的に様々なサブずグ、ループを構成して,効果を検討することが多い.た だし複数のサブグループを設定すると,多重性の問題によって,真に効果がない場合でも, 1 8 3一

185.

効果があるといってしまう第一種の過誤の確率が増大する.全体から一部の研究を抜き出 すことによって構成できるサブ戸グソレープの数はかなり多い.例えば,研究数が 6 の場合で = 6 3のサブ、クール 説明すると,それぞれの研究をサブグループに含めるか・含めなし、かで 26̲1 ープが可能である. 1を引くのは 6つの研究とも含まない場合を除くためである.このよう に多くのサブグループが構成可能であり,多重性を考慮して,特定のサブ、ク守ループの有意 性を主張するためには,どうしたらよいだろうか. o n f e r r o n i法 1 )B 可能なサブグループの数を Sとすると有意水準 αを Sで害1 ' った α/Sとして,それぞれの o n f e r r o n i法は対象とする比較が独立に近いとき,性能はそれほ サブグループを検定する. B ど悪くないが,実際には同じ研究を含んだサブグループが多く存在するので,サフゃグルー プ聞の検定統計量には高い正の相聞が生じるので,保守的で有意になりにくくなる.例え ば 6研 究 の 場 合 会 6 3であり,有意水準 α=0.05とすると, 0.05/63=0.00079 となり,サブ 3 )式の Z統計量では,多重性を考慮 ク守ルーフ。の p値がこの値を下回ったとき有意になる. ( した場合, 5 覧水準で 3 .3 5 5を越えなければ有意とならない(多重性を考慮しなければ1.9 6 0 が棄却限界値) 2 ) S c h e f f eタイプの方法 一元配置分散分析型のデータにおいて,あらゆる可能な対比統計量のうち最大のものは, 分子の自由度が群の数 1 ,分母が誤差分散の自由度の F分布にしたがう.これと同様にメ タアナリシスにおいても, S c h e f f eタイプの多重比較を定式化することが可能である.メタ アナリシスの検定統計量として,各試験の効果の重み付き平均を統合効果の指標として考 える. ( 2 )式では,重み付き平均の分散を最小にする重みを考えたが,ここでは負の値を含 統計量を最大に む任意の係数を対象にし,その中で Z統計量を最大にする係数を考える. z 2の分布は,完全帰無仮説の下,すなわち,全ての研究で効果がな する重みを与えたとき Z い場合に自由度が K(研究数)のカイ 2乗分布にしたがう.証明は次に示すシュワルツの不等 式による. 完全帰無仮説の下 (E[Ek]=0) K ",, I ' ICkEk I 2 効果の統合:E'=す C.E.,Z 2=二L一=~可 / 出 ^ ^' V [ E " ] c 九 土 シュワルツの不等式(=はαk o cb kのときに成立) ( t r 三 ( ト } ( 会 / ) ak . bk A川 y n x u

186.

‑ [ 喜 子 ) ̲ (~ JtJJ24長 ) '会( J J = [ 託 ) = 会 CkEk c 九 壬土 エ 九 工 C/九 九 CK2 XK2 cK2 研究数が 6の場合,自由度 6のカイ 2乗分布の上側同点が Z 2の棄却限界値になる. これ は1 2 . 5 9 2になる(多重性を考慮しなければ 3 . 8 4 1が棄却限界値). Z統計量では 3 .5 4 8を越 o n f e r r o n i法より大きく,更に保守的な方法になる. えれば有意となる.この棄却限界値は s 本来サブグループ解析で、は,各研究に与える係数は l / Y kか 0に限定されるが,この方法で は,任意の係数を考えるため,サブ、クツレープ解析としては過度に保守的になる. 3 )閉手順の利用 ) 買( c l o s e dt e s t i n gp r o c e d u r e )を利用して多重性の問題に対処することもできる. 閉手1 研究 kの真の効果(対数ノ¥ザード比)をJ1k と表すことにする.閉手順では閉じた帰無仮説 I pと I I qに対しでも のファミリーを用意する.ファミリー Fに含まれるどの 2つの帰無仮説 I H pかつ H q " としづ仮説が Fに含まれるときファミリーFは閉じている.研究数 K=4の場 合,帰無仮説のファミリ ‑ F は次のように構成される. ここで H l l . 2 . 3. 41 は , μ! μ2ニ μ3ニ μ4 こ二 0を表すものとする. 二 表 24 閉じた帰無仮説のファミリー F(4研究の場合) 寸 qd ‑AU qL I UH 4U ︽ 寸 凋仏寸 } H門 1 1 nt ‑AU nt ‑ i u u lqJ 凋品寸 ‑ l u u qJ ] nL H円 1 1 H { 1, 2 }, H { 1, 3 . J H { 14 },H { 2品 ,H { 2刈 ,H { 3刈 ,H { 1,}H { 2 }, H { 3 }, H { 4 } 閉手順では,帰無仮説 H pを誘導する(含む)すべての上位の帰無仮説 HqEFおよび H p自身 がそれぞれ比較当たりの有意水準 α で棄却されるとき I ! pを棄却する.また H pを誘導する 上位の帰無仮説が保留される場合は I I pも保留する.例えば, H1 41 が保留される場合は . 2 3. I. H 1 1 . 2 . 3. 41 は全ての下位の部分帰無仮説を含むので,全ての帰無仮説が保留されることになる. 図 1に 4研究の場合の閉手1 ) 買を図示した.最初に 4研究全体で効果があるか Hll以 4 1を検 定し,そこで有意差があれば 3研究 2研究と研究の数を減らし,有意でなくなるまで検 定を続ける.図中の矢印は,下位の仮説を抑えている上位の帰無仮説を表し,上位の帰無 仮説が全て棄却されない限りは下位の仮説は検定されない.閉手順を用いると保守性は, o n f e r r o n i,S c h e f f eタイプの方法と比べて改善される.また,全体で有意差がな 前述の B し、場合は,サブグループ解析でも有意にならず, ることができるという利点もある. 6 . 公表バイアスとその対処 1 8 5 ‑ ドブさらい的なサブグループ解析を避け

187.

メタアナリシスでは方法論上,公表バイアス ( p u b 1 i c a t i o nb i a s )という非常に重要なバ イアスの影響を受ける可能性が高い.有意な結果が得られた研究と,そうでない研究があ ったときにどちらが公表されやすし、かは自明なことである.論文では新規性が要求される ので,有意な結果の方が採用されやすくなる. したがって公表された論文のみを収集して メタアナリシスを行なうと,結果は有意な方向に偏ることになる.これを公表バイアスと よぶ. 閉手順 (4研究) 閉手1 1 頂で検定.ある Hが棄却されなければ,それがi m p l y するすべての Hを保留する. 図 1 閉手順によるサブグループの検定 ‑公表バイアスの分類 公表バイアスの分類について, E g g e r等の分類にしたがって紹介する(表 25)10). 表 2 5 公表バイアスの分類 P u b 1 i c a t i o nb i a s (公表バイアス) E n g 1 i s h1 a n g u a g eb i a s (英語バイアス) O a t a b a s eb i a s (データベースパイアス) C i t a t i o nb i a s (引用バイアス) M u 1 t i p 1 ep u b 1 i c a t i o nb i a s (多重投稿バイアス) B i a si np r o v i s i o no fd a t a (データ提供に関するバイアス) •P u b 1 i c a t i o nb i a s 進行卵巣癌の患者について単剤の化学療法と併用療法を比較した臨床研究のメタアナリ n t e r n a t i o n a 1 シスを,結果が公表された研究のみで行なうと p=0.004 と有意になるが, I ‑186 ←

188.

Canc巴 rR 巴5巴archDataBankに事前登録された研究について統合すると p=0.17と有意にな らなかった 10) また 5つの倫理委員会の研究計画が提出された 1215の臨床研究を評価した 結果では,有意な研究はそうでない研究に比べて,オッズ比で 3倍程度 ( 9開 C 1 2 .3~3. 9 ), 公表されやすかったことも示されている 11) Eag巴 r等は,公表バイアスの原因は,有意な結 果の方が受理されやすいというより,有意でない結果が出ると,研究者自身が投稿をあき らめてしまうためであると考察している川. • English languag巴 bias よい研究結果が出ると英文の一流雑誌に投稿するが,あまりよい結果がでないと英文の 雑誌はあきらめ,自国語で投稿するような傾向がある.このため英文で公表された論文の みをメタアナリシスの対象にするとやはり結果が有意になりやすくなる.これを英語バイ アスとよぶ. 1985 年 ~1994 年の間で, M巴dlin巴で無作為化臨床試験を検索し,筆頭著者で マッチングさせて,英語と独語の論文を比較した結果では, 5潟水準で有意な割合は英語: 6 3先に対して,独語では 3 5犯しかなかった(オッズ比 3.8 95 判C 1 1 .3~1 1. 3 ) 12). • Databas巴bias(データベースパイアス) Databas巴bias(データベースパイアス)は,メタアナリシスで文献検索に用いるデータベ ースに偏りがあるために生じるバイアスである.例えば, Medlineでは,英語以外の言語で 作成された論文についても英語のインデックスを示しているが,発展途上国の研究は却し か含まれておらず,世界中の研究が網羅されているとは言い難い 10) • Citation bias(引用バイアス) C itation bias(引用バイアス)とは研究の結果によって引用され方が異なり,よい結果が 出ると多数引用され,多くの人に知られることになるが,これに対し結果がネガティブな 場合あまり引用されず,研究の存在自体も認知されないので,メタアナリシスの対象にさ れにくくなるバイアスである. Helsinki heart study は,虚血性心疾患の既往のない抗脂 によって LDL‑コレステロールを低下させることによって,心疾患 血症患者に対して,薬剤l の予防効果があることを証明した歴史的な試験であるが,この研究は元々,一次予防と二 次予防について評価した研究であった.一次予防の結果については NewEnglandJournalof Medicin巴という最も権威ある医薬ジャーナルに投稿され,その結果は 450回以上引用され, 多くの人の知るところになった.これに対して二次予防については,結果自体は一次予防 と同時期に判明したが,あまりよい結果ではなかったため, 1993 年になるまで公表されな かった.ジャーナルも Annals of Medicine と , NewEngland Journal of Medicine と比べ 7回しか引用されてない ると,かなり流通が限定されており,二次予防の結果については 1 1 0 ) •M u ltiple publication bias 有意な結果の論文は,複数のジャーナルに投稿したり,複数の学会で発表されやすい傾 向にある.英語と自国語の両方で投稿したり,多施設臨床試験の結果が,全体と個別の施 設の結果が別々に投稿されたりする場合が多い.全く著者が重ならなかった 2つの研究論 の 凸 1ょ ヴ ー

189.

文を別の研究としてメタアナリシスに含めてしまった例も存在する 13) • Bias i n provision of data 有意な結果が得られれば,詳細な情報を含めて論文が投稿されるし,また他の研究者か らメタアナリシスを行なうため個別データの提供を要望されても,応じてくれる可能性が 高いだろう.これに対し,結果がよくなければ,論文投稿はあきらめて,学会発表だけで すまされてしまうかもしれない.学会発表の要旨では,メタアナリシスを行なうのに必要 な情報が得られない可能性が高い.また,結果がネガティブであれば個別データの提供も 何らかの理由で拒否されるかもしれない.このように詳細なデータが入手可能な研究だけ に限定してメタアナリシスを行なうとやはりバイアスが生じてしまう. ‑公表バイアスに対する対処 公表バイアスの統計学的な対処法としては既に多くの方法が提案されているが,ここでは 大きく 3種類に分ける. 1)プロットと検定による公表バイアスの検出 公表ノくイアスについて視覚的に評価するためのプロットがいくつか提案されているが, 最も有名なのが funne1 プロットである(図 2参照).このプロットは各研究の効果の推定 値を横軸,縦軸に効果の推定精度を表す標準誤差の逆数をとったものである(各研究の症 例数を縦軸にとることもある).生存時間をエンドポイントとした場合,ハザード比を横軸 に,ハザード比の標準誤差の逆数をとることになる.あるいはハザード比の代わりに対数 ノ、ザードをプロットすることもある.症例数が大きく精度がよい研究は,上方でほぼ真値の 近くにプロットされる.これに対し推定精度が悪い研究は,下方で大きくばらつくはずで あるが公表バイアスがなければ左右対称にばらつくはずである.症例数が少なく,ネガテ ィブな研究が隠される傾向がなければ,全体的には,漏斗 (funn巴1 )を逆さにしたような三角 形になる.左右対称であれば相聞は 0 になる.公表ノ〈イアスが存在する場合は,ハザード 比が 1を上回り,症例数が少ない研究結果は公表されにくく,右下方部分が欠けるので, funn巴l プロットは左右対称でなくなり,横軸と縦軸に相聞が生じる. したがって相関係数 が 0 かを検定し,棄却されれば,有意な公表バイアスが存在することになる. B巴gg and Mazumdarは,効果の推定値の分散が 1になるように基準化した上で, funn巴lプロットのケ ンドール順位相関係数を計算し,公表ノ〈イアスの有無を検定することを提案している 14) ただし, funn巴I プロットによって公表ノ〈イアスが評価できる前提として,縦軸である症 例数が小さい研究から大きな研究まである程度ぱらつく必要がある.観察研究のように, 症例数設計が行いにくい場合は,症例数は相対的に大きくばらつくはずで5あるが,無作為 化臨床試験のように厳密な症例数設計を行う場合は,症例数が研究開でばらつきにくいた め , funn巴lプロットによる公表バイアスの視覚的検討は困難となる.プロットによる公表 バイアスの検出法には他にも radia1プロット等が提案されている. 2) 検定結果の頑健性の評価 1 8 8一

190.

メタアナリシスで有意な結果が得られでも,ネガティブな研究が隠されたことによって 有意になった可能性がある.そこで有意な結果を覆すのに必要なネガティブな論文数を推 定することによって,検定結果の頑健性を評価する方法が提案されている.ネガティブな . 5 0となる場合を想定するのが R o s巴n t h a ll5)法,有意にな 研究として,片側検定で p値が 0 .05~ 1 .0 0 に一様分布すると考えるのが, 1 y e n g a ra n d らないということで, p値が o 巴n h o u s巴法 16)である.有意な結果を覆すのに必要な研究数が十分大きければ,公表ノくイ G r アスによって,数研究程度が隠されていたとしても有意という結論が覆ることはなく,検 定結果の頑健性が示されることになる. j l . l ・ ・・ . .』・ ・ 1 ・ F .~~~致事ミョ・ 一一一一一一一一←一一 い ・ 『・ 奮闘団) I ・: e̲. I . 1 良い効果 ・ i l ‑ ‑ J い ・ l '‑!・ • • I• ‑ .1 ー. . 悪 い 効 長 治 療 効 果 (θ , ) 、 未 士b弓.J 1 治 療 効 果 (θ) 悪し、効果 一公表バイアスあり 公表バイアスなし funnelplotが 左 右 対 称 =字公表バイアスは存在しない • funnel plotが 左 右 非 対 称 =辛公表/'¥ィアスが:芹 る eγ 図2 f u n n巴lプロットと公表バイアス 3)推定結果の頑健性の評価 2 ) では検定結果の頑健性を評価したが, t r i ma n df i l l法は推定結果の公表バイアスに 対する頑健性を評価する方法である. u n n巴lプロットは左右対称になる.そこで 前述のように公表バイアスが存在しなければ f 非対称なプロットを対称にするのに必要な研究数(未公表論文数の推定値)を推定し,その t r i m )して,その後削除した研究を f u n n巴lプロットに左右対称に配置し 分だけ研究を削除 ( ( f i l l ),人工的に左右対称にした後で効果の再推定を行う方法である.D u a la n dT w e e d i巴 は負の二項分布に基づいて,対称にするのに必要な研究数の推定法を提案している 17) 左右対称に近づけた後で,効果の推定値が大きく変化するようであれば,公表バイアス の影響を強く受けているし,そうでなければ公表バイアスの影響はノトさいといえる A Sプログラムについては文献を参照されたい 18) a n df i1 1法の S t r i m 円同 υ OD ‑ ‑

191.

以上示してきたように,公表ノ〈イアスの影響の統計学的検討については既に様々な方法 が提案されているが, どれも一長一短があり,公表されている研究のみをメタアナリシス の対象にした場合は,かなりの危険性を伴い,結果の解釈はかなり慎重に行なわなければ ならない.また論文に記載されている情報は,様々な評価を行うためには不十分であるこ とが多く,原著者に連絡をとって,個別データを入手するのが望ましい. 公表ノ〈イアスを根源的に防ぐためには,臨床試験の登録制を実現し,結果にかかわらず, 情報を入手することを可能にすることであるが,まだ当分の聞は,公表バイアスの影響を 統計学的に検討するために,提案されている複数の方法を適用して,結論の頑健性を検討 せざるをえないだろう.網羅的に研究を収集できなくても,結果に依存せずに全ての研究 を等確率で、入手で、きれば公表バイアスを避けることができる.このためには,結果が出る 前に,どの研究をメタアナリシスの対象にするか宣言する,前向きメタアナリシスが有効 である. 7 . 終わりに F e i n s t e i nはメタアナリシスのことを f21世紀の統計学的錬金術」 S t a t i s t i c a 1a 1 c h e m y f o rt h e2 1 s tc e n t u r y " と皮肉った 19) これは,メタアナリシスに及ぼす様々なバイアス Aのエピデンス の影響を危↑具してのものである.メタアナリシスであれば,すべてレベル l であるわけではない.正しい方法論を用い,様々なバイアスに対して細心の注意をはらっ たメタアナリシスのみがレベル 1Aのエピデンスである. 最後に「ゴミも積もれば山となる」といわれるが,逆に G a r b a g ei nG a r b a g eo u tと もいわれる.またメタアナリシスの大家 B u y s eは Nos t a t i s t i c a lt e c h n i q u ew i l le v e ryield ' g o o d ' results f r o md a t aofd u b i o u sq u a l i t y . と言っている.対象とする個々の研究の質が低ければ,いくらメタアナリシスを行なって も,ゴミの山ができるだけである.メタアナリシスを行なう前提として,質の高い臨床試 験が行なわれる基盤整備が重要である. 参考文献 1 )折笠秀樹(19 8 7 ) いくつかの独立な研究を併合する方法メタアナリシス.応用統計学, 1 6 ‑ 2,4 4 ‑ 5 3 9 0 ) 薬剤臨床試験のメタアナリシス.臨床医薬, 6,1 7 4 5一1 7 5 9 2 )折笠秀樹(19 3 ) S i m o nR .( 19 8 7 ) O v e r v i e wo fr a n d o m i z e dc l i n i c a 1t r i a 1 s . C a n c e rT r e a t m e n tR e p o r t s, 7 1,3 ‑ 5 . 4 ) S i m o nR .( 19 8 7 ) T h er o 1 eo fo v e r v i e w si nc a n c e rt h e r a p e u t i c s . S t a t i s t i c si n M e d i c i n e,6 ,3 8 9 ‑ 3 9 3 9 9 4 ) コクランセンター.メディカル朝日 1 9 9 4年 6月 号 5 )別府宏(1 1 9 0

192.

6)Lau L ., Loannidis P.A.] and SchmidC . H .( 1 9 9 8 ) Summing up evidence:one answer i s n o t always e n o u g h . Lancet,3 5 1,1 2 3 ‑ 1 2 7 9 5 ) 生存時間解析 7 )大橋靖雄,浜田知久馬(19 東京大学出版会 8 )浜田知久馬 (2000)LOGISTICのV. 8の機能拡張.日本 S A Sユーザー会 2000論文集, 13・38 9 )中 西 豊 支 , 浜 田 知 久 馬 ( 2 0 0 3 ) 変量効果モデノレによるメタ・アナリシス DerSimonian‑Laird法の SASマクロの作成.日本 S A Sユーザー会 2003論文集, 369‑378 10)Egger M . and Smith G .D .( 1 9 9 8 ) Meta‑analysis bias i n location and selection of s t u d i e s . BM] , , 316, 61‑66 . andMatthewsD .R .( 19 9 1 ) Publicationbias 11)EasterbrookP . ] .,Berlin].A,GopalanR li n i c a lr e s e a r c h . Lancet,337,867‑872 i nc .,SchneiderM .,]unkerC .,LengelerC . andAntesG . 12)EggerM .,Zellweger‑ZohnerT (1997)Language bias i n randomised controlled trials published i n English ano 2 6 ‑ 3 2 9 . G e r m a n . Lancet,350,3 13)TramerM .R .,Reynolds D . ] . M .,Moore ~A. andMcQuay ~L]. ( 1 9 9 7 ) Impact ofcovert 3 5 ‑ 6 4 0 . duplicate publication o n meta‑analysis: a case s t u d y . BM],315,6 14)BeggC . B . andMazumdarM . ( 1 9 9 4 ) Operatingcharacteristic ofa rankcorrelation 5 0,1088‑1101 t e s tf o r publication b i a s . Biometrics, R .( 19 7 9 )Thefiledrawerproblemandtolerancefornu11r e s u l t s . Psychol . 15)Rosenthal, B u ll .,86,638‑641 1 6 )IyengarS . andGreenhouse] .B .( 19 8 8 )Selection modelsandthef il edrawerp r o b l e m . Stat .S c i ., 3,109‑135 1 7 )D u v a lS . and Tweedie R .( 2 0 0 0 ) A nonparametric Trim and F i1 1 " method of accounting for publication bias i n meta‑analysis. ]ASA, 9 5, 89‑98 1 8 )松 岡 伸 篤 , 浜 田 知 久 馬 ( 2 0 0 3 )メ タ ・ ア ナ リ シ ス に お け る 公 表 バ イ ア ス の 評 価 trim‑and‑fill法の SASマクロの作成.日本 SASユーザー会 2003論文集, 379‑388 19 9 5 ) Meta‑analysis, statistical alch巴m y for the 2 1叫 c e n t u r y . 19)Feinstein A .R .( ] . C l i n .Epidemiol., 48, 7 1一7 9 20)SuttonA . ] . 巴tal .( 2 0 0 0 ) Methodsf o rmeta‑analysisi nmedicalr e s e a r c h . NewYork, Wiley ‑191一

193.

口頭論文発表 統計解析

194.

分散分析による 1自由度仮説の検定 隈本秀樹 株式会社アグ、レックス BPO大阪事業部システム部 Onat e s to f1 d fh y p o t h e s i si na n a l y s i so fv a r i a n c e H i d e k iKumamoto BPO‑Osaka.A g r e x .C o . .L t d . 要旨 分散分析手法を用いて l自由度の仮説を検定する。複数の仮説を検定するため 多重比較に拡張する。 SASプログラムの作成方法を示す。要因が複数ある場合の、 平均値の差の検定の問題点を示す。 キーワード: 多重比較、分散分析、平均値の差の検定、 t検定、 GLM はじめに いわゆる「平均値の差の検定」は、臨床試験デ タの統計解析において t 検定としてよく使用される。 要因数が複数ある場合、 t統計量の誤差推定量として分散分析表の誤差項を使用する場合がある。 t 統計量の分子である平均値の差は要因が追加されても変わらない。しかし分散分析においては他要 因による共線性の影響を受け仮説平方和は変化する。この論文では、平均値の差の検定を、要因が 複数ある場合へ、分散分析の方法に従って拡張する。 1 . 1自由度仮説の検定 分散分析による l自由度の仮説検定を 2元配置モデルについて考える。 2要因 Fa.Fbの水準数を I . J とし、要因 Fa の第 i 水準、要因 Fb の第 j 水準における第 k 番目の観測値を Y jjk • i ニ1 , ・ ・ ・ ,1 ,j1, ' ", J , 二 k=l, ・ ・ ・ ,T I j jとする。ここで T I j jは要因 F aの第 l水準、要因 Fbの第 j水準における観測数とする。 N=2 :TIijとする。要因 Faの主効果を αi' i = l, ・・・,I要因 Fbの主効果を sj 'j = l,"',]、交互作用を γ u, i = l, ・ ー , ! ,j = l,・・・,]、定数を μ 、誤差を E i j k 'i = l, ・ ・ ・ , ! ,j = l, ' ・ ・ , ], kニ 1, ・ ・ ・ ,T I i jとする。誤差は互いに独立 ム 唱E 巳 υ 口υ

195.

にN ( O,σ2)に従うとする。観測値 Yi j kを 二 Yi j k ' +s/γi/Ei j k μ+α i i = l, ・ ・ ・ , !,j 二 1 , ・ ・ ・ , j,k=l,・ ・ ・ ,D i j と表す。行列式で表すため次を定義する。 y=(y1 1 1 '・ ・' Y u n u ) ' を観測値ベクトノレ、 Xoニ ( 1 1・ ・ ・1 ) 'を l ベクトル、 l:::::l . .a A =( a la l )= 2. 。 。 B二 ( blb2 ・ ・ bJ)= 。 。 l ーよ・・ よ 1 。 ・ ・ ・ ‑ .• ょ・・ 1 1A 。 。 よ 1 一 一 ) J 。 C ηノ臼 l l p u l 一 一 p u ︐ L C • 1i ・・・・・・・・・・ 。 •• ょ・・ 1 よ 1 ーよ・・ よ 1 。 ・ .yu (s1 (E 1 ・ ・.s/、γ=(γ11・ ・ ・ EU α (α1...α 1)¥ s= ) ' を係数ベクトノレ、 E= n U ) ' を残差ベク 1 1・ 二 トルとする。観測値ベクトル Yは ︑町﹄ノ と書ける。また、 (1よ Y=Xoμ +Aα +Bs +Cγ + e =E(Y) とする。 . . ・ , T の各列のすべての列ベクトルが張る空間とする。また記号 ) は行列 S, いま、記号L(S, ・ ・ ・ ,T P y ( Vu)はベクトノレ Y の線形空間 Vu への射影とする。 V を観測値のある N 次元空間、 Vo ニL (x o )、 U ハ z h u 吋 ハ唱EA

196.

二VnL VB=L (x o, B )nL (x O )上 、V ‑ ¥ I B二 し( x o人 B )nL (x a, B )上 、 Ve二L o人 B, C)nL (x o人 B )上 、 VE (C)上とす (x (x ,Vi ¥I B 'VB,Ve,VEは互いに直交する。ここで L o, B)=L (B )た 、 が 、 る と 、 V=Vo+VAIB+VB+Ve+VFであり、 Vo 分かりゃすくするためL(B )とせずし ( x o, B )と書いている。分散分析において、仮説 Ho: eEVo+VB+Ve を検定する F統計量 F . ,¥は次のように書ける。 FA=! ! P y ( VA I B ) ! ! 2/ ( 1‑ 1 ) / ! ! P y ( VE ) ! ! 2/(N‑I J ) いま、 A の列ベクトルの一次結合を x1とする。また X lを含むし( A )の新しい基底ベクトルを X l '・ ・ ・ ,X 1と する。モデルは、 y=μXo+x l7) 1+・・・+x1ηI+Bs +Cγ + と書ける。ここで、 η1" ・ , ηlはL( A)の新しい基底ベクトノレ X l '・ ー , x 1に対応する新しい係数である。 V X I I Bニ L (x o, x l, B )nL (x o, B )上 、 VA I B, x l =L(何人 B )nL (x o, x 1, B )上とすると、 V二 Vo+VXIIB+VA I B/l+VB+ ,V X I I B 'VAIB, x l 'VB,Ve,VEは互いに直交する。仮説 Ho: Ve+VEであり、 Vo eE Vo+VAIB,xl+VB+Ve の検定は分散分析の F検定を使用すればよい。 F X l = ! ! P y ( V X I I B ) ! ! 2 / ! ! P y ( VE ) ! ! 2 / ( N‑I J ) が自由度 ( V X I I BC VA I Bなので、 ! ! P y (V B ) ! ! 2豆│ │ p y ( V A l B ) │ l zとなる。 Hoの検定は FX1 l ,N ‑ I J )の F分布のある X 1I o n f e r r o n i流に F X lの棄却点を設定できる。 値を越えたときに有意とする。多重比較として考えるなら、 B 2 . 平均値の差の検定との比較 2 . 12x2配置における Fの分子統計量 簡単のため 2X2配置を例にとり、不等反復における分散分析の仮説平方和をもとめる c この平方和が 平均値の差とどのように異なるかをみる。 2X2配置の要因を Fa,Fbとし、要因 Faの第 i水準、要因 Fb の第 j水準における観測例数を nij' J二 !, 2,j ニ1 , 2とする。 要因 要因 Fa 2 言 十 n l l . 2 1 n n・ 1 Fb 2 計 n l ? n卜 空22 n・ 2 n 2・ n . . 各水準の合計を口 1 , ・n 2 , ・n ' l 'n・ 2とし、全体の合計を n . .( = N ) とする。 交互作用を除くデザイン行列部分は l η4 I n 1n1. ‑ ‑ A・ ・ 唱 Ei 1n1l ‑ ‑ 4 ・ ・ ‑ ‑ 4 n Jム l n u 1i ・ ・ η︐ ゐ ‑197‑ η4 1n2・ n u 1i ‑・・・・・・・・・・・・・・・・・・司 ll ( x oa la 2b1b2 )二

197.

となる。分散分析において要因 Faの仮説平方和は観測値ベクトノレ Yの、列ベクトル x o 'b 1, bZで直交 化された列ベクトル a l, a Zの張る空間 VAIBへの射影 Py(VA I B )の長さの平方になる。この射影の長さの l, a z, b j, bZを X oで直交化する。 a lを直交化した列ベクトルを a、bjを直交化し 平方を求める。はじめに a zを直交化すると ‑ aに 、 bzを直交化 た列ベクトルを bとする。ただし、整数倍し、整数表示した。なお a すると‑bになるので、行列から捨てた。 i nz ( ab )= n・2 ・ n . z ‑n ' j n z . ‑n ' l ‑ n l ' n . Z n . z ‑n ' j す n 一る ﹂ シ 整 n倍 一数 レい し ' h u 交 直 で a を pb 々C n ' Z n Z l n ' Z n Z l n ' l n Z Z n ' l n Z Z ‑ n ' Z n j l ‑ n ' 2nj j ‑ n ' j n l Z ‑ ‑ n ' l n l Z になる。この列ベクトルはいわば「仮説空間 JVA I Bの基底ベクトルで、ある。この列ベクトルを xで表す。 観測値ベクトル Yの仮説空間への射影ベクトルは Z ( x,Y ) / l l x l l • x二 xx 'II l x l l Z. y であり、射影の長さの平方は Y 'xx 'YI l l x l l Z ( x 'y)ZII l x l l Z 二 となる。ここで、 I l x l I Z =n・1n・Z ( n Z ln l ln・Z + n l Z n Z Zn・1 ) であり、 x ' Y=n・Zn Z ln l l El 1 Zn Z Z E I Z‑n・Zn Z ln l l EZ l Zn Z Z E Z Z l+n・jn 1‑n・1n =n・Zn Z ln l l( El l Zn Z Z( E1 Z Z ) l‑EZ 1)+n・1n Z‑E となる。 E i j =2 :k Y j j k / n j jである。 すなわち、分散分析の仮説平方和は要因 Fbの各水準における要因 Faの平均聞の差の重みつきの 和の平方になる。 ‑ 1 9 8一

198.

2 . 2平均値の差の検定 要因 F aの 2水準の平均値の差は、 E i ' =L :jkYijk/ni'とすると、 E l '‑E z・=1 / n l・ n z・・ ( n z・・ ・ ・ n z・ n l '・ ・ ・ ‑n l・ )y 1 / n l・n z・a 'Y すなわち、平均値の差はヂJ I ベクトル aが列ベクトル bで直交化される前の列ベクトル aを使用している。 二 また、射影の長さの平方は、ピタゴラスの定理より、 Z Y 'X X'YI l l x l l Z 壬Y 'a a 'YI l l a l l となり、 aとbが直交しない限り、平均値の差にもとづく仮説平方和は、分散分析に基づく仮説平方和よ )と分散分析の仮説空間(基底ベク り常に大きい。また、平均値の差にもとづく仮説空間(基底ベクトル a トル x )は異なる。 3 .線形仮説の検定との比較 S e a r l e (1 9 7 5 )で、は線形仮説の検定においてパラメトリック関数の検定可能性を問題にしている。上述の 分散分析による多重比較では、デザイン行列の作り方を考えればよい。実用面で非常に便利である。 aの効果から要因 F bの効果を最大限取り また列ベクトル aを列ベクトル bで直交化することは、要因 F 除くと解釈でき、デザインの共線性により不確かとなる平方和を取り除くことになる。 4 .各種の検定 4 . 1 水準間(群間)比較 例えば要因 F aが 3水準の場合、 X lとして X1= ( l /n l ' ・ ・ ・ 1 / n1. ‑ l / n z . ・ ・ ‑ l / n z・ n z・ ・ ・ n l・ 0 ・ ・ 0 ) ' または n l・n 2・f 苦した X l二 ( n z・ ・ ・ n l ' 0 ・ ・ 0 ) ' とする。 X lよX oであり、 X lEL (A)は要因 F aの第 l水準と第 2水準の比較をするためのデザイン行列の 列べクトノレと考えられる。 4 . 21次 、 2次 、 3次の効果(傾向性) aが 4水準の場合を考える。 4水準の値を Ul'uz,u3'u4 とする。 1~3 次までの効果を考 例えば要因 F えるデザイン行列は ( X oa za 3 )= 1a 2 3 U l U l U1 U l 2 3 U1 3 U2 U1 2 U2 U2 U z U Z U3 U3 U3 U 3 3 U4 2 U3 2 U4 U4 2 U4 U4 2 2 3 U2 3 U3 3 U4 3 同 Ei 唱 円同d nd

199.

である。一般的には 3次を 2 , 1 , 0次で、 2次を 1 , 0次で、 l次を 0次で直交化する。この直交化された X OSjs 2s 3 )とする。 3次の効果を検定するなら X ) = S 3、2次の効果を検定するなら X j = S 2、 デ、ザイン行列を ( ) = S jとする。 直線性を検定するなら X 4 . 3 共変数 共変数は lつの要因と考えるのが普通だろう。共変数列ベクトル dをモデル ( 1 )に追加すると、 Y二 Xoμ+Aα+Bs +C γ +di I+ E と書ける o Iiは列ベクトル d の係数である。要因 A の有意性検定のための仮説平方和は、 VA I B, d =L (x o, A , B, d )nL (x o, B, d )上とすると、 [ [ P y ( V A I B, d ) [ [ 2 であり、多重比較における仮説平方和は、 V X 1 1 B, d 二 L (x o, X j, B, d )nL (x o, B, d )上とすると、 VX1I [ [ P y ( B ) [ [ 2 である。平均値の差による t検定では、共変数により誤差(分母)は調整されるが、平均値の差(分子)は 常に一定である。上述の多重比較では、誤差だけでなく、仮説平方和も調整される。 5 .SASプログラムと分散分析表 5 . 1概要 一般の分散分析における仮説平方和、すなわち、仮説により列ベクトルが制約されたデザインに対す る残差平方和ともとの(制約のなし、)デザインに対する残差平方和の差は、 SAS ではタイプ Eの平方和 と言われる。タイプ Eの平方和は他の要因の共線性による平方和を排除していると解釈される。また SASにおける一般線形モデルプロシ、ジャー GLMでは、要因となる分類変数と共変数のような連続変数 を線形モデルの説明変数に取り込める。要因日に対応するテ、ザイン行列の列ベクトルの一次結合を 連続変数として扱うことにより、 l自由度仮説検定の仮説平方和が求められる。 5 . 2 3x3配置の例 3X3配置を例にとり、分散分析と多重比較を行う。 たとえば SASでは分散分析を次のようにプログラムする。データは例示のためのデータである。 d a t aw 0 0 1 ; i n p u tF ̲ AF ̲ BR E PA G EY@ @ ; ヰ / F ̲ Aは要因 Aの水準、 F ̲ Bは要因 Bの水準牢/ /ヰ REP は繰返し番号、 Y は;~lJ定値ヰ/ /ヰ変数 A G Eは後で共変数として使用する牢/ c a r d s ; 1112 12 8 1124 22 9 1133 73 0 1144 93 1 1152 93 2 1212 93 7 1224 63 9 1313 55 0 2114 42 9 2212 23 92225 14 02233 44 1 2243 64 2 2254 04 3 2313 84 9 3112 83 3 3214 54 03223 54 2 ‑200

200.

3312 65 1 3323 05 2 3334 95 3 3343 15 4 3353 85 5 1 牢分散分析 ( 1 ) ヰ/ p r o cg l md a t a = w 0 0 1 ; c l a s sF ̲ AF ̲ B ; m o d e l Y=FAFBFAヰF ̲ B / s s 2 ; r u n ; GLM フ。口、ン、ジャを使用した通常の分散分析を行っている。以下にこの論文に記した多重比較につい てプロクマラムする。最初は要因 Faの各水準(群)間の対比較、すなわち、水準 1と水準 2、水準 2と水 準3 、水準 3と水準 l聞の平均値の比較を行うコまず各比較のための仮説平方和を求める。 D a t aw 0 0 2 ; S e tw 0 0 1 ; X 1 = 0 ; X 2 = 0 ; X 3 = 0 ; I f FA 二 1t h e nd o ; X 1 = 1 / 8 ; X 3 = ‑ 1 / 8 ; /牢水準問比較のための変数を作成する ( 2 )* 1 牢 / X 1は水準 1と水準 2を比較する変数本/ 1 *X 2は水準 2と水準 3を比較する変数牢/ 牢 / X 3は水準 3と水準 1を比較する変数牢/ 牢 / X 1= 1 / n 1・;牢/ 1 *X 3 = ‑ 1 / n 1・;牢/ e n d ; f FA = 2t h e nd o ; e l s ei X 1 = ‑ 1 1 7 ; X 2 = 1 1 7 ; ' 守 令 内 ‑ 4U ︐︐︐︐︐ IJ/ の4d nH JJ'n川 ‑ 一 一 一 4l/' ‑4l ー巴本 n J﹄ 内 ︽ u v zハ VE ハ X 2 = ‑ 1 / 8 ; X 3 = 1 / 8 ; ' ' ' ' ' ︐ ︐ ︐ ︐ ︐ e n d ; fF ̲ A = 3t h e nd o ; e l s ei 1 *X 1 = ‑ 1 / n 2・,牢/ 牢 / X 2 = 1 1円2・;本/ e n d ; p r o cg l md a t a = w 0 0 2 ; c l a s sF ̲ B ; m o d e l Y=X 1 FB / s s 2 ; /牢水準 1と水準 2を比較する仮説平方和の計算 ( 3 ) 牢/ p r o cg l md a t a = w 0 0 2 ; c l a s sF ̲ B ; m o d e l Y=X 2F ̲ B / s s 2 ; 4 ) ヰ/ /牢水準 2と水準 3を比較する仮説平方和の計算 ( p r o cg l md a t a = w 0 0 2 ; c l a s sF ̲ B ; m o d e l Y=X 3 FB / s s 2 ; r u n ; 5 )* 1 /本水準 3と水準 1を比較する仮説平方和の計算 ( 1 *X 1は連続変数として使用する牢/ 1 *X 2は連続変数として使用する牢/ 牢 / X 3は連続変数として使用する * 1 ( 3 ), ( 4 ), ( 5 )のプロシジャは X, lX2, X3に対する仮説平方和を求めるために使用する。例えばプロシジャ 2 ( 3 )では要因 Faの水準 lと水準 2の差の有意性のための仮説平方和 I l p y (VX1 I B ) 1 1 を計算する。分散 2 l p y (VX1 I B ) 1 1) 、 だ 分析表やその他の情報が出力されるが、必要なのは変数 Xl に対する仮説平方和(二 I lX2, X3は連続変数として扱っている。各変数と けであり、それ以外の情報はすべて無視する。また X, ‑201‑

201.

FBとの交互作用はあってもなくても求めたい平方和の計算には関係ない。 X 1, X2, X3に対する平方和の自由度は lであり、プロシジャ(1)の分散分析の残差を用いて多重比較の ための分散分析表が構成される。 要因 Faの水準聞の比較 比較 平方和 F 自由度平均平方 検定結果 一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一 水準 1と水準 2の差 水準 2と水準 3の差 水準 3と水準 1の差 残差 3 .6 4 2 7 .6 2 1 2 5 . 7 1 4 3 4 .0 0 0 3 .6 4 2 7 . 6 2 1 2 5 .7 1 4 2 . 4 2 9 1 4 1 .4 9 9 3 .1 3 8 1 0 . 5 8 6 n s n s 牢 0. 0 1 7 ;,1 1 4 )= 7 .3 3 1 F( 検定の有意水準は B o n f e r r o n i流に、例えば 0 . 0 5 / 3 = 0 . 0 1 7または 0 . 0 1 / 3 = 0 . 0 0 3ではどうだろうか。 次に傾向性に関する多重比較を行う。上述の例で、水準 1 , 2, 3に l次傾向(直線性)、または 2次傾向 が見られるか調べる。要因 Faは 3水準なので調べるのは 2次傾向までになる。水準 1, 2, 3聞が不等 間隔と考えられるならば、直交化の方法により列ベクトル X[ を求めるが、等間隔ならばよく知られた直 タステップ ( 6 )で置き換えればよ ' h v ︑︒ 2 )を次のデ、 交係数を用いることができる。上の例で、はデータステップ ( /宇傾向性を調べる変数を作成する ( 6 ) 本/ 宇 / X 1は 1次傾向を調べる変数字/ ヰ / X 2は 2次傾向を調べる変数牢/ ヰ / X 1 = 1 / n l・;本/ 2 = 1 / n l・;本/ / 本 X 内 ノ ﹄ まa ︐ . • ︐ ︐ ︐ ノ ﹄ n r ' h J' a まa f J ︐ 内 ゐ ' ︐ . 4u 1 ・ 川町 一噌 E'nノ﹄ 一 一 ‑ 一 a 'l ︐/ 噌 本ま .‑u ︐n/u︐ nH vanuzA nH ︐ ︐ ︐ /''/ n 一 ‑ +令 ・ ' uzA ︐ ︐ ︐ ' nu Au 川 nH U ︽ 4unxu 内 ' n t = / J n目 E ﹄ 噌 'nノ 一一唱 l 一 ‑ 一 一 Fト l aH'l ︐/ ''luzAVEA 105 nu v M n川 n nCFb ;l ︐ D a t aw 0 0 2 ; S e t w 0 0 1 ; X 1 = 0 ; X 2 = 0 ; I fF ̲ A = lt h e nd o ; X 1 = 1 / 8 ; X 2 = 1 / 8 ; e n d ; e l s ei f FA ニ2t h e nd o ; X 1 = 0 ; X 2 = ‑ 2 1 7 ; e n d ; n [ .と n 3・が異なるとき、 X1と X2は直交していない。 X2を X1について直交化するほうがいいのカもし れないが、多重比較ではいろんな仮説を考えてよいので、そのまま X2は 2次傾向を示す列ベクトルと 考えてもよいだろう。 多重比較の分散分析表の作成の方法は前述の例と変わらない。 ( 3 )、( 4 )のプロシジャを使用する。 n F臼 n F臼 ハ U

202.

要因 F aの傾向性の検定 比較 平方和 自由度平均平方 1次傾向 2次傾向 残差 2 5 . 7 1 4 . o230 3 4 . 0 0 0 2 5 . 7 1 4 0 . 2 3 0 2 . 4 2 9 1 4 F 検定結果 1 0 .5 8 6 O .0 9 5 ヰ n s F( 0 . 0 2 5 ;1 ,1 4 )= 6 . 2 9 8 次に共変数が追加された場合の要因 Faの水準問比較を考える。前述の例で、要因 F a (変 数 F ̲ A )と 要因 F b (変数 F ̲ B )に連続変数である要因年令(変数 AGE)が追加されたとする。分散分析プロシジャ ( 1 )は次のプロシジャ ( 7 )と置き換える。 p r o cg l md a t aニw 0 0 1; /ヰ分散分析 ( 7 ) ヰ/ c l a s sF ̲ AF ̲ B ; ̲ AF ̲ BF ̲ A本F ̲ BA G E / s s 2 ; m o d e l Y=F AGEとの交互作用を modelに取り込むことも可能である。この例題では上述のようにする c model文に連続変数 AGEが追加された。仮説平方和を求めるための式( 3 ), ( 4 ), ( 5 )も変更しなければな らない。 p r o cg l md a t a = w 0 0 2 ; c l a s sF ̲ B ; 1F ̲ BA G E / s s 2 ; m o d e l Y=X p r o cg l md a t a = w 0 0 2 ; c l a s sF ̲ B ; m o d e l Y=X 2 FBA G E / s s 2 ; ; p r o cg l md a t a = w叩 2 c l a s sF ̲ B ; 3 FBA G E / s s 2 ; m o d e l Y=X r u n ; /本水準 1と水準 2を比較する仮説平方和の計算 ( 8 ) ヰ/ 9 ) ヰ/ /ヰ水準 2と水準 3を比較する仮説平方和の計算 ( /牢水準 3と水準 1を比較する仮説平方和の計算 ( 1 0 )牢 / どのプロシジャも model文に変数 AGEを追加する。例えば( 8 )のプロシジャは要因 Faの水準 lと水準 2 2の差の有意性のための平方和 I l p y ( VxIIB, A G E ) 1 1 を計算する。多重比較の分散分析表の作成の方法 は前述の例と変わらない。ただ、し今度はプ口、ンジャ ( 7 )の分散分析の残差を使用する。 要因 F aの水準聞の比較 比較 平方和 水準 1と水準 2の差 水準 2と水準 3の差 水準 3と水準 1の差 残差 3 . 4 7 0 8 .0 9 1 2 6 .0 2 3 2 9 .9 8 8 自由度平均平方 1 3 3 .4 7 0 8 .0 9 1 2 6 .0 2 3 2 .3 0 7 F 1 .5 0 4 3 .5 0 7 1 1 .2 8 0 検定結果 n s n s 宇 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 F( 0 . 0 1 7 ;1 ,1 3 )= 7 . 4 8 3 ぺU n ハHU 白 つ

203.

6 .薬剤効果検定のための t検定の使用について 分散分析は一般線形モデ ルとして扱われる場合もあるが、要因数が 2以上の場合、説明変数の共線 性を考慮しないといけなし、(すなわち仮説平方和から要因が不確かな平方和を除く)点で一般線形モ デ、ルとは考え方が少し異なる。要因が 1個の場合は要因聞の共線性を考える必要がない。試験計画 oで直交化されたデザイン行列における要因 においては、ある意味で、のデ、ザインの直交性(ベクトル X 聞の列ベクトルの直交性)は後の分散分析における平方和の分害IJにおいて無駄な平方和を残さない ためにも重要である。 単純な平均値聞の差と分散分析表から推定された誤差分散を用いた t検定の 2乗の分子における平 方和は分散分析の仮説平方和の一部にはならない。平均値の差が常に固定された t検定は過大な t 値を計算する可能性がある。 事後的に共変数を追加することは誤差平方和を縮小するカもしれないが、 1 自由度仮説の仮説平方 和にも影響する。 おわりに 1自由度の仮説検定を 2元配置について示した。より多くの要因を持つ f i x e dモデルにおいては、要因 数を増やすだけで、 2元配置の場合と同様な 1自由度の仮説検定が考えられる。また、 1自由度の仮 説検定における平均値の差の検定、傾向性の検定と同様に、従来の平均値を使用する多重比較も分 散分析の方法に従った多重比較が考えられる。 参考文献 SASl n s t i t u t el n c .( l9 9 0 ),SAS/STATU s e r ' sGuide,V e r s i o n6,F o u r t hE d i t i n,Volume2 . H .( l9 5 9 ),TheA n a l y s i sofVariance,JohnWiley&Sons,l n c .,NewY o r k . S c h e f f e, S e a r l e, S . R .( l9 7 5 ),L i n e a rModels,JohnWiley& Sons,I n c .,NewY o r k . ]. H . ( 1 9 9 5 ),L inearS t a t i s t i c a lModels,JohnWiley&Sons,I n c .,NewY o r k . S t a p l e t o n, 204‑

204.

多重マルコフ連鎖を用いた経時確率密度の推定 斎藤和宏 株式会社タクミインフォメーションテクノロジー E s t i m a t i o no fL o n g i t u d i n a lP r o b a b i l i t yD e n s i t yUsingM u l t i p l eMarkovChain KazuhiroS a i t o TakumiI n f o r m a t i o nT e c h n o l o g yC o .I n c . 要旨 過去の m 期の影響を受け、 η 期先まで推移していく確率密度 Pm の推定を行った。これを説 η 明するために次の二つを用いる υ 一つはマルコフ連鎖を拡張した多重マルコフ連鎖、もう一つ は、説明変数の確率密度を考慮した回帰分析である。この過程でモンテカルロシミュレーション は使用していない。また、確率分布が次第に拡散していく過程を表示するプログラムを作成した。 SAS/IMLにより重積分を、 g 3 dプロシジャで 3次元プロットを行っている。 キーワード: SAS/IML マルコフ連鎖確率密度時系列 1 はじめに 時系列解析ではよく予測値とその信頼区聞が推定される。 η 期先の信頼区間も推定されるが、 期待値の信頼区間は、予測を目的とした場合は利用することは難しい。ニューラルネットワーク による時系列解析でも点推定が行われる。 点推定ではない方法として、条件付の確率をそのまま扱う方法が考えられるが、 l期先までは そのまま使えるとして、 2期先からは少々工夫が必要となる。これは条件付確率の条件自体が分 布していると考えることで対応できる。このように、複数の変数が分布していて、はっきりと定 まっていない状態を正確に表すことで情報を余すところ無く利用することができる。 2期先以降 は、回帰分析で例えるならば、説明変数にあたる変数がパラついている状態で予測を行うことに 対応する。 phu nノω n u

205.

2 多重マルコフ連鎖 通常のマルコフ連鎖は、 1期前の状態そ受けて次の状態そ推定している。それに対して多重マ ルコフ連鎖は、 m 期の影響そ受け、それよりも後の状態そ推定する。 2 . 1 1重 マ ル コ フ 連 鎖 まず、通常のマルコフ連鎖 1により 1期先の状態そ推定する。目。 (Xt, i t )そ初期状態2、条件付確 i t+l IXt , i . )そ遷移確率として、 率 ψ(Xt+l, 2 ン (X叫 i t + l IXt , i t ).pi, O(Xt, i t) ム 唱E i +l)= t ) ( pl, l(X叫 ' t と表すことができる。一般に η 期先は、 Pl, n ( X lt+n‑l このように η 期先は η ー l期の状態 Pl, nー l(Xt判 一 1 . it+n‑ 1) そ受けて推定されている 3。η ー l期 の状態そ推定する時にも推移確率の関数は利用されおり、 η 期の状態そ推定するために η 個の推 移確率の関数が掛け合わされている。 2 . 2 2重 マ ル コ フ 連 鎖 次に多重マルコフ連鎖の例をあげる。例えば l期前、現在から l期後そ推定している 2重マル コフ連鎖は、 P2, 1(Xt+l山 )=L2 ン (X 山 l t t t ‑ l と表すことができる。 l重マルコフ連鎖では遷移確率が、 1つの変数によって条件付けられる 条件付確率となっていたが、 2重マルコフ連鎖では、 2つの変数による条件付確率となっている。 この 2重マルコフ連鎖の 2期先は、まず推移確率と初期状態の積そ t‑1期の変数について和 4 )とする 4。これが図 lの(c)にあたる。 そ求めて、 t期と t+1期の同時確率 ( ン(X ptfd(ZHlhuZM)=2 山 l t ‑ l これを再び推移確率 ( E )に掛け合わせ、 t期と t+l期の変数について和そ求め、 2期後の状態 ( 5 )とする。 ( 4 )において t期の変数について和そ求めることはしないのは t+2期の状態そ求め るために t期と t+1期の同時確率が必要となるからである。 p2, 2(Xt+2, i t + 2 )= L2 ン (Xt+2, i t + 2 IXt+l, i t + ! 'Xt, i t ).P2~rd(Xt+l ,it+ い Xt,it) t t + l tt 1 1重マルコフ連鎖とも呼ぶこともできる。 2 p :,oのように場が付いているものは初期状態を表す。 3 推移確率行列を η 乗することで簡潔に表すこともできる。 z γ と表している。 4Pm.n の推定に用いられる途中の状態を p ‑206‑ ( 5 )

206.
[beta]
(
8
)

(
E
)

(
C
)

(
F
)

p
h
i
(x
(
l
+1
)[x
(
I
)
.x
(
I
‑
1
))

<=些旦主

+
削
)1覇
ハ

f

│

閤遡!十l

(
1

t
g
m ゴ了→二J
F
‑
1

阿
仰
酬
J
x
刈
川
州
引
J
t
(
J
川
;
ご
」
コ
九
九
ユ
午
1
‑
{
1
引
似
…

凶
仰
州
x
刈
川
州
小
川
ム
ふ+二
1
(
+
引
…
ι
伊
丙

4三三号ノx(l)

η
1)
い
t
+
例
叶
川
叫
A盆盛Bノ刈ゆ削川

ー
ー
ー
一
一
一
一
一
一
一
一
一
・

‑
ー
一
一
一
一
一
一
一
一
・

x
(
I
‑
1)

x
(
l
)

図1: 2重マルコフ連鎖による 2期先の推定

2
̲
3 3重 以 上 の マ ル コ フ 連 鎖
ここまでで 2重マルコフ連鎖の説明をしたが、 3重は、

ン

pffd(ZHl,
ztHJtAJtl,
H1)=5

'
P
3,O(Xt.it'Xt‑l,it̲l'Xt‑2,it̲2)

(Xt+l,
it+lIXt,
i
t,
Xt‑l,
i
t
̲
l
'Xt‑2,
i
̲2)
t

t
t
‑
l

(
6
)
のように t‑1期の値について和をとり、 3変数の同時確率を求めてから、

T

d
P3,2(エ山山)=乞 ~2ン (Xt+2.i t +2I X t -i- l ,it+ l' Xt,
i
Xt‑l,
it̲l).p
3
' (Xtムl.it+l'Xt如 Xt‑l,
it̲l)
t,
t
t
+
l '
l
.t t
t
‑
l

(
7
)

(
6
)と推移確率の積を、推移確率の条件変数について和をとり、 t+2期の各水準の確率とする。
η 期先の状態もこのように遷移確率に必要な同時確率を掛け合わせる手順を繰り返し、最後に

Xt+
η の周辺確率を推定値とする。

3 説明変数の確率密度を考慮した回帰分析
重回帰分析では条件付確率 (
8
)の期待値を予測値としいる。

。

(
y
)=ψ(
y
l
x
*
) (
ピ εI
R
.m )
5

予測値は (
8
)を

(
8
)

y
'こ関して積分し、 (9)の形でも表すことができる。

。J
=

y内 I
x
*
)
d
y

(
9
)

これはあくまでも条件付確率の中の情報の一つであり、誤差分散が大きくなるほど、平均値以
外の予測のために用いることが難しくなる。この条件付期待値に対する信頼区聞が用いられるが、
5]
Rm は
、 m 次元実数空間、 E により f

は
l
l
l
:m の要素であることが表されている。

a

ノ

HU

ハ
︐
円n
u

207.

この区聞が狭くなったとしても予測精度が上がったとはいえない。あくまでも平均値に対する信 8 )は、端的には表現されていないが、 頼区間である。それに対して、積分を行う前の確率密度 ( より多くの情報を保持している。 また、回帰分析では、ある定まった値を説明変数としているが、実際にはその値自体が明確に 9 )でいうと、説明変数群 f がはっきりと定まらない状態である。この 分からない場合もある。 ( * ( x )が妥当だと思われる。 確定されていない状態を表すには zの確率密度関数 p マルコフ連鎖では遷移確率に初期状態を掛け合わせて次の状態を求めているが、その考え方が 利用できる。説明変数の確率密度〆 ( x )を入力(初期状態)、条件付確率引 y [ x )をマルコフ連鎖 [ x )と、入力された確率密度 で言うところの遷移確率として見立てる。そして、条件付確率引y 1 0 )のように目的変数の確率密度を推定するこ の積を m 個の説明変数に関して積分することで ( とカ1で、きる。 J~(y[x) 〆 (x)dx (x E] am ) l J I .m )nU (1ょ 到ド ( 1 0 )のように確率密度のままだと確率としての意味をなさないが、 よ ( y ) d y= I ~(y[x) . p * ( x ) d x d y )1 (1ょ 。 J l Rm yを掛け合わすと、微小区間で、の確率であると解釈ができるようになる。 のように、 d 1 2 )のように求めることができる。 また、平均を求めたければ ( 二 。 Iys(y)dy= Iy .I ~(y[x) . p * ( x ) d x d y ・ J J ( 1 2 ) J [ Rm ( 8 )、( 9 )は ( 1 0 )、( 1 2 )において、 zホにおける確率が lの場合と考えることができる。また、各 種モーメントを求めたければ ( 1 2 )から導き出せる。 4 確率密度の推移 4 . 1 推移推定の数理 過去数期の情報を用いて、後の状態を予想するにはどのような方法が妥当だろうか。推定の起 点から未来に向かうに従って、わからないことが多くなると考えるのが自然であり、これは確率 分布でいうと、経時的に分散が大きくなっていくことで表すことができる。そして、この拡散し ていく過程は正規分布をしていなければならないという決まりは無い。二山の分布でも、歪んで いても尤もらしい場合もあると考えられる。 { 9 " 1 ]えば初期状態 f がカーネル推定量などの場合には その傾向が顕著に現れるだろう 6。逆説的な言い方になるが、不確実さを正確に表すべきである。 まず、 t期の状態から l期先の状態を予想する。 t+1期の確率密度を取得するために t期の条 件付確率を用いる。説明変数が一つなので、 ψ( X t + l [ X t )を遷移確率、 p *( Xt )を初期状態として、 礼 的+ 1 )= J ~(Xt+l[吋 P*(Xt)dXt 6 江 : 1{万七~ exp[当斗)のような関数の場合が考えられる 2 0 8 ( 1 3 )

208.
[beta]
とする。 l期先の状態を推定すると確率密度となる。マルコフ連鎖で言うと(1)との類似点を
見ることができる。だが、 (
1
0
)のように連続値を扱っている。 2期先の状態を予測するには [
1
]に
もあるように、 l期先の確率密度をそのまま利用するのが自然である。

ル
(
…

P
1,2
(
X
t
+
2
)=

ω Xt+1

t
+
1
)<
P
(勾 +1!Xt
)P*(Xt
)

(
1
4
)

次に多重マルコフ連鎖にあたる例を挙げる。 t
、t‑1を条件とする遷移確率を用いると、

(
1
5
)

日川
1
(山
2期先は、 (
1
6
)となるが、考え方は図 lと同じである。

川 勾 +2)

=
川 (x山

1+1,
Xt
)
<
p(Xt+1!Xt,Xtー l山

ψ

山

となる。この式を導き出すために図 1の考え方が用いられた。

4
.
2 SAS/IMLに よ る 重 積 分
確率密度の推定で重積分が必要になるのだが、以下の関数を記述することで容易に実装できる。
call quad(newVar, 'func',r日 ge);
r回 geは積分を行う範囲、 funcは積分される式を表すモジ、ュール名、 newVarは結果が格納され

る変数名である。また、

r回 ge = {
.M .P}; と範囲を指定することで、

∞から∞までを積

分範囲にできる。この時 funcで指定される関数は、積分する変数のみを引数として指定し、そ
のほかの外部から入力されるべき変数は global変数として指定する。
重積分を行うには、積分を行う関数の中で積分を行うことで実現できる。次のプログラムでは、
変数 x と yの聞に 0
.
7の相聞のある 2変量正規分布をそれぞれ‑l.9
6からl.9
6まで積分する。
proc 工ml;
r回 ge = {‑1.96 1.96};
pai = 3.14159265358979323846;

;)

eσ

ノ
︑月 日

︐

白

C

e

ar
r
︐
︐ p

v d 4ム

︐l
︑

J4u

白

・口千ム

03

ーム︐
σ
+
L
M
e・
'
r

︐

ム

‑
・

zrk+LM.
︐
rk
deη4

flu
=lth
taes
rvdcr
t

an

54

‑
・

ノ
︑2 a ノ
︑C
r
M ; 中U u
uzr
千
ム

start func1(x) global(y,
pai);
ret = exp((xホx‑1.4ホx*y+y*y)/(ーl.02))/(2ホpaiホsqrt(0.51));
return(ret);
且c
l;
finish fu

目

)
σ白

e

r

ηL

c
u'

ゐ

︐
一

4ム q

﹃

ゐ

u
q
︐{t︑ 句 ム 1ム
r
a
'
d
司
up
qe

a=V

u+LU
‑
‑
ム
ロ

ρ

al
avr
ム
ーcD&D&

ム

run;
qu工t;

最後に積分される関数 func2の中で funclが積分されている。 Olltpllt画面に出力される pValll巴
は
、 0
.
0
8
3
4
4
5と明らかに 0
.
0
5よりも大きくなった。

‑209‑

209.

4 . 3 SASjIMLによる実装 1 * AR(2)によりモデ、ルを作成し、 ods outputに よ り げ 1 * 推定されたパラメータをデータセットに格納する。 事/ ods output DescStats = DescStats ParameterEstimates = Parm(where=(lag>O)) FitStatistics = FitStat proc arima data=sds; identify var=dx; estimate p=2 method=ml; run; quit; proc iml; 1 * useステートメントで、データセットに入っている推定量をザ 1 * IML内で使用できるようにする。 * 1 use Par 皿 ; read all var{estimate}; close Parm1; use FitStat; read all var{nValue1} into const田 t where(Label1='Const田 t Estimate'); read all var{nValue1} into vむ 工 回 ce where(Label1='Variance Estimate'); read all var{nValue1} into stderr where(Label1='Std Error Estimate'); close FitStat; pai = 3.14159265358979323846; I estimate I I constant; estimate = {‑1} I 1 * 正規分布の固定できる部分を予め計算 * 1 prefix = 1 I (sqrt(2*pai*vari回 目 ) ); xO = 0.07; X血 1 = ‑ 0.02; r担 ge = {.M . P } ;1 *積 分 範 囲 本 / 1 * N(皿 U , varl回 ce)の条件付確率、分散として最尤推定量の varl回 ceを代用 * 1 stむ t phai(y) global(prefix,estimate,vむ 1日 ce); ret = prefix * exp(‑0.5 本 (estimate' * y )村 2 I vari回 ce); return(ret); finish phai; l期先を計算するモジ、ュール p2̲Llは P 2,I ( X t + l )= ψ( X t + l lxt , Xt ‑1 )を実装したものである。 これは巧、 ‑ t 1が既知の場合を想定している。 X start p2̲1̲1(x1) global(xO, xm1); Y1 = x1 I I xO I I xm1 I I {1}; ret = phai(Y1); return(ret); finish p2̲1̲1; 2期先の p2̲2̲2は P 2, 2 ( X t + 2 )= Jrp(Xt +2 I X t+l , x i)• ψ (Xt+ll x t , x t ̲ 1 ) d x t + l を実装したもので ある。 start p2̲2̲1(zl) global(x2, xO, x 皿1 ); Y1 = zl I I xO I I xm1 I I {1}; I zl I I xO I I {1}; Y2 = x2 I r = phai(Y2) 本 phai(Y1); ハ川 U 1i nノ

210.

return(r); finish p2̲2̲1; start p2̲2̲2(z2) global(x2, ra 且g e); x2 ~ z2; call quad(tot, 'p2̲2̲1',r阻 ge); return(tot); finish p2̲2̲2; P2, 3 ( X t + 3 )= J Jψ(Xt+3[Xt+2,Xt+l)'cp(Xt+2[Xt+l,X1).cp(Xt+l[Xi,Xi̲l)dxt+ldXt+2を実装した 2 ̲ 3 ̲ 3である。 ものが p start p2̲3̲1(zl) global(x3,x2,xO,x血 1 ); I xO I I xml I I {1}; Yl ~ zl I I zl I I xO I I {1}; Y2 ~ x2 I I x2 I I zl I I {1}; Y3 ~ x3 I r ~ phai(Y3) *phai(Y2) 本 phai(Y1); return(r); finish p2̲3̲1; start p2̲3̲2(z2) global(x2,r坦 ge); x2 ~ z2; 'p2̲3̲1', ra 且g e); call quad(z, return(z); finish p2̲3̲2; start p2̲3̲3(z3) global(x3,r坦 ge); x3 ~ z3; call quad(z, 'p2̲3̲2',r阻 ge); return(z); finユsh p2̲3̲3; 1 * 表示する範囲を決める * 1 use DescStats; read all var{nValuel} 工nto me 阻 where(Label1~'Mea且 of Working Series'); read all var{nValue1} into std where(Label1~'Sta且 dard Deviation'); close DescStats; 1 * 上、下限を平均から標準偏差の 4倍の所までとする。 * 1 upper ~皿ea且+ std *4; 且 ̲s td *4; lower ~ mea delta ~ std 本 8 I80; ︐L n ) ) w ( ︐L n ︐L n P W LFJ / 本 g3dプロシジヤで 3Dプロット * 1 nL es ~ {'t工皿e' ' x ' 'density'}; create Density from dens[colna皿e~na皿esJ ; append from dens; run; quit; r4L 1 * 行列からデータセットを作成本/ E日 ( end; ︑︐ ︐ ︐ ︐ ) ︐ ︐ ︐ ) w ・' ‑qu ︐ nL ‑ PAqu ︐L Iln Il llDA () 1) ‑W 1( 1ム a ︐ . tw1 dllw ︑ e‑‑ ‑ D 4ム !l r4L VJ ︑LIl‑ DA/Jr4L rfh l J equ 日 /J ︑ PA/Jfh u e d OE/J +レ r e= w wd o d ‑o Es =e dens ~ ({‑1} 1 1 xm1 1 1 {O}) I I ({O} 1 1 xO 1 1 {O}); ム 1 jム ηノμ ‑ J

211.

g o p t工o n shsize;12invsize;7工nCOLORS;(BLACK); proc g3d data;Density; scatter x ホ time; dens工ty/ grid caxis;black XTICKNUM;5 YTICKNUM;5 ZTICKNUM;5 zmin;O zmax=2; r u n ; qUlt; 図 2はこのプログラムの考え方を用いて作成されたものである。各時点、各値に対応する確率 密度が推定され、拡散していく過程が描かれている。また、 1期後から 2期後よりも 2期後から 3期後の方が、標準偏差の増加量が少なくなっていることが見てとれる。 E v ' t da‑‑ 2 . 0 1 . 5 図 2 :確率密度の推移 5 終わりに 現時点では確率密度として極単純な正規分布を用いた。これは 2次のキュムラントまでを考慮 に入れたことになる。だが、現実的には確率密度は複雑な形であると考えるのが自然である。将 来的には N 次のキュムラントを反映する密度、またはノンパラメトリックな手法を用い、複雑 に波打つ確率密度の推移を推定することが望まれる。 参考文献 [ 1 ] URL:http://www.jnns.org/niss/2000/text/凶 h i i . p d f joho2004‑2.pdf [ 2 ] URL:h t t p : jjwww.njima.elec.keio.ac.jpjjoho2004/ n s t山 l t eI n c . SAS0凶 neDocR .Version8 Cary,NC:SASInstituteI n c .,1 9 9 9 . [ 3 ] SASI 2 0 0 3 )ベイズ統計入門 [ 4 ]繁 桝 算 男 ( よ 1 ︐ ημ n︐白

212.

SASjIMLによる最大対比法の数値積分プログラムと その傾向性検定への適用 西山智 武田薬品工業株式会社統計解析部 I n t r o d u : c t i o no fSASjIMLProgramf o rMaximurnC o n t r a s tMethodsandi t sA p p l i c a t i o no f D e t e c t i n gDoseResponce H i r o s h iNishiyama . B i o s t a t i s t i c s .TakedaChemicalI n d u s t r i e s Ltd 要旨 西山ら ( 2 0 0 3 )が 作 成 し た 任 意 の 最 大 対 比 法 の p値 , 検 出 力 , サ ン プ ル サ イ ズ を 計 算 する SASjIMLプ ロ グ ラ ム と そ の 傾 向 性 検 定 へ の 利 用 法 を 紹 介 し , 作 成 し た プ ロ グ ラムの性能が十分に良いことをモンテ力ル口・シミュレーションで評価する. キーワード: 傾向性検定,最大対比法,サンフ。ルサイズ計算 1 はじめに 西山ら ( 2 0 0 3 )は,任意の最大対比法に対する p値,検出力,サンプルサイズの計算を実行する SASjIMLプログラムを作成した. 1 9 9 4 )が相関行列が正則な これまで,最大対比法の確率計算に関連した研究として,岸本・浜田 ( 場合の最大対比法の p値計算に関して, 4次元までの計算を行うプログラムを示しているが,これは 正規近似を用いたものである. SASの PROBMC関数を用いれば,各群のサンプルサイズが任意の 場合のダネット検定の p値計算が可能であるが,チューキー検定とウィリアムズ検定については,各 群のサンプルサイズが等しい場合しかその計算ができない.その他,最大対比法を利用した過去の研 究は,第 1種の過誤確率や検出力の計算に正規近似あるいは単純なモンテカルロ・シミュレーション を用いている. 西山ら ( 2 0 0 3 )において紹介した最大対比法のプログラムは,非心多変量 t分布の確率計算,より一 s i n g u l a rc o r r e l a t i o n 般には各群のサンプルサイズが任意,チューキー検定のように特異な相関行列 ( n︿U 1よ ノ ηω

213.
[beta]
m
a
t
r
i
x
)を持つ非心多変量 t分布での確率計算を必要とする場合でも ,p値のみならず,検出力,サン
プルサイズの計算を実現する.
本稿では,西山ら (
2
0
0
3
) において紹介した SAS/IMLプログラムの利用法を再掲し,第 I
I相臨床
試験において一般的なデザインである一元配置型の用量反応試験を想定し,傾向性検定としての最大
対比法の利用法を解説する.また,作成したプログラムの性能の検討のために,既存の教科書に掲載

αxt法の
されている数値表や SASの PROBMC関数が出力するチューキー検定,ダネット検定, m
棄却限界値と比較して,第 l種の過誤確率が名目有意水準と一致するかをモンテカノレロ・シミュレー
ションで評価する.
なお本稿は, 西山ら (
2
0
0
3
) から多くの部分を引用・抜粋している.

2 最大対比法の定式化
水準に順序がある一元配置型データを対象とし, K 個の各水準を「群」 と言うことにする.第 t
群(
i= 1,2,
.
.
.,
K)の各々に町個の観測値 Y
i
j
;j= 1,
2,.
.
.,
n
iがあり ,{
Y
i
j
;
i= 12ぃ
・
・ ,
K,j
ヲ

1,
2,..
.,n
i
}は互いに独立に N(μれ σ2)に従うものとする.群の順序に対する平均 μ1,仰い・ ,/1K の
関係を「用量反応関係」と言うことにする.
以下の議論では,帰無仮説として用量反応関係がないこと,すなわち Ho:μ 1 μ 2 =・
・
・
ニ μKを
想定し,それを用量反応関係に対して検定することを考える.

この型のデータと ~!lα 二 O となる定数 Cl , C2 ぃ • ,
CKに対して, 式 (
1
)で定義される統計量を
C2ぃ
・
・ ,
CK)'(こ対する対比統計量 J と言うことにする.上っきの「りは転置
「対比ベクトル C = (Cl,

である.

)
‑
E
(

t=
.
.
.
!
:
.
!
i
}
I+・・・ +CK'Y
K

ム

φ
2
(

芸+...+喜)

ただし,

二P 4 1 J 2 =古 在 日2 η p
z
τ

Y
i=

ni

噌

K

K

ni

二

(
2
)

である.
よく知られているように,この統計量は,帰無仮説 Ho:C'J
.
L=0を対立仮説 Hl・C'J.L>0に対し
μ
1,仰い・・, μK
)
'である.このとき,最
て検定するための最良な検定統計量となる.ただし, μ =(

良な検定統計量は用量反応関係 μ に対して,入を正定数として C

入μ となる cで決まる (
S
c
h
e
f
f
e,

1
9
5
9
)
. 帰無仮説 Hoの下で tは自由度 η ‑ Kの l変量 t分布に従うので,有意水準 αの検定を行う

(
η
には, t>t

K,
α
)のときに Hoを棄却すればよい. ただし, t
(
η

K,
α
)は自由度 η K の t分

布の上側 100α%点で、ある.
しかし,臨床試験では,たとえば単調増加といったある範囲内のいろいろな型の用量反応関係に対
して万遍なく高い検出力を保持できる検定法が望ましい.そこで,複数の用量反応関係のそれぞれに

1Eム

A斗
ゐ

nノμ

214.

対応する対比ベクトル Cl, C2ぃ ・ ぺ c mを考え,これらに対する対比統計量 tl t2, . ・ , trnを用意し,そ ヲ の最大値 trnax = max t l 1=1, 2, . . ,ηz ( 3 ) を検定統計量にすることが考えられる.このようにして trn叫がある値以上のときに帰無仮説を棄却 oshimurae ta . l( 1 9 9 7 )に倣って「最大対比法」と言うことにする. する検定を, Y 最大対比法の複数の対比ベクトルを m x K行列の形式に並べた対比係数行列 C を次のように定 める. C=(Cl, C2ぃ・・ , c ; , , ) '= C1l C12 C21 C22 C r n l Cm 2 ・ ・ ・ Cl1( C2 !( ・ ・ ・ ( 4 ) CmK たとえば K ニ 4群でのチューキー検定の対比係数行列 C T Kは,下式で与えられる. C TJ( 二 ( C l C2, • ぺ C6)' = ヲ ‑1 1 0 0 1 0 1 0 1 0 0 1 o ‑1 1 0 o ‑1 0 1 o 0 ‑1 1 ( 5 ) 対比係数行列 C を一つ定めると,最大対比法が一つ定まるので,最大対比法を特徴づける対比係 数行列を「最大対比法の定義行列」と言うことにする.なお本稿では,最大対比法を片側検定として 5 ) 解説しているが,チューキー検定は両側とするのが通常であるから,紹介するプログラムでは式 ( の Cl, C2, .・ , C6を用いて,定義行列を CTK2 = (Cl, C2, .・ぺ C6 ヲ Cl, ‑C2γ . . , ‑C6)' とすれば良い. 3 定義行列(対比ベクトルの組)の選択方法 3 . 1 比較する定義行列 最大対比法の適用は,最大対比法の定義行列をどのように選択するかが問題となる.本章では,第 I I相臨床試験の用量反応関係に対して,最大対比法で検定するとしたときの定義行列の選択について 考える. L ),第 3群が高 状況として,第 1群がプラセボ群(c)すなわち用量が Oの群,第 2群が低用量群 ( 用量群 ( H )の 3群並行比較臨床試験を考える.この場合,用量反応関係が単調増加であることは前提 にできるが,用量反応関係がどのような形状であるかは確かでないのが普通である.そこで被験薬が プラセボに比べて有効であることを検証するために,最大対比法を使うことが考えられる.しかしど Ei 唱 nノω EU

215.

のような最大対比法,言し、かえればどのような定義行列を採用するのが良いかは自明ではない.検出 力を比較して検討する. StewartandRuberg( 2 0 0 0 )は,用量反応形状が未知である場合には H a l f ‑ u p(HU)と Half‑down (HD)の二つの対比を用いた最大対比法 (HUjHD法)が必要サンプルサイズに関してミニマックス的 に良い検定法であると結論している.しかしその検討は, 5群の場合に限定されていて, しかも多変 量 t分布ではなくその正規近似を用いて議論しているので,その結論は一般的なものとして受け入れ られない.ここで , K 群のときの対比 HUと対比 HDの対比ベクトルは,それぞれ, = +K(O 1,2, . . K ‑1 ) '‑0.5(K‑1)(3K‑ 2 ) ( 1, 1, L..., 1 ) ', CHU = K(O K ‑ LK ‑ 1 , . . .,K ‑ 1 ) ' CHD . 司 K(O 0, 0 . . . ., K ‑1)'十 K(0, L2, . . . K ‑1 ) '‑0.5(K‑1)(K十 2 ) ( LL1,... , 1 ) ' で与えられるものである.前者は低用量で反応が急増し,その後,高用量に向かつてなだらかに増加 するような(急上昇型)用量反応曲線を良く検出する対比であり,後者はその逆の(緩上昇型)用量 反応曲線を良く検出する対比である. HUと HDをさらに極端にすると 低用量で反応が十分大きくなって高用量では低用量で変わらな いという Upper‑bound型 (UB,天井型)と,その逆の Lower‑bound型 (LR底型)の用量反応曲線を 良く検出する対比が考えられる.もちろん,直線的な用量反応曲線 (LR,直線型)を良く検出する対 比も考えられる. これらを組み合わせると,たとえば以下に示す 5通りの定義行列が考えられる.これらについて, その検出力や必要サンプルサイズがどのようなときにどのように違うかを検討することにより,適切 な定義行列を選択する.便宜上それぞれの定義行列を最大対比法の名前にして, LR法 , DT法など と呼ぶことにする. 山 = ( : : : ; ) ω =(‑101) Cベ : 1: ; ; ; ) ( 6 ) , HU / ︑ ︑ ︑ ケ (t 噌Eム噌Eム tis‑/ nHu‑‑ム 一 ょっ 1 一 J /rilt‑¥ B U R ︐ ︐ L C nU1 ム 1111111/ ︑ 1inu 一一 ‑‑1i ︑ /rtztE11 D T 一 一 C 3 . 2 数値計算による比較 3群の場合について,用量反応曲線としてあり得る 5つの形状(図 1 )を考え,前節の定義行列で定 められる 5つの最大対比法,及びウィリアムズ検定で検出力 90%を保証するサンプルサイズを計算す ると,表 1が得られる.いずれも,有意水準は 2.5%で,用量反応曲線の上下方向の最大差がム 誤差分散が σ2 二 1, 5の場合である.この数値計算を実現する西山ら ( 2 0 0 3 )が作成したフ。ログラムの利 用法は次章に示す.ただし,ウィリアムズ検定は 1 0万四モンテカルロ・シミュレーションで、算出した. LR法の必要サンプルサイズは,ムだけで決まるのでどの用量反応曲線に対しでも同じである. DT 法(ダネット検定)は天井型を除くとサンプルサイズが大きくなる.これは用量反応曲線が単調増加 ハhU 1ム ︐ nu

216.

天井型 (UB) ト ll+企 急上昇型(HU) 司 、 、 一 一 . 宮川町皆川向 直 線 型 (LR) 目 、 " . 、 ー ー μ1 底 型( L B ) 対 照(C) 低用量(L) 高 用 量 (H) 凶 1 : 例題において検 I UプJを求める用量反応関係 表 1 :I I 洋あたり必要サンプルサイズ(実際の検出力) , K =3 (群) f l l量反応関係 最大対比法 LRjLB LR HUjHD 天井型 1 1 7( 0 . 9 0 0 8 ) 1 0 6( 0 . 9 0 0 8 ) 9 3( 0 . 9 0 0 6 ) 急上昇型 1 1 6( 0 . 9 0 0 0 ) 1 0 6( 0 . 9 0 0 8 ) 1 0 4( 0 . 9 0 0 0 ) 試練型 1 1 2( 0 . 9 0 0 6 ) 1 0 6( 0 . 9 0 0 8 ) 1 1 1( 0 . 9 0 4 5 ) 緩上昇型 1 0 1( 0 . 9 0 2 2 ) 1 0 6( 0 . 9 0 0 8 ) 1 0 4( 0 . 9 0 0 1 ) 氏型 8 5( 0 . 9 0 3 2 ) 1 0 6( 0 . 9 0 0 8 ) 9 3( 0 . 9 0 1 0 ) 1 0万回モンァカルロ・シミュレーション ウィリアムズ DT LRjUB 検定守 90( 0 . 9 0 0 1 ) 1 1 0( 0 . 9 0 0 0 ) 1 2 1( 0 . 9 0 2 0 ) 1 2 3( 0 . 9 0 0 9 ) 1 2 3( 0 . 9 0 0 1 ) 85( 0 . 9 0 3 2 ) 1 0 1( 0 . 9 0 1 8 ) 1 1 2( 0 . 9 0 0 3 ) 1 1 6( 0 . 9 0 0 0 ) 1 1 7( 0 . 9 0 0 8 ) 88 1 0 3 1 0 7 1 0 7 1 0 7 込 とし、う特徴を使っていなし、からである. LRjUB法は天井・急ヒ昇型(上に凸)に有利で,逆に LRjLB 法は緩上昇・底型(下に凸)に有利である. HUjHD法は, S t e w a r tandRubwerg(2000)が主張する f卜算結果から,一 ように,かなりロバストである.この稀の臨床試験には上に 1"1型が多いので,この l 般には LRjUB法を使うのが良いであろう.ウィリアムズ検定は凸型の用量反応曲線に対して必要サ ンプルサイズ(仲検出力)を比べると LRjUB法に優れてはいない.また,ウィリアムズ検定では, 帰無仮説の分布でも積分が複雑で,対立仮説での検定統計量の分布は著者の知る限り調べられていな い.必然的に,検出力やサンプルサイズ計算はモンテカルロ・シミュレーションに頼ることになる. 5 (群)の場合の必要サンフ。ルサイズを示した.有意水準 2.5%,検出力 90%,ムニ 1, 表 2に K ニ 4, d 二 5である.凸型の用量反応 l ! l r 線に対して , K = 3群の場合と同様に LRjUB法が有利であり, ウィリアムズ検定より性能が際立つてよいことが分かる. 1よ ー ワ n F臼

217.

表 2 :1群あたり必要サンプルサイズ ウィリアムズ 用量反応関係 最大対比法 検定* LRjLB LR HUjHD DT LRjUB 4 天井型 1 3 2 8 2 7 5 1 1 9 8 8 8 8 急上昇型 1 0 0 1 1 3 1 0 3 1 1 9 1 0 7 9 4 直線型 1 0 0 1 2 5 1 0 0 9 4 1 0 0 1 0 8 緩上昇型 9 4 1 0 7 1 0 0 1 3 2 1 1 9 1 0 8 底型 1 3 2 1 3 2 1 0 8 7 5 1 1 9 8 8 天井型 1 4 7 1 3 2 8 2 8 4 8 8 7 5 5 急上昇型 1 1 9 1 0 7 9 4 1 0 7 9 4 9 9 直線型 9 4 9 4 1 2 5 1 0 7 8 8 9 4 緩上昇型 9 4 1 3 8 1 1 9 1 1 2 9 4 1 0 7 底型 1 3 2 1 3 8 7 5 8 8 1 4 7 1 0 8 1 0万回モンテカルロ・シミュレーション 群数 K 宇 4 最大対比法における確率・サンプルサイズ計算プログラム 4 . 1 プログラム SUb̲illvt.Sasとサンプルデータ 西山ら ( 2 0 0 3 )が作成した任意の最大対比法の p値,検出力,サンプルサイズ計算のためのサブ ノレーチンを含む SASプログラム I sub̲mvt .s 回」を東京理科大学「医薬統計コース J ホームページ w w w . r s . k a g u . t u s . a c伊 j y o s h i l a b j i y a k u j t o p . h t ml' の「公開プログラム」の械に公開している.これ を取得し参照されているものとして,次節以降で使い方を説明する. いま,前期第 I I相試験を想定した表 3の予備検討データが得られたとする.最高用量群 (gun=4) が頭打ちしているので,続く後期第 I I相試験で最高用量群を除く 3群試験を計画し,傾向性検定とし て LRjUB法を適用する場合を考える. 4 . 2 サンプルサイズ計算例 3群の LRjUB法で,予備検討(表 3 )から用量反応関係(対立仮説)の平均ベクトルが ( 6 . 17 . 8 8 . 5 ) 及び誤差分散(表 4,。2二 1 6 . 7 1 5 0 )を大きめに σ2= 2 0と想定し,有意水準 2.5%で検出力 90%を達 成するサンプノレサイズ計算プログラムとその出力結果を表 5に示す. 3群の LRjUB法の定義行列は式 ( 7 )右式の通りである. このプログラムで,叫% include' ( s u b且 v t .描の保存先パス)¥sub且 v t . sば."は,西山ら ( 2 0 0 3 )が 作成したプログラムを呼び込む指示である. Alpha="には設定する有意水準を入れる. Beta="に . 9 0= 0 . 1 0を入れる. Contr出 t="には,最大対 は検出力に対応する第 2種の過誤確率すなわち 1‑0 比法の定義行列を,各行を 1 , Jで区切り,列聞にスペースをおいて入れる.今回は式 ( 7 )右式の定義 行列を入れる. Expect="と VARIANCE="には,検出力を計算する対立仮説の平均ベクトルと分 散を入れる.このプログラムでは, N. . . ALLOC="に各群のサンプルサイズの比を入れる.比は多く の場合 1にするが,異なる比についても計算できる. Switch 二円には,棄却限界値と検出力の両方を ηノμ n 口 Tよ

218.

表 3 :予備検討データ(前期第 I I相試験 ( K=4)を想定) data sa 皿p le ; do gun=1 to 4 ;do i=1 to 20 ; input y 骨骨 ;o utput ;end; end ; cards; 9.56 0.84 11.11 3.29 9.22 11.00 8.80 7.85 5.32 5.11 2.90 1.68 6.99 11.48 11.62 0.18 0.85 2.96 4.80 5.44 4.53 11.94 3.50 9.48 7.99 12.59 2.99 8.59 8.84 4.71 14.87 11.74 7.14 13.08 15.50 1.39 1.24 2.06 6.98 5.86 11.434.23 6.45 11.887.20 8.90 11.37 6.13 4.91 6.22 7.00 5.46 10.70 11.36 9.53 16.71 10.46 2.69 16.47 0.77 9.47 3.20 5.68 8.72 18.36 6.46 9.83 2.31 7.67 7.31 12.46 6.67 6.57 8.85 7.18 2.56 4.69 6.06 2.61 10.91 ;run ; gun nunununu nJLnJLnJLnJL 4ム 司 L q u nせ 出力するとき 数 平均値 標準偏差 6.0500000 3.8583348 7.7510000 4.4785147 8.4935000 4.1680606 7.3785000 3.8135593 S w i t c h = l ; "を指定し,棄却限界値のみを出力するときは 1以外の値を入れる .p値 計算のときは検定の棄却限界値が不要であるが,有意水準を与えて検出力を計算するときは,棄却限 界値の計算が必要である.これは逐次近似で求めるので,・' E P S 1 =刊には,与えた有意水準と逐次近 似で計算した第 1種の過誤確率との差として,求めたい精度の値を入れる.このプログラムではその . 0 0 0 1に設定しである. 精度を 0 ABSEPS="には,求めたい確率の計算精度を,計算値の標準誤差の 3倍の値で, A B S E P S = O . O O O l ; " のような形で入れる.精度を標準誤差で指定するのは,このプログラムが準乱数を用いて関数値の 計算点を選び数値積分をしているので,計算値にランダム性が含まれるためである. Nmim=う う と Nmax="に入れるのは,逐次近似における第 1群のサンプルサイズの初期値で,それぞ、れ十分小さ 表 4 :誤差分散の推定 proc m工xed ; class gun ; model y=gun ; run ; Covariance Parameter Estimates Cov Parm Est工mate Residual 16.7150 υ 門川 1i ︐μ n

219.
[beta]
い値と大きい値の二つを指定する.

Eps2="には,逐次近似で求める精度について,指定した検出力

と計算した検出力の差の限界値を与える.ここでは 0.01を入れている. ESTPOWER刊はプログラ
ム内のサブ?ルーチン名である.
l
:1= 1,
.
.
. m の相関行列が半正定値行列 (positivesemi‑definite
このプログラムは,対比統計量 t
matrix) となる定義行列でなければならないが,通常気にしなくて良い.
D OUNTIL

r
‑
‑
.
J

ラム,その前の

END'うは,初期値の下限と上限の問で必要なサンプルサイズを求めるためのプログ

ぺ "N1=Nmax"は,そのプログラムのための初期値であり,然るべき条件

DIFF=l

を満たせば他の値でも差し支えないが,このままにしておく方が無難である.
サンプルサイズと検出力の関係は単調であるから,この程度の簡単なアルゴリズムで十分早い収束
が達成できる.
出力結果では,サンプルサイズ、が小数で、出力されるが,実際はその小数を下回らない整数とする.こ

1にする.このときの検出力は次節に例示する表 6の 89.8%で
,
の例では,各群のサンプルサイズを 7
9.4%より大きくなる.
出力として示された小数のサンプルサイズに対する検出力計算値 8
: サンプルサイズ計算
表 5
PROC IML;
.
l
l
l
vt.sas';
%include '(subJnvt.sasの保存先パス)¥ sub.

Alpha;0.025; Beta;0.1;
Contrast ; {‑1 0 1,
‑2 1 1
};
Expect; {6.1 7.8 8.5};
VARIANCE;20;
N̲ALLOC;{1 1 1
}
;
Switch;1;
Eps1;0.0001; ABSEPS;0.0001;
Nmin;5; Nmax;100; Eps2;0.01;
DIFF;1; N1;Nmax;
DO UNTIL(ABS(Power‑(1‑Beta))<Eps2);
IF DIFF>O THEN Nmax;N1; ELSE Nmin;N1;
N1;(Nmax+Nmin)/2;

RUN ESTPOWER(Switch,
Alpha,
N1,
Eps1,
ABSEPS,
Expect,
VARIANCE,
CONTRAST,
N̲ALLOC,
N,
Power,
CriVal);
DIFF;Power‑(1‑beta);
END;
PRINT N CriVal Power;
QUIT;

N
70.3125

CRIVAL
70.3125

POWER

70.3125 2.140625 0.8943126

nノu

nノu

n
u

220.
[beta]
4
.
3 検出力計算例
前節では,サンプルサイズが少数で示されたのでその少数を下回らない整数で実際の検出力を確認
する. 3群の LRjUB法で有意水準が 2.5%,各併のサンプルサイズが 71,対立仮説の平均ベクトル
が(
6
.
1,
7
.
8,
8
.
5
),σ2= 20という場合について,検出力計算プログラムとその出力結果を表 6に示す.
すでに説明したことを省くと各項目の意味・使い方は次の通りである.
ポ 1="には第 l群のサンプルサイズを入れ,明ム LLOC二円には第 1群に対する各群のサンプルサ

イズの比を

N.
.
ALLOC={111
}
;
" というように入れる.比は整数でなくても良い.

上記のプログラムを実行すると出力結果の "
N
' には,各群のサンプルサイズが, 71
.71
.71 というよ
うに出力され, CRIVAL"と POWER'うには計算結果の棄却限界値 2.1386719と検出力 89.75424%
が出力される.
表 6
:検出力計算
PRDC IML;
t
.sas';
%include 'Csub̲mvt.sasの保存先パス)¥ sub̲mv
Alpha = 0.025;
Contrast = {‑1 0 1,
‑2 1 1
}

Expect = {6.1 7.8 8.5};
VARIANCE=20;
N1 = 71; N̲ALLDC = {
1 11
};
Switch=1;
Eps1=0.0001; ABSEPS=0.0001;
Alpha,
N1,
Eps1,
ABSEPS,
Expect,
VARIANCE,
CONTRAST,
RUN ESTPOWERCSwitch,
N̲ALLDC,
N,
Power,
CriVal);
IF Switch=1 THEN PRINT N Crival Power ;ELSE PRINT N Crival ;
QUIT;

CRIVAL

N

71

POWER

71 2.1386719 0.8975424

71

4.4 p値 計 算 例
表 7は 3群で 1群あたりサンプルサイズ 71のダミーデータを作成するプログラムである.このデー
)
頃を表 8に示す.
タが観測されたものとして, LRjUB法を適用した場合の p値計算手1

MIXEDプ口、ンジャの 2つの ESTIMATEステートメントは, 2つの対比 C
l = (‑1 0 1
)と C
2
1
)
)の実現値を出力する.出力を見ると最大対比統計量の実現
(‑211
)に対応して,対比統計量(式 (

値が 2.31(>1
.99)であることがわかる.
IMLプロシジャ中で,

ンプルサイズ同 ;
i
値 2.31を入れる.

N="には,・ 'N二{
η
1n
2
.
.
.nK}: (
二{717171})""というように,各群のサ

1,
.
.
.
, K を列挙する.各促〔の聞はスペースで区切る.
PVAL̲MCM"は使用しているプログラム
221一

t= のところには実現

r
subJDvt.sasJ 内のサブ、ルーチン名で

221.

ある. 出力結果において, DIM"には対比の個数 2, ERROR'うには p値の推定値の 99%信頼区間幅, PVAL"には計算した p値 (=0.0164313), INFORM"には計算が求められた精度で実行されたかど うかが示される.出力が Oであれば問題ないが, 1であれば ABSEPS"の計算精度が達成できてい , 1以外の値が出力さ ないことを意味する.もし,制約を犯していたりその他の異常が生じていれば 0 れる. m が 100を超えている場合は 2,相関行列が半正定値行列でない場合は 4である. : ダミーデータ作成 表7 %let s e e d = 4 9 4 9 ; data s 四 p le ;/本ダミーデータ作成本/ d oi = 1 to 7 1; 思1ll = 1 ; y=5.5*normal(&seed)+6.1 ;o u t p u t; g u n = 2 ; y=5.0*normal(&seed)+9.35 ;output ; g u n = 3 ; y=6.5*normal(&seed)+8.1 ;o u t p u t; end ; run ; gun 平均値 数 4ム 4ム 41 命 nJ4qu 7'7'7' 4ム 6.7731159 8.8629638 8.8543606 標準偏差 5.4256063 5.5051944 7.4993035 5 紹介プログラムの性能評価 表 1のサンブ。ルサイズ計算には,原則として紹介したプログラムを用いているが, LR法だけは単 p r o b t,t i n v )を利用した. 純な 1変量 t分布の計算なので SASに用意されている関数 ( 紹介したプログラムの計算の速さと計算精度を確かめるために,表 1と同じ内容を, 1 00万回反復 の単純なモンテカルロ・シミュレーションと比較してみた.表 9に示すのはそのモンテカルロ・シミュ レーションで求めた第 1種の過誤確率と検出力である.原理から当然であるが,第 1種の過誤,検出 力ともに非常によく一致しており,プログラムが正確であることがわかる.計算精度は提案プログラ ムと同程度であり,このモンテカルロ・シミュレーションと本プログラムでの計算速度を比べると, 計算時間は本プログラムの場合,表 1 の l つの検出力を求めるのに1. 0~6.5 秒であるのに対し,モン テカルロ・シミュレーションではそれが 2 81~388 秒で、あった.計算機が, i l n t e l @Pentium@4CPU 0万回に減らした場合でも 2.80GHzメモリ1.5GBJ の PCの場合である.シミュレーション回数を 1 30~40 秒かかるので,提案プログラムは単純なモンテカルロ・シミュレーションよりはるかに有効で あることが分かる. 0に,教科書(永田・吉田, 1 9 9 7 ),PROBMC関数,西山ら ( 2 0 0 3 )のプログラムにおい また,表 1 nJ nJ nJ

222.
[beta]
表 8
:p値計算
proc mixed data=sa
皿p
le
class gun ;
model y=gun ;
(
ー 10 1
)
' gu
且ー 1 0 1
estimate '
(
ー 211)' 思立1‑2 1 1 ;
estimate '

run ;
Den

血
Nu

Effect

DF

DF

F Value

Pr > F

gun

2

210

2.66

0.0721

Estimates
Standard
Estimate

Label
(
‑
101
)

2.0812

(‑2 1 1
)

4.1711

参考:片側 p値

DF

t Value

t
l
Pr > I

1.0436

210

1
.99

0.0474

0.023709

1.8075

210

2.31

0.0220

0.010996

Error

PROC IML;
%include '(sub̲mvt.sasの保存先パス)¥sub̲mvt.sas';
N = {71 71 71} ;
t= 2.31 ;

{10 1,
Contrast = ー
‑2 1 1
};
ABSEPS=O.OOOl;
CONTRAST,
t,
N,
PVAL);
RUN PVAL̲MCM(ABSEPS,

Q
U
I
T
;
D
I
M

PVAL

INFORM

2 0.0000996 0.0164313

0

ERROR

て,チューキー検定, mαxt法,ダネット検定で η1

・・・=町二 5
,
9
,
2
5とした場合,及びダネット

6,
n2=・・・=町 = 4と η1=14,
n2二・・・二 η5ニ 6とした場合の棄却限界値及びそれを
検定で町二 3

0
0万回モンテカルロ・シミュレーションによる第 1種の過誤を示した.教科書,
用いた 1

PROBMC

関数,西山ら (
2
0
0
3
)ともに名目の有意水準とよく一致しており,十分に精度が良いことが分かる.

6 おわりに
帰無仮説 Ho:μ1二 μ2=・
・
・ = μ Kを用量反応関係ありとしづ対立仮説に対する検定法(傾向性検
定)として,最大対比法はウィリアムズ検定と比べて検出力が高く,検定統計量の性質も分かりやす
いので検出力・サンプルサイズは正確に計算でき使いやすい.
第I
I相臨床試験の目的は,帰無仮説 Hoを棄却することで被験薬の有効性を検証することの他に,
用量反応曲線の形状,至適用量の検討がある.これに対して,複数の対比統計量で最大となったもの
から,用量反応曲線の形状を選択するというアイデアがある.しかしながら,現時点ではこのアイデ

内ノμ

nυ

︑
旬
つ白

223.

表 9 : 100万回の単純モンテカルロ・シミュレーションによる第 1種の過誤・検出力 用量反応関係 最大対比法 LRjLB 第 l種 検出力 0 . 0 2 4 9 0 . 0 2 5 1 0 . 0 2 5 2 0 . 0 2 5 1 0 . 0 2 4 8 第 l種 HUjHD 第 l種 検出力 の過誤 の過誤 天井型 急上昇型 直線型 緩上昇型 底型 LR 0 . 9 0 0 7 0 . 9 0 0 0 0 . 9 0 0 2 0 . 9 0 2 1 0 . 9 0 3 1 0 . 0 2 5 0 0 . 0 2 5 0 0 . 0 2 5 0 0 . 0 2 5 1 0 . 0 2 4 9 検出力 の過誤 0 . 9 0 0 3 0 . 9 0 0 5 0 . 9 0 0 6 0 . 9 0 0 2 0 . 9 0 0 9 0 . 0 2 5 1 0 . 0 2 4 9 0 . 0 2 4 8 0 . 0 2 5 0 0 . 0 2 5 4 DT 第 l種 検出力 LRjUB 第 l種 の過誤 の過誤 0 . 0 2 5 1 0 . 9 0 0 4 0 . 0 2 4 8 0 . 8 9 9 9 0 . 0 2 4 9 0 . 9 0 2 2 0 . 0 2 4 9 0 . 9 0 0 4 0 . 9 0 0 8 0 . 0 2 5 0 0 . 8 9 9 8 0 . 0 2 5 1 0 . 0 2 5 1 0 . 0 2 5 0 0 . 0 2 5 0 0 . 0 2 5 0 0 . 9 0 0 2 0 . 8 9 9 8 0 . 9 0 4 5 0 . 8 9 9 9 検出力 0 . 9 0 2 6 0 . 9 0 2 0 0 . 9 0 0 0 0 . 8 9 9 9 0 . 9 0 0 7 アの性能・性質はよく調べられていない.最大対比統計量の絶対値が示すことは,単純な平均値のプ ロットを眺めることと変わりない.平均値±誤差のプロットであれば,バラツキの大きい群の平均値 が用量(平均)反応曲線の形状に強く影響していなし、か等が考察できるが,最大対比統計量は群を併 合した推定分散を用いるので,群問で、バラツキの大きさが異なっていることが反映されずに誤った解 釈も起こりうる. バ 斗 n J白 n J白 A

224.

表 1 0 : 100万 回 シ ミ ュ レ ー シ ョ ン に よ る 第 l種 の 過 誤 ( 棄 却 限 界 値 ) PROBMC関数 教科書 第 1種 棄却畷界値 の過誤 第 1種 棄却限界値 の過誤 西山ら ( 2 0 0 3 ) 第 1種 棄却限界値 の過誤 チューキー検定バ(両 u U J5%) η 1二 ・ ・ 二 冗5二 2 . 5 9 5 m αxt法バ(両 1 J ! J5%) η 1二 ・ ・ ・ ニ η 5=2 5 9 5 0 . 0 5 0 3 0 . 0 4 9 7 0 . 0 5 0 0 2 . 7 6 9 7 2 . 8 5 6 0 2 . 9 9 2 5 0 . 0 4 9 2 0 . 0 4 9 9 0 . 0 4 9 1 2 . 1 8 0 0 2 . 2 2 0 0 2 . 3 0 0 0 0 . 0 2 4 9 0 . 0 2 5 0 0 . 0 2 5 1 0 . 0 2 5 2 0 . 0 2 5 0 47 5 0 2. 2 . 5 4 3 0 2 . 6 5 1 0 2 . 5 8 3 0 2 . 6 0 6 0 0 . 0 5 0 3 0 . 0 4 9 6 0 . 0 5 0 0 2 . 7 6 9 7 2 . 8 5 6 1 2 . 9 9 2 4 0 . 0 5 0 3 0 . 0 4 9 7 0 . 0 5 0 0 2 . 7 6 9 5 2 . 8 5 . 5 5 2 . 9 9 2 2 0 . 0 4 9 9 0 . 0 4 9 9 0 . 0 4 9 8 2 . 1 7 3 8 2 . 2 2 0 7 2 . 2 9 3 0 0 . 0 2 4 8 0 . 0 2 5 0 0 . 0 2 5 1 0 . 0 2 5 0 0 . 0 2 5 0 2. 47 4 6 2 . 5 4 3 0 2 . 6 5 2 3 2 . 5 8 5 9 2 . 6 0 7 4 ダネット検定 . 2(片側 2.5%) =n 5=25 9 5 η ]=3 6 .九 2=ーー・ =η5=4 η ]=1 4η2=・・・ =n 5=6 n ] ・・ー 噌 0 . 0 2 4 9 0 . 0 2 5 0 0 . 0 2 5 1 0 . 0 2 5 0 0 . 0 2 5 0 47 47 2. 2 . 5 4 2 9 2 . 6 5 1 3 2 . 5 8 6 3 2 . 6 0 6 9 参考文献 1.岸本淳司,浜田知久馬 ( 1 9 9 4 ) . 任意の対比群について多重比較を行う数値積分プログラム. 計 算機統計学 7,147‑154. 2 .永田靖,吉田道弘 ( 1 9 9 7 ) . 統計的多重比較法の基礎.サイエンテイスト杜. 3 .西 山 智 , 柳 原 宏 和 , 吉 村 功 ( 2 0 0 3 ) . 最大対比法を活用するための SASjIMLプログラム.計量生 5 7 ‑ 7 0 . 物 学 24, c h e f f eH .(1959). TheA n a l y s i so fv t α m η' . c e . JohnWiley& Sons I n c 4 .S 5 .Yoshimura うし Wakana A .andHamada.C .( 1 9 9 7 ) .Ap erforman : c ec o叫 ) a r i s o no fmaximum c o n t r a s tmethodst od e t e c td o s ed e p e n d e n c y . DrugI n f o作 n αt i o nJournal31 .423‑432. ﹁ つ ρ υ hρ つ

225.

S A S / S T A T RG L Mプロシジャの平方和計算の基礎* O柴山忠雄 (前所属・名古屋市工業研究所) P r i n c i p l e sofdeterminationofvarioussumsofsquares( 5 5 ' s ) i n5A5/5TA r RGLMprocedure* Tadao5hibayama ( R e t i r e d : NagoyaMunicipallndustrialResearchI n s t i t u t e ) 要旨 実施配置の計画行列Xは回復行列Jと完全系推定可能行列 L u との積として表わすことができる. 完全系推定可能行列 L uに左からその行数に等しい大きさの任意の正則行列G を作用させ,逆行列 Gキを 回復行列Jに右から作用させて,完全系推定可能行列 L u と回復行列Jとは新らしし、一対に変換される. 計画行列Xに伴なう完全系推定可能行列 L u と回復行列Jとの対の全部がこうして生成されるが,効果要 素推定値cv()の規準方程式は完全に同値に保たれ,解 cv()はその不定性も含めて変化しない. 正則行列G を選らんで,回復行列Jを直交規準化し,完全系推定可能行列 L uを規準化すると,規準化完 S Y Vに等しくなる. 全系推定可能開封佐定価OYV() の総平方和は応答推定値平方和 S この結果は SAS平方和の計算,平方和縮減による検定,推定可能仮説の検定などに利用できる. キーワード S A S / S T A T RG L Mプロシジャ 一般逆行列 S A S平方和 S S I, S S I I, S S I I I, S S I V 制約式 ‑理想的な完全配置の上で定まる確定的な応答関数 処理の省略も処理の重諌もない組み合わせ完全配置(理想的な完全配置)の上で揺動も誤差もなく確定す )応答関数を組成する効果成分の「加法性」と b )理想的な完全配置の上 る応答関数の応答分解・分散分析はa での応答関数平方和の効果成分平方和への「分離性」とに基づいて一通りに定義される(正準展開) . 分離性は,応答関数の値の作る応答関数ベクトルが張る線形ベクトル空間で,効果成分ベクトルの任意の 一対が,いずれも,線形代数ベクトノレとして直交する「線形直交性」と等価である. 分離性は効果成分の「通常の制約式」として知られる効果成分の「正準制約式」と等価であり,効果成分 の加法性に効果成分の正準制約式を付け加えることにより,分離性を確保できる. 理想的な完全配置の上の応答関数は,正準展開により,つぎの効果成分に分解される: 0 )一般平均, 1 )各々の要因の主効果, および, 2 )任意の複数要因の問の複数要因交互作用. この複数要因交E作用の全部が恒等的 l こOであると,処理の一部分(理想的な省略配置)の上の応答関数の 値を定める「省略実験」により,理想的な完全配置の上の応答関数の値を確定できる. 分離性を仮定しなければ効果成分の線形直交性は失なわれる.また,効果成分に不定性が生じる.その 不定性にもかかわらず,加法性のみに基づいて,応答関数または効果成分について確定的な結論が得られる 場合には,その結論を(代数的な) i 推定可能仮説」と名づけることができる. キ E n g l i s hh a n d o u ta v a i l a b l e . 2 2 7

226.
[beta]
‑揺動を含む応答の思想的な完全配置での取り扱い
応答が揺動を含む場合には,応答測定値を応答関数真値と揺動標本真値との和とし,効果成分の正準制約
式を仮定して制約式っき最ノト 2乗法を用い,処理の省略も処理の重複もそれぞれあるかもしれない実際の配
置(実施配置)の上の応答測定値から,理想的な完全配置(理想配置)の上の応答関数および効果成分を推
定できる場合がある.その場合の応答関数の応答分解・分散分析は用いた実施配置には依存しない.
その場合の応答関数推定値およひ効果成分推定値は,揺動標本真値の影響を受けて,揺動するが,揺動標
本真値母集団の母平均値が Oであれば,揺!li}Jを含まない効果成分についての「代数的な推定可能仮説Jは
,
その揺動標本がそれに付け加わったとき,そのまま

I
統計的な推定可能仮説」となる.

・揺動を含む応答の実施配置で、の取り扱い
現在の数理統計学では,処理の省略もなく処理の重複もない組み合わせ完全配置(理想配置)での応答分
解・分散分析は,むしろ,特殊のものとされる.処理の省略も処理の重複もそれぞれあるかもしれない実際
の実験で用いられる配置(実施配置)での応答分解・分散分析は,かなり,異なる形式で行なわれる.
その結果は, a
)用いた実施配置に依存し,理想配置の応答分解・分散分析に直結しない.また, b
)分離性
を仮定せず無視するために,観測方程式の解となる効果成分にはさまざまの不定性が生ずる.

)実施配置への依存性と b
)効果成分の不定性とに左
しかし,無用の憶測を付け加えず観測結果を直視して a
右されない結論を導びくための研究が一般逆行列の利用などを中心として数多く積み重ねられている.

.SAS/STATR解説文書の意義
その大量の研究成果が S
A
S
/
S
T
A
T
R (パージョン6など)の解説文書 (
G
L
Mプ口、ンジャほか,関係各章)に
みごとに集約されているが,それは決して単なる第三者の編集作業によるものではない.

SASI
n
s
t
i
t
u
t
eI
n
c
.主催の第 1回国際 S
A
SU
s
e
r
sG
r
o
u
p会議 (
S
U
GI)の報告集にはすでに SASI
n
s
t
i
t
u
t
eI
n
c
.の
P
r
e
s
i
d
e
n
tで、あった G
o
o
d
n
i
g
h
tJH (
19
7
6
) の論文勺'h
eG
e
n
e
r
ヨI
L
in
e
a
rM
o
d
e
l
sP
r
o
c
e
d
u
r
e
"および一般線形模型の
代表的な研究者 S
e
a
r
IeSR (
19
7
6
) の論文 "Commentso
nAnovaC
a
l
c
u
l
a
t
i
o
n
so
nMessyD
a
t
a
" が収録されて
いたその報告集は,現在,日本国内では閲覧が困難であり,収録の事実を関連資料の記載から知るのみで
あるが, S
A
S
/
S
T
A
T
R(パージョン6 など)の解説文書および関連資料によると, どちらも一見掛泉汗分莫型の基本

A
S
/
S
T
A
T
R(
G
L
Mプロシジャほか)の基本にかかわる論文で、あったと思われる.
およびソフトウェア S
その内容は解説文書および関連資料の記述の中に組み込まれているはずである.その言己主を詳細に追跡し
て,実施配置での応答分解・分散分析の理論を整理し,各種の平方和の計算の意味を明らかにする.
・実施配置での応答方程式・観測方程式・規準方程式
まず,

特殊の表示法の使用(1)

(1)実施配置の応答ベクトルの表示を定め,つぎに,

との積に分解する表示,および,

(2) 計画行列を回復行列と推定可能行列

(3) 応答ベクトルを直交規準化基本ベクトルの一次結合として分解する

表示,をそれぞれ定める.各々の演算割l
聞の細部を具体的に完全に記述するのが目的である.

> の要素 y(
p
p
X
) を要素番号 p
p
X (
:
=1
,
2,
…
,l
p
X(要素数))で指定し,こ
応答Yの測定値託倍、之クトル y
の説佐ぺクトル y
> を詳細に記号 y(
‑
p
p
X
一)>または記号 y(
p
p
X
!
@
:
=
I,2,
…
,l
p
X
井)>で表わす:

y
> = y
(
‑
p
p
X
一
)
>

= y
(
p
p
X
!
@
:
=
1,
2,"
'
,l
p
X
井
)>

(
1
)

各々の表示の中の D
i
r
a
c右括弧〉は行列代数紙たぺクトルを示し,記号 y
(
p
p
X
!
@
:
=
1,2
,
…
,l
p淵)>の括弧内

eと端末符押とがはさむ添え字 :=1,2,…, 1pXは要素番号ppXの値の範囲を表わす.

にある接続符

また,引き数の左右の短線(ーー)は引き数を不定元と見なすことを示す: y
(
‑
p
p
X
‑
)>,ほか.

p
p
X
)(
p
p
X
:=1
,
2
,
…
,1
p
X
) を応答Y の真値 y
y(
p
p
X
) (
p
p
X
:ニ 1
,2
,
…
,1
p
X
) と揺動V の標本の真
測定値 y(
値 v
v(
p
p
X
)(
p
p
X
:= 1
,2
,
…
,1
p
X
) との和と見なし,効果要素真値紙芯ペクトル c
c(
‑
q
q
X
‑
)>に左側から計画行

y(
‑
p
p
X
‑
)>が得られるとして,つぎ、の応答方程式を想定する.
列X を作用させて応答真値続佐ぺクトル y
y(
‑
p
p
X
‑
)>=y
y(
‑
p
p
X
一
)>+v
v(
‑
p
p
X
一
)>

y
y(
‑
p
p
X
‑
)>=X
.c
c
(
田q
q
X
‑
)>

(
2
)

必要な場合には,効果要素真値託倍、之クトル c
c(
‑
q
q
X
‑
)>,応答真値託子くクトル y
y(
‑
p
p
X
‑
)>およひ活動標本
真値託たぺクトノレv
v
(
ー
p
p
X
‑
)>を,式 (
1
) にならい,つぎのように,それぞれ,詳細に,表わす:

c
c
> = c
c
(
‑
q
q
X
‑
)
> = c
c
(q
q
X
!
@
:
=
1,2,
…
,I
q
X(要素数)井)>
y
y
> = y
y(
‑
p
p
X
‑
)> = y
y(
p
p
X
!
@
:ニ 1
,
2,
…
,l
p
X(要素数)井)>

(
2
a
)
(
2
b
)

v
v
> = v
v(
‑
p
p
汗)> = v
v(
p
p
X
!
@
:
=
I,2
,
…
,l
p
X(要素数)押)>

(
2
c
)

‑228‑

227.

応答方程式(式 ( 2 ))に準じ,応答測定値紙ドクトル y( ‑ p p X ‑ )>を応答推定値j 世くクトル y v ( ー p p X 一)>と推 定残差緋サトノレ v y( ‑ p p X ‑ )>との和と考え,また,応答推定値ベクトル y vーp (p X ‑ )>は効果要素推定倒ド クトノレ c v( ‑ q q X ‑ )>に計画行列Xを作用させて得られると考えて,つぎの観測方程式を想定する. y( ‑ p p X ‑ )> y v( ‑ p p X ‑ )>=X .c v( ‑ q q X 一 )> ( 3 ) y( ‑ p p X ‑ )>=y v( ‑ p p X ‑ )>+v 明X ‑ )>,応答推定値紙ぞくクトル y v( ‑ p p X ‑ )>および推定 必要な場合には,効果要素推定値緋ぺクトル c v( 残差鮮へこクトル v y( ‑ p p X ‑ )>についても,つぎ、のように,それぞれ,詳細な表示を用いる. c v ( q q x l @ :二1 , 2 , … ,l q X(要素数)枠)> ( 3 a ) y v > = y v( ‑ p p X ‑ )> 二 y v ( p p x l @ :ニ1 , 2 , … ,l p X(要素数)持)> ( 3 b ) c v > = c v( ‑ q q X ‑ )> ご 2 , … ,l p X(要素数)枠)> ( 3 c ) v y > = v y ( ‑ p p X ‑ ) > = v y ( p p x l @ :二1 , この実施配置の上での推定残差平方和 く v y( ‑ p p X ‑ ) .v y( ‑ p p X ‑ )> ( D i r a c 左括弧くは行列代数横ベクトルを 、 2乗法により,つぎの規準方程式を得る. 示している)を最小にする条件のもとで,最ノl X 'X .c v( ‑ q q X ‑ )> 二 X ' . y( ‑ p p X ‑ )> ( したがって, X ' .v y( ‑ p p X ‑ )>= 0 ) ・実施配置の計画行列の分解 ( 4 ) 特殊の表示法の使用 (2) 計画行列Xの行番号 p p X( : 二1 , 2 , … ,1 p X ( 行数))と列番号 q q X( : = 1, 2 , … ,l q X(列数))とで計画行列Xの 要素 X ( p p X,q q X ) を指定し,この計画行列Xを,さらに詳細に,つぎの記号を用いて表わす. 2 , … ,l p X , 枠 q q X I @ :ニ 1 ,2 , … ,1 q X持 ) X :=X( ‑ p p X ‑, ‑ q q X 一 ): = X( p p XI @: =1 , ( 4 a ) u とに分解するのに便利である.計画行列Xの行 この表示は計画行列Xを回復行列Jと推定可能行列 L , 12 , ・ ,1 q X 枠 ) ( p p X :ニ 1 , 2 ," ' ,l p X ) ( 4 b ) X ( p p X, ー * ー ) (*qqX):= X ( p p X,q q X I @ : = の中からたがいに一次独立な行の最大数(計画行列Xの階数に等しくなる)を取り出して作られる行列 2 , … ,1 p L u , 枠 q q L u1 @ : = 1, 2 , … ,1 q L u 枠 ) ( lq L u =l q X ) ( 4 c ) L u :=L u( ‑ p p L u ‑, ‑ q q L u ‑ ): = L u( p p L u1 @ : = 1, は基本の完全系推定可能行列 L uである.その列数 l q L uはもとの計画行列Xの列数 l q Xに等しい. この完全系推定可能行列 L uが一つ得られると,その行 +) ( *q q L u ): = L u( p p L u, L u( p p L u,q q L uI @ :=1 , 2 , … ,1 q L u持 ) (ppLu:= 1, 2, … ,l p L u持 ) ( 4 d ) 4 b ))が表わされる.その‑i"対吉合係数の一組ずつをそれぞ、 の一次結合として,計画行列Xの任意の行(式 ( れ行とし,その一次結合係数の全部を集めて一つの行列とすると,つぎの回復行列Jが得られる: J : =J(‑PpJ‑,‑qqJ‑):= J(ppJI@:=1,2, … ,1 p J , 枠 q q J I @ : = 1, 2, 一 ,l q J 枠 ) ( lp J : = l p X ) ( lq J :二l p L u ) これを完全系推定可能行列 L uに左から作用させると,計画行列Xが回復される: X=] .Lu ( 4 e ) ( 4 f ) 計画行列Xの完全系推定可能行列 L uは幾通りも作ることができる場合がある.その各々の行列 L u Z Zの 行数 l p L u Z Zは等しい(=l p L u ) .各々の行列 L u Z Zのどの行も計画行列Xの行であり,常に,任意の完全 系推定可能行列 L u Z Zの行の一次結合として表わされるから,各々の行列 L u Z Z ( =L u A A,L u B B,など)は その共通の行数 l p L uに等しい大きさの正則行列Gを左側から作用させて,たがいに,変換できる: L u B B=G .L 凶A など ( 4 g ) .一般的な完全系推定可能行列の定義 uを,さらに一般に, a )行の全部が一次独立であり b )その行の 任意の計画行列X の完全系推定可能行列 L 一次結合として計画行列Xのどの行も表わすことができる行列として定義すると,計画行列Xの完全系推定 可能行J' I J L u Aに左側からその行数l p L u Aに等しい大きさの任意の正則行列Gを作用させて得られる行列 A L u B: =G . Lu ( 4 h ) も計画行列Xの完全系推定可能行列となる.最初の完全系推定可能行J' I J L u Aには回復行列 J Aが対応してい るから,これに正則行列Gの逆行列 G * を右側から作用させると,完全系推定可能行列L u Bに対応する回復 Bが得られ,回復行列Jと完全系推定可能行列 Lu とによる計画行列X の分解が継承される: 行要I JJ Xニ].L u=J A .LuA= ( JA .G * ) .( G .L u A ) =J B .Lus .実施配置の応答ベクトノレ空間の直交規準化基本ベクトル 特殊の表示法の使用 (3) ( 5 ) 完全系推定可能行列 L uに左側からその行数と同じ大きさの正則行列 GOを作用させて完全系推定可能行 列L u O とし,回復行列Jに右側から正則行列GOの逆行列 G O * を作用させて回復行列 JO とする. X=] .L u= ( ] .G O * ) .( G O .L u ) =J O .LuO JO=] .G O * L u O=G O .L u ‑229 ( 5 a )

228.

ここで,正則行列 G O を適切に選らんで,回復行列 J Oの列の各々 JOH‑, q q J O )( *P p J o ) : = J O ( p P J O [ @ : = 1, 2 , … ,1 p X , 井 q q J O ) ( q q J O: = 1,2 , … ,1 p L u O ) ( 5 b ) が直交規準化基本ベクトルとなるようにし,それぞれの基本ベクトルをつぎのように表示する. J O( q q J O : ‑ * ‑ )> : = J O( q q J O :P p J O[ @ : = 1, 2 , … ,1 p X 井 )> (qqJO:= 1, 2, … ,1 p L u O ) ( 5 c ) これは回復行列の列であるから,直交規準化回復ベクトルと名づけてよい. O ( q q J O :P P J O [ @ : = 1, 2, … ,1 p X 井 ) は第 q q J O番基本ベクトルの第 P p J O番要素を要素番号 P p J Oの 表示 J , 2, … ,1 p X の上で変化させたときの要素の全部の集まりを意味している.括弧内では,引き数の 値の範囲 1 q J Oを分離符:の前に置き,ベクトル要素の識別番号 P p J O を分離符:の うち,基本ベクトルの識別番号 q 後に置き,理想的な完全配置の応答空間の基本ベクトルの通常の表示と一致させている. 5 b ))または回復行列の要素(式 ( 4 e ))の表示では,その逆に,ベクトル要素の識別番 回復行列の列(式 ( p J O を分離符(, )の前に置き,基本ベクトルの識別番号 q q J O を分離符(, )の後に置いている. 号 P ・直交規準化基本ベクトルの完全系一基本ベクトルの識別番号の範囲区分 q J( = l p L u,式 ( 4 d )および ( 4 e ))すなわち計画行列X の階数(豆 1 p X)だ 回復ベクトルは回復行列の列数 1 p J (=計画行列Xの行の数 1 p X,式 ( 4 e ))に等しい.その行列代数 け存在するが,要素数は回復行列の行数 1 p Xに等しい本数だけ桐生する. ベクトル空間の直交規準化基本ベクトルは,本来は,その次元数1 L u O 本)の各々と直交する(lp X ‑ 1 p L u O ) 本の直交規準化基本ベクトノレ そこで,回復ベクトル(lp J O ( q q J O : ‑ * ‑ ) > : = J O ( q q J O :P P J O [ @ : = 1, 2 , … ,1 p 却)> ( q q J O: = l p L u O + 1,l p L u0+2, … ,1 p X ) ( 5 d ) を回復ベクトルに追加することにより,直交規準化基本ベクトルの完全系を得ることができる: J O ( q q J O : ‑ * ‑ ) > : = J O ( q q J O :P P J O I @ : = 1, 2 , … ,1 p X 井 )> (qqJO:= 1, 2, … ,1 p X ) ( 5 e ) なお,各々の直交規準化基本ベクトルを転置して転置直交規準化基本ベクトルの完全系 J O ( q q J O : ‑ * ‑ ) : = く < J O ( q q J O :P p J O [ @ : = 1,2 , … ,1 p X 井 ) ( q q J Oニ :1 , 2 , … ,1 p X ) ( 5 f ) をつくると,この行列代数ベクトル空間の単位行列 Iをつぎの式で、書くことができる. IニI:@ q q J O =l ,2 , … ,1 p却 J O ( q q J O :P P J O [ @ : = 1,2 , ・ ' ,l p 脱)> . くJ O ( q q J O :P p J O [ @ : = l,2 , … ,1 p脱) 1= I :@ q q J O =l ,1 p却 J O( q q J O : ‑ * ‑ )> . くJ O ( q q J O :ー * ‑ )=I :@ q q J O =l ,1 p 脱 J O ( q q J O : ) > .く J O( q q J O : ) ( 6 ) ( 6 a ) 和記号の接続f 刊と端末符井との聞の表示は基本ベクトルの識別番号 q q J O の範囲を示す添え字である. q J Oの全範囲 ( T ) をつぎの 2つの範囲 , ( y ) および ( v ),に区分し, ここで,識別番号 q ( y ) ( 計画行列X の階数 1 p L u以下) qqJO:=( y )1 , 2, … ,1 p L u O 式( 5 c )参照 ( 6 b ) ( v ) (計画行列X の階数 1 p L u超) q q J O: = ( V )1 p L u0+1 ,l p L u O + 2, … ,1 p X ( y )+( V ) q q J O: =( T )1 よ…, 1 p X 式( 5 d )参照 式( 5 e )参照 ( 6 c ) ( T ) ( 6 d ) 2つの範囲の表示を利用して,式 ( 6 )および ( 6 a ) の和記号I:@ q q J O 二1 ,1 p 掛 (:二I:( T ) ) の各々を 2つの和 y ) +I :( V ) として表わすと,つぎのように書くことができる(*P p J O= 1,2 , … ,1 p X ). 記号の和I:( 1=1( T )=I :( T )J O ( q q J O : ‑ * ‑ ) > .< J O ( q q J O :ー キ ) =1( y ) +1( V ) I (y ) =I :( Y )J O( q q J O :ー 恥 )> .< J O ( q q J O : ‑ * ‑ ) 1( V ) =I :( V )J O ( q q J O :一 半 )> .く J O ( q q J O :一 半 ) ( 6 e ) ( 6 f ) ・回復ベクトルと推定可能ベクトルとによる計画行列の表現 O( 式( 4 e )および ( 5 a ))の列から回復ベクトル J O ( q q J O :一 中 )> ( 式( 5 c )および ( 5 e ))を得たのと 回復行列 J u Oの行から推定可能ベクトルく L u O( p p L u O : ‑ 林ー)を得ることができる: 同じく,完全系推定可能行列 L u O ( p p L u O :ー * * ‑ ): 二 くL u O ( p p L u O :q q L u o l @ : = 1, 2 , … ,1 q L u O 井 ) くL *P p J O [ @ : = 1,2 , … ,1 p X 井 (ppLuO:= 1,2 , … ,1 p L u O ) ( 7 ) 判 明L u O[ @ : = 1, 2 , … ,1 q L u明 ( 7 a ) 回復ベクトノレ J O ( q q J O :ー 中 )> ( 式( 5 c ) ) と推定可能ベクトルく L u O ( p p L u O :ー材ー)とを用いて,式 ( 5 a )を書き 直すことにより,計画行列Xをつぎのように書くことができる. X=J O .LuO= I :@ q q J O : = l, 2, … ,1 p L u O 井J O ( q q J O :P P J O [ @ : = 1,2 , … ,1 p J O 井 )> ( 式( 6 b )参照) . く いO ( p p L u O [ @ = q q J O 詳 :q q L u O[ @ : = 1,2 , … ,1 q L u O 持 ) ( 8 ) X= I :( y )J O ( q q J O :P p J O I @ : = 1,2 , … ,1 p X 井 )> . くL u O ( p p L u o l @ = q q J o 詳 :q q L u O[ @ : = 1, 2 , … ,1 q L u O 持 ) X= I :( y )J O ( q q J O :P p J O [ @ : = l,2, … ,1 p 服)> . くL u O ( q q J O :q q L u O [ @ : = 1, 2 , … ,1 q X 井 ) ( 式( 4 c )参照) ( 8 a ) ( 8 b ) X= I :( Y )J O( q q J O: ‑ P p J ひ)> . くL u O( q q J O :‑ q q L uひ) ( 8 c ) 和記号I:( y ) は式 ( 6 f )の和記号I:( y ),すなわち,式 ( 8 )の和記号I:@ q q J O: = 1,2 , ・ " ,l p L u O 井を表わす. ‑230

229.

この式を書き直して,転置推定可能ベクトル L u O( q q J O : ‑ q q X ‑ )>と転置回復ベクトルくJO( q q J O : ‑ p p X ‑ ) とを 用いて,計画行列Xの転置行列X 'すなわち転置計画行列 X ' をつぎの式で表わすことができる. '( ‑ q q X ‑, ‑ p p 光):= ( X ( ‑ p p X ‑ , ‑ q q X ‑ ) ) ' : = X:=X X ' ( q q X I @ : = 1, 2, … ,l q X 札 p p XI @: =1 , 2, … ,1 p X 持 ) ( 8 d ) :( y )L u O( q q J O : ‑ q q L uO ‑ )> . くJ O ( q q J O : ‑ P p J O ‑ ) X '= I ( 8 e ) :( Y )L u O ( q q J O : ‑ q q X ‑ ) > .くJ O ( q q J O : ‑ p p X ‑ ) X'= I ( 8f ) q q X : = 1, 2, ・ ・ ,1 q X p p X : = 1, 2, ・ ・ ,l p X ( 8 g ) .実施配置の応答ベクトル空間の直交規準化基本ベクトルによる応答推定値ベクトルの展開 観測方程式(式 ( 3 ))の第 2式の計画行列X に式 ( 8 ) による表示を代人してつぎの結果が得られる. y v ( ‑ p p X ‑ ) >=X . c v ( ‑ q q X ‑ ) >=X . c v ( q q X: = 1, 2, … ,1 q X 持 )> ( 9 ) =I :( y )J O ( q q J O :P P J O I @ : = 1, 2, … ,1 p X 持 ) > , 2, … ,1 q X 持 )> . < L u O ( p p L u O :q q L u o l @ : = 1, 2 , … ,l q L u O 持 ) .c v( q q XI @ :二 1 ( 9 a ) ( p p J O=p p X ) ( p p L u O=q q J O ) ( q q L u O=q q X ) ( lqLuO= l q X,式 ( 4 c )参照) = エ (y) JO(qqJO:‑ppX‑)>.くLuO(qqJO:‑qqX‑).cv(‑qqX‑)> ( 9 b ) 3 )) の第 1式の両辺の各項に,左側から,実施配置の応答ベクトル空間の単位行 また,観測方程式(式 ( ~IJI の直交規準化基本ベクトルによる表示(式 (6e) および (6f) )を作用させ,つぎ、の結果が得られる. y ( ‑ p p X ‑ ) >= I ( Y ) .y ( ‑ * ‑ ) >+ I ( V ) .y ( 一 中 ) > *PpJO : = 1, 2, … ,l p X y v ( ‑ p p X ‑ ) >= I ( Y ) .y vH‑)>+ I ( V ) .y v ( ー 中 ) > *PpJO : = 1, 2, … ,l p X ( 9 c ) ( 9 d ) v y( ‑ p p X ‑ )>= 1( y ) .v yH‑)>+ 1( V ) .v yH‑)> *PpJO : = 1, 2 , 一 ・ ,l p X ( g e ) 右辺の各項は,どれも,直交規準化基本ベクトル J O( q q J O :‑ p p X ‑ )> ( 式( 5 e ))の一次結合である. 式( 9 )一( g e )を観測方程式の第 1式に代入し,各項にその左側から転置直交規準化基本ベクトル完全系の任 意の転置直交規準化基本ベクトルくJ O ( q q J O i :P p J O I @ : = 1, 2 , … ,l p X 持 )( q q J O i : ( T )1 , 2, … ,1 p X,式 ( 5 f )参 二 照)をかけ,ベクトルの識別番号q q J O i を識別番号 q q J Oで置き換えると,つぎの式が得られる. < J O(qqJO:‑ppX‑).yv(‑ppX一 ) >+< J O ( q q J O : ‑ p p X ‑ ) .v y ( ‑ p p X ‑ ) >= くJ O ( q q J O : ‑ p p X ‑ ) .y ( ‑ p p X 一 ) > ( q q J O =( T )1 , 2, … ,l p X ) ( 9 f ) く JO( q q J O : ‑ p p X ‑ ) .y v( ‑ p p X 一 ) >= 0 ( q q J O =( V )l p L u O + 1,l p L u O + 2, … ,l p X ) ( 9 g ) < J O ( q q J O : ‑ p p X ‑ ) .v y ( ‑ p p X 一 )>= くJ O ( q q J O : ‑ p p X ‑ ) .y ( ‑ p p X ‑ ) > ( q q JO =( V )l p L u O + 1,l p L u O + 2,. . ,l p X ) ( 9 h ) X ' .v y ( 下p X ‑ )>= 0 ( 10 ) 4 ))をつぎの形に書き直し, ここで,規準方程式(式 ( X ' .y v( ‑ p p X ‑ )>=X ' . y( ‑ p p X ‑ )> すなわち この式に転置計画行列X 'の表示(式 ( 8 f ))を代入すると,つぎの結果が得られる. I :( y )L u O( q q J O : ‑ q q X ‑ )> . くJO( q q J O : ‑ p p X ‑ ) .y v( ‑ p p X ‑ )> :( y )L u O( q q J Oトq q X ‑ )> .< J O(qqJO:‑ppX‑).y(‑ppX一)> =I I :( y )L u O ( q q J O : ‑ q q X ‑ ) > .くJ O ( q q J O : ‑ p p X ‑ ) .v y ( ‑ p p X ‑ ) >= 0 転置推定可能ベクトル L u O ( q q J O : ‑ q q X ‑ ) >( q q JO =( y )1 , 2 , … ,l p L u O ) は全部が一次独立であるから ( 10 a ) ( 1 0 b ) 2つ の式を,転置推定可能ベクトノレご、とに分離し,書き直すと,つぎ、の結果が得られる. く J O ( q q J O : ‑ p p X ‑ ) .y v ( ‑ p p X ‑ ) >= くJ O ( q q J O : ‑ p p X ‑ ) .y ( ‑ p p 光)> ( q q J O =( y )1 , 2 , … ,1 p L u O ) ( 1 0 c ) < J O ( q q J O : ‑ p p X ‑ ) . v y ( ‑ p p X ‑ ) >= 0 ( q q J O =( Y )1 , 2, … ,l p L u O ) ( 10 d ) なお,式 ( 9 g ),( 9 h ),( 10 c )および(10 d )の結果を式 ( 9 c )一( g e )に代入するとつぎ、の結果が得られる. y ( ‑ p p X ‑ ) >= I(Y).yv(+)>+ I(V).vy(+)> *PpJO : = 1, 2, … ,l p X ( 11 ) (p X ‑ )>= 1( y ) .y vH‑)>= 1( y ) . y( 一 中 ) > y v一p ニ 1( V ) . y( 一 * 一 ) > v y( ‑ p p X ‑ )>=1( V ) .v yH‑)> *P p J O: = 1, 2, … ,l p X *P p J O・ = 1, 2, … ,l p X ( 11 a ) ( 11 b ) ・規準方程式の解・計画行列の縮約行列・推定可能関数の定量・効果要素推定値の規準方程式 式( 9 g ),( 9 h ),( 10 c )および(10 d )の左辺は転置直交規準化回復ベクトルと応答推定値緋べクトル(または推 定残差縦ベクトノレ)との内積,すなわち,応答推定値(または推定残差)であり,各々は右辺の転置直交規 準化回復ベクトルと応答測定値誕佐ぺクトルとの内積または 0で表わされて,規準方程式の解となる. まず,計画行列Xを任意の方法で回復行列Jと推定可能行列 L u とに分解し(式 ( 4 f )または ( 5 a ) ),回復行 列J ( 式( 4 e )参照)の列 J ( 咋 ー: q q J )( *p p J = 1, 2 , … ,1 p X ) の各々,すなわち,回復ベクトル J( q q J: ‑ * ‑ )> の ‑231一

230.

各々を直交規準化して,回復行列J を直交規準化回復行列 J O ( = ] .G O * (逆正則行列))に変換し,それに対 応して,推定可能行列 L u を規準化推定可能行列 L u O( = G O(正則行列).L u ) に変換する(式 ( 5 a ) ). 計画行列X は直交規準化回復行列 J O と規準化推定可能行列 L u O( 司O .L u ) との積であるから,この積に 左側から転置直交規準化回復行‑:9'1]0 ' を作用させると規準化推定可能行列 L u O( = GO .L u ) が得られる. X=J O .LuO J O ' .X=LuO G O * .J O ' .X=G O * .L u O=L u ( 12 ) したがって,転置直交規準化回復行列 J O 'に左側から変換逆正則行列 GO* を作用させて得られる行列 K=G O * .J O '=G O * .( ] .G O * ) ' =G O * .( G O * ) ' .J ' ( 12 a ) は「縮約行列」となり,これを計画行列Xに左側l から作用させると推定可能行列 L uが得られる: L u=K .X ( 12 b ) 縮約行列K を式 ( 3 ) (観測方程式)の第 2式の両辺に左側から作用させるとつぎの式が得られる. または L u .c v( ‑ q q X ‑ )>=K .yv( ‑ p p X ‑ )> ( 12 c ) L u O . c v ( ‑ q q X ‑ ) >=J O ' . y v ( 下p X ‑ )> ( 1 2 d ) どちらの式も効果要素推定値目 ( q q X ) の一次結合(推定可能関数)を応答推定値y v( p p X ) の一次結合で与え る.それぞれ,効果要素推定値c v( q q X ) の規準方程式であり,しかも,たがし、に完全に同値である. 効果要素真値c c( q q X ) の定義に伴なう代数的な不定性はそれぞれの式の解にそのまま継承されて現われて v( p p X ) は,式 ( 9 g )および(10 c )により,応答測定値 y( p p X ) から定められる. くる.なお,応答推定値y ・各種の一般的な平方和の定量 S Yは応答測定値横ベクトルと応答測定値制ベクトルとの内積く y .y > と 実施配置での応答測定値平方和S して定義され,応答推定値平方和 S S Y V と推定残差平方和 S S V Y との和に分解される. S S Y=く y .y >= ( くy v+ くv y) .(y v > +v y >)= くy v . y v >+< v y . v y >=S S Y V+S S V Y ( 1 3 ) 計画行列X を回復行列J と推定可能行列 L u とに分解し,さらに,直交規準化回復行列 JO と規準化推定 u O とに変換して得られる式 ( 9 )‑( 9 g ),( 9 h ),( 10 c )および(10 d )を用いてつぎの結果を得る. 可能行列 L S S Y= 2 :( T ) くJ O ( q q J O : ‑ * ‑ ) . yH‑)> ^2 ( T )l @ q q J O = 1, 2, … ,l p X 枠 ( 1 3 a ) S S Y V=エ ( y )く J O ( q q J O : ‑ * ‑ ) .y v ( ‑ * ‑ ) >^ 2 ( y ) l @ q q J O = l, : 2 , … ,l p L u O 井 ( 1 3 b ) :( V )く JO( q q J O: ‑ * ‑ ) .v y( ー * ‑ ) >^ 2 S S V Y= 2 ( V )l @ q q J O = l p L u O + 1,l p L u O + 2, … ,l p 間 ( 1 3 c ) 2 , … ,1 p X 枠 *P p J O1 @ : = 1, ( 1 3 d ) その一方で、,応答推定値平方和 S S Y V( = くy v .y v > ) を定める応答推定値齢ぺクトル y v > (および応答推定 値横ベクトノレく y v )に,直接に,式 ( 3 ) (観測方程式) の第 2式を代入して,つぎの結果を得る. S S Y V二く y v . y v >=く y v( ‑ p p X ‑ ) .y v( ‑ p p 光)>=< c v( ‑ q q X ‑ ) .X ' .X .c v( ‑ q q X ‑ )> = くc v( ‑ q q X ‑ ) .L u ' .J ' . ] .L u .c v( ‑ q q X ‑ )>= くc v( ‑ q q X ‑ ) .L u O ' .J O ' .J O .L u O .c v( ‑ q q X ‑ )> 一 ) .L u O ' .L u O .c v( ‑ q q X ‑ )> ( 式( 4 c )および ( 5 a )参照) =< c v( ‑ q q X v( ‑ q q X ‑ ) .( L u O( ‑ p p L u , ひ‑ q q L uひ ) ) ' .L u O ( ‑ p p L u , ひ‑ q q L uひ ) .c v( ‑ q q X ‑ )> =く c v( ‑ q q X ‑ ) .( L u O( ‑ q q J , ひ‑ q q X ‑ ) ). 'L u O ( ‑ q q J , ‑ G‑ q q X 一 ) .c v( ‑ q q X ‑ )> S S Y V=く c ( q q J C 詳 し 2, … ,l p L u O ) :@ q q J O = 1,2 , … ,1 p L u O 井(2:@ q q X = l, 2," ' ,l q X 枠L u O( q q J O,q q X ) .c v( q q X ) )^2 S S Y V= 2 ( 13 e ) ( 1 3 f ) ( 1 3 g ) ( 13 h ) ・規準化推定可能関数推定値・規準化推定可能関数平方和 O Y V( q q J O )( q q J O = 1, 2, … ,l p L u O ) をつぎの式で定義すると, ここで,規準化した推定可能関数の推定値 E その全部の平方和として,応答推定値平方和 S S Y V を書き表わすことができる. ( q q J O = 1, 2, ・ 一 ,l p L u O ) E O Y V ( q q J O )=2 :@ q q X = 1, 2, 一 ,1 q X 井L u O ( q q J O,q q X ) . c v ( q q X ) ( 14 ) ( 14 a ) :@ q q J O = 1,2 ,・ ・ ,1 p L u O 枠E O Y V( q q J O )^2 S S Y V= 2 給くクトル y v >( お さらに,規準化した推定可能関数の推定値 E O Y V( q q J O ) の表示を, 再度,応答推定値j よび,応答推定値横ベクトノレく y v ) の表示(式 ( 9 b ))に代入すると, つぎの結果が得られる. y v( ‑ p p X ‑ )>= 2 :( y )J O( q q J O: ‑ p p X ‑ )> . くL u O ( q q J O : ‑ q q X ‑ ) .c v( ‑ q q X ‑ )> 一 )>=エ ( y )J O ( q q J O : ‑ p p X ‑ )> .E O Y V ( q q J O ) y v( ‑ p p X u O ( q q J O : ‑ q q X 一 ) .c v( ‑ q q X 一 ) > E O Y V ( q q J O ) =く L したがって ( 14 b ) ( 1 4 c ) ( 1 4 d ) また,応答推定値齢ぺクトル y v > のほかの表示(式(11 a ))と比較して,つぎの結果が得られる. E O Y V ( q q J O ) =くJ O ( q q J O :ー * 一 ) .y v( ー 半 )>=くJ O ( q q J O :ー * 一 ) .y( ー 恥 ) > 232‑ ( 14 e )

231.

さらに,この結果を利用することを意識して,式 ( 1 4 a )をつぎのように書き直すことができる. :@qqJO=l,2, … ,l p L u O 持S O Y V( q q J O ) S S Y V= 2 S O Y V( q q J O ) =E O Y V( q q J O )^2 ( 14 f ) こうして,規準化推定可能関数推定値平方和 S O Y V ( q q J O )( q q J O = 1, 2 , … ,l p L u O ) の各々が定まる.それは 規準化推定可能関数推定値 E O Y V( q q J O )( q q JO = l ,2 , … ,l p L u O ) の 2乗の各々に,それぞれ,等しい. ・通常の推定可能関数推定値・通常の推定可能成分平方和 3 ))の第 2式の計画行列X , こ 式( 5 a )による表示を代入してつぎの結果が得られる. 観測方程式(式 ( y v >=] .L u .c v( ‑ q q X ‑ )>=J O .L u O .c v( ‑ q q X ‑ )>=J O .G O .L u .c v( ‑ q q X 一 ) > 2, ・ ー ,1 q X ) ( q q X= 1, ( 1 5 ) 直交規準化回復行列 J Oに左側から転置直交規準化回復行列J O ' を作用させると,直交規準化回復行列の 定義により,応答ベクトル空間の単位行列 Iが得られるから,つぎの式が導ひ、かれる. L u O .c v( ‑ q q X ‑ )>=G O .L u .c v( ‑ q q X ‑ )> ( 15 a ) =G O .L u( ‑ p p L u ,一 ‑ q q L u l @ = q q X 件).c v( ‑ q q X 一)>式 ( 4 c )参 照 明X : = 1, 2 , … ,l p L u O =GO( ‑ q q J , ‑ Q‑ p p L u ‑ ) . ( 2 :@qqX=l, 2 , 一 ,l p L u O 持L u( ‑ p p L u ‑, ‑ q q X ‑ ) .c v( ‑ q q X ‑ ) )> q q J O : = l, 2 ,. ,l p L u O p p L u : = l, 2,. . ,l p L u O =GO( ‑ q q J , ‑ Q‑ p p L u ‑ ) .E L Y V( ‑ p p L u ‑ )> ( 1 5 b ) ただし,行列要素 GO( q q J O, p p L u ) は式 ( 5 a )で用いられている変換正則行列GOの要素を表わす. また,線 形代数紙佐〈クトルの要素 E L Y V( p p L u ) はつぎの式で定まる通常の推定可能関数推定値であり, :@qqX=1,2, … ,l p L u O 持L u( p p L u, q q X ) .c v( q q X ) E L Y V ( p p L u )=2 =く L u( q q J O : ‑ q q X ‑ ) .c v( ‑ q q X ‑ )> :( y ) J( q q J O : ‑ p p X ‑ )> .E L Y V( q q J O ) (y v( ‑ p p X ‑ )>= 2 ( 1 5 c ) 式(14 d )参照 ( 15 d ) 式(14 c )参 照 ) ( 1 5 e ) つぎ、の式によって,規準化推定可能関数推定値 E O Y V( q q J O )( 式( 1 4 ),(14d) および~(1 4e) )に変換される. : @ ppLu=1,2, … ,l p L u O 持G O( q q J O, p p L u ) .乱 Y V( p p L u ) E O Y V ( q q J O )=2 ( 1 5 f ) 2 , … ,l p L u O ) の式(式 ( 1 4f))にこの式を代入す 規準化推定可能関数推定値平方和 S O Y V( q q J O ) ( q q J O = 1, ると,通常の推定可能関数推定値 E L Y V( p p L u ) の平方および交叉積の和となり,結果は単純ではない. = くy v .y v > ) の式に式 ( 1 5 e ) を代入しでも単純な結果は得られない. なお,応答推定値平方和 S S Y V( .推定可能関数の変換・推定可能成分の変換 完全系推定可能行列 L u とそれに対応する回復行列Jとの一対が定まると,回復行列Jの右側から適当な 正則行列 GOの逆行列G O * を作用させる演算として回復行列Jの列を直交規準化できる.計画行タI } Xを回復 行列J と推定可能行列 L u とに分解する手順およびこれを直交規準化回復行列 JO と規準化完全系推定可能 ] 慣の後の結論は任意'生の影響を受けない. 行列L u O とに変換する手順には任意性があるが,それぞ、れの手1 完全系推定可能行列 L uは適合する正則行列 G Oを左側から作用させて規準化完全系推定可能行列L u Oに I から任意の正則行列G を作用させて完全系推定可能行列 L uのすべてが得られる. 変換され,さらに左倶} 対応する回復行列Jは直交規準化回復行列 JOに右側から正則行列Gの逆行列 G * を作用させて得られる が,それが直交規準化回復行列となるためには,逆行列 G *が直交行列であることが必要である. 1(回復行列Jの列数 lpLu と同じ大きさの単位行列) =J ' .J =( JO .Gキ ) ' .( JO .Gキ )=( Gキ ). 'J O ' .( JO .Gホ )=( G * ). 'J O ' .J O .G *= ( Gキ )' . 1 .Gキ=(Gキ ). 'Gキ ( 1 6 ) それは十分条件でもあり,逆行列 G *が(当然,正則行列G も)直交行列であれば,これを直交規準化回 復行列 JOに右側から作用させると新らたな直交規準化回復行列になるから,任意の直交行列 GWを規準化 完全系推定可能行列L u Oに左側から作用させ,転置直交行列 G W ' を直交規準化回復行列 JOに右側から作用 させて,直交規準化回復行列川と規準化完全系推定可能行列L u W との対の全部を得ることができる. この変換により,規準化完全系推定可能関数推定値 E O Y V( q q J O ) (式(14 ))も変換される: E W Y V( ‑ q q JQ ‑ )>二( 2 :@qqX=l,2, ・ . . ,1 q X 持L u W ( ‑ q q J , ひq q X ) .c v( q q X ) )> ( 16 a ) = (< L u W( ‑ q q J , ひ‑ q q X ‑ ) .c v( ‑ q q X ‑ )>) >= (<( G W .L u O( ‑ q q J , ひ‑ q q X ‑ ) ) .c v( ‑ q q X ‑ )>) > =G W .(2 :@qqX=l,2, … ,l q X 井L u O( ‑ q q J , ‑ Qq q X ) .c v( q q X ) )> 二 G W .E O Y V( ‑ q q J ひ)> さらに,式 ( 1 4 b )一( 1 1 f )に対応して,つぎ、の式が得られる. E W Y V( q q J O ) =< L u W( q q J O : ‑ q q X ‑ ) .c v( ‑ q q X ‑ )>=くJ W ( q q J O : ‑ 中 ) .y v( ‑ * ‑ )>二〈 川( q q J O :一 中 ) .y( 一 * 一 ) > y )J W ( q q J O : ‑ p p X ‑ ) > .E W Y V ( q q J O ) S W Y V ( q q J O ) =E W Y V ( q q J O )^2 y v( ‑ p p X ‑ )>二工 ( ‑233‑ ( 1 6 b ) ( 1 6 c )

232.

ただい推定可能開封院値 E 肝 V( q q J O ) の平方和は応答推定値平方和 S S Y Vに等しく,変化しない. S S Y V= l :@qqJO=!,2, … ,l p L u O 持E W Y V ( q q J O )^2= l :@qqJO=l, 2, … ,1 p L u O 枠E O Y V( q q J O )^2 ( l6 d ) S S Y V= l :@qqJO=!, 2 , … ,l p L u O 枠S W Y V( q q J O ) ( 1 6 e ) =l :@qqJO = ! , 2, … ,l p L u O 枠S O Y V ( q q J O ) 効果要素推定値目 ( q q X ) の規準方程式(式 ( 1 2 d ))はつぎにように変換される.しかし,その解として得 られる効果要素推定値c v( q q X ) は,代数的不定性を含めて,この変換で変化しない: L u W . c v ( ‑ q q X ‑ ) > =G W . L u O . c v ( ‑ q q X ‑ ) >=G W . J O ' . y v ( ‑ p p X ‑ ) >=]W' . y v ( ‑ p p X 一 )> ( 1 6 f ) ・正規分布揺動標本の定量 応答方程式(式 ( 2 ))で想定されている応答測定値 y( p p X ) の表示を観測方程式(式 ( 3 ))に代入して応答 推定値y v( p p X ) と推定残差v y( p p X ) とを定めるとつぎの結果が得られる. y ) .y( ー * ‑ )>= 1( y ) .( y y( 一 * ‑ )> + v vH‑)> )= 1( y ) .( X .c c( ‑ q q X ‑ )> + v v( ー 辛 )> ) y v ( p p X ) >= 1 ( Y ) . y v ( ー 恥 )>= 1( ‑ )> )= 1( V ) .v vH ‑ )> v y ( p p X ) >= 1 ( V ) . v y ( 一 辛 )>= 1( V ) .y( ー 恥 )>= 1( V ) .( y y( 一 * ‑ )> + v vH ( 1 7 ) :( y )S O Y V( q q J O ) S S Y V =l q q J O ε( y ) S O Y V( q q J O )= E O Y V( q q J O )^2 qqJOE( y ) S S V Y =l :( V )S O V Y( q q J O ) qqJOE( V ) S O V Y( q q J O )= E O V Y( q q J O )句 qqJOε(V) ( 1 7 a ) E O Y V ( q q J O )く =J O ( q q J O : ‑ * ‑ ) .y vH ‑)>く =J O ( q q J O :ー 恥 ) .yH ‑ )>=EOYY( q q J O )+ E O V V( q q J O ) q q J O ε( y ) E O V Y( q q J O )く =J O ( q q J O :ー吋.v yH‑)>く =J O ( q q J O :ー * ‑ ) .y( 一 * 一 ) >= E O V V ( q q J O ) q q J O ε( V ) E O Y Y ( q q J O )く =J O( q q J O: ‑ * ‑ ) .y y( ‑ * ‑ )>く =L u O( q q J O : ‑ q q X ‑ ) .c c( ‑ q q X ‑ )> y ) qqJOE( E O V V ( q q J O )く =J O ( q q J O : ‑ * ‑ ) .v v ( ‑ * ‑ ) > qqJOE( V ) ( 1 7 b ) ( 1 7 c ) v ( p p X ),y y ( p p X )三 0 ) とし,揺動標 応答測定値 y( p p X ) が揺動標本真値 v v( p p X ) のみを含む ( y( p p X )三 v r u n( = 0 ) および母標準偏差 s sの正規分布母集団の標本であるとすると,推定 本真値v v( p p X ) は母平均値 r 可能関数推定値 E O Y V ( q q J O )q q J O ε( y ) または E O V Y ( q q J O ) qqJOε(V) はどれも同じ正規分布母集団の独立 の標本となり,カイ二乗分布に基づいて,母標準偏差 s sを推定でき,また, F検定を利用できる. ・結果の要約・各種の S A S 推定可能関数の定量・各種の S A S平方和の定量 O >をつくり,計画行列Xに左側から転置 計画行列Xの列から S c h m i d tの方法で、直交規準化回復ベクトルJ 直交規準化回復ベクトルくJOを作用させて推定可能ベクトノレくL u O( 式( 8 ))の完全系を得る. 直交規準化回復行列 JOに右側から任意の逆正則行列 G *を作用させ,規軒ヒ完全系推定可能行列LuOに 左側から正則行列G を作用させて,回復行列Jと完全系推定可能行列 L u との対のすべてが得られる. その場合に,逆正則行列 G *のかわりに転置直交行列G W 'を用い,正則行列Gのかわりに直交行列 GWを u W との対のすべてが得られる. 用いると,直交規準化回復行列 ]W と規軒七完全系推定可能行列L こ対応する規準化完全系推定可能行列L u Oに基づいて定められる推定可能 任意の直交規準化回復行列 JOI 関数推定値 E O Y V ( q q J O ) の総平方和は応答推定値平方和 S S Y Vに等しい(式 ( 1 4 f ) ). 直交規軒ヒをしなし、一般の回復行列Jに右側l から任意の逆正則行列G W *を作用させて回復行列 ]W とし, 完全系推定可能行列 L uに左側から正則行列 GWを作用させて完全系推定可能行列L u W とするとき,効果要 素推定値c v( q q X ) の規準方程式(式 ( 1 2 c ) ) およびその解 c v( q q X ) は変換の前と完全に同値に保たれる. )応答測定値平方和SSYを S A S / S T A T R (パージョン6 ほか)では,応答方程式および観測方程式により, a 応答推定値平方和 S S Y V と推定残差平方和 S S V Y とに分解する演算,および, b )効果要素推定値c v( q q X )の 各々に関係する各種の S A S平方和 ( S S 1,S S 1 1,S S 1 1 1,S S 1 V ) の定量を中心目標とし, c )計画行列Xから完 全系推定可能行列 L uを抽出する演算にその全体を関連づけ, d )効果要素推定値c v( q q X ) または S A S 推定可 能関数推定値 ( E L Y V( q q J O ) など)について規準方程式を解く演算をその基礎としている. 4 )) を解く演算およびその左辺の行列 X ' Xから完全系推定可能行列 L uに到達する演算 規準方程式(式 ( に G a u s s ‑ J o r d a n ‑ D o o l i t t l e法を用いるが,それを利用しつつ,各種の完全系推定可能行列 L uおよび各種 の部分系推定可能行列Lに関連づけて,各種の S A S平方和 ( S S 1,S S 1 1,S S 1 1 1,S S 1 V ) を定義する. 応答測定値yが揺動標本真値 v vのみを含む応答方程式に効果成分真値 c c : Xの存在を追加して推定残差 s sI ),効果成分真値c c : A, c c : B, … ,c c : Kの全部を含む応答方程式か 平方和 S S V Yの縮減 R ( c c : X ) が発生し ( らどれか c c : Xを除外して推定残差平方和 S S V Yが拡大する ( S S 1I ):などによって各種の SAS 平方和が定量 され,各種の S A S平方和または推定可能開封佐定値 E L Y V( q q J O ) の平方和を 0とする仮説が検定される. 回復行列Jと完全系推定可能行列 L u とによる追跡は計算の意味を理解するのに有効である. ‑234

233.

SASによる欠測値の代入について ‑MIプロシジャおよび MIANALYZEプロシジャの使用例‑ 0高 田 康 行 、 萩 野 篤 司 、 矢 島 勉 医薬開発部 持田製薬株式会社 Theimputationf o rmissingdatausingSASprogram ー theexampleo fusingMIprocedureandMIANA 工YZEprocedure OYasuyukiTakata,A t s u s h iHagino,TsutomuYajima ,MOCHIDAPHARMACEUTICALCO., LTD. CLINICALDEVELPOMENT 要旨 臨床試験では不完全データの取扱いが避け難し、問題である。そこで、欠測値の代入方法 について簡単にまとめるとともに、欠測値の代入に使われる SASの MI フ。ロシ、ジャおよび、 MIANALYZE プロ、ンジャの具体的な使用例について、臨床試験における経時データを想 定した、ンミュレーション結果を交えて紹介する。 欠測値、単一値代入法、多重代入法、 MI プ口、ンジャ、 MIANALYZE プロ、ンジャ、 キーワード:経時データ 1 はじめに データの欠測は臨床試験でしばしば経験する。欠測を全く発生させないよう努力していても、現実的 には極めて困難である。欠測が発生する原因としては、有害事象の発現や中止・脱落による測定不 能などがある。経時データの統計解析に用いられる SASの MIXED プロシジャなどは、欠測値を含ま ないオブ、ザベーションのみを解析対象としている。これらのプロシジャで統計解析する場合に、欠測 値を含むオブ、ザベーションを無駄にしないようにする工夫が課題となる。 欠測値の取扱いには、欠測値に何らかの値を代入する方法がある。この方法として単一値代入法や I 値の代入について、シミュレーションにより生成した経時データ 多重代入法がある。 SAS による欠損J を用いて検討した。本報告では、 M l プロシジャと MIANALYZEプロシジャの使用例を中心に紹介 する 1) へ 2 .欠 測 値 の 代 入 方 法 単一値代入法では、 1つの欠測値に 1つの数値を代入して、 1つの擬似的な完全データセッ トを作成する。多重代入法では、複数個の値を代入し、複数個の擬似的な完全データセット U ηベU 巳υ ︐ っ

234.

を作成する。シミュレーションでは、単一値代入法として L astO b s e r v a t i o nC a r r i e dF o r w a r c l (LOCF)法 5)を、多重代入法として MarkovChainMonteC a r l o (MCMC) 法引を用いた。 不完全 デ-~セット コ と ミ て 複数個の 滋似的な 完全デ-~セッ 図1 .多重代入法で解析結果を得るまでのイメージ 3 . シミュレーションの手順 I I )不完全データセットの シミュレーションの手順は、最初に(1)完全データセットの作成と ( I V )経時データの統計解析、および (V)最 作成、次に(皿)擬似的な完全データセットの作成、 ( V I )解析結果の比較である。 SAS プログラムは付録に示す。 終的な解析結果の取得、そして ( ( 1 ) ーー+デ‑)1ステップ ー ‑M I X E Dプロシジャ H ・ . . .M Iプロシジャ .•• M I A N A L Y Z Eプロシジャ 冊 ( 単値代入法 (LOCF) 図2 .シミュレーション手順 多重代入法 (MCMC) ハ hu u nペ n ノ

235.

4 .完 全 デ ー タ セ ッ ト の 作 成 と 不 完 全 デ ー タ セ ッ ト の 作 成 4 . 1完全データセットの作成 シミュレーションにより、実薬対照並行群問比較試験を想定した経時データを完全データセ ットとして発生させた。測定値の誤差の設定には正規乱数 ( r a n n o r関数)を用いた。治療群 r a n b i n関数)を用いた。解析時に治療群と時点の交互作用の効果が有 の設定には二項乱数 ( 意とならないものとした。 : 2群 ( t r e a tニ 1 ,2 ) 治療群 実薬群は t r e a t=1 ,対照群は t r e a tニ 2 症例数 100例/群(計 200例) 時点の数 5時点 ( t i m eニ 0,1 ,2 ,3 ,4 ) 投与前は t i m e二 0,終了時は t i m eニ 4 表 1 完全データセットの要約統計量 オブザーベション 治療群 時点 。 2 3 4 。 2 2 3 4 数 N 平均値 標準偏差 1 0 2 1 0 2 1 0 2 1 0 2 1 0 2 9 8 9 8 9 8 9 8 9 8 1 0 2 1 0 2 1 0 2 1 0 2 1 0 2 9 8 9 8 9 8 9 8 9 8 4 5 . 9 3 4 . 5 2 3 . 1 1 1 .5 3 . 5 4 7 . 0 3 6 . 2 2 4 . 5 1 2 . 4 5 . 6 8 . 2 6 . 9 5 . 7 5 . 1 4 . 1 8 . 2 7 . 0 6 . 1 5 . 6 5 . 1 4 . 2 不完全データセットの作成 i s s i n gC o m p l e t e l yAtRanclom(MCAR) と MissingAtRanclom 欠担IJの発生メカニズムは、 M (MAR) がともに起きている状況とした日)7)。 MCARの条件:時点 2 以降、時点ごとに欠測が起こる確率を 0 . 1とする。 :予め設定した基準値(測定値が 1 0以下)に達した場合にその時点で中止 MARの条件 とし、直後の時点から欠測とする。 表2 . 不完全データセットの要約統計量 オブザーベション 治療群 時点 。 数 N 平均値 標準偏差 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 2 3 4 2 。 2 3 4 1 0 2 1 0 2 1 0 2 1 0 2 1 0 2 9 8 9 8 9 8 9 8 9 8 1 0 2 1 0 2 9 3 9 2 7 1 9 8 9 8 8 2 8 7 6 5 4 5 . 9 3 4 . 5 2 3 . 2 1 1 .5 5 . 4 4 7 . 0 3 6 .2 2 4 . 0 1 2 . 4 7 . 6 8 . 2 6 . 9 5 . 9 4 . 9 4 . 2 8 . 2 7 . 0 6 . 1 5 . 6 4 .7 nぺ u n︐白 ηi

236.

5 .擬 似 的 な 完 全 デ ー タ セ ッ ト の 作 成 5 . 1単一値代入法による擬似的な完全データセットの作成 SASのデータステップを用いて擬似的な完全データセットを作成すると代入には LOCF法を用 いた。 5.2多重代入法による擬似的な完全データセットの作成 1 ) 横並びデータへの変換 不完全データセットを縦積みから横並びにする。 2 ) プログラム MI プロシジャで擬似的な完全データセットを作成する。代入値の算出には MI プ口、ンジャ のデフォルトである MCMC 法を用いた。 proc m i data= work3 out=MIMCMC nimpute=5 seed=98765 round=1. minimum=O v a r treat timeO t i m e 1 time2 time3 time4 r u n data= :不完全データセットの入力 out= :擬似的な完全データセットの出力 nimpute二:作成する完全データセットの個数(この場合 5個の完全データセットを 作成) roundニ 作成される代入値の桁数の指定 m inimum=:作成される代入値の最小値の指定 v a r :代入値を作成するときに検討する変数。 Class ステートメントで指定し ていない場合には、数値 ( n u m e ri c )である必要あり 3 ) 擬似的な完全データセット 出力された擬似的な完全データセットの一部を示す。 表3 . 出力された疑似的な完全デ タセット O B S̲ I m p u t a t i o n ̲b a s e li n et r e a t s u b j i d T i m e OT i m e 1 T i m e 2 T i m e 3 T i m e 4 2 3 4 6 4 9 4 4 2 2 0 1 2 0 2 2 0 3 2 2 2 4 6 4 9 4 4 2 4 0 1 4 0 2 4 0 3 3 3 3 4 6 4 9 4 4 2 6 0 1 6 0 2 6 0 3 4 4 4 4 6 4 9 4 4 2 8 0 1 8 0 2 8 0 3 5 5 5 4 6 4 9 4 4 2 : ・ " 21 日 三 1 6 2 3 4 6 4 9 4 4 4 4 3 7 3 0 3 2 2 2 1 8 2 3 4 6 4 9 4 4 4 4 3 7 3 0 3 2 'u訪1'1:….!.~2 2 :...9...・ !"III'''~ 9 : . . . . 1 . : 1 8 2 3 4 6 4 9 4 4 4 4 3 7 3 0 i r三 1 6 3 2 n t T i ・ ・τ 三 2 2 ・ ‑・ ・事 . ' ・I IJ . . . . : ・ 9 ・ 1 8 ・ ・ 可 . . 2 3 4 6 4 9 4 4 4 4 3 7 3 0 3 2 2 2 1 8 L J A N i ‑ . . . . i A p ‑ ‑ • : . 1. 4 . . . ., . 9 : . . . . 3 . . : 2 3 4 6 4 9 4 4 4 4 3 7 3 0 3 2 2 2 1 8 C : 2 5 9 : ; …. 5 3 . " : :"1~"・ H ・ H ・年三 '"す ...;"II~・守 . . . . . . . . . ・ 山 s E z S . ~.・..‘・ 9 : … . . 2 . . : ..'は代入値を示す。 ‑238‑

237.

4 ) 実行結果 以下の実行結果が MI プロシジャにより得られる。 • ModelInformation • MissingDataPatterns • E M( P o s t e r i o rMode)Estimates • MultipleImputationVarianceInformation • MultipleImputationParameterEstimates 5 )ModelInformation 代入方法 (Method) は MCMC であることが示される。 MCMC が使われる場合の初期値は E MP o s t e r i o rMode であり、 E M( P o s t e r i o rM o c l e )Estimates に出力される。 M o d e lI n f o r m a t i o n D a t aS e t M e t h o d M u l t i p l eI m p u t a t i o nC h a i n I n i t i a lE s t i m a t e sf o rM C M C S t a r t P ri o r N u m b e ro fI m p u t a t i o n s N u m b e ro fB u r n ‑ i nI t e r a t i o n s N u m b e ro fI t e r a t i o n s S e e df o rr a n d o mn u m b e rg e n e r a t o r I 'O R K .I 'O R K 3 M C M C S i n g l eC h a i n E MP o s t e r i o rM o d e S t a r t i n gV a l u e J e f f r e y s 5 2 0 0 1 0 0 9 8 7 6 5 6 )MissingDataPatterns 欠測パターンが示される。 " X "は測定値、""は欠測値である。例えば、時点 3 (Time3) が欠 測値、時点 4(Time4) が測定値となっているオブザベーション数は 1 7 である。 M i s s i n gD a t aP a t t e r n s T i m e O T i m e l x x X X x P e r c e n t 4 0 . 0 0 3 7 . 5 0 8 . 5 0 1 .5 0 6 . 0 0 5 . 5 0 0 . 5 0 0 . 5 0 ︐・ x F r e q ﹁ ︐ ︐ 一 向 T i m e 4 ︐ ﹃ T i m e 3 一 VAVAV八 一 VAVAVAVAVA 一 VAVAVA VAVAVAVAVA 一 守 tQU VAVAVA VAVAVAVAVA 円 J 一凋斗 Ed b 1 1 つム内 T i m e 2 nHVFhd u n ι 2Z4EE4EE e'i‑eE14EE nHU t r e a t VAVAVA vA G r o u p X X 7 )MultipleImputationVarianceInformation 代入値の分散が示される。 Between が擬似的な完全データセット聞の分散で、あり、 Within が 擬似的な完全データセット内の分散で、ある。 M u l t i p l eI m p u t a t i o nV a r i a n c eI n f o r m a t i o n 一 一 一 ー 一 一 一Vari a n c e ‑ ‑ ‑ 一一一一一 e t w e e n l ' Ii t h i n T o t a l D F V a r i a b l e B 5 3 .1 5 0 . 0 1 0 3 5 5 0 . 1 7 5 3 5 5 0 . 1 8 7 7 8 1 1 T i m e 2 9 3 . 5 9 0 . 0 0 1 3 5 0 0 . 1 4 1 4 8 6 0 . 1 4 3 1 0 6 1 T i m e 3 4 0 . 4 2 0 . 0 0 6 5 9 5 0 . 0 9 0 8 8 0 0 . 0 9 8 7 9 4 1 T i m e 4 R e l a t i v e I n c r e a s e i nV a r i a n c e 0 . 0 7 0 8 6 2 0 . 0 1 1 4 5 0 0 . 0 8 7 0 8 2 F r a c t i o n M i s s i n g I n f o r m a t i o n 0 . 0 6 8 2 1 1 0 . 0 1 1 3 8 4 0 . 0 8 3 0 4 3 R e l a t i v e E f f i c i e n c y 0 . 9 8 6 5 4 1 0 . 9 9 7 7 2 8 0 . 9 8 3 6 6 3 u 円叫U n ペ ハL

238.

6 . 経時データの統計解析 1 ) 統計解析のモデ、ル 経時データの統計解析には、治療群、時点、投与前の測定値を固定効果とした周辺モデルを 用いる。 九k α+βIi(Treati)+β 2)(Time))+s3(Baselinek)+r)k +Ci)k ( 1 ) :切片 Y :測定値 α 官e a t :治療群 ( i = 1, 2 ) s l i Time :時点。 =0,1 ,2,3 ,4 ) 。 s2j kニ 1 , … ,2 0 0 ) B a s e l i n e :投与前の測定値 ( … 3 γjk Ei j k 治療群 iの効果 :時点 Jでの効果 投与前の測定値の効果 :時点 jでの症例番号 kの効果 誤差 統計学的検定の仮説を示す。 帰無仮説 Ho: s11‑ s12 = 0 対立仮説 H l:s11‑ s12 学 O 2 ) 縦積みデータへの変換 擬似的な完全データセットを横並びから縦積みに戻す。 3 ) 統計解析の実施 MlXED プ口、ンジャで完全データセット、不完全データセットおよび擬似的な完全データセット を統計解析するう完全データセット、不完全データセットおよび単一値代入法による擬似的な完 全データセットからひとつずつの解析結果を得るの多重代入法による複数個の擬似的な完全デー タセットから複数個のパラメータの推定値と分散共分散行列を得ると p r o cm i x e dd a t a= wo r k 4 c l a s st r e a tt i m e m o d e lv a l u e二 t r e a tt i m eb a s e li n e/s o l u t i o nc o v b r e p e a t e d/s u b j e c t = s u b j i dt y p e = c s I s m e a n st r e a t/p d i f fc lc o v b y̲ i m p u t a t i o n ̲ o d so u t p u tS o l u t i o n F = p a r m lc o v b = c o v b lI s m e a n s = l s ld i f f s = d i f l r u n 7 . 解析結果 MIANALYZE プロシジャで、多重代入法による擬似的な完全データセットから得られた複数個 のパラメータの推定値と分散共分散行列より解析結果を求める。 240‑

239.

1 ) プログラム *一一効果の推定値(分散共分散行列を必要とする場合) ‑ ‑ ‑ * : proc MIANALYZE parms二 p a r m l covb=covbl class treat tim巴 modeleffect intercept treat time 1'¥ラメータの推定値)" : title "多重代入法の結果 ( 一 [ r u n c o v b m o d e l e f f e c t 二 :パラメータ推定… : 1 '¥ラメータ推定値の分散共分散行列の入力 推定値を求めるパラメータの指定 *一一調整済み平均値の差(推定値と標準誤差のみを使用する場合)一一*: p r o cM I A N A L Y Z Ed a t a = d i f l m o d e l e f f e c te s t i m a t e s t d e r rs t d e r r t i t l e"多重代入法の結果(調整済み平均値の差)" : r u n 件 [ :パラメータ推定値…準誤差の入力 m o d e l e f f e c t 推定値を求めるパラメータの指定 s t d e r r 推定値を求めるパラメータの標準誤差の指定 2 ) 実行結果 以下の実行結果が MIANALYZE プロシジャにより得られる。 •M o c l e lInformation •M u l t i p l eImputationVarianceInformat i o n •M u l t i p l eImputationParameterEstimates 3 )M u l t i p l eImputationParameterEstimates パラメータの推定値が示される。下線部が治療群の効果の差 (sll‑sd である。 M u l t i p l eI m p u t a t i o nP a r a m e t e rE s t i m a t e s P a r a m e t e rt r e a t t s t i m a t eS t dE r r o r95首 C o n f i d e n c eL i m i t s i m e E i n t e r c e p t ‑17.864174 t r e a t ‑ 0.820084 1 o t r e a t 2 . o t i m e o 41 . 263000 t i m e 1 .0 30.208000 t i m e 2 . 0 1 8 . 5 7 7 0 0 0 . 8 9 3 0 0 0 t i m e 3 . 0 0 0 6 t i m e 4.000 b a s eI i n e 0 . 5 0 5 1 0 2 ∞ ∞ M i n i m u m M a x i m u m 1 .229173 ‑20.2735 ‑15.4549 0 . 4 0 4 4 6 8 0.0273 ‑ 1 .6 1 2 9 ‑ 1 5 5 4 1 ‑18.030122‑17.658374 1 6 6 3 9 ‑ 0 . 8 7 0 7 4 6 ‑0.745989 0 . 4 2 9 0 0 4 0 . 4 2 9 0 0 4 0 . 4 5 0 2 4 4 0 . 4 2 6 5 1 5 4 0 . 4 2 1 7 2 9 . 3 6 6 7 1 7 . 6 8 9 9 6 . 0 5 6 8 4 2 . 1 0 4 3 31 .0493 1 9 . 4 6 4 1 7 . 7 2 9 2 2 1 6 3 . 3 41.190000 41.3600 2 1 6 3 . 3 3 0 . 1 3 5 0 0 0 3 0 . 3 0 5 0 2 3 2 . 5 1 1 8 . 4 2 5 o1 8 . 8 1 0 0 3 9 5 6 . 8 6 . 7 9 5 0 0 0 6 . 9 6 5 0 0 0 0 . 0 2 4 8 8 4 0 . 4 5 6 3 0 . 5 5 3 9 6 4 7 3 . 2 。 。 ∞ ∞ D F 。 。 ‑241 。 。 ∞ ∞ ∞ ∞ 0 . 5 0 1 3 2 1 0 . 5 0 9 3 4 1 。 。

240.

M u l t i p l eI m p u t a t i o nP a r a m e t e rE s t i m a t e s t i m e r e a t P a r a m e t e r t tf o rH O : T h e t a O P a r a m e t e r = T h e t a O P t l r >I nunu 一nununununununu i n t e r c e p t 1 .000 t r e a t t r e a t 2.000 0 t i m e 1 .000 t i m e t i m e 2.000 3.000 t i m e t i m e 4.000 b a s e li n e 一14.53 ‑2.03 96.18 7 0 . 4 1 41 .26 16.16 20.30 <.0001 0.0426 <.0001 < . ∞ 01 く.∞ 0 1 < . ∞ 01 < . ∞ 01 4 )M u l t i p l eI m p u t a t i o nV a r i a n c eI n f o r m a t i o n パラメータの推定値の分散が示される。 B etweenが擬似的な完全データセット聞の分散で、あり、 W i t h i nが擬似的な完全データセット内の分散で、ある。 M u l t i p l eI m p u t a t i o nV a r i a n c eI n f o r m a t i o n ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ V ar i a n c e n T o t aI B e t w e e n W ithi ーーーー P a r a m e t e r t i m e t r e a t R eI a t iv e F r a c t i o n M i5 5i n g R eI a ti v e I n c r e a 5 e D F i nV a ri a n c e I n f o r m a ti o nE f f ic ie n c y i n t e r c e p t 0 . 0 2 0 1 9 9 1 . 4 8 6 6 2 7 1 .510866 15541 0 . 0 0 2 1 1 4 0 1 .000000 . 1 6 3 5 9 4 1 . 1 6 1 0 5 8 0 6 6 3 9 t r e a t 0 2 . 0 0 0 0 0 0 t r e a t 0 0 0 0 . 0 0 6 5 9 5 0 . 1 7 6 1 3 1 0 . 1 8 4 0 4 5 2 t i m e 1 6 3 . 3 1 .000000 .1 8 4 0 4 5 2 0 . 0 0 6 5 9 5 0 . 1 7 6 1 3 1 O t i m e 1 6 3 . 3 2 . 0 0 0 0 0 0 t i m e . 2 0 2 7 2 0 2 0 . 0 2 2 1 5 7 0 . 1 7 6 1 3 1 0 3 2 . 5 1 t i m e . 1 8 1 9 1 5 3 9 5 6 . 8 0 . 0 0 4 8 2 0 0 . 1 7 6 1 3 1 0 3 . 0 0 0 0 0 0 4 . 0 0 0 0 0 0 t i m e 0 0 0 0 . 0 0 0 0 1 2 8 2 7 0 . 0 0 0 6 0 4 0 . 0 0 0 6 1 9 6 4 7 3 . 2 b a 5 eI i n e 0 . 0 1 6 3 0 5 0 . 0 1 5 7 4 9 0 . 0 1 6 1 7 0 0 . 0 1 5 6 2 3 0 . 9 9 6 7 7 6 0 . 9 9 6 8 8 5 0 . 0 4 4 9 3 3 0 . 0 4 4 9 3 3 0 . 1 5 0 9 6 2 0 . 0 3 2 8 3 9 0 . 0 4 3 8 8 4 0 . 0 4 3 8 8 4 0 . 1 3 8 5 4 0 0 . 0 3 2 2 8 4 0 . 9 9 1 3 0 0 0 . 9 9 1 3 0 0 0 . 9 7 3 0 3 9 0 . 9 9 3 5 8 5 0 . 0 2 5 4 9 2 0 . 0 2 5 1 5 9 0 . 9 9 4 9 9 3 5 ) 治療群の調整済み平均値の差の推定値 治療群の調整済み平均値の差について解析結果を示す。調整済み平均値の差は MIXEDプロ シジャで、 l s m e a n s ステートメントの p c l i f fオプションにより求めた。モデルに交互作用項 を含まない場合、治療群の調整済み平均値の差と治療群の効果の差は等しくなる。 M u l t i p l eI m p u t a t i o nP a r a m e t e rE s t i m a t e s P a r a m e t e r E s t i m a t e S t dE r r o r 95首 C o n f i d e n c eL i m i t s e s t i m a t e ‑ ‑1.61288 ‑0.02728 0 .82 84 0.404468 ∞ D F 16639 tf o rH O : P a r a m e t e r T h e t a O P a r a m e t e r = T h e t a O P r>I t l ‑2.34 e s t i m a t e 0.0426 O ‑242 M i n i m u m M a x i m u m ‑ 0.870746 ‑0.745989

241.
[beta]
8
.解析結果の比較
解析結果は、治療群の効果の差の推定値

①

(s11‑sd をもとに比較した。

完全データセットの解析結果
自由度 It値
1
9
7 I‑
2
.
0
0

②

不完全データセットの解析結果

③

単一代入法 (LOCF) による擬似的な完全データセットの解析結果

④

多重代入法 (MCMC) による擬似的な完全データセットの解析結果

完全データセットでは統計学的な有意差が認められたが、不完全データセットでは認められ
なかった。単一値代入法 (LOCF) による擬似的な完全データセットでは有意差が認められ
なかったが、多重代入法 (MCMC) による擬似的な完全データセットでは有意差が認められ
た。本報告のシミュレーションでは、データセットの種類や欠測値の代入方法により解析結
果が異なった。

9
. おわりに
欠測値の取扱いには、欠測値に何らかの値を代入する方法がある。この方法として単一値代入法や
多重代入法がある。 SASにおける欠測値の代入として MI プロシジャと MIANALYZE プロ
シジャの使用例を紹介した。臨床試験では解析結果の感度分析として、 F
u
l
lAna
l
y
s
i
sSet と

PerP
r
o
t
o
c
o
lSet の解析結果を比較することがある。それと同様に単一値代入法と多重代入
法の解析結果を比較することは、感度分析の方法のーっとして有用であろう。
ιヰ1
1
/{
1',
'
¥'
:
''

1
0
.参考文献

'
( ('ノ

1
)TheMIP
r
o
c
e
d
u
r
e
. SASOnlineDoc™: V
e
r
s
i
o
n8
く

d
~:
!f
'イゴホ労乃ー

iI
十 月 点 パ ? 吋‑
1
)ども

h
t
t
p
:
/
/
s
u
p
p
o
r
t
.
s
a
s
.
c
o
m
/
r
n
c
l
/
a
p
p
/
p
a
p
e
r
s
/
m
i
v
8
0
2
.
p
df
>

2
)TheMIANALYZEP
r
o
c
e
c
l
u
r
e
. SASOnlineDoc™; V
e
r
s
i
o
n8
く

h
t
t
p
:
/
/
s
u
p
p
o
r
t
.
s
a
s
.
c
o
m
/
r
n
c
l
/
a
p
p
/
p
a
p
e
r
s
/
m
i
a
n
a
l
y
z
e
v
8
0
2
.
p
df
>

,¥刊イ‑
:
Ai
ヶ

1
"
:
'
'
‑
/
‑
:
<
'

/
;‑
(

3
)TheMIP
r
o
c
e
c
l
u
r
e
. SASOnlineDoc9
.1
.2f
o
rt
h
eWeb
.2f
o
rt
h
eWeb
4
)TheMIANALYZEP
r
o
c
e
d
u
r
e
. SASOnlineDoc9
.1

ふ

μ

ノ

ド !
v
. , v(Jffi

ρ

j

i
Gh
t iftifパ);

いι
JC
)1
.( (

f 'r

〈

¥

, 1
;
1

‑243ー

J ? J / ? fメ

l

.
i
バ
ぐ

¥

/
'
!

i

陶周〆

f
t

I

ケイ

AFqt

ハ(

e

〆

古〆〆

‑
1I
.~.!)
,
.
,

〆
令
'

~若
ι

も

0(

2

J

グ /'

〆耳ー

242.

http://support.sas.com/onlinedoc/912/docMainpage. j s p > く 5 ) 岩崎学 (2002) 不完全データの統計解析エコノミスト社 6 ) 松山裕.山口拓洋訳 (2001) 医学統計のための線形混合モデ、ル.サイエンテイスト社 7 )R .J .A.L i t t i l e .D.B .Rubin(2002)StatisticaIAnalysisWithMissingData.JohnWiley& SonsInc 8 ) 渡辺美智子,山口和範 (2000)E Mアルゴリズムと不完全データの諸問題多賀出版 9) 小野俗亮 (2000) 欠担~値があるデータを扱う MI プロ、ンジャについて. SAS医薬ワーキンググ ノレーブ発表 1 0 )D.B .Rubin(1976)Inferenceandmissingdata.Biometrika,6 : 3,: 3,581・592 仲林梓件特完全データセットの作成材梓件特梓; 付 録 .SASプログラム (SASVer9 . 1 日本語版) 凶 ︑︐ ︾ 河 リ ︾ 曹 ︾ 盲内︽ ︾ 牢牢牢牢 ︾ ︾ i m p= 1 e n d e n d ) ) . )︐ )) )) ) )))) ︑ η ua υaAマ F n F n F n F n n n u J d v n u J d v n u J dv ﹁ 町 ベ ﹁ 町 ベ 町 ベw ﹁ 町 ベ (w (w (u (﹁u u﹁ u﹁w ﹁ ﹁ n U u nununu n川 n川 門 川 門 川 nUnUnUnU 匁 u 笥 勾α qα ﹁﹁﹁﹁ 笥 η φ u ηφ u ηφ u ηφu ++++ )) し 11 +L+L 免 u ρ νvρ 牢牢 件特梓件特不完全データセットの作成梓件特件特: キ ー ー ̲MCAR̲ ̲ ̲ * : d a t aw o r k 2 s e tw o r k l b sv a [ u e=v a [ u e l a b e lb s ̲ v a [ u e="欠測発生前の値" i ft i m e>1t h e nd o i fr a n b i n ( s u b j i d .1 . 0 .1 ) = 1t h e nd o v a l u e= ー b sv a l u e e l s ev a l u e= r u n 率 一 ー ̲MAR̲ 一 一 本 , d a t aw o r k 2 a s e tw o r k 2 b ys u b j i dt i m e r e t a i nm a r . i ff ir s t .s u b ji dt h e nm a r= ﹁﹁ +L+L ( ( 1 ‑244 し 1 咽 η L ++ a n a 斗守﹁ D n a n ' ' ' ' ︐ ︐ ︐ ︐ ' ' ' ' ︐ ︐ ︐ ︐ 守 斗 斗 ρvρ守 uouou nun川 阿 川 阿 川 El‑‑‑l ・ l ρuρνρνρu scuss q G 内d 内d 内d tnutnUEhUEhu 一一‑‑ o b ‑‑ n u ︽ 品 r u n. ••• o u cuρuouou qavlVIv‑ ‑D De enド ( ( (D( InuInuinuinu ‑‑nHnun川 阿 川 HUHuuuuu 'oununununu nHvlvlvlvI nu‑‑l'''' LKIll Unununu re(((( osxxxx "qaqaqGqGqG lnum川 m川 m川 m川 + L ・ ・一 一 一 一 = = = e‑‑ P04yw eeeee ト 呈 ; ︑ EJJUIUlu1u1u1n1rt‑i l l コ‑3 匂 け リ ・ ・ 同開 auauauauauEτ ‑ J ・.︐ JnuvvvvVH 匙町‑﹃ TH k一 吉 旦 ‑ E' 凋守孝す羽官 01'nnnnn 沼 列凡又 'queeeee 与 ホ Jrt'Mlp ヒ ノ ¥nu'hHhHhHhHhHa 匁﹄F﹄H ﹄ヨ怜ピム ・ lJnuqL+L+L+L+L+L‑‑ 仏コ串別区内刊日 ︑ f t パw = 主 qL'& リ zd 昨 日 戸M =ft Enu'EqLqdaT e M ρun 川 'Hu‑‑ouH ﹁・ Inu‑‑一一===Il n= ニ e ・ l= ・ 'b‑‑a‑d lIle hHn=eeeeev+L ・ ・ lJmmmmm+LaiJeeu wnua VIe‑Illi‑‑li'一一ue ﹂ USm1la ・ la ‑‑‑lJ=mtttttprua ・ le+L+LS'b+LV じ n=; 干h 手﹄ F rnAut TFT 手 ﹄ ﹁ U 0 l ・ t ' E I ・ ‑lili‑‑l I ・ nvo‑‑‑‑ Waa‑‑Joe +LE+ιUAUAuhu u 笥 ρuvlHunHau trtlJse‑‑ nd I n u ︑ ︑ d a t aw o r k O d o i=1t o3 0 0: o u n d ( 4 5+ 8 * r a n n o r ( 4 9 8 9 ) ) b a s e l i n e= r i f3 0く= b a s e li n e t h e no u t p u t e n d r u n:

243.

i fm a r> 0t h e nv a l u e= a l u eく 1 1t h e nm a r =v a l u e i f .く v r u n 材料材料林多重代入法での擬似的な完全データセットの作成**材料材料; d a t aw o r k 3 ( k e e p= treat subjid baseli n et i m e Ot i m e lt i m巴2ti m e 3ti m e 4 ) b y s u b j i d r e t a i nT i m e OT i m e lT i m e 2T i m e 3T i m e 4 a r r a yx x x ( 5 )T i m e OT i m e lT i m e 2T i m e 3T i m e 4; i ff i r s t . s u b j i dt h e nd o i= 1t o5 x x x( i )= e n d x x x ( t i m e + l ) =v a l u e i fl a s t . s u b j i d r u n *一一一 MCMC一一*: p r o cm id a t a= work3 out=MIMCMCnimpute=5 seed=98765 round=l. v a rt r e a ttimeOt i m e lt i m e 2t i m e 3time4 r u n d a t awork4 s e tMIMCMC b y̲imputation̲s u b j i d a r r a yx x x ( 5 )T i m e OT i m e lT i m e 2T i m e 3T i m e 4 ,2 ,3,4 ; d ot i m eニ 0,1 v a l u e=x x x ( t i m e + l ) r e a t* t i m e t r e a tt i m巴 = t o u t p u t e n d k e e p̲imputation̲t r e a ts u b j i db a s e li n et i m ev a l u et r e a t ̲ t i m e r u n. 材料材料神経時データの統計解析材料梓材料; p r o cmixeddata=work4 c l a s st r e a tt i m e m o d e lv a l u e =t r e a tt i m eb a s e li n e/s o l u t i o nc o v b r e p e a t e d/ s u b j e c t = s u b j i dt y p e = c s; I s m e a n st r巴a t/ p d i f fc lc o v b y̲imputation̲ o d s 1i s t i n gc l o s e o d so u t p u tS o1 u ti o n F = p a r m lc o v b = c o v b11 s m巴a n s = l s ld i f f s = d i f l r u n o d s 1i s ti n g 材料材料林解析結果梓件特材料, トーパラメータの推定値‑̲*; p r o cMIAN札 YZEp a r m s = p a r m lc o v b = c o v b l c l a s st r e a tt i m e f e c ti n t e r c e p tt r e a ttim 巴 b a s巴1i n e m o d e l巴f t i t l e "多重代入法の結果(効果の推定 γ; r u n * ー調整済み平均値の差‑̲*; p r o cMIANALYZEd a t a = d i f l m o d e l e f f e c te s t i m a t巴 s t d e r rs t d e r r t i t l e "多重代入法の結果(調整済み平均値の差)" ; r u n s e tw o r k 2 a 神 料 + A T * 金 aT 1 + 干 し KH ‑vh *; 2 柿‑・ eemT=・ 11 ω VA ρν+L mHN 白河‑oe ︑ 園 士ロ ‑wm 析 タ hut 解一 抗 *デ d 同 +ATd二 神{元・ *﹀ニ 一 合 晶T q G +AT‑pu‑‑﹄ +AT‑nuFU VE + A T +AT+ATnド nノμ A4 ロ リ

244.

m o d e l value= treattime b a s e li n e/ solution c o v b repeated/ subject=subjidtype=cs I s m e a n s treat/ pdiff c l cov title "完全データの結果" r u n title トー不完全データ‑‑‑*; procmixed data=work2a c l a s s treattime m o d e l value= treattime b a s e li n e/ solution c o v b repeated/ subject=subjidtype=cs I s m e a n s treat/ pdiff c l cov title "不完全データの結果" r u n title ods I i s t i n g 率 一 一 一 LOCF一 一 一 本 ; data work5 setwork2a b y subjid time ; retain LOCF i f first.subjidthen LOCF =. i ftime> 0 and value> ー thenLOCF= value i ftime> 0 and value= .then value= LOCF r u n procmixed data=work5 c l a s s treattime m o d e l value= treat time b a s e li n e / solution c o v b repeated/ subject=subjid type=cs I s m e a n s treat/ pdiff c l cov title "LOCFによる擬似的な完全データセットの解析結果" run title A斗‑ nhu n︐白

245.

SAS9 : 統計プロシジャの概要 泉水克之 SASI n s t i t u t eJapan株式会社 技術本部テクニカルサポート部 SAS9 :Overviewo fS t a t i s t i c a lProcedures K a t s u y u k iI z u m i Te c h n i c a lSupportD e p . .Te c h n i c a lS e r v i c e sD i v . . SASI n s t i t u t eJapanL t d . 要旨 SAS9 においても、統計解析や時系列データの分析、最適化の分野では、数多くの拡張 が行われている。本稿では、最新のリリースとなる SAS9.1で、の分析系のフ。口、ンジャについ て、その主な新機能を紹介する。 キーワード: SAS9、 SAS/STA丁 、 SAS/ETS、 SAS/OR、 SAS/IML はじめに SAS9では、データ解析において使用するプロシ、ジャに対しでも数多くの拡張が行われた。理論の進歩や コンピュータ環境の発展につれ、極めて高度な分析も数多く実現可能となっている。 2 0 0 2 )や泉水 ( 2 0 0 2 )で、は、 SAS9の初期リリース SAS9.0に関する内容が既に公開されているが、本 小玉 ( aseSAS、SAS/STAT、SAS/ETS、SAS/OR、及び SAS/IMLソフトウェアにお 稿ではその内容も含めて B ける SAS8から SAS9への主な拡張点をご紹介する。なお、米国 SASI n s t i t u t eI n c .の WEBサイトで はオンラインドキュメントが無料で公開されており、 SAS9をインストールしてない環境でもその概要をうかが い知ることが可能である。 http://support.~s.com/documentation/onlinedoclindex.html e戸 一 一 機能によってはいわゆる「評価版」として提供されているものも存在するが、それらについては i e x p e r i m e n t alJと明記している。 ‑247‑

246.

2B a s eSASソフトウェア 2 . 1 FunctionsandS u b r o u t i n e s 幾何平均や調和平均、及び中央値を計算する関数が、それぞれ関数 GEOMEAN、HARMEAN、 MEDIANとして追加された。また、 SAS8では評価版の扱いであった Mersenne' l ¥ vi s t e rに基づく乱数 生成の関数 RANDが正式なものとなった。乱数列の性質の良さや生成速度の面からすると、古くから存在 する RANUNI、RANNOR関数ではなく、 e サフ守ルーチンとして、変数値の並べ替えを行うものが 3 種類追加された。また、 SOFTMAX 変換、 LOGISTIC変換を行うサブルーチンも利用可能となった。 関数やサブルーチンに関しては、上記以外にも様々なものが新たに利用できるようになった その他に追 C 加された関数など、詳細については BaseSASのドキュメントに分野ごとにまとめられて紹介されている。 2 . 2 Procedures CORRフ。ロシジャで、は、 F i s h e rの z変換に基づいた「母相関係数 =ρ(*O)Jを帰無仮説とした検定や、 母相関係数に対する信頼区間の算出が可能となった。 6新たに追加された FCMPフロシジャを利用すると、ユーザー定義の関数やサブルーチンを作成することが D できる。 FCMPフ ロシジャによって定義された関数は、 SAS/STATや SAS/ETS 、及び SAS/ORのプロシ o J Iえば非線形最小 2乗法に基づく回帰を行う N LINプロシジャや、非線形最適化を行う NLPプロ ジャ、O" シジャなどで、使用可能である。 p d "7 . ‑7 " , ri'づ イl よ1 ;1 同 MEANSプロシジャなど、幾つかのフロロシジャで、は複数 CPUを用いた並列処理の機能がサポートされたc BaseSASでは、その他にも SQLフ。ロシジャの一部の機能、 REPORT、TABULATE、及び SORTプロ シジャにおいて並列処理が可能である。 3 SAS/STATソフトウェア 3 . 1 PowerandSampleS i z e 新たに追加された pOWERフ ロシジャには、下記のステートメントを利用してそれぞれに対応した検定に o 関する検出力の計算や、要求に応じたサンプルサイズ を算出する機能が備わっている。 P • MULTREGステートメント ・ 》 回帰分析における TYPEI I IF検定 ONEWAYANOVAステートメント シ 1元配置分散分析における対比に対する検定 ‑248

247.

• ONECORRステートメント ・ Pearsonの相関係数に関する検定 ・ 2項検定 ~ ONESAMPLEFREQステートメント ~ PAIREDFREQステートメン卜 ~ • McNemar検定 TWOSAMPLEFREQステートメント ~ ・ ・ 2x2表に対する Pearsonのカイ 2乗検定、尤度比検定、及び Fisherの正確検定 ONESAMPLEMEANSステー卜メン卜 ~ 1標本に対する t検定、同等性検定など PAIREDMEANSステートメン卜 〉 • 対応のある t検定など TWOSAMPLEMEANSステートメント ・ ~ 2標本に対する t検定、同等性検定など TWOSAMPLESURVIVALステートメン卜 〉 生存時間解析における Gehan検定 ( W i l c o x o n検定)、 Log‑Rank検定、及び Tarone‑Ware 検定 一方、 GLMPO~府R プロシジャでは、より複雑な分散分析モデルにおける様々な対比について、検出力 やサンプルサイズの計算を行うことができる。 また、 SAS/GRAPHソフトウェアを利用で、きる環境で、あれば、 PLOTステートメントを利用して標本数と検出 力の聞のグラフを作成することが両プロシジャで可能である。 こ れ ら の 計 算 は FPSS(PQ r " n r l lV凸 f 3月 m n l ρ 町'70)アプ。l]メァーシ守ンを別途 画函函画iiilEii函E直面t l '冨盟国直図面圃・量幽ニ 園町田 一 ̲ " . 園 田E 田園田E 百 四 百E ーーーーーーーーーーーーーーーーーー『醐̲1:1彊z F lnpulPardflleters Hypothesis Description: ITwo‑$dm 凶"山 」と旦止こ」 D i s t r i b u t i o n インストールすると、ブラウザ上のマウス することができる。 ( 図 l 、図 2 ‑ 1、図 2・2 ) ド1 eεns Standard Deviation . 山﹁﹁ 操作によってその基本的な内容を実現 主 竺j Alpha ? $ ョ mpleS i z e RcsultsOptiOI 1S C : ; : 弓 Summa 同 Table Menns Graphs Group1Group2 N a r r a t i ¥ ' e s ? r o ‑1 6 0 一 一 「一一 「一一 『弓 oSelectAltemateForm Standal‑dOevialion Common τ F一 一 「一一 図l 入力画面 ? υ 円同 Aせ n︐白

248.

軍曹~哩需要理園田開閉棚田町胃唖 m 1 o t . 1s ‑ .!.S.d 図 2・2 出力 ( 2 ) 図 2・1出力 ( 1 ) なお、 POV ¥ 司R、及び GLMPOv ¥ 司Rプロシジャの開発者らによる論文 C a s t e l l o e ( 2 0 0 0 )、C a s t e l l o eand O ' b r i e n( 2 0 0 1 )、O ' b r i e nandC a s t e l l o e( 2 0 0 4 )では、 SASを利用した検出力とサンプルサイズ の設計方 2 0 0 3 )が有用であろう。(但し、 2つのプロシジ、ヤ 法に関する解説がある。また、日本語の書籍としては永田 ( で対応している全ての内容が同書で・カバーされているわけではない。) @ M u l t i山 Impu凶 on SAS8 . 1では、多重代入法に基づいた欠損値の代入(補完)を行う MIプロシジャと、作成された 擬似完全データをもとに評価を行う MIANALYZEプロシジャが評価版として追加されており、既 に多くのユーザーに利用されていた。この分野における日本語の書籍としてほぼ唯一のものである 岩 崎( 2 0 0 2 )でも、多重代入法の理論とともにこれらのプロシジャの簡単な解説が記載されている。 SAS9.1では様々な新機能が追加され、 F規版のプロシジャとなった(但し、新機能の多くは評価 版の扱いである)。 主な追加機能としては、欠測パターンが単調である場合に判別分析やロジスティック回帰に基づい た多重代入法がサポートされた。また、回帰モデルから得られた予測値と近いオブザベーションの 中から代入値を選ぶという、回帰分析に基づいた代入方法と似た手法も追加されている。その他、 変数ごとに代入方法を選ぶことができるように構文が拡張されている。 3 . 3 RobustRegression さまざまな統計手法において、し、わゆる「ロバスト J な考え方が研究されている。概念、自体は古くから存在し ているものであるが、現実的な時間で、処理が可能となったのは比較的最近のようで、ある o SASの最新リリー スで、正規版となった ROBUSTREGプロシジャは、線形回帰分析に対応した 4つのロバストな推定方法、 すなわち M 推定、 LTS推定、 S推定、及び M M推定をサポートしている。 泉; ) < . ( 2 0 0 2 )では、その簡単な概要が紹介されている。より詳細な理論については、同論文で、引用している 文献を参照されたい。 ‑250‑

249.

3. 4 SurveyDataAnalysis 何らかの標本調査法、たとえば層別抽出や集落抽出品、った方法に基づいてデータを収集した場合には、 それらを考慮、した分析が要求される場合がある。 SAS8では、さまざまな抽出方法を実現する SURVEYSELECTプロシジャ、また平均に関する解析や回 帰分析に対する SURVEYMEANS、および SURVEYREGプロシジャが既に提供されていた。 SAS9においては、度数表やクロス集計表に関する SURVEYFREQプロシジャと、ロジスティック解析に 対する SURVEYLOGISTICプ口、ンジャが新たに追加された。 @ S u r v i v a lA n a l y s i s Coxの比例ハザード モデ、ルを扱う PHREGフ。ロシジャで、は、名義尺度の変数を説明変数として扱うことが できなかった。 SAS9ではテスト版の TPHREGプロシジャが提供されており、 CLASSステートメントで名 義変数を指定してモデルに含めることが可能である。また、 LOGISTIC プロシジャなどと同様に、 CONTRASTステートメントを利用して任意の対比に関する検定を行うことができる。既存の PHREGプロ シジャに対しても、いくつかの拡張が行われているじ 一方、ノンパラメトリックな解析手法に対応しているLlFETESTプ口、ンジャで、は、新たに追加された SURVIVALステートメントを用いて、生存関数の推定値に対する「同時信頼区間」を計算で、きるようになっ i l c o x o n検定やログランク検定以外にも、 Tarone‑Ware検 た。また、旧来からサポートされてしも一般化 W e t o・P e t o検定、及び H a r r i n g t o n ‑Fleming検定が、生存関数を比較する検定として適用可能となっ 定 、P た。また、トレンド検定もサポー卜されている。これらは、いずれも STRATAステートメントのオプションとして 指定する。 3 . 6 MixedModel 線形混合モデ、ルを扱う MIXEDプロシジャで、は、 RANDOMステートメントや REPEATEDステートメント で指定する共分散構造として、 f Maternc l a s s Jに属する構造が新たにサポートされた。 混合モデ、ルにおける残差分析や影響度診断を行うオプションが、評価版の機能として利用可能となってい る。後述の ODSGRAPHICSステートメント ( 5S t a t i s t i c a lGraphの項)を併用すると、よりグラフィカルな 結果を得ることができる。 また、 MODELステートメントの LCOMPONENTSオフ ションは、 TYPEl、 2、 及 び 3の推定可能関数 o に基づいて、固定効果に対するある種の検定を行うものである。 3 . 7 L o g i s t i cR e g r e s s i o n 過去のリリースでは、いわゆる条件付きロジスティック分析を行うために PHREGプロシジャを代用していた が 、 SAS9で LOGISTICプロシジャに新たに追加された STRATAステートメントを利用して実現すること がで、きるようになった。また、同じく追加された SCOREステートメントを使用して、日J Iデータに対するスコア リンク守を容易に行うことが可能となった。これらの内容については、深海 ( 2 0 0 2 )が詳しい。 3 . 8 D i s t a n c e s クラスター分析 (CLUSTERプロシジャなど)や多次元尺度構成法 (MDSプロシジャ)では、データ聞の 2 5 1

250.

「距離」としてどのようなものを利用するかが一つの問題となる。 SAS の以前のリリースでも、マクロ (%DISTANCE)で距離に相当する数値を算出できたが、最新リリースでは DISTANCE プロシジャが追 加され、利便性が大幅に向上した。 3 . 9 P a r a l l e l i z a t i o n 使用しているシステム上で複数の CPU が利用可能な場合、 SAS9 の一部の機能に関してはそれらの CPUにタスクを分散させることができる。 SAS/STATソフトウェアにおいても、 GLM,LOESS,REG,及び ROBUSTREGプ口、ンジャで、は複数の CPUを用いて並列処理を行う機能が備わっている。また、 SASE n t e r p r i s eMinerソフトウェアの内部で 使用される幾つかのプロシジャでも、並列化を行うことができる。これにより、計算量が極めて大きな解析を 行う際に、処理時間の短縮が期待される。 Cohen(2002)で、は、パフォーマンス向上の結果がレポートされている。 3 . 1 0 OtherEnhancements 他のプロシジャにおいても、様々な拡張が行われている。 • FREQプロシジャの羽TEIGHTステートメントでは、新たに ZEROSオプションが追加された。 WEIGHTステートメントで指定した変数の値が Oであるときには、初期設定ではそのオプザ ベーションは分析から除外されるが、このオプシヨンを指定すると使用されるようになる。こ れによって、 1標本に対する 2項検定や McNemar検定などにおいて、度数が Oであるセルが 存在するときに適切な結果を返すことが可能となる。また、 MODELステートメントの BDT オプションは、 B r e s l o w 'Day検定において Taroneの調整を行うものである。 • FACTORプロシジャでは、 NOPROMAXNORMオプションが追加された。これは、プロマッ クス回転を行う際に使用するターゲット行列を作成するとき、列の規準イじを行うか否かをコン ・ トロールするオプションである。 カーネル密度推定に対応する KDEプロシジャでは、構文が大幅に変更された。 1変数と 2変 数の場合に応じて、それぞれ UNIVAR、BIVARステートメントを使用する。 4 SAS/ETS ソフトウェア 4 . 1 GeneralizedMaximumEntropy( E x p e r i m e n t a l ) 一般化最大エントロピー ( G巴n e r a l i z e di v l a x i m u mE n t r o p y )法に基づく線形モデ ノレの解析に対応した評価版 の ENTROPYフ。ロシジャが新たに利用できるようになった。 パラメトリックなアフ。ローチでは誤差項に何らかの分布を仮定するが、たとえば外れ値が存在するときやデ ータ数が少ない場合には適切でないことも多い。 ENTROPYプロシジャでは、情報理論におけるエントロヒ。 ーの理論を応用した解析が行われる c この手法は前記のような問題に対してより有効であるといわれており、 経済学の分野や時系列解析の場面において利用されている。 phu nノu nノu

251.

4 . 2 UnobservedComponentsModels Un o b s e r v e d ComponentsModels(UCM)は、時系列をトレンド成分、季節成分、循環成分、及びランダ ムな項に分解するある種の方法を実現するものである。 UCM では状態空間モデルの表現が使用されて おり、時系列に対する他の手法、たとえば ARIMAモデ ル等と比べて優れている点を持つといわれてい る 。 UCMは日本ではまだそれほど普及していない模様であるが、 SAS のソリューション群ではこのモデ、ルが 現実的な解析手段として登場するようである。 4 . 3 Q u a l i t a t i v eandL I m i t e ddependentv a r i a b l eModel 新たに追加された QLIMプロシジャは、被説明変数が離散的な値をとる、または制限された値のみをとる モデ ルを扱うことがで、きる。この中には、以下のような数多くのモデ、ルが含まれる。 ・ ・ L o g i t 、及び P r o b i tモデル • B i v a r i a t eL o g i t、及び B i v a r i a t eP r o b i tモデル T o b i tモデル • Heckmanのサンプルセレクションモデル など 4. 4 OtherEnhancements • MODELプ口、ンジャで、は、旧来より多種多様な推定方法がサポートされていたが、 SAS9以降でい fMoments)と呼ばれる手法が追加された。これは、モテ、ル式の わゆる SMM(SimulatedMethodo 中に積分項が存在する際などで有用なものである。 EXPANDプ口、ンジャで、は、 H o d r i c k .P r e s c o t tフィルターがサポートされた。 ・ ・ • 時系列予測システムでは、 %FORECASTマクロを利用するとパッチモード のように実行することが 可能になった 0 米国 C ensus局が開発している季節調整法 X12.ARIMAにおける手法をサポートしている X12プロ シジャは、より新しいバージョンに対応している。また、時系列における外れ値を識別する機能や、 regARIMAモテ ルにおける ARIl'vlA項を自動的に決定する手法も追加されている。 ・ ・ 離散選択モデルを包情的に扱う MDCフ。ロシジャで、は、パラメータに対して制約を与える方法が拡張 された 0 SAS厄 TS ソ フ ト ウ ェ ア の い く つ か の プ ロ シ ジ ャ に は 、 最 適 化 の 手 法 を カ ス タ マ イ ズ す る NLOPTIONS ステートメントが追加されている。時系列解析の場面で現れる最適化では、最 適解が正しく求まらない状況が頻繁に発生する。このステートメン卜を利用すると、 SAS/OR ソフトウェアの NLPプロシジャにおける手法に基づいて、収束条件の設定や最適化における 手法の選択など、より柔軟な対応が可能となる。 5 StatisticalGraph(experimental) SAS/STATソフトウェアのプ口、ンジャには、 SAS/GRAPHソフトウェアの機能を利用して高特度なグラフを 作成する機能が存在していた たとえば、 REGフ。口、ンジャで、は PLOTステートメントを使用してさまざまな G 2 5 3一

252.

プロットを描くことがで、き、また LIFETESTプロシジャで、 PLOT= オプションを利用すると生存曲線などがグ、 ラフイカルに表示することが可能で、あった。 SAS9以降では、 ODSGRAPHICSステートメントを使用して、 HTML、PDF及 び RTF形式などのファ 、SAS 厄 TS 、SAS 圧iPF 、および BASESASソフトウェ イルとして画像を出力できる。これは、 SAS/STAT ) アの一部のプロシジャに対して有効な機能で、ある。(図 3 r S t a t i s t i c a lGraphJは 、S AS9.1の次のリリースで正規版の扱いとなる予定である。また、グラフのカスタ マイズ、には TEMPLATEプロシジ、ヤを利用するため、難解なプログラミングが一般に必要とされるが、 GUI ベースで、グラフのデ?ザインを変更で きるアプリケーションを作成する計画もあると聞いている。 ‑ 5 日 : j 巴E ・⁝・ 図 3 ‑ ・ ⁝ ︒ ・ . ・ . 証 i J ( ODSGRAPHICSステートメントによる出力例 6 SAS/IML ソフトウェア a l landRANDSEEDC a l l 6 . 1 RANDGENC これらのサブルーチンは、前述の RAND関数と、シード値を初期化する CALLSTREAMINITルーチ ンに対応したものであり、 IMLプロシジャの中で、乱数からなる行列を効率よく作成するもので、ある。 ‑254‑

253.

6 . 2 BY‑groupP r o c e s s i n gandS o r t i n gM a t r i c e s SORTC a l l(SORTステートメントではなし、)を使用すると、行列のソートを行うことができる。いわば、 SAS江MLソフトウェアの中における SORTプロシジャに当たるものである。また、 SORTNDXC a l lは、行 列の並びに対してインデックスをつけるサフ守ルーチンで、ある。これらと UNIQUEBY関数を組み合わせると、 SORTプロシジャの NODUPKEYオプションと同じような操作を行列に対して行うことがで きる。 6 . 3 G e n e t i cA l g o r i t h m s( E x p e r i m e n t a l ) 遺伝的アルゴ、リズムに基づ、く最適化の手法が、評価版として追加されている。たとえば連続でない目的関 数に対する最適解の探索や、整数計画問題に対して有用な方法である。但し、使し、こなすためにはこのア ルゴリズムに関する深い知識が必要となる。 6. 4 Subroutinesf o rL a r g eSparseSystemso fL inearEquations( E x p e r i m e n t a l ) 線形方程式系が Iスパース」で、ある場合に対応したサフツレーチンが新たに評価版として追加された。過去 のリリースでも、行列演算や SOLVE関数によって解を得ることがで、きたが、行列の要素に 0が存在するケ ースで、も全ての要素を記述する必要があった。最新リリースでは、計算の方法や対応している問題に応じ て5つのサブ、/レーチンが用意されており、要素の与え方そのものもスパースデータに直接対応したものとな っている。また、解がより速く得られることが期待される。 7 SAS/ORソフトウェア 7 . 1 G e n e t i cA l g o r i t h m s( E x p e r i m e n t a l ) SAS/ORソフトウェアにおいても遺伝的アルゴ リズ、ムに基づく最適化を行う機能が、評価版のプロシジャとし て利用できる。他のプロシジャの構文とは大きく異なり、サブルーチンの呼び出しを繰り返すような記述を 行う形になっている。 7 . 2 Q u a d r a t i cProgramming( E x p e r i m e n t al ) 2次最適化に特化した QPプロシジャが評価版として新たに追加された。 NLPプロシジャで、は、 2次最適化 に対応したアルゴ、リズムが昔から存在していたが、より新しいアルゴリズムに基づくこのプロシジャを利用す ると、特にスパースなデータを用いた場合に計算時間の短縮が期待される。 7 . 3 C o n s t r a i n tProgramming( E x p e r i m e n t a l ) いわゆる制約充足問題 ( C o n s t r a i n tS a t i s f a c t i o nProblem,CSP)とは、求める解が満たすべき制約を与 え、それらの制約を全て満たすような解を探索することによって最適化を行う手法で、あり、人工知能の分野 やオペレーション・リサーチにおいて広く研究されているものである。 CSPは NP完全問題であり、どのようなケースにおいても適切である解法は存在しない。この問題に対して 有限領域制約プログラミング ( F i n i t eDomainC o n s t r a i n tProgramming)に基づく解を与える機能が、 評価版の CLPプ口、ンジャとして追加された。 戸 戸 hu hu n〆臼

254.

8 最後に 上記で紹介した内容以外にも拡張点は多々存在する。目的によってはそれらの方が有用であるカもしれ ない。なお、本稿は執筆時点 (2004年 6月)における情報に基づいているため、理論上の詳細、かっ正確 な内容については、冒頭で紹介した WEBサイトで公開されているドキュメントをご覧いただきたい。 米国 S ASInstitute Inc. で、は既に次期リリースの開発は始まっており、世界中のユーザーからのリクエス トをもとにした新機能の追加も予定されているとのことである。日本からの声も反映されるよう、多くのユーザ ーからのご意見をお待ちしています。 9 参考文献 C a s t e l l o e,J.M.( 2 0 0 0 ),"SampleS i z eComputationsandPowerA n a l y s i switht h eSAS@System, "P r o c e e d i n g sof t h eT w e n t y ‑ f i f t hAnnuaJSASUsersGroupJ n t e r n a t i o n a JC o n f e r e n c e ,Paper265 ・2 5,Cary,NC:SASI n s t i t u t e I n c . C a s t e l l o e,J . M .andO ' B r i e n,R . G .( 2 0 0 1 ),"PowerandSampleS i z eDeterminationf o1'LinearModels, " ProceedingsoftheTwent y‑sI xthAnnuaJS. r IS UsersGroupJnternat I onaJConference ,Pape1 '2 4 0 ‑ 2 6 .Cary,NC SASI n s t i t u t eI n c Cohen, R .( 2 0 0 2 ), "SASMeetsB i gI r o n :HighPerformanceComputingi nSASA n a l y t i c a lProcedures, " Proceedingsoft h eTwenty‑seventhAn nuaJSASUsersGroupJ n t e r n a t i o n a JC o n f e r e n c e . .G .andC a s t e l l o e,J . M .( 2 0 0 4 ),Sample‑SizeA n a l y s i si nStudyP l a n n i n g :ConceptsandI s s u e s,with O'Brien,R ExamplesUsingPROCsPOWERandGLMPOWER, "P r o c e e d i n g soft h eTw e n t y ‑ n i n e t hAnnuaJSASUsers ,NC:SASI n s t i t u t eI n c . GroupJ n t e r n a t i o n a JC o n f e r e n c e .Paper211・29,Cary 泉水克之 ( 2 0 0 2 ),SASシステム V9における統計機能の拡張 (2),第 21回日本 SASユーザー会総会及び研究発 219‑228 表会論文集, p 岩崎学 ( 2 0 0 2 ) 不完全データの統計解析エコノミスト社 小玉奈津子 ( 2 0 0 2 ),SASシステム V9における統計機能の拡張 ( 1 ) ,第 2 1回日本 SASユーザー会総会及び研究 発表会論文集, p209・2 17 永田清 ( 2 0 0 3 )サ ン プ ル サ イ ズ の 決 め 方 朝 倉 書 庖 深津武志 ( 2 0 0 2 ),ロジスティック回帰における対応のあるデータ分析,第 2 1回日本 SASユーザー会総会及び研 229‑238 究発表会論文集, p ハhu F h υ n r u

255.

口頭論文発表 システム

256.

A c c e s sVBAを用いた SASIOMの利用 0中 村 竜 児 株式会社インクリース研究所 Using10MandAccessVBA R y o j iNakamura 1NCREASECO, LTD. 要 旨 ローかレサーバーで利用するので、あれば SAS1 n t e g r a t i o nT e c h n o l o g i e sのライセンスが なくても 10Mを使うことができる。使い慣れている A c c e s sや E x c e lをオートメーションクラ イアントとして SASを制御することができれば、よりユーザーフレンド、リーなインターフェース を作ることができ、またアウトプットの加工までスムーズにできる。 SAS 1 n t e g r a t i o n T e c h n o l o g i e sに関するドキュメントは既に多く発表されているが、今一度コーディング守方法 をおさらいするとともに、活用例をしてつか紹介する。 キーワード: 10M、VBA、OLE、ADO、オブジェクト、メソッド、 IntegratedObjectModel( 10M) 1 . 1 参照設定 VBA の参照設定ダイアログFボックスを開いて、 M i c r o s o f tActiveXData O b j e c t s、M i c r o s o f t ActiveXDataO b j e c t sR e c o r d s e t、SAS:1 n t e g r a t e dO b j e c tModel、SasVVorkspaceManager TypeLibraryを参照可能にする。 1 . 2 10Mオブジェクトモデル 10M オブジェクトモデノレは V V o r k s p a c e をルートオブfジェクトとしてその下に D a t a S e r v i c e、 LanguageService、U t i l i t i e s等のオブジェクトが用意されている。それぞれの下位オブジェクトは WOrkspaceオブ ジェクトから階層をたどって利用する。 D i m objnameA sS A S . W o r k s p a c e o b jn a m e .下位オブジェクト .Method/Property P プログPラムが煩雑になるのであれば、下位オブジェクトを宣言して利用する方法もある。 D i mo b j n a m eA sS A S . W o r k s p a c e D i m subobjnameA sS A S .下位オブジェクト S e t subobjname=o b j n a m e .下位オブジェクト s u b o b j n a m e . M e t h o d / P r o p e r t y Fhu nFU ハud

257.

1 . 3 Workspaceオブジェクト SASを起動し、接続するには Workspaceオブジェクトを宣言する。 │ D i m 的 問 meA sN e wS A S . W o r k s附 E ただし SASWorkspace内で ADOを使う場合は WorkspaceManagerを利用して Workspace オブジェクトを作成する。 D i m mobnameA sN e wS A S W o r k s p a c e M a n a g e r . W o r k s p a c e M a n a g e r sS ! r i n g D i m xm/info A sS A S . W o r k s p a c e D i m objnameA o b n a m e . W o r k s p a c e s . C r e a ! e W o r k s p a c e B y S e r v e r (川 , S e ! objname=m Vi s i b i l i ! y P r o c e s s,N o ! h i n g," " , " " , xm/info) SASセッションを終了するには Closeメソッッドにより Workspaceオブ ジェクトを閉じ、 Workspace オブジェクトを開放する。 P ( … C l o s e o ! h i n g S e ! objname =N 実行する SASプログラムの中に endsasステートメントがある場合はその時点で Workspaceオブジ ェクトに割り当てられていたリソースが開放されるので、 Closeメソッドを実行する必要はない。 1 . 4 D a t a S e r v i c eオブジェクト 1 . 4. 1 A s s i g n L i b r e fメソッド、 ライブラリを指定するには libnameステートメントをサプ、ミットするか、 DataServiceオブ、ジェクトの AssignLibrefメソッド、を利用する。 o b j n a m e . D a t a S e r v i c e . A s s i g n L i b r e f Name,Engine,Path,Options AssignLibrefメソッドには libname ステートメントに対応する形で Name(ライブラリ参照名)、 Engine(エンジン名、通常はデFフォルトとして空の文字列 I " " Jを指定する)、 Option(オプション、必 要がなければ空の文字列を指定する)の 4つの引数がある。 連結ライブラリを指定する場合は次のように記述する。 o b j n a m e . D a t a S e r v i c e . A s s i g n L i b r e f Name," "," ( 'Pathf' ,Path2') " , 割 り 当 て 済 み の ラ イ ブ ラ リ 参 照 名 は Workspace オブジェクトが閉じられるか、次の DeassignLibrefメソッドが実行されるまで有効である。 o b j n a m e . D a t a S e r v i c e . D e a s s i g n L i b r e f Name 1 .4 . 2 L i b r e f .L i b r e f ̲U オブジェクト SAS データライブラリ内の SAS ファイルを操作するには、まず DataService オブ ジェクトの UseLibrefメソッドにより l i b r e fオブジェクトを取得する。 Ii br e fオブジェクトの取得 D i m /ibobname a sS A S . L i b r e f s e ! /ibobname =objname.Da!aService.UseLibref (Name) P その後、 l i b r e fオフ、ジェクトに用意されたプロパティやメソッドを利用する。プロパティはライブ ラ1)のオ プション等を参照するもので=あり、ここで値を変更することはできない。 Ii br efオブジェクトのプロパティをメッセージボックスに表示 M s g B o x" N a m e : " & ibobname.N a m e& C hr( 1 3 ) 品" R e a d O n l y : " 品 ibobname.lsReadOnly & C h r ( 1 3 )品 " T e m p o r a r y : " 品 ibobname.lsTemp & C h r ( 1 3 )品" L e v e1 : " 品 ibobname.Levels & C h r ( 1 3 )品 " S e q : " &ibobname.lsSequen!ial P 上記プログラムを実行すると、次のようなメッセージボックスが表示される。 ‑260

258.

盤議 三j N a m e : T E S T Re a d O n l y : F a l s巴 T 巴m p o r a r y : F a l s巴 L 巴v e l : 2 S e q : F a l s e SASファイルの削除、名称変更は DeleteMemberメソッド、 RenameMemberメソッドを使う。 /ibobname.DeleleMember MemberName, memberType,a/terPassword /ibobname.RenameMember o/dMemberName,newMemberName, memberType,a/terPassword member 苛 peを省略(空の文字列 1 " "J)すると SASデータセットが指定される。 1 . 5 F i l e S e r v i c eオブジェクト 1 . 5 . 1 A s s i g n F i l e r e f .D e a s s i g n F i l e r e f 'U s e F i l e r e fメソッド AssignFilerefメソッドは filename ステートメントと同じものである。割り当てたファイル参照名を VBAコード内で変数に落として使うため、その変数名を最後に指定する点が異なる。 DeassignFilerefメソッドは c l e a rオプ、ンョンを指定した filenameステートメントと同じものである。 f/sobname.AssignFil e r e f fi/eref, MethodorDevice, externalfi/e, host‑options, assignedname f /sobnam~DessignFi l e r e f fi/erefまた{;1assignedname UseFilerefメソッドは、 filenameステートメントで既に割り当てられているファイル参照名を変数に 落とすためのものである。 D i m f/robnameA sS A S . F il e r e f S e1 f/robname ニ f/sobnam~UseFi leref(fi/ereの 1 . 5 . 2 D e l e t e F i l e 'M a k e D i r e c t o r y 'RenameFile'F u l l N a m e 'S p l i t N a m eメ、ノッド SASファイルの削除、名称変更は Librefオブずジェクトの DeleteMember'RenameMemberメ ソ ッドでRもできるが、 DeleteFile'RenameFileメソッドはディレクトリも扱えるO FullNameメソッドはファイル名とディレクトリパスからパス名を取得するメソッドで、結果を文字変数 に落とす。反対に SplitNameメソッドはフルパスで与えられたファイル名をディレクトリ名とファイル名 に分割するメソッドで、ファイル名とディレクトリ名を 2番目と 3番目の引数で指定した文字型変数に 落とす。選択された SASデータセットの保存ディレクトリのパスを取得して libnameステートメントを 記述する際に役に立つ(例 3参照)。 f/sobname.DeleleFile fi/epathname • ファイルの削除 f/ sobname.M a k e Di r e c10r y fi/epathname ディレクトリ作成 f/sobname.R e n a m e F il e o/dfifepathname, newfi/epathname ファイルの名称変更 D i m pathnameA sS t r i n g ファイル名の結合 pathname=f l s o b n a m e . F u lI N a m日(shorname, parent n a m e ) f /sobname.Spli t N a m e fi/epathname, shortname, parentname ファイル名の分割 1 . 5 . 3 F i l e r e fオブジェクトと TextStreamオブジェクト ファイル参照名を Filerefオブ?ジェク卜に割り当てたら Filerefオブジェクトに用意されたメソッドを利 用して SASの実行結果を操作することができる。 百' e x t 凶 St 仕r e 凶 amオブ 例 3の cb4クリツク時イベン卜プロ、ン一ジヤで行つているのは実行結果を T 辻 l 必 eS戸 ys t 旬emO同 b j e c tオブジエク卜に書き出すと凸し、ウうやり方で実行結果をエクセルに出力し を経由して Fi e二川&pthname&守s a s o u t . x l s ' Jとして ている。しかしファイル参照名を指定せずに lodshtml白l エクセルファイルに書き出す部分を SASプログラムに書いた方がコーディングPは楽である O phu よ ー nノ ω

259.

1 .6 L a n g u a g e S e r v i c eオブジェクト 1 . 6 . 1 S u b m i tメソッド SAS プログyラムをサブ、ミットするには 2つ方法がある。 1つは LanguageServiceオブFジェクトの Submitメソッドを利用する方法である。 SASプログ、ラムは文字列として Submitメソッドの引数に記 述する。 o b j n a m e . L a n g u a g e S e r v i c e . S u b m i l SASprogram" SASプログラムが長くて 1行で収まらない場合には行末に"&二'を置いて改行する。 o b j n a m e . L a n g u a g e S e r v i c e . S u b m i l SASprogramJ" & SASprogra田2" ここで注意すべきなのは、 SASプログ ラムで、は改行位置にスペースがあるとみなすが、 VBAはあくま でも 1行の文字列として見ているため改行の前後にスペースを入れておかなし注文字列がつながっ てしまうとし、うことである。また DATAステップにおけるリスト入力のように改行が意味をなす場合には ubmitメソッド、を記述しなければならない。 聞にキャリッジリターンを挿入するか、 1行毎に S キャリッジリターンの挿入 o b j n a m e . L a n g u a g e S e r v i c e . S u b m i l SASprogramJ" &C h r( 1 3 ) & "SASprogram2" 1行毎のサブミット W i t ho b j n a m e . L a n g u a g e S e r v i c e . S u b m iI "SASprogramJ" . S u b m iI "SASprogram2" E n dW i l h P VBA上で SASプログラムを記述するのは煩雑になるので、 VBAの中で、は%includeステートメント t o r e d P r o c e s s S e r v i c eオブ ジェクトを利用するほうが分かりや を利用するか、もう一つの方法である S F すい。 objname.LanguageService.Submit " % i n c l u d e ' p a t h n a m e ' ; " 1 .6 . 2 F l u s h L o g ' F l u s h L i s tメソッド SAS実行結果のログ・アウトプットを nu mCharsRequestedに指定したバッファーサイズ内で取得 するメソッド。文字列変数に落とすなどして利用する。 objname.LanguageService.FlushLog(numChrsRequesled) objname.LanguageService.FlushList(numChrsRequesled) 1 . 6 . 3 ines・ F l u s hL is tL inesメ、ノッド FlushLogL SAS実行結果のログ・アウトプットを 1行ずつ配列に落とすメソッド。 numLinesRequested(行数の 上限)、 carriageControls(各行のキャリッジコントロールを格納する配列名)、 line司'pes(各行のタ イプを格納する配列名)、 logLines(各行の内容を格納する配列名)とし、う 4つの引数を指定する。 o b j n a m e .LanguageService.FlushLogLinesnumLinesRequested, carriageConlrols,Ii n e T y p e s,l o g L i n e s objname.LanguageService.FlushLisILines c a r r i a g e C o n l r o l s,I i n e T y p e s,l o g L i n e s numLinesRequesled, このメソッドを利用するには、予め配列変数を宣言しておく ( 2 . 1 の例題参照)。また、 FlushLogと FlushlρgLinesメソッド、 FlushListとFlushListLinesメソッドは同時に使用することはできない。 carriageControlsは 、 0:前の行から通常の形で続く行、 1:新規ページの始まり、 2:前の行から折 :直前に 1行の空白行を入れるべき行、 4 :直前に 2行の空白行を入れるべき行、と り返して続く行、 3 いう値を返す。 LineTy pe は 、 0:データ行、 1:ヘッダー、 2:ソースコード、 3:タイトル、 4 :署名、 5 :フットノート、 6 : Errorメッセージ、 7:Warningメッセージ、 8:Note行 、 9:情報行、とし、う値を返す。 1 . 7 StoredProcessServiceオブジェクト LanguageServic 氾オブFジェクトの下位オブVェクトである StoredProcessServiceオブジェクトは 2 6 2

260.

ファイル、ンステムにある SASストアドプログ ラムを実行する機能を持つが、通常の SASプログラムも 実行できる。 SASプログラムを実行するには、まず R e p o s i t o r yプロパティにより、 SASプログ ラムの保存場所を ソ ッ ドで 、 SASプログ、ラムファイル名を指定して実行する。 指定し、 Executeメ s p s n a m e .R e p o s il o r y= f i l e : p a th " s p s n a m e . E x e c u l en a田e ,n a m e V a l u e P a i r s P P 1 . 8 10MDataP r o v i d e r 10MDataP r o v i d e rは OLEDBデータプロパイダーである。 OLEDBは COMベースのコンポ ctiveXコントロールの形で、使えるようにしたプログラミングイ ーネントの集合体であり、 OLEDBを A ンターフェースが ADOである。 10MDataP r o v i d e rにより SASデータセットを ADOオブ ジェクト ccessテープ、ルに落とす方法を、例 4で モデ、ルに則って操作することがで、きる。本稿では例 3で A Excelシートにコピーする方法を紹介する。 まずはじめに C onnectionオブ ジェクトの Openメソッドにより SASWorkspaceに接続する。 D i mo b j n a m eA sN e wS A S . W o r k s p a c e D i mc nA sA D O D B . C o n n e c l i o n n=N e wA D O D B . C o n n e c l i o n S e lc c n . O p e n P r o v i d e r = S A S .I O M P r o v i d e r .1 ; S A SW o r k s p a c eI Dニ" &objnam~Uniqueldenlifier ADOで、はデータの集まりをレコード、セットと呼ぶ。 SASデータセットをレコードセットとして参照する には主に 3つの方法がある。 ①R e c o r d s e lオブジェクトの O p e nメソッド D i mr sA sN e wA D O D B . R e c o r d s e l A Sデータ 1 z : y介1 5 " ,c n,a d O p e n D y n a m i c,a d L o c k O p l i m i s l i c r s . O p e n S a ②C o n n e c l i o nオブジ ェクトの E x e c u l eメソッド D i mr sA sA D O D B . R e c o r d s e l S e lr s=c n .E x e c u l e ③C o m m a n dオブジェクトの E x e c u l eメソッド D i mr sA sA D O D B . R e c o r d s e l m dA sA D O D B . C o m m a n d D i mc m d=N e wA D O D B . C o m m a n d S e lc cm~Acliveconneclion =c n c m d .C o m m a nむ e xI= . . S A Sデータセット名または S Q Lステートメンド S e lr s=c m d .E x e c u l e Recordsetオブ、ジェクトの Openメソッド で、指定する 3番目の引数はカーソルタイプを指定するもの で、①前方スクロールカーソルタイプ (adOpenForwardOnly:先頭から後方に向かってのスクロール。 レコードセットを一度だ、けスクロールする場合にこのタイプを指定すると高速に処理を行うことができ る)②キーセットカーソル (adOpenKeyset:全ての方向にスクローノレ。他のユーザーが追加・削除し たレコードにはアクセスできず、他のユーザーが変更したデータは表示可能)③動的カーソル (adOpenDynamic:全ての方向にスクロール。他のユーザーが更新したレコードを参照可能)④静 的カーソル ( adOpenStatic:全ての方向にスクロール。他のユーザーが更新したレコードは表示さ 、 れない)の 4 種類がある。また 4 番 目 の 引 数 は 読 み 取 り 専 用 (adLockReadOnly) d L o c k P e s s i m i s t i c)、共有ロック(adLockOptimistic)、共有的ノくッチ更新 排他ロック(a ( adLockBat c h0pt i m i s t i c )を指定する。 原因はわからないが、 E x c e lで、は①の方法がうまく動かなかったので、例 4においては③の方法を 利用している。 ハ ペU ハhu nノμ

261.

2 サンプルプログラム 以下のプログラムは内容を分かり易くするため、エラートラップについては一切考えていない。 2 . 1 ログの利用 FlushLogLinesメソッドにより得られる値を利用した例題を 2例示す。 ( 例 1 ) l i n eTyp eの値を利用して、 SAS実行ログから E r r o rとWarningの個数を数えてメッセージボック スに表示する。 Dim s w sA s New SAS.Workspace Dim c c ( )A s SAS.LanguageServiceCarriageContro[ t ( )A s SAS.LanguageServiceLineType Dim [ Dim [ g ( )A s String 'サブミット sws.LanguageService.Submit "%inc[ude ' h :半t e s t半samp[e̲[og1 .sas s w s .LanguageSer vi c e .F[ushLogLi n e s 10000,c c, [ t , [ g , Errorと Warningのカウント errn =0 wngn =0 For i=LBound(cc) T o UBound(cc) Se[ect Case [ t ( i ) Case 6 : errn = 巴 r r n +1 Case 7 : wngn =wngn +1 End Se[ect Next MsgBox "Error:" &errn &Chr(13) 品 "Warning:" &wngn sws.C[ose S e ts w s ニ Nothing 実行結果は次のようになる。 国欝藍¥ 主j E r r o r : O W a r n i n g : O │ : δ K : : : : : : : : : : : : : : : : I ( 例2 ) SAS実行ログから必要な情報のみを抽出して、 A c c e s sのテープソレに落とす。テーブルは f l d 1, E d 2 (数値型)、 f l d 3 ( テキスト型)、 f l d 4 (日付/時刻型)の 4つのフィールドからなる。 '変数の宣言(例 1と同様に F[ushLogLinesメソッドのための 3変数を宣言しているとする) Dim s w sA s New SAS.Workspace Dim c nA s ADODB.Connection Dim t bA s ADODB.Recordset ,保存先のテーブルを聞く S e tc n =CurrentProject.Connection S e tt b =New ADODB.Recordset tb.Open "tb[̲[og",c n,adOpenDynamic,adLockOptimistic 'サブミット sws.LanguageSer vi c e .Submit" %i n c[ u d e 'h: 半 test~samp[e_[og2. s a s ' 0 0 0 0,c c, [ t, [ g sws.LanguageService.F[ushLogLines 1 'ログをテーブルに落とす For i=LBound( c c )T o UBound( c c ) [ f (ログの抽出条件) T hen tb.AddNew t b !f[ d 1 ニ cc( i ) 凋斗企 nhu nノu

262.

t b ! f l d 2=I t ( i ) g ( i ) t b ! f l d 3 =I t b ! f l d 4=D a t e t b . U p d a t e f E n dI N e x t テーブルに落とす時に利用している AddNewメソッド、は長さ 0の文字列を落とすことができないの で、ログを全て保存する場合には空行の取り扱いに気をつける必要がある。 例えばデータセットの読み込み、作成に関する行のみを抽出すると以下のようになる。 臨脇陣議護員長二ァ:一品年三三三;二二 斗 盟 主j I If l d 1 If l d ロI f l d 3 I f l d 4 1 . ・ ! ゆ I 0 8NOTEデータセット附 RK.FRONTから 1 5オフザペーションを読み込みました。............... .$, ~UU斗105/261 2 日4 /05/26̲̲] I I 0 日NOTEデータセット TEST . FRONT1d :15オゴザベ」ション、 16変喜主です。 2 0 0 4 / 0 5 / 2 6 I I 0 日NOTE:データセッ卜凶I)RK.HAIから日オゴザベーション在読み込みました。 2 0 0 4 / 0 5 / 2 6 1 I 0 8NOTE:データセッ卜 TESTHAII d :0オブザベ」ション、 45変故です。 1 1 0 8NOTEデータセッ卜凶I)R K . K E Iから 3 0オフ.ザベーション在読み込みました。 2 0 0 4 / 0 5 / 2 6: LJ 0 8NOTEデータセッ卜 TESTKEII d :30オフザベーション、 2 0変数です。 2 0 0 4 / 0 5 / 2 6 LJ 0 8NOTEデータセッ卜叩 RK .BLDから Dオフザベーションを読み込みました。 2 0 0 4 / 0 5 / 2 6' I I 0 8NOTE:デ」タセッ卜 TESTBLDI d :0オゴザへ」ション、 5変故です。 2 4 / 0 5 / 2 6当 1[ . . , コ ー ドt旦 一一寸ょと 竺 j122 ∞ U Ui 2 . 2 p r o cf r e q ( 例3 ) 選択したデータセットのコンテンツ情報を取得し、そこから変数を選択して p o r cf r e qフ。ロシジャを 実行する。結果は ODS で出力して最後にエクセルで、開いてみる。ここで、扱うデータセットはユーザ 一定義フォーマットを使用していないことを前提とする。 このプログラムではファイル参照ダイアログと WSH を利用するため、 VBA の 参 照 設 定 で I M i c r o s o f t 0伍 c e1 0 . 0O b j e c t LibraryJとI M i c r o s o f tS c r i p t i n g RuntimeJを参照しておく (Access2002以降)。 画面は次のようになる。 室盟盤室三 三 竺 ミ ム て や & ← "̲'H コ一デイング するのにデ一夕パスを指定しているが、 cb4で p 戸 1 ' ∞ 0C 企e 叫qを実行する際は F i 辻 leSe 町r 吋 vl白Ceオブブ伊ジエクト の Spl 批 i 託 tNameメソツドの利用例としてライブラリ参照照、名を使つてみる。 P r i v a t eS u bc b l ̲ C l i c k O D i ms w m nA sN e wS A S W o r k s p a c e M a n a g e r . W o r k s p a c e M a n a g e r D i ms w sA sS A S . W o r k s p a c e D i mx m li n f oA sS t r i n g ﹁円U ハhu n g t u

263.

D i mf il e d gA sF il e D i a l o g D i mc n lA sC o n n e c t i o n D i mr s lA sN e wA D O D B .R e c o r d s e t D i mc n 2A sC o n n e c t i o円 D i mr s 2A sN e wA D O D B . R e c o r d s e t c t i o円 S e tc n l =C u r r e n t P r o j e c ! . C o円円 e r s1 .0 p e n" c o n t ",c n 1,a d O p e n D y n a m i c,a d L o c k O p t i m i s t i c S e tf il e d g=A p p li c a t i o n . F il e D i a l o g ( m s o F il e D i a l o g F il e P i c k e r ) I ffi I e d g .S h o wT h e n M e .d a t a n a m e=fi l e d g .S el e c t e d lt e m s( 1 ) E n dI f 川 , V i s i b i l i t y P r o c e s s, N o t h i n g, S e ts w s =s w m n . W o r k s p a c e s . C r e a t e W o r k s p a c e B y S e r v e r ( x m l i n f o ) run" ρv ﹁ 阿川 ‑l f nu t l n u l H 円 nu Hu n u﹃ l ・ ‑ n︑叫 H H U nzg w " ︒ e 円円以内 ' 一 一 l w P r i v a t eS u bc b 4 ̲ C l i c k O D i ms w sA sN e wS A S . W o r k s p a c e D i md t a n a m eA sS t r i n g D i mp t h n a m eA sS t r i n g D i mo p t n a m eA sS t r i n g D i me x ̲ a pA sE x c e l . A p p li c a t i o円 ︾ P r i v a t eS u bc b 3 ̲ C l i c k O M e .v a r 2= I i s t E n dS u b t P r i v a t eS u bc b 2 ̲ C Ii c k O M e . v a r 1 =l i s t E n dS u b 川 E n dS u b um S e tf i l e d gニ N o t h i n g s w s . C l o s e S e ts w s=N o t h i n g 完 M e .I i s ! .R e q u e r y ' M s g B o x"終了" pu‑‑‑ D oU n t i lr s 2 . E O F .A d d N e w r s1 r s 1 ! v a r n u m=r s 2 ! v a r n u m r s 1! N a m e=r s 2 ! N a m e r s 1 ! L a b e l =r s 2 ! L a b e l r s 1 . U p d a t e r s 2 . M o v e N e x t L o o p ρvqJ nuF‑Ti ‑νRnHV VEnuu s‑ ︐ 刊 nu UEEL LK WD C ‑FLW OMm 川 ‑ a H u ︑ 円︑ nu q a 1' ︐ . r ・i E n U a 司 ・1 l n川 nHHVHVJ unuRHU ‑n‑ rn a i u H ︽v nNu +tnrpu 内 ノ ﹄ CHmp JU n‑‑Aua n川 ・ 司 ハ' ︑ 円 ・ 向 ︑ nu u 戸 し A MM・ゐE 門 口 =nH RHuvlpw nuρv nuJu' w"nunu puVEnu ハ A i ' " nu enue FU '・﹄' 川 .• Mm川 内 V ?﹄ 川 ︐ 内ノ﹄内ノ﹄ v n pa sρc r vnμa ‑ ‑cnnvnnHU W i t hs w s .L a n g u a g e S e r v i c e e . d a t a n a m e& " 'o u t = c o n tn o p r i n t . S u b m i t" p r o cc o n t e n t sd a t a = ' " &M E n dW it h ハhU ハhu n J臼

264.
[beta]
nu

‑‑

tpu

B
h
u
n
H
V
m川

ed

F'Fみ

川

)
︐
''gb

P︑叫

阿川

P︑叫

HU

?EE

﹁

内

・
l
m
'
︐
ρu

m川 内 ノ ﹄

nu

qa'hH
n
H
a
w

‑
‑

h(
t
f
nuF'sl

白

内

︐
nu
ιu
m
qa'
n)

内

qa'"
t
'
j
n
u
ιu

m川 qa"
qaAU

︐
;)

内

巴 ゐl '

︐
同

HM"

内

︐

UNnu ﹁

unu'
mqnam
e
aHU

2UTl
i+ Lt

内

︑

nHLnu'
2U a
tρu
t
s"
t
︐
マ
apv
VJm
q
a
︑
Fu q a
upa a
nuρM
‑‑vA
I
r
nu"ρu
‑‑t

m川・
&t
ansvA
ρ u n川 向 u
slVET‑Tl
nu ゐL ゐL ‑
VEqunμns

内

‑pv'hH
nU2U a
u
aultrt
‑flnuFSI

u'nutl
r
Rl

nu
pa==
ρ
u
ilρunu
‑‑lm川 m川
戸
炉
且
・ 2U2u
‑nunH
供与句
a&E
W+LnuF
pbAunυ

u&tETin
iAu=
nuFf
‑nx
r! qfu
e
‑
︑‑

ハ

?t 向 也 内 au&l
﹁
﹁ TleanuF
l
・・・

川

papbpapa
AMHAMHAMHA

ququwr
A
A
BC
︑
Fu︑
FuuN ︑
Fu

vtpanυvA
f
st
ss
ft
s

m川 m川 m川 m川

nunununu

S
e
ts
t
x = fso.CreateTextFile(pthname &
"
半 sasout
.xls",True)

'サブミット
sws.LanguageService.Submit "Iibname mylib '
" & pthname &"' ""filename f
r
e
ft
e
m
p ""ods h
t
m
l body =f
r
e
f;
""proc f
r
e
q data=m
y
li
b
.
" & dtaname &"
;t
a
b
l
e
s " &M
e
.v
a
r
l &"宇" &M
e
.var2 &"
/
" & optname
&" r
u
n ""ods h
t
m
l close
"
)
S
e
ts
f
r =sws.FileService.UseFileref("fref
S
e
ts
t
s =sfr.OpenTextStream(StreamOpenModeForReading,1
0
0
0
0
0
)
t
s
.Read(100000)
sodsoutput =s
While (Len(sodsoutput) >0)
stx.Write sodsoutput
t
s
.Read(100000)
sodsoutput =s
Wend
S
e
t ex̲ap =CreateObject("Excel.Application")
e
xa
p
.Visible =True
半s
asout
.xls")
ex̲ap.Workbooks.Open (pthname &"
本本本

sws.Close
S
e
ts
w
s =Nothing
E
n
d Sub

z盟 主j

一主竺主J !SEX

!三
‑
:
$
l
i
l
l
1
R!

二
コ

iuE

pLV 唱 炉 ︑ ‑

山町山匂

一
t
h
a一S
m

V 医

一主空竺̲j E
竺
二
コ

叶
一

│凶叫te山 叫 制

cb4をクリックすれば企eqプロシジャを実行し出力先のエクセルファイルが聞かれる。結果表の書式
x
c
e
lVBAの文法でコーディングする。
を変えたい場合は上記プログ、ラムの「村女」の部分に E

ハ
hu
ー
月
nメハ︼

265.

Excelからの操作 ) ( 例4 最後に番外編として、 E x c e lに入力されたデータをもとに p r o ct t e s tを実行するサンプルをあげる。 x c e lに返す。できるだけ簡略化したため、データの入れ方や 結果は ODS!こよりデータセット化して E プロシジャのオプション等かなり制約があることをお断りしておく。 データは以下の様に l列目にグループ化変数、 2列目に従属変数が入力されているものとする。 2 . 3 医烹間鴨寄贈議長三; I A 1 SAS‑04 SAS‑05 SAS‑06 SAS‑07 SAS‑08 SAS‑09 i i j 誼髄η~JI ー一 「一一‑‑"N U尚..( 一 次のような画面を作成する。 烈緊葱~tで了…l"':1" 一 い 一 デ』仔週: 結果出力範囲: 仁王コ一一‑ ‑ 1行 回 一 日JI コ 仁E 九 円 内 仁豆コ ハー‑ r ef1でデータ領域を、 r ef2で、出力領域の左上のセルを指定し、 c b lをクリックすると実行結果をエク セルに返す。 b lのクリック時イベントプロ、ンージャに次のようなコード、を記述する。 コマンドボタン c 勺 ﹁ ‑268 円 H 2 v 1= m y d a l a ( l,1 ) y d a l a ( l, 2 ) v 2 =m a 内 ︑ ︑︑︐︐ I fo p 1 . V a l u e =T r u eT h e n │ニ n U ヨ H 内 恒 m y d a l a =R a n g e ( r e f 1 . V a l u e ) . V a l u e 「ニ U B o u n d ( m y d a l a,1 ) σ匂 u剛川 勾 FM し 目 a a U n ν U 内 F ﹁ ' ν R n ︑ r 川"‑ u ヨ gb p M n H q a d 内 内 ︑ Mm a u F U ︑ ︑ nνnuf ednu‑Etnu ︐ 刈 u lvRFU&YE‑na H 円 v ' dFEMEnu a o n ν 作O ど AUv'&lm 川 川四 " e d n H n H n u n H σ b m川 WS Fu'νRH・ IlnHPl︾ ヨu n H n u n H AAv'v'nuou‑Ttl﹄ 戸 し l nunu&E・ E 向 ︒ unwnv'v' ・ v' 川町 p a ‑ ‑ 2 U & l n D ‑ L W H ・ nDn 口 uvpanupa aunuednHUnHM H ︽V MNaAAAnunHue‑wsnus panunuaAAAAAAA snuaAAA HedkTE a 令 m/ Fa aAne‑wed&lu‑‑aAqu nHIEAAAA2urs mSTiJu'JUBl wwmnedvJ 旬 l m 川 &l e d n a v A F U v t m川 uvph&τ m川 附 川 附 川 附 川 附 川 附 川 附 川 m川 m川 l ・ l ・ nuuRHURHUnHunHunHURHURHURHU ・ i ・I l l 1 1 1 P r i v a l eS u bc b 1 ̲ C Ii c k ( )

266.

E n d1 f I fo p 2 .V a l u e =T r u eT h e n 1=1 v 1 =" v a r 1 " v 2 =" v a r 2 " E n d1 f ,S A Sプロシジャの実行 " " , V isi b i1 i l y P r o c e s s, N o l hi n g, S e ls w s=s w m n .W o r k s p a c e s .C r e a l e W o r k s p a c e B y S e r v e r( x m li n f o ) W i l hs w s . L a n g u a g e S e r v i c e . S u b m i l" d a l a a inpul" & v 1 &"" & v 2 &" c a r d s F or i= 1T or )= " " , " . " , m y d a l a ( i,1 ) )品"! I 品 I l f ( m y d a l a ( i,2 )ニ " " , " . " , m y d a t a ( i, . S u b m i lI l f ( m y d a l a ( i,1 2 )) N e x l .Submil" r u n . S ub mi 1"%1 e1v ar 1 ニ " & v1& " ; %1 e1var 2 = " & v2&";" . Sub mi 1"%i nc1 u de'i 半 :l e s l半I l e st .s a s ' E n dW iI h S e lc n =N e wA D O D B . C o n n e c l i o円 c n . O p e n "Provider=SAS.IOMProvider.1;SAS W o r k s p a c eI D = " &s w s . U n i q u e l d e n l i f i e r S e lc m d =N e wA D O D B . C o m m a n d n c m d . A c l i v e C o n n e c l i o円 = c 1l 可J OM MU 2u J u ︐川 u v Q υ ︐川 ηρ su nU rid=ridt1 r s . M o v e N e x l L o o p rid=ridt1 N e x1 ︐ ︑ (pu ド F a s r 司 nu HU a u v ‑ 一 F し J門 ︑︑︐︐ U r 1' du 1lanu 円( Ju't ff s of EST‑nu nHV ﹁ Enun ︐ 同U P U 一︐︐内 υ trt +145=l ‑‑噌 Z ζ 1 1 1 1 1 n c &EL 川 vtn J W V A JHM''e ry‑cl ︑︽む 川 F 川μ UOE ︐︐ L ‑‑‑n ‑川 VE'h ・21‑‑d υ 内 ︐ ddFEaM r i d =0 R a n g e( r e f 2 ) .S e1 e c1 I I 1( 1 ) =" S l a l i s l i c s " 1 1 1 ( 2 ) =" T ‑ T e s l s " 1 1 1 ( 3 ) =" E q u a l i l yo fV a r i a n c e s " F o rd i d ニ 1T o3 'データセット取得 c m d . C o m m a n d T e x l =" s e l e c l牢 f r o md l " &d i d S e1r sニ c m d . E x e c u l e 'タイトル出力 S e l e c l i o n . O f f s e l ( r i d, O ) . V a l u e=1 1 1 ( d i d ) rid=ridt1 'フィールド名を出力 f l d n= r s . F i e l d s . C o u n l F o rc i d = 0T of l d n‑1 S e l e c l i o n . O f f s e l ( r i d, c i d ) . V a l u eニ r s . F i e l d s ( c i d ) . N a m e N e x1 ハhU

267.

s w s . C l o s e S ets w sニ N o t h i n g E n dS u b % i n c l u d eステートメントで実行される S A Sプログラムは以下の通り o d so u t p u tS t a t i s t i c s = d t lT T e s t s = d t 2E q u a li t y = d t 3; l a s s& v a r l v a r& v a r 2 r u n p r o ct t e s td a t aニ a,c 上記プログラムを実行すると以下のように出力される。 L E E二王二エニ G二;一任 Slalislics Vari.ble CI.ss N auc 1 auc 2 . u c D i f f( 1 ‑ 2 ) j~_L_ C ̲ ̲ . ̲ .J K LowerCLMe.Me.n UpperCLMeaLower l 5 2 5 199.62658 37.59 1 01 2 1 . 4 2 3 4 2 1 6日. 日8 7 . 5 8 6 5 2 1 1 3 2 . 6 5 177.71348 4 3 . 3 2 1 ‑27.53535 27.87583.28534744.56 T‑Tesls Variable Melhod Vari.nces lValue D F Probl auc Pooled E q u a l 1 . 0 5 6 9 0 0 1 1 8 0.3045363 auc S.llerlhwaUnequ.1 1 . 0 5 6 9 0 0 1 17.649293 0 . 3日4 8日9 9 Equ.lily o f Variances V .ri a bI e M e lhod NumDF . u c Folded F DenDF 9 FV.I u e Pr o b F 9 1.3281916 0.6793017 3 まとめ 10Mオブfジェクトモデ、/レは多くのツールを提供してくれているが、 SASプログラムに記述したり、 VBAがもともと用意しているオブ ジェクトやメソッドを利用した方がコーディング は楽なものもかなりあ る。しかし SASデータセットから ADOを使ってレコード、セットに読み込めるとし、うことは非常に強力で あり、本稿で取り上げたデータの移送だけでなく、 SAS 以外の言語が用意している様々な関数によ P るデータ編集などかなりの応用が期待できる。 参考文献 ( 1 )村山友子、段谷高章 ( 2 0 0 2 ): V i s u a lB a s i cによるシンクライアントアプリケーションの構築、第 21 回日本 SASユーザー会総会および研究発表会論文集 ( 2 )プロジェクト A(2002): Access2002VBA実線プログ、ラミング、リファレンス、エーアイ出版 ( 3 )SAS言語:解説編バージョン8、SASI n s t i t u t eJapan株式会社 10Mのマニュアルは以下のサイトで、参照できる h t t p : / / s u p p o r t . s a s . c o m / r n d l i t e c h / d o c / d i s t ‑ o b j / c o m d o c / a u t o m a . h t m l また以下のサイトカ為らダウンロードもできる h t t p : / / s u p p o r t . s a s . c o m / r n d l i t e c h / u p d a t e s / i n d e x . h t m l # d o c u p d a t e nd u ハ n r a

268.

口頭論文発表 経営・経済

269.

イベント時系列データを用いた延滞・移管債権管理モデル 角谷督・栢本淳一 株式会社金融エンジニアリング・グループ TheA p p l i c a t i o no fState‑SpaceModelf o rC r e d i tR i s kManagement Kadoya,SusumuIKayamoto,J u n i c h i n c . F i n a n c i a lE n g i n e e r i n gGroup,[ 要旨 本論文は、延滞・移管債権(以下デフォルト ;DF)の発生イベントに時系列モデルを適用し、 延滞・ DF発生の長期的要因及び短期的要因を分析する手法の提案を目的とする。本論文事 例では、長期要因として長期金利、長短金利スプレッド、為替レートを想定し、短期要因には 株式収益率データを想定し、観測データに企業の業種別倒産数を適用する。そして、サンプ ルデータを用いて得られた結果の債権管理への適用可能性について、検討・報告する。当手 法のメリットは、観測することの出来ない観測データの期待値を状態方程式で表現し、その期 待値に影響を与える長期要因を非定常データとして扱うことができる点にある。 キーワード: カウント・デー夕、非定常デー夕、状態空間モデル、 SAS/IML L旦血 本論文は、延滞・移管債権(以下デフォルト ;DF)の発生イベントに時系列モデルを適用し、 延滞・ DF発生の長期的要因及び短期的要因を分析する手法の提案を目的とする。提案手法 は延滞・ DF率の対数値を観測値として扱う。そして、観測値は長期的要因と短期的要因の加 法モデルで、表され、観測値の期待値が長期的要因に影響を受けていると仮定する。また、観 測値とその期待値は、それぞれポアソン分布、ガンマ分布に従うことを仮定する。このようなイ のr gensene tal . ( l999)が状態空間モデ、/レを用いた ベントのカウント・デ「ータを扱ったモデ、ルは、 J 推定方法を報告しており、適用例として緊急治療室を訪れる 1日毎の患者数を扱っている。そ こでは、長期要因として大気汚染の水準、短期要因として気温、曜日効果等が用いられてい る 。 本論文事例では、長期要因として長期金利、長短金利スプレッド、為替レート(ドソレ円)を想定 し、短期要因には株式収益率データを想定し、観測データに企業の業種別倒産数を適用す る。そして、サンプルデータを用いて得られた結果の債権管理への適用可能性について、検 ハ ペU ワi ︐ n ο

270.

討・報告する。 また、本論文の手法は、利用者の直近の取引振りデータが取得できるようなカ ード会社の債権管理にも適していると考えられる。債権をカード、保有者の属性に応じて幾つか のカテゴリに分類し、そのカテゴリ毎の DF率を推定、予測することを想定するなら、 DF事象に 対する当該カテゴ リのスベシフイックな要因がカード、の利用状況に比較的明確に表れることが 期待されるためである。 状態空間モデルを用いるメリットは、観測することの出来ない観測データの期待値を状態方 程式で表現し、その期待値に影響を与える長期要因を非定常データとして扱うことができる点 にある。さらに、短期要因はカテゴリ固有の要因と各カテゴリに影響を与える共通要因に分解 することが可能である。 通常、 DF率の推定モデルは、数年に l度程度の頻度で見直されるが、急激な環境変化の 下では、思わぬリスクを被る可能性が高い。本論文のモデルは、 DF率の変化を逐次的に捉え るため、リスクモデ ルのモニタリング、に適していると思われる。 2 .モデルの特徴 モデルの特徴は主に以下の 2点である。 1.観測データは非定常であるが,定常データに変換しなくてよい. 階差による定常化は,自己相聞をもたらす可能性がある. 2 .説明変数を非定常な長期要因と定常な短期要因に分類して分析することができる. 1.の特徴により、長期金利とし、った非定常データをDF{こ影響を与える長期要因として扱う .の特徴は、 DF率推定モデ、/レ運用に際して、モデ、ル精度の変化に対するア ことが出来る。 2 カウンタビリティが求められる場合に有用であると考えられる。 実務上、多くの金融機関は債権の DF率推定のタイム・ホライズンを l年に設定し、ロジットモ デルや決定木モデルにより、 l年に l度 、 DF率を推定する。そして、その後は実際の DF率と 推定 DF率との講離状況をウオッチし、*離が大きし、と判断されれば、当初用いた推定モデル をチューニング、するとし、う作業を行う。しかし、多くの場合、取得可能な財務データはモデ、ル設 定当初と同一であり、小幅な説明変数の入れ替えやパラメータの再推定によってモデル・チュ ーニング が実施される。このとき、変数や推定パラメータの変化がなぜ生じたか、については P 別途分析作業が必要となる。 本論文モデ、ルのメリットは、 DF事象の観測期間を 1ヶ月とすれば、カテゴリ内の DF数の時 系列変化を月次データとして分析することができるため、 DF率変化の要因を長期要因と短期 要因、当該カテゴリの独自要因(以下スベシフィック・ファクター)とカテゴリ聞の共通要因(以下 コモン・ファクター)等に分解して、 DF率の変化を説明することが出来ることにある。 3 .モデルの推定ロジックの概要 2 7 4 ‑

271.

本論文のモデル・ロジックは、 ] o r g e n s e ne ta . l( 1 9 9 9 )によるカウント・データへの状態空間モ デ、ル・アプローチである。そこで扱われた伊!と本論文における信用リスクの適用例の対比が以 下である。 1 .] o r g e n s e ne tal .( 1 9 9 9 )の例 対象:呼吸器系の疾患により緊急治療室を訪れる 1日毎の人数 カテゴ、リ区分:噛息,気管支炎,耳感染,その他 長期コモン・ファクター:硫黄剤、(車の排出ガスに含まれる)浮遊粒子状物質 (大気汚染水準と関連性のあると思われるもの。) 短期コモン・ファクター:気温,相対湿度の最高値と最低値,曜日効果 2 .本論文事例 対象:1ヶ月の倒産件数 カテゴリ区分:業種 長期コモン・ファクター:長期金利、長短金利差、為替レート 短期コモン・ファクター:株価指数 (TOPIX)の月次変化率 短期スベシフィック・ファクター:東証業種指数を被説明変数、 TOPIXを説明変数とした場合の 残差 長期要因が影響を与えると仮定する DFの期待値は L a t e n tP r o c e s sとし、下記の状態方程式 ( 1 )I こよって推定され、観測方程式 ( 2 )によって最小 2 乗規範が満たされるように推定値が逐 次更新される。 )1i ( 状態方程式 8 ' + 1=e x p ( μZ) 8 , +η r 観測方程式 y, = A, 8, +E, ( 2 ) ここで A, T =[ e x p ( a I XIt) ...町 (acXc , ) ] y, T =[ YI' ... Y c , ] c :カテゴリ数 Z:長期コモン・ファクター X:短期スベシフィック・ファクター である。 。 1、a・=レ 1 ・ . . aJ 、X J = [ X I r これは θ = ‑ xよ y;=[log(YI t ) … l o g ( y ' c phυ ワ l n〆μ

272.

とすれば、 y,= α X, +sZ ( 3 ) となり、観測値に平均に影響を与える長期コモン・ファクター Zと短期スベ、ンフイツク・ファクタ ー X の加法モデ、ルとなっていることがわかる。 X の要素の与え方により、短期コモン・ファクターの採用や、 X の 1つの要素を 1とすること で、切片項を採りし、れることが可能である。 E x p e c t a t i o n ‑ M a x i m i z a t i o n )アルゴリズムを用いて以下の S t e pとなる。 推定は EM( S t e p1:未知パラメータ α、3、σ(誤差)を所与とし、カルマンフィルターによる l期先推定。 S t e p 2 :全期間のデータを所与として Backwardに Smoothing 。 S t e p 3: Smoothing後の状態ベクトルを用いて、 α、3のパラメータ推定を P r o j e c t i o n Theory により、逐次 2次計画法で解く。 S t e p 4 :尤度関数を求める。 S t e p 5 :上記 Step3で、推定された α、3を用いて誤差パラメータを更新して、 1に戻る。 以上を4の尤度関数値が収東条件を満たすまで繰り返すことで、パラメータを求める。この アルゴリズムは、行列演算を簡便に実行できる SAS九ML の機能を用いることで、比較的簡単 にプログラミンク守することが可能である。 4 .分析例 4. 1 .データ 業種別の月次倒産件数データを商工リサーチ社の Webサイトより取得した。業種は東証 33 業種区分の業種と定義が近い建設、不動産、卸売り、小売りの 4業種のみを推定対象とした。 また、採用ファクターは以下のものである。 ‑長期コモン・ファクター 1 0年の国債利回り(国債先物)月末値 LR 長期金利 : 長短スプレッド:長期金利月末値一 LIBOR(3ヶ月)月末値 SR 為替レート:ドル円レート ER ‑短期コモン・ファクター TOPIXの月次収益率 R M .短期スベシフィック・ファクター 以下の ( 4 )式の残差 c , を短期スベシフィック・ファクターとする。 nhu ヴl nノ臼

273.

RG;, = B;RM ,+c, ( 4 ) ここで RG;:業種 iの月次収益率、添え字の tは時点、 B;:業種 i指数の対TOPIX感応度 である。 推定期間は、 9 8年 1月から 2004年 4月の 76ヶ月である。利用可能なデータ数の制約があ るため、推定は次の手順に従った。まず、 9 8 年 1月から 3 6 ヶ月間を I n ‑ t h e ‑ s a m p l eと し 、 I n ‑ t h e ‑ s a m p l eの最終月の翌月を Out‑ o f ‑ s a m p l eとして予測値を算出する。そして、次月の予 n‑ t h e ‑ s a m p l eを lヶ月延長して 3 7ヶ月とし、 3 8ヶ月目を予測する。これを順次繰り返し、 測は I o f ‑ s a m p l eは40ヶ月となる。 予測値を算出するため、 Out‑ 4 ̲2 ̲推定結果 6ヶ月のデータを用いて推定をした結果が、下記の図1,図 2である。スペースの関係上、 全7 ここでは卸売業と不動産業のみを掲載する。図中のムが推定値であり、.が実現値である。ま σ の信頼区間である。以下の図では実績値の 70%程度が信頼区間 た、点線が推定値の土 l に入っており、推計値の実績値に対するフィッティングは悪くない。また,図 lと図 2のグラフ形 ut‑of‑Sampleは下 状の類似性から倒産件数には共変動要因が存在すると思われる。一方、 O σ の信頼区間に入る確率 記の図 3、図 4である。図 3では、予測値の精度が若干低下し、:tl は 60%強となっている。しかし、予測値の後半は比較的フィッティング が改善しており、推定に P 用いたサンプロルが予測の当初では 3 6ヶ月と短いことに起因すると思われる。 n ‑ t h e ‑ S a m p l e推 定 図 L 卸売業の I I n ‑ t h e ‑ S a町 l eの卸売草 1 5 0 t 0' ! i i! ) 1 ,~:n; ワl n F臼 ワー

274.

図2 .不動産業の I n ‑ t h e ‑ S a m p l e推定 ! n ‑ t h e ‑ S a m p l eの平動産業橿 " 8 0 5 0 " 3 D 1 0 1 0 a ・ . , "2 lHj" 図3 .卸売業の O u t ‑ o f ‑ S a m p l e推定 卸売量の O u t ‑ of ‑ Sa . p l e ー一ー一一ーマー‑時一一ー一 2 0 0 1 5 0 1 0 0 5 0 c 2 0 0 1 0 1 2 0 0初 1 ‑278‑ 2 0 0 3 0 7

275.

図4 .不動産業の O u t ‑ o f ‑ S a m p l e推定 Out‑of‑Sampleの推定平動産量橿 " 80 5 0 。 3 0 1 0 1 0 。 i 2 出削 剛創 4.3.要因分析 観測された DF数の対数値 I o g ( y, ) は( 3 )式において t‑l期の DF数の期待値を対数変換 o g ( θ した値を I ト )とすれば 1 ( 5 ) y,= a X,+βd : . Z+I o g ( θ 1) ト となる。ここで右辺の第 l項が短期要因であり、第 2項及び第 3項が長期要因である。さらに、 長期要因は前期の期待値と期待値の変化要因に分解される。 ( 5 )式を用いて、図1.で示した卸売り業種の [ n ‑ t h e ‑ S a m p l eの推定値を要因別に分解した 結果をグラフで表したものが、下記の図 5 .から図 7 .である c 図6 .から、卸売り業種では、為替レートの変化が D Fの期待値の変化に大きな影響を与えて おり、金利に対する感応度はあまり大きくないことがわかる c 一方、図 7 .から、短期要因は期 間によってマーケット全体の株価収益率が影響を与える時期と業種特有の収益率が影響を与 える時期が比較的明確に観察されてしもとし、えよう。掲載はしていないが、不動産の長期要因 では為替レートは、ほとんど倒産数に影響を与えておらず、感覚にマッチした推定結果で、ある といえる。 υ 門川 nノハ︼ ηl

276.
[beta]
図5
.推定倒産数の対数値時系列データの要因分解(卸売業)

倒産観測値の長期/短期要因分解

6

5
.
8
5
.
6

5.
4
│口短期要因 l
1m長期要因

5
.
2
5

4
.
8
4
.
6

4.
4
",¥‑へ1'¥,.. ,
,
<
:
> .
(
;
:
) t'..~ r
o
.
.
'
b ,
,
' r
o
.
.
X
l
4P4F 令 命、~
令今令ぞきやや令令令令

や 3今 3争点点 ,<s>~
^<s>~
^<s>~
<
s
>
'^
<
s
>
'^<s>~
<
s
>^
<
s
>^
<
s
>
'
~- '
¥
‑
‑ '
¥
‑
‑ ^
'
¥
‑
‑
'
v
ι ^<s>~
c^
ι
ι
c
J

J

図6
.長期要因の分解(卸売業)

倒産数の期待値の変化要因(長期要因)分解

0
.
1
0
.
0
5

。

‑
0
.
0
5

冒t.USD

l

‑
0
.
1

口t.(国債先物一 LJPY03)

,

‑
0
.
1
5
‑
0
.
2

口 A国債先物

句、、句、、句、、句、、句、、句、

f
o
¥
)
'~~J ~cfY-J ~~' ~~J ~~-J ,,<s>

φφ

やややややや~',.:多少。

4F4P4P4P4P4Pφφφ
今 '\-~
φ '\-~
今 '\-~
φ '\-~
φ'
φvφ九φ
φφ
九九九'\-~
九九九

2
8
0

277.

図7 .短期要因の分解(卸売業) 倒産数の短期要因分解 0 . 0 8r 0 . 0 6 0 . 0 4 0 . 0 2 。 一0 . 0 2 ‑ 0 . 0 4 口固有リヲーン 一「口 TOPIXリ ヲ ー ン ‑ 0 . 0 6 一0 . 0 8 句 、 ¥ 句 、 " ~v,句、句、" 4P69 や ~φφφφφ 命令o,o,v , 0 , 0 , ‑ ', 0 , 0 , ‑ ', 0 , 0 , " " v ~v,句、句、 やややや φ や~今令 φφφφ φφφφφφφφφ ,、"'~ "'~ "'~ '\:九"'~ "'~ "'~ '\:九"'~ '¥:九 5 .まとめ 本論文では、倒産件数を業種別のカテゴリに分類し、カテゴリごとの倒産件数の時系列変化 を長期要因と短期要因の加法モデルで分析することを試みた。倒産・非倒産に対して決定木 分析を行い、生成された最終ノード(リーフ)をカテゴリとする等の工夫により、より精度を向上さ せることが可能であると考えられる c また、このような分析方法は、経済指標等のマクロ要因以外に個人の利用データ(キヤツ、ン I 用残高等)が取得可能なカード会社等のリスク管理により有効な手法 ング残高、ショッヒ。ング宋J であると考えられる。今回の結果は説明変数を特定した上での分析結果であり、採用変数によ るモデ、ル精度の比較、パラメータの有意性等の検証は行っていない c モデ、ルの実運用には、 これらの詳細な事前分析が必要となろう。 F数の 本論文の手法は、状態空間モデルを利用するため、直接観測することができない D F数を用いて、状態ベクトノレ 期待値を状態ベクトノレで、表すことがで、きる。そして、観察される D が逐次更新されるため、株価を用いたオプ、ンョンズ・アフ ローチによる倒産確率推定のように o 2 0 0 2 )参照)一方、推定のためにある 推定値が極端にボラタイルになることは少ない。(堀田 ( F数を認識する対象となるユニバースを規定し、さら 程度の期間の時系列データを蓄積し、 D ν にユニバースを適切なカテゴ によって分類する必要がある C カテゴリの生成はモテツレの精度 に影響を及ぼすため、特に重要である。 o r t f o l i oC r e s c e n d oJ" のオフ。ション機 本モデ、ルは、(株)金融エンジニアリング・ク、ループの P 能として既に実装されているが、今後は、実証分析を積み重ねることで、より精度の高いモデ ル構築を目標としたいと考えている。 2 8 1一

278.

参考文献 [ l J H a m i l t o n,j .D .( 1 9 9 4 ) TimeS e r i e sA n a J y s i s ,P r i n c e t o nU n i v e r s i t yP r e s s . [ 2] Jo r g e n s e n,B ., L u n d b y e ‑ C h r i s t e n s e nS のr e n,P .Xue‑KunSonga n dL .S un, AS t a t es p a c e m o d e lf o rm u l t i v a r i a t el o n g i t u d i n a lc o u n td a t a, "B i o m e t r i k a, 86,1,p p . 1 6 9 ‑ 1 81 . [ 3 J堀田隆夫 ( 2 0 0 2 ),i イ言用リスクのアーリーワォーニング)、金融工学研究所, i 信用リスク 管理の新時代」セミナー資料(平成 14年 5月 2 8日(火)開催) ‑282‑

279.

年金基金の財政状態の経年変化(成熟度わに応じた資産ポートフォリオの検討 中井真人 システム部 (株)金融エンジニアリング・グループ P o r t f o l i oAn a l y s i sA c c o r d i n g ωS e c u l a rc h a n g eo fF i n a n c e so fP e n s i o nFund MasatoN 叫a i F i n a c i a lE n g i n e e r i n gGroup, I n c . 要旨 年金基金の設立から終息までの年金財政状態の経年変化を成熟度といい、一般的には成熟度が高まるにつ れて投資戦略は徐々に保守的に運用すべきとされるが、シミュレーションを通じて危険資産の占める割合が 多いと、成熟度に拘わらず積立不足が発生し、成熟度が高いほど危険な状態になることがわかった。また安 全資産にシフトしでも定期的な掛金の見直しがあれば積立金は年金債務に追従することが判明した。本稿は 年金財政の改善には予定利率の改定よりも現実的な目標利回での資産配分への見直しが急務であることを指 摘するものである。 キーワード: 厚生年金基金年金 ALM成熟度年金財政年金債務積立不足予定利率金利パス 1.はじめに 厚生年金基金(以下基金という)は、政府管掌の厚生年金の比例報酬部分の代行(基本部分)と基金独自 の年金制度(加算部分)の両方をーイ本として運営する独立した公益法人である(図 1 ・ 1 )。 高度成長期に高い運用利回を享受するために設立された基金は、一転してパフル以降のマイナスもしくは 低い運用利回りで年金財政を相当悪化させており、解散も相次いで最盛期には 2 000以上あった基金数が 1 0 0 0強まで減じてきている。 本稿は資産側と負債側のシミュレーションによって財政改善の方法を検証するものである。 2 8 3一

280.

血ム主企昼2 主 労使折半 川 ト イ ) ス フ 一 例一一円 ! 8価 与一年 比一金 給一生 年一 (一厚 金一 退一一 済一生一 共一厚一 中一一 確定傑出一 金 年 済 共 使用者拠出 労使折半 国民年金(基礎年金) E 二コ厚生年金基金(年金債務発生) 図1 ‑ 1 年金の構成 年金運営は基金加入員から掛金を徴収してこれを積立て、その中から退職者に年金給付金を支払う。年金 財政の均衡度合いは年金現価と掛金現価と積立金で計算される。この関係は l人の加入員についても成立つ ( 図1 ・ 2 )ので図より以下であることがわかる。 積立不足=年金現価一(掛金現価+積立金) 但し 年金現価:将来の年金受給者の年金給付キャシュフローを現在価値にしたもの 掛金現価:将来の掛金収入キャシュフローを現在価値にしたもの 現在価値:将来の発生キャシュフローを予定利率で割引いて等分な金額に直したもの である。 図1 ‑ 2 加入員(1人)のキャシュフローと年金現価・掛金現価・積立金の関係 ここで年金債務を収支の差として(年金現価 積立不足=年金債務 積立金 掛金現価)とすると積立不足は以下となる。 年金現価と掛金現価は年金数理式で計算され、積立金の運用はポートフォリオ理論で別々に予測される場 合が多いので、上式の 1項目を負債側(L仮D、 2項目は資産側(A側)として所謂 ALMとしてその犬蹄 状態を検討する。 本稿では A側では H叫1& 却h i t eの金利パスより市場予測と資産の最適配分を求め、 L側は年金数理式をプ ログラム化して負債側の将来予測を行った。なお金利パス及び資産の最適配分は過去の市場データを取込ん で SASで計算した。 2 8 4

281.
[beta]
2
.資産側
Hull&w
h
i
t
e法と金利と株価の相関により金利パス(図 2・1
)と株価パス(図 2・2
)を作成した。各パスでの年
)を見ると収益率の平均は 2.8%程度になっている。基金の年金財政計算で予定して
間収益率の分布図(図 2・3
いる運用利回り(予定利率)は基金設立時では過少で、あった 5.5%を未だ、に使っている場合が多い。 5.5%と
2.8%について平均分散法で最適資産配分を求めてみると、 5.5%ではかなり株式等の危険資産の配分が高い
事がことが判かる。これが昨今の巨額の運用損失を出した理由の 1つ考えられる。今回の ALMシミュレー
ションでは 1
0
0
0本の株価金利パスから平均時、最良時、晶悪時の 3シナリオを抽出して各々について年金
財政の推移を検討した。
慣 *JPY

樟 式 JPY

16000
14000
12000 !

劃

t
o
o
o
of

128000
l
r
!
: 6000
4000
2000

0

。

M

経過期間
・1 金利パス
図2

図2
‑
2

~

ト

。

ー ー

n
制

株式パス

運用利回率の分布

60
回 ODD‑
にお)阿世緊

50
40
30

20

10
O

。

",
'"守
ず宇
. . ,i
守ヘ
ー
も
ヘ
;
)
"
̲
'
i
レ子 守 勺"
門.レ
J
ル
ハ ,',,(
.
. j
:
)
ヘ む
門レ¥''\.<-,~ ,~~~
、
'
:
)
'
:
.
"

~'\<-,~.'

、、、、 F4F dF

(,争や",<>や

~ヘ'b:""

'
b
.
"

~やや

事l回 率 ( 年 平 均 )

図 2・3 年間収益率の分布

=惨

図2
‑
5 目標利回 5.5%資産配分

図2
‑
6 目標利回 2.8%資産配分

N

ι
u
n
o
︐
η
u

282.

3 . 負債側 基金は設立から役割を終え解散するまでその財政状態は大きく変動し、その状態を表す指標として成熟度 ・1 がある。一般的には成熟度は年金受給者数÷掛金負担数や年金給付額÷掛金総額等で算出される。図 3 に示す様に成熟度が低い場合、高齢者に比べ若い加入員が多いので掛金のキャシュインが潤沢である。人員 数の最盛期を過ぎた成熟度が高い場合は、掛金を負担する若年層少なくなり、高齢層の退職後の年金は積立 金を取崩しながらの支払となる。今回のシミュレーションでは成熟度の低い場合と高い場合について行った。 また現行命1 鹿 通りに 5年毎の財政検証を行い積立不足が発生していれば掛金を引上げる仕掛を入れている。 4 . 資産側と負債側の統合 資産側と負債側を合わせたデータと処理の流れは以下となっている。この中で基金制度と計算基礎値は一 般的な基金の実際のデータを使用した。 巨E 資産側 ¥ シュミレーション 韮 蝿 周 章 Illit‑‑Illi‑‑' フ ロ A辱Ill11Ill1111 ヤ ユ キ シ │積立不足推移│ →巨~/ ,~砂 5年 毎 財 政 見 直 特別掛金計算 図 4・1 厚生年金 ALMシミュレーションの構成 ‑286

283.

5 . 予定利率 現在殆どの基金で予定利率(予定している積立金の運用利回)は 5.5%であるが、これが昨今の運用状況に 比べ高いので 2.8% 程度として、或る基金の財政推移(図 5・3 )を計算して見ると積立不足が倍以上に拡大する (白い部沿が積立不足)。これは図 5 ‑ 5に示す様に同じ退職金を支払うには予定利率の低い方が多くの積立 金を必要とすることから判る。また図 5 ・4ではこ¢積立不足¢解消にはかなりの特別掛金(白線)が必要とな っている。これが予定利率の下げに踏み切れない理由である。また目標運用利回は予定利率と同程度に求め られるので、本来安全な運用が求められる基金が高利回りの危険資産を多く持つ理由となっている。掛金の 推移図は階段状になっているが、これは 5年毎の財政見直しで掛金の再設定が行われる為である。 本稿では負債計算での予定利率は 5.5%まま据置き、現状の目標運用利回 5.5%と 2.8%の安全な資産配分 にシフトした場合について検討する。 資産側 BS 140脚 凹O 1 盛 一! μ門 1 1 2 0 . 0 0 0凹 0 1 回 国 O凹 0 !口当年度不足盆! 1回 国 0回。 :・政府負担金 ! 日 開 。 曲 。 l 盟主里里重一.JI 柏 田 0国 0 。 曲 2 0田 0 IE円 語l撫1活1 1 . 1 11 1' 11I I ! 。 図 5・1 予定利率 5.5% 債務と積立額推移 図5 ・ 2予定利率 5.5%掛金推移 資産側・ BS 。 曲 。 曲 250回 0 。 曲 2岡 田 口 曲 。 1 回 国O 。 曲i 1 岡 田0回 o, 150曲 。 曲 。 IU 350国 O 3回 国 O 口当年度不足金 1 1 ・政府負臣金 l !B )!f~豊亙」 百二 I ; 三二L一 一 環 冨i ‑ 1. 十二←円 ¥みま~,J礎科二世 i ?, う ひ ぷ よ I 竺竺空竺l' ー エ ヰ ‑ :府税務長曹関灘鰍ゆ怖い蜘 Z i 燃 :t‑zf 認 す 心 地 三 笠 二J o 図5 . 4 予定利率 2.8%掛金推移 退職金 退職時 退職金を支払うのに必要な積立金 ワi n 口 nノhu

284.

6 . シミュレーション結果 ( 1 )成熟度が低い場合 成熟度が低い基金では、階段状に積立金と年金債務が延びていくが(図 6・1 ・1 )、最悪シナリオでは積立不 足が目立つ。しかし平均シナリオでは目標利回 2 .8%の資産配分の方が 5.5%に比べ若干改善されている(図 6・1 ・3 )。一般的にキャシュインが潤沢な時には利回りの高い危険資産へのシフトが推奨されるが反対の結果 が見られる。 u ! 2 1 ~ 5 6 7 8 9 1 0 れ 1 2 1 3 1 4 1 5 1 6 ¥ ] 1 8 1 9 ・ " ~ 図 6・1 ・ 2 低成熟目標利回 5.5% 最悪シナリオ 図 6・1 ・1 低成熟目標利回 5 .5% 平均シナリオ 刊幅削 喜一品輔副l i 5L 実 . . 慨 " z・ I t. a s 咽周畑「一 一一一一 一一一一 一‑ 阻 1 2 J ( 5 6 7 8 9 1 0 ! I 1 2 1 3 H │ i z z z I S 1 6 1 7 1 8 1 9 2 0 図 6・1 ・ 4 低成熟目標利回 2.8% 最悪シナリオ 図 6・1 ‑ 3 低成熟目標利回 2.8% 平均シナリオ ( 2 )成熟度が高い場合 )。平均シナリオで 5.5%の資 一方、成熟度が高い場合は年金債務と積立金はなだらかに推移する(図 6ふ 1 産配分では積立不足の傾向が見えるが(図 6 ・ 2・1 )、2.8%では積立不足は殆ど発生していなしミ(図 6・2・3 )。同図 では 5年毎の掛金見直しで年金債務が‑̲e̲減って積立金が年金街主に追従で、きている様子が示されている。 最悪持のシナリオで 5 .5%の資産配分では積立金の減少が顕著である。(図 6・2・2 )。成票肢が高い場合は危険 資産のシフトはかなり危険である事を示している。 資賓倒" 貨車側" 図 6・2 ・2 高成熟目標利回 5 .5% 最悪シナリオ 図 6・2 ‑ 1 高成熟目標利回 5.5%平均シナリオ 寅屋倒・ BS 実直倒 'BS 一 γ一 一 一 喜 一一一喜一一一 喜一一一一 言f i l l E 酬1 1 1 1 F日時間耐瞳iiE1: 2 図 6・2 ・3 高成熟目標利回 2 .8% 平均シナリオ 288‑ 3 4 S 6 7 s 9 1 0 ¥1121314151617 1 8 1 9 20 .8% 最悪シナリオ 図 6・2・4 高成熟目標利回 2

285.

6 . まとめ シミュレーションでは高利回りを期待して危険資産を増やすのは危険であることが示された。これは収益 率の分布(図 2‑3) では平均は 2.8%なのに 5.5%の運用を期待することはリスクだけとる事に他ならないか らである。また運用利回りを下げ予定利率を据置いても、 5年毎の掛金率の再設定で年金債務に追従する積 立金が得られることが示されている。 現状の年金財政の改善案では、危険資産を減らすため目慌軍用利回りを下げると同時に予定利率も下げる 検百七ドされている。これは図 5・ 3に示す様に積立金不足を大幅に計上する事になり設立母体や加入事業所に 大幅に負担を強い、また加入員の給付にたいする不安を与えることとなり年金への不信を一層増幅する事に なる。 今回のシミュレーションを通じての提言は以下となる。 ‑目標運用利回を現実的なレベルに下げて危険資産を減少させる必要がある。 .予定利率を下げると大幅に積立て不足が発生してしまう。 ・予定利率を下げず定期的な掛金率の再設定で年金負債額に追従する積立金が得られるかシミュレーショ ン手法を用いた検討が必要と考えられる。 く参考文献〉 ・年金数理 ‑アーニング・アットリスク ‑フィナンシャル・リスク・マネージメント .ファインナスの為の確率過程 日本アクチャリー会発行 大久保豊著 森平爽一郎編 木島正明編 n凸 n QU ︐

286.

債権時価評価に関する実証的研究 一会計的観点、とファイナンス的観点での差異に焦点を当てて一 宮村幸夫 取締役常務執行役員 株式会社金融エンジニアリング・グループ An EmpiricalStudyf o rMarketValueofReceivables YukioMiyamura ExecutiveManagingO f f i c e r,DirectoroftheBoard n c . F i n a n c i a lEngineeringGroup,I 要旨 本稿では、債権に対する妥当な時価評価の道を探るため、キャッシュ・フロー見積法を前提 に、割引金利、デフォノレ卜、格付スプレッド、および将来の貸付金利変更反映としづ複数の構成 要素を反映した債権時価評価モデ、ルをいくつか構築し、そこで求めた時価の信頼性を、市場 実勢時価と比較し、モデ、ルの妥当性について検証する。 キーワーτ f 責擢時価評価、キャッシュ・フロー見積法、信用リスク、モンテカルロ法、変動金利貸付債権 1. はじめに 近年、不良債権問題に対処するため、その適正な貸倒引当金設定や債権流動化と関連し て、債権時価算定の精度向上に対する強し、社会的要請がある。特に、債務者の財政状態及 び経営成績等に基づき 4区分本 1 された債権のうち、要管理債権と貸倒懸念債権については、 DCF法に基づく厳格な貸倒引当金の設定が、金融機関に対する重要な行政指導項目となっ 1 日に公表された「金融 てきている。この DCF法とは、日本公認会計士協会から 2000年 1月 3 0 0 1年 7月 3 日に追加公表された 商品会計に関する実務指針(中間報告)について」および 2 「金融商品会計に関する実務指針(中間報告)の一部修正について J(以下、合わせて「実務 指針」という)で明示されている、適切な貸倒引当金算定指針の一つで、あるキヤツ、ンュ・フロー見 積法と同義とし、え、具体的には、債権からの将来キャッシュ・フローの割引現在価値(以下、小 稿では、この割引現在価値を債権時価とする)による債権時価相当値を推計する手法である。 しかし、このキヤツ、ンュ・フロー見積法は、日本会計研究学会でも議論付されているように、従 来の取得原価基準に基づく「プロダクト型会計」に比べ、時価評価を前提とした「ファイナンス型 υ 円同 内ノμ ー よ

287.

会計」のなかでは、ほぽ適正な方向として位置づけられつつあるといっても過言ではないが、そ の算定方法において、まだ完全に定式化されたものはなく、将来キヤツ、ンュ・フローの合理的な 見積や割引金利の設定に検討の余地が残っているとし、われる。例えば、将来キャッシュ・フロー に反映すべきデ、フォルトによる減損額の算定に際し、一般債権(正常債権及び要注意債権)に 対し用いられる貸倒実績率ではなく、ファイナンス分野で行われているようなデフォルトに至るま での確率的な格付変化の過程を反映させたり、また、割引金利の設定にあたり、市場金利に加 えて、社債の価格評価に通常用いられる信用格付スプレッド(以下、格付スプレッド、という)を考 慮、すべきか否か、さらに、将来の金利変化によりキャッシュ・フローが変わる変動金利貸付債権 についての時価算定方法等の課題がある。これらは、貸付金等債権の時価評価を社債等債権 のそれに準じて行う論拠であろうが、このような算定方法は、現行の金融商品会計基準内の評 価方法と比較し、不確定な要素が加わるため、会計監査上は、その評価統一性を巡る論議を 起し得る課題を有するものである。 そこでソト稿で、は、債権について妥当な時価評価の道を探るために、割引金利、デ、フォノレト、 格付スプレッド、および将来の貸付金利変更、とし、う複数の構成要素を反映した債権時価評価 モデルをいくつか構築し、そこで与求めた時価の信頼性を、実際の貸倒引当金額から推計した債 権市場実勢時価と比較し、モデ ルの妥当性について実証分析を行う。 キl 金融商品会計基準(第四.一)参照。 ホ2 第 60回 (2001年)日本会計研究学会ニユーフォーラムのテーマになっている。 2. 債 権 時 価 評 価 の 意 義 と 課 題 「実務指針」では、金融資産の時価は「公正な評価額」と定義され、市場価格がある場合は、 それをそのまま用い、市場価格がない場合は、「合理的に算定された価額」とし、金融資産から の将来キャッシュ・フローの割引現在価値を用いるように明示されている。この考え方によれば、 市場価格のない金融資産と同様に、債権に対してもこの割引現在価値が時価として適用され てよいはずであるが、「実務指針」では、帳簿価額算定と貸倒見積高推計への適用しか明示し ておらず、その適用範囲が限られている。 分配可能利益の算定を主な使命とし、監査を前提に客観性が重視される外部報告会計に あっては、割引現在価値の客観的把握の困難性からみて、債権の時価評価と割引現在価値と の関連について明示を避けたこの程度の適用でやむをえないことカもしれないが、他方、ファイ ナンスの分野では、株式や債券等の市場性ある有価証券との比較上、たとえ市場性のない債 権で、あっても時価評価が必要とされることがある。このため、ほぽ異論無く、①デ、フォルトによる キャッシュ・フロー減損、②格付スプレッド、反映、③金利変更によるキヤツ、ンュ・フロー調整、とい う3つの要因を反映した将来キヤツ、ンュ・フローの割引現在価値が時価として使われている。こ れら 3要因の中、現状、会計とファイナンスとで、その扱い方に最も差異があると思われる「実務 指針」上に明示されていない③の要因、すなわち、変動金利貸付債権の評価についての意義 と課題を、次の段落を整理する。 通常、生損保会社の保険料収入による資金調達を除けば、金融機関の資金調達は金利変 動を反映する短期の預金時や借入が主体であるのに対し、資金運用の一つで、ある貸付債権の ‑ 2 9 2一

288.

契約期間が中長期に渡るため、そのままでは、相当のデ、ユレーション・ギャップを生じることにな るc 当然、デリパティブ、によるへッジ戦略等により、このギャップは調整されていようが、この調達・ 運用上の財務構造から、金融機関にとっては、金利リスク管理上、固定金利貸付よりも変動金 利貸付の方が望ましいと思われる c 実際、我が国の主要金融機関では、変動金利契約の割合 は、総貸付の約 72%を占め判、固定金利契約を大幅に上回っているし、また、固定金利貸付の 金利リスクをへッジするために金利デ リパティブ が使えば、事実上、固定金利貸付は変動金利 貸付に転換できるので、変動金利貸付債権の時価評価の重要性は高いはずである。ところで、、 変動金利貸付債権の契約内容は、貸付金利見直し時の連動基準金利の種類(短期プライム レート、 LIBOR等)とその見直し周期、および返済方法(一括返済、元金均等返済、元利均等 返済等)の組合せにより種々のバリエーションが存在するため、返済方法の差異だけを考慮す ればよい固定金利貸付債権よりも、実務上、将来キヤツ、ンュ・フローの推計や時価算定の手法 は、かなり複雑になる。しかし、「実務指針」では、債権の割引現在価値を求めるキヤツ、ンュ・フロ ー見積法は、将来発生が見込まれるキャッシュ・フローを債権発生当初の約定利子率又は取 得当初の実効利子率で割引くとされているので、将来における不確実な金利の推移は考慮さ れないことになる。したがって、「実務指針」通りに行うと、変動金利貸付債権の時価は、連動す る金利に関係なく一定で、約定金利が同じであれば固定金利貸付債権のそれとも同ーになり、 会計報告書の利用者に誤解を与える恐れがある。債権流動化にあたっては、ファイナンス分野 での時価算定方法が用いられるが、そこでは、連動する金利が異なれば、債権から発生するキ ャッシュ・フローやその時価は異なるため、連動基準金利に相当する将来金利を推計する必要 がある c その金利には、評価時点の金利期間構造(以下、金利イールドカーブとしづ)から算定 し得るフォワード・レートを用いるのが、現時点では最も妥当な方法とみられているぺまた、時価 を求めるための割引金利は、市場性の反映を前提に、評価時点での金利イールドカーブに基 づき、キャッシュ・フロ一発生時期に相応するスポット・レートを用いることになる。 このように、現在、会計分野での債権時価評価方法は、ファイナンス分野のそれと比べ、かな りの差異があるといえる。しかし、その差異は、近年急激にニーズが高まっている債権流 動化によって大きく縮小しつつあるともいえよう。時価評価への不確実性や恋意性の介入 を排除したいという外部監査の視点は尊重すべきではあるが、今後、不良債権処理の切り 札ともいえよう債権流動化の面からみれば、満期保有を前提とした取得原価ではなく、金 利等の市場環境変化に応じた客観的な価額査定そのものの必要性がさらに強まるであろう し、また、財務諸表に計上する債権価額として、割引現在価値を用いた時価評価が現実味 を持ってくる可能性もあり、信用リスクの反映や変動金利契約に基づく将来キャッシュ・ フローの推計等を十分研究し、時価評価の精度を高めていく必要性はますます強まろう。 本 3 日経I¥e e d s干上の銀行本決算データによれば、何年 3月末日寺点での都銀 8行(あさひ、大和、三和、住友、さく 也を占める定期性預金のうち、約 85也の平均残存期間は 1 ら、富士、第一勧業、東京三菱)での預金業務の約 55 年未満である。 叫 同 デ ー タ で は 、 都 銀 日 行 の 変 動 金 利 債 権 の 総 貸 付 金 に 占 め る 割 合 は 約 71.肌である。 * 5 フォワード・レートが、将来の金利構造として妥当との市場のコンセンサスをほぼ確立し得たのは、 F a m a [ 1 ] [ 2 ]の 研究によるところが大きい。 ベ n υ 円同 υ η︐ム

289.

3 .債 権 時 価 評 価 モ デ ル と そ の 要 素 モデル構築の上で、その主要な要素は、債権から将来発生が見込まれるキャッシュ・フロー、 その現在価値評価のための割引金利、デフォルト率や格付スプレッドを反映した信用リスク要 因、市場金利水準との兼ね合し、から債務者が現状の借入れを期限前に一括返済する早期償 還要因、および債権の流動性要因のほぼ5っといえようが、小稿で、は、これらのうち、取得デー タとの兼ね合いで、定量化が可能な最初の 3つの要因に基づ、くモデル構築について考え方を整 理し、次に、それらの組合せを変えた複数のモデルの構造を明示する。 1)金利要因 「実務指針 Jでは、市場性を有しない非上場デリパティブ取引の時価評価は、将来キャッシ ュ・フローを適切な市場利子率で害J I引くよう指示しており、その適切な市場利子率についても、 「金利スワップの気配値等を参考にした金利イールドカーブから見積もる J と明記され、将来の 金利変化を考慮した時価算出が示唆されている。非上場デ、リパティブの代表的な商品は金利 スワップで、あり、その最も基本的な仕組みは、固定金利と変動金利を交換するものである。した がって、その時価には、「実務指針 Jに明記されていないものの、変動金利に対応したキャッシ ュ・フロー変化も考慮することが必要になるはずで、割引金利に金利イールド、カーブ, ~こ基づ、く市 場性を導入するのであれば、将来の金利変更を反映するキャッシュ・フローを推計する際にも、 現在の金利イールドカーブから算出できるフォワード・レートを活用しでもよいはずであろう。 2)信用リスク要因 「実務指針」では、債権の貸倒見積額算定において、信用リスクの反映方法として、デフォルトや 支払条件緩和による将来キャッシュ・フローの減損や回収可能性の見積もりに留まっているのに対 し、非上場デ、リパティブ 取引においては、信用リスクを将来キャッシュ・フローに反映させることが困 難な場合に、その現在割引価値算定に使う金利を格付スプレッド 等のリスク要因で補正するといっ た市場性の導入を示唆した表記がされている。 このような背景から、信用リスク要因として、将来キャッシュ・フローを減損するデフォルト事象 を取り入れる方法と、現在の信用格付に付した格付スプレッド、を取り入れる方法の 2通りの手法 を、小稿で、構築する債権時価評価モデルに反映する。後者は、現在の信用格付に付随する格 付スプレッドには、将来のテ、フォルト損失や格付変化に伴う時価変化などの信用リスク要因が すべて内包されているはずとの観点に基づくものとし、え、前述の金利要因で、変動金利貸付の 将来の金利変更を現在の金利イールドカーブのみの情報に基づいて推計するとし、う考え方と 整合的であるともいえる。 3)債権時価評価モデル 前述したような金利要因と信用リスク要因に対する考え方を反映して、小稿で、構築する債権 時価評価モデルは下記の(1)式で一般化で、きる。この式に基づき、金利要因と信用リスク要因 の二つをモデル構成要素として組合せ構築したモデルパターンを表 1に示す。モデル 1は、金 利変更を考慮した将来キヤツ、ンュ・フローを将来のデフォルト(年間一律割合に設定)による減 損を見込んだ上、キャッシュ・フロ一発生時の貸出利率で現在価値に割引くものであり、取得原 2 9 4

290.

価基準に準拠した評価モデ、ノレとみることもで、きるので" r 取得原価型」と呼ぶ。モデノレ 2は、モデ ル 1に対し、割引金利に金利イールド、カーブ、のスポット・レートを使い市場性を考慮するもので、 モデ、/レ 3は、デ、フォルトによる将来キヤツ、ンュ・フローの減損を考慮せず、割引金利として、当初 格付スプレッド、を金利イールドカーフーのスポット・レートに加算した値を使うものである。モデ、ノレ 2 の時価評価方法を債権に応用したもので とモデ、ノレ 3は、「実務指針」の非上場テVパティブ、取ヲ l あるので、「非上場デ リパティブ時価評価型」のデフォル卜反映タイプと格付スプレッド反映タイ プと呼ぶ。そして、モデノレ4は、割引金利として H u l l & W h i t e [ 3 J [4 J金利モデ〉ルによる多数本の将 来金利シナリオから算出で、きる金利イールド、カーブ、のスポット・レートに当初格付スプレッド、を加 算した値を使うものであるが、ファインナンス分野で、多用されているので、「ファイナンス時価評 価型」と呼ぶ。 VL= L{(RA[一1 JX (CR‑SR+FR)+PP)/( l+r+spread)'} ただし、 V,̲債権時価、 RA[‑lJ: 1期 前 の 貸 付 残 高 、 ( 1 ) CR: 時 価 評 価 時 点 の 貸 出 金 利 、 S R :時 価 評 価 時 点 の CF発生相当期間のスポット・レート、 FR:時価評価時点でのフォワード・レート、 PP:元 金 返 済 分 に 相 当 す る CF額、 r:割引金利、 s p r e a d : 信用格付けに付随したスプレッド 金利 表 1 債権時価評価モデ、ルパターン モデル 金利変更 モデル 1 フォワード・レート モデノレ 2 フォワード・レート 割引金利 信用リスク反映 貸出利率 圃デフォノレト反映(年間一律に CFを減価) 取得原価型 分析時点の金利イー 圃デフォノレト反映(年間一律に CFを減価) 非上場デリハティプ時価評価型 ノレドカーフ モテ'ノレ日 フォワード・レート 分析時点の金利イー (デフォノレト反映タイプ) 圃当初倍付スプレッドを割引金利に加算。 ノレドカーブ モデノレ 4 特徴 Hull&Whiteモデ Hull&Whiteモ テ . ノ レl こ ノレによる多数本の よる多数本の金利シナ 金利シナリオ リオ 非上場デげイブ時価評価型 (絡付スプレッド反映タイプ) 圃当初格付スプレッドを害J Iヲ l 金利に加算。 ファイナンス時価評価型 4 . モデル検証 本章では、前述の各モデ、ルに基づいて算定した時価の信頼性を、債権市場実勢時価と比 較し検証する c 以下では、まず、その市場実勢時価の推計方法、モデルで、検証する契約サン プル内容、金利モデ、ル構築のために必要な市場金利データおよび市場実勢を反映した格付ス プレッド、データを明示し、次に、そのモデルによる検証結果と、それに対する若干の考察を述べ るc 1)検証条件とデータ ①債権市場実勢時価の考え方 債権市場実勢時価は、貸倒懸念債権相当の時価と、一般債権相当の時価の 2種類を推計 し検証に用いる。これは、小稿のモデルはキャッシュ・フロー見積法をベースとしたものなので、 l に u n同d η ' u

291.

「実務指針」に添えば、貸倒懸念債権だけを対象に検証するのが適切かと思うが、一般債権の 時価評価への適用可能性も検証したいためである。 a ) 貸倒懸念債権の市場実勢時価 表 2を用いて、貸倒懸念債権の市場実勢時価を推計する。貸倒懸念債権相当額からそれに 設定された貸倒引当金相当額を差引し、た金額をもって、その市場実勢時価とみなす。この表 2 のリスク管理債権は全銀協統一開示基準に基づくものであり、「実務指針」でいう貸倒懸念、債 権区分がどの分類に該当するかは不明であるが、金融再生法(施行規則第 4条)および自己 査定基準(銀行等監査特別委員会報告第 4号)での分類をも併せて考慮し対比すれば、「実 務指針」の貸倒懸念債権は表 2の延滞債権に包含され、金融再生法の危険債権とは同じとみ られる刊。したがって、この延滞債権に分類されたもののうち、「実務指針」の貸倒懸念債権に相 当する債権額を表 3の金融再生法に基づく債権査定割合を用いて求め、その上で市場実勢 時価を推計すると約 5兆 8 851億円で、帳簿価額の 47.03%になる。なお、紙幅の関係でその 算式は害J I愛する。 b ) 一般債権の市場実勢時価 同様に、一般債権相当額からそれに設定された貸倒配当金相当額を差引し、た金額をもって、 その市場実勢時価とみなす。「実務指針」でしづ一般債権は、金融再生法での正常債権と要管 理債権を合算した区分であり、全銀協統一開示基準では、全貸出金から延滞債権と破綻先債 権を除いたものである。したがって、その時価は 4 8 5兆 9199億円となり、帳簿価額の 99.85%に なる。なお、紙幅の関係でその算式は割愛する。 表 2 預金取扱金融機関のリスク管理債権の状況 貸出金 8 . 5 7 8 . 0 5 0 貸倒引当金 リスク管理債権 総資産 全国銀行計 単イ立:億円 (平成 11年 3月期) 破綻先 延滞 3ヶ 月 以 上 延 滞 貸出条件緩和 5 . 0 6 6 . 0 2 0 296.270 4 4 . 2 4 0 1 5 5 . 0 4 0 1 6 . 3 3 0 80.630 [ 1 0 0 . 0 ] [ 5 . 8 5 ] [ 0 . 8 7 ] [ 3 . 0 6 ] [ 0 . 3 2 ] [ 1 .5 9 ] 147.970 注)1.上表は、金融監督庁 [ 7 Jに記載の「預金取扱金融機関のリスク管理債権の状況」表を基に作成。 2 .[]内の数値は、総貸出金に対するリスク管理債権およびその分類毎の構成比(%)を示す。 表3 金 融 再 生 法 に 基 づ く 債 権 査 定 状 況 ( 全 国 銀 行 平 成 11年 3月期I l ) 単位:億円 総債権額 正常債権 要管理債権 危険債権 破産更正債権 5 . 5 1 3 . 8 3 0 5 . 1 7 4 . 4 0 0 6 2 . 0 7 0 1 7 4 . 1 5 0 103.210 [ 1 0 0 . 0 ] [9 3 . 8 4 ] [1 .1 3 ] [3 . 1 6 ] [1 .8 7 ] 注)1.上表は、金融監督庁 [ 7 Jに記載の「資産査定等報告書集計結果」表を基に作成。 2 .[]内の数値は、総債権額に対する債権分類毎の構成比(%)を示す。 ②検証のための債権契約内容 モデ、ル検証に用いる契約内容は、以下のように設定した。 A 返済パターン 債権の返済ノ 4ターンは、元本返済と金利支払の方法が組み合わさって、多種多様であるが、 小稿での債権市場実勢時価はそのような複数の返済パターンを持つ多数の債権の集合体か ら算出されており、そこでは、期間毎の返済金額はほぼ平均化されるであろうとの前提に基づき、 υ ハ同 ハhu 臼 つ

292.

元金均等返済契約を返済ノ fターンとして設定する。このパターンは債権のなかで、も金額の大き し、企業向債権の返済事例として、実務上主要なものである。 B. 返 済 期 間 東洋経済 [ 9 ] p . 4 8 9、p . 5 0 0、p . 5 0 2のデータを用いて推計し、小稿の分析時点で、ある 1 9 9 9年 3 月末時点での 4 . 3年を返済期間として設定する。 c . 返済周期 市場実勢時価を推計した債権の元金均等払し、と利子返済の平均的な周期に関するデータ を、小稿で、は取得で、きなかったため、信用格付変化の周期に合わせ、 1年に設定する。 D. 金 利 変 更 周 期 返済周期に合せ、 1年毎に貸出金利の見直しを行うとする。 F . 格付およびデフォルト率設定 モデルに反映するデフォルト率は、客観性を重視し、サンプル数の多い S t a n d a r d & P o o r 's (以下 S&Pという)社の 1 9 9 9年 l月 l日から同年末までの格付推移表の数値を使用する。 a )S&P社格付基準では、 c c c格は「実務指針」の貸倒懸念債権とほぼ同意義といえるので、 貸倒懸念債権に相当する格付として c c c格を設定する。 b )一般債権に相当する格付は、 c c c格 除 外 後 の S&P社 格 付 推 移 表 の 格 付 別 債 権 構 成 分 布と全く同じ分布を持つ債権ポートフォリオを想定し、帳簿価額の 4.04%が AAA格 、 13.35%が AA格、 25.04%が A格、 2 2. 49%が BBB格 、 1 6. 44%が BB格、 1 8.64%が B格と なるよう設定を行う。 ③市場データ モデノレ 2、モデノレ 3および、モデノレ 4で、用いる害] 1引金利推計のため、野村総合研究所提供の 1 9 8 9年 4月から 1 9 9 9年 3月までの短期金利(L1BOR)および、スワップ・レートの月末値データを 使用する。また、モデル 3およびモデル4で、害] 1引金利に加算する当初格付スフ。レッド、は、 1 9 9 9 年 3月 2 6日時点の Moody'sI n v白s t o r sS e r v i c白(以下、 Moody'sという)社、 S&P社および日本 格付投資情報センター(以下、 R & Iとし、う)社の格付別・残存期間別の格付マトリクス表と 1 9 9 9 年 3月末の残存別国債利回りから求めるが、 S&P社の同日付 BBB格以下の格付スプレッドは 公表されていないため、 B格に対してはそれとほぼ同等の M oody's社のものを用いる。また、 c c c格については、これら 3社のどこも公表していないが、紙幅の関係で記載を害I 1 愛せざるを えなかった 3社の格付スプレッド、データから判断する限り、 R & I社の格付が 1ランク下がる傾向を 示しているので、同社の B格の数値をもって代用する。 2 )検証条件とデータ 前節の②に明記した契約内容に対し、以下の条件を当てはめ、検証を行う。 ①貸出利率設定 当初貸出利率は ( 2 )式により設定する。この式の右辺は、東洋経済 [ 9 ] p. 49 1に記載の「貸出 約定平均金利・総合・国内銀行」の 1 9 9 9年 3月末時点の値であるが、この数値は固定金利貸 付債権と変動金利貸付債権が合算されたものであり、ここから後者相当の平均金利を求めるた こ めには、前者と後者との金利スプレッド とそれぞれの貸出額ウェイトが必要になる。スプレッド、 i は、東洋経済 [ 9 ] p . 5 0 3に記載の同時期の住宅ローンを対象とした固定金利 ( 3 . 7 0 % )と変動金 利( 2 . 3 7 5 % )聞のスフ。レッド、(1.3 2 5 % )を使い、ウェイトには第 2章の注 2に 示 す 変 動 金 利 貸 付 債 勺 i nυ 同 n r u

293.

権の総貸付金に占める割合 ( 71 .6 % )を用いると、小稿で、の変動金利貸付債権の当初貸出利率 は1.847%となり、対比される固定金利貸付債権のそれは 3 .172%になる c VRXO.716+(VR+1 .3 2 5 )XO.284=2.223 ( 2 ) ただし、 VR: 変 動 金 利 貸 付 債 権 の 当 初 貸 出 金 利 ②割引金利設定 各モデ、ルにおける割引金利は、モデル 1は当初貸出利率を、モテ、/レ 2で、は将来のキヤツ、ン ュ・フロー発生時点に合わせた分析時点の金利イールド、カーブ、を、そしてモデル 3では、モデル 2に当初格付スプレッドを加算したものを用いる。また、モデノレ 4で、は、モンテカルロ法により発 l&Whiteモデルに基づく 1000通りの将来金利シナリオに当初格付スプレッド.を加 生させた HuI 算したものを用いる。この格付スプレッド、は、小稿で、用いる金利イールドカーブが通常 AA 格を ベースとしたスワップ市場金利から算出されるものであるので、債権格付に伴うスプレッドから AA格のスプレッドを差引し、た値を用いる。 ③デフォルト率と回収率の設定 Jに記載されている全国 小稿では、このキャッシュ・フロー減損時の回収率として、全銀協口 1 銀行 1 4 9行を対象とした 1997年 9月期の担保状況調査結果叫に基づき、債権総額に対し担 保で、カバーされている債権額の比率 (32%)を用いる。 3)検 証 結 果 と 若 干 の 考 察 表 4の検証結果に基づき、次の三つの点から考察を行う。まず、害IJ引金利やデフォルト・信用 格付等のモデ、ルへの反映方法が、推計した時価にどのように影響するかとし、うこと、第二は、我 が 国 の 金 融 機 関 の 貸 倒 引 当 金 実 績 か ら 算 出 し た 債 権 市 場 実 勢 時 価 と 4つのモデ、/レで、推計し た時価を比較し、その信頼性を考察すること、そして、第三は、本来、妥当な貸出スフ。レッド、が 設定されていれば、同ーの値になるはずの固定金利貸付債権時と変動金利貸付債権との時価 を比較検討し、小稿のモデルの妥当性を確認することである。 8 . 3 2 まず、最初の点であるが、取得原価型のモデ、/レ 1による推計時価は、貸倒懸念債権で 5 億円、一般債権で 97. 45億円であり、帳簿価額(元本 )100億円に対する差額は、債権につい て将来発生が見込まれるキャッシュ・フローのデフォルトによる減損が反映された結果で、ある。モ デノレ 1に対し、非上場デリパティブ?時価評価型(デ、フォルト反映タイプ)のモデル 2(貸 倒 懸 念 債 61 .00億円、一般債権:1 0 2 . 6 9億円)が高いのは、キャッシュ・フローを現在価値に割引く金 権: 利差によるものであり、貸出金利よりも分析時点の貸出期間にわたる平均的な市場金利が低か ったことに寄因する モデル 2に対し、非上場デ?リパティブ 時価評価型(格付スプレッド反映タイ O 4 8 . 0 7億円、一般債権:1 01 .6 6億円)が低いのは、信用リスクの プ)のモデル 3(貸 倒 懸 念 債 権 : 反映方法による差である。理論的には、将来キヤツ、ンュ・フローのデフォルトによる減損分に見 合う格付スフ。レッド、が付与されることになるが、小稿で用いたデータに基づけば、債権からの将 来キヤツ、ンュ・フローがデフォルトにより減損されることによる時価の減少よりも、当初格付スプレ ッドが割引金利に加算されることによる時価の減少分の方が大きいとしづ結果になり、市場取引 による付くこの分析時点で、の格付スプレッド1土、オーバー・シュートしていたといえる。 2.07 億円、一般債 モデル 3に対し、ファイナンス時価評価型のモデ、ノレ 4(貸 倒 懸 念 債 権 :4 権:1 0 0 . 3 0 億円)が低いのは、モデル 3が評価時点の金利イールド、カーブからのフォワード・レ I l&Whiteモデルから多数本のシ ートによる将来金利を反映しているのに対し、モデ、/レ 4では Hu 298‑

294.

ナリオを生成し、各シナリオ毎に将来金利を設定している差によるもので、変動金利貸付債権 の金利変更に関わる精度に起因するものといえる。 次に、第二の点であるが、 4つのモデ、/レからの推計時価と市場実勢時価とを比較すると、市 場実勢時価(貸倒懸念債権:47.03億円、一般債権:99.85億円)は、貸倒懸念債権で、はモデ、ル 3とモデ、ノレ 4による推計時価の聞の水準を示し、一般債権で、はモデ、/レ 4によるものが最も近い水 準を示した。これは、このモデ、/レ4で、推計した時価には、モデル 1よりも、より市場性のある割引 金利や精微な信用リスク評価および将来における金利変更動向が反映されている可能性があ るといえよう。また、モデル4は、キャッシュ・フロー見積法をベースとしたものではあるが、貸倒懸 念債権だけでなく、一般債権の評価にも活用し得る可能性を示唆しているともいえる。 そして第三の点については、変動金利貸付債権と固定金利貸付債権との時価を比較する と、モデノレ 1を除き、前者の時価がやや低くなる傾向が見られるが、その差異は最大で、モデ ノレ4 における一般債権での 2 . 40 億円 ( 2 . 3 9 % )であり、小稿で用いたいくつかの暫定的データ設定か らすると、その差異は小さいとし、えよう。固定金利と変動金利を交換する金利スワップ市場が成 熟していれば、妥当なスブ。レッドの水準まで、固定金利貸付と変動金利貸付との裁定が働き、 それらの時価は同ーになってしかるべきで、あろうから、この結果は、小稿のモデルの妥当性を示 唆し得るものともいえる。 表 4 変動金利貸付債権の推計時価と市場実勢時価との比較 格付毎の推計時価 パヲーン モデル 1 モデル2 モデル3 モデル4 A BBB j BB 9 9 . 7 3 9 9 . 8 6 9 9 . 6 9 9 9 . 7 3 B c c c 貸倒懸念債権 推計時価 単イ立(倍:円) 一般債権 貸fflJ懸念債権 一般債権 推計時価 市場実勢時価 市場実勢時価 I9829 88.64 58.32 5 8 . 3 2 45 97. 9 9 . 8 6 .65 58. 40 88 58. 40 97. 45 0 5 . 2 7 1 0 5 . 1 2 1 9 3 . 2 6 61 . 00 61β0 1 0 2 . 6 9 1 0 6 . 0 8 1 0 6 . 2 3 9 4 . 1 7 6 1. 73 61 . 73 1 0 3 . 6 4 1 0 5 . 4 1 1 0 4 . 2 0 9 3 . 6 0 4 8 . 0 7 48β7 . 66 1 01 1 0 6 . 3 8 1 0 5 . 1 5 1 0 4 . 1 2 !1 0 1幻 9 4 . 5 1 48. 71 48. 71 1 0 2 . 6 1 1 0 4 . 7 0 1 0 3 . 2 6 9 0 . 8 8 4 2 . 0 7 4 2 . 0 7 1 0 0 . 3 0 1 0 7 . 1 6 1 0 5 . 7 0 9 3 . 1 6 4 3 . 5 4 4 3 . 5 4 1 0 2 . 7 0 4 7 . 0 3 9 9 . 8 5 注) 1 元本は 100億円。表の上段の数値は変動金利貸付債権、下段は固定金利貸付債権の推計時価を示す。 2 .モデノレ 4 (土、モンテカノレロ法による 1 0 0 0本の時価推計結果の平均値を示す。 3 .貸億j懸念債権および一般債権推計時価の数値は、本章 1 )の② Fで述べたように、 S&P社格付構成比を用いて、以下 の算式により求めた。 ①貸倒懸念債権推計時価 = ccc格推計時価 ②一般債権推計時価 =AA格債権推計時価 x( 0 . 0 4 0 4 + 0 . 1 3 3 5 )+A格債権推計時価 X0 . 2 5 0 4 + . 2 2 4 9 +BB格債権推計時価 x0 . 1 6 4 4 +B格債権推計時価 XO.1864 BBB格債権推計時価 x0 時 鈴 木[ 1 2 J参 照 *7 小 稿 の 分 析 時 点 (1999年 3月 末 ) で の 全 国 銀 行 を 対 象 と し た 不 良 債 権 の 担 保 状 況 調 査 デ ー タ は 取 得 で き なかったため、取得し得る同様のデータの中で分析時点に最も近いものを用いた。 時 固 定 金 利 貸 付 債 権 の 時 価 評 価 は 、 表 lにおいて、将来の金利変更を行わない条件で、行った。 円Hd nHd 白 つ

295.

5 . まとめ 小稿で、は、債権に対する妥当な時価評価の道を探るため、キャッ、ンュ・フロー見積法を前提 に、割引金利、デフォルト、格付スプレッド、および将来の貸付金利変更、とし、う複数の構成要 素を反映した債権時価評価モデ〉レをいくつか構築し、そこで求めた時価の信頼性を、市場実 勢時価と比較し、モデ、ルの妥当性について検証を行った。その結果、やや難点はみられるが、 四つのモデ、/レのなかで、はモデ、/レ 4が、最も妥当性が高いといえ、貸倒懸念債権だけでなく、一 般債権の時価評価にも活用し得る結果を示唆し得た。このことは、「実務指針」では指示されて いないが、金融行政が、要管理債権に対する貸倒引当金設定にも、キャッシュ・フロー見積法 を用いるよう指導している根拠と成り得るものともいえよう。なお、このモデルの妥当性を高める ために、金利イールドカーブ、に基づく割引金利の精般化や格付機関からの公表事例が少ない 低格付債権の信用格付スプレッドの推計などがさらに必要で、あろうが、これらは今後の研究課 題としたい。 (参考文献) [lJEug巴ne F.Fama The Information i n t h e Term Structur巴 , JournaI of Financial Economics, Oecember 1984,pp.529~546 [2JEugeneF.FamaandRobertR . B l i s s Th巴I n f o r m a t i o ni nLong‑MaturityForward Rates , AmericanEconomicsReview,Vo177,No4,September1987,pp.680~692 [ 3 J J. H u l landA.White P r i c i n gI n t e r e s tRateOerivativeS e c u r i t i e s ", ReviewofF i n a n c i a lStudies, Vol .3No4,1990,pp.573~592 [ 4 J J. H u l landA.White NumericalProceduresf o rImplementingTermStructurei v l o d e l :S i n g l ef a c t o r l2No1,1994,p p .7~ 16 i v l o d e l s ",JournalofOerivatives,Vo. 'ャーナル、 [ 5 J日本公認会計士協会「金融街品会計に関する実務指針(中間報告)について」、 JICPA シ No.536 、 2000 年 3 月、 pp.185~279 [ 6 J日本公認会計士協会「法令の改正等に伴う会計制度委員会報告第 14号<金融荷品会計に関する 、 実務指針(中間報告)>の一部修正について」、平成 13年 7月 3 日 [ 7 J金融監督庁 r 1 1年 3月末におけるリスク管理債権等の状況」、金融監督庁の行政に関する報道発表 等、平成 11年 7月 23 日 [ 8 J金融監督庁「第二地方銀行 (56行)に対する検査・考査結果」、金融監督庁の行政に関する報道発 1年 9月 2 日 表等、平成 1 [ 9 J東洋経済「 99 経済統計年鑑」、週間東洋経済臨時増刊 日o J日本公認会計士協会「銀行等金融機関の資産の自己査定に係る内部統制の検証並びに貸倒償 却及び貸倒引当金の監査に関する実務指針」、平成 9年 4月 15 日 [ 1 1J 全銀協「不良債権の担保不動産に関わる状況調査結果(中間とりまとめ)について」、 、 平成 10年 6月 16 日 [ 1 2 J鈴木吉彦「不良債権の開示ーリスク管理債権と金融再生法」、企業会計、 2000Vol .52 No. 4 、 pp.5 1O ~.518 日3J拙稿「変動金利貸付債権の時価評価に関するーー考察」、会計、第 163巻第 5号 、 pp.793~806 (本稿は、拙稿[13Jに対し、加筆修正を加えたものである) ‑300一

296.

日本 5 A 5ユ ー ザ ー 会 (5U G I‑0) 極値理論による MonteC a r l o試行回数の削減可能性と 信用リスク量算出への応用 岸田則生 株式会社 CRCソリューションズ 金融システム部 AP o s s i b i r i t yo fReductioni nMonteC a r l oT r i a l su s i n gExtremeValueTheoryand I t sA p p l i c a t i o nt oC r e d i tVaRC a l c u l a t i o n N o r i oK i s h i d a CRCS o l u s i o n sC o r p . F i n a n c i a lSystemsDevelopmentDep . t 要旨 与信ポートフォリオの損失額分布に対して僅値理論を用いて 9 9%水準信用 VaRを推定 して、 M onteC a r l o法で求めた値と比較した。極値理論に由来する一般化パレート分布 のパラメータ値を SAS / IMLを用いて最尤法で推定した。 M onteC a r l o;去の試行回数を 変化させたとき、極値理論で求めた信用 VaRの方が試行回数聞の差が小さい傾向が見ら れた。 キーワード SAS/IML、極値理論、信用 V aR、最尤法、非線形最適化 1 . 緒言 銀行や保険会社などの金融機関および商社などの企業が有する与信や債券は、与信先や債券発行体が 倒産した場合の損失リスクを持っている。このリスクのことを信用リスクと呼ぶ。都市銀行では与信件 o n t eCar Io法が採用されることが多い。通 数が数百万件以上に達するので、信用リスク量の算出には M 常、信用リスク量としては損失額分布の 9 99 も確率点が信用 V aRとして用いられているが、ある程度の 精度でこの信用 V aRを求める場合、 l万回から 1 0万回程度の試行回数を必要とする。ところが与信件 数が数百万件以上あるので、その計算は長時間にわたり、ストレステストなどのシミュレーションを簡 単に実行できない現状がある。 極f 直理論は確率分布の裾部分の分布形状が、一般化パレート分布で近似できることを利用して、標本 分布のある閥値以上の累積確率などを推定する手法として mいられている。信用 VaRはまさしくこの 裾部分が問題となる統計量なので、極値理論の応用が考慮されても良い。第一の応用として、 l万回の 0 0番目点としての 999 も信用 V aRは 、 M o n t eC a r l o法の特徴として統計 試行で得た損失額分布の上位 1 的誤差を含んでおり試行ごとに値も変わるが、極値理論i の適用で安定な信用 V aRを算出できる可能性 がある。また、 M o n t eCa r I o法と異なり極値理論で、は信用 VaRの誤差評価が簡単に行える。第二の応用 3 0 1一

297.

として、より少ない試行回数で l万回の試行で得た信用 V aRと同じ値を推定できる可能性が考えられ 0分の l程度の試行回数で同様の値が得られるなら、計算時間削減効果から非常に魅力的 る。もし、 1 である。 極値理論で使用される一般化パレート分布のパラメータ推定には、いくつかの方法が提案されている が、今回は最尤法を採用する。最尤推定では尤度関数を直接最大化してパラメータを推定する方法と、 尤度関数の最大値がパラメータに関する偏微分係数がゼロになる点であることを利用して得られる非線 形連立方程式を解く方法がある。 SASのプロシジャとして、一般化パレート分布のパラメータ推定は提 供されていないが、 SAS j IMLを用いれば尤度関数の最大化は容易に実現できる。一方、 SAS / ETSには 非線形連立方程式を解くプロシジャが組み込まれているが、極値理論の一つの重要な変数である閥値の 変更に対して柔軟なプログラムを作成できない。 信用 V aR算出に用いた損失額分布は仮想与信ポートフォリオから、デフォルトモード方式に基づい て算出する。格付は 7段階とし格付毎の倒産確率と損失率を与えられるようにした。 本報告では信用 V aR算出における極値理論の応用として、主に試行回数削減の可能性に関して述べ j IMLによるパラメータ推定に関して る。また、尤度関数の最大化を用いた一般化パレート分布の SAS 記述する。 2 . 極値理論 極値理論とは、確率変数の中で中心から大きく外れた値(極値)の振る舞いに関する理論であり、観 測された極値を用いて確率変数の裾の部分のみをモデル化する理論である。本報告で用いる極値理論に 関して、詳しくは文献 1)および 2 )を参照されたい。 極値理論には最大値のそのものの分布を扱う手法と、ある閥値 u を超過するデータの確率的振る舞い を扱う P OT(P巴出so v e rT h r e s h o 1 d )と呼ばれる手法がある。 PO 寸手法は、ある水準を超えるような損失 額はどのような確率分布に従うか、ある水準を越えて発生する損失額の平均値はいくらか、といった問 題の解析に使われる。 超過分布関数 超過データを数学的に扱うために、超過分布関数を次のように定義する。 分布関数 F に従う確率変数 X が、ある閥値 uε(0, XF) を越えるという条件の下で、超過部分 Y三 X‑uが最大でも y以下の値をとるような確率について考える。すなわち、 F( y+u )‑F(u) y )=Pr(X‑I三ylX>l l )= ~ ~,,' , F I I( 1‑F ( l l ) 0く yく XF‑ u ( 1 ) ただし、 XFは右端の点つまり、 XF=sup{xεR:F(x)く 1を表している。これを聞値 uに対 する X の超過分布関数という。 また、 e ( u )=E(X‑u l x>u ) ( 2 ) を平均超過関数という。 I Iである。間値 u を分布の右端 XF に近づけていくと、 我々が最終的に求めたいのは超過分布関数 F F I Iは以下に示すー・般可パレート分布 ( G e n e r a 1 i z e dP a r e t oD i s t r i b u t i o n :GPD)に従うことが知られてる。 nU u nノ n u ぺ

298.
[beta]
GPDの分布関数 Gc!
3
(
I
I
)(
Y
)は
1
‑
e

︑
︑
自
﹃ J'
v‑ny

cら

+zn

'EA

︑E
/Et

一

一‑

1is

︑ ︑・

一
一

rea‑‑J

)
O

RV

Eち

G

ご
:
;
1
:0,
β>0

c=O

(
3
)

で与えられる。定義域はとさ Oのとき O三 yくXF‑u
、ごく Oのとき O三 yく s
/
cである。ごを
形状パラメー夕、 β を尺度パラメータという。

ふT

izs

Cも

(
︑
︑
自
﹃ J'
V
ノ百
P

+

ρ
L

︑
nμ'T一
Anμ'

Jtsl

EF
‑‑

一
﹄
‑
reaE
a Ear BEEt‑‑
︐
︑
︑
︐
︑

)
u

一
一
)

gち
00

(
n
v

︒

GPDの密度関数 g
c!
3
(
U
)(
Y
)は

ご
:
;
1
:0,β>0

c=O

(
4
)

で与えられる。

VaRの算出

)

︑
戸(

+

J

1la lla'

l

l

gち

α

﹃
︐
︑
・
︑)

ー
(

k
N一

一

Qμ' Cも

EE
EEE
︐︐
︑
・
rEaEEEE
EEEEL
︐
︐

G

一
一
)
X
(α
R

V

え
v

る
れ
ら

で

11111 与

信 頼 水 準 αの VaR
α(
X
)は

ここで、 N はデータ数、 kは闇値 u以上のデータ数(超過データ数)を表す。

3
. パラメータ推定法
一般化パレート分布のパラメータ推定には、主にモーメント法、最小自乗法、最大尤度法(最尤法)が
使われている。今回の分析では標本データが持っている全ての情報を利用し推定値の誤差が小さいと思
われる最尤法を用いてパラーメータ推定を行う。
;
)に対する GPDの尤度関数 L(
乙β,Y')は、密度関数の
超過データの標本ベクトル Y'= (Y~ , η ,・・・ , Y

積で与えられるので
~ 1I

Y事一{わ 1)

L
(
乙β,Y勺 = 11
ニ1+
c
‑
;
;
‑
I

(
6
)

!=!βlβj

となる。ただし、

η=X
7‑uで、 X
Jは損失額標本データである。パラメータごおよび、 βの最尤推定値

2および占は尤度関数 L(乙β,Y')を最大にする値として定義される。 (6)式の尤度関数を最大化するの
は数値計算上難しいので、通常は対数尤度関数

+
時n
l
1
( ç~')

1
(

l
(
c,
s,Y")= ル 叫 ‑

+

(
7
)

を最大化する方法が用いられる。
数値計算上、最大値を求める方法は二つに分かれる。第一は対数尤度にマイナス符号を乗じた関数を
最小化する値を非線形最適化法を用いて求める方法である。第二の方法は(7)式をパラメータ 5および

βについて偏微分し、それをゼロに置いた非線形連立方程式を反復解法で解く方法である。
非線形連立方程式を具体的に書き下すと、

5
‑
i
2
M

一叫)=0

‑303‑

(
8
)

299.

1 1I 1¥ ム η ー+ー 1+ 一1 ) ー 」 ー =0 T k¥ C J計 1‑T打 である。ただし、 T ( 9 ) =‑ g / βであり、 fおよび T について求解したのち、 βを求める。 fおよび β の最尤推定値は漸近的に 2次元正規分布に従うことが知られており、その分散共分散行 列は ︑︐ノ n u l ︐︐︐. ︑ ( 1+g)( O+g)βl k ¥ β 2 s 2} で与えられる。この行列を利用すると信用 V aRの近似的信頼区間が算出できる。 4 . 仮想与信ポートフォリオの損失額分布 与信ポートフォリオの損失額分布は、信用リスク評価期間内に債務者のデフォルトが生じて損失が発 生すると定義するデフォルトモード方式の M o n t eC a r l oシミュレーションにより求めた。具体的な損失 額は以下のように計算される。 与信ポートフォリオは n個の与信より構成されているものとする。与信 iの信用リスク評価期間内の デフォルト確率を P町、デフォルト時与信残高を E A D i、デフォルト時損失率を LGD iとする。このと 、 lまたは 0の値をとる確率変数 きポートフォリオの損失額 Lは l (確率 10 (確率 PDJ l‑PDJ ︑︐ノ l l ︐︐︐. ︑ Dt‑ ‑j を用いると エ . L LGD E A D i i. = D i i ) ( 12 より計算される。確率変数 D a r l o法で与信数 n個分生成すると l試行の損失額が確定する。 iを MonteC この試行を多数回繰り返すことによって、損失額の確立分布が得られ、その確立分位点から信用 V aRが 算出される。 各与信は格付けされていて、デフォルト確率は格付毎に与えられる。実際のデフォルト事象には与信 間の相関が存在するが、本報告の損失額算出ではデフォルト相関はこれを無視した。 本ポートフォリオでは 7段階の信用格付を仮定した。デフォルト率と回収率(ニト損失率)は信用絡 付のみで決まるとした。信用 V aRを計算する仮想ポートフォリオとしては、表 lと表 2に示した性 格の異なる 2つのポートフォリオを採用した。ポートフォリオ lは与信数が 20万件で総与信額が約 0 0万件で総与信額が約 4 . 3 5X 1 013 である。すなわち、 . 4X 1 013 で、ポートフォリオ 2は与信数が 1 8 ポートフォリオ lは l件ごとの与信額が大きく与信分散が小さいポートフォリオであり、ポートフォ リオ 2は中位格付以下の l件当たりの与信額が、ポートフォリオ lの 1 / 1 0程度で、与信分散が大きい ポートフォリオである。格付ごとの個々の与信額は平均与信額を平均に持ち、適当な分散を与えた対数 正規分布よりサンプリングして求めた。ただし、最大与信額に制限値を設けた。 まず、損失額がどのような分布をしているかを見るために、図!と図 2に試行回数が l万のポート フォリオ!と 2の損失額頻度分布をそれぞれ示す。ただし裾の分布が良く分かるように裾部分の頻度 にスケールを合わせてプロットした。また、極値理論は分布の右裾を解析する理論なので、損失額の絶 対値をとっている。 2つのポートフォリオは全く違った損失額分布を持っていることが分かる。特に、 ポートフォリオ 2は二山になっていることに特徴がある。二山目の分布は格付!と 2の大口与信のリス ク集中によるものと推定される。 ‑304‑

300.

5 . 極値理論による信用 VaRの算出 損失額算出の試行回数を千、 2千 、 5千 、 l万 、 2万 、 5万 、 1 0万と変化させて極値理論および、 Monte C a r l o法による信用 VaRを求めて、その比較を行った。 5 . 1 闇損失額の決定 極値理論による解析では閥値 II の設定がリスク尺度の値に大きな影響を及ぼす。間値を高く設定し すぎてしまうと、超過データ数が少なくなってしまい推定値の誤差が大きくなってしまう。逆に、閥値 を低くしすぎると裾分布以外のデータまで使用してしまうので、推定値が一定方向に偏ってしまう。で は、適切な闇値設定方があるかというと、唯一正確な方法が存在するわけではない。本解析では、関値 の設定に良く利用される平均超過プロットによる方法を試みた。平均超過プロットとは標本データ に対して = 止 何 一 叫 仰) X J ( 13 ) を計算したものである。ここで、 ( α ) +=max(a , O )という演算記号を導入した。また、 N は全データ数、 kは関値 u を超過するデータ数である。一方、平均超過フロットを ( 4 )式の GPD密度関数に対して計 算すると 戸+Cll D ( l l )=一一一一 lー ご ( 14 ) となる。これは、ごく l 、 戸 +cU>0のとき u に閲する正の傾きを持つ直線となる。図 3と図 4にポート フォリオ lと 2の試行回数が 5千の平均超過プロットを示す。ポートフォリオ lの場合、間損失額が 1 の領域で平均超過プロットが正の傾きを持った直線と見なすことが出来きる。 1 から 8 8 . 1X 1 01 . 5X 1 01 1 . 1X 1 01 に対応する超過データ数は 7 5個であり、これは 99%水準信用 VaR点である 50個 閥損失額 8 を越えているので、この損失額を閥損失額に採用することは問題ないと言える。ポートフォリオ 2では 1 1 の聞をほぼ正の傾きを持った直線と見なすことが出来きそうでる。関損失 から 1 1 .77x101 .93x1 01 1 に対応する超過データ数は 1 .77X 1 01 2 5個であり、この場合も 99%水準信用 VaR点を越えてい 額 1 るので問題ない。しかし、関損失額をただ l点に絞るのは危険だと考えられるので、平均超過プロット から決定した閲損失額を含むある程度の範囲で超過データ数を変化させて、信用 VaRの変化を見るこ とにする。 5 . 2 パラメータ推定 パラメータ推定は SASjIMLに組み込まれている NLPTRという非線形最適化プロシジャを利用した。 NLPTRプロシジャは最適化目的関数を与えれば内部で数値微分を行って g r a d i e n tと H e s s i a n行列を数 値的に計算するが、最適化目的関すなわちマイナス対数尤度関数の g r a d i巴n tと H e s s i a n行列は解析式が 容易に求まるので、ユーザ関数として定義した。 表 3にポートフォリオ lと 2の試行回数が 5千のパラメータ推定値と 99%水準信用 VaRをいくつか k )に関して示す。パラメータ推定値の変動率に比べて信用 VaRの変動率が小さく、超 の超過データ数 ( 過データ数すなわち閥損失額の取り方の影響が小さいことが分かる。 phυ nぺU ハHU

301.

5 . 3 信用 VaRの比較 E V T )による 9 9%水準信用 VaRを M o n t eC a r l o法 表 4と表 5にポートフォリオ lと 2の極値理論 ( (MC)の値と共に示す。また、極値理論では 959 も誤差限界値も示した。 1 0万回の試行回数では極値理論と M o n t eC a r l o法の信用 VaRはわずか 0 . 0 5%以内で一致しているの で、極値理論は M o n t eC a r l o法で人為的に生成した確率分布の裾解析にも有効であることが分かる。極 値理論も M o n t eC a r l o法も試行回数の減少とともに 1 0万四の値からずれてくるが、そのずれ方は極値 理論の方が小さいことも分かる。 9 5%誤差限界の信用 VaRは千回の試行回数でも 1 0万回の推定値を 包含している。 M o n t eC a r l o法では、例えば 1 0万試行回数(lパッチ)の推定値の誤差を評価するには、 1 0万試行のパッチを何度か繰り返して、その分散から誤差を評価しなければならないが、極値理論では lパッチの試行で誤差を評価可能である。これは極値理論の一つの優位性である。 6 . 結言 2つの性格の異なる仮想与信ポートフォリオに対して、デフォルト・モード方式で M o n t eC a r l oシ ミュレーションを行い、損失額分布を試行回数を変化させて生成した。この損失額分布の裾部分に対し 9 9%水準信用 V a R )を求めて M o n t eC a r l o法で求めた値と比較を て極値理論を適用して、信用リスク ( aRの方が、少ない試行回数でも多数回の信用 VaRに近 行った。その結果、極値理論から求めた信用 V い値が得られる傾向にあることが判明した。裾分布の一般化パレート分布のパラメータ推定には最尤法 月MLの NLPTRプロシジャを利用して実行した。 を用いた。尤度の最大化は SAS ‑306‑

302.

参考文献 1 ) 森本祐司、「金融と保険の融合についてム『金融研究』、第 1 9巻別冊第 l号、日本銀行金融研究 所 、 2000年 2 ) 演 口 二 朗 、 「 極 値 理 論 を 用 い た テ イ ル リ ス ク 管 理 =T a i 1r i s kmanagementu s i n gextremev a l u e 出e o r y J, 2000年度修士論文、国際政治経済学研究科国際ビジネス専攻、青山学院大学 表 表 1 :ポートフォリオ l 「吾高石1"1一 格付 l 格付 2 格付 3 格付 6 与信件数 25000 55000 35000 倒産確率 0.01% 0.03% 80% 0.15% 20000 150% 回収率 平均与信額 70% 8 0 9 も 5.0ooE+08 5.000E+08 3.000E+08 I格 付 7 I 20000 4.50% I 50% 50% 5.000E+08 I 5.000E+08 一 表2 :ポートフォリオ 2 l ‑格付 20000 格付 2 格付 3 格付 4 格付 5 格付 6 格付 7 ト亨信件数 30000 200000 225000 0.01% 0.03% 0.50% 0 . 7 5 9 も 225000 1.00% 200000 倒産確率 1 0 0 0 0 0 0.20% │信用格付 回収率 平均与信額 5.50% 30% 20% も 70% 60% 50% 409 80% 3.000E+08 3.000E+08 3.000E+07 3.000E+07 3.000E+07 3.000E+07 3.0ooE+07 表3 :試行回数 5千の場合のパラメーター推定値と 99%水準信用 VaR ポートフォリオ l ポートフォリオ 2 β VaR . 7 6 E ‑ 0 2 1 5 0 3 1 4 0 7 . 2 6 E ‑ 0 2 1.24E+I0 1 . 8 8 E + l l 1 .16E+I0 1 .87E+1 1 k E k E . 7 0 E ‑ 0 2 300 2 280 2 . 5 7 E ‑ 0 2 VaR β 1 .15E+I0 8.55E+I0 1 .1 0 E ‑ O l 1 .08E+1 0 1 . 8 7 E + 1 1 260 6 .1 7 E ‑ 0 2 1 . 16E+I0 8.55E+I0 1 .08E+I0 8.53E+I0 1 2 0 8 . 1 7 E ‑ 0 2 1 .15E+I0 1 .87E+1 1 240 1 .0 3 E ‑ O l 1 .01E+I0 8.5IE+I0 1 1 0 7 . 7 8 E ‑ 0 2 1 .17E+I0 1 . 8 7 E + l l 220 6 . 7 6 E ‑ 0 2 1.08E+I0 8.52E+I0 1 0 0 7 . 2 2 E ‑ 0 2 1 .19E+I0 1 .87E+1 1 200 7 . 6 9 E ‑ 0 2 1.07E+I0 8.52E+I0 . 1 2 E ‑ 0 2 90 8 42 E‑02 80 5. .1 4 E ‑ O l 7 0 1 .27E‑O1 60 1 1 .18E+I0 1 .87E+1 1 1 . 8 7 E + l l 50 5 . 3 0 E ‑ 0 2 1 . 34E+I0 .5 4E‑01 1 8 0 1 1 6 0 9 . 5 8 E ‑ 0 2 1 4 0 1 . 0 9 E ‑ O l 1 2 0 8 . 3 6 E ‑ 0 2 5 . 3 2 E ‑ 0 2 1 0 0 9. 44E+09 1 .06E+I0 1.05E+I0 1 . 12E+1 0 1 .19E+I0 1 3 0 l .27E+1 0 1 .12E+1 0 1 .12E+l0 1 . 8 7 E + l 1 1 .87E+1 1 1 . 8 7 E + l l 8.50E+I0 8.51E+I0 8.51E+IO 8.50E+1 0 8. 48E+1 0 ぺU n ハHV ヴ ー

303.

表4 :ポートフォリオ 1 99%水準信用 VaRの比較と試行回数依存性 試行回数 一 ‑ 1 0 0 0 2000 5000 1 0 0 0 0 20000 50000 100000 MC 48IE+IO 8.597E+1 0 8.738E+IO 8.314E+IO 8.219E+1 O 8.34IE+IO 8. O 8.745E+1 EVT 0 8.669E+1 0 8.733E+IO 8.346E+IO 8.27IE+IO 8. 477E+! o 8.518E+1 O 8.740E+1 EVT(+95%) 8.939E+1 O 8.737E+IO 8.82IE+IO 8.758E+IO 8.773E+IO 8.793E+IO 8.770E+1 O EVT(‑95%) 7.950E+1 O 7.913E+IO 8.184E+IO 8.304E+IO 8.570E+IO 8.688E+1 O 8.696E+IO 表5 :ポートフォリオ 2 99%水準信用 VaRの比較と試行回数依存性 試行回数 1 0 0 0 2000 MC EVT 1 .981E+II 1 .897E+II 5000 1 . 8 6 7 E + I I 1 .923E+I I EVT(+95%) 2.146E+II .785E+II EVT(‑95%) 1 1 . 8 8 9 E + l l 1 . 9 7 0 E + I I 1 .912E+II 1 .827E+I I 1 . 8 3 9 E + I I 1 . 8 7 3 E + I I 1 0 0 0 0 20000 1 .866E+I I 1 . 8 6 5 E + I I 1 . 8 6 9 E + I I 1 . 8 7 9 E + I I 1 .871E+II 1 . 8 7 6 E + I I 1 . 8 5 9 E + I I 1 . 8 6 6 E + I I 1 .872E+I I 1 . 8 9 8 E + I I 1 . 8 4 8 E + I I ‑308一 50000 1 . 8 6 8 E + l 1 100000 1 . 8 7 0 E + I I 1 .871E+II 1 .876E+II 1 .867E+II

304.

500 ポートフォリオ 1 損 失 額 分 布 試行回数:1万 400 300 倒 壊 200 1 0 0 0 O . O E + O O 2.5E+10 5 . 0 E + 1 0 7 . 5 E + 1 0 損失額 1 .0E+1 1 l . 3E+11 1 .5E+1 1 図1 :ポートフォリオ 1の損失額分布。 500 ポートフォリオ 2 損 失 額 分 布 試行回数:1万 400 300 倒 壊 200 1 0 0 0 O . O E + O O 5.0E+IO 1 .0 E+II 1 .5 E+II 損失額 図2 :ポートフォリオ 2の損失額分布。 2 . 0 E + I I 2 . 5 E + 1 1 ベ ηυ ハud ハHU

305.

3.0E+10 5E+1 0 2. ポートフオリオ 1 平均超過プロット 5干 試行回数 : 2.0E+1 0 額 以 曙 I . 5E+1 0 曙 担 1 .0E+10 S . O E + 0 9 O.OE+OO O.OE+OO S . O E + 1 0 I. 5E+1 1 1 .0E+1 1 関損失額 図3 :ポートフォリオ 1の平均超過プロット。 1 .2E+1 1 1 .0E+11 ポートフオリオ 2 平均超過プロット 試行回数 : 5干 8.0E+10 額 以 覇 6 . 0 E +1 0 曙 担 4.0E+1 0 2.0E+1 0 O.OE+OO O.OE+OO S . O E + 1 0 1 . 5E+11 闇損失額 1 .0E+11 図4 :ポートフォリオ 2の平均超過プロット。 2 . 0 E + 1 1 2. 5E+1 1 υ ハ 日 1よ ハペ U

306.

E n t e r p r i s eMinerを使用したデータマイニング ー信用リスク計測のためにー O角野大朗率 斎藤和宏 株式会社タクミインフオメーションテクノロジー DataMiningUsingE n t e r p r i s eM i n e r :ToC r e d i tR iskMeasurement KazuhiroS a i t o/TaroKadono TakumiI n f o r m a t i o nTechnologyCo.,I n c . 要旨 信用リスクマネジメントにおける非離散化モデル構築のために E n t 巴r p n s巴 Min巴rを使用する. E n t 巴中 r i s巴 Min巴rを使用することによって,モデ、ル構築が今までよりスムーズに行えると考える.実 n t 巴r p n s巴 Minerのプロセス (SEMMA) である I S a m p l i n g J 際にツールを使用することによって, E I E x p l o r e JI M o d i f yJ IMod巴I J1 A s s e s s J がl j 慎に行われ,今まで、手間の掛かった一連の作業をそ n t巴中 ns巴 Min巴rを使用した信用リ のモデ、ル内で完結で、きるために作業効率が高い.本稿では, E スク計測のためのモデル構築の一例を紹介し,金融分析でよく使用される判別分析モデル,決 定木モデ、ル,ニューラルネットワークモテソレ等との比較を行い,使用方法の方向性を考察し,今 後分析を行うための課題点を示す. キーワード: Ente中 r i s eMiner, SEMMA. 大 容 量 デ ー タ , 効 率 性 1 はじめに 金融データは大容量である場合が多く,そうでない場合でも時聞が経てば大容量になり,処 理に掛かる手間と時間は膨大なものになる.また,決算書を利用するために,欠損値の処理を どうするか考える必要がある.例えば,分析対象となる指標に欠損値がある場合には離散化ロ ジスティックモデルを使用することによって,欠損値対応をすることがある.ここで問題となる のは,離散化範囲の近傍でドラスティックに係数(評価)が変わる可能性があるということであ n t e r p r i s巴 Minerを用い,手間の掛かった欠損値処理やデータ抽出や分割を効率よ る.そこで, E く行うことで非離散化ロジステックモデ ルを作成する. • kado@[akumi‑i . r c o . j p nべU ‑ L 1L

307.

2 Model 分析に使用する企業数を η 件,財務指標数を m 個とする.各企業の財務指標を以下のように 表す. ( , ) ‑ , Xiニ (Xil Xi2ぃ ・ ・ Xim) i= 1, 2, . . . ,η 具体的には以下のような決算書データがあるものとする. 企業 ID 決算期 Xl X2 X3 Xll X12 X13 Xlm スァータス プ、フォルト先 2 3 2003年 3月 2003年 9月 2003年 3月 X21 X22 X13 X2m 正常先 X31 X32 X13 . . . X3m デフォルト先 . . . . . . . . . . . . こCim . . . . . . 正常先 . . . 2003年 9月 1 n Xil 2004年 3月 Xi2 . . . '" Xnl こ Cn2 Xi3 Zη3 . . . . . . Xm Xnm デフォルト先 表 1 :決算書データ 次に, ( 1 )式を用いて,以下の線形結合でスコア化する.ただし, αは係数ベクトルで、あり, α =( α lα 2, ・ .. ・ αm)とする.また .X (X11町 、 ....Xm )である. y ‑ ax α l X l+α 2X2+...+αm X m ( 2 ) νは信用スコアであり,各企業のデフォル卜確率が信用スコアによって決定されていると仮定 する.つまり,信用スコアが高ければデフォル卜する確率は低くなり,信用スコアが低ければ デフォル卜する確率が高くなると仮定するーこの信用スコア νを以下のシグモイド曲線に代入 してデフォルト確率を求める. xpy 1+expy 中 山 )= 1 p (ν)=一 一 一 一 . 日 y→十∞ 1 日m p(ν) y→ ∞ 二 0 ( 3 ) 各企業のデフォル卜確率は独立であると仮定する.また,企業 tのデフォルト確率 Pi とする (α )は以下のようにおける. と,尤度関数 L L (α ) I I p t(1‑ i ( 4 ) Pi)l‑Oi Z二 l O i { ; 協 の ス テ ‑ … フ が レ 卜M O 企業 iのステータスが正常のとき nJU ぺU n 1ょ

308.

次に,係数ベクトル α を推定するために対数をとり,次のような計算を行う. l (α ) = logL(α ) logIIp~i(l-Pi)l- c5i i=l Ilogpf'(1‑Pi) ーム 1 Z二 l Hか o g p f i+1 叫 勺 pi )l I I {仙 ( 5 ) となり,最尤法では l (α )が最大になるように係数ベクトル αを推定する.係数ベクトル αは , 連立方程式 θl (α ) θ α 1 乞 (pi‑di)X り , =1 ( 6 ) o ( j= 1 , 2,3, . . ., n 1 ) を用いて求めることができる. この方程式は一般に非線形連立方程式であるので,解析的に解くことは困難である.そこで, E n t e I 下r i s eminerを用いて係数の推定 lを行う. 3 E n t e r p r i s eMinerのプロセス E n t e r p r i s eMin巴rではデータマイニングを I データさえ入力してしまえば完了するもの」では なく,一連のフ ロセス (SEMMA) として結果が出るものと考えている. SEMMAとは Sampling o (データ抽出),E x p l o r 巴(データ探索),Modify (データ加工),Model (モテ守ル構築),Ass 巴 s s (モデル評価)であり,以下で詳細l を説明する. 3 . 1 Sampling (データ抽出) データマイニングでの分析対象となるデータセットは非常に大きいサイズになる場合がある そこで,全てのデータを使用することはせず,分析対象の傾向を損なわないようにデータを分 割し,一部を抽出することで効率よく分析を行うことが可能となる. サンプリングの方法は以下の通り. 1係数推定の方法は E n t e中 r i s eM i n e rで変数の数によって自動的に選択される 内 ベU ηベU 1よ

309.

‑単純無作為抽出法 ‑層別抽出法(層化抽出法) ‑最初の Nオブザベーション ‑集落抽出法 ‑系統抽出法 データ分割 2は以下の通り. 学習用データ:モデ、ルを推定するときに使用するデータ 評価用データ:推定されたモデルの妥当性を確認するためのデータ テスト用データ:各モデルの予測精度を計算したり,異なるそテ守ルの精度を確認するデータ 話穆党九九)子、,ー 属 高 畠 由 国 国 圃 圃 園 田 園 圃 園 田 園 田 園 臨 臨 輔 議議員~J長?~:ι長。三匂品 テ.ータ 変数 「 法 : 分割!層別 1...i. ーを‑:'; . . . . ; : i : : :誤 ! 出 力 lノート l 割合: O単 純 な 無 作 為 抽 出 法 ⑨層 ~IJ抽出法 。ユーザー定義 新しいシードの生成 1 1 一寸百百 学習: n百 χ 検証: i30χ テスト iO誌 合計 4 盟 主jI 100 % 図 1 :分割ノード 3 . 2 Explore (データ探索) モデ、ルを構築する前に,探索的データ解析によって, データの大まかな傾向を把握するとい うものである. 2このノードでは分割の割合や抽出方法を変更することが可能である. デフォルトで学習用データが 4 0%,評価用データ,テスト用デー夕方、 3 0%となっている. また,抽出方法は単純無作為抽出法,層別抽出法,ユーザー定義の抽出法がある A当 41ム nぺU

310.

分布エクスプロ ラ :視覚化ツールで,パターンとトレンドを見つけ,外れ値を明確にする. 多次元ヒストグラムを作成する. マルチプロット:データを資格化するツール.また,パッチ環境でグラフ作成するためのコー ドを生成. I n s i g h t 対話型ツールで、ある, SASIINSIGHTを実行する. 1変量データの分布分析や多変量解 析をしたり,散布図,箱ひげ図を作成する. アソシエーション:データの中に隠れている関連や順序を発見する.いわゆる,マーケットパ スケット分析を行う. 変数選択:数百の独立変数があるときに目的変数と閣係の無い変数や,欠損値の多い変数を削 除し,効率よくモデ、ル構築を行う準備をする. 3 . 3 Modify (データ加工) モデルを構築するために必要なノードで,データセットや変数を加工するというものである. テーブル属性:このノードでは,出力データセットの名前や役割を変更することが可能.また, 任意のデータセットのメタデータサンプルを作成することも可能. 変数変換:既存の変数を変換して,新しい変数を作成したりする. LOG変換や標準化を行って 新変数を作成する. 外れ値のフィルタ一:データにフィルターを掛けて,以後の分析に入れたくない外れ値やその 他のオブザベーションを除外する.フィルターを掛けてデータから外れ値を除外すると, パラメータ推定が安定し,モデ、ル構築も安定する. データ置き換え Iの値で置き換えたりする.間隔変数に含まれる欠損値 欠損値を保管したり日J は平均や中央値などで置き換え,名義変数に含まれる欠損値は最頻値に置き換える.ユー ザ一定義の値にすることも可能. クラスタリング.オブザベーションのクラスター分析を行う. SOM/K 瓜oh叩 one 叩n K ohonenべクトル量子化.Koh 凶 l o n 問1 氾 巴 釘 叩 n白己組織化マツプ.Na 叫d a r a 戸 ya は局所的線形平滑化によるパツチ自己組織化マツプを{使吏用して,教師なし学習を実行する FAd qべU i ‑

311.

3 . 3 . 1 欠損値について オブザベーションに欠損値が含まれる場合,そのオブザベーションは変数の選択・ニューラ ルネットワーク・回帰分析ノードによるモデル化には使用されない.また, 1つで、も欠損値のあ る不完全なオブザベーションがすべて除外されると,欠損していないその他の変数の持つ有用 または重要な情報が無視される可能性がある.さらに,欠損値のあるオブザベーションどうし が共通の情報を持っている場合,そうしたオブザベーションを除外することで、標本が偏ってし まう可能性もある. では,どのような処理を行えばよいのだろうか. 欠損値を扱う場合,使用すべき推定の方法は何かという問いに対する答えは lつで、はない.自 動的に欠損値を置き換えるどの手法でも,本質的に真の(欠損した)データに関する仮説を立て ることが要求される.例えば,母集団が正規分布であると仮定するが,欠損値を変数の平均に 置き換える方法がある.欠損値を平均値,中央値,または中央の傾向を測るほかの尺度で置き 換えるのは簡単だが,変数の標本分布に大きな影響を与える可能性がある.これらの置き換え るための統計量は,影響を最小限に抑えられる場合にのみ,注意深く使用する必要がある. ほかによく使用される補充の方法として,欠損値をデータソースに保存されているその他す べての値の平均値に置き換えるというものがある.この方法では,その変数が正規分布してい ると仮定される.また,データを調べて,一部の変数のみに欠損値が発生しているかどうかを 確認するとしづ手法もある.欠損値が含まれる変数が,有意でないと判断された場合には,分 析から除外することができる.このような場合には,オプザベーションはモデル化のノードで 使用することができる. 3 . 3 . 2 変数変換ノードを用いて,新たな変数(財務指標)の作成 財務指標を作成する.例をいくつか以下に挙げる. 0 0 1.自己資本比率=(資本+特別法上の引当金)‑;.‑負債・資本合計 x 1 2 . 当座比率三当座資産合計÷流動負債合計 x 1 0 0 3 . 売上高総利益率=総利益÷売上高 x 1 0 0 I引料率=支払利息・割引料÷売上高 x 1 0 0 4 . 売上高支払利息・害J 3 . 3 . 3 変数の変換の説明 売上高や経常利益などの金額がそのまま財務指標になる場合には,財務指標が各企業での差 が大きいために,対数をとって規模の差による影響を少なくすることがある.具体的な例を以 ハ ペU ハhU 1よ

312.

下に示す. 企業 lの売上高 1 0, 000千円 企業 2の売上高 1 0 0千円 企業!と企業 2は売上高ベースで 1 0 0倍の差がある.評価する際にはそのままだと 1 0 0倍にな るので,対数(log)をとって, 2倍に縮め,売上高の影響を少なくする. 3 . 4 Model (モデル構築) ニューラルネットワーク,決定木,ロジスティックモデルの構築を行う 回帰分析‑線形お呼びロジステック回帰モデ、ルを構築する.変数選択は変数増減法・変数増加 法・変数減少法を用いることができる. 4 . 5を使用して決定木モデ、ルを構築 ツリー.一般的なアルゴリズムである CHAID,CART,C する ニュ ラルネットワーク:多層のニューラルネットワークを作成し,学習させることができる. デフォルトでは中間層が 3つのニューロンからなる多層パーセントロンネットワークが構 築される. 田町四国圃嗣留置噛間観織機騒欝鶴 z 盟 主j バ寸﹂ 罪主テ」フル属性 r m変数変換 品外れ1m:のフィルター 臨デー担置き換え 日クラス担リンク 盟 SOM/Kohonen %B寺系列竜平価版) デ ルf ヒ 、 Modelモ I L回帰分析 点、')1)‑ u サンプリング ダイアグラム 二ュ」ラルネットワーク ツール 図2 :モデル構築 3 . 5 A s s e s s (モデル評価) モデルの評価基準を設定し,実際のビジネスに即したモテョルを選択する. ~ ηぺU ηIB ‑ ‑

313.

モデリングノードからのモデルや予測を比較するノードである.比較はそれぞれの処理結果 から得られた利益の期待値および実際の値となる. また,利益の期待値と実績値を使用してグ ラフ化することで, モデ、ルの有効'性を示すことができる. 宅 か 園長盟国国軍司園田園田園田園理雲藤義 決 ? で 三 一 守 句 P ̲ l D I三 l 正反応捕捉割合 100 室 田 合捉 割嶺値枇⁝⁝ 応応ト一一一 反庄フ益W ︐ 正Eリ利三一 O@00 首征車田U)1坦 80 60 ⑥毘積 O非 累 積 40 20 f*557Ø~: o1‑ 10 子会妄/ n 三 三 + ;~;::t~)1三~zif:~ [ タ 二Z f ! ? 「 フ ユ ; レ ・1 60 100 40 80 . J . . Sーセント,占 山ールの名則一一一一一一 l 口 8aseline 回 Neural 図3 :正反応補足割合 4 モデル作成 4 . 1 非離散化口ジステックモデル SEMMAのプロセスによって, 非離散化ロジスティックモデ、ルを構築する. 2章の表 lデータを用いることによって, 以下のようなモテツレを構築することが可能となる. y=1 .345ヰ自己資本比率+0.765本売上高付加価値率+...‑ 0.961本有利子負債利子率 ( 7 ) 上記の非離散化ロジスティックモデ、ルの優位点は欠損値処理を行っているものの,各指標をそ のまま代入して,信用スコアを求められることである. ま 一方,離散化ロジスティックモデ、ルで は, 欠損値に対して係数評価を与えることが無い. f こ , 各指標の離散化範囲近傍で係数が大きく変わる可能性があるため, 各指標が少し変化した だけでも,信用スコアが大幅に変化する可能性がある. 4 . 2 決定木モデル 結果は以下のようにまとめることができる. tEム ハ ペU n o

314.

亘亘二二コ逼逗三J 記 EEIhE て哲三忌亘二コ:亙面三孟]玉蚕込二J.Q.71!>.>と垣間弓そ一一 i 図4 :決定木モデ ル 5 今後の方向性と課題 離散化ロジステックモデ、ル,非離散化ロジステックモデル,決定木モデル,ニューラルネッ トワークモデル等を比較する(メリットとデメリット). また, E n t e r p r i s eMin巴rの使用例から今後のビジネスに対しての方向性や課題点を明確にする. モデ、ル名 メリット プ、メリット 離散化ロジスティック 欠損値が使用可能 離散化範囲近傍で係数変化 非離散化ロジスティック ニューラルネットワーク 信用スコアがなだらか 欠損値処理必要性 説明力が高い 監査性で問題 決定木 少数データでモデル構築可能 説明能力で問題 判別分析 金融機関での使用実績3 分散正規性の仮定 表2 :モデ ルのメリット・デメリット 以上のように,非離散化ロジステックモデルは信用リスクを計る上で、有効なモデルで、あるこ nt 巴r p r i s eMin巴rは大きな力を発揮す とがわかる.実際にビジネスでモテ、ル構築に使用する際に E ると考えられる.迅速なモデル構築はビジネスチャンスに対しても対応可能となるからである. しかし,今回の分析で考慮しなければならない点がある. E n t e r p r i s eMinerでの欠損値処理に r o cMIプロシジャを使用するこ 改良の余地があると考えられる点である.この点については P とによって,欠損値処理がより合理的に判断されるが,理論的な説明には更なる議論を行う必 要があると考えられる. 3森 平 ( 2 0 0 1 )によると,金融機関の 55%が使用している 4li nwU qu

315.

参考文献 [ I J 筒井良和 ( 2 0 0 0 ) : I スコアリング、モデ、ルの利用と実務 J,信用リスク研究会 2 0 0 2 . 2 [ 2 J 森平爽一郎 ( 2 0 0 1 ) : I 信用リスク研究の最近の展望 J,統合リスク管理セミナ‑2001 . 10 1 1口昇 ( 2 0 0 3 ) : I 大規模データベースを用いた信用リスク計測の問題点と対策(変 [ 3 J 山下智志 ) J ,金融研究研修センター平成 1 4年デイスカッションペーパー 数選択とデータ量の関係 ) [ 4 J 山下智志川口昇敦賀智裕 ( 2 0 0 3 ) :I 信用リスクモデ、ルの評価方法に関する考察と比較 J, 金 5年デイスカッションペーパー 融研究研修センタ一平成 1 [ 5 J Altman,E .1 .( 19 6 8 ) :" F i n a n c i a lR a t i o s,D i s c r i m i n a n tA n a l y s i sandt h巴 P r 巴d i c t i o no fC o r p o r a t巴 B a n k r u p t c y "Joumalo l } ヲn ance,2 3 ( 4 ),5 8 9 ‑ 6 0 9 [ 6 J Merton,R .C .( 19 7 4 ) :"OnTheP r i c i n go fC o r p o r a t eD e b t :TheR i s kS t r u c t u r eo fI n t e r e s tR a t e s " J o u r n a l0 1F i n a n c e,2 9 ( 2 ),449‑470 ぺ u n ハUu n r

316.

入れ子型ロジットモデルを用いた企業格付モデル構築法の提案及び 提案モデルの妥当性に関する検証 発表者坂巻英一 東京工業大学大学院社会理工学研究科 博士後期課程 P r o p o s a landV a l i d a t i o no fR a t i n g sF o r e c a s t i n gModel w i t hu s eo fN e s t e dL o g i tModel Yoshikazu Sakamaki, TokyoI n s t i t u t eofTechnology GraduateS c h o o lofValueandD e c i s i o nS c i e n c e 要旨 近年の経済環境の中において,企業の信用力を正確に測定する必要性が,急速に高まってきており,企業格 付に対するニーズはますます増加する傾向にある。 先行研究における確率理論の研究の中で,これまで広く用しもれてきたそデ、ルとして,ロジットモデ、ルが挙げら れるが,企業格付に関する研究においては,順序ロジットモデ ルが広く一般に用いられている反面, I I A 特性の制 約,格付の順序性が考慮されない等の理由から通常の多項ロジットモデ ルはほとんと会利用されていないとし、うのが 現状である。本研究では,実務上行われている格付フ。ロセスをモデルに反映させることを目的とし,通常の多項ロ ジットモデ、ルにおける I I A特性の制約を緩和し,格付の順序性を考慮、することが可能な入れ子型ロジットモデルを 用いることで, l j 買序ロジットモデルを基礎とした従来型格付モデ ルに代わる格付予測モデルを提案することを試み る。併せて,提案モデルに対するパラメータ推定を SAS/ORの NLPプ口、ンージャにより行い,実際の企業財務デ ータに本論における提案モデルを当てはめることにより,モデルの妥当性を検証することとする。 キーワード: 企業格付 l j 慎序ロジットモテール 格付予測モデ ル 入れチ型ロジットモテ守ル 1.先行研究における格付モデルの紹介 9 7 0年代にまで遡ることができる。 KapJan 企業の格付予測に対する統計的アプローチに関する研究は, 1 andU r w i t z (1 9 7 9 )は,線形回帰モデルや判別分析を基礎としたそれまで、の格付モデ、ルの持つ問題点を指摘 O r d e r e dP r o b i tModeJ)を基にした格付決定要因に関する研究を行った。こ し,初めて順序プロピットモテツレ ( 4企業のうち, 4 4企業の格付を正確に予測し,正確に予測されなかった の研究では,モテツレで、使用された 6 d e r i n g t o n (J 9 8 5 )は , 企業の格付もせいぜい前後一カテゴリーに収まるほど精度の高しもので、あった。更に, E 従来の線形回帰モデ、ル,順序ロジットモデル,多重判別分析モデル,多項ロジットモデ、ルそれぞ、れにより格 付を予測した場合における予測精度の比較を行い,それぞれのモデルのもつ特徴や予測精度に関する考 察を行っている。 ここで,現在格付予測モデルとして最も広く利用されてしも順序プロピットモデ ルと順序ロジットモデ、ルに ついて簡単に説明を行う。順序ロジットモデ、ルとは二項ロジットモテ守ルを拡張してサンプルデータを複数の状 3 2 1

317.
[beta]
態の一つに分けることを可能にする方法であり,複数の状態に何らかの順序付けがなされている場合に,対
象となるサンプルの変数からそれが何番目の状態に分類されるかとし、うことを判定する為に用いられる。
例えば,企業 k の経営状態を品と表すとし,信用格付が S ト52,・-・,5 11 ••• , 5j の K 通り(i=1 , 2,・ . .
,
I
)の状態に分

類されると仮定する。
ここで,企業 k(k=1
ム…・ ,
K
)における m(mニ l
ム… .
,
M
)番目の財務指標の指標値を Xkm,Xkmに対する推定
パラメータをんとし,企業 kの誤差を含まない経営状態(確定的 Zスコア)がこれら変数の重み付け線形和に
よって表されるとする。即ち,

(
1
)

Z
k=L)mXkm
1
1
1
:
:
:
:
1

とした時,誤差項を含んだ経営状態(確率的 Zスコア)を

Zk=Zk+Ek

(
2
)

とする。
また,このスコアにより各企業が分類されるランクを決定する関値を

∞='
0>1
'>2
'>…>', >… > j
'‑一
∞

(
3
)

とすると,

S
i
kニ s
,<
;
:
:
:
:
;
>
Z
kε
(
'
" ',~I)

(
4
)

として状態が分類されることになる。従って,変数ベクトルむが与えられた時に企業 kがランク S,に属する確
率は

P{S
,I
Xk}=P{Zk ε("'/~1)lxk}
(
5
)

=P{' , ~I-Zk >Ek>'I‑Zk}

となる。この確率を P
l
kと書き,スコアの誤差 C
.
k
の分布関数を Fとすれば

(
6
)

P
l
k=F('/~I-Zk)-F( ,, -Zk)
が得られる。ただし,みは上述した (
1
)式で、定義されたスコアで、ある。ここで,

F
(
∞)=1
,
F
(
一
∞)=0
であることに注意すると,分布関数 Fにロジスティック分布を仮定したものが,順序ロジットモデ、/レ,正規分布
を仮定したものを順序プロピットモデ、ルになる。
これらのモテ守ルにおけるパラメータベクトル及び関値ベクトルの推定は最尤推定法により求められる.即ち,
対数尤度関数は

L
(
,
3
jT)=
日日 P,
k0
"

(
7
)

ハ
ペU

つん
つん

318.

によって与えられ,この対数尤度を最大にする係数ベクトル p 及び、関値ベクトノレ T を求めることになる c ただ し , ( 5 )式と ( 6 )式から ごk 二 I β 川 ( 8 ) Xkm とした時, 1 貢序ロジットモデ〉レの場合には 1 ( 9 ) P, k =1 +e x p ( z k‑T, ー1 ) 一 l+exp(zk‑ T, ) によって与えられる。 また, 1 1)頁序プロピットモテツレの場合には ∞=τlく τ (。 =0)く τlく τ2く … く τJく … く τlー1=∞ とし f こ 日 寺 , P, k= φ(に I ‑ I β M I点 M mXkm)一 φ(T'̲2‑ ml . " Xk 1 l l) ( 1 0 ) 1 1 1 = 1 士 によってんが与えられる。ここで, φ(・)は正規分布の累積密度関数を表す。 2 . 本研究におけるモデルの改善提案 2 ‑ 1 入れ子型ロジットモデルの説明 頁序ロジットモデ、ル・ I I I N 序プロピットモデソレは二項ロジットモデ、ルを拡張し,サンプルデータ 先述したように1 を複数の状態の一つに分類することを H的としたモデルで、あったが,その状態に何らかの順序付けがなされ ている場合に大変有用であり,例えば格付機関の出している企業格付を統計モデ、ルにより予測する場合等 に広く応用可能で、あることが先行研究によって示されている。 しかしながら,順序プロビットモテ。ルはその統計的性質から一般に扱いが煩雑であるため,今日では順序 ロジ ットモテ子ルが主、流となっている。 ところで,格付モデルにおいて先行研究で用いられているモデルの大半は二項選択を段階的に行う順序 ロジットモデ、ルを基礎とした確率モデ、ルで、ある。 一方,確率理論に関する研究を見ると,効用の誤差項に特定の分布を仮定することにより導出されるロジ ットモデ、ルを始め,ロジットモデ、/レを拡張した実に様々なモデルがこれまで提唱されてきてしも反面,通常の ロジ、ットモデ、ルが格付モデ、ルとして利用された研究は,これまでのところあまり多くない。 I A ( I n d e p e n d e n c e合omI r r e l e v a n tA l t e m a t i v e s ) 通常の多項ロジ、ットモデ、ルが,利用されにくし、理由として, I 特性の存在や,企業格付特有の格付の1 1 慎序性が損なわれる点等があげられる。 I I A特性は選択確率比の 文脈独立とも訳されており,今日,ロジ、ツトモテずルにおける問題点として広く指摘されている。 323‑

319.

この問題点を克服するために,ロジットモデ ルにおける基本的な仮定,即ち,効用の確率項の分布の独 立性と同一性の仮定を緩めて一般化するものとして,いわゆる入れ千型ロジットモデル( N e s t e dL o g i t Model)が挙げられる。 ここで, 2レベルにおける入れチ型ロジットモデルについて,消費者行動の研究において行われている, モデル構築ならびにパラメータ推定の手順を以下に説明する。 レベル 2 レ " " ' ; レl 2レベルの入れチ型ロジットモデルで"i,選択肢の類似性に応じて選択肢を 2つのグ、ループに分類する。 分類に際しては,選択肢の類似性が大きしせ思われる方をレベル Iに,小さし、と思、われる方をレベノレ 2に設 定する。理論上はそれぞ、れのグツレープ内における選択誤差の分散を同ーと仮定し,分散のより大きい方が, 類似性が大きし、と考えられている。 こうして構築されたツリー構造を数式的に表現するために,まず,レベル 2の選択肢に対して選択肢番号 1 , 2 …,.nl, … ・, Mを付与する。更に,レベル Iについては任意のレベル 2の選択肢 mの下に対し, l 川 m, 2肌m 1 . … … . 一 … . 一. , r . このように,各ノードに通し番号を付けた上で,消費者 kがレベル lにおける任意の選択肢 r mを選択す r m l m )は , 1 1 1 η 1を選択したと凸し、う条件の下でで、 r / l 1を選択する条件的確率 P 九 止 ( か門 r " ' m 川 押 初 /1 る確率九( , P 乃' k ( 仰 m )の積として次式でで、与えられる。 P ( r m )=九( rIm )九( m ) k ( 11 ) r =1 , 2, …,.Rkm,m=I, 2 , . . . , M k ここで,入れ千型ロジットモデルの誘導理論に従うと ,Pば ,r m )は次式で与えられることになる。 P ( r m )=九( r mIm ) P k( m ) k 1 却p X ( υ λ I s ' X州k片削(什ぺ 1 ) m 1 ) 1 ) 川 ) r 川1 1 1 帥 , 広 2 と J e 叩 Xp ( υ λI s ' 丸 X 丸 k 叩 Xp 似 刷 ( ん λs' 丸 X1 1 1 刊 +( ユ) 旬 I 句 O 叫 g [ ム 芝 回 叫州 p 丸 ' 丸 X X 丸 丸 芝 回 合 台! 削 { 什 r 戸刷' ( 12 ) k 州仲{什 r ' l 削 m)) 川 m )) /ι~I . ,' = 1 f こだし, Rkm 消費者 kがレベル 2の選択肢の中から mを選択したとし、う条件の下で、選択可能なレベル lの 選択肢の数 ‑324一

320.

消費者 kにおけるレベル 2の選択肢の数 Mk Pk(rmlm):消費者 kがレベル 2で mを選択するとし、う条件の下で,レベノレ 1における選択可能な集合か ら選択肢 rmを選択する確率 Pk(m):レベル2で、選択肢 mを選択する確率 w レベル 1の選択肢に対するパラメータベクトノレ 8 ' レベル 2の選択肢に対するパラメータベクトル X削 (m P k 川 ( 仰 mを固定しても パ r . ぺl こよつて変 動 H 窃 F 訪 jする。) Xk(lII) 消費者 kのレベノレ 2に含まれる m番目の属性に対する属性値ベクトル ( mの変化によってのみ変動する。) である。 2 ‑ 2 本研究における提案モデル 本節では,本論における提案モテゃルについて説明を行う。先述したように,格付会社の行う格付業務を考 えた場合,格付アナリストはいきなりその企業にもっともふさわしい格付を選ぶのではなく,予め幾つかの候 補となる格付を想定し,その中から当該企業にとってもっとも適した格付を決定していると考えられるc 本論では,この格付プロセスを先に紹介した入れチ型ロジットモデルに当てはめることにより実務に即した 格付プロセスの定式化を試みる。モデルの定式化に当たり,本論では以下のような仮定を置く。 1 . アナリストはまず,すべての可能な連続する格付の組み合わせの中から特定の組み合わせ i <1事附) を選択する。 (H! 2 次に,選択された格付の組み合わせの中から,特定の格付を選択し付与する。 3 . これを特定の格付を含む全ての可能な組み合わせについて検討する。 本論ではこのプロセスを基にした格付モデ、ルの改善提案を行うこととする。 まず,アナリストが全ての可能な格付の組み合わせ Gの中から特定の格付の組み合わせ Cを選択する確 k(C[G ),特定の格付の組み合わせ Cから特定の格付を選択する確率を P k( i [C)により定式化する。 率を P ここで,企業 kに対する j番目の財務指標の指標値を引とし,格付 i iこ対する j 番目の財務指標に対す る推定パラメータをんとする。ここで,企業 kの経営状態 (2スコア)を Zlk 工 月,, = Xk ( 1 司 により定式化する。更に, l o g [ L e x p ( Z l k ) ] IE( ‑325‑ ( 1 4 )

321.
[beta]
をアナリストが Cに含まれる何れかの格付を選択した時に得られる最大効用の期待値であると仮定し

旦(CIG)を
e
x
p
{
r
N
B
,
+λlog[Lexp(
z
'
k
)
]
}
ぽ (

P
,
.(
C
IG)=

I
5
)

Lexp{rNB
,
+λlog[Lexp(
z
'k)]}
により定式化する。ただし,

N
B
c
:Cに含まれる格付数

τ:NB
,
に対する推定ノ号ラメータ

2
1
)式に対する推定ノザメータ
λ :(

G
:可能な全ての格付の集合

(ただし,それぞれの格付は連続したものである,とする。) (付録 l参 !
m
C :Gに含まれる集合のうち特定の格付集合

である。
更に,特定の格付の組み合わせ Cから特定の格付 Iが,企業 kに付与される確率弓 UIC)を通常のロジ
ットモデ、ルにより定式化する。

x
P
(
Z
'
k
)
凡UI
C)=~"n---: ,~/
之 exp(Z'k)
,

(
16
)

n

パラメータの推定に際しては,図におけるレベノレ 1
1こ含まれるパラメータとレベノレ 2に含まれるパラメータを
段階的に推定する段階推定法と全てのパラメータを同時推定する同時推定法が提案されているが,本論で
は同時推定法を用いてパラメータの推定を行うこととする。

1
7
)式を最大化するパラメータを求めることとする。
推定には最尤推定法を用い, (

T
IT
IP/i
)
ル ( 1
η

L=

ここで,対数尤度関数がパラメータに関して上に凸になるとし、う保証がない。従って, L
lL=Oとなる解が複
数個存在する可能性があり,この中から Lを最大化するパラメータの組み合わせを求める必要が出てくる。
本論で、は実データを下にパラメータ推定を行う際,こうした問題点に対処するために,複数の初期値を発生
させパラメータ推定を行い,その中で、尤度関数を最大化するパラメータの組み合わせを本モデ ルにおけるパ
ラメータの最適解とみなすこととする。

3
2
6
322.

3. モデルの実データへの適用 ここで,本論における提案モデ、ルの妥当性を検証するために,従来型順序ロジットモデ、ル並ひ、に本論に おける提案モデ、ルに対し,実データを適用しそデ、/レの妥当性に付いて検証を行う.検証用データとしては, 株式会社格付投資情報センターより公表されてしも企業に対する公開格付データを使用した。 3 ‑ 1 検証用データ概要 1 .2000年 4月から 2 0 0 1年 3月までの決算期データに基づき格付された公開格付データ 2 .データボリューム:モデルで、使用される財務指標に関し欠損値を含まなしもの 652企業 (ただし,電力業界については全ての企業に対し AAA格が付与されているが,経営体質が一般 企業と比べ特殊であることから,分析対象からは除外している。) 3 .モデ ル内で 使用された財務指標 実務経験に基づき企業の格付に大きく影響すると考えられる 。対数変換後自己資本 ( X , , ) @総キャヒ。タリゼーション比率(ん) @ 固 定 長 期 適 合 率 (X c ) @自己資本比率(ん) 。 留 保 利 益 比 率 (X e) @デットキャパシティレシオ(あ? を財務指標として使用したc 3 ‑ 2 パラメータの推定 このデータを基に,従来型の順序ロジットモデ、ル並びに本論における提案モデ、ルに対するパラメータ推定 を最尤推定法により実施した.パラメータの推定に際しては,入れチ型のロジットモテ守ルの場合,現在 SAS がサポートしている一般的なプロシージャにより,推定を実施することが困難なため, SAS/OR に含まれる NLPプロシージャを利用することとした.ここで, NLPプロシージャとは非線形問題の最適化を目的として開 n ‑ s a m p l ed a t a,o u t ‑ o f ‑ s a m p l ed a t aを区別する為に,ラン 発されたプロシージャである.また,検証に先立ち, i n ‑ s a m p l ed a t aとしてモデ、ル構築用に,更に残り 4害J Iを o u t ‑ o ι ダムサンプリングにより全データの 6割を i sampled a t aとしてモデ、ル検証用に使用している。 ただし, AAA格が付与されている企業数が極めて少な し、ことや,+ー等のノッチを考慮、した場合,各格付に含まれるデータ数が非常に少なくなってしまうこと,更に実 データによる検証の目的がモデ、ルの妥当性に対する検証であることから,本研究では表 . 1 に基づき,モデ、ル で使用される格付を AA以上, A,888,88以下の 4つに簡略化することとする。 nペU 弓 ︐a n r u

323.

表 2 本論における格付の定義 R & I格付 本論における 格付 R&I格付 本論における 格付 BB+ AAA AA+ BB AA AA BB‑ ー AA B+ A+ B A A BB以 下 B c c c以 下 Aー BBB+ BBB BBB BBB また,この簡略化された格付に基づく各格付に含まれる企業数は表 . 3の通りで、ある o( in ‑ s a m p l e dd a t a,o u t ‑ 。 ιsampled a t aの双方を含む)また,先述した通り,モデルの性質上推定に当たっては,探索結果が局所最 L o c a lMinimum)に落ちることのなし、ょう, 50回ずつパラメータにおける初期値を乱数発生させ,其々の 適 解( 初期値を基にした最尤推定法による探索を行った。そして, AIC並びに対数尤度を最小にする組み合わせ を其々のモデ、ルにおけるパラメータの最適解として採用した. 格付 企業数 構成比率 AA A BBB BB 7 7 2 0 1 269 1 0 5 11 .81% 3 0 . 8 3 % .2 6目 41 1 6 . 1 0 % 合計 652 1 0 0 .00% パラメータ 表. 3 各格付を犠成する企業数 l 順序ロジットモデルに おけるパラメータ t‑値 P a P h P C P d P . P r T", 3 5 . 0 5 0 7 0 8 ‑ 1 5 . 7 4 8 8 3 3 T 3 1. 355626 ‑ 1 4 . 9 5 7 3 1 5 TBBn 2 7 . 3 6 5 6 6 9 ー1 3 . 7 8 2 6 1 5 対数尤度 AIC 的中率 1 .782606 ‑ 1 6 . 1 4 5 1 1 5 1 .703725 . 1 .500131 ‑ 1 .558375 . 3. 405277 ‑ 2 . 9 9 2 8 6 9 ‑ 2 . 7 5 6 4 9 6 8 . 3 4 9 2 1 5 ‑ 8 . 0 4 1 6 7 7 ー 1 .109246 ‑ 4 . 7 5 7 1 6 6 司 494. 49 1 0 0 6 . 9 8 48% 65. 表.4パラメータ推定結果 (※)ただし.T "パは AA格と A格のしきい値。 T入 i 立A格と BBB 格のしきい値, T r m n lま BBB格と BB格のしきい値である。 ︒ 口 U ︑ η 白 つ

324.

表 5 本研究の提案モデルにおけるパラメータ推定結果 AA格におけ パラメータ るパラメータ 推定値 A格における ト値 パラメータ推 定値 B 。 ‑ 2 2 . 5 7 6 8 2 5 6 . 5 6 6 4 ‑ 3 . 9 3 9 9 3 6 P a P h 1 . 0 3 2 9 3 5 5 . 0 2 8 2 0 . 1 7 3 6 0 6 1 .6 5 2 1 βr 6. 360875 P d BBB格におけ るパラメータ 推定値 ト値 ト値 4 . 6 0 2 0 1 0 . 7 8 7 4 4 7 1 7 . 0 8 9 8 0 . 1 6 2 2 1 8 9 . 0 1 4 2 ‑ 0 . 6 4 8 0 9 7 0 . 1 0 8 3 7 6 ‑ 7 . 1 4 3 9 0 . 0 7 1 2 4 4 0 . 6 3 0 1 1 .566000 ‑ 2 . 7 1 5 4 1 .917807 2 . 3 3 4 0 0 . 1 8 8 0 8 1 4 . 6 5 1 3 p , 0 . 0 2 5 0 3 2 3 . 2 1 5 4 0 . 0 2 9 7 2 0 O r 0 . 0 2 4 8 2 3 4 . 2 3 1 2 ー 0 . 0 0 0 7 9 2 BB格におけ るパラメータ 推定値 ト値 1 5 . 7 2 8 1 6 1 7 . 2 3 6 4 1 8 . 6 1 5 3 ‑ 1 .04619 1 7 . 7 0 5 7 1 . 2 5 4 8 0 . 1 0 4 3 3 1 3 . 8 0 0 6 ‑ 1 . 5 2 0 3 2 6 6. 4619 ー 1 .084469 ‑ 3. 3766 2 . 0 6 8 3 7 8 2 . 2 9 8 4 4 . 2 5 6 4 7 3 4 . 0 1 8 8 8 . 0 1 3 3 0 . 0 2 6 0 1 4 9 . 6 4 5 6 ‑ 0 . 0 6 5 3 5 2 5 . 7 3 7 2 ‑ 1 .2923 ‑ 0 . 0 1 3 1 9 3 1 . 2 5 8 4 ‑ 0 . 0 0 3 1 8 9 4 . 9 0 9 5 ιノ 0 . 6 6 7 8( 6 . 1 5 9 5 ) r ー 1 .9 4 0 1 ( ‑ 3 . 0 5 7 0 ) 対数尤度 ‑ 4 0 4 . 8 1 AIC 8 6 9 . 6 3 的中率 7 4. 30% (注)モテツレの的中率については推定されたノミラメータを基に当該企業が属する格付を予測し,予測と実際の倍付が一致していた場合,予測 が的中したと見なす方法で行った c 329‑

325.

4. 結 論 先行研究において提唱されてきたモデル,取り分け順序ロジットモデ ルは,順序付けられた複数の状態の 一つにデータを分類する方法として信用格付を始め,消費者行動研究の分野等で幅広く研究されている。 一方,先述したように通常の多項ロジ、ツトモデルを基礎とした格付モデ、ルは, I I A特性等モデルの持つ性 質上,その取扱いが難しいことからこれまで,あまり実務上利用されていなし、とし、うのが現実で、あった。順序ロ I A特性の制約を緩和するモデルとして考え出されたモデ ジットモデ、ルも通常の多項ロジットモデルが持つ I ルの lつであるが,本論ではこの制約を緩和するモデルとして今日広く利用されてしも入れチ型のロジット モデ、ルを利用した新たな格付モデ、ルの提案を行った。 その結果,本論における提案モデルを用いることにより,従来型の順序ロジットモデルに比べ対数尤度, AIC統計量,予測の的中率共に大幅にモデルの予測精度が改善されることが分かった。 次に,其々のモデ、ルにより推定されたパラメータについて考察する。本研究における提案モデ ルにおいて 推定されたパラメータを比較すると,各格付間で、推定されたパラメータの大小に差異は見られるものの,其々 のリスクファクター毎の符号は概ね一致しており,それぞれの財務指標が各格付予測において,同様に働い ていることが分かる。また,パラメータ ωの値についてみてみると,推定された ωの値は Oから lの聞に収ま る 。 っており,モデ、/レ構築は概ね正しく行われたものと解釈でRき 最後に,本研究の今後の課題について言及する。 本論で、使用したような入れチ型のロジットモデルを格 付へ応用する際,一般に,モデルの中で、考慮、される格付の数が増加するに従い,モデルの中で、考慮、しなけ ればならない格付の組み合わせ数が指数的に増加するとし、った問題が発生する。 特に,格付会社から出されてしも格付の多くは,+・のノッチが付与されていることが多く,こうしたノッチを考 慮、する場合,更に多くの格付けの組合せをモデルの中で、考慮しなけばならなし、と行った問題が発生する。 これに伴い,コンピュータリソースに対する負荷の増加,パラメータ推定に要する時間の増加といった問題 点が発生することが,入れ子型ロジットモデルに関する先行研究において盛んに議論されており今後モデル を改良してゆく上での課題であると考えられる。 以上 参考文献 Ben‑Akiva,M.andS . L e n n a n (1 9 8 5 ),D i s c r e f eC h o i c eA n a l y s i s ": Theoryand A p p 1 i c a t i o nt oP r e d i c t i n g MITP r e s s T r a v e lDemand, r i n g t 叩 o , n 凡し L. H . ( い 1 9 8 5 ), E化 de K叩 ap 1 a 凡 n 1 ,R .S .a n dG.U r w i t z, (1 9 7 9 )," S t a t i s t i c a 1Modelso fBondR a t i n g s :A M e t h o d o l o g i c a ll n q u i r y, "J o u r n a l 52, 2 3 1 ‑ 2 6 , 11 9 7 9 . o f B u s i n e s s, , . (1 9 8 1 ),E c o n o m e f r i cModelsof P叫 a b i l i s f i cC h o i c e, "C . F . M a n s k ia n dD.McFadden(eds.), McFadden,D S t r u c t u r a lA n a l y s i sofD i s c r e t eDataw i t hE c o n o m e t r i cA p p l i c a t i o n s, MITP r e s s,1 9 8 ‑ 2 7 2 . ハ ベU ハ ベU ハU

326.

小林正人 ( 2 0 0 1) 汁l 頂序プロピットモデルのテストと社債格付データへの応用ヘ金融研究 2001年4月号 日本銀 行金融研究所 中山めぐみ・森平爽一郎(1 9 9 8 ),"格付選択確率の推定と信用リスク量二日本金融・証券計量・工学学会 1998 年度夏季大会予稿集, 210・ 225 新見隆宏(1 9 9 5 ),"格付と財務指標の関係についてへ日本金融・証券計量・工学学会 1995年度夏季大会予 稿集 守口岡1 (1996)1購買意思決定の多段階性を考慮、したブランド・選択モデノレ J J東京工業大学博士論文』 [付録 1 1 これは, AA,A,BBB,BBと し 、 う 4つの格付があった場合における,階層的な格付を図式化したものである。 格付が 4つの場合, 24‑1=15通りの組合せをモデ、ルの中で考慮することになるが,格付が連続していない 6, 7,9,1 2,1 3 を最初から除外した上でモデルを構築する。例えば, BBB格について考える場合,まず連続し 1,2,3,4,5,8,1 0,1 1,1 4,1 5 )から BBB格が含まれる特定の組 た,考えられる全ての格付けの組み合せ ( み合わせにの例では 11の AA,A,BBB)が選択され,さらに,この中から, BBB格が選択される確率をモデ 3,8,1 0,1 , 1 1 4,1 5 )に対し,この作業を ル化した例である。実際には, BBB格を含む全ての組み合わせ ( 千 丁 フ 。 o 4 1.J[吟~J 411A ぺ nu ペU n

327.

SAS/ORにおける NLPプロシージャのご紹介 NLPプロシージャとは非線形最適化問題に対する手法群を網羅したプロシージャです。 SAS/STAT等 でサポー卜されていない,複雑な非線形モデルに対しでも,比較的容易にパラメータ推定を実行するこ とが可能です。 データセットの生成 d a t at e s t : i n p u t yx 1x 2 : c a r d s : 133 ここで,二項ロジットモデルにおける最尤推定法を用いたパラメータ推定 を. LOGISTICプロシージャと NLPプロシージャで実行した結果をご紹 介いたします。 <二項ロジットモデル> p,= 076 048 153 022 I+exp(‑z, ) z ,= o41 Is , x " <パラメータ推定〉 104 T I p , 刊を最大化する 3を推定 L= 128 081 042 r u n : L O G I S T I Cプロシージャによるプログラム L O G I S T I Cプロシージャによるアウトプット p r o cl o g i s t i cd a t a = t e s td e s c e n d i n g : 1x 2 : m o d e l y二 x r u n . P a r a m e t e r I n t e r c e p t x 1 x 2 NLPプロシージャによるプログラム L O G I S T I Cプロシージャによるアウトプット P r o cN L PD a t aニt e s tT e c hニN e w r a pc o v = 2 v a r d e f = np c o vp s t d e r r : p a r m sb Ob 1b 2 : 1 + b 2本x 2 : z = b O + b 1キx p = l /( 1+ e x p( ‑ z ) ): キl o g ( p ) + ( l ‑ Y ) * l o g ( l ‑ p ): L LニY : M a x LL NP a r a m e t e r 推定値 tV a l u e 1b O . / ' 1 .2 5 7 8 1 9 . . . 0 . 5 8 6 8 2 5 2b 1 i‑ 0 . 6 2 3 4 7 9 ¥‑ 1 . 33 1 0 8 2 3b 2 " ¥0 . 1 4 7 0 9 1 . / 0 . 4 9 5 0 4 9 R u n : D F 一 C hi ‑ S q u a r eP r > C hi S q 1 . 2 5 7 8 " '0 . 3 4 4 4 0 . 5 5 7 ‑ 0 . 6 2 3 5 1 1 . 7 7 1 8 0 . 1 8 3 0 . 1 4 7 1. /0 . 2 4 5 1 0 . 6 2 0 E s.ti刊a土.~ t l P r>I 0 . 5 7 0 3 3 1 0 . 2 1 2 7 1 2 0 . 6 3 1 2 6 2 ηノ ηぺU ηぺU

328.

SAS/EMを用いた 組み合わせ分類変数の作成と効用 小野 潔 UFJ銀行 Howt oMaketheCombinationofGroupVariablesbySAS/EM? K i y o s h iOno UFJ Bank 要旨 本稿は SAS/EMの機能を利用した組み合わせ分類変数の作成法とその効用を報告 する。カテゴリ一変数(名義変数、順序変数)を組み合わせることで新しい分類変数 を作成できる。この分類変数はモデルの精度の向上やモデルの安定性に利用される。 SAS/EMには組み合わせ分類変数を自動作成できるが、業務上の意味づけが難しい。 そこで決定木を用いる分類変数の作成法を比較した。その結果、決定木を用いた分類 変数は『モデルの安定性』や『オーバーフィッチングしにくい構造』と推測された。 キーワード:データマイニング 分類(グループ)変数 変数選択ノード R '値選定基準 1 . 組み合わせ分類変数 データマイニングでは、モデルの精度の向上、パラメータ推定値の安定化、分散の安定化、非正規性 の修正のために分類変数を用いる。分類変数の作成には『クラスタリング』や ~SOMlKohonen~ が使 われるが、その得られた分類カテゴリーの意味や定義が難解である。それに対して、本稿のカテゴリ一 変数の組み合わせによる分類変数(以後、組み合わせ分類変数と略す)は単純である。例えば職業[会社 n d貸家), (学生 a n dア 員、自営業、学生]と住居[アパート,貸家,家族所有]から職業&住居[(会社員 a n d家族所有), e t c . ) ]のクラス変数を定義でき、さらにグループイじすることで分類変 パート), (自営業 a 数 [{(会社員 a n d貸家) o r ( 学生 a n dアパート)}, {(会社員 a n dアパート ) o r (自営業 a n dアパート)}, …. . e t c.lを作成できる。しかし分類変数は無数に存在するため、変数選択の基準が重要になる。 有意な組み合わせ分類変数を探索するには、間隔変数(名義変数、 1 ) 国序変数)のすべての組み合わせの 厄 M では組み合わせ分類変数を自動的に作成 中から有意な変数を選択するプロセスが必要である。 SAS し変数選択を行う『変数選択』ノードがある。しかしこの機能では統計値に基づいて機械的に変数が作 られるため、ドメインの業務知識との相違が生じる。そこで、本稿では決定木による分類変数の作成法 厄 M の『変数選択』ノードと比較する。 を報告し、 SAS 2 . データ説明 本稿は割賦販売(分割払い, I n s t a l l m e n n t ) のデフォルトモデルを例にする。本稿の目的は分類変数 の生成のため、データ内容の説明は最小限とする。実務ではカテゴリ一変数と間隔変数が共存するが、 話を簡単にするために間隔変数をすべてカテゴリー化しである。ターゲット変数はある期間内に発生し た延滞をブラック、正常をホワイトとした。サンプリングは、延滞の特徴を明確にするため、ブラック ( 1 5 8 5件)とホワイトを同数にした。 nペU nペU nペU

329.
[beta]
割賦販売のデフォルトに関係するデータは表 1を参照1の回数ランク (TlME̲CAT)はデフォルト
リスクと相聞が強いために外した(役割 :REJECT)職種は学生・主婦・会社員・公務員・アルバイト・自営

t
c
.の項目から住居はアパート・借家・社宅・家族所有・自己保有 e
t
c
.の項目から構成される
業・年金者 e
[居住&職種]は,決定木に用いた分類変数であるため本稿の 5章まで外す
=
宮
古

A G口A L
H口USE 口 ccu
T工MES CAT
FLG DEPT OTHER
FLG HIGH SALARY
FLG SALARY
SEX
INDUSTRY
HOUSE
OCCUPATION
DEPT REMAINDER CAT
DEPT OTHER
AGE CAT
SUM CAT
SALARY CAT

T空軍~

t
.arcet
.
reje ct
.e d
reJect
.e d
input
.
input
.
inpul
inpul
.
input
inpul
inpul
input
.
.
Input
input
.
.
Input
.
input

I ;R1
l
:iE:水準
binary
nomin aI
ロ rdinal
binary
binary
binary
binary
nominal
nominal
nomlnal
o....dinal
ordlnal
ordlnal
ordlnal
o....dlnal

i当イ・!出力形式 i入力陣式 i
c he
r
.r
c ho
.
,
.
.
.
char

num
c ho
.r
num
char
num
char
char

$4.
$13.
$1.
BEST12̲
BEST12.
BEST12̲
BEST12.
$1.
BEST12̲
BEST12̲
$1.
BEST12.
$1.
$1.
BESTt2.

$4.
$13̲
$1.
12.
12.
12.
12.
$1.
12.
12.
$1.
12.

自宅膏
~{主&扇自存量

巨
司
器
支
ラ
ン
ヲ
(I包~.土省首フラ'"
声
高
童
手
持
叉
フ
ラ
タ
童
手
叫
叉
"
2
.A フ
ラ
ヲ
‑
耳
l
'
主
君
存
重'J
f
圭
耳
量
貫
主
鬼
裳
窃
古
事
量
f
也
容
土f音
書
毒
気
多
奪
三
ず
そ
2*
)
1
e

e

f也容土ず音重量宮カ4日コ.~

s$1.

事担~,勺重量カテコーリ

12.

表 1 入力データソース

3
. 全体のフロー

SASIEMのダイアグラムを下図に示す

4
.
2R2値選定基
準による変数選択

‑
・
. 極孟

4
.
3 章 χ2値選定基

-~畢女主主白周

二ユー吃ブ・ー支芭薗喧="Eラ.!...)~

・
¥
・
・
.
.
.
.
.
・
・
‑
・
・
・
・
・
・
・
一
一
‑
.
・
・
・
・
・
・
・
・
ー
・
・
・・・・・・・・・・・・・・・
・
・
ー

準による変数選択

ASIEMの全体フロー
図 1S
4
. 変数選択ノードの機能
最初に変数選択ノードの理論と機能を述べる。 SAS
厄 M の変数選択ノードは、 R
2(
決定係数)値および

χ2(カイ 2乗)値を選択基準とし、入力変数から目標変数の予測に有効な変数を選択する。ここでは目
標変数が 2値とし、 R2値選択基準を用いた変数選択ロジックを説明する。
①間隔変数は線形単回帰分析により R2値(相関係数の 2乗値)を求め、分類変数は一元配置分散分析
を行う。各変数の相関係数の 2乗値が、除外基準値より小さい変数を除く。
②次に変数増加法を用いて、追加変数の R2値増加値が除外基準値より小さい変数は除く。
③ 次 に 目 標 変 数 が 2値の場合は、ロジスティック回帰分析を行う。

4
.1
. R
'
値選択基準による変数選択の設定
R2値選択基準による変数選択ノードは、 r
2次の交互作用」、「間隔変数のピン化 J r
グループ化した
分類変数のみ使用」のオプションが設定できる(図 2) r
2次の交互作用」は特定の分類変数の効果が
0

他の分類変数の水準ごとに異なることである。例えば職業に関わる相互作用によって給与水準が異なる
場合が相当する。「間隔変数のピン化」は間隔尺度の変数を 1
6の等間隔(ピン)グループに分割し、タ
A斗 A
ハ
ペU
ハペU

330.
[beta]
ーゲット変数の非線形関係の検出に使われる。ところで SASM の変数選択ノードはターゲット目標
との関係に基づいて、各分類変数の水準を少なくしたグループ変数の組み合わせを取り扱う。「グルー
プ化した分類変数のみ使用」とは、グループ変数とオリジナルの分類変数のうち前者のみを使用する設
定である。 iZ次の交互作用」・「ビン化」・「グループ変数とオリジナルの分類変数の両方を使用」を選
)。
択すると処理時間が大幅にかかるため、今回は前者 2つを有効に設定する(図 2
宇 自 民 自 f系 妻 女 江 ; > 2

長長

R 2 長 長1
i
:l宣江〉主曽力口
[8J2

〈

1 ̲ 0 0 50

〈

I ̲00050

;.欠正之〉三苫ご三豆二‑(‑'F.F干ヨ弓!!!:"""'i呈『司二よ

=1'主E~~言王室主主芸文 ζ更〉ヒ三.ニ_.o-(ヒ

( A O V lS )

Eヨヨニ'._ßl_.o、ーコア f ヒし 7こ合全実員三富ご妻女 ζ~.;;与 ßを F胃づヨーミ〉

一
」
ヨ
庄
一j

=牛ャニ̲.ot
z:̲sレ

図 2 R2値選択基準によるオプション
4
.
2
. R
'値選択基準による変数選択の結果

R2値選定基準による変数選択の分析結果の一部を示す。表 2の l行目は性別 (SEX) より性別と住
居を組み合わせた分類変数 (GI̲SEXHOUSE)が有効のため除く、同様に 2行目は給料(SALARY̲CAT)
より給料と年齢を組み合わせた分類変数(GI̲SALARY̲CATAGE̲CAT)が有効ため除くという意味であ
る。図 3は組み合わせ変数の R2値を降順に並べたものである。 1行目は住居 (HOUSE)と他社借入数
(DEPT̲OTHER)を単純に組み合わせたクラス変数が最も R2値大きいことを示している。 2行目は先の
住居と他社借入数の組み合わせクラス変数を分類変数に変換したものが 2番に大きいことを示してい
る。表 4は図 2のR2値を出力したものである。

,s貧t)
SEX

SALARY̲CAT
FLG̲SALARY
j
iIGH̲SALARY
FLG̲
FLG̲D
EPT̲OT旺 R
OCCUPATION
HOUSE
SUM CAT
AGE̲CAT
OEPT̲OTHεR
OEPT 只EhfAINDER̲
INDUSτRγ
j
iOUSE
G̲
応誌::DEPT̲OT
GI HOL
GI̲SUM̲CAτINDUS
GI̲SALARY̲CATAG
GI̲OCCUPAτIONHO
GI̲HOUSEAGE̲CAT
GI̲SALARY̲CATSU
GI SALARY CATHO
GI̲HOUSESUhf̲CAT
GI̲AGE CATINOUS
GI̲OCCUPATIONAG
GI̲SALARY̲CATIN
GI̲AGE̲CATDEPT̲
j
iOUSEINOUSTR
GI̲
GI̲SALARY̲CATOC
】

自 D

reJecled
reJecled
f
'
"eJecled
reJecled
reJecled
reJocled
reJecled
reJecled
reJected
reJecled
reJecled
reJected
inpul
inpyl
input
i
npul
inpul
1npul
input
input
input
Inpyt
Inpul
Input
inpul
I
npul
i
npul

E盟 会 漫 皇

C
:.‑oupcd inlcre
.ction varie
.ble GI̲
f
:
.
逗 XHOUSE prcfcrred
Grouped inleract
.lon variablCl GI̲SALARY̲CATAGE̲CAT preferred
.riablo GI̲F
LG̲SALARYSUM̲CAT preferl
"
"ed
Grouped inleracllon ve
C
:
;
:rouped inler
‑aclion variablo GI̲FLG̲
j
iIGH̲SALARYSUM̲CAT pre(erred
Low R2 w/ largel
Grouped inleraction variable C
:I̲OCCUPATIONHOUSE preferred
Gr
‑ouped inleraclion variable GI̲HQUSEDEPT̲OTHER preferred
Grouped inleraclion varie.ble GI SUM CATINDUSTRY proferred
Grouped inleraclion variable Gl̲SALARY̲CATAGE̲CAT preferred
Grouped inlerac.
tlon varle
.ble GI̲H
OUSEDEPT̲OTHER prefe.‑...ed
Gr
‑ouped inleraclion varlable GI̲SALARY̲CATOEPT̲REhfAINDER̲CAT pref
Grouped inleraction variablo GI̲SUM̲C
ぬ τINDUSTRY preferred

表 2 R2値選定基準による変数選択の結果(一部)

i
主主主盗i

ぺu
n
ぺU
n

ζd

331.
[beta]
EF"T̲OTHl ' o 阿 岬

叩

⁝
守

m
'
J情

干

"
,
"
:HOUSE

C
.l
.
.
̲

DF tマでがや吹~-----ーナ寸吋対マ7""'"""""""でごケι一一一:~六一一7~Jだ

T

r内三ひ万三 τJ ア 務 正 , ぺ
(
I
;
:
.
r
f之
♂だ計ウヲ.~,〆
e,
一
事 SUM̲C町
吋
"
'
C
.
o
USTHY(..:
a
oo
.
C
F"
マ行
一
寸
叫
ケ
‑
‑
‑
,
,
‑ 江戸ム向い て
ー
ァ
ー7寸

Gr中

p: HOUSE 市 DEPT̲OTUER什 7 DF

! ρ

去

一円一_CAT 叫 ND一一 Dr> ヤボ吋対~~:'- ~- •‑ で ケ 工 ? と ,

"
,
,
:OEPT̲DγH

C
.I
.
.
.

er~目

四 日 "'OUSTRV(9t ~tーで吋~:.~~~,.

OEPT _OTHt::: R

"
,
,
,
,
,
,
,
,
:
叩USE

C
.I

町 四 百

叫叩 U~TRY< 1a -f:~

NDUSTRY("3 0円

叫

.lOUSE .
.
.
1
'
"山 STRY(C OF)

市 計 七 寸 { で 十1

.ゾ

'
‑
.
:
.

均残竣時 '-:~-:-:~-;f; '1松勺伊河円寺山ど

ι
げにピエム

ィ;
γ

三ごア 7

~~-~本て-刊二で二

κ

千戸大と

"'立与 1

どこマずでごJ で沼町7でふ二円収入竺~叩T::l

ν

しムーぶふおぶふ一一一ぷぷぷ4
ふーよいよふーん司

。
.00 0.0・ 0.0

2
:

0.08

F

行乙可沢、

f
去
二

グ
ミ
ム
ユ

・O.OG 0.0・ 0.07 0̲0・ 0.09 O. 。
。
ー
" 0.1

0.0‑

・

O̲la u. 4

2
:

田 ‑ 岨

値の降順(一部)
図 3 R2
T h e D M I N E Prc.cedure
.
.
Jar‑es f o r T a r
;
a
:
:e t
. Var‑lable: .
"
. G口A L
R‑Sq'

E ff
"ecl

Class:
Group:
Class:
Group:
C1
‑
Group:
t
:t
‑
Group:
Ctass:
Group:
ss:
C l a:
Class:
Group:
Group:
.ss:
Cle
Group:
Class:
C Iass:

H口U S Eホ DEPT OTHER
HOUSE市 DEPT̲OTHER
S U M C A T柑 IN5USTRY
SUM̲CATMlINDUSTRY
D E P T 口τHERI
t INDUSTRY
DEPT̲OτHER蜘 INDUSTRY

a
s
s
:
:
a
s
s
: HOUS~l糊 INDUSTRY

c
i
a
s
s
:
:

HOUSE市 INDUSTRY
ホ SUM C A
了
HOUSE
HOUSE市 SUM‑CAT
S U M C A T市 Dt
"
P T OTHER
CAτ蜘 DEPτ 二
口 THER
A G E二
SUM̲CAT柑 OEPT̲OTHER
AGE=CAT揃 DEPT‑OTHER
ロC CロPATION剛 H百U S E
OCCUPAτIDN市 HOUSE
了
HOUSE硝 A G E C A
SALARV̲ C AT
'
市
I DEPT̲OTHER
OCCUPATION酬 DEPT OTHER

~・.............-・,,'‘~-

~・ T

ー

表 3 R2値の出力
4
.
3
.

DF

R‑Squar‑e

47
17
43
6
31
12
43
6
61
8
41
44
14
17
49
8
61
40
3『0

0.125688
0.123567
0.112857
0.110936
0.109252
0.107554
0.104168
0.102152
0.098449
0.096947
0.096155
0.094726
0.094421
0.092911
0.092351
0.091124
0.088034
0.087381
0.086920

内
内
内
向
.
,
、
.

(
表 2の計算値)

x
'
値による分類変数作成法

χ2値選定基準による変数選択の分析結果の一部を示す。表 4は χ2値にから、職種・住居・契約金・年
代・他社借入数・業種が変数選択された。変数選択ノードにユーザー定義のモデルノードを接続すると、
厄 M の機能上、ユーザー定義のモデルは
表 5の χ2値に基づいた決定木を作成することができる (SAS

表示できない)。 χ2値選択基準による変数選択ノードは、欠損値を強制的に木の大きな方の枝に振り分
けられるため、通常の決定木とは相違する。参考に図 5に通常の χ2値による決定木の上層部を示す。
これによれば他社借入数・住居・職種が重要なファクターである。
一一一三島E

SEX
SALARV CAT
FLG SALARY
FLG H1G H SALARY
FLG DEPT OTHER
OCCUPATION
HOUSE
SUM̲CAT
AGE̲CAT
DEPT̲OτHER
DEPT̲REMAINOER̲
INDUSTRY

与日古手劃

・
'
",

1

5
晴タト""'"盛ヨ
S me
.[1 chi‑
s.qud.re

; 号室主Z

タミ菩罰f
直

夕日 1
1
1
1
直 %

roJecled
reJecled
rejeelod
rojec
.led
npul
Inpul
Inpul
inpul
inpul
reJecled
inpul

S mo
.lI chl‑squd.re
.l( c
.h i‑squd.re
Smo
Sme
.11 c
.hi‑:
squ...re

・

Small chj‑$qud.re

(X)

I

z7t< ~ζ更〉重品,

,

そ
う
.
.
.
.
‑
.
<
.
:
)
レ

主
ゴ
目
.・
.
手
持
叉'1
2 .
手
持
叉Z己2、
フ
ラ
ヲ
・

2

2%
74%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%

2

日臣室手~.フラヲ・

2

1也客土缶~フう,・

7

司直有量

.
8
6

!o:l凡句重量 ~Tコ 'ν
宝引宅

8

1 3;1.:雪苅~免長

1
t
!
1
1
土
,f苦
l
'
l
<

9
84 χ2値選定基準による変数選択の結果(一部)
Th
"
'
̲
d
.
.
.
.
.
‑
̲
・
旬
,
.
.
"
.
.
.
.
,
.
.
.'
・
" T r.‑ ‑
日
u
ぉ
,
.
.
,
、
0"' "'0
DC T̲
>
C
T...::n
・
.
,
・ Oh.""
.
.
.
.
.
̲
.
.
.
0
:
>
・
.
.
.
"
"
'
̲
・
・
.
̲
"
,
.
̲
.
・
・
.
.
.
.
=
旬
日
・
.
,
̲
‑
"
0
0
・
C
O
>
C
CCUPATK
C
.
.
.
.
.
.
̲
.
.
.
.
.
̲
.
.
.
.
.
.
.
.
.
.
.
.
.
.
̲
.
社 >
・
m
・
‑
・
,
.
.
..
r
‑
情
.
,
.
.
.
.
"
"
"
.
.
'
‑
1
I

‑
.
・

000.'

一."、~C>~_

dニ
当
$.,.

L 哩曹

︐

‑420 a
‑u
‑

~t!th-:~-~...--.-

.、. .

的

~:ß.1.::~;-! P.

:古:~~~~~~

~r、

︻

A γ

︻

合 臼 "

︾

z
民ミ̲.日.

~-τ^'

自

4

,
れ
、h

e

,
.
.
"
'
".
.
.
.
.
0
.
.
.
.
,
ア
.
.
.
.
‑
白口
,
凋
.
一
白
n nnn
.
.
.
.
.
.
.
口
=
尽
言
.

•
•

︐

z.....Du~TnY

・

‑
︐

‑44Ebvhoo

R

~ :
会

P

l
:
!

••

号~::;...~手_v包H

︾

~~_7~70~~

t T 2
占E
e R 4n

o>, :g f. ~~n~

~.--"・L

L

....~n. 【自......

H

・
・
'
.
'
̲

一一 -t__~_ ,町一一-

6

.....C> d~

r

ç....."'" 司~

N

.".~..・,~

r"

ア

‑
・
‑
‑
‑

"--'~ ~

ロ

......~J..".

H

.
‑
0

室長さ=~;!

u.
コ
・
ッ

1
也容土f
苦言

ヨE有量

表 5 χ2値選定基準によるツリー構成 χ2値選定基準によるツリー構成
Fhu

ペU
n
ペU
n

332.
[beta]
4 χ2値による決定木(ただし表 5のツリーと欠損値の取り扱いが相違する)

5
. 決定木を用いた分類変数作成
決定木を用いた分類変数は項目の組み合わせを決定木で決定する。ただマニュアル操作なのですべて
のカテゴリ一変数の組み合わせを調査できない。そのため表 3から R2値が大きい変数を選択するが、
それでも組合せが膨大になるため、業務知識で当たりをつける。しかし筆者の経験から、同じ属性変数
を組み合わせた方が有意義な組み合わせ分類変数を作成するケースが多いことがわかっている。
例えば、与信モデルでは、個人属性の職種・住居・保険等を組み合わせると、モデルが安定化や精度
の向上がみられる。個人属性と取引属性を混ぜると、解釈が難しくなる。その観点から表 3をみると、

O
C
C
U
P
A
T
I
O
N
)と住居 (
H
O
U
S
E
)の組み合わせが注目できる。そこで、職種と住居のみで決定木を
職種 (
作成し(表 6
)、図 5の決定木を得る。次に末葉 8枚(=カテゴリー数 8個)のルールが業務上、意味を
持つかどうかを吟味する。なお決定木を用いるため欠損値の取り扱いが面倒になる。筆者は明示的に欠
損値を Oとしている。
A

一一一一一一三呈宜主
G口A L

了 IMES̲CAT

H 口U S E O C C U
OCCUPATION
HOUSE
SALARY̲CAT
SUM GAT
AGE̲CAT
DEPT 白 THER
D E P T REMAINDER C A T
INDUSTRY
SEX
F L G SALARY
い
iIGH̲SALARY
FLG̲'
F L G ̲ D E P T̲ O T H E R

‑T
三平二二宅王子一'‑'1蚕奮す一一n新 し し 可 童 書 河
Y e:
s
:
Y o:
:
s
Ye
:
:
s
Ye
:
:
s
Ye
:
:
s
YO:$
Y e:
:
s
Ye
:s
Yes
Y e:
:
s
Yes
Yes
Y e:s
Ye
:
s
Ye
:
s
:

t 豪清しし也前三萱玉反面干‑.‑
b in o
.
.r y
o r din e
.
.1
n o mjn aI
n o m1n aI
n o mi "o
.
.I
o r din e
.
.1
o r dIn aI
0 r dIn aI
o r din e
.1
0 r din e
.1
n o min aI
b i ne
.r y
b in ar y
b in e
.r y
b in e
.r y

t
.
e
.
.rcet

tarcet
reje et
.e
reJe ct
.e
1npLJt
.
jnpLJ
t
.
jnpLJt
.
inpLJt
.
InpLJt
.
jnpLJt
.
1nPLJt
.
inpLJt
.
inPLJl
inpLJt
.
inPLJt
.
InPLJt
.

reJe c t e d
reJe ct
.e d
InPLJt
.
InpLJt
.
reJe ct
.e d
reJe ct
.e d
reje ct
.e d
reJe c l e d
reJe ct
.e d
reJe ct
.e d
r e d e ct
.e d
reJe ct
.e d
reJerc"
t
.e d
reJe c le d

[!ヨ議長生うンタ

n
g
.f圭 & 昭 四 重
匝珂量
f
圭 兵 雪 H 三鬼髭
~奪三川叉

;,忍払勺‑カテコ。リ
乏手,‑吃
内包.土 f
苦民生
H旦宇土 f
音重量tカ
'
;
>
コ eυ
~存重

守生匁 '
1

乏手斗叉昌己^‑つラヮー
声昌幸奪三川叉フラタ e
f
也.土.rフラタ e

表 6 決定木による分類変数作成時の入力変数

聞

560887552 輔

'
'
g

880
回引=

ι‑

x
g
x
‑ 盛一

080可a 引UJ
558F 哩昌一

:

同

回

目G T 闇

EADO主aO

?

早
E
F
E,,詰:詰

斗J

82ES

548

213

gzz

一
一
包‑ 6 8 04 5 S O

R
I
‑
¥守且548

'
D

A0o
gGY

D0.色E

S39

549

056

i.''

空包
~

:
i
i
i

三主竺歪竺主

i
i
i

図 5 C
ARTによる居住形態と職種のツリー(上層部のみ表示、実際の末葉は 8枚)

6
. 結果
以上までの分類変数を使った 4種類のモデルと、分類変数を作成しなかったモデルの計 5種類を比較
ワi
︿
nU
︿
nU

333.

する。その結果、誤差が小さいモデルは「分類変数を持たない C A R T J と iR2値基準選定による分類変 数を有する C A R T J がほぼ等しく、「決定木を用いた分類変数を有する C A R T J や「 χ2値基準選定による 分類変数を有するユーザーモデル」が共にやや誤差が大きいことがわかる。モデルの決定木の分割ウェ A R Tが、等分割に近いウェイ イトの観点から見ると(図 6の目玉)、決定木を用いた分類変数を有する C ト分割となっている。オーバーフィティングしにくい安定的な構造であることが推測される。 民 : (左図は正反応捕捉割合チャート) ツール l 名前 │ 説明 │ 向 otASE I V a l i d :Root ASEI User Defined x2i 直による分類変紋 User Defined X2{[宣翠~~主~1f宅 Tree 0. 4463611267 0. 4714527138 Tree 直による分類変数 Tree 0. 4481928424 0. 464523日32 Tree R2i 化ヒ事支局ヨ) Tree 口 . 4539123068 0. 4614434824 Tree CART i 夫克三オミによる手士主買重己事.l!: Tree 0. 4599742553 0. 4717525476 Tree 表 7 分類変数による精度の比較 左から順に、 成した C A R T (最終カテコりー数 1 8個) 選択した C A R T (最終カテゴリト数 1 1個) を作成した CART(最終カテゴ I~ 一数 1 0個) H A I D (最終カテゴ 1 )一数 2 9個) を選択した C ーザ一定義の χ2値基準による毛デルをツリー表現できない 図 6 決定木のウェイト R2値 に よ る 分 決定木による分 類変数を有する 割変数を有する 図 7 決定木の構造比較 7 . SASコード 決定木による組合せ分類変数の作成結果をソースデータに反映させる方法を 2つ紹介する。 ペ ハ ペu nU ロ ︒

334.

① SAS/EMの決定木ノードのスコアを利用する方法 SAS/EM の決定木ノードを実行すると、結果のスコアに SAS コードが出力される。スコアコード ( D E C I S I O N TREE SCORING C O D E )の中の ASSIGNOBSERVATION T ON O D E という部分に下記のようなツリ ーの IF‑THEN‑ELSE モジュールがある。この部分をカット&ペース卜すれば容易に[住居&職種] の分類変数を作成できる。 (注意)下記の値 ' 1 'はアパート, 2 'は借家, . .. e1c .を表す。 t I F FNORVAL I N( 'l ' ,' 2 ' ,' 5 ' )T H E ND O : FORMAT = PUT( OCCUPATION , B E S T 1 2 . ) : %DMNORMCP( FORMAT, FNORVAL): 4 ' ,' 5 ' )T H E ND O : 一 一 I F FNORVAL I N( ' 0 ' ,' N O D E =1 4 : P A GOALBAD = 0.72388059701492: PA GOALGOOD = 0.27611940298507; 1A GOAL ='B A D ' ; U̲A̲GOAL ='B A D '一 ;DECNUM= 1; E N D ; ELSE D O : E S T 1 2 . ) : %DMNORMCP(̲FORMAT,̲FNORVAL); FORMAT = PUT( OCCUPATION ,B ...(以下省略)・・・ ②ルールの保存を利用する方法 上記の方法では、 IF‑THEN‑ELSEが入り子状なので、わかりづらい。決定木の結果の中には「ルー ルの保存」があり、実行すると下記ルールがテキストファイルで得られる。 I F 住居形態 1 SO N EO F : 67AND職種 I SO N EO F :0241 THEN N O D E : 2 N:1286 BAD:37.2% GOOD: 6 2 . 8 % I F 職種 1 SONEO F : 356 AND住居形態 I SO N EO F : 034THEN N O D E :1 3 N:359 BAD:65.5% GOOD:34.5% I F 職種 I S ONE O F : 0 5AND 住居形態 I SONE O F : 125THEN NODE:14 N:268 BAD:72.4% G O O D : 2 7 .日 ・・(以下省略)・・‑ ) ‑ 川 川U 内4JV ︑ ︑ ︑ ︑ aq J ﹁ ︑ 1J1Jnt M川川・E I F h u 11 口 IJF IJ a a﹃ a J ι 戸 huFhu ハ ハハ ハ コ 台 コ F (55lil‑‑ tr ︑ Fし 内t n u q u n u r t︑ ︐t︑ ︐t︑ 川N 戸し︐ nunu ︑IJ︑IJ 削 同 制 同 制 N I l ハ ︑ 川川川山間同 T H E N HOUSE O C C U = 'AD041325 O C 4 1 ' ; T H E N HOUSE O C C U = 'AD67 OC0241 '; T H E N HOUSE O C C U = 'AD7 O C 3 6 5 '・ T H E N HOUSE O C C U = 'A D 6O C 3 6 5 ': THEN HOUSE O C C U = 'AD043 O C 0 2 ': THEN HOUSE O C C U = 'AD043 O C 3 6 5 '; THEN HOUSE O C C U = 'AD125 O C 0 5 ': T H E N HOUSE O C C U = 'AD125 O C 3 6 2 '・ 組 問 ﹄ nHMUN川 川 川 u' 川 NlaRUEU川uuuuuuunEME邑 pupupupub おH A 川 川 U 内︽d w 内︽dwnEunEunEunHM 内ゆW 園地 nununu J P U〆 Fhu 戸 しN 同 制N o a nU1111nυnυnunuト 主 削 同 制 同 制 川 ム 小IH のL M N nυUUUUA A A A 内 ︽ d w u m川 n E u n E M E L h H AHPUPU ︑IJ︑IJ︑IJ︑IJ' w 内︽dwFhuFhu‑一 ‑EanHunHM 内︽d juu a a﹃﹃︐znHunHMan﹃ a n﹃内︐﹄内︐﹄ n E M n E M A A ハt nunut‑‑lnu r︑r ︑r ︑ 一 rn︑u rt︑u〆ハ 削 山 川 削 川 川 削 山 川 削 山 川 削 川 同 制 川 川 ト﹄ III‑Ileo III‑aマt ロ =﹁e=II川 U ヒヒヒ ヒヒ ハ Il‑‑IIIlli‑‑‑P1111L E ﹄F F E E ﹄F F F U JMF︑ JMF︑ JMF︑ J M R︑ JUUHH F︑ un︑ JUF︑ JUR︑ 川 U 川U U U U U U U 川U 川U 川U nuunHunHunHunHunHunHunHUE‑ ununHnHnH 門 H H H n u n E﹄ n円︼ Fト﹄ F炉﹄﹁F﹄ ﹁F﹄Fト﹄ Fト﹄ Fト﹄ R︑ J M 戸︑un︑un︑un︑un︑ JM 戸︑u E﹄' E﹄E1﹄E1﹄ B E﹄E1﹄E1﹄' Fト﹄ Fト﹄ Fト﹄﹁F﹄Fト﹄ Fト﹄ Fト﹄ F FEEtAA ﹁ ﹁ EtEtFEF ﹁﹁ ︑ 上記を SASコードに直せば、入り子状でないルールが得られ、わかりやすい形式になる。 8 . 最後に この組み合わせ分類変数は、専門家も気づかない新しい知識発見につながる可能性を有している。カ テゴリ一変数を組み合わせた分類変数が、モデルの安定性に寄与しているかどうかは統計的に証明され ていない(筆者が知れないだけかもしれない)。しかしデータマイニングの専門家が最終段階で用いる 方法として知られている。今回はうまく成功しなかったが、分類変数で精度が向上した経験もある。た だ決定木を用いる分類変数の作成は、面倒なプログラムが必要であるために広く用いられていない。本 稿は組み合わせ分類変数を SASコードへ変換する方法を解説した。 本稿は個人的見解で書かれており,所属する UFJ銀行の意見をあらわすものではありません。 9 . 参考文献 ・ E n t e r p r i s eMinerリファレンスヘルプ υ u 円 同 n ペ ハべU

335.

口頭論文発表 調査・マーケティング

336.

SAS に よ る 悪 性 新 生 物 , 心 疾 患 , 脳 血 管 疾 患 といわゆる難病を含む疾患群の平均在院日数の解析 0楊 学 坤 1) 今井蕎正 1 ) 1.2) 順天堂大学医学部病院管理学研究室 2) 東京臨海病院 A STUDYONCHANGEOFAVERAGELENGTHOFSTAYOF THECARCINOMAANDSOON7DISEASEGROUPSBYSASSYSTEM OXuekunYang1). 1) HisamasaImai1.2) Department ofHospital Administration. Juntendo University School ofMedicine 1.21 Tokyo R inkai Hospital 要己 日 本研究では, SAS System を 用 い て , ) 1 :1[天堂大学病院に焦点を 当 て , 最 近 20 年 間 (1979 年~ 1998 年 ) の 悪 性 新 生 物 , 心 疾 患 , 脳 血 管 疾 患 と い わ ゆ る 難 病 ( 神 経 系 疾 患 と 眼 原 病 ) を 含 む 7疾 患 群 の 平 均 在 院 日 数 の 推 移 を 解 析 し た 。 そ の 結 果 , 以 下 4点を 指 摘 で き た 。 ① 平 均 在 院 日 数 は , 7疾 患 群 と も に 減 少 傾 向 を 示 した。②悪性新生物は病院全体の在院日数の短絡を妨げる方向 に作用していた。③脳血管疾患の平均在院日数は心疾患より長 かった。④神経系疾患の平均在院日数は穆原病よりやや長い が,短縮傾向は大きかった。 キーワード: 病院 平均在院日数 SAS System 解析 1.緒言 わ が 国 の 医 療 供 給 体 制 の 基 本 法 で あ る 医 療 法 は 昭 和 23年 に 定 め ら れ た が , そ の 後 の高齢化に伴う疾病構造の変化,医療の高度化や専門化等に対応し,その都度改正 3年 3月 l日に施行され, が行われてきた。第四次改正医療法は,平成 1 I 一般病床」 と「療養病床」の区分を法制化することにより入院医療の効率的な提供が要請され ている。 入院医療提供体制の重要な指標である平均在院日数は,わが国では近年徐々に短 縮 し て い る が , 欧 米 に 比 べ て い ま だ に 長 い ト 2)0 2003年 4月 1 日 よ り , 特 定 機 能 病 P C( D i a g n o s i sP r o c e d u r eC o m b i n a t i o n ) に基づく医療機関別包括支払制度が 院に D 必斗 A nぺU nぺU

337.

導入され,医療資源としての病床の効率的な運用に向け,平均在院日数を短縮して 病床回転率を上げる方向に積極的に誘導している。 3‑5 )。 本研究では,国民衛生の動向・厚生行政上に大きな比重を占める悪性新生物,心 疾 患 , 脳 血 管 疾 患 と い わ ゆ る 難 病 を 含 む 7疾 患 群 の 平 均 在 院 日 数 の 2 0年間の推移を, 特定機能病院である順天堂大学病院に焦点を当てて,検討した。 2 . 方法 本研究の対象は順天堂大学病院の 1 9 7 9年 l月から 1 9 9 8年 1 2月 ま で の 2 0年 間 に 渡る全退院患者 2 3 3,6 4 2名である。 対象疾患群は,悪性新生物として①原発性,②続発性すなわち転移性,③リンパ・ 造 血 組 織 の 3疾 患 , ④ 心 疾 患 , ⑤ 脳 血 管 疾 患 と い わ ゆ る 難 病 ( ⑤ 神 経 系 疾 患 と ⑦ 限 原 病 ) を 含 む 7疾 患 群 を 選 ん だ 。 悪 性 新 生 物 , 心 疾 患 , 脳 血 管 疾 患 と は , 人 口 動 態 , 統 計 の 死 因 分 類 6)で 3大 死 因 と 呼 ば れ て い る 。 「 国 民 衛 生 の 動 向 J2003 年 版 に よ 3年 に お い て , 死 因 の l位の悪性新生物, ると,平成 1 2位の心疾患, 3位 の 脳 血 管 疾 患 が , そ れ ぞ れ 死 亡 総 数 の 30.7%, 15.3%, 13.8%を 占 め て い る 。 い わ ゆ る 難 病 0年 ご ろ か ら 原 因 不 明 の 神 経 病 と し て 散 発 し た ス モ ン が 契 機 と な り , 原 とは,昭和 3 因不明,治療方法未確立,後遺症があり,慢性的,要介護,家庭負担が重い特定の 疾患を指している。ここでは,そのうちの代表的な疾患群として神経系疾患と謬原 C Dで は 筋 骨 格 ・ 結 合 組 織 疾 患 に 含 ま れ る も の を 取 り 上 げ る 。 病など,すなわち I 疾患群別の患者の区分は 表 lに 示 す 。 病 院 の 診 療 録 管 理 室 に お け る 退 院 時 要 約 から, 1 9 7 9年 l月から 1 9 9 5年 1 2月までは第 9回修正国際疾病分類(Internati o n a l C D ‑ 9 ) i)体系に基づき, 1 9 9 6年 l 月 Classification o f Diseases 9th Revision, I 998年 1 2月 ま で は 第 1 0回 修 正 国 際 疾 病 分 類 ( IC D ‑ 1 0 ) S)体 系 に 基 づ き , 主 病 から 1 名の I C D番 号 (3桁)で選別した。 在院日数の算定は, r 疾患別在院日数データブック J に従った。すなわち,入院 9 ) 日より起算し,退院日までの日数を在院日数とする。入院の即日退院の場合には在 院 日 数 を l日 と す る 。 平 均 在 院 日 数 は 各 区 分 に 該 当 す る 患 者 の 在 院 日 数 の 算 術 平 均 として算出される。 ASS y s t e r n( D i g i t a l UNIXProductionRelese 6.12T S 0 4 0 ) の動 統計解析には, S 3 4 4 ‑

338.

表 l 第 9・1 0回修正国際疾患分類体系に基づく 7疾患群の患者区分 疾病群名 I C D ‑ 9 I C D ‑ 1 0 f f i t 、先性悪性新生物 1 4 0 ‑ 1 9 5 . 8 C O O ‑ C 7 5 . 9 .C 9 7 続発刊,部f立不 I~J 悪性新生物 1 9 6 ‑ 1 9 9 . 9 C 7 6 ‑ C 8 0 リンパー J E血組織悪性新生物 2 0 0 ‑ 2 0 8 . 9 C 8 1 ‑ C 9 6 . 9 心疾患 脳血管骨、.~~. '!-除く循環~~系疾患、 3 9 0 ‑ 4 2 9 . 9 .4 . 1 0 ‑ 4 5 9 . 9 1 0 0 ‑ 1 5 2 .I iO ‑ I 9 9 脳血管疾患 I J i ' l 血管疾患 4 3 0 ‑ 4 3 8 . 9 1 6 0 ‑ 1 6 9 . 9 神経難病 神手主系疾患 3 2 0 ‑ 3 5 9 . 9 G O O ‑ G 9 9 . 8 際原病など 筋Il終結合組織疾 . H : 7 1 0 ‑ 7 3 9 . 9 M O O ‑ M 9 9 . 9 悪性新生物 3疾 忠 作環境を用いた。入力データは,医事用大型コンピュータシステム上の集計を M i c r o s o f t ‑ E x c e lの C S V形 式 フ ァ イ ル と し て 提 供 を 受 け , W i n d o w s 9 8パ ソ コ ン 上 の F T Pク ラ イ ア ン ト ソ フ ト に よ り S A S用 U N I Xサ ー バ ー に 転 送 し た 。 転 送 の; 1 崇,漢字コ ードをシフト J I S漢 字 コ ー ド か ら E U C漢 字 コ ー ド に 変 換 し た 。 S A S上 で の デ ー タ 読 r ,Jを区切り文字に設定し, S A Sデータ み込みには. I N F I L E文 の パ ラ メ ー タ に よ り セットへの変換を行った。次に,以下の方法により疾患群別平均在院日数の推移を 算定・解析した。 2.1 U N I V A R I A T Eプ ロ シ ジ ャ に よ る 疾 患 群 別 在 院 日 数 の 詳 細 な 要 約 統 計 量 の 計 算 順天堂大学病院の診療録管理室における退院時要約から,各退院患者の 桁)番号,入院年月日,退院年月日を抽出し, I C D (3 U N I V A R I A T Eプ ロ シ ジ ャ に よ る 疾 患 群 別在院日数の詳細な要約統計量を計算した。疾患群別在院日数の標準偏差とともに 変動係数(標準偏差を平均で除した値)を求めた。在院日数パーセンタイル値の算 定 に は , 疾 患 群 別 に 患 者 の 在 院 日 数 を 小 さ い 順 に 並 べ , 全 体 の 5 %、 10%、 25%、 50%、 75%、 90%、 95%、 99%の 各 点 に 相 当 す る 患 者 の 在 院 日 数 ( パ ー セ ン タ イ ル 値)を表示した。 2.2 R E Qプ ロ シ ジ ャ に よ る 疾 患 群 別 平 均 在 院 日 数 の 年 次 推 移 の 回 帰 分 析 I C D( 3桁 ) 番 号 , 入 院 年 月 日 と 退 院 年 月 同じく退院時要約から,各退院患者の υ ﹁円 凋AT 門 ぺU

339.

日を抽出し, R E Qプ ロ シ ジ ャ に よ る 疾 患 群 別 平 均 在 院 日 数 の 年 次 推 移 の 回 帰 分 析 を 行い, 20年 間 疾 患 群 別 平 均 在 院 日 数 の 年 次 推 移 の 回 帰 分 析 を 表 示 し , 疾 患 群 別 退 院 患者数と平均在院日数の年次推移を作図した。 3 . 結果 3 . 1 7疾 患 群 の 退 院 患 者 数 , 平 均 在 院 日 数 と 在 院 日 数 パ ー セ ン タ イ ル ( 日 ) 1979年から 1998年 ま で の 120年 間 の 7疾 患 群 の 退 院 患 者 数 , 平 均 在 院 日 数 と 在 院 日 数 パ ー セ ン タ イ ル ( 日 )Jを表 2に 示 す 。 こ の 20年 間 の 合 計 入 院 患 者 の 33.6% を占める 7疾 患 群 で , 患 者 数 が 第 l位 の 悪 性 新 生 物 3疾 患 群 が , 平 均 在 院 日 数 が 最 5 . 5日,続 も長く,その中でも白血病に代表されるリンパ・造血組織悪性新生物が 6 3 .1日 , 原 発 性 悪 性 新 生 物 が 4 8 . 2日 だ っ た 。 患 者 発性及び部位不明悪性新生物が 5 数 が 第 2位 の 心 疾 患 が , 平 均 在 院 日 数 が 最 短 ( 2 3 . 7日 ) で , 病 院 全 体 の 平 均 在 院 日 数 (26.9 日 ) を 下 回 っ て い た 。 脳 血 管 疾 患 , 神 経 系 疾 患 , ~fi 原病は悪性新生物より 平 均 在 院 日 数 が わ ず か に 短 い 程 度 だ っ た 。 在 院 日 数 の 変 動 係 数 に つ い て は , 20年 間 の平均値は1.8 4で , 大 部 分 が l点 台 で あ っ た が , 脳 血 管 疾 患 と 神 経 系 疾 患 が 約 2 . 3 表 2 20年間の 7疾患群の退院患者数 疾患群区分 対象疾怠群の範囲 l C O ‑ 9 平均在院回数と在院日数パーセンタイル 在院日致ノ〈ーセタイル(日) 在 院 日 数 患 者 致 干 数 l C O ‑ 1 0 平 均 陪 唯 偏 差 女1 V J t 日 1 0 ¥ 2 5 ¥ 5 0 ¥ i 5 ¥ 9 0 ¥ 9 5誕 9 9 ¥ ; f r性 新生物の合計 1~0-208. 9 C O O ‑ C 9 6 . 9 3 2 . 4 0 5 4 9 . 6 5 33 1 .0 7 5 1 0 2 1 3~ 6 3 1 0 0 1 3 0 2 2 8 一回1活 性 1 4 0 ‑ 1 9 5 . 8 C O O ‑ C 7 5 .9, C9~ 2 9 . 1 0 9 4 8 . 2 51 .5 1 .0 7 5 1 0 2 1 3 7 6 1 一続発性及び部位不明 1 9 6 ‑ 1 9 9 . 9 C i 6 ‑ C 8 0 8 9 3 5 3 . 1 6 9 . 0 1 .3 0 3 7 2 0 3 9 7 0 1 0 5 1 4 0 2 3 1 ーリンパ・造血組織等 2 0 0 ‑ 2 0 8 . 9 C 8 1 ‑ C 9 6 . 9 2 . 4 0 4 6 5 . 5 6 3 . 8 0 . 9 8 5 8 2 0 4 i 9 0 1 4 3 1 9 2 2 9 9 21 .0 6 4 2 3 . 7 3 9 . 6 1 .6 7 3 4 6 1 4 2 9 5 0 心 疾 患 9 5 1 2 4 2 1 6 i 2 1 4 3 3 9 0 ‑ 4 2 9 . 9 1 0 0 ‑ 1 5 2 . 8 4 4 0 ‑ 4 5 9 . 9 1 7 0 ‑ 1 9 9 脳血管疾患 4 3 0 ‑ 4 3 8 . 9 1 6 0 ‑ 1 6 9 . 9 4, 6 3 7 3 9 . 8 9 0 . 1 2 . 2 9 3 5 1 2 2 3 4 2 i 9 1 1 4 2 8 4 神経系疾患 3 2 0 ‑ 3 5 9 . 9 G O O ‑ G 9 9 . 8 7 , 5 6 7 3 8 . 9 9 0 . 3 2 . 3 2 4 8 1 4 2 3 3 9 7 1 1 0 4 2 5 7 i j ; : 原病をど 7 1 0 ー7 3 9 . 9 1 1 0 0 ‑ M 9 9 . 9 1 2, 7 7 9 3 7 . 0 4 9 . 3 1 .3 4 2 2 1 0 2 5 4 8 8 1 1 1 4 2 0 3 2 3 3, 6 4 2 2 6 . 9 4 9 . 5 1 .8 4 2 3 7 1 5 3 2 6 0 全 疾 患 ‑346一 8 6 1 7 0

340.

を 示 し た 。 疾 患 群 別 退 院 患 者 の 5 %、 10%、 25%、 50%、 75%、 90%、 95%、 99% の各点に相当する患者の在院日数(パーセンタイル値) について表示した. 院日数は, 病 院 全 体 ( 全 疾 患 ) と心疾患,脳血管疾患,神経系疾患, 値 (50ノfー セ ン タ イ ル ) と第 3四 分 位 数 ( 7 5パ ー セ ン タ イ ル ) 平均在 勝原病が中央 の間で, 第 3四 分 位 数に近い値を示したが, 平 均 在 院 日 数 の 長 い 悪 性 新 生 物 3疾 患 が 中 央 値 と 第 3四 分 位数の間で, 中央値に近い値を示した。 3.2 病 院 全 体 と 7疾 患 群 の 平 均 在 院 日 数 の 年 次 推 移 1979年から 1998年 ま で の 「病院全体の病床数, 退 院 患 者 数 と 平 均 在 院 日 数 の 年 次 推 移 」 を 図 lに示す。この 20年 間 で , 病 床 数 は 約 1,000床 で , 大 き い 変 動 が な か ったカ仁 退 院 患 者 数 は 1979年の 9,579人から 1998年の 1 6,160人へ, 68.7担増加し た 。 平 均 在 院 日 数 は 1979年の 31 .5日から 1998年の 21 .3日へ, 10.2 日 (32.4%) 短 縮 し た 。 平 均 在 院 日 数 の 年 次 推 移 を l次関数で近似すると, 回 帰 直 線 は y=ー O .60xt33.26 (y 平均在院日数, x :1979年 か ら の 経 過 年 数 ), 寄 与 率 (平均 在 院 日 数 と 経 過 年 数 と の 相 関 係 数 の 2乗) は 0.92だった。 1 0 0 0 r = i t i 4 W 8 0 0 1 5 回帰直様y=-O.58x+~5.99 2 5 1 2 0 0 平 均4 院 日 汝 A地 ー u ハ nU 病床欽・返院出品者欽 3 0 2 0 6 0 0 1 0 4 0 0 2 0 0 i ~'._ . 1圃 ・ B '..1̲ ( 圃 , ̲ , I L . ! 量 L l 田 島 圃 E圃 B圃 1...1園 長 圃 , ̲I 0 7 9 8 0 8 1 8 2 8 3 8 4 85 8 6 8 7 8 8 8 9 9 0 9 1 9 2 9 3 9 4 9 5 9 6 9 7 9 8‑ 4 ' E二コ病床数 園 田 退 院 患 者 前1 0 ‑0‑平均在院日数 図 l 病院全体の病床数, 退院患者数と平均在院日数の年次推移 「悪性新生物全体の退院患者数と平均在院日数の年次推移」 を図 2に 示 す 。 退 院 患 者 数 は 1979年の 1,020人から直縄的に上昇し, 1998年 に は 2, 411人となり, 20 ‑347‑

341.
[beta]
i
rの 57.1日から徐々に下降し, 1998

年間で 2
.
4倍 に 増 加 し た 。 平 均 在 院 日 数 は 1
9
7
91
9
9
8年 に は 4
3
.
6日となり, 2
0年 間 で 1
2
.5日 (
21
.9
%
)短縮した。回帰直棋の勾

0
.
5
8で , 病 院 全 体 の ‑
0
.
6
0よ り や や 緩 や か だ っ た 。
配は ‑

、
7
0 ζ
l
'
I J
!
)

j
l
.
! 3000 rー一向一一一一一一一一一一一一一ーー一一一一ー一一一一一一一一一一一一一一一一
f.~,
I

・
.
.
.
.
.

│ i 6
∞ト
.‑
:
. ーやーーーー一一

お 2
5
1
/
.
1

曹
、
.
・

4

̲

0

今一一一

2
一

:
1

n
l

1
1
5
0 t
/
i

2
0
0
0

4
0
3
0
1
0
0
0

2
0

5
0
0

1
0

。
7
9 8
0 8
1 8
2 8
3 8
4 8
5 8
6 8
7 S
88
9 9
0 9
1 9
2 9
3 9
. 9
5 9
6 9
79
S
{
I
'
‑
C:::::EJj
[
l
院f
l
:
,
r
,
‑は・ 4 ・
:
1
'
.
'
JI
i
ドi物 I
'
J
!
)
u院 1,:i ー吋)‑‑';~jl'iI:,~ N!)uJ
よ
,1
1~í

図 2 悪性新生物全体の退院患者数と平均在!完日数の年次推移

淀
i

z
…
.
.
.
.
‑.
:
・
・
・
日 r
j奴
-~50
∞
て官判肉、R
J

;

)

6
0 イ
:
1
i
1

1
5

州 叫y=‑o 58X+53̲36
,

4
0

∞!問問自川門

1
0

n
n
l
f
下村牛出はUHl

2
0
1
0

。
7
9 80 8
1 品2838.858凸 8
7 S
S8
9 9
0 9
1 9
2 9
:
1 9
‑
1 9
:
; % 9
79
S
{
I
'

c:z三コ j!.l lν:J_':. -K'~í ・ 41!;{ 1
t
t
l
:
!
t
t
lf'(j.'!・物・ I'H) イl 院 11 投ーベ〉ー全病院、 l'均イ!:I~'~ 1
1~í.

図 3 原発性悪性新生物の退院患者数と平均在院日数の年次推移

「原発性悪性新生物の退院忠者数と平均在 l完日放の年次推移」を [~I 3に 示 す 。 退

院患者数は 1
9
7
9年 の 9
2
8人 か ら 1
9
9
8年 の 2,1
0
4人へ, 2
0年[1¥]で 2
.
3倍に増加した。

9
7
9年 の 5
5
.
6日から 1
9
9
8~Iミの 43.6 日へ, 20 年!日]で 1
2
.
6日 (
2
2
.
7九
)
平均在院日数は 1
短縮した。全悪性新生物の中,原発性主主性新生物の占める訓合は 9
1
%で す の で , 原
発性悪性新生物のグラフは思性新生物全体とほぼー致した傾向を示した。

‑
3
4
8

342.
[beta]
「続発性及び部位不 r
l
j
J!1l~性新生物の退院忠者数と平均五|記日数の年次抗移」を図

4に 示 す 。 退 院 患 者 数 は 少 な い が , 1
9
7
9年 の 3
7人から 1998年 の 8
5人へ, 2
0年 間
で 2
.
3倍 に 増 加 し た 。 平 均 在 院 日 数 は 1
9
7
9年 の 97.7日から 1983年 の 28.2 日へ,

69.5日 (
71
.1
%
) と 顕 著 に 短 縮 し た 。 回 帰 直 線 の 勾 配 は 2.60だった。

退
酬
に

1
0
0 「
・
J
!
)
l
9
0 イ
'
;
1
札
5
日
1

•

立

,
、

V
Z
Z
£
A
1
ω

1
"
I
.
j
,;
I
I
'
(
{
:
!
.
y
=
‑
2
.6
0
¥
+
81
.2
6

7
0

~i

6
0
5
0
8
0

a

・司 .

•

.
̲
: .@ 4
0

3
0

t1
m
" n~'~'~'m I 日寸村守何ー甘~12010

4
0 闘

r:::.:::二H!I記,;J.:.~'1/J..・

4・

i~'~ ~ttt:ι l'1 ,r, '1 物・ I'.H)II ドι11:,í_ ‑‑0‑ー"吋l
勺1
:
;
1・
I
'
H
)
{
I:
t
'
礼 1~í.

図 4 続発性及び部位不明悪性新生物の退院忠者数と平均在院 H数の年次 t
f
t移

j
日 3
0
0

主
ト

・
?

I
り1
i
u
i
v
'
i
線y
=
+
O
.8
7
X
+
5
i
.1
7

.~・

~~ 2~O

ι
ー
:

・
.
.

.
̲
.

•.
h
、 4
.、一・
‑
・
1
2
0

I

"ー~.

'

̲
'

m

8
0
7
0

l
i
白人

6
0

‑•

叶図闘 Kl 日 ~D f
1
'1
' 同
日 l1
F;
1
1
'
1
1
'
1日
目

1
0
0ι
1
'
J
む
{
(

9
0

5
0

n
'
u町
三
1
)
1
0

巴ご!'3i
U
k
'
,ど、行政・ 4 ・ ')ンパー i
主[
1
[
1組織引''1".+十 I
J却
・
ドJ
!
)イ
I
J
;
C
!
!t
iー叫〉ーペ、病院判与{!院 I
!t
i

図 5 リンパ・造血組織悪性新生物の退院患者数と平均在院日数の年次推移

f
r
l組 織 思 性 新 生 物 の 退 院 忠 者 数 と 平 均 {
E
[完 日 数 の i
l
三次批移」を区I5
「リンパ・造 I

に示す。退院忠、者数は 1
9
7
9i
f
'
,
の 5
5人から 1
9
9
8_{I~ の 222 人へ,

2
0年!日]で 4倍 に 明

加した。平均在院日数は 1
9
7
9i
.
1
:の 5
5
.
4 日から 1
9
9
8年 の 54.3 日へ,杭ぱいだが,

.87だった。
回 帰 直 線 の 勾 配 は +O

‑349一

343.
[beta]
t者 数 と 平 均 在 院 日 数 の 年 次 推 移 」 を図 6に 示 す 。 退 院 患 者 数 は
「心疾患の退院 j
1979年 の 730人 か ら 徐 々 に 上 昇 し , 1998年 に は し 325人となり, 20年間で1.8倍
979年 の 29.6 日から 1998年 の 17.4 日へ, 小 波 状 を
に増加した。平均在院日数は 1
0年 間 で 12.2 日 (
41
.3
犯 ) 短 縮 し た 。 平 均 在 院 日 数 は 病 院 全 体 よ り 約 3 日短く,
描き 2
回帰直結の勾配はー 0.61だった。
n
ハHUvnU
n
ハHUvnU

Phuq
l
1
H
τ
r
κ
仙日占v川 巧 戊
3
1I
141

4
0 '
f
.
均

い!~"i 泊料(y=-o. 6
1
X
+
2
9
.3
2

ノ

A同

3
5 {
i
!
:
;
j
;
!
I

3
0 料

k
"

2
5

8
0
0

2
0

4
0
0

1
0

=三三:Jj
日
院
.
l
J
.
:
.
f
t
.
t
i

・
‑
.
.

4・持、む・i
ξ
J
'
J
U院 !
I主

ーー0-ー全1内 F,~'I'.HJ {i;I淀 11 t
i

図 6 心疾患の退院患者数と平均在院日数の年次推移
ハ
U

イ
i

︽

d

F
よ
I
6
0 I
:

υ

辺院山山花放

nu
‑ハU‑
っ

8
0 '
f
‑
J
与

[
1
1
1'hl:'ll'(~;~y= ー1. 1
2
X
+
5
2
.3
i

タ
L

1
0

ト

17

ハ
U

ー﹄

Qd

川
町

U

FLK上 9

日
関 MU

2
0

‑1
;i if
tLS

宥

仏関且附四
tr
日闘阿国別

Qd

1ォ11ォ辺川寸1品 川
i33E

12

幽

lv
‑riF?ibAny
・
・
ト

ω

‑
‑
卜
f
i
s
ι
v
rι
ドF

hMM闘MM魁

刈

bUMM割 以 悦 悶 国 釘

hnN悶悶悶肘且 m∞
414
1J 過当な証同町
l
f

an u

MMMNN闘悦凶M凪 目 ω

ド

Eここニヨ辺 !~,'U,ど{'í数・ 4 ・

wNM川村総閥関悶姐m

︐

イ
14 A1叶1寸叶ad1AS凋汁 J司司A刈
司

‑
tip‑vtEEERhs

ls

MMM対問問悶岨m

MMM日間関MMMM

Qd
nj

‑一刈ヨ議当初

1
0
0

JJí~Ifll\'ì'jj、!~:. '
!
'
J
'
J{
I
:
P
'
,
CI
It
¥
: ‑‑0‑ー令市ド'1'; ドJ
'
J
u
:
1
山 1~í

図 7 脳血管疾患の退院患者数と平均在院日数の年次推移

「 脳 血 管 疾 患 の 退 院 患 者 数 と 平 均 在 院 日 数 の 年 次 推 移 Jを図 7に 示 す 。 退 院 忠 者
数は 1
979年 の 203人から 1998年 の 280人へ, 20年間で1.4f
音に増加した。平均在
院日数は 1
979年 の 47 日から 1998年 の 3
0
.1日へ, 大 波 状 を 描 き 20年目jで 16.9 日

Fhu

nべU

ハU

344.
[beta]
(
3
6犯 ) 短 縮 し た 。 回 婦 直 線 の 勾 配 は 1 .1
2で , 平 均 在 院 日 数 の 短 縮 率 は 病 院 全 体 よ
り大きかった。

「 材 経 系 疾 患 の 退 院 患 者 数 と 平 均 在 院 日 数 の 年 次 推 移 」 を 図 8に 示 す 。 退 院 患 者

9
7
9年の 2
8
4人から 1
9
9
8年 の 7
9
0人へ, 2
0年[11]で 2
.81
青に増加し,特に 1
9
9
6
数は 1
年以降の増加が顕著だった。平均在院日数は 1
9
7
9i
!
:の 5
7
.
7日から

1
9
9
8年の 2
3
.
5

日へ,波状を f
N
iき 2
0:
(
!
.
oI
Uで 3
4
.
2日 (
5
9
.
3覧)短縮した。 [
1
1
1侃
j
!
'
(~)~の勾配は-1. 6
8と
,
病院全体の ‑
0
.
6
0を 大 き く じ 回 っ て い る 。 近 年 の f
;
'
;恒
(10な 荊 仰 j
主営が j
瓦!りとされた。
n
w
d

山一院山bZ欽

∞

i
Oド
・
均

!11!'J"t~rt'(:WY= ー1. 6
3
X
+
5
i
.4
0

6
0.
1
Y化

'

1
1

5
0 U

6
0
0

1
0
3
0
3
0
0

2
0

1
0

Eヱご:JjW
'
i
:.
'
l
'
..
/
'
i
't
士
・ 41
1
!
I
H;
f
dた
,
:
J
.
:
,
・

n
'
){I:!記 1t~ ーベHー令術院・ 1'.J~) {l J正 11 t~

図 8 神経系疾患の退院患者数と平均在院日数の年次推移

J
日

1
2
0
0

沈
│

I
I
I
[~'I; !
I
'
I以 y=‑o ~, X_~'I.

b

i
(
,

6
0 1
'
.
J
'
)
{
I
ド4

,
(
'
;
.

~l

1
t
i

8
0
0

4
0

2
0

~j旦院忠者 g~

・41
事I
!
;
{病
・│
ι
J
む{I院 1
1は

ー吋〉一公約ト1干J)){IY
A
:
1
lt~

図 9 j
i
芸原病の退院患者数と平均在院日数の年次推移

﹁門U

4hA

ηべU

345.
[beta]
IIJ& 原病の退院患者数と平均在院日数の年次推移 j

を[~[ 9に 示 す 。 退 院 忠 者 数 は

1979年 の 378人 か ら 1998年 の 688人へ, 2
0年間で1.8倍 に 増 加 し た 。 平 均 在 院 日
数は 1
979年 の 52.8 日 か ら 1998年 の 3
8
.1日へ, 2
0年 間 で 14.7 日 (27.8百)短縮し
た。回帰直線の勾配は‑
0.47で , 病 院 全 体 の 勾 配 0.60を 下 回 っ て い る 。

3
. 考察
本i
j
}
f究では, J
l
l
f
[天 堂 大 学 病 院 の こ の 2
0年 間 の 平 均 イ:
1院 日 数 に , 国 民 街 生 の 動 I
l
'
j
J・
厚 生 行 政 上 に 大 き な 比 重 を 占 め る 3大 死 因 疾 患 す な わ ち

:
ι
1
"1:新生物,心疾忠, 1
日I
I
I
I

行政辺、といわゆる都内!
.
jを 合 む 7疾 忠 昨 を 取 り 上 げ た コ 去 2に 示 し た よ う に , こ の 2
0
年
!
日j
では

7i5~},よ1、 nr の什計"占、者数が 78.452 名で,同JtJJ I
I
¥Jの病院全体の合計忠打殺の

33,
(
i
%
を I
I
jめ て い る 。 7:I)~}と /
:
'
(
:
の
Z
!
I
ベ
イ1
:
1
淀川政が 3
.0
5
S
.~3 , I
1で, l
'
i
JJ
!
JJ
I
l
d
'の的│比七休
のZ!Iベイ1
:
1
淀川放の 4
8.7出を I
l
jめている。

{
r[
I
¥
jで .31
.5E
:Jから 21
.3 1へ, 33.4%

1日 天 堂 大 学 病 院 の 平 均 イ1
:
1完 日 数 は , こ の 2
0
短縮した。 1
1fー生省の統,1
‑ーによると

全国の同時期の平均在l
淀川数は 3
8.3 :
1
11
0から

31
.5日 1
1
1へ, 17.4%短 縮 し た 。 順 天 堂 大 学 病 院 の 平 均 在 院 日 数 は 全 国 平 均 よ り 短 く ,
お よ そ 3分 の 2で あ り , こ の 2
0年 間 の 短 縮 率 も 約 2倍 で あ る 。 ま た , 谷 口 ら の 報 告

1
~によると,ある i 也 h主 jL 幹病院の 1982 年から 1995 i
rまで 14年 I
I
¥Jの平均 {
E1
淀川政は,
31
.6 L1から 2
5.4 1へ と 20%短 縮 し て お り , 1
1
1
(
[天 堂 ん 字 病 院 の l
P
'
[に 近 似 し て い る コ

n

7j
f忠 下の '
Y
Jむu
:1
完r
l故 の {
I
:ヴ:.j(t移は,病│完全体の、ド.t':){
I
:1
完 1故 に ど の よ う な

ι;

特を与えているか,は ~'lll川、 i弔い仇討対象である/j;(先'1t.~[i; '1'1 新 '1:,物と IJlj. JJi(1I'I.) の、ド J~)

1
1
:r
xj̲j数は ;}ji
.
)1
完全付、のきド J
'
:
){
E1記 L
I以 よ り 長 く

AHして病院令(本料より Lで.j
i
i修 し

ている(以1
3と 9
)。 心 疾 忠 の 平 均 在 院 1
J数 は 病 院 全 体 の 王 子 均 在 院 I
1数よりやや1:.0.く
ー目して病院全体総より下で推移している(図 6
)。 続 党 性 及 び 部 位 不 I
VJ
f
ιIt新 '
1
:
.物
とネ1経 系 疾 忠 の 平 均 イE院 日 数 は 病 院 全 体 の 平 均 在 院 L
I数 よ り 長 い が ,

[
1
1
1帰 直 線 の 勾

配が病│完全体様より急である(図 4と 8
)0 J日 血 管 疾 忠 の 平 均 在 院 日 数 は 病 院 全 体 の
平 均 在 院 日 数 よ り 長 い が , 回 帰 直 線 の 勾 配 が 病 院 全 体 組 よ り や や 君 、 で あ る (ヌ
[1 7
)
。

リンパ・造 I
f
lキ
1
1織 思 性 新 生 物 の 平 均 在 院 日 数 は 病 院 全 体 料 よ り 長 い が ,

I
日l
帰i
立械の

勾 配 がj
主 に プ ラ ス に な り , 不 治 の 病 と い わ れ た 白 血 病 な ど の 治 療 法 の 准 事 ;が
7 {
E1
淀川
数の短縮を妨げているようであるこそこで, 2
0年 H¥ J の 平 均 在 院 日 数 を 航 (x) '
1
4
1
1

n
J
u

nペU

cu

346.
[beta]
リンパ‑造血組織
Q

1
.00
平
均
在
~f1;

i5=2.33

0.50
1
0

2
0

日
数

直

キ
車

循環器~

7
0日

6
0

5
0

原発性市悪性新生物
!5=0.
49

一1.00

。神経

‑1.50

(
J
)

勾
酉
己

40

全 体 (2
6
.
9
.‑
0
.
6
0) 筋 き 格 結 合 組 織

‑0.50

(
J
)

回
j
帯

3
0

0.00

‑2.00
‑2.50

。続発注

‑3.00
平均在院回数(日)

l
主11
)
( 7jj~ '
:
.
L
¥
.t
nの、.
;
1均 u
:I~;é 1t~ とその H'}"I} I
[
'
r
:
*
!
j
lのう J配との W
J
j
i
己

に,その回帰直純の勾配の司'色 N
I
I
U
ー を 縦 (y) '
I
i
l
lにI
J
'
I
.
っ
た1
'
;
(
11
'
.に
,

7j
尖
}
J
.
I
,
l
i
fと 病 院 全

体の他をプロットしたものが図 1
0に示す。 1
'
61
のiJ
l
:.
r
¥(
0,O
.0
0
)と 病 院 全 体 の 点 (
2
6
.
9,

0.60, 黒 丸 ) を 結 ぶ 直 線 を 延 長 し , こ の 直 線 (y=0.60x/26.9) と各疾}J.
j
,
H
f:の点(白

m
i

丸 ) の 位 置 関 係 を , こ の 線 と の 縦 (y) 判1 P
J
!tを求めて定量化した。悲性新生物全
体 及 び1
5
(発
'
1
"1
:
:
巴性新生物,

リンパ・造 1
(
1中I
L
f
i
l
;
'
巴性 t
J
iノド物,

上に,心疾忠, JJi~ r
(
I
Li~: 抗忠,

)
j
l
,
;l
J
;
r
::h~) はが.)1完全付;斜{より

tljJ 紅系 j)~ }
J
.
I
,
,むt允
'
1
'
1!えび i
¥
:
I
;f
~I( イ~ 1
VJ
.
'
巴1
'
ゾ
:
1t
J
i
‑'
1
:
.物 は 1
J
i
JI:~'l 全

付
汁
(
:
J
il
よりi"にある。卜ーにあることは,この 2
0;
1
:
.
1日J
,:
)
j
j
.
iI:'J~ づ、 fイλ の、 l え J りよりも|、一 1:手 ifi:ι
に貢 1:比したことを,む I~( し,

卜ーにあることは.その j主を .'~:Iq、するコこの 7 j)~ 忠Iiドの 11 1

J~~が JJ~II:~'è 合 1トの 2 [
,
.
"
,
:j
!
i
:
く Lい J
t
:竹 新 生 物 に お い て ,
で,忠者数が i はも多く千 J~J {d~~ I

.
l
i出Ii:が肢も長く
こ の 直 線 か ら F向 き の U

(S=0.49) そのIjl
で も リ ン パ .j
i
ir
(
uキl
l
*
i
¥
&悪

性新生物はさらに長い (
S=2
.3
3
)0 m~ '1'1:新生物がリI
J
)
,1
完全体の平均在院日数の短縮を

l
l
Jに 作 J
Tlしていることが分かった。
妨け、る方 I

f
t移 を 分 析 す れ ば , 入 院 │ 豆 出 の よ り 効 率 的 な 提 供 に 関
疾患群日Ijの平均在院日数の t
する具体的な問題点を l
i
f
Jら か に す る こ と が で き る が , 疾 j
よ
l
、
のl
1i:広!主,合 f
j
f
:iif3.の有~!!~ ,
治療法の差異などの要因を識別して行うことが今後の{i)i先日思想となろう。超高齢化

Lす る た め , 特 定 機 能 病 院
社会の到米に伴って今後に予想される医療貨の高騰を!山 L

Fhd
n4U

ηぺU

347.

に対して,従来の延長線以上の平均在院日数の大幅な短縮が凶政レベルで求められ ている。 4 . 結論 今 回 , 特 定 機 能 病 院 で あ る 一 大 学 病 院 の 7疾 患 群 の 平 均 在 院 日 数 の 2 0年 間 ( 1979 年~ 1 998年 ) の 推 移 に つ い て , 以 Fの 4点 を 指 摘 で き た 。 ① 平 均 在 院 1数は, 7疾 ι 引,性│ 患群とも減少傾向を示した。②;思巴 ] 日 血 管 疾 忠 の 平 均 在 院 日 数 は 心 疾 忠 よ り 長 か っ た 。 ④ 十11経系 向 に 作 用 し て い た 。 ③J 疾 患 の 平 均 在 院 日 数 は ,J I 芸原病よりやや長いが,短縮傾向は大きかった。 参考文献 1)伊藤雅治: 2 1t1l:紀の医療制度と医療行政を展望する,病院 5 9( 1 2 ), 1 0 8 0 ‑ 1 0 8 9, 2 0 ( ) ( ) . i 王国利治,福富和夫:退院患者の平均在│完日数に関する一考察, B u ! ! .I n s t 2 )橋本修二, i P u b ! i c Hea!th, 4 4 ( 3 ), 3 6 3 ‑ 3 7 1, 1 9 9 5 . 0( 5 ), 4 4 ‑ 4 8, 2 0 0 3 . 3 )濃 沼 信 夫 : 入 院 包 括 評 価 導 入 の イ ン パ ク ト , 新 医 療 3 P C によってどう変わったか,病院特別! 4 0 ( S u p p ! ) . 4) 藤 森 健 二 : 特 定 機 能 病 院 は D 8 5 ‑ 8, 時 2 0 0 3 . 5 )厚 生 労 働 省 保 健 局 医 療 課 , 特 定 機 能 病 院 に お け る 入 院 医 療 の 包 括 主I ' ( r l l iの概要 6 )厚 生 統 計 協 会 : [ r 1 1己衛生の動向, 1 ' /~I 二の J 日開 5(1 1 り 1 1-\ -51. 2 0 0 3 . 三 ()()3. i )厚 生 統 計 協 会 ( 編 ) :死亡珍断己;:・死産託 I U J,~r- ./ 111 ! I e~iE I U J,':=の -;~iー主力 疾病, 1 1 5 2 与および 死因統計分類の概要・分類表,東京,厚生統計協会, 1 9 7 9 . 8 )厚 生 統 計 協 会 ( 編 ):死亡診断書・出生証明書・死産証明書 記入マニュアル,東京,厚 生統計協会, 1 9 9 5 . 9 )病 院 医 療 評 価 研 究 会 編 ( 代 表 : 大 道 久 ):疾患別在院日数データプック.医学書院, 1 9 8 9 . 1 0 )厚 生 統 計 協 会 : 国 民 衛 生 の 動 向 , 厚 生 の 指 標 4 1( 9 ), 4 7 6, 1 9 9 4 . 7( 9 ), 1 9 3, 2 0 0 0 . 1 1 )厚 生 統 計 協 会 : 国 民 衛 生 の 動 向 , 厚 生 の 指 標 4 1 2 )谷 口 和 夫 , 門 野 敬 三 , 中 村 博,他:地域基幹病院における平均在院日数の検討,川崎 医 療 福 祉 学 会 誌 7( 1 ) , 1 4 5 ‑ 1 5 8, 1 9 9 7 . バ斗企 nべU Ru

348.

言語能力テストにおける学習者の潜在的特性の同定 安間一雄 玉川大学 文学部国際言語文化学科 J d e n t i f i c a t i o no fap a r s i n gs t r a t e g yi nsyntaxt e s t s f o rl e a r n e r so fE n g l i s ha saf o r e i g nlanguage AMMAKazuo Depaパmento fG l o b a lS t u d i e s,TamagawaU n i v e r s i t y 要旨 言語テストにおける 2 値カテゴリーデータの集積から項目の差異的特性をクラス ターとして顕在化させる分析方法(ロジスティック回帰分析・多次元尺度法・等 高線解析)を用い,外国語学習者が能力レベルに応じて異なる構文解析ストラテ ジーを使うことを検証した. キーワード: 言語テスト,差異的特性,ロジスティック回帰分析,多次元尺度法,等高線解析. データマイニング 1 . はじめに 本研究は,外国語学習者がその能力レベルに応じて異なる構文解析ストラテジーを使うことを多変量解析 を組み合わせて検証したものである.ここでは認知能力の制約が文を理解する範囲を限定し文および文脈 の誤ヮた解釈を生むという仮説を立て 局所1 解釈ストラテジー(提示分の一部分しか解釈しなし通)を使用 する傾向の強さを測定することを試みた.被験者(外国語として英語を学ぶ日本人大学生 1153名)に文 法性判断テストを受験させ,その結果に共通の誤容傾向があるかどうかを独立変数である全般的語学能力 テストの得点により判定した. 2 . 背景研究 言語分析能力は外国語学習者に一様で、はなく,全体的言語能力レベルが低い学習者ほど統語規則でなく語 棄の意味内容を手がかりに文を理解する傾向があることがこれまでの研究で明らかになヮている (Upshur & Homburg,1983;Holmes,1987;Absy,1995;VanPatten,1996;Purpura,1998). この傾向は古くは Clark & Clark ( 1 9 7 7 ) によって指摘されたもので,彼らは母語話者が文理解ストラテジーの l っとして FKU ηペU F h υ

349.

「内容語のみに注目しそれらの組み合わせで意味の通る命題がで、きるよう文を解析する」方法を J I Jし〉ると している. 一方 1980~90 年代に盛んになったワーキングメモリー研究では,ワーキングメモリーの処理能力(容量 /処理速度)が第 2言語の読解能力を決定する大きな要因であるという仮説が確かめられつつある ( H a r r i n g t o n& Sa 同r e r,1 9 9 2 ;Miyake&Friedman,1 9 9 9 ;Ikeno,2 0 0 2 ) . さらに最近の研究では,ワー キングメモリーのうち低次の音韻処理部門の重要性が指摘されている.すなわち能力レベルの低い学習者 は音韻記憶の制約を多く受け ( F o w l e r, 1 9 8 1 ; Payne & I ‑ Ioltzman, 1983),談話理解が苦手で、ある (Zwaam& Brown,1 9 9 6 ;Yoshida,2 0 0 3 ) . これらの研究を総合すると,認知能力の制約が第 2言語学習者をしてより広い文脈の構造理解を困難にせ しむることは十分に予想される この研究では異る能力レベルの学習者が質的に異る解析ストラテジーを 用いる傾向があることを定量的に示すことを目標とする. 2 . 研究手順 2 . 1 被験者 外国語として英語を学んだ日本人大学生 1152名(年齢 1 8 ‑ 2 0 歳)を被験者とした.このうち 30%は英語・ 英文学・英語圏文化研究を専門とする学生, 48%はその他の人文科学分野を専門とする学生, 22%は自然 1大学・短大から集められ,後述する言語能力テス 科学分野を専門とする学生であヮた.被験者は国内 2 トによヮて総合的な英語力は適合度の高い正規分布をなしていることがわかっている. 2 . 2 テスト 2 . 2 . 1 Cテスト 総合的な英語能力を測定する標準的なテストとして言語教育分野で認められている ( K l e i n ‑ B r a l e y,1985, 1 9 9 7 )Cテストが与えられた.このテストは 4編の独立した短い文章からなりそれぞれにおいて l語おきに 22ヶ所)になっている.被験者は前後の文脈を読んで正しい綴りで単語を完成 単語の後半が空欄(合計 1 させることが求められる.このテストの素点は正規化され(尺度名 C z ) これが次に述べる文法性判断テ ストに対する独立変数として機能する. 2 . 2 . 2 文法性判断テスト 被験者の構文解析ストラテジーを分析する素材として文法性判断テストを用いた.このテストは 38の項 目からなり,それぞれの項目において lつの文が提示される.被験者はこの文が文法的に正しいと思う場 合はこの文の言い換えもしくは合意となる文を 4つの選択肢の中から選び,この文が文法的に誤りだと思 う場合はこの文のどの部分を訂正すべきかを示した 4つの選択肢の中から正しい訂正を示しているものを 選ぶことが求められる. 【 伊IJ b 2 ] H a l fo ft h ep e o p l ew e r 巴i n v i t e dt ot h ep a r t yd i d n ' tt u r nup 正レいと思う揚合,この文から言えることを選んでください 1.パーティーでは半分の人がひっくり返った. 2 .半分の人しか招待きれなかった. 3 .半分のパーティーは閑散としていた. 4.招待きれた人の半分しか来なかった. 誤りだと思う I 君合,どこを直せば正レい文になるかを選んでください.下線 g s } : 立は訂正あるいは削除すべき 揚所を示レます. 戸 ハhu hd nぺU

350.

う .H a l f Q f l h ep c o p l c¥ ¥ " e r ei n ¥ ' i l e dt ol h ep λ r t yd i d n ' tl l l r nl IP 6 .H a l t 、 ♀ 斗h ι p e o p l巴 町e r ei n ¥ ' i l e dt ol h ep a r t yd i d n ' tt l l r nu p i .H a l to fl h ep e o p l e立立ι i n ¥ ' i t e dt ot h ep ar t ¥ 'd i d n ' tl l l r nl IP ot h ep a r t γ d i d n ' l l l l r nl IP 8 .H a l fo fl h ep e o p l e\\"ere 出血~ t 、 文法性半I J I 析の対象となる提示文には,局所解析ストラテジーを含むさまざまな種類の誤理解に至る構造上 の特色が織り込まれている.前半の言い換え・合意の選択肢苦手には局所解釈ストラテジーを用いた場合に 生ずる解釈を反映した選択肢があり,このストラテジーを用いて解答した結果誤文を正しい文として判断 を選んだ場合,この文意を「正 した場合に期待される反応が得られたとみなす.例えばと記例文で解釈4 しく」解釈した上で最初の定型動詞 wereを無視し後半の動詞 d i d n ' tt u r nUpのみに注目したと考えられ る.これが期待反応であり 「正ししり文法判断である選択肢 7を含むぞれ以外の反応と対比される. 2,3 分析手順 2 . 3 . 1 項目間の親和性 まずぞれぞれの項目について,能力尺度 Czから期待反応の出現確率をロジスティック[iJ l 帰分析で求め る.例えば項目 a 5の場合,すべての選択肢の出現確率は図 1のようになるが,期待反応 ( v ) とそれ以外 x ) とに 2 分すると図 2のようになる. の反応 ( 1 .00 1 .00 五 0.75 0.75 ヨ0.50 ヨ0.50 0.25 0.25 1 1 0.00 0.00 3 3 仁z 仁z 図 1 項目 a5 における還択肢 1~8 の出現確率.この場 図 2 項目 a 5における期待反応とそれ以外の反応の出現 合選択肢 1が期待反応,選択肢 6 cは正解を示す.槙砲 確率. は能力尺度 Czで.正規得点 ( zスコア)で示しである. 同様に項目 h 3の期待反応 ( v )とそれ以外の反応の出現確率 ( x )は図 3のようになり, a 5と h3の合計4 種 類の反応の組み合わせの出現確率は図 4のようになる. 1 .00 1 .00 0.75 0.75 n U n u 5 m工1 山 市 ~O.SO 0.25 0.25 0.00 0.00 C[vxJ A[vvJ 仁z 仁z 図 3 項目 h 3における期待反応とそれ以外の反応の出現確率. 図4 項目 a 5と h3の組み合わせ反応の出現確率. F h υ υ ηペ 庁 ‑

351.

これら 4種類の反応の組み合わせの出現確率を擬似的に出現頻度と見なすと分割表分析により 2 項目 a 5・ h3 の独立性が検証できる.図 5~7 はぞれぞれ能力尺度がー 1.0 , 0 . 0,+1 . 0の時の 4 種類の反応の出現確率 の分布である. 悶悶 旧日MU ‑ M ! a 5 a S 図5 :能力尺度 C z= ー 1 .0のときの項目 図 6 能力尺度 C z= 0 . 0のときの項目 図 7 能力尺度 C z= +1 .0のときの項目 a5と h3の期待反応 vの出現確率 a5と h3の期待反応 vの出現確率 a5と h3の期待反応 vの出現確率. ~S この 2項目の組み合わせの場合,能力尺度が低くなるほど 2項目の独立性が低くなる.すなわちそれそーれ の期待反応同土の関連性が高くなることがわかる.この関連性は「親和性」として φ係数で表わされる. αd‑b c 、 ! ( α +b ) ( c+d ) (α+c)(b+d) c p = 一式 1 ここで σ,b,c ,dはそれぞれ a 5=vかっ h3=V, a5=xかっ h3=V, a5=V かつ h3=X, a5=X か っ h3= X の4つの反応の組み合わせに対応し,それぞれ組み合わせ反応の出現確率 eX p ( s O i+shX) Pi=~ 叫(ßOI+ßI ス)+叫 (ß02 +ßI~)+L +叫(丸一 +戸川 X) 1 1 式 2 ( i=1 ,2,3 ) をもってその値とする.ここでかJ と s l iはそれぞれロジスティック回帰分析により得られた切片と勾配 の{直である. このようにして任意の 2項目聞の親和性が能力尺度の連続関数として求められる.これをすべての 2項目 の組み合わせに対して繰り返すことで,すべての項目聞の親和性のマトリックスができる. 2 . 3 . 2 項目のクラスター 項目聞の親和性を類似度と考えれば多次元尺度法(この分析のみ SPSSを使用した)により項目のクラス ターを得ることが可能で、ある.ただ LqJ値はそのままでは距離尺度として不適切なので,次の式で変換し た SDist= I 1exp(20X q J ) …・式 3 ここで定数 20は2次元ユークリッド空間でストレスが最小になるように設定した. 項目のクラスター形成度は能力尺度 Czの関数として連続的に求められるべきであるが, これは極めて煩 2 . 0, ー 1 .5,••• +2.0の9段階について計算を行った. 雑になるためここでは Cz=‑ ζυ ぺU n ︒ 口

352.
[beta]
しかしながら,多次元尺度法による項目の布置表現には 2つの問題点があった.まず¥項目聞の見かけ上
の距離がかならずしも数学的距離を表しているとは限らない.次にデータの僅かな値の変化が軸の正負を
含む大きな布置の変化につながるのでクラスターの述統的変化を観察する方法としては適さない.そこで
項目の位置を一定に保った上で項目間の関連の強さを項目自体に表現させる等高線解析を用いることにし
J‑

J
ι
.

2
.
3
.
3 項目内在の親和性
項目聞の親和性をもとに,それぞれの項目に内在する,周辺の項目を引き寄せるカ(親和性)を次の式で
一次変換した.ただし,すべての能力尺度に亙って連続的に変換できないため

上記9段階のそれそやれに

ついて項目間親和性が一定基準以上ある相手項目の数を求めた.項目問親和性が弱くなるほど末尾の係数
が小さくなっているのはその重要性を過大評価しないためである.
L
i山 Score=
{O.15<ψ を満たす項目対の数}

+{0.10<ψ<0.15を満たす項目対の数}X 0
.
5
+{0.05<ψ<0.10を満たす項目対の数}X 0.25

この値を等高線解析の高さパラメーターとして利用することで

式4

項目のクラスター形成度がより明確に確

認できる.等高線解析も上記9能力尺度段階に対して行われた.

2
.
3.
4 差異的個人特性
特徴的クラスターを成す項目に内在する続和性は差異的項目特性とみなされる.一方,学習者個人の診断
用途にはむしろ個人の差異的特性を測定したもの(便宜的に DPPと称する)が有益である.ある項目に対
して,期待反応があった場合にその項目における被験者の能力に対応する項目内親和性尺度を求め,これ
をすべての項目にわたって合計したものが個人の差異的特性である.

DPP=

2
(
X,'Li core;.c,)

.
.
.
式5

耐

個人の任意の能力尺度に対して項目内親和性尺度が求められるように 9段階のデータをもとに 3次曲線に
よる回帰推定を行った.図 8 は項目 h3について回帰を行った結果である.
30
25

ω;
:
:20
4
凶、
C
J1
5
‑'

10
5
‑3

2

1

。
Cz

図 8 項目 h3について能力尺度 C
z (横軸)から項目肉親和性を連続的に求めるための回帰.

inkScore= 1
5
.
5
3
7
8
7
9‑8
.1
‑
1
89
8
9
9Cz+0らH939
‑
lC
z^2+0
.
5
5
0
5
0
5
1Cz八3
回帰式は L

υ

円川

u
に
n︿U

353.

3 . 結果 3 . 1 項目のクラスター 多次元尺度法による分析のうち,能力尺度が C zニ ー 0 . 5のときに項目が重複なく最もよく見えた.この ときの布置を岡定し,これに項目内在の親和性尺度を加えて等高線解析を行った. 3 . 2 項目内在の親和性 図 9~11 は 9段階の能力尺度のうち Cz = ‑ 1 .5 .0 . 0 .+1 .5のときの等高線解析の結果である.能力尺度が低 zく・0 . 5のときに中心部分に強いクラスターが観察された. いとき,特に C 'η ‑0 , 明 ‑" b 図 9:能力尺度 Cz= ー 1 .5のときの項目問親耳目性.項目の 図1 0:能力尺度 Cz= 0 . 0のときの項目悶親和性.項目の 布置は Cz= ー 0.5のときの多次元尺度法による. 布置は Cz= 白0.5のときの多次元尺度法による. ' " 附 句 . , 図1 1 能力尺度 Cz= +1 .5のときの項目間親和性.項目の 布芭は Cz= ‑ 0 . 5のときの多次元尺度法による. このクラスターの構成項目の内容を吟味した結果,クラスターの中心{こ近い項目ほど文を局所的に解釈す る傾向を表していることが明らかになった.代表的な次の 3文ではイタリック部分が局所解釈の対象箇所 を示している. ‑360一

354.

a 5 りT h eDe panmento fF o r e i g nL a n g u a g e sa;ぞ 斤o l ! oじa l e di nl h en e wb u i l d i n g h 3 明When1I a s ts a w) a n e t, s h eh u r r i e dl oh 巴r n 巴x lc l a s so nt h eo t h e r ・s i d e0' 1t h ec a m p u s . e nt h em a g i c i a na p p e a r e d .s i l lc a m ed o w n s t a i r s10s e eI h eI/la g i c i a n g 7 ヲWh a 5では F o r e i g nL a n g u a g e sの部分だけを見て直後の a r en o tl o c a t e dと正しく呼応していると判断したも h ed e p a r t m e n tが名詞句の核になるため i sn o tl o c a t e dにしなければならな のと思われる(正しくは t ' . ' ) .h3 では前半の従属節を無視した結果,後半の主節のみには誤りはないと考えた(正しくは s h e wash u r r y i n gとすべき) .g7でも同様に文の後半のみに注目したため代名詞化 ( t os e eh i m / h e rとすべ き)が生じなかった.同様の局所解釈の傾向は他の多くの項目にも見受けられた 局所解釈ストラテジーが問題項目を識別する要因であることを確かめるために,全 38 項目の刺激文を局 所解釈を許容するか許容しないかで 2併に分け,項目内親和性尺度の平均値に差があるかどうかを調べた ) .能力尺度が Cz壬ー 0 . 5および1.5~ Czのときに 2群聞に優位な差があることがわかる. ( 表1 表 1 局所解釈許容群 ( a c c e s s i b l e ) と非許容群(in a c c e s s i b l e )悶の項目内親和性尺度の平均値の差. L o c a lp a r s i n g (z= 日l c a n a c c e s s i b l e 日l c a n i n a c c e s s i b l e 王 王 一2 一 1 .5 1 5 . 7 6 . 39 1 4 1 2 . 0 6 一0.5 0 ' 0 . 5 1 0 . 2 0 8 . 1 1 7 . 5 1 7 . 0 8 1 .5 2 7. 33 7 . 8 3 8 . 7 9 8 .07 6 . 7 2 ' 6 . 6 0 7 . 0 4 8A9 9 . 6 3 11 .62 1 3 . 4 斗 3 . 3 7 3 3 . 2 8 5 3 . 1 3 8 2 . 5 2 6 0 . 8 9 6 ‑ 0 . 8 0 6 ‑ 2 . 0 1 8 ‑ 3 . 3 3 6 ‑ 4 . 1 2 9 0.0019 0 . 0 0 2 5 0 . 0 0 3 9 . 0 . 0 1 7 2 ' 0. 3763 0. 4257 0 . 0 5 1 4 ' 0.0022 0 . 0 0 0 3 能力尺度が高い場合には局所解釈を許容しない項目ほど項目内親和性が高い. これは代表的な次の 3文で 見るように,文中の一部分だけを取り出しでも文法的な文にならないことから,能力が高い学習者は統語 的非文法性に反応してこれらを共通に正しく誤りだと指摘していると考えられる. b l り1t h i n kt h a tg a r d e n i n gi swぉ ht h ehumanh e a n e 4引 s h o w e dt h ei I t t l巴凶y showt oj u m p i n g a t h e r i n en o tcom巴 h 巴r 巴a n y m o r e .b e c a u s eh e rm o t h巴ri si li nb e d . g l りC 3 . 3 差異的個人特性 全被験者・全項目についての能力尺度に対応する差異的個人特性値の分布(図 1 2) と比べ,項目内在親 和性クラスターの中心部分の項目群だけに限定したときの差異的個人特性値の分布(図 1 3 ) は際立つた 特徴を示している.すなわち,能力尺度が低い学習者ほど局所解釈ストラテジーを働かせていることがわ かる.ただい現時点では差異的制人特定的の定義が限定的であるので,診断に利用するためにはより一 般化することを検討しなければならない. nhu ηべU 1i

355.
[beta]
400

、
.
.

・

604

一
一
司
﹂

ω OU日4コ
c

nununu
nununU

321

1
S
O"
j

>
.
.
ω
λ
"
.
.

‑
.j

~

己30‑
:
j
‑
'
"

,

‑ ・
、
・、
,

4

"
,
・
・
、
ぐh
. ¥1
2 │
・
、4
ミ
弘 、、,'~- ,
I

~一、町

ヨ叶 でつでで7示.~-;;;;:--忘ミと;二・

。

,・

~

10寸

ー2

‑1

仁z

0

.
.
.
.
.
.
.
.
i
.
̲
.
.
̲
̲
ー
ー
ー
・
.
'
・
・

『吐こ~己目:;・

3

2

一

‑2

‑1

0
仁z

2

図1
2 全項目に対する差異的個人特性値の分布.回帰

図1
3:クラスター中心部の 3項目に対する差異的個人特性値

式は L
i
叫
,S
c
o
r
e
=1
1
2
.
6
0
1
8
1+1
5
.
1
5
0
2
2
6Cz

の分布.回帰式は L
i
n
k
S
c
o
r
e=1
8
.
5
5
8
3
7
6‑1
.5
2
6
4
9
5Cz

4, 結論と考察
これまでの結果は次のようにまとめられる, (1)能力尺度の低い学習者ほど局所解釈ストラテジーを用い
る傾向があり,文の一部分のみが一見文法的で、解釈可能な場合にその部分のみを理解しそれ以外の部分は
捨象する, (
2
) 逆に能力尺度の高い学習者ほど局所の解釈可能性にはとらわれず,むしろ統語の異常性に
敏感に反応する傾向がある.
今回の研究で使用した分析技法は,データ全体を見ただけでは知り得ない潜在的現象を明らかにすること
ができた.これは被験者の反応が一様ではなく特定の項目に対して一定の差異的反応傾向を示す現象に対
して有効であるといえる.同じ方法を使って心理テストやアンケート調査などで得られたカテゴリーデー
タから差異的な項目および差異的な被験者を抽出することが可能で、ある.

参考文献
油s
y,
A
.c
̲1
9
9
5 f
h
eu
s
eo
f
i
n
f
e
r
e
n
c
ei
nE
F
Lt
e
x
tc
o
m
p
r
e
h
e
n
s
i
o
n
̲
"T
r
a
b
a
l
b
o
s
e
mL
i
n
g
l
l
i
s
l
i
c
aA
p
l
i
c
a
d
a,
2
6,
ー
う1
6
.
C
.1
9
8
1目
、 omea
s
p
e
c
t
so
fl
a
n
g
u
a
g
ep
e
r
c
e
p
t
i
o
nb
ye
y
et
h
eb
e
g
i
n
n
i
n
gr
ロd
e
rプ l
nO
.j
.L
.T
z
e
n
g&H目
S
i
n
g
e
r(
e
d
sふP
e
r
c
e
t
t
i
o
n
F
o
w
l
e
r,
o
f
P
円n
t
:R
e
a
d
i
n
gR
e
s
e
a
r
c
b的 E
x
t
e
円m
e
n
t
a
lPy
c
b
o
l
o
g
y(
H
i
l
l
s
d
a
l
e
.N
J
.
:l
.
a
l
l
‑
T
e
n
c
eE
r
l
b
a
u
mA
ss
o
c
i
a
t
e
s
),
1
7
1
‑
1
9
6
H
a
r
r
i
n
g
t
o
n,
M
.&M
.S
a
w
y
er
.1
9
9
2
.ロ w
o
r
k
i
n
gmemoryc
a
p
a
c
i
t
yユn
d1
1r
ロd
i
n
gs
k
i
ll
.
"5
t
l
l
d
i
e
si
n5
e
c
o
n
dμn
g
l
l
a
g
eA
c
q
l
l
i
s
i
t
i
o
n,
1
4,
目 げ

,

田

2
5
‑
3
8
H
o
l
m
e
s,V
.M
.1
9
8
7 S
y
n
t
a
c
t
i
cp
a
r
s
i
n
g
:i
n5ロr
c
ho
ft
h
eg
a
r
d
e
np
a出" l
nM
.C
o
l出回目 (
e
dふT
b
eP,
y
c
b
o
l
o
g
yo
fR
e
a
d
i
n
g(
A
t
t
e
n
t
i
o
n
)(
H
o
v
e,S
u
s
s
e
x
:l
.
aw
r
e
n
c
eE
r
l
b
a
u
mA
s
s
o
c
i
a
t
e
s
)
う
,8
7
‑
う9
9
a
n
dP
e
r
f
o
r
m
a
n
c
eX
II
O
.2
0
0
2
."
T
巴x
ts
t
r
u
c
t
u
r
ep
r
e
d
i
c
t
i
o
ni
n1
1r
e
a
d
i
n
ga
n
dw
o
r
k
i
n
gm
e
m
o
r
y
.
"j
A
C
E
TBlIl
l
e
t
i
n,
3
5,
1
0
5
‑
1
1
6
.
I
k
e
n
o,
K
le
i
n
‑
B
r
a
l
e
y,
c
̲1
9
8
5
. Ac
l
o
z
e
‑
u
po
n出eC
‑
t
e
s
L
"u
m
g
l
l
a
g
er
,
凸l
i
n
g,
2
,
7
6
‑
1
0
4
.
阻e
i
n
‑
B
r
a
l
e
y,
c
̲1
9
9
7
.C
‑
t
e
s
t
si
nt
h
ec
o
n
t
e
x
to
fr
e
d
u
c
e
dr
e
d
u
n
d
a
n
c
yt
e
s
t
i
n
g
:a
na
p
p
r
a
i
s
al
.
"umgl凶 !
g
eT
e
s
t
i
n
g,
1
4(
1
)
,4
7‑
8
4
.
~1iyake, A
.& N
.P
.F
r
i
e
d
m
a
n
.1
9
9
9
. I
n
d
i
v
i
d
u
a
ld
i
f
l
e
r
e
n
c
e
si
ns
e
c
o
n
dl
a
n
g
u
a
g
ep
r
o
f
i
c
i
e
n
c
y
:w
o
r
k
i
n
gmemorya
s'
l
a
n
g
u
a
g
ea
p
t
i
t
u
d
eブ
I
nA
.F
.H
e
a
l
y& L
.E
.B
o
u
r
n
e
d(
e
d
s
.
),
F
o
阿
倍nL
an
g
l
l
a
g
eL
即 m
i
n
g
:P
s
y
c
b
o
l
i
n
g
l
l
i
s
l
i
c5
1
u
d
i
e
so
nT
r
a
i
n
i
n
gandR
e
l
e
n
l
i
o
月
(
M
λ
h
w
a
h,阿:l
.
a
w
r
e
n
c
eE
r
l
b
a
u
mA
s
s
o
c
i
a
t
e
s
)
.3
3
9
‑
3
6
4
P
a
y
n
e,M
.C
̲& T
.H
o
lロm
a
n
. 1
9
8
3
. "
A
u
d
i
t
o
r
ys
h
o
n
・t
e
r
mmemorya
n
dd
i
g
i
ts
p
a
n
:n
o
r
m
a
lv
e
r
s
u
sp
∞rr
e
a
d
e
r
s
.
"j
O
l
l
m
a
l0
1
Ed
l
l
w
l
i
o
n
a
lP
'
y
c
b
o
l
o
g
y,
7
5
(
3
),
4
2
4‑
4
3
0
j
.E
.1
9
9
8
. I
n
v
e
s
t
i
g
a
t
時 t
h
ee
l
T
e
c
u0'
1s
t
r
a
t
e
g
yu
s
ea
n
ds
e
c
o
n
dl
a
n
g
u
a
g
et
e
s
tp
e
巾r
m
a
n
c
ewはhh
i
g
h
‑a
n
dl
o
w
‑
a
b
i
l
i
t
yt
e
s
t
P
u
r
p
u
r
a,
l
l
i
n
ga
p
p
r
o
a
c
h
.
"L
an
g
l
l
a
g
eT
e
s
/i
n
g,
1
う(
3
),
3
3
3
‑
3
7
9
t
a
k
e
r
s
:as
t
r
u
c
t
u
r
a
le
q
u
a
t
i
o
nm吋 e
J
.A
.&T
.J
.H
o
m
b
u
r
g
.1
9
8
3
. Somer
e
l
a
t
i
o
n
samongl
a
n
g
u
a
g
et
e
s
t
sa
ts
u
α
e
s
s
i
v
ea
b
i
l
i
t
yl
e
v
e
l
s
.
"I
n
J
.¥
Y
/
.O
l
l
e
r,
J
r
.(
e
d
.
),
:
1
もu
e
s
U
p
s
h
u
r,
an
g
lωg
eT
e
s
t
i
n
gR
e
s
e
a
r
c
b(
R
o
w
l
e
y,
M
a
s
s
a
c
h
u
s
e
t
t
s
:New
七u
r
yH
o
u
s
e
),
1
8
8・2
0
2
i
nL
at
t
e
n,
B
.1
9
9
6
.J
n
t
l
/
t
P
r
o
印 刷n
gandG
r
a
m
m
a
r
J
n
s
t
r
uc/i
o
n
.NewY
o
r
k
:A
bl
e
x
.
V
a
nP
i
i
'
o
r
k
i
n
gmemoryc
a
p
a
c
i
t
ya
n
dt
h
eu
s
eo
f
i
n
f
e
r
e
n
c
ei
n1
1r
e
a
d
i
n
g
プμ
.CETBlIl
l
e
l
i
n,
5
6,
1
‑
1
7
.
Y
o
s
h
i
d
aM
.2
0
0
3
.ヘ
R
.A
.&C
.M
.B
r
o
w
n
.1
9
9
6
."
T
h
ei
n
l
l
u
e
n
c
eo
fl
a
n
g
u
a
g
ep
r
o
l
i
c
i
e
n
c
ya
n
dc
o
m
p
r
e
h
e
n
s
i
o
ns
k
i
l
lo
ns
i
t
u
a
t
i
o
n
‑
m
ω
e
lc
o
n
s
t
r
u
c
t
i
o
n
.
"
Z
w
a
a
n,
D
i
s
c
o
l
l
円e
P
r
o
c
e
s
s
,
凶2
1,
2
8
9
‑
3
2
7
.

、

‑362一

356.

セクハラ感のロジスティック回帰による検討 0田久浩志 1) 岩本晋 2) 1 ) 中部学院大学人間福祉学部健康福祉学科 2 ) 徳山大学福祉情報学部 Theo p i n i o nr e s e a r c ha b o u ts e x u a lh a r a s s m e n tb yl o g i s t i cr e g r e s s i o n TakyuH i r o s h i ChubuGakuinU n i v e r s i t y takyu@chubu‑g.acjp IwamotoSusumu TokuyamaU n i v e r s i t y 要旨 女性の大学生、社会人、看護師が不愉快な思いをした時に、忘れるか、何らかの対処をす るかについて JMP5.11 のロジスティック回帰を用いセクハラに対する認識の定量解析を行った。各種の 質問、回答者属性を用いてモテ、ルを構築し、どのような質問を不用意に質問するとトラブルの原因にな るかの検討を行った。 キーワード: セクシャルハラスメント、女子大生、社会人女性、女性看護師、 JMP はじめに 従来から我々は男女のセクハラに対する意識調査を行い、男女聞の意識差について検討してきた 130 しかし、どのような質問をしたときに、女性が不愉快な思いをしても忘れるのか、あるいは具体的 な行動にでて悪い風評を流すかの確率が高くなるかは明らかで、なかった c 今回、学生、社会人女性、 女性看護師を対象に行った意識調査よりロジスティック回帰により人間関係のリスク評価を行ったの で報告する。 対象と方法 対象は 5 9歳までの女性看護師 5 9 6名と社会人女性 3 4 7人 、2 2歳までの女子学生 449名である。 セクハラを想定する場面として露骨なお誘いの場面でなく、 1 :通常の学校や職場で、の生活で、少し離 :食事の席などで、同席した初対面の人と対応する場面と考えた。 れた間柄の人との対応、もしくは、 2 調査項目として独身既婚、年代などの基本属性、ファッションや化粧に凝るかなど、の生活習慣属 性を用いた。また。セクハラに関する質問項目として 1 1項目の質問を「別に感じない(1点)Jr あまり ‑363‑

357.

不快でない ( 2点)Jr やや不快 ( 3点)Jr 極めて不快 ( 4点)J の 4段階で評価した。女性が不快な思い 1:口をきかない、誘われでも断る、仲間を巻き込み悪い風評を をしたとき、どのような対処法をとるか ( ながす 2 :忘れる)を調べた。統計解析には SAS社の JMPVer5.11を使用した。 表 1 データの内容 【基本属性】 独身既婚(独身:1、既婚:2) 年代 ( 1 8 ‑ 2 2 : 1, 2 3 ‑ 2 5 : 2, 2 6 ‑ 2 9 : 3, 3 0 ‑ 3 9 : 4, 4 0 ‑ 4 9 : 5, 5 0 ‑ 5 9 : 6) 【生活習慣属性】 ファッションにこるか(こらない:1、こる :2) 化粧・髪型にこるか(こらない:1、こる:2) 異性の目を気にするか(気にしない:1、気にする : 2 ) 喫煙の有無(すっている:1、すっていない :2) 過去一年のイッキ飲みの経験(した:1、しない: 2 ) 【セクハラに関する質問】 1 .スリーサイズ、体型などを訊かれるのはどうか 2 .恋人はいるのかと訊かれるのはどうか 3 .年齢を訊かれるのはどうか 4 .飲み会で「つげ」とお酌を強要されるのはどうか 5 .女のクセに…という発言はどうか 6 .髪の毛、肩、腰など体を触られるのはどうか 7 .色っぽい、セクシーと言われるのはどうか 8 .美人、きれいと言われるのはどうか 9 .かわいいと言われるのはどうか 1 0 .必要もないのに個人的な性体験を尋ねられるのはどう か 11.男性が他の女性の身体、服装や性的な関係などを他の人がいるところで話題にするのはどうか (以上 1 1項目は別に感じない:1、あまり不快でない :2、やや不快 :3、極めて不快 :4で評価) 結果と考察 男性の発言に対して女性が不愉快な印象を持ち、口をきかない、誘われでも断る、仲間を巻き込 み悪い風評をながすなどの具体的行動をとるリスクについてモデ、ルを作成し検討した。この場合、各 種の質問項目の評価は順序尺度であるが、仮に連続尺度とみなし JMP5.11 で、ロジスティック回帰分 析を行った。リスクモデルの変数には表 1に示す内容を一度全て投入した後、ステップ。ワイズ法で、変 数減少を行い、その後、再度名義ロジスティックで、モデ、ルを作成した。最終的に得られた調整したオ fこ示す。 ッズ比とその 95%信頼区間を表 2,3,4 表 2‑4では常識的に考えてリスクが高い項目が選出されていた。 3群ともファッション、化粧髪型、 異性の目を気にするなど、の生活習慣属性は有意で、なかった。また、年代幅が 59 歳までと幅広い社 会人女性、女性看護師においては年代も有意でなかった。つまり、女性の外見からはどのような人が、 セクハラと感じて具体的行動にでるか否かは判断で、きないことになる。 一方、有意な質問項目をみると、女子学生と社会人女性では、スリーサイズ 体型が、社会人女性 と看護師ではお酌の強要と他の女性を話題にする、が共通にあるのは興味深い点である。ただし 「他の女性を話題にする」とは、単に話題にするのでなく「男性が他の女性の身体、服装や性的な関 係などを他の人がし、るところで話題にする」としづ行動であることに注意されたい。男性がこのような 質問をすると、大学、職場での人間関係にかなりトラブルが生じると言えるだろう。 表 2‑4に示した項目で女性が不快な思いをした場合に、具体的な行動を起こす確率を、オッズ、 バ斗 A ρhu nぺU

358.

比を元に求めると女子大生で 3 5 . 0倍、社会人女性で 63.5倍、女性看護師で 2 6 . 5倍高くなった 健 C やかなコミュニティーを作るためにはセクハラと受け止められる内容の発言を各人が回避し、より住み やすい環境を作るべきであることを指摘したい。 まとめ 田久らの解析結果 3)では、一般の社会人女性と看護師との問で、不快な思し、をしたときに具体的 行動をとる意見の相違があるかは定かではなかった。しかし今回の解析結果カも、女性が不快に思 って具体的な行動にで、る要素には、女子大生、社会人女性と看護師で共通するものがあるのがわか った。お酌の強要、他の女性の身体、服装や性的な関係などを他の人がし、るところで話題にするな どは、ともすると宴会の席で自にするが、これらの行動は極めて問題があると言えよう。年代、独身既 婚、化粧髪型、フアツ、ンョンなど外見から判断で、きる項目と、女性の具体的行動との聞に有意な関係 は見られなかったことから、男性は妙な先入観はもたずに相手に対応し、表 2‑4に示した項目は人 間関係のトラブルの元と考えて行動することが、セクハラのトラブ、ルがを無くすポイントで、あることを指 摘したい 参考文献 1.大学生のセク、ンヤノレハラスメントに関する意識調査:入山貴弘,渡辺朋恵,田久浩志、第 3田 中 部 学院大学国際シンポジウム, 2002 2 .男女学生聞のセクハラ感の定量調査:田久浩志、第 56回 関 西 SASユーザー会, 2003 3 .看護師のセクシャルハラスメントに対する意識について、第 2 2回 SASユーザー会総会および研究 発表会、 2003 υ ﹁ 内 ρhu ぺU n

359.

表 2 女子学生のモデル ス1 )ーサイズ体型 +s2 ・個人的体験 l o g ( p / ( 1 ‑ p ) )ニ sO+s1・ 項 sO s1(スリーサイズ体型) s2(個人的体験) 推 定 値 標 準 誤 差 力 イ2乗 6 . 6 7 2 . 3 6 0 . 5 8 1 0. 40 0 . 1 6 0 . 7 9 0 . 1 5 オッズ比 95%信頼区間 p f 直 < . 0 0 0 1 6. 49 0 . 0 1 0 9* 2 9 . 0 8 < . 0 0 0 1** . 31 ~ 8 . 3 1 3 . 3 0 1 1 0 . 5 8 4 . 5 4~ 2 5. 42 本: pく0 . 0 5* * : pく0 . 0 1 表 3 社会人女性のモデル ) ) = s0+s1・スリーサイズ体型 +s2・お酌の強要 +s3・他の女性を話題にする l o g ( p / (ト p 推 定 値 標 準 誤 差 力 イ 2乗 p f直 オッズ比 95%信頼区間 項 sO s1(スリーサイズ体型) s2(お酌の強要) 3 . 1 3 0. 47 0 . 1 4 1 4 . 8 5 1 0. 45 0 . 1 5 4 . 6 5 0 . 0 0 1 2** 0 . 0 3 1* . 74 4 . 0 5 1 2 . 5 9 1 . 0 9 9 . 5 1 0 . 3 2 s3(他の女性を話題にする) 0 . 6 0 0 . 2 0 8 . 9 9 0 . 0 0 2 7** 6 . 0 6 1 . 8 8 2 0 . 1 0 0 . 8 1 0 . 0 0 0 1 6 . 1 6 本: pく0 . 0 5* * : pく0 . 0 1 表 4 女性看護師のモデル l o g ( p / ( 1 ‑ p ) )二 sO+s1・お酌の強要 +s2・他の女性を話題にする 項 s0 s1(お酌の強要) s2(他の女性を話題にする) 推 定 値 標 準 誤 差 力 イ2乗 ‑ 2 . 2 6 0 . 7 5 1 6 . 7 8 0. 43 0 . 6 3 p f直 オッズ比 95%信頼区間 < . 0 0 0 1 0 . 1 1 1 3 . 9 4 0 . 0 0 0 2材 3 . 5 8 1 . 8 3~ 6 . 9 9 0 . 2 0 21 .6 6 < . 0 0 0 1林 7. 40 3 . 2 1 ~ 1 7. 43 本: pく0 . 0 5* * : pく0 . 0 1 n4U ρhu ρhu

360.

強磁場作業者の健康状況に関する研究 0蟻俊彦 1)、宮越雄一 1)、鈴木勇司 1)、成瀬昭二 2)、中村義之 3)、清水英佑 1) 東京慈恵会医科大学環境保健医学 1)、京都府立医科大学放射線科 2)、東京工業大学資源研究所 3) A STUDY ABOUT THE HEALTH STATUS OF THE WORKERS IN STRONG MAGNETIC FIELD. 3 u u i c h iMi y a k o s h i , ) lY u j iS u z u k i1),S h o j iN世 u s e2),Y o s h i Y1出 Nakamura , ) T o s h i h i k o A g a t a1),Y H i d e s u k eShimizul ) D e p t .o f E n v i r o n m e n t a lM e d i c i n eandP u b l i cH e a l t h,t h eJ i k e iU n i v . , ) l D e p t . o f R a d i o l o g y , K y o t oP r e f .U n i v .o f M e d i c i n e2l,C h e m i c a lR e s o u r c e sL a b o r a t o r y ,T o k y oI n s t i t u t eo f T e c h n o l o g l ) . 要己 白人への電磁場のリスクを擬すするため、調留す象(強磁場利用者(作業者))を日本磁気共鳴芋会 、 会員とし郵送調査を実施した。 対象者は 3111名で、回答者は 864名であった(調査不能者 35名 回収率 28% 、平成 14年 12末現在)。対象者の性別は、男 705名 (88%)、女 97名 (12%) で 、 : : ! : 7 . 9歳 女 38. 3 : ! : 8 . 2歳であった。また、既婚者は 705名 (83%)、子 平均年齢は男 42. O 供有りは 647名 (77%) であった。子供の性別は男 660名、女 650名と性差が見られなかった。現 在の専門分野は医学系が 718名 (86%)、主として使用する装置は磁場発生装置(含 N M R, MRI)が 798 名 (95%) と最も多かった。主要作業環境で磁場強度は 0‑0. 49Tが 91名 (22%)、 0.5‑1 . 49Tが 127名 (30%)、1. 5T以上が 201名 (48%) であった。作業中の体調変化では、肩こり の増加 140名 (16%)等が見られた。磁場強度とこれら症状の間に関連はみられなかった。 キーワード:電磁場、日本磁気共鳴学会、磁場発生装置、作業環境、体調変化 I.はじめに H 油 組 問o nNらは、スウェーデンにおける超低周波高レベルの電場 ( E L F ‑ 町)に曝露されている労働者に 9 8 5年から 1 9 9 4年の聞に雇用された男性 5 3 7 6 9 2人、女性 1 8 0 5 2 9人のコホート おける癌発生率を調査した。 1 を作成した。それらは最も曝露の低い群を基準として、 E L F ‑ 町で曝露される労働日の平均から 4つの群に分 けられた(Lo w 、M e d i肌 H i曲 、 V e r yh i 出)。癌発生率は、スウェーデン・キャンサー・レジストリーから得 られたものを使用した。結果は、白血病も含め、全癌発生率を比較してみると男性ではどの曝露群も同等で、 女性においてもほぼ似通ったものであった。高曝露群の男性では、腎、下垂体肝・胆道系での腫嬉発生率 ( R e l a t i v er i s k ) の増加がみられた。白血病に関しては差が見られなかった。女性においては、曝露レベル により頭部腫蕩 ( a s t r o c y t ω R ) のリスクが持勃目していた。しかし、白血病に関しては差が見られなかったと 報告している。 W r e n s c h M .らは、脳腫療の疫学に関する知見をまとめている。電磁場に関しては、携帯電話による影響と、 高周波の電磁場の健康に対する影響について報告している。携帯電話に関しては、現在、参照されている多 くの報告は、今日のように携帯電話がデジタル言語重である時代に比べて、アナログ携帯電話カ頓勢であった 時代に行われたものであると述べている。最近の文献は、携帯電話の使用と脳腫療との明らかな関連を認め ていないというが、携帯電話の使用が次第に一喝強守なものになっている今日、この領域の研究を続けていく ことは重要であると結んでいる。また、高周波の電磁場の健康に対する影響をまとめた報告では、その尉主 地が高周波の電磁場で曝露した子供に脳腫揚発症のリスクが増加していることを示したカミ嵐庄の報告では、 3 6 7一

361.

母親の電磁場の曝露と子供における脳腫揚発症のリスクとの聞に関連は認めなかった、と報告している。そ のほかにも、作業環境、生活環境での電磁場、携帯電話の利用と電磁場など、磁場と健康影響に関する報告 は数多くなされているが、一定の傾向は得られていない1)ー18)。 そこで、我々は電磁場が次世代における環境発癌リスクになるかを、磁場曝露作業者健康調査、血液検査、 尿検査、職場環境中の磁場曝露量の評価、職場環境中の磁場強度の測定までの、系統だった疫学調査プロジ ェクトを実施し、磁場の健康影響を明確にする事を目的とした研究を実施している。今回、その一環として、 電磁場の健康影響に関するアンケート調査を実施し、その内容を分析したので報告する。 I I .対象と方法 研究班を組織し、過去の内外の疫学調査の文献を擬すし、質問紙を作成した。質問紙は強磁場利用者(作 ; P H Sの所有、 現在の 業者)とその対照群用を作成した。調面目目は対象プロフィール、自動車の運転、携帯: 専門分野、現在までに使用した装置・搬苦(機種、作業従事歴、作業頻度、磁場強度、使用頻度など)、作業 中の体調変化(肩こり、のどの渇きなど)、長期的体調変化(血圧、飲瀞喫煙量、記銘力の変化など)等であ る。その詳細は表 1,表 3のごとくである。 調留橡の強磁場利用者(作業者)は日本磁気共鳴学会会員とし、郵送調査を実施した。しかし、実際に は会員を対象としているため非利用者も含まれている。即ち、対象者出強磁場利用者(作業者)および、非 1 1 1名である。尚本研究は東京慈恵会医科大学倫理審査委員会の承認を得ている。 利用者で 3 ASv8.2を用いた。統言掃討錠は表 2については、等分散(または#等分散)の場合の t 統 調 噺 に はS 検定を行い、表 4については分散分析を実施した。表 5 ‑ ‑ ‑ 7についてはχ2検定、または F i s h e rの正確検定 を実施した。表 5 ‑ ‑ ‑ 7は上段に実数、 2段目に全体を百としたときの%、 3段目に行方向(横)を百とした ときの%、 4段目には列方向(縦)を百としたときの%が示してある。 I I I .結果 表1.対象者の記述疫学的項目の分布を示す。 0 5名 ( 8 7 . 9 % )、 女 9 7名(12 . 1 % )で、結婚歴では、未婚 1 1 7名(13 . 8 % )、既婚 7 0 5名 性別では、男 7 ( 8 2 . 9 % )、離別 2 5名 ( 2 . 9 % )であり、子供の有無に関しては、なし 2 0 0名 ( 2 3 . 6 % )、あり 6 4 7名 ( 7 6 . 4 % ) であった。 Q1.自動車の運転に関しては、 しない 7 8名 ( 9 . 1 % )、する 7 8 0名 ( 9 0 . 9 % )であった。 Q2.携帯j P H Sについては、持っていない 1 6 2名(18 . 8 % )、 持っている 7 0 0名 ( 81 .2 % )で、撹帯j P H S の種類については、携帯 4 9 4名 ( 81 .4 % )、P H S7 7名(12 . 7 % )、両方 3 5名 ( 5 . 8 % )で、携帯の種類に関 0 0 聞z 3 4 3名 ( 7 5 . 9 % )、 1 .5 G H z1 0 1名 ( 2 2 . 4 % )であった。 しては 8 Q3.現在の主な専門では物理系 3 2名 ( 3 . 8 % )、医学系 7 1 8名 ( 8 5 . 9 % )であった。 Q4.今までに使用した主な装置機器では磁場発生装置(含 N M R, M R I )7 9 8名 ( 9 5 . 0 % )が最も多かった。 Q5.今まて憤用した主な機種は、 NMR8 6名(12 . 0 % )、 M R1 6 0 1名 ( 8 4 . 1 % )などであった。主 6 3名 ( 71 .5 % )、非日常的 2 2 4名 ( 2 8 . 5 % )であり、作業環境での磁場強度は、 な作業の頻度は日常的 5 . 4 9 T9 1名 ( 21 .7 % )、 0 . 5 ‑ ‑1 .4 9 T1 2 7名 ( 3 0 . 3 % )、1.5T一一一 2 0 1名 ( 4 8 . 0 % )であった。ま かーー0 Tーーに 2分すると、 磁場強度 Oは 4 6名(18 . 6 % )、1.5T一一‑ 2 0 1名 ( 81 .4 % ) た、磁場強度を Oと1.5 であった。また、磁場強度を磁場関連機器使用経験無と、1.5 T一一一に 2分すると、磁場関連機器使用経験 1 9名 ( 3 7 . 2 %)、1.5T一一‑ 2 0 1名 ( 6 2 . 8 % )であった。 無しは 1 表 2に対象者の各種作業従事期間を示す。 6 4名について、平均 1 0 0 . 9月 標準偏差 8 7 . 9月であり、総一時間*作業従事 総作業従事期間(月)は 8 H o u ト 冊n t h )は 5 6 6名について、平均 6 却5 . 8( H o u r ‑ m o n t h )、標準偏差 8 5 4 2 . 1 5( H o u ト 冊n t h ) 期間(月) ( で、総一磁場強度*作業従事期間(月)( T ‑ m o n t h )は 4 1 9名について、平均 1 3 6 . 9( T ‑ m o n t h )、標準偏差 2 2 8 . 7 ( T ‑ m o n t h )であった。 表 3に対象者の身体精神的状況を示す。 子年齢とも、磁場強度で差が見ら才l 、低い磁場強度 表 4に磁場強度別各計測値の比較を示す。年齢、第 1 ‑ 3 6 8

362.

の方が年齢が高かった ( p < O . O Ol ) 。 )。 表 5に性と年齢群について示す。性により年齢群に差が見ら払概して男の方が年齢が高い(同.側2 表 6,7に性と磁場強度の関連を示す。 2分した場合は、性により差が見られるが、 3分の場合、性によ る差が見られない。 、 3分)に閑し、表 3の身体精榊ヲ状況との関連をみたカえ有意差のみられる また、この磁場強度(2分 I 買目はなかった。 N.考察 最近の研究で l 士電磁界、電磁場における健康影響があるとする論文と、否定的な論文の双方がみられてい 組 Cより小児白血病にしては超低周波磁界との関連性について限定された根拠があるとされたものもあ る 。 I るが、実験での報告でも否定的な結果カ可号られている。また、成人の白血病や全脳腫蕩を含む大部分のその 他の健康影響については明白な誼弧があると示されず、また健康影響はないとする明確な証拠もないという のカ覗状である。嵐丘、出版された論文は、ほとんどが、症例対照研究、後ろ向きコホート研究など観鰯庁 究であり、明確な研究結果が得られていないのが現状である。 今回の我々の研究も観察研究であり、年齢などに関しては 3群聞に差が見られている。しかし、磁場強度 と、身体精械的状況の関連ではどの項目にも差が見られない。これは、有訴者の頻度が少ないなどにより差 の検出力が低下するなどの問題もあるが、最近磁場装置のシールドが十分行われるようになり、強い磁場発 生装置でも真の曝露量はあまり多くないことも影響すると考えることもできる。ゆえに、今回の研究結果の 評価には、十分慎重な検討が必要であろう。 また、我々も多角的検討を進めている杭全白血病および全脳腫蕩を含む多くの悪性新生物、身体異常と 電磁界曝露との関連性ついては、これまで疫学研究の精度はある程度改善してきで L喝。しかし、曝露詞困 や選択バイアスの存在を克服するため今後の研究では曝露評価や選択バイアスに関して特定の仮説を調査 a n d o m i z e dc o n t r o l l e dを目指した研 するようなデザインを行うことが必要とされる。そして、介入研究、 r 究手法が重要であり、それのメタアナリシスが必要となって来るであろう 1 4 )却)。今後我々も、研究手法をよ り慎重に吟味し研究を進めていく予定である。 文献 1 )H a k a n s s o nN,F l o d e r u sB,G u s t a v s s o nP ,J o h a n s e nC,O l s e nJ H,C a n c e ri n c i d e n ta n dsBgIle t i cf i e l d e x p o s u r ei ni n d u s t r i e su s i n gr e s i s t a n c ew e l d i n gi nS w e d e n .O c c u pE n v i r o nM e d .2 0 0 2J u l ;5 9 ( 7 ) :4 8 1 ‑ 6 . s B g l le t i c 2 )N a v a s ‑ A c i e nAe ta l .I n t e r a c t i v ee f f e c to fc h e m i c a ls u b s t a n c e sa n do c c u o p a t i o n a le l e c t r o 脳 血dm e n i n g i o m a si nS w e d i s h配 n .白n c e rE pi d e m i o lB i o m a r k e r s f i e l de x p o s u r eo nt h er i s ko fg l i o n P r e v .2 0 0 2D e c ;1 1 ( 1 2 ) : 1 6 7 8 ‑ 8 3 . i aF e y c h t i n ge ta . ;O c c u p a t i o n a lM a g n e t i cF i e l dE x p o s u r e組 dN e u r o d e g e n e r a t i v eD i s e a s e . 3 )地r E p i d e m i o l o g y2 0 0 3 ;1 4 : 4 1 3 ‑ 9 . e sTe ta l,R e s i d e n t i a la n do c c u p a t i o n a le x p o s u r et o5 0H zn 聞 l e t i cf i e l d sa n dRlal i g n a n t 4 )吋n m e l a n o m a : ap o p u l a t i o nb a s e ds t u d y .JO c c u pE n v i r o nM e d .2 0 0 3M a y ; 6 0 ( 5 ) : 3 4 3 ‑ 7 . e eT J,B l a c k w e l lR P, E x p o s u r et o附 e rf r e q u e n c ye l e c t r i cf i e l da n dt h er i s ko f 5 )S k i n n e rJ,M c h i l d h o o dc a n c e ri nt h e四. B rJC a n c e r .2 0 0 2N o v1 8 ;8 7 ( 1 1 ) :1 2 5 7 ‑ 6 6 . 曲e i配 rM,P r e s t o n ‑ M a r t i nS , A d u lto n s e ta c u t em y e l o g e n o u sl e u k e m i aa n de l e c t r o s B g l l e t i cf i e l d s 6 )O p p e e l e sC o u n t y :b e d ‑ h e a t i n ga n do c c u p a t i o n a le 却o s u r e s .B i o e l e c t r o s B g l le t i c s .2 0 0 2S e p ;2 3 ( 6 ) : i n1 0 sAng 4 1 1 ‑ 5 . 却o s u r et op o w e rf r e q u e n c ysBgIle t i cf i e l da s s o c i a t e dw i t h 7 )L iC Ye ta l .E l e v a t e dr e s i d e n t i a le g r e a t e ra v e r a g ea g ea td i a g n o s i sf o rp a t i e n t sw it hb r a i nt u m o r s .B i o e l e c t r o s B g l le t i c s .2 0 0 3 A p r ; 2 4 ( 3 ) : 2 1 8 ‑ 2 1 . 8 )K a n g m i nZ h ue ta l .U s eo fE l e c t r i cB e d d i n gD e v i c e sa n dR i s ko fB r 回s t白n c e ri nA f r i c a n ‑ A n 配r i c a n r i c a nJ o u r n a lo fE p i d e m i o l o g y2 0 0 3 ;1 5 8 : 7 9 8 ‑ 8 0 6 . W o m e n .Ame ‑ 3 6 9

363.

9 )吐加c eL a b r e c h ee ta l .O c c u p a t i o n a lE x 凹s u r e st oE x t r e r n e l yL o wF r e q u e n c yM a g n e t i cF i e l d sa n d m e r i c a nJ o u r n a lo fI n d u s t r i a lM e d i c i n e 2 0 0 3 : 4 4 : 6 4 3 ‑ 5 2 . P o s t m e n o p a u s a lB r e a s tC a n c e r .A l .R e s i d e n t i a lM a g n e t i cF i e l dE x 凹s u r ea n dB r e a s tC a n c e rR i s k : AN e s t e d 1 0 )S t e p h a n i eJe ta ul t i e t h n i c白h o r ti nL o sA n g e l e sC o u n t r y, C a l i f o r n i a .A m e r i回 nJ o 凹 ml C a s e ‑ C o n t r a ls t u d yf r o maM o fE p i d e m i o l o g y2 0 0 3 ;1 5 8 : 9 6 9 ‑ 8 0 t .al .E l e c t r o J m g l le t i cF i e l d sa n dB r 田s t白 n c e ro nL o n gI s l a n d:AC a s e ‑ C o n t r o l 1 1 )E . R . S c h o e n f e l de m e r i c a nJ o u r n a lo fE p i d e m i o l o g y2 0 0 3 ;1 5 8 : 4 7 ‑ 5 8 S t u d y .A 脚 r a lf a c i a ln e 円 e t u m o r .l . . a r y 昭o s c o p e . 1 2 )W a r r e nH Ge ta l .C e l l u l a rt e l e p h o n eu s ea n dr i s ko fi n t r a t e n 2 0 0 3A p r ; 1 1 3 ( 4 ) : 6 6 3 ‑ 7 . a u m g 訂d t ‑ E l m sCe ta l .T e s t i c u l a r回 n c e r組 de l e c t r o m a g n e t i cf i e l d s( E M F )i nt h ew o r k p l a c e : 1 3 )B u l a t i o n ‑ b a s e dc a s e ‑ c o n t r o ls t u d yi nG e r n 日lY.白n c e r 白l l s e sC o n t r o l .2 0 0 2 r e s u l t so f a卯p D e c ; 1 3 ( 1 0 ) : 8 9 5 ‑ 9 0 2 e r h a r dB l a a s a a se ta l.;恥s i d e n c eN e r aP o w e rL i n e sa n dt h eR i s ko fB i r t hD e f e c t s . 1 4 )K a r lG E p i d e m i o l o g y2 0 0 3; 1 4 :9 5 ‑ 9 8 組 W i j n g a a r d e n;加 E 却l o r a t o r yI n v e s t i g a t i o no fS u i c i d ea n dO c c u p a t i o n a lE x 卯s u r e .J 1 5 )E d w i nv O c c u pE n v i t o nM e d .2 0 0 3 ; 4 5 : 9 6 ‑ 1 0 1 i r n et r e n d sf o rb r a i n,h e a da n dn e c kt u m o u r s .NZM e d 1 6 )C o o kAe ta l .C e l l u l a rt e l e p h o n eu s e組 dt J .2 0 0 3J u n6 ;1 1 6 ( 1 1 7 5 ) : U 4 5 7 . 1 7 )H o n eP ,E 伽a r d sA,P o s s i b l ea s s o c i a t i o n sb e t w l 巴 巴nE L Fe l e c t r o m a g n e t i cf i e l d s,D N A白血g er e s 卯n s e p r o c e s sa n dc h i l d h o o dl e u k a e m i a .B rJC a n c e r .2 0 0 3J u n1 6 ;8 8 ( 1 2 ) :1 9 3 9 ‑ 4 1 . 1 8 )W r e n s c hMe ta l .E pi d e m i o l o g yo fp r i m a r yb r a i nt u m o r s :c u r r e n tc o n c e p t sa n dr e v i e wo ft h e l i t e r a t u r e .N e u r o ‑ o n c o l . 2 0 0 2O c t ;4 ( 4 ) : 2 7 8 ‑ 9 9 . bl 1 9 )I A R CM o n o g r a p h so nt b eE v a l u a t i o no fC a r c i n o g e n i cR i s k st oH u m a n sV a di a t i o n, P a r t l : S t a t i ca n dE x t r e r n e l yL o w ‑ F r 明u e n c y( E L F )E l e c t r i ca n dM a g n e t i c 8 0 ; N o n ‑ l o n i z i n gR F i e l d s 2 0 )A h hl b o mI Ce ta l;I C N I R PS t 組 d i n gC o m m i t t e eo nE p i d e m i o l o g y . R e v i e wo ft h e e p i d e m i o l o g i cl i t e r a t u r eo nE M Fa n dH e a l t h . E n v i r o nH e a l t hP e r s p e c t2 0 0 1D e c ;1 0 9 S u p p 1 6:9 1 1 ‑ 3 3 ハHU ぺU n ︐ 円

364.

表 1‑1 対象者の記述疫学的項目 1 男女 性 平(共有無 e 川Hリ 再同問手持団けリ p 仇upM 別ロ刀ロD 未既離死 結婚歴 なし あり Q1 自動車の 運転 Q2 携帯 / P H S しない する 持っていない 持っている 累積 度数 1 ' ¥一セント 7 0 5 9 7 8 7 . 9 1 1 2 . 0 9 7 0 5 8 0 2 8 7 . 9 1 1 0 00 0 1 1 7 7 0 5 2 5 3 1 3 . 7 6 8 2 .9 4 2 .9 4 O .3 5 1 1 7 8 2 2 8 4 7 8 5 0 1 3 . 7 6 9 6 . 7 1 9 9 .6 5 1 0 0 . 0 0 2 0 0 6 4 7 2 3 . 6 1 7 6 .3 9 2 0 0 8 4 7 2 3 . 6 1 1 0 0 . 0 0 7 8 7 8 0 9 . 0 9 9 0 . 9 1 7 8 8 5 8 9 . 0 9 1 0 0 . 0 0 1 6 2 7 0 0 1 8 . 7 9 8 1 . 2 1 1 6 2 8 6 2 1 8 . 7 9 1 0 0 . 0 0 4 9 4 5 7 1 5 7 2 6 0 7 .3 8 81 9 4 . 0 7 9 4 .2 3 1 0 0 . 0 0 3 4 3 4 4 4 4 5 2 7 5 .8 8 9 8 . 2 3 1 0 0 . 0 0 P H S 4 9 4 7 7 その他 両方 3 5 8 0 0 M H z 1 . 5 G H z 3 4 3 1 0 1 その他 B Q2 携帯の 内容 ︐ ﹃ 携帯 噌IB Q2 携帯 / P H S の種類 n︿ UCU 1 ¥一セント ︒ハ︾︽ U 戸 U J V h 度数 ・ nノ﹄nU︐ hJV 1 1 o o ‑ ‑ F﹃ 項目 7 5 . 8 8 2 2 . 3 5 1 . 7 7 累積 日一一一一一一一一一一一一一一一一一一一一一ーーーーーー一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一ー一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一 Q3 現在の 主な専門 物理系 化学系 生物系 医学系 その他 3 2 1 3 1 1 7 1 8 6 2 3 .8 3 1 .5 6 1 .3 2 8 5 . 8 9 7 . 4 2 3 2 4 5 5 6 7 7 4 8 3 6 3 . 8 3 5 . 3 8 6 .7 0 9 2 .5 8 1 0 0 . 0 0 n︿U ︐a η ーよ

365.

表 1‑2 対象者の記述疫学的項目 2 項目 度数 I~ 一セント 累積 度数 1¥一セント 累積 04 今までに 使用した 主な装置 質量分析計 電気測定装置(含発電機) 磁場発生装置(含 N M R,M R I ) 加速器 その他 1 3 1 6 7 9 8 3 1 0 1 .5 5 1 .9 0 9 5 . 0 0 0 . 3 6 1 .1 9 1 3 2 9 8 2 7 8 3 0 8 4 0 1 .5 5 3 . 4 5 9 8 . 4 5 9 8 . 8 1 1 0 0 . 0 05 使用した 主な機種 NMR MRI E SR 加速器 質量分析計 その他 8 6 6 0 1 1 6 5 1 2 . 0 3 8 4 . 0 6 2 . 2 4 O .7 0 o14 O .8 4 8 6 6 8 7 7 0 3 7 0 8 7 0 9 7 1 5 1 2 . 0 3 9 6 . 0 8 9 8 .3 2 9 9 . 0 2 9 9 .1 6 1 0 0 . 0 0 6 。 一一一一一一ーー【ー一一一一一一一一ー一ーー一一一一一一一一一一一一ー一一一一一一一一一一一一一一一一一一一一一一一一一一一ー一ーー一一一一一一一一一一一ー一一一一一一ー一一一一一一一一一一一一一一一 05 主な作業の頻度 05 作業環境での 磁場強度(T) 5 6 3 2 2 4 71 .5 4 2 8 . 4 6 5 6 3 7 8 7 7 1 .5 4 1 0 0 . 0 0 9 1 1 2 7 2 0 1 21 .7 2 3 0 . 3 1 4 7 . 9 7 9 1 2 1 8 4 1 9 2 2 17 5 2 . 0 3 1 0 0 . 0 4 6 2 0 1 1 8 . 6 2 .3 8 81 4 6 2 4 7 1 8 . 6 2 1 0 0 . 0 0 1 1 9 2 0 1 3 7 . 1 9 6 2 . 8 1 1 1 9 3 2 0 3 7 . 1 9 1 0 0 . 0 0 日常 非日常 。一一一一 0 . 4 9 O .5 ‑ ‑1 .4 9 1 . 5 ‑ ‑ ‑ ‑ ‑ nυ1l 05 作業環境での 磁場強度 (2分) 使用経験なし Fhd 05. 作業環境での 磁場強度 (2分) 1 .5 一一ー一一 表 2 対象者の各種作業従事機関 総作業従事期間(月) 総一時間*作業従事期間(月), H o u r寸n o n t h 総ー磁場強度*作業従事期間(月), T ‑ m o n t h 例数 平均 標準偏差 8 6 4 5 6 6 4 1 9 1 0 0 . 8 5 7 0 6 0 2 6 3 0 5 .8 3 1 3 6 . 9 4 6 3 9 6 2 8 7 .9 0 2 3 8 7 8 8 5 4 2 .1 5 2 2 8 .7 6 3 2 7 0 0 ‑372‑ 。

366.

表 3ー 1 対象者の身体精神的状況 1 積数 累度 度数 I~ 一セント 累積 1 ' ¥一セント Q 6 肩こり 変わらない 凝りやすい 凝りにくい 7 0 3 1 4 0 1 6 .8 4 81 1 6 . 3 0 1 .8 6 7 0 3 8 4 3 8 5 9 8 1 .8 4 9 8 . 1 4 1 0 0 . 0 0 Q 7 のどの渇きは? 変わらない 渇きやすい 渇きにくい 7 5 7 9 6 6 8 8 .1 3 1 .1 8 1 O .7 0 7 5 7 8 5 3 8 5 9 9 93 0 1 0 0 . 0 0 変わらない(ないも含む) 増えた 8 5 0 9 8 . 9 5 1 .0 5 8 5 0 8 5 9 9 8 .9 5 1 0 0 . 0 0 9 6 . 8 6 1 .9 8 1 . 16 8 3 2 8 4 9 8 5 9 9 6 .8 6 9 8 .8 4 1 0 0 . 0 0 9942 0 . 5 8 8 5 2 8 5 7 9 9 . 4 2 1 0 0 . 0 0 Q8 吐き気は? 9 8 8 . 1 3 川Jt 寸 Q 川町 1111 Q 10 味 覚 は ? 変わらない 変わった 8 5 2 金属様味覚の増加 2 6 6 .6 7 3 3 . 3 3 2 3 6 6 .6 7 1 0 0 . 0 0 8 5 5 5 9 94 2 8 5 5 8 6 0 9942 1 0 0 . 0 0 少ない 8 0 2 4 7 1 0 9 3 .3 6 5 . 4 7 11 6 Q 13 . 皮膚の荒れは? 変わらない(ないも含む) 増えた 8 i 4 4 2 9 5 .0 9 4 . 9 1 8 1 4 8 5 6 9 5 . 0 9 1 0 0 . 0 0 Q 1 4. 頭 痛 は ? 変わらない(ないも含む) 増えた 減った 9 0 . 3 5 9 . 5 3 0 . 1 2 7 7 7 8 5 9 8 6 0 9 98 8 1 0 0 . 0 0 Q 10 味覚変化内容 5 その他 Q 11 嘆覚 i ま? 眠くなるの頻度 Q 17 視覚に異常 nMu Q 16 睡眠不足と関係なく、 不意に眠くなる nノ﹄' Q 16 注意力 i 立つ ︐ 可 ︐ 可 ︐ ︐ 可 Q 15 nudnud 多い 勾 ノ ﹄ 変わらない 0 . 5 8 oonHunxu Q 1 2. 排 尿 頻 度 は ? 変わらない 変わった nU4yFb 変わらない(ないも含む) 増えた 減った tnu Q 9 食欲は? 9 3 . 3 6 9 8 .8 4 1 0 0 . 0 0 9 0 . 3 5 変わらない 集中できる 集中できない 7 8 1 2 6 4 6 91 .5 6 3 . 0 5 5 .3 9 7 8 1 8 0 7 8 5 3 9 1 .5 6 9 4 . 6 1 1 0 0 . 0 0 ない ある 6 1 5 2 3 8 7 2 .1 0 2 7 .9 0 6 1 5 8 5 3 7 2 . 1 0 1 0 0 . 0 0 しばしば たまに これまで 1‑2度ほど 3 5 1 7 6 2 3 1 4 . 9 6 7 5 . 2 1 98 3 3 5 2 1 1 2 3 4 1 4 . 9 6 9 0 . 1 7 1 0 0 . 0 0 ない 7 2 2 1 3 8 8 3 .9 5 1 6 . 0 5 7 2 2 8 6 0 8 3 .9 5 1 0 0 . 0 0 ある q六υ n︿U ワl

367.

表 3‑2 対象者の身体精神的状況 2 ない ある 1 2 . 1 7 2 2 . 6 1 6 5 . 2 2 1 4 4 0 1 1 5 1 2 . 1 7 3 4 .7 8 1 0 0 . 0 7 2 7 1 3 1 8 4 .7 3 1 5 . 2 7 7 2 7 8 5 8 8 4 .7 3 1 0 0 . 0 0 1 4 . 5 2 4 7 . 5 8 3 7 . 9 0 1 8 7 7 1 2 4 1 4 . 5 2 6 2 . 1 0 1 0 0 . 0 4 5 .3 0 1 3 . 6 8 4 1 . 0 3 5 3 6 9 1 1 7 4 5 . 3 0 5 8 .9 7 1 0 0 . 0 2 1 .4 3 2 7 3 0 1 1 2 1 2 6 21 .4 3 2 3 . 8 1 8 8 .8 9 1 0 0 . 0 0 oonud I 11Euau 守 018 聴覚、平衡感覚 3 0 .5 8 8 0 .9 9 1 0 0 . 0 0 ' qftη 〆 ﹄ ﹃ I 01 8 聴覚、平衡感覚に異常 3 7 9 8 1 2 1 a Aマ nhUFhu 体を動かした時に 静止している時に 動きとは無関係に 内 内u h u n k υ Eu‑‑ 凋斗 018 聴覚、平衡感覚 ﹃ しばしば たまに これまで 1‑2度ほど 異常の頻度 体を動かした時に 静止している時に 動きとは無関係に 異常の状況 7'qun4au 守 noei ﹄ ? 018 聴覚、平衡感覚 耳鳴り 幻聴 異常具体例 めまい その他 6 .2 2 7 6 9 8 2 0 9 3 .7 8 1 0 0 . 0 0 変わらない 高くなった 低くなった 7 4 8 1 0 0 7 8 7 . 4 9 1 1 . 7 0 O .8 2 7 4 8 8 4 8 8 5 5 8 7 . 4 9 9 91 8 1 0 0 . 0 8 8 9 2 6 7 4 1 0 . 3 0 1 0 . 7 7 7 8 .9 2 8 8 1 8 0 8 5 4 1 0 . 3 0 2 1 .0 8 1 0 0 . 0 0 はい いいえ 以前は飲んだが今は飲まない 以前から飲まない 1 2 5 5 8 9 2 0 1 2 3 1 4 . 5 9 6 8 .7 3 2 . 3 3 1 4 . 3 5 1 2 5 7 1 4 7 3 4 8 5 7 1 4 . 5 9 8 3 . 3 1 8 5 . 6 5 1 0 0 . 0 はい いいえ 以前は吸ったが今は吸わない 以前から吸わない 5 5 2 5 0 1 2 1 4 3 2 6 . 4 1 2 9 . 1 4 1 4 . 1 0 5 0 . 3 5 5 5 3 0 5 4 2 6 8 5 8 6 . 4 1 3 5 .5 5 4 9 . 6 5 1 0 0 . 0 0 はい いいえ 4 0 1 4 5 3 4 6 .9 6 5 3 . 0 4 4 0 1 8 5 4 4 6 .9 6 1 0 0 . 0 0 1 まい 4 2 2 4 2 5 4 9 . 8 2 5 0 . 1 8 4 2 2 8 4 7 4 9 .8 2 1 0 0 . 0 0 6 5 6 4 9 1 7 1 1 0 2 1 7 6 . 9 1 5 . 7 4 1 .9 9 1 2 . 9 0 2 . 4 6 6 5 6 7 0 5 7 2 2 8 3 2 8 5 3 7 6 . 9 1 8 2 .6 5 8 4 . 6 4 9 7 . 5 4 1 0 0 . 0 0 AE ヵ、ヵ、ったカ、? む 025. 病気をして、医師に EJ 覚え込みにくい? ﹄︻ 0 2 4 新しい事柄を を やすくなってきましたか? 田 山 023 物事を忘れ と 高低正 増えましたか? 。 9 3 . 7 8 ない 圧 圧圧血 血血常 ・ つ+品 ︑圧 来血 元の た っι 2な かあ nu 022. タバコの量が 。 7 6 9 5 1 020‑1 血 圧 は ? 増えましたか? 2 . 3 8 6 5 . 0 8 1 .1 1 1 。 ある 01 9 その他の体調の変化? 021. 酒の量は 累積 1¥一セント 3 0 . 5 8 5 0 . 4 1 1 9 . 0 1 ucunノ ﹄ 01 7 視覚異常の状況 q しばしば たまに これまで 1‑2度ほど 守 ︐ ︐ ・ 1 a qu 017. 視覚異常の頻度 1 ¥一セント 積数 累度 度数 いいえ ない 入院した かなりの期間通院した 時々医師にかかった 何となく体調が悪い 374‑ 。 。

368.

< 0 . 0 0 1 1 7 . 0 0 0 0 0 0 0 1 3 . 9 0 3 6 1 4 5 1 .6 9 7 8 4 1 7 1 8 .7 6 7 7 3 8 5 6 8 . 3 4 7 0 6 6 7 5 7 .5 8 1 1 1 1 8 0 < 0 . 0 0 1 9 0 1 2 4 1 9 9 。 一 一 一 一0 . 4 9 7 2 8 3 1 3 9 ・ h u 4 1 1 F ・ E 合 77 no ー 内J ﹄ n h U F h J V u nHV 内d [15T一一│使用経験│ 合 計 [ ‑ ‑ [無し │ unMU 内u ︽a n‑‑ 内u ︽e llFhu 内︽ ︾ 表 6 性 と 磁 場 強 度 (2分) ‑‑Enun ヨ ↑ ' 一 一 ‑ nvququ ︽' E'nJι F h J V 内u nhunJιFhu h J V F h u nH F nhunhunMUFhu nJιnJιnHvnHV ﹄ 内U ︽ 守 ''nMU η J 1‑nuqdanマ FhuaAV117' RuquEU F h d 噌38 仏 C p = 0 . 0 0 0 2 ) 7 9 7 1 0 0 .0 0 2 2 2 .7 6 il+1ilili‑‑ + 一 一 一 + 一 一 一 一 一 一 一 一 + 一 一 inocu‑‑ 司 T l q d A7qL ︐ 111100 4llnι ﹄ 11RU Fhu‑‑ η J ' n k U ︐ 守 ︒︒︐ 7'nkuFhuno nHHVFhUFhU 内U ︽ 内 内 quo ι 4U 4unuJv a nマ 守jFhdFhd 崎 守d1iaAV FhJvnhunxu 斗つ d 1 1 EJVA 1 男 n M ︾ハ H n R M u ハU ‑ unMU 内︿ 守 ' ' F h J V 内 ι J nu nu + n J ι ‑ ︐ + nMunkunJιnι 一 FhdFhv 守 ''nhunhu ‑nuan﹃ ‑41﹄ q J ι 噌l ﹃/ ‑ n h U qu ηt 一 句 + 一︑ n u J V n k u F h J V 一 quanマ つι︐ nuquQU ‑ n o k u ﹃ l nHUnkuFhu ‑ q d l a 守 t''Ea ‑ n h U 女 一一奮闘 一 '+1 一ムロ C p = 0 . 0 4 6 1 ) ︐︐ ︐ n x u 宅tsnHHvnud ︐ιFhunHHW守︐︐ n t ' 守d 1 a 一一一一一一一一ー一ーー+一一一一一一一一+‑‑‑‑‑‑‑‑+ 一 一 n ヨ nu‑‑Ru nu‑‑aqd 守 jqu Fhu‑ ‑n ι nιnhU ‑nMU ll+1111111l 一 一 一 ‑nuelan 守 1141Qω 一 一 anマ anマ 0000 内 J V 4 内U nHV‑nkuFhJV U F h J V 一 ︾ ︐ ll+111lil‑‑ 一 一 /η411 uan句 ﹃ u 内d 一一守 ''nhU 守 ''Fhu ︽ U 内 J v n H ‑nHHvnι 内U nι a n守 一 一守 一内︽ ‑‑+Illlfill‑ 一一 UFhuanマ n h u 一一内︽ nu 一 守 /ηtnHωηt qu 一 ηt ‑ a n マ ooanマ ‑qdquno ︾一 一 一一 一 一 ‑‑+Ililia‑‑tl nH n J ι 一守 ‑qu +一 一ー一一一一+‑‑‑‑‑‑‑‑+ 一 一 一 一 一 一 一 一 ー +‑‑‑‑‑‑‑‑+ 一一一一一一+ 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 +‑‑‑‑‑‑‑‑+ 8 9 1 .1 7 1 3 2 3 4 0 .5 3 3 2 4 4 0 .6 5 3 9 4 .8 9 合計 8 . 2 1 6 9 2 8 6 9 8 . 6 0 9 5 7 1 8 9 7 . 2 6 7 3 5 3 6 2 0 ‑ ‑ 一0 . 4 9 0 . 5 ‑ ‑ 1 . 4 9 1 . 5一一一一 1 .5 ‑ ‑ ‑ ‑ ‑ ー+一一一一一一ーー+ + 4 5 . 6 3 1 9 4 4 4 41 .9 8 9 9 1 9 4 4 0 .5 9 8 4 0 8 7 平均 O .5 一 一 1 .4 9 +ll11111l 一男 女 p値 N 第 1子 年 齢 一 一 一 一 一 一 標準偏差 磁場強度 年齢 磁 場 強 度 別 各 計 浪) 1 値の比較 表4 表 5 性 と 年 齢 群 (1 0歳) nペU η f a z u

369.

n h u v ﹃I' qunノ﹄ 司u ‑ 1︐ ﹃ nK a引守 n H υ νFhd 内︽ ‑内 n w v 内屯M a斗 ﹃l n o n u nノ﹄ 1lnυ 1111+ unuv ﹁内 4u‑ n H V 1 寸 t 寸 anudFhu‑7' FhU41' 一 aμ ・ ‑11 ・ nudqunORu‑ququ RUT‑no‑nOFb ﹄ ? Illilia‑‑+ 内屯 unhut qL4i ︻内 d 一 ‑ ︐ ︐ 一 sa‑ n u v 内u ︽n uυ 内u nxUFhd ︽ nノ ﹄ 一 1lquFhunU 一 句 l F D i‑‑ttill‑‑4+ ノ﹄ 1l ( p = O . 1 8 5l ) FhdnHυnxυ4EE 1 nuvr町 一 waμ 寸 aμ 寸 aμ 寸 n k V Il‑‑ F h d r町 一 wnkv u d nuvnノ﹄ nノ﹄ n ﹃ ‑︐ ‑ 守︐︐守 100 ηノ ﹄ 内 屯unkV Il‑‑ 1l 瓜ι ‑E‑n 斗 寸 ︒ ︒ 一 ﹃ n L n u d q u ‑ a u守 ηL l ︾ nハ n ハリ︾曹 n/﹄ 内 屯ν‑nKυ. ll+ 女一 ‑ f 十E ロ ‑zz‑ 一ムロ ‑376‑ 寸 /nunL7' nHunudnhu ︐ ﹃ nuvnノ ﹄ 司E a nノ﹄ nノ﹄ n u J V Ill‑ 男 ーーーー一一+ーーーーーー一一+一一ーーーー一一+一一一一ーーーー+ ー ー ー 一 一 + + ー ー ー + ー ー ー + ー ー ー ー ー 一 一 一 ー ー ー ー ー ー 1 0 ‑ ‑ ‑ 0 . 4 9 1 0 . 5 ‑ 1 . 4 9 1 1 . 5 一一! 合計 1 1 1 1 表 7 性と磁場強度(丁、 3段階)

370.

購買行動に基づく潜在的な顧客セグメントの同定と時間軸上の推移分析 ‑POSデータの活用モデル O棲井尚子事 奪東京情報大学・総合情報学部 渡辺美智子梓 山口和範問 幹東洋大学・経済学部 目立教大学・社会学部 S p e c i f i c a t i o no fL a t e n tCustomerSegmen旬 t i o nbasedonPurchasing Pa 仕e rnandTimeS e r i e sAnalysis・Modelsf o rPOSData・ NaokoSakurai. MichikoWatanabe 帥 合 TokyoU n i v e r s i t yo fI n f o r m a t i o nSciences 要旨 帥 KazunoriYamaguchi 由 ToyoU n i v e r s i t y 同 RikkyoU n i v e r s i t y POS データの普及に伴い,個々の顧客は購買行動パターンに関して複数個の異 質なセグメントに分類できることを前提とした「ターゲ、ツト・マーケティングマ」が本格化 し,そのセグメントを如何に購買特性の視点で同定できるかが戦略的マーケティン グ施策上の重要ポイントとなってきている c 本稿では,制約付き潜在クラスモデル を導入して商品プロタ守クトに関する購入プロファイルデータから,顧客の購買行動 に基づく潜在的顧客セグメントを同定する方法を提唱する c 提唱するモデ、ルで、は, POS情報に含まれる購買時点をモデ、ルに組み込むことで,同定された潜在セグメ ントの時点推移を通しての変化の様子が明らかになる。 キーワード: 制約付き潜在クラスモデル,顧害購買行動,時間軸推移.POSデータ 1 .はじめに 人々の生活の中に浸透したコンヒ。ュータネットワークは,してつもの場面で現実的な変 化をもたらしつつある c 流通業界も例外ではなく,本研究で取上げる POSデータ ( P o i n to f S a ! e s )は業界情報化の代表的存在であり,今日のマーケティング、、分野に大きな変革の波 を引起す原因となった スキャナーデータとの別称を持つ POSデータは,今やどこの小売 O 屈でも見かける情報収集装置に蓄積されるものであり,特に全国規模で販売!古網を展開 しているコンビニエンスストアでは,売り上げの商品情報の他に時刻1.曜日,性別,推定 1 年代などを同時に入力していることが多い。このように時々刻々と蓄積されるデータに対 しては,複数の角度からデータ分析を行うことができる c 一つは在庫管理的な視点で、あり, 天気や外部イベントなどとの関連分析が有効で、ある。また,需要予測的視点では自己回 帰モデル等が利用されている。本研究では,消費者の購買行動に基づく消費者セグメン a z a r s f e ! d叩 dHenry( 19 6 8 ) によって提唱され テーションの観点からのモデル化を考え, L nぺU ワ ー ワI

371.

た「潜在クラスモデ、/レ」を用いて POSデータの分析を行った例を紹介する。 2 .潜在クラスモデル 2 . 1 潜在クラス分析 潜在クラスモデルでは母集団は異質集団の混合であるとの前提を置いているため,マ ーケティング、におけるセグメンテーションのためのツールとして従来から活用されてきた (Wede! and Kamakura 1 9 9 8 )。潜在クラス分析では,各観測個体をしてつかのクラスに分 類する。このクラスはクラスター分析におけるクラスターに類似しているが,距離を指定し ての分類ではなく,クラス内では観測変数が互いに独立になるように分類を行なうもので ある。クラス内で独立であることを局所独立の仮定と呼ぶ。つまり,観測されていない新た な変数を導入することで,観測された変数聞の関係を説明することになる。潜在クラス分 析を質的変数における因子分析と考えることも多い。潜在クラス分析では,各観測個体が いずれかのクラスに明確に所属するような分け方をするのではなく,重みを持たせた状態 で分類する c いわばファジークラスタリング と称すべき分類方法で、ある。大規模データを少 数のクラスに分類する場合,どのクラスに所属すべきなのかが明らかでないデータが存在 する確率は高くなる。その意味合し、からも潜在クラス分析は,現実の現象に関してより説 明力をもった頑強なツールの一つで、あるといえる。 2 . 2 潜在クラスモデル 前述のとおり,潜在クラス分析においては局所独立の仮定を敷くため,クラス内での変 数は個別に解釈できる。独立であるから変数ごとにその分布を見ることで全体の情報を 網羅することになる。この点が潜在クラス分析の大きな強みである。潜在クラス分析の対 象になるデータはカテゴリデータなので,分析の結果は各カテゴリへの反応確率とし、う形 で表される。同時にクラス分けに対する各クラスの大きさも確率で示される。表 1に潜在ク ラス分析で想定される推定結果出力を示すc 表 1 想定出力結果の形式 2 C サイズ X1 SI S2 Sc P l l P 2 1 Pc 1 X2 P12 P22 Pc 2 Xp Plp P2p Pu Pc p ぺU n ηl nD

372.

表に従い,潜在クラスモデ ルを確率モデ、ルとして表現する。 Pcjがクラス cで項目 jに正 応答する確率であるとすると, Pr(X =XfI Y=c )=pc / j ( 1 ‑P c ; ) X j f と表現できる。ここで, Yはクラスをあらわす確率変数で,観測されない変数である。めは 0または lの値をとる。一方,クラス内では局所独立の仮定から,同時確率は以下のように 書くことができる。 Pr(X1=xI, " ' , Xp 二 Xp I Y=c )=T IPc/(1‑Pc)t j j クラス数が Cであれば,上記確率モデ ルの C個の混合モデ ルで、あると考えることがで、きる。 したがって潜在クラスモデ、ルの確率モデ.ルは j 1 T Ip/( ) Pr(X1 二 九 ‑‑vXp二Xp ) =Ipr(Y=c と表せる。実際の分析時にはモデ、ルの尤度が最大になるようにパラメータをデータから決 める必要がある。 2 . 3 クラス数の決め方 主成分分析における主成分数の決め方が大変重要であるのと同様に,潜在クラス分析 においてもクラス数の決定は大切である c クラス数が増えるほど局所独立の状態には近 づくが,同時にそれはモデ、/レの複雑化を招き,推定の際に困難を生ずる。加えて,実際 的な解釈に支障をきたす。クラス数は解釈上もっとも有効な形で、の最小数をこころがける ことが肝要である。クラス数を決める際に採用する指標の一つに情報量規準がある 情報 G やB ICがあり,解釈上有効なクラス数すべてのケースでこれらの規準値 量規準には AIC を求める。理想的には得られた規準値がもっともノトさくなるところのクラス数を採用するの がよいが,実際には現実的な解釈を考えた上で決定することになる。以下にそれぞれの 計算式を示す。 AIC=‑2X対数尤度 +2Xパラメータ数 o g ( N )Xノ汚メータ数 BIC=‑2X対 数 尤 度 +l N はサンプルサイズ 3 .分析事例 本稿の分析事例として某コンビニエンスストアの POSデータ分析のケースを紹介する。 オリジナルの POSデータは購入商品名を中心に 1レコードが作成されており, 1人の客が ηU υ ヴt 同 ハ べ

373.

3種類の商品を購入したときには 3レコードが同時刻の記録とともに作成されるとし、うもの である。加えて POS データには,商品名・メーカー名・]AN コード等購入された商品情報 の他に購入者に関する情報や日付・時刻等がインプットされる。今回の分析に使用した P OSデータは,ビールを購入した客に限定されたもので、ある。データ採取対象の客は,ビ ールの他に以下に示すカテゴ リ商品を同時購買しており,その購買パターンがすべて記 録されている。 ヒ。ール以外の 8カテゴリ名: アルコール,ソフトドリンク,菓子,食品,乳飲料,乳製品,弁当・パン,その他 948人の購買状況を記したデータで 分析対象データは 2002年 6月のものであり,のべ 7, ある。表 2に分析対象データの一部を,表 3にこのデータに対する潜在クラス分析結果を . 3節に示した情報量規準値より 4クラスモデ、/レを採用した。 示す。クラス数については, 2 表 2 分析対象データの一部 ソフトドリンク 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 アルコール 。 。 。 。 。 。 。 。 。 。 菓子 。 。 。 。 。 。 。 。 。 食品 。 。 。 。 。 。 。 。 乳飲料 。 パン その他 。 弁当・。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 乳製品 1 表 3 潜在クラス分析結果 c l a s s1 c l a s s2 c l a s s3 c l a s s4 c l a s ss i z e 4 7 . 3 首 2 9 . 8 % 1 8 . 1首 4 . 9首 アルコールドリンク ソフトドリンク 0 . 1 5 0 . 1 7 0 . 1 7 42 0. 0 . 1 1 0 . 1 6 0 . 3 6 44 0. 菓子 0 . 1 1 0 . 1 4 0 . 2 9 0 . 8 2 食品 0 . 0 7 0 . 2 5 44 0. 0 . 0 3 乳飲料 0 . 0 2 0 . 0 1 0 . 2 3 0 . 1 1 乳製品 0 . 0 1 0 . 0 2 0 . 1 1 0 . 0 9 弁当・パン その他 0 . 0 9 0 . 1 3 0. 44 0 . 1 9 0 . 0 6 0 . 9 1 0 . 7 8 0 . 6 6 3 8 0

374.

これらの分析結果より, 4つのクラスの特徴をまとめてみる 0 ・クラス 1:ビールの購買がメインの顧客群 ・クラス 2 :ピールの他にその他に類別された商品をよく購入する顧客群 ・クラス 3 :ビールの他に特に弁当・パンの購入比率が顕著な顧客群 ・クラス 4 :ビールの他にその他のアルコール類,ドリンク類の購入比率が顕著な顧客群 潜在クラス分析は前述のとおり,ファジーなクラスタリングrで、あるため,一人一人の顧客が 各クラスに属する可能性を示す指標を提示することができる。これを事後確率と称し,ベイ ズ、の定理を使って計算で、きる。ここでは詳細な計算式等の説明は省略する。 4 .拡張モデル POSデータは時刻情報を含むため,一時点で、の分析モデルよりも時系列的要素を加味 したモデ、ルを考案する方が自然である。この方針で、考案した想定モデ、/レを図 1に示す。 t=T 「一一ーー一̲.一一一一一一一一一一一一一一一一一一一一一一一一ー一一一一一一一一ー一一一ー一一 ーーーーーーーーーーーーーーーー、 ι 1 内 4 = f 2 SlZ巳 IV l l ̲ . . c V21 VCl X1 I Plll Pl 2 I PICl X2 I P2 1 l P 2 2 1 P2Cl Pijl X" I p"ll P, , 21 E ̲ ̲ p ̲ 立l ト一一 図 1 時間変化に対する潜在クラスモデル 図 lに示すモデ、ルのままでは時刻 tご、との個別の潜在クラスモデ、ルを考えていることにな るので,時点が変化してもクラスの構造は固定されたままであるとしづ制約を加えたモデル を考えてみる。クラスサイズ自身は時点とともに変化するものとする。 3節の分析事例で示 した POSデータに対して,この制約付き潜在クラスモデ ルを用いて分析を行った結果が 表 4である。表4には曜日ごとのクラスサイズの変化が示されている。 n 口 よ ー ηd

375.

表 4 時系列要素を考慮した潜在クラス分析結果 c l a s s1 アルコールドリンク ソフトドリンク スナック 0 . 1 6 5 c l a s s2 c l a s s3 0 . 3 8 8 c 1a s s4 0 . 2 3 7 0 . 1 4 4 0 . 1 4 0 0 . 1 0 3 0 . 3 3 8 0. 46 2 0 . 3 0 2 0 . 5 6 8 0 . 0 8 2 0 . 1 1 3 一般食品 0. 408 0 . 0 0 0 0 . 6 7 7 0 . 0 7 3 ミJ レ ク 0 . 1 7 6 0 . 0 9 6 0 . 0 0 0 0 . 0 1 6 乳製品 0 . 0 8 8 0 . 0 8 3 0 . 0 2 6 0 . 0 1 3 パン・米 0. 424 0 . 0 9 6 0 . 0 6 9 0 . 0 9 1 その他 0 . 7 9 4 0 . 6 3 5 1 . 0 0 0 0 . 2 8 1 c l a s ss i z e c 1a s s1 c 1a s s2 c l a s s3 c 1ass4 月曜日 0 . 1 8 2 0 . 0 7 5 0 . 0 6 0 0 . 6 8 2 火曜日 0 . 2 3 7 0 . 0 5 7 0 . 0 7 6 0 . 6 2 9 水曜日 0 . 2 5 4 0 . 0 4 3 0 . 0 5 8 0 . 6 4 5 木曜日 0 . 2 6 5 0 . 0 2 5 0 . 0 7 3 0 . 6 7 4 金曜日 0 . 2 6 5 0 . 0 4 9 0 . 0 4 5 0 . 6 4 1 土曜日 0 . 2 3 3 0 . 0 9 3 0 . 0 7 6 0 . 5 9 9 日曜日 0 . 2 7 0 0 . 1 0 9 0 . 0 3 6 0 . 5 8 5 5 .まとめ 本稿では,潜在クラスモデ、ルを用いた POSデータの分析について述べた。今回の分析 事例で用いた POSデータの場合,潜在クラス分析対象のデータとするためのデータ加工 が,分析プロセス上の一つの大きな壁となる。 SAS のデータステップで、のプログ伊ラミンク守に より,データ加工プロセスが短縮されたことは大きな収穫で、あった O 潜在クラス分析での SAS のさらなる利用を進めたい。今後, 4節に示した拡張モデ、/レの他にさまざまなモデ、/レ を構築することは,マーケティング.分野における潜在クラス分析の応用に寄与するものと 確信している。 参考文献 [ 1 ] Gr o v e r ,R .and Srinivasan,V. ( 19 8 7 ) .A SimuU αn e o u sAppro αc ht oMαr k e t S e g m e n t αt i o nα ndM α r k e tS t r u c t u r i n g .J o u r n a lof Mαr k e t i n gR e s e α nh ,Vo . 124、 p p . 1 3 9 ‑ 1 5 3 . [ 2 ] Wedel,M.andKamakura ,W.A .( 19 9 8 ) .M arketS e g m e n t αt i o n :C o n c e p t sand , cα1 Foun t 1 αt i o n s .B o s t o n :KluwerAcademicP u b l i s h e r s M e t h o d o l o g i [ 3 ]S a k u r a i,N.,Watanabe,M.andYamaguchi,K .( s u b m i t t e d,2 0 0 4 ) .AS t αt i s t i c a l α ' r k e tS e g m e n t α ! U onU s i n gaR e s t r i c t e dL a t e n tC l a s sMode. l MethodforM 382‑

376.

口頭論文発表 品質・生産管理

377.

クリニカルデータマネジメント作業における 品質評価方法の提案 0矢 田 徹 イーピーエス株式会社 Q u a l i t yE v a l u a t i o nMethodi nC l i n i c a lD a t aManagement YADAToru td . EPSC o .,L 要旨 クリニカルデータマネジメント作業で、は、異なる二人の入力者による DoubleEntry‑Compare手法 o g i c a lCheck手法でデータ品質を確保している。しかしこれらの手 とデータの冗長性を利用した L 法により確保される品質がどの程度かについては、あまり議論されていなし、。 本論文では、データ品質を(エラーデータ数)/(全データ数)と定義し、 Double Entry‑Compare 手法と L o g i c a lCaheck手法の作業終了後のデータ品質を定量的に評価する方法を提案する o また、シミュレーションによってこの方法の有効性を検証する。 キーワード: クリニカルデータマネジメント、データ品質、定量化 1 . はじめに 1 . 1 . クリニカルデータマネジメントの業務の流れ クリニカルデータマネジメントのうち、原資料受領からクリニカルデータベースの完成まで、の M)の流れは、以下のようになる。 一般的な業務(以下、 D 図 lDM業務の流れ nべU 巳υ OD

378.

まず、データベース (DB)の基となる原資料を受領し、 Doubl巴Entrγ‑Compar巴方式(異なる二 人の入力者により二つのデータを作成し、機械的に比較することにより入力エラーを修正する 方法)により電子データ化する。 電子データは読み合せ(電子データから作成した資料と原資料との入手による比較確認)に より原資料との一致を確認した後、 L o g i c a l Check(データ聞の不整合・起こり得ないデータ‑ DBに不適なデータの機械的な確認)を行う。ここで原資料の記述が不適な場合は、原資料作 成者に修正を求める。 最後に、修正を経た DBと修正された原資料を基に入力した 3rdEntrγDataを比較し、一致 を確認したのち、 DBが完成する。 1 .2 . 解析部門から見る DB品質 「ガページ・イン・ガページ・アウト」としづ言葉にあるように、 DB の品質は解析の品質を左右 する大きな要因となる。また、品質以外にも原資料データを電子化する際のエラーや「事実」を 原資料に記録する際のエラーが解析の段階で見つかると、 DBの D Mへの手戻りが発生する ため、解析期間の長期化としづ時間の問題もある。したがって、解析部門に DB が移管される 場合、その DBの品質が一定レベル以上で、あることを保証されている必要がある。 ここでいう品質とは、「事実 jと DBとの相違点の度合いでありまた、「事実」とは、原資料に記 載する対象としての事実である。 1 . 3 . DM業務の品質管理 DB は 、 D M が作成する製品であり、その品質を保証するためには、 D M 業務に関し品質管 理されている必要がある。品質管理には、二つの考え方があり以下のように定義される。 QM(QualityManag 巴 m巴 nt):As 巴 to fc o o r d i n a t巴 da c t i v i t i巴 st od i r e c tandc o n t r o lan IS 0 9 0 0 0 : 2 0 0 0 ) 品質に関わる部門全体に対し指示・統制 o r g a n i z a t i o nw i t hr e g a r dt oq u a l i t y .( する統合的な活動。 QC(QualityControl ) :P a r to fQ u a l i t yManagementf o c u s e donf u l日l l i n gq u a l i t y n t s .( lS 0 9 0 0 0 : 2 0 0 0 ) 必要な品質を満たすことを目的とする Q Mの一部。 requirem巴 原資料を受領してから、 DBを作成するまでの DM業務に関する Q Mを考えると、 Q Mを担当 する管理者は、最終的な製品である DB の品質目標を設定し、この品質目標を達成するため に DoubleEntrγCompareや読み合せ、 LogicalCheckなどの各作業の流れを設計し、それぞ れの作業での QCにおける品質目標値を設定しなければならない。 必要な品質 (QM の担当者によって設定された品質目標値)を満たすために行われるのが QCであり、各作業後の品質が目標値を満たすように C o n t r o lするために行う。 C o n t r o lするた めには、作業後の品質について評価できなければならず、また各作業の積み重ねが最終品 n h υ nぺ υ n 口

379.

質に影響する以上、評価は定量的であることが求められる。この評価方法について次章から 述べる。 2 . 品質評価方法の提案 2 .1 . 品質・エラーの定義 DM業務における品質とは、「事実」と DBとの一致度合いをさすものとする。入力対象となる 全ての項目数を N とし、「事実」と DBが異なる項目数をエラー項目数とし Eで表すと、品質 Q は以下のように定義される。 Q=l‑P=l‑7 Q:品質、 P:エ ラ ー 率 E:エラー項目数 N:全項目数 2 . 2 . DM業務モデル 煩雑さを避けるため、 DM 業 務 を 簡 略 化 し 以 下 の よ う な DoubleEntrγ‑Compare+ LogicalCheckモデ ルを考える。 電子データ化 する際のエラー 図 2DM業務の流れ(簡略化モデル) エラーは、「事実→原資料」作業と「原資料→電子データ」でそれぞれ発生するものとし、発 生率を pl、p2をする。「原資料→電子データ」作業のエラーは IDouble EntrγCompareJ作業 で修正し、 p2 を ε2 に減少させるものとする。「事実→原資料 J作業のエラーは IL o g i c a l CheckJ作業で修正し、 plを E1に減少させるものとする。 このとき、 DM業務により作成される製品である DBのエラー率 Pは以下の式で表される。 P= 1‑(1‑&1X1‑&2) ‑387‑

380.

2 . 3 . 入力パターン数の定義 品質評価のために以下の概念を入力パターン数として定義する O 入力パターン数:各項目にデータとして入力できるパターンの数(例:T r u eか F a l s eの入力し か出来ない場合は 2、一桁の整数しか入力できない場合は 1 0、0か lか 2しか入力できない )。本報告では、入力項目毎に入力パターン数が変わる場合 k ;を、入力項目によらず 場合は 3 入力ノ fターン数が一定の場合 vを用いることとする。 2 . 4 . D o u b l e E n t r y ‑ C o m p a r e作業における QC D o u b l e E n t r y ‑ C o m p a r e 作業では、主として原資料とそれを基に入力した電子データとの聞 の整合性を品質として、これが一定値以上であることを保証する。従来この作業の品質は、コ ンベアエラー率をもって示していたが、作業の原理から見ると正確ではない。ここでは、コンベ ア結果が一致した後なお残る原資料と電子データの不一致をエラーとして、その品質を定量 的に評価する。 定理.入力項目数 N 、コンベアエラー数 E Pが既知、入力パターン数を vで全入力項目で 不変とするとき、コンベアエラー修正後の残留エラー率 E は、以下の領域内に確率円・九で存 J 1 COI 在する。 七忙し、 ν ( 1)‑vSu-2~(ν 一 e ( ν ) = IXv-vS u ‑ 1 ) 2 2 E c οmp+Z I+ Su= Z I、Z2は、片側確率 T 、九のときの Zスコア。 1 (証明) ε[ 三人の入力者の入力エラー率 α、 0, 1 J )とすると、コンベアエラーとなる入力をする確 。 ( 率 Pcompは以下のようになる。 川 =( 1 ‑砂 ー 仲 弓4 α ( 1 このとき、コンベアエラー数 Ecompは、確率円で以下の範囲内に存在する。 E comp 壬坤 c岬 +Z~Np 印岬 tl- Pcomp) これより、 α、8が確率 T1で存在する領域を求めると以下のようになる。 388‑

381.

β<三ι 二乙 l ーと σ v‑ 1 σくとl のとき v ただし、 2 2 E c οm p+21 + S " 二 局 2(N+Zn 一方、残留エラー率 e ( v )は、以下の式で表される。 ん)=7LTd α 、3が上記の制約を受けるとき、 e ( v )の最大値は、以下のようになる。 一 (v‑l)‑vSu-2~(v-1Xv-vSu ‑ 1 ) ( v )一 これは、真の残留エラー率の不偏推定値で、あるので、真の残留エラー率は確率九で以下の 範囲に存在する。 e ( v )壬e ( v ) +Z2 • 2 . 5 . シミュレーション検証 本論文の方法による残留エラー率の上限の精度をシミュレーションにより検証する。 (問題設定) 二人の入力者 A, 8によって 1 0万項目の入力を行う。入力者 A, 8はそれぞれ 0.25%の確率 で、入力ミスをする。入力ノミターンは 3であり、入力ミスをしたとき、正答以外の 2つのパターン はそれぞれ等しい確率で入力されるものとする。 入力後、コンベアを行し、コンベアエラーの数をカウントした後、コンベアエラーとしてあがった 項目は正しく修正されるものとする。 以上の問題設定で S A Sプログ、ラムを作成し、コンベアエラー修正後も残ったエラー数をカウ ントした。上記フ。ログラムを 1000 回実行した。これに対し、上記の方法による残留エラー率上 限を計算し、 1000 回中、何回上限を超えるかをカウントした。なお、残留エラー率の計算には、 円・九=0 . 9 5となるように、 T1=九 =0 . 9 7 5を用いる。 (結果) 入力項目 100, 000に対し、発生したコンベアエラー数は以下のようになった。 平均値 : 4 9 6 . 6(個) (コンベアエラー率 : 0. 49 7 ( 九 )) 最小値~最大値 :434~560 円ud υ nペ nD

382.

200 i 1 50 1毅 !樹 100 50 コ ,コ コ コ コ コ コンベアエラー数 議 GMN コ oh目 コ ︒田町 コ ︒回目 c コ 円 寸 町 田 h α 0') 0 .̲ N 寸 寸 寸 寸 寸 寸 寸 田 町 田 ︒寸回 i 。 CCCCCCCCC ︒門出 l 一 J 図 3 発生したコンペアエラー数のヒストグラム これに対する残留エラー率上限は、以下のようになった。 平均値:0.00. 1 5 6 ( % ) 最小値 最大値:0.00133(%)~0.00180(%) 上記より、 95%以上の確率でコンベアエラー修正後に残留するエラーの個数は、 100, 000 項 平 , /V 3 1 目中 l個以下であるといえる。 I 1000回の試行中、 2個以上のエラーが発生したのは 27回で、最大 3個のエラーが残留して 2 . 7九)であるため、 95%以上の条件を満たしているといえる。 いた。 1000田中 27回 ( 2 . 6 . L o g i c a l C h e c k作業における QC L o g i c a l C h e c k作業は、原資料と電子データは一致していることを前提として、「事実」と電子 o g i c a l C h e c k作業における QC データの聞の相違を、電子データ聞の整合性から検出する。 L は、「事実 J と電子データの聞の相違を品質とし、これが一定値以上であることを保証する。 この品質を定量的に導出するために、個々の項目における入力パターンを kiから、全入力 項目についての入力ノ号ターン K を以下のように求める。 I Ik K= i N この入力パターン中、ロジカルチェックで、エラーとして検出されるパターンを除いたものを L とする。 Lは、ロジカルチェック項目の数や内容によって決まる O 定理.入力項目数 N 、ロジカルチェックエラー数 ELCが既知、全項目入力パターン数を K 、 ロ ジカルチェック後に許容される全項目入力パターン数を Lとするとき、ロジカルチェックエラー 修正後の残留エラー数 Erは、以下の領域内に確率 TLCで存在する。 E.~ 一~I 片Zど ι 2 九点 C(引(μLレい川-寸サlけ)μ+2 巾九 ωぱL ん Eι C(収Kト川川-寸叶1)+ 川+ワZLパ Cぺ~(Lレ 川一寸叶1) M ド 比 : ι C ( μ い ( レ L 日 一 ‑ 寸 1 巾 l ) μ + 4 叫ω ん E ιμ C c L ( 収 K ト K 引 川 ‑ → 叶 け l 叶 ) / r 一2 (K‑L ) L LL ぱ nべU nU Qu

383.

作業の具体化 管F T Iサイド 卜 .f f s組織で決められた品質目標を 達成するために下郊組織は口組織 内での QMを考える。 業l こ品質目標を定め、 QCを行う。 現場サイド 図 4作業主体と作業内容から見た QMと QCの関連 DM 業務での QM 作業では、 DM 部門の品質目標を達成するために、前述の I D o u b l e L o g i c a lC h e c k j作業品質の DB品質との関連式のような関 EntrγComparej作業品質および、 I 連式を各業務関連に応じて作成する必要がある。 P= 1‑( 1‑E, X 1‑E2) = 1‑( D o u b l e E n t r yー Compare作 業 品 質 XLogi叫 Check 作業品質) 本報告では、 I D o u b l eE n t r y ‑ C o m p a r e j作業と I L o g i c a l Checkj作業のみを考えたため、上 記のようになる。ここから、各作業において達成すべき品質目標を数値として得ることが出来、 QC作業を行うことが出来る。このほかに「読み合せ J や1 3 r d E n t r γ ‑ C o m p a r e j、修正作業、その 他プロジェクトに応じて行われる作業が最終的な DB品質にどのように影響するかを把握しうえ で品質保証できるようにするのが、 DM業務の QMと言える。 4 . おわりに 本報告では、 DM業務における D o u b l eEntrγCompare作業及び L o g i c a l C h e c k作業の後に DB に残るエラー率を品質として定量的に評価する方法について提案した。また、これらの作 業より成る DM業務についての QMの方法について述べた。 DM業務には、上記以外にもさま ざまな作業があるが、いずれも上記方法の応用で定量的評価が可能であると考えている。 今回、シミュレーションに用いた問題は、入力パターン数が 3のごく単純な例であるが、現実 o g i c a lCheck作業での品質評価について 問題に適用した場合はどうなるかについて、また、 L 今後、現実問題に耐えるような十分な検証を進めていきたし吃考える。 ハ︿U ハHU ワ ム

384.

ZLCは、片側確率 T LCのときの Zスコア。 (証明) 原資料作成者の記載エラー数を E C とすると、ロジカルチェックエラーとして検出されるエラ 川 ー 数 ELCの不偏推定量は以下のようになる。 E, r =E … 臼U 一 μ も K 一L K 一l このとき、ロジカルチェックエラー数 ELCは、確率 TLCで以下の範囲内に存在する c い 川 f ZLCイ h-f C~EI h; 三千ド ヲ子中 f2 引ベ 川が確率 T ι ι E 九 でで、存在する領域を求めると以下のようになる。 これより札、 LC t r c ‑1)+ パギョ)[ZZ (L ( K‑ 1 ) +ZLC~(L ‑ 1 ) 比 (L‑1)叫 ん (K‑1)1] 2 ELC このち、ロジカルチェックエラーとして検出される ELCは、修正されるものとすると、残留エラ ー E は以下のようになる。 (μLレい-づ桝 」一 Z 2九引比 I Z~ι C((μL ‑1)+2ω Kト目川-寸叶lけ何)い+吃ZLC 刈巾 点 LC~(L 作 同 ‑ ‑ ‑ ‑ ; ¥ I パ L ) L 耳K 一 孔 ~L • 3 . DM業務の QM 解析部門も含めた全体的な視点から見て、解析部門に渡す DBの品質を決められた一定値 以上に保証する、とし、うのは QCと言える。この QCを実現させるために DM部門がどのように 業務を構築するか、とし、うのは Q Mとなる。 解析部門に渡す DBに含まれるエラーを 1 0万項目中 l個以下にするための DM作業は、 プロジェクト全体から見れば QC作業である。この目標を達成するために、 DM部門は DM業 と言うのが DM 部門から見た 務内の個々の業務において「どの程度の品質目標を割振るか J Q Mである。このように QMとQCは、その作業主体と作業内容によって下図のような関連を持 っている。 υ EA 唱 円同 nぺU

385.

[参考文献 1 1.松葉尚子他.臨床試験データの品質の計量の試み .SUG トj、2 0 0 1 ; 1 9 ‑ 2 7 9 9 9 2 .石川馨.品質管理入門.日科技連.1 3 .P . G .ホーエル浅井晃村上正康共訳.入門数理統計学.培風館、 2 0 0 1 4 .臨床試験の質向上を目指した C l i n i c a lD a t aManagemen t.技術情報協会、 2 0 0 2 5 .WEBG l o b a lT e s t e r( h t t p : / / w w w . g l o b a l t e s t er .c o m / ) . D a t eMay2 9,2 0 0 4 6 .菅野文友.ソフトウェア開発計画・推進・実践マニュアル.ソフト・リサーチ・センター、 1 9 9 8 U nぺU Q υ ペ ハ

386.

ポスターセッション 医薬品開発

387.

並べ替え検定による群逐次解析の実施 0堺伸也事 1 菅波秀規ゆ3 判イーピーエス株式会社統計解析部 キ2 東京理科大学大学院工学研究科 卒 3 興和株式会社臨床解析部 Groups e q u e n t i a la n a l y s i sf o rpermutationt e s t i d e k iS u g a n a m i * 2 * 3 ShinyaSakai判 H キ L td . 1S t a t i s t i c sA n a l y s i sDept.,EPSCO., n i v a r s i t yo fScience * 2GraduateSchoolo fEngineering,TokyoU 時 B i o s t a t i s t i c sandDataManagementDept.,KowaCO.,L t d . 要 旨 臨床試験において中間解析を実施する場合,個々の検定において,名義の有意水準 に基づく棄却限界値を利用すると,全体の第一種の過誤確率が名義の有意水準を超 える.第一種の過誤確率の増大への対処法として,棄却限界値を調整する様々な方法 が提案されている.その中に,並べ替え検定を実施するときの調整方法を提案したもの がある.SASの MULTTESTフ。ロシジ、ャを用いて,並べ替え検定による群逐次解析を行う プログラムを作成し,調整による影響を確認した. キーワード: 並べ替え検定,群逐次解析, MULTTESTプロシジャ 1.はじめに 近年,臨床試験において中間解析が実施される機会が増えてきている[1].中間解析を実施したときの検定 2 J [ 3 Jが の多重性を調整する方法としては,中間解析の実施時期に制約のない α消費関数を用いたアプローチ [ 有用である. ある臨床試験において,中間解析の実施について検討を行うとしづ経験をした.中間解析を実施する理由 は , i 薬剤効果が認められたときに,早く結果を公表する必要がある」としづ倫理的な事由によるもので、あった.そ して,実施に際しては,佐々木の提案した, α消費関数の方法に準じた並べ替え分布による群逐次解析の手法 4 ] . を利用することとした [ この手法が,第一種の過誤確率を有意水準内に保っていることについては,疑いの余地はない.しかし,臨 床試験へ実用するには, P値がどのように調整されるのかを良く知るべきであると考えた.そこで, SAS8.2を用し、 たシミュレーションを行うことで, P値の調整の様子について確認することとした. ‑397‑

388.

2 .臨床試験の概要の説明 以下の枠組みの臨床試験について検討した. 2群問比較(試験薬群 vs 対照薬群)を行う優越性試験 J I J,合計 2n例 各群 n1 主要な評価変数:ある評価指標の試験開始時からの変化(傾き) 検定:平均値の群問差に対する並べ替え分布にもとづいた検定(片側有意水準 0.025) 解析の実施回数は 2回 解析 l回目までに消費する α は αl' 解析 2回目(最終解析)までに消費する α は 0.025 3 .統計手法の説明 並べ替え検定 [ 5 J [ 6 J [ 7 J 並べ替え検定 (permutationt e s t )は分布形に依らず,有意水準が保たれるような検定を構成する一般的な方 法である.今回は検定方式として IT ニ 試 験 薬 群 の 平 均 対象薬群の平均三三 C Jを用いる.薬剤効果に 2 n )の中で、試験薬群がど、の n 個の値を取るかは全て同様に確からしく, 差が全くなし、とすれば,全データ(個数 : そのような組み合わせの数は 2nCn 通りである.それぞれの組み合わせのことを本稿では「並べ替え標本」と表現 するそして,統計量 Tをそれぞ、れの組み合わせについて求めることにより,得られた標本の条件付き分布が求 まる(並べ替え分布).ここで上側 2.5%点を棄却限界値 cとする .P値を, T ~ tを満たす並べ替え標本の割合と する.ここで, tは実際に得られた統計量を指す. 並べ替え検定には,サンプルサイズが大きいと,棄却域を厳密に構成するための並べ替え標本数が膨大と なるとしづ欠点がある.しかし,コンピュータを用いて十分多くの並べ替えを,無作為に抽出して近似的な棄却限 界値を求めることにより,このような欠点を克服することが出来る. なお,この並べ替え検定により得られる P値を,本稿では「通常の P値」と表現する. 4 J 並べ替え分布による群逐次解析[ 多くの群逐次解析の手法は検定を複数回実施するときの第一種の過誤率の増大を防ぐことを目的にしてい て,この手法もその点では同じである.佐々木は,各症例の解析 I回目の統計量 T1と解析 2回目の統計量 T2 の対について,それらを保持したまま並べ替えを行い,2変量の並べ替え分布を構成して検定する方法を提案 した.並べ替え分布に基づいて以下の条件を満たす棄却限界値 C1'C2を求めて検定を行う. P r o b {T1 詮 C1} α l ' P r o b {T2 詮 C2andT1 < C1} 0.025 ← αI S個の並べ替え標本による並べ替え分布を構成する場合について,詳細に記述する. 解析 I回目として,統計量 T1の並べ替え分布を構成する.並べ替え標本全体の割合 αlを棄却する限界値 を設定し,検定を行う.このとき α IS 個の並べ替え標本が棄却域に含まれる.検定が棄却されれば,薬剤効果 に差があるとして,解析を終了する.受容されれば,試験を継続し,解析 2回目を行う. 解析 2回目として,解析 l回目で、棄却域に含まれなかった並べ替え標本に対して,統計量 T2の並べ替え 0 . 0 2 5 ‑a1 )S 分布を構成する .Sを分母とした割合 0.025一αi を棄却する限界値を設定し,検定を行う.このとき ( ‑398‑

389.
[beta]
伽!の並べ替え標本が棄却域に含まれる.
この手)11貢により,合計で 0
.
0
2
5S個の並べ替え標本が棄却されることになり,有意水準が近似的に保たれる.
解析 l回目より後に得られるデータが解析 l回目の棄却域の設定に全く影響していなし、としづ点が重要である

pi
直 Stag巴一w
i
s
eo
r
d
e
r
i
n
g[
8
J
[
9
J

並べ替え分布による群逐次解析に自然に対応する P値として, 2回の検定を統合した P値を考えることがで
}を考える .Kは解析を行った回数, T は K 回目の解析での統計
きる.まず, 2つの確率変数の組み合わせ{Iく, T

k,
t
}で表し, P1
1
許可を次のように定義する.
量である.実現値を {

',t
')>
:(k,t)を満たす1
1
関序〉を次の条件で定める
ここで, (k
(
i
)

k
'=k and t
';
:
:t

(
i
i
)

ピ <k and t
' ~三 C 1

汗

l
i
v
‑
‑
v

P値 =P
r
o
b
{{
K,
T
}
:
>{
k,
t
}I
薬剤効果に差がない}

αt

。

i
i
)については, lk'<kJの条件だけ
図 lにこの順序を図示する .(

でも十分だが, f
u
t
i
l
i
l
y等の設定を行う場合,解析 l回目で下側の境界
値引を定めるため,次の条件を追加する.このため,記載を残す.
(
i
i
i
)

k
'>
k and t豆 al

.Stage‑wiseo
r
d
e
r
i
n
g
図 1

以上の順序付けのことを J
e
n
n
i
s
o
nand T
u
r
n
b
u
l
l
[
9
Jは
, S
t
a
g
e
‑
w
i
s
eo
r
d
e
r
i
n
gと呼んでいる.並べ替え検定に
おけるこの P値は,解析 l回目で検定が棄却された時には,その時の P値をそのまま利用すればよく,解析 2
回目を実施した時には,解析 l 回目で、棄却域に含まれなかった並べ替え標本に対して,並べ替え分布を構成
S個を分母として算出), α lを加えればよい.この方法は並べ替
し.T2 ;::: t
2を満たす個数の割合を求め(但し ,

え分布による群逐次解析と自然な対応を与えており,検定が棄却されたときにのみ, P値は 0
.
0
2
5を下回る.
なお,この 2回の検定を統合した P値を,本稿では「統合 P値」と表現する.

4
.調整による影響の確認
解析 2回目を実施した場合について,通常の P値と,統合 P値の聞にで,どの程度の違いがあるかの確認
をシミュレーションにて実施した.
SAS8.2の MULTTESTプロシジャを用し、て,前述の手法に対応するフ。ロクoラムの作成を行った.そして,両

群の各症例について,解析 l回目として平均 0と分散 lの正規乱数を,解析 2回目として解析 l回目の値に平
均 0 と分散 l の正規乱数を加えた値を設定することとし,各 iÞ~ 1
0
0例のデータを発生させ,シミュレーションを行

った.並べ替え検定の並べ替えの回数 Sは 1
0
0万とした.並び替え標本で特徴的なものを表 lに示した.

nuJ

nペU

Qd

390.

表 1 .特徴的な並べ替え標本 α1 番号 O .0 0 2 5 O .0 0 5 0 O .0 1 0 0 値通常の P 値統合P 値 平均値の差平均値の差通常の P (解析 1 回目) (解析 2回目) (解析 1 回目) (解析 2回 目i O .3 1 0 ‑ 0 .8 6 0 目 。0 0 8 5 O .0 0 0 0 O .0 0 2 5 ( 2 ) O .3 3 9 ‑ 0 .4 2 8 O .0 0 4 5 O .0 1 5 4 O .0 1 6 7 ( 3 ) 一O .0 2 2 ‑ 0 .4 2 8 0 . 4 3 4 8 O .0 1 5 4 O .0 1 6 7 ( 4 ) O .0 9 9 ‑ 0 .3 9 2 O .2 2 3 6 O .0 2 3 9 O .0 2 5 0 ( 5 ) O .0 5 6 O .0 1 5 O .6 6 6 3 O .5 2 9 4 O .5 2 9 4 ( 6 ) O .2 8 3 O .8 1 8 0 . 0 1 4 4 O .0 0 0 0 O .0 0 5 0 ( 7 ) ‑ 0 .0 6 7 O .3 9 8 O .3 0 4 1 O .0 2 2 4 O .0 2 5 0 ( 8 ) O .0 5 3 ‑ 0 .0 8 8 O .6 5 7 4 O .3 2 9 8 O .3 2 9 9 ( 9 ) 。 .1 3 2 O .0 8 8 O .1 5 5 4 O .3 2 9 8 O .3 2 9 9 ( 1 0 ) O .2 5 3 ‑ 0 .7 8 7 O .0 2 5 7 O .0 0 0 0 O .0 1 0 0 ( 11 ) ‑ 0 . 2 6 1 0 . 4 1 3 O .0 2 2 2 O .0 1 8 6 O .0 2 5 0 ( 1 2 ) O .1 9 7 O .1 6 7 O .9 3 4 2 O .8 0 0 0 。 .8 0 0 0 ( 1 ) 解析 1回目の検定が棄却されたときは,統合 P値と通常の P値は一致する. 統合 P値と解析 2回目の通常の P値を比較した結果,次のような事柄が確認された.解析 1回目の検定が 棄却されず,解析 2回目で非常に良好な成績が得られるときに, P値は大きく異なった(統合 P値の方が大きい. 6 ), ( 10 ) ) .解析 l回目および解析 2回目の検定で棄却されない場合, P値はほぼ同じ{直をとった(番号 番号(1), ( ( 5 ), ( 9 ), ( 12 ) ) .また,統合 P値は,解析 l回目の結果にはよらず,解析 2巨!日の結果のみに依存した(番号 ( 2 )と ( 3 ), ( 8 )と( 9 ) ) . 単純に, αIと解析 2回目の通常の P値を足した値が統合 P値に一致しないのは,統合 P値が解析 l回目 で、棄却されなかったとしづ条件の下で計算を実施しているためである. 検定を実施したときの報告方法としては,検定が棄却されたか否かだけではなく,具体的な P値を示すこと が重要である.この値として,有意水準との対応の取れてしも統合 P値を用いることとした. S t e p ‑ w i s eo r d巴r i n gによる統合 P値は,解析 2回目の成績がし、かに良好でも,解析 2回目が実施されれば 自動的に αlを上回ってしまうとし、う不自然さがある.しかし,真に薬剤効果が大きし吐きは,解析 l回目で検定 が棄却される可能性が十分あり,この場合には統合 P値は自動的に αlを下回る.このことから,統合 P値と薬剤 効果はほぼ対応が取れていると考えた. 5 .おわりに 並べ替え分布による群逐次解析の利用に当たっては,次の事柄についても注意を払う必要があると思われ る. 解析 1回目での並び替え分布と,解析 2回目での並び替え分布の対応 別々に並び替え分布を構成すると, [ " 解 析 1[ 1 1目の棄却限界値」と, [ " 解 析 2回目で構成した並べ替え分布 ‑400一

391.

にもとづく解析 11 [ 円1 ! ‑ Iの棄却限界値」に,差異が生じる可能性がある.これらが」致しなし、ことは「近似的に」並 0 0万回ほどの並べ替えの び待え分布を憐成することに原因がある.し治、し,試験の規模にもよるが,現在では 1 計算を行うことは容易であるため,差異があったとしても非常に/トさし叱思われる.もし,完全に一致させたいの であれば, tvlULTTESTプロシジャで指定する SEEDを解析 l回目と解析 2回目で一致させれば,同じ並べ替え を再現できる 分布i 解析 1回目で,評価変数を欠測した症例の存在 I I IIl変数の{[l'[をもっ可能 解析 l回目では,追跡期聞が短く評価変数を欠測した症例が,解析 2回目では,司' 性がある.この点については,シミュレーションを追加して,実用するまでに検討する予定である. 参考文献 [ l J 村岡了 ‑,1J、出俊彦,青木保典,岩崎倫久,高山直子,菅波秀規 ( 2 0 0 4 ),臨床試験のための中間解 析一基礎から実施するまで一,サイエンティスト社 [ 2 J宇 野 ー ( 1 9 9 8 ),SAS/DATA ステップ。による群逐次計画における棄却限界値及び必要症例数の 算出,日本 SASユーザー会論文集, 77‑102 [ 3 J Lan, K.K. and DeMets, D .L .( 1992),D i s c r e t es e q u e n t i a lb o u n d a r i e sf o rc l i n i c a lt r i a l s,B i o m e t r i k a 70,659‑663 [ 4 J佐 々 木 秀 雄 ( 2 0 0 0 ),企業における経験例一神経疾患を例として一,計量生物学, 2 1巻特集号, 71‑85 [ 5 J 竹村彰道(19 9 1 ),現代数理統計学,車Ij文社 [ 6 J 浜田知久馬,吉田道弘(19 9 2 ),MULTTEST フ。ロシジ、ヤの紹介,日本 SAS ユーザー会論文集, 357‑370 G .( 1 9 9 4 ),Permutationt e s t s,S p r i n g e rs e r i e si ns t a t i s t i c s [ 7 JP h i l l i p, [ 8 JT s i a t i s, A.A . , Rosner, G .L . and Mehta, C . R .( 1 9 8 4 ),Exact c o n f i d e n c ei n t e r v a l sf o l l o w i n gagroup s e q u e n t i a lt e s t,B i o m e t r i c s40,797‑803 [ 9 JJ e n n i s o n, C . and T u r n b u l l, B.W. ( 2 0 0 0 ),Group s e q u e n t i a l methods w i t ha p p l i c a t i o n st oc l i n i c a l t r i a l s,Chapman& Hall !CRC 4 0 1一

392.

マイクロアレイデータに対するクラスタ分析のバラツキの評価 ‑M u l t i s c a l eb o o t s t r a p法の SASマクロの作成ー 0田 中 紀 子 矢 下 平 英 寿 * * ・東京大学大学院医学系研究科クリニカルバイオインフオマティックス研究ユニット臨床ゲノム科学部門 **東京工業大学教理・計算科学専攻 Assessingt h eU n c e r t a i n t yo ft h ec l u s t e ra n a l y s i sf o rDNAm i c r o a r r a yd a t a ‑DevelopingSASmacrof o rM u l t i s c a l eb o o t s t r a pmethod‑ N o r i k oTanaka*,H i d e t o s h iS h i m o d a i r a * * c h o o lo fM e d i c i n e,U n i v e r s i t yo fTokyo* D e p t .C l i n i c a lB i o i n f o r m a t i c s,GraduateS D e p t .MathematicalandComputingSciences,TokyoI n s t i t u t eo fTechnology** 要旨 マイクロアレイデータの解析方法のひとつであるクラスタ分析を行った場合に、多くの場合ク ラスタ分析の結果得られたひとつの樹形図が示され、これをもとに分類対象聞の関係が議 論される。ところが、観測したデータから得られた樹形図はデータのサンプリングに関するバ ラツキや分類に利用した共変量の選択に関するバラツキに影響されている。そこで本稿では M u l t i s c a l eb o o t s t r a p法を用いてこのバラツキの影響を定量的に評価するための SASマクロ を示す。 u l t i s c a l eb o o t s t r a p法 , T r e eプロシジャ, SASマクロ キーワード:クラスタ分析, M 1.はじめに マイクロアレイデータを用いて、生物や遺伝子、実験の質などを分類するための方法のーっ としてクラスタ分析がある。特に、樹形図を用いる方法は視覚的に解釈しやすし、ことからしばし ば用いられている。通常のクラスタ分析で、は解析結果を一つの樹形図で、表すが、この得られ た樹形図はデータのサンプリング、に関するバラツキや分類に利用した共変量の選択に関する l u s t e rプロシジャで、実行し、樹形図は バラツキに影響されている。 SASではクラスタ分析は C T r e eプロシ、ジャによって得られるが、バラツキの影響を定量的に評価し、得られた分類結果が どれほど信頼できるのかを考慮することは各プロシジャで実行することはできない。そこで、本 稿では M u l t i s c a l eb o o t s t r a p法を用いてクラスタ分析から得られた樹形図の不確実性を定量 的に評価するためのマクロを示す。 ‑403‑

393.

2 .M u l t i s c a l eb o o t s t r a p法による樹形図の不確実性の計算 分類対象の個数を M とし、それぞれの個体が N個の変数(遺伝子数)からなるデータを考 える。これは、 MXNの大きさのデータ行列 X =(X i I ; i=1 , . . ,M, t=1 , . . , N) として表される。)(,は個体 Iの t番目のデータを表す。一般的なクラスタ分析では、個体 iと個 体 Iの間の類似度を例えば、 エ(X ‑ X,)2 i I j によって定める。階層的クラスタを構成する方法には様々なものが提案されているが、し、ずれ にしても一つの樹形図を出力する。 あらかじめ候補となる樹形図があり、それが「本来」の樹形図であるかどうかを検定したい場 合を考える。その樹形図を Tで表す。候補 Tは仮説を表している。一方、データ X のクラスタ ( めとする。以下、仮説 Tが真実であるかどうかを定量的に 分析の結果から得られた樹形図を T ( 勾 =Tの場合仮説がもっともらし 評価し、確率値 ( p ‑ v a l u e )を計算する方法を述べる。つまり、 T ( 勾‑ : t ‑Tの場合疑わしし、と考える。 いと判断し、 T 2 ‑1.ブートストラップ法 E仕on( 19 7 9 )のブートストラップ法は、データからのリサンプリング1 こよって推定や検定を行 える一般的な方法である。 )を データ行列 X=(X i I X=(X .・, XN ) j X 2, ラ と書く。ただし、 x , = ( ) ( , ;i ニ 1 , . . . , M )はデータ行列の t列目をあらわす。 Xの複製 fは X =(Xt X'2γ・ ・1ω) l, となる。ここで t l, . , tNは 1 , . , Nのどれかの値を重複してランダムにとることにする。この X の複 製 fを作る手続きを B回繰り返し、 B個の複製 Xj, X2, …, XB = 1 0 0 0 0 )とする。この多数の複数のバラツキは、 を生成する。但し Bは十分に大きな数(例えば 8 母集団における X のバラツキを近似的に表してしもと考えられる。従って、 T(X;), T(X;), …, T(XB) のバラツキを調べることによって、 T( 河がどれほど信頼できるかが評価できる。 T(X;)に 対 応 す る 仮 説 の 支 持 、 ま た は 不 支 持 を 表 す 関 数 を S(X;)とし、これは T(X;)= T のとき値 1 、 T(X~) ‑ : t ‑Tで値 0をとるものとする。すると、ブートストラップ確率は ‑404‑

394.

~ C p=E 但し、 c= S(X;)+S(X;)+…+S(X;) と定義され、この値が 1に近いほど仮説はもっともらしく、 Oに近いほど仮説は疑わしいと考え る 。 2 ‑ 2 . マルチスケールブートストラップ法 ブ、ートストラップ法で、は Xからランダムに N個の列を取り出して複製 x ' を作ったが、もし取り 出す個数(つまり複製における変数の数)を変えて N'とすると複製は x '=、 ( x . . . x . , . . . . . x . . . . ) I I, ‑ " ' t 2, . . . ' " ^ t N ' J となる。通常 N'=Nであるが、もし N': : TN とすると複製のバラツキの程度が変化する。一般に F r倍になり、ブートストラップ確率の理論値は ( r ; d, c )=1 φ ( dF r+c/F r ) N'=rNとすれば、バラツキの程度は 1 / Jr で与えられる。ただし、 φ ( .)は標準正規分布関数、 Cは符号付距離、 dは仮説を支持する領域 の境界の曲率に関係した量である。ブートストラップ法によるプ、ートストラップ確率にはバイアス h I r n o d a I r a ( 2 0 0 2 )はこの点を改良するために、戸の変化からより糟度の高い Au があるので、 S t e s tの確率値を求める方法としてマルチスケールブートストラップ法を提案した。この方法の手 続きは以下のようになる。 S t e pl . K 組のリサンプリングデータを考える。データ長の比円ろ γ ー , r K 、複製の個数 B2, . . , BK を定める。 B ], S t e p 2 各リサンプリングデータに対して、 Bk個の複製を N'=rk Nを使って生成する。これを x;(九, )x;(九) , . . . , x; , ( 九) とする。そして、複製が仮説を支持するかどうかを S(x]~(九 )), S(X;(九 ))r , S(XBK(九)) によって調べ、ここからブートストラップ確率 C(r p (九)=て L k) LJk 但し、 C(九)= S(X;(九))+… +S(X; , ( 九)) を計算する。 S t e p 3 . 計算された戸(九)をその理論値の曲線Jr(九 ; d, c )に当てはめ、回帰係数 dとcを重み つき最小二乗法により推定する。 S t 巴p 4 . 推定した dとcを使い、補正した確率 戸=1φ ( d‑ c ) を計算する。 405‑

395.
[beta]
3
.SASマクロプログラムの開発
前節で示した計算手順を行うための SASマクロを開発した。行にオブ、ザーベーション(検体、
生物など)、夢IJに変数(遺伝子など)で構成されるデータを用意する。
本神寧神神神柿柿材料材料/本各デ-~にクラスヲ分析を実行するためのマクロザ~円台--r"T'...............千円円....~....,..........

/材料明神神神間変数の設定間帯林神神材開幹事/
似e
tds=デ-~セット名;
引e
tb
=リサンプリング回数;
引e
tN
O
B
S
=
b
a
s
ed
a
t
aのサンプルサイズ;
引e
tS
C
A
L
E
=クラスヲ分析に使う変散の数;
引e
tv
a
r
=クラスヲ分析に使う変数の列;
百1
e
tc
v
a
r
=
オブザーベーシヨンを認識する変数名;
/梓特*時間問問神間幹事~~~~~一一守干守守守/

/ホ変数のリサンプリングを行うために、デ‑;セットを転置する事/
拍n
a
c
r
ot
r
a
n
s(
d
a
t
a
):
p
r
o
ct
r
a
n
s
p
o
s
ed
a
t
a
=
品d
a
t
ao
u
t
=
t&
d
a
t
a:
i
d&
v
a
r
:r
u
n
:
如l
e
n
d
:
百M
A
C
R
OB
O
O
T
S
A
M(
D
A
T
A
.b
o
o
t
d
a
t
a
̲
.S
A
M
P
L
E
.F
R
E
O
.N
O
G
O
=
O
) /S
T
M
T
:
札E
Tn
=
&
r*U.
l時 S
C
A
L
E
:
百I
F&
D
A
T
A
=
&
S
Y
S
D
S
N首T
H
E
N%
00
:
札E
TD
A
T
A
1
=
%
S
C
州(&D
A
T
A
.1
):
枇E
TD
AT
A
2
=
%
S
C
A
N(
&
DA
T
A
.2
):
札E
TD
A
T
A
喝O
A
T
A1
.
.&
D
A
T
A
2
:
事E
N
D
:

引 F&
F
R
E
O^
=N
I
D【
氾S'
1
0T
H印 私0
0
:
品F
R
E
O
):
d
a
t
ab
o
o
t
d
a
t
a(
d
r
o
p
=
d
r
o
pb
o
b
:setωATA:bob=
品F
R
E
O
:

d
ou
n
ti
1(
b
o
b
<
=
O
)
:
i
fb
o
b^
=
0t
h
e
no
u
t
p
u
t
:b
o
b
=
b
o
b
‑
l
:
e
n
d
:
r
u
n
:
枇E
TD
A
T
A
=
BO
O
T
D
A
T
A
̲
&
r
:
事E
N
D
:
d
a
t
a&
b
o
o
t
d
a
t
a
̲
:
d
r
o
pi
:
d
oj
=
lt
o&
S
A
M
P
L
E
:
d
oi
=
lt
o&
n
:
(
0
)>
O
&
S
C
A
L
E
)+1
:
i
d
o
b
s
=i
o
b
s: setωATAp
oi
n
t
=
io
b
sn
o
b
s
=
n
:
i
o
b
s
=i
n
t(
ra
n
u
ni
o
u
t
p
u
t
:
e
n
d
:
e
n
d
:
s
t
o
p
:
r
u
n
:
%
e
n
d
:
糊E
N
DB T
S
A
M
:

∞

神神神材料神神/本樹形図を書〈ためのマクロホ/神神神梓本梓梓キ榊.
如l
a
c
r
oc
l
u
s
(
c
d
a
t
a
.i
d
.v
a
r
)
:
品c
d
a
t
a
:
p
r
o
cs
o
r
td
a
t
a
=
b
yj
;

r
u
n
:
p
r
o
cc1
u
s
t
e
rd
a
t
a
=
品c
d
a
t
am
e
t
h
o
d
=
a
v
e
r
a
g
es
t
dp
s
e
u
d
on
o
ei
g
e
no
u
t
t
r
e
e
=
t
r
e
en
o
p
ri
n
t
;
i
d&
i
d
:
v
a
r&
v
a
r
:
b
yj
:

r
u
n
:
伽l
e
n
dcI
u
s
:

郡平均法でクラスター分析を行い、樹形図を
書かせるためのデータセットを作成する

/本樹形図を書かせるホ/
拍n
a
c
r
ot
r
e
e(
n
北N
O
B
S
):

p
r
o
cs
o
r
td
a
t
a
=
t
r
e
e
;

4
0
6一

396.

b yj : r u n ; 首d oi = 2唱t o品n ‑1 ; p r o ct r e eh o ri z o n t a1d a t a = t r e eH = hs o r to u t = t r e e o品i .n = & in o p r i n t : : b yj r u n ; 唱e n d : 加n e n dt r e e : 1 *樹形図を行事] 1変換するためのマクロホ/ 伽l a c r od a t a s e tC o u t .n ): 首l e tn c o1 =首e v a1 C 品n ‑ 2 ): 似e tITF % e v a1 C & n ‑1 ): T r e e プロシジャで出力される . . I output デ-5r~マルチスケール 法でクラスタの数をかぞえあげ d a t an a m e :s e tt r e e o 2 :k e e pj̲ N A M E ̲ :r u n : p r o cs o r td a t a= na m e :b yj̲ N A M E ̲ :r u n : 首d ok = 2もt o品n ‑ l: d a t at & k : s e tt r e e o品k : a r r a yi t e m l& nc o l Jc I 2 ‑ c l& m : 制。 i = 2唱t o品n ‑ 1: i fc1 u s n a m e = " C L &j " t h e ni t e m1 品i .‑ 1 ]= 1 ; e l s ei t e m l品i .̲ 1 ) = O : もe n d : o u t p u t :r u n : d a t at o & k ;s e tt & k ;k e e pj̲NAMLc1 品k :r u n : p r o cs o r td a t a = t o & k ;b yj̲ N A M E ̲ :r u n : d a t an a岡 : m e r g en a m et o & k : r u n : もe n d ; 。u t;s e tn a m e :r u n ; d a t a品 伽 I 1 6n dd a t a s e t : られるように行列変換する /ホ樹形図を行列変換するためのマクロ * 1 蜘a c r om a / t i s c a / e : d a t ao u tc : s e to u t O O :r = O :r u n ; 標準で r を O .5から1.4に設定し 首d or = 5唱t o1 4 : である(変更可能) もb o o t s a m C t ̲ & d s .b o o t d a t a ̲ .& b .N1 D O B S ): リサンプリングでデータを発生 首l e tn ̲ v = & r * 品S C A L E / 1 0 : も1 e tn ̲ v a r = もe v a1 C & n ̲ v ): もl e tv a r ̲ r = c o I 1 ‑ c o l & n ̲ v a r : させ、クラスタ分析を実行する d a t at e e t h ̲ 1 :s e tb o o t d a t a ̲ :d r o p i d o b s̲ N A M E ̲ :r u n : p r o cs o r td a t a = t e e t h ̲ l; b yj ; r u n ; p r o ct r a n s p o s ed a t a = t e e t h ̲ lo u t = t e e t h ̲ l ̲ t: b yj :r u n : d a t at e e t h ̲ l ̲ t : s e tt e e t h ̲ l ̲ t : m allJTlaU = ̲ N A M E ̲ :I * b a s ed a t aに対応するような変数名の付け管えホ/ d r o p̲ N A M E ̲ ;r u n ; もc / u s C t e e t h ̲ 1 ̲ t .m allJTlaU. & v a r̲ r ) : もt r e 9 : もd a t a s 9 t ( o u t l .& N O B S ): p r o cs o r td a t a= ou t l; b yj̲ N A M E ̲ : r u n : d a t ao u t ̲ c ̲ :s e to u t l :r = & r :r u n : ー :r u n : d a t ao u t ̲ c :s e to u t ̲ co u t ̲ c もe n d : 4 0 7一

397.
[beta]
加l
e
n
d
;

/神耕輔神神材料、日付何千守町今日刊司令梓計算プログラム終わり

*
*
/

もb
a
s
e
;

/*マクロの実行、リサンプリングデ‑1'に対して*/
もt
r
a
n
s品
(d
s
):
伽1aI
ti
s
c
al
e
;

/*クラスl'ーの数え上げ(複製が仮説を支持する確率の計算)*/

p
r
o
ci
m
l
;
u
s
eo
u
t
O
O
;
/明n
o
t
od
a
t
a
*
/
守一寸もとデータで計算されたクラス
r
e
a
da1
1i
n
t
oo
u
t0
;
u
s
eo
u
t
̲
c
;
/
本b
o
o
td
a
t
a本 /
タがリサンプリングデータから
r
e
a
da
l
li
n
t
oo
u
t
̲
l
;
何回計算されているかを数え上
=n
r
o
w(
o
u
t
̲
O
);
/
*
n
u
m
b
e
ro
fo
b
s
e
r
v
a
ti
o
n
*
/
n
̲
r
ow
n
̲
c1
u
s
=
n
c
o1
(
o
u
t
̲
O
)ー1;
/
*
n
u
m
b
e
ro
fc1
u
s
t
e
r
*
/
げる
nc
l
u
s
+
1
;
nc
o
l=
x
=
ou
t 1日.];
p
r
i
n
tx
;
品b
;
/
本n
u
m
b
e
ro
fm
u1
ti
s
c
a1
e
*
/
n
r
=
n
r
o
w(
o
u
t
̲
l
)/
n
̲
r
o
w
/
*
c
o
u
n
t
e
rm
a
t
ri
x
本
/
c
o
u
n
t
e
r
=j(
n
r
.n
̲
c
o1
+1
.0);/
d
onr
=
lt
on
r
;
品b
本nr
o
w
本(
n
̲
r
‑
l
);
f
=
l
+
r
r
=
o
u
t
̲
l[
f
.n
̲
c
o
l
+
1
]
;
d
ok
=
lt
o品b
;
/
町 o
u
n
tc1
u
s
t
e
r
*
/
桝 (
k
‑1
);
r
=
f
+
n
̲
r
o
rI
=
r
+
nr
o
w
‑
l
;
t
e
s
t
̲
l
=
o
u
t
̲
l[
r
:r1
.
];
d
oj
=
lt
on
̲
c
o1
;
d
oi
=
1t
onc
o1
;
i
fo
u
t
̲
O[
.j
]=
t
e
s
t
̲
l.
[i
]t
h
e
nd
o
;c
o
u
n
t
e
r[
n
̲
r
.j
]=
c
o
u
n
t
e
r[
n
̲
r
.j
]+1
/
品b
;
e
n
d
;
e
n
d
;
e
n
d
;
e
n
d
;
c
o
u
n
t
e
r[
n
̲
r
.n
̲
c
o1
+1
]=
r
r
;
e
n
d
;
p
ri
n
tc
o
u
n
t
e
r
;
c
r
e
a
t
et
e
s
t
c
o
u
n
t
e
rf
r
o
mc
o
u
n
t
e
r
;
a
p
p
e
n
df
r
o
mc
o
u
n
t
e
r
;
cl
o
s
et
e
s
t
c
o
u
n
t
e
r
;
q
u
i
t
;
/
州L
Sで計算できるようにデ‑1'セットを加工する本/
もl
e
tn
c
o
l
=%
e
v
a
l品
(N
O
B
S
‑
2
)
;
引e
tITF %
e
v
a1
品
(N
O
B
S
‑1
);

d
a
t
aa
1
;
s
e
tt
e
s
t
c
o
u
n
t
e
r
;
d
r
o
p
c
o
l
1
;
a
r
r
a
yi
t
e
m
{品n
c
o1
JC
O
L
2
‑
C
O
L
&
m
;
a
r
r
a
yn
i
t
e
m
{品n
c
o
l
}c
l
1
‑
c
l品n
c
o1
;
a
r
r
a
yp
{
品n
c
o
l
Jp
1
‑
p
品n
c
o1
;
a
r
r
a
yw品
{n
c
o
l
Jw
1‑
w
品n
c
o1
;
c
o
l
;
d
oi
=
lt
o品n
‑
1/
&
bt
h
e
nd
o
;i
t
e
m
{
i
J
=
H
J
.1
/
め;
e
n
d
;
i
fi
t
e
m
{
i
J
>1
p
{
i
J
=
l
‑
i
t
e
m
{
i
J
;
ni
t
e
m{
iJ
=
p
r
o
bi
t(
l
‑
p{
iJ
);
w{
iJ
=
it
e
m{
iJ
*(
l
‑
it
e
m{
iJ
)/(
((
e
x
p(
̲(
n
i
t
e
m{
iJ
神 2
)
)/(
(
2
*
3
.1
4
1
5
9
)*
*
u
.5
)
)柿 2
)時 b
);
e
n
d
;
o
u
t
p
u
t
:

‑408

398.

r u n ; d a t aa 2 ;s e ta l ;d=co1 3 2キ . . 0 .5;c=l/d:rename coI32=r:run: d a t a p:set a2:keep p l ‑ p & n c o l dc r : r u n ; d a t a c1 : s e ta 2 :k e e p c1 1 ‑ c1 &nco1dc r :r u n : w &nco1dc r :r u n : dataw :s e ta 2 :keepw l‑ proc sort data=p : b y rdc : r u n : proc sort d a t a = c l: b y rdc : r u n : proc sort d a t a= w :by rd c :r u n : p r o c transpose data=p out=p̲t :b y rdc : r u n : wout= w ̲t:by rdc : r u n : p r o c transpose d a t a= p r o c transpose d a t a = c l out=cl̲t:by rdc : r u n : d a t a p̲t:setp ̲ t : r e n a m e co1 1= p : n=N c1 u s n u問 。 d( n .&nco1 ): 酢ヨot hen c1 u s n um = &nco1: drop n :r u n : i fc1 u s n u w:n=̲N ー: c l u s n um = mod(n.&ncol):i f clusnum = Othen clusnum = &ncol:drop n:run: d a t aw̲t:setw̲t:rename c o l l= d a t a cl̲t:set cl̲t:rename c o l l = c l: n = ̲ N ー: c l u s n u 胴 n o d( n .&nco1 ): i fc1 u s n um = Othen c1 u s n u n r ‑ & n c o1 : drop n :r u n : d a t awls:merge p ̲ tw̲t c l ̲ t : r u n : wls:by clusnum:run: p r o cs o r td a t a= G L Mプロシジャを使い、重みつき /キ加工終了本/ / 本W L Sでd.cを推定するキ/ 守一寸劇、 2乗 j去で理論式の回帰係数 d,cを推定する。 o d s1 i s t i n gc l o s e : o d s output ParameterEsti mates=esti m a t e : proc g l md a t a= wl s : m o d e lc l = dc / n o i n t : weightw : = w1 s o u t : output out b yc l u s n u m : r u n . o d s1 i s t in g : /キ推定したパラメー脅から補正した確率を計算するキ/ d a t ae s t :set esti m a t e :keep esti mate parameter c1 u s n u m :r u n : p r o c transpose data=est out=est̲t:by c l u s n u m :r u n : d a t a est̲t:set est̲t:phat=l‑probnorm(coll‑coI2): k e e pp h a t : r u n : proc transpose data=est̲tout=res̲t:run: /キ結果出力のためのデ一世セット加エキ/ data r e s : set r e st : array i t e m !& ncoIJ COL1‑ L&nco1 : array n i t e m ! & n c o I Jc I 2 ‑ c l& m : d oi = 1 to &nco1 : ni t e m !i J = item!i J: e n d : o u t p u t : k e e p c1 2 ‑ c1 & m̲NAME̲: r u n : d a t a1 a s t :s e t outOO r e s :r u n : d a t a phat:set l a s t : w h e r e̲ N A M E ̲ = 'p h a t ' : r u n : proc transpose data=phat o u t = p h a t ̲ t :r u n : ∞ / 町 utput作成マクロキ/ 弛n a c r oo u t p u t : 計算結果を output 画面に出力さ せる 4 0 9一

399.

d a t ac ̲ O ;s e to u t O O ;c1 uster=c1 2 ;c = O ;phat= 司; keep̲NAME̲cI u s t e rp h at ;r u n ; もd oi = 2%to& n c o l ; d a t ab ー& i; s e t a;keep̲NAME ̲c l & i; r u n ; ; c l u s t e r = c l & iネ 品i ; c = 品1 ; d a t a c& i; s e tb品i k e e p cluster ̲NAME̲c ; r u n ; d a t a p;set phat̲t;where̲NAME̲="cl&i';c= 品i ; k e e p phat c ; r u n ; p r o c sort d a t a= c ̲ & i; b yc ; proc sort data=p;by c ; datad ̲ & i; m e r g ec ̲ & i p;by c ; r u n ; d a t a c̲O;set c ̲ Od ̲ & i; r u n ; 見e n d ; d a t ao u t p u t ; s e t c0 ;r u n ; 伽e n d ; 、 o u t p u t ; fc1 uster<2 thende1 e t e ;r u n ; d a t ao u t p u t ;s e to u t p u t ;i proc s o r t data=output;by c1 u s t e rp h a t ;r u n ; proc p ri nt data=output ;i d̲ N A M E ̲ ;by c1 u s t e rp h a t ;r u n ; 4 . プログラムの実行例 31個の悪性黒色腫に対して 8067個の遺伝子発現を調べたデータ ( B i t t n e r巴ta , . l2 0 0 0 )に 対して本プログラムを適用した例を示す。 4‑1.入力データセット 次の表 1 1こ示す初期入力データセットを用いて、 3節のマクロを実行する。 悪性黒色腫の種類は lから31の番号で示してある。 表 1 :初期入力データセット OBS 2 3 141562 0 . 6 3 0 . 7 4 0 . 9 4 724112 0 . 7 1 1 .0 1 0 . 5 8 768357 0 . 7 1 0 . 8 7 0 . 6 3 307342 0 . 9 1 . 44 1 . 49 1 3 1 1 .8 0. 79 0,9 5 1 .77 4‑2 マクロの実行 今回の適用例では、 r = 0 . 5, 0 . 6, … , 1 .4に設定し、ブートストラップ回数 (B)=10000で、計算を行っ た 。 ‑ 4 1 0一

400.

4 ‑ 3 . 結果の出力 初期データセットで、クラスタ分析を行った結果を示す。 ・・ M e of Oba.門叫 lon 0 . . Ch . ""l"r " " " 一一一ー一一ーーーτ ー ー ー 一 一 一 ー 一 一 一 一 一 、 . , ・ 20 γ 0 3 PalhL̲th 図 1:初期データのクラスタ分析の結果 T r e eプロシジャで出力された樹形図 計算されたブートストラップ確率は最終的に次のようなデータセットに格納される :マクロ実行後の結果出力 表2 3 1 p h a t ω000 2 3 必0 0 1 NAME 0 0.95235 0 . 4 8 4 9 1 0 c l 3 0 0 0 0 0.999997 l 2 ‑ c l 3 0は各枝から分かれたクラスタ(大きし、1 ) 慎)に相当する。 NAMEは分類に使った変数名、 c 4li A位 ‑A

401.

さらに最後の o u t p u tマクロを実行することによって、次のような o u t p u tを得られる。 ゴ リnt ;r2 o h l l= ( 1 , 9 1 ! B拘由3wo 喝岬陀 ・ oE o2 a2 ‑2 ‑1 ET 22 ?1 e︑ 6 41 3' 52 32 3765g23209 2 1 22422222257?9G ・ ,‑1‑"",Johal V~34) ・), 392 帽匝 e 日 μhuリ汁 T 叩 沼 初 図2 o u t p u t出力画面 例えば、一番大きなクラスタ 2では(クラスタ番号は分類された遺伝子数が多い順番になってい る)31遺伝子中、 11をのぞいた 3 1個の遺伝子が含まれていて、マルチスケールブートストラッ プ法で計算した確率 ( p h a t )はO .95であることがわかる。図2は o u t p u tの一部であり、このよう な出力がクラスタ数(適用例だと 30)だけ出力される。 5 . おわりに SAS で、はプロシジャを用いて、クラスタ分析は実行可能で、あるがその結果の評価についての 指標は計算されない。今回の方法はマイクロアレイデータに適用したが、一般的にクラスタ分 析を行う場合の指標のーっとして有用で、あると考える。 ‑412‑

402.

5 . 参考文献 B i t t n e rM.e ta しM o l e c u l a rc l a s s i f i c a t i o no fc u t a n e o u sm a l i g n a n tmelanomabyg e n ee x p r e s s i o n p r o f i l i n g .N a t u r e,2 0 0 0 ;4 0 6 :5 3 6 ‑ 5 4 0 . E合on B .B o o t s t r a pm e t h o d s :Ano t h e rl o o ka tt h ej a c k n i f e .A n n a J sof S t a a s t k s1 9 7 9 ;7 :1 ‑ 2 6 . 下平 英寿.ブートストラップ法によるクラスタ分析のバラツキ評価, 統計数理, 2002;50:33‑44 S h i m o d a i r aH . An a p p r o x i m a t e l yu n b i a s e dt e s to fp h y l o g e n e t i ct r e es e l e c t i o n .S y s t e m a t i c B i o J o g y ,2 0 0 2 ;5 1 :4 9 2 ‑ 5 0 8 . S h i m o d a i r a,H .A p p r o x i m a t e l yu n b i a s e dt e s t so fr e g i o n su s i n gm u l t i s t e p ‑ m u l t i s c a l eb o o t s t r a p n n a l so fS t a t i s t i c s,2004,i np r e s s . r e s a m p l i n g,A 守1l 凋斗 ηペυ

403.

ポスターセッション 統計解析

404.

SASによる診断・検査データの統計解析 0阿部研自事 佐伯浩之事事 章第一製薬株式会社薬事統計部 同株式会社第一ラジオアイソトープ研究所開発業務部 S t a t i s t i c a lA n a l y s i si nD i a g n o s t i cM e d i c i n ev i at h eSASs y s t e m K e n j iAbe*/H i r o y u k iSaeki** *R e g u l a t o r yA f f a i r s& B i o s t a t i s t i c sDepartment,D a i i c h ip h a r m a c e u t i c a lC o .,L td **DevelopmentA d m i n i s t r a t i o nDepartment,D a i i c h iR a d i o i s o t o p eL a b o r a t o r i e s,L td 要旨 EBM(Evidence‑Based Medicine)の浸透に伴い,診断・検査の特性を要約する各 種統計量の理解は不可欠なものとなりつつある.製薬企業では,各種のバイオマ ーカー,造影剤等の診断補助薬の開発において,これらデータの解析および評 価が行われるが,手法の詳細とソフトウェアとの関連性が整備されておらず,運用 が容易であるとは言い難い状況である.本稿では診断・検査のための基本的な統 計解析手法を纏め, SASによるコーデ、イングのサンフ。ルを紹介する. キーワード: 感度,特異度,尤度比, ROC曲線, AUC,LOGISTICプロ、ンジャ 1 . はじめに EBM(Evidence‑Bas巴dM巴d i c i n e )の浸透に伴い,診断・検査の特性を要約する各種統計量の理解 は研究者および実務家にとって不可欠なものとなりつつある.近年,米国 FDA,欧州 E¥ ! IEAは診断 検査薬の開発に対するガイダンスを発行し,適切な試験デサ インお上び、解析 j 去に関する留意点を言 ta . l( 2 0 0 2 ),P e p e ( 2 0 0 3 )が刊行さ 及している.また,本テーマを包括的に扱ったテキストとして Zhou e れたが,邦文での解説書(土少ない. 本稿では診断・検査のための基本的な統計解析手法を纏め, SASによるコーディングのサンフル を紹介する.なお,ここで示すコードはあくまでサンフルで、あり,適用にあたっては必要に応じた加工 を想定している.また.紙面の都合により一部のデータセット,各サンフけルコード およびその使用法は SASForum ユーザ一会のW山上で日J I添資料として提供する. 417~

405.

2 . データセット 解析方法に先立ち,本稿で例題とするデータを紹介する (Zhoue ta . l( 2 0 0 2 )より引用). 2 . 1 2x2分割表データ マンモグ ラフィにより乳癌のスクリーニング、診断を実施した例題で、ある. P 表 2 . 1 マンモグラフィによる乳癌のスクリーニングP診 断 T e s tR e s u l t CancerS t a t u s P o s i t i v e N e g a t i v e T o t a ! P r e s e n t 29 ( a ) 1( b ) 30 ( a + b ) Absent 1 9( c ) 1 1( d ) 30 ( c + d ) T o t a l 48 ( a + c ) 1 2( b + d ) N ) 60 ( ) I目序カテゴリカルデータ) 2.22x5分割表データ ( 単純画像およびデFジタノレ画像マンモグ、ラフィで、 BlRADスコアにより乳癌の確信度を評価した例 題である.データの対応関係については Webの別添資料を参照されたい. 表2 . 2マンモグ、ラフィを用いた乳癌の悪性領域の検出 MammogramR e s u l t s D i s e a s eS t a t u s 2 3 4 。 D i g i t i z e dF i l m M a l i g n a n t Normalo rb e n i g n 2 2 8 7 1 1 8 P ! a i nF i l m M a l i g n a n t Norma!o rb e n i g n 2 1 7 1 1 1 0 6 5 。 。 。 。 T o t a l 1 3 45 1 3 45 2 . 3連続データ 重度の頭部外傷を伴う患者の CK‑BBアイソザイムを測定し,その予後を予測する例題である. 表2 . 3 CK‑BBアイソザイムによる重度の頭部外傷を伴う患者の予後予測 PoorOutcome : 1401 0 8 72301 8 31256700168002537401 2 6153283903031 9 37 6 137054391323046360.)09: = ) 7 66 7 180490156356350323 1 5 6 01 2 0 * 43. ) 2 37 63033 . 5 : 3206 216' GoodOutcome : 1362862812 320014622096100601 72 71 2 61002537040646 2 .4クラスターデータ ( 2値データ) 同一症例に対し複数存在しうる副甲状腺機能 t遅症の病変検出のために.PETおよび SPECT 検査を実施した例題である.データ詳細は Webの別添資料を参照されたい. ‑418‑

406.
[beta]
表 2.4冨J
I甲状腺機能尤進症の病変検出のための PETおよび SPECT検 査
No.丁目 eNegative

I
D

PET

。

SPECT

No.GJands

3

3

I
D
:症例番号(クラスター)

2

2

3

3

3

3

3

3

No.丁目 eNegative:真陰性結果の数
NO.GJands:真の病変数

3
. 診断検査における各種統計量 (
2x2分割表データ)
診断薬の重要な課題のひとつとして,診断・検査の特性の把握がある.これは多数の症例を用
いて「真の状態」と「検査結果」を比較することでなされる.結果は表 2.1に示したような 2X2分割表
で要約される.検査特性を要約する感度,特異度,陽性・陰性尤度比,オッズ、比の推定は,通常の
2項分布におけるそれと同様であり, FREQプロシジャに RISKDIFF,RELRISKオプ、ンョンを設定す

ることで解析が可能である (SASsamplecode1l.

行 l
行 2

リスク

漸近標準誤差

0
.
9
6
6
7
0
.
6
3
3
3

0
.
0
3
2
8
0
.
0
8
8
0

リスク

漸近標準誤差

0
.
0
3
3
3
0
.
3
6
6
7

0
.
0
3
2
8
0
.
0
8
8
0

唱信頼区間
9
5

9
5
首信頼区間

(漸近)

(正確)

1
.0
0
0
0
0
.
8
0
5
8

0
.
9
0
2
4
0.
46
0
9

0
.
8
2
7
8
0.
43
8
6

9
5
首信頼区間
行 l
行 2

9
5
首信頼区間

(漸近)

0
.
0
0
0
0
0
.
1
9
4
2

(正確)

0
.
0
9
7
6
0
.
5
3
9
1

0
.
0
0
0
8
0
.
1
9
9
3

0
.
1
7
2
2 ←偽陽性 FPR=げ(c+d)
0
.
5
6
1
4 ←特異度 Sp=d/
(
c
'
+d)

9
5
弘信頼区間
b
P
6
b
q
3
d
F
5
υ
'
'

ハHv ﹁﹁

︽
ノ
υn4
?
UnJ
q
ハ

ハU1AハU
i
ハν
ノ'
n
4
?

戸
=
﹁

心
ハ

Uη ノ

尺

.Jn︽υ ハ
凶d

QJ h
b U
♂

戸

U
b
'
1
}
l
Aハ

クク

ずヘ日ノH ノ

メ対対

比スス

オ相相

111

レヂチ

(のの
究1 2

ソノ''卜

立一一

ト究究
い研研

一一一

スホホ

ケココ

︑
﹃
=
戸7nt υハnUuJ

f
直

研究の種類

0
.
9
9
9
2 ←感度
Se=a
/
(
a7
'b
)
0
.
8
0
0
7 ←偽陰性 FNR;b
/
(
a
;
'b
)

1
4
0
.
8
9
7
7 ←オッス、比
OR=ad/b
c
2
.
0
2
0
1 ←陽性尤度比 LR(+)=Se/(1‑Sp)
0
.
6
6
0
8 ←陰性尤度比 Lf(‑)=(I‑Se)/Sp

SASでは感度,特異度の信頼区間として Wald法(漸近正規 l,Clopper‑Pearson法(正確)が標準

的に出力される (BI¥O¥;I.
I
ALC,R
I
Sr
:DIFFCオフ、ンョン;こより連続補正).近年,被覆確率の観点よ
り有用とされている Wilson'日 score法は SASsamplecocle2で推定できる.
1
.
刊
、
ドI

S
c
n
s
i
l
i
v
i
l
Y

I
Iヲ1
)
(
'
1
95'
Y
oC
I
SenぉI
I
I、i
t
¥
' S
e
n
s
i
l
i
v
i
l、

0.96667

0)
)
:
3:
3
3
0

S
p
(
'じi
l
i
c
i
t、

1
.
(
川l
'
r
9
5
'
J
oCl
Speじi
l
i
c
i
l
v

LJ
1
J
1l
'
r
95%C
1
S
p
c
c
i
l
i
c
i
l、

0
.3
:666i

0.2187,
1

0.54186

~;](~ù 仁 l

0
.
9
9,
1
0
9

「疾患あり」と「なし」の判別能を示し.オッズ比と共にメタアナリシス等で利用される '{ou!
cen's i
n
c
l
e
x
(ル +s
p‑1)とその信頼区間は SASsampleじode:3で推定できる.
凋斗

n
u
'EA

407.
[beta]
Youd巴n
'
s
l
n
d巴x

SE

Low巴r
9
5也C
I

Upp巴r
9
5也C
I

0
.
3
3
3
3
3

0
.
0
9
3
8
8
7

0
.
1
4
9
3
2

0
.
5
1
7
3
5

4
. 臨床における決定分析
感度,特異度は診断・検査の正確性を示す指標であり,臨床の現場でより重要となる指標は,検
査結果から疾患の有無を予測する陽性・陰性予測値である.しかしながら予測値は,有病率の影
響を受けるため, c
a
s巴 c
o
n
t
r
o
l研究などで収集された有病率を反映しないデータからは推定できな
い.ここでは, Bay自の定理に基づき有病率を事前確率(検査前確率)として与えたもとでの事後確
率(検査後確率=陽性・陰性予測値)の推定について述べる.陽性予測値は以下のように記述さ
れる
PPVニ

pr
官v
a
l
e
n
c
exSe
p
r
e
v
a
l
e町 exSe+1
(一prevalenα)x(
1
‑Sp)

D'
r
e
v
a
l
e
n
ce
Se
O
ぱd
出
d
.
'
s
(
斤
P
PV
幻)=od
品
d
.
'
s
(
印
prev
α
l
た
ence)xμ
Li
ω
k
e
,
l
肋
i
仇
h
加
伽
0ぱ
0d品
R
α
ω
ω
I
μ
ω
l
ω
o
戸
}
o
rp
戸o
s
i
臼
l
l
i
陀
v
e削
I
ω
E
s
l= .
.‑.
̲
‑
‑
‑
‑
‑
‑ x一一一
1
‑p
r
e
v
a
l
e
n
c
e 1
‑Sp

オッズによる表現は尤度比(検査のもつ情報量)の理解を助け有用である.さらに簡便な方法とし
て Fagan のノモグラムがある(図 4
.1
).事前確率(有病率)は,疫学データ,当該施設の患者層な
どから評価者が適切に設定する. SASでは LOGISTICプロケジャの CTABLE,PEVENTオプ、ンョ
ンを用いて各予測値の推定ができる (SASsampl巴 cod巴4
).横軸に事前確率(有病率),縦軸に事
後確率をプロットした B町田曲線は GPLOTプロシジャにより描画する(図 4
.
2
).各曲線は対角線よ
り事離するほど影響力のある検査であると解釈できる.

100
90

80
;
; 70
五

E 60
0
』

a
. 50
d

‑

円以内りゅ

2'1J

~
40
・
m

̲
g 30
20
!
日

,

o 10 20 30 40 50 60 70 90 90 100

,

99~---~--~

P
r
e
t
et
Prob!
lb
l
h
!リ

・

11 弘 ~hhood

R "0

・

Po t
‑
t
e
s
'
Prob b
l
h
tl
,
j

PretestProbability

図4
̲
1 Faganのノモグラム

図4
.
2 Bayes曲線

‑420

408.

感 度 96.7%,特異度 36.7%,陽性尤度比 1 . 5 3,陰性尤度比 0.09の検査では,事前確率を 50%に 設定したときの事後確率は,結果が陽性のとき 60.4%,陰性のとき 8.3%となる. 5 .ROC曲線と AUCの推定(順序カテゴリ力ルデータと連続データ) ROC曲線 ( R e c e i v e rOperatingC h a r a c t e r i s t i cc u r v e )は,検査結果の陽性・陰性を定める cuto汀 値を小さい値から大きい値へと連続的に動かしたとき,横軸を偽陽性率=( 1一特異度),縦軸を感度 としてプロットした曲線であり,曲線が左上角に近いほど性能が良いことを示す. 。 。 S p e c i f i c i t y 0 . 8 Without Disease With Disease ~ 巳 。 こq ミ~ 0 . 6 q 〉J ー 〉 ~ S e n s i t i v i t y α b C 3 J C ν コ 一 ‑ ロ j 50.4 Z q 也J L C L 0 . 2 D o 凹吟 0 . 2 0 . 4 0 . 6 0 . 8 F a ! s eP o s i t i v eR a t e( 1 ‑S p e c i日c i t y ) Cutoffval 図5 . 1ROC曲線 ROC 曲線を要約した指標として AUC(ROC 曲線下面積)がある.AUCは全ての cuto汀値に対 する平均的な感度もしくは I 疾患を有する症例」と「有しない症例」から任意に選択した検査値を それぞれ X ,Yとしたときの P r(X>Y )として解釈される(疾患を有するときに,より大きな値をとる場 合).以下に種々の ROC曲線および AUCの推定法を紹介する. 5 . 1 ノン 1 ¥ラメトリック j 去(EmpiricalROCapproach) 得られたデータカら取りうる全てのじ uto仔値に対応する感度,特異度より RuC 曲線を推定する し 丁 ROC,ROCEPS=O ノ「フシ : 1ンに上る出力を利 方法で ある.SASでは LOCISTICフロシ、ンャの o 用してC;PLClTソ r 'シジャ;こより描画できるー¥ lC ; 士 LOCISTIC ブ uシジ γぴ ) (統計量もしくは V v i l c o x o n‑¥ 1ann‑v¥ihtney統計量との等価性を利用して '¥PARlvVAYプロシジャの出力を若干加工 して推定可能である ( S ; ¥ Ssampleじu c i ( 5 ). taし ( 1988)の指数分布に基づく近似を利用した 1 ¥ l I Lプロシジャによるマ . AUCぴ〕分散は, Delunge クロを用いて推定できる ( h t t p :// e ¥ ¥ ' e 3 . s a s .: com/techsup/download/s t a t/ r o c . h t m 1 ).マクロパラメー ノ タを以下のように指定する. 4 2 1

409.

宅l et indata 毛l et vars %let ind もl et contrast 女入力データセット; 女検査結果を示す変数; 犬真の状態を示す変数; 女対比 (contrast)の 指 定 ; = dataset var; = std; =宅s tr({l)); b o o t s t r a p法による分散の推定は,古川│ら ( 1 9 9 6 )が MULTTESTプロシジャを活用して実現している. 本稿では%DOループを利用せず,かっ ODSステートメントを使用することで実行速度を向上させ a m p l ec o d e 6を作成した. た SASs 5 . 2 最尤推定による b i n o r m a l法 (ROCKIT) 疾患群,疾患を有しない群の検査値の各分布に両正規分布 ( b i n o r m al)を仮定して,以下のモデ ルへの当てはめによりノンパラメトリック法とは異なる滑らかな ROC曲線を推定する. S e n s i叫 =φ も+ゆ吋F PR)) (α=(μlμ0)/σ 1,b= σ0/σ1) 古) M = j R O C ( m W R = P ( X〉 Y)=φ( ここで, φ は正規分布の分布関数である.b i n o r m a l法による ROC曲線の推定は Metz( 1 9 7 8 )の最 尤推定に基づく方法が一般的に利用されている.連続データに対する最尤推定は,データを順位 変換し適当な数のカテゴリに分割したデータに基づき行われる.この場合, ROC 曲線はデータの 順位情報のみに依存するため,検査値は適当な単調変換により正規分布を仮定できればよい.本 方法は FORTRANによりコーディングFされており, Web上で配布されている. R O C K I T : h t t p : / / x r a v . b s d . u c h i c a 疋o . e d u / k r l l K RL ̲R OC/softwarei n d巴x . h t m b i n o r m a l法に基づく ROC解析は ROCKITを用いた解析がデファクトスタンダードであるため SAS へのコード変換は試みなかった.しかし, ROCKIT で必要とされる入力データ形式は, SAS で一 般に利用される形式とは異なりデータ整形に若干の労力が必要となることから, ROCKIT 用データ a m p l ec o d e 7 ). 変換のプログラムを作成した (SASs 5 . 3 パラメータ直接推定による b i n o r m a l法 更な b i n o r m a lハラメー夕日, bの推定法として,疾患群,疾患を有しなし、群山各分布の平均 より筒 1 値( μ lμ ( ) ),僚準偏差 ( σ 1・σ ( ))を直接用いる方法がある.この推定法は RüCI--::IT と異 t~v人両分 司 布が正規分布と仮定できるよう解析に先立ちデータ変換を施す必要がある.正規分布が仮定でき ない場合は適切な推定値が得られない.本手法を実現する SASS a m p l ecode8を作成した.なお, I\n.~ の信頼区間の推定にあたっては logit 型の変換に基づき正規近似を良くしている. 5.4その他の推定法 Blumeは尤度関数を直接指定して ROC曲線を推定サる方法を提案しており,¥し ¥11¥EDフロシ ‑422

410.
[beta]
ジャにより実行できる.

proc nlmixed data=data;
parms a=l b=l gO=‑l gl=l;
*初期値の設定;
o = std ;
*真の状態を示す変数;
score = var ;
*検査結果を示す変数;
z=(gl*(1+(b‑1)*0))*exp(0.5*((1+(b‑1)*0)*(gO+gl女score)+a女0
)女
夫2
);
*尤度関数の指定;
if (z>le‑15) then ll=log(z); e1se 11=‑le15; *対数尤度;
model score ‑ general(ll);
女モデ、ル式;
estimate "AUC" probnorm(abs(a)/sqrt(l+b*b)); 叫 UCの 推 定 ;
r
u
n,

S
t
o
b
e
r& Yeh(2002)は,ローレンツ曲線の関数型に基づ、き非線形最小二乗法によりパラメータを

推定し,ジニ係数より AUCを求める方法を提案している.推定は NLINプロシジャにより行う.詳細
は文献を参照されたい.

5
.
5 各手法による ROC曲線および AUCの推定
.
2(デジタル画像)および 2.3 の例題に対し 5.1~3 節で述べた ROC 曲線をそれぞれ図 5.2 ,
表2
5
.
3に
, AUCとその分散の推定値を表 5
.
1に纏めた.
S
e
n
s
i
l
i
v
i
l
y

S
es
i
t
i
v
i
l
y

1
.0

1
.
0

0
.
8

o
.日

0
.
&

0
.
8

0
.
4

0
.
4

0
.
1

0
.
1

門

日
目
。

0
.
0

o
.日

0
.
1

0
.
4

0
.
&

日.
8

0
.
0

1
.
日

0
.
1

0
.
4

0
.
&

0
.
8

l
‑
S
p
e
c
i
fi
c
i
l
y

l
‑
S
p
e
c
i
f
i
c
i
l
y
図:1.
22
.
2の ROC曲線

図:1.~l 表 2.:3 の ROC 曲線

表;
)
.
12
.
2と表 2
.
:
3のA.lCと分散
長2
.
22
.
3

v
:
!
e
t
h
o
d

Al'C

V
a
r
(
A
l
'
C
)

.
A
l
i
C

V孔r
(
A
l
'
C
)

.
)
E
m
p
i
r
i
c
a
l(
D
e
l
o
n
ge
tal

0
.
8
4
7
0

0
.
0!
'
i9
8

0
.
8
2
8
0

0
.
0!
'
i2
5

(
b
o
o
t
s
t
r
a
p
)
E
m
p
i
r
iじ日 1

0.8470

0
.
0
5
7
4

0.8280

0.0516

F
i
t
t
e
dB
i
n
o
r
m
a
l(ROCKIT)

0
.
9
0
4
5

0
.
0
6
5
2

0.8313

0.0519

cB
i
n
o
r
m
a
l(
r
a
w
‑!
ci
1
t
a
)
F
i
t
t
e!

0
.
8
7
4
5

0
.
0
4
8
0

0
.
i
9
0
J

0
.
05
:25

0.8194

0
.
0
5
8
1

Io
g
‑
t
ri1n
s
f
o
r
m
ec
!
)
F
i
t
t
e
dB
i
n
o
r
m
a
l(

4
2
3一

1
.0

411.

5 . 6 ノンパラメトリック法とパラメトリック法(最尤推定)の特徴 順序カテゴリカルデータにおいて,パラメトリック法は多くの場合良く近似された滑らかな ROC 曲 線を提供するが,例数が少ない場合,極端に度数の少ないカテゴリが存在する場合には,最尤解 が収束しなし、ことがある.ノンパラメトリック法は分布の仮定を必要としないが,データ分布によって は台形法による AUCの推定値が大幅に過小推定されてしまう. 連続データでは,データが binormal仮定を満たさなくとも AUCの点推定値,分散とも両方法で非 常に似た結果となることが示されている. 6 . 最適な c u t o 仔値の決定 最適な cutoff値として以下で表現される平均損失 C を最小化するように決定されることがある. C= Co+Pr(TP)xCTP+pr(FP)xCFP+pr(TN)バ TN+Pr(FN)xCFN =Co +Seリ l e v a l e附 xCTP+FPR刈 x( 1一p l μ ε V α l μ ε 印 U 附 n 1 + ( 1一FPR)x(l一p l e v a l た E附 ) xCTN+ ( l一刈 S e サ E) リl た e v a l e n c exCFN V ι 上式を FPRで偏微分し ,導関数を Oとして以下を得る. lp r e v a l e n c e CFP‑CTN m= x一 一 一 一 一 一 一 一 一 一 一 一 p r e v a l e n c e CFN‑CTP S 品e 削 n s ω i μ t i 加 μ 川 t 口 川 l i 吻 v 川 J i 各コストおよびべネフイツトを設定したとき σ の )c ω u t 句O宵値を求めるプロクググ、守、ラムを作成した(侶 SAS sample ∞ Co 由 d 巴引 9 ).実際問題においてはコストとベネフィットの設定は困難で、ある場合が多いため,これらを感 度分析的に動かしながら, cutoff値を設定することもある.表 2 . 3のデータにおける最適な c u t o l f値 (有病率 30%,コスト比 0 . 2の場合)を以下に示す. C u t o f f V a l u e S e n s i t i v i t y S p e c i r I c i t y 0 . 9 7 5 6 1 0 . 9 7 5 6 1 0 . 9 5 1 2 2 0 . 2 6 3 1 6 0 . 3 1 5 7 9 0 . 3 6 8 4 2 0.'1~ 1 0 ; ) 0.1~ 1 0 o 1 6 6 0 7 0 7 6 8 0 0.951~~ 0.90~ トl S e ‑ m ( I ‑ S p ) 0 . 6 3 1 7 5 0 . 6 5 6 3 1 0 . 6 5 6 1 8 l a x 0 . 6 8 1 0 1 ←¥ 0.632~6 7 . 診断方法問の比較 診断検査法聞の比較において一般的なデザインである「対応のある場合 Jについて述べる. 7 . 1 2x2分割表の解析 検定は感度,特異度ごとに ' v 1 c : ‑ . . iemar検定 (FREQプ口、ンジャ :AGREEオフ勺ション)を実施すれば よい.対応、のある場合の差の信頼区間として¥;¥a l d法 , ¥ewcombe‑Wilson法(連続修正)の 2つの 推定値を出力するフログラムを作成した (SAS 州Irlp l e じり del0) 表 2 . 1のデータは 2つの検査法 4 2 4

412.

聞の比較としづ意味では不適切であるが,ここでは数値例として利用する. 司 ︒ ︒ )4 A T i 0. 42482 Fhu ‑ 0 . 3 白百山 5 pi D・ ムれ I げ Anu C一 D i f f e r e n c e Lower 95% C I ( W a l d ) pQJH引 o f UU P o i n tE s t i m a t巴 Lower95% CI(Newcombe‑ W i l s o nCC) Upper95% CI(Newcomb巴 ‑ WilsonCC) 41918 0. ‑0.16551 7 . 2ROC曲線における AUCの比較 5.1~3 節で述べた各方法で検定が可能である. Delong e t al.のマクロで、は,表 5 . 1の varに 2 つの検査法の対応する変数(例:vars 二 modality1 modality2;),contrast に対比(例:contrast 二 % s t r ( {1 ‑ 1 } );)を指定すればよい.表 2 . 2 に 対 す る 解 析 結 果 は Empirical:P=O.783, Binormal(ROCKIT):P=O.351,B i n o r m a l ( d i r e c t ) :P=0. 416で、あった. 対応のない場合の解析は,患者背景間(性別など)の比較などで検討されることがあるが,分割 表解析ではカイ自乗検定, ROC曲線における AUCの比較では共分散項を 0として検定統計量を 構成すればよい. 8 . クラスターデータの解析 表 2.4の例題のように,同一症例に対し複数の検査結果がある場合,症例がクラスターをなして おり個体内の相聞を考慮した解析が必要となる.クラスターデータに対する感度もしくは特異度は, 点推定値ではクラスターを無視した場合と同一であるが,分散は相聞を考慮することで適切な推定 値が得られる.表 2.4の解析結果を示す (SASsamplecodell). 0.92157 C o v a r i a n C l ' D i f f l ' r p n C l ' 一. 0 0 0 01 )6 25 :0 一0 . 1 : 1 75 コ 0 . 0 3 5 . 1 7 ' 1 SDc t i f l しOW巴「 95%CI D i f f 9 U 5 p % p C 巴l 「 D i 、 日 0.079~ [ 8 0.~92 るコ 0 . 0 [1 )0[ 0 zv a l u e ー 1 . 1 : 3ゴ02 白 0.92073 Jnp 0.64789 可 0.069603 Upp巴「 95%CI SPECT TM Sp巴c i f i c i t y SPECT SDSPECT ‑一 HArl Upp巴「 95%CI ̲ PET 川戸し汀﹂﹁口 0.78431 SDPET Low巴r 95%CI PET ωvm円 β し 史5 0 S p e c i f i c i t y PET 0.99110 、 l 'a l U l ' )3[ 0[ 0 . 01 9 . おわりに 本稿では,診断・検査における基本的な解析方法会取り上げ, S入S によるサンプ/レコードを紹介 した.本テーマに関連した他の話題として,多変量 ROC解析,混合効果モデルによる ROC曲線, lmperたc tg o l ds t a n c l a r c l の補正, v e r i t i仁川 i o nh i a日山補正, spectrul l 1 b i川の確認,メタア寸リシス (summaryROC)などがある.これらは別の機会に論じたい. 425‑

413.

参考文献 1 ) U.SDepartmento fH e a l t handHumanS e r v i c e s,FoodandDrugA d m i n i s t r a t i o n,C巴n t e rf o r e a r c h(CDER) and Centerf o rB i o l o g i c sE v a l u a t i o n and Research Drug E v a l u a t i o n and R巴s (CBER). Guidancef o rl n d u s t r γ .D e v e l o p i n gm e d i c a li m a g i n gd r u g s and b i o l o g i c a lp r o d u c t s ) .2 0 0 3 . 5 ( d r a f tg u i d a n c巴 o rP r o p r i巴t a r γ M e d i c a lP r o d u c t s(CPMP), Th巴 EuropeanAgencyf o rt h eE v a l u a t i o n 2 ) Committ巴巴 f .1 1 o fM e d i c a lP r o d u c t s .P o i n t st oc o n s i d e ront h ee v a l u a t i o no fd i a g n o s t i ca g e n t s .2001 t a t i s t i c a l Methods i nD i a g n o s t i cM e d i c i n巴. 3 ) Zhou XH,Obuchowski NA,McClish DK. S 2 0 0 2 . W i l e yI n t e r s c i e n c巴 4 ) PePeMS.TheS t a t i s t i c a lE v a l u a t i o no fM e d i c a lT e s t sf o rC l a s s i g i c a t i o nandP r e d i c t i o n .2 0 0 3 . OXFORD r o p o r t i o n :Comparisono fs e v e n 5 ) NewcombeRG.Two‑sidedc o n f i d e n c ei n t e r v a l sf o rt h es i n g l巴 p .Med,1 9 9 8 ;1 7 :873‑ 1 39 0 . m e t h o d s .S t at 6 ) YoudenW].l n d e xf o rr a t i n gd i a g n o s t i ct e s t s .Canc巴 r .2 0 0 1 ; 3 : 3 2 ‑ 3 5 7 ) FaganT ] .Nomogramf o rB a y e s 't h巴orem[ le t t e r . JNEngl]Med.1975;293:257 .Comparingt h ea r e a sundertwoo rmor巴 8 ) DeLongER,DeLongDR,andC l a r k e ‑ P e a r s o nDL c o r r e l a t e dr e c e i v巴rop巴r a t i n gc h a r a c t e r i s t i cc u r v e s :A n o n p a r a m e t r i ca p p r o a c h . Biom巴t r i c s . 1 9 8 8 ;4 4 :8 3 7 ‑ 8 4 5 . 9 ) 古川敏仁,牧野建一 .ROC分析による検査診断能の比較 AUCの b o o t s t r a p,最尤推定を中 心に一.第 1 5回 日 本 SASユーザー会総会および研究発表会論文集.1 9 9 6 :355‑366. 1 0 )MetzCE.B a s i cp r i n c i p l e so fROCa n a l y s i s .S e m i n .Nuc. lMed.1 9 7 8 ;8 :283‑298. 1 1 )Metz CE,Herman BA,and Shen ] . Maximum l i k e l i h o o d 巴s t i m a t i o no fr e c e i v e r op巴r a t i n g o n t i n u o u s l yd i s t r i b u t e dd a t a .S t at . Med. 1 9 9 8 ;1 7 : c h a r a c t e r i s t i c (ROC) c u r v e s 仕om c 1 0 3 3 ‑ 1 0 5 3 . 1 2 )Blum巴 ] D .( s u b m i t )E s t i m a t i o na n c lC o v a r i a t eA c l j u s t m巴n to fROCCurvesandU n d e r l y i n gT e s t st at .b r o w n . e c l uj'j b l u m e/ sl i d e s / b l u m er oじ. p c lf ) S c o r eD i s t r i b u t i o n s .( h t t p : // 1 3 )S t o b e rP,YehS T .AnE x p l iじi tF u n c t i o n a lFormS p e c i t i c a t i o nApproacht oE s t i m a t et h eArea l' G I2 7p o s t er . u n c l e raR e c e i ¥ ' e rO p e r a t i n gC h a f i l c t e r i s t i c(ROC)Curve, S 1 4 )¥ e ¥ ¥ "Co mbeRC, I m p r o v e c lc υ n t i c l e n c ei n t e n, t ! 只 f o rt h ec l i t f e r e l l c eb e t ¥ ¥ ' e ' e nb i n o r r n a lp r o p υ r t i o n b a s e c lo fp a i r e c lc l a t日. S t a t .M e c l,1 9 9 8 ;1 7 :2635‑ 2 6 5 0 4 2 6一

414.

ガンマ生存モデルにおける ChangePoint問題 0秋山雄洋寧・緑J [ I修一"・山本和信叫$・宮岡悦良**** 寧パレクセル D M・統計解析部 H 寧グラクソスミスクライン開発本部 叫東京理科大学理学部 ****東京理科大学理学部 Change Point Problems i n Gamma Survival Models T a k e h i r oAkiyama'/S h u u i c h i加 ' 1 id o r i k a w a " /KazunobuYamamoto'" PAREXELI n t e r n a t i o n a lI n c . "TokyoU n i v e r s i t yo fS c i e n c e /EtuoMiyaoka '*GlaxoSmithKline. . . . T o k y oU n i v e r s i t yo fS c i e n c e 山 率 ネ 要旨 ChangeP o i n tとは観測値の従っている分布のパラメータが急激に変化する P o i n tの事である. ensoredDataが存在 これを生存解析における GammaModelに導入した.生存解析において, C o i n tの推測を AIC(A k a i k eI n f o r m a t i o nC r i t e r i a )を用いて導 する場合を考慮に入れて, ChangeP いた.また,シミュレーションにより ChangeP o i n tの推測及び,パラメータの推定量の分布の漸 近正規性を確かめた.そして,これらの解析プログラムを SAS/IMLを用いて作成した. キーワード: SAS/IML, Change P o i n t, Censored Data Chapter1 . Introduction 統計学の見地から ChangePoint は観測値の従っている分布が変化するポイントの事である~ れは以下の仮説で表す事が出来る. X1,X2, ' " , Xnをそれぞれ確率分布関数 F l, F 2γ・ ・, Fnを持つ独立な確率変数とする. 帰無仮説 F l= F 2=...= Fn 対立仮説 F l= F 2=・ ・ =F k手F k + l=...= Fn ここで ,kは ChangeP o i n tである.もし,分布 F 1 '" ' , Fnがあるパラメータ 81, . ・ ., 8 nで規定さ れるならば上記の仮説は次のように書き直す事が出来る. 帰無仮説 対立仮説 。 。 1= ・ ・ ・ =8 n 1= ・ ・ ・ =8 k手 8k+l ‑427‑ =' " =8n

415.
[beta]
この仮説に対して様々な人が研究をしている. Haccou,
P
.
a
n
dM
e
e
l
i
s,
E
.は,指数分布に従う確
率変数に対しての ChangeP
o
i
n
t問題を扱った [
H
a
c
c
o
u,
P.andM
e
e
l
i
s,
E
.
;
1
9
8
8
]
. Hsu,
D.A.は株式
市場の解析に GammaModelの ChangeP
o
i
n
tを導入した [
H
u
s,
D
.
A
.
;
1
9
7
9
]
. また, Quandt,
R
.
E
.
や Chen
,
J.andGupta,
A
.K.は正規分布の場合の線形回帰モデルに ChangeP
o
i
n
tを導入した.

[Quandt,
R
.E
.
;
1
9
5
81
9
6
0
]
本論分では生存解析の ChangeP
o
i
n
t問題に GammaModelを適用した.ここで生存解析の
GammaModelについて少し述べておく.
生存時間五

(i=1"
'
, n)が密度関数fy, (
ω
) = 市uf‑IE0
・抗に従う確報知する

干

の時,期待値 E医]=ま =μj,分散 V
αr
[
日]=会である.むを c
e
n
s
o
r
e
dt
i
m
e,んを m 田 町d
jが u
n
c
e
n
s
o
r
e
dの時には1. Y
jが c
e
n
s
o
r
e
dの時には Oを取る.そして
i
n
d
i
c
a
t
o
rとする.んは Y
Z
jニ m
in{Y
;
,t
i}とする.またこの時,Y;の生存関数 ,S(y
i
)は

S
(
ω)=P
(五三 Uz)=1‑l fLJ‑lEhzdu.
Y
i f
(ゆ
),
‑
で表される.またこの時, h
a
z
a
r
dF
u
n
c
t
i
o
n,h
(ω)は

命 d‑lEOω
r

f
(
ω)

h
(
Y
j
)=一 一 =
S(初) 1‑ ∞ 4‑J‑IE‑0
山 d
u
山Y
i rゆ
)
ρ

で表される.また β を q次元の未知のパラメータベクトルとし,説明変数の行列(計画行列)として

ぺ│
=
[
:
:
:
;
:
l

L
i
n
kFu
n
c
t
i
o
n
(
g
)は ,g
(向)=走 =xTβ とする.

Chapter2. Estimation
L
i
n
kF
u
n
c
t
i
o
nを g
(向)=会 =s
hangeP
o
i
n
tを導入した場合の仮説は以
iとした時, C
o十 s
1X
下のようになる.

‑
1=s
帰無仮説 :E[
日]
o十 角 的

(
i=1,
…,
N)
k
)
Jβb
+β:zz(i=1?…,
1
対立仮説 :ERl‑
l={ 1
1
(
i
1
k
十
N)
,
…
s
g
,
角
的
=
I +
o
i
n
t
)
(
k
;
c
h
a
時 ep
この時,まずパラメータ s
oγ ・., ß~ を最尤法,ゆをモーメント推定量で推定する.そして推定
した値と AIC(AkaikeI
n
f
o
r
m
a
t
i
o
nC
r
i
t
e
r
i
a
)
[
Y
.
S
a
k
a
m
o
t
o,
M.
I
s
h
i
g
u
r
o,
andG
.
K
i
t
a
g
a
w
a
.
;
1
9
8
6
]を用
いて ChangeP
o
i
n
tを推定していく.

428‑

416.
[beta]
対数尤度関数は
N

L)仰 10g()i一 10gf(ゆ)+(ゆ‑1)10gYi‑。出)

l
(β0,
β1,
o
)

i=l

ω

+
(
υ
l一ゐ
州
)
川
(
一
ゆ
μ
仰附
1
O
0

g
子
E
?
j
(
附

一
‑1暗
0

り
1
)
}
}

Z

u一

U 一

AVAV

一

U

包一

ι

+一同+一町++

戸

λU

uuuu

AV
一︽︒一久

戸

λU

的引

知
山
一Mma一
倒

NZMNZ

S
c
o
r
eF
u
n
c
t
i
o
nは

ト
2
伊

巾
l
)
<
1
>
ゆ 1州 一 0
ω
t附

α
町

副

そして, S
c
o
r
ev
e
c
t
o
rは f
j= (U
,
U1)Tとなる.ここで U1,
U2,
U3は
o
n

1
2

f
J
<
I
>
,

,

1
‑
)
‑
‑
=
α ム(竺)ゆ (mj+1
)>
1
<
‑
1叫 {‑202(m1+l)}
全
11r(ゆ)
'
2
τ工 o
(
)
f
‑1,ti,
"
"
.
,
"
, ‑1
= ‑主
)1
~α ー~(一)ゆ (mj +1) い叫 {-~()i(mj +1
)
}
1r(ゆ
)¥2
n
lJo
一一 )~α
二~(~)ゆ
(mj
)
<
1
>‑
1(
-~(mj
)
)exp{-~()i(mj +1
)
}
.
11r
(ゆ)¥2/ ¥
"
"
)+1
i/
¥ 2
¥
"
"
)+1
.
J
.

会

.
J
.

.
J
̲

I

次に, O
bservedI
n
f
o
m
a
t
i
o
nMatrix,T を求める.まず対数尤度関数の 2階微分がそれぞれ以下
の式で表される.
が一川町

ι
ゅ (
+ +
久{
O
i
(
+(トん)(

θ
2
θ
β
l
θso

一 一 一 l=乞 {
O
i
(一一 )+(1 6
z
)
(

-~)

θ2ι
仇 似 合7

U4

2U5

)
}
が

ゆ (
U4+2U5+U6)Ul 一 (U2+U3)2

ι ゅ (+ +

L

+U3)2 ?

U6)U1 一 (U2
u2

U4

2U5

俳

ここで ,U4,
u5,
u6は

429‑

2

U6)U1 一 (U2十 U3)2 ? A

空

)}仇i

417.
[beta]
U4

ι ゅ(ゆ D
‑1)
1
1
φ
‑
2t
;
t
‑
/
¥
‑
ユ)φ(町 +1
) ‑kp{ 2
0
2
(町 +1)}

ーデ αi

合

J

φ
ゆ

,

1¥1

.
1

(

'
2

r
(
ゆ
)

ιq
;
(
)
φ

ー1

U
s

ーデ αj」 ー (2)φ (mj+1)φ 1
( 2(mJ+l)) 叫 {-~()i(町+ 1
)
}
台 Jf
(ゆ
)

U6

一寸
主φ
)(mj+ 1
)
φ 1(
一
主
(mj+ 1
)
)
2叫 { 弘 (mj+ 1
)
}
合 αjfL(
Jf(ゆ)'2' ¥"‑J ',
‑
2

ー

7 は,対数尤度関数の

ー

2階微分をマイナスにした値なので
r

82

82 1

11

I d
s
X
' 一 菰8荷i
'I
一 I
8
I

7 一

2
‑

1

L 荷声高 ι

2 1

一再I' J

Chapter3.シミュレーション
今回,生存解析における ChangeP
o
n
i
n
t問題に GammaModelを導入した際, CensoredData
が含まれた場合に ChangeP
o
i
n
tが正確に推定出来るかどうか,また正確に推定出来た場合でも
CensoredDataが含まれる事によってパラメータの推定の精度がどうなるのかをシミュレーシヨ
ンによって確かめた.データは以下のように設定した.データ Y
1,
・
・ ,
YNは ChangeP
o
i
n
tが存
在するようにし, SampleS
i
z
eは N = 1
0
0で,共変量 Xl
,
・
・ .,
XNは [
0,
0
.
5
]の一様乱数の値を用
いた.ここで、共変量は値の小さい順にソートした.真の ChangeP
o
i
n
tを k= 50に設定した.そ
,

し て , 真 の パ ラ メ ー タ は 局 =10 , β~ = 15 , ß~ = 20 , ß~ = 2
5,
ゆ =2とした.このように設定する
と応答変数は Y
1γ ・
.,
Y
1∞ は i= 1,
.
・
.,
5
0では Gαmmα(20+30Xi,
2
)に従い, i= 5
1,
・
・
.,1
0
0で
は Gαmmα(40+50Xi,
2
)に従う.反復回数は 5
000回行った.また, CensoredDataの場合は 1
0
%
,2
0%
,3
0%のそれぞれの場合について行った.初期値についてはまず適当な値を代入し 1
0
0回
程反復させ推定値を求め,その推定値の平均を次の初期値として繰り返す事を 3回行い,

3回目

の推定値の平均値を初期値とした.
まず,今回の場合においては C
ensoredDataが 2
0%までは k= 50の時の AICが最も小さいの

o
i
n
tを k= 5
0と推定する事が出来,自由度 2の が 分 布 の 9
5%点が 5
.
9
9
1
5なので帰
で ChangeP
無仮説が棄却された.しかし, C
ensoredDataが 3
0%になると帰無仮説の時の AICが最も小さ
くなり ~Change P
o
i
n
t無し』と誤った推定がされてしまう事が分かつた.また,正確に推定出来

る場合でも U
ncensoredDataと CensoredData10%の推定値を比較した時は,局は 1
0
.
1
9
5
8
1
3
4
から 9
.
9
0
8
7
4
6
8
7,β
(は 15.3192068から 14.2870776, ß~ は 21
.0
212555から 1
9
.
6
3
8
0
7
3
7,βfは
2
4
.
1
6
2
6
6
6
6から 2
4
.
6
1
8
5
5
3,ゅは 2
.
0
9
3
4
5
3
9
4から 2
.
2
4
5
0
6
1
4
2となり, φ以外はパラメータの推定
の精度の差が見られなかった.しかし, U
ncensoredDataと CensoredData20%の推定値を比較

0
.
1
9
5
8
1
3
4から 8.94772949,ß~ は 15.3192068 から 13.005341 , ß~ は 2 1. 0212555 か
すると品は 1
ら1
8
.
5
5
0
6
7
3
4,β
fは 24.1626666から 20.322091,ゅは 2.09345394から 2.60589962となり,どの
パラメータも推定の精度が悪くなっている事が分かつた.つまり C
ensoredDataが増えると推定
の精度が悪くなっていく事が分かつた.そして,推定値のヒストグラムを見ると推定値に正規性
がある事を見ることが出来た.これは正規確率プロットを見ることで‑推定値の度数が直線上に乗っ
ていることからも正規性があることが確認できた.

‑430‑

418.

R e r e r e n c e s Dobson, A.J.(1990).ANINTRODUCTIONTOGENERALIZEDLINEARMODELSSECOND N :CHAPMAN& HALLjCRC. EDITIO Fahrmeir, L.and Kaufmann, H . ( 1 9 8 5 ) . C o n s i s t e n c yand a s y m p t o t i cn o r m a l i t yo ft h e maximum o d e l s . A n n a l s0 1Statistics, 13, 3 4 2 ‑ 3 6 8 . l i k e h i h o o de s t i m a t o ri ng e n e r a l i z e dl i n e a rm Chen, JandGupta, A.K.(2000).PARAMETRICSTATISTICALCHANGEPOINTANALYSIS : B i r k h a u s e r Haccou, P訓 l dM e e l i s, E .( 1 9 8 8 ) . T e s t i時 f o rt h eNumbero fChangeP o i n t si naSequenceo fExpc ト n e n t i a lRa ndomV a r i a b l e s, J o u r n a l0 1StatisticalComputationandSimulation, 30, 2 8 5・2 9 8 . Haccou, P, andM e e l i s, E . , andGeer, S . ( 1 9 8 8 ) . T h el i k e l i h o o dr a t i ot e s tf o rt h echangep o i n tp r ob ‑ lemf o re x p o n e n t i a l l yd i s t r i b u t e drandomv a r i a b l e s, S t o c h a s t i cP r o c e s s e sandT h e i rA p p l i c a t i o n s , 27, 1 2 1 ‑ 1 3 9 . D . A . ( 1 9 7 9 ) . D e t e c t i n gs h i f t so fparameteri ngammas e q u e n c e switha p p l i c a t i o n st os t o c k Hsu, p r i c eanda i rt r a f f i cf l o wa n a l y s i s . J o u r n a l0 1theAmericanStatisticalAssociation.74, 3 1 ‑ 4 0 . Quandt, R .E .(1958).Theestimationo ft h ep a r a m e t e r so fal i n e a rr e g r e s s i o nsystemobeystwo e g i m e s, J o u r n a l0 1theAmericanStatisticalAssociation, 53, 8 7 3 ‑ 8 8 0 . s e p a r a t er Quandt, R . E . ( 1 9 6 0 ) . T e s t so ft h eH y p o t h e s i st h a tal i n e a rr e g r e s s i o nsystemobeystwos e p a r a t e r e g i m e s, J o u r n a l0 1theAmericanStatisticalAssociation, 55, 3 2 4 ‑ 3 3 0 . Smith, P岬 002).ANALYSISOFFAILUREANDSURVIVALDATA:CHAPMAN& HALLjCRC. S ., Makio, LandG e n s h i r o, G . ( 1 9 8 6 ) . A k a i k eI n l o r m a t i o nC r i t e r i o nS t a t i s t i c s : D . R e i d lPub‑ Y o s i y u k i, l i s h i n gCompany. EA 唱 qペU A斗

419.

ポスターセッション システム

420.

新データウェアハウジングぉ環境‑ SASETLStudioの紹介 前田幸一 技術本部プロダクトマネジメント部 SASI n s t i t u t eJapan 株式会社 NewDatawarehousingwith5A59 ‑ "5A5ETL5tudio" KoichiMaeda ProductManagementDepa同ment, TechnicalD i v i s i o n, SASI n s t i t u t eJapanL t d . 要旨 ビジネス情報の源泉である、企業に蓄積された膨大なデータ それらは部門、システムをまたがり企業内 G に散在してし泊。競争力の強化が求められる今日、市場優位を獲得するためには、データを知何に有効 に活用できるかがポイントになる。 SASではデータをビジネス情報=インテリジェンスに変換し、活用する ための様々なツール、ソリューションを提供しているが、本論では、 SAS9で実現できる 8 1プラットフォー t u d i o Jについて、そ ム、その中核をなす「データウェアハウス」を構築するための機能である iSASETLS の概要と実際のデータウェアハウス構築時に直面するで、あろう場面に対応する機能について紹介する G キーワード: Datawarehouse,ETL,SAS9,SASETLS t u d i o 1 . はじめに 「データウェアハウス」が提唱されて久しいが、そのコンセプトは I T における一時的なトピックで、はなく、も はや一般的な言葉として定着しているのではないだろうか。今日のビジネス社会では、ビジネスをより優 位に進めるために、データウェアハウスに格納されたデータをインテリジェンスに変換し、それを武器とし て活用することが必須の戦術となっている。 SAS9 では、企業における真のビジネス・インテリジェンスを 1 プラットフォームを基盤としたユーザーの求めることに応じた様々なツールやソリ 実現する環境として、 8 ューションを提供する。これらはオープンメタデータ・アーキテクチャのコンセプトの基で、それぞ、れのメタテ守 一タが一元的に統合・管理されており、また、ンステムの管理者にとっても多大な恩恵を与えるものになっ ている。 SAS9は、まさにエンド・トゥ・エンド のソリューションを実践するもので、あるといえよう c その SAS9が提供する 8 1フ。ラットフォームの基礎となるデータウェアハウス、その構築をし、かに素早く、 柔軟に行えるかが、ビジネスのスピードを速め、競争優位を勝ち取るためのキーとなる。ここで紹介する u υ 内ベ ﹁ 同 aA凶Z

421.

ISASETLS t u d i o Jは、その要求に答えるために開発されたデータウェアハウス構築ツールで、ある。 2 .SASETLStudio概要と基本機能 2 . 1SAS9のシステム構成と SASETLStudio SAS9は複数階層のシステム構成をとる 8 1プラットフォームを実現し、クライアント層のアプリケーション、 t u d i oはその サーバー層のアプリケーションは、一つのメタデータを共有し情報を統合する。 SASETLS C l i e n t層に位置する Javaクライアントアプリケーションで、あり、 Server層の SASサーバーアプリケーショ ン群と接続して利用される。 E: E x t r a c t(データソースからの抽出)JI T :T r a n s l a t e(データの変 デ ータウェアハウスの構築は一般に I 換、統合)JI L :Loading(データウェアハウス、データマートへのローディング、)Jがその主な機能として要 t u d i oは、最新の SAS9から提供される ETL環境であり、 SAS8まで提供されてき 求される。 SASETLS 川 arehouseA dministrator(SAS 川 A とする)の後継ツールに位置付けられる (SAS 川Aは た SAS SAS9でも提供される)。 ⁝ e s s r e 山町肝刊 'e ‑ ‑ ・ 唱 e a r ‑ t sd e es •••••••••• 一 ‑ SAS B a t c h Server [図 1:SAS9システムアーキテクチャ] ‑436‑ く ; ? く

422.

2 . 2SASETLStudioの基本的な機能と特徴 前身である SAS 川 A は SOL言語に準じたツールでらあったため、そのデータ加工機能には限界があり、 複雑なデータ加工処理を行うためには SAS言語によるユーザーロジックを追加することで、対応する必要 t u d i oは SOL言語をベースとしながらも SASの強みであるデータ加工に優れた があった。 SASETLS SAS言語をもその機能に取り込み、更にそれらをド、ラック、&ドロップの操作性とウィザードを基本としたユ ーザーインターフェイス、豊富なテンプレートから利用できる環境を提供して、機能の強化と使い易さの 両立を図っている。また、 SAS言語や Javaによる独自のプラグインの開発と組み込みを可能とし、拡張 十生も提供している。 品坦J l ! I 竃盤盤翠銀銭窓号法 当 血 4 iiiii J ト 口 口国マスター く事þ~~:ジコー F ‑ l i l ‑ J ! 口元上データ iiiセ竺!.~J ,)-~J;7 i' ~~i c,~! [図 2 :SASETLS t u d i o] 口ユーザーインターフェイス ド・ラッグ'&ド、ロップとウィザードベースのウインド・ウインターフェイスを提供することで、容易に、 OLAP構 造の作成を含む、データソースからターゲ、ツ卜に至る全ての ETLプロセスを構築することができる。ま た、ウィザードにより、言語に関する知識を問わず、また、プラットフォームやデータベースがどこにあ ・ るかに関わらず、数多くのデータソースへの接続が容易になる。 ウィザードにより、データの抽出、ジョブ、プロセスフロー夕、、イヤグラム、変換等の作成が容易 . ソースデザイナウィザード:テキストファイルや RDBMSデータの読み込み形式を定義 ︐t η nペU 凋斗

423.

・ ・ ・ ・ ‑ 新規ライブ、ラリウィザード:ライブラリの定義 ターゲ、ットテ手ザイナウィザード:ロード、先データの定義 新規ジョブ.ウィザード: ETLジョブ の作成 キューブデ?ザイナウィザード: OLAPキューブ.の作成 ・ ・ メタデータツリービューにより、メタデータを素早く表示し、視覚化することが可能 メタデータの再グ、/レープ化を行うためのド ラック、&ド、ロップ機能のサポート 異なるメタデータオブジェクトを簡単に区別するためのアイコン . ・ ユーザーが定義したメタデータオブ ジェクトのグ、ループ化 ・ ・ ・ ・ ビ ジュアルなプロセスデザイナ 組み込み型のデザインテンプレートや変換テンプレート、カスタムジョブ、の作成などを T Lプロセスを素早く構築することが可能 使用することで、 E テンプレートにドラッグ&ド・ロップする機能により、プログラミングの手聞を省力化 概要ウインドウで E T Lプロセス全体を僻服することが可能 変換およびロード、のステップにおいて自動的に 1対 1のマッヒ。ンク、を行い、マツヒ。ング ・ ・ ・ ・ の手聞を省力化 開発時に対話的なテスト実行の機能を使用し、デノくッグ、やジョブ戸のテストを実行可能 データ/メタデータエディタを用いることにより、全てのデータとメタデータの参照、編集 を行うことが可能 統合されたスケジューラに、簡単にジョブを配置することが可能 複数のユーザー問でージョブを共有することにより、再作業を省き、サイクルタイムを削減 口抽出( E x t r a c t ) SAS9がアクセス可能なテキストファイルや RDBMSなど様々なデータソースを抽出対象として利 用することができる。また、 S ASD a t aS u r v e y o rを組み合わせることにより、各種 ERPのデータも 抽出可能となる。 C ommonW a r e h o u s eM e t a m o d e l( C W M )規格に準拠しており、同規格に対応し たアプリケーションからメタデータをインポート/エクスポートすることも可能である。 SAS9では RDBMSに対するマルチスレッド化された読み込みが行えるが、 SASE T LS tu d i oに おいても同様であり、 R DBMSアクセスが高速化されている。カンマ区切り ( c s v形式)ファイルな AS 川 Aでは別途、 D ATAステップビューなど作成しておく必 どのテキストファイルについても、 S ASE T LS t u d i oでは、上述のソースデザイナワィザードにより、読み込み定義を 要があったが、 S 簡易に行うことも可能となった。 ロテンプレート プロセスライブ ラリとして提供される豊富な変換テンプレートを使用することで、データ加工を行う膨大 ‑438

424.

な追加プログラムを記述する手間を省き、標準的な SQLの制約を克服することができる。テンプレー トとしては約 20種類、 300以上の変換機能を提供し、文字、日付、数や式の取り扱い、また抽出や分 割のような、複雑な処理を扱うことが可能である。また、 J a v aプラグインとデザインテンプレートをサポ ートすることで、詳細な変換構造を独自に開発してウィザードとして組み込んだり、これらを再利用、 管理したりすることも可能である。 更に、変換プロセスにおいてデータを統計処理し、その結果をデ ータに保存、レポートを作成することもできる。 [変換テンプレート] ・ ソート: SORTプロ、ンジャのサポート • SQL結合: GUIによる結合デザイン、キー(主キーもしくは外部キー)に基づいた自動結合 など ・ スプリット: 1つの入力テープルを複数の出力テープ、ルに分割する SASの DATAステップ を自動生成する。 IF‑THEN 文による行の選択、ユーザー作成の行の選択基準などをサポ ート ・ ランク付け: RANKプロシジャによるランク付け ・ ・ 抽出: SQLプロ、ンジャの WHERE節および SELECT句を生成 データ転送:あるサーバーホストから、別のサーバーホストにデータを転送 ・ ・ 標準化: STANDARDプロシジャによるデータの標準化 転置:データの縦横変換(転置) ・ ユーザー作成のコード:独自のコードをプロセスフローに挿入 E Sー」データ変換 1 . 手 :SCDType2口ーター 清SQL 結合 J スブリッタ ↓二ソート 萱チータの追加 斗?データ検証 t ' 高データ 送 : ; I : フ 7 クトテーブル検索 r~ マ仁川結果 雪雪マッチコードの作戚(日本語来対応) υdユ ザ一作戚のコード I : :1ランク付け 匂}リターンコードチェック 一 . . J!~ックアップテーフルによる慎準化(日本語来対応) 口当抽出 通標準化 : 皇 位 置 [図 3 :変換テンプレート(プロセスライブラリ) ・ 局 4 nud nJ

425.

[分析とレポート] ・ ・ ・ ・ 相関:相関分析の機能を提供 度数:度数分析の機能を提供 分布分析:分布分析の機能を提供 要約統計量:要約統計量の出力機能を提供 ロマッピング データソースからターゲ、ッ卜へ、自動での 1対 1マッピング、や、 GUIによるマッヒ。ング、を行うことがで、き る。また、式ピルダを用いて計算式や SAS 関数を用いるような複雑なマッヒ。ングの実行も可能で、あ る 。 [ 穏 墨 剛1.禄百師iIi1~四 全量 ζu 斗旦l 主j i テーブル マッ巴コヲ!が替え!釘岬町 1 ¥Ml間 i 出 明I s 叫 7口口│オプションいモ I !l:畳居性│詳細量宜 i ソーステーブル(~ ょl ょj j [ ‑a : コユ立止J ~g,,,, I"l.7 I ( ! 9 [図 4 :マッヒ。ング" ] 口ローディング データウェアノ、ウスやテ守ータマートへのローディング、機能として、以下のような機能を提供している。 ・ ロード処理において、データの更新/追加を選択 ・ ・ 様々なオプ、ンョンを使用することにより、ロード 方法の最適化が可能 OLAPキューブ のデザイン、作成、ロード機能を提供 ‑440一

426.

口複数ユーザーで、の開発 t u d i oで 大規模なデータウェアハウスを構築する場合、複数人での作業が想定されるが、 SASETLS は高度な変更管理機能が提供され、複数の管理者による同時作業がで、きるようになった。また、デー タウェアハウスに対する更新の管理、追跡を行ったりすることも可能で、ある。 ・ ・ 複数ユーザーによる開発環境のためのチェックイン/チェックアウト、チェックアウトの取り消し、 削除、破棄等の機能を提供 プロセスデ、ザイナを使用して、オブジェクトの更新管理、追跡、が可能 3 .実際のデータウェアハウス構築に際して この章では、実際にデータウェアハウスを構築するに際して直面する「データのクリーニング」と、データ の ETL処理実行時において重要になる「ステータスハンド、リング〕の 2点に、 SASETLS t u d i oがどのよう 川 A では実装されておらず、 な機能を提供しているかについて紹介する。ここで紹介する機能は、 SAS こよるプロセスを組み込むことで、実現可能で、あったもので、ある O これらが標 ユーザー独自のコーデ ィング1 準の変換テンプレートとして GUI とともに提供されることで、データウェアハウス構築における簡易性、柔 軟性が向上している。 3 . 1 データのクリーニング デ?ータウェアハウスに格納されるデータには、データとしての整合性、コードの統合など、高い品質が求 められる。データに誤りがあれば、そこから得られる分析やレポートの結果、またそれにより検討されるア クションにまで、影響を及ぼす恐れもあるため、品質をし、かに向上させるかが"活用されるデータウェアハウ ス"構築のキーポイントである。 口欠損値の自動補填 データに欠損値が含まれてしも場合、自動的に特定の値を充填することが可能である。欠損値は後 の分析処理に影響を与えることが多いため、分析処理の前処理として値の欠損チェックを行うことが 常であるが、データウェアハウス構築時にこの考慮、を加えることで、分析者の負担を軽減することがで きる。ただし、 u(ゼロ)と未入力(欠損値)を区別するなど、欠損値に意味を持たせたい場合も考えら れるので、新規変数を作成して該当変数をマッヒ。ングし片方の変数にのみ補填処理を行い、分析目 的に応じて利用する変数を変えるなどの対応が必要だと思われる。このようなハンド、リング も GUI操作 で簡単に行えることが、ツールを用いる利点であるといえる。 マ ハ A 1i dq

427.
[beta]
IE
副団醐扇面画面画面画面画面画圃瞳畿勢総笠

.
d
旦j
三J
I

ぞ包マ

ステー岳ス処理
主鍛

i

マ

i ブロセヌ i マ り 内 '1 I オプシヨツ iメモ 1 !!l:強属性 i詳細 i
祭 効 なf
直

│

欠!
a
f
直
,

重視する箇

1

欠!
a泊の場合の 7'Jツョン

!

In'
J
.ι
検証
新しい値

[図 5
:データ検証「欠損値」タブ]

レタリング
口不完全レコード(無効な値)のフィ J
データソースとなるデータには入力ミスなどにより不正なデータが含まれることも、データウェアハウス
構築においては考慮すべき点の一つである。そのような不正データが入っている場合、データや後
の分析に与えるインパクトを考え、不正値を許可するかどうかのハンド、リング、や、その 1レコードを取り
除いたり、あるいは別のエラーテーブルに出力したりすることが可能である。ただし、変数の属性とし
ては不正で、あってもその値に意味を持たせている場合もあるため(例えば、退会日などで未退会の場
合 は "9999年 12月 3
1 日"が設定されてしもなど)、そのハンドリング1
こは注意が必要で、ある。

i
門t;j"j

習ををむ芸町 1

聴懇嬢
回融嵐田ーーーーーーーーー一一宅思議額貯

i欠狙錨
マッピツ'名前(M)百冊刊日
‑ ,‑..一一
量件。:1:I

判

検索列

J

T
(
D
A
T
E
.Y
YIIMl
D
l
0
.
)=
.

1

条件が実の場古一

一一…一一一一……一一一一一…一一一一一一一

7

汗 一 語 両 ‑ ‑ r ‑ ‑ 設 定 す るf
直

L
.
.
!
JDATE

→

三j

j

設定時

PUTc:!ODAYO~凹DD1~.;三

.

I
言三企室生主盟主Ll‑.Aニ土1
:
.
上主二上主主鐙I

Ic=~o.:~
r

条件が泊め場合}一一一一ー←一一一一一
対量の明l

山

設定する泊

「この案骨を倒外レポート 1
:レポートする (
R
)

I

y'Jジヨツσ
)
:何もしない

[図 6
:データ検証「カスタム検証」タブ]

‑442‑

斗

428.
[beta]
口検索テーブル・夢J
I
商品コード、や庖舗コード、など、参照、で、きるマスターデータが他のテーブ、ルに存在する場合、検索テー
ブノレ"5"
J
Iを指定することで、値の突き合わせを行い、妥当性をチェックすることがで、きる。

仁甲塑哩堅塁ー‑盟組理臨機鱗総統、
ステ一宮ス児 l
!
1 プロセス i マ"ピック i オプション i
全般

│

j

酬な値

メ干

j

欠損錨

d盟主j
i 紙特罵件

重視する f
直

i詳 細

力スヨム検証

名前

議件

I
I
N
P
U
T
(
D
A
T
E• YYMMDD10
.
)=

旦盟」

詩集会

〕 と ゴ 11

E3
コユこ巴J ìmJ!l(~ 1

'¥Jv7@

1

[図 7
:データ検証「無効な値」タブ]

ここで紹介した他にも、 SASETLS
t
u
d
i
oはデータ品質保証のための様々な機能を提供している。その一

u
a
l
i
t
yS
e
r
v
e
r
Jは現時点に
つにいわゆる「名寄せ」の機能があるが、その機能を提供する ISAS Data Q
おいては日本語に対応していないため利用できない。将来のバージョンで、日本語対応版が提供される
予定である。

3
.
2ステータスハンドリング
「リターンコード、チェック」テンフ。レートにより、 ETLプロセスにおいて、途中のタスクで以上が発生した場合
の処置を、プロセス内に定義することができる。異常の種類(正常/エラー/警告)に応じて、「メーノレを送信
イベントを発生させる」など、以降のプロセスをし、かにハンドリングするかを制御可能である。
する JI

fu晶画圃量担E田沼白百両~宝主;:;""弘、込ぱ;ふ
湾三宏、

;
'
;
̲
.
<
、
三
与

全般

i i

ii

ステ ‑9?‑処理 プロセス オプション メ
モ 師属性!詳細

i
アヲツョツ

コード葉件

なし

‑ 2
1
1民

準工一一
新緑作戚

ω

i

一一一一一

限必

i OK Iキャンセル │

適用

ω │ へ}~ブ(t!)

[図 8
:リターンコード チェック「ステータス処理」タブ]

‑443‑

I

429.

4 . おわりに SAS9では 8 1プラットフォームを実現するため、エンドユーザーにより使いやすく高度なツール、ソリュー ションを提供するとともに、そのシステムアーキテクチャを SAS8以前とは大きく変更している。このことに より、システムの運用・管理が一元化され、またシステムの開発においても複数の開発者による同時作業 を強力にサポートできるようになった。本論で紹介した SASETLS t u d i oはシステム部や部門のデータ管 理者向けの機能ではあるが、ユーザーに提供するデータウェアハワス構築の手間を削減し、かっ、これま でにない高品質のデータ提供を保証する機能が豊富になっている。 企業の市場競争力を高めるための武器となるビジネス・インテリジェンス、その基礎となるデータワェアハ ワスの構築において、多くのデータ管理者に SASETLS t u d i oが作業の手助けとなれることを望んでやま ない。 参考文献 口 rNextGenerationDataWarehousingw i t hSAS9J SUGI29論文, GaryMehler ,SASI n s t i t u t e I n c . ‑444

430.

ポスターセッション 調査・マーケティング

431.

省エネ行動と電力使用量 飯田孝久 慶磨、義塾大学理工学部管理工学科 EnergySavingA c t i v i t i e sand theAmountofUsedE l e c t r i cPower TakahisaIIDA KEIOU n i v e r s i t yF a c u l t yo fS c i e n c eandTechnology , 要旨 第 1 0回データ解析コンペティションで提供された、省エネ意識や省エネ行動 に関するアンケートと毎時電気使用量のデータを分析した。前年の使用量から は、夏型や冬型のように、季節による使用量の違いが観測された。省エネに対 する意識や行動の解析からは、省エネ行動の変化が主成分の順番に現れること が確認できた。毎時電気使用量データから特徴を抽出し、モニタを類別した。 団饗型や土日型など様々なパターンがあることがわかった。さらに、省エネ行 動への取り組みや電力使用の特徴が、実際の電気使用量やその削減にどのよう に影響を及ぼすかを探り、電気使用にむらがあるモニタは使用量が多く、省エ ネがうまくいってないことが確認できた。 キーワード: 1. 省エネ行動、電気使用量、 JMP、多変量解析、 はじめに 温暖化に代表される地球環境問題を考えたとき、各個人の省エネノレギー(以下「省エネ」 とする)行動の重要性は年とともに増してきている。しかし、その思いとは裏腹に、省 エネ行動の実施状況は必ずしも満足できるものではないこともまた事実である。今回の 0回データ解析コンペティションで提供された、省エネに関するアンケー 報告は、第 1 ト(意識と行動)ならびに 1時間ごとの電気使用量のデータから、省エネに対する意識 や省エネ行動ならびに電気使用量の様子を分析するとともに、これらの関連を探った。 省エネ行動に関しては、第 1固と第 2回のアンケートを用いて、省エネ行動への取り組 みの程度とその変化からその特徴を分析した。電力使用量については、モニタごとに曜 日と時間による使用量の変化を求め、そこから電気使用の特徴を抽出した。その結果、 曜日に関しては平日タイプと土日タイプがあることが確認され、時間に関しては早朝・ 日中・深夜・団壊などのタイプがあることがわかった。最後にそれらを総合し、省エネ 行動への取り組みや電力使用の特徴が、実際の電気使用量やその削減にどのように影響 を及ぼすかを探った。 統計解析には JMPを用い、表やグラフ表示は主にエクセルを使用した。 d斗‑ d位 ηl

432.
[beta]
2.
データの概要
モニタ総数は 1729名であるが、都道府県により人数はばらついている。モニタ数の多
いところは、大阪府 (
3
0
9
)、福岡県 (
2
4
1
)、宮城県 (
1
9
4
)、兵庫県 (
1
8
4
)であり、モニタの
いない県も 1
1あった。モニタに関するデータは、年齢・性別、家屋の状況(断熱かどう
かなど)や広さ・部屋数・各電化製品の所有数のほか、省エネ意識の調査や前年の毎月電
気使用量もあった。
各モニタには省エネナビが貸与され、これで毎時電気使用量を測定するだけでなく、目
標達成状況を知らせたり、定期的にお勧めの省エネ行動を提示したりした。測定開始前
と開始後 3ヶ月固と 6ヶ月目にアンケートを実施し、省エネナビの使用状況や、 40 数
項目の省エネ行動の実施状況を答えてさせている。
電気の使用量は毎時計測しているが、ところどころデータが無い部分(欠測)がある。
全期間 (
1年)にわたってデータがそろっているモニタはほとんどいないのが実情であ
る
。

3.
モニタ情報と前年使用量の分析
各モニタの家族数と部屋数を図表 1, 2
に示した。また、家族数で送別した部屋
数の分布は図表 3のとおりである。人数
が多いほうが部屋数も多いことが確認で
きる。家族数および部屋数と前年 8月の
平均電気使用量との関連を図表 4で与え
た。これらの散布図から、人数が多いほ
ど、部屋数が多いほど電気使用量が多い
ことが確認できる。

↑

‑EE24
JdH

図表 1・家族の人数の分布

一

「
一
一
一
一
一
一
一
←
一
一
一
一
図表
2
:部 屋 数 の 分 布

図表 3・家族人数と部屋数の関係

7

:
'
1
0 ~i 1

色
白
'
・
咽
・
胸
骨
.
,
.
.
.
E

書 』

!
家
族 5
i

ロI
ロ2
l
ロ3
ロ4
u
iロ5
ロ6 1
;
!
日7

J

"

政 30
人
:
:
:
:
:
:
:
:
:
:
:
:
:
:

' 園調田園

rro

E
醐

:
:
I

lllU i
ロ8
I I出

I
ロ
ロ9
10 !
l

2

---.圃邑~・・~一一一一一ー

3

1
1

13

i
5「 即 時 叩 量一 気 使 用
i,~;

I
!

O~Ó

2日
目

。

図表

15 1

一一一←一一一~手忌7"""翌三三』包~~

~宝シAf

二(

4日
目

8
0
'
。

6000

1
0日
目

4
.
2
:部 一 使 用 量
^

0

‑ 7 1ぷ ?

バ
ド
(0
ト7
γ干
一
いi
f
2
:
一
一
一
凹
担
。
i
6
0

│
1
:ト 戸 竺 「F F ! !
4
0
ぐ
¥
!
「
ヤ
一
<
>
a
一
2
汁
一
t
剖
1
剖
‑
町
1
‑
‑
1
一

←

前年の毎月電気使用量については、欠測の無いデータを用いて主成分分析を行った。デ
ータをそのまま用いた場合と、モニタごとに毎月使用量の平均で割った値を用いた場合
の 2通りで行った。どちらの場合も相関行列に対して主成分分析を行った。ここでは、
平均で割った場合を紹介する。この方法を用いることで、全体の大きさを表すサイズ効

‑448‑

433.

果の影響を軽減することができる。主成分負荷量ならびに寄与率は図表 5のとおりであ った。これをグラフで表現したのが図表 6である。これから、第 1主成分は夏型一冬型 の軸、第 2主成分は冷暖房タイプの軸、第 3主成分は春型一秋型の軸であることがわか ' ったため、サイズ効果は消えているが、元のデータで、主成分を行った場合 る。平均で害1 はサイズ効果の寄与率は 82%であった。残りの 18%がここで紹介した方法で明らかに ' ったことで、使用状況のパターンがより鮮明に現れてきたことがわか なった。平均で害1 ると,思う c 図表 5 :主成分分析2の結果 図表 6:主成分負荷量 負荷量 3月 4月 5月 6月 7月 8月 9月 10月 11月 12月 1月 2月 固有値 第1 第2 第3 第4 0 . 5 7 6 0 . 1 2 5 0 . 2 4 0 0 . 5 1 3 ‑ 0 . 7 0 6 0 . 7 0 6 ‑ 0 . 5 3 5 ‑ 0 . 2 7 1 0 . 2 2 5 0 . 7 0 8 0 . 7 7 3 0 . 7 9 6 3 . 8 1 0 . 1 6 6 0 . 3 6 5 ‑ 0 . 6 8 6 0 . 6 0 1 0 . 2 1 2 0 . 5 5 9 0 . 3 1 4 0. 49 3 一0.567 ‑ 0 . 0 8 2 0 . 3 1 9 0 . 2 3 4 2 . 1 8 0 . 0 4 8 0 . 1 3 7 ‑ 0 . 0 4 3 0 . 3 1 8 ー0 . 5 5 4 0 . 1 2 8 0 . 6 6 3 0. 42 1 0 . 0 1 3 ‑ 0 . 2 3 6 0 . 0 1 1 0 . 0 2 4 寄与率 累積 31 . 73 31 . 73 1 8 . 1 3 4 9 . 8 7 0 . 1 8 2 0 . 7 5 6 0 . 3 9 4 0 . 0 1 5 0 . 1 3 0 0 . 0 1 7 0 . 0 2 6 0. 49 2 0 . 6 0 5 0 . 3 6 6 0 . 0 0 8 0 . 0 5 2 1 .5 2 1 2 . 6 9 6 2 . 5 6 .9 0 71 │ 一 一 ← ー 第 ,1 ‑‑11ー第 z i 1 1 . 12 9 . 3 5 l ーすー第 3 1 10 08 06 04 。 。 0 . 2 ‑04 OB 3ft 4R 511 o阿 一 一 一 』 ー ー 一 勺阿 ?月 8阿 '0 周 11~ 12同 一一一ー一一~ 1月 2阿 4 . 省エネ行動アンケートの分析 省エネアンケートは 3回行われた。省エ 図表 7;省エネ行動アンケートの選択肢 ネナピを取り付ける前と、毎時電気使用 第 1回 第2回 第3回 量を計測してから約 3ヶ月後と 6ヵ月後 出来てい主 l ' 全くできていない ほとんどできていない である。省エネ行動は、「テレビの主電源 あまりできて~ , t . ; い あまりできてい立い 2 あまザ出来てい立し、 を切る」や「冷蔵庫の無駄な開聞をしな まあまあできている どちらとも君えない 3 まあまあ出来ている しリなど全部で 4 0数項目あり、各省エ ヵ 、 主 L ) 出来ている かなりよくできている 間々やっている 4 ネ行動に対して 5段階で実施状況を回答 させている。しかし、この 5段階の選択 いつもやっている よく出来ている 非常によくできている 5 肢が各アンケートで、異なっているという 問題がある。各回の選択肢は図表 7の通 りである。これからわかるように、第 3回のアンケートでは、アンケート聞の比較が無 理であると思われるほど選択肢が異なっている。ここでは、第 1固と第 2回のアンケー トから、省エネナピを使い始めた段階における省エネ行動の変化を、ほとんどの家庭に ある電化製品に関する 17項目(図表 8) に対して、オッズ比と正方分割表の非対称性 の尺度 (γ) で、探った。ここで、扱った非対称性の尺度は、(i、 j) セ ル と (j、 i) セルに入る確率の比の対数が(j一 i)に比例するというモデルで、この比例定数 (γ) が対称性からのずれを表し、この値が大きいほど省エネ行動が浸透していることを表し ている。主な省エネ行動に対する γ とオッズ比とスコアの平均の差を図表 9で示し、こ れらの散布図が図表 1 0である。ほほ同じであるが、一部異なる挙動をしている。 γ は ばらつきの影響を受けているのが理由のひとつと考えられる。 ‑ 4 4 9一

434.

図表 9:yとその他の指標 図表 8:使用した省エネ行動 オッズ 1 オッズ 2 テレビ 1 見ないときは消す 項目 平均 テレビ 2 不要時は主電源 OFF テレビ 1 0 . 6 1 2 1 .1 9 5 0 . 9 0 2 2 . 3 2 0 2 . 8 1 3 テレビ 3 画面を不必要に明るくしない 子レビ 2 0 . 6 2 7 1 .3 2 4 0 . 7 8 1 2 . 1 0 2 2 . 0 6 9 テレビ 4 音量を不必要に大きくしない テレビ 3 0 . 1 8 7 1 .2 65 0 . 2 3 5 1 .3 7 8 1 .0 4 4 照明 13 電球型蛍光灯ラン7かインハ'ーヲヲイ 7使用 テレビ 4 0 . 2 3 8 1 .0 7 2 0. 41 9 1 .4 1 5 1 .3 4 9 照明 2 不必要時に消灯 1 .0 9 9 0 . 9 1 8 照明 4 古くなった蛍光ラン7を取り替える 冷蔵庫 1 季節により温度調整 冷蔵庫 2 冷蔵庫 3 標準偏差 Y 3 照明 1 0 . 0 1 6 1 . 16 5 0 . 0 2 3 照明 2 0 . 5 4 1 1 .0 4 1 1 .0 2 9 ものを詰め込みすぎない 照明 4 ー0 . 0 2 6 1 .0 4 5 無駄な開閉 冷蔵庫 1 0 . 3 2 8 1 .0 8 1 冷蔵庫 4 開けている時間を短縮 冷蔵庫 2 0 . 3 0 1 冷蔵庫 5 熱 L、ものは冷ましてから入れる作) 冷蔵庫 3 冷蔵庫 6 壁から間隔をあけて設置 冷蔵庫 7 直射日光の当たる場所に設置しない 掃除機 1 1 . 13 3 0 . 7 9 5 2. 44 8 3 . 3 6 5 ‑ 0 . 0 4 8 1 .0 2 7 0 . 8 5 3 0 . 5 9 0 1 . 5 7 7 1 .5 3 6 0 . 9 8 2 0 . 6 4 3 1 .3 94 1 .7 7 5 0 . 40 7 0 . 9 7 1 0 . 8 9 3 1 . 78 6 2 . 1 0 8 冷蔵庫 4 0 . 43 4 0 . 9 5 5 0 . 9 7 6 1 . 70 6 2 . 9 1 8 冷蔵庫 6 0 . 0 1 2 1 . 11 5 ‑ 0 . 0 1 9 0 . 9 7 5 0 . 9 1 3 使用する時聞を短縮 冷蔵庫 7 ‑ 0 . 0 2 7 0 . 9 7 6 0 . 0 5 6 0 . 8 9 3 0 . 7 8 5 帰除機 2 集塵袋のこまめな取り替え 掃除機 1 0 . 2 6 6 0 . 9 9 7 0 . 5 4 6 1 .7 7 1 1 .3 7 4 洗濯機 まとめ洗い 掃除機 2 0 . 0 5 9 1 .0 9 9 0 . 0 9 7 1 . 15 8 0 . 9 4 2 (ホ)第 2回アンケートには無い 洗濯機 ‑ 0 . 0 8 6 1 .0 8 1 0 . 1 4 8 0 . 9 1 5 0. 45 0 さらに、両アンケートに対して主成分分 析を行い、省エネ行動パターンの特徴づ けを試みた。詳細な結果は省略するが、 第 5主成分までの係数と γ との相関係数 1である。どちらも第 を示したのが図表 1 1主成分との相聞が高くなっている。こ れは、総合的な省エネ行動の浸透を表し ていると見ることができる。特徴的なの は、第 2回目の第 2主成分である。この 主成分は第 1回の第 4主成分に近い指標 である。この係数の符号で省エネ行動を 2である。これを見る 整理したのが図表 1 と、マイナス側には手軽にできる省エネ 行動が集まっていることが確認できる。 やれるところから省エネをはじめている 状況が目に浮かぶようである。また、第 4 主成分から第 2主成分に固有値が大きく なったのは、省エネ行動を実践している ことの現れと解釈することができる。 オツズ 1 図表 10:yとオッズ 1 ド‑ L l 子│ 1 . 8 1‑‑‑‑‑‑‑1 ー ー 一 ー 一 . 一 • . 一 一 ← 卜三J 1 0 F ‑ 図表 1 2 :第 2主成分の符号 ァレビ.見ないときは消す 冷蔵庫無駄な開閉をなくす 冷蔵庫.開けている時間を短縮 冷蔵庫一冷ましてから入れる 図表 11:yとの相関係数 第 1回 掃除機.使用時間の短縮 第 2回 照明省エネタイプを使用 第1 0. 4578 0.5563 第2 ‑0.2021 0.6256 冷蔵庫壁から離して設置 第3 0.3084 ー0. 4449 冷蔵庫日光の当たらない場所人設置 第4 0.7214 0.1064 第5 ‑0.3033 0.3537 + ‑450一 照明古いものを取り替える

435.
[beta]
5.
毎時電気使用量の特徴抽出
電気使用量については、宮城県のモニタの 5,6月のデータを用いた。これは、冷暖房
使用の影響を受けず、なおかつ第 2回目のアンケートの時期にあわせたからである。毎
時電気使用量は、モニタ(人)により大きく異なる。また、モニタの 1日の生活ノミター
ンによる時間変動も顕著である。さらに、曜日の効果も無視できない。そこで、いくつ
3である。曜日×人は曜日と人の交
かのモデルに対して回帰分析を行った結果が図表 1
五作用効果であり、日とあるのは各日の効果である。これから、日の効果はほとんど曜
日で捉えることができることと、曜日と人の交五作用は考えなくてもし W 、ことが確認で
きる。ここでは、モニタ聞の差が大きいので、モニタごとに曜日効果と時間効果を求め
て、その結果から電気使用の特徴を探ることとする。
図表 1
3
:要因効果の変遷

はじめに、時間効果について分析する。求められた時間効果の分布状況は図表 14に示
した。これから、朝の出勤前と帰宅後の団壊のときに電気を多く使っていることがわか
る。モニタ聞の使用量の差が大きいので、モニタごとに時間効果の平均で割った値を用
いて分析する。このような基準化をしたが、時間による使用量の差も重要な情報なので、
主成分分析は分散共分散行列を用いて行った。 (JM Pでは相関行列か分散共分散行列
か平均を引かないで行うかの選択ができる)第 4主成分までの主成分負荷量が図表 1
5
である。これから、第 1主成分は夜の値が大きいので「回無度 j、第 2主成分は「深夜
度 j、第 3主成分は「早朝度」、第 4主成分は「夕方度」と見ることができる。各モニタ
に対しては、主成分スコアを見ることでその家庭の使用パターンの一端を知ることがで
きる。
図表 1
4
:毎 時 電 気 使 用 量 の 推 移
2
.
5 r

卜‑←‑最大値

l

一 様 ー 上 10%
一一合一‑4
分位点

2
.
0

.
.
.
.
.
.
.
ドー中央値
一一合一一 4分位点、

,
̲
ォ
、
.
+
、
l

;
'
1
.

.
+
'‑
t
‑
・
宍

一
色
4
‑

.
‑
1
'

+・十・+'
千

十で味、

d

+
'

午・+

、
+

‑)!(-:-:-~-

)
1
(

"
J
K
、
、X
ウK
¥

0
.
5

。
。

451‑

X

436.

図表 15:主成分負荷量のグラフ 0 . 8 0 . 6 u ・ n n uマ 内 ︐ι nunu ‑ 0 . 2 ‑0. 4 世 世 昔E 世 昔E 宮 古 宮 古 世 昔E 昔 E 昔E 世 宮 古 宮 古 宮 古 世 宮 古 昔E o ~ (¥J円寸旧 ωhα:> 0 ( J ) r‑ c¥l円寸旧 ω h α ) ol 0 ~ (¥J円 「 F N N N F F 「 「 F 「 」 i N‑ そこで、モニタや変数(時刻)の分類のためクラスター分析を行った。階層型クラスタ ー分析では、変数が深夜・日中・夜というように分かれることが観察できた。非階層型 (k‑means 法)では、与えるクラスター数により異なった結果が得られるが、ここで はクラスター 6の場合を紹介する。この場合、 4つのクラスターと 2つの外れクラスタ ーが検出された。各クラスターの平均を 「一一一一一一一一一一 Ø~16 大きいクラスヲーの平均の推移 示したのが図表 16と 1 7である。また、 20 各クラスターの主成分得点の平均を示し たのが図表 1 8である。これから、 4つの クラスターはそれぞれ、日中型・宵っ張 り型・普通タイプ・団饗型であり、外れ クラスターは時間使用量の変動が激しい ことがわかる。 図表 1 8 :クラスターごとの主成分の平均 主成分 1 主成分 2 主成分 3 主成分 4 団~ 日中 早朝 夕方 3 . 0 ; 2 . 5 C1 一1,063 2,586 ‑ 0 . 5 8 0 2 . 1 9 1 C2 0 . 1 7 2 0 . 3 9 1 0 . 3 5 5 0 . 0 0 7 C3 0 . 7 0 5 一0. 47 9 0 . 0 2 1 0 . 0 4 0 C4 0 . 0 7 3 0 . 2 8 3 0 . 2 9 9 ‑ 0 . 0 8 6 C5 0 . 5 7 8 42 6 2. 1 .212 0 . 2 8 1 C6 0 . 6 9 4 0 . 3 3 6 0 . 0 5 4 0 . 0 1 3I 6. 電気使用量の変遷分析 2 . 0 1 .5 1 . 0 0 . 5 ここでは、これまで、に得られたモニタの特徴と電気使用量の関係を探る。電気を多く使 う人はどんな人なのか、電気使用量が前年に比べて減少している人はどんな人なのか、 省エネがうまくし、かない人はどんな人なのかを探ってみよう。 電気使用量から抽出したモニタの特徴は、モデルのあてはめ度である R 2や残差分散、 aAU孟 Fhd nノU

437.

時間効果や曜日効果の分散や変動係数、さらには時間効果と曜日効果における主成分得 点などである。これらに、使用量に明らかに影響を与えている家族の人数や部屋数など を加えて、電気使用量への影響を相関係数ならびに重回帰分析で解析した。 平均電気使用量は、モニタ別モデ、ルにおける一般平均であるが、要因ごとの相関係数で 高度に有意で、あったものは、モデ/レの R2値と残差標準偏差、時間効果の変動と曜日効 果の変動、時間変動を残差分散で、害1 1 ったもの、時間効果の第 2主成分、人数、部屋数で あった。重回帰分析で変数を選択したところ、誤差標準偏差、時間効果の変動、人数、 部屋数が選ばれた。これから、電気使用にむらがあるモニタほど電気使用量が多いこと 9に示した。 が確認できた。重回帰分析の分散分析表ならびに係数の推定値は図表 1 図表 1 9 . 1:分散分析表 9 . 2 :回帰係数 図表 1 項目 推定値 切片 ‑ 0 . 0 2 2 1 標準誤差 0 . 0 3 2 9 t値 pl 直 ‑ 0 . 6 7 0 . 5 0 3 1 時間変動 0 . 9 4 4 8 0 . 2 0 8 0 4 . 5 4 < . 0 0 0 1 人数 0 . 0 1 8 3 0 . 0 0 8 2 2 . 2 3 0 . 0 2 7 1 部屋数 0 . 0 2 0 2 0 . 0 0 5 9 3. 44 0 . 0 0 0 7 L 1.0775 0 . 1 9 2 8 5 . 5 9 < . 0 0 0 1 誤差標準偏差 ヲl き続き、前年度電気使用量との比較を行った。前年比は、推定された平均時間使用量 ・ 。 一 ︒ ︒会き so ︒ 一・ ︒ 企 曹 金 ・ ・ ・ ・ ・ ・ ・ る ︒ 一 ︒ ︒ 受 ︐ ︒ ︒ ︒ の 24倍を前年度同時期の l日平均使用量で、害I 1 ったものである。有意になった要因は、 モニタ別モデ、ルの重相関係数の対数、時間効果の変動、時間変動と残差変動の比で、あっ た。このモデルの重相関係数はあまり大きくないので詳細は省略するが、変動の大きい 人は電気使用量の削減に失敗している状況が感じられる c また、最初のアンケートで削減の目標を 図表 2 0 ;目標と使用量前年比 聞いているので、それが達成できている ' 140 130 かを確認する。目標と実際の状況の散布 1 2 0 図が図表 20である。それほど顕著ではな 1 1 0 8 いが正の相関がある。達成目標が厳しい 1 0 C 90 ~ モニタほどその目標をクリアしている割 80 合は減っているが、実際の使用量はそれ 70 60 なりに減少しているので、目標達成率を 50 掲げるのはそれなりに意味があると思わ 4 0 L ̲ ̲ ̲ 一 二 一 ‑‑ S 90 J 9 │ 白標 9 5 1 0 0 I れる。 'xv S 7 . 一 終わりに 第1 0回データ解析コンペティションで提供された、省エネと電気使用量のデータから、 省エネ行動や電気使用の特徴を発見し、それらの関連を探った。アンケートからは、省 エネは手軽なところから始めることが、主成分の寄与が大きくなることから確認できた。 電気使用量からは、主成分分析とクラスター分析から、各家庭のパターン分けができた。 ここから抽出した特徴から、ぱらつきの大きいモニタは、電気使用量が大きく前年から の削減に失敗しやすいことがわかった c 4 ハ ヨ ηJ 巳d

438.

ポスターセッション 品質・生産管理

439.

SASシステムによる半導体製造工程におけるデータ解析環境の構築 鈴木信雄 日本テキサス・インスツルメンツ(株) 美浦工場 OeviceAnalysisEngineering Thedataa n a l y s i senvironmentf o rthesemiconductormanufacturingbyusing SASSystem NobuoSuzuki OeviceAnalysisEngineering ,MihoP lant ,TexaslnstrumentsJapanL t d . 要旨 半導体工場には、製造装置のバラツキにより歩留まりが変動する問題がある。そこ で、製造装置などの層別を行い、歩留まり等の有意差を統計的に分析し、トレンド チャートおよび装置聞の有意差を確認するデータ解析環境を構築した。 キーワード: データベース UNIX 層 別 ト レ ン ド グ ラ フ 分 散 分 析 1 .はじめに 半導体製造工程には、多種多様な製造装置があり、装置、プロセス条件などの変動や、複 雑な処理を行う多数の工程がある。それらのばらつきにより歩留まりが変動する。その歩留まり 変動の原因を早く解析し、不良原因を突き止め、工程の改善を行う必要がある。そこで、本稿 では、歩留まりや不良率などの装置聞の有意差を統計的にデータ解析する環境を構築したの で紹介する。 2 .問題点 現在社内でリリースされているデータ解析環境では、すべての工程について装置層別を行う には時間がかかっていた。従来のツールではデータ取得からトレンドの作成までマニュアルで の操作が必要となってしもからである。また、物理的な不良解析を行う場合も、不良原因となっ ている工程を絞り込まないと、解析に時間がかかってしまい迅速に結果が出せない。そのため 短時間で不良原因と考えられる工程の絞込みができるデータ解析環境が必要となっていた。 4 5 7 ‑

440.

3 .主な機能 今回構築したシステムは、以下のような機能を備えている。 3 .1簡単なオペレーション 製品名、期間、工程フローをテキストファイルで指定するだけで、全工程の装置層別が 可能 3 .2データ解析の効率アップ 分散分析による統計的な結果を用いて有意差のあるトレンドを確認できる 3 .3 装置層別のバリエーション 5つの後工程との組み合わせを解析) 単層別や交互作用の層別が可能 ( 3 .4 豊富な解析ノミラメータ 縦軸パラメータを、自由に設定可能 (プローブ、テスト値、プロセスデータ) 3 .5 結果の参照にウエブブラウザを利用 トITMLと画像ファイルにファイルを出力して、イントラネットで、データを参照で、きるので、 情報の共有化が可能 4 .システムの構成と仕様 このシステムは、 UNIX の環境においてエンジニアリンク守データベースおよび、データ解析プ ログラムから構成されている。(図 1参照) 4.1 エンジニアリング戸データベース 社内の標準的化されたテストシステムとデータウエアハウスから、必要とされるデー タを抽出して、データ解析に最適なエンジニアリング、データベースを構築した。テスト システムからは、製品の歩留まり等の情報、および、データウエアハウスからは、製造 工程の情報を収集している。今回構築したシステムでは、エンジニアリングyデータベ ースソフトに UNIX版 SYBASEを用いた。 3種類のファブがあるため、同じ構造のデー タベースが 3つの構成となっている。なお、テストシステムとデータウエアハウスからサ ーバーへのデータ更新は、 1日1回としている。 4 .2 データ解析プログ、ラム ‑ S h e l lで作 デ、ータ作成からデータ解析までを行うメニュープログ ラムを UNIXの C P 成した。このメニュープログ、ラムは、ユーザーの指定した条件で、データベースから必 要とされるデータを SQLで取り出し、 SASプログラムを生成して、データ操作、トレンド グラフの作成、および、統計量を計算している。分散分析の計算には、 GLMプロシジ y s t e m による参照と、イントラネットにデ ャーを使用した。データ解析結果は、 SAS S ータをレポートして参照ができるようにした。 このプログ、ラムにより、解析をするための SASプログ、ラミング を行う必要が無くなった。 なお、ユーザーは、パソコンから SASサーバーにリモートロクマインしてプログ ラムを利 P 用している。 ‑458‑

441.

(互通] I │ S y b a s e 図 1 システム構成図 5 .メニュー画面と操作手順の概要 このシステムは、図 2のようなデータの指定、実行、解析とし、う 3ステップの手順で解析を行う ことができる。データ作成からデータ解析までは、図 3のようなメニュープログ、ラムを使用する。 ユーザーは、対象となる条件を図4のようなパラメータファイルに指定して、プロセスフロー順に トレンドの作成と分散分析を行う。このパラメータファイルとしづテキストファイルを利用するので、 条件に応じた層別データ解析が可能となっている。解析の作業は、 S A SS y s t e mやウエブブラ ウザによるグラフの参照ができるようになっている。 デバイス g i ト ー ペ 〉 P h l : データ指定 ん よ ミ 三 [函:会肩! 両五震t f i l 図 2 データ解析手順 ¥ dAH1 ロ 円Fhu

442.
[beta]
時o
d
垂
: par通f'i1e
:
F
d
bE
q
u
i問申n
tS
t
r
<
lt
i
f
i
c
a
t
i
o
n樹"JdG
O
O
D
/
B
A
l
lL
o
t向悶1
1
:
1
Si
s
H
i揃 翻El
Jt
i
l
i
t!
:
j¥
k
t
'
.2
.
8f
o
rt
1
0
S
S
l
5
必. Y
2
Kr
軍司d
日
間s
g
i
d
:j書 a
s F
白
書
幽I
Ds
母t
u
p
:判
。s
S

(
1
] E
X
H

1
] C
R
室
内T
E
l
L
I
S
rp
僻向t1
E
T
E
RF
I
L
E
き
2
1 E
f
l
I
T
/
U
S
TP
品R
獄1
E
T
.
E
長
iF
I
l
E
5

X
rR低H閥 NS
A
S
/
S
V
A
l
白S
E
.
)
3
1 E
4
] 白船L
'
i
S
1
S
{部 S
:
T
R
H
f
lV
I
B
J
E
R
}

5
1 S~むÞl D
A
T
A

6
1 R
l
l
NS
沌$P
G
N
7l附<
EGLMT
f
!
B
L
E

8
]N
I
CL
O
GH
I
S
T
O
R
Y
8
J 糊C
R
O刻版臨時:01l
D
T悶 S
T
O
R
Y

I
U
I
L
U
E
Rf
R
O
HG
L
潟
1
0
1 H
r
t
1
Ll
1
1
l T
F
.E
N
D
/
S
C
前T
I
H
I
S
T
割以附 P
開
1
2
1 C
L
E
附 G
IFF
O
RR
E
P
.
{
I
R
T
おl
e
c
t:

図 3 メインメニュー
Y
O
U
R
‑
N
A
M
E :n
s
u
z
u
k
i
Y
O
U
R
‑
M
S
G :x
x
x
x
工C
E
:DEV
工C
E
1
D
E
V
D
A
'
τ
I
‑
F
R
O
H :2
0
0
1
0
9
0
1:2
0
0
1
1
1
1
2
D
A
'
τ
I
‑
T
.py
I
T
E
H
‑
N
A
M
E :m
S
E
L
E
C
T
0
0
0
00
0
0
1P
R
O
C
E
S
S
l
0
0
0
00
0
0
2P
R
O
C
E
S
S
2
0
0
0
00
0
0
3P
R
O
C
E
S
S
3
0
0
0
00
0
0
4P
R
O
C
E
S
S
4
0
0
0
00
0
0
5P
R
O
C
E
S
S
5
0
0
0
0口 0
6P
R
O
C
E
S
S
6
0
0
0
00
0
0
7P
R
O
C
E
S
S
7
口
口
口
口 口
口
白
色 P
R
O
C
E
S
SB
END

図4 パラメータファイル
雛形となるパラメータファイルをあらかじめ用意しておくことにより、多種類の工程フローに対応

AS/GRAPHの GPLOTを利用しているが、図4のようなパラ
できるようにした。デフオノレトでは、 S
AS/QCを用いた CHARTや、異なる工程
メータファイルにキーワード、を指定することにより、 S
聞の交互作用を考慮したトレンド、チャートなども作成できるようにした。

4
6
0

443.
[beta]
6
.出力結果と実行例
実行結果の例として、図 5にイントラネットにデータをレポートした場合の実例を示す o SAS
System は工程の順番にトレンドチャートを表示させるのに都合が良いが、すべてのトレンドを

確認するのは時間がかかる。そのため、図 5のように、分散分析の有意差の高い順にウエブフ寺
ラウザに解析結果を表示できるようにした。有意差の高い順にグラフを確認できるので、解析
効率が良くなっている

3

2
5
3
5
5
5
5
5
2
3
5
5
j
!
i
j
5
5
5
3
5
5
3
3
5
5
2
5
5
5
5
5
5
i
i
5
5
5
1
1
5
5
5
3
5
2
5
5
i
3
2
i
f
倒崎倫油相樹氏

会吋ト令官"

回魯略,.~視 'C 主

主世記

鳴F吋"公司民/ウ抗

eト叶砂4噌侠/~,.

詳~綱引

…
ー
‑
‑
̲.•

",,^.;}w/~ ~ .
:c~
M

句 吋 ' 坤 $</,~

図5 ウェブブラウザによるクマラフの参照

7
.導入効果
このシステムによるデータ解析と物理的な不良解析を融合させることにより、迅速で、正確な
工程へのフィードバックが可能となった。解析スピードにおいては、従来比で約 1/3の時間で
の不良解析が可能となったc また、物理解析で不良原因の工程が特定出来ない場合でも、こ
のシステムを利用した層別によって原因を発見で、きるため、非常に有効である。

8
.おわりに
このようにデータ解析に有効なシステムが構築できたが、今後は以下のような課題があるた
め、改善を図ってして必要がある。
8
. 1 UNIXの作業を軽減するように、データ指定の簡略化と GUI化を図る。

8
.2 このシステムをベースにパッチ処理による自動データ解析システムを構築する
8
.3 データウエアハウスカミら直接データを取得できる方法を検討する。

4
6
1一

G

444.

ポスターセッション グラフィック

445.

GREPLAYプロシジャによる 1枚複数掲載図の作成について 竹田昌 株式会社 ACRONET/臨床開発センター D M・統計解析部 Howtomakethem u l t i p l eSASf i g u r e si nonepagebyGREPLAYprocedure MakotoTakeda ACRONETC o r p . i o s t a t i s t i c sD e p t .C l i n i c a lDevelopmentCentre DataManagement& B 要旨 GREP 凶 Yフ。口、ンジヤは 1 劇 協 た グ ラ フ 臨 時 制 繍 告 を 持 つ フW ャで抗。 { J I 比ばA4 賭血樹こ、複数コグラフを樗載したし、とき、この GR 田 AYフ。口、ン、ジャをイあことにより、 容易に併ができる。今回万鎮ではその僧支方法にっし叫E 扮する。 キーワード: G R E F も A , . Yプロシジャ 1 . はじめに フ。ログyラマにとって仏S/GRA 問ソフトウェアは自由自租こ描酎 2 できる強力旨グラフィックツールで、あ る。市販の表計算ソフトにおけるグラフ機能では対応できないような場合でも A附~OTATE MACROを働ことにより、ほぼ全てのニーズ割前たすことができるc 今四まこの仏S ノ GRAPHソフトウェア REFlA Yプロシジャを用、て、 1 ページに複数のグラフを表示する方法を来所する。 のG 465‑

446.

2 .GREPLAYプロシジャ SAS/G九 I ¥PHプロシジャで、は、作成したグ ラフ出力を全てグラフィックカタログ1 こ直接格納し ます。 GREPLAYプロシジャはこれらのカタログから任意のグラフを選択して、再表示すること P ができますc 尚、使用にあたっては会話型的なフルスクリーンモード、とパッチ的なラインモード がありますが、今回の発表で、はパッチ的なラインモード、を前提に説明します。 <主な構文> PROCGREPLA Yo p t i o n s ; ① IGOUT ② GOUT ③TC ④TEMPLATE ⑤ NOFS @TDEF ⑦TREPLAY <吉見明> ①I G O U T = g r a p h i c s c a t a l o g 入力として使用されるグ、ラフィックカタロクマを指定します ②G O U T = g r a p h i c s c a t a l o g グ、ラフイツクカタログの内容の表示に加え(代わりに),新しい出力カタロク、、を作成で、きます C ③T C = t e m p l a t巴c a t a l o g TC コマンド、を使用して PROCGREPLA Y で、使用するテンプレートカタログを指定します o テンプレートカタログはテンプレート定義を持つ SASデータライフ ラリの特別なメンバで、すn テンプレートは 1ページ又は複数のページ上の複数のグラフの位置付けを記述するのに 使用されます。 ④T E i v l P L A TE=t巴m p l a t e n a m e l l i b r e f . c a t a l o g .t e m p l a t e n a m e フルスクリーンで、テンプレートフィールド、を,またはラインモードで T EivlPLATEコマンドを使 用して,グラフを再描画したいテンプレートカタログ、のメンバを指定します c ⑤ NOFS PROCGREPLA Y をラインモードで実行させます。 ⑥TDEF テンプレートの定義または変更をラインモードで行います。 ⑦ TREPLAY r e p l a y l i s t ; ラインモードでテンプレートの再描画のためにグラフを選択する時、キーワード TREPLAYと その後ろにテンプレート再描画リストを指定します。 4 6 6 ‑

447.

3 . 1ページ 4掲載図の作成例 1)目標とするイメージ図 GREPLAYフ。口、ンジャの機能はマニュアルを読んで、いるだけでは、なかなか把握できません。 そこで、実際の作成例を通じて説明します。 こ4図、掲載する例を考えますc いま、ある臨床検査値の散布図を 1ページ l 具体的な目標としては、下記のようなグラフの作成を目指します。 タイトル グラフ① グラフ② グラフ③ グラフ④ 2)テンプレートの作成 まず最初に行うのはテンプレートの作成です。 GREPLAYプ口、ンジャの使って、テンプレート E i νP 、テンプ名 TE/ ν ' P Xをフルサイズ、で、指定しますC カタログ名 T PROCGREPLAYNOFSTC=TEM , p TDEF TEMPX 1 /LLX=OOOLLY=OOOULX=OOOULY=100 LRX=100LRY=OOOURX=100URY=100DEF; RUN; QUIT; ‑467

448.

一 一 叫 ⁝ 3 )使用するデータ 今回、使用するのは下記のようなデータセット(一部を表示)で、変数 T RIAL は試験名、 PATNOは症例番号、 VAROは前値、 VARlは後値をそれぞれ示します。 成配 刻 一 ︐E1 刷出﹄一亀 P A T f l O T R l i l L 8 8 一 概 劇団置困翻圃儲諸国圃圃圏輔置盟醗韓盤 V ¥ I R l V ¥ I R O 4 6 8 ‑ 111JJ広一 一 二 叶4 DATAR B C l ; S E TS S D . R B C ; I FT R I A L = l ; R U N ; 1前期第 H相試験のデータを抽出 * 1 DATAR B C 2 ; S E TS S D . R B C ; I FT R I A L2 ; R U N ; 1後期第 H相試験のデータを抽出 * 1 DATAR B C 3 ; S E TS S D . R B C ; I FT R I A L = 3 ; R U N ; 1 第皿相試験のデータを抽出 * 1 DATAR B C 4 ; S E TS S D . R B C ; R U N ; I全試験データを抽出 * 1 二 4 一 ﹂ 二 一 梱 一 一 二 一 一 回 一 一 利 一 一 時 一 一 一 市 一 一 一 献 一 一 一 川 一 一間一一歪 日 計 二 一 世 一 二 ωB1 7821111L一一白一二 一 一 一 鱒 一 こ 一二ト一一円一 一 一 一 円 一 一 新 一 一一一円一空 ηJNi 一 白 一 一 間 一 牢データの読み込み

449.

4 )散布図マクロの作成 続いて散布図を作成するマクロを作成します。 弘MACROGP ( lN,XX, YY); DATAWRK;SET&IN;RUN; * . PROCGPLOTDATA=WRK GOUT GOUT; 二 PLOTVAR1*VARO /CAXIS=BLACKCTEXT BLACKNOLEGENDFRAivlE 二 VAXIS=AXISIHAXIS=AXIS1; lV=DOT C BLACKI=NONEW 1L=1 R=800; SYMBOL 二 二 I )ORDER=(200TO600BY1 0 0 ) AXISl LABEL=NONEOFFSET=(I, MINOR NONEWIDTH=5 LENGTH=35ivlAJOR=(W=5) 二 &YY)VALUE=(FONT=SWISSHニ 1 . 8 ) ; ORIGIN=(&XX, RUN;QUIT; %MENDGP; ここでマクロ %GPの引数 INは入力データセットを、ヲ l 数 XX, YYはグラフの始点となります。 また AXIS ステートメントで LENGTH 等に指定したパラメータ値は経験上から得られた値で すc 5 )i グラフ① ④」の作成 次にマクロ %GPを実行して「グラフ① ④」に相当する部分の散布図を作成します。 にこで指定される引数 XX, YYの値も経験上から得られた値です。) %GP(RBC1,1 , 17 5 ) ;1 *グラフ① * 1 %GP(RBC2, 58, 7 5 ) ;1 *グラフ②判 1 *グラフ③牢/ 明GP(RBC3, 1 1, 2 3 ) ; 日 P(RBC4, 58, 2 3 ) ;1 *グラフ④* 1 6 )i グ、ラフ① ④」の重ね合わせ 枚のページに重 最後にマクロ %GP で、作成した「グ、ラフ① ④」を GREPLAY フ。口、ンジャで、 1 ね合わせて表示させます。 ‑469‑

450.

g . 自 ・ ‑ ・ . ・ . ‑ e ・. . ・ ・ . . 、 . .・.‑ 5 ... 自 p ~ t . •ー、.・3 ・・ ・ .. !、 , , , : ‑ . . . ・ . ‑ ・ ・ ・ J. ・ ・ g g a 号 詰 g h召 Q(N)h い小︑ 門 自 R 召G(むhhvh 2 : ; ¥ト・S ・ 二 、 ‑ ー._・~~、- ‑・B ・ . , . s E a 言 員 a ‑470一

451.

グラフ① ④を重ね合わせて出力 &0 . ' ・ . ~イ 4∞ィ ~コ " ・" ~!・ す I1 .・ ・ .. .;~・.・ ・ # .. 2 4 αコ . . . . . • XJ イ コ • . . . . . . . ・ .. ‑ ・ . .・. . . ・ . 』 ‑‑Jad a ‑ ‑ . d ' . ・ , ・ •• ..~ . . ー ー : ・ . XD J •• 20 コ 20 コ 2 αコ XD 40J αコ 宅 ro コ 2 αコ XD 40J ~ ro コ ~ θ コ ヨ &0 . .・. ‑ ~コ ω l z . t i む : 益 XD~ : : 子 え さ を ぷゴト K 7 4 5 5 . ・ . .,. F 1 6 . 4 ( ) コ 3コ o て・.~.. ・ ・ . . . 哨 .••. , a ̲ : ∞ 2 αコ 2 2 αコ __.哩・ーでこ"~..J xf コ 40J ~ 6 1 コ ヨ ‑472‑ 2 αコ XJ コ 4 ( ) コ

452.

. " . ‘&~,匂 沿 線 安 : トS . g e ~ 詰 g N g .・,~ト B f 熱 ; : . ト . . . . ・ " 5 5 J 1 F 1 ‑ j ‑ ‑トS ・ 5 号 畠 i 1i ︐ ヮdnu

453.

6)ANNOTATEを使って体裁を整える 一応、これで 1 枚 4掲載図は作成できましたが、更に体裁を整えるためには A NNOTATE MACROを使ってラベル等を追加します(プログpラム例略)。また図の標題を付けるには ANNNOTATEMACROで、タイトノレを作成し、 G S L I D Eプロシジャで表示させるとよいでしょ 。 っ *タイトルを付与するステップ DATAANO; LENGTHTEXT$ 8 0 ; 首DCLANNO ・ %SYSTEM(4,4,4) ; 首L ABEL(3 . 0, 1 2 8 . 0,"1.血液学的検査", BLACK, 0, 0, 3 . 0, MINCHO, 6 ) ; (51 .0, 1 2 3 . 0,"赤血球数' %LABEL , BLACK, 0, 0, 3 . 0, MIl ¥CHO, 5 ) ; % L lNE( 8 . 0, 1 2 5 . 5, 2 6 . 0, 1 2 5 . 5, BLACK, 1 , 2 ) ; % L lNE( 8 . 0, 1 2 5 . 0, 2 6 . 0, 1 2 5 . 0, BLACK, 1 , 2 ) ; RUN; PROCGSL lDEANNO ANOGOUT ニG OUT;RUN;QUIT; 二 本 ; %GP(RBC1,1 1, 7 5 ) ;1 *グラフ① * 1 %GP(RBC2, 5 8, 7 5 ) ;1 *グラフ② * 1 %GP(RBC3, 1 1, 2 3 ) ;I 牢グラフ③ * 1 %GP(RBC4, 5 8, 2 3 ) ;I 牢グラフ④ * 1 本 PROCGREPLAYNOFS;IGOUT=GOUT; TC=TEMP;TEMPLATE=TEMPX; TPLAY1 : 11 : 21 : 31 : 11 : 5 ; RUN;QUIT; 4 .まとめ 1枚 ( 1ページ)に複数図を掲載する方法としては、今回紹介した方法以外に GREPLAYプ ロシジャ上の T DEFステートメントで、表示領域を縮小分割し、フルサイズ、で、作成したグ、ラフをそ / G 貼問リファレンスガイド、 l こも紹介されています。 こに表示させる方法があり、仏S どちらがよし、かは判断の分かれるところですが、、縦横の縮尺比率を考えなくてよいとし、う点 では今回紹介した方法の方が使い良し、かもしれません。 1ページ H こ4図を掲載する例を紹介したが、 ORIGINや LENGTHを調整す また今回は 1枚 ( ることにより、 1枚(lページ)2図あるいは 6図とし、ったグラフも作成可能で、す。 参考文献 tSAS/GRAPHリファレンスガイド、 R e l e a s e6 . 0 3 E d i t i o n J η 司U ワI 44

454.

グラフ① ④を重ね合わせ、 ANNOTATEMACROで体裁を整えたグラフ 1.血液学的検査 赤血球数 前期第 1相試験 (X10"μ1) . . . . " i ∞ . ー・' ・ ー , . ・・ . ‑ ‑ ‑ .. ・ ー .. . ・ ・・ , . . . . . ∞ . . . . ∞v 6 : ‑ 9.4∞ 22 後 後 ∞ 3 3 2 200 ∞ 3 ∞ 4 ∞ 2 ・ ∞ 3 500 6 ∞ 2 300 (x10"μ1) 投与前 400 500 全試験 (Xl O ' ,μ 1 ) 6 ∞ 6 ∞ 5 600 (x10"μ1) 投与前 第1 1 1相試験 (X10"μ1) . ・ . . • • . . . . . t 量 投 4 後期第 1相試験 ∞ パ . . , .. イ ∞ 5 (X10"μ1) ∞ ∞ 5 f ! } : 投 ∞ ∞ 与 4 与 4 f 麦 ~tí ∞ ∞ 3 ∞ 3 ∞ 2 200 2 ∞ 3 4 0 0 投与前 500 ∞ 6 ∞ 2 (x10"μ1) 300 400 投与 500 r i i j 600 (x10"μ1) 4AU1 4AU1 η ' 1

455.

SASForumユーザー会世話人会 • • 代表世話人 東京大学 大橋靖雄 副代表世話人 イーピーエス株式会社 本川裕 世話人 成践大学 岩崎学 株式会社 UFJ銀行 小野潔 兵庫県立大学 周防節雄 株式会社ベルシステム 24 西次男 持田製薬株式会社 舟喜光一 株式会社竹中工務庖 八 木 章 (2004年年次総会チェアマン) SASForumユーザー会事務局 SASI n s t i t u t eJapan株 式 会 社 内 干1 0 4 一0 0 5 4東 京 都 中 央 区 勝 ど き ト 1 3 ‑ 1 イヌイピル・カチドキ 8F TEL:0 3 ‑ 3 5 3 3 ‑ 6 9 3 6 FAX:0 3 ‑ 3 5 3 3 ‑ 3 7 8 1 E ‑ m a i l :jpnsaswg@sas.com j a p a n / h t t p : / / w w w . s a s . c o m正 SASForum ユ ー ザ ー 会 学 術 総 会 2004 論文集 2 0 0 4年 7月 2 9日 発行 初版第 1刷発行 SASForumユーザー会 SASI n s t i t u t eJ a p a n株式会社