>100 Views
April 21, 25
スライド概要
臨床試験の早期中止の検討におけるベイズ流予測確率と条件付き検出力の利用について 堺伸也
Group Sequential計画のためのパワーシミュレータの開発 本田圭一
投与期間別の副作用発現率を解釈するために 古川雅史
シグモイド型用量反応曲線の解析 ,2値および計量値のシグモイド曲線 ― 曲線の推定および逆推 定と95%信頼区間 ― 杉山公仁
シグモイド型用量反応曲線の解析 ,陰性および陽性対照があるシグモイド曲線 ― ダミー変数を 持つ非線型回帰モデルの応用 ― 山田雅之
シグモイド型用量反応曲線の解析 ,計量値のシグモイド用量反応曲線の同時推定 ― 効力比とそ の95%信頼区間 ― 高橋行雄
生存時間解析における症例数設計 浜田知久馬
区間打ち切り生存時間データのセミパラメトリックな解析法のSASプログラムの紹介 ~ギブス・サン プラーを利用した周辺尤度アプローチ~ 西山智
イベント発生確率推定時における連続変数のカテ ゴリー化,およびカテゴリ変数の実数化 上條史夫
SASによる生存時間の多重イベントの解析~糖尿 病合併症を例に~ 広本篤
再発事象に対するモデルを用いた解析方法の検 討 中牧子
MIXEDプロシジャを用いた線形混合効果モデルの 交互作用の指定方法 寒水孝司
要因配置実験の効果成分の表示から生じる不定 性 柴山忠雄
CROにおけるSASプログラマの育成教育 竹田眞
CALL EXECUTEを用いたマクロの再帰呼び出しと 統計計算への応用 伊藤要二
SAS未経験者をSAS内部構造を理解したDATAステップSASプログラマに短期間で育成するカリキュ ラムの紹介 山田大志
Microsoft AccessとSASによるデータマネジメント システム 中村竜児
SASによるメタデータマネジメント Michelle Ryals
Enterprise Guide 2.0 によるadd-in 機能について 木下貴文
SAS/SHAREサーバーアクセスログの分析 中村崇文
簡易 運用入門 弘田貴
MEANS,TABULATE,DATASETSプロシジャの機能紹介 檜皮孝史
SASソフトウェアを利用したCIR++ モデルのパラメータ推定と金利パス生成 岸田則生
コンシューマ・クレジット業の利益指向の新与信モデル 小野潔
非補償型ロジットモデルを用いた企業倒産確率の 予測モデル ― NLP Procedureによる非補償型ロジットモデルに対するパラメータ推定 ― 坂巻英一
SAS Risk Dimensionsによる統合リスク分析のご 紹介 嘉陽亜希子
建築生産における建築物の耐久性確保に関する 実務者の意識と実態 小島隆矢
JMPによるワインの顧客価値分析 林俊克
看護師のセクシャルハラスメントに対する意識に ついて 田久浩志
Life Time Valueを基準とした施策の最適化方法 ― 遺伝的アルゴリズムによる解析事例 ― 小谷田知行
Bioinformaticsの手法を活用したクレジットカード 取引履歴データの途上審査モデルへの適用事例 堀彰男
ゲノム創薬向け統合ソリューション SAS Scientific Discovery Solutionsの紹介 段谷高章
一般化推定方程式およびSASの解析ツール 王露萍
NLMIXED プロシジャーを用いたItem Response Modelのシミュレーション 板東説也
変 量 効 果 モ デ ル に よ る メ タ ・ ア ナ リ シ ス DerSimonian-Laird法のSASマクロの作成 中西豊支
メタ・アナリシスにおける公表バイアスの評価trim- and-fill法のSASマクロの作成 松岡伸篤
看護系大学における疫学・生物統計学教育の実態調査 田中司朗
SASを用いたXMLデータの作成 ―ODM ver. 1.1対応― 岡下邦博
SASデータセットのエクスポート 羽田野実
労働市場の時系列分析 ~ JMPを利用して ~ 浦澤浩一
アジルなSupply Chainを実現する予測プロセスの自動化 ―SAS High-Performance Forecastingの ご紹介― 松舘学
地方における実演芸術鑑賞の実態 ―県民芸術 劇場(兵庫県)の来場者調査より― 有馬昌宏
青年期女性の自意識と完全主義傾向の関連 中村晃士
個人レベルの選好を基にしたクラスタリング 河崎一益
患者参加型医療情報交換システムのニーズ調査 義澤宣明
SAS/GRAPH入門 ~ 社内における教育研修事例 ~ 林行和
SASグラフによる動く万華鏡の作成 岸本容司
SAS言語を中心として,解析業務担当者・プログラマなのコミュニティを活性化したいです
第 22回 日 本 SASユーザー会総会 および研究発表会 論文集 2003年 7月 31 日(木) " ' 8月 1日(金)
SAS、SASを構成するプロダクト群は、 SASI n s t i t u t eI n c の畳録商標です。 その他、本論文集に記載されている会社名、製品名は、一般にそれぞれ各社の商標または登録商 標です。 本論文集の一部または全部を無断転載することは、著作権法上の例外を除き、禁止されています。 本論文集の内容を実際に運用した結果の影響については、責任を負いかねます。
目 次 '.'、人ペポ 士、λ ・ ぺ 戸 1M 叩 円 、 φ 医薬品開発 臨床試験の早期中止の検討における…………………………………………… 3 ベイズ流予測確率と条件付き検出力の利用について i 界仰也(イーピー工ス株式会社/東京理科大学〉 菅波秀規(興和株式会社/東京理科大学〉 G r o u pS e q u e n t i a l計画のためのパワーシミュレータの開発…...・ ・..……………… 1 1 H 本田圭一(塩野義製薬株式会社〉 田崎武信 太田裕二(住商情報システム株式会社〉 佐買野修一 投与期間別の副作用発現率を解釈するために...・ ・ ‑ … . . . ・ ・‑………………… 1 9 H H 古川雅史(塩野義製薬株式会社〉 片山和夫 田崎武信 SASI n t e g r a t i o nT e c h n o l o g i e s+ ASPによる一一・…一一・・・・・・・…・ー・…・・・・・・・・・・・・・ー…・ 3 1 解析帳票作成 Webシステム構築の試み 岩本光司(武田薬品工業株式会社〉 矢野尚(株式会社富士通ビー・工ス・シー〉 く医薬特別セッション:シグモイド型用量反応曲線の解析> 2値および計量値のシグ壬イド曲線……...・ ・..………………………………… 4 1 一曲線の推定および逆推定と 95%信頼区間一 H 杉山公イ二(昭和薬品化工株式会社〉 馬場淳(明治製菓株式会社〉 天竺桂裕一朗(興和株式会社〉 高橋行雄(中外製薬株式会社〉 陰性および陽性対照があるシグ壬イド曲線…...・ ・‑・………………………… 5 1 ーダミー変数を持つ非線型回帰壬デルの応用ー H 山田雅之(キッセイ薬昂工業株式会社〉 吉田光宏(グラクソ・スミスクライン株式会社〉 高橋行雄(中外製薬株式会社〉 計量値のシグモイド用量反応曲線の同時推定...・ ・‑………………………… 6 1 ー効力比とその 95%信頼区間一 H 高橋行雄(中外製薬株式会社〉
‑チュートリアル 生存時間解析における症例数設計...・ ・ ・・ . . . . . ・ ・ . . . . . ・ ・ . . . . . ・ ・・ ・ . . . . . ・ ・ . .7 3 H H H H H H H H H 浜田知久馬(東京理科大学〕 藤井陽介 ‑統計解析 区間打ち切り生存時間データのセミパラメトリックな解析法の…...・ ・ . . . . . ・ ・ . . … 1 0 1 SASプログラムの紹介 ーギブス・サンプラーを利用した周辺尤度アプローチー H H 西山智(アベンティスファーマ株式会社/東京理科大学〕 吉村健一(東京大学〕 イベント発生確率推定時における連続変数のカテゴリー化、...・ ・ . . . . . ・ ・ . . . . . ・ ・ . .1 1 3 およびカテゴリ変数の実数化 H H H 上傑史夫(株式会社叡理按研〉 川崎章弘 SASによる生存時間の多重イベントの解析…...・ ・ . . . . . ・ ・ . . … . . . ・ ・ . . . . . ・ ・・・ . .1 2 1 H H H H H H ー糖原病合併症を例に一 広本篤(東京大学〉 金 子 徹j 台 大橋靖雄 再発事象に対するモデルを用いた解析方法の検討…...・ ・ . . . . . ・ ・ . . … . . . ・ ・ . . … 1 3 1 H H H 中牧子(東京大学〉 大橋靖雄 MIXEDプロシジャを用いた...・ ・ . . . . . ・ ・ . . … … . . . ・ ・..………・・・………...・ ・ . . … 1 4 1 線形混合効果モデルの交互作用の指定方法 H H H H 寒水孝司(東京理科大学〉 菅渡秀規(興和株式会社/東京理科大学〉 要因配置実験の効果成分の表示から生じる不定性・ ・ ・ . . … . . . ・ ・ . . . . . ・ ・・ ・ . .1 5 1 H H H H H H 柴山忠雄(前:名古屋市工業研究所〕 ‑統計教育 CROにおける SASプログラマの育成教育・ ・・ . . … . . . ・ ・ . . . . . ・ ・・・ . . . . . ・ ・..…… 1 6 1 H H 竹 田 員 ( 株 式 会 社 CRCソリユーションズ〉 佐藤智美 1 1 H H H H H
‑システム CALL EXECUTEを用いたマクロの再帰呼び出しと統計計算への応用…...・ ・ . . … H 1 6 9 伊藤要二(アストラゼネ力株式会社〉 SAS未経験者を SAS内部構造を理解した DATAステップ SASプログラマ i ・ こ ・・ . .1 7 9 短期間で育成するカリキュラムの紹介 山田大志(アストラゼネ力株式会社) H H 小津康彦 宮浦千香子 MicrosoftAccessとSASによるデータマネジメントシステム…・…・…........・ ・ ・ ・ ・ … ・ H 1 8 9 中村竜兜(メデイカル統計株式会社〉 松j 尺享 SAS ⑧ M etadata,A u t h o r i z a t i o nandManagementS e r v i c e s .・ … . . . . . . ・ ・ . . … … ・ ・ … ・ ・ H 1 9 9 ‑Wo欣 i n gTogetherf o rYou SASによるメタデータマネジメント M i c h e l l eRyals (SASI n s t i t u t eI n c . ) 翻 訳 鹿 渡 圭 二 郎 (SASI n s t i t u t eJapan株式会社〉 李錦実 江口英男 E n t e r p r i s e Guide 2 . 0による add‑in機能について...・ ・・ ・ . . . . . ・ ・ . . . . . ・ ・ . . . . . ・ ・ . .2 1 1 木下貴文 (SASI n s t i t u t eJapan株式会社) H H H H H H SAS/SHAREサーバーアクセスログの分析...・ ・ . . . . . ・ ・・ ・ . . … . . . ・ ・ . . … . . . ・ ・ . .2 1 9 中村崇文 (SASI n s t i t u t eJapan株式会社〉 H H H H H H . . . . . ・ ・ . . . . . ・ ・・・ . . . . . ・ ・ . . . . . ・ ・ . . . . . ・ ・ . . … . . . ・ ・..…… 2 2 9 簡易運用入門…...・ ・ 弘田貴 (SASI n s t i t u t eJapan株式会社〉 H H H H H H H H H MEANS、TABULATE、DATASETSプロシジャの機能紹介・ ・ ・ . . … … . . . ・ ・..…… 信 度 孝 史 (SASI n s t i t u t eJapan株式会社) 渋谷佳桟 迫田奈緒子 H H H 2 3 9 ‑経営・経済 SASソフトウェアを利用した CIR++ モデルの...・ ・ . . . . . ・ ・ . . … . . . ・ ・ . . . . . ・ ・ . . . . . ・ ・ . .2 5 1 H H H H H パラメータ推定と金利パス生成 岸田則生(株式会社 CRCソリユーショツズ) . . . . . ・ ・ . . . ・ ・‑…….. 2 6 1 コンシューマ・クレジット業の利益指向の新与信モデル....・ ・ 小野潔(妹式会社 UFJ銀行〉 H H H l l l
非補償型ロジットモデルを用いた企業倒産確率の予測モデル・ ・・ . . . . . ・ ・..…… 269 ‑NLPProcedureによる非補償型ロジットモデルに対するパラメータ推定一 H H H 坂巻英一(株式会社金融工学研究所/東京工業大学〉 SAS R i s k Dimensionsによる統合リスク分析のご紹介・ ・ ・ . . . . . ・ ・・ ・ . . . . . ・ ・ . .2 8 1 嘉 陽 亜 希 子 (SASI n s t i t u t eJapan株式会社〉 鬼頭拓郎 尾高雅代 田中愛 H H H H H H φ 調査・マーケティング 建築生産における建築物の耐久性確保に関する実務者の意識と実態...・ ・ . . … 295 H 小島隆矢(独立行政法人建築研究所〉 小野久美子(国土交通省国土技術政策総合研究所〉 植木暁司 JMPによるワインの顧客価値分析...・ ・ . . … . . . ・ ・ . . . . . ・ ・ . . . . . ・ ・ . . … . . . ・ ・..…… 305 柿俊寛(株式会社資生堂〉 平野広隆(株式会社アーキテクト〉 H H H H H 看護師のセクシャルハラスメントに対する意識について...・ ・・・ . . . . . ・ ・ . . . . . ・ ・ . . 315 H H H H H 田久浩志(中部学院大学〉 吉 本 晋 (NPO福祉法人 OIOEMASE) . . … . . . ・ ・ . . . . . ・ ・ . . . . . ・ ・ . . 319 L i f eTimeValueを基準とした施策の最適化方法…...・ ・ H H H H 一遺伝的アルゴリズムによる解析事例一 小笹田知行(株式会社浜銀総合研究所〉 堀彰男 B i o i n f o r m a t i c sの手法を活用したクレジットカード取引雇歴データの...・ ・ . . . . . ・ ・ . . 329 途上審査モデルへの適用事例 H H 堀彰男(株式会社浜銀総合研究所〉 小谷田知行 • SASソリューション ゲノム創薬向け統合ソリューション……...・ ・・ ・ . . . . . ・ ・ . . . . . ・ ・ ・・ . . . . . ・ ・ . . … 341 SASS c i e n t i f i cDiscoveryS o l u t i o n sの紹介 H H 段 谷 高 章 (SASI n s t i t u t eJapan株式会社〉 IV H H H H H H
[ポスターセッション ・統計解析 一般化推定方程式および SASの解析ツール・・... 王露?平(アベンティスフアーマ株式会社〉 野口知雄 高 田 康 行 寺田製薬株式会社〕 o NLMIXEDプロシジャーを用いた I t e m R e s p o n s e M o d e lのシミュレーション…………… 3 6 1 板東説也(育隈会社電悶システムズ〕 宮司悦良(東京理科大学〉 緑川 l修一 高原佳奈 変量効果モデルによるメタ・アナリシス…………………...・ ・ . . . . . ・ ・..…………… 3 6 9 D e r S i m o n i a n ‑ L a i r d法の SAS マクロの作成 H H 中西豊支(東京理科大学〕 浜田知久馬 メタ・アナリシスにおける公表バイアスの評価……………………………………… 3 7 9 t r i m ‑ a n dイi l法の SAS マクロの作成 松岡仰篤(東京理科大学〕 浜田知久馬 ‑統計教育 看護系大学における疫学・生物統計学教育の実態調査・............ 田中司朗(東京大学〕 ‑システム SASを用いた XML データの作成一 ODMv e r . 1.1対応一………………...・ ・ . . … 4 0 3 H 岡下邦湾(株式会社日本アルトマーク〕 進藤三富子 SASデータセットのエクスポート………………………………………...・ ・ ・ ・ . . … 4 0 9 羽田野実 ( SASI n s t i t u t eJapan株式会社〉 H H H ‑経営・経済 労働市場の時系列分析 ‑JMP を利用して一……………………………………… 4 1 7 浦津浩一(株式会社八千代銀行/青山学院大学〕 V
アジルな Supply Chainを実現する予測プロセスの自動化・ ・・ . . . . . ・ ・ . . … . . . ・ ・ . .4 3 1 ‑SAS ⑮ H igh‑PerformanceForecastingのご紹介一 H H H H 松 舘 学 (SASI n s t i t u t eJapan株式会社〉 ‑調査・マーケティング 地方における実演芸術鑑賞の実態...・ ・ . . … . . . ・ ・ . . . . . ・ ・ . . … . . . ・ ・ . . . . . ・ ・ . . … … 4 4 3 H H H H H 一県民芸術劇場(兵庫県)の来場者調査より一 青馬昌宏(神戸商科大学〉 青年期女性の自意識と完全主義傾向の関連…...・ ・ . . . . . ・ ・ . . . . . ・ ・ . . … . . . ・ ・ . . … 4 5 3 H H H H 中村男士(東京慈恵会医科大学〉 牛島定信 鯨俊彦 清水英佑 個人レベルの選好を基にしたクラスタリング・ ・・ . . . . . ・ ・ . . … . . . ・ ・ . . … . . . ・ ・ . . … 4 5 9 H H H H H 沼崎 益(株式会社日本アルトマーク〉 松沢利繁(妹式会社インターナショナル・クリ工イティブ・マーケテインク〉 患者参加型医療情報交換システムのニーズ調査...・ ・ . . . . . ・ ・ ・・ . . . . . ・ ・・ ・ . .4 6 5 H H H H H H H 義運宣明(妹式会社三菱総合研究所〉 船曳淳 小山博史(東京大学〉 φ グ、ラフィック・統計教育 SAS/GRAPH入門一社内における教育研修事例‑...・ ・・・ . . … . . . ・ ・ . . . . . ・ ・ . .4 7 7 柿行和(抹式会社 CRCソリユーショツズ〉 畑中雄介 小出起美雅 山口孝 H H H H ‑グラフィック・レポーティング H SASグラフによる動く万華鏡の作成…...・ ・ . . … . . . ・ ・ . . . . . ・ ・・ ・ . . . . . ・ ・..……… 4 8 9 H 岸本容司(神戸商科大学〉 VJ H H H H H
口頭論文発表 医薬品開発
日本 SASユーザー会 (SUG1‑0) 臨床試験の早期中止の検討における ベイズ流予測確率と条件付き検出力の利用について 0堺伸也専 '.2 菅波秀規判定3 判東京理科大学大学院工学研究科 キ2 イーピーエス株式会社統計解析部 刊興和株式会社臨床解析部 Comparisono fBayesianp r e d i c t i v ep r o b a b i l i t yand c o n di ti o n aIp o w e ra s ac ri t e ri o n f o re a r l yt e r m i n a t i o no fc l i n i c a lt r i a l s ShinyaS a k a i判 刊 H i d e k i Suganami利 時 平 GraduateSchoolo fE n g i n e e r i n g,TokyoU n i v a r s i t yo fScience 1 S t a t i s t i c sA n a l y s i sD e p t .,EPSC O .,L t d . * 2 B i o s t a t i s t i c sandDataManagementD e p t .,KowaCO.,L t d . *3 要旨 近年、中間解析を実施する試験が増えてきている。中間 w析は「臨床試験のための統計的原則」にも明記 : , されており、臨床試験での標準的な実験デザインのーっとして認知されている。臨床試験での薬剤の有効 性に関して中間解析を行う目的は大きく 2つに分類される。①有効性が示されたと判断して、試験を早期中 止する(帰無仮説 H。を棄却する)。②将来有効性を示すことが難しし吃判断して、試験を早期中止する。本 稿では、②に関してしばしば利用される「ベイズ流予測確率」と「条件付き検出力」についての検討を行った。 これらの手法は、将来有意差の得られる確率を示すため、数値の意味を臨床家へ説明し易く利用性は高い と思われる。しかし、。エラーを制御することは第一の目標とされていないため利用に際しては注意が必要 である。本稿では単純な臨床試験の状況を想定し「条件付き検出力」と「ベイズ流予測確率」を算出するため の SASプログラムを作成し、。エラー、試験を停止させる確率等の性能を SAS8.2を利用して評価した。 キーワード: ベイズ流予測確率、条件付き検出力、早期中止 ベイズ流予測確率と条件付き検出力の算出式 手法の詳細は、宇野,松井,小山 ( 2 0 0 0 )で、述べられている。論文中でのプロトタイプケースの設定を本稿 では利用した。 く記号〉 簡単のため l標本で試験を考え、各症例 i のデータ Rが平均値引薬剤効果)、分散 σ2 (既知)の正 o:5 i=0 を片側有意水準 αで検定するものとする。中間解析時に m 規分布に従うとする。帰無仮説 H 症例のデータを回収済みで、 ! Y1' Y 2 " ", Y m )、最終解析まで1こ残り n症例のデータを回収する予定とす Y " けい丸山一・ , Y c 中間解析時の m 症 1~IJ のデータの平均値を九、最終解析時の m+n 症例の る! m+n} デ ー タ の 平 均 値 を X川+"とする。このとき帰無仮説 Ho・ i 5=0 を 検 定 す る た め の 統 計 量 は z m = x J F / σ 、Z F 2 3 + F t = x n t J 3
く中止基準の設定〉 将来有意であることを示すことが難しいとき、試験を早期中止する場合を考える c ベイズ流予測確率(無情報事前分布)の算出式 中間解析時点のパラメータ 6に関する情報によって無情報事前分布を更新し、最終解析時に有意と …一日刊 なる確率P'1lを求める c 中間解析時点での試験の進捗の害IJ合を fとすると (j= /11/ ( 1 1 1+n ) )、 z H。を棄却する確率を算出し、これがある基準値 l一γより低し吐き試験を早期中止するとし、う基準を構 p i e g e l h a l t e r, Freedman, Parmar( l9 9 4 )は楽観的な事前分布を設定したベイズ、流予測確率で、 成できる。 S 判断を行うことを薦めている。なお、事前分布を設定したベイズ流予測確率の算出式は同論文を参照 頂きたい。関心のあるベイズ流予測確率として、無情報事前分布、楽観的な事前分布、悲観的な事前 分布を設定したときの数値を評価している c S p i e g e l h a l t e r, Freedman, Parmar ( 1 9 9 4 )は、ベイズ流予測確率で中間解析を行ったとき αエラーを制御 するために、悲観的な事前分布を設定する方法も紹介している。 一条件付き検出力の算出式一 ( , " 同(1‑α)‑z" , f 1 ‑δ五三 (1‑f)I Zmの条件付きで、最終解析時に有意となる確率 C δ )を求める C 1 c j o )= 1‑叫 I 「ーて ‑ J !‑f ~ σ I ( 8は薬剤効果) H。を棄却する確率を算出し、条件付き検出力(8=8[・当初想定した薬剤効果)がある基準値 lγ よ り L a n, Simon, H a l p e r i n (1 9 8 2 ) )。ベイズ流予測確率の算出方法と異なり、 Zm 低いとき試験を早期中止する ( は既に得られたデータとしては利用されるが、残り n 例の挙動には影響を与えない。また、逆に H。を 棄却することを目的に試験を早期中止するときは 8= 8o (帰無仮説)を設定する。 :帰無仮説、 8=δ:中間解析時 関心のある条件付き検出力として、 8=8[:想定した薬剤効果、 8=80 δ L .中間解析時の平均値の信頼下限の値 の平均値、 8=δ u.中間解析時の平均値の信頼上限、 8= などが用いられる c 条 件 付 き 確 率 (8=8[ ) で の 判 定 を 複 数 回 行 っ た と き 日 エ ラ ー の 上 限 は s/γ となる ( L a n, Simon, H a l p e r i n (1 9 8 2 ) )。 早期中止の検討に際しては、基準値を定めず関心のある複数の数値を算出し、独立データモニタリン グ委員会が総合的に判断する場合もあるが、企業の方針も重要な判断材料であるため、早期中止の 基準はプロトコールに明記する方が望ましい c 4‑
なお早期中止の基準値としては 5%、1 0 、 弘 20弘として設定し、考察していることが多い。 生存時間解析の例 生存時間をエンドポイントとした例を示す。 A 群 , 8 群 の 2群間比較(優越性試験)で、対数ノ¥ザード 比 0 . 3を想定し、 αエラー 2 . 5 % (片側J)、。エラー 20九のもとで総イベント数 350例を見積もったとする。イベ ン卜数 175例集めたときに中間解析を行い、そのときの対数ハザード比は x =0.10で、あった(図 1 )。この " , ときの「ベイズ流予測確率」と「条件付き検出力」は次のようになる。 . 1 5 3 ベイズ流予測確率(無情報事前分布) 0 条件付き検出力 (aニ ム =0.30) 0. 450 条件付き検出力 (aニ 1 5= 0 . 1 0 ) 0 . 0 7 4 4一 一一一←ー . 2 ‑ z 3 ・ ・・ .~ー一『、、 : 軍 司 、 ー 0 . 0 0 . 3 図 1 中間解析時のパラメータ δの事後分布 } 1 1 I l 0 . 6 (対数ノ、ザード比) S p i e g e l h a l t e r, Freedman, Parmar ( 19 9 4 )はベイズ流による解析の紹介で、生存時間解析の群間比較(両 群とも例数は同じ、対数ハザード比ミ 0 )として 6を対数ハザード比、 xm=4L/m(Lは Log‑rankスコア)、 U 2二 4とする近似式を用いている c このとき m, nは症例数ではなくイベント数となる。条件付き検出力の 算出においてもこの方法を用いた。 また、条件付き検出力 (a ( 5 )を中止基準として利用することは妥当ではないかもしれないが、比較の 二 ため示した。 中間解析時に得られたデータの対数ハザード比 Xm は 0 . 1だ、ったが、この値を変化させたとしてベイズ 流予測確率と条件付き検出力の値を計算した(図 2 )。 5‑
0 . 8 条件付き検出力付=5 i1=0.30) 0 . 6十 0. 4 0 . 2 0 ‑ 0 . 1 0 . 2 。 0 . 1 0 . 2 0. 4 0 . 3 図 2 ベイズ流予測確率と条件付き検出力の値 0 . 5 (対数ノ¥ザード比) δ = Xm)は非常に近し、値をとることが図から ベイズ、流予測確率(無情報事前分布)と条件付き検出力(a= X " ' )を求めて分布関数の中身を 読み取れる。先の設定で、条件付き検出力 (a=d= f . i倍するとベイ ズ、流予測確率(無情報事前分布)と同じ式になり U e n n i s o n, Turnb u l l ( 2 0 0 0 ) )、また、同様に先の設定で、 ベイズ、流予測確率を算出する際の予測分布を求めるところでパラメータ 6の分布を 6 Xm の l点に集 二 中させると、ベイズ流予測確率(無情報事前分布)と条件付き検出力 (a= δ= Xm)は等しくなる。 性能評価 ベイズ 時に将来有効性を示すことが難しし、か否か検討を行うケ一スを想想、定して、 S A Sの PROBBNRM関数(二 変量正規分布の分布関数)を用いてプログラムを作成したc 早期中止を判断する基準値をト γ とすると、ベイズ流予測確率の式より マ+φ'(1‑α Z mくφ ' ( 1 ‑y ) ) 1 ぽを満たすとき、試験を中止することになる c ) f J ,) I、zm+II"‑N((za+ZpA l )、 期待する仮説(a1= ( ら + 叫 三 一 ) の も と で 、 ら " ‑ N ( ( Z a+z p Vm+n f . iとなることから PROBBNRM関数で次の確率が算出できる C o v ( 日山)= c ‑中間解析時に早期中止せず、最終解析で有意となる確率 ・中間解析時に早期中止せず、最終解析で有意とならない確率 ・中間解析時に早期中止し、(もし継続していたら)最終解析で有意となる確率 ・中間解析時に早期中止し、(もし継続していたら)最終解析で有意とならない確率 ZG=φ'(1‑0.025)、Z p= φ一' ( 1 ‑0.200)として、これらの数値から表 1 、表 2を作成した。 phu
表 1 性能:想定通りの薬剤効果がある (δ=δ1)とき 有意差の出る確率 0.8000(検出力)の内訳を示した。ベイズ流予測確率で基準値 0.05で判断 を行うと、 0.0071で試験を中止し、 0.7929で最終解析まで行い有意差ありとなる 中間解析 基準値 ベイズ流 条件付き 条件付き 予測確率 検出力 実施時点 検出δ 力) J (δ= 0 . 0 2 0 7 0 . 0 3 4 2 0 . 0 5 8 8 0 . 0 5 1 7 0 . 0 7 2 9 0 . 1 0 6 3 f 0 . 5 0 0 . 3 0 0 . 0 5 0 . 1 0 0 . 2 0 0 . 0 5 0 . 1 0 0 . 2 0 0 . 0 0 7 1 0 . 0 1 6 2 0 . 0 3 8 5 0 . 0 1 0 9 0 . 0 2 4 6 0 . 0 5 7 4 (δ=δ1) 0 . 0 0 0 1 0 . 0 0 0 4 0 . 0 0 2 6 0 . 0 0 0 0 0 . 0 0 0 0 0 . 0 0 0 4 。 表 2 性能‑薬剤効果がない (δ=δ = 0 )とき . 9 7 5 0 ( 1 有意水準)の内訳を示した。ベイズ流予測確率で基準値 0 . 0 5 有意差の出ない確率 0 で判断を行うと、 0.5875で試験を中止し、 0.3875で最終解析まで行し、有意差なしとなる 中間解析 基準値 ベイズ流 条件付き 条件付き 予測確率 検出力 実施時点 力) 検出b 0 . 5 0 0 . 3 0 0 . 0 5 0 . 1 0 0 . 2 0 0 . 0 5 0 . 1 0 0 . 2 0 0 . 5 8 7 5 0 . 6 8 2 9 0 . 7 8 2 4 0 . 3 8 0 3 0. 49 88 0 . 6 4 0 5 一一 ← ー (δ= 0 . 7 1 1 7 0 . 7 6 9 1 0 . 8 2 8 3 0 . 6 2 2 1 0 . 6 8 2 2 0 . 7 4 8 1 ) (δ=δ , 0 . 1 9 6 5 0 . 3 1 1 8 0. 47 95 0 . 0 0 6 0 0 . 0 2 5 0 0 . 0 9 8 9 表には「条件付き検出力」で、もっとも関心の高し吐息われる 8= δ を中止基準としたときの結果も含め、 正規の中止基準である 8=81としたときの結果も示した。ベイズ流予測確率は楽観的な事前分布を設 定する方法もあるが、簡便さから無情報事前分布に基づく結果を示したc . 3のケースの 2っとしたc 手0 . 3は、ベイズ流予測確率と条件 中間解析の実施時点 fは 0.5のケースと 0 8=δ)において、試験開始直後の少ないデータから判断を行うことについて、その危険性 付き検出力 ( の有無を確認するために設定した。 ) c あと、「薬剤効果が想定の半分」のときについても表を作成した(表 3、表 4 表 3 性能‑薬剤効果が想定の半分 (δ=δ/2)のとき 1 有意差の出る確率 0.2880の内訳を示した。ベイズ流予測確率で基準値 0.05で判断を行うと、 0 . 0 0 5 4で試験を中止し、 0 . 2 8 2 6で最終解析まで行い有意差ありとなる、 , ベイズ、流 条件付き 条件付き 基準値 中間解析 予測確率 検出力 実施時点 検出カ δ) f 0 . 5 0 0 . 3 0 0 . 0 5 0 . 1 0 0 . 2 0 0 . 0 5 0 . 1 0 0 . 2 0 0 . 0 0 5 4 0 . 0 1 1 9 0 . 0 2 6 7 0 . 0 0 7 1 0 . 0 1 5 3 0 . 0 3 3 7 一 一 一 一 一 ‑7‑ 一 一 一 一 一 ( δ二 0 . 0 1 5 0 0 . 0 2 3 9 0 . 0 3 9 3 0 . 0 3 0 6 0 . 0 4 1 9 0 . 0 5 9 0 (δ=δ , ) 0 . 0 0 0 1 0 . 0 0 0 3 0 . 0 0 2 1 0 . 0 0 0 0 0 . 0 0 0 0 0 . 0 0 0 3 一 一 一 一 一一一←一一一 一
表4 性能:薬剤効果が想定の半分(δ=δ 1 / 2 )のとき 2 有意差の出ない確率 0 . 7 1 2 0の内訳を示した。ベイズ流予測確率で基準値0 . 0 5で判断を行う 、 と0 . 2 1 5 9で試験を中止し、 0. 49 6 1で最終解析まで行い有意差なしとなる 中間解析 基準値 ベイズ流 条件付き 条件付き 予測確率 検出力 実施時点 検出 δ 力) ( δニ f (δ=δJ u 0 . 5 0 0 . 3 0 0 . 0 5 0 . 1 0 0 . 2 0 0 . 0 5 0 . 1 0 0 . 2 0 0 . 2 1 5 9 0 . 2 9 2 9 0 . 3 9 4 2 0 . 1 3 5 2 0 . 2 0 6 5 0 . 3 1 1 7 0 . 3 1 9 7 0 . 3 7 9 2 0. 45 0 5 0 . 2 9 6 7 0 . 3 4 7 5 0. 40 94 0 . 0 3 2 5 0 . 0 6 8 9 0 . 1 4 6 8 0 . 0 0 0 5 0 . 0 0 3 2 0 . 0 1 9 7 考察 試験が薬剤の有効性を示すことが目的であることから考えて、表 lで将来有効性の示せるデータを 5 % 以上の割合で早期中止させる基準は問題があると考えた。条件付き検出力(0= d)の全ての基準値と ベイズ流予測確率の基準値 0.20はこれに該当する c 条件付き検出力(0ニ δ)は関心の高い数値だが、 中止基準としての利用は難しし吃思われた。ベイズ流予測確率の基準値 0.20は試験の開始直後での 利用は注意が必要である。これらは検出力を大きく低下させる場合がある。 表 2から考察し、ベイズ流予測確率、条件付き検出力(0ニ o1 )の基準値 0 . 2 0については、「薬剤効果 がなし、」ときの早期中止の性能は高し吃思われた c 試験の半分近くを中止することができる c すこし読み取りづらいが表 3と表4からも同様のことが見てとれる。 以上のように中間解析が l回の場合は SASの PROBBNRM関数を用いて容易に考察を行うことが出来 る。なお、 αエラーと 3エラーを保持することに主眼をおいた手法は]ennison, Turnbu I l ( 2 0 0 0 )に紹介が ある。 謝辞 木稿の作成について浜田知久馬助教授(東京理科大学)に助言を頂きました。御礼申し上げます。 参考文献 1 )] e n n i s o n, C . and Turnbu , I lB.W.(2000),Group S e q u e n t i a l Methods w i t hA p p l i c a t i o n st oC l i n i c a l T r i a l s,Chapman& HalI !CRC 2 ) Lan, K.K.G.,Simon, R . amdH a l p e r i n, M.(1982),S t o c h a s t i c a I l yc u r t a i l e dt e s t si n long‑term c l i n i c a l t r i a l s .,Commun.Statist .C, 1, 207‑219 3 )S p i e g e l h a l t e r, D .J , Freedman, L .S . and Parmar, M.K.B.(1994),Bayesian approachest orandomized t r i a l s .,J . R .S t a t i st .Soc.A, 157, 357‑416 8‑
4 ) 医 薬 審 第 1047号 r 臨床試験のための統計的原則」について, (1998年 1 1月 30日) 5 ) 宇野一.松井茂之.小山鴨之 ( 2 0 0 0 ),中間解析におけるベイズ流アプローチ:最近の理論的展開, 計量生物学, 2 1巻特集号, 125‑149 使用したプログラム /牢変数の説明 P 1 中間解析時に早期中止せず、最終解析時に有意差あり P 2 :中間解析時に早期中止、最終解析時に有意差あり P 3 :中間解析時に早期中止せず、最終解析時に有意差なし P 4 :中間解析時に早期中止、最終解析時に有意差なし P 1 2 ・ P1 +P 2 P 3 4 :P 3 + P 4 P 2P 1 2 P 2 / P 1 2 P 4P 3 4 :P 4 / P 3 4 M E T H O D 0 :ベイズ流予測確率 1:条件付き確率 ( o=o‑ )2 :条件付き確率 (δ=δ1) 本 / d a t aw k 1 d od e l t a = O, ( p r o b i t( 0 .9 7 5 ) + p r o b i t( 0 .8 0 ) )/2. ( p r o b i t( 0 .9 7 5 ) + p r o b i t( 0 .8 0 ) ) d of = O .3. O .5 d om et h o d = O .1 .2 ; d og = O .0 5 .O .1 0,O .2 0 i fm e t h o d = Ot h e nz =p r o b it( 0. 9 7 5 )牢s q r t( f )+ p r o bi t( g )牢s q r t ( l ‑ f ) i fm e t h o d = lt h e nz =p r o bi t( 0. 9 7 5 )牢s q r t( f )+ p r o b it( g )本s q r t( l ‑ f )本s q r t( f ) i fm e t h o d = 2t h e nz 二( p r o b it( g )本s q r t( 1 ‑f )+ p r o b it( 0 . 9 7 5 ) ー ( p r o bi t( 0 . 8 0 0 )+ p r o bi t( 0. 9 7 5 ) )牢 ( l ‑ f )) / s q r t( f ) ) ) l ︐ ふEE t ︐ l 内 nUU1 ' e o 白︑ td ‑9一 EE r u n F ふ f o r m a t n u m e r i c 7 .4 ψ a ‑ p r o cp r i n td a t a = w k 1 AU e n d e n d e n d e n d; r u n J p 2 ̲ p 1 2 = p 2 / p 1 2; 4 / p 3 4; p 4p 3 4ニp o u t p u t ( t 門 U FO vl IT4l ‑Lnμ 一一 '1 ︑ 2M A 内 M‑‑ +L+Lnμ lit‑‑ ρ u p u I' ︐ A H u ︐ A H U A M 内 I T l→ &t )) ‑‑i FhuFhupu 7171Au nwunuuψ 令 ttI unHUF+I lnHl ‑ VIVE‑ →.︐ 3111vl h u ' h u n u吋 n u n U Pる 内 ︐一 ︑ ︐一 一︑ ︐ nμnμ7ι 4u s t t 1 sa l n u v uMHMUM‑ nMnnν 町 内 ν n nノ ι MN川 内 HunHunuv nHUUN川 Mm川 一 nHunHunHU41l nν 町 内 ν町 内 ν山 一 nuinド﹄門ド﹄ 41l ハHU ハHU ハHunHv 41lnノ ι 内 4JvaAm nuvnuvnuvnuv 一一二一一=︐ p1 2 = p1 +p 2 p 3 4 = p 3 + p 4;
日本 SASユ ー ザ ー 会 (SUG1‑0) Group Sequential計画のためのパワーシミュレータの開発 0本国主ー*太田裕二 佐賀野修**田崎武信* *塩野義製薬株式会社解析センター H 住商情報システム株式会社産業システム第二事業部 Powers i m u l a t o rf o rg r o u ps e q u e n t i a lc l i n i c a lt r i a ld e s i g n K e i i c h iHonda*, YωiO o t a * *, S h u i c h iS a g a n o * * andTakenobuT a s a k i * B i o s t a t i s t i c sD e p t .,S h i o n o g iC o .,L t d . *I n d u s t r i a lSystemsD i v . 2 .,SumishoComputerSystemsC o .,L t d 率 要旨 群逐次 (GroupSequen . t iaD型の比較臨床試験のパワーを見通しよく評価するためのプログラム を開発した。中閥解析ごとの標本サイズと有意水準を具体的に与えたもとで、パワーをシミュレーショ ンの反復結果として求めた。このためのプ'ロクoラムを、評価変数の分布のタイプ別に準備し,マクロ 言語を利用して統合し、システム化を試みた。 キーワード: パワー,群逐次臨床試験,中間解析、マクロ言語 1 . はじめに 比較臨床試験では、その試験が十分なパワーをもつかどうか、すなわち主要な評価変数のもとで 薬剤効果の差を検出できるかどうか、が試験をデザインする段階での主たる関心事のひとつとなる。 固定標本サイズの比較臨床試験のもとで、主要な評価変数の分布として単純な確率分布を想定で きる場合、パワーを理論的に求めようと試みるで、あろう。しかし、有効な治療あるいは無効な治療と、 許容できない有害事象を早期に発見するとしづ倫理的な配慮から中間解析を計画し、群逐次 (GroupSequential)型の試験デザインを採用する場合、パワーを理論的に求めることは簡単でな い。そこで、リスクをマネジメントする観点から、群逐次型の試験デザインのもとでも計算機の力を借り て、試験がもっパワーを手軽に計算するためのプロク守ラムを開発し、システム化を目指す。 群逐次型の試験デザインとして設定した状況のもと、予想される結果の周辺でデータをランダム に発生させる。そして、このシミュレーションを十分な回数だ、けくり返し、理論ノそワーに代わる経験パ ワーを獲得する。フ。ロク守ラムは、評価変数の分布のタイプご、とにマクロ化する。ここに評価変数の分 布のタイプとして、 2値 、I } 頃序カテゴリカル値、正規連続値、 2成分混合正規連続値、および生存時 1 1
聞をとりあげる。中間解析における情報量の尺度としては、試験治療(対照も含む)が終了した症例
の集積率を利用する。しかし、生存時間を評価変数とするもとでは、症例の集積率を利用する場合
のほかに、試験開始後の経過時間を利用する場合も考える。この後者の場合は、群逐次型のデザ
インである必要はなく、症例登録がすべて終わったのちに中間解析がおこなわれることをむしろ考え
たい。中間解析における情報量として、試験治療が終了した症例の集積率を利用する試験での症
例登録の進捗の典型例を図 1(
a
)に、試験開始後の経過時間を利用する試験での症例登録の進捗
の典型例を図 1(
b
)に示す。図 1(
a
)のタイプの試験は、図 1(
b
)のタイプの試験に比べて一般的に
エントリー期間が長し、と考えられる。
開発したプログラムにおいて、群逐次型の試験デザインのもとで中間解析として想定している状
況を 2節で説明し、 3節で、システムの入力ノ 4ラメータと出力情報を示す。 4節では、生存時間を評価
変数としてシステムを実行した例を紹介する。 5節では、バリデーションに対する考えかたについて
述べる。
(
a
)
中間解析
中間解析
(
b
)
一
、
一
、
一
、
一
、
一
一
症例 1
¥
症例2
図1.症例登録の進捗の様子: (
a
)試験治療が終了した症例の集積率を情報量として
定義する場合の試験、 (
b
)試験開始後の経過時間を情報量として定義する場合の試験
2
.群逐次型の試験デザインのもとで想定する状況
2
.1.想定する試験デザインのもとでの中間解析
中間解析が計画された状況で、試験群と対照群の 2群比較試験を考える。比較のための主要な
評価変数はここで、は 1 っとする。比較試験の帰 m~ 仮説は 211干の薬剤効果に差がなし、こと、対立仮説
は2
l
洋の薬剤効果に差があることとする。すなわち両1J1l
J
検定を考える ο
中
日n
解析ごとに主要な評価変数に対する検定をくりかえす。そして、帰}!tJ;仮説が棄却された場合
に限り試験を Iド止し、それ以外では試験を継続する。したがって、帰 1
!
l
t仮誌を受存して試験を q
J止
する場台、たとえば E
n
n
sn
n
c
lO!rl' n (l 99:~) の Enrly S
t
o
p
p
i
nt
(P
r
o
c
e
d
u
rl' !
{
)
rl
n
cl
Je
c
.
:t
i
v
e
l
l
t
'
S
Sなどを、
ここでは吸わないことに注意する。
‑12‑
中間解析を実施するとなると、試験全体での第 1種の過誤 αの膨張を抑えつつ、望ましいパワー (1‑s)を獲得することが大事である。中閥解析のデザインに関する理論的かつ技術的な議論は、 たとえば試験全体の αを制御するために中間解析ごとに消費する αをどのように定めるか、あるい は同じことにつながるが、中間解析ごとの検定統計量に対する棄却限界値をどのように求めるか、す なわち中間解析ごとの有意水準をいくらに設定するか、とし、う試験の中止規準を導出することに関し て活発である。しかしながら、ここではそのような議論をおこなわない。なお、試験の中止規準の導 出を含め、中間解析の最近の理論的な展開については、松井ほか (2000)と宇野ほか (2000)で詳 述されており、勉強になる。 中間解析ごとに消費する αと中間解析ごとの有意水準は同じものではないが、両者には対応が ある。つまり、ある試験において、それまでの各中間解析で使用した有意水準から、中間解析のお のおので消費した α を求めることができるし、その逆の流れで、すなわち消費した αから有意水準を 導くことができる。ただし、計算が比較的に容易なのは各中間解析での検定統計量が独立な関係に ある場合である。本システムでは、各中間解析での検定統計量が独立であるかどうかの議論を回避 するために、中間解析ごとに消費する α ではなく、中間解析ごとの有意水準を指定するように設計し ている。したがって、本システムは各中間解析での検定統計量が独立であるかどうかに関係なく、経 験パワーを計算する。 各中間解析での検定統計量が独立な関係にあれば、有意水準で、はなく、中間解析ごとに消費 する αを利用してパワーを導くことも可能である。それは、たとえば LanandOeMets( 1 9 8 3 )の a l p h a s p e n d i n gf u n c t i o nなどを利用することで、適切に設定されていることが望ましいが、この設定の手続 きの適切さはこのシステムのもとで前提条件ではない。設定が適切で、あったかどうかは、本システム によるシミュレーションの結果として、検定サイズを調べることによりおよそ把握することができる。 誤解を避けるために述べておくと、 a l p h as p e n d i n gf u n c t i o nは中閥解析で消費する αを事前に決 めるために提案されたものではない。臨床試験を進めながら、中間解析を実施する回数や時期を柔 軟に設定し、その都度、消費する α を決めるとし、うことが本来の用途である。うえでは、特定の条件 下で、臨床試験のパワーを読むために、その条件のひとつとなる、中間解析ごとに消費する α を、たと えば a l p h as p e n d i n gf u n c t i o nを利用して設定すると述べたにすぎない。 2 . 2 . システムを利用するためのさらなる想定 については、前節のおわりに述べたとおり、本システムを利用 中間解析の実施回数と実随時期l するには定めておく必要があり、各中 1 m解析までの 1群あたりの累積標本サイズを与えることで向者 を暗に指定する。試験のデザイン段階での利 mを念頭においているので、原本サイズは 21¥平で等し いことを前提とするο 中間解析の実施 11寺 !~I は、試験治療が終了した症例の集積率に対応する。ただ し、 ~l下~次 111 の試験を必ずしも想定してし、なし、場合、すなわち木システムのもとでは、生存 H寺間を 評 f I I I i 変数とし、試験開始後の経過 I J 寺山をI W報監の尺}Jfとする場合については例外となる。この場合 I11]向ギ析の1I,j点として、試験 1 m始後の経過 H寺点を指定するο~;~l~*サイズも与えるが、それは {士、各"j J是終 W(V,まで;;,1\ 1股 . が *Iî~ 枕した場介の行~ ./ドサイズに I I叶する。 ‑13‑
標本サイズと同様に、中間解析ごとに有意水準を与える。ここに、指定する値は、中間解析ごとに 消費する αでもなく、中間解析ごとの検定統計量に対する棄却限界値でもないことに注意する。 評価変数の分布のタイプとしては、 2値、順序カテゴ、リカル値、正規連続値、 2成分混合正規連 続値、および生存時間のいずれかを選択できる。いずれのタイプの評価変数で与あっても、試験群と 対照群の評価変数に関する分布について、想定する特性値を指定する。たとえば、評価変数の分 布のタイプとして 2値を選択すると、試験群での想定有効率と対照群での想定有効率を指定すること が必要になる。 2群の評価変数の分布において、差がない状況を想定すれば検定サイズを、差があ る状況を想定すればパワーを試算することになる。 0000回くらい、くり これらのことを想定したもとで、シミュレーションを十分な回数だ、け、たとえば 1 返す。その結果として、実際に薬剤効果の差を検出できた回数の割合が経験パワーであり、我々の 知りたい理論ノ号ワーをおよそ代替するもので、あると考えたい。 これまでに述べた想定するおもな状況を図 2に示す。 情報量は、試験治療を終了し た症例の集積率で定義する。 主要な評価変数はひとつ 帰無仮説の棄却による中止 標本サイズは 2群で等しい、 中間解析ごとの標本サイズを与える 中間解析ごとの有意水準を与える、 評価変数の分布のタイプを選ぶ、 ただし、生存時間を評価変数 とする場合には試験開始後の 経過時間でも定義する .想定する状況 図2 2 . 3 . 生存時聞を評価変数とする場合のさらなる想定 ある事象(たとえば、治癒、再発、死亡、など)が生起するまでの時間を評価変数とする。事象が ' Ee xp(λ'E1)に従う場合、長さ Tの試験期間において事象が生 生起するまでの時聞が指数分布 λ 起する症例の割合 πEは 1‑e x p (ーん T )で与えられる。逆に、んは nEからん=一 log(lπE)/T で与えられる。 脱落症例の発生を考慮する。脱落症例についての評価変数の値は、脱落時点での中途打ち切 り観測値とする。脱落は試験期間においてランダムに、すなわち指数分布に従って生起すると想定 する。ここでの脱落率は、試験期間において脱落し、評価変数が中途打ち切りで観測される症例の 割合である.長さ T の試験 !~l 聞における脱落率を JT V とすると,脱落が生起するまでの時間を表す 指数分布のパラメータ λ o g ( l ‑ nD )/ Tで与えられる。 Dはん=ー l I聞を想定する。それは、ここで、は試験治療が継続される最長の期間 全症例に共通の最長追跡 W 時間が、全症例に共通の最長追跡期 を意味する。事象が生起するまで、の i r mを超える場合、評価変 I Wはその期間での中途打ち切り観測fJl'i:とする ο 数の I エントリー!り!日1 1 を与える。この!tIJrln の' l 'で' ! 1 ¥汗は一保分 ( I iに従つ てラン夕、、ムにエントリーさ hる と } ; 1 . J 定 す るο 4EA a川崎 Z
3 .プログラムの仕様 開発したプログラムでは、中間解析ごとの標本サイズを与えて、試験がもっパワーを見積もること ができる。プログ ラムの基本的な入力パラメータは、 1群あたりの標本サイズ、試験群と対照群の評価 変数に関する情報、検定法、有意水準である。備えていない検定法でも、 User定義検定のプログラ ム名とパス名を指定すれば利用することができる。これらのパラメータについての指定方法を表 lに 示す。そのうち、試験群と対照群の評価変数に関する情報の詳細については表 2に、選択可能な 検定法については表 3に示す。 表l.入力ノ〈ラメータ パラメータ 1群あたりの標本サイズ 試験群と対照群の評価変数に関する情報 検定法 有意水準(両側) User定義検定のプログ、フム名とパス名 指定方法 中間解析までの累積標本サイズをスペース区切り で指定 (注意)生存時間で試験開始後の経過時間を情報 量の尺度とする場合には、試験全体での l群あた りの標本サイズを指定 <表 2に掲載> <表 3に掲載> 中間解析ごとにスペース区切りで指定 検定法において、 User定義検定を指定した場合に 限定 表 2において、生存時間その 1の表記は、試験治療が終了した症例の集積率によって情報量を 定義した場合、生存時間その 2の表記は、試験開始後の経過時間によって情報量を定義した場合 にそれぞれ該当する。後者の場合は、その 2に加えて、その 1についても指定が必要である。 出力情報を表 4に示す。入力ノ fラメータおよび解析時点l.l J Iの経験パワーと試験全体で、の経験パ ワーは、評価変数の分布のタイプに関係なく、し、ずれの場合でも出力する。評価変数に関する 2群 の要約統計量も出力するが、これについては、評価変数の分布のタイプによって情報が異なり、 2値 では有効率、 1 ) 国序カテゴ リカル値で、はカテゴ、リーの相対頻度、正規連続値と 2成分混合正規連続値 では平均値と標準偏差、生存時間では事象生起率がそれぞれ出力される。さらに 2成分混合正規 連続値については、生成した各成分のデータの頻度プ ロットを出力する。 1 4 .実行例 実際に出力した例を表 5 に示す。評価変数の分布のタイプは牛存時 1 m、情報量の定義は試験治 療が終了した症例の集附率に相当する。試験の途中で、ログランク検定を mいて 2 回の中 1 m解析を 咋あたりの標本ザイズが 5 0例のとき、 2回目は 9 0例のとき、そして最終解析 おこなう。]回目は 11 1 0例のときで、ある。各中 I I I J W H j i .での有志水準はそれぞれ 0 . 0 1、0 . 0 2 5とし、最終 W ( j j r、 で0 . 0 5と は 1 する。最長追跡 WIBJI を 26 週とし、その JOIIIII における試験併で、の 'li~ 象生起率を:1 5% 、対!l日昨での ~lï 象生起率を 5 7 % と必定し、 I J 見滞杭例は考慮しない。 I 11日の1J.l問解析での経験 0 0 0 0j i ̲ J1 くりかえした j 山県、 11 !こ記の設定のもとで、シミコーレーシ三lンを 1 4EL RU
表2
.試 験 群 と 対 照 群 の 評 価 変 数 に 関 す る 情 報
評価変数の分布のタイプ
2値
順序カァゴリカル値
正規連続値
2成分混合正規連続値
生存時間その 1
<試験治療が終了した症例の
集積率>
生存時間その 2
<試験開始後の経過時間>
その 1の情報に右の情報を
追加指定
評価変数に関する情報
試験群での想定有効率
対照群での想定有効率
試験群での想定カァゴーリー相対頻度%
対照群での想定カテゴリー相対頻度%
試験群での想定平均値
試験群での想定標準偏差
対照群での想定平均値
対照群での想定標準偏差
試験群における第 1成分の割合
試験群における第 1成分の想定平均値
試験群における第 2成分の想定平均値
試験群における第 1成分の想定標準偏差
試験群における第 2成分の想定標準偏差
対照群における第 1成分の割合
対照群における第 1成分の想定平均値
対照群における第 2成分の想定平均値
対照群における第 1成分の想定標準偏差
対照群における第 2成分の想定標準偏差
(注)U
s
e
r定義分布のプロクかラム名とパス名を指定することも可能
脱手喜症例を考慮するか否かの指定
2群に共通の想定脱落率
試験群での想定事象生起率
対照群での想定事象生起率
に共通の最長追跡期間
全症伊j
(注)U
s
e
r 定義による事象生起までの時間分布のフeロクーラム名とパス名を指定
することも可能
エントリー期間(一様分布)
最終解析を含む中間解析の実施時期(試験開始からの経過時間をスペース区
切りで指定)
(注)U
s
e
r 定義による事象生起までの時間分布のプログラム名とパス名を指定
することも可能
表3
.検定法
検定法
評価変数の分布のタイプ
2
f
直
順序カァゴリカル{直
正規連続値
2成分混合正規連続値
生存時間
i
s
h
e
rの直接確率百十算法、 Usビr定義検定
カイー乗検定、 F
W
i
l
c
o
x
o
n順位和検定、累積カイー乗検定、ロジスアイツク回帰分析、
U
s
e
r定義検定
Welch検定、 S
t
u
d
e
n
tのt検定、 W
i
l
c
o
x
o
n順位和検定、 U
s
e
r定義検定
Welch検定、 S
t
u
d
e
n
tのt検定、 W
i
l
c
o
x
o
n順位和険定、 U
s
e
r定義検定
ロク♂フンク検定、 U
s
e
r定義検定
表4
.出力情報
入力パラメータ
試験群と対照群の***の要約統計量(平均値、襟準偏差、最大値、最小値)
直>、 カテゴリーのキLl対頻度 <
)
I
!
f
i序カテゴリカル値〉、
***→
有 効 率 <2f
平 均 値 と 桜 準 偏 差 < 正 規 述 続i
!
氏
、 2}j
.X,分混合正規連続依〉、
l
寺間〉
事 象 生 起 率 < 生 存H
生成したデータの頻度フQ ロットく 2}j~ 分混合正規連続f1i'[>
J
i
!
i
{
f
r
}
時点別の経験パワーと試験全体での経験パワー
nhU
41ム
表5 . 実行例 シミュレーション実行ペラメータ 脱落症例を考慮しない場合 。3 回 解析回数 標本サイズ 回目 50 中間解析 l 中間解析2回目 90 最終解析時 110 試験回数 10000回 試験群の想定事象生起率 35% 対照群の想定事象生起率 57% 試験期間 26 検定法 :L og.Rank検 定 有意水準 中間解析 1 回目 0 . 0 1 中間解析2回目 0 . 0 2 5 最終解析時 0 . 0 5 変数 I ( e y 1 ̲ 0 1 I ( e y 2 ̲ 0 1 変数 時点別の事象生起率の平均 MEANSプロシジャ N 平勾値 ラベル 中間解析 1 回目の試験群事象生起率 中間解析 1 回目の対象群事象生起率 時点別の事象生起率の平均 MEANSプロシジャ N 平勾値 ラベル I(ey1̲02 中間解析 2回目の試験群事象生起率 I(ey2̲02 中間解析 2回目の対象群事象生起率 変数 10000 34.9184000 10000 56.9286000 6225 36.5599286 6225 55.3222668 2 標準偏差 Key1̲03 最終解析時の試験群事象生起率 Key2̲03 最終解析時の対象群事象生起率 2084 39.0036643 2084 52.8398185 最大値 6.8011445 12.0000000 62.0000000 7.0614367 32.0000000 84.0000000 3 標準偏差 最小値 最大値 4.6903497 21 . 11 11111 58.8888889 4.8176503 40.0000000 72.2222222 時点)j J I の事象生起率の平均 MEANSプロシジャ N 平均値 標準偏差 ラベル 最小{直 4 最小値 最大値 3.8755618 27.2727273 56.3636364 3.8806390 40.0000000 65. 4545455 シミュレーション 1 0000のときの Powerの内訳 5 試験時期 有意数 累積有意数 Power 中閥解析 1 回目 中間解析2回目 最終解析時 3775 4141 1307 3775 7816 9223 3 7 . 7 5 7 9 . 1 6 9 2 . 2 3 パワーはおよそ 3 7 . 7問 、 2回目の中間解析まで の累積経験ノ"r:ノーはおよそ 7 9 . 1 6弘となり、最終解析 まで、に得られるこの臨床試験がもっ経験ノ号ワーはおよそ 9 2 . 2 3弘になった。 5 .バリデーションに対する考え 3節で 述べたフ。ロク、、ラムの仕様のもとで、木システムはシミュレーションにより経験パワーを試算す る。この一連の手続きが妥当で、あったか否かを判断することは、かなり臨しい。理論 1 ' 1 0にアプ、ローチ Sえることはなかったかもしれなし、からで、あ できるようであれば、シミュレーションに頼るパワー計算を,A る心そうなると、日 IJ のシミコーレーションの結*と l 七 l絞して、|司慌の結果が í~} られるかどうかとしウ手段が ワ1 1i
考えられる。そして、その別のシミュレーションの結果とし、うのが文献などで公表され、妥当性につい て検証されたものであれば、なおのこと望ましい。 a i( l999)で、シミュレーションによりパワーを計 生存時間を評価変数とした場合に限ると、 GuandL 算するためのソフトウェアが提供されている。そこでは、入力を必要とする情報が詳細にまで及び、 設定が複雑である。それらの情報をおおまかに分類すると、ノレックに関する情報、症例の集積に関 する情報、中止境界を生成する方法、検定統計量の選択、生存関数についてのベースライン分布 と対立分布の規定、中途打ち切り分布の規定、不遵守率の規定などであり、それぞれについて、細 目が用意されている。これらのなかには本システムで考慮していない情報がいくつも含まれており、 バリデーションも一筋縄で、はし、かないとし、うのが実状である。 生存時間を評価変数とした場合に限らず、本システムのバリデーションをし、かに実施するかが今 後の課題である。 6 .おわりに 評価変数の分布のタイプとして、 2値 、1 ) 慎序カテゴ、リカル値、正規連続値、 2成分混合正規連続 値、生存時間のいずれであろうと、中間解析ごとの標本サイズと有意水準を与えて、群逐次型の臨 床試験がもっ早期中止の場合の経験パワーと最後まで試験を継続した場合の経験パワーの計ー算を 試みた。このシステムは臨床試験のデザイン段階で利用されることを意図して開発したが、用途をそ 群の評価変数の分布に関 こに限る必要はない。進行中の臨床試験における中間解析の断面で、 2 する情報を入手することが許されていれば、最後まで試験を継続した場合の臨床試験がもっパワー を、より確実性のあるシミュレーション結果の経験パワーで、もって占うことができると考える。 中間解析を備えた臨床試験、とくに群逐次型の試験が議論される機会は、最近の医薬品開発の 場において確実に増えてきていると実感している。このことが動機となって本システムを開発したが、 2節で述べたように、本システムが想定している状況は必ずしも十分とはいえず、ある程度までに限 定されている。将来には想定の範囲を拡大する必要に迫られるカもしれない。そのことも視野におさ めながら、利便性をよくするために、本システムの SAS/PH‑Clini( 二a lへの実装を目指すつもりである。 参考文献 Enas,G.G.andOffen, W.W.( l9 93).Asimples . t oppingr u l ef o rd e e l a r i n gt . r e a t . men. t i n e f f e c . t i v e n e s si nc l i n i c a l. t r i a l s .Journalo fBiopharmaceu . t i c a lS . t a l i . s t i . c s . 3 ( 1 ), 1 3・2 2 . 松井茂之・宇野一・小山暢之 ( 2 0 0 0 ),中間解析における頻度論的アプローチ:長近の理論的展開. 計量生物学, 2 1, 87‑124, ∞ ド こ 茂 之 . ノI 、 J ト山 l I 幻 j暢之 ( α 2 00 0 ω ),中間角解干引十析庁におけるベイズ 宇野一.松歩升井1 計量生物学, 2 幻 , l し口 1 2 5 子 一l 凶刊 4 ( 仏 9 . . 1 Lan,KKG.andDeMet.s, D . L . ( I D 8 3 ) .D i s c r c l . ( )s ( ' q u c n l . i a luoundnriesf ol 'e l i n i c a lt l ・ i a l s B i o l l l c t r i k a,70,G 5 9 ‑ G G 3 . Gu.M.andL a i, T .L .( l9 m l ) . D e t . e r m i n a t i o l lo f p o ¥ ¥ 'l'1'andsamplp自i z ei nt 1w d ( 、 討i g no f c l i n i c a l l. ri a l : ;¥ ¥ ' i l . hf a i l u r e ‑ t i m cendpoin . t sandi n l ( 、 l 'i manaI y s i s .C O l l l. ro l ll 'dC Ii ni l ・ a lT r i a l s, 20A2;3-4~~8. ︒白
日本 SASユーザー会 (SUG1‑0) 投与期間別の副作用発現率を解釈するために 0古川雅史,片山和夫,田崎武信 塩野義製薬株式会社 解析センター Ona na p p r o a c hu s e f u li ni n t e r p r e t i n gt h ed o s i n gp e r i o d ‑ s p e c i f i ci n c i d e n c eo fa d v e r s ed r u g r e a c t i o n s M a s a s h iFurukawa,KazuoKatayama,TakenobuT a s a k i h i o n o g i& C o .,L t d . B i o s t a t i s t i c sDepartment,S 要旨 医薬品の市販後調査における目的の一つに,副作用の発現に影響を及ぼす要因の探索が ある.例えば,男女問で副作用発現率に差があれば,性を副作用発現の影響要因のひとつと して疑うことができる.副作用は服用しはじめたころに現れるのか,それとも長期に服用するこ とで現れるかを把握することも必要である.このため,投与期間が副作用の発現に及ぼす影響 を定量的に評価しなければならない.ところが,投与期間別の副作用発現率は曲者である.こ こでは,生存時間データの解析のアプローチを適用し,投与期間別の副作用発現率をハザー ド関数として表現することで投与期間と副作用の発現との関係を解釈する. キーワード: ハザード、関数,市阪後調査,適合度検定 1.はじめに 医薬品の安全性を定量的に表現するものとして副作用発現率が一般的である.医薬品の使 用成績調査で行うデータ解析の目的の一つに,副作用の発現に影響を及ぼす要因の探索が ある.この目的を遂行する第 1歩として,例えば性別に計算した副作用発現率が均一でなけ れば,性を副作用発現の影響要因として疑うことになる.このような影響要因の探索において, 慣習的にその要因を構成するカテゴリーで層別し,順序関係をもたないカテゴリー,あるいは 2値カテゴリーで観測されるものであれば,カテゴリー聞の副作用発現率の均一性がカイ 2乗 検定や直接確率計算法で検定されてきた.そして,順序関係をもっカテゴリーで観測されるも のであれば,均一性の検定に加えて線形トレンドの有意性検定が,ふつうは Cochran・ Armitage 検定のみが行われてきた.このような解析は影響要因の探索で初期のアプローチ として妥当であろう.しかしながら,投与期間の影響を調べるとき,投与期間別の副作用発現 率は曲者である.投与期間をなぜ特別な項目として取り上げざるを得ないのかを以下で説明 19‑
する.なお,総投与量別の副作用発現率も投与期間と同じ考え方が通用する. 2 .投与期間別副作用発現率 投与期間別の副作用発現率の求め方を説明するにあたって,図 1に示す架空の患者 1 0例 における投薬と副作用の発現状況を使用する.図 1は Goldman(1992)でイベントチャートとよ ばれている.ここでは,投与期間を等間隔に投薬開始から順に期間1.期間 2,・・・,期間 6の 6 カテゴリーに区分している .0 は投薬が終了または中止されたことを表し, Xは副作用が発 現したことを表す.したがって,患者 1では期間 6で投薬が終了し,全投与期間にわたって副 作用は発現しなかったことがわかる.患者 3では期間 1で副作用が発現して投薬が中止され た.そして,患者 4では期間 1で副作用が発現しても投薬が継続され,期間 4で投薬が終了し た. . ' 患者 1 (男) ' ' 患 者 2(男) ' ' , . 1> ' 患 者 3(女) . . . . . ・ハ . ' 2 g . , . ・ 患 者 5(女) . 患 者 6(女) ' g ' 患 者 7(男) E ' ' ' g ' ' E z E e e z . , ' , . 2 患 者 4(男) .() ' ' ' ' ' ' g g 、 E e r g 、 , 1 e ' ' 官 1 E 1 ー ハ・ , 黒者自(女) ' z . 患 者 9(女) 掴 a 患 者 10(男) . . ・ a ' ' ' ' ' ' ' g ' 1 J可 投与開始 期間 2 期間 3 期間 4 期間 5 期間 6 10例 9例 8例 7例 5倒 3例 症例数 (2 例) ( 1例 ) ( 1例) (0例 ) (0 倒) (1~) (副作用発 現例数) 期間 1 : 図1.投与期間と副作用の発現状況 図 1では患者の性もあわせて示してしもし、ことから,最初に,性別の副作用発現率を考える. 性別の副作用発現率を表 1 に示す.性の場合,男と女のカテゴリーで患者に重複は起こりえ ない.男と女のように,患者集団がカテゴリー間で異なる項目では,カテゴリー別の副作用発 現率が一定であるか否かを検定することで,その項目が影響要因であるかどうかを調べること ができる.この検定にカイ 2乗検定や直接確率計算法が用いられる.要因が順序カテゴリーで 構成される場合には, 1 ) 慎序カテゴリーに伴う副作用発現率の線形トレンドを評価することもでき る. 2 0
表1.性別の副作用発現状況 │副作用発現例数│ 副作用発現率 2 40.0% 3 GO.O% 5I つぎに,投与期間カテゴリー別の副作用発現率を考える.表 2aの投与期間別副作用発現 率は,投薬が開始から当該の期間カテゴリーまで行われたすべての患者を対象にして,その l l 作用が発現した患者の割合で 期間カテゴリ一の問に話艮副リ r J の副作用発現率と凸し、づう夕イト レカか冶もら想像する集計結果は表 2 幼bのようなものである. 表2 a .投与期間別の副作用発現率 投与期間 調査例数 副作用発現例数 副作用発現率 期間 1 1 0 9 2 期間 2 20.0% 1 1 .1 % 期間 3 8 12.5% 期間 4 7 期間 5 5 。 。 期間 6 3 1 0.0% 0.0% 33.3% 表2 b .そのタイトノレから想像する投与期間別の副作用発現率 投与期間 調査例数 期間 1 1 期間 2 1 副作用発現例数 。 期間 3 副作用発現率 100.0% 100.0% 0.0% 期間 4 2 50.0% 期間 5 2 期間 6 3 50.0% 33.3% 全体 1 0 5 50.0% 表 2aにおいて,投与期間の各カテゴリーに属する患者集団は,常に,時間が先行するカテ ゴ、リーの患者集団の一部分となっている.このため,投与期間別の副作用発現率を比較する のに,カイ 2乗検定や直接確率計算法を適用することができない.実際に,そうした検定は行 われていないはずである.つまり,各カテゴリーに属する患者集問がカテゴリー問で異なるよう な性に代表される項目と,カテゴリー別患者集団が重複する投与期間に代表される項円とで は,副作用発現率の解釈や検定の方法を変更する必要がある.後者の項目でのカテゴリー別 の副作用発現率は条件付きの副作用発現率であり,それは,生存時間データの解析の分野 aにおける副作用発現率の求めかたは生存 で,ハザードと呼ばれているものに相当する.表 2 時間データをグループ(カテゴリー)分けする仕方に類似しているが,副作用が発現しても投 与が継続された 2例(患者 4と患者 6 )が表 2 aで、は生かされていることに注意したい.すなわ ち,表 2 aで、は期間 1において,症例数は 1 0,副作用発現例数は 2である.そして,期間 2で ーょ ム っ
の症例数は 9となっている.生存時間データであれば,期間 1で副作用が発現した 2例は, 期間 2に移行しないので症例数は 8となる. ところで,図 1において副作用発現または投与終了(中止)までの日数は表 3のようで、あった とする. 表3 .副作用発現までの日数 副作用発現 の有無 患者番号 日数 3 3 3 7 なし 6 あ り 6 あ り 2( 2 3 ) 3 9 あ り 7 8 9 1 0 1 9( 3 2 ) 1 7 2 7 1 2 4 1 患者 日数 1 2 3 4 5 f ょ し 副作用発現の 有無 あ り なし なし あ り なし 注)表中において,患者 4と6は副作用が発現したにもかかわらず,投与が継続 された症例である.これらの症例について,括弧内で与えた日数は最終投与 期間を表している. 副作用の発現しなかった患者についての投与日数を中途打ち切り観測値と取り扱って,累 積非副作用発現率と累積副作用発現率を推定するため,生存時間データの解析で用し、られ a p l a n ‑ M e i e r法を適用できる.前者は生存時間解析の分野において累積生存率,後者 るK a p l a n ‑ M e i e r法を適用した は累積死亡率と呼ばれているものに相当する.表 3のデータに K (実線)に示す. 結果を表 4と図 2 . 日数データ(表 3 )に基づく Kaplan 表4 。 日数 2 6 1 2 1 7 1 9 2 7 3 3 3 7 3 9 4 1 リスク下に 副作用 中途打ち切り 累積非副作用 累積副作用 ある症例数 発現例数 例数 発現率 発現率 。 。 。 1 。 1 0 0 . 0 % 9 0 . 0 % 8 0 . 0 % 7 0 . 0 % 7 0 . 0 % 5 8 . 3 % 5 8 . 3 % 5 8 . 3 % 3 8 . 9 % 3 8 . 9 % 3 8 . 9 % 0 . 0 % 1 0 . 0 % 2 0 . 0 % 3 0 . 0 % 3 0 . 0 % 41 .7% 41 .7% 41 .7% 61 .1% 61 .1% 61 .1% 1 0 1 0 9 8 7 6 5 4 3 2 1 1 1 。 1 。 。 1 。 。 1 1 。 l l 2 2 ‑
発彦容解 100 90 80 7D 。。 50 40 30 20 10 。 。 7 14 28 21 35 42 日数 図2 .累積副作用発現率 図 2において点線は,患者 4と患者 6について表 3の括弧内の日数を用いた場合の累積 副作用発現率に対応する.いまの事例で,実線は点線に比べて,日数の早い時点で高く,遅 い時点で低くなっている. a p l a n ‑ M e i e r法を適用した結 ところで,表 3の実数を週単位でカテゴリー化したデータに K 果を表 5に示す.表 4とつきあわせると,いまの事例でカテゴリー化(日数の週区分)は大きく 影響していないことがわかる. .カテゴリー化したデータに基づく K a p l a n ‑ M e i e r推定値 表6 週数 リスク下に ある症例数 0週 1 0 l週 (7日) 1 0 2週 ( 1 4日) 8 3週 ( 2 1日) 7 4週 ( 2 8日) 5 3 6日) 5週 ( 6週 ( 4 2日) 4 3 副作用 発現例数 中途打ち切り 例数 累積非副作 用発現率 累積副作用 発現率 。 。 100.0% 0.0% 80.0% 20.0% 70.0% 30.0% l 60.0% 4 0 . 0 ' % l 6 0 . 0 ' % 4 0 . 0 ' % l 6 0 . 0 ' % 4 0 . 0 ' % 4 0 . 0 ' % 60.0% 2 。 。 l 2 生存時間データの解析法を用しもとしづ観点からは,表 3あるいは表 5を出発点とすること が望ましいと考えられる.しかし,医療の現場では,副作用が発現しても投与が継続される患 者がし、るとしづ状況から,カテゴリー別の患者集団の規定の仕方は表 2 aが当を得ていると考 えられる.いずれを対象として評価するのが適切かは悩ましい問題である. 3 .投与期間別の副作用発現率の評価方法 表2 aの副作用発現率はハザード と見なせることから,投与期 r mにかかわらず副作用発現率 が一定か否かの問題は,ハザード、が投与期間にかかわらず一定か否かの問題に置き換えて qd ワ 臼
扱うことができる.さらに,ハザード、が投与期間にかかわらず一定か否かの問題は,副作用発 現までの時間分布が指数分布に従うか否かで確かめることができる.したがって,帰無仮説は 「副作用発現までの時間は指数分布に従う」で,これは「投与期間の各カテゴ、リ一間で、のハザ と読み替えることができる.ここでの帰無仮説の評価は,生存時間データの ードは一定である J 解析法の一つで、ある加速モデ、ルのあてはめが利用で、きる.具体的に SASの LIFEREGプロ シジャを用いた指数分布の適合度検定により行える.なお,この方法は,大橋・浜田 ( 1 9 9 5 )の 4 . 1章における「区分指数モデ、ルによるグループ化された生存時間データの解析」に相当して し、る. 表 2aにおける調査例数,副作用発現例数,副作用発現率をそれぞれ,患者集団,事象発 現例数,ハザードと呼び代えて整理し直した表 6に対して LIFEREGプロシジャを適用した. 指数分布の適合度検定を行った結果,検定における p値は 0 . 9 5 9 4であり,帰無仮説は棄却 されなかった.すなわち,投与期間カテゴリー問でハザード,すなわち副作用発現率は一定で あったと解釈できる. 表6 .投与期間別のハザード 。 。 ノ、ザード 投与期間 患者集団 事象発現例数 期間 1 1 0 9 2 期間 3 8 1 2 . 5 7 期間 5 リ F 。 。 1 期間 4 2 2 0 . 0 0 . 0 期間 6 3 1 2 3 3 . 3 期間 2 1 打ち切り例数 2 0 . 0 1 1 .1 しかし,仮に,この適合度検定における F値が 0 . 0 5未満で、あったとしよう.この場合,仮説は 棄却され,投与期間カテゴリー間で,ハザード、は一定で、なし、と解釈できる.ただし,この方法で は,し、ずれのカテゴ、リ一問で てハザ一ドが増加あるいは減少しているのカか道吃といつた情報を i 得号ることはで、きない. 一方,副作用発現までの時間分布に指数分布ではなく,ワイブツレ分布を想定すれば, LIFEREGプロシジャを適用し,尺度ノミラメータの推定値と 95%信頼区間,および形状パラメ 信頼区間を求めることができる.尺度ノミラメータの推定値の 95% 信頼区 ータの推定値と 95% 間が 1を含まない場合,副作用発現までの時間は指数分布に従うとの仮定は否定される.そ して,形状ノ fラメータの推定値を用いて,投与期間に伴うハザードの増加または減少といった トレンドを評価することができる.すなわち,形状パラメータの推定値が Iより大きくその 95% 信 頼区間が 1を含まないとき,ハザードは時間とともに増加し, 1より小さくその 95% 信頼区聞が Iを含まないとき,ハザード は時間とともに減少していると解釈できる. 24~
4 .適用例 いくつかの薬剤について,加速モデルに基づき,副作用発現までの時間の特徴を吟味した. Iについて,評価症例数 3 19例のうち,副作用 分布が指数分布に従うか否かを評価した .A斉J 63例で,副作用が発現しなかった打ち切り症例数は 56例でLあった.こ が発現した症例数は 2 7.6%で,打ち切り割 の事例の特徴は,打ち切り症例数の評価対象症例数に占める割合が 1 合が比較的低いことである . A斉J Iほど副作用発現率が高くなかった薬剤として, B 剤 , C 斉, 1 ] D剤 , E斉, 1 ] F剤をとりあげた.これら計 6薬剤について評価症例数,事象発現症例数,事象 Iのみが抗癌剤でドあった. 発現率,打ち切り割合を表 7に示した.なお, A斉J 表7 .薬剤毎の評価症例数,事象発現率,打ち切り割合 │ 評価 症例数 │ 事象 │ 事象 │ 打ち切り │発現症例数│発現率(%) I割合(%) 薬剤 l A斉J I 1 3 1 9 1 2 6 3 1 8 2 . 4 5 1 1 7 . 6 B剤 1 1 0, 5 6 8 1 6 8 6 1 6 . 4 9 1 9 3 . 5 C斉J I 1 9, 5 6 4 1 1 6 9 1 1 .7 7 1 9 8 . 2 D斉J I ! 1 4 . 0 0 2 1 8 6 0 1 6 . 1 4 1 9 3 . 9 E剤 1 1 0, 8 1 8 1 9 4 1 0 . 8 7 1 9 9 . 1 2, 9 2 5 1 3 9 3 1 1 3. 44 1 8 6 . 6 F剤 5弘信頼区間 4 . 1 投与期間カテゴリー別の副作用発現率と 9 最初に,薬剤毎の投与期間別の副作用発現状況を概括するため,投与期間別の事象発現 率と 95% 信頼区間を算出し,表 8 . 1から表 8 . 6と図 8 . 1から図 8 . 6に示した.図における横軸 の投与期間はそれぞれ表での各カテゴリーに対応している.いずれの薬剤においても投与期 間カテゴ、リ一月 I Jのハザードは一定でEなかったことがうかがえた.また,薬剤毎には以下のことが っかがえた. . A斉IJ:ノ、ザード、は投与期間の増加にともなって増 ) JrIしていた. .B斉IJ:ノ、ザードは, 1 3日以下」から 1 1 5日以上 2 1 日以下」までは投与期間の増加にともな って増加していたが,その後減少していた. . c剤:ノ¥ザードは, 17日以下」でいくぶん高く, 18日以上 14円以下」から 122日以上 28 日以下」では低く,その後 1 2 9日以上 84日以下 J,1 8 5日以上 1 6 8日以下 J,1 1 6 9日以 上」で、は高くなっていた. . D剤:ノ、ザード、と投与期間との問で一定の増減関係は見られなかった. .E斉IJ:ノ¥ザード、は, 1 3日以下」から 1 1 5日以上 2 1日以下」までは投与期間の増加にともな って増加していたが,その後一度減少し,再度増加していた. .F斉IJ:ハザードは, 1 3日以下」から 1 1 5日以上 2 1日以下」までは投与期間の増加にともな って増加し,その後一旦減少し, 1 3 6日以上 42日以下」で再度増加していた. にd ム つ
カテゴリー 3日以下 2 . 4日以上 7日以下 3 . 8日以上 1 4日以下 4 . 1 5日以上 2 1日以下 5 . 2 2日以上 2 8日以下 6 . 2 9日以上 7 8日 症伊J I 数 発現例 発現ヰf 下限 1 0 5 6 8 9 6 1 4 4 4 5 0 9 7 8 2 9 6 1 1 3 1 5 5 2 7 5 1 8 6 5 4 1 1 5 1 .4 7 2 . 8 6 4 . 1 8 5 . 5 2 3 . 7 2 4 . 4 2 15 r . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 上限 .7 1 1 .2 5 1 2 . 5 4 3 . 2 1 3 . 6 1 4 . 8 1 4 . 1 7 7 . 1 4 1 .8 7 6 . 5 5 1 .4 51 0 . 0 2 H E E + 10 m 猷 5 。• • • 2 3 4 5 6 投与期間 図8 . 2B剤 5 7日以下 I9 5 6 4 7 9 0 5 6 1 7 7 5 1 6 5 4 2 4 7 9 2 4 1 7 3 5 4 1 6 2 1 1 1 5 5 1 0 2 0 . 5 6 0 . 2 0 0 . 3 4 0 . 2 1 1 .3 0 1 .0 8 1 . 16 4 0 . 1 2I0 . 3 3 υ . 2 1 !0 . 5 2 0 . 1 1 0 . 3 8 0 . 9 8 1 .6 8 0 . 5 2 U8 0 . 1 4 4 . 1 1 言 E S3 鼠 2 。 1 . ・ . 2 3 4 5 6 r 7 投与期間 図8 . 3C剤 症 例 数 発現例 発現率 カテゴリー 6日以下 1 4 0 0 2 1 1 5 0 . 8 2 2 . 7日以上 1 3日以下 1 3 8 8 7 9 2 0 . 6 6 1 4 2 1 3 .1 4日以上 2 7日以下 1 3 7 8 1 .0 3 3 5 9 8 1 2 7 0 . 9 3 4 .2 8日以上 4 1日以下 1 3 3 8 9 5 .4 2日以上 5 5日以下 1 8 0 0 . 6 0 6 .5 6日 以 上 回 目 以 下 1 3 1 0 5 1 2 6 0 . 9 6 7 .8 4日以上 1 6 7日以下 1 1 6 9 7 1 5 5 1 .3 3 8 . 1 6 8日以上 8 9 4日 2 4 9 7 2 3 0 . 9 2 下限 上限 0 . 6 8 0 . 9 9 0 . 5 3 0 . 8 1 0 . 8 7 1 .2 1 0 . 7 8 1 . 11 0 . 4 7 0 . 7 4 . 14 0 . 8 0 1 1 . 13 0 . 5 8 1 .3 8 。 獄 。 。 5 申 申 12345 678 投与期間 図8. 4D剤 nhu ηru
カテゴリー 3日以下 2 . 4日以̲f 7日以下 4日以下 3 . 8日以上 1 4 . 1 5日以上 2 1日以下 5 . 2 2日以下 2 8日以下 6 . 2 9日以上 2 7 2日 症例数 発 JS~例 発現率 1 0 8 1 8 1 0 1 7 6 3 8 3 0 8 7 0 4 5 2 1 9 3 8 2 6 7 ~ 3 0 . 1 8 0 . 3 7 0 . 6 8 0 . 8 0 0 . 2 2 1 .4 4 下限 2 . 0 r 上限 0 . 1 1 0 . 2 7 . 5 1 0 . 2 6 0 0 . 4 4 0 . 9 9 0 . 3 2 1 .6 5 0 . 0 1 1 .2 3 0.30[4, 盟J 0 . 5 申 ' 0 . 0 12345 678 投与期間 図8 . 5E剤 2 0 1 0 Ill‑司I • • 。 = 甲 ・ Z15 ilili‑‑‑ 1 .1 8 2 . 1 3 . 3 7 3 . 7 5 5 5 . 6 9 7 . 9 9 . 3 5 5 . 5 2 9 4 . 3 71 0 . 2 6 1 .7 7 8 . 7 5 3 . 3 8 1 6 . 2 3 4 . 4 41 2 3 . 8 7 ll 1 3 0 5 5 2 2 7 7 6 1 .6 1 4 . 5 1 6 . 7 7 7 . 2 7 6 . 9 0 4 . 3 5 8 . 2 4 f J 1 1 . 7 2 5 圃甲 2 6 4 1 1 9 1 9 7 5 7 3 1 9 1 6 1 8 5 5 1 上限 1Illili‑‑1 Ill11 下限 ー 圃 〒 ー ‑ ・ カテゴリー 3日以下 2 . 4日以上 7日以下 4日以下 3 . 8日以上 1 4 . 1 5日以上 2 1日以下 8日以下 5 . 2 2日以上 2 5日以下 6 . 2 9日以上 3 7 . 3 6日以上 4 2日以下 8 . 4 3日以上 1 4 7日 1 234 5 678 投与期間 図8 . 6F剤 4 . 2 カテゴ、リー化された投与期間への指数分布の適合度検定 A斉J I から F斉J Iについて,それぞれ表 8 . 1から表 8 . 6のカテゴリー化された投与期間別の副 作用発現率にもとづき,指数分布の適合度検定を行った.ハザード・が投与期間カテゴ、リ一間 で、同じで、あったか否かを評価したことになる.ただし,一般的にいわれているカテゴリー化され た生存時間データとは, 2節に述べたように,患者集団の規定の仕方がしてぶん異なってい る. 薬剤毎の指数分布の適合度検定における p値を表 1 0に示した .A剤 , B剤 , D斉, 1 ] F斉J I の 4 薬剤において,ハザード、が投与期間カテゴ.リ一間で一定で あるとの仮説は,有意水準 0 . 0 5 で棄却された .C剤と E斉J Iにおいて,仮説は棄却されなかった.前者の 4薬剤において,ハザ ードは投与期間カテゴリー間で一定でないとし、えたが,後者の 2薬剤において,ハザード、は投 与期間カテゴリー間で一定でないとはいえなかった. 表 1 0 .指数分布の適合度検定の結果 薬剤 P( 直 A剤 . 0 0 0 1 pく 0 D斉J I pく 0 . 0 0 0 1 I B斉J pく 0 . 0 0 0 1 E剤 ~0.1667 C斉J I pニ0 . 0 5 2 2 F斉J I pく 0 . 0 0 0 1 ‑27‑
4 . 3 原データによる指数分布の適合度検定 . 1節での図 8 . 1から図 8 . 6までの印象と 4 . 2節での評価結果が, 2薬剤で同じで、な 上記の 4 かった.その理由として,① 1節に述べた患者集団の規定の仕方の影響,②カテゴリー化され たことでの情報の損失,および③打ち切り割合が高かったことの影響が考えられた.ここでは, ①と②について検討するため,原データを用いて指数分布の適合度検定を行った.原データ の使用において,副作用が発現しても投与が継続されていた患者については,副作用発現ま での日数を用いた.その結果,適合度検定における p値は, A斉j I ,B剤 , C剤 , D剤 , E剤 , F 剤の順に, p < O . O O O , lp < O . O O O l,p = 0 . 0 0 0 2,p < O . O O O l,p < O . O O O , lp < O . O O O lで、あった . 6 薬剤すべてにおいて,ハザードが投与期間カテゴリー問で一定であるとの仮説は棄却された. . 1節での図 すなわち,ハザード は投与期間カテゴ リ一間で、異なっているといえた.すなわち, 4 表からの印象と同じになった. 4 .4原データへのワイブル分布のあてはめ 上記の 4 . 3節において,原データに指数分布をあてはめた結果, 4 . 1節での図の印象 と同じ結論が得られた.そのため,ワイブル分布の形状パラーメタの推定値 7と 95% 信頼区聞から,ハザードと投与期間の閣のトレンドの評価を行った.薬剤毎の形状パラ ーメタの推定値 ( 9)とその 95%信頼区間を表 1 1に示す.表 1 1から,ハザードと投与期 間の聞で, A剤 , B剤 , E剤 , F剤については正のトレンド, C剤と D剤については負 のトレンドがあることが示唆された .A剤では 1より大きい f が推定されたことより, 図8 . 1による解釈と同様に,投与期間が長くなるにつれてハザードは高くなるという結 , E剤 , F剤についても,投与期間が長くなるにつれてハザードが 果が得られた .B剤 . 2,図 8 . 5,図 8 . 6からの解釈に近い結果が得られた. 高くなるという点で,それぞれ図 8 が推定された.すなわち,投与期間が しかし, C剤と D剤については, 1より小さい 7 . 3と図 8.4からの 長くなるにつれてハザードは低くなることが示唆され,それぞれ図 8 解釈と異なった. 1.薬剤毎の Yとその 95%信頼区間の下限と上限 表1 薬剤 Y 下限 上限 A剤 1 .2510 1 .1 4 6 3 1 .3652 B剤 1 .4574 1 .3779 1 .5415 C剤 0 . 7 7 2 8 0 . 6 8 2 9 0 . 8 7 4 5 D剤 0 . 6 4 9 8 0 . 6 0 9 8 0 . 6 9 2 4 E剤 1 . 3 3 4 7 1 .1 758 1 .5 151 F剤 1 .2887 1 .1 9 8 5 1 .3858 5 .考察 薬剤の投与期間が副作用の発現に及ぼす影響の有無を調べるのに,ハザード 率が投薬開 nxu n〆μ
始からの時間に関係なく一定かどうかを調べることで扱えることを示した.実践では, SAS の LIFEREGプロシジャを用し、て,副作用が発現するまでの時間分布が指数分布に従うか否か を検定することになる.より具体的に, LIFEREGプロシジャでは副作用が発現するまでの時 こ関する仮説 I ‑ Io:y=lに対して Raoのスコア 間分布にワイブル分布を考え,尺度ノ fラメータ i 検定が行われる.薬剤を投与してから副作用が発現するまで、の時間分布にパラメトリックな分 布型を仮定すれば,尤度原理に基づいた推測が可能になるため, Raoのスコア検定だけでな く尤 O度比検定や Wald検定を適用できる. 薬剤の安全性に関する特徴を把握するために,性や年齢とし、った患者要因が副作用の発 現に及ぼす影響を探索するとともに, 1 日投与量や投与期間としりた治療要因が及ぼす影響 も評価することが重要である.とくに投与期間については,その長さに伴う副作用発現率の増 加,または減少とし、った評価が必要になる.実際に,投与期間で、ハザード、が一定で、なし、ことが 示唆された場合に,投与期間は副作用発現の影響要因かどうかから,ハザード、が投与期間と ともにどのように変化しているかに関心が移る.この場合,副作用発現までの時間分布にワイ ブル分布をあてはめ,ワイブル分布の尺度パラーメタの推定値を求めることで 対応で、きる.ワイ ブル分布の尺度パラーメタの推定値が lより大きければハザード率は投与期間とともに増大し, lより小さければ投与期間とともに減少することを示唆でEきる.さらに,時間分布にワイブル分 布や対数正規分布などを含むより広い範囲の分布を統一的に表現で、きる一般化ガンマ分布 を想定することで,データに最も適合した分布型を探索することができる ( K a l b f l e i s c hand P r e n t i c e,1 9 8 0 ) . 本報告では副作用が発現する状況を比較的単純化して,投与期間が副作用の発現に及ぼ す影響を評価する方法について検討した.ワイブソレ分布の尺度パラーメタの推定値と図的表 示の解釈が整合しない場合があった.したがって,投与期間別の副作用発現率の評価におい て,図的表示と併用して解釈するなど,注意深く解釈することが必要である. 参考文献 Goldman, A.L( 1 9 9 2 ) .EVENTCHARTS:V i s u a l i z i n gs u r v i v a lando t h e rt i m e d ‑ e v【mts d a t a .TheAme r i c a nS t a t i s t i c i a n,16,1 31 8 . ・ K a l b f l e i s c h, J . D . and P r e n t i c e, R .L .( 1 9 8 0 ) .I n f e r e n c ei np a r a m e t r i c models and r e l a t e dt o p i c s .TheS t a t i s t i c a IAna l y s i so fF a i l u r eTimeDat a,Chap.3,2 1・69,John W i l e yandS o n s . SAS I n s t i t u t eI n c .( 1 9 8 9 ) . SAS/STAT U s e r ' s Guide,V e r s i o n 6,Fourth E d i t i o n, Volume2 .SASI n s t i t u t eI n c . 大橋靖雄・浜田知久馬 ( 1 9 9 5 ).生存1 1 寺問解析 :SASによる生物統計東京大学出版会. nud ηL
日本 SASユーザー会 (SUG1‑0) SASI n t e g r a t i o nTechnologies+ASPによる解析帳票作成 Webシステム構築の試み 0岩本光司※ 矢野尚※※ ※武田薬品工業株式会社医薬開発本部統計解析部統計 G ※※株式会社富士通ピー・工ス・シーソリユーションヒ'ジネス本部 Thep r o t o t y p ef o rWebS t a t i s t i c a lA n a l y s i sReportSystem basedonSASI n t e g r a t i o nTechnologiesandASP K o j ilwamoto* T a k a s h iYano** h a r m a c e u t i c a lD e v e l o p m e n tD i v i s i o n,TCI *8 i o s t a t i s t i c s,P r a n c h,S o l u t i o n8 u s i n e s sD i v i s i o n, **4 t hSystemD e p a r t m e n t,Osaka8 F ω i t s u8 r o a dS o l u t i o n&C o n s u l t i n gl n c . 要旨 SAS8 . 2において、 OutputD e l i v e r ySystem(こより帳票出力機能が大幅に改良されたO この機能を活用 するための提案として、 SUGトJ2000では iODSによる総括報告書の電子化」の発表の中で、さらに SUGI‑J2002では i P H . C l i n i c a lTemplateによる解析帳票作成に対するシステム化の試み」のデモンスト レーションの中で、 ODS機能による解析帳票作成を紹介し、これらを実際の業務システムに導入してき た。一方、ここ数年、 Webを活用した、ンステム化が進んで、いる。そこで、新たな挑戦として、 ASP(Active In t e g r a t i o nT e c h n o l o g i e s )を利用した Webによる、ンステム化を試みた。この試み Sever P a g e s )とSAS/IT( において、他システムとの融合など、の有用な点が分かったので、紹介する。 キーワード SASI n t e g r a t i o nTe c h n o l o g i e s、ASP、ODS、Web 1.はじめに 臨床試験における報告書などに用いる種々の解析結果帳票作成のために SASは用いられているが、 この業務の効率化、作成した帳票の品質保証のために多大なワークロードを必要とする c たとえば、 個々の試験ご、とにこれらの帳票を SASプログ.ラムを作成した場合、そのプログラム数は多く、また、そ れらに対してプロクずラムが正しく動作していることを保証しなければならない。そこで、各試験問で共 通に用いられる帳票について標準化し、帳票作成をシステム化することにより、ワークロード及びコ ストを軽減することが考えられる。これに関するひとつの提案として、筆者らは、 SUGI‑J2000で ODS による解析帳票作成の試みを、 SUGI‑J2002、 でPH.Clinicalと結合したシステム化の試みを報告した。 また、これらを実際の業務システムに活用した。しかし、その開発及び運用する中で、し、くつかの課 題(後述)が見えてきた。 一方、ここ数年の流れで、 Webを利用した(クライアントに特別なアプリケーションを必要としない、 I E や Netscapeさえあれば良し、)システムが多く見られるようになった。種々の業務がインターネットのブ、 ラウザから実行できるようになり、エンド、ユーザーは各自の PC(端末)から、ブラウザを通して日常の t 噌 ム べu η
業務を行うようになってきた。そこで、これらの要求を満たすために、 ASP(ActiveSever P a g e s )とSAS I n t e g r a t i o nT e c h n o l o g i e sを利用したWebによる解析帳票作成の、ンステム化を試みた。 I I .P H . C l i n i c a lの使用経験 確かに P H . C l i n i c a lは、① SAS/AFをベースとした GUI作成機能を用いて独自の帳票テンプレートを 容易に作成できる、②ユーザー管理やユーザのすべての処理記録を管理するなど、優れた A u d i t T r a i l機能を持つ、など、優れたアプリケーションとし、える。 しかし、総括報告書の各種帳票を作成するための独自帳票作成用のカスタムテンプレートを作成す る際や、帳票を生成する処理を実行する際に下記のような課題も挙がった。 • GUI構築に制約がある SAS/A F ( 6 . 1 2 )をベースとしているので、入力画面上で、カット&ペーストで、きない。 SAS/AFの機能をすべて使用できなし、(例えばば、オブ .帳票作成のための定義はテンプレ一ト本体とともに保存されるので、フアイルサイズ、が大きくなる テンプレートの SCLコードや帳票作成用 SASプログラムも出力結果と合わせて保存されるので、 1帳票あたりのファイルサイズが大きくなる。 ・データは PH辞書登録が必須であり、この登録処理が煩雑。また、 V6.12の制約を受ける SASデータセット及びその変数に対応する形で、辞書登録が必要で、ある。これは、 P H . C l i n i c a l 上で定義しなければならない。 • PC上で動くので、ユーザーは他のアプリの実行などの並行作業は難しい .各 PC上のアプリケーション管理にコストが掛かる これらのうち、特に重要な問題は、やはり、 SASV6.12の制約を受けていることである。 P H . C l i n i c a lの パージョンアップを望むところで、はあるが、この点に関して SAS社は V8.2対応版をリリースする予定 はなく、次期ソリューションの SDD(SASDrugDevelopment)において対応するとの見解である。しかし、 現状では対応しないことから、これらの課題をクリアすることを含めて今回の提案を試みた。 I I I .開発のコンセブト プログラムの標準化及び共有化を考える上で、アプリケーションに依存せず SASプログ、ラム単体で、行 うことは、その汎用性としづ観点からいって P H . C l i n i 山] H . C l i n i c a lと結合し 重要である。前述の P たシステム化の試みにおいても、帳票作 成プログラムはすべてマクロ化し、そのマ クロの引数を与える部分について PH.Templateを用いた。即ち、 P H . C l i n i c a l の特徴として PH.Template上の SCL内に すべての帳票作成プログラムをコーディン 図1 P H . C l i n i c a lでの処理概念図 ワ ム qJ
ク守することは可能であるが、 SUGI‑J2002でも紹介したように、帳票作成のプログ?ラムをマクロ化し、そ H . C l i n i c a lから与えることを考えた(図1) この考えは、システム中枢部である帳 のマクロの引数を P 0 票作成部分がアプリケーションに依存しないことを第ーに考えたからである。 今回の Webによるシステム化を試みにおいても、帳票作成フoロクザラムは P H . C l i n i c a lと同じものを利用 し、マクロの引数を与える部分について Webによる GUIを作成することを考えた。即ち、パラメータ指 定部分と帳票生成用マクロ変数を作成する部分をWebを利用することにした。 また、今回、 Web解析システム化する方法を検 S i ¥S 汀 &^SP 討した理由のひとつは、解析報告書作成など の定型業務においては上述したように P H . C l i n i c a lはそのバリデーション機能等優れ ていることから有用であるが、探索的な解析等、 ちょっとした解析を行う際には手続きが多すぎ るので、もうすこし簡単に帳票を作成したかっ たこともある。 図2 ¥ Veb、ンステムで、の処理概念図 N.Webシステムの詳細 1 .ブ口ト担イブ作成の前提条件 前述のとおり、 Webサーバで、集中的に解析処理を行うことので、きるシステムについて検討を進めるこ ととしたが、システム開発のために新たなリソースを確保することは考えないこととし、以下の条件の もとでのプロトタイプを作成することとした。 ・単純な環境で構築可能であること ・高性能マ、ンンが不要(標準的な PCレベルで、実現可能)であること ・高度なWebシステム開発の経験が不要で、あること ・既存の資産(データ/プロク守ラム)を利用可能であること これらの前提条件に従って、プロトタイプシステムは ASPを利用して構築することとした。以降で、 ASP を選定した理由について述べる。 2 . ASPの概要 ASPとは M i c r o s o f t社が提供している Webサーノく I 1 S( In t e r n e tI n f o r m a t i o nS e r v e r / S e r v i c e s )上で、動 作する「サーバサイド の処理環境」である。 ASPは 、 Javaや VBなど、のような固有のプロク、ラミンク、、言語 . a s p / . a s p x / . m s p x Jファイルに埋め込まれているスクリプ卜言語 ( V B S c r i p tや J a v a S c r i p tな ではなく、 r ど)をサーバサイド、で、実行処理し、結果 (HTML)のみをクライアントに送信する一連の処理環境技術 I Sはサーバ用の OS以外で‑も Windows 2000 の総称で、多くの Webページで、ASPが利用されている。 I P r o f e s s i o n a lや WindowsXPP r o f e s s i o n a Hこ添付されており、現有の PCおよび OSで実現可能であるた め、今回のプロトタイプは IIS+ASPを利用することとした。 3 3
ASPの特性: Webページを動的に表示する代表的な方法として、クライアント上のブ、ラウザで、プログ ラムを動作する方法(クライアントサイドスクリプト DHTML)と、サーバサイド、で、集中処理を行い、結果 のみを HTMUこ変換してクライアントに送る方法がある。 ASPは後者の方式であり、処理結果のみを 返すのでクライアントに負荷をかけない。また、送られた HTMLを表示する機能さえあれば利用可能 であり、クライアント環境にほとんど依存しない。 ASP DTHML クライアント 図 3DHTMLとASP の利用イメージ 3 .IntegrationTechnologiesによる SASの利用 V8Script での利用:SAS8 . 2より追加された I n t e g r a t i o nT e c h n o l o g i e sを利用することにより、 V B S c r i p t などの外部プログラムより、 SASを利用することができる。 V B S c r i p tからの S A S呼び出しプログラム 1 *S A Sセッションの開始 * 1 S e to b j ¥ ¥ ' S ¥ l g r=S e r v er .C r e a t e O b j e c tC 'S A S W o r k s p a c e ¥ l a n 直g e r . W o r k s p a c e M a n a g e r " ) .W o r k s p a c e s .C r e a t e W o r k s p a c e B y S e r v e r( " M yW o r k S p a c e ",ー S e to b j W S = o b j W S M gr 1, n o t h i n g, . " " " C s t r( e r r S t r i n g )) 1 *S A Sプログラムの実行 * 1 o b j W S . L a n g u a g e S e r v i c e . S u b m i t ( " d a t ab;s e ta;i fd l = 'Y E S ' t h e no u t p u t ;r u n; ") 1 *S A Sセッションの終了 * 1 o b j W S . C l o s e B S c r i p tとしてWindows上で、実行した場合には正常に動作 ASPでの問題点:上記のプログラムは、 V した。しかし、 Webサーバ上に配置し、 ASP(Webアプリ)として実行した場合、「書き込みできません」 としづエラーが通知され実行で、きなかった。この問題は、 ASPで、上記プログ、ラムを動作させる場合、 Webサーバ上にユーザとしてログ インしていないために発生していた。 V B S c r i p tの場合: A S P の場合. 里 図 4V B S c r i p tとASPの違い n︿U A4
クライアント上のブ、ラウザからWebサーバ(IIS )にアクセスされた場合、デフォルト設定では以下のユー ザアカウントが使用される。 Webサーバ・マシン名〉 ‑インターネット用ゲ、ストアカウント: IUSRく • I I S用プロセスアカウント: IWAMく Webサーバ・マシン名〉 ASP利用に必要な環境定義:前述の問題を回避するため、 Web サーバ上で、以下の環境定義を行う ことが必要である。 d c o m c n f g "コマンドを使用し、 SAS:IOMDCOMS e r v e rの環境定義を行うことによ V B S c r i p tからの SAS呼び出しプログ ラム」が正常に動作した。 ASP を実行するために設定し り前述の i P た内容は以下の通りである。 ‑分散 COMの既定のプロパティで、既定の偽装レベルを「偽装する」に設定する 未知のユーザからの要求を受け取った場合、別ユーザを偽装することによってリソースにアク セスするように定義 • IUSRくマシン名〉およびIWAMくマシン名〉アカウントについて、「アクセス許可」と「起動アクセス 許可」を与える I I Sで禾Ij用されるユーザに対して SAS:IOMDCOM S e r v e rへの「アクセス許可」と「起動アクセ ス許可」を付与 ・アプリケーションの実行時に利用するユーザを設定する SASの起動時に利用するユーザを設定 4 .プロトタイプ 前述の環境定義を行うことによって、 ASP から SAS を利用することが確認できたため、下図のプロトタ イプを作成した。 . . ' SASI T&必 P 起動処理 解析パラメタ指定 帳票生成処理 l マクロ呼び出し !(解析パラメタを号 l 数に指定) 参照・表示 しーーーーーーー「百 五成用 クロプログラム 7 図 5プロトタイプ梼成図(背景がグレーの部分は SASによる処理) にd nd
品担当
フ方ーマヲト情騒J!:1n
・
酋圃・・・・・層圏圃圃圃圃園田園
一
ふ 漏 画 師EW j l W 田 曜 日 置 ー 頃 圃 圃 圃 圃 圃. . .
JLb‑
ー ¥ 己 竺 主J
三笠叫三笠L
.
!
!
主主J
!
S
t
Y
I
l
c
.S
aweb
エl
年齢
P、 i
既t
H:
司有里
r :i
睡甥
デーヨ包ット
1
;
,
.
‑
;
‑
‑
…
間
両
日
A
十 両 日 ‑ r : ‑ ‑i
一
一一一一・!日日
患者首易
E剛番号
r 1̲.̲̲....̲.̲̲ ̲̲.
町一一竺用主
向
2
‑
E
主 J
投与用三
三
目
r i1
:
.
令
官
冨
岡
1
"i
I
戸崎一
8ACI
<G間 UN
.D
S日
置
J
!
: 性別
I
患者間
性日1
'
主主J
s町
又 血
同
三!J-;;E---~出
附
叫んJ
患者省県
検定項目
誼与用量
刷陣
亙J
‑
旦計百
f
j
J
r
iL
'
患者イ山ル
コォーマット
役与!l
詫
FUND
一 世1
'
1
表示テミJ
レ
主百五証一一豆「一
‑
‑
‑
̲
ー
予;枝豆一目指
‑ M
項目
副
一主了
旦笠J
「
体重
「一一J!:11it!,'I:['";jì""]~
図 6ASPによる Web解析システムプロトタイプ(パラメタ指定 GUI)
zsτ理園田高間隔草園町山・ 1 {I ~f r;-::‘玄ウ~..'
ω
̲̲
lgj~
‑
̲̲E
彊
ω 間二入り ω ツールQ) ^J ~7ω
M 叩 融 @ 玩
事五
一時‑.)占企
a
̲
1
‑
争点ディ P
僻.iJお知二入。
7ドvA(Q)l~h" pJ.ρ 耐世田,/.間』凶 !te "'4ll'St Pe間1_htm出 mJ
d 斗'.J ‑斗
一一一緬輔副自問一一一│圃圃圃酎閣咽ー
‑
凶訟
d電
話
J'" . # 潤 酬 監
年 代 間 選 40
畠棄事
1S 1 7
5
.
0
3
‑.刊畠代
,
1
【崎)星間監
均一世骨盤定
(崎)
p償
手法
15 75.0 X2瞳 宣
1
5
.
0
0.5342
!
4 2日日
‑
"
'
‑‑"T‑‑
←̲.
、 ̲‑
‑
JSOr.:代目! 0.0
1
‑ プ ‑
.
1
祖 国 園 田 圃
PB
AIJ
町議護送護
,.,.~
ニjθ移動
‑
‑
r
一一一「一一
5
.
0
・1
口
口
!
pγiOa~ 二己三耳コ
i
μ70J
量以上
幽
s
i宅 与 用 量
lOmg
l' 5口
口
5 25,0
5 25日 以後宣~ 0.6231
.
5
‑
f
‑
J訂 つ 玄 口 ‑
‑
‑
:
r
‑
‑~
討 をJ
i
;
:
t
二
L
i
E
F
1二五
中
h
ゐ包議湾
で一_._~
均問官主性
1
員ヌユコ順王さほし正一一
1
̲
‑‑'ー午
8 I40.0
可
ー ム ム
ー一一
10 5日日
ーーュ一一一一~~..__._-
一
~
一一一-~イントラネヲト一一
図 7ASPによる Web解析システムプロトタイプ(帳票出力)
このプロトタイプは、可変表示部分はすべて SAS
プログラムで実装している。 ASP
プログ、ラムで行って
で出力された HTMLの取り込みのみである。
いる処理は、 SASの呼び出し、およびSAS
「項目一覧の更新」ボタンが押された場合に、左下側の SAS
示するプログラムを以下に示す。
変数一覧を表
n︿U
h
ハu
サンプルプログラム SAS変数一覧表示プログラム (ASP): く 時 ,̲̲̲ S ASとの連携用ファイル定義一一' Const P b l Sas¥ lacro = " D :干lnetpub干wwwroot干WebStat干sasprog干S e ll t e m .s a s " Const P b l CurDir = " D :干lnetpub干wwwroot干WebStatγ Const P b l ASPFile = "temp/ltemList.asp" Const Pbl̲SasLog = "temp/ltemlist̲log.t x t " Const Pbl̲SasOutput = " t e m p / l t e m l i s t ̲ l s t .t x t " 画面上側で選択されているデータセット名を取得 ' Dim DSname .F o r m ( " D S N A l I E " ) データセット一覧の選択結果を参照 DSname = Request DSname = L e f t( D S n a m e, lnstr( D S n a m e, "" ) ) l ,S ASの起動&処理実行 Server.Execute "Connect.asp‑ 5ニ Session.Contents川 5町 ) rSAS?クロ呼び出し ' "&P b l Sas~lacro & 川 ;" ) o b j W S .LanguageService.Submit( " 首G enltemList("& Pbl̲CurDir & Pbl̲ASPFile & " "&ー P bl ̲ CurDir & P bl ̲SasLog& ""& P bl ̲CurDir& P bl ̲SasOutput & ぺ μ&ー DSname &") ; " ) i f err.number = 0 t h e n 州 objW~LanguageService.Submit(μ首 lnclude '一一一上記 S A S処理で出力された ASPファイルをインクルードー ' 1 SAS で出力されたファイノレ l fobjFile.FileExi山 ( P bl ̲C 凶 l i r& P bl ̲A 肝 i l e ) Then ( H を取り込んで表示 Server.Execute P b l ASPFile e l s e Response.Write " < f o n t color=red) S A Sの出力ファイルが見つかりません。.. & ログを確認してください。く b r ) " End l f 目 〉 IT M L ) SAS変数一覧表示プログラム (SASマクロ): %macroGenltemList(ASPFILE,LOGFILE, OUTFILE, D Si ¥ A ¥ lE ) /本出力ファイルの制御本/ FILENA¥ lEHTML " &ASPFILE" FILENAME LOGFILE "&LOGFILE" ; FILENAME OUTPUT "&OUTFILE" ; PROC PRINTTO LOG=LOGFILE print=output ; r u n; /キデータセット・項目リストデータセットを作成 * 1 DATA ITEMLIST ;SET TBLLIST I Fl I E ¥ I N A ¥ I E = ‑ & D S N A ¥ I E " THEN OUTPUT ; RUN 1 *生成されたデータセットから、 H T l l L出力部を作成本/ PROC SORT D A T A = I T E l IL lST ;BY N A ¥ I E ;R l LN DATA N 山L L ;SET I T E ¥ I L IS T END=L A S T O B S FILE H T l l L I F̲N ニ[ THEN D O e r " ) ' PUT '<div align="ce日t PUT ' < c e n t e r ) ' PUT ' くt ableborder="[" width " [ 0 0首" bgcolor="white")' END ; N̲2 ニ ROUND( ̲ N ー1 2 ) ; I F̲N̲2 本 2 ニ ̲N̲THEN PUT' < t r ) ' くt rbgcolor="持F F F F 9 9 ‑ ) ' ELSE PUT ' PUT く 't dwidthニ "40%")<font s i z e = " 2 " ) '¥ iA ¥ I Eく 'I font)くI t d ) ' 二 の ぺU ワー
PUT '
くt
dwidth="SO%"><font s
i
z
e二 "
2
"
>
' LABEL '
く/
f
o
n
t
>
<
/
t
d
>
'
CHKNAME = "ItemCheck" 1
1 T
RIM(LEFTしN
̲
)
)1
1 '川;
DSNAME = "
D
S
N
A
M
E
"1
1T
RIM(LEFTしN
ー
)
) 1
1 '
川
_ITMNA~IE = "
ITEMNAME" 1
1T
RBI(
L
E
F
T(
̲
N
̲
)
)1
1
PUT '
<
t
d width="IO覧"
>
<
i
n
p
u
tt
y
p
e
=
"
c
h
e
c
k
b
o
x
"n
a
m
e
=
CHKNAME'value="ON">'
PUT '
くi
n
p
u
t type="hidden" name=
DSNAME'YALUE= "&DSNAME" '
"
>
く/
t
d
>
'
PUT '
くi
n
p
u
t type="hidden" n
a
m
e
=
I
T
剛A
ME'YALUE= N
A
i
l
E'
"
>
く/
t
d
>
'
PUT '
く/
t
r
>
'
I
F LASTOBS THEN DO
PUT '
く/
t
a
b
l
e
>
'
PUT '
く/
c
e
n
t
e
r
>
'
く/
d
i
v
>
'
PUT '
̲Count =L
E
F
T
(
̲
N
̲
)
くi
n
p
u
t type="hidden" name="ITEMCOUNT" YALUE= ̲Count '
"
>
<
/
t
d
>
'
PUT '
END
' 川
川
川
円
円 ー
川
川
RUN
/*出力先をデフォルトに戻すり
PROC PRINTTO ;R
U
N;
凪I
I
F
N
O
実行例
図6
のデータセットが選択された場合、 S
A
Sから以下の文字列 (HTML形式であるが、実際に
a
s
pファイルで処理)が出力される。
は.
SASで出力される文字列:
くt
ableborder="l" width="IOO%" bgcolor="white">
くt
rbgcolor="持FFFF99">
くt
dwidth="40%"><font size="2">AGE </font></td>
くt
dwidth="50%"><font s
i
z
eニ "
2
"
>年 齢 く /font>く/td>
F ミ〉
<
t
d width="lO%">くi
n
p
u
t type="checkbox" n
a
m
e
=
"I
temCheckl"
くi
n
p
u
t type="hidden" n
a
m
eニ "DSNAMEl" YALUE "
B
A
C
K
G
R
O
U
N
D
"
>
<
I
戸「一一年齢
F
m
l
‑
r
‑
r
‑
二
F
E
S
J
S
歴の有無
<
i
n
p
u
t type="hidden" name="ITEMNAMEl" YALUE="AGE "
>
<
/
t
d
> AN州 N
<
/
t
r
>
i
函了一盃台首一一
くt
r
>
C
A
S
E
I
D
症例番号
<
t
dwidth="40%">くf
o
n
t size="2">ANAMNESIS く/font></td>
D叫
;投与用量
くt
dwidth="SO%">くf
o
n
ts
i
z
e"
2
"
>既 往 歴 の 有 無 く /
f
o
n
t
>く/td>
くt
dwidth="IO
覧
"
>
くi
n
p
u
tt
y
p
e
=
"checkbox" n
a
m
e
=
"I
temCheck2"
mG2
投与群
くi
n
p
u
t type="hidden" name="DSNAME2" Y
A山 E="BACKGROUND"></
i
H
E
I
G
H
T
身長
<input type=勺1id
d
e
n
"name="ITEMNAME2" Y
A
L
U
E
=
"AN
地問 E
S
I
S"
I
A
l
討 石jif‑‑Tr一
く/
t
r
>
町
;
「
F
F
!
r
二
耐
戸了一
<
t
r bgcolor="持FFFF99">
<
t
d width="40
覧"
>
<
f
o
n
t size="2">BIRTHDAY </font></td>
i
w附 ,T
<
t
d width="SO%"><font s
i
z
eニ "
2
"
>生年月日 <
/
f
o
n
t
>く/
t
d
>
くt
dwidth="lO%">くi
n
p
u
t type="checkbox" name="ItemCheck3" value="ON">
くi
n
p
u
t type="hidden" n
a
m
e
=
"
D
S
N
A
i
I
E
3
" YALUE="BACKGROUND">く/
t
d
>
くi
n
p
u
t type="hidden" name="ITBL'IA~1EγYALUE="BIRTHDAY "
>
く/
t
d
>
<
/
t
r
>
~(途中省略)~
く
I
table>
!
t
U
I
J
体重
I
r
F
ぺU
n
n
x
u
v .おわりに 今回のW曲、ンステム化の試みにより、以下のことがわかった。 ・本方式で業務システムを構築可能である ・ブラウザが動作する環境であれば、クライアントは OSに依存しない ・サーバ側だけメンテナンスすればよいので、バリデーション・システム管理の負荷を軽減できる .他の Web、ンステムとの融合が容易(ポータルサイト・ド、キュメント管理システムなど)である • ASPによるパラメタ指定は、 DBなどを利用する方式の方が効率的である ・各種操作に対するオーデイツトトレイル取得も容易に構築できる t u d i oなどもあり、これらを用いたアプリケーション また、 SASのWebソリューションとして SASAppDevS の開発も考えられる。さらに、近々、日本においても医薬品開発における統計解析を中心としたトー タル的なソリューションで、ある SASD rugD e v e l o p m e n tがリリースされる予定で、ある。今後はこれらを視 野にいれたシステム化も検討していきたい。 nHd n4U
日本 S A Sユーザー会 (SUG I-~) 2値および計量値のシグモイド曲線 ‑曲線の推定および逆推定と 9 5 %信頼区間一 0杉 山 公 仁 ¥ 馬 場 淳 e¥天竺桂裕一朗毒事事、高橋行雄事事事$ ホ昭和薬品化工株式会社開発研究部..明治製菓株式会社薬事部 専事事興和株式会社医薬事業部、毒事事事中外製薬株式会社臨床解析部 S i g m o i d a lCurveF i t t e dt oQ u a l i t a t i v eandQ u a n t i t a t i v edata ,[ n v e r s eE s t i m a t i o nandi t s95%confidence CurveF i t t i n g 梓 , Y u i c h i r oTabunoki*",YukioTakahashi K i m i h i t oSugiyama*,JunBaba DevelopmentandResearchD e p t ./Showayakuhinkakoc o .,L td . f f a i r sD e p t ./MeuiSeikaKaisha,L t d . * * R e g i s t r a t i o n& RegulatoryA DevelopmentResearchD e p t ./KowaCompany,L t d . C l i n i c a lDataA n a l y s i sD e p t ./ChugaiPharmaceuticalC o .,L t d . 問医 本 問医 問 噂 要旨 薬理試験あるいは毒性試験などの分野において、薬剤および化学物質の特徴を示すため に、ある反応系で 50%の反応率を示すときの用量 (D50)が求められており、そのために、用量反応曲線 を当てはめる方法として、従来からプロヒ。ット法が知られているが、ロジスティック回帰がこのようなデータ に対して有用で あることが知られるようになってきた。そこで、反応率として表わされるような 2値データに 対して、ロジスティック回帰分析を適用して用量反応曲線を推定し、 D50 が逆推定できることを示すだけ あるいは 90%の反応率を示す用量 (DJOあるいは D90)を求める拡張法を示した。また、シ ではなく、 10% nv i t r o試験や細胞毒性試験では非線形回帰モデ グモイド型の計量値データとなる摘出組織を用いた i ルにより D50及び最大反応量 (Emax)を推定する Emax法がデータ解析に用いられている。 Emaxモデ M 、Emaxは Vmaxに一致する。 Emaxモデルで怯 D50とその ルのパラメータである D50は酵素反応の K 95% 信頼区聞が直接推定でき、ロジスティック回帰と同様の考え方で、 DJOあるいは D90が求められた。 キーワード: シグモイド曲線、 D50、SAS/PROBIT、SAS/LOGISTIC、 SAS別 L町 、 JMP 1.目的 薬理試験あるいは毒性試験などで扱われる反応率として表わされるような 2値データに対して、 薬剤および化学物質の特徴を示すために、 D50 が求められている。ロジスティック回帰により、 単に D50を逆推定でき、プロピット法と同等であることを示すだけではなく、 DJOあるいは D90 を推定するために拡張する。また、シグモイド型の計量値データの解析には、非線形回帰モデ.ル 信頼 により D50及び最大反応量 (Emax) を推定する Emaxモデルが用いられ、 D50 とその 95% 区聞が直接推定できる。ロジスティック回帰と同様の考え方で、 DJOあるいは D90が求められる ことを示すとともに、酵素反応やリガンドパインディング試験への応用について示す。 ‑41
2 . 2値データのシグモイド曲線 2 .1 . プロビット法(プロビット変換) 薬剤および化学物質の特徴を示すために、薬理試験あるいは毒性試験などで反応率として表わ 2値データ)に対して、用量との関係を表すとき使用される解析方法のー されるようなデータ ( つが正規分布関数を用いるプロピット法であり、 50%の反応率を示すときの用量 (50%有効量: ED50あるいは 50%致死量:LD50、以下 D50と呼ぶ)を求めることができる。吉村功編著「毒性・ 薬効データの統計解析J 1) の i 5.4節 L D s oの推定」 では、プロピット法による D50の推定とそ の 95% 信頼区間の計算法が示されている。 プロピット法により求められたプロピット曲線は反応率が、用量の対数に対して、正規分布の 累積確率、すなわち正規分布関数の関係をもっシクoモイド ( S字) 曲線のことである。式で書け ば用量 dと反応率 pの関係が 4 d~.._ ( (x一μ ) 2 F xp{‑77 一} 哩 曙 Pニ I r ‑ 三E 式 l dx o glOD50である。 となるものである。 このとき、 μ =I 計算では次の式で定義するプロピット関数を使う。 p r o b i t ( p ) 二 ぺ 主 し と な る 式 2 yの 値 yは規準正規分布の累積確率が p となるところの横軸(正規偏差)に負の数字を嫌って 5を加 えたものである。数値例として表 lが示され、 D50の求め方として重み付き最小 2乗法の繰り返 し計算による最尤法が示されている。 死亡数 IM ︑ ︐ ハリヲ ー dooQノハυ 群 I‑123456 表 l D50を求める数値例 投与量 m凶c g 群の大きさ (公比1.35 ) 1 0 1 0 1 1 0 1 3 6 1 0 1 8 3 1 0 247 1 0 3 3 3 1 0 450 死亡率 ̲ ̲ ̲ f ! L ̲ 0 . 0 0 0 0 . 2 0 0 0 . 5 0 0 0 . 8 0 0 0 . 9 0 0 1 .0 00 プロピット z P暗主主と αコ 4 . 1 5 8 4 5 . 0 0 0 0 5 . 8 4 1 6 6 . 2 8 1 6 αコ SASでは PROBITプロシジャ (プロピット変換、ニュートン・ラフソン法)により、求めるこ とができる。プログラミング例を以下に示した。 A 斗 の ノU
SASデータセット d a t a d 0 1 o s e nype t ap ̲ h a t i n p u t Id i n e s d a t aI 11 0 11 0 00 3 . 1 9 3 10 . 0 3 5 21 3 61 0 20 . 24 . 0 4 6 30 . 1 7 0 31 8 31 0 50 . 54 . 8 9 7 50 . 4 5 9 42 4 71 0 80 . 85 . 7 5 7 50 . 7 7 6 53 3 31 0 90 . 96 . 6 1 4 20 . 9 4 7 6450 1 01 01 7 . 4 7 7 70 . 9 9 3 p r o cp r o b i t d a t a = d 0 1l o g 1 0 i n v e r s e c l o r m aIi t p ri n tc o v b m o d e ly / n= d o s e/d i s t二 n u t 0 1 p = ps t d二s t dx b e t a二x b e t a o u t p u to u t二o r u n p r o cp r i n td a t a = o u t 0 1 r u n 。 r o cPROBITの反復計算は、初期の回帰係数 β =0、 β 1 SASの p 1=0からスタートして、 6回の o=‑15.0703、β ;=6 . 6 1 5 2 が得られた o D50は 2 . 2 7 8 ニュートン・ラフソン法による反復の結果 s であり、 95% 信頼区間は、フィラーの式 2) により、常用対数で ( 2 . 2 0 4,2 . 3 4 8 ) と計算され、投 1 6 0,2 2 3 )となった。なお、 SASでは、 p r o cLOGISTIC、 p r o cGENMOD 与用量に変換して D50=189.7、( でもプロピット法での計算は行えるが、 D50の 95%信頼区間の計算がサポートされていない。 2 . 2 . ロジスティック回帰(ロジット変換) シグモイド曲線を得るために正規分布の数値計算は煩雑であることから、数値計算が簡単なロ ジスティック分布をシグモイド、曲線に用いる方法が利用されるようになってきた。 ル)= 吋 王 子 ) X~~ r{1+exp( 式 3 f J ここで、一∞く μく∞、て >0であり、平均と分散は、それぞれ μ とポポ / 3である。確率密度関 =μ/r、 数 f(x)は、正規分布に比べ簡潔とはいえないが、反応率 p、および用量 d とし、 β。 s I=I/rとおけば、ロジスティック分布関数は、 p ニ l ) exp(β0+β1l o glO xj 二 。 。 )‑1+exp(‑( β +β1l ) ) o glO Xj o g l oXj 1+e x p ( β +β1l 式 4 となる。簡単な式の変形により、ロジスティック回帰式 I。 l i g i t ( p j )=l n l~ =β +β1・l o glO xj ¥1‑p, ) 式 5 が得られる 3 式 5 が正規分布を用いた場合とほぼ同様のシグモイド曲線を与える。このシグモイ ド曲線を用いて D50を推定するのがロジスティック回帰モデルである。 JMPによる D50の推定 は、プロピット法ではなくロジスティック回帰モデルによる推定を行っている。 プロピット法で示したような生物検定法で常用される逆推定、推定値の 95%信頼区間をロジス ティック回帰において求めることは SASでできないわけではないが、 JMPでは、 I n v 巴r s巴 P r e d i c t i o n ‑43
(逆推定) として対応しており、生物検定法のための統計パッケージとしては JMP が使いやす
し
、
。 そこで、 ロジスティック回帰については JMPにより解析を行った。
JMPでロジスティック回帰を行った結果を表 2に示した。
表 2 ロジスティック回帰モデ、ルの結果
8ラメータ推定値
項
切片
[
o
g
1
0
(
d
o
s
e
)
推定値
標準誤差
カイ2乗
p
{
直(Prob>ChiS
q
)
2
6
.
2
1
1
4
8
9
1
1
.
5
2
2
9
0
9
9
6
.
3
5
0
4
3
1
2
.
7
8
0
4
1
0
7
1
7
.
0
4
1
7
.
1
8
<
.
0
0
0
1
<
.
0
0
0
1
p
=
0
.
5の時の投与量が D50であることから、 1
0
g
i
t
(
0
.
5
)=1
n(
l
)=0となる。 D50の時、式 5は
。
。
β +β1・1
0
g1O(D50) Oとなり、 1
0
gl
β /β1が得られる。
0(D50)=‑
二
したがって、 D50は、求められた回帰係数から、
。
β =10g1
1
1
.
5229ニ 2.275
0(D50)二 一β /β1=‑(‑26.2115)/
2275
となり、 D50= 1
0
=1
8
8
.
2mg
/
kg と推定できる。
l‑
︑
"l
‑
一
一
ハU
d
一
︑
︐lーマ
A1
・‑
)
‑
ヲム一
z‑
d
tI 一 司J
今白一
(
﹃
︐
︐
×
一
u‑
‑
一
芹=
A斗一
2
a=
l 一
︑
司
/
kgと比べて約 1%の差である。分散は、
プロピット法の 189.7mg
とプロピット法の 0
.
1
5
1 と約 4%の差である 3
プロビット法によって得られた D50=2.278 と δ =0
.
1
5
1から推定されるプロピット曲線、
D50=2.278 と i
=0.083から推定されるロジスティック曲線を比較した結果を図 lに示す。違
し
、
は
;
、 ロジスティック回帰が裾広がりとなるが、図にしてみるとごくわずかである。
,
0
/
08
06
〉
04
02
/
0
0 18
26
28
図 l プロピット曲線とロジット曲線の比較
プロピット、ーーーロジット
D90値を得るためには、 p=0
.
9
0を
、 ロジット変換して得られる
。
‑l
o
g
(
0.9
/
0
.
1)β。
‑2.1972
1
0
g (D90)=‑β。
.
‑
0
:
‑
.
̲
.
‑
.
‑
,
̲
10g(0.9/0.1)=β +β1・ 1
0
gI0(D90)
I
"
"
'
I
0
O
A β l
9
η)
0
‑
(
β
'
0
‑2.1
/
β
1 と推定される。
から、 D90[
f
直は、 D90=1
(
ん +2.1町 )/s,
と推定される。
同様に、 DJO値は、 DIO二 10一
A ハ日墨
AAY
JMPでは、逆推定の機能により、任意の死亡率について計算できるので、 90%、 50%、および 10%のそれぞれについて推定した結果を表 3に示す o ] ) 5 0の 95%信頼区間は、フィラーの式によ り、常用対数で (2.196,2.351) と推定される。 表 3 ロジット法による逆推定 国推定 確率予測値 l o g 1 0 ( d o s e ) 46541141 2. 0 . 9 0 0 0 0 0 0 0 2 . 2 7 4 7 2 8 2 7 0 . 5 0 0 0 0 0 0 0 2 . 0 8 4 0 4 5 1 4 0 . 1 0 0 0 0 0 0 0 下限 2 . 3 8 1 5 0 5 7 3 2 . 1 9 5 5 4 3 5 5 1 . 8 7 8 8 8 9 6 3 上限 2 . 6 6 2 3 6 2 3 1 2 . 3 5 0 9 1 7 2 9 2 . 1 7 0 1 6 4 0 1 1 ‑ A l p h a 0 . 9 5 0 0 2 . 3 . フィラーの定理を用いた有効用量の信頼区間 フィラーの定理は 2つの正規分布の確率変数の比率の信頼区間によって得ることができる一般 的な計算結果である ορ=β。/ β !としたとき、 β。 とβ lは 、 β。 とβ 1によって推定される。その平 均を A とβ l、分散が v∞と V j I= β。 ρβlに 1、共分散が V0 1の正規分布になると仮定される関数 1 とβ l が Aとβ lの不偏推定量であるので、 E(W)ニ β。‑ρβl二 O とな ついて考える。このとき、 β。 り 、 vの分散は、 V=Var(w)=V.∞+ρ‑V 1‑2ρV 0 1 式 6 vは、同様に正規分布に従い で与えられる。 β。 とβ lは、正規分布に従うと仮定されるので、 。 β ‑ρβI JV は、標準正規分布となる。 従って、 は 、 Zα12 が、標準正規分布の上側 α/2点であるとしたときに、 Vで表される [ s O一p s I [九 2 /J ρの 100(ト α)%信頼区間 ο ρ β。 両辺を 2乗し、等式とし、 β;+ρ712 2 βI ‑Z;/2V=O を与える。 式 6により V を代入した後に式の整理をすると、次のように ρに関する 2次方程式が得られる。 0J VI ν レ +(2 杭 凡 s一九 1ιユ 九 九 01 1 2 1 日 引 この 2次方程式の 2つの恨は、 ρ のための信頼限界を構成する。これが、フィラーの結果であ る コ この結果を D50ニ β。/ β l の信頼区間を得るために、式 7 の ρ を ‑])50と置き換える。 ] ) 5 0による 2次方程式を書き換えると、 50 ( 2 V01ι f‑01lι 炉 い 2 式 8 ‑ が得られ、この 2次方程式を標準的な手順により解き、 D50値の 100(ト α)%の信頼限界のために 次の式を得る。これも一般的にフィラーの式といわれているものである。 ! , o‑g与 1:1:与三川一以九 1+戸 1‑g!v ∞ーヂ 1~ , 、 1^ VA' 1 ¥ V川 / 1 D50二 ¥ 守町 Z̲" 1^ ^ ^ H , ‑ ‑I ^" ^ I^ VA' 1 ¥ V 1 1 ' ‑ " ノ ノ ¥ . 1‑g こである。 ここで、片 =solβ 1I l、 g=z;/グ: β ! 式 9 凋川u z F h υ
強い用量反応関係があるとき、 Aは 0に対して高度に有意にとなり、また、点'l/fCは、 Zal2 より極めて大きくなる。この場合に gは、小さくなる。すなわち、より有意となるような関連の 場合、 gはより無視できるようになる。 gが式 9 でゼロである場合、 D50値の信頼限界は、 s . e仰 │ 九 ‑LρV01 +ρ20 1 日 で与えられる D50値の標準誤差の近似に基づくものと一致する。 l o g ( d o s e )が説明変数として使用されている場合、 D50値の信頼区間は、フィラーの定理を用い l o g ( D 5 0 ) = β。 / β l について信頼限界を得ることにより計算でき、次に、その値について指数をと ればよい。 2. 4 .D50の 信 頼 区 間 の 計 算 事 例 対数の D50について 95% 信頼区間は、式 9を用いるのではなく、式 8の 2次式の根を求める 。 =‑26.2115、β1=11 .5229 手順を示す。それぞれの係数は、 JMPのロジスティック回帰係数が β で 、 JMPでは標準的に分散共分散行列が出力されないことから下記プログラムに示したように SASの p r o cl o g i s t i cで計算し、得られた分散共分散行列は、 14 0 . 3 2 8 ‑ 1 7 . 6 2 31 L=I 1 ‑ 1 7 . 6 2 3 7 . 7 3 1 1 となるので、 1 . 52292 ‑1.96X7 . 7 3 1=1 0 3 . 0 8 0 1 α=β12z;/2011二 1 2 b=-(2VoJz~12 ‑ 2 I J o I J J =一(2X( 一1 7印 )X1 .96‑2X(‑26.211分 X1 1 .5229 = ‑468.681 C 2 二氏一九 zL2二 ( ‑26.2115)2‑40.328X1 .96=5 3 2 . 1 4 4 9 となる。これを 2次式の公式に代入すると 95% 信頼区間が得られる G ‑b士、I b2‑ 4 α℃ Iog(D50): t1 . 9 6 s . e .( Iog(D50))二 十 一 =(2.197 2 . 3 5 0 ) 2a D50とその信頼区間の計算公式は、ロジット法の場合のみならずプロピット法の場合もそのま ま適用できる。 JMPによる信頼区間の計算は、フィラーの公式によって計算されている。 SASデータセット d a t a d 0 1 i n p u t id o s e ny 10ιdose=log10(dose) d a t aI i n e s 11 0 11 0 0 21 3 61 0 2 31 8 31 0 5 42 4 71 0 8 53 3 31 0 9 64 5 01 01 0 4 6
p r o cl o g i s t i c d a t a二d O l m o d e ly / n= l o g ̲ d o s e/ Ii n k = l o g i ti t p r i n tc o v b r u n SAS出力(結果の一部) E s t i m a t e d Covariance M a t r i x Variable I n t e r c e p t l o g ̲ d o s e l o g ̲ d o s e I n t e r c e p t 4 0 .3 2 7 9 9 ‑ 1 7 . 6 2 3 3 ‑ 1 7 . 6 2 3 3 7 .7 3 0 6 8 7 3 . 計量値のシグモイド曲線 3 .l . Emaxモデル 受容体モデ ルの実験データから D50 の推定に モルモットから摘出した平滑筋を用いた薬物 ついて示す。この実験は、摘出した平滑筋を溶液中に懸架して、まずヒスタミン濃度が 0.01μM となるようにヒスタミンを加え、さらに濃度がJlo寸 . 1 6倍となるようにヒスタミンを加え、平 . 1 6倍の濃度に上げる、といった手順により、平滑筋の収 滑筋の収縮が止まるのを待ち、さらに 3 縮量を計測する。 表 4 ヒスタミンによる平滑筋の収縮 ヒスタミン濃度 (μM) 平滑筋収縮量 (mm) この収縮反応は、一般的にシグモイド曲線となり、要約統計量として最大反応の 50%の収縮量 以下 D50) が要約統計量として用いられている。このシ となるような薬物濃度、いわゆる EC 5 0( グモイド曲線の当てはめに非線形回帰モデ ルの一つで、ある Emaxモ デ ル 3) yz=EmGx‑xty+ι , i=1 , 2 , . . ,k xf+D507 式 1 0 S Y i :平滑筋の収縮量 Xz 収縮の作動薬ヒスタミンの濃度 Emax :.最大収縮量 D50 :最大収縮量の 1 1 2となるヒスタミンの濃度 y :ロジスティック曲線の傾き 式 1 0は分子,分母を が用いられている。 Emax J x [で割り,一部を指数化すると 1 Emαx ̲ Y ;=一 一 一 一 一r 一二 一 一 一 一 一 一 一 一 ιmαx 1+ er(In( D 5 0 ) ‑ I n (引 ) D50 . .D50r +e 1+ τ一 1+e x p( ln (=‑τ‑)) 式 1 1 ← xj xj に変形できる。 汎用的な統計ソフトにも非線形回帰モデ、ルを使うための手法も含まれてはいたが、偏微分式の 設定、初期値の設定を必要としていた。最近、汎用的な統計ソフトも進化し、 SASではパージョ . 1 2から、非線形のモデル式からパラメータについての偏微分式を自動的に行う機能が付加さ ン6 れて使い勝手が向上してきた。 JMPもパージョン 4では、偏微分を自動的に行う機能、さらに初 AHM1 I 円'
期値をスライダーなどで変化させ当てはまり具合を視覚的に確認できる機能も持っている o J MP では、さらに、解を求めるための反復計算過程も視覚的に確認できるようになり、非線形回帰モ デノレを手軽に使えるようになってきた 3 3 . 2 . シゲモイド曲線のモデル式 表 4 のデータについて X ! f U 1 を対数日盛にしてグラフを作成すると図 2のようにシグモイド状 MPを用いて式 1 0の 3つのパラメータを推定すると D50=1 . 5 9、Emax=1 7l .5 8、 の反応となる。 J および y =l.l7が得られる 3 図 2にはこれらのパラメータの推定値を式 1 0に代入して得られた 反応 yの推定値を図示しである。パラメータ Emぽ 二 1 7l .5 8は、ヒスタミンの濃度を無限大にし たときの反応である。パラメータ D50は 、 Emaxが1/ 2となるような xの値である。 yに関わら ずシグモイド曲線は xが D50のとき、 y. l 二 tEmax/2を通る。 mm E m αx.xr Y i= +e 1 5 0 ι x/+D50r 1 0 0 11 00 弓J 二寸 ︽ 。 刀九 m 5 0 Lト ぽ け ︐ m J 一 一 DAL y > ‑ 1 0 1 0 0 J . 0 1 1 0 0 0 ヒスタミン μ M x 図 2ヒスタミンによる平滑筋の収縮 3 . 3 .酵 素 反 応 に お け る シ ゲ モ イ ド 曲 線 反応が飽和する場合に M i c h a e l i s ‑ M e n t e nの酵素反応として知られている式 Vmαx・Sl Ib s l r αl e V e l o c i t y= , 式 1 2 S u b s t r αle+K M , V e l o c i t y :反応速度:目的変数 y S u b s t r a t 巴:酵素の反応で変化する基質の濃度:説明変数 x Vmぽ :最大反応速度(データから推定したいパラメータ) KM : M i c h a e l i s定数(データから推定したいパラメータ) はH i l ls l o p eといわれているパラメータ h を用いて一般化して表せる m a x・S l Ib s l r a l eh V e l o c i t y= Y . ̲ . . . . ‑ . . . ~..~~.. ~.:- h Subs l 1αl e "+Kos" ・ の h=l .Oの場合である。酵素反応の場合は、基質の濃度 xを対数ではなく実濃度で表すために直 角双曲線として表されているが、軸を対数にするとシグモイド曲線である。 この一般化した式は Emaxモデルと同じ非線形モデ.ルとなる。 Emaxモデルにおけるパラメータである D50は酵素反応の ι J 、リガンド、パインディング試験の KD と本質的には同じであり、 Vmaxや Bmaxは Emaxに一致する 3 つまり、酵素反応の場合 Vmax nMU ・ 44
ニ Emax、S u b s t r a t e= x、h= γ、KO.5=D50である。 Emaxモデルでは、直接 D50の推定、および 95%信頼区間が計算されるので、 2値データのロ ジスティック回帰のように再計算の手聞が要らないのであるが、 DIO、あるいは D90などの計算 は別途行わなければならない。この場合には、 D50を推定するのではなく、直接 DIOを推定する ようにモデル式を変更する a 反応が最大値の 10%となる濃度の推定値は、 。 I n ( O . I / 0 . 9 )= β +β1 ・I n ( D I O ) なので、 ‑2.197‑β ハ βru I n ( D I O )= となり、切片 β。に求めたい反応のパーセント点の l o g i t ( p )を加えることにより得られる DIO、あるいは D90などの推定は、 Emaxモデルを次のように変形すればよい。 I n ( D I O )= 2197‑β _._-~ 2.197βA ハ , ‑υ 二 一 一 一 こ と β 1 β l β I であるので、 βI=Y、 I n ( D 5 0 )=‑β。/βlを代入し、 2.197 I n ( D 5 0 )=In(DIO)+一 一 一 Y と式を変形して、式 1 1に代入すると、 Emα' x YI=l+tY(ln(DlOH21971y l n ( x t ) )二 Em αx 1+e(ln(DIO)‑ln(x,)ド ユ1 9 7 , が得られる a 同様な手順により D90は 、 Emαx , Yi 二 1+e( l n ( D 9 0 ) ‑ l n ( x , )ト2 . 1 9 7 となる 3 下に Emaxモデルの S ASプログラムと解析結果を示した。 SASデータセット d a t ad 0 1 i n p u t xI nxy d a t a1i n e s 0 . 0 1 ‑ 2 . 0 0 1 0 . 0 3 1 6 ‑ 1 . 5 0 3 0 . 1 ‑ 1 .0 0 5 0 . 3 1 6 ‑ 0 . 5 0 2 3 1 0 . 0 0 6 6 3 . 1 6 0 . 5 0 1 1 3 1 .0 0 1 5 8 1 0 31 .6 1 .5 0 1 7 1 1 0 0 2 . 0 0 1 7 1 3 1 6 2 . 5 0 1 6 5 T i t1e'くくく l o g i s t i c, D 5 0> > > ' p r o cn l i n d a t a二 d 0 1 1i s tm e t h o d = g a u s s ; ニ1 7 0g a m m aニ1 D 5 0 =5 ; p a r m sE m a x m a x/ ( 1+e x p( g a m m a * ( l o g( D 5 0 ) ‑[ o g ( x ) ) ) ) m o d e l y =E r u n 3 d 凋・ ω 叫 ハ
唱 ) ) qL n ヨ ︐ ﹃ ‑ + ) n v σ b ) (VA ‑ ) nU ハ u σb ︑ 川 nu ( 川U 9 u 一 一 一 一 会 u rl sc u・ * lm a gbm 唱 Ia Junugb l r︑ l ︒唱 ehunUD ︐ . ﹀t x ・ ¥ ノe e ¥ ノm l 二+ ot a Sm ‑‑ マ ﹄ ︑ n ulmf 11a ' g b︐ / ' G 唱l +LAUマ iEnunUX ﹁ U9U9U s== 1 ヒ l Fm Ea tx ノ︿︑ ノ¥ lハd m 一 一 Euy ‑‑TllavI +LD nupbaE1 /¥: l m e ︐ n u nuqdnu e p m Ilc TlD ・ lr r u n o g i s t i c, D 9 0> > > ' T i tI e'くくく l p r o c nI i n d a t a = d 0 1I i s tm e t h o dニg a u s s ; 9 0 =1 0; p a r m sE m a x = 1 7 0g a m m a二 1 D x p ( g a m m a * ( l o g ( D 9 0 ) ‑l o g ( x ) )ー 2 .1 9 7) ) m o d e l y=E m a x/ ( 1+ e r u n SAS出力〔鎧果の一部} く く く l o g i s t i c, D 5 0> > > P a r a m e t e r E m a x g a m m a D 5 0 く く く A p p r o x S t dE r r o r 2 . 6 8 1 4 0 . 0 8 2 1 0 . 1 1 3 2 A p p r o x i m a t e9 5首 C o n f i d e n c eL i m i t s 1 7 7 .9 1 6 5 . 2 O .9 7 3 5 1 . 3 6 2 0 1 . 8 5 5 0 1 .3 1 9 7 E s t i m a t e 1 71 .6 1 .1 6 7 8 0 . 2 4 1 9 A p p r o x S t dE r r o r 2 . 6 8 1 4 0 . 0 8 2 1 0 . 0 3 1 7 A p p r o x i m a t e9 5 首C o n f i d e n c eL i m i t s 1 6 5 . 2 1 7 7 .9 O .9 7 3 5 1 . 3 6 2 0 0 . 1 6 6 9 0 . 3 1 6 9 l o g i s t i c, D 1 0> > > P a r a m e t e r E m a x g a m m a D 1 0 く く く E s t i m a t e 1 71 .6 1 .1 6 7 8 1 . 5 8 7 4 l o g i s t i c, D 9 0> > > P a r a m e t e r E m a x g a m m a D 9 0 A p p r o x p p r o x i m a t e9 5首 C o n f i d e n c eL i m i t s E s t i m a t e S t dE r r o r A 1 6 5 . 2 1 7 7 .9 1 71 .6 2 . 6 8 1 4 O .9 7 3 5 1 . 3 6 2 0 1 .1 6 7 8 0 . 0 8 2 1 1 4 . 5 3 9 0 1 .7 4 3 2 6 . 2 9 5 1 1 0 . 4 1 7 1 4 . まとめ 2値データに対するロジスティック回帰モデルは、プロピット法のプロピット変換をロジット 変換としたモデ、ルで、あることから、同様の結果を得ることを示した。特定の反応率のロジットか らロジスティック回帰の式を変形することにより、その反応率を示す用量を推定でき、フィラー 信頼区間が求められることを示した。計量値に対しては Emaxモデルによる の式によりその 95% 非掠形回帰により、推定したいパラメータとして D50が得られるとともに、 95% 信頼区間も直接 推定できた。 Emaxモデルを 2値のロジスティック回帰モデ、ルと同様の考え方でモデル式を変形 すると、 D10あるいは D90なども同様に直接求めることができた。 参考文献 1 )吉村功編著:毒性・薬効データの統計解析一事例研究によるアプローチ ,サイエンテイスト社 ( 1 9 8 7 ) 2 ) D .C o l l e t t : ModelingBinaryData,ChapmanandHall/CRC(1991) 3 ) G a b r i e l s s o nJ,WeinerD .:P h a r m a c o k i n e t i candpharmacodynamicd a t aa n a l y s i s :C o n c e p t sand A p p l i c a t i o n s,2nde d .,SwedishP h a r m a c e u t i c a lP r e s s,S t o c k h o l m( 1 9 9 7 ) Fhd nU
日本 SASユ ー ザ ー 会 (SUG1‑0) 陰性および陽性対照があるシグモイド曲線 ーダミー変数を持つ非線型回帰モデルの応用ー 0山田雅之*,吉田光宏料,高橋行雄料* *キッセイ薬品工業株式会社開発企画部,神グラクソ・スミスクライン株式会社, ***中外製薬株式会社臨床解析部 SigmoidCurvew i t hNegativeandP o s i t i v eC o n t r o l ‑A p p l i c a t i o no fN o n l i n e a rR e g r e s s i o nModelt h a thaveDummyV a r i a b l e s‑ OMasayukiYamada*, M i t s u h i r oYoshida料 , YukioTakahashi*料 *K i s s e iPharmaceuticalC o .,L t d .,**GlaxoSmithKlineK . K ., ***ChugaiPharmaceuticalCo.,L t d . 要己 日用量反応関係を検討する薬効薬理試験において,検討したい化合物を複数用量設定し処置 するほかに,陰性対照物質および陽性対照物質を処置する実験系がしばしば見られる.このような実験 系では,陰性対照物質および陽性対照物質の複数のサンプルから得られたデータを平均化したものを, それぞ、れ最小または最大反応とみなして,各用量の反応を率として, 50%有効用量 (ED50)を求める解 析がよく行われている.しかし,この方法では陰性および陽性対照物質の反応の誤差の考慮や,反応が 0%~100% の範囲外となる場合の取扱いに苦慮する点がある.そこで,非線型回帰モデルにダミー変数 を用いることで ,ED50を直接推定する方法を検討した.この方法では ,ED50のみならずそれ以外の推 定値も直接推定することが可能で、あった. キーワード:シグモイド曲線 ,ED50,陰性対照,陽性対照, SAS/NLIN,JMP 1 . 目的 薬理学的活性あるいは毒性用量の評価において,用量反応関係をモデル化し,ある反応となるような 化学物質の濃度(用量)を求めるための方法として生物検定法が用し、られる.生物検定法の代表的な方 法としては,プロビット法による 50%致死量の推定 1)や Emaxモデル 2)が知られている. 上記の実験系では,評価をしたい化学物質を複数用量設定して,用量反応関係を求めるが,最小反 応や最大反応を設定するために,陰性対照物質や陽性対照物質を投与して,これらを反応の下限や上 限とする場合がある.これらの対照物質は評価したい化合物と同様の取扱いが出来ないため,対照物質 の反応の平均値を 0%または 100%の反応として,それに対する評価したい物質の反応を反応率として示 すことで, 2値データの用量反応関係から,ある反応となるような化学物質の濃度(用量)を求める方法が しばしば用いられている. この方法を用いた場合,陰性または陽性対照物質の反応においてもバラツキが生じるにもかかわらず、 それらを考慮しない点や,評価したい物質の反応が陰性または陽性対照物質の反応を超えるような場合 に,反応の範囲が 0%から 100%の範囲に収まらないなど,取扱いに苦慮する点がある. 51‑
非線形回帰は,プロシジャの中で,偏微分式の入力を必要とするなど,使い方が線形回帰に比べて難 r o cNL 町が生成するようになり,使いやすくなってきた.ま しかったが,最近では,自動的に偏微分式を p た , JMPの非線形回帰では,収束過程がディスプレイされ,解を求めやすくなり,回帰分析と同様に気楽 に使えるようになってきた. 以上より,上記のような実験系の解析に対して,陽性対照、,陰性対照などを含むダミー変数を用いた非 線形回帰モデルを用いることの有用性について検討した. 2 . 非線形回帰モデル 3, 4 ) 2 . 1 . 計量値と 2値のロジスティック回帰モデルの関連 計量値の反応にシグモイド曲線を当てはめるための関数として,ロジスティック関数, y = E mぽ ( 1) 1+e x p ( y( ln(ED50)‑ l n ( x ) ) ) を用いる 2) ここで ,yは口、ジスティック曲線の傾きをあらわすパラメータ ,ED50は反応が 50%の時の用量 xとなるパラメータ ,Em αxは最大反応を表すパラメータである. 式(1)を変形すると Emαx ( 2 ) y l+EXP(Y(ln(ED50)一l n ( x ) ) ) 1+e x p (一( ‑ yl n ( E D 5 0 )+yl n ( x ) ) ) 。 となり, ‑yl n(ED50)=β0' y=β Iとおきかえ,さらに η=β + β ;l n ( x )とすると, y = l E m = ‑ L E m似 1+e x p ( ‑ ( β + β ' ]l n ( x ) ) ) 1+e-~ 。 ( 3 ) が得られる.計量値の口、ジスティック関数は,反応率を pとしたときに 2値反応のロジスティック回帰, p= l =‑土ー (4) 1+e x p ( 一( β。 +β] l n ( x ) ) ) 1+e-~ と対応付けられる.ただし ,pは 0から lの範囲であるが ,yは 0から Em ほの範圃でシグモイド曲線を描く. 式( 2 )で,y=β'1' l n ( E D 5 0 )=β2とおき,式 ( 4 )の 2値のシグモイド曲線の形式にあわせると, y= Emぽ ( 5 ) 1+e x p ( ‑ β ]( ‑ β 2+l n ( x ) ) ) が得られる.以下,式 ( 5 )を拡張して用いることにする. 2 . 2 . 陰性対照,および陽性対照がある場合の非線型回帰モデル 反応 y が計量値で,薬物濃度あるいは薬物量の I n ( x ) に対してシグモイド曲線となる実験系で,薬物 量が 0の場合に,これは,溶媒対照,コントロール群,あるいは,陰性対照などと呼ばれるが,薬物濃度 0 の対数はマイナス無限大となり,このままでは,シグモイド曲線を当てはめるために,このデータを用いるこ とができない. 3'さらに投与量を無限大まで、増やしていった場合に得ら そこで,陰性対照のデータから推定される s p h υ ワ 白
れる反応を陽性対照のデータから推定される Aとして,それらを同時に推定するために,以下の 3つの
式を同時に推定する非線型回帰モデルが必要となる.以下の式は,陰性対照に対して,陽性対照が大き
い反応性を示す場合の例である.
β4‑β3
+E ,i=1ム
.
.
.
ス
] (
6
)
1+exp(‑β](β2+
l
n
(
x
)
)
)
薬物濃度群: Y;‑β3+
陰性対照 :
Y
;=β3+e
j ,j=1
ユ…ス2 (
7
)
陽性対照
Yk
=β4+ek,k=I , 2・…,~ (
8
)
これら 3つの回帰式の誤差は,すべて平均 0,分散 σ2と共通であるとする.
これら 3つの回帰式を同時に推定するためにダミー変数を用いる方法は,大森ら 5)により報告されてい
るが,陰性および陽性対照の有無や反応のパターンにより,複数の式が示されているため,更にダミー変
数を追加することで,陰性および陽性対照の有無や反応パターンによらず,共通に利用可能な式を設定
した.
I
β
4‑ I
r
s
3
, 0
J
, 0
J 1
イ
+β3・d.+β .
dト
.d2+β4・d3+e
,(
9
)
3W] , 1
1+exp(‑β]一
(β2+
l
n
(
x
)
)
)'1‑'3 ~4 'n ~55j
i= 1
,
2
,
・,
.
.(
n
]+n2+n3)
7
凶]
I
陰性対照
Iその他
。
d
. ~陰性対照<陽性対照
4
d, ~陰性対照>陽性対照
5 I
その他
1
Iその他
0
2
.
3
. ED50以外の推定
ロジスティック回帰の場合 ,ED50は p
=
0
.
5となり,以下の式で表される.
(0
.
5 )
l
o
g
i
t
(
0
.
5
)=l
n
l一 一 一 1
=
β +β]ln(ED50)=0
¥1‑0
.
5}
。
印刷=す
(
1
0
)
EDJOの場合,上記の式を変形すると,以下のように表される.
(0
.
1 )
。
+β]ln(EDJO)=‑
2
.
1
9
7
logit(O.I) ニ lnl-~.-. 1
=
β
¥1‑0
.
1
)
ln(mlO)=」
。
。
so+2.197
,/
T
"
"
"
"
'
'
'
'
'
' 2.197
77
一=一 l
n
(印 50)‑77
2
.
1
9
7
l
n
(印 刷 =ln(EDlO)‑77(11)
1
0
巳リ
つd
EDIOを直接推定するためには, ( 5 )式の β 2(ED50)の代わりに( 1 1 )を代入すればよい. 1+exp(‑β1(‑ln(EDI0)+l n ( x ) )+2 . 1 9 7 ) { 呂 一 量一 重一 ト a? ‑ 川リ4 νn‑ 子一ー・ 司 ︽ 円 ﹃司 ‑‑ub o 一 唱 一/ d ι ι 一投 円 日 レ J ニ‑ 4 1 1 ‑ F h u F h u F h u n u n u F h u n u n u n u 一月凡 レ ‑nu‑nvtl l L vtlnunvnu‑E 司n ノ一・ ‑ 一 μ ホ一 一1 一11111 3 境一一一 0・ 環 ‑ e 522227557‑M 円 a斗a斗 円 1 i ‑ ーーズJQUQdRU L 44l‑nu ‑ ‑ z ‑ n u ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ E ‑ e 完L n U F h U 4 l n u d n oL n u d n u d ‑ ‑ j L11つ LτlnuQUQunヨ一1 重 Ei‑‑nuつ HV寸 一ヨ1 ︑ 一 141414l 一一与 ‑ ー 一 E 一!な一 1 1 1 1 1 1 1 ン一一一 一 1H‑Ju‑‑n3414l 4414lnv 一 ︑ ノ ‑u ‑ a ‑‑ ‑11 つ乙つ乙つL L111111﹃ 一サー q ιっ d ‑ r ‑ よ a ‑ ト ヒ ‑‑71 甘‑ 57l2 7 2 5 8 6 8 8 7 Lnu ・ qV‑1‑一 ﹃ 且 ﹃q お‑ e ‑ ‑ q L A・ ‑ フ ・ t‑ E n u‑ ‑ ・ ・ ・ 司d 1 ‑f 1 ・ ノノ A ア l ‑ ぢL3411523・ 9 3 ‑ . ‑ u﹄ ? │ つ LA dnu‑‑1lQu‑ 下 一土 M戸 市 川 一 一1 1 1 1 1 1 1 匂一市一3一 5 5 0 5 0 5 0 0 0一グ コパスU穴U1︐円正門Ln64lnUQdnu‑‑ 一 ヂ 担一川一いい一引制引広仁 一定 )一州一(一0.13U11134一推 gzus ッ ‑t1・ 827287757‑ 7 3 0 5 6 5 6 9 1 ラ一μ ‑ 一 一 欠 ‑4Rud‑‑U I R u ‑ 寸 I 寸 I 寸 I 寸 A﹃ uね同一乙 後一日一一引お辺引おお m 日 与一日一Lili‑‑1111一 3 1 0 3 7 3 .7 2 3 8 2 3 8 4 .7 24 0 4 .3 2 3 7 8 .3 73 5 4 .3 7 3 8 7 . 4 33 9 1 . 6 7 2 6 2 .2 2 7 3 .7 3 3 5 3 .8 23 6 2 .0 5 3 0 7 . 6 3 1 2 . 4 6 6 .2 3 3 4 . 4 8 3 2 3 4 . 1 73 3 2 .6 7 0 . 一 1 2 3 7 8 9川 U N‑ E E E ' 内 内 88 可 内 内 内 LK HP ・r ‑a O ・ 司 画面mg 寸 ﹄ 一 令 ︒ ア eel‑ 一 ・eea 一 a '︑ 11U 0888 一 一 一 日4 U U d1 1U ・ li li‑‑‑F o n o a E ︒ ︒ ︒ 哩 ︒ ︒ ︒ n o n M M M n x u 内 (国)咽制仰仲 内 内 I l ‑ ‑ i﹂││﹁ーー一一Il‑‑ 一 ー ﹁ JI ﹄ U n u u uz na u U UEO U U UEO un nu uE3 E O 4433224aT 内 。 。 。 。 。 自 。 ( 1 2 ) Emax y= 同様に ,ED90の場合は,以下のように表される. Emax ( 1 3 ) y= 1+exp(一β1(‑ln(ED90)+l n ( x ) )‑2 . 1 9 7 ) 3 . 解析例 上記の非線形回帰モデ、ルを用いて,以下の 2つの事例について解析を行った. 事例 1:環境ホルモン EE( e t h i n y le s t r a d i ol)投与後のラット子宮重量 6) 表 1および図 lに,解析に用いたデータを示した. 図 1環境ホルモン EE( e t h i n y le s t r a d i ol)投与後のラット子宮重量 ! k gに表示した. グラフ表示のため, V e h i c l eは 0 . 0 0 1 μg この実験系では,陽性対照がないが,反応は右肩上がりのシグモイド曲線であることから,ダミー変数 d4 は , 1 dsは 0 となり,解析に用いるデータセットは,DATASETlに示される形式となる.なお,陰性対 A斗‑ RU
照の投与量は,欠測値のままだと SASの p r o cNLINでは推定するデータとして使用されないため,他の 投与量と識別できる数値(今回は 0 . 0 0 1 )を入力した. DATASETl 。。 。。 。 。 。 。 。 。 。 。 u t e r u s d 1 1 0 0 1 0 2 . 3 5 d o s e 0 . 0 0 1 0 . 0 0 1 0 . 0 1 0 . 0 1 9 5 1 1 5 1 0 1 0 3 6 6 . 2 3 3 2 .6 7 d 2 d 3 d 4 d 5 。 。 。 。 。 薬物群 このデータセットを用いて,非線形回帰モデルの式 ( 9 )を , SASの p r o cNL 別でプログラミングした結 果を, PROG 孔 仙1 1に示す.なお,パラメータの初期値は, β lおよび β2には lを , β 3には陰性対照の平 均値の 1 0 2を,s 4(こは最高投与量(10μglkg)群の平均値の 353を用いた. PROGRAM1くくED50の直接推定>> p r o cn li nd a t a = d a t a s e t 1m e t h o d = g a u s s : p a r m sb e t a 1 = 1b e t a 2 = 1b e t a 3 = 1 0 2b e t a 4 ニ3 5 3 : m o d e lu t e r u s=b e t a 3吋 1 + ( ( a b s ( b e t a 4 ‑ b e t a 3 ) / ( 1 + e x p ( ‑ b e t a 1 * ( 一l o g ( b e t a 2 ) + l o g ( d o s e ) ) ) ) ) + + b e t a 4吋 3 : b e t a 3 * d 4 + b e t a 4 * d 5 )吋 2 r u n . OUTPUT1に , SAS8 . 2で実行したパラメータの推定結果を示す .βlは傾きの推定値, β 2は ED50の 推定値, β 3は陰性対照、の推定値, β 4は陽性対照の推定値が得られ,各々の 95%信頼区間も同時に求 められている.推定されたシグモイド曲線を重ね書きした結果を図 2に示す. OUTPUT1くくED50の直接推定>> S o u r c巴 R e g r e s s i o n R e s i d u a l U n c o r r e c t e dT o t a l C o r r e c t e dT o t a l P a r a m e t e r b e t a 1 b e t a 2 b e t a 3 b e t a 4 D F 4 6 8 7 2 7 1 S u mo f S q u a r e s 3 7 1 1 5 2 5 9 3 7 9 6 .7 3 8 0 5 3 2 2 8 7 8 9 4 1 E s t i m a t e 1 .7 2 1 2 0 . 4 1 5 0 1 0 1 . 5 3 4 8 .7 M e a n S q u a r巴 9 2 7 8 8 1 1 3 7 9 . 4 A p p r o x S t dE r r o r 0 . 3 3 9 2 O .0 5 6 0 7 . 2 7 1 1 1 0 .7 2 4 7 FV a l u e 1 8 9 . 7 4 A p p r o x P r >F く0 0 0 1 A p p r o x i m a t e9 5目 C o n f i d e n c eL i m i t s 2 . 3 9 8 1 1 . 0 4 4 3 O .3 0 3 3 O .5 2 6 6 1 1 6 . 0 8 7 . 0 1 5 9 3 7 0 .1 3 2 7 . 3 phu phu
明お 日 。 常2町 。 T 叩0 叶 0 「 。 8 . 0 1・02 onoa目 nenMMMnxu 3 50‑ ~3叫 ︒ ︒ ︒ ︒ ︒ 判 45 40ト 。 。 。 。 。 . 0 5 . 1 ・ J . 61 D o s e ( μ g/k g ) 図 2環境ホルモン EE( e t h i n y le s t r a d i ol)投与後のラット子宮 重量に対するシグモイド曲線 また, PROGRAM1の Model式を PROGRAM2のように書き換えることで ,EDIOおよび ED90の直接 推定も可能となる. PROGRAM2くくEDIOおよび ED90の直接推定>> *ED10; t巴r u s=b e t a 3吋 1 +( ( a b s( b巴t a 4 ‑ b e t a 3 )/( 1+巴 x p(‑betahー (l o g ( b e t a 2 ) + l o g ( d o s巴)) m o d巴Iu +I o g( 0 .1 /( 1 ‑ 0 .1)))))+ b e t a 3吋 4 + b巴t a 4吋 5 )吋 2 + b巴t a 4吋 3 ; *ED90; m o d巴Iu t e r u sニ b 巴t a 3吋 1 +( ( a b s( b e t a 4 ‑ b巴t a 3 )/( 1+ e x p( ‑ b巴tah( 一l o g ( b巴t a 2 ) + l o g ( d o s巴)) +I o g( 0 .9 /( 1 ‑ 0 .9 )) ) ) ) + b巴t a 3吋 4 + b巴t a 4吋 5 )吋 2 + b巴t a 4吋 3 ; OUTPUT2にパラメータの推定結果を示す. OUTPUT2く くEDIOおよび ED90の直接推定>> *ED10; P a r a m巴t巴「 b巴t a 1 b e t a 2 a 3 b巴t b e t a 4 E s t i m a t巴 1 .7 2 1 2 O .1 1 5 8 .5 1 01 3 4 8 .7 A p p r o x S t dE r r o r 0 . 3 3 9 2 O .0 2 9 6 7 . 2 7 1 1 1 0 .7 2 4 6 A p p r o x i m a t巴 9 5目 C o n f i d e n c巴 L i m i t s 1 . 0 4 4 3 2 . 3 9 8 1 O .0 5 6 8 O .1 7 4 8 8 7 . 0 1 6 0 1 1 6 . 0 3 2 7 . 3 3 7 0 . 1 E s t i m a t e 1 .7 2 1 2 1 . 4 8 7 1 .5 1 01 3 4 8 .7 A p p r o x S t dE r r o r 0 . 3 3 9 2 0 . 4 6 4 7 7 . 2 7 1 1 1 0 . 7 2 4 5 A p p r o x i m a t e9 5百 C o n f i d e n c eL i m i t s 1 . 0 4 4 3 2 . 3 9 8 1 0 . 5 5 9 7 2 . 4 1 4 5 8 7 . 0 1 6 2 1 1 6 . 0 3 2 7 . 3 3 7 0 . 1 *ED90; P a r a m e t e r b e t a 1 b巴t a 2 a 3 b巴t b e t a 4 ハ h u RU
非線形回帰モデ、ルの当てはめは, JMPを用いても同様に実施可能である. JMPの場合には, DATASETlに新たに列を追加し, ( 9 )の Model式を計算式として設定し,併せてパ 1¥伊用いる DATASET ラメータの初期値を設定する必要がある.設定した計算式を図 3に示す.なお, J では,陰性対照、の投与量は欠損U 値とする. 図 3JMPにおける計算式(非線形回帰モデ、ル :ED50の場合) 非線形回帰を行うには, JMP 5 . 0 . l aの場合,分析モデル化 非線型回帰を選択し, Y,応答変数に t e r u s )を , X,予測式列に計算式を設定した列(今回は u t e r u sd 5 0 )を指定して,アクショ 実測値(今回は u ン OKを押すと図 4に示される「非線形回帰の当てはめ」メニューが表示されるので,実行を押すと収 束する場合は,推定値が求められる. め= F 寸 I l )i z ' : I~ !4=‑ 川 M =副山一ツ ヨ甲=ノ一月 J E豆E =ゐロ j﹄o ぁ=澗 の=ぃ ︐ 白 雪t ︐ VE= E‑J 一 E=ネ一円 ' ' a = . a 一=疋一一同 ﹄一[ jm 非口設一宮 一三科 ' 「蚕石‑ 1 U空 . t l :j 。 現在 基準 辰復 短縞 D 目的関数変化 パラメ‑5'変化 勾配 1.3407810154 1.3407810154 1.340781.154 1 乞 F C I V SN パラメタ 硯 在f 直ロック b et . 1 I 1 1 口 b et . 2 I 1 1 口 │ 1 0 2 │口 b et a 4 I 3 5 3 │口 口 図 4JMPの「非線形回帰の当てはめ」の画面 r o cNL凹で実施した結果と推定値はほぼ一致したが,両 図 5に求められた推定値を示す .SASの p 側 95%信頼区聞は SASと九1Pで、若干異なった.この原因は, JMPにおける信頼区間の算出はプロファ r o cNL別の信頼区間 li"Waldb a s e df o r m u l a "のためで、ある. イル尤度を用いており, SASの p i け ﹁ 内U
マi 醇 SSE 9 3 7 9 6 . 7 3 3 0 0 8 パラメータ b e t . l b e t a 2 b e t a 3 b e t a 4 DFE MSE RMSE 6 8 1 3 7 9 . 3 6 3 7 3 7 . 1 3 9 7 8 6 推定値ìE似標準~~差下情j 信頼限界上伺i 信頼限界 1 . 7 2 1 2 0 9 5 5 3 1 0 . 41 49558209 口1 . 5 2 5 4 0 1 8 5 1 3 4 8 . 7 1 1 5 6 2 2 7 0 . 3 3 9 1 5 1 5 1 0 . 0 5 5 9 7 2 0 2 7 . 2 7 1 4 2 5 8 2 1 0 . 7 2 5 4 0 0 9 1 1 .7 3 8 7 1 0 . 3 1918854 8 6 . 6 7 4 4 5 1 5 .7 4346 3 2 81 2 . 7 9 8 2口5 3 2 0 . 5 5 6 9口5 0 5 1 1 5. 49 179 3 7 3 . 5 3 1 5 4 9 図 5JMPでの非線形回帰の結果 (ED50) なお,乃1pにおいても計算式を PROGRAM2のように変更するだけで ,EDIOや ED90の推定も可能 となる. 事例 2:NR法による細胞毒性試験 5) 表 2に解析に用いたデータを示した. 表 2NR法による細胞毒性験データ 陰性 0 . 0 2 0 . 0 4 0 . 0 5 0 . 0 6 0 . 0 7 0 . 0 8 0 . 1 0 . 1 2 40 6 0. 0 . 3 9 6 0 . 3 1 8 0 . 1 0 . 1 2 1 0 . 0 8 6 0 . 1 3 1 0 . 0 6 7 0 . 0 4 7 2 0. 379 0 . 3 1 8 0 . 1 2 0 . 1 6 4 0 . 0 8 6 0 . 1 1 9 0 . 0 6 9 0 . 0 4 4 0 . 0 0 5 3 41 7 0. 0 . 0 2 8 検体 0. 426 0 . 2 4 0 . 2 3 0 . 1 6 7 0 . 0 7 9 0 . 1 1 3 0 . 0 8 3 4 0 . 3 7 6 0 . 2 4 8 0 . 1 8 5 0 . 1 4 2 0 . 1 9 8 0 . 1 8 0 . 0 7 4 0 . 0 2 9 5 0 . 2 5 9 0 . 1 9 7 0 . 1 3 1 0 . 1 0 5 0 . 1 4 8 0 . 0 7 2 0 . 0 4 4 0 . 0 2 9 6 42 8 0. 0 . 2 5 7 0 . 2 0 9 0. 25 1 0 . 2 5 3 0 . 1 7 6 0 . 1 1 1 0 . 0 3 4 0 . 1 0 . 1 4 1 0 . 1 4 9 0 . 0 5 3 0 . 1 9 0 . 1 0 7 0 . 0 9 4 0 . 0 2 7 7 0. 42 6 0 . 2 5 5 0 . 1 7 4 0 . 2 5 1 8 0 . 2 8 2 0 . 2 0 . 2 6 9 0 . 1 5 8 9 499 0. 0 . 3 3 9 0 . 2 9 2 0 . 1 9 8 0 . 1 1 6 0 . 0 4 5 1 0 0 . 5 8 6 47 3 0. 0 . 2 3 4 0 . 1 7 5 0 . 1 4 8 0 . 0 3 4 1 1 0 . 2 9 8 0 . 2 5 6 0 . 1 8 6 0 . 0 6 9 0 . 0 4 2 0 . 0 0 4 。 。 。 。 。 。 プランク このデータでは,投与量を増加させていったときの反応の延長にブランクの値があるため,ブ ランクを陽性対照と見なして解析を行った. この実験系では,反応は右肩下がりのシグモイド曲線であることから,ダミー変数 d4は 0,d5は!とな る.事例 2についても,事例 lと同様の形式で DATASETを作成し,解析を行った. OUTPUT3に , SAS8 . 2で実行した ED50,EDI0および ED90のパラメータの推定結果を示す.また, 推定されたシグモイド曲線を重ね書きした結果を図 6に示す. 58‑
OUTPUT3く くED50,EDIOおよび ED90の直接推定>> S o u r c巴 D F S q u a r巴s S q u a r巴 R 巴g r巴s s i o n 4 4 . 3 8 5 3 1 . 0 9 6 3 R 巴s i d u aI 9 3 O .3 6 1 2 0 . 0 0 3 8 8 t e dT o t a l 9 7 4 . 7 4 6 4 U n c o r r巴c t e dT o t aI 9 6 1 .7 1 4 9 C o r r巴c FV a l u e 1 1 6 . 2 0 P r >F く. 0 0 0 1 *ED50 P a r a m e t巴「 b e t a 1 b 巴t a 2 b 巴t a 3 b e t a 4 E s t i m a t e ‑ 2 . 1 9 3 2 0 . 0 5 1 9 . o4280 ‑ 0 . 0 0 4 1 9 A p p r o x S t dE r r口「 . o3679 0 . 0 0 4 7 0 0 . 0 2 7 7 0 . 0 2 3 3 A p p r o x i m a t e9 5目 C o n f i d e n c巴 L i m i t s ‑ 2 .9 2 3 7 一1 . 4 6 2 6 0 . 0 6 1 3 0 . 0 4 2 6 0 . 3 7 3 0 . o4830 ‑ 0 .0 5 0 4 . o0420 E s t i m a t e ‑ 2 . 1 9 3 2 0 . 1 4 1 4 . o4280 ‑ 0 . 0 0 4 1 9 A p p r o x S t dE r r口「 . o3679 . o0244 0 . 0 2 7 7 . o0233 A p p r o x i m a t e9 5唱 C o n f i d e n c eL i m i t s ‑ 2 .9 2 3 7 一1 . 4 6 2 6 . o1899 . o0929 . o3730 0 . 4 8 3 0 ‑ 0 . 0 5 0 4 . o0420 E s t i m a t e ‑ 2 .1 9 3 2 0 . 0 1 9 1 O .4 2 8 0 0 . 0 0 4 1 9 A p p r o x 口 「 S t dE rr . o3679 O .0 0 3 9 6 O .0 2 7 7 0 . 0 2 3 3 A p p r o x i m a t e9 5目 C o n f i d e n c eL i m i t s ‑ 2 .9 2 3 8 ‑ 1 .4 6 2 6 0 . 0 2 6 9 0 . 0 1 1 2 0 . 4 8 3 0 0 . 3 7 3 0 ‑ 0 . 0 5 0 4 O .0 4 2 0 *ED10 P a r a m e t巴「 b e t a 1 b e t a 2 b 巴t a 3 b e t a 4 *ED90 P a r a m e t巴「 巴t a 1 b 巴t a 2 b 巴t a 3 b b e t a 4 0 . 7 ‑ ' o .ト 。 0 . 4 5 ベ ‑ 制• o . 嘱 0 . 3 ‑ 2 1 醤 0・ 1 0 . 1 0 " " : ー0 . 1 ‑ 一 一 一 一 一 , 0 0 4. 0 1. 0 2 . 0 5 . 1 . 0 0 1 . Dose 一 一 守 一 一 ー ‑ ‑ ‑ → 一 戸 ‑ ‑ ‑ , . 3 . 61 2 図 6 陰性対照とブランクの吸光度を考慮したシグモイド曲線 グラフ表示のため,陰性対照は 0 . 0 0 3,ブランクは 1 . 0 0 0 に表示した. n u d 巳d
4 . まとめ 用量反応関係を検討する薬効薬理試験において,用量反応関係がシグモイド曲線として表された場 合に,ロジスティック曲線を当てはめ ,ED50のような曲線の形状を示せる値を推定することは,得られた 用量反応関係を簡潔に示す上で,有用な方法である.しかし,ロジスティック曲線を当てはめるにあたって, 非線形回帰分析を適切に行うためには,妥当な回帰式の選択,収束を可能とする適切な初期値の設定, 推定したいパラメータで回帰式を偏微分した式の設定などを行う必要があり,あまり一般的に用いられて いないのが現状でらあった. 近年の S ASや品。のバージョンアップにより,これらの問題をより簡単にクリアできるだけの周辺環境 が整ってきつつあり,本報告で示したようにダミー変数を利用して非線形回帰分析を行う方法についても 検討することが可能となった. ダミー変数を用いた非線形回帰分析を用いることで,本報告のように複数のモデ、ル式を同時に推定す ることが可能となる.このため,用量反応関係を検討する実験系において見られる,陰性対照物質および 陽性対照物質の複数のサンプルから得られたデータを平均化したものを,それぞ、れ最小または最大反応 とみなして,各用量の反応を率として ED50を求める解析において取扱いに苦慮していた,陰性および陽 性対照物質の反応の誤差や,反応率が O%~lOO% の範囲外となる場合に対しても,これらを考慮した解 析が可能で、あった.また, Model式を変形することにより ,ED50のみならず,その他の推定値を直接推定 することも可能で、あった. これらのことから,ダミー変数を用いた非線形回帰分析は,用量反応関係を表すシグモイド曲線の当て はめを行う場合に,有用な方法であると考えられた. さらに,ダミー変数を拡張することで, 1薬剤の用量反応曲線を推定するに留まらず,複数の薬剤の用 量反応曲線を同時に推定することや,その効力比の推定にも応用が可能と考えられた. ASと 乃1 Pを用いて,非線形回帰分析を行ったが,使用面においてソフトウェア なお,本報告では, S の特徴が現れた. SASは,強力なプログラミング言語を有することから,複数の MODEL式の結果を簡便に得ることが可 能であり,非線形回帰分析を繰り返し解くような場合においては,効率よく活用することが可能と考えられ た.一方爪1 Pは,プログラミング言語を有するソフトウェアを使い慣れていない人においても, Templateフ ァイルを準備することによって, GUIベースで非線形回帰分析を行うことが可能であると考えられた. 文献 1.吉村功編著 ( 1 9 8 7 ).毒性・薬効データの統計解析一事例研究によるアプローチー,サイエンテイスト. 2 .佐久間昭 (1981).薬効評価I!,東京大学出版会. 3 .D r a p e r , N. , R andSmith, H .( 1 9 9 8 ) .A p p l i e dReg 丁目 s i o nAna l y s i s, 3cde d ., 1 0 h nWiley& Sons 4 .B a t e s, D.M., 釦 dWans, D . G .( 1 9 8 8 ) .N o n l i n e a rR e g r e s s i o nAna l y s i s釦dI tsA p p l i c a t i o n s .1 0 h nWiley& S o n s 1 9 9 8 ) .細胞毒性試験の EDSO推 定 法 原 理 , SASプログ ラム,使い方一,サイエンティスト. 5 大森崇,加藤麻矢子 ( 6 . K釦0,1 .,Onyon, , . L Hぉ eman,1 .,e ta . l( 2 0 0 1 ) . The OECDprogram 1 0v a l i d a t et h er a tu t e r o t r o p h i cb i oお s a yt os c r e e n nv i v oe s t r o g e n i cr e s p o n s e s :p h a s e1 ,E n v i r o n m e n t a lH e a l t h yP e r s p e c t i v e s,1 0 9 ( 8 ) : ( 7 8 5 ‑ 7 8 4 ) compoundsf o ri 連絡先:東京都文京区小石川 3‑1‑3,E‑mail:masayuki̲ yamada@pharm.kissei.co.jp 6 0‑ ‑
日本 SASユ ー ザ ー 会 (SUGI‑0) 計量値のシグモイド用量反応曲線の同時推定 一効力比とその 9 5弘信頼区間一 高橋行雄 中外製薬株式会社臨床解析部 CurveF i t t i n gonDoseResponsew i t hSigmoidQ u a n t i t a t i v eresponses ‑E s t i m a t i o no fE f f i c a c yr a t i oandi t s95%confidence一 YukioTakahashi td . C l i n i c a lDataA n a l y s i sD e p t ./ChugaiPharmaceuticalC o .,L 要旨 新たに合成された化合物と,同じ実験条件下で標準物の対数用量に対する反応 に対して平行なシグモイド曲線があてはめられたときに,ある一定の反応を得るための 用量の比が定義できる.反応が 2値の場合には ダミー変数を用いたロジスティック回 n t i l o gから効力比とその 95%信頼区間が得られる.計量 帰モデルにより,効力の差の a 値の反応にシグモイド曲線をあてはめるためには,非線形回帰モデルを用いるのである が,複数の平行なシグモイド曲線をあてはめるためには,ダミー変数を含む非線形回帰 モデルに拡張する必要がある.ダミー変数の与え方により効力の差を直接求めることが でき,その a n t i l o gから効力比と 95%信頼区間が得られる. 川 LIN,JMP,非線形回帰分析 キーワード:シグモイド曲線, EC50,効力比, SAS 1. 目的 薬理学的活性あるいは毒性用量の評価において,ある反応となるような化学物質の濃度(用量) を求めるための方法として生物検定法が知られている.反応が 2値の i nv i v oの実験の場合にプロ ビット法による 50%致死量の推定が生物検定法の代表的な方法であり,薬理学的活性を標準品に 比較して新しい化合物の効力比を求める方法も定式化されている.反応が計量値で,用量反応関 係が直線の場合に効力比を求める方法は平行線検定法として知られている 1ペ ヱ , 2 広く設定する i 仇 nv i t r o実験系では, J l J 量反応関係がシグモイド状の l 曲線となり,反応が直線となら ないことがしばしば経験される 3) この場合に,効力比とその 95%信頼区間を 平行線検定法" と同様の考え方で求められれば,実験結果を簡潔な要約統計量として示すことができる. 2 . ヒスタミン誘発収縮反応 G薬のモルモット摘出回腸のヒスタミン誘発収納反応におよぼす作用についての i nv i t r o実験を 取り上げる.実験は,表 1に示すように 4X4のラテン方格で行われた. 6 1
表 1 実 験 デ ザ イ ン (ラテン方搭, G薬の濃度) 実験日 モルモット 番号 Tム 句i 勺 ん 勺 ん 2 3 4 胃仰J <一一一一> 虹門側 部位 l 部位 2 部位 3 部位 4 A:Oμ 加1 B :0.01μM IC :0.1μM ID :1μ M B :0.01μM C :0.1μM I D:1μM I A:0μM C :0.1μM D :1μM 1A:OμM IB :0.01μM D:1μM I B :0.01μM I C :0.1μM A:OμM I i I 実験手順 手順 1 ) 1匹目のモルモットから回腸を摘出し,一本の長さが約 20mmとなるように 4本の標本を作製する. 標本は,胃側から虹門側へ 1~4 の部位番号を付与する. 手順 2 ) 4連のマグヌス装置に標本を lずつ懸垂し, それぞれヒスタミン濃度が 300μMとなるまで累積的 に添加し,懸垂した回腸の最大収縮高を添加前値とする. ) 回腸中のヒスタミンを洗浄する. 手順 3 )4連のマグヌス装置に,それぞ、れ蒸留水 (G薬 0μM),G薬の 0 . 0 1,0 . , 1 1 .0μMの順にセットする. 手順 4 手順 5 ) マグヌス装置にヒスタミン濃度が 0.01μMとなるように添加し,回腸の収縮が止まってから,次に W倍, 0.0316μMとなるように添加する.この累積的添加をスタミン濃度が ヒスタミン濃度が J 316μMとなるまで繰り返す.この間の回腸の収縮高をキモグラフ (kymograph,筋肉の運動や心臓 の拍動などを記録する装置)に連続的に記録する. [ I 員6 ) 2匹目のモルモットについて手順 1からの操作を繰り返す.ただし,ヒスタミンの注入順は表 1に 手J , G薬の 3用量を先に行い,蒸留水 (G薬 0μM) は最後とする. 示した手順 4で 今回は, こ の 実 験 の モ ル モ ッ ト 番 号 2に つ い て 検 討 し た . 実 験 か ら 得 ら れ た デ ー タ を 表 2 に 示 す. 表 2 G薬 の モ ル モ ッ ト 摘 出 回 腸 の ヒ ス タ ミ ン 誘 発 収 縮 反 応 に 及 ぼ す 作 用 最大 ヒスタミンの用量 C uM) 収縮高 0 . 0 1 0 . 0 3 1 6 0 . 1 0 . 3 1 6 l 3 . 1 6 1 0 316 100 1 6 5 l 5 2 3 3 6 6 1 1 3 1 5 8 1 7 1 1 7 1 0 . 0 1 1 5 8 l l 9 50 4 1 1 3 9 8 1 6 5 170 0 . 1 1 1 8 l l 2 2 5 1 0 46 9 6 122 1 l 1 6 3 l 2 6 54 1 2 0 生データはキモグラフの目盛りから読み取っているので実際の長さではない . G薬 用量 μM 。 。 。。 。 ; : : j J ロ1ロ1 j _/~<<-労 J 受 . 0 . ノ O~ 図 1 最 大 収 縮 高 を 含 む 4本 の 用 量 反 応 曲 線 O:G薬 0μM, x G薬 0.01μM,d:G薬 0.1μM,ロ :G薬 lμM ‑62‑ 316 1 6 5 1 6 9 1 2 7 1 3 6
3
. 非線形回帰モデル 4,5)
計量値と 2値の口ジスティック回帰モデルの関連
計量値の反応にシグモイド曲線をあてはめるための関数として,ロジスティック関数,
y = m
a
.
x
1+e
x
p
(
y(
ln(EC50)‑l
n
(
x
)
)
)
(
1
)
を用いるの.ここで , yはロジスティック曲線の傾きをあらわすパラメータ ,EC50は反応が 50%
の時の用量 x となるパラメータである.式 (
1
) を変形すると
y=
Emax
.,
'" =
.LJ~/~~__ ,
1+e
x
p
(
y(
ln(EC50)一l
n
(
x
)
)
) 1+ex
p
(一(
‑
yl
n
(
E
C
5
0
)+yl
n
(
x
)
)
)
. ~'::~~~,
(
2
)
となり , ‑yl
n
(
E
C
5
0
)=β。
, y=β
!とおきかえると, 2値のロジスティック回帰式に Emaxを掛けた
式が得られる.
y l E m a x ( 3 )
1+e
x
p
(一(
β。
+
β
l
l
n
(
x
)
)
)
式 (
2
) で , y= βl' ln(EC50)= βことおくと,
Emax
}
:
;
:
巴xp(一(
β
1(β2+l
n
(
x
)
)
)
)
y=
(
4
)
が得られる.以下,式 (
4
) を拡張して用いることにする.
陰性対照,および,陽性対象がある場合の効力比の推定
n
(
x
) に対してシグモイド曲線となる実験系で,
反応 y が計量値で,薬物濃度あるいは薬物量の l
薬物量が O の場合に,これは,溶媒対照,コントロール群,あるいは,陰性対照などと呼ばれる
が,薬物濃度 oの対数はマイナス無限大となり,このままでは,シグモイド曲線をあてはめるた
めに,このデータを用いることができない.
薬物濃度が低くなった場合に反応 y が,陰性対照に近づくようなシグモイド曲線のあてはめに
おいて,下限値として推定される民と,陰性対照のデータの平均値から下限値として推定される
β
;のように,推定値が 2通り存在することになる.これらを 1つの下限値の推定値とするために,
2つのモデル式を同時に含むような非線型回帰モデルが必要となる.さらに,陽性対照がある場合
も同様に,シグモイド曲線のあてはめで推定される上限値判と,陽性対照のデータから推定され
る上限値
β
;を 1つの上限値として同時に推定するようにしたい.
F=巧+
β4一β3
+
E
F , i=LL・,.nj
薬物濃度群: y
1+巴xp{βl(一β2+l
n
(
x
;
)
)
}
陰性対照:
陽性対照:
y~性~'
+e~M: , j= 1
=
β、+e
,
2,
.
・
吋 n2
j
陥件
=
n"
陥件
P
4+ek
'
k= 1
,
2,
…,
n
)
(
5
)
(
6
)
(
7
)
これらの 3つの回帰式の誤差は,すべて平均 0,分散 σ2と共通であるとする.ダミー変数 dl
nhu
ペ
n
u
(陰性対照の場合にしそれ以外は 0
),ダミー変数 d2 : (薬物濃度群の場合にしそれ以外は 0
),
ダミー変数 d3 : (陽性対照の場合に1,それ以外は 0
),を考え,式 (
5
), (
6
), (
7
) を併合した次
式を得る.これにより,シグモイド曲線の共通の下限値仇および上限値ムを推定することがで
きる.
Yi= β3・dl+( β 3 + β 4一β3 .~ "J.
d2+s
4.
d3+e
,i=1
,
2,
…,
(
nj +n2 +n3)
i
1+e
x
p
{一β,
一
(β2+l
n
(
x
i
)
)
}
(
8
)
複数のシグモイド曲線の同時推定
このモデルをさらに拡張して,複数のシグモイド曲線の同時あてはめができるように拡張する.
I
'左右の位置 β2'下限値 s3' 上限値 Aの
その際に,複数のシグモイド曲線のパラメータ,傾き s
うち,どれが複数のシグモイド曲線に共通で,どれが異なるのかを,実験前に規定しておく必要
がある.表 2のデータは,図 1から次に示すように,
傾き (β1):
同じ
左右の位置 (β2):
異なる
下限値 (s3):
定数 =0
上限値 (βJ:
異なる
2 つのパラメータ,左右の位置 s
z'および上限値 β4が異なるシグモイド曲線のあてはめが必用で
を次に示すように,
ある.左右の位置 (β2)が異なる場合に,s
2
β2=β2"ZI +β2,2Z::+β2,3Z3+β2,4Z4
(
9
)
複数のシグモイド曲線を識別するインデイケータ型ダミー変数に展開できる.これと同様に,上
限値 β
4も
,
,
+β4,3Z3+β4,4Z4
s4 = β4"Z +s4,
ュ
Z2
(
1
0
)
と展開する.下限値 Aは,この実験系では,常に 0であるので,式 (
8
) の Aに Oを代入し,次
を次のように簡単化できる.
y β 4
・
dz+β.
d3 +e
(
1
1
)
i
1+exp{βI(
一β2+l
n
(
x
;
)
)
} ‑ .‑"
1
1
) の, s
2と β4をダミー変数を含む式 (
9
)と (
1
0
) に置き換える.
実際の計算に際しては,式 (
4
. EC50の直接推定
ダミー変数を 2種類含む非線型回帰式の作成は,煩雑なので解析用のデータを作成する SASプ
ログラムを P
r
o
g
r
a
m
lに示す.ダミー変数
ZI' Z2' Z3'
および, Z4は
, G薬に対するインディケ
ータ型ダミー変数とし, 切片" z
。も加えてある.第 2番目のインディケータ型ダミー変数は,
陰性対象 d
" 薬物濃度群 dz'および,陽性対照 d3である.
‑64‑
Program1 くく SASデータセットの作成>> t it l e' d r u g ̲ G 2 0 0 3 ‑ 0 5 ‑ 0 6 Y .T a k a h a s h i ' d a t ad 0 1 @ i n p u t Gd o s e@ z O = l ;z l =( Gd o s eニ1 ) ;z 2 =( Gd o s eニ2 ) ;z 3 =( G ̲ d o s e = 3 ) ;z 4 =( G ̲ d o s e = 4 ); d o x= 9 9 9 9 9,0 . 0 1,0 . 0 3 1 6, 0 . 1,0 . 3 1 6,1 ,3 . 1 6,1 0,31 .6 ,1 0 0,3 1 6 I n ̲ xニ I o g( x ) i n p u t y@ @ o u t p u t 巴n d d a t a l i n e s 1 1 6 5 1 3 5 2 3 6 6 1 1 3 1 5 8 1 7 1 1 7 1 1 6 5 2 1 5 8 1 1 3 9 5 0 9 8 1 4 1 1 6 5 1 7 0 1 6 9 3 1 1 8 0 1 1 2 2 5 1 0 4 6 9 6 1 2 2 1 2 7 4 1 6 3 0 0 1 0 1 2 6 5 4 1 2 0 1 3 6 d a t a d02; r e t a i n t o p s e td 0 1 d 1 = 0 ; d2=0; d 3 = 0 i f x= 9 9 9 9 9 .t h e n d 2 = 1 i f xニ9 9 9 9 9 .t h e nd o ;d 3 = 1 ;t o p = y ;e n d ; o p 宇1 0 0 . yp e r c e n t = yIt Output1 くく解析用 SASデータセット>> O B S t o p G ̲ d o s e z O z l z 2 z 3 z 4 x I n ̲ x y d 1 d 2 d 3 y ̲ p e r c e n t 1165 1 1 1 0 0 099999.00 11 .5129165 0 0 1 1 0 0 . 0 0 0 2 1 6 5 1 1 1 0 0 0 0 . 0 1 ‑ 4 . 6 0 5 2 1 0 1 0 0 . 6 0 6 1 .8 1 8 3 1 6 5 1 1 1 0 0 0 0 . 0 3 ‑ 3 . 4 5 4 6 3 0 1 0 1 2 1 5 8 1 3 1 5 8 14158 2 2 2 1 0 1 0 1 0 1 0 0 9 9 9 9 9 . 0 0 1 0 0 0 . 0 1 1 0 0 0 . 0 3 23118 2 4 1 1 8 2 5 1 1 8 3 3 3 1 0 0 1 0 0 1 0 0 34163 3 5 1 6 3 36163 4 4 4 1 0 0 0 1 0 0 0 1 0 0 0 4 4 1 6 3 4 1 0 0 0 1 1 .5 1 2 9 1 5 8 0 ‑ 4 . 6 0 5 2 1 0 ‑ 3 . 4 5 4 6 1 0 0 1 1 0 0 . 0 0 0 1 0 0 . 6 3 3 1 0 0 . 6 3 3 1 .5129118 0 1 ‑ 4 .6 0 5 2 0 0 ‑ 3 . 4 5 4 6 1 0 0 1 1 0 1 0 199999.00 1 0 . 0 1 1 0 . 0 3 1 .5129163 1 ‑ 4 . 6 0 5 2 0 ‑ 3 . 4 5 4 6 0 0 0 0 0 1 1 0 0,0 0 0 0 0 1 0 0,0 1 0 0 . 0 0 0 1 5 . 7 5 5 7 1 3 6 0 1 0 1 099999.00 1 0 O .0 1 1 0 0 . 0 3 3 1 6 . 0 0 1 0 00 0 0 O .0 0 0 4 7 08 8 34 3 6 非線型の式 ( 9 ), ( 1 0 ), ( 1 1 )を , SASの procNLINでコーディングした結果を Program2に示 す.反復計算法は標準的なガウス・ニュートン法を用いている. SAS 6.12以前は 1次の導関数を プログラムに含める必要があったのであるが, SAS 6.12より内部計算されるようになったので指 iの初期値は, 0以上 1 0 0未満の yのパーセントデータを口ジット変換 定していない .βlおよび、 β2 し単回帰分析した傾きから推定し, β4i の初期値は,表 2の最大収縮日とした. Output2にパラメータの推定結果を示す. b e t a 1が傾きの推定値, beta2̲L...,b e t a 2 ̲ 4が左右の 位 置 EC50の推定値, b e t a 4 L...,b e t a 4 4 が,それぞれの G 薬の濃度群での上限値の推定結果 になっている. Output2で得られた推定値から, G薬の群ごとにシグモイド曲線を推定し,生デー タに重ね書きした結果を図 2に示す. nhu Ru
Program2 くく EC50の 直 接 推 定 > >
Ti
tI
e
2'
く
く
く d
i
r
e
c
te
s
t
i
m
a
t
i
o
n
p
r
o
cn
l
i
n d
a
t
aニd
0
2 m
e
t
h
o
d
=
g
a
u
s
s
P
a
r
m
s
b
e
t
a
1ニ
1
.1
b
e
t
a
21
=
0
.
2 b
e
t
a
22
=
0
.
8 b
e
t
a
23
=
2
.
1 b
e
t
a
24
=
4
.
0
1
8 b
e
t
a
44
=
1
6
3;
b
e
t
a
4
̲
1
=
1
6
5 b
e
t
a
4
̲
2
=
1
5
8 b
e
t
a
4
̲
3ニ 1
本z
l +b
e
t
a
2
̲
2本z
2 +b
e
t
a
23
本z
3 +b
e
t
a
2
̲
4本z
4
b
e
t
a
2 =b
e
t
a
21
e
t
a
41
本z
l +b
e
t
a
42
本z
2 +b
e
t
a
43
本z
3 +b
e
t
a
44
本z
4
b
e
t
a
4ニ b
b
e
t
a
4/ (
1 +e
x
p
(
‑
b
e
t
a
1
*
(
‑
b
e
t
a
2 +l
o
g
(
x
)
)
) ))村 2+b
e
t
a
4村 3
;
m
o
d
e
l y= (
>
>
>
'
Output2 くく EC50の 直 接 推 定 > >
﹁
F
E 内
UJWFhdan﹃ 司 u
nuquaqan ﹃
S
o
u
r
c
e
R
e
g
r
e
s
s
i
o
n
R
e
s
i
d
u
a
l
U
n
c
o
r
r
e
c
t
e
dT
o
t
a
l
C
o
r
r
e
c
t
e
dT
o
t
a
l
P
a
r
a
m
e
t
e
r
b
e
!
a
1
b
e
!
a
21
b
e
!
a
22
b
e
!
a
23
b
e
!
a
24
b
e
!
a
41
b
e
!
a
42
b
e
!
a
43
b
e
!
a
44
E
s
!
i
m
a
!
e
1
.
2
8
4
3
0
.
4
2
4
0
0
.
8
0
7
0
2
.
6
3
8
6
3
.
9
6
6
4
1
6
8
.
8
1
6
6
.
2
1
2
6
.
2
1
5
9
.
7
S
u
mo
f
S
q
u
a
r
e
s
4
1
5
4
5
8
1
2
7
6
.
8
4
1
6
7
3
5
2
0
7
1
1
3
M
e
a
n
S
q
u
a
r
e
4
6
1
6
2
.
0
3
6
.
4
8
1
1
A
p
p
r
o
x
S
t
dE
r
r
o
r
0
.
0
7
3
5
0
.
0
9
2
6
0
.
0
9
4
7
o
.1316
0
.
1
1
0
9
2
.
9
5
7
3
3
.
0
7
6
7
3
.
8
7
3
9
4
.
9
8
2
4
FV
a
l
u
e
1
2
6
5
.
3
7
A
p
p
r
o
x
P
r F
<
.
0
0
0
1
>
A
p
p
r
o
x
i
m
a
!
e9
5
%C
o
n
f
i
d
e
n
c
eL
i
m
i
!
s
1
.1
3
5
2
1
.4
3
3
5
0
.
2
3
6
1
0
.
6
1
2
0
0
.
6
1
4
7
0
.
9
9
9
2
2
.
3
7
1
5
2
.
9
0
5
8
3
.
7
4
1
4
4
.
1
9
1
5
1
6
2
.
8
1
7
4
.
8
1
6
0
.
0
1
7
2
.
4
1
1
8
.
3
1
3
4
.
0
1
4
9
.
6
1
6
9
.
8
Ed
nU
﹁‑‑
‑
安
‑同
.
0
.
咽
x
図 2 収縮高を考慮したシグモイド曲線
0:蒸留水,
x
G薬 0.01μM,L'. :G薬 0.01μM,
・ :G薬 0.01μM
5
. 効力比の推定
次ぎに効力比を求める.ダミー変数
Z3'および,
Z
1を
切片 "z
。に置き換えることにより,ダミー変数
Z4の回帰係数(パラメータ)が,
z
0μM群と各 G 薬との差となり, a
n
t
i
l
o
gをとるこ
ハ
hu
ρhU
とにより,効力比が求まる. Program3に S ASのプログラムを, Output3 に推定されたパラメータ e t a 2 0が 0μM群の EC50の推定値, b e t a 2 ̲ 2,b e t a 2 ̲ 3,b e t a 2 ̲ 4がそれぞ、れの蒸留水と G を示す. b 薬の濃度群での EC50の差の推定値となっている.b e t a 4 0は , 0μM群の上限値の推定値となって, b e t a 4 ̲ 2,b e t a 4 ̲ 3,b e t a 4 ̲ 4が , 0μM群とそれぞれの G 薬の濃度群での上限値との差の推定値にな っている. 959 も信頼区間から, beta4̲2,および b e t a 44は,それぞれ(一 1 0 . 9 6, 5 . 8 2 ), ( ‑ 2 0 . 5 1, 2 . 3 4 ) と 0を含んでいるので,統計的には,差がないことが分かる. b e t a 4 3は,推定値が ‑42.59,95% 信頼区間は, (‑52.06, ̲33.05)と明らかに差があることが示されている.表 3に Output2と Output3 の結果をまとめ, a n t i l o gから元の用量での EC50および効力比,その 95%信頼区間を示した.表 4 には各群の上限値 Aの推定値を示した.こちらは,対数を取っていないので,推定された結果の ままである. 表 3 収縮高を考慮した効力比 位置 β 2 . 1 β 2 . 2 β、 3 β 2 . 4 I n σC50) EC50(μ~ 差~差) 0 . 42 4 1 .5 3 2 . 2 4 0 . 3 8 3 0 . 8 0 7 2 . 6 3 9 1 3 . 9 9 2 . 2 1 5 β 2 . 3 3 . 5 4 2 3 . 9 6 6 5 2 . 8 0 β2,4 倍 9 51 ' るc lf 音 I 9 5 % c lL 9 5 % c lU 1 .5 9 . 2 3 4 . 6 0 . 1 1 6 1 .8 9 0 3 . 2 5 2 0 . 6 5 0 2 . 5 3 9 3 . 8 3 3 ( 1 . 1 ,1 .9 2 . 7 ) ( 6ム 1 4 6み ( 2 5 . 8, 表 4 収縮高を考慮した上限値の差 I n(差) 9 5 % c lL 9 51 ' るc lU ‑ 2 . 6 ‑ 4 2 . 6 ‑ 9 . 1 ‑ 1 0 . 9 ‑ 5 2 . 2 ‑ 2 0 . 5 5 . 8 ‑ 3 3 . 0 2 . 3 β ' ‑ ' β4,2 β 4 . 3 β4.4 1 6 6 . 2 1 2 6 . 2 1 5 9 . 7 β 4 . 2 β4.J βJJ Program3 く く 効 力 比 > > Ti tI e 2' く く く di f f e r e n c e p r o cn l i n d a t a = d 0 2 m e t h o d = g a u s s .1 P a r m s b e t a l =1 ニ0 . 2 b e t a 22 = 0 . 6 b e t a 23 =1 .9 b e t a 24 = 3 . 8 b e t a 20 ニー 7 . b e t a 43 ニー 4 7 . b e t a 44 = ‑ 2 . 0 b e t a 40 = 1 6 5 b e t a 42 キz O +b e t a 22 本z 2 +b e t a 23 牢z 3 +b e t a 24 牢z 4 b e t a 2 =b e t a 20 e t a 4 ̲ 2キz 2 +b e t a 4 ̲ 3本z 3 +b e t a 4 ̲ 4キz 4; b e t a 4=b e t a 4 ̲ 0 * z O +b b e t a 4 I( 1 +e x p ( ‑ b e t a l牢( ‑ b e t a 2 +l o g ( x ) ) ) ))村 2+b e t a 4村 3 m o d e l y= ( r u n > > > ' Output3 く く 効 力 比 > > S o u r c e R e g r e s s i o n R e s i d u a l U n c o r r e c t e dT o t a l C o r r e c t e dT o t a l D F 9 3 5 4 4 4 3 S u mo f S q u a r e s 4 1 5 4 5 8 1 2 7 6 . 8 4 1 6 7 3 5 2 0 7 1 1 3 M e a n S q u a r e 4 6 1 6 2 . 0 3 6 . 4 8 1 1 6 7 FV a l u e 1 2 6 5 . 3 7 A p p r o x P r F < . 0 0 0 1 >
Output3 続き P a r a m e t e r b e t a 1 b e t a 20 b e t a 22 b e t a 23 b e t a 24 b e t a 40 b e t a 42 b e t a 43 b e t a 44 E s t i m a t e 1 . 2 8 4 3 0 . 4 2 4 0 0 . 3 8 2 9 2 . 2 1 4 6 3 . 5 4 2 4 1 6 8 . 8 2 . 5 7 5 0 4 2 . 5 9 5 0 9 . 0 8 2 0 A p p r o x S t dE r r o r 0 . 0 7 3 5 0 . 0 9 2 6 0 . 1 3 1 6 0 . 1 5 9 9 0 . 1 4 3 1 2 . 9 5 7 3 4 .1 3 3 6 4 . 7 4 1 6 5 . 6 2 6 8 A p p r o x i m a t e9 5 %C o n f i d e n c eL i m i t s 1 .1 3 5 2 1 .4 3 3 5 0 . 2 3 6 1 0 . 6 1 2 0 0 . 1 1 5 8 0 . 6 5 0 1 1 .8 9 0 1 2 . 5 3 9 2 3 . 2 5 1 9 3 . 8 3 3 0 1 6 2 . 8 1 7 4 . 8 ‑ 1 0 . 9 6 6 6 5 . 8 1 6 5 ‑ 5 2 . 2 2 0 8 ‑ 3 2 . 9 6 9 1 ‑ 2 0 . 5 0 5 0 2 . 3 4 0 9 6 . 収縮量を変化率にした場合 上限値が群によって異なるシグモイド曲線のあてはめを前節で示したのであるが,上限が群に よって同じ場合もある.表 2のデータで,陽性対象としての最大収縮高を 100%とし,それぞれの 収縮量を収縮率に変換した場合は,推定したいパラメータは,次に示すように,左右の位置仇の みが変化することになる. 傾き (sl): 同じ 左右の位置 (β2): 異なる 下限値 (β'): 定数 =0 上限値 (β4) : 定 数 =1 0 0 さらに,陰性および陽性対象もないので式 ( 8 ) は,さらに簡単化でき,式 ( 1 2 ) となる. SASに よるプログラムを Program4に,結果を Output4に示す. y= • " 100 ̲, ,̲ W V ̲ , • ", 1+e x p (一( β 1一 ((β2,O Z O+βュ ,Z2+s日 Z3+s2,4Z4)+I n x ) ) ) 1 2 ) ( Program4 くく収縮率を用いた場合の効力比>> Ti tI e 2' く く く p e r c e n , t d if f e r e n c e p r o cn li n d a t a = d 0 2 m e t h o d = g a u s s w h e r e d 2ニ1 P a r m s b e t a 1 =1 .1 ニ0 . 6 b e t a 23 =1 .9 b e t a 24 = 3 . 8; b e t a 20 = 0 . 2 b e t a 22 本z O +b e t a 2 ̲ 2本z 2 +b e t a 23 本z 3 +b e t a 2 ̲ 4本z 4; b e t a 2 =b e t a 20 e r c e n t =1 0 0/ ( 1 +e x p ( ‑ b e t a 1本( ‑ b e t a 2 +l o g ( x ) ) )) m o d e lyp > > > ' Output4 くく収縮率を用いた場合の効力比>> S u mo f M e a n D F S q u a r e s S q u a r e S o u r c e R e g r e s s i o n 5 1 3 7 4 2 0 2 7 4 8 4 . 0 .5 2 6 . 6 1 4 5 R e s i d u a l 3 5 9 31 U n c o r r e c t e dT o t a l 4 0 1 3 8 3 5 2 C o r r e c t e dT o t a l 3 9 7 4 1 5 9 . 9 ‑68 FV a l u e 1 0 3 2 . 6 7 A p p r o x P r F く. 0 0 0 1 >
Output4 続き P a r a m e t e r b e t a 1 b e t a 20 b e t a 22 b e t a 23 b e t a 24 E s t i m a t e 1 .3 7 4 0 0 . 3 7 2 8 0 . 3 1 7 3 2 .1 3 5 2 3 . 6 2 6 5 % A p p r o x S t dE r r o r 0 . 0 9 6 3 O .1 1 5 7 O .1 6 3 7 O .1 6 3 6 O .1 6 3 9 A p p r o x i m a t e9 5 %C o n f i d e n c eL i m i t s 1 .1 7 8 4 1 .5 6 9 6 0 . 1 3 7 8 0 . 6 0 7 7 ‑ 0 . 0 1 5 1 0 . 6 4 9 7 1 .8 0 3 1 2 . 4 6 7 3 3 . 2 9 3 8 3 . 9 5 9 3 ーー一一一ー 」 がぷ竺 100イ 。ク"c̲.‑ × ~ー--- / p D n u ﹀ 。 ~ 。 Jι~a:/ぷてふ;?/・ ーで寸一→一ーーー寸一一一 γ一ー一一ー一γ 一一「一一一一 l . 0 1 . 1 1 1 0 100 1000 X 区J3 傾きが共通で EC50が異なるのシグモイド曲線 0:蒸留水, x :G薬 0.01μM," ' :G薬 0.01μM, ・ :G薬 0.01μM n t i l o gの計算を追加し,元の濃度での EC50,G Output4 のパラメータ(回帰係数)を整理し, a 薬の 0μMを基準にした場合の EC50の比(倍)を表 5に示す .G薬の最小用量 0.01μMで 95% 信頼区間の対数の下限がわずかに 0を下回っている.統計的には, r 有意差なし」であるが,シグ モイド曲線のわずかなずれを反映している. 表 5 効力比 I n(差) │ 9 5 % c lL 9 5 % c lU 95%cl 倍 β 2,0 β 1 0 3 1 7 1 4 l 0015 . 1 3 5 8 . 5 I1 .8 0 3 β 2 . 3 I2 β2A I 3 . 6 2 7 3 7 . 6 I3 . 2 9 4 0 . 6 5 0 46 7 2. 3 . 9 5 9 ( 0 . 9 0,1 .9) (6 . 1,1 1 .8) ( 2 6 ム 52. 4 ) 7 . 考察 シグモイド状の用量反応が計量値として得られた場合に,ロジスティック曲線をあてはめ, EC50 (ED50) あるいは ECI0 ( E DI0) などの要約統計量を推定することは,実験結果を簡潔に示すた めに有用な方法である.応用分野は,多岐にわたっている.最近の問題では,各種の環境ホルモ nv i v oでの実験が国際的な共同研究 7) として行われ,この実験データを盟約するため ンに対して i ~69
の統計量として EDI0および ED90が用いられている.しかし,本質的に非線形の問題であり,一 般的に使用されているとはいい難い. 非線形回帰分析を適切に行うためには,妥当な回帰式の選択,初期値の設定,推定したいパラ メータで回帰式を微分した式などを設定する必要があり,線形回帰分析のように手軽に使うこと ができにくい.このために,手軽にシグモイド曲線のあてはめを行うために SigmaPlot,GraphPad, WinNonlinなどの専用の統計ソフトが整備されてきた.しかしながら,これらの専用統計ソフトは シグモイド曲線を一本ごとにあてはめることを基本としていて, 2つのシグモイド曲線の同時あて はめは標準機能に含まれていないので効力比の算出,陰性対照あるいは陽性対照があるような場 合には手軽に使うことができない. そこで, SASあるいは JMPなどの汎用ソフトの非線形回帰分析を用いて,これらの問題を定式 化することにした.本報告では SAS/NLIN のプログラムと結果を示したが,シグモイド曲線の作 図のためには, JMP の非線形回帰分析による推定結果を用いて行った.汎用ソフトを使い慣れて いない人達が,非線形の問題を解くためには, GUIベースの JMPが薦められ, SAS/NLINは,非 線形の問題を繰り返し解くための計算エンジンとして使うような場合に薦められる. 今回は, 1個体に割り付けられた G 薬の 4用量聞の比較を扱ったが,実際の実験データの解析 は 4個体分あり,これを同時に解析する場合には,個体を変量効果とするような非線形混合モデ ル SAS川 LMIXEDを使う問題となり,更なる検討が必要である. 反応が直線的な場合は,線形回帰分析の問題であるが,線形回帰分析は一般的には効力比を求 めるための基本である逆推定(ある Yの反応を得るための X の値を推定する)の問題を取り扱っ ていなないために,線形回帰分析のパラメータの推定値および、分散共分散行列から,デルタ法あ るいはフィラーの方法などで別途計算する必要がある.しかし,反応が直線的な場合であっても, 。 y=β +βlXを 。 y=β 1( β /β1+X)と傾き β 1を共通項とし, β2=一(β0/β1)とおくと式 ( 4 )の 指数項と同様の形 y=β 1一 (β2+X) となる.式 ( 9 ) のように,んをダミー変数を含めた式に置 き換えることにより,複数の反応直線開の効力比とその信頼区間が,非線形回帰分析の標準機能 で求めることができる. 文献 1.佐久間昭 ( 1 9 7 7 ).薬効評価1,東京大学出版会. 2 .F i n n e y, D . J( 1 9 7 8 ) .S t a t i s t i c a lMethodi nB i o l o g i c a lAss a y, 3rde d ., C h a r l巴sG r i f f i n . 3 . 大森崇,加藤麻矢子(19 9 8 ).細胞毒性試験の ED50推定法 原理, SASプログラム,使い方 ,サイエンティスト. 4 .Drap巴r , N.R, a n dS m i t h, H .( 1 9 9 8 ) .A p p l i e dR e g r e s s i o nA n a l y s i s, 3rde dJ o h nWil巳 y& S o n s . 吋 D.M., a n dW a t t s, D . G .( 1 9 8 8 ) .N o n l i n e a rR e g r 巳 s s i o nA n a l y s i sa n dJ tsA p p l i c a t i o n s .J o h nWiley& S o n s . 5 .B a t e s, 6 .佐 久 間 昭 ( 1 9 8 1 ).薬効評価 I I,東京大学出版会. 7 .Kano,J .,Onyon,, . L Has巳 man, J .巳 ,ta. l( 2 0 0 1 ) .Th巳OECDp r o g r a mt ov a l i d a t巴 t h er a tu t e r o t r o p h i cb i o a s s a yt o s c r e e ncompoundsf o ri nv i v o巴s t r o g叩 i cr 巳s p o n s e s :p h a s e1 , E n v i r o n m e n t a lH巴a l t h yP巴r s p巴c t i v巴s ,1 0 9 ( 8 ) ; ( 7 8 5 ‑ 7 8 4 ) . 連絡先:東京都中央区京矯 2 ‑1‑9,E ‑ m a i l :t a k a h a s h i y k o @ c h u g a i ‑ p h a r m . c o . j ヴt 白 円 U
口頭論文発表 チュートリアル
日本 SASユーザー会 (SUG I‑J) 生存時間解析における症例数設計 0 浜田知久馬台 唱 思 藤井陽介女 東京理科大学工学部経営工学科 Samples i z ed e s i g nf o rs u r v i v a la n a l y s i s ChikumaHamadaandYosukeF u j i i TokyoU n i v e r s i t yo fS c i e n c e Kagurazaka, S h i n j y u k u ‑k u .T o k y o . 162・8601 1 ‑ 3, 要旨 最近では癌の臨床試験以外でも,あるイベントが起きるまでの時間を主要な解析対象と した臨床研究が増えている.このような試験の症例数設計は,多くの場合ログランク検定 に基づいて行われる このための公式として S c h o e n f e l d式 , Freedman式が有名であり, 実際に多く用いられている. 本稿では,チュートリアルとして,計量データに基づく症例数設計の一般論を示し,こ c h o e n f e l d式 , Freedman式 れと対比して生存 1寺間解析の場合の特徴を説明する.次に, S を理解するための理論的背景を解説し, 2 つの式の違い,ログランク検定との関連, SAS のプログラム・コーディング例を示す.また実際の臨床研究の例数設計では,棟々な拡張 が必要である.非劣性試験,患者登録期間が存在する,患者のリクルートが一定でない, 途中脱落が存在する,比伊レ、ザード性が成り立たない,多群で行われる,プライマリーな 解析方法がログランク検定でなくウイルコクソン検定等である等の場合が生じ得る.この ような場合の症例数設計についても方針を解説する. c h o e n f e l d式 , Freedman式,ログランク検定, LIFETEST キーワード:症例数設計, S 論文概略 生存 H 寺問解析の症例数設計の原理,実例, SAS のコーディング例,適用上の注意につい c h o e n f e l d,Freedman式について詳述する.また比例ハザード性が成 て解説する.特に S り立たない場合や,登録期 1lJが存在する場合の拡張について述べる. ぺ υ n l ワ
1.はじめに 生存時間解析の手法は大きく 3種類に分類できる.特定の分布を仮定せずに生存時間分 布の記述・検定を行うノンパラメトリック手法, Cox の比例ハザードモデルに基づ、き,生 存時間分布とは独立に共変量の影響を評価するセミパラメトリック手法,ワイブル分布等 の特定の生存時間分布を仮定したパラメトリック手法である. SAS ではそれぞれの解析用 ,PHREG,LIFEREGが用意されており,これらの手法は,現在では医薬 に , LIFETEST 統計の標準的な手法として定着している.最近では癌以外の領域でも,脳疾患や心疾患等 のイベントが起きるまでの時間をエンドポイントとする臨床研究が増えている.これらの 研究をデザインする際には,統計学的な症例数設計が行われる. SASのパージョン 9から I '数設計を行うための POWERプ口、ンジャ,計量 は,計量データや二値データについて,仔J データを対象に対比や交互作用項等のより複雑な仮説で例数設計を行うための GLMPOWERプ口、ンジャが加わった.残念ながらこれらのプ口、ンジャでは生存時間解析の 例数設計を行うことはできない 1).2) 生存時間解析では,症例数そのものが直接,精度に影 響を与えるわけではない.いくら症例数が多くてもフォローアップ期聞が短い場合は,イ ベント数は少なく情報量はあまり大きくない.生存時間解析では統計的な精度を保証する ために必要なイベント数を求め,フォローアップ期聞からイベントを起こす割合を見積も って,必要な症例数を算定する. 2 . 例数設計の原理 2群の並行群試験で正規分布型の計量データについて. t検定を行う場合の症例数設計で は,次の 4種類の条件を決める必要がある. 表 1 :例数設計を行う際に必要な条件 。 α SD o(デルタ) 検定の有意水準(通常は 5%) 差を見逃す確率(通常は 20%) 個体聞のばらつきの大きさ 予想される 2群聞の平均値の差 (生物学的に検出する価値がある差) α . sは適用する検定の精度, SDは研究デザインによって規定されるバラツキの大きさ, aは比較したい治療群問の実力の違いを表す指標である .α については,通常は 0.05(片側 . 0 2 5 ),ß については 0. 1O ~0.20 が用いられることが多い.このとき 1 群あ 検定の場合は 0 たり必要な例数は(1 )式で与えられる. 74‑
2 N =2{ z α +Zs}2SD ( 1 ) 丘 ここで α Zと Z pは,それぞれ標準正規分布の上側 α点と,。点を表している.片側検定を α =0.025(片側検定), s=0.20を行う場合,正規分布の数値表を調べてみると, Z O . 0 2 5 =1 .96, Z O " O =0.84となる.ちなみに両側検定の場合は ( 1 )式で α z をお12に置き換えればよい.例え , . が 1 0のときは ば , SDが 20,t N =2 { 1 . 9 6+0 . 8 4 } 2X 2 02 / 1 02 =3 1 .4 I 切り上げると 1群あたり 3 2例 , 2群合わせると 6 4{ 7 比、要になる.この式は対応のない t 検定を有意水準 αで 行ったとき,平均値の差企 =10が見逃される確率が日になるように例 数設計を行ったものである.厳密にいうと, t分布を正規分布で近似していることになるが, 通常の第 E相の臨床試験のように,全体で数百例以上になれば,正規分布で十分精度よく 近似できる. t検定では, 2つの群の平均値の差をその標準誤差で除したものが検定統計量 Dを代入すると次のようになる. になる. t統計量に対立仮説の下での企と S s品 川 ‑~SD2jN t= +四 2jN 可 2/N ( 2 ) t統計量は対立仮説が正しいときこの値を中心に分布することになる.ある程度例数が多 α を上回れば有 くなれば t分布は正規分布で近似できるので,この tが正規分布の上側α点 Z 意になる. δ 四 一 ( 3 ) とおいて,ム SD,αを決めれば,未知数は N だけになり, t 検定でちょうど有意にするた めに必要な例数を求めることができる.ただしこのように N を設定しでも, t統計量は確率 3 )式に基づいて N 変数でありバラツキを伴うので,いつも z を越えるとは限らない.実は ( を定めると, t統計量は Z"を中心 l こ分布するので, α Z を越えるか越えないかは五分五分の エラーの確率は 50%となる.これでは見逃しの確率が 確率になる.したがって差を見逃す p Iこ抑えたい場合は, 大きすぎてしまう.見逃しのエラーの大きさを s Zaに Zβ だけ保険を加 4 )式を えて, t統計量が Zα+Zsを中心に分布するように N を設定する.すなわち, ( 色 一 一 一 一= = Z . + Z n SDJ2/N u ‑75‑ ド ( 4 )
N について解くと, ( 1 )式が導かれる. =0.50に設定 標準正規分布は Oを中心に分布するため,分布の 50%点 Z050は Oになる. s すれば, sに由来する項はなくなる.したがって先ほどの例数設計は, s=0.50の特殊な場合 と考えることもできる. t検定やカイ 2乗検定等)によって,症例数設計の式は,形式上 実は用いる検定の種類 ( は微妙に異なることになるが,本質的には, (1)式と同じ形をとる.特に後述する,各条件 の影響については,検定に基づいたすべての例数設計の問題で原則的に成り立つ.一見し て,式の形が似つかぬように見えるのは,精度を少し改善するために工夫を行っているた めである.それぞれの検定を行う場合の精密な例数の設計式については,成書を参照され たい 3) • 4つの条件の N に対する影響 N に対して① ④の条件がどのような影響を与えるかを解説する. ① SD2に比例する 例)SDが倍になれば必要なサンプルサイズは 4倍になる. データのバラツキがノトさいほど,必要な Nは小さくてすむ.しかも SDは 2乗のオーダ ーで効いてくるので,その影響はたいへん大きい. 例えば降圧薬の試験で血圧の SDが 10mmHgのところを 1 2mmHgと見積もっても,大きな違いはないように感じられるが, 必要なサンプルサイズは1.44倍に培えてしまう.エンドポイント(評価項目)を選択する 際にも,なるべく SDが小さいものを選ぶ必要がある.拡張期血圧と収縮期血圧では,一 般に後者の方の変動が大きいので, SDの大きさという観点からいえば,拡張期血圧の方 ' l/SD が大きいエンドポイ がエンドポイントとして望ましいといえる. (より厳密には, I ントが好ましい. ) また測定の条件は出来得る限り標準化して,実験のバラツキを小さ の投与 H 寺J U Iを変えて投与する く抑える必要がある.また同ーの患者について, 2つの薬剤j クロスオーバー実験で、は,患者内で 2つの薬剤の効果を比較することによって,薬剤の 効果を推定する際に,個体問変動で、はなく個体内変動を誤差として用いることができる. このため同時に 2つの群を比較する並行群試験と比べて, SDが小さくなり,症例数が少 なくてすむ. ② U に反比例する {7iJ)効果が倍になれば必要なサンプルサイズは 1/4 になる. δについても 2乗のオーダーで効いてくるので, Nに対して非常に大きな影響を与える. 例えば効圧効果の δが 25mmHgのところを,少し小さめに 20mmHgと見積もれば,必 要なサンプルサイズは1.56倍に増加する.臨床試験の場合,強し、効果のある薬剤は必要 な症例数が少なく,したがって開発費用も安価で、,しかも開発期間も短くて済み,更に, 医師も患者も強し、効果を期待して,臨床試験に積極的に参加するだろうから,全ての面 で開発が容易になる.これに対し弱し、効果の薬剤は,仮に開発できたとしても,費用や 7 6
期間が余計にかかることになる. α )を厳しくすると必要なサンプルサイズは大きくなる ③検定の有意水準 ( αエラー, s エラーは,検定の精度を表すノ fラメータで,エラーの大きさを低く抑えよ α は通常,両{Il J5% I に設定されることが多いわけだ うとすると,大きな N が必要になる . が,これを小さくすると,必要な症例数は増大する. α と N の関係(日 = 0 . 2 0) 表2 両側有意水準 ( α ) 2 {Z α / 2 + Z p } 2 5%水準の N を d=SDのとき必要な N 100とした場合の N Z α / 2 1 .0 S ん 2 . 5 7 6 2 3 . 3 4 149 2.0% 2 . 3 2 6 2 0 . 0 5 128 5.0% 1 .960 1 5 . 6 8 100 10.0% 1 .645 1 2 . 3 5 79 20.0% 1 .282 9 . 0 1 57 例えば有意水準を 5%から 1%に厳しくすると,必要な症例数は, 5%水準の場合と比べ約 1 .5倍に増加する.両側検定を片側検定に変更する場合,有意水準は両側の倍になる.例 4 5 )をみればよく,必要な症例数は両側検定のがo 0 . 8 えば片側 5%の場合,両側 10%点(1.6 倍で済む.また多1 草で、実験を行って,多重性を考慮した検定,例えば Dunnett検定を行 う場合には, , ( 3 )式の z j を Dunnett検定の棄却l 限界値で置き換えればよい.当該の比 什 較を 1‑ sの検出力で検定できる 対!!日群を含めた 4 群の試験で,自由度無限大のとき Dunnett検定の両側 5%棄却限界値は 2 . 3 4 9となり, Dunnett検定で必要な例数は I I 伴あ たり 2X { 2 . 3 5 + 0 . 8 4 1 2=20.4で約1.3倍に明大する.実際には 41 洋で行うので,全例 X4=84となる 数は 21 表3 日エラー 日 と N の関係 ( i j [ j i { ¥ J I J α = 0 . 0 5 ) 2+ Z s } 2 2{ α ZI 3エラー 20%の Nを d=SDのとき必要な N 100とした場合の N Z s 50% 0 . 0 0 0 7 . 6 8 49 30% 0 . 5 2 4 1 2 . 3 4 79 20% 0 . 8 4 0 1 5 . 6 8 100 10% 1 .282 21 .02 134 5% 1 .645 2 5 . 9 9 1 6 6 ④日をノトさくすると必要なサンプルサイズは大きくなる 見逃しを防ぐため, s エラーを小さく設定すると必要な N は増大する.通常 R エラーの 検出力 90%) 大きさは 20%(検山力 80%) に設定することが多いが,少し厳しめに 10%( 7 7一
に設定すると. Z/ l は0 . 8 4から1.28と大きくなり,必要な N は約1.34倍に増大する.逆 に日エラーが 30%(検出力 70%) に増大することを許容すると,症例数は 0.79倍に減少す る. 3 . 生存時間解析の例数設定 生存時間解析の例数設計を行うために. Freedman式 4) と Shoenfeld式 5)が知られてい る.この二つの式では,症例の登録期間は考慮されず(全ての症例でフォローアップ期間が 一定であることを想定)また途中脱落による打ち切りも考慮されてない.それぞれ ( 6 ) .( 7 ) 式にしたがって . U 洋あたり必要なイベン卜数 dを算出し,仮説の下で想定される 2群を平 5 ) 均したイベントを起こした症例の割合で除すことによって .1群あたり必要な症例数 N を( 式にしたがって求める. N= 一 一一三土一 d 2‑7r1一円 2 群を併せたイベントの割合 方1 群 1の最終時点の生存率 引:群 2の最終時点の生存率 ( 5 ) 1 ‑7r.+1 ‑7 r ウ ‑7r.‑7r 2群を併せたイベントの割合= 2 2 =一一」ー→ 2 服一 M1 + Z一 1 ρm 一 z一/L +一 2 ︐ G Freedman式 l ( 6 ) S h o e n f e l d式 d { z α +zp}2'2 二 ( lo g ( H R )γ 人:群l のハザード ( 7 ) み:群2のハザード HR=人/み : 2 群のハザード比 どちらの式でも. 2つの群のハザード比 HRを見積もる必要がある.ハザード比は,臨床 家にとって直感的なイメージをつかむのが困難な指標であるが,し、くつかの試算法がある. ① 時 点 tでの 2群の生存率 S ( t )からの推定法 ( t )は次のように表される. 指数分布では時点 tの生存関数 S S ( t )=e x p ( ‑ λ1 ) また確率密度関数は J( t )=λ・巴x p ( λ1 ) となり,ハザード関数は η t ‑ ︒ ︒
s h( t )=f ( t )/ ( t )=λ となる.指数分布ではハザードが時点にかかわらず一定で λとなる .λ はH 寺点 tにおける 一 b UMO‑ =口 ‑訓一 f )O 一 口b = 町一 hλ ( t )が求まれば 生存割合 S として求めることができる. l ( t ),処置群の生存率を S 2 ( t )とする したがってある時点 tにおける対照群の生存率を S 8 )式のようになる. と , 2つの群のハザード比は ( HR=並豆迫) ( 8 ) ! o g S l( t ) ② メ デ ィ ア ン 生 存 時 間 (M) に基づく方法 メディアン生存時間(生存率が 50%に低下する時点)が判明している場合は,これから 寺聞の比の逆数 ノ¥ザード比を求めることができる.指数分布の場合は,メデ、ィアン生存 H がそのままハザード比となる.またワイフツレ分布の場合は,メディアン生存時間の比の 乗することにより,ハザード比が求められる.ただし yはワイブ、ル分布の形状母数 逆数をy である HR=f~ 1:指数分布 ( 9 ) HR=I笠 ! . . .Ir:ワイブル分布 ¥̲M 2) ( 1 0 ) tM , ) ③人年法によるハザードの推定 イベン卜を起こした症例についてはイベン卜発生までの時間,打ち切り症例について は打ち切りまでの時間を足し合わせた総観察時間と,イベン卜の総数が判明していれば, 人年法によるハザードの推定値を ( 1 1 )式で求めることができる. ノ¥ザード=総イベント数/総観察時間 ( 1 1 ) これを人年法によるハザードとよぶ.このようにして求めたハザードは, 4節で示す生存 時間分布に指数分布を仮定したときのパラメータ λの最尤推定量となっている. 4 . Freedman式 と S h o e n f e l d式の数理的背景 4 .1.指数分布に基づく推定と検定 Freedman式 と Shoenfeld式を説明するための準備として,指数分布の母数 λの最尤推 ワ l ハud
定について説明する. 最尤推定を行う場合,死亡した個体の尤度関数への寄与は,死亡する確率を表す確率密 )になる.これに対し打切りを受けた個体については,まだ死亡が起きてないわけ 度関数f(t であるから,いつ死亡したかについては情報は得られていない. しかし打切りを受けた時 点までは生存していた(死亡は起きるとすれば,この時点より後で起きた)ことはわかるの ( t )となる.個体 iが死亡であ で,打切りを受けた個体の寄与は,時点 tまで生存する確率 S ,打切りであれば 0をとるような変数を αとする.打切り症例を含めた尤度 Lは , れば 1 L=日[ f( t J iS( t Ji‑<'] ( 1 2 ) となる. ( 1 2 )式では α=1のときはf(t D,Ci=Qのときは S ( t Dをかけることになる. 生存時間分布に指数分布を仮定した場合 = 日 {λexp(一久)}口 {叫(‑A1, )}1口 = ) . ,d • e x p ( λ2 :1, ) ( 1 3 ) となる.ここで d は総観測数から打切りを受けた個体の数を除いた総イベン卜数である. 最尤推定では Lが最大になるような λを求める.このため通常は対数尤度を母数で微分した 有効スコア関数が 0 となるような λを求める.このようにして求めた λの推定値は前述のハ ザードの人年法による推定値と一致する.最尤法では求めたパラメータの精度を評価する 精微分したものにマイナスの符 ために情報量が用いられる.情報量は対数尤度を母数で 2I 号を付けたものである.この情報量の逆数が,推定値の分散になる. (パラメータが複数あ る場合は,対数尤度をパラメータベクトルで、 2 階微分したものにマイナスの符号を付けた ものが情報行列で,この逆行列が分散・共分散行列になる. ) 指数分布の場合の対数尤度と関連した統計量 = 対数尤度関数 : I o gL d. I o g λ λ2 :/ i 有効スコア関数 : 一 一 一 =‑=‑‑)f d一 足 ︿ぺ 一 一 A d 一 ob rL一 一 0τ2A ヨU 12 ︐Aニ 1i 一ペ C 2 一 最尤推定量の分散: rl 観測情報量 一 一 ' n 最尤推定量 θIogL d ャ θλλ....... h2 ゆl = ‑ j = 7 情報量の期待値をとったものを F i s h e rの情報量とよぶが,ここでは期待値をとらずに最 ハ n D υ H
尤推定値を代入している.この統計量を観測情報量とよぶが,サンプノレサイズが大きい場 合には,大数の法則により Fisherの情報量の近似とみなすことができる. 指数分布の場合は母数は一つであり,生存時間分布の違いはハザードを表す λに縮約され 2と表すと る.指数分布を前提に検定を行う場合,比較する 2併のハザード をそれぞ、れ λ,λ 帰無仮説 H oと両側検定の対立仮説 Hjは次のようになる. Hj:λ手 λ l Ho:λ j=~ λ 1,A 2の最尤推定値を h lと h2と置くと,帰無仮説を検定するために, h lと h2の差をそ 1 4 )式の Z統計量を検定等計量として用いる. の標準誤差と比較する.すなわち ( z= , h ‑h ̲1̲‑ム 二五一 ! h i+~2 ~V[hz ‑可 d2 ( 1 4 ) dl 上式で d l,d 2は各群の死亡数を表す.最尤推定量の分布は漸近的に正規分布にしたがうの で , z統計量の帰無仮説の下での分布は正規分布で近似できる. m さて,帰無仮説の下では λI=A2=λ なので, 2つの ーでほぼ ︐ d +一ウム d 一 d 一 L ・ 一 L ︐ d ︐ d . 一 h +一ウム LH 一 LH 一 ‑ 一 一 ‑ h h ‑一一‑ が成り立つ. ( 1 4 )式の分母を 2つの l j 干の平均の h と dで置き換えると z= hz‑hl とム二五一一主ニ主 となる h z‑h ‑~2:2 ーザ 5 下fF了 l z=Zα +Zs 等式は,各群のハザード h l,h2を与えると, dのみが未知数であり, この式を dについて 解くことにより,群当たりに必要な死亡数を求めることができる 解くと Freedman式が導かれる. ( h z‑ h Y =(zN+zn)2 = ヲ ' " μ ( 向 +hl)" 2d 1‑HR)2 ( ( 1+HR)2 )2 ( 1 ‑h l/h 2 2 / 1) ( 1+h l ち 2d 2d 実は等式を d について A 守﹄ OD
d={za+z p}2(HR+1)2 ‑ 2(HR‑ 1 ) " さて.2群間でハザードの差が Oであるとして検定統計量を導いたが,次のように帰無仮 説を設定することもできる. Ho:HR= Â;_ /~=l すなわち帰無仮説として 2群のハザード比が 1とおいてもよい.この式の対数をとると Ho: 10gHR=10g ん 10g~ =0 となる.対数変換したハザードの差が 0であることを示している. ( 1 4 )式では,変換前のハ ザードが Oであるかどうかを検定したが,ハザードは正の値しかとらず,このためハザー ドの推定値は歪んだ分布となるので,サンプルサイズが小さいときは正規分布による近似 はあまりよくない.これに対して,対数変換した場合,ハザードが l未満のときは負. 1を 越えるときは正の値をとり,正規分布の定義域ともあうようになる.このため正規近似の 精度が改善される.ハザードの推定値を対数変換した 1 0 g hの分散はデルタ法により近似的 に( 1 5 )式のようになる. 州 内1 0 ( 1 5 ) したがって,対数ノ、ザードの差が Oであるかを検定する場合の Z統計量は 一山寺 となる.やはり FI) ( 1 6 ) 帰無仮説の下では d lミ d zミ ( d l + d z )12ニdが成り立つので. d l .d zを dで 置き換えると z=~og( 包ゴ竺(hj) 与 l og(hゴ g (久 ) 2 )o となる.等式 z= 長)二 +zp α ‑82‑ ( 1 7 )
は,各群のハザード h j,hzを与えると, dのみが未知数であり,この式を dについて解く ことにより,一つの群当たりに必要な死亡数を求めることができる.実はこのようにして 求めた 1群当たりの死亡数は Shoenfeld式に完全に一致する. 以上示したように, Freedman式がハザードの差が 0であるかの検定に対応するのに対 (ハザード比 1 ) であるかの検定に対応 し , Shoenfeld式は,対数変換後のハザードの差が o する.二つの式を比較してみると + 四一ザ バ 一 四 ア白一 /tk ︐ G ヶ一 +一 2 Freedman式 Shoenfeld式 dー { z α +zp}22 ‑ ( lo g ( H R ) ) 2 Fr 田 dman式と S hoenfeld式は, { za +zp } 2の項を共通して持つ.またどちらもハザード比 HRに対する非線形関数となっている.そこで両式の違いを明らかにするため,非線形関数 )を aの周りでテーラー展開して を多項式で近似するテーラー展開を適用してみる.関数f(x 2次式で近似すると f " ( α) ( x‑a ) 2 f(x)主 f(α)+f ' (α)(x‑G)+2 ( 1 8 ) となる. log(HR)を lの周りでテーラー展開して 2次式で近似すると (HR‑1)2 (HR‑1)2 log(HR)今 l o g ( l)+(HR‑1) 一一て一一 =( H R ‑1 ) 一ーで一一 2 , ‑ ‑ ‑ ‑ , ‑ 2 f TT n " ( 1 9 ) となる.これに対し, f(HR)=(HR‑1)/(HR+1)を HR=lの周りでテーラー展開すると 町一 4 山一 2 ・一一. 一一+ m 一服 となる. したがって (HR‑ 1 ) 2一一一一一与 l o g ( H R ) (HR+1 ) が近似的に成り立ち,帰無仮説 (HR=l) の近傍では,両式はほぼ等しくなることがわかる. 実際には log(HR)の方が 2{(HR‑1)/(HR+1)}より若干大きめの値をとる.これは症例数設 計式の分母の方なので, Freedman式と比べて Shoenfeldの方が必要な例数は少なくてす , Shoenfeld: log(HR), Freedman: 2(HR‑1)/(HR+1 ),テーラー展開:(HR む.図 1に . 0まで変化させて比較した結果を示 1 )‑(HR‑1 ) 2/2 の 3つの関数を, HRを 0.4から 2 o凸 qu
した.ハザード比が 1に近いときは 3つの関数ともほぼ等しい値をとるが, 1から離れるに つれ絶対値は Shoenfeld > Freedman >テーラー展開の順になる. f u n c t l o n 0 . 8 0 . 6 0 . 4 0 . 2 0 . 0 T a y l o r ‑0.2 F r e e d m a n ‑0.4 S h o e n f e l d・ ‑・ ・‑ ‑0.6 ‑ 1 . 0 0 . 4 E 1 . 0 0 . 8 0 . 6 1 . 4 1 . 2 1 .8 1 . 6 2 . 0 同盟国間目。 S h o e ゆl d :l o g ( h ) F r e e d m a n :2 x ( h ‑ l ) j ( h +1 ) T a y l o r :( h一1 ) ‑ ( h ‑ l y j 2 図 1 :3つの関数形の比較 以上, Freedman式と Shoenfeld式が指数分布の母数の検定に基づいた方法であること を示した. しかし,これらの方法は一般に特定の分布を仮定しないノンパラメトリックな ログランク検定ベースの方法と呼ばれている.これは何故だろうか.実はノンパラメトリ ック検定でありながらログランク検定はハザード比の検定と密接な関連を有する. 4 . 2 . ログランク検定の結果に基づくハザード比の推定 図 2 :仮想、例 × × 2 2 3 4 4 5 6 9 ‑84‑ 唱 1 F h u ハU EA 実時間 ×一一一一一× 6 1 1
ログランク検定とハザード比の関連を,図 2の仮屯l 的な 2群試験の例を汀jし、て説明する. このデータについて LIFETESTプロシジャを mし、て,ログランク検定を実施するためのプ ログラムは次のようになる. 表4 ログランク検定のための LIFETESTのプログラム D A T AW O R K ; I N P U TG R O U PT I M EC E N S O R@@; C A R D S ; 14 1 19 1 15 1 21 0 1 26 1 2 1 11 P R O CL I F E T E S TD A T A = W O R KN O T A B L E : T I M ET I M E本C E N S O R ( O ); S T R A T AG R O U P ; R U N ; プログラムを実行すると,次のような出力が得られ,ログランク検定のカイ 2 乗統計量は 2 . 5 5 6 7となる.もちろん 1群の症例数が 3と少ないので有意にはならない. 表5 LIFETESTの出力結果 R a n kS t a t i s t i c s G R O U P L o g ‑ R a n k W iI c o x o n 1 1 . 5 1 6 7 7 . 0 0 0 0 2 ‑ 1 . 5 1 6 7 ‑ 7 . 0 0 0 0 C o v a r i a n c eM a t r i xf o rt h eL o g ‑ R a n kS t a t i s t i c s G R O U P 1 2 一. 8 9 9 7 2 2 1 O .8 9 9 7 2 2 2 一. 8 9 9 7 2 2 0 . 8 9 9 7 2 2 T e s to fE q u a li t yo v e rS t r a t a P r> C h i ‑ S q u a r e C h i ‑ S q u a r e D F T e s t 0 . 1 0 9 8 L o g ‑ R a n k 2 .5 5 6 7 0 . 1 1 7 5 W iI c o x o n 2 . 4 5 0 0 2 L o g ( L R ) 0 . 4 0 0 5 O .7 0 6 7 x2= 12 :( 0 , 2‑ E , 2 ) }2 乞 = i ‑ 1 .5167r=2.5567 V [I( O ' 2‑E, 2 ) ] 1 ( 2 0 ) 0.899722 このカイ 2乗統計量は, ( 2 0 )式に示したように群 2について各 H寺点ごとの観測死亡数 Oi2 と期待死亡数 Ei2の差を足し合わせてから (RankS t a t i s t i c s ) 2乗したもの(‑1 .51672)を,対応 する分散 ( 0 . 8 9 9 7 2 2 )で除したものである(群 1について同様の操作を行っても結果は同じに なる) .LIFETESTでは, 2つの.n平の観測死亡数と期待死亡数の差の分散共分散行列が CovarianceMatrixf o rt h eLog‑RankS t a t i s t i c sとラベルされて出力されているので,その 2行 2列目の要素が対応する分散になる.分散については,一般に超幾何分布に基づいて計 Fhu n x u
算されるが,死亡に同順位がない場合は, 2項分布に基づく分散と等しくなり,分散は ( 2 1 ) 式で与えられる. 川工仇 ここで, ( 2 1 ) niは時点 i において 2群を併せたリスク集合(時点 iの直前で死亡も打ち切りも起 こしてない個体の数)の大きさ, n i jは,時点 i の群 jのリスク集合の大きさを表し, pij=mj /niである. U=I C0'2‑E ' 2) J= V[ I COi2‑ Ei2)] とおくと, P e t o法では次のようにハザード比を推定する. HR=e x p ( U / 1 ) ( 2 2 ) 見方を変えれば, b=UI Iは対数ノ、ザード比 ( C o x回帰の係数 b )の推定値となっている. y ' A ︐ ︐ ︐ ︐ ︐ ︐ ︐ l hu ︐ l一一 l v v また bの分散は,近似的に であたえられる.先の例では b=U/ J=‑ 1 . 5167/0.899722=‑ 1 .6857 HR=e x p ( U / J )=e x p (‑ 1 . 6 8 5 7 )=0 . 1 8 5 3 V [b ]=1 /J=1 /0.899722=1.05426 となる. eto法で求めたハザード比は, 通常,ハザード比を推定するためには Cox回帰を行うが, P Cox回帰でニュートン・ラプソン法による反復計算を 1回しか行わない場合の推定値と一 致する.このことを次のプログラムにより確認する. 表 6 :反復計算を一回に制限する PHREGのプログラム D A T AW O R K ; I N P U TG R O U PT I M EC E N S O R@@; C A R D S ; 14 1 191 151 11 21 0 1 261 2 1 P R O CP H R E GD A T A = W O R K ; M O D E LT I M E * C E N S O R ( O ) = G R O U P / I T P R I N TM A X I T E R = l ; ρhu n 白
Cox回帰分析を行うための, PHREGプロ、ンジャでは, MODEL文で, MAXITER= 反復 回数オプションを指定することにより,反復計算の数を制限でき,表 6の指定では反復計 算は一回しか行わない. PHREGプ口、ンジャの出力は表 7のようになる. 表 7 :反復計算を一回だけ行った場合の PHREGの出力 T e s t i n gG l o b a lN u lIH y p o t h e s i s :B E T A = O T e s t C h i ‑ S q u a r e D F P r>C h i S q L i k e li h o o dR a t i o 2 . 4 7 2 0 1 0 . 1 1 5 9 S c o r e 2 . 5 5 6 7 0 . 1 0 9 8 W a l d 2 . 0 7 1 6 0 . 1 5 0 1 A n a l y s i so fM a x i m u mL i k e l i h o o dE s t i m a t e s P a r a m e t e r S t a n d a r d F E s t i m a t e E r r口r C h i ‑ S q u a r e P r>C h i S q V a r i a b l e D G R O U P 1 ‑ 1 .6 8 5 7 1 1 .1 7 1 2 0 2 . 0 7 1 6 0 . 1 5 0 1 H a z a r d R a t i o 0 . 1 8 5 確かに Peto法で求めた対数ノ¥ザード比一l.68571と一致していることが確認できる. ちなみに MAXITER=オプションを指定しないと二回で収束し,そのときの対数ノ¥ザード 比は‑l.68785となる.この例が示すように,一般に Peto法は Cox回帰によるハザード比 の推定値をよく近似できるが,推定値の絶対値が低めに評価されてしまう. (ノ、ザード比が 1 )かの検定は ( 2 3 )式 対数ハザード比とその分散から,対数ノ¥ザード比が O のように構成できる. 05 乞( O ' 2 ‑E' 2 ) t 05 z=[ 三 = ( U / 1 )・1 =U/1 = , v 'V[b] .JV[)~(O'2 ‑E, J ] ( 2 3 ) この Z統計量を 2乗したものがログランク検定のカイ 2乗統計量に等しくなる.以上示 したように,ログランク検定は対数ノ¥ザード比が 0,すなわち 2群間で 対数ノ¥ザードの差が Oかを検定していると考えることもできる.したがってログランク検定で例数設計を行う場 = z α 十 Zsになるようにすればよい. 合は, Z 帰無仮説の近傍では,分散 Iは d d 1=V [ I ( O , 2‑E ' 2 ) ]=I p " P ' 2= . :IO.5・0.5=2 ‑ = ‑=一 4 2 ( 2 4 ) 近似できる.すなわち,ハザード比が 1に近ければ,どちらの群でも同様に確率 0 . 5で死亡 が発生するので, . 5・ したがって pilpロミ 0 リスク集合の大きさはどの時点でも等しく, 0 . 5 = 1 / 4と近似できる ここで dは l群当たりの平均死亡数である p z zα + ¥11111J ノ 87‑ 5 上の式を dについて解くと, ︒一一 /fill‑¥ d一 2 v ︐︐︐. υ n 5 'O 一 一 Z ︒ ︐一一 したがって,
d{Zα+Zp}2・2 b " b=logHRであることに注意すると, S h o e n f e l d式に一致することがわかる.すなわちログ ランク検定に基づいた症例数設計は S h o e n f e l d式,あるいは HRが 1に近いときは, S h o e n f i 巴l d式とほぼ等しくなる Freedman式を用いて近似することができる.またログラ ンク検定ベースのハザード比の推定は Cox回婦の係数(対数ハザード比)が Oかを検定する場 合も精度よく近似できる.以上のように,少し奇妙ではあるが,パラメトリックに指数分 布を仮定した場合のハザード比の検定,セミパラメトリックな Cox回帰,ノンパラメトリ ックなログランク検定の 3つのアプローチのいずれを採用しても,例数設計については, ほぼ同様になる 5 .S ASでの症例数設計のプログラム 5 .1.症例数設計 有意水準両側 α=0.05, 日 =0.20で , 対照群 手術単独群の 5年生存率 薬 剤 昨 補 助 化 学 療 法 群 の 5年生存率 :0 . 6 5 :0 . 8 0 として,生存率からハザード比を求めて, Freedman式と Shoenfeld式に基づいて症例数 設計を行うプログラム例を次に示す. 表 8 : Fr 巴巴 d man式と S h o e n f l 巴l d式に基づく症例数設計プログラム d a t as a m p l e s i z e ; a l p h a = O ̲0 5 ; b e t a = 0 ̲2 0 ; t = 5 ; p c = 0 ̲6 5 ; p d = 0 . 8 0 ; h 2二 一 l o g ( p d ) / t ; h 1 = ‑ l o g ( p c ) / t ; h r = h 2 / h 1; z a = p r o bi t( 1 ‑ aI p h a / 2 ); z b = p r o bi t( 1 ‑ b e t a ); e f =( z a + z b )**2*( h r + 1 ) * * 2 / ( 2 * ( h r ‑ 1 ) * * 2 ); ニ2 *巴f / ( 2 ‑ p d ‑ p c ); n f * * 2 1( (I o g( h r ) )* * 2 ); 日s = 2 *( z a + z b ) n s二 2 *巴s / ( 2 ‑ p d ‑ p c ); p r o cp r i n t ; r u n ; プログラム中で変数EF,NFがFreedman式で、必要な 1 群あたりのイベント数と症例数, ES,NSがSho巴n f l 巴l d式で必、要な 1 群あたりのイベント数と症例数である.結果は次のように なる. nx u nx u
表9 Freedman式と S h o e n f e l d式に基づく症例数設計の結果 O B Salpha beta t pc pd h2 h 1 h r z a z b e f n f e s n s 0 . 0 5 0 . 2 50 . 6 50 . 80 . 0 4 50 . 0 8 60 . 5 21 . 9 60 . 8 43 8 . 9 21 4 1 . 5 43 6 . 2 81 3 1 . 9 3 h 1 )は 0 . 0 8 6となる.ハザードは 1/年としづ単位を 5年生存率から,対照群のハザード ( 持つことに注意する必要がある 寺問の単位が年ではなく,月で測られる場合は, 5年 生存 H 1 1 2に低下す の代わりに 60ヶ月で割ることになり,このときの単位は 1/月となり,値は 1 る.これに対し薬剤群ではハザード ( h 2 )は 0 . 0 4 5となり,ハザード比 (HR)は 0 . 5 2となる. Freedman 式では 1 群あたり必要な jfl~ 例数は 142 例, S h o e n f e l d式では 132例になる. 5 午時点の生存率 65%と 80%を生存・死亡の 2値データに基づいて検定するために必要な N を,参考のために示すと, u r : f '151例になる.生存時間解析では,単に生存の有無だけでは なく,生存時間の長さを評価し,情報量が増えるため,必要な症例数はより少なくなるこ とが確認できる. 5 . 2 . 検出力の評価 前節までは, α,s エラーの大きさ,対数ハザート、比(logHR)を与えて 1群あたり必要なイ ベント数 dを求めたが, 1ogHR,α,dを決めれば,戸エラーの大きさを求めることができる. 1から日エラーの大きさを引くと,検定の検出力になる. Freedman 式と Shoenfeld 式を Z~ について解くと, Freedman式 昨T[‑Z J 2 d Z ρ = α ( 2 5 ) I ‑ Z α ( 2 6 ) S h o e n f e l d式 VEIl叩 となる.この Zsを正規分布の分布関数と比較することにより,検出力を計算できる. SAS では, PROBNORM関数を利用して検出力が計算できる. 有志:水準両 { R l ja=0.05, N=150 対照群 手術単独群の 5年生存率 薬斉リ i 洋 補助化学療法群の 5年生存率 :0 . 6 5 :0 . 8 0 として,生存率からイベント数を求めて, Freedman式と S h o e n f e l d式に基づいて検出力 0に示す. を算出するプログラム例を表 1 ハud o o
表 1 0 Freedman式と S h o e n f e l d式に基づく検出力の計算プログラム d a t ap o w e r ; a l p h a = 0 . 0 5 ; b e t a二 0 . 2 0 ; . 8 0 ; n 1 = 1 5 0 ; n 2 = 1 5 0 ; t = 5 ; p c = 0 . 6 5 ; p d二 0 h 2 = ‑ l o g ( p d ) / t ; h l =ー l o g ( p c ) / t ; h r = h 2 / h 1; z a = p r o bi t( l ‑ aI p h a / 2 ); 巴 ニ ( n 1 * ( 1 ‑ p c ) + n 2 * ( 1 ‑ p d ) ) / 2 ; 巴 (* 2 ) * * . 5 * a b s ( ( h r ‑ 1 ) / ( h r + 1 ) ) ‑ z a ; z b f = z b s = ( e / 2 ) * * . 5 * a b s ( l o g ( h r ) ) ‑ z a ; p f = p r o b n o r m ( z b f ); p s = p r o b n o r m ( z b s ); p r o cp r i n t ; r u n ; プログラムでは 1群あたりの平均イベント数 ( e )を予測し,それから Z pを求め,検出力を 計算している.実行結果は次のようになる. 表 1 1 : Freedman式と S h o e n f e l d式に基づく検出力の計算結果 O B Salphabetat p c p d n 1 n 2 h 2 h 1 h r z a e z b f z b s p f p s 1 0 . 0 5 0 . 2 50 . 6 50 . 81 5 0 1500.040.090 . 5 2 1.9641.250 . 9 21 . 0 30 . 8 20 . 8 5 各群 1 5 0例のとき 1群当たりの平均イベント数は 41 .2 5となる.Z pは Freedman式では, 0 . 9 2,S h o e n f e l d式では1.03となる.標準正規分布で, z pを越えない確率が検出力で Freedman式 ( 8 2 % ),S h o e n f e l d式では ( 8 5 % )となる.例示はしないが, α,s ,dを決めて, logHRについて式を解けば,イベント数(症例数)と検出力を固定した上で,検出可能な効果 の大きさ(対数ハザード比)を求めることもできる. Freedman式と S h o e n f e l d式では,途中脱落や,患者登録期間が考慮されてない.これ らの要素を考慮する場合は,群当たりの平均イベント数がどのようなるかを評価をすれば よい.これらの症例数設計では比例ハザード性を前提とし,ハザード比を固定できれば有 意水準αが一定の下で、は,イベント数だけが問題になる.中間解析を行う段階の検出力を評 2 5 )式または 価することは重要であるが,この場合,中間段階での予測イベント数を求め, ( ( 2 6 )式に代入するだけで検出力を評価できる. ‑90一
6 ̲ より複雑な問題における症例数設計 6 ̲1.登録期間を考慮した検出力の評価 通常の臨床試験では,患者は逐次的に研究に登録され,一度に全症例が試験に組み入れ られるわけではない.例えば,登録期間を 2年で,その後, 5年間のフォローアップ期間を 設定した試験では,終わりの方に登録された症例のフォローアップ期間は 5年間だが,初 期の登録例は 7年近く追跡され,全員のフォローアップ期間を 5年とした場合と比べて, 期待イベント数は増え,若干,検出力も増大する.このとき登録期間を考慮、した検出力の計 算方法を次に示す.研究登録期間を R年,フォローアップ期間を T年とする.患者が一定 の速度で(範囲 O~R を確率密度 1 1R で一様分布にしたがう)登録されるものとする.このと き 1年当たりの 2群を合わせた患者登録数を n p e r y e a rとすると,期待される総イベント数 は Rxnperyearxイベントの割合 となる. ( e v e n tI t )とすると,登録時点 t 登録時点 tの個体の R+T年経過後のイベントの割合を P は O~R を 1 1R の確率で一様に分布するので, イベントの割合=〈 PM│f)id =1j:SMit)id ( 2 7 ) 十 = 1 となる.ここで 8 0は 2群を合わせた生存関数であり,時点 tで登録された患者が試験期間 R+T年中,生き残る確率が 8( R + T ‑ t )になる.生存iI寺間分布に指数分布を仮定すると, イベントの割合 = 1 j : e x p ( λ 山 什d 包 となる.ただだ、し入はハザ一ドを表す指数分布の母数でで、ある. この式を t が O~R の範囲で積 分すると, イベントの害恰 =1-~xp{λ (R+ T) }-(exp{λR}-l) R λ となる.イベン卜の割合から,総イベン卜数が求まれば, ( 2 5 )式または ( 2 6 )式を適用するこ p e r y e a r とにより,簡単に検出力を計算することができる.先の例で,年当たりの登録例数 n を1 5 0例,登録期間 Rニ 2年として, Freedman式ベースの検出力を求めるプログラムを表 1 2に示す. ハ ーよ UJV
表 1 2 :登録期間を考慮した検出力の計算プログラム data powerwithrt; r=2;nperyear=150;alpha=0.05; p c = O .6 5 ; p d = 0 .80;t=5; za=probit(1‑alpha/2); 一I o g(( p d + p c )/ 2 )/ t; lambda= ー l og(pc)/t;hr=h2/h1; h2=‑log(pd)/t;h1= n=nperyear*2; 1 )/I a m b d a ; pevent=l‑(l/r)*exp(‑lambda*(r+t))*(exp(lambda*r)一 e=n叩 event/2; zbf=(e*2)**.5*abs((hr‑1)/(hr+1))‑za; pf=probnorm(zbf); proc print;run; 結果は次のようになる. 表 1 3 登録期間を考慮、した検出力の計算結果 OBS rnperyear alpha p c p dtza l a m b d a h 2 12 1 5 0 h 1 h r n pevent e zbf p f 0.050.650.851 .960.060.040.090.523000.3247.951 .150.87 総症例数は 300{ 7 J Iと表 1 1 と同じであるが,登録期間を考慮することによりイベントの割 p e v e n t )は , (0.35+0.20)/2=0.275から 0.32に培大し, 1群当たりの平均イベント数 ( e ) 合( は 41 .25から 47.95に培大する.このため検出力 (pDは 0.82から 0.87に増大する.また各 時点で, どの程度の検出力があるかを評価することも可能で、ある.図 3に登録期間 2年終 了後,フォローアップ期間 0~6 年目までの各時点の検出力と 2 つの群を併せた期待イベン ト数を示した.登録期間終了直後でも,最大 2年間フォローアップされている患者がし、る ため 30%弱の検出力はある.フォローアップ期間中期待イベント数はほぼ直線的に培加し イベント数の増大に伴い検出力は増大する.フォローアップ 4年で検出力は 80%を越え, 登録期間 2年と合わせて,全試験期間が 6年あれば,検出力を 80%以上にすることができ 寺点を決めたり,患者登録の速度 る.このような検討はフォローアップ期間,中間解析の H を考慮して,参加施設数を検討するために有用である. u 〆 ︒nud
event n
猷3
PO~尼 R
1
.
0
0
.
9
0.8 t----------~
J
0
.
引
7i
~
0
.
6
i
/'"
~
一
一
一
一
0
.
2
i
.
.
.
.
‑
一
40
r
̲
.
.
.
.
.
.
.
.
.
〆
ノ,
O.
4i /'
0.3V
̲
.
.
.
.
̲
.
.
'
♂
'
/
/
.
回
̲
.
"
‑
̲"..
0
.
5
i
,
.
.
初
̲
.
・
‑
・
一
20
旬
v
。
0
.
1
。
0
.
0
1
3
2
4
5
e
図 3: フォローアップ期間による検出力の変化
実線:検出力
点線:イベント数
6
.
2
. 非劣性試験の例数設計
比例ハザード性を前提として,主J!胃、群のハザード、を λ1 ,実験 ~rr のハザードを λ2 とすると,
ノ、ザード比の優越性について片側検定で検討するためには,帰 AA~仮説 Ho と対立仮説 H j は
次のように設定される.
H,
:入1>λ1
H口
主
人2
:
入12
これに対してハザード比の非劣性について検討する場合は,帰無仮説と対立仮説を次の
ように設定する.
H, λ1+企 >λ2
Ho:ム+企亘 λ1
ここで
dはいわゆる非劣性マージンで,臨床的に許容できる差である.すなわち&のハン
デをつければ,実験 tr(: のハザードは対照 ~ff:のハザードより有意に低くなる.裏を返せば,
実験群のハザードは対照群と比べて,企以上高い可能性は棄却できる.
このとき Freedman式に基づいて,非劣性仮説を検討する場合, U洋当たりに要求され
る死亡数 dは次の式で与えられる.
]
2
)
2
α+ら (HR'+1
d
=
E
2(HR'‑I/
‑
(
2
9
)
ただし HR'=(
ん+企)/ん =HR+企/みである
前述の例について,企 /À2 を 0~-0.3 まで 0.05 亥 IJ みで変化させたときの Freedman 式に
基づく例数設計のプログラムを次に示す.
nud
qd
表 1 4 :非劣性試験の症例数設計のプログラム data inferiority; alpha二 0.05;beta=0.20; t=5;pc=0.65;pd=0.8 0 ; ー l og(pc)/t;hr=h2/h1; h2二 一 log(pd)/t;h1= za=probit(1‑alpha/2);zb=probit(1‑beta); do delta=O to ‑0.3 by ‑0.05; ef二 ( z a + z b )料 2本 (hr+deI ta+1)料 2/(2本 (hr+delta‑1)**2); nf=2*ef/(2‑pd‑pc); output; end; proc print;run; 結果は次のようになる. 5 :非劣性試験の症例数設計の結果 表 1 O B Salpha beta t pc pd h2 h 1 h r z a z b d e l t a e f n f 1 0 . 0 5 0.250.650.80.040.090.52 1 . 9 60 . 8 4 0.0038.92 1 4 1 . 5 4 2 0 . 0 5 0.25 0.650.80.040.090.52 1.960.84‑ 0 . 0 52 9 . 8 81 0 8 . 6 6 3 0 . 0 5 0.25 0.650.8 0.040.090.52 1.960.84‑0.1023.30 8 4 . 7 1 4 0 . 0 5 0 . 2 50.650.80.040.090.52 1.960.84‑ 0 . 1 51 8 . 3 9 6 6 . 8 6 5 0 . 0 5 0.250.650.80.040.090.52 1.960.84‑ 0 . 2 01 4 . 6 6 5 3 . 3 0 6 0 . 0 5 0.25 0.650.80.040.090.52 1.960.84‑ 0 . 2 51 1 . 7 8 4 2 . 8 2 7 0 . 0 5 0.25 0.650.80.040.090.52 1 . 9 60 . 8 4‑ 0 . 3 0 9 . 5 2 3 4 . 6 2 非劣性マージンを設定することにより,優越性試験 ( 1 1 = 0 ) と比べて必要な例数は,大幅に 減少することが確認できる. 6 . 3 . シミュレーションによる例数設計 表 1 6に示したような,より複雑な問題については,例数設計の公式は教科書レベルのテ キストには少なくとも記載されてない.このような場合,乱数を利用したシミュレーショ ンによって検出力を検討するのが簡便である. 必ハ守 口 同υ
表 1 6 : シミュレーションによる例数設計が必要な状況 1) プライマリーな解析として,一般化ワイルコクソン検定を用いる. 2) 生存時間分布としてワイブノレ分布などの指数分布以外の分布が想定される. 3) 2群で例数をアンバランスにしたし、(プラセボの割合を減らしたし、). 4) 3群以上でデザインしたい. 5) 比例ハザード的ではない効果を想定する. シミュレーションの手順は次のようになる. (計算公式等が知られていれば,それを用い て nを試算する. ) ① 想定する対立仮説の下で nを決めて乱数を発生させる. ② ①のデータについて検定を行い, α水準で、有意かどうかを評価する. ③ ①,②の過程を数百 数千回くり返し,有意になる割合を調べる.これが検出 力の推定値になる. ④ 検出力が不適切であれば nを変えて① ③の過程をやり直す ①のステップには, SASの乱数関数を用いることができる.次によく用いられる SASの乱 ・ 数関数を紹介する. 正規分布 〉 rannor関数 文法 r annor(s e e d) 例 ) xニ 1 00+20 ・ 2項分布 〉 *rannor(4989); 平均が 1 0 0で標準偏差が 20の正規分布 ranbin関数 文法 r a n b i n (s e e d,n, p) 例 ) xニ r a n b i n (5963,50,0 . 3 ); ・ n =5 0, Pニ 0 . 3 0 の 2項分布 指数分布 〉 ranexp関数 文法 r anexp(s e e d) 例 ) x= r anexp(4649)/ 0 . 2; ノ、ザードが 0 . 2 ( 期待値が 1 / 0 . 2 )の指数分布 生存時間解析の例数設計では,指数分布にしたがう乱数を発生させることが多い.指数 分布を発生させるためには RANEXP関数が用意されている.期待値が 1の指数分布にした がう乱数が発生するので,これを定数倍することにより,任意の期待値の指数乱数を発生 させることができる.またワイブル分布にしたがう乱数を発生させるためには, RAND関 数で 'WEIBULL'オプションを指定すればよい. 一般化ワイルコクソン検定の検出力を検討するためのプログラムを次に示す.前述の条 件で Freedman式にしたがし、例数設計を行うと 1群 1 42例となったので, 2群合わせて 284 ‑95‑
の乱数を発生させる.ただし,生存時間が 5年を越えたものは,この 1寺点で打ち切り扱い とする 2つの群で 5年生存率がそれぞれ 65%と 80%になるように指数分布のハザードを 調整する. 合計 1000組のデータを発生させ,それぞれについて LIFETESTプ口、ンジャを用いて, ログランク検定,一般化ウイルコクソン検定,尤度比検定を行い,その結果を ODS(Output DeliverySystem)の機能を利用して SASデータセット化し, FREQプロシジャで集計する. 表 1 7 : シミュレーションによる検出力の評価 data d a t a ; r 1二 一 [og(0.650)/5;r2= 一 [ o g ( 0 . 8 0 0 ) / 5 ; d o n=142;do i = l to 1 0 0 0 ; dose=O;do j = lt on ; t=ranexp(4989)/r1; c e n s o r = 2 ; i f t gt 5 then d o t=5;censor=0;end;output;end; dose=l;do j = l to n ; t=ranexp(4989)/r2;censor=2; i ft g t 5then d o t=5;censor=0;end;output;end;end; e n d ; o d s[ i s t i n gc [ o s e ; proc [ i f e t e s t data二 data time T*censor(O); s t r a t ad o s e ; b yn i ; ods output HomTests=out;run; o d s[ is ti n g ; data out;set o u t ; くP robchisqく0.05 then s i g n = l; e [ s es i g n = O ; i f0 proc freq;tab[es sign*test/nopercent n o r o w ; 9 6
結果は次のようになる.
表1
8
表
度数
l
シミュレーションによって評価した検出力
s
i
g
n*t
e
s
t
~IJ のパーセント 1-2Log(LRILog-RankIWi [
c
o
x
o
n
l
1
)
1
1
合計
1
一一一一一一一一一一一一一一+一一一一一一一一+一一一一一一一一+一一一一一一ーー+
o1
1
8
61 1
9
01 1
9
41
11
8
.
6
01 1
9
.
0
01 1
9
.
4
01
ーーーーーーーーーー
+ー
5
7
0
+ ー
ーーーーー+ーーーーーーーー+
11 8
1
41 8
1
01 8
0
61 2
4
3
0
18
1
.
4
01 8
1
.
0
0 1 8Q6
01
ー
ー
ー
ー
ー
ー
ー ー
合計
+‑‑‑‑‑‑‑‑+
1
0
0
0
ー+ーーーーーーー+
1
0
0
0
1
0
0
0
3
0
0
0
ログランク検定の検出力 8l
.4%に対し,一般化ウイルコクソン検定では 80.6%となり,
この例では一般化ウイルコクソン検定でも卜分な検出力があることがわかる.
7
. おわりに
SASでは現在のところ生存 H
寺問解析用のプロシジャは用意されておらず,本稿で示したよ
うにデータステップでプログラムを作成するしかないが, NQUERY等の標準的な例数設計
のソフトウエアでは様々な:伏況での例数設計が可能である G) 例えば比例ハザード性が成り
立たず,区分ごとで異なったハザード比を持った区分指数モデルを用いて,症例数設計を
行うことができる.
また世界最大の癌の臨床試験のグループ SWOG(SouthWestOncologyGroup)のホーム
ページでは,生存時間解析を含めた様々な例数設計のプログラムが無償で提供されており
, これを用いれば,生存時!日]解析で非劣性仮説を検証する場合の例数設計も可能である.
i
)
ICH以後,治験で患者一人当たりに必要なコストは激増した.無駄のない試験を行うた
めには,試験の計画段階で適切な症例数を統計的に見積もることが不可欠である.
‑参考文献
1
)
C
a
s
t
e
l
l
o
e,J
.
M
.(
2
0
0
0
),"
S
a
m
p
l
eS
i
z
eC
o
m
p
u
t
a
t
i
o
n
sa
n
dPowerA
n
a
l
y
s
i
sw
i
t
ht
h
eS
A
<
;
@ S
y
s
t
l
巳m,
" Proceedings ofIhe Twenty‑Fifih Annllα1SAS Users Group Inlernαl
i
o
nα
i
C
O
I
件 rence,P
a
p
e
r2
6
5
‑
2
5、C
a
r
y,
NC:SASI
n
s
t
i
t
l
l
t
eI
n
c
.
2
)
C
a
s
t
e
l
l
o
e,J
.
M
.a
n
dO
'
B
r
i
e
n,R
.
G
.(
2
0
0
1
), Powera
n
d Sample S
i
z
eD
e
t
e
r
m
i
n
a
t
i
o
nf
o
r
、
'
, ProceedingsofI
h
eT
w
e
n
t
y
‑
S
i
x
l
hAnnu
α1SAS UsersGroupInlernalional
L
i
n
e
a
rModels
C
O
I
件 rence,P
a
p
e
r2
4
0
‑
2
6
.C
a
r
y,
NC:SASI
n
s
t
i
t
l
l
t
eI
n
c
.
‑97一
3 ) 宮原英夫・丹後俊郎 ( 1 9 9 5 ) 医学統計学ハンドブック.朝倉出版 4 )Freedman,L .S .仕 ( 1 9 8 2 , ) 入 u s i n gt h el o g . r a n k旬 t e s 坑t , " ヘ ,'Stau 旨 ' st i c si n ヨλ Meめ d I α C . ' i n e,1 ,1 2 1 ‑ 1 2 9 . .( 1 9 8 1 ), "The a s y m p t o t i cp r o p e r t i e so f nonparametric t e s t sf o r 5 ) S c h o e n f e l d,D "Bl ・ ometn 正a ,68,316‑ ‑ 31 9 . comparings u r v i v a ld i s t r i b u t i o n s, .i e / n q u e r y / f e a t u r e s . h t m 6 ) h t t p : / / w w w . s t a t s ol 7 )h t t p : / / w w w . s w o g s t a t . o r g / s t a t / p u b l i c / d e f a u l t . h t m 1 9 9 5 ) 生存時間解析 東大出版会 8 )大橋靖雄・浜閏知久馬 ( 9 )C o l l e t t, D . ( 1 9 9 4 )Modellings u r v i v a ld a t ai nMedicalR e s e a r c h . ChapmanandH a l l . ‑98‑
口頭論文発表 統計解析
日本 SASユーザー会 (SUGI‑J) 区間打ち切り生存時間データのセミパラメトリックな解析法 の SASプログラムの紹介 ギブス=サンプラーを利用した周辺尤度アプローチ 0西山智 1, 2 吉村健 ̲ 3 l アベンティスフアーマ株式会社 2 東京理科大学 3 東京大学 Thesemi‑pa1'amet1'i cm o c l e lf o1' t h ea n a l y s i so ft i m e ‑ t o ‑ e v e n tdntawithi n t e1'v a lc e n s o1'i n g u s i n gSAS K e l l i c h iY o s h i l l lUl'a3 Hi1'o s h iN i s h i y a l l l a1, 2 1A v e n t i sPha1'r n aL td . 2T okyoUnive1's i t yo fS c i e n c c 3U nive1's i t yo fTokyo 要旨 区間打ち切り生存時間データに対して,区間打ち切りを無視した解析が行われるこ とが多い.本稿では,ギブス・サンプラーを利用した比例ハザードモデルのパラメー タ推定とそれを行うプログラムを紹介する. キーワード: 区間打ち切り生存時間データ,比例ハザード、モデル,ギブス・サンプラー 1 はじめに 区間打ち切り生存 H 寺間データは,研究者が対象とするイベン卜の正確な発生時聞が観察できず,あ る期間中に発生したことのみが情報として待られる状況で生じる.たとえば,臨床検査の結果のみに 基づいてイベントを定義する係な場合であれば,ある期間ごとに実施される臨床検査で陰性判定され た最後の検査日から陽性判定された最初の検査日までの期聞がイベン卜の発生情報として観察される. イベン卜がこの観察された区間のどこ泊、で発生している事は確かであるが、観察者には正維な発生時 間が分からない.図 1は,対象 α, b , dについてそれぞれ ( t l, t 6 ] .( 句 、t 7=∞ ) , ( t 3t 4 lという区間打ち ぅ 切り生存時間,対象 cについてはらという生存時間が観察されたとする仮想データである.このよう な区間打ち切りを受けることにより,観察対象ごとに区間の長さが異なる可能性があり,さらに特殊 な状況ではタイデータが多く存在しうるため、通常の統計解析手法は一般に用いる事ができない. i m p u t a t i o n ) ところが,現実の臨床試験においてこの様な状況はしばしば生じ,多くの場合には補完 ( を行うなどした上でこの区間打ち切りを無視したナイーブな解析法が用いられている.たとえば,よ 1i nU
α b t 6 t 1 t o 〉 k ト‑ 1 t t 3 4 t ̲ = ∞ 7 t 5 図 1 :4例の仮想データ く行われる陽性判定された最初の検査日をイベント発生時間とするのも補完の一種である.骨粗軽症 l i n i c a lF r a c t u r eおよび R a d i o l o g i c a lF r a c t u r e 例の新規脊椎骨折の観察研究では,骨折診断方法に C の両者を共に用いる事が一般的であるが,骨折というイベントを,前者は一般的に症状を訴えて受診 した患者に対する X 線撮影による一方で,後者は定期来院時の X 線撮影により判定する.前者であ ればほぽ正確なイベント発生時聞が観察される一方,後者であれば区間打ち切りを受けた上で観察さ れる.全ての症例が前者の状況で観察されたのであれば SASシステム (PHREGプ口、ンジャなど)で 提供されている通常の解析法の適用も妥当であるが,後者の様な状況で観察される症例が混在してし まっている場合において解析を妥当に行うためのアルゴリズムは現在の SASシステムでは提供され ていない. 本稿では,区間打ち切りデータ解析のための S a t t e n( 1 9 9 6 )の周辺尤度アプローチに基づくプログ ラムを作成したので紹介する.この方法の基本的な考え方は次のとおりである.生存時間解析にお いてよく知られている観察データの順位統計量を用いた Cox( 1 9 7 2,1 9 7 5 )の部分尤度に基づくパラ メータ推定では,発生したイベントの順序が特定される必要がある.しかし,区間打ち切りデータで は順序が一意に特定されないため,観察データに矛盾しない全てのイベント発生順序の組を考えて組 ごとの部分尤度を足し合わせた周辺尤度を構成するという Coxの部分尤度を拡張した形を考えるこ とになる.しかし,データ数が極端に少ない場合を除いて,一般に全ての可能な発生順序の組を考え a t t e n( 1 9 9 6 )はマルコフ連鎖に基づくモンテカルロ法 て尤度を構成する事は容易で はない.そこで S L (Markovc h a i nMonteC a r l o法: MCMC法)の 1つであるギブス・サンプラーを利用する事で,イ ベン卜発生順序の組を比例ノ¥ザード性を仮定した下での分布から発生させることにより,推定したい パラメータの事後分布を得るアルゴリズムを提案した.なお,ここで用いるギブス・サンプラーを始 めとする MCMC法はベイズ統計学で頻繁に利用される統計的推測法であるが,現在の SASシステ ムではベイズ統計学的な手法は提供されていなし、‑ 本稿で紹介するプログラムは,上述の骨折事例のような区間打ち切りを含む任意の打ち切りを含む 一般的な生存時間データに適用可能である.また,特に治験データへの適用を考えたとき,データ解 析に利用する統計手法の妥当性およびモデルの仮定に対する結果の頑健性が強く求められる.これに 関して,採用した方法は区間打ち切りでない正確なイベン卜発生時聞が得られた場合には一般に性能 の良さが認知されている Cox回帰分析に一致する.また,尤度の構成に関しでも Cox回帰分析の自 ‑102
然な拡張であるため受け入れられ易いと忠われ,母数の推定においても SASjPHREGプロシジャを 利用しているのでプログラムの妥当性の保証も容易であり,著者は紹介する方法および、プログラムが 広く利用されることを期待している 本稿では,まず,第 2章において S a t t e nの周辺尤度アプローチを概説すると共に作成した SASマ クロプログラムにおける推定方法を示す.続く第 3章で作成したプログラムの仕様および実際のデー タへの適用例を示し,第 4章では第 3章の実例の状況および区間打ち切りデータが観察される具体的 ないくつかの状況を設定してモンテカルロ・シミュレーションにより紹介する推定方法およびマクロ プログラムの性能評価を行い 最後に第 5章で考察する. 2 ギブス・サンプラーを利用した周辺尤度アプローチ 2 . 1 Satten(1996)の 周 辺 尤 度 ア プ ロ ー チ S a t t e n( 1 9 9 6 )は , K a l b e l e s c handP r e n t i c e( 1 9 7 3 )および P r e n t i c e( 1 9 7 8 )と同様に,潜在(結果) 変数である真の生存時間 T i ( i= 1, 2…‑川, 11 対象者数)の順位に関する周辺分布に基づき推論を 行った. K a l b e l s c handP r e n t i c e( 1 9 7 3 )および P r e n t i c e( 1 9 7 8 )は,データの背後に存在する(潜在的な)打 ち切りを受けていない生存時聞が,打ち切りが存在したことによって一部だけ観察されたと仮定した. 1 2, 69+, 3 2,112+とそれぞれ観察されていたとする いま, 4人 (A,B,C,D)の生存時間が 1 数字の 右肩の+は,その対象の観察が右側打ち切りを受けていることを示す. この場合,観察データに矛盾しない順位統計量ベクトルは, { ( Cs,AD ),( C,A,B,D ),(C、A、D,B ) } ラ 宅 の成分となる.たとえば対象 Bは生存時間が 2番目に大きい,あるいは 3番目に大きい 7 あるいは最 も大きい可能性がある.ここで,区間打ち切りデータに対する周辺尤度を,観察されたデータに矛盾 ω εr しない T i ( i= 1, 2 γ・ ・ ヲη )に対応する可能な順位ベクトル R(=( 7 '1, . . ., 1 ・ n ) 'ξ CA,CAは全ての可能な 順位)それぞれが生じる確率の和として以下のように構成する. 'EA ) ( 2 3μ R P 尤 度 辺 周 この p7'( R I s, X i )は R が与えられた下での Cox( 1 9 7 2 .1 9 7 5 )の部分尤度, I exp( β 'Xi) 1, 8 L ( β)= 口 │ │ ' 1L U E九 exp(β'Xu)1 に対応する.ただし, β はパラメータベクトル, ( 2 ) Ztは共変量ベクトル ,0 ;はイベントを観察すれば1, それ以外は Oをとる指示変数,および R iは Tiでのリスクセットである. 4E' ηベU ハ U
2 . 2 パ ラ メ ー タ β の(点推定)事後分布の推定方法 1 ))は,データ数あるいは区間打ち 前節で構成した(区間打ち切りデータに対する)周辺尤度(式 ( 切りを受けた対象が少ないために可能な順位ベクトル R の個数が少ないような特別な場合を除いて, 一般にはデータとパラメータの関係が複雑で、簡単にはパラメータ推定を行うことができない.そこで S a t t e n( 1 9 9 6 )はギブス・サンプラーを用いて ,Rの系列をタの下で確率的に発生させる事によりパ ラメータの事後分布を得る手順を考えた.著者は, S a t t e n( 1 9 9 6 )の考えをアレンジして以下のパラ メータ(点推定)事後分布を得るアノレゴリズム S t e p1.~Step 4 .のプログラムを作成した. S t e p1 . 任意の比例ハザード族に属する(生存時間)分布を決める.本稿では, S a t t e n( 1 9 9 6 )の方 法とは若干具なり観察された区間の左側・右側時間による切断分布とする.なお,この 切断はデータに矛盾しない順序の生存時間データを発生させる事に対応する.通常,簡 /入の指数分布を用いる. 単のために期待値 1 S t e p2 . 前回(第 5‑1回)て、得たパラメータ推定値/3(5‑1)および共変量 Xi(=(XilヲXi2, ・ ・ ・ ヲ Xip)', i 1, 2, . . ., n, p 共変量の個数)を与えた下で,時間 t i( t i 二 X /入,X~ Exp(l)ヲ入= ; ' ( 5 ‑ 1 ) 入o e x p (β 'Xi)) を観察された各対象の区間内に入る乱数を発生させ生存時間とする. 5 ) ) ',第 l回目では適当な初期値 β ( 5 )= ( β i5 ) , ß~5) ,... , ( 0 )を与える ただし β st なお,木 ( 0 )=0とした. 稿では初期値 β S t e p3 .S t e p2 .で発生させた生存時間に対して, SAS/PHREGプロシジャを用いて Coxの比例 ; ' ( 5 ) ノ¥ザード モデソレを適用する.ここで推定された推定値を第 s個目の推定値 β ; ' ( 5 ) S t e p4 .Step2 .から S t e p3 .を適当な数 G+Kの β とする. ( 5 1 , 2 , ・ ー ・ 、 Gぃ・ぺ G+K)が得られるま 二 で繰り返し,第 G+1回から第 G+K回まで、の平均値/3=去 Z C A 1 9 ( S )を母数の最終 点推定値とする.また,反復それぞれにおける母分散の推定値をすい)とする . Gおよび K については後述する. 2 . 3 パ ラ メ ー タ βの 母 分 散 の 推 定 方 法 前節の S t e p3 .の反復ごとに得られる母数分散の推定量は実際の観察データの母数分散推定量とし てはバイアスが存在し不適切である.それは,各々の反復で発生させた順位統計量は完全データで あり,実際に観察された順位情報(不完全データ)より多くの情報を持っていることに起因する. し たがって,母数分散の事後分布から直接待られる分散の推定量の期待値は,母数の真の分散に対し て必ず等しし、かあるいは過小評価となる.これと同様の問題は, EMアルゴリズム ( Dempstere tα う ょ 1 9 7 7 )を用いた推測においても生じる. EMアルゴリズムの枠組みにおいては, L o u i s( 1 9 8 0 )がこの 過小評価の大きさを導き,その推定法を提案している. L o u i s( 1 9 8 0 )によると,母数の情報量 I yは 以下のように得られる. I y=I ( β)ニ I x‑I xI Y ( 3 ) ただし , X:完全データ, Y:不完全データである.すなわち,いま知りたい母数分散 l 々は情報量 I y の逆数として得られる. 4BL aハ苛 ハ U
ここで,式 (
3
)の右辺第二項は母数の最終点推定値を与えた下でのスコア関数の分散に置き換える
t
e
p5
.~ S
t
e
p6
.を以
ことで推定できる.紹介するプログラムにおける母数分散の推定アルゴリズム S
下に示す.
。‑
;.(C+K)
S
t
e
p5
. 前回(第 G + K巨J
)のハフメータ推疋値 β
J
.
‑
.
.
L
/
.
.
!
.
.
,
‑
L
噌
を用いて , S
t
e
p2
.から S
t
e
p3
.を K回繰
り返す.ここで,反復ごとの通常のスコア推定値ではなく,反復それぞれのスコア関数の
~T(S)
母数に最終点推定値 β を代入したスコアを U
'
"
I(
5ニ G+K+1,
G+l
て+2,
・
・
・ ,
G+2K)
とする.ここで,スコア関数 U は Coxの部分尤度(式 (
2
)
)の対数を一階微分した下式よ
り得られる.
U
二
l
n
L
(
β
) ゃ (
U
(
β)= 一 一 一 =γ 川 z
ム
Jγ
2
二tERix"exp(β'x
1
l
)
¥
i
L
:
l
1E R exP
(
β'
x
u
)J
i
S
t
e
p6 式 (
3
)の右辺の第一項,第二項の推定値を, 1
)
頃に Ix
V
‑
;
'
r
(
U
)
去Z
E
J
1
1
(
1
/サ(へん IY
J{~1 L:~=+J:山 (û(s) ̲ 0)2 と し , 母 数 分 散 の 推 定 値 す y ニ l/Iy
'
T
1 " , C+2K
T
‑
T
(
S
)
l
/
(
I
x‑I
X
I
Y
)を得る.ただし , U ニ
去 Zs=C+K+1U である.
ー
なお , S
t
e
p5お よ び S
t
e
p6
.のスコアの分散推定のためのプログラムは,
いて作成した
SAS/IMLプロシジャを用
t
e
p1.~Step 6
.においてギブス・サンプリングの反復を合
このアルゴリズムでは , S
計 G+2K回行う.
3 作成したマクロプログラム (%phregintcens)
3
.
1 仕様
本マクロプログラムはごく簡単な指定のみで実行できるように工夫した.事前準備として,打ち切
りの左側,右側 H
寺閉それぞれに対応する変数および共変量を含む解析用データセットを用意する.打
ち切り時間に対応する変数の入力方法を表 lに示す.これは,
SAS/LIFEREGプロシジャにおける
打ち切り生存時間を含むデータ解析に使用するデータセットと同様である.
表1:打ち切り時間変数
左側時間
右側時間
I
非欠担J
非欠担J
I
非欠測
非欠測
欠測
非欠測
非欠測
欠測
非欠測
非欠測
欠担J
I
欠測
解釈
比較
非打ち切り(正確なイベン卜発生時間)
左側時間<右側時間
区間打ち切り
左側打ち切り
右側打ち切り
解析に用いない
寺問>右側時間
左側H
解析に用いない
次に,作成したマクロ (
%
p
h
r
e
g
i
n
t
c
e
n
s
)のヘッダーヵ、ら入出力パラメータの説明部分を抜粋したも
のを表 2に示す.
戸
ハ
川U
υ
h
4ム
1
表 2・マクロ ( σ % p h r e g i n t c e n s )の入出力パラメータの仕様 Input :DATA.sas7bdat(dataset to 臼 a1yze) LOWER : 1eft censoring time variab1e UPPER :right censoring time variabe COVARIATES: exp1臼 atory variab1es(numerica1,de1imited by space) BETAO : initia1 va1ues of par四 eters(de1imitedby space) NiteG :number of iteration of Gibbs samp1ing unti1 stationary NiteK :number of iteration of Gibbs samp1ing for estimating the SEED : seed of exponentia1 randam variab1e posterior distributions of parameters Output: Point estimate,SE,Hazard ratio,95%CI of hazard ratio and Fig of cha 且g e of parameter estimate %phregintcens(DATA,LOWER,UPPER,COVARIATES,BETAO,NiteG,NiteK,SEED); このマクロプログラムは,任意の数の共変量の推定を入力パラメータ COVARIATESにスペース を空けて入力することにより実行する.ただし,共変量の変数のタイプは数値とし,交互作用につい l a s sステートメン卜に対応していなし、). てはダミー変数を作成して入力する (PHREGプロシジャの c 本稿で紹介したギブス・サンプラーを利用した方法では,サンプル数(イベン卜数)およびサンプ リング回数が十分に大きい下で,パラメータ βの推測に対して基準分布は比例ハザード族であれば 任意でよい. しかし作成したプログラムでは推定精度の向上を期待して,区間打ち切りデータの右側 時間に対して,指数分布を SAS/LIFEREGプロシジャより推定し,この推定値を第 2 . 2節 S t e p1 .の 基準分布とした. 本稿では,パラメータの推定事後分布が定常となるのに必要なギブス・サンプラーの反復数 G を 1000固とし,事後分布の推定に使用するサンプリング数 K も同様に 1000固とした.この妥当性につ いては後で考察する. またタイデータの処理には Efron法を用いた.正確法としなかったのは第 2 . 3節の S t e p5 .および S t e p6 .におけるスコア関数の SAS/IMLプロシジャの記述に関して,正確法の尤度に基づいた記述を することが難しし、からである.点推定については,本プログラム中の SAS/PHREGプロシジャ Model 文のオプションを t i e s exactと変更することで正確法に基づいた推定を行うことができる.実用上 二 は,オプションを ties=exactに変更して分散の過小推定分のみを Efron法で推定しでも推定値に対 する影響は小さいと考えられる. 3 . 2 適用例 Whitehead( 1 9 8 9 )に掲載されている胃潰蕩および胃癌再発をイベン卜とした 301症例の臨床試験 データを用いる.このデータには,ランダム害J I付された 2治療群の試験開始・ 6ヶ月・ 1 2ヶ月時の内 視鏡検査によるイベント発生および 4つの女変量の情報を含む.ただし,患者の症状の訴えにより f 106‑
ベン卜発生の情報が得られている場合もある.ここでは,共変量 G (2治療群)および Ageを用いて, 定期の内視鏡検査によりイベン卜発生が観察された場合は区間打ち切りデータ,また患者の症状の訴 えに基づく内視鏡検査でイベン卜が観察された場合は正確なイベン卜発生時聞が得られたものとして 2ヶ月時で観察打ち 解析した.イベントタイプの内訳は,正確発生時間,区間打ち切り時間,および 1 切りの 1 ) 買に 4 9例 , 2 1例 , 2 3 1例である.なお,このデータは C o l l e t t( 1 9 9 4 Chapter .8 )にも区間打 ラ ち切り生存データ解析の例として取り上げられている. SASデータセット ULCERには,上記事例の打ち切り時間を表 Iに倣って変数 LOWERおよび UPPERに,また共変量の群と年齢をそれぞれ変数 G と AGEに入力されている.以下に示す表 3お よび図 3は下枠を実行することにより得られる.ただし,作成したマクロプログラムが実際に出力す るパラメータの推移図は 2 0 0 0回 (G+K回)までである. %phregintcens(DATA=ULCER,LOWER=LOWER,UPPER=UPPER,COVARIATES=G a g e, BETAO=O 0,NiteG=1000,NiteK=1000,S E E D = 4 6 4 9 ); この場合の計算時間は, I n t e l @Pentium@4CPU2.80GHzメモリ1.5GBの PCで 4 4 0秒であった. ギブス・サンプラーによるパラメータ推定値の推移を図 3に示す.この推移は,反復 1万回の推定 値の 1 0回ごとの平均値である.パラメータの推定事後分布が速やかに定常となることが分かる. Treat ‑ { )193 Age ‑ { )194 ‑ { )195 ‑ { )1 9 6 ‑ { )1 9 7 ‑ { )1 9 8 ‑ { )1 9 9 ∞ ‑ { ) 2 。 由 ‑ { ) 2 D 1 ‑ { ) 2D 2 1000 2日x l = 4 ( 工 ぬ 5 C X X J 60 : 泊 I teration 。 7日x l 8 D C O 9 日x l1 c x x 幻 1000 2 日x l 3C X X l 4 ( 工 ぬ 5 D C O 6江x l 7000 8 D C O 9日Xl 1αX 泊 I t e r ョtion 図 2 : ギブス・サンプラーによるパラメータ推定の推移 ギブス・サンプラー (G=K二 1 0 0 0 )による推定結果,および右側時間をイベン卜発生時間とした Cox 回帰分析による推定結果を表 3に示した.この事例では, COX回帰分析とギブス・サンプラーの推定 結果が点推定値が若干異なり,信頼区間幅はギブス・サンプラーのほうが多少広いことがわかる.し かし,この状況においてギブス・サンプラーの方が正確な推定法であることを次章でモンテカルロ・ シミュレーションを用いて示す. 4 性能評価 本章では,紹介するプログラムの性能を具体的な状況を複数設定してモンテカルロ・シミュレー ションにより評価する.同時比較対象として,一般に良く行われている初めてのイベン卜観察時聞を イベン卜発生時間とした(右側補完)通常の COX回帰分析による推定結果を示す. 1 0 7
表3 : 推定結果 推定法 パラメータ ギブス・サンプフー T r e a t Age 右側補完 T r e a t Age 推定値 標準誤差 ノ、ザード比 [95%信頼区間 l ー 0 . 2 3 9 4 0 . 8 2 0[ 0 . 5 1 3, , ‑ , l .3 1 1 ] 0 . 2 0 7 9 ‑ 0 . 0 1 5 2 0 . 0 0 7 8 0 . 2 3 0 5 0 . 0 0 6 8 0 . 9 8 5[ 0 . 9 7 0 " ‑ 'l .0 0 0 ] , ‑ , l .2 7 6 ] 0 . 8 1 2[ 0 . 5 1 7, 0 . 1 9 8 2 0 . 0 1 4 9 0 . 9 8 5[ 0 . 9 7 2 " ‑ ' 0 . 9 9 8 ] 4 . 1 状況設定 各i 洋1 0 0例の 2群比較を考えて,生存時間分布に指数分布および共変量の効果に比例ハザード性を 仮定する.ここで,観察スケジュールを次の 5通り設定する. スケジュール A: 基準群の生存分布を入。=1の指数分布,および観察間隔は 2群の全観察対象で 各々独立な入 =2指数分布に従うとする. スケジ ュール A ':スケジュール A において t= 0 . 4で観察打ち切りとする.たとえば,骨粗転症に おける新規骨折をイベン卜とするような長期に渡る観察研究においては,観察期 間中のイベン卜発生率が 2~4 害IJ であることも珍しくない.この場合,イベント 発生率は約 33%である. スケジュール B: 群間で区間打ち切りの間隔幅が異なる場合として,基準群の生存分布を入。二 1 の指数分布,基準群および比較群の対象の観察間隔をそれぞれ入=1 ,l .5の各々 独立な指数分布に従うとする. スケジュール C: 抗がん剤のランダム化臨床試験の例として,基準群の憎悪までの期間の分布を 入。ニ lの指数分布とする.比較する 2群に次のレジメンを考える.標準レジメン 8日間,検査日 (基準)鮮:各コース Day1に抗がん剤の投与を行う. 1コースは 2 は各コース Day1のみとする.強化レジメン群:各コース Day1および Day15に 8日 間 , 入 院 を 必 要 と す る 治 療 と 想 定 し ‑ 抗がん剤の投与を行う. 1コースは 2 の場合は憎悪までの時間は正確に測定できるものとする. スケジュール D: 第 3 . 2節の事例に沿って共変量を群および年齢の 2っとした状況を考える.対 0,分散 1 52の正規分布に従うものとす 象それぞれの年齢は互いに独立に平均 5 る.基準生存分布を入。 = 0 . 0 5の指数分布,および時刻 0, 6, 1 2で観察が実施され るとし , ir~ および年齢に対応する真のパラメータをそれぞれ ßl 二一 0.2 および β2ニ 0 . 0 1 5とする.ただし,事例は正確なイベント時間を含む生存時間データ が観察されているが,ここではイベント発生日寺間はすべて区間打ち切り生存時間 とした. A ', BCについては,推定するパラメータ s J(基準群に対する他方の群の効果)の真似 スケジュール A, . 5,‑ l .0の 3通りで検討する. を 0,‑ 0 1 0 8
表 4 : シミュレーション結果 1 観察スケジュール 推定法 A ギブス・サンプフー sI ) s l ) 推定値 ( 真値 ( 。 ‑ 0 . 5 ギブス・サンプラー ー 0 . 5 ー 0. 49 73 9 5 . 3 9 5 . 22 。 ー 0 . 9 5 9 3 9 3 . 9バ 0 . 0 1 2 4 ‑ 0 . 5 ‑ 0. 49 94 l . l7 48 0 . 0 2 2 5 ‑ 0. 4807 右側補完 C ギブス・サンプラー ‑ l . l4 04 ‑ 0 . 5 ‑ 0. 40 4 1 ‑ l .0 。 ‑ 0 . 8 8 1 9 9l .2 0 . 2 5 3 3 ‑ 0 . 5 ー 0 . 2 0 4 3 5 8 . 2 4 6 . 0 l .0 。 ‑ 0 . 7 0 1 8 ‑ 0 . 0 0 7 5 5 0 . 0 9 4 . 7 * 3 ‑ 0 . 5 ‑ 0 . 5 0 3 0 。 ‑ l .0 039 ‑ 0 . 0 9 1 0 9 5 . 5 * 3 9 5 . 1* 3 ‑ 0 . 5 ‑ 0 . 5 6 8 2 ー l .0 ‑ l .0 520 ‑ l .0 右側補完 ¥ 。 ‑ 0 . 5 B 本 ‑ l .0 。 ギブス・サンプラー 本 9 5 . 5 9 5 . 3 9 7 . 9 9 5 . 7 9 5 . 7 9 7 . 6 9 6 . 0 9 2 . 7 ‑ l .0 右側補完 9 6 . 4 9 4 . 02 9 5 . 6l 。 ‑ l .0 A ' の被覆割合(%) 0 . 0 0 3 2 ‑ 0. 46 76 ー l .0 090 0 . 0 0 0 0 ‑ l .0 右側補完 95%信頼区間 0 . 0 5 0 0 9 2 . 1 ' 3 9 4 . 1* 3 9 5 . 0 * 3 本1:1 0000回,本 2 :5000回,勺: 2000回,その他: 1000回 4 . 2 結果 モンテカルロ・シミュレーション 1 000回による推定値(最終点推定値の平均値)および 95%信頼区 c o v e r a g ep r o b a b i l i t y )を表 4および表 5に示す. 間の被覆割合 ( .A'では,ギブス スケジュール A サンプラーと右側補完で同保に安定した推定結果が得られてい る. しかし,スケジュール Bのように群!日]で区間打ち切りの間隔怖が大きく異なるような場合では, 通常'の推定方法(右側補完)では点推定値および区間推定ともにまったく妥当でないことがわヵ、る.こ 明 日 jで区間打ち切り l 協が異なっている場合でも比較的安定した抱 れに対して,ギブス.サンプラーは j , {洋間で観察されるイベントデータのタイプが異なってい 定が行われている.またスケジュール Cは る状況であり,通常の推定法では点推定および区間推定ともに推定値にバイアスがあるが,ギブス・ サンプラーで‑は点推定の精度が良く,区間推定の精度も安定している.さらに,共変量が 2つ(A洋・ 411 nud ハ 川U
年齢)の場合のスケジュール Dでも,通常の推定法は区間推定の精度が悪いのに対してギブス・サン プラーは安定した推定結果が得られている. 全体として,通常の推定法(右側補完)は点推定の精度が悪く,区間推定はリベラルな傾向(被服割 合が 95%より小さしつであり有意水準が保たれないという観点から妥当でない.これに対して,ギブ ス・サンプラーは常 l こ精度良く点推定が行われており,区間推定は正確あるいは保守的(被服割合が 95%以上)な傾向となり妥当な推定法と言える. 表 5 : シミュレーション結果 2 ( 2 5 0 0回) 観察スケジュール 推定法 パラメータ 真値 ( β ) 推定値 ( β ) D ギブス・サンプラー β 1( 群 ) β2(年齢) β 1( 群 ) s 2( 年齢) ‑ 0 . 2 ー0 . 0 1 5 ‑ 0 . 2 ー0 . 0 1 5 右側補完 ‑ 0 . 2 0 8 2 ー0 . 0 1 5 4 ‑ 0 . 2 0 8 0 ‑ 0 . 0 1 5 4 95%信頼区間 の被覆割合(%) 9 5 . 2 9 4 . 6 9 3 . 2 9 2 . 0 5 考察 5 . 1 ギブス・サンプラーについて K,および推定 ギブス・サンプラーを適用することの問題点は,ギブス・サンプラーの反復数 G+ するパラメータの初期値 β(0) の選択に解析実施者の自由度が入ることである.前者は,パラメータ の推定事後分布が定常であるとするための反復数および事後分布の推定のための反復数のことであ . 2節の事例(図 2 )のように推定するパラメータが少ない場合であれば反 るが,著者の検討では,第 3 復1 0 0 0回で十分,あるいはもっと少なくても良さそうである.これは,今回の状況でサンプリング に用いる指数分布の性質が良し、からであると思われる.ただし,反復 1万回でも通常に使用されてい る PCで実行可能なので, 卜分多くの反復を行いその推移を図示することが重要で5あろう.また,十 分な検討は行っていものの母数推定のためのサンプリング数 K を増やすと精度の向上が期待できる. 後者の初期値については,十分な反復の下で収束先は同じであり,また通常は Oで良いと考えられる が,収束速度が遅くなるような場合があるかどうかは未検討である. 5 . 2 加速モデルへの拡張 SAS/LIFEREGプロシジャでは,区間打ち切り生存時間データに対応した解析法が用意されてい るが,著者が予備的に前章と同様の検討を行ったところ推定精度が悪かった.本稿で紹介したギブス・ サンプラーの考え方は加速モデ.ルにも適用可能であり,これは今回作成したプログラムの簡単な修正 により実行できる. また,著者の検討では,スケジュールA'. B . Cのように観察期間が定められておりイベント発生数 が少ないデータに対する推測は,そもそも区間打ち切りでない正確なイベント発生時間が得られる場 ハHU 1A 1A
合で、あってもパラメータ推定にバイアスが入る.すなわち,現状考えうる推定法ではこのような状況 において加速モデ、ル(パラメトリックモテ ル)の正確なパラメータ H f :定は難しいと思われる. 6 おわりに Yoshimurae ta l . (2003)は,本稿で紹介した方法の理論的側面の妥当性および多変量の区間打ち切 り生存時間データに拡張した推定方法について今後報告する予定である.また,紹介したマクロプロ グラム(%p h r e g i n t c e n s )および事例データを作成するフ。ログラム ( U l c e r. s a s )は,東京理科大学「医薬 w w . r s . k a g l l . t l l s . a c . j pj y o s h i l a b j i y a k l l jt o p . h t m l )に公開する予定である. 統計コース」ホームページ(w 参考文献 1 .C o l l e t , tD .( 1 9 9 4 ) .M o d e l l i n gs l l T v i v a ld α t αi nmedic α1r e s eαr c h . Chapman& Hal. l DR .( 1 9 7 2 ) .R e g r e s s i o nmodelsand1 出 t a b l e( w i t hd日 l l s s i o n ) . JRSSB3 4 :1 8 7 ‑ 2 2 0 . 2 .Cox, .( 1 9 7 5 ) .P a r t i a lL i k e l i h o o d . Biom α t叫 α62:2 6 9 ‑ 2 7 6 . 3 .C o x .DR 4 .Dempster,AP.,L a r i d,NM.andRl 耐 n DB.( 1 9 7 7 ) . MaximllmL i k e l i h o o dfromi n c o m p l e t e datav i aE Ma l g o r i t h m( w i t hd i s c l l s s i o n ) . JRSSB39:1‑38. 5 .岩崎学 ( 2 0 0 2 ) . 不完全データの統計解析.エコノミス卜社. 6 .K a l b e l e s c h, JD.andP r e n t i c e, RL.( 1 9 7 3 ) .M a r g i n a l l i k e l i h o o d sbasedonCoxヲsr e g r e s s i o nand i o m e t r i kα60: 2 6 7 ‑ 2 7 8 . l i f emode. lB .( 2 0 0 2 ) . Thea n a l y s i so fm u l t i v a r i a t ei n t e r v a l ‑ c e n s o r ds u r v i v a ld a t a . 7 .Ki瓜 MY.andXue,X S tαt .λ 1 e d .2 1 :3 7 1 5 ‑ 3 7 2 6 . 8 .L o u i s,TA. ( 1 9 8 2 ) . Findingt h eo b s e r v e di n f o r m a t i o nmatrixwhenu s i n gt h eE Ma l g o r i t h m . JRSSB4 4 :2 2 6 ‑ 2 3 3 . 1 9 7 8 ) .L i n e a rrankt e s t sw i t hr i g h t ‑ c e n s o r e dd a t a .B i o m e t r i kα65: 1 6 7 ‑ 1 7 9 . 9 .P r e n t i c e,RL.( I lf e r e町 ei nt h ep r o p o r t i o n a lh a z a r d smodelf o ri n t e r v a l 1 0 .S a t t e n . GA. ( 1 9 9 6 ) . Rank‑based i i o m e t r i kα83: 3 5 5 ‑ 3 7 0 . c e n s o r e dd a t a .B J .( 1 9 8 9 ) . Thea n a l y s i so fr e l a p s ec l i n i c a lt r i a l s .w i t ha p p l i c a t i o nt oacomparison 1 1 .Whitehead, tαt . Med. 8 :1 4 3 9 ‑ 1 4 5 4 o ftwou l c e rt r e a t m e n t s .S .a n c lO h a s h i .Y .Thes e m i ‑ p a r a m e t r i cmodelf o rt h ea n a l y s i so f 1 2 .Yoshimurみ K,Nishiyama,H m l l l t i v a r i a t et i m e ‑ t o ‑ e v e n tc l a t aw i t hi n t e r v a lc e n s o r i n g .( t obep r e s e n t e da tJ o i n tS t a t . Mtg. i nA l l g .2 0 0 3 ), 1i 1‑ 1ょ
日本 SASユ ー ザ ー 会 (SUG I-~) イベント発生確率推定時における連続変数のカテゴリー化、 およびカテゴリ変数の実数化 0上 保 史 夫 、 川 崎 章 弘 株式会社数理技研 金融工学センター C a t e g o r i z a t i o no fc o n t i n u o u sv a r i a b l ea n dt r a n s l a t i o no fc a t e g o r i c a lv a r i a b l ev a l u e st or e a l ne s t i m a t i o no fp r o b a b i l i t yf o re v e n to c c u r e n c e numbersi ル 日JO、Aki h i r o KA WASAKI Fumio KA F i n a n c i a lE n g i n e e r i n gC e n t e r,SURIGIKEN CO.、 LTD. 要旨 十分なサンプル数が与えられた時に、多変量解析においてその推定精度を上げる為の、連続変 ] )、及び、その後のカテゴリ分割されたグ 数のイベント発生確率を用いたグ ループ化(カテゴリ分害1 ル プに対する単変量解析をベースとした実数化方法を提示し、これを多変量口ジスティック回帰 モデル、 c o x 回帰モデルに適用することで推定モデルの高精度化を図る方法について紹介する。 またこの手法を用いたコックス回帰モデルを消費者金融の例に適用し、貸し倒れ確率の推定精度 が向上したことを報告する。 キーワード: h r e g コックス回帰モデル、力プランマイヤ ‑i去、ロジスティック回帰、生存時間関数、ロジット,p よ 41 1ょ qU
1 . はじめに 我々が個人金融における貸し倒れ確率の推定システムを開始するにあたって、当初単純にコッ クス回帰モデルを適用する、とし、う方針で進めたが、確かに期間構造をもった生存確率はえられた が、正誤判別率、デ フォルト補足率を他の手法と比較検討したとき、多種法を超えるものは得られ なかった。この原因は線形性を前提とした回帰モテ守ルの所に有った。 o x回帰モデ、ルを作成するにあたって使用される 一般にロジスティック回帰や生存時間解析の c 説明変数は、その意味の分類を表す、カテゴリ変数と年齢、金額、利率等の連続変数とに大別され る。通常の回帰モテ。ル作成で、は、これらの変数の値を直接用いて確率モデルの係数の決定がなさ れている。しかしこれらの値の大小関係が直接確率に反映するもので、はない為、多くの場合作成さ れたモデ、/レの推定精度は劣化している c これは上記邑帰モテ、ルが確率の対数または二重対数に 対して変数値が線型関係にあることを前提としているカ、らである。 本論分では、連続変数をイベント発生確率を元にグループ化(カテゴリ分割)し、その後にカテ ゴリ分割されたグループに対しカプランマイヤ一法を用いて実数化する方法を提示し、この結果と o x回帰モデルの高精度化を図る方法について紹介する。またこ してロジスティック回帰モテ、/レ、 c l Jれ確率の推定精度が向上したことを報告する。 の手法を消費者金融の例に適用し、貸しf 1 . 1 . 既存方式の問題点、 C o x回帰モデ、ル自体は、周知のアルゴ、リズ、ムで、あり S A Sでは PHREGプロシジャーとして実装さ れている。 o x 回帰であれある変数値に対する統計量(確率を元に算出された ロジスティック回帰で、あれ、 c 量)は異なる値間で異なる値を示さなければならないことは自明である。一方カテゴリ変数を例に 取れば、その値に属するイベントの発生確率が同じでも、慢なる値を複数とる場合が多々ある こ d のような場合直接カテゴリー値を用し、ると、得られた統計量は必ず異なる値を示すことになり同一 確率であるとし、うことに対し矛盾してしまう。 我々が扱う対象は、目的となる従属変数がテーフォノレ卜する、しないの 2値状態で、これを複数の 変数を用いて、より精度よく分離することが最終目標である。このための基本となる誤差要因は単 変量解析時の l 変数毎の分離精度の優劣であるc つまり単一変数で、の従属変数評価を行なった 時の評価誤差を最小にすることである。 1 . 2 . 単変量解析における考え方 l 変数で見た時は、各個人の特性を個別に評価しー亡し、ゐ V) , ‑ " iJ :i ぷく、各人が属してしも層のデ フォルト割合が評価の対象となっているのである。カテゴリ変数の変数値による i層と j層の聞の相 o x回帰モデ、ルをベースにした場合以下のように定義す 対距離をロジスティック回帰モデノレ、及び c る 。 x t ‑ x j三 l o gp)(l‑pJ‑logp/(l‑p) I Xi‑ Xj = =log(‑log(S(t i 層)))‑‑log(‑log(S(tlj層))) ‑114‑
P i: i 居どおける死亡確率, S( tI i 層): i 層における生方持間確率 これをもとに各層聞の相対距離を定義し、これから絶対距離を作成、この値を該当カテゴリ変数の 独立変数値とする。 1 . 3 . 従来のカテゴリーデータ処理とどのように違うのか IOD)では、デフォルト確率のような 2値問題に対し、従属 従来のカテゴリ変数処理方式 (CATv 変数のロジット化を行い、これを独立変数(カテゴリ変数値)(こ対し回帰式へのフィッテインク守を行な っていた。このようにすると当然ながら独立変数に対し、多峰性や飽和性を持つ場合の近似精度 は悪化する。このために高次項を持ち込んで、何とか近似精度をあげようとしている。この近似モデ ルを用いて外挿予測する場合は、これでよいが貸し倒れ確率のように、母集団のサンプル数が十 分確保されていて、なおかつ母集団間で確率定常性が前提とされている場合は、母集団の説明 能力が高い回帰モデ、ルが要求される。本方式は単変量解析レベルで、は従属変数をロジットとした 場合モデ、ル誤差をほとんとーゼ ロにする変換方式で、ある。 2 . カテゴリ変数値の実数化手順 以下に上記層間相対距離を元にして、カテゴリ変数値に実数値を割り当てる際の計算手順を 示す。 (G 。 ① lつの整数型変数に対しその値 (X)を用いて全ケースを分害りする ② 分割したそれぞれのグループ Gを対象にカプランマイヤ一法を適用し各グ、ループ毎の ) i I 生存時間関数 ( S ( tX J)を計算する。 I ③ それそ。れの対数累積ノ、ザード 関数 d og(‑log(S(t x J ) )を計算する ④ ケース数最大のグ.ループの対数累積ノ¥ザード関数を基準として、他のグループとの相対 I x J)を計算する、これは 2 層 聞 の 相 対 距 離 対 数 累 積 ハ ザ ー ド 関 数 (i 1l h ( t 基準値)(こ相当する。 x f ‑ x :プ b :( _L ~.\'íι 見るように、完全に比例ハザードT生が成立していれば、上記相河系 1資ノ、ザード関 数は時間依存性のない定数になるが、実際は若干の時間依存性をもっ、しかしこの関数 が相互に並行状態にあれば比例ハザード性が成立していると考えてよい。 ⑤ 相対累積ノ¥ザードの時間平均 ( X;‑x:= i 1l tIT)を計算する。 h ( t l x J5 J 4E4 FhU 1ょ
⑥ 最後に基準値である牛;宍定すれば、すべての x fは決定される。現在この決定方法と tグ ル ー プ で の 貸 し 倒 れ 確 率 してはケース数最大の G p ( x Jをもとに x := =l o gp ( x J/(1‑p ( x J )として計算している。(相対距離をベースに単変量 ロジスティク回帰を適用してバイアス値を求める方法もある) 尚、木方式は期間指定データがなければ対数オッズ、比をベースにした実数化も可能である C 3 . 貸し倒れ確率計算への応用 本方式を個人金融分野へ適応した例を以下に示す。 個人金融分野においては、各社数年分、数百万件に及ぶデータを保持しており、十分な粕度 で貸し倒れ確率を計算で きる状態になっている。今回の報告では、当社で 2 年間分、 3 万件の実 験用データを作成し、これを用いて期間構造分析を行なった。 実際の分析を行なうにあたって、本方式の拡張として連続変数のカテゴリー化も実施した。 これは、連続変数の区分場所をイベント発生割合を用いて決定し、区分化された連続区間をカ テゴリとして扱い、実数化を施す手法である。以下に実際に解析を行なうにあたっての手順を示 す 。 ① 連続変数の区分化(カテゴリ化) ② カテゴリ変数のそのカテゴリ値を上記方法で実数化 ③ e s t データの実数共変量を独立変数としてコックス回帰モデ、ルを作 上記方法で得られた t 成 ④ 上記方法で得られた ::;coreデータの実共変量にコックヌモデ、ルを当てはめ、生存確率の下 界を 9 9 . 5, 9 9 .、9 8 . 5, 9 8, 9 7 . 5, 9 7 .、 9 6, 9 5, 9 3, 9 0, 7 0, 5 0, 0の 1 3段階にリスクランク分割を行い 各ランクに属する貸し倒れ件数を元に精度検証を行なった G 4 . 結果考察 本方式は、決定木、ロジスティック回帰モデルへの前処理としても有効で、あるが、今回は、生存 時間確率の推定精度に的を絞って検討を行なった。 以下に生デー夕、カテゴリ変数の実数化、及び連続変数のカテゴリ化・カテゴリ変数の実数化の 3例の結果を示し、精度評価を行なう。 ρhV 1ょ 1ょ
4
.
1
. 3仔J
I結果紹介
4
.
1
.
1
. 生データ
主データ
j
ITl~ t}行 完 済
長
さi
売
民主
宅E
千
i
't
主キ 府&.出圭 "
哲
・
,
.
,
み す;!l.~ '
f~Hi:主
i
'
:
'望
! H寸 ?ι (:'孟 行童
・
"l
'
o
fl
t
f
T 完済笠
3789
1
0
1 2
6
2
1
1
1
5
8 30758300
77300 20793400 9887600 0997457 0000002 o1
8
7
u
1
8
78218
964
5
0
2
1
1
1
1 4
3
0
1
1
7
0
9 34381800
90400 23899500 10391900 0992435 0000002 0559353
4555 250098
5326
1
4
7
7 25754300
165500 1838B100 7200700 0
2
7
f 3822
.
9
8
7
6
2
5 0000002 0917231
6591 318709
982653 0000002 1288906
3605
2
7
1 2594
984116411500
159400 t1495200 4756900 0,
6254 284690
2462
2
0
1 1
8
3
4
6
0
8
1 10389700
112900 7594700 2682100 0977671 0000002 1663249
5497 231992
1
6
8
4
3
5
7
1 666520
0
133900 5035100 1496200 0972678 0000002 2040375
2
6
1 1
3
0
1
4601 182107
4
8
1 1
5
7
0
4
9
1
1 7746900
244200 5595500 1
2109
9
0
7
200 0965608 0000008 2577954
7253 266431
1
2
8
9
4
7
9
6
0
2
8
2
) 4150200
194800 2950700 1004700 0955418 0000008 3359322
5747 185024
1
1
9
4
5
6
8
9
4
2
4
4
1 3511500
242600 2468000
800900 0941465 0000034 4443924
6989 205546
1
4
8
1 2019700
749
55
546
208500 1374900
436300 0917098 0000075
63771
6209 167437
7
4
375
8
1
1 1420000
284500
888000
247500 0867494 0000723 10505274
5
3
0
7023 188159
89
1
3
4
1
6
1 866000
286800
2
3
9
493600
85600 0682549 0008013 28801942
7587 274913
437
9
9
3
1 1763100 1421300
306900
34900 0126443 0022224 3107181
5
3
9
47085 1540168
000 E
.
,
,
,
,
.
守
E
司
0
.
、
守
,
0
.
.
,
"
凸
'
守
ー
, ,
,
"
、E
.
"
"
.
.
司E
6354 4183492
五
広
三盟
ト国
R
l
s
k
R
a
n
k
(
O
J 0995
R
l
s
k
R
o
n
k
l
l
! 0990
k
l
2
! 0985
R
I
5
k
R日n
R
!
s
k
R
a
n
k
l
3
i 0980
ち
,kRmkl4! 0975
R
R
l
s
k
R
a
n
k
[
5
] 0970
R
l
s
k
R
a
r
l
k
!
61 0960
R
l
5
k
R
a
n
k
!
7 0950
.l
8,0930
R
l
5
k
R
a
l
lk
.R
an
.
kl
9
J 0900
R
I
5k
l
l
1k
[
1
0 0800
R
l
s
k
R
i
R,
τ
k
R
i
l
l
1k
[
1
1 0500
RI$kR
1nk
l
1
2 0000
弓
.
~"D .,,,司
唱
分類実績
デフォルト予測撞 (
J
)分 母
予 訓i
巴
件銭
4
与
0
1
値
1
'
i
7
;
;
:
1
1
1巴
全額
実
!
.
陛
4
1
。
。 28141! 231I 28372
。
28357
9601
4
0
1
136
28758
9737
プ?訓 壇
252
085
526
178
778
263
a
28609
9686
927
314
29536
I~
1
1
置
9779
。
9528
6
1
7
209
28758
9737
?訓 I~
0
11
4
1
2
9
5
1
9688
9210 1
4
2
2
1
6
1
063
9752
3
6
2
2
1
1
7
0
8
1
'
( 19.'~~
131
117
248
1
4
3
2
0
9
1 2
6
2
9
1 1458382
9820
180
078
547
185
778
263
!
!
(
1
;
1
9806
9
7
.
1
3
。
0
1 1408407
9657
23684
162
1
4
3
2
0
9
1
9820
失
9606
1164
394
29536
8140 1
4
1
6
5
4
7
056
9713
1
8
1
5
1
41835
1
.2
4
287
2
6
2
9
1 1458382
180
9
7
.
8
2
4
.
1
.
2
. カテゴリ変数の実数化
コ
REDIγSAVER 主
で
主
言
(
カ
ー
テτ
ゴ
守
リ
r
変
T
宮数拝童・数化)
ド
込
。0
出
00
走 路0
盟4
E
、
l
l
1
i
3
再
8
4
1
!計打
主J
塁BG45494
3
C
C
ank!l
ヨ~空
3898山 監
k;kRank
hskRank4033.291u
o
t
0
0 I
G
96374
0
8
53
2
6
U
U
M
1 70
0
0 〉9
〕99284000002
1
4
54
7
2
1
UU
3
9
5
000002
963UU
U9830400000210937E
5
1 0 1 { 3 5 8 5 C
並豆
記
I
R
I
SR a r 1 6 2 0 U ? 1 0 2 4 5
合計
出・ 5
35
~:c' 7 一一
分類実績
す勺;i
I
J
j
0
:
件曲
.
一
0
1
r
長
重一一トー 1
童相
O
O
D
o
o
t
1189001 09408391 00000321
000主主上主主主577~
J~IUυ025どJU1 0019048119920565
8 5 4 6 6 2 4 3 9 8 6 5 2 1 8 000200
1
6
6
5
1
9
5
凹
川
9
01
0
0
9
8
0
C
E
C
L
1
忘
0
O
0
G
128001 4721001
一
1
4
5
8
3
8
2
3
6
2
2
1
1012836
5
3
7
182
742
251
1
2
7
9
433
409325
デフォルト予測撞の分類
。 1
2
8
0
7
2
9504
1
8
5
063
2
8
2
5
7
宮5
67
ヤボ旭
7558
385246C
CC
0
0
0
0
0
0
8
7
9
'
1
1 :902
4
3
6
3
1
予,到巴
28609
9686
9
2
7
314
29536
。 2800501
失
9482
2
5
2
0
.
8
5
2
8
2
5
7
9567
?
自
値
975G
。
1
6
9
7
8 1
4
2
2
1
6
1
0
1 1405183 1
116
9
6
.
3
5
9752
r
興
9
0
4
1 27180
3
6
2
2
1
重一ートー 1
062
186
248
1414224 44158 1458382
9697
303
'
l
1i
・
i
。
0
1 1403097
9621
1
1
1
2
7
076
1
4
1
4
2
2
4
9697
再
3
英
値
9822
1
488
165
7
9
1
268
1
2
7
9
433
28493
9647
1043
353
立
2953
i
1
1
7
0
9
0 1420188
117
9738
27068
38194
186
262
44158 1458382
303
9750
9807
2830i 1
9
0
6
1
C
4889
3
9
t
司
。
1U42381534Z8
︐
ワdl
1ょ
1ょ
4
.
1
.
3
. 連続変数のカテゴリー化・カテゴリ変数の実数化
下限Iu ;t盟
.,盟格廿 元 町
1
8
4
2
R
i
s
k
R
a
n
k
l
O 0
.
9
9
5 1
R
i
s
k
R
a
n
k
[1
]0
3
4
9
.
9
9
0 6
同s
k
R
a
n
k
[
2
]0
3
6
6
.
9
6
5 3
R
i
s
k
R
a
n
k
[
3
]0
0
2
5
.
9
6
0 2
3
1
1
0
.
9
7
5 1
920
0
.
9
7
0
0
1
5
0960 1
0
.
9
5
0
5
0
5
5
2
1
0930
313
0
.
9
0
0
5
6
1
R
i
s
k
R
a
n
k
[1
0 0700
R
l
s
k
R
a
n
k
[
1
10
2
6
9
.
5
0
0
R
i
s
k
R
a
n
k
[1
2 0000
5
1
6
^
^
"
司
盟
P
予測巴
畏
0
1
車
{
直
1
ヲ
是
孝
章
値
∞
:-~n
C
デフォルト予測後の分額
。
28429
9
6
.
2
5
3
2
2
1
.
09
2
8
7
5
1
9
7
.
3
4
予
;
J
t
l但
金額
置き続金
互 存 在 率 標準需要 干~.重み 呼葱菅璽~仔 呼葱菅璽1
ま£主
日宝移行孟 完,耳歪
.00 0
.
9
9
7
5
9
3 0
.
0
0
0
0
0
2 0
.
3
3
0
4
7
9
0
4
9
1
3
.
0
0
2650 1
6
9
6
.
7
3
3
4
0
17
25500 4
8
9
3
5
7
.
0
0 215301
4568 2
.
0
0
0
0
0
2 0994256
1
7
0
.
5
6
1
7
2
43
0
0
3
8
2
.
0
0
63200 21289800 8665200 0992774 0
4151 1
5
0
0
1
1
.
0
0
.
0
0
0
0
0
2 1690069
8
3
9
1
21
6
6
0
.
0
0 10521000 43941
.00 0987747 0
8
.0
6
6
1
1
7
.
0
0
1
9
1
2
.
0
0 23250日
0
.
9
6
2
7
3
2 0
日
5
1
2 8
95500 6
.
0
0
0
0
0
2 2367828
3
4
.
9
7 1
4
6
7
.
07
.
0
0
0
0
0
2
3
.
0
6
7
8
1
2
9
.
2
0 1
1
9
5
.
2
5
.
00
44900 3
9
1
61
.00 1403100 0977726 0
3
1
9 5
3
6
61
2519 103076
.
0
0
0
0
0
2 3605476
2
1
2 3
7
6
4
8
.
0
0
106300 2810100 646400 0972621 0
.
9
6
5
6
2
6 0000006 4795162
2615700 6
5
0
6
.
0
0 0
5
6
0
5
.
0
0
1
1
4
2凹
3492 123076
2
2
4 3
.
0
田 凹8 6
9
3
1 1
6
5
5
5
6
98
.
00 1426000 337
7
.
00 0955553 0
.
23
2
6
6
1
2245
82471
制
1
6
9
6
6
.
0
0
.
2
9
1
8
0
2
132200 1
2
6
0
3
.
0
0 306100 094132 0
.
0
0
0
0
3
5 8
3
0
.
5
7
9
9
6
.
7
4
.
9
1
6
0
4
9 0
126600 0
1
.
7
2
6
3
4
5
4
1
1 674300
9
5
2凹
.
0 072 1
2
5
.
6
5
7
1
6
.
5
0
52300 6
1
2
0
6
.
0
0 0621671 0
.
0
0
3
2
7
1 27230225
9993 3
3
4
1 1923500
706600 1096300
4
2
6
.
3
1
.
0
0
3
1
5
4 69278368
1
0
6
0
1 3920.
4
2
.
0
0 0605907 0
3158田
4
4
1
1 9
9
4
8
.
0
0
674800
1
1 1
6
3
7
8
.
0
0 1430800 2
0
6
4田
600 0237269 0
.
0
2
6
7
7
2 6791374
39357 1249201
ー
..
,
,
,
,
,
<
,
,
、n n
,
、
,
司 n.
.n・
.
.
.
.
.
.
.
.
.
.
.
.
.
.
内
ぜ
円
司
内向内向"^^
"
、
,
、
^
^
<
。
目
4
分類実績
件数
担杭
4
1 8
4
3
7
9
1 4
6
1
6
1
4
1 2
4
6
2
1
7
1 1
4
9
6
1
1
9
6
1
1
9
6
6
9
2
6
7
6
6
1
3
3
9
9
4
0
7
30
1
9
2
5
3
1
6
0
3
6
7
1
7
4
94
4
3
1
84
内
向
、 円・
n
<
.
1
1
8
0
0
.
6
1
6
0
5
205
7
8
5
2
.
6
6
予,副 1
也
2
8
6
0
9
9
6
.
8
6
9
2
7
3
.
1
4
29538
ヲ
邑
。
手
責
車
1
9
6
.
3
0
。
0
11
4
1
6
8
9
1 5
2
7
0 1
4
2
2
1
6
1
9
7
.
1
5 036
9752
1 1
5
1
6
5 21056
3
6
2
2
1
.
4
4
2.
46
1
.04 1
8
.
2
1
4
3
2
0
5
6 2
6
3
2
6 1
4
5
8
3
1
6
1
9619
予測値
I
l
値
9
6
.
6
0
4
.
2
.
1
. 誤差率による精度評価
生存率 70%を基準とした判別率を以下に示す。
正誤率
生データ
9
7
.
7
9
カテゴリ実数化
9
7
.
5
5
連続変数処理後
9
8
.
3
4
.
2
.
2
. デフォルト補足率による精度評価
生存率 70%でみたデフォルト補足率
デフォノレト補足率
件数
生データ
56.74%
カテゴリ実数化
80.04%
連続変数処理後
6
5
.
2
6
%
4
.
2
.
3
. 機会損失件数による精度評価
生存率 70%でみた機会損失件数
機会損失件数
件数
生データ
2
5
2
カテゴリ実数化
5
3
7
‑
1
1
8
285
0
.
9
7
500
1
.
69
7
8
5
266
2
8
6
1
8
9
6
.
8
9
918
3
.
1
1
29538
9
7
.
62
。
0
1 1415443
9706
1
1
6
6
1
3
1
.
14
1
4
3
2
0
5
6
9619
│
実
4
.
2
. 各種評価指標を用いた結果まとめ
件数
。
28332
9592
418
1
.
42
2
8
7
5
1
9
7
.
3
4
4
2
5
3
5
6
9
9
1
4 1
0
.
6
6
9
7
.
7
4
1
6
4
1
2
33026
!
.
I3
2
.
2
6
26326 1
4
5
8
3
6
2
1
8
1
9
B
.
1
B
連続変数処理後 1 8 0 4 . 3 . 考察 正誤判別率、機会損失件数で見た場合、カテゴリ変数の実数化を施したケースが最悪値を示 しているが、管理移行件数のリスクランク毎の分布をみればわかるように、生データに比べて格段 の分離精度が得られていることがわかる、また連続変数処理を施すことで判別率、機械損失件数 が更に向上したことがわかる。 以上のことから、単変量解析のレベルで、カテゴリ変数に対し、本方式の実数値化変換をするこ とでデフォルト確率の推定精度を向上させることがで、きること、及び連続変数に対してカテゴリ化す ることで更に精度向上が図れることが示された。 1 υ 1ょ 同 ハ ょ
日本 SASユーザー会 (SUG1‑0) SASによる生存時間の多重イベントの解析 糖尿病合併症を例に 。広本篤・金子徹治・大橋靖雄 (東京大学大学院医学系研究科健鹿科学・看護学専攻) S u r v i v a la n a l y s i sf o rm u l t i p l eeventsf e a t u r i n gDiabetesM e l l i t u scomplications AtsushiKohmoto ,TetsuharuKaneko ,Yasuo Ohashi fMedicine, Schoolo fH e a l t hSciencesandNursing,GraduateSchoolo TheU n i v . o fTokyo i:ffi"己 ~ζ 日 生存時間の適用場面では、それぞれの対象個体について相聞のあるイベン卜が複数観 ;~II ・解析される場合がある。このような多重イベントの解析は、 SAS System 8からの PHREG プロシジャによって実行が可能となった。多重イベントに対する解析手法はいくつか存在する が、本論文では糖尿病網膜症の左右眼の発症と糖尿病合併症の発症とを例に、 PHREGプロ シジャで、周辺モデルの当てはめを行った式例を紹介する。 キーワード: PHREGプロシジャ、 M u l t i p l eF a i l u r eOutcomes、周辺モデル 1 . はじめに 生存時間解析は、元々は非再起的な事象を対象としたものであるが、臨床研究では 1人の 対象者について複数の相聞のあるイベントが起こる場合がある。例えば糖尿病網膜症の左 右眼の発症や糖尿病合併症(腎症、神経症、大血管症など)の発症がこれにあたる。 前者については、左右眼のうち早く網膜症が発症・進展した時点をその患者のイベン卜発 生時点とした解析が行われることがいままでは一般的であった。しかし、これは情報を全て利 用した解析とはなっていない。両眼のデータを利用して解析を行うことにより推定効率が高く なる可能性がある。 後者については、糖尿病合併症は全身の血管病変に由来する類似した作用機序を持つ 疾患と推測されており、各合併症はおのおの独立に発生するとは考えにくい。つまり、 1つの 合併症の発症が他の合併症の発症に関する間接的な情報を持っており、合併症の発症・進 展因子を検討する際に、合併症ごとに検討するだけではなく、複数の合併症の発症を同時に ‑121 ←
検討することも必要であると考えられる。 しかしながら、 1人の対象者から得られたイベントの聞には相聞があり、このようなデータに 対して観測データの独立性を仮定する解析方法を適用することは妥当でない。 1対象者内で 高い相聞のあるイベントが起こっている場合の解析方法として周辺モデルの適用が提案され ている。本研究では、糖原病網膜症の左右眼の発症と糖原病合併症の発症を例に、複数の イベント聞の相聞を考慮、した周辺モデルによる解析を行う。 AS1¥ージョン 8のマニュアル 多重イベントに対して周辺モデルの当てはめを行う方法は、 S から紹介されている。 2.SASの PROCPHREGの概説 今回用いる P ROCPHREGのステートメントを以下に概説する。 PROC PHREG <options > ; MODEL response <合 censor(list) >= variables </options > ; <progra町田1ing statements > STRATA variable < (list) >< ...variable < (list) > < /option > ; <label: >TEST equationl < , .. , equotionk > </option > ; 工D variables; OUTPUT <OUT=SAS‑data‑set > ; <keyword=name... keyword=name ></options > MODELステートメントは生存時間を表す変数、打ち切り変数、説明変数を表す変数を特定す TRATAステートメントは層を表す変数を特定する。 I Dステートメントはアウトプッ卜される る 。S UTPUTステート テ、ータセット中のオフ、ザベーションにつけるラベルの値の変数を特定する。 O メン卜により様々なデータセットを作成する。 3 . 周辺モテ、ルを用いた解析事例 3 . 1 糖原病網膜症の左右眼での発症 今回用いたデータは糖尿病に対する生活指導が糖尿病網膜症の発症を抑制するかを検 討したランダム化臨床研究のデータの一部である。共変量として糖原病擢病期間、割り付け 群、ヘモグロビン A1c値、性別、 BMI値、収縮期血圧が測定され、糖原病網膜症発症までの 生存時間が測定された。データの一部を以下に示す。 qL qL 1ょ
0 OBS 1 s u r v R s u r v L c e n s o r RIBYOU HBAIC 2146 1 5 1 7. 4 SEX BMI SBP 7 . 0 2 5 . 9 1 3 8 2 4 1 8 0 3 1 8 0 3 4 . 1 7 . 7 .5 21 1 2 4 3 5 1 9 4 8 1 9 4 8 2 . 8 8 . 9 1 8 . 3 1 2 8 4 6 2172 2172 1 4 . 1 7 . 6 2 3 . 9 1 6 4 5 1 0 2137 2137 1 0 . 1 7 . 0 2 2 . 6 1 3 6 6 1 1 700 700 4 . 1 8 . 0 2 2 . 9 1 2 6 ただし、 OBS=オブザベーション数、 10=10 番号、町内 Rニ右眼の発症まで、の時間、 survR =左目の発症までの時間 censor=打ち切り変数 ( 0 :イベント発生、 1:打ち切り)、 RIBYOU= 擢病期間、 GUN=割り付け群 ( 1:対照群、 2 :介入群)、 HBA1C=へモグロピ、ン A1c値 、 SEX二 性別 ( 1: 男 、2 :女 ) 、 BM1=BMl値 、 SBP=収縮期血圧をそれぞれ表す。 糖尿病網膜症の解析事例に用いた SASプログラムを紹介する。以下にプログラムを示す。 WLWモデルを適用する際には、データセットに次のような加工をしなければならない。まず、 層を表す変数を特定する。次 l こ 、 1人について右眼のデータセットと左眼のデータセットを作り、 x x x R Jと左眼の共変量 r x x x L Jを用意する。右眼のデータセットについ 各々に右眼の共変量 r x x x R Jにその対象者の共変量の値を入力し、 r x x x L Jは全て 0とする。左眼のデータセッ ては r トについても左右逆にして同樟の操作を行う。 材料牢右眼のデータを加工する材料本; data righteye; 本層を指定する変数右眼=1,左眼 = 2 ; type=l; 本周辺モデルのためのダミー変数の作成, 本右眼の共変量データは残し、左眼の共変量データは全て 0にする; surv=survR; RIBYOUR=RIBYOU; GUNR=GUN; HBA1CR=HBA1C; SEXR=SEX; BMIR=BMI; SBPR=SBP; RIBYOUL=O; GUNL=O; HBA1CL=O; SEXL=O; BMIL=O; SBPL=O; 材料本左眼のデータを加工する材料本; data lefteye; *層を指定する変数右Il艮 =1, 左I I 良=2; type=2; 本周辺モデルのためのダミー変数の作成, 本左眼の共変量データ{ま残し、右眼の共変量データは全て 0にする; surv=survL; ‑123‑
RIBYOUL=RIBYOU; GUNL=GUN; HBAICL=HBAIC; SEXL=SEX; BMIL=BMI; SBPL=SBP RIBYOUR=O; GUNR=O; HBAICR=O; SEXR=O; BMIR=O; SBPR=O; 材料牢左右眼のデータを S e tして解析用データセットを作成する材料宇, data eye; set righteye lefteye; run; この結果作成された SASデータセットは次のようになる。 OBS ID TYPE surv censor RIBYOURRIBYOUL GUNR GUNL HBAICR HBAICL 2 1 4 6 2 2 4 1 8 0 3 4 4 2 1 8 0 3 5 5 1 9 4 8 6 5 2 1 9 4 8 2 7 . 4 1 5 1 3 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 7. 4 7 . 0 2 4 . 1 7 . 0 7 . 7 4 . 1 2 . 8 7 . 7 8 . 9 2 . 8 8 . 9 次に、実際に解析を行うプログラムを示す。 proc phreg data=eye covsandwich(aggregate) outest=Estpl; model surv脅 censor(1,2) =RIBYOUR RIBYOUL BMIR BMIL SBPR SBPL GUNR GUNL SEXR SEXL HBAICR HBAICL /rl; 牢ハザード比の信頼区間を出力する指定; strata type; 宇層を表す変数で層別する; id ID: output out=Outppl dfbeta=dtR dtL run; 対象内相聞を考慮して分散に口バスト分散を用いるには、上記のように PROCPHREGステー トメント内で covsandwich(aggregate)"と指定し、 1 0 ステートメントで る 。 解析結果は次のアウトプットで、得られる。 1 2 4一 1 0 を表す変数を指定す
T h eP I I R E GP r o c e d u r c 日u e 1I n f o r m a l i o n M れ ドu v v a U 川 DT 門 n"LZι w n p b pし11nド I旬 KV5c nkurA μ A A U DUE‑ f1 e5 ) 1 仔ピ 白 ← ba bE ( a 3iti r ra ln g a a uvuvVW1 川 ne555 L o o b︑ パu l nTn nn EE‑‑2 5 dD ﹁﹁H n o 0lnvnun ρ a EEElL nυnυFし﹁し Tl S u m m a r yo fI h e ~umber o f henl a n dC e n s o r c dV a 1 u e s 5 1r aI u m 2 T Y P E 2 T oI aI 司l T oI E v e n l C c n s o r e d P e r c e n l C e n s o r e d 1 2 9 . 1 1 3 0 0 2 0 7 1 9 3 1 0 8 7 1 1 0 7 8 4 . 0 0 8 5 .1 5 2 5 9 4 4 0 0 21 9 4 8 4 . 5 8 C o n v e r g e n c eS I呂 I u s C o n v e r g c n c cc r il e r i o n( G C O N V = I E ‑ 8 )s a li s f i c u l . l o d c 1F i lS l a l i s l i c s C ri I eri o n W iI h o u l C o v a r i a l e s W iI h C o v a r i a l e s 2L O GL A I C S B C 5 1 1 3 . 0 2I 5 . 11 3 . 0 2I 5 . 1 1 3 . 0 2 1 5I 8 9 . 71 . 1 5 2I 3 . 71 . 1 5 2 61 .6 1 2 u lII I Y P o l h e s i s :B E T A = O T e s l i n gG l o b品 1N T e sI L i k e li h o o dR a li o S c o r e M o d if i e dS c o r e W a1 d C hi ‑ S Q u a r e D F 2 2 3 . 3 0 7 0 2 5 3 . 7 3 7 4 8 6 . 4 6 6 0 1 6 8 . 7 8 9 8 1 2 1 2 1 2 1 2 P r >ChiSQ < .000I く. 0 0 0 1 く. 0 0 0 1 く. 0 0 0 1 A n a l y si so f1 . 1 江x i m u mL i k e l i h o o dE s l i m a l e s Y a r i a b l c C hi ‑ S q u a r c Pr C hi S Q > H a z a r d 0 R aIi 0 . 0 6 0 0 0 0 . 0 6 0 1 0 0 . 0 4 7 0 2 0 . 0 2 8 9 1 0 . 0 0 8 7 8 0 . 0 0 8 8 2 ‑ 0 .: 3 2 6 5 9 ‑ 0 . 2 2 3 7 5 0 . 1 8 6 8 7 0 . 27 : 35 1 0 . 3 5 4 5 8 0 . 3 3 1 4 8 0 . 0 0 8 7 6 0 . 0 0 8 7I 0 . 0 2 3 2 6 0 . 0 2 3 6 5 0 . 0 0 4 6 6 0 . 0 0 4 7 3 O .1 4 1 3 3 0 . 1 4 7 9 7 0 . 1 4 4 4 5 O .1 4 9 5 0 0 . 0 3 4 8 4 0 . 0 3 7 5 0 0 . 9 8 4 0 . 9 4 9 0 . 9 8I 0 . 9 6I [ .0 3 8 [ .0 2 4 0 . 9 9 5 [ .0 1 0 [ .0 1 5 1 .0 1 3 l :1 0 . 9 0 . 9 3 5 4 6 . 8 8 6 4 4 7 . 6 3 7 4 1 .0 8 5 8 [ .. 1 9 3 9 3 . 5 4 6 8 3 . 4 8I 4 5 . 3 3 9 7 2 . 2 8 6 7 1 . 6 7 3 7 3 . 3 4 7 0 1 0 3 . 5 5 6 1 7 8 .1 5 3 5 く. 0 0 0 1 く. 0 0 0 1 1 .0 6 2 0 . 0 . 1 3 2 0 . 2 2 1 6 0 . 0 5 9 7 0 . 0 6 2 1 0 . 0 2 0 8 O .1 : l O5 O .1 9 5 8 0 . 0 6 7 3 く. 0 0 0 1 く0 0 0 1 [ .0 6 2 [ .0 4 8 [ .0 2 9 1 .0 0 9 [ .0 0 9 0 . 7 2 1 0 . 8 0 0 1 .2 0 5 1 . 31 5 [ .4 2 6 1 . 3 9 3 9 5 %H a z a r dR 呂I J 0 C o n f i d e n c cL i m i1 5 9111211I1i1inu‑‑Il1よ el‑1‑ SI d E rJ R aI i 0 08 09 77 81 81 85 26 90 06 22 69 9 8 0 00 00 09 06 75 4 E sI i m aI c S l a n d a r d E rr O J 44 40 18 30 00 04 79 80 88 13 19 4 4 0 00 90 05 59 93 2 ‑1 ‑1 ‑0 ‑D ‑o ‑‑ 1‑ 1‑1‑0 o・ ‑・ ‑ R IB Y O U R R1 B Y O U L B ¥ l f R l ¥1 . 1 B S B P R S B P L G U N R . I G U N S E X R S E X L H B A lC R . l H B A I C D F ' la r a m ( 'I cJ υ ﹁円 4 1 1 ワ ム
ParameterEstimate"の列にはパラメータ推定値が、
HazardRatio" の ~IJ!こはハザード、比が
出力されている。いちばん上の行を例に取ると、右眼における擢病期間の効果を表すパラメ
ータ推定値は 0
.
6
0
0
0であり、ハザード比は 1
.
0
6
2であることがわかる。 Pr>Chisq"の列には
/"¥ラメータ推定値 =OJに対する検定の p 値が出力されている。右眼における擢病
帰無仮説 r
期間の効果は、 p 値が 0
.
0
0
0
1 より小さく 5%水準で有意に 0ではない。いちばん右の列の
95% Hazard Ratio Confidence Intervals"にはハザード比の 95%信頼区間が出力されてい
る
。
左右眼で平均した共変量の効果を知りたいときには、 PROC IMLで計算する。計算は以下
のプログラムで、行った。
Iの出力材料宇;
本宇宇件口バスト分散共分散行ヲJ
proc sort data;Outpl; by ID;
proc means data;Outpl noprint;
by ID;
var dtR dtL;
output out;Outp2 sum;dtR dtL;
proc im1;
use Outp2;
read a11 var{dtR dtL} into x;
v;x
会
x;
reset noname;
vname;{"RIBYOUR"."RIBYOUL"};
print."口バスト分散共分散行列"
v[co1name;vname rowname;vname format;lO.5];
create RCov from v[co1name;vname rowname;vname];
append from v[rowname;vname];
run;
proc im1;
use Estpl;
read a11 var{R工BYOUR RIBYOUL} into R工BYOU;
b; RIBYOU、;
use Outp2;
read a工
工 var{dtR dtL} into x;
v;x 会 x;
nparm; nrow(b};
1
2
6
se=sqrt(vecdiag(v)); reset noname; " Std Error"}; stitle={"Estimate", vname={"RIBYOUR","RIBYOUL"}; tmpprt= b 11 se; print,tmpprt[colname=stitle rowname=vname format=10.5]; print,"分散共分散行手I J ". . v[colname=vname rowname=vname format=10.5]; キ左右眼で擢病期間の効果が等しいと仮定して 左右眼で重み付け平均した濯病期間の効果の出力, c= {1 0, 0 1}; cb= c 合 b; si= c 合 V 合 t(c); e= j(2,l,l); is土=inv(si); h= inv(e * isi *e) 合 isi 合 e ; bl= t(h) *cb; se= sqrt(t(h) *si *h); zscore= bl / se; p= 1‑probchi( zscore 非 zscore, 1); print "擢病期間の左右眼平均パラメータ" "Optimal Weighs = "h, "Estimate = " bl, "Standard Error = "se, Ilz‑score = I'zscore, "2‑sided p‑value = " p[format=5.4]; quit; 1 2 7
IMLのプログラムによる出力結果は以下の通りである。 E st i r n a t e S t dE r r o r R I B Y O U R R I B Y O U L 0 . 0 6 0 0 0 0 . 0 6 0 1 0 0 . 0 0 8 7 6 0 . 0 0 8 7 1 ロバスト分散共分散行列 R I B Y O U R R I B Y O U L R I B Y O U R R I B Y O U L 0 . 0 0 0 0 8 0 . 0 0 0 0 6 0 . 0 0 0 0 6 0 . 0 0 0 0 8 擢病期間の左右眼平均パラメータ . 4 8 7 7 5 8 2 O p t i r n a lW e i g h s= 0 0 . 5 1 2 2 4 1 8 . 0 6 0 0 4 9 5 E s t i r n a t e= 0 S t a n d a r dE r r o r= 0 . 0 0 8 1 5 1 7 z ‑ s c o r e= 7 . 3 6 6 5 0 7 1 2 ‑ s i d e dp ‑ v a l u e 0 0 0 0 二 左右眼で擢病期間の効果が等しいと仮定して左右眼で重み付け平均した擢病期間の効果の パラメータ推定値は 0 . 6 0 0 5で、あった。 3.2 糖原病合併症 糖原病合併症についても、糖原病網膜症,虚血性心疾患,脳梗塞にそれぞれ r t y p e = l . 2. 3 Jと いう変数を与えれば、同様の解析を行うことができる。 IMLを用いれば各合併症聞で平均した共変 量の共通効果を推定することができる。 4. おわりに 今回バージョン 8のマニュアルに記載されている方法で 多重イベント!こ対する Cox 回帰モ デルを適用した事例を紹介した。 WLWモデルはこれらの事例以外にも再発を繰り返す疾患な ど、多くの応用適用例が考えられ、応用範囲が広い方法であると考えられる。 日 ︒ ワ ム 1ょ
〔参考文献〕 1 . Cox, D .R .(1972),Regression Models and L i f e ‑T a b l巴s ( w i t hd i s c u s s i o n ), "J o u r n a lo ft h e R o y a lS t a t i s t i c a lSociety,S e r i e sB,34,187‑220. 2 .L i n, D . Y . a n d Wei, しJ . (1 9 8 9 ),The Robust I n f e r e n c ef o rthe P r o p o r t i o n a l Hazards Model, " J o u r n a lo ftheAmericanS t a t i s t i c a lA s s o c i a t i o n,84,1074‑1078. 3 . SAS/STATU s e r 'sGuideV e r s i o n 8 . L . J ., L i n, D . Y . and W e i s s f e l d, L . ( 1 9 8 9 ),Regression A n a l y s i so fM u l t i v a r i a t e Incomplete 4 .Wei, Fa i l u r eTime Data byModelingM a r g i n a lD i s t r i b u t i o n, "Journal ofthe American S t a t i s t i c a l A s s o c i a t i o n,84,1065‑1073. 円/ μ イhム ︐ nuu
日本 SASユ ー ザ ー 会 (SUG1‑0) 再発事象に対するモデルを用いた解析方法の検討 0中 牧 子 , 大 橋 靖 雄 東京大学大学院医学系研究科健康科学・看護学専攻生物統計学 S t a t i s t i c a lmodelsf o rrecurrentevents MakikoNaka,YasuoOhashi Departmento fB i o s t a t i s t i c s,Schoolo fHealthSciencesandNursing, TheU n i v e r s i t yo fTokyo 要旨 再発事象の解析方法として、 PHREGプロ、ンジャで解析可能な Cox回帰を拡張した ' iMODプロ、ンジャで解析可能な GEEを用いたポアソン回帰が 様々なモデルや、 GEi 提案されている。これらの方法を紹介するとともに、多発性硬化症の臨床試験を想 定したシミュレーションを試みた。 キーワード PHREGプロ、ンジャ, GENMODプロシジャ, Cox回帰,ポアソン回帰 1 . はじめに 臨床試験には、観察期間中に再発が何度も起こる疾患を対象としたものがある。このとき、再 発防止や再発遅延に対する薬剤の治療効果は長期的に評価する必要がある。治療効果を推 定する際、再発を考慮することで情報量が増加し、関心のある治療効果の推定効率が上がる ことも期待される。再発を考慮、したモデ、ルとして、 PHREGプロ、ンジヤで AG,PWP, WLW,LWAの各モデ、ル)や、 GENMODプロシジャで、解析 拡張した種々のモデデ、ル(仇 可能なポアソン回帰モデ、ノレが提案されている。まず各モデ ルを紹介してプログ ラム例を示し、 さらに再発と寛解を繰り返す神経疾患である多発性硬化症の臨床試験を例にとってシミュレー ションした結果を示す。 ぺU n 1 ょ ーよ
2 . 再発を考慮したモデル 2 ‑ 1 . 記法 時点 fにおける対象者 iの j回目のイベント(再発)について以下のように定義する。 人 ' j( t ):ハザード関数 A oj( t ):基準ノ、ザード、関数 ろ(t):指示関数(リスク集合に含まれる場合には l、それ以外には 0) Xi/t ):共変量ベクトノレ sj :推定すべきパラメータベクトル(治療効果を表すノミラメータを含む) これらが何回目かの再発によらず共通と仮定する場合には、添え字 jは省く。 また、本論文で例示する際のダミーデータ data=myelinを表 lに示す。変数 IDは個人の識 別 、 TRTは治療を表す変数 ( 0, 1の 2群 ) 、 obsdayは観察期間、 r 巴c 1は l回目の再発の起き た日、 r 巴c2は 2回目の再発の起きた日、 r 巴c3は 3回目の再発の起きた日を表す。 表 1:データ例 d a t a = m y e l i n 。 I D TRT o bsday r e c 1 r e c 2 r e c 3 2 3 692 7 0 1 536 1 8 5 5 1 413 1 9 6 2‑2.AGモデル Andersen,G i l l ( 1 9 8 2 )は、イベント発生過程に非定常ポアソン過程を仮定するモデ、ルを提案し た。同一対象者内の複数イベントを独立とみなし、一度イベントを起こした対象者も観察が続 いでしも限切スク集合に含まれるとするモデ ルで、ある 対象者 iの時点 Iにおけるハザード関 O 。 数は λ i( t )= Y ( t )λ ( t )exp(Xi ( t )β)と表される。治療の全般的な効果に関心のあるときに特 i に有用なモデ、ルで、ある。 PHREGプロシジャでは、 SAS6.10から MODEL文で再発事象型のデータを扱うことが可能で、 ある。さらに、対象内相聞を考慮するために用いるロバスト分散は、 SAS8.2から covsandwichオ プション ( c o v s )で指定することで得られるようになった。ここで a g g r巴 g a t eオプションを用いること で、各対象者(ID)を単位として集計することができる。 AGモデ、ルを適用するためにデータセッ トdata=myelinを表 2のように加工する。各対象者に対して、 obsdayを対象者がリスク集合に含 まれている半閉区間 ( t l, t 2 Jに分解し、イベントが起きたときは打ち切り変数 s t a t u sは l、打ち切 られたとき(観察が終了したとき)は 0をとるとする。また、何回目の再発であるかは変数 typ巴で 表す。加工したデータセット data二時について、プロク、、ラム例を表 3に示す。 4BEA 円L n︿U
表 2:AGモテソレ解析用データセット d a t a二 a g 。 t1 t251 status type 。 51 185 2 。185 413 。413 692 。 43 。701 。 2 。196 3 。 2 1 9 6 538 3 [ 0 TRT G 表 3:AGモデルのプログラム例 prOG phreg data=ag c o v s ( a g g r e g a t e ) ; m o d e [ ( t 1 . t2)*status(O)=trt / r [t i e s = e f r o n ; i di d ; r u n ; 2 ‑ 3 .PWPモデル P r e n t i c e,W i l l i a m s,Peterson( l981)は 、 j回目のイベントに対するリスク集合は、 0 ' ‑ 1 )回目のイ ベントを起こした対象者に限るとする条件付モデ、ルを提案した。その際、生存時間の取り扱い により 2 つのモデ、ルが提案されているつイベント発生過程に非定常ポアソン過程を仮定し、時 o t a lt i m eモデルと、イベント発生過程にセミマルコフ過程を仮定 点を全て研究開始からとする t し、前回のイベントから今回のイベントまでの経過時間で考える gaptime モデルである。対象 者 iの時点 fにおける j 回目の再発に対するハザード関数は、 t o t a lt i m巴モデノレ : λjj( t )=九( t )λOj( t )exp(Xj( t )βj) gaptime モデ、/レ:人~ ( t )= 九( t )λOj( tーt j‑I)e xp(Xj( t )β) ( t j‑Iを0 ' ‑ 1 )回目の再発発生時間とおく) と表される。治療がどこから効果を発揮するかに関心のあるときに特に有用なモデルである。 ただし、本研究で、はパラメータを何回目かの再発によらず共通と仮定した 3 解析プログラムは表 4のようになる。データセットは AGモデルで、用いたものと同じものが使 えるが、 gaptimeモデルに関しては前回のイベントからの時間 (gapt i m e )の計算が必要である ω また、複数のイベントについて異なったベースラインを仮定するために、 ST九I¥TA文でイベント の種類を指定する必要がある。ここで、もロバスト分散を用いた。 1 3 3
表 4:PWPモデルのプログラム例 data p w p ; s e ta g ; g a p = t 2 ‑ t 1; r u n ; * t o t a lt i m em o d e lについて; proc phreg data=pwp covs(aggr巴g a t e ); m o d e l t2*status(0)=trt / r l ties=巴f r o n ; strata t y p e ; i di d ; r u n ; *gap t i m em o d e lについて; proc phreg d a t aニp w pcovs(aggregate); m o d e l gap*status(O)=trt / r lt i e s = e f r o n ; strata t y p e ; i di d ; r u n ; 2 ‑ 4 .WLWモデル Wei,L i n,W e i s s f e l d ( 1 9 8 9 )は、各再発を別々のイベントと捉える周辺モデ、ルを提案した。再発 発生に関する前提はおいていない。対象者はその集団で最大の再発数だけ設定された各リ スク集合に入る。対象者 iの時点 f における j 回目の再発に対するハザード、関数は、 λj( t )=九( t )λ Oj( t )e xp(Xj( t )β)と表される。ここで、対象内相闘を考慮、したロバスト分散を 使うことを提案している。 解析データセットを表 5に、プログラム例を表 6に示す。ダミーデータセットである d a t a = m y e l i nの場合、最大の再発数が 3回であったため、層の数は 3である。まず、治療 効果を層ごとに求める。そして、再発問で治療効果が共通とする共通パラメータは、ロ バスト分散の逆数で重み付けして IMLで求めることができる。 表 5:WLWモデルの解析用データセット d a t a = w l w 1 。 。 。 I D TRT 2 2 2 3 3 3 t2 status 5 1 1 8 5 413 7 0 1 7 0 1 7 0 1 1 9 6 536 536 。 。 。 。 。 t y p e 2 3 2 3 2 3 4 斗 ntu ‑ ‑ 4ム
表 6:WLWモデルのプログラム例
data w!w2;
set w!w1;
;
i
f typeく4
kl=trt本 (type=l);k2二 trt*(type=2);k3=trt本 (type=3);
proc phrEg data=w!w2 outestニEstl;
mode! t2本status(O)=k1‑k3 /r! ties=efron;
output out二 outl dfbeta=dtl‑dt3 /order=data;
strata type;
i
di
d
;
run;
proc means data=outl noprint;
by i
d
;
var dtl‑dt3;
fi
n
︐
.
u
output out=out2 sum=dtl‑dt3;
proc i
m
!
;
use Est1;
read a!! var[
k
1 k2 k
3
J i
nto trt;
b= trt
use out2;
read a
!Ivar[dt1 dt2 dt3J into x
;
、
v=x 本 x
;
nparm= nrow(b);
se=sqrt(vecdiag(v));
reset noname;
stit!e=["Estimate", "
Std Error"J,
vname=["k1","k2","k3"};
tmpprt= b [
[ se;
print,tmpprt[co!name二 stitle rowname=vnam巴 format=10.5J;
print,‑Estimated Covariance Matrix‑"
0
.5
J;
v[colname=vname rowname=vname format二 1
c= !
1 0 0 , 0 1 0 , 0 0 1J;
cb= c * b
;
c
);
si= c 本 v * t(
巴
ニ
j(
3,1,1
);
isi=inv(si);
si本 e
)本 i
si本 巴 ;
h= inv(e、 本 i
b
lニ t(
h
) 本 cb;
i本 h
);
se= sqrt(
t(
h
)本 s
zscore= b
1 / se;
口
二 1‑ probchi(zscore # zscore, 1
)
;
print ,"Estimation of the Common P日 r'amet 巴~ for Treatment",,
'Optima! Weights = "h, Estimale 二 " b1
. "Standard Error = " s
e
.
z‑score ご " zscore, "2‑si
ded p‑vaI
ue ニ " p[format=5.4J;
quit;
IIA
Fhu
ペU
n
2‑5.LWAモ デ ル Lee,Wei,Amato(1992)は、各再発を別々のイベントと捉える周辺モデルのうち、基準ハザー ドが各再発で、共通とするモデ、ルを提案した。さらに、ここで、対象内相聞を考慮、したロバスト分散 を使うことを提案している。対象者 iの時点 fにおける j回目の再発に対するハザード関数は、 人 ' j( t )=九( t )λ。(t)exp(Xi( t)β)と表される。プログラム例を表 7に示す。 表 7:LWAモデルのプログラム例 proc phreg d a t a= wl w 1 covs(aggr巴g a t e ); mod巴 It2*status(O)=trt / r lt i巴s 二巴 f r o n ; i di d ; r u n ; 2 ‑ 6 .ポアソン回帰モデル 再発事象の解析方法として、イベント(再発)の起きる時間までに注目した Cox回帰やその拡 張モデ、ルの他に、ある期間内で、の再発数を数えるモデ、ルを用いることもできる。 ポアソン回帰モデルは、単位時間内における対象者のイベント(再発)生起がポアソン分布 に従うとするモデルであり、一般化線型モデ、/レの枠組みでソミラメータ推定される。 μ(y)を再発 回数 y の期待値、 N(y)を観察期間、 r(y)を疾患の再発率、 X を共変量ベクトノレ、 βを治療 効果を含む推定すべきパラメータとすると、リンク関数として l o gをとり、 l o g { r ( y ) }=l o g { μ( y ) jN(y)}=Xβ , と表され、 l o g { μ( y ) }= Xβ +log{N(y)}すなわち μ( y )= N(y)exp(X β ,)と表すことができる。 ポアソン回帰を用いた解析でも、 Cox回帰による解析と同様に、治療効果の違いをハザード比 として推定することができる。 SASでは GENMODプロシジャで、解析でき、 MODEL文のオプ、ンョンで、ポアソン分布とリンク 関数を指定し、さらに観察期間の対数をとったものを OFFSETとして指定する。プログラム例を 表 8に示す。 表8 :ポアソン回帰モデルのプログラム例 proc genmod d a t aニp o i s s o n ; class t r t ; i n k = l o g offset=logtim巴 typ巴3 ; mod巴 Ir巴cnum=trt/dist=poisson I r u n ; ところが、再発率は全観察期間を通じて必ずしも一定とはいえないため、観察期間を再発率 n h υ ハペ U
が十分に一定とみなせる区間に区切り、区間ごとの再発回数を用いる方が妥当である。その 際、対象者内の各区間の聞に存在する再発率の相聞は、対象者を lつのクラスターとみなし て一般化推定方程式 (GeneralizedEstimatingEquations: GEE)を用いて考慮することができる。 SASでは GENMODプロシ、ジャにおいて、 REPEATEDステートメントでクラスターを指定するこ とにより解析できる。表 9に 180 日ごとに区切ったときの解析用データセットを示す 区間の中 O の再発回数を変数 r 巴c numで表している。さらに、表 1 0にプログラム例を示す。ここでは、相関 b l e 構造を仮定したため、オプ 構造として、区間の聞に存在する相関は一定とする exchang巴a ションで type二 位 chと指定した。 表 9:GEEを用いたポアソン回帰の解析用データセット 1 0 T R T recnum 冒 nu E 2 2 2 2 3 3 3 t i m e 1 8 0 1 8 0 1 8 0 1 5 2 1 8 0 1 8 0 1 8 0 1 6 1 1 8 0 1 8 0 1 7 6 nunununununU 。 。 。 。 表 10:GEEを用いたポアソン回帰モデルのプログラム例 proc genmod data=geepoisson: class i dt r t : m o d e l recnum=trt /dist=poisson 1i n k = l o g offset=logtime t y p e 3 : repeated subject=id / t y p e = e x c h : r u n : GENMODプ口、ンジャ(ポアソン回帰と GEEポアソン回帰)では、ハザード比やその信頼区間 について ESTIMATEステートメントの expオプションによって、パラメータ推定値の指数をとるこ とで、ハザード、比(再発率比)とみなすことができる。 3 . シミュレーション 以上のモデルのうち、多発性硬化症の臨床試験ではどのモデ、ルを用いて解析するのが適当 であるかを検討するため、当該疾患の時間的・空間的多発としづ病態から想定されるモデルで、 ‑ 1 3 7
シミュレーションを行った。それは、対象者が将来病巣になる潜在病巣をしてつか持ってしもと し、早く悪化して再発とみなされたものから l回目、 2回目、・・・の再発が生じるとみなす病態モ デ、ルで、ある。 想定される臨床試験の対象者は試験薬群 100例、プラセボ群 100例の計 200例であり、試 験期間は 3年とした。また、プラセボ群に対する試験薬群のハザード比(再発率比)を 1 /1 .3と 設定した。打ち切りまでの時間(観察期間)や再発までの時間はそれぞれワイブル分布を仮定 し、そのパラメータは、過去に行われた当該疾患の複数の臨床試験におけるプラセボ群のデ ータから得た。 ワイブソレ分布の生存関数は、 y を形状パラメー夕、入を尺度パラメータとしたとき Y)と表される。本研究では S S ( t )=exp(一λt ASの rand関数によってワイブル分布の乱数を発 a l ls t r e a m i n i tノレーチンによってシードを指定し、再現性を保証した。 rand関数では、 生させ、 c ( t )=α/ b ". t ,,‑I ワイプル分布の確率密度関数を f 叫 ト (tjb)中 定 義 し (α=y、b=( 1 /λt 、 y ) x=rand( wei buIl ' ,a,b ) によってワイブ、ル分布に従う乱数を発生させることができる。 シミュレーションは 1000 回行い、各データセットに対して、 l 回目再発までの時間に対する Cox回帰、 Cox回帰を拡張した各モデ、/レ (AG,PWP ,WLW,LWAモデ、ル)、ポアソン回帰、半 年ご、とに期間を区切って GEEを用いたポアソン回帰を当てはめ、バイアスと MSEを算出した。 WLWモデルでは、はじめから共通パラメータを設定して解析した。結果を表 1 1 に示す。バイ アスはパラメータ推定値と真値(lo g (l / 1 .3 )二 一 0.26236)の差である。 l回目再発までの時間に対 する Cox回帰の結果を基準とみて各モデルを相対評価すると、 PWPgap timeモデルと LWA モデルで、バイアスが小さく、 AGモデルや GEEを用いたポアソン回帰において MSEが小さし、と しづ結果が得られた。 表 1 1 シミュレーション結果 バイアス パラメータ推定値 1回目再発までの時間に MSE 一0 . 2 6 4 3 ー 0 . 0 0 2 0 0 . 0 4 8 9 AGモデル 一0 . 2 1 8 8 0 . 0 4 3 6 0 . 0 1 3 8 PWPt o t a ltimeモデル ‑ 0 . 3 2 5 6 ー 0 . 0 6 3 3 0 . 0 3 7 6 PWPgaptimeモデル 一0 . 2 5 5 3 0 . 0 0 7 0 0 . 0 1 6 7 対する Cox回帰 WLWモデル ー 0. 4248 一0 . 1 6 2 4 0 . 0 7 6 0 LWAモデル 一0 . 2 6 1 8 0 . 0 0 0 5 0 . 0 1 6 8 ポアソン回帰 ‑ 0 . 2 1 8 6 0 . 0 4 3 8 0 . 0 1 6 2 0 . 2 1 6 7 0 . 0 4 5 4 0 . 0 1 3 8 GEEポアソン回帰 ー 1i n x u qd
4 . おわりに SASで、はプロシジャを用いて、再発事象に関する様々なモデ、ルを用いた解析ができる。モデ ルの使い分けはケースバイケースだが、イベント発生過程にあまり多くの前提を必要としない GEEを用いたポアソン回帰は、シミュレーションの結果からも有用性が期待される。 5 . 参考文献 And巴r s e nPK,G i l lRD.C o x 'sr 巴g r巴s s i o nm o d e lf o rc o u n t i n gp r o c e s s e s:Al a r g es a m p l es t u d y . A n n a l so fS t a t i s t i c s1 9 8 2 ;1 0 ( 4 ) :1 1 0 0 ‑ 2 0 . r巴s s i o nm o d e l sa n di I i f 巴 t a b l巴s( w i t hd i s c u s s i o n ) .Joumalo ft h eR o y a lS t a t i s t i c a l CoxD R .R巴g S o c i e t y ,S e r i e sB1 9 7 2 ; 3 4 :1 8 7 ‑ 2 0 2 . ],AmatoDA.C o x ‑ t y p er e g r巴s s i o na n a l y s i sf o rl a r g en u m b e r so fs m a l lg r o u p so f Le巴 EW,WeiL c o r r e l a t巴df a i l u r et i m eo b s巴r v a t i o n s .S u r v i v a lA n a l y s i s :S t a t eo f t h eA r t, 2 3 7‑ 4 7 .D o r d r巴c h t : 9 9 2 . K l u w e rAcademicP u b l i s h e r s,1 L ia n gKY,Z e g e rSL .L o n g i t u d i n a ld a t aa n a l y s i su s i n gg e n e r a l i z e dl i n e a rmod巴I s .B i o m e t I 北a 1 9 8 6 ; 7 3 :1 3 ‑ 2 2 . L inDY. Coxr e g r e s s i o na n a l y s i so fm u l t i v a r i a t ef a i l u r et i m巴 d a t a :t h em a r g i n a la p p r o a c h . S t a t i s t i c si nM e d i c i n e1 9 9 4 ; 1 3 :2 2 3 3 ‑ 4 7 . t i c eRL,W i l l i a m sB ],P巴t 巴r s o nAV .Ont h er e g r巴s s i o na n a l y s i so fm u l t i v a r i a t巴 f a i l u r et i m e P r巴n d a t a .B i o m e t r i k a1 9 8 1 ; 6 8 ( 2 ) :3 7 3 ‑ 9 . S t o k e sME,D a v i sCS,KochGG.C a t e g o r i c a lD a t aA n a l y s i sU s i n gTheSASS y s t巴m 2nd e d . C a η: rSASI n s t i t u t巴 l n c .,2 0 0 0 . o d e l i n gS u r v i v a lD a t a :E x t e n d i n gt h e Cox Mode. l T h e r n e a u TM, Grambsch PM. M S p r i n g e r ‑ V巴r l a gNewYork,I n c .,2 0 0 0 . i nDY,W e i s s f e l dL .R e g r e s s i o na n a l y s i so fm u l t i v a r i a t ei n c o m p l e t ef a i l u r et i m ed a t a WeiL ],L b ym o d e l i n gm a r g i n a ld i s t r i b u t i o n s . Joumal o ft h e American S t a t i s t i c a lA s s o c i a t i o n 1 9 8 9 ; 8 4 :1 0 6 5 ‑ 7 3 . ‑139‑
日本 5 A 5ユーザー会 (5UG 1‑0) MIXEDプロシジャを用いた 線形混合効果モデルの交互作用の指定方法 0寒 水 孝 司 .1 本 菅波秀規本 h2 l東京理科大学大学院工学研究科 . 2 興和株式会社臨床解析部 Conside1'a t i o n' 1 01 'C odingt h eI n t e1'a c t i o no f Linea1' MixedE1 F e c LsModelsU singMIXEDP1'ocedm ・ e a s h iSozu.1 T乱k H i d e k iSuganamih2 本 . 1 G1 'a duateSchool0' 1E nginee1'i n g, TokyoUnive1's i t yo fS c i e n c e ヰ 2B i o s t a t i s t i c sandDataManagementDep, . t KowaC o.L td 要旨 MIXEDプロシジャを用いて,交互作用を含む線形混合効果モデルを適用し,主効果の不均一性を 評価することを考える.本稿では交互作用の定義の方法が異なる 2つのモデルを取り上げ,得られる 解析結果の違いについて考察する.特に,臨床試験において試験治療効果の施設における不均一性を 評価する方法をいくつか想定し,どちらのモデルを用いるのが適切であるかを考察する. キーワード: MIXEDプロシジャ,多施設共同治験,線形混合効果モテ.ル,交互作用 1 はじめに 臨床試験では複数の施設(病院,医院など)で試験治療の有用性を評価することが多い(以下,こ の試験を多施設共同治験と呼ぶ).多施設共同治験では,施設によって試験治療と対照治療の効果の 差が異なることがあり,得られた結果の一般化可能性を評価するために試験治療効果の施設における 9 9 8年に発効された「臨床試験のための統計 不均一性を評価する必要がある.このことに関して, 1 的原則」に,次のような記述がある [ 1 ] . 施設当たりの被験者数が不均一性を評価しうる規模の試験で,試験治療の肯定的な効果が判明し た場合,結論の一般化可能性に影響する可能性があるため,通常は施設聞における試験治療効果の不 均一性を探索すべきである.著しい不均一性は,個々の施設の結果を図示すること又は試験治療と施 設問の交互作用の有意性検定などの解析手法によることでも確認される場合がある. ~ (中略)~ これまで,多施設共同治験に関する議論は,固定効果モデ、ルを用いることを前提としてきた.混合モ デ ルも試験治療効果の不均一性を探索寸るために利用できる.混合モデルでは,施設及び試験治療と 施設の交互作用を変量効果として扱っており,特に施設数が多い場合に用いることが適切である" 佐 川 唱}ム A 守 4 ' '
日本の臨床試験は,多くの施設で実施されることが多い.そのため, MIXEDプロシジャを用いて 線形混合効果モデルによる推測を行う状況は少なくないと考えられる. 本稿では,臨床試験において試験治療効果の施設における不均一性を評価する際に,どのように MIXEDプロシジャを指定すればよいかを考察する.具体的には,交互作用の定義の方法が異なる 2 つのモデルを取り上げ,試験治療効果の施設における不均一性を評価する方法に応じて,どちらのモ デ、ルを用いるのが適切であるかを考察する.ここで, 2つのモデルのうち 1つは,一般的な教科書等 2 ] [ 4 ],も に記載されていることが多く,単純な 2元配置実験を想定したときに用いるモデルで、あり [ う lつは,著者らが使用すべきと主張するモデルで、ある. 2 比較する 2つの方法 2 . 1 モデルと記号法 並行 2群比較試験を想定する.すなわち ,J施設の各々で 2K人の被験者が K 人ずつの 2群に分け られ,第 1群では試験治療,第 2群では対照治療が施されるとする.ここで,総被験者数は N=2JK とする.このような状況において,施設 jで試験治療 ( i=1)あるいは対照治療 ( i=2 ) を受けた k番目の被験者の応答を Yijk とし ,Yijkに次式の治療と施設の交互作用を含む線形混合効果モデルを 想定し,試験治療効果の施設における不均一性を評価することを考える.(今回取り上げた 2つのモデ ルはいずれも次式で表現される.) ) (1よ U引 =μ +si+γ ' j+ (β γ) i j+E i j k μ 総平均 si 治療 iの主効果 γ J 施設 jの変量効果 J 1, 2ぃ・・ , J 治療 tと施設 jの交互作用 k 2, . . . ,K 1, ( β γ) i j 1, 2 誤差 E i j k 1 )の線形混合効果モデルを次のように行列表現する. 説明のために,式 ( y=xβ+Zγ+E ( 2 ) 各記号の定義を次に示す. y : 結果変数ベクトル, V a r ( y )=V = ZGZ'+R X : 固定効果に対する計画行列 β : 固定効果ベクトル Z : 変量効果に対する計画行列 γ : 変量効果ベクトル ,E ( γ )= 0,V a r ( γ )= G E 誤差ベクトル , E ( E )= 0,V a r ( E )ニ R,c o v ( γ ?ピ )= 0 2 . 2 2つのモデルの違い 上記の式 ( 1 )に対応する 2つのモデルを考える.いずれも総平均,治療の主効果,および施設の変 量効果の定義の方法は同じであるが,交互作用の定義の方法は異なる.モデル lでは, 2つの治療に 142‑
対してそれぞれ交互作用を定義し,モデル 2では,試験治療に対してのみ交互作用を定義する.すな s i) 2 jニ 0 ,Vjという制約条件を与えたモデ わち,モデ ル 2は,モデ、ル 1の交互作用のパラメータに ( ノレに相当する. これらのモテツレを MIXEDプロシジャで指定するには,それぞれ次のように指定する.ただし, TREATは治療を表す名義変数(試験治療を 1,対照治療を Oとする),CENTREは施設を表す名義 変数, TRは TREATとは別に治療を表す連続変数 (TREATと同様に,試験治療を 1,対照治療を Oとする)である. モデル 2 モデル 1 P R い ︼ し︼ ‑ r 山一 市 ム 一 口 仙 一 P 一 日 山 一 FU 山 U 本一 市ム.︐ R 叫 M 川 市 ム 市 ム一 AA r =p O m CER RE し︼ ム 唱 市ム市ム市ム AAMH 口仙円 r TY S1 し︼一 ロ 川 口 市 ム 一 r 円 M 凶一 市 ム 一 U 一 一本 一 r R P se d a dn 1よ o a c mr 市ム.︐ し︼ AA 肥田一 官い︼ 一 叫 M川 市 ム 市 ム 一 百川日ロ川山 市ム市ム市ム AAMU 唱 pur ‑'r = r dRc e 市ム Vd ゐ ZE P r ‑‑slo mse d a dn C1 ム o a 0cmr proc mixed; run; run; MIXEDプロシジャでは, 2つモデルの違いが randomステートメントの治療を表す変数に現れる. モデル 1では, randamステートメントの治療を表す変数を c l a s sステートメントに指定している名 義変数 (TREAT) とし,モデル 2では,これを別の連続変数 (TR) とする. 3 試験治療効果の不均一性の評価方法とモデルの妥当性 3 . 1 試験治療効果の不均一性の評価方法 線形混合効果モデルを適用し,試験治療効果の施設における不均一性を評価するには,し、くつか方 法がある.ここでは,次の 3つの方法を取り上げ,それぞれ 2つのモデ ルの妥当性を評価する. ・分散の比較・・・変量効果の分散の推定値を比較する方法 ・試験治療効果の分布の図示・・・試験治療効果に関する分布を施設ごとに図示する方法 .予測値の図示...モデ、ルの予測値を治療および施設ごとに図示する方法 3 . 2 モデルの妥当性 3 . 2 . 1 分散の比較 変量効果の分散の推定値をもとに,試験治療効果の施設における不均一性を評価するには,モデ、ル の変量効果の分散のもつ意味を吟味する必要がある.そこで,各モデルの変量効果の分散の解釈の仕 方とその根拠について説明し, 2つのモデノレの違いを明らかにする.具体的な評価方法は次節で例示 する. モデル 1では, 2つの治療(i二 1, 2 )に対してそれぞれ交互作用を定義するので,交互作用の変量 効果の分散は,いずれかの治療を行うことの施設問の ぱらつき"を表し,施設の変量効果の分散は, i=1 )に対してのみ交互作用 施設のみの効果の・4ぱらつき"を表す.一方,モデル 2では,試験治療 ( s γ) 2j =0, V j ),交互作用の変量効果の分散は,試験治療効果の施設間 を定義するので(すなわち , ( よ 41 ペU n A4
の ぱらつき"を表し,施設の変量効果の分散は,対 n 日治療(ベースライン効果)の施設聞の ぱらつ き"を表す.分散に対する解釈と記号の定義を表 lにまとめた. 表 1 : 変量効果の分散の解釈と記号の定義 モデ ル 11 σ 7 2Aτ モデル 21勾 2 施設 施設のみの効果のばらつき σ1 3 " 11 対n 日治療(ベースフイン効 σ( 3 " 12 試験治療効果の施設問のば 果)の施設聞のばらつき このように整理すると, 2つのモデ 交互作用 し、ずれかの治療を行うこと の施設聞のばらつき らっき ルにおける変量効果の分散のもつ意味はまったく異なることが わかる.ここで,分散の比較に基づく試験治療効果の施設における不均一性の評価という目的と, 2 つのモデ ルの解釈を対比させると,モデル 2を用いるのが適切であることがわかる.それは,試験治 療効果の施設における不均一性を評価する際に,興味のあるぱらつきは,試験治療効果(すなわち治 療効果の差)の施設問のばらつきであり,これを対照治療(ベースライン効果)の施設問のばらつき と比較することに意味があるからである.逆に,モデル 1では,このような目的に合った分散を評価 することができない.(しかし,いずれかの治療を行うことの施設聞のばらつきに興味がある場合は, 必ずしも適切でないというわけではない.) 3 . 2 . 2 試験治療効果の分布の図示 試験治療効果の分布をもとに,試験治療効果の施設における不均一性を評価するには,治療の主効 果品の大きさを考慮して,各モデ、ルの変量効果 ( s γ) i jのもつ意味を吟味する必要がある.具体的な 評価方法は次節で例示する. ここで興味のあるパラメータは,試験治療効果の(施設における)違いを表すノ fラメータである. したがって,モデテル lでは,各治療の交互作用の変量効果の差を考えばよい.一方,モデル 2では, 交互作用の変量効果は試験治療効果の違いとして解釈できるので,交互作用をそのまま考えればよ い. しかし,モデル 1では,施設の変量効果を治療とは別に想定するため,交互作用の変量効果の差 をもとにした試験治療効果の違いの検討に,施設の変量効果が考慮されない.これに対して,モデル 2では,施設の変量効果は対照治療の交互作用として解釈され,試験治療効果の違いの検討に考慮さ れる.すなわち, 2つのモデルで想定する変量効果が異なることが,試験治療効果の違いを表すノ ξラ メータに影響する.モデ、ル 2による試験治療効果の分布の検討が,試験治療効果の違いを直接評価す ることは明らかであるが,一方で,モデ、ル lによる検討が不適切であるとするには,さらなる検討が 必要と思われる. 3 . 2 . 3 予測値の図示 モデルの予測値をもとに,試験治療効果の施設における不均一性を評価するには,モデルの予測値 の特性を吟味する必要がある.具体的な評価方法は次節で例示する. モテ守ルの予測値の特性として重要なのが,各モデルの予測値の分散である.ここで,各モデルにお 1 4 4 ‑
ける群ごとの応答変数の分散は次式で与えられる.ただし, V a r ( E i J k )=σ2とする. ん +σ2 モデル l V a r ( Y 1 J k )= Var(Y 2 ik)=σ11+σ モデル 2 V a r ( Y 1 J k ) = イ2+σん+σ2 )=σ12+σ2 V a r ( Y 2 jk このように,モデル 1では,各群での応答変数の分散が対等に扱われるが,モデル 2では,そうで ない. したがって,モデルの予測値を図示して試験治療効果の施設における不均一性を評価する場合 は,モデル 1を用いるのが適切であることがわかる. 3 . 3 まとめ これまでの結果をまとめると,次のようになる. 表 2 :試験治療効果の施設における不均一性を評価するモデル 評価方法 分散の比較 試験治療効果の分布の図示 予測値の図示 モデ、ル 2 0 0 × このように,試験治療効果の施設における不均一性を評価する場合には,目的(方法)に応じて 2 つのモデルを使い分ける必要がある.ただし,モデル 2は一般的な教科書等に記載されている方法と は異なるため,さらなる I J 今味が必要であると考えている. 4 MIXEDプロシジャの適用例 4 . 1 状況設定 ここでは,簡単な数値例をもとに, MIXEDプロシジャを用いて 2つのモデ ルを適用した場合の解 析結果について考察し,し、くつか注意点を整理する. 次のような条件のもとで仮想データを発生させ,多応設共同治験のデータの例とした(ただし,この ようなデータに対して,線形混合効果モデ、ノレを使うべきであると主張しているわけで、はなし、).簡単のた めに,施設数が J=5,1施設 1群あたり被験者数が K =1 0,すなわち総被験者数が N=2JK=100 の場合を想定する.施設の変量効果 γ J ' 交互作用の変量効果 ( s γ)り'および誤差 Eijkはそれぞれ互い に独立に正規分布に従うものとする. この条件はいずれの治療に対しでも交互作用の変量効果を想定しているため,モデ、ル lに準拠して いる.しかし,実際には真の状態を規定することは困難であり,この条件が本質的な問題になるとは A 川凶・ ロリ 1i
考えていない. μ=0 β l 2,β 2‑ 0 γ ' j ~ N(O, V 2 ) ( β γ )ij ~ N(O, V 2 ) E i j k ~ N(O, 2 ) 4.2 乱lI X E Dプ ロ シ ジ ャ の 出 力 乱数を発生せさて得られたデータに MIXEDプロシジャを適用し,特記すべき結果についてまとめ a t t e r t h w a i t e法を用いた. MIXEDプロシジャで,近似自由度 た.ただし,近似自由度の計算には S の計算に S a t t e r t h w a i t e法を指定するには, modelステートメントで ddfm=s a t t e r t h "と記述すれ ばよい. 4 . 2 . 1 変量効果の計画行列 5行の列ベクトルになり,モデ ノレ 2では,こ モデ、ル 1の変量効果ベクトル γは ,J+2J=3J=1 れが J+J=2J=1 0行の列ベクトルになる.これに対応して,モデル lの変量効果に対する計画行 J ]=[ 1 0 0x3 ]の行列になり,モテツレ 2では,これが [Nx2 J ]=[ 1 0 0x2 ]の行列にな 列 Zは, [Nx3 β γ) 2 j =0 , Vjとするため,モデ ル lよりも変量効果に対する計画行列の列数が る.モデノレ 2では, ( 少なくなる. MIXEDプロシジャでは,出力の Dimension"の部分に計画行列の列数が表示される. 4 . 2 . 2 固定効果の推定値 固定効果の推定値に関する出力を表 3に示した. MIXEDプロ、ンジャで固定効果に関する出力を表 示させるには, modelステートメントで s o l u t i o n (または s ) "オプションをつければよい. 表 3 : 固定効果の推定値に関する出力 モデル モデ、ル l モデル 2 要因 μ β l μ β 1 標準誤差 自由度 t f I 直 P値 . 6 3 8 0 . 9 3 1 .8 5 4 5 . 2 4 0 . 5 0 0 4 2 . 0 8 6 3 . 1 2 1 .3 7 4 . 2 7 0 1 .6 1 6 . 5 9 6 0 . 9 3 4 . 1 9 0 . 5 7 0 . 2 1 0 . 0 8 9 3 . 1 2 1 .4 1 1 4 . 1 9 2 推定値 今回の数値例では l施設 1群あたりの被験者数が等しい(すなわちバランスがとれた)データであ るため, 2つのモデルで・固定効果の推定値は一致する.これは次の数学的根拠に基づいている. 線形混合効果モデル(式 ( 2 ) ) では, Xβ の一般化最小二乗推定量 ( G e n e r a l i z e dL e a s tS q u a r e sE s ‑ t i m a t o r:GLSE)は次式で与えられ,最良線形不偏推定量 ( B e s tL i n e a rUnbiasedE s t i m a t o r :BLUE) となる. GLSE(Xβ)ニ Xβ 。 =X(X'y‑1X)‑X'y‑ly= BLUE(Xβ) 146‑ ( 3 )
ただし,一般に V は未知であるので, Y の推定量 V を代入することで推定値を得る.ここで,バ ランスのとれたデータでは,次の関係式が成立し,いずれも最良線形不偏推定量となる [ 7 ] . ただし, OLSE(Xβ)は通常の最小二乗推定量 ( O r d i n a r yL e a s tS q u a r e sE s t i m a t o r:OLSE),MLE(Xβ)は最 i k e l i h o o dE s t i m a t o r:MLE)である. 尤推定量 (MaximumL OLSE(Xβ)= GLSE(Xβ)=MLE(Xβ)=BLUE(Xβ) ( 4 ) ここで, = 立 LL 仰二。 喝 OL臼 (Xβ)=X(X'X)‑X'y J K ( 5 ) i である. 2つのモデルで V の推定値 V は異なり(後述人 (X'y‑1X) も異なるが,バランスがとれ 4 )の関係式から, GLSE(Xβ)= OLSE(Xβ)となる. したがって, OLSE(Xβ) たデータであれば式 ( の式(式 ( 5 ))に V が含まれないので, 2つのモデルで固定効果の推定値は一致する. 一方, 1施設 l群あたりの被験者数が異なる場合,すなわちアンバランスなデータでは,例えば, YX=XFを満たす行夢I J Fが存在すれば, GLSE(Xβ)= OLSE(Xβ)となるが,この条件が成立す るのは稀である [ 7 ] . 2つのモデルで,推定値の標準誤差およびその自由度は異なり, tf 直 , P値も異なるが,試験治療効 果の施設における不均一性を評価するには,本質的な問題ではない.それは,臨床試験のための統計 的原則 [ 1 ], お よ び 寒 水 他 [ 3 ]において,治療の主効果は治療と施設の交互作用を含まないモテツレを 用いて調べることが推奨されており,その場合には 2つモデ ルが同じになるからである. 4 . 2 . 3 変量効果の推定値 変量効果の推定値に関する出力を表 4に示した.ただし,検定統計量に関する出力は省略した. MIXEDプロシジャで変量効果に関する出力を表示させるには, randomステートメントで s o l u t i o n (または s ) "オプションをつければよい.モデル 1とモデル 2では,想定する変量効果ベクトル γが 異なるため,変量効果の推定値は一致せず,結果として V も異なる.それに応じて標準誤差および その自由度は異なる. 4 . 3 試験治療効果の不均一性の評価 前節では,試験治療効果の不均一性を評価するには,目的(方法)に応じて,モデルを使い分ける 必要性があることを示した.ここでは数値例について,適切なモデルを用いて解析を行った結果を 示す. 4 . 3 . 1 分散の比較 モデノレ 2を用いて解析する 試験治療効果の施設問の分散は σん =6 . 3,対照治療(ベースライン l .2,誤差分散は σ2=1 8 . 2である.一般に,試験治療効果の施設にお 効 果 ) の 施 設 聞 の 分 散 は 吟 =1 ける不均一性を評価するには, σん と σ与の大きさを相対的に評価すればよい では,出力の MIXEDプロシジヤ C o v a r i a n c eParameterE s t i m a t e s "の部分に変量効果の分散および誤差分散の推定値 が表示される. ‑147‑
表 4 :変量効果の推定値に関する出力 要因 γ l γ 2 γ 3 γ 4 γ 5 ( β γ ) l l ( β γ ) 1 2 ( β γ ) 1 3 ( β γ) 14 ( β γ ) 1 5 ( β γ) 21 ( β γ) n 23 ( β γ) ( β γ ) 2 4 (βγb モデル 1 推定値 標準誤差 自由度 2 . 0 2 0 44 5 . 8 8 4. ‑1.8 0 3 . 8 3 ‑0.75 1 .9 5 0 . 1 9 1 .0 1 ‑1.32 0 . 7 7 1 .37 0 . 8 4 0 . 5 9 43 0. 0 . 9 5 ‑0.92 2 . 0 2 0 2 . 0 2 0 2 . 0 2 0 2 . 0 2 0 1. 44 0 1 . 44 0 1 .440 1 .440 1 .440 1 .440 1 .440 1 . 44 0 1 .440 1 .440 5 . 8 8 5 . 8 8 5 . 8 8 5 . 8 8 2 . 2 7 2 . 2 7 2 . 2 7 2 . 2 7 2 . 2 7 2 . 2 7 2 . 2 7 2 . 2 7 2 . 2 7 2 . 2 7 要因 モデル 2 推 定 値 標準誤差 γ 1 γ 2 γ 3 γ 4 γ 5 ( β γ ) l l ( β γ )l2 ( β γ ) 1 3 ( β γ )l4 ( β γ ) 1 5 4 . 9 5 ‑1.16 ‑3.22 ‑1.5 8 1 .0 0 0 . 1 5 ‑1.78 ‑2.15 1 .6 1 2. 47 1 .8 1 6 1 .8 16 1 .8 1 6 1 .8 1 6 1 .8 16 1 .7 40 1 .7 4 0 1 .7 4 0 1 . 7 4 0 1 .7 40 自由度 6 . 0 3 6 . 0 3 6 . 0 3 6 . 0 3 6 . 0 3 4 . 3 9 4 . 3 9 4 . 3 9 4 . 3 9 4 . 3 9 . 9,σjl=125となるが,これらを比較しても試験治療効果の施設におけ モデル 1では, d71二 2 る不均一性を評価することにならない. 4 . 3 . 2 試験治療効果の分布の図示 モデル 1およひーモデ、ル 2を用いて解析する.モデル 1では, β β γ) γ) 1+( 1j ‑ (β 2j の推定値を,モデ ル 2では ,s β γ) 1+( l jの推定値を,それぞれ 95%信頼区間とともに図示すると図 1が得られる.こ のように図示することで,試験治療効果の不均一性を視覚的に評価でき,いずれのモテツレからも同様 の結論が得られる. 2つのモデルによる結果は数値的に類似しているが,モデル 1による検討が妥当 であるかは議論の余地がある. MIXEDプ口、ン、ジャで,上記の推定値とその 95% 信頼区間を計算する s t i m a t e "ステートメン卜を利用すればよい.(変量効果の推定値の 95%信頼区間のみを出力す には E るには, randomステートメン卜で c l "オプションをつければよい.) 4 . 3 . 3 予測値の図示 モデル 1を用いて解析する.モデルの予測値を 95% 信頼区間とともに図示すると図 2が得られる. このように図示することで,試験治療効果の不均一性を視覚的に評価で・き,試験治療効果の分布を図 示した場合と同様の結論が得られる. MIXEDプロ、ンジャで,モデルの予測値とその 95% 信頼区間を 出力するには, modelステートメン卜で outpred (または o u t p ) =d α t αs e f 'オプションをつければ よい. 1 4 8
推定値 l O , 旬 : ; / " ‑ ‑ : : . : . ‑ 、‑ 、ー ‑ ‑、 ‑ ‑ ,〆/ ' , ‑ ‑ ー 施設 一一モデ jレl一一モデ jレl 図 1 :試験治療効果の分布 予測値 I I l 0 ︑¥ ︑ ︑ ︑ ︑ ︑ ︑ ︑ ︑ ︑ ︑ ︑ ー 施設 一試験治療一一対照治療 図2 :各施設ごとのモデルの予測値 nud A位 1ム
5 まとめ 本稿では,臨床試験において試験治療効果の施設における不均一性を評価する 3つの方法を示し, どのように線形混合効果モテ。ルを適用するのが適切であるかを考察した.取り上げた 2つのモデ ルは, 一見同じようなモデルにみえるが,パラメータのもつ意味が異なるので,目的に応じて使い分ける必 要がある.特に,モデル 1の交 E作用が試験治療効果(治療効果の差)の不均一性を表していないこ とには注意が必要である. 今回取り上げたモデル 2は,一般的な教科書等に記載されている方法とは異なるため,著者らは, このモテ守ルに対する数理的な研究を行う必要があると考えている. 謝辞 本発表のきっかけは,東京理科大学工学研究科経営学専攻の医薬統計コースで東京大学の松 山裕助教授による「混合模型とベイズ流解析法」の講義を受けたことである.本研究に対する動機 付けと貴重なご助言をして頂いた松山裕助教授に心より感謝致します. 参考文献 山厚生省医薬安全局審査管理課長 ( 1 9 9 8 ):I 臨床試験のための統計的原則」について(平成 1 0年 1 1月 30日医薬審第 1047号) .h t t p : / / w w w . n i h s . g o . j p / d i g / i c h / i c h i n d e x . h t m . [ 2 J 菅波秀規,吉村功 ( 2 0 0 0 )混合効果モデ ルの実用化.計量生物セミナー資料 [ 3 J 寒水孝司,大森崇?吉村功 ( 2 0 0 1 ) I 臨床試験のための統計的原貝I J J における交 E 作用の扱い方に ついての考察.応用統計学 30N o.l .20011 ‑ 1 8 ato肌 D andL i t t e l l, R.( 1 9 9 6 )AdvancedG e n e r a lL i n e a rModelsw i t hanEmphasisonMixed [ 4 JL ModelsCourseN o t e s .SASI n s t i t u t eI n c . [ 5 J McCulloch,C .E .,S e a r l e,S .R.( 2 0 0 1 )G e n e r a l i z e dL i n e a r andMixedM o d e l s .WileyS e r i e s ぅ i nP r o b a b i l i t yandMathematicalS t a t i s t i c s .John羽T i l e y& Sons, NewY o r k . [ 6 J SASI n s t i t u t eI n c .( 2 0 0 1 )SASjSTATU s e r ' sGuide, V e r s i o n8 . e a r l e,S .R . , C a s e l l a,G.andMcCulloch,C .E .( 1 9 9 2 )V a r i a n c eComponents,WileyS e r i e si n [ 7 JS P r o b a b i l i t yandMathematicalS t a t i s t i c s .JohnWiley& S o n s、NewY o r k . 問 [ 司 8 JZ 戸 y s 止 k 巾 i i qu乱 a r e 白sl i n e a re s t i m a t o r si nl i n e a rm o d e l s .A n n .Mαt h .S t a t .38,1092‑1109 l e a s t叫 s [ 何 阿 叫 9JZ戸 y 止 5k 山 i i theoremi nl i n e a rmodelsw i t ha r b i t r a r yno n 任 一n eg 抗 a t i v es t r u c t u r e . SIAMJ .A pp. lM a t h .17 う 1 1 9 0 ‑ 1 2 0 2 ハ ロリ υ H 唱﹃ム
日本 S A旦.:J..ーザー会 (SUGI‑J) 要因配置実験の効果成分の表示から生じる不定性* O柴山忠雄 (前所属・名古屋市工業研究所) Indeterminacyo fe f f e c tcomponen 也o ff a c t o r i a lexperimen也 a r i s i n gfromt h ewaysofexpression* TadaoShibayama ( R e t i r e d : NagoyaM u n i c i p a l l n d u s t r i a lResearchI n s t i t u t e ) 要旨 効果成分の i j ]日法性」のみを仮定しでも効果要素は一通りには定まらず,実務的には,線形制約式の問題 または一般逆行列の問題を無視できない. S A S / S T A Tソフトウェア G L Mプロシジャおよび付属文書が高度に完 成された解決策を与えているが,変数,効果成分および効果要素が数多く,表示・定義もさまざまで,個別 の背景もあるから,活用するには広大な視野を展望し細部を熟視し周到な考慮をはらう必要がある. 単一要因系の直積として組み立てられる組み合わせ完全配置の上で、の応答関数の効果成分への展開は一般 の複数要因系の解析の基礎となり,その不定性の H 今味は各種の角勃庁の手順の意味をわかりやすくする. その結果, S A S / S T A Tソフトウェア G L M プロシジャに組み込まれている推定可能性・平方和縮減・平方和分 離・掃き出し法などの一般逆行列による数理も,また,通常の線形制約式による数理も見やすくなる. キーワード S A S / S T A Tソフトウェア G L Mプロシジャ 一般逆行列 ( S A S )平方和 S Sトー I V 線形制約式 .問題の背景 組み合わせ完全配置の上で処理ごとに確定する応答を応答方程式に基づし、て効果成分の各種,すなわち, 一般平均,主効果,および 2要因以上の複数要因交互作用に分解する方法は応答の性質を明らかにするた めに広く用いられている. しかし,効果成分の「加法性」のみを仮定しでも,応答方程式に含まれる効果要 素の総数が応答の値の総数よりも多いために,効果成分の要素(効果要素)は一通りには定まらない. 実務的には,応答の性質を明らかにするために効果要素を適当な方法で確定させてみることも必要な場合 があり,そのときには,線形制約式の問題または一般逆行列の問題を無視できない.これを解決する試みの 成果が高度に完成された形でS A S / S T A Tソフトウェア G L MプロシジャおよrA寸属文書に集約されている. ただし,その成果を活用するには,変数,効果成分および効果要素が数多く,表示・定義もさまざまであ り,個別の背景もあるから,広大な視野を展望し細部を熟視し周到な考慮をはらう必要がある. ‑角税庁的・代数的な立場一数理統計学の視点、からの留意点 統計科学の役割は,実験事実・経験事実から,日)集団, b )集団内の変動,および, c )事実の要約,この 3 つの視点で,人間活動に役立つ実用的に意味のある知識をとり出すことである ( F i s h e r, 1 節 , 1 9 2 5 ) . しか し,人聞は今日も明日も安定している明白な確定の事実にささえられて生きており,集団も変動も確定の事 * E n g l i s hh a n d o u ta v a i l a b l e . ロリ よ ー
実に基づいて把握する.確定の事実の多くが定数・関数として要約され解析的・代数的な法則として表わさ れる.集団・変動を取り扱うためにも,定数・関数を取り扱う手段を整理しておくことが求められる. 5 答関数)となる場合であ 最も重要なのは応答の値が複数個の要因の各々の設定値の組み合わせの関数 α り,実験は要因の各々の設定値の組み合わせに対して応答関数の値を具体的に定めるために行なわれる. ‑各種の構造模型・各種の効果成分 実質科学との接点 応答の効果成分はさまざまの形式で定義され,効果成分を加え合わせて応答とするさまざまの形式の構造 模型が組み立てられ,さらに,応答から効果成分を定めるためのさまざまの実験配置が考案されている. S A S / S T A Tソフトウェア G L Mプロ、ンジャで、は,加法性にしたがう構造模型に基づいて応答を来由1 比する各種の )定数, 1 )離散水準値を設定値とする要因(離散要因)の主効果成分,および:, 2 )複数の 効果成分として, 0 離散要因の直積組み合わせ構造としての交互作用成分,のほか, 3 )複数の離散要因の階層枝分かれ構造とし 、 町 s ての階層分岐成分,などが用意されている (SAS/STAT@U G u i d e,V n6 ,4 t h 巴d n,p . 8 9 5 ‑ 8 9 7 ). 模型は実在の真実の姿を探索するための手段に過ぎなし、から,できるだけ単純な形式でするどくとぎすま されていることが好ましい.その意味では,組み合わせ完全配置の上の応答の効果成分の取り扱いは,不定 性の問題を中心として,今よりも,わかりやすく整理されてよい.また,枝分かれ配置の上の応答の効果成 分の取り扱いは,組み合わせ完全配置の上のものとは全く別のものとして,やはり,整理されてよい. ‑完全配置・省略配置・重複配置・変形配置・欠落配置・欠測配置 組み合わせ完全配置の上での効果成分のいくつかが恒等的に 0である場合には,各々の要因の設定水準値 の組み合わせ(処理)の一部を省略した「省略配置」を用いて,ほかの効果成分を求めることができる. 処理のいくつかを重複して実施する「重複配置」を用いると,揺動の大きさを定量することができる. 克則に施した「変形配置」も用いられる.計画した配置の処理の一つまたはし、く 処理の省略と重複とを不i つかについて,本来,測定が実行できない永久の原因があり,その処理の測定値が実現できない場合の配置 は「欠落配置」となる.これは偶然の不都合で測定が実行で、きなかった「欠測配置」とは区別される. S A S / S T A Tソフトウェア解説文書の i4種類の推定可能関数」の章には欠落配置または欠測配置の実例が示 S A S / S T A T ⑧ U s e r ' sG u i d e,V n6 ,4 t he d n,p . 1 2 0 ‑ 1 2 4 ),欠落と欠測との区別は触れられて されているが ( いない.応答から加法│主に基づいて効果要素を求める G a u s s ‑ J o r d a n ‑ D o o l i t t l e の前進消去・後退代入の計 算 ( G o o d n i g h t1 9 7 8 ) はその区別をせず実行できる.組み合わせ効果要素と枝分かれ効果要素とに加法性を 仮定して両方を同じ構造模型の中に取り入れる姿勢もこの事実によるところが大きいと思われる. .力日法性と分離性とに基づく(正準)効果成分の定義一正準展開・正準制約式 加法性のみに基づく一月財集形模型の効果成分の定義を用いると,さまざまの問題を効果要素の連立一次方 程式の系で表わして共通の解法で取り扱うことができる.しかし,通常は効果要素の数が応答の数より多い ために解には不定性が生じる.また,組み合わせ完全配置の上で確定する応答関数については,応答関数平 方和は効果成分平方和の総和と一致しない.加法性に基づく定義に応答関数平方和の効果成分平方和への分 離性を補足すると,これを一致させることができる.また,各々の効果要素を確定させることができる. この結果は実質科学の側からの効果要素の解釈および一般の効果要素の不定性の吟味に便利である. 組み合わせ完全配置の上の応答関数の(正準)効果成分を加法性と分離性とに基づいて定義する. 針生: 応答関数 y y ( a, b , ・ ・ ・ ,k ) がつぎの式 ( 1 ) の示すように効果成分の和に分解されること. 力 日f y y( a,b ,・ , k ) =y y : M + y y : A ( a ) +・ + y y : K ( k ) + y y : A B ( a, b ) +・ + y y :日( ( h, k ) + y y : A B C ( a, b, c ) +・ + y y : u t 部( u, h , k )+・ + y y :A B C '. . UHK( a, b, c ,・ , u , h, k ) ( 1 ) ここで,独立変数 a, b, " ' , k は要因 A, s, " ' , Kの水準値の一組であり,従属変数 y yは応答の値で、ある.右辺 y : Mは定数(一般平均)であり,項y y :X( x ) は単一の要因 X の水準値x のみを独立変数とする関数(主 の項y 効果)であり,項y y :X 1 X 2( x1 , x 2 )は要因 X 1の水準値x 1と要因ロの水準値x 2とを独立変数とする関数 (2要因 交互作用)であり, 3要因以上の各項がつづき,最後は全部の要因を含む交互作用の項となる. 分離性: 式(1)の左辺の応答関数 y y( a, b , ・ ・ ・ ,k ) のこの配置の上での平方和が,つぎの式の示すよう 円〆 U F h υ Ei 唱
r (2) に,式 ( 1 ) の右辺の効果成分の各々のこの配置の上での平方和の和に分解されること 2 :yy( a, b ,・ , k )^ 2= 2 :y y :M^2+2 :y y :A( a )^ 2 +・ +2 :y y :K( k )^2+2 :y y :A s( a, b )^2+ ・ +2 :y y :出 ( h, k )^ 2 :y y :A BC( a, b, c )^2+・ +2 :y y :UHK( u, h , k )^2+・ +2 :y y :A sC '.i l l 氷( a, b, c,. . ., u, h, k )^ 2 +2 和記号 Zは配置の処理 ( a, b, ・ ・ ・ ,k )の全部の上でとる.分離性はつぎの「正準」制約式から導かれる. :@x11 I yy:X1X2(x1, x2)=0,2 :@x却 yy:X1X2( x 1, x 2 ) 0, r (2a) 制約式 2 :@x井yy:X(x)=O, 2 2 :@x1持yy:X1X2X3(x1,x2, x3)=0,2:@x2井yy:X1X2X3(x1, x2, x 3 ) 0,2 :@x3井yy:X1X2X3(x1,x2,x3)=0, 二 二 J e この式で¥記号 は添え字の先頭を表わし,記号持は添え字の末尾を表わす. 1 などは要因 X,要因 X 1 などの水準値をそれぞれ表わす.和記号2:@x , 井 f 日記号2:@x1押などは 整数x,整数x それぞれの添え字の表わす水準値X,水準値x 1 など、の可能な値の全部にわたって作用させる. 2 ) の「基礎」分離性のみから導くことはできないが,つぎの 2つの条件を補足して「完全J 制約式を式 ( 分離性とすれば導くことができ,この「完全」分離性と制約式とは等価になる(柴山 2002a, b ). A )加法性の式(1)の右辺の効果成分の任意のーっか任意のし、くつかを 0としたときにその結果として左辺 に得られる応答関数yy1( a, b, ・ ・ ・ ,k ) についても分離性の式 ( 2 ) がなりたつこと 直交性. B )加法性の式 ( 1 ) の右辺の効果成分の任意のーっか任意のし、くつかを加法l 主の式(1 ) と分雌性の式 ( 2 )と にしたがうまったく別の応答関数yyO( a, b,..• , k ) の対応する効果成分でおきかえたときにその結果として a, b, ・ ・ ・ ,k ) についても分離性の式 ( 2 ) がなりたつこと 左辺に得られる応答関数yy2( 一 交換性. このうち,交換性はつぎの「基本」交換性と等価で、ある(柴山 2002b) . 1 ) の右辺の効果成分の任意の一対にあてはまる直交性の式が,その式に含まれる効果成 B ' ) 加法性の式 ( 分のうちの一方に任意の微ノト変動を与えた場合にも,なりたつこと 基本交換性(柴山 2002b) . 組み合わせ完全配置の上で確定する応答関数について,加法性(式 ( 1 ))と分離性(式 ( 2 ))または正準市 I J k i 守 式(式 ( 2 a ))とによって定まる「正準展開」は「正準」効果成分の基本的な定義を与える.また,正準展開で はない一般の多方展開,線形展開および線形直交展開の効果成分の性質を整理する基礎を与える. .正準展開の演算子表示 要因 ( X ) ごとに平均演算子と残差演算子とを定めると(正準)効果成分が応答関数の式で表わされる. 平均演算子 EX : =( l /l X )2 :@ x l l ( 3 ) 残差演算子 DX : = l‑EX ( 3 a ) ( 3 )( 3 a ) ここで整数 l Xは要因 X の水準数を表わす.平均演算子EXおよび残差演算子DXは任意の関数に左側から作用さ せる代数演算子であり,つぎの恒等式 ( 3 b )がなりたつ.右辺の各項を応答関数y y( a, b, ・ ・ ・ ,k )に作用させる と,結果の各項が,全体として加法性および分離性を満足して, (正準)効果成分の一つ一つを表わす. (1三) ( E A + D A )( 回+ D B )・ ( E K + D K ) 三E A .E B . . . . .EK + D A .E s .・ ・ ・ .EK + E A .D s . '・ ・ .EK +・ + E A .E B .・・ .DK +・ +D A .D s .. . . . DK ( 3 b ) ‑応答ベクトル b, ・ ・ ・ ,k )の全部を縦一列に紙面に書き,行 組み合わせ完全配置の上で、確定する任意の応答関数の値yy(a, 列代数の託佐ぺクトルと見なし,応答純たくクトルと名づ、け, Dirac 右括弧を用いてつぎの式 ( 4 ) のように表わ す.また,応答関数の値yy( a, b, ・ ・ ・ ,k )の全部を同じ順序で左から右八横一行に紙面に書き,行列代数の横 ベクトルと見なし,応答横ベクトルと名づけ, Dirac左括弧を用いてつぎの式 ( 4 a )のように表わす. a, b, ・ ・ ・ ,k ) )( 4 ) 応答横ベクトル ( y y( a, b,…, k ) ( 4 a ) ( 4 )( 4 a ) 応答齢ぺクトル yy( この記号法を用いると組み合わせ完全配置の上で、確定する応答関数yy( a, b , ・ ・ ・ ,k )を託台くクトルまたは横 ベクトルとして書き,それぞれのベクトルの要素を応答関数yy( a, b, ・ ・ ・ ,k )として書き,たがし、に書きなお し,さらに,ベクトルの聞の,または,ベクトルに対する演算を式として表わすことができる. .記号累乗による水準値の表示 W =l , ・ ・ ・ ,n ) として表 組み合わせ完全配置をつくる要因の総数を整数n で表わいその一つ一つを要因 Xw ( わす.要因 Xwの水準数を整数 lwで、表わし,水準値の一つ一つを整数xw ( = 1 , ・ ・ ・ ,l w ) で区別する.そして, B, ・ … , Kを要因 X l, X 2 ," ' , Xn として表わせば,要因 A, , 3 [" ' , Kの処理 ( a, b, " ' ,k )は処理 ( x l, x 2, " ' ,x n ) 要因 A, ﹁ q 弓U h u ‑ ‑
として表わされる.また,応答関数y y ( a, b , ・ . . ,k )は応答関数y y( x 1, x 2, . . . ,x n ) として表わされる. このほかに,要因 Xwの水準値x w( = 1, ・ . . ,l w ) を記号累乗x w ^ t w( tw =O , ・ ・ ・ ,g w )で書く表示がある.指数回 の上限 g w( = l w ‑ 1 )は要因 X wの自由度と名づけられる.この表示では,応答関数y y( x 1, x 2,. . . ,x n ) は,記号 累乗の積 ( F i n n e y ‑ K e m p t h o r n e処理記号積)を用いて,応答関数y y( x 1^ t1 .x 2 ^ t 2 .・ ー .x n ^ t n )とする. ‑応答基本ベクトルまたは応答基本関数による応答の展開(単一要因系の場合) wのみで、定まる応答 y y X w( x w ^ t w ) の応答空間では一次独立な応答基本紙佐ぺクトノレm( X w ^ T w :x w ^ t w ) )と 要因 X m *( X w ^ T w :x w ^ t w ) とが要因 X wの水準数 l w fこ等しし、本数ずつ定まる.どち それに双対の対比基本横ベクトル ( らも対比指数T w( = 0, ・ ・ ・ ,g w ) で一本ずつ区別し,要素m ( X w ^ T w : x w ^ t w )または要素げ ( X w ^ T w :x w ^ t w ) を処理指 数回 ( = 0, … ,g w ) で一つずつ区別する.単位演算子 ! wをつぎの式 ( 5 ) で定め,その式の両辺を応答税佐ぺクト ル y y X w ( x w ^ t w ) ) に作用させて応答基本紙必ぺクトルm ( X w ^ T w : x w ^ t w ) ) または応答基本関動n( X w ^ T w :x w ^ t w )の 一次結合を得る.係数(対比) ( m* ( X w ^ T w : x w ^ t w )・y y X w ( x w ^ t w ) ) は対比指数f wで一つずつ区別される. ! w= ~@Tw=0,伊枠 m(Xw^Tw:xw^tw)) ( m * ( X w ^ T w : x w ^ t w ) ( 5 ) ‑応答基本ベクトルによる正準展開 wの値が 0のものに 単一要因系での応答基本紙佐ぺクトルおよび双対の対比基本横ベクトノレのうち対比指数f 着目する.応答主方向基本紙佐ぺクトル m ( X w ^ O : x w ^ t w ) ) を単位要素ベクトル ( m ( X w ^ O : x w ^ t w )= 1 ) とし,対 比主方向基本横ベクトル ( m *( X w ^ O :x w ^ t w ) を均分要素ベクトル ( m * ( X w ^ O : x w ^ t w )= 1 / 1 w ) とする. w( 式( 5 ))を平均演算子加と残差演算子加との和として,つぎのように書く. そして,単位演算子 ! ! w=: i J w + 申 w t w二 m ( X w ^ O : x w ^ t w ) ) 仇*( X w ^ O :x w ^ t w ) I ! > w= ~@Tw= 1 ,伊枠 m(Xw^Tw:xw^tw)) ( m * ( X w ^ T w : x w ^ t w ) ( 5 a ) 単位演算子 ! w( w =1 , ・ ・ ・ ,n ) の直積は完全配置の応答空間の単位演算子Iでありつぎの式で展開される. ! ( =!1X … X!n= ( t 1 + 申1 )X … X( t n + 申 n ) ) = t 1Xt2X … xtn+ 申 1xt2X … xtn+t1XW2X … xtn+ … … +t 1Xt2X … XWn + … … + 申 1XW2X … × 恥 ( 5 b ) 右辺の各々の項を応答託佐ぺクトル y y( x 1^ tl . ・ ・ ・ .x n ^ t n ) ) に作用させると効果成分純必ぺクトルが一つ一つ定 まり,式 ( 3 b )の(正準)効果成分と一つ一つ対応する.この応答空間の応答基本紙佐ぺクトルは単一要因応答空 間の応答基本紙必ぺクトルの直積であり F i n n e y ‑ K e m p t h o r n e 対比記号積 X 1 ^ T l . ・ ・ ・ .X n^ T nで指定される. これに双対の対比基本横ベクトル ( m *( X 1^ T l .. . . .X n ^ T n : )も定まり,応答託佐ぺクトル y y( ))との内積 ( m *( X 1 ^ T l .・ . X n ^ T n : x 1 ^ t1 .・ . x n ^ t n )・y y( x 1^ tl .・ . x n ^ t n ) ) ( 5 c ) は対比と名づけられ,その一つ一つは F i n n e y ‑ K e m p t h o r n e対比記号積 X 1 ^ Tl.・・・.X n ^ T n で区別される. .一般の多方展開,線形展開および直交線形展開の定義 複数要因系を組み立てている単一要因系の応答主方向基本紙必ぺクトル m( X w ^ O :x w ^ t w )) ( 式( 5 a ))を単位 ( X w ^Q: x w ^ t w )= 1 )とし,対比主方向基本横ベクトル ( m *( X w ^ O :x w ^ t w ) を均分要素ベクト 要素ベクトル(m m * ( X w ^ O : x w ^ t w ): =r X w ( t w ) )とすると,正準展開の場合と同様に,単位演 ルで、はない一般のベクトル ( 算子 ! w,平均演算子恥およひ犠差演算子加が定まり, (多方)効果成分の各々が確定する(式 ( 5 b ) ).応答関数 に対する平均演算子E X( 式( 3 ))は係数1!1 Xを関数r X x( = r X w( t w ) ) でおきかえてつぎの式で定義される. E X: = ~@x枠 rXx. ( 6 ) その結果,加法性の式が与える展開(式 ( 1 ))は,正準展開ではなくなり,一般の「多方展開」となる. 効果成分の加法性(式(1))は成り立つが,応答平方和の効果成分平方和への分離性(式 ( 2 ))は成り立たな い.重みつき平方和により重みつき分離性を確保しでもその意味を自然に解釈することは容易でない. なお,組み合わせ完全配置の上の応答関数から,加法性の式(式(1))に基づし、て, (多方)効果成分を定 めるためには,正準制約式(式 ( 2 a ))のかわりに,その中に含まれる効果要素の各々に対比主方向基本横ベク X w ^ O :x w ^ t w ) の要素 r X w ( t w ) を係数として付与した(多方)制約式を用いる必要がある. トル(m*( 154‑
複数要因系を組み立てている単一要因系の応答主方向基本縦ベクトル m ( X w ^ O : x w ^ t w ) )( 式( 5 a ) ) を単位 要素ベクトルではない一般のベクトル ( m ( X w ^ O : x w ^ t w ): =m Xw ( t w ) )とすると,同様の手順で,単位演算 子! w,平均演算子t w およひ暁差演算子加を定めて,一般の「線形展開」を組み立てることができる.なお, 弔X w ( t w ) ) を付け加えてつぎの式で定義される. 応答関数に対する平均演算子E X( 式( 3 ))は関数回収x ( E X: =m X X .l ;@x持 r X x . ( 6 ' ) 1 ))よりも複雑になり,つぎの式となる. 加法性の式は,正準展開または多方展開の場合(式 ( y y( A a, Bb,…, K k ) = Dd,…, Q q, U u, Hh, K k ) y y( A a, B b, C c, mAa .m Bb .m C c .….mUu.mHh.mKk.yy:M +m Bb .m C c . m U u .m H h .m K l く .y y:A(Aa) + mAa .m C c .… .mUu.出 h .m K k .y y :B( B b ) + … +mAa .m B b .….m Q q .m U u .吋i h .y y :K( K k ) +m C c .… .mUu.mHh.mKk.yy:AB(AaBb) + … +mAa .m Bb .….mQq.mUu.yy:HK(HhKk) + … + … +y y : A B . . . K ( A a B b . . . K k ) ( 6 a ) y y ( X x ) =m Xx .yyX:M + yyX:X(Xx) ( 6 b ) … . なお,要因X の単一要因系では 力日法性の式(式 ( 6 a ))にあわせて,正準制約式(式 ( 2 a ) )の中に含まれる効果要素の各々に対比主方向基本横 ベクトノレ(01*( X w ^ O :x w ^ t w ) の要素r X w ( t w ) を係数として付与した線形制約式を用いると,組み合わせ完全配 置の上の応答関数から,線形効果成分を定めることができるが,分離性(式 ( 2 ))は成り立たない. ただし,線形制約式の効果要素の係数となる関数r X x( = r X w ( t w ) )として関動nXX ( =m ( X w ^ O : x w ^ t w ) ) の定 /l ;@x持mX x ^ 2倍)を用いると,組み合わせ完全配置の上の応答関数平方和は式 ( 6 a )または ( 6 b )の 数 倍 (1 右辺の各項(線形効果成分)の平方和の総和に等しくなり,その意味では,分離性が成り立つ. その線形効果成分はたがし、に直交し,力日法性の式(式( 6 a ))は「直交線形展開」を与える(柴山 2 0 0 3 b ) . ‑単一要因系の応答方程式の表示から発生する不定性 要因Xのみを含む応答関数 y y( X x ) について,要因Xの水準値 X x( x = 1, … ,1 X ) ごとに,線形展開の加法 個)をその応答関数の応答方程式としてつぎ、の形で表わす. 性の式(式 ( 6 b ) )を書き,その全部(lX y 1 =m 1 .c O+ 1 .c 1 +O .c 2・ +・ +O .c x+ ・ ・ ・ +O .c l y 2 =m 2.cO+ O . c 1+ 1 .c 2+ ・ ・ ・ +O .c x+ ・ ・ ・ +O .c l y x =m x .c O+O .c 1 +O . c 2+ ・ ・ ・ +1 .c x+ . . → O .c l y 1 =m 1 .c O+ O .c 1 +O .c 2+ ・ ・ ・ +O .c x+ ・ +1 .c l ( 6 c ) ただい最後の式の左辺の値 y 1 の添え字 1 ,最後の式の右辺の第 1項の係数 m 1 の添え字1,および, l の添え字 l は,どれも,要因Xの水準数 1 Xを表わしている. 各々の式の右辺の最後の項の値 c 各々の式の右辺の第 1項 の 係 数 回 ( xニ 1 , … ,1 )は応答主方向基本関動nX x (司伽 ( t w ) )( 式( 6' ))の値であ る.各々の式の左辺の応答測定値y 1,y 2,…, y x,…, y 1 の各々は要因Xの各水準で、の応答関数y y(Xx)の値 の各々 y y( X 1 ),y y( X 2 ),…, y y( X x ),…, y y( X 1 ) を表わしている.各々の式の右辺の第 1項の値c Oは一般 平均の効果要素y y : M (定数)を表わしており,そのあとの各項の値c 1, c 2, … ,c 1はそれぞれ要因Xの主効果 j 聞に表わしている. の効果要素の各々 y y :X( Xl ) , y y :X( X 2 ),…または y y : X ( X 1 ) を[ 各々の式の右辺の効果要素c xの係数の各々はこの単一要因系の要因配置実験の「計画行列」をつくる: m 1 m 2 m x m 1 。 。 。。 。 。 。。 。。 。 ( 6 d ) 応答方程式(式 ( 6 c ))の左辺の応答測定値 y 1, y 2, ・ . . , y 1 を縦 1列に書いて応答紙たえクトノレγ y '( 式( 6巴 ) ) と l を縦 1タ J [ に書いて効果要素縦ベクトル c c '( 式( 6 f ))とすると,この し,右辺の効果要素 c O,c 1, c 2, … ,c 効果要素託佐ぺクトノレc c ' に左から計画行列(式 ( 6 d ))を掛けたものは応答託たぺクトルy y ' になる. y y '=( y 1,y 2,一 y1 )'(6e) c c '=( c O,c 1,c 2,…, c l ) ' 155‑ ( 6 f ) ( 6 e )( 6f )
応答測定値(式 ( 6 e ))の全部(l個)が定まっても,応答方程式の解となる効果要素(式 ( 6 g ) )( l+1個)は一 通りには定まらない.解となる効果要素の一通りがつくる効果要素託たくクトル c c ̲ o 'をつぎの形に書くと, c c ̲ o '= ( c O ̲ o, c 1 ̲ o, c 2 ̲ o,… , c x ̲ o,ー ・ , cLo), ( 6 g ) この縦ベクトル c c ̲ o 'につぎの託たくクトル c cm 'の任意定数(仮に rとする)倍を加えたものも解となる. c c ̲ m '= ( ‑ 1,m 1,m2,…, m ( x ‑ 1 ),mx,m ( x + 1 ),…, m 1 ) ' ( 6 h ) この託bぺクトル c c ̲ m 'は計画行列(式 ( 6 d ))に対して,不定倍数r を除き,一通りただ一通りに定まる.効果 S h i b a y a m a2 0 0 3 a ) . 成分の表示から発生する不定性が,この誕た〈クトルを用いて,具体的に表わされる ( この紙たぺクトル c c ̲ m 'を,仮に, I 効果 零'方向基本紙岳、くクトノレ」と名づける.応答方程式(式 ( 6 e )) の c ̲ o 'が定まると,これに効果零方向基本齢ぺクトル c cm 'の任意 解のーっとして効果要素緋ペクトル一本 c 定数倍を加えたものは同じ応答方程式の解のーっとなる.また,同じ応答方程式のどの解ももとの効果要素 誕たぺクトル c c ̲ o 'に効果零方向基本紙佐ぺクトルの定数倍 r・c cm ' を加えたものとして表わされる. したがって,線形制約式の差異または一般逆行列の差異は任意倍数rの差異となる.また,同じ応答測定 値に対する異なる効果(要素)の差は効果零方向基本紙たぺクトルの任意定数倍(の要素)に等しい. ‑複数要因系の応答方程式の表示から発生する不定性 複数要因のつくる組み合わせ完全配置の上の応答関数の線形展開で,加法性のみによって定まる線形効果 成分の不定性については,要因ごとに単一要因系の応答方程式,計画行列および効果零方向基本僻ぺクトル をつくり,全部の要因にわたって,それぞれ,直積をつくると,基本的に同じ数理があてはまる. ただし,こうして得られる複数要因系では,単一要因の効果零方向基本給サトルのつくる「矧キ」直積 ベクトル一本のほかに, I 複合」直積ベクトル多数本も,それぞれ,効果零方向基本紙たぺクトルとなる. 複合直積ベクトルをつくるには, 1 )各々の単一要因系の計画基本横ベクトルの直積として複数要因系の計 )これを転置して,複数要因系の「計画基本紙たぺクトノレ」とし, 3 )その直積因 画基本横ベクトルをつくり, 2 数の一つまたはし、くつかを対応する単一要因系の効果零方向基本紙たぺクトルでおきかえる. この複合直積ベクトルは純粋直積ベクトルと直交する.また,同様にして得られる複合直積ベクトル多数 本のうちのどの一本とも直交する.また,複数要因系の計画基本横ベクトルのど、の一本とも直交する. 複数要因系の応答方程式の解となる効果要素緋ぺクトルの不定部分は複数要因系の効果零方向基本紙長ペク トル(すなわち,純粋直積ベクトルおよひ鴨合直積ベクトノレ)の任意の一次結合で表わされる. ) 頃の代数的な1今味 .一般線形模型の解析の手1 単一要因系の直積として組み立てられる組み合わせ完全配置の上で、の応答関数の効果成分への展開は一般 の複数要因系の解析の基礎となり,その不定性の吟味は各種の角材庁の手1 ) 買の意味をわかりやすくする. S A S / S T A Tソフトウェア G L Mプロ、ンジャに組み込まれている推定可能性・平方和縮減・平方和分離・掃き出 し法などの一般逆行列による数理が見やすくなり,線形制約式による数理との関係も明瞭になる. 推定可能性は,代数的には,複数要因系の応答方程式の解となる効果要素稲佐ペクトノレに不定部分がつけ加 わっているにも関わらず,その不定性の影響を受けない結論をとり出すことが可能なことを意味する. 応答の測定値y を真値y yと揺動v vとの和と仮定する.真値y yと効果要素の真値c cとについては応答方程式 vと残差v yとの和と仮定し,推定値 y vと効 があてはまるとする.その一方で,応答の測定値yをその推定値y vとについては,応答の真値y yと効果要素の真値c cとについてあてはまるのと同じ形の応答 果要素の推定値c 方程式を仮定し,実験配置の上の残差平方和を最小にするよう各々の推定値を定める演算を組み立てる. ここで,応答の推定値y vはその真値 y yと揺動 v vの一部分とを含む.効果要素の推定値c vはその真値c cと揺 vの一部分とを含む.残差v yは揺動v vの一部分のみを含むから揺動v vの大きさの推定に用いる. 動v vが 0の場合には,応答の測定値yはその真値y y lこ等しく,応答方程式の解は効果要素の真値c cとな 揺動v vと効果要素の推定値c vとについても同じ形 るが,不定部分を含む.残差平方和を最ノトにする応答の推定値y vは,やはり,不定部分を含む. の応答方程式があてはまるが,その解となる効果要素の推定値c 4EL nhU RU
ただし,応答の推定値y v (および,応答の推定値y vの定数係数一次結合) ,残差v y,および,実験配置の 上での残差平方和は不定部分の影響を受けない 応答方程式の最ノト 2乗解の推定可能性の定理. 応答の測定値y が(活動)効果要素を含まず揺重J J v vのみを含むとすれば実験配置の上の応答平方和が残差平 方和S S E0となる.効果要素のいくつかを無効要素 ( 0 ) と見なし,残りのいくつかのみを活動要素c cとして 含む応答方程式を組み立て,その推定値c v,応答の推定値y v,および,残差v yを求め,実験配置の上での残 差平方和S S E ̲ 1 を求めると,残差平方和S S E0より小さし¥その差 R ( := S S E ̲ 0 ‑ S S E ̲ 1 ) (平方和縮減)は, 活動要素の影響を表わしているが,その真値c cの不定部分または推定値c vの不定部分の影響を受けない. S A S / S T A Tソフトウェアで、は,応答方程式に組み入れる活動効果要素を変化させ, さまざまの平方和縮減を 、 町 I( S A S / S T AT ⑧ U s 定量して,平方和 S S Iまたは S SI G u i d , 巴 V n6 ,4 t h巴 d n,p .1 1 5一1 1 8 ) を定める.な お,平方和 S S I I Iまたは S S I Vも定めるが,この 4種類の平方和の全部に共通な定義としては,応答方程式 または規準方程式のG a u s s ‑ J o r d a n ‑ D o o l i t t l巴解法から得られる推定可能関数に基づ、く定義が用いられる.た だし,どの平方和の値も効果要素の真値c cの不定部分または推定値c vの不定部分の影響を受けない. ‑応答方程式または規準方程式のG a u s s ‑ J o r d a n ‑ D o o li t t1 e f q 平 法 応答の狽J I 定値yが応答の真値y yとして確定する場合には応答方程式を解し、て効果要素の真値c cを求め,応 答の測定値yが 揺 l l ! J J vvを含む場合には応答方程式を規準方程式に変化させて解き効果要素の推定値c vを求め る. G a u s s ‑Jo r d a n ‑ D o o1i t t1 e f q平 法 ( G o o d n i g h t1 9 7 8 ) を用いると,不定部分の実例値も算出できる. m x / m 1 )倍を たとえば,単一要因系の連立一次方程式(式 ( 6 c ) )で,第 2式以下の各々の式から,第 1式の ( 引き,効果要素c Oを消去する.つぎに,第 3式以下の各々から,類似の手順で,効果要素 c lを消去する.特 1‑ 1 )と効果要素 c lとだ 別の不具合が発生しなければ,この前進消去を重ねて,最後に,第 l式に効果要素c( けが残る.ここで,効果要素 c lを 0とすると,効果要素 c(1‑1)が定まる.その後,後退代入により,効果要 1‑ 2 ), … ,c 1, c Oを順に定める.効果要素 c lの値を Oのかわりに任意の値として後退代入を行なうと,効 素c( 果要素c O, c l, … ,c l として,ほかの一通りが定まる.もとの一通りとの差は効果要素の不定部分である. S A S / S T A Tソフトウェア解説文書・参考文書で水準番号の最大の効果要素の値が 0になっている例はこの解 ⑧ U s e r ' sG u i d e,V n6,4 t h巴 d n,p . 9 6 7,O u t p u t2 4 . 9⑪)• 法の結果と思われる(たとえば, S A S / S T A T .推定可能関数 日S / S T A T ⑧ U s e r ' sG u i d e,V n6 ,4 t he d n,C h . 9,p . 1 0 9 ‑ 1 2 4 一般の単ーまたは複数要因系の応答方程式または規準方程式について前進消去を行なうと,最初の連立一 次方程式は変化する.その結果,各々の式の右辺には効果要素のさまざまの一次結合が現われて,それぞれ こ一次独立な推定可能関数の ‑j 品、の個数(q とする)の上限(q uと が「推定可能関数J となる.たがし、i する)は最初の応答方程式の右辺の効果要素の真値c cまたは推定値目の係数のつくる「計画行列 J ( X とす L とする) る)の階数に等しい.ー揃いの推定可能関数の各々の一次結合係数がつくる「推定可能行列 J ( ) に左から「縮約行列 J ( K とする)を掛けて得られる(L=限). は計画行列 X (行数 x 推定可能行列Lの行をそれぞれ「推定可能行ベクトノレJ L ~l,・ 1 または L~q とする.推定可能行列L を効果要素託たくクトル c cまたは c vに左から掛けて「推定可能要素託たくクトノレJ (L~ l. c c," ' , L~q. c c ) 'ま たは ( L~l. c v, … , L~q. c v ),を得る. 一次独立な推定可能関数の「完全な」一揃し、 ( q u個)がつくる推定可 能行列 ( L u とする)(行数q u ) が含む推定可能行ベクトル L u~l,…, L u~qu の任意の一次結合 Lu~。 Lu~o =L u ̲ l .Lu~1 + … + L u ̲ q u .Lu~qu ( 7 ) は「推定可能横ベクトノレ」の一般形であり,これと効果要素縦ベクトル c cまたは c v との内積が推定可能 関数の一般形を与える.結合係数 L u ̲ 1, 一 ,L u ̲ q uを変化させて任意の推定可能関数が生成される. ‑推定可能関数による平方和の計算 前進消去の結果として得られる連立一次方程式から消去の各々の段階を逆にたとーって「回復行列J (]と する)が得られる場合には,これを推定可能行列Lに左から掛けて計画行列Xが得られる (X=]L) . ‑157
計画行列X を効果要素推定{麟ドクトルc vに左から掛けると応答推定{酪ドクトル y v( = = X .c v ) が得られ S ̲ y vが推定可能関数L.c v の 2次形式で表わされる. るから,実験配置の上での応答推定値平方和S S S ̲ y v=y v ' .y v=c v ' .X ' x .c v= ( L .c v ). 'J 'J. ( L .c v ) ( 7 a ) 行列積J'Jをつくる回復行列Jは 完 全 な ( I 完全系の」ともいう)推定可能行列 L u (行数 q u ) に作用し て計画行列X の行の全部を生成させる. S A S / S T A Tソフトウェアで は行列積J'J の表示に一般逆行列 ( X ' X ) を X ' X )一 .L ' ]ー lを用いている ( S A S / S T A T ⑧ U s e r ' sG u i d e,V n6 ,4 t he d n,p . l l 0 ) . 含む逆行列[し ( 完全系の推定可能行列 L u (行数 q u ) の行のいくつかじ1,… ,Cqをえらんで「有効行」とし,ほかの 行を「無効行」と見なして要素の各々を 0でおきかえ,部分系の推定可能行列L を形式的に定める. u の回復行列Jを掛けて計画行列X を形式的に定め この推定可能行列L に左から完全系の推定可能行列 L ~1. c v,… ,C q .cvが定まり,部分系の推定可能 ると,規準方程式から,有効行に対応する推定可能関数 L 成分 y v P( = = ] .( しc v ))と部分系の推定可能成分平方和 S S ̲ y v P( = =y v P ' .y v P )( 式( 7 a ))とが定まる. u (および,その部分行列 L)はし、く 計画行列X の一次独立な行から生成される完全系の推定可能行列 L S A S / S T A T ⑧ U s e r ' sG u i d e,V n6 ,4 t he d n,C h . 9T h eF o u rT y p e sofE s t i m a b l eF u n c t i o n s ),各 つもあり ( ,各種の推定可能成分 y v Pおよび各種の推定可能成分平方和 S S ̲ y v Pが生成される. 種の回復行列 J ‑推定可能成分平方和による仮説検定 ' X .c v二 x ' .y)の解を用いると(c v= ( X ' X )一 .X ' .y),応 応答測定値紙ドクトノレyは,規準方程式(X 答推定値緋くクトノレy vとそれに直交する残差縦ぺクトノレv yとの和に分解でき,つぎの式が成り立つ. y v=X .c v二 X .( X ' X )一 .X ' .y S S ̲ y v=y v ' .y v= ( L .c v ). 'J 'J. ( L .c v ) =y ' .X .( X ' X ) ‑ .X ' .y vy==y‑yv== (Ix‑X.(X'X)‑.X').y ( 7 b ) (ただし, I xは計画行列と同じ行数の単位行列とする) S S ̲ v y= y ' .(Ix‑X .( X ' X ) ‑ . X ') . y=S S ̲ y‑S S ̲ y v S S ̲ y=y ' . y ( 7 c ) 応答測定値平方和 S S ̲ yは推定可能成分平方和 S S ̲ y v と残差平方和 S S ̲ v y との和に等しい. 零仮定として,応答測定値yの含む真値y yが恒等的 i こ0 であり,応答測定値yが揺窃J の標本値v vのみを含 む場合を想定する.応答測定値齢ぺクトノレyは x次元線形空間のベクトルであり,その要素は確率的に独立 vの X個となる.その母集団を正規分布母集団と仮定する.この空間の(直交)座標系に直交 な揺動の標本値v 変換を作用させると,応答測定値緋くクトノレyの要素 ( x 個)はその一次結合 ( x 個)にそれぞれ変換され, x個)も同じ正規分布母集団の確率的に独立な揺動の標本 ( x 個)となる. 結果として得られる一次結合 ( 適切な直交変換を用いると,有効行数q の推定可能行列Lから規準方程式によって定まる応答推定値縦ぺ v Pを変換後の座標軸 ( x本)のうちの q 本の一次結合として表わす クトルすなわち部分的な推定可能成分 y y P を残り ( x ‑ q )本の座標軸の一次結合として表わすことができる. ことができ,残差縦ベクトル v vに直交変換を作用させて得られる要素 v vの 各々の一次結合係数はもとの応答測定値縦ぺクトノレyの要素 v vと同じ正規分布母集団の独立な標本となる.そこで,推定可能成 一次結合であり,それぞれ,もとの要素 v y Pについては,尤度比 W ( : = = (SS̲yv/q) / (SS̲vy/(x‑q)) )を用いて,零仮定を検定する. 分 y 一連の計算の結果は,どれも,効果成分の表示にともなう不定性の影響を受けず,一通りに確定する. ヤ れは計算手順の一段階ごとに嬬恋される.なお,一般逆行列解と線形制約式解との関係も追跡できる. 参考文献 F i s h e r , R . A .( 1 9 2 5,1 9 4 8 ) :S t a t i s t i c a lm e t h o d sf o rr 巴s e a r c hw o r k e r s ., 0 1 i v e r& B o y d . ,t J . H .( 19 7 8 ) :Sweepo p e r a t o r s :I t si m p o 陥 l c e. . .,. SAST e c h n i c a 1R e p o r tR ‑ l0 6 ., SASI n s t i t u t e,I n c . G o o d n i g h SASI n s t i t u t e,I n c .( 1 9 9 0 ) :SAS/STA 博 U s e r ' sG u i d e, Vn6 , 4 t he d n, v o . 11a n d2 ., SASI n s t i t u t e ,I n c . , aT .( 2 0 0 3 a ): E f f e c tcompo 即時b e i n gd e f i n e d. . .i nt h ei n d e t e n n i n a t ee x p r e s s i o n s ., The5 4t hI S IS e s s i o n . S h i b a y a m 柴山E 雄( 2 0 0 2 a ):要因配置実験の結果整理のための定理,日本行動計量学会大会,抄調:集p .1 6 4 ‑ 1 6 7 . 柴山忠雄 ( 2 0 0 2 b ):効果成分の直交性に伴なう交換性.,日本品質管理学会年次大会4 ‑ 3,要旨集p .1 1 5一1 1 8 . 柴山忠雄 ( 2 0 0 3 b ):任意の…関数に基づく直交応答分解.,日本品質管理学会第7 1回研究発表会6 ‑ 8 . ‑158
口頭論文発表 統計教育
日本 SASユーザー会 (SUG1‑0) CROにおける SASプログラマの育成教育 0竹田昌京 佐藤智美料 株 式 会 社 CRCソリューションズ、 /CRO業 務 部 統 計 解 析 チ ー ム *関西支社,料東京本社 TheEducationf o rSASProgrammera tCRO MakotoTakeda TomoyoshiSato CRCS o [ u t i o n sC o r p . CRODepartmentDataManagement& B i o s t a t i s t i c sS e c t i o n 要旨 人件費が費用の大半を占める CROにおいては人材の育成が急手主である。また CRO では出力成果物を 高批して樹共して丸、ることから単こ正確な出対語せ世打ごけでなく、レイアウトの見守寸さなど出対課 の美麗さ l こついても求められることがある。よってCROの仏S プログラマには、出力~詮自由自祖こ力日 工する品Sの梯民必要となる。そこでより効果的に新入社員を一泊初 SAS プログラマに育成するため、 体系だ、った出村教育カリキュラムの盟蒲を行った。目欄土少なくとも 1 年以内に基柏拾プロシジャ、仏S関 数、データステップによるデータ力E の矯能習得し、封及プロクラマが俗文したプログラム住様書こ基づ、 きSAS プログラミング、が仕協るレベノレまで、の育成であるc今回土この教育カリキュラムの槻罫こつして紹介 する。 ト ト ー ・ ワ キ 模擬解析演習 1 . はじめに 当社は情報処理企業であるが、臨床試験に関わるデータマネージメントや統計解析処理、 モニタリングといった CRO(開発業務受託機関)業務のサービスも提供している。特にデータ マネージメント・統計解析部門では入力データや集計解析結果といったものを納品すること により対価を得ることを生業としているが、そのコストの大半は人件費で‑ある。またサービスを 商品として提供している以上、単に結果を求めるだけでなくレイアウトの見やすさなど付加価 y 7 )SAS プログラ 値のある出力成果物を作成する必要がある。そこでより効騨切こ新入社員を一周t マに育成するため従来は OJT[Ont h eJ o bT r a i n i n g J中心だった SASプロク、、ラミンク、、の社内教育 方針を変更し、体系だった出村教育カリキュラムとして劉膚することにした。 1 6 1
2 .社内教育制度について 当社での新入社員に対する社内研修は大きく 3つ分かれる。まずは全新入社員に対して 行われる研修で、これは入社後 2ヶ月間にわたって開催される。内容的には会社自体が CRO業務だけでなく金融や流通、建築とし、った多岐の分野で、の ITサービ スを提供する情報 処理企業であるため、一般的な社会人研修に加えて、情報処理に関する研修が大部分を占 める。新入社員はプログラムの経験がない場合でもこの研修期間を通じて基本的なプログラ ミンクマ技術やアルゴ、リズ、ムを習得することが出来る。次に CRO部門の研修としては「医薬品開 発 JICRO業 務 JI 医薬品の基礎 JI 法令・規則 JI 医学基礎講座」とし、った講座が配属後 1ヶ月 間開催され、医薬系学部出身者以外でも最低限必要な業務知識の習得が可能である。更 にデータマネージメント・統計解析チームに配属される新入社員に対しては SAS 社のトレー ニングコース、 OJTによる指導、月例チーム勉強会などが用意されている。 図 1: 2 0 0 2年度入社新入社員に対する教育カリキュラム , .全社研修 (4 月 ~5 月) コンビュータの基礎知識 P M Lとリテラシー ネットワーク/データベース入門 UNIX基礎技術入門 システム設計入門 アルゴリズム/フローチャート入門 C言語入門 企業人研修 マナー研修 2 . CR0部門研修 ( 6月) 医薬品開発に対する理解 C R O ; 業務部の業務に対する理解 医薬品の基礎 法令・規則に対する理解 医学の基礎 3. DM. 統計解析チーム研修 (6 月~) S A S干土トレー二ングコース OJTによる指導 月例チーム勉強会 (DM'統計) 4. その他(随時) ステップアップ研修 新入社員 IT研修 ( V B . A C C E S S . J A V A ) 1 6 2 ‑
3 .現チーム体制と育成方針 現在弊社で、はデータマネージメント業務と統計解析業務を同一チーム内で、行っている。こ れはデ.ータマネージメントを行うスタッフであっても、自らが作り出すデータがより正しく、より 効率よく解析されるためにはどのような構造であるべきかを理解しておく必要があり、また統 計解析を行うスタッフで、あっても CRFの内容がど、のようにコンビュータデータとして表現されて いるかを把握しておくことが必要と考えるからである。 従って入社3年目くらいまでは両方の業 務を経験し、その後本人の適性・希望などを考慮し、どちらかの専門性を高めるとしづキャリア パスを通例としている。 4 .新規教育カリキュラム 以上のように新入社員には上記に述べた全社研修・ CRO部門研修が用意されているため、 PCの操作方法はもちろんのこと基本的なプロク、、ラミングfやアルゴ、リズ、ム、 GCPや SOPなどを 含む業務知識習得はクリアされることになる。 次に現場で必要となるのは SAS のプロク。ラミング技術で、あるが、これまでに入社した新入 社員は SASプロクゃラミンクマ経験がない場合が多く、よって SAS社で、実施されるトレーニングコ ースへの参加を実施している。これは DATAステップ、プロシジャとし、った概念、や操作方法に ついては既に SAS社で、洗練されたトレーニングずコースが用意されているためで、社内で研修 を実施するより効率的で、利便性も高し、と考えている。 また実務で使用するプログラムについては、従来は OjT制度のもと新入社員は OjTトレー ナの指示に従い、簡単なフ。ロクーラミンク、.から作業を始めていた。しかし、この方法ではその 時々の業務によって体験する内容が異なることがあり、ある者は症例一覧表のみ、ある者は 集計表のみと、状況によっては大きな偏りが生じ、実際に入社後 2年で初めて SASGRAPH を使用したとしづ例もあった。 そこで今回はこのような偏りをなくすべく、ダミーデータを用いた模擬解析演習を教育カリキ ュラムに取り入れ、その中で、実践的なプロクーラミンクず技術を習得できるようにと考えた。 5 .模擬解析演習 模擬解析演習ではあらかじめ用意されたデー夕、仕様書を元に解析データの作成から解 析結果を作成する。模擬解析演習を通じてさまざまな SASプロク、、ラミンクマ技術やプロシジャ、 関数の使い方を体験し、その使い方を習得することを目標としている。 具体的には以下のレベルの内容を作成することを想定しており、実施開始時期は CRO部門 研修及び SAS社トレーニングコース終了後からを予定している。 <模擬解析演習演題> ①入力データから解析用データへの変換 ②症例一覧表 ③頻度集計表(例数、%) ④基礎統計量表(例数、平均、標準備差、最小値、最大値) ⑤グラフ(散布図・経時的推移) ⑥ 検 定 (x2検定、 t検定、 Wilcoxon検定) よ 41 ρhU ηベリ
6 .演習手I J 買 演習において事前に与えられる教材は以下のものである。 ① 入 力 デ ー タ( S A Sデータセット) CRFからの入力をイメージしたダミーデータ。データ問の不整合は存在しない心 ②入力データ変数定義書 「①入力データ」のデータベース定義書 ③解析用データ定義書 入力データから変換される解析用データベースの定義書 ④統計解析計画書(図表レイアウトを含む) ⑤解析プログラム仕様書 各図表に出力される項目に使う変数名やプロ、ンジャ名、パラメータ或いは合成変数の 生成定義を規定したプログ、ラムの仕様書 ⑥プログラムサンプル プロクーラム作成にあたって参考にするフ。ログラムサンプル。各機能の部分的な箇所が 記載されている。 また各作業完了時に提供される教材として以下のものがある。 S A Sデータセット) ⑦マスタ解析用データ ( ノミリデーション済みの解析用データ ③マスタ解析結果 バリデーション済みの解析結果 次に演習は以下の手順で進められる。(図 2参照) 1.解析用データ定義書に従い、入力データから解析用データを作成する変換プロク、 ラム を作成する。 2 .解析用データ作成後、マスタ解析用データと S A S COMPAREプロ、ンジャを使って比較 し、相違点を確認する。不一致箇所があれば変換プログラムにパグがあることを意味 するので完全一致するまで訂正を繰り返す。 3 .統計解析計画書と解析プログラム仕様書に従い、解析プログラムを作成し、各図表に解 析結果を出力する c 4 .解析結果を出力後、マスタ解析結果と照合し、正しく出力が行われたかと確認する。不 一致箇所があれば解析プログラムにパグがあることを意味するので完全一致するまで 訂正を繰り返す。 ‑ 1 6 4一
図 2:模擬解析演習の具体的な手l j 国 事前に 提供される教材 解析 プログラム 仕様書 │ ーマスタ │ 析用データ│ 解析プログラム │ ← ‑ ‑ ‑ r日 N o 演習終了 ‑165‑
7 .期待されるメリット 本模擬解析演習の実施による期待される一番のメリットは SASプログラマの早期育成で、ある。 模擬解析演習を通じて、業務で作成頻度の高い図表の作成技術を短期に且つ体系的に会 得することを期待している。また OjTトレーナの負担軽減も期待できる。 OJTトレーナは新入 社員ひとりに 1名ずつ任命されるが、新人教育以外に実務も担当している訳で、繁忙時には 作業指示のための十分な時間の確保が困難な場合もある。しかしながら模擬解析演習では あらかじめ仕様書及びバリデーションされた結果が用意されているため、新入社員が自ら演 習を進め、結果を確認することが出来、 OJTトレーナは本人が自力で解決できない場合のみ ヘルプすればよい。また演習終了後の実務では OjT トレーナがーから十までの指示せずと もある一定以上の作業量が期待できるものと考えている。 8 .おわりに 本模擬解析演習の実施は 2003 年度入社の新入社員からを対象に現在鋭意作成中であ る。内容的には 200例程度のシンプルな 2群比較を予定している。初心者への演習というこ とで、解析手法もシンプルなものに留める予定で、あるが、データ上では不完全な記載の日付 データを混ぜ、その取り扱い処理を必須にしたり、タイムウインドウによる採用時期の選定等 の処理も含める予定である。また将来的にはクロスオーバーや薬物動態といった様々なデザ インの題材を作ることや、入力デ、ータベースを作るところで、データマネージメントの演習まで、を 視野に入れることが可能と考えている。 1 6 6
口頭論文発表 システム
日本 SASユーザー会 (SUG1‑0) CALLEXECUTEを用いたマクロの再帰呼び出しと統計計算への応用 伊藤要二 アストラゼネカ株式会社 臨床統計・プログラミング部 Ar e c u r s i v eSASmacrotechniqueusingCALLEXECUTEandi t sa p p l i c a t i o ntos t a t i s t i c s Y o h j iI t o h e p a r t m e n t .AstraZenecaK. K . S t a t i s t i c s& ProgrammingD 要日 再帰呼び出しは反復計算を行う上では重要な機能であり、他のしてつかのプログラミング言語では 利用可能であるが、 SAS言語ではそのような機能は提供されていなし、。しかし、ここで紹介するテク ニックを用いれば、マクロの再帰呼び出しを簡単に行うことができるのこの方法はCALLEXECUTE を用いるものであるため、まず CALLEXECUTEについて説明し、次に CALLEXECUTEによる SASマクロの再帰呼び出しの解説をおこなう c 最後に統計処理への応用事例として、 MIXEDプロ シジャを用いた Power‑of‑the‑meanmodelの反復計算を紹介する。 キーワード: 再帰呼び出し、マクロ、 CALLEXECUTE 1 . はじめに いくつかのプログラミング言語(例えば、 P a s c a lや PL lI など、)においては、サフ、、ルーチンの再帰呼 び出しの機能が利用できる。この再帰呼び出しのテクニツクを用いれば、自分自身を呼び出すよう なサブ、ルーチンフ。ロクずラムを書くことがで、き、それにより反復処理が非常に容易になることがある。 しかしながら、 SASシステムではそのような機能は提供されておらず、よって、他の方法を用いなけ ればならない。 Benjamin( 1 9 9 9 )は他言語における再帰処理に用いられている r u n ‑ t i m es t a c kを模 p s e u d o ‑ r e c u r s i v eSASmacro)のテクニックを提案したが、この方法は 倣した擬似的再帰 SASマクロ ( 再帰処理についての特殊な知識を必要とする非常に煩雑なものであり、一般の SASユーザが容易 に利用できるものではない。 本発表では、マクロの再帰呼び出しの新しい方法を提案する。この方法は非常に簡単であり、 再帰呼び出しについての特殊な知識を必要としなし、ものである c まず SASマクロの一般的な問題点を示し、その欠点を補う方法として CALLEXECUTEの利用に ρhU nud 1ょ
ついて解説する。次に、それを発展させたものとして、 CALLEXECUTEによる SASマクロの再帰呼 び出しの解説をおこなう。そして最後に、統計処理への応用事例として、 MIXEDフ。ロシジャを用い o w e r ‑ o f ‑ t h e ‑ m e a nmodelの反復計算などを紹介する C たP 2 .CALLEXECUTE CALLEXECUTEはDATAステップ。で、用いられ プログラム 1 d a t a. . , 1 9 9 7 )によって詳細に るCALLルーチンで、 Riba( 解説されている。 CALLEXECUTEはプログ、ラム 1 c a川 e x e c u t e ( 'SAS . : zテ 一 件 〆 シ f'); 川u SASステートメントからなる文字列で、文字定数で n H ﹁ に示すように用いる。 CALLEXECUTEの引数は も文字変数でも構わない。 CALLEXECUTEの処理の流れについての知 識はマクロの再帰呼び出しにとって重要である。 しかし、それを理解するには通常の SASプログ.ラ ムの処理の流れについて理解しておく必要があ るので、まず、は通常の SASフ。ロク、、ラムの処理の流 れについて簡単に説明する。 図 lは通常の SASフ。ログラムの処理の流れを 示したものである。 SASプロクマラムがサブミットさ こSASシステムによってコン れても、モれが直く1 パイルされるわけで、はなく、先ずはプログラム・ス タックとしづ場所に記憶される。 RUNステートメン トや次のステップが見つかると、フ。ログ、ラム・スタッ 図1.通常の SASフ。ロク、、ラムの処理の流れ クに蓄えられた SASフ。ロク、、ラムがコンパイルされ、 実行される。 図2は CALLEXECUTE ステートメントを含む DATAステップ。のフ。ログ、ラムの処理の流れを描い たものである。フ。ログyラムの実行開始のところまでは通常のフ。ログラムの処理の流れと同じである。 DATAステップの中の CALLEXECUTEが実行されると、その引数(この例では l a b c J )がプログラ ム・スタックに蓄えられる O その DATAステッフ。の実行が終了すると、制御はフ。ロク守ラム・スタックに蓄 えられていたプログラムに制御が移され、それがコンパイル・実行される。 ここで注意すべきことは、 CALLEXECUTEによって生成されたフ。ロクずラム・ステートメン卜は、そ れを生成した DATAステップ。の実行が完了するまで、はコンパイノレされないとし、うことである。この点 については後に再び述べる。 η︐ I 1ム ハU
SASフ。ログラム 図2 .CALLEXECUTE を含む S ASプログラムの処理の流れ 3 .マクロ処理の問題点 マクロ処理の問題点を説明するために、フeロクーラム 2の プログラム 2 d a t a ...• ようなプログラムを考える。フoロクーラム 2が実行された時、 i f (条例 t h e n% m a c r o x ( a ) ; e% m a c r o x( b ); eIs I Fステートメントの条件判定に従って %macroxが展開さ れるものと期待するカもしれないのすなわち、条件が「真 J HU ﹃ n H なら I a Jを引数として展開し、「偽」であるなら I b Jを ヲl 数と して展開されるものと考えるカもしれない。 しかし、実際にはそのようにはならない c 図 3 に示すように、 S ASのマクロ・フ。ロセッサーはその DATAステップ。の翻訳・実行に先立つて、マクロを展開してしまうからである。よって、その DATAス テッフ。が実行される時には、既にマクロの展開は終了してしまっているのである c R i b a( 1 9 9 7 )が詳 しく述べているように、一般的に、フ ロク、ラムの実行結果に従ってマクロの展開を変更することはで、 c きない。 1 7 1
0 正しい解釈 ×誤った解釈 図3 . プログラム2の処理の流れの解釈 4 .CALLEXECUTEによるマクロの呼び出し CALLEXECUTEを用いると、プログ ラムの実行結果に従ってマクロ展開を プログラム 3 d a t a. . . , 変更することが可能となる。プログラム3 i f (条例 においては、 I Fステートメントの条件が ﹁ n u ' % m a c r o x ( a ) Jがプロ 「真」の場合には r t h e nc a lIexecute('r~acrox(a);'); eI s ec aI Ie x e c u t e,( % m a c r o x( b ); ') ; グラム・スタックに蓄えられ、条件が「偽」 の場合には r % m a c r o x ( b ) Jが蓄えられる。 そして、この DATA ステップが完了した後に、プログラム・スタックに蓄えられたステートメントが展 開・コンノ fイノレされることになる。よって、このプログラム3のようにすれば、 I F ステートメントの条件判 定に従ってマクロ展開をコントロールすることが可能となる。 5 . マクロの再帰呼び出し この考えを拡張すれば、自分自身を呼び出すマクロ・プログラムを構築することが可能となる c プ % m c r xは CALL ログラム 4はこの考えを示したものである。このプログラムにおいては、マクロ ' EXECUTEによって自分自身を呼び出している。このマクロ・プログラムの実行が終了すると、 CALLEXECUTEによって呼び出された自分自身であるマクロ・プログラムの展開、コンパイル、 1 門︐ ム 1h ワ 白
プログラム 4 実行が開始される c よって、マクロの再帰的 Fステートメントの条 な実行がなされる c もし I % m a c r om c r x ; 件が「偽」であるなら、マクロ・フ ロクーラムは呼 . . , d a t a. Q び出されず、処理は終了する c i f(条例 t h e nc a1 1e x e c u t e ( '% m c r x ; '); 類似の処理は PUIや PASCALのような他 の言語では利用可能であり、「サブルーチン r u n ; の再帰呼び出し」と呼ばれている c そのよう % m e n d ; なサービスはオリジナルの SASシステムて、は % m c r x ; 提供されていないが、 CALL EXECUTEを 用いれば、そのような再帰処理が可能となる。この方法をここで、は他の言語にならって、「マクロの 再帰呼び出し」と呼ぶことにする。 6 .マクロの再帰呼び出しの統計への応用‑ P o w e r ‑ o f ‑ t h e ‑ m e a nm o d e l 6 . 1Power‑of‑the‑meanmodelとは マクロの再帰呼び出しの統計への応用例として、 power‑oιthe‑meanmodel( C a r r o I I& R u p p e r t, 1 9 8 8,L i t t e I Ie ta ! .,1996参照)を考えるのこのモデ、ルにおいては、各観測値の誤差分散はその期待 値のべき乗に比例すると仮定する c すなわち、 i番目の個体の誤差分散は次のように表される. σ : = σ 2; x日 │ 。 ただし、 σ ーは未知の分散ノくラメ夕、 番目の行、 ピはデザインマトリックスXのi Rは未知の固定効果のベクトル、 。は未知のべきパラメタ C SASにおいては、 powelー o f ‑ t h e ‑ m e a nmod巴l は 、 MIXEDプロシジャの REPEATEDステートメントにお ! .,1996) いてLOCAL=POMオフ。ションによって指定することがで、きる( L i t t e l le!a ー REPEATED/LOCAL二 POM(SASデータ"E;y外); POMの後の括弧の中には、固定効果の値が収められたSASデータセットを指定する。すなわち、 MIXEDプロシジャの p o w e r ‑ o f ‑ t h e ‑ m c a n modelにおいては固定効果の値は既知であることが前提 とされていて、それをSASデータセットとして与えてやらなくてはならない c 実際にはそれが既知で あることはほとんどなく、通常はデータカも推定しなければならないc 何らかの固定効果推定値(例 o w e r ‑ o f 二t h e ‑ m e a n model えばO二 Oとした場合の推定値)がデータカら得られれば、それを用いてp に基づいて新たな固定効果およびべきハラメタの推定値を得ることがで、きる c その結果を再び、用い て新たな推定値を得ることができ、この過程を反復すれば、より正確な推定値を得ることができる二 1 7 3
6 . 2 数値例 話を具体的にするため、ここでプログラムラで与えられる数値例を用いて p o w e r ‑ o f ‑ t h e ‑ m e a n m o d e lを例示する c プログラム 5 d a t ad o s e r e s ; i n p u td o s e@; d oi = 1t o1 0 ; i n p u tr e s@ ; o u t p u t ; e n d ; k e e pd o s er e s ; c a r d s ; .610.9 7 .8 1 0 . 0 1 2 . 4 9.211 . 1 1 2 . 9 5 . 9 9 . 2 6 22 3 . 9 2 4 . 8 2 3 . 9 1 9 . 6 1 8 . 3 1 2 . 7 1 0 . 7 1 8 . 4 1 7 . 1 21 .1 32 6 . 0 2 2 . 5 3 6 . 9 2 7 . 8 2 9 . 0 3 0 . 8 2 3 . 3 3 9 . 8 2 9 . 9 1 6 . 1 44 4 . 6 4 7 . 7 3 0 . 2 5 5 . 4 1 8 . 8 4 0 . 0 3 9 . 4 5 5 . 5 2 8 . 4 3 8 . 0 r u n ; このデータは DOSE とR ESとしづ 2つの変数からなる。我々は RESがDOSEにどのように依存してい るかを知りたいとする。図 3 はこのデータをプロットしたもので、あり、 R ESはDOSEと共に直線的に増 加しているが、 R ESの分散も DOSEと共に増加していることを示している。このような分散の特徴か らp o w e r ‑ o f ‑ t h e ‑ m e a nm o d e lがデータに当てはまることが示唆される。 RES 60 。 。 40 30 。 。 。 8 8 @ 20I @ 。 3 4 。 。 。 2 DOSE 図4 .P o w e r ‑ o f ‑ t h e ‑ m e a nm o d e lの数値例のフ。ロット ‑174‑
6 . 3 反 復 計 算 の た め の SASプログラム プログラム 6 プログラム6はM IXEDプロシジャを用いてpower‑o仁 the‑meanmodeHこ基づいてこのデータを解析する際の基 本的な考え方を示している。このフつロク、ラムは 2つのステ ods output solutionf=solf1; proc mixed data=doseres; model res=dose / s ; r u n ; ッフ からなっている。 c ods output solutionf=solf2; 最初のステップ。は予備的なステップ。で、あり、 power‑oι proc mixed data=doseres; the‑mean model'こ必要な回帰ノ fラメタの値を提供するた ︐ . r repeated/ 1 oca1 =pom(so1 f 1 ); Hu n IXEDプロシジャを用いて、等分散を仮定した回帰 め 、M model res=dose / s ; 分析を行うものである c そして得られた回帰パラメタ推定 値はデータセット s o l f lに収められる。 IXEDフ。レンジャにおいては irepeated/local=pom(solfl) ; J が指定されており、 次のステッフ。の M よって power‑of‑the‑mean modeHこ基づく推定がなされる。その際、前のステップ で、計算された予備 o 的な回帰パラメタの値を用いて新たに回帰パラメタを求め、それをデータセット s o l口に収めている c されにこれを用いて次のステッフ。で、もう一度 M IXEDプ口、ンジャを実行することがで、きる。このような ステッフ。を反復し、回帰ノ fラメタの値が~叉東すれば、それが我々が得たい推定値である。 しかし、このような反復を手作業でするのは面倒であり、自動的に行えることが望ましい。そのよ うな自動的な反復計算は前節に述べた方法を用いれば容易に行うことが可能となる。そのようなプ ログラム示したのがプログラム 7である。 フ 。 ロ ク 、 、 ラ ム 7の最初の % LETステートメントで、は、回帰係数推定値を記憶しておくマクロ変数® に初期値 lを与えている F?のマ クロ変数は、後のステップ。で、回 プログラム 7 月l e tr e g = l ; 帰係数推定値の収束の判定に 用いられることになる。 マクロ・プログラム pomは ている。 proc mixed data=doseres; model res=dose / s ; %if & f ir s t ‑ = l %then repeated/ local=pom(solf1);; n N ステッフ。の 2つのステッフ。からでき ods output solutionf=solf2; HU ︐ . r MIXEDプロシ、ジャおよび DATA r o m a cr 0p om( fir st ); data s o lf 1 ; set solf2; マクロ・プログラム pomはマク i feffect='d o s e ' ロ・パラメ夕日 r s tを持っており、そ and abs(estimate ‑®)>le‑8 then d o ; c a l ls y m p u t ( 'r e g ',left(put(estimate, e17.10))); の値が 1である場合は最初のサ c a l l execute('%pom();'); end; ﹁ nHM イクルであることを表している。そ の場合には、 %IFステートメントの %mend; 条件が「真」とならず、よって MIXEDプ ロ シ ジ ャ に お い て I %pom(l); t υ 民 ︐ 円1i
REPEATEDステートメントは指定ず、等分散モデルが仮定されることになる c&日r s tの値が l でない r e p e a t e d /l o c a l = p o m ( s o l f l );Jが指定されることになり、 power‑oιthe‑meanmodelによる計 場合には r 算が行われる。 MIXEDフ。口、ンジャによって得られた回帰ノ fラメタ推定値はデータセット s o l口に収め られる G 次のデータ・ステッフ。で1ま、回帰係数の収束判定がなされる。今計算した回帰係数の値をデー タセット s o l口から読み取り、マクロ変数 ®として記憶されている前サイクルの値との比較を行い、 0 ‑8よりも大きければ、まだ収束に達していないものとみなし、次のサイクル もしその差の絶対値が 1 の準備を行う。すなわち、 CALL SYMPUTを用いてマクロ変数を新しい回帰係数の値で置き換え c a l le x e c u t e ( ' % p o m ( ) ; ' ) ; Jによりマクロの再帰呼び出しを行い、次のサイクルに入る。た る。そして、 r o w e r ‑ o f ‑ t h e ‑ m e a n だし、その際にはマクロに引数は指定されておらず、よって次のステッフ。で、は p 0 ・8 未満で、あった場合には収束したものと modplが指定されることになる。一方、もし差の絶対値が 1 みなされ、新たにマクロは呼び 出されず、反復は終了する。 最後の行はマクロ・フ。ロク、、ラムpomを最初に呼び出すためのもので、ある O 表 1はこの数値例における反復計算の過程を示したものである。 2番目の列は各反復における 回帰係数の値を示し、 3番目の列は反復聞の回帰係数の値の差を示している。回帰係数の値は6 回目のサイクルで、 1 0 ‑8未満となっている。最後の列はべきパラメタ推定値を示しており、これも収束 しているようである。 表1 .P o w e r ‑ o f ‑ t h e ‑ m e a nmodelの数値例の計算結果 反復 変化 8 ) べきパラメタ ( 0.2840398325 2.0816386164 回帰係数 9.9760000000 2 9.6919601675 ー 3 l ¥237032 9 .6 89 ー 0.0021364643 2.1587574892 4 l 98171411 9 . 6¥ ‑ 0 . 0 0 0 0 0 6 5 6 2 1 2.1590014405 5 9.6898171209 ‑ 0 . 0 0 0 0 0 0 0 2 0 2 2.1590021894 6 9.6898171209 ー 0.0000000000 2.1590021917 7 .一般的なアルゴリズム 前節で、紹介した反復計算のためのアルゴ、リズ、ムをより一般的な形で模式的に表せばプログラム9 のようになる。 ここに示したように、 CALLEXECUTEを用いた反復計算では、マクロ変数を用いて反復を制御 する必要があり、その初期値の設定には %LETステートメント、その値の更新には CALLSYMPUT が必要となる。 ρhu ︐ ηi ム τ︐
プログラム 8 加e t 7 ク口Jt b=...; ←マクロ変数に対寸る初期値の設定 % m a c r o マク口岳; data . . . , i t (ë! 6/~&f.ff ずべE妨げ) t h e nd o ; 新しいサイクルの存Ilf~R によってマクロ変数をlJ!新 マクロの p j : 帰 1手 び ! J ¥ し n H u r c aIIs y m p u t('マクρ変1 2 ', 変 " 1 ' 1 ); g ' ); c a lIe x e c u t e ( ' 7 クロ ̲ e n d ; 前サイクルの i 北米を記憶しているマクロ変数と新 しいサイクルの結果との比較による収束判定 r o m e n d ; ちもマクロ名: ←マクロの最初の l ト F び1 1 ¥し 8 .まとめ 本発表では CALLEXECUTEを用いたマクロの再帰呼び出しについて提案したc このテクニック は特に統計学における反復計算にとって非常に強力な道具である。 反 復 計 算 は DATAステップや SAS/IMLの DOノレーフ。によっても可能で、あるが、その場合には計 算アルゴ、リズ、ムの全てのフ。ロクマラムコードを書かなければならない。よって、 D Oノレーフ。による反復 はアルゴリズムが単純な場合に限定される。 一方、マクロの再帰呼び出しでは強力な SASの種々のフ。口、ンジャを反復して利用することができ るc この点がこのテクニックの最も有用な点で、ある仁例えば、先述の数値例では MIXEDプロシジャ を反復実行させた。統計では種々の問題に対して反復計算がなされる c 例えば、非線形モテマルに ta , . l1 9 7 7 )などがその代表的な例 対する推定、不完全データに対する EMアノレゴ、リズ、ム (Dempstere である c その中には、既存の S^Sのプロシジャを組み合わせて反復することにより、その計算が遂 行可能なものがあると考えられる c そのような場合には、マクロの再帰呼び出しによる反復のテクニ ックが非常に有用であると考えられる。 引用文献 Benjamin,W.E .J r .( 1 9 9 9 ), A Pseudo‑RecursiveSASMacro,O b s e r v a t i o n,07MA Y1999, obswww1 8 .( h t t p : / / s u p p o r. tsas.comldocumentation/periodicals/obs/obswwwI8/index.html) C a r r o l l,R .J .,Ruppert,D.(1988),Transformationandweightingi nr e g r e s s i o n,Chapman& H a l l 1 7 7
Dempster , A .P .,L a i r d, N .M.andRubin,D .B .( 19 7 7 ), Maximuml i k e l i h o o dfromi n c ol11p l e t ed a t a ,S e r 允 sB3 9,1 ‑ 3 8 . v i at h eEMa l g o r i t h m . J o u r n a lo ft h eRoyalS t a t i s t i c a lS o c i e t y L i t t e l l,R .C .,M i l l i k e n, G .A.,S t r o u p, w .w . ,W o l f i n g e r ,R .D .( 19 9 6 ),SASSystemf o rMixed n s t i t u t eI n c .,Cary , NC Models,SASI .D .,( 1 9 9 7 ),S e l f ‑l11o d i f y i n gSASp r o g r a m s :aDATAs t e pi n t e r f a c e .O b s e v a t i o n, R i b a,S 07SEP1997,obswww03 . ts a s . c o m l d o c ul11e n t a t i on ! p e r i o d i c a l s / o b s / o b s w w w 0 3 / t o c. ht m ! ) ( h t t p : / / s u p p o r ηta tム イ n x υ
日本 SASユーザー会 (SUGI-~) SAS未経験者を SAS内部構造を理解した DATA ステップ SASプログ、ラマに 短期間で育成するカリキュラムの紹介 0山田大志、小遣康彦、宮浦千香子 アストラゼネカ株式会社 臨床統計・プログラミング部 C u r r i c u l u mf o rSASb e g i n n e r ' sDATAs t e pp r o g r a m m i n gc o u r s e "UnderstandingSAS 'sinnerstructure T a U iYamada,Y a s u h i k oOzawa,ChikakoM i y a u r a S t a t i s t i c s& ProgrammingDepartment,AstraZenecaK . K . 要旨 我々は、 SAS未経験者を対象とした教育カリキュラムを作成する上で、プログラムデータベクトルの コンセフ。トなど SAS内部構造を理解して DATA ステップ。の仕組みを習得することが、ミスの少ない作 業効率が良し、 SASプロク、、ラマになる近道で、あり、かつ学習意欲の向上が期待できるであろうと考え たc 本稿では、 SAS内部構造を理解した DATAステップSASフ。ロク守ラマを短期間で、育成することを目 的として作成した教育カリキュラム、及びその実施例を紹介する c キーワード: DATA ステップ、フ ログ、ラムデータベクトノレ o 1.はじめに 弊社では業務体系の変更に伴い、それまでユフ。ロク、、ラミンク、、クツレーフ。が実施していた臨床データ Jの部署が実植することとなったC しかし、そのスタッ 論理チェック用の SASプロクずラム作成業務を、月 I フの多くは SAS未経験者であり、かつ膨大な日常業務のため充分な教育時間を確保することが困 難な状況で、あった。 SAS未経験者に対する SASプログラミングの基礎教育を、どのようにして効率的に実施するかは 各社共通の悩みであろう。弊社でも教育時聞が充分取れないため、とりあえず業務に必要な幾つ かの SAS言語を、「呪文」のように扱い教育しようとしていた。しかし、教育カリキュラムを遂行するうち にSAS言語を「呪文」として教える事に限界を感じていた。 本稿では、最初に我々がなぜSAS内部構造を教えようと思ったか、経緯を述べる。次に、実際に セミナーで使用したプログラムデータベクトルの説明資料を紹介する。更に、セミナー終了後に実 施した卒業試験の問題例とその結果を紹介し、最後に SAS内部構造の教育が実際の業務にどのよ うな影響を与えたかを考察する。 ヴ ' 1 n H υ 1よ
2 . SASセミナーの開始 「臨床データ論理チェック用の SASプロク、ラム作成業務が実施で、きる SASフ。ロクずラマを、短期間で 未経験者を対象とした iSAS DATAステッフ。セミナ ‑Jを 育成して欲ししリとの依頼に基づいて、 SAS 003年 2月で、あった。我々は当初、依頼に基づき既存のマニュアルを元に SASの 計画し始めたのは 2 簡単な使い方を教える程度のセミナーを計画した c しかし、業務に必要と思われる内容を考えるうち に、既存のマニュアルでは紹介してし活範囲が広く、初心者が短期間でその全てを理解し実際にプ ロク、、ラムを作成するのは困難で、あり、また本来の目的である「短期間で業務に必要な情報を習得す る」を達成するには適切ではないと考えた。 よって、セミナー内容を原点から見直し、多くの SASの機能から今回の業務に必要なものを選択し 0ページのオリジナルテキストを独自に作成した。このオリジナルテキストを基準に全体的 ながら、約 3 なセミナースケ、ジュールを作成し、 l 回1 時間、全7回のセミナーを講義形式で計画した。セミナースケ ジュールを表 1に示す。 表 1セミナースケジュール 第 1回 第 2回 第 3回 第 4回 第 5回 第 6回 第7回 SAS概 要 SASシステムとは・.. マニュアルの紹介 プログラムの表記ルール プログラムの構成 ライブラリの割り当て システムオフ。ション SASログ/エラー DATA スアップ① DATAステッフ。処理の流れ SAS デ?ータセット ク守口一パルステートメント ( t i t ! e / f o o t n o t e / o p t i o n s ) 変数(型/長さ/フォーマット/インフォーマット/ラベノレ) DATAスアップ② s e tを使ったデータ処理 u t p u t ) 基本的なステートメント (keep/drop/rename/o 変数の追加(害J Iり当て/合計) SAS演算子 DATAスアッフ。③ i f 、s e ! e c tを使用した条件分岐 d oループ処理 オブザベーションの削除 ( w h e r巴/de!ete/サブセット化 J F ) フ。ロクョフミンク守基礎① s o r t /p r i n t /f o r m a t ) 基本的なフ。ロシジャ ( mergeを使ったデータ処理 フ。ログフミンクー基礎② ク、、ルーフ。処理(日r st .b y/!ast .b y ) 複数データセット結合後処理(in ) フ。ロクマフミンクマ基礎③ 基本的な関数の紹介及び使用方法 (put/input/surn/s u b s t r/r o u n d ) データセットオプ、ンョン 1 8 0
3 .呪文の限界 セミナー受講者は 1 6名であったc セミナーには SAS8 . 2を用いた。参加者のほとんどは SAS未経験 者であり、最初は SASの起動方法、用語の説明から始めた。第 1回、第 2回は SASの一般的な話で、 それほど問題もなくスムーズにセミナーは進んだが、第3回の「基本的なステートメント jから、多種多 様な質問が頻繁に出てくるようになった その質問の多くは「テキストに書いてあることは理解できる C が、プログラムの一部を変更した時に、どのような結果になるかがわからなしリといった類のもので、あ った c 我々はフ。ロジェクターを使用して、サンブロルフ。ロク、、ラムを受講者に見せながら講義を行ってい たが、 1つ 1つの質問に対して実際にプロクーラムの一部を変更し、その実行結果を表示しながら「フ。ロ グラムをこう変更すれば、このような結果になる Jとし、うように、 SAS言語を「呪文」のように教えた。する と、皆一応は納得した様子で、あったが、逆に我々から「では、この場合はどうなるか Jと応用問題を投 げ掛けると、答えに詰まる状況で、あった c 我々は、 SAS言語を「呪文」のように教える限界を感じてい た 。 4 .セミナー方針の見直し 当初の目的をスムーズに達成できない原因として、我々は SAS言語を「呪文 jのように教えるだけ 応用力のあるプロク、、ラマ j、それこそ我々が考える では応用力が身につかなし、からであると考えた c I 真のプログラマの姿である c セミナー方針を見直していた時、我々自身が 2 0 0 2年 1 2月に SAS認定プロフェツ、ンョナルフ。ログ、ラム を受験する際に自己学習した、「プログ、ラムデータベクトル jのことを思い出したのプロク、、ラムデータベ クトルとは、 SASシステムがオブ ザベーションのデータ値を処理するために使う一時的なメモリ領域で ある(図 1DATAステップ。処理の、流れ参照)。我々自身、それまで SASの内部構造を特に意識する ことなく SASプログラムを作成していたが、実際に内部構造を知ることで応用力がつき、業務において もミスが少なく、効率良くフ。ロク、、ラムが作成で、きるようになった O 我々はこのような経験から、「呪文 jのように SAS言語を覚えるのではなく、プログラムデータベクト ルのコンセプトなど、 SAS内部構造を理解した上で DATA ステッフの仕組みを習得することが、応用 力のある SASフ。ロク、、ラマになる近道で、あろうと考えた。 では、実際に SAS内部構造を説明する場合、まず考えたのは何から説明するかとし、うことで、あった O ある程度の経験をもった SASプロク、、ラマに対する講義とは異なり、初心者に対して講義を行う場合、 セミナー中に用いる用語の一つ一つにも充分な注意が必要となる。セミナー方針を見直していた時 も、「これを説明するためにはその前にこちらを・・・ Jというような堂々巡りの議論が、我々セミナー講 師陣の間でしばしば交された。そこで我々が出した結論は、セミナー中盤でそれまでの内容を反映 した練習問題を受講者に配布し、実際にプログラムをさせることで、各自が漠然と抱いていた不明点 をまず明らかする c 次に、通常セミナー以外にその問題解説の時聞を設け、そこで「プロク、、ラムデー タベクトル」としづ本来外側からは見ることができない、 SASの内部構造を交えた DATA ステッフ。の説 明を行うとし、うもので、あった。 1i n6 ︐﹄ゐ
SASステ トメントの コンパイル、機文チェック コンパイル時の処理 入力 J心;ノファ、プログラムデ タベクトルの作成、 ディスクリプタ情報の生成 DATAステートメントによる処理の開始 実行時の処理 テ.ータセットのクローズ 次の DATA ステップまたは PROCステップに移る 入力レコード の読み込み オブザベーションを SASデータセットに書き込む │DATA ステップの先頭に戻る│ 図 lDATA ステップ処理の流れ (SASランゲージリファレンスより引用) SAS内部構造を説明するために作成した・演習問題の一部を表 2 'こ示す。 表 2 演習問題 (L lBRARY >ライブラリにあるデーヲセット[DEM1を 読 み 込 み 、 以 下 の 処 理 を 実 行 し て 下 さ い 。 ・以下の 2 変数を新規変数として設定して〈ださい。 変数名│ 型/長さ 数直 /8 イト 数 値 /8 'イト ラベル Daynumber DBSNo ‑ 現 在 の 各 症 例 1オ ブ ザ ベ ー シ ョ ン の [DEM 1デーヲセットから、新規変数 [DAY1の 値 が f1jf8jf15jf22j となるような各定例 4オ ブ ザ ベ ー シ ョ ン の [DEM̲NEW1デーヲセットを WDRKライブラリに作成して〈ださい。 l l i不同): [SUBJECT1[PATIENT1[SEX1[BIRTHDAT1[DAY1[CDUNT1 出力変数 O ・ 新 規 変 数 [CDUNT1に全オブザベーションを通して連番をつけて〈ださい。 [DEM1デーヲセット 二 !f;FNAME T‑‑‑Tii両日正 三 !dBJECT ! 戸内判断 L~~ 肝 iú:ir. T … i 悩 o z仰 向 Y白M向日白 山 0001004 ほ 0001010 ー 一 一 ‑ ' 一 一 一 [DEM̲NEW1デーヲセット 101 け 980‑01‑31 t 102川 979‑05‑05 , 1 L一 一 一 一 一 一 • 1 8 2 ! … i ̲ ̲ ̲ ̲ ̲ ̲ . . ̲ 1
この演習問題は d oステートメント、 o u t p u tステートメントの働きを正確に理解させるために作成した 問題であり、 2オフ会ザベーションの SAS データセットを、 DATAステップ。を使用して8オフ守ザベーション にグるというプログラムが要求されている c この演習問題は熟練した SASフ。ログラマの場合、たとえ SAS内部構造を知らなくても、過去の多くの経験から正しいプログラムを作成することは可能であろう。 しかし、 SASの経験が乏しい場合、作成は非常に困難である。なぜなら、 SAS初心者は自分の作成し たフ。ロク、、ラムがどのような結果を出力するのかとし、うことが、フ。ロク、、ラム記述段階で、は自分の中で明確 ではなし、からである。我々は、作成したプログラムが SAS内部でどのように処理され、どのように目的 とする結果が生み出されているのか、とし、うプログラムの基礎となるべき部分を教える必要があると考 えたc 次に我々が考えたことは、どのように説明すれば SAS内部構造を受講者に正確に理解させること ができるか、とし、うことで、あったo ただ、マニュアルに記載されていることをそのまま読んで説明するだ けでは、 SAS未経験の受講者が充分内容を理解することは困難であろう。そこで我々は、プログラム がサブミッ卜されてから、コンパイル、プロク、、ラムデータベクトルの作成、 DATA ステップ。の開始、プロ グ ラムデータベクトノレへの初期値セットなど、 SAS内部の動きを J I [ 買に追った P o w e r P o i n tファイルを作成 した。 問題解説時にスライド、ショーを実行しながら説明を行ったところ、それまでセミナー中はほとんど反 応がなかった受講者からも質問がくるといった、明らかにこれまで、とは違った雰囲気が受講者の中に 流れていたc 受講者全員が一度の解説で全てを理解できた訳ではないが、スライドショーを見ながら 説明を聞くことで、 DATAステップの流れ及び SAS内部構造に対する理解はそれまで、よりは確実に 深まったと考えられる 実際、ある受講者からは「セミナー後に自分で、スライド、ンョーを見ながら、何度 O もフ ロクマラムを実行してしてうちに、なぜこんなデ』ータセッ!が出力されたのかが理解できた」と L、う意 o 見もあった。 P o w e r P o i n tファイルで、の説明手 [ l j 買を表 3に示す。 4EA ηAU nxU
表 3PowerPointファイルで、の説明手順 program例 【 DEM 】デーすセッ卜 d a t aDEMNE可ν ; │ s e tDEM;I do 1= 1 t o4; i f1= 1 t h e nDY= 1: I ‑= e l s e DY=DY+7; 1( 2 ) COUNT +1 ; o u t p u t ; e n d ; │ r e n a m eDY=DAYCOUNT=CNO:I │ k e e pPATIENT DY COUNT; I nm; 仁コの部分はコンパイ J L 時i 三笥T 済みのため、 DATAス テ 、yフルーブでは実行されない 【 DEMNE叫データセッ卜 ブログラムデータベクトル② l I > i 主 宜EN 宝 DAY CNO 1 0 1 ー y /r . . . . . . . . . j 早 し ; J ) :DAY CNO: 1 0 1 g 2 1 0 1 1 0 1 1 5 3 4 5 2 2 1 0 2 1 0 2 8 6 1 0 2 1 0 2 1 5 2 2 7 g ①構文チェック、コンパイル ( S A Sステートメントを実行可能なマ、ンンコードに変換する) ②フ。ロクーラムデータベクトル (DATA ステ、ソフ。で、使用する全ての変数について、 SAS システムが オブザベーションのデータ値を処理するための一時的なメモリ領域)の作成 Iり当て → [DEMJ データセット内の変数/自動変数 /DATAステップ で、使用する変数の害J o ③情報ステートメント (rename/keep) の内容を取得 →出力データセット[DE i v l ̲ N E W]に影響する ④ d a t aステートメントによる DATAステッフ。処理の開始 →フ。ロク守ラムデータベクトル内の変数に、初期値がセットされる ri l r ; Jり当て変数・・・・・・欠担保1 データセット変数 o 合計変数 o r 自 動 変 数 [̲ ERROR̲] ・ ・ ・0 自 動 変 数 [̲ N ̲] ・ ⑤ DATAステップ。内のステートメントの実行 e tステートメントにより lオブPザベーション分のデータをフ ロク、、ラムデータベクトノレへ読み込む → s c → d oループや合計ステートメントによりフ。ログ ラムデータベクトル上の各変数仰が変化する → o u l p u tステートメントによりフ。ロク、ラムデータベクトル 1 ‑ .のデータを[DEM̲NEW]データセットへ 書き込む → [DEMJ データセットのオフ 1 8 4 ‑
5 .卒業試験 セミナー終了後の 2 003年 3月に卒業試験を実施し、セミナーの理解度を調査した。卒業試験は 6 0 分間、 1 0 0点満点とした c 卒業試験問題は予め複数の SAS経験者に模擬的に試験を受講してもらい、 0名が参 試験の難易度を調整したc 卒業試験にはセミナー受講者だけでなく、 SAS経験者も含めた 2 加した。試験内容の要約を表 4(こ示すc なお、テスト終了後、数名に対しては更なる教育が必要であると判断し、新たな演習問題による自 己学習の後、追試を実施した c 追試問題は先の卒業試験と同じ SAS経験者に模擬的に試験を受講 してもらい、前回の試験と同程度の難易度とした。その結果、ほとんどの受講者が合格ラインを超え T こc 表4 卒業試験内容の要約 要約 問題番号 キーワード SASの基礎知識を問う文章問題(選択肢あり) エラーの種類、変数等の命名規 2 SASの基礎知識を問う文章問題(選択肢なし) 則 、 SAS日付値、算術・比較・論理 3 SASの基礎知識を問う文章問題 ( 3択) 演算子、ク、、ローパルステートメント 4 SASの基礎知識を問う文章問題 (OX問題) 等 。 SASプログラムを与え、正しい実行結果を問う問題 合計ステートメント、サブ、セットイヒ I Fステートメント、 s e l e c tステートメ (一部選択肢あり) ント等 6 7 SASデータセットと実行結果 ( O u t p u t画面)を与え、 u t p u tス データセットオフ。ション、 o : , 八S プログラムを[苦L J ; ¥ :埋め問題 正し" : テートメント等 SASデータセットと SASフ。ロク ラムを与え、正しい実行 フォーマット 結果 ( O u t p u t画面)を問う穴埋め問題 8 i r st .b y変数、 l a st .b y変 数 SASデータセットと実行結果 ( S A Sデータセット)を与 f え、正しし、 SASプログラムを問う穴埋め問題 9 u b s t r関 SASデータセットと SASプロクザラムの目的(年齢計算) デ ータセットオフ。ション、 s を与え、正しし、 SASフ。ロク、、ラムを問う穴埋め問題 1 0 n p u t関 数 数 、 i SASデータセットと実行結果 ( S A Sデータセット)を与 l e n g t hステートメント、反復 c l uステ え、正しし、 SASフ。ロクーラムを問うプログラム記述問題 ートメント、文字結合等 ム 4t RU OD
6 .卒業試験問題例 卒業試験問題として出題した問題の一部を表 5、6 1こ示す。 表 5卒業試験問題 1 次のプログラムを実行し、作成される S A Sデータセット [ T E S T 5 ] の変数 [ x ]の値を記述して下さい。 ー ム C 一 一 data TEST5 ; ︺ do X = 1 to 7 by 2 S + 1 X + S end ; run ; 表 5の問題は、インデックス変数 X が反復 doループ内で、再計算されるフ。ロクーラムで、あり、インデッ クス変数の値がカウントアップされる場所、及び、カウントアップ後に反復 doループの条件が判定され るとし、う SAS内部処理を正確に把握していない場合、正答は困難である。 SASの反復 doノレーフ。処理は、 endステートメントが実行された時に、 b yステートメン卜で指定した数 だけインデックス変数のカウントアップを行い、その上でー反復 doループの条件判定を行うため、イン デ、ツクス変数の最終的な値は必ず反復 doルーフ。条件の最終値を超えることになる O この問題では、 2 度目のループ時に X が 8 となり、 endステートメントで、 X を 1 0 にカウントアップしてから条件式の 判定が行われ、その結果 FALSEとなり反復 doループを抜ける。そして、 runステートメントの直前の 7 暗黙の outputステートメント」により SAS データセット [ T E S T S ]の変数 X に 1 0 が出力される。よっ 1 0 " となる。 て、正解は " 9 " で、あった O この原因としては、インデ、ツクス変数の値が反 不正解の中で、最も多かった解答は、 " 復 doルーフ。条件の最終値を超えた場合は、 b yステートメントの引数に関係なく lが加算されると考 9 ) ) と答えた受講者たちは、少なくともカウントアップ。を えたのではなし、かと推測する。しかしながら、 " してから条件判定を行うという SAS内部処理は理解できているであろうと考えられる。また、解容 を " 8 " と答えた受講者もいた。これはおそらくカウントアップ後に反復 doループの条件が判定される ことを理解できていなかったためだと考えられる c ‑ 1 8 6
表 6 卒業試験問題 2 次のプログラムを実行した結果はどうなるでしょう?選択肢の中から選んでください。 V I T ] は変数 [ C T E M P O R A ][ W E I G H T ]のみが存在することとします。 但し、データセット [ data TEST6 ; set V工T ; rename CTEMPORA = CTMP forrnat WE工GHT 8.1 ; label CTMP 二 'TEMP (C)' ; run i A:フォーマットは設定されない B:ラベルは設定されない C:全て問題なく設定される 表6 の問題は、フ。ロク、、ラムデ』ータベクトルの存在、及びDATAステップ。ルーフ。で、は実行されない情 報ステートメントがいつどのように実行されるか、というような S A S内部構造を問うた問題であり、その 内部構造が正確に理解できていない場合、正答が困難であると思われる。 S A Sには、フ。ログ、ラムデータベクトルやデータセット内の変数の属性に関する情報を S A Sシステム に与えるための「情報ステートメン卜」と呼ばれるステー卜メントが存在する c 代表的なものとして、 k e e p /d r o p / l a b e l /f o r m a t /rename/r e t a i nなどがある。この情報ステー卜メン卜は DATAステップルー プ内では実行されず、コンパイル時にフ。ログラムデータベクトノレに情報として記憶される。 この問題では、データセット変数の変数名を変更するための r e n a m eステー卜メン卜、変数ラベルを a b e lステートメント、フォーマットを設定するための f o r m a tステートメントとしづ 3 種類の 設定するための l A S内部構造を認識せずにこのプログラムを考えた場合、変数 情報ステートメントが含まれているの S 名を変更した後、その変更された変数名に対してラベルを設定すると考え、 " c "を正答としてしまうか e n a m eステートメン卜はプログラムデータベクトル内に存在する変数の変数名を もしれない。しかし、 r 実際に変更する訳ではなく、変更の情報だけをプログラムデータベクトル内に保持し、結果として出 a b e lステー卜メン卜で変更後の変数名 [ C T M P ]を指 力データセットの変数名を変更する。このため、 l 定した場合、フ。ロクマラムデータベクトル内には [ C T M P ] は存在しないことから、 LOG画面に I N O T E : 変 数 CTMPは初期化されていません c J とし、うメッセージが表示され、 l a b e lステートメントは正しく設 定されない。よって、正解は "8"となる。 Iが正答で、あった このことから、我々が必要であると判断しカリキ この問題は、試験対象者の約 9害J O ュラムに組み込んだ:', S A S内部構造の説明について成果が見られたと考えられる c ‑ 1 8 7
7 .まとめ 我々は、セミナー実施を計画してから約 l ヶ月間で、ほとんどの SAS未経験者を SAS内部構造を理 解した初級 DATA ステップSASフ。ロク、ラマに育成することができた。 本セミナー後、受講者の何人かが実際の臨床データ論理チェック用の SASフ。ロク守ラム作成業務を 行ったC ある受講者から「実際に業務で SASを使用して、予想とはちがう結果が出たときに SAS内部構 造を思い出すとエラーの原因が容易に分かつた」との声が聞かれた。実際、 SASの内部構造だけを 学んでも、それを実践に生かせなければ意味はない。我々は、ケアレスミスを減少させ、効率的なプ ログ、ラムの作成を促進し、かつ自分の力で、更なる SASプロク ラミング、技術を身につける上で¥SASの内 c 部構造を理解することは非常に重要であり、また、結果的に実際の業務において非常に有用である と確信している。 他の受講者からは「最初からこの作業に必要な方法のみ教えてくれればすぐに作業ができるよう になったのに」とのコメントを頂いたc 我々は SASを学ぶ上で、最初にプログラムデータベクトルを学ぶ ことが必須で、あるとは思っていなし、 しかし、最初に「呪文」のみ教えると、後でプログラムデータベク G トルについて学ぶ気になったのか、また将来的に応用力のあるフログラマに早く成長できるのか、ど うかについては疑問である。 確かに SASの内部構造がブ、ラックボックスでも、ある程度の業務に耐えうるフ。ロクーラムを作成する能 力は取得可能であろう c しかし、それだ、けで、は SASフ。ロクマラマの実力を上げるために多くの「呪文」を 覚える必要があり、また、経験としづ名の恐ろしく時間がかかる方法でしか成長できない c フ。ログラム データベクトルなどの SAS内部構造を学べば、 SAS言語を幾つかのパターンに分類で、き、その後の自 主学習もスムーズにしてと考える。 また、受講者の多くが SASに対して輿味を持 Lたのも事実で、ある。ただ半に業務をこなすために SASの使い方を訓練するだけでなく、学問として SAS内部構造を学ぶ喜びを知ることが、高いレベル のSASプログラマに成長する近道であると考える c 今回は、 SAS未経験者を対象として SAS内部構造を教えた例を紹介したが、もちろん SAS経験者に もSAS内部構造の理解は有用である。もし、フ。ログラムデータベクトルをご、存知ない方がいらしたら、 是非マニュアルを紐解し、て欲しい。筆者自身、 SASを使用して 10年目に初めてプログラムデータベク トル l こついて勉強したことで、飛躍的 l こSASフ。ロクーラムの実力が上がったと実感している c 最後に、今回作成したセミナーのテキスト、演習、卒業問題及びその解答例等の教育カリキュラム は、まとめて広く皆様にこ、紹介で、きればと思っている。 参考文献 1 .SASランゲージリファレンス V巴r s i o n6F i r s tE d i t i o n( 1 9 9 5 ),SAS出版局 2 .S t巴p ‑ b y ‑ S t e pProgrammingw i t hBaseSAS⑨ Software( 2 0 0 1 ), SASI n s t i t u t巴 I n c . 3 .BaseSASソフトウェア使用法ガイド V巴r s i o n6F i r s tE d i t i o n( 1 9 9 3 ), SAS出版局 4 .RobertV i r g i l e,AnArrayofC h a l l e n g e s‑T e s tyourSAS⑧ S k i l l s( 1 9 9 6 ),SASI n s t i t u t eI n c . ‑ 1 8 8
日本 SASユーザー会 (SUG1‑0) M i c r o s o f tAccessと SASによるデータマネジメントシステム 0中 村 竜 児 松沢享 メディカル統計株式会社 T h ed a t am a n a g e m e n ts y s t e mb yM i c r o s o f tA c c e s sc o o p e r a t i n gw i t hSAS R y o j iN a k a m u r a/A k i r aM a t s u z a w a T D . MEDICALTOUKEICO,L 要旨 臨床試験のデータマネジメント業務を M i c r o s o f tA c c e s sで管理することにより、入力画面や出力書 式など比較的 SASが苦手とする部分を補完するとともに、 SASプログラムを自動作成する方法を検 討したので報告する。 キーワード: COMPAREプロシジャ、 SQLプロシジャ、 ODBC、M i c r o s o f tA c c e s s はじめに 当社では、夕、、フ手ルエントリーによるデータ入力業務を行っているがコンベアリストをより見やすくする AS プログラミングの自動化と標準化をすることがかねてより課題となっていた。そこで ことと S M i c r o s of t :A c c e s sのテーブル上に SASデータセットのコンテンツ情報を入力することで、これらの問題 を解決する簡単なシステムを作成したのでその機能の概要を紹介する。 2 データベース定義 2 . 1 データセット情報の定義 作成する症例 S ASデータセットについて、 SASデータセット名・日本語名・ ID変数名を設定し(図 1 )、 )。定義作成後、変数名の重複や S ASフォーマット 定義されたデータセット毎に変数を定義する(図 2 )。 の型に矛盾がなし、かと、うかチェックを行い、問題がなければ DB定義書を出力する(図 3 解析用データセットについてもここで同様に定義を行うが、これは主に解析用 DB定義書を作成す ることが目的であり、解析用データセット作成のためのフ。ロクザラミンク、、機能については今後の検討課 題である。 円斗 υ よ 11 n6
2 . 2 入力画面の作成 入力は転記シートに転記したものをスキャナで、読み取りテキストデータ化してから SASデータセット i c r o s o f tAccessのテーブ、ルに対してパンチ入力を行い、入力完了後 CSV また を作成する方法と、 M は ODBC 経 由 で SAS データセット化する方法をとっている。転記入力の場合は変数定義の LENGTHをもとに SAS DAT ASTEP文の INPUTステートメントで入力カラム位置を指定するプログラ ムを作成する。パンチ入力の場合には変数定義に基づき入力用 M i c r o s o f tAccess mdeと入力画面 を作成する(図 4 )。 2 . 3 SASプログラムの作成 SASデータセット化された以降の編集については M i c r o s o f tAccessのクエリー機能等を使うので、は なく、あくまでも SASプロク、、ラムを記述して行うことになる。予め指定しておいたフオルタ守パスに SASプ )。 ログラムが書き出される(図 5 2. 4 フォーマット情報 変数定義で指定された SASフォーマット名をもとに、フォーマット情報入力用テープ、ルを作成しフォ ーマット情報を入力する(図的。入力されたフォーマット情報は ODBC経由で SASデータセットイヒし、 FORMATフ。ロ、ン、ジャの CTRLINオプ、ンョンを利用して SASフォーマットカタログ化する。 2 . 5 ロジカルチェック定義の作成 口、ジカルチェック定義は日本語のエラー内容とプログラム上の論理文を変数に対等させて入力を する(図 7 )。入力された内容をもとにロジカルチェック基準書と口、ジカルチェックプログ、ラムを出力する。 口、ジカルチェックプログラムの修正もこの画面上で、行えるので、プログラムエデ、イタで、修正するよりも確 認が容易である。 しコ咋旦上ゴ「一一寸ょ主以立j/7 図I u 円 n u d 1i
EV
匡函霊園
噛懇欝畿議議懇怒窓口予
~i!暗記
ニ短J~
1
0
'
歪故名1 m
置 数 名2
阿
;
;
;
‑
‑
‑
‑
r
一
一
マルチレコイ「
合併底
臨床按査 f
軍
使用技況
コメント
併用費投与状況報告
加
格 Page 項目名
S
5
A
A
S
S
置
H盟
』
唱
マ
.
,
ト
長
型8 e
]
1笠理番号
銭f
m斗 間 m
2
3
n
gl]
鼓 僅 斗<
U
O
砂
3
4
S
6
7
b
豪語
‑E
ド
シ
f
h
噛
}
主ト終噛了
別団円
医
通番
8
8
2蹴 摺 斑 義 内 容 ① 文 字 斗 S田
3
1I!:師名1
文 士 ゴ d1
3
!
:
G
市名2
1I
文 字 ゴ &2
3
2症状
文 子 斗h
,
凹
2
2症状l
i
l
l
<
文字斗
2h出 I
,
E
1
8
A
群
M
<
"
"
̲
施設名コ」ド参察
S
l
s
e
医師毛コ}ド参照
d
,
匡隣名コ}ド参照
1
6
1
日
1 7 1
6
3
1 1
7
. 1
9
3
1 2
0 2
2
3
d
仁
症状コ」ド参照
s
y
o
̲
.
2概括安全度
9
2重軍
故{置斗
8出 2
聞
叡値什
E
ドJ
U
'出
1
1 2
6
. 2
6
概括苦全度コド参Jt;,
1 2
7 2
7
ー
,
,a
重罵度コード参照
μ
t
o
k
̲
こ
1 2
8
:2
8 j
J
r
ー ー1 ょ と 止 主J
113
レコードとじ
定 問 チ エ ツ ヲ │ コρ 卜 入 力 用 デ 引 ー ス 作 成
6
"
'
,
''23: 25
症状程度コド参照
邑i
h,t
8
H
5
5
i
結己シート力ラム割
l
鳥羽
図2
1
: 背景
入 力 極 額 通 常 事E記
a
g
< 項目名
No P
SAS
董激名
属性
長さ
S
AShmat
信考
2
1
A
5
B
5
a
1
畢理署号
円四
車姐
8
2
3
IUI
富岡
扱姐
s
"
'
"
̲
3
2
=1I1!i聞 E意内容。
3
1
E田名 τ
.
.
文字
4
文字
3
s
1
E問 者 2
.
.
,
文字
3
.
̲
.
̲
8
2
重E
世
h.
.
.
.
文字
2
2
風見
施星名コ』ド参聞
.院一
E町名コ』ド参照
E町名コ』ド参照
~O..
症状コー P
唱照
?
2
症状呂居
h出
g
文字
2
h>旬'̲
度状,1;",コ」ド*1'l
2
割昆陪支重度
伺 ~O
!
1
<
{
直
8
同ー
割昆陪支重度コ』ド参照
8
2
,
u世宅
政
I
!
.
1
,
j
u
tc
J
七
E瞬度コード参照
.
0
2
性月j内容
民.
扱
I
!
.
f
'
~ぇ
世間コ‑,帯用.
1
t
2
J
‑悟将司E
割問
汲姐
8
t
2
2
身畳
.
5
1
hi
n
車姐
8
g
盟
I
!
.
f
,
1
3 I 2 IC
J
.
!
晴
H
.
I
軍曹
8
!
!
I
SASデー型セヲト
糧
'
̲
Z
図3
一月
名
医師名2
君主│施
日
J
fI
設
医師名1
景笠理番号
拘置町画壇ーーー園甲山由鱗鱗織機議議選訟対ぷ
‑
:
g
.
l
i
l
l
i
.
島
症
状
i
l
i
ll
il
z
重
ヱ坦j
五j
f
幸
重
記
載
内
容
①
P
レコード・..!!lJiーーマムと止斗 11
ー
図4
Q
υ
1ム
ー
ム
匡葉原寝耳砲男椛建完F
‑ ユ担L出
-一一~..::.",.,.,...-~二二!è,亙ご---士二=二
!
作時
二三二一j
ヲヲ事ai:押
AB
デー虫 b ト作成
AB
テキスト I
Dチェッヲ
陥,号番号ヲJン
ト
Dデ ‑
o
l 陥 X 守番号ヲJン
ト
A
l
l
デ ー 虫 陥x
t
'
守番号ヨυLト
1H
1
レコードの 1
レコード1
ヒ
Dファイル作成
A
l
l
ファイ J
L‑'匂里積
一一一一コシペア一一一一
コンペ7マ?口呈録
AvsB
C宇、-~担
Cv
sD
ー聖斗
桁寸修正前四日
図5
ェ盟i
主l
思想史ちて双山
止民民山九山市臨時一帆凶同
JSeX了一一一衛官ヲ限「
浮盟主
三竺」
慨&掛文字rr‑
E 震
ア
主
調
長
出 ( 山
l
I
l
;
乙J
図6
酢日""詮孟遁且揖踊
r
rf7
2
3 毒
6
採
事
用
費
華
支尋
'医長官2
樫リ
晶
ば
可
毛
主
主
与
主
昌
平
乙?
一一ー
阻害
町
宣
興国
芋下高
ド"‑
語i
ロシッ針。
.dQJ~
f
F
J
'
こ
帽
ニJ
』
ド
考
委
"
.
1
1
<
"
‑
亨 仲1
陣ll1's2
1
<
"
‑
予 防2
『世~'I
E酔各コ』ド誓掛
主訴唱コ」ド参事長
追加 (
s
l
W'
l
:
l‑P
参照。
,
こj
レコ吋官主彊上下斗京「一一下一寸ex::ょ主止斗/
砂
陣戸ヨE
1
建置
1
1
l
D
l
A.g
曹司 <
l
t
A'
山
首 =1副 草 間 =2
薫軍軍一
I
s
e
=
同調
1
:
:
000
事副
陣戸
描‑
1
r
富.
冨
1陣 T
で面軍事百
邑
"
"
"
"
官主ゐ
富
‑
1
届罫ヨE
f
乍且
1
"
"
"
咽
n
OI'l=.N'V¥:
踊
調
帳
事
置
じi
一一一一一一一一一一一
図7
nHU
ηノu
1よ
3 データマネジメント業務 3 . 1 業務の流れ 症例報告書コピーを受領したら入力ルーチンを登録し(図 8 )、症例報告書コピーの記載内容から 独自コード拾い出し等を行った後、ダブルエントリーにより入力を行い、出来上がった 2群の S A Sデ ータセットをコンベアする o アンマッチの結果と 症例報告書を付け合せ、正しい方の値を採用して新 e たなデーータセットを作成し読合せ帳票を出力する。読合せ帳票と,症例報告書を付け合せ校正を行い、 入力ミスが認められれば修正を行う。修正確認は修正前後のデータセットのコンベアにより行う。 3 . 2 ダブルエントリーコンペア A Sデータセット化した後で両群データを比較するのだ、が、 COMPAREフ。口、ンジャ ダブルで入力し S の出力は以下の点で見難し、ものであった。 LENGTHが長い変数は値が途中で切られて出力されるc ②アンマッチの内容は症例単位で1 まなく変数単位で区切って出力される。 ③ S A Sフォーマットをはりつけた数値変数についてはフォーマットの内容を反映して出力されるが、 ① 文字変数の場合は反映されない。 UT=オフ。ションにより作成されるデータセットを編集 ①、②については COMPAREフ。ロ、ンジャの O することで解決できるが、③の問題は残ってしまう。文字変数についてもフォーマットの値を出力する だけでなく、元の値とフォーマットの内容を両方出力で、きることが望ましい。 そこで COMPAREフ。ロシ、ジャに比べれば多少実行速度が遅くなるが、 D ATASTEPによるコンベア ONTENTSフ。ロシジャによりコンテンツ情報を S A Sデータセット化し、lD変数以 を行っている c まず、 C 外の変数名とラベルを全て通番をふったマクロ変数に格納する。両群のデータセットを片方のデータ セットの変数名に 一"を加えてマージし、マクロ変数に落とした変数名毎に両群で値が一致しないオ フーザベーションを抽出するループをまわす。サンプルプログラムを最後に載せておく。 フ。ロク、ラム実行の結果出来上がったデータセットを M i c r o s o f tA c c e s sに載せ、 S A Sデータセットの日 本語名等をひっぱってきてレポート出力する(図 9 )。 3 . 3 読合せ帳票の出力 木、ンステムで、は読合わせ帳票出力機能は持っておらず、症例一覧表作成ツール C ATS(有限会社 電助システムズ)を使用している。現状では C ATS用のレイアウトシートを作成するために CATSで指 @SAS変数名(フォーマット名)"の文字列を M i c r o s o f tE x c e lに吐き出す機能を備えるのみ であり、現在 DDEを利用した読合せ帳票出力プログラムの自動作成を検討中である。 定している 3. 4 データ修正 A Sデータセットに対して直接キーパンチで、修正を行っていたが、修正処理を再現できるよ 以前は S うにしておくため、 PROCS QLを利用して修正用 S A Sプロク、、ラムを記述して修正作業を行う。値の変 更は P ROCSQLの UPDATE文節、オフ守ザベーション挿入は I N S E R T文節、削除は DELETE文節 を記述する。 S A Sプログラムや SQLが分からない人間でも修正プログラムを作成でき、修正内容の確 認が日本語でできるようにするため図 1 0 のような修正画面を設け、この情報をもとに修正プログラム を作成する。 ηペ U υ 1i 同 ハ
蕊蕊窓‑ごご
問
B
τコ士二二ごヨ町田山 l
m
z
m
!
?
"
入
カ
!
匹四月二;」
d とご旦j
・
"
.
l
1
l
i
.
"
E
"
.
.
,
園
"
2
ルチン遇面
4
制名
2
供盟主
r
一
‑
‑
‑
‑
, ・ lHI~lf5
しコード !
̲
U
̲
̲
̲
:
̲
j
図8
4511
一恥恥恥即一
四四
四四百
EE E
市a l 忽
背古臨龍
t
白ト症ト幅ト町山ト﹃
一
畏I 併E 庫 ︻ 周 E
コンペアリスト A
‑
B
臨席害訴E
m
戸1
F
l
A
事
フT イ i
l
.
<
&
匹目洛
時
凶問
r
n
384
Ile:Q~
I
,
E
le:o~
OT
:Q~
あり
‑
,.明 H-~
一
内草寺
特別l
f'
J
'
図9
m 鴨 W 開 宮T 士?すす怒号
竃髄画磁悩注~;i丈島民ぶ内、円
豆
3 f
採用畠
1
'
:
ぷ
~J!奮号
1
"
"
0i
"
"
ゴ
'"奮
"
"
盟
r
<
'
m
~叩ー
3
E
行追加賀行問陸軍
庖 語 宅ζコード参唖
題担る
pζ子 同e
ヨ
修正内書
tlSe
̲
佳 陣 名1
ード参揖
戸亨Jo'1
件.
主P町
出コ、 F誓場長
匡酔もど
予防ど
i
"
'
‑
型!里主竺
同ー
積
雪f
重)r
a
.
.
"
拘
創
ー
1
室
温1
'
‑
e
p
.
j
笠耳:回ード多安~..o
「一一一一一ーョ
「
・
内
一
一
』ー す よ と 止 斗 /,
レコード回と偏と
k
J
h
図1
0
1
9
4
‑
二j
1
'
<
主
」
開二る
4 今後の検討課題 本システムは今後もバージョンアップを重ねてしてがその際に課題となる点についてまとめておく。 ① ODBCにより SASとMicrosoftAccessで、データをインポート/エクスポートすると、やりとりが終了 しでも SASは実行状態のままである。そこからさらに SAS上で、何か作業をしようとする場合はフ。ロ セスを強制終了させなくてはならないが、その後さらに ODBC インポート/エクスポートすること ができず、 MicrosoftAccessを一旦終了させなくてはならない。これについては SAS/ACCESSソ フトウェアを導入するなどして解決したい。 ②読合せ帳票出力機能を追加する。 ③解析用データセット作成プロク、、ラム作成機能と解析プログ ラム作成機能を追加する。 ④現在ロクーオン画面から、ンステムに入るようにしているが、これは作業者記録を残すためと、使える 機能に制限を与えるためであるが、セキュリティについてはほとんど考慮されていない。機能追 加の前にセキュリティ強化が先決である。 5 プログラムサンプル 5 . 1 コンペアプログラム / 本 一 一 ー ー ー…コンベアマクロ / ー 一 一 ー 一 一 一 * data comp; delete;run; 百macro comp(tid,m,dt,i d 1,i d 2 ) ;ノ*テータセット 1、チ タセット 2、 i d l、 id2*! proc sort data=&1i b l . .&dt.&OI outニ 品d t.̲I; b y& i d l &id2; r u n ; ニ 品d t . 2 ;b y& i d l &id2; r u n ; proc sort data=&1i b 2 ..& d t .&02 out 品d t .̲ 1 outニ out noprint; r u n ; proc contents data= proc sort data=̲out; b y varnum; r u n ; 材変数名の大文字に│訴え、フォーマット data o u t ; set o u t ; 名を追加料 f i f upcase(name)‑=upcase(‑&idl1: i f upcase(name)^=upcase(‑&id2勺; i fupcase(format)^='YYMMOO' 品upcase(format)^='N E N G O ' &upcase(format)^ニ' T I M E ' & format^=" fI g = 1: then f i f type=1 & format=" then format='B E S T 8 ': i f type=2 & format=" then format=・ $ 2 0 0 ': i f upcase(format)='YYMMOO' then format='YYMM0010': , N E N G 0 9 ': i f upcase(format)='N E N G O ' then formatニ T I M E ' then format ニ , TI M E 5 '; i f upcase(format)ニ' run, ; ); )︐ )) ︑ノ︑ ︑ ︑ ︑ iJ iJ+﹂ ﹄ 2u iJQU1 3 gbm川ρum川 lta いU ﹁ εIEnHヨunu ε l r t Ilεl rt rt FOOUFOFO auvlauρu v'nuvv'v' rt ︑F 0 0 0qu0 ︑0︑ FO nu'nunu a m川nuFnMe mnnvuo mm nununu ')︐︐ ) 一 J ' n一 J nH 一 nHnH ︑ t 一一 一 ︑ ノiJr︑ t t r︑ ︑ 一 +Lr︑ rt nsl+﹂+﹂ f+ L︑ 一epT 干 ρurt 1l﹄ ρuρU +Lll+L1111111 W色 71le'' nu‑‑巴 ' 1 1 1 1 t ︐ .Hu‑‑1千lIlli‑‑i ((((( 'm川﹂U+L + ﹂ 1 4 ' am e 干 干 a a na ‑‑ a po''''' '+﹂+L+﹂+﹂+﹂ HUHUHUHUHU nUFOFOF00000 'onuvnμnuvnuvnH 1IH4 mmmmm uuyuyuyuyuy ail‑‑111111・' ・+﹂ヨuauヨuauaunH qGnununununuHU Juv' data c 2 ; set & d t .2 : rename /林変数の総数を抽出材/ /料変数名を抽出 料/ /料変数名を抽出 料/ /料フォーマット抽出 * * 1 円同d 'Ei R υ
出d oi ニ 1% to & a ; &&name&i ニ &&name&i % e n d ; r u n ; proc sort d a t a = & d t . 1o u t = c l ;b y& i d l& i d 2 ;r u n ; proc sort data=c2; by & i d l& i d 2 ;r u n ; data c 3 ; keep tid nobsf compno comprno vname v l a b e l base comp based c o m p d ; l e n g t ht i d8 . nobsf $ 1 . compno comprno $ 2 0 . vname v l a b e l base comp based compd $ 2 0 0 . merge c l( i n = i n1 ) c2(in=in2); b y& i d l& i d 2 ; 出d oi = 1 %to & a ; i f &&name&i^=&&name&i then d o ; i fi n l = Oa n di n 2 = 1 then nobsfニ1; i fi n l = la n di n 2 = 0 then nobsfニ2 ; 2 0 . ) ) ; compno=left(input(&idl,$ 出i f& m = l %then comprno=left(input( 品i d2,$ 2 0 .) );; vname="&&name&i"; v l a b e l二 "&&Iab&i" base =1 e f t( input( & & n a m e &i,S1 0 0 .) ); eft( input( & & n a m e & i ,$ 1 0 0 .) ); comp ニ 1 based=left(put(&&name&i ,&&fmt&i...)); ,& &fmt&i...)); compd=left(put(&&name&i i f &&flg&i^=1 then d o ; base 二"" c ompニ"". e n d ; o u t p u t ; 巴n d ; % e n d ; r u n ; data c o m p ; s e t comp c3(inニd ); i f d then tid=&tid; cat=&cat; r u n ; 拡m e n d ; /* A CCESS搭載用データ作成*/ 目macro c o m p 2 ; data c o m p ; s e tc o m p ; l d compd=new; rename compno=num comprno=rnum vnameニnamebase=oldd comp=newd basedニo r u n ; data & 1i b l . .comp&cat; set c o m p ; r u n ; proc export dbms=csv data= 品1 i b l . .comp&cat o u t f il e =品o u t f l repiace;run; 目m e n d ; ρhu 1 ょ nυ 刈
5
.
2 修正プログラム
ヰ
米
*
*
本*
*
S
A
Sデ
タセット{疹正プログラムホ*キホ**本 J
目macro u
p
;
proc s
q
l
;
updat巴品 Ii
b
.
.&
d
t
.&d
set &v =品 eq
wh巴「巴品w
qUlt;
目m巴n
d
;
目macro I
n
.
proc sqI;
.(
品
l
1u
m
.)
insert into &
1i
b 品dt 品d
vaI
ues(&nvar );
quit;
覧mend;
出macro d
e
;
procsql;
b
..&dt 品d
d
e
l巴t巴 from 品Ii
wh巴re 品wdei
QUlt;
h巴nd;
/料材料材料仲井c修正マク口実行*木材料料材料料'
首l
巴t I
i
b
=巴riI;
百l
e
td=̲D;
'材料合併症材料*:
首l
巴t d
t=GAP;
'単行番号本 f
首│巴 t n
umニn
u
m
.i
d
;
百l
e
t nvar二 1
."
3
"
;
l
o
t
n
.
山
.
材 料 臨 床 検 査H
巨木材料,
唱│巴 td
t=RIN;
日臨検検査項目*/
唱l
e
t vニrinta;
出│巴 t e
q=12;
目│巴 tw
=num="l" AND rnum=2;
p
.
出u
i
*臨検検査項目本/
唱│巴 t v
=rinta;
目1
et e
q
=
.;
明│巴 t w
=num二 "1" AND rnumニ3
;
p
.
唱u
,不行番号*
唱l
e
t num=num.rnum;
出l
巴t n
varニ
'
'
1
'
'
.1;
l
o
t
n
.
山
.
/*行番号*!
弘│巴 t w
d巴l=num="l" AND rnum=l;
唱d
e
;
1
9
7
‑
日本 SASユーザー会 (SUG1‑0) SASによるメタデータマネジメント 0鹿 渡 圭 二 郎 李錦実 江口英男(訳) カスタマーサービス本部プロフエツショナルサーピ、ス第 1部 SASI n s t i t u t eJapan株式会社 SAS@Metadata, A u t h o r i z a t i o nandManagementS e r v i c e s ‑ WorkingTogetherf o rYou M i c h e l l eRyals SASI n s t i t u t eI n c .,Cary ,N o r t hC a r o l i n a 要旨 企業内のリソースを十分に活用するために必要となるメタデータについて述べるとともに、 SAS におけ るメタデータ管理方法を CaseStudyを交えて説明する。 なお本書は、 MichellRyals氏の SUGI28での論文を翻訳したもので、ある。 キーワード: メタデータ SAS9 . 1 SASMetadataAr c h i t e c t u r e はじめに あなたの会社ではどのようにリソースを管理していますか。機密情報へアクセスするユーザーを制限 できていますか。データが必要な時、そのデータがどこにあるのか、またそれが使用できるのかをご存 知ですか。あなたの会社ではメタデータを利用していますか。メタデータが企業に利益をもたらすとし、う ことをご存知ですか。データを管理するために必要な情報を提供するものがメタデータであり、それは データからインテリジェンスを生み出す際の鍵となります。ビジネスが成長するにつれてデータ量も増え ます。データを正しく利用し競合企業に差をつけたいのであれば、メタデータはこれまで以上に重要に なってきます。 この論文では、企業内のリソースを十分に活用するために必要となるメタデータについて述べるととも に 、 SASにおけるメタデータ管理方法を CaseStudyを交えて説明します。 2 メタデータ メタデータは、よく「データのデータ」であると説明されます。具体的には、データリソースについての 情報のことであり、データの構造やその中身、データを利用するアプリケーションについての情報もそ oKn ow)J を提供するのであれば、メタデータは の定義の中に含みます。 SASが「矢口る力 (ThePowert 1 9 9一
「理解する力 (ThePowert oUnderstand)J を提供するといえます。 またメタデータを利用することで、必要な情報に素早くアクセスすることができます。データを管理す ることに労力を割くのではなく、本来のビジネスに集中するために、メタデータは必要不可欠です。 8reaki tdown! メタデータには、テクニカノレメタデータとヒヘジネスメタデータの次の 2つの種類があります。 テクニカルメタデータは、 I T環境の構築、保守、管理をサポートします。物理的なストレージ構造、サ ーバーシステムやデータの加工プロセスとし、った情報がテクニカノレメタデータの一例となります。テクニ カノレメタデータを参照することで、以下のような情報を取得できます。 ・サーバーはど、こにあるのか ・サーバーはどのように設定されているのか . サーバーはしてっ利用できるのか ・ データライブラリはどのように定義されているのか . そのデータはどのように加工されているか ビジネスメタデータは、データやサービスをより簡単に利用しやすくします。ビジネスメタデータは、ビ ジネスアナリストが根拠をもって正しい判断を行なうための情報を提供します。データ分類や表示形式 の定義、ビジネス上の定義、実業務て寺の使われ方といった情報がビジネスメタデータの一例となります。 ビジネスメタデータを参照することで、以下のような情報を取得できます。 ・ 「売上」はどのように定義されているのか ・ なぜこのデータが必要なのか 誰がこのデータを使用しているのか なぜメタデータに注意を払うべきなのか 企業が情報を活用する目的は、現状維持 でも衰退でもなく成長のためです。企業の成 長と共にデータ量が増え、その環境は複雑に なってきています。ユーザーが理解で、きない データに、どのような意味があるのでしよう か?データの理解を助ける豊富な情報がな ければ、たとえデータが大量にあろうと何の利 益にもつながりません。 企業内のデータリソースは、最も価値のある 資産の一つです。しかし、このリソースを管理 するメタデータがなければ、データの保存場 所も分からずアクセスできません。メタデータ はこの問題を解決し、これらすべてのリソース 図A を利用可能にします。 例えば、様々なデータが異なるアプリケーション上で、管理されているとします。それらのデータを活用 2 0 0
したいとき、通常は「どこに、どのようなエンジンで、どのような形でデータが格納されているのか」といっ た情報を知る必要があります。図 Aのようなシステムでは、先に挙げた情報をメタデータとして管理し、ク ライアントアプリケーションはそのメタデータを利用して、データにアクセスします。これにより、ユーザー はそのようなことを意識せずにデータを適切な形で活用できます。 3 SASによるメタデータ管理 メタデータを利用した I T環境を作り始めることは大変難しく、また非常に時間がかかるものだと言わ れています。企業はと苧のようにメタデータを組み込んだ環境を構築するので、しようか。 SAS は、その問 題に対するソリューションとして、 rSASメタデータアーキテクチャ」を提供します。 SASメタデータアーキテクチャ SASメタデータアーキテクチャは、 SASやその他のアプリケーションに共通のメタデータサービスを提 供するための仕組みです。この仕組みによって、メタデータを統合します。統合されたメタデータを使用 することによって、 SASアプリケーションは、データに共通性、一貫性、信頼性を与えます。 このアーキテクチャは、メタデータインターフェース、メタデータモデル、メタデータスーパーパイザー リポジトリエンジンの 4層で、構成されています。 ・ メタデータインターフェースは、メタデータを管理するための API(アプリケーション・プログラミン グペインターフェース)で、す クライアントとサーバー問で、の情報のやりとりは、 XMLを使用してい O ます。業界標準のメタデータモデルと XMLをサポー卜することによって、 SASアプリケーションと その他のアプリケーション聞の互換性を高めました。 メタデータモデルは、メタデータのタイプやその属性、また個々のメタデータ聞の関係などを定義 したものです。 SASは、様々なメタデータを最適な形で管理するための土台として、このメタデー タモデ、ルを提供しています。メタデータモデ、ルに基づ、いてメタデータを登録することにより、メタデ ータの関連性等を適切な形で保存する ことができます。 ・メタデータスーパーバイザ、ーは、ランタイ ムサービスを提供し、メタデータへのアク パーパイザーは、マルチユーザーやマ ルチスレッド、環境で、よりその効果を発揮 します。 • リポジトリエンジンは、リポジトリへのインタ ︑ 、 RW柑YA謙司︑品︑お曹司晶翠翼︑ k窓 セスの承認を行います。メタデータス一 R e ω a b l e C o m p α 1 8 n t s M e t a d a t aMo 僧t ーフェースを提供します。メタデータはリ Me 旬d a t aS u 問r v i s o r ポジトリエンジンを介してリポジトリ内に保 存されます。リポジトリは、 SAS、O r a c l e、 R e p o s 比 o r yE n g i n回 DB2 といったデータ形式で、保存が可能 であり、それらの相違をリポジトリエンジン ミRe同 町 は吸収しているため、ユーザーはその相 図B 違を認識する必要はありません。 円 U よ ‑ ワ ム
図 Bは
、S
ASメタデータアーキテクチャを示したもので、す。この図におけるメタデータマネージャは、
リソースやメタデー夕、その他の重要な情報を管理しています。このメタデータマネージャは、 r
S
A
S
ManagementC
o
n
s
o
l
e
(図D)Jから利用できます。
SASのメタデータ管理機能
SASManagement Consoleとは、様々なメタデータを一元
で管理するための標準インターフェースです。図 C は S
AS
ManagementC
o
n
s
o
l
eの作業サイクルを表したもので、す。
メタデータを一元管理することは、多くの利益につながります。
例えば、以下のような利点が挙げられます。
・ プロセスの共通化・標準化が行える
・データを探すとき、探す場所は 1箇所で良い
図C
・ 変更が発生したとき、修正する場所は 1箇所で良い
データの重複をなくせる
図
D は、 SAS Management
Consoleの様々な機能を表したもの
です。これらの機能について詳細に
晦油ャeI ~~thlllll .l ;:':':~hc剛陣1mnco刊明治典.5 _~r9S ミ,
守
説明します。
・メタデータマネージャ
陶刷福岡泊e~to 町句周回降四"'"国民曹団,,",,酬明沼申隅e 鋤刑問e 岨・ b官官",閣
自信.....凶官由民噂0・咽羽伺
l
島,̲,園町出市
陣~'r~s町役目出 c ;:n::a iXI\c~
メタデータマネージャでは、以
⑨抽出町嗣耶
下の作業を行うことができます。
里F阻
鳩町福9
阪 1
ど d 円~併.'"廿-e ;U"ef言"',,,.、 =ε「 守
ー
メタデータのインポート・エ
晶
~嗣岨曇刷唱r
陣~;I~似指》陀今口ー;)>;!・a堤防信剖で三号 erver;;
(停止、一時停止など)
メタデータの変更履歴管理
,
E
同時.e.3t
h
eI
o
c
d
:~ ~ ~:et'官民,.唱~ t
;
u
c
:
ur
メタデータサーバーの管理
@
s
.
‑
m陶 暗
袖.噌司自 信市首 l'1:.';./_<: 明!!!', u出剖 l','(IJJ到。 r~;men
II
!蜘 胸 甲
1
u回 目 副 V町 川 崎 明 白 剖 市
クスポート
必
メタデータのリプリケーショ
E
2
図D
ン・プロモーション
・サーバーマネージャ
サーバー設定情報を登録・管理し
ます。複数のサーバーが存在する
環境であれば、よりその機能を活か
すことができます
.
.
.
.
抑
制
、
。
騰
‑
....
岡市@幅削'"‑胃...
0
・ ユーザーマネージ、ヤ
ユーザーとユーザーグ、ループを作
成します。ログ、イン情報等の定義も
行います。
図E
202‑
‑ 権限マネージャ
ユーザーやユーザーク、、ループにアクセス権を設定します。アクセス権やアクセス・コントロール・テ
ンプレートも作成します。
・ライブラリマネージャ
SASライブラリの定義を行います。データベーススキーマの管理も行います
・ライセンスマネージャ
0
SAS プロダクト情報を登録できます。プロダクトのインストールやセットイニット更新時などに利用
します。
なお、これ以外の管理機能が必要な際には、プラグインとして作成することが出来ます。図 Eは、管理
コンソールが企業のすべての管理タスクに役立つ様々な方法を表しています。
4 C
a
s
eS
t
u
d
y
それではここまでに説明した内容
を実際に試してみたいと思います。
メタデータは、単に情報技術の枠
組みの中でのみ有用なわけではあ
りません。メタデータは、ビジネス上
の決定が必要な場面においても有
益な情報を提供します。それでは
ま台めましよう。
"
'
<
f
'
ニ
:
子
三5 1
tL
一,‑
, 入 」
サンプルビジネスシナリオ
米国のとある会社を例に話を始
めましょう。その会社は園内に支庖
図F
をいくつか抱えています。経営幹部
である Bobの 1日は最新の販売報
寸
一
,
.
,
.
.
.
,
;
‑
ー
ジ .
",
;
>
: c'
,
,
<
:,~,.~.>:-~:
ド . . 一 一
告書を確認することから始まります。
落大
なも
きに
売み
販込
のち
大巧
のゴ
あ
上
売す
乙ま
書見
告発
執を
ある日 Bobは、南東地区のオフィス
l
!
I
I
5
i
i
5
I
"
官
官
哩
曹
園
田
ー
ー
ー
ー
ー
ー
ー
ー
ー
ー
ー
ー
ー
ー
ー
ー
一
一
一
ー
ー
ー
一
一
哩
~~竺主竺竺三呈J
,~-日....~..~輸
耳t
!
f
きな落ち込みなので、なんらかの手
違いがあるように Bob は感じまし
た
。
図Fと図 Gは
、 SASWebR
eport
宣言M15
山 口
口C曲 目
Iilo̲
白~.
. 揖 司
コ
記
聞
S
t
u
d
i
o の画面です。 SAS Web
ReportS
t
u
d
i
oは
、 SASメタデータ
アーキテクチャ (SASアプリケーショ
図G
ン問でメタデータを共有するための
Q
;
.
,
.
.
ぺU
n
ハNU
つム
仕組み)を利用した SAS9
.
1のプロダクトです。図 Fは地区別の売上を示しています。図 Gはその中で
も南東地区の売上にフォーカスし、ここ 1年間の売上推移を月別に表しています。
図Gでは、売上額が 2002年 1
2月の 40万ドルから 2003年 1月の 20万ドルまで、減少しています。
この劇的な変化に Bobは「これは本当なのか?J
とし、う疑問を抱きました。その 1ヶ月の問に、一体何が
起こったのでしょうか。メタデータはこの質問に答えることができます。
,.
ー.
.
..,,!1周囲眉3・陽一田町田…・ 11=-1・!'iit:~'n i'Ti四一一一一一一一一一斗
豊監笠出掛と
SAS
輔副缶百
ま
れています。 図 H l
この SASManagementC
o
n
s
o
l
ei
こ
は
、 r
S
a
l
e
s
Jと呼ばれるライブラリが定
もメタデータとしての定義です。 S
a
l
e
s
ライブラリ自体は、実際は分析処理を
行う別のサーバーに割り当てられてい
ます。
トリを定義します。サーバーは複数の
2
まずは、管理者がサーバーとリポジ
田抑止田町
義されています。その定義はあくまで
l
EtF Lh
ManagementC
o
n
s
o
l
eの画面です。
γ蒜加⑥ g Eヨ ⑨ 自 国 劃 一 層 呂 田 ⑬ 益 田 園 温 福 田 楠
中に、この疑問に関連する答えが含ま
長
問コ
若
諮
問 二一的
mhaLZ一口回一二圃一
Lr白
ニ UE
品加持当ぬ諮問問問山口為一⁝⁝一⁝一
いくつかのメタデータオブ、ジェク卜の
一
一
;
⁝
⁝
一
一
室
メタデータの設定について
・一一向一
リポジトリを保持することができます。リ
ポジトリは通常、明確な目的別に定義 「
一
司
されます。例えば、「人材」と「在庫」と
図H
いうように異なる業務領域のものは、
別のリポジトリとして定義することができます。
円~ー:町!tJI!'2!{lj'!p一一士一一ァーーで~申輔解
この例では、 r
S
a
l
e
s
Jとしづリポジトリが用意さ
れています。 SASManagementC
o
n
s
o
l
eに
おいてメタデータの設定を行う際は、リポジトリ
の設置場所、名称、メタデータにアクセスする
吋島
淘
際に使用する SASエンジンといった定義をウ
s a章 ︑ 寵
調
ィザード形式で設定していきます(図1)。これ
によりリポジトリを簡単に作成することができま
す
。
アクセス権の設定について
次に、メタデータへのアクセス制御につい
て説明します。
メタデータへのアクセス制御は、ユーザーまたはユーザーグツレープこ とに任意に設定することがで、き
e
ます。図 Hは、ユーザーまたはユーザーグループを設定するためのユーザーマネージャの画面で、す。
‑204
まずはユーザーとユーザーク、、ループの作成・管理方法について説明します。 • ユーザーとゲループ このサンプル、ンナリオの登場人物は、経営幹部、システム管理者、管理部門スタッフの 3名でLす。アク o n s o l eにおいて設定することができます。図J は、このシナリオでのユ セス権は、 SASManagementC ーザ一定義状況を示しています。 1 ‑ ̲ ‑ … 語 ! 加 蜘 ι ‑ T 夜 I e この例では、 Bob B i l l i o n、JoeAdmin、 ! 重 唱κ ~Execu白V由 MarkBrownと し 、 う 3名のユーザーがし、ます。!き ; t z 由 S E x e c u !l v eO iet 8旬以'" また SASUSER、PUBLIC、E x e c u t i v e s、 品選量 A血 L r 1 i s t .r a l :o r 国 岨 凪 畠 幽 固 幽 ‑ 図J Administrat o r sとしづ 4つのユーザーグソレ x e c u t i v e sク ツ レ ープが登録されています。 E 抽町田四回画", ーーーー同柑置醐側甑幽盟問;~r:ii出:w孟i B I . . I K 滋もイiにも荏 ープは経営幹部が属するグループで、そこに 1 ft 川目寄1̲i ! j l:L i l l i o nとAdministra t o r sク守ループ は BobB 川( . ! J 二噌ー t! J け , / 品 F J I 叫 I, I" が登録されています。 A d m i n i s t r a t o r s グル 掃 o eAdminが登録されています。 ープには J MarkBrownはどのグループにも属していま , せん。 Mark には現在、読み取り権限のみが ,&品 ‑ " " " ' " 五車~!! 与えられています。 t m SASWebReportS t u d i oのようなクライア ントアプリケーションは、ここで定義されたアク ~[ セス権によってレポートへのアクセスを制御す ることができます。例えば、図 Gの売上レポー x e c u t i v e s グループのみ閲覧が可能 ト は 、 E 図K です。 なおメタデータテープ、ル自体の使用・更新は、 A d m i n i s t r a t o r sク。ループのみが行えるように設定され ています。もしメタデータテープ、ルを更新したいのであ 回開閉帽器開照明麟....~ J 1 埜 吋t 司 e れば、ユーザーやクゃループを作成する際に、その権限 の画面です。図 Lでは Bobのログイン IDとパスワード の設定を行っています。管理者がユーザーやグループ を作成する際、それぞれのユーザーご、とにログイン 情報 a を定義します。 • 吉 司 駒 山 町dhF1 i 印刷打 いDomain 3 出l Kは、実際にユーザー BobB i l l i o nを作成する際 ‑BI を与えなければなりません。 : . I f 1 一 位J 巳 己 ム 出 」Lji 図L ロゲインプロセス ところで、そのログイン情報はどのように使用されるのでしょうか。 SAS9 . 1 では、メタデータは SAS MetadataS e r v e rによって管理されます。 SASMetadataS e r v e r土のメタデータを使用する際には、 SASMetadataS e r v e r(こログインしなければなりません。 205‑
SASMetadataS e r v e rにおけるログインプロセスは、次のような流れになります。 ① ホスト o sによってユーザーの認証を行う。 ② ホスト認証済みのドメイン名とユーザー IDを受け取る。 ③ SASMetadataS e r v e r上の全てのログインオブジェクト(ユーザーに関するメタテ、ータのうちの ひとつ)の中から、そのユーザ ‑IDと合致しているユーザーを探し出す(厳密に言うと、ログイン オブ、ジェクトが持つユーザー ID属性の値とホスト認証済みのユーザー IDを比較することになりま す ) 。 ④ 合致するログ インオブ、ジ、エクトが見つかったら、そのログインオブFジェクトを保持したユーザー識 別オブジェクトを取得します。 ⑤ 以降、承認プロセスは、このユーザー識別オブジェクトによって行われます。 、o sのユーザー IDと同ーのものを使用します。例え ログ会インオブジ、ェクトに設定するユーザー IDは ば 、 Windows上でユーザーの認証が行われるのであれば、認証に使用されるユーザー IDをログイン domain¥u s e r i d " オブジェクトのユーザー ID属性に、 " または " userid@domain"といった形式で入力します。 白 WR 悶 urce‑‑Managemenl I I 申 ー 臼 ByA仰Iica!ion Z 巳‑ f i l i s yL ̲ o c a 目的 同様に、ログpインオブジェクトのド、メイン属性に、認証で 使用されるドメイン名を入力します。そのユーザーが複 自 ・ 告 発 Anal計i c s ̲S e ‑ r v e r ‑ I 自信温盟盟置一一一̲ ̲̲ . J ζ E n ‑ E麗1 :ORe什 帥 ~---II割問 数のドメインで定義されているのであれば、ログインオ じ 白Q B Y T G F 1 圃支函孟 ブジェク卜はドメインごとに作成します。 P ・‑ 日 明 D嗣 出r問 Managei 色l s 叫AS 叫L i 附 b 図M コ 口 ‑ アクセス権 一 副 ‑ 次に、「誰が何を見ることが出来るのか」といった E主連直面目i.i 古宮司圃 岡田町田副官ー竺輔自 アクセス権の設定を行います。アクセス権も SAS 旬 叫 制 問 蜘 ! a l e sラ ManagementC o n s o l e上で設定します。 S " . " " ー 竺 : : . J イブラリのプロパティから、それに設定されたアクセ 」 竺 乙j ス権を確認できます(図 M)。 SASManagementC o n s o l eでは、様々なレベ ルのアクセス権を設定することができます。デフォノレ 卜の設定では、 PUBLICグツレープにメタデータへの 担問同副叩::J~竺竺こ」 読み書き権限が与えられています。ユーザーやグ, ノレープとして定義されていない全てのユーザーは PUBLICグループのユーザーとしてみなされます。 手ム」芋 f罷 炉 岨e 伊 ‑EEFE なおサンプルシナリオでは、 PUBLICグループに 対して全てのアクセス権を拒否しています(図N )。 一方、 E x e c u t i v e sグループのユーザーには様々 なアクセス権が与えられています(図 0)。しかし、彼 L己 C~æ斗~ 図N らにメタデータを管理したり削除する権利はありません。経営幹部の人々が誤ってメタデータを消去し ないようにするためです。図 Pは 、J o eAdminに設定されたアクセス権を示しています。 Joeはこのシス テムの統括管理者であるため、全ての情報に対して十分なアクセス権を持つ必要があります。 2 0 6
l
41'1cf叫回
問'aI. A
剛
問団:ii'iIi'r:ri~一一一ー-雌i!
主j
l
N創暗記忌
庖E一
Pll3UC
ι」
l一
二
竺ヱJ
R
相
=
C
'
"
制 同 町
IProport.,I
乎斗苧Z
'
"
'
"
「
・
・置ヨ・
'
"
r
r
E刻 圃
「
撃
r
R'E
彊
事
長記土J ,;~l
図P
図0
意思決定の裏側
それでは、サンプルシナリオに戻ります。 Bob は、問題のレポートの信頼性を判断するために 2つの
ト
ヘ .
.
Q
疑問を問し、かけました。
川匂向一
内的
「このレポートはいつ作成されたのか?J
「このレポート作成の責任者は誰なのか?J
N由 回
もしかしたら、このレポートは何週間も前に作成
されたものかも知れません。誤ったデータテープ
ルを用いて作成されているかも知れません。また
はレポートを生成する過程でエラーが生じた可能
た
式
性もあります。
図Q
各々のメタデータには「作成日付 J、「更新日
付」とし、う属性があり、いつレポートが定義され生成されたのかを知ることがで、きます。データの出所もメ
タデータとして管理することができます。図 Q は、南東地区の売上データの出所を表したものです。図
における i
Tra
n
s
f
o
r
m
a
t
i
o
n
Jは、南東地区の売上データを作成する際の加工ステップを表しています。
メタデータを詳細に調査した結果、南東地区の売上メタデータテーブルの「作成日付」と「更新日付 J
とし、う属性から、問題のレポートは 2,3目前に作成されたものであるということが判明しました。レポート
の作成時期に関しては問題がなさそうなので、 2つ目の疑問「このレポート作成の責任者は誰なの
か ?J
に取りかかります。メタデータにはそれぞれ所有者・責任者が定義されていたため、 J
oeAdmin
が問い合わせるべき相手だとし、うことが明らかになりました。 Bob はJoe~ こ電話で、問い合わせることにし
ました。
調査は続く
Bob から調査依頼を受けたJoe~土、次のような疑問を投げかけます。
‑207一
「このレポートは正しいのか ?J これまでの調査で、レポートの数字が最近のものであるとし、うことは判明していますが、その数字が正 確かどうかまでは判明していません。 Joeは、その数字の正確さを判断するために 2つの疑問を問し、かけてみました。 「南東地区の売上レポートの『売上』項目はどのように計算されているのか j [レポートに何かしらの変更が加えられていなし、か j 『売上』項目の算出ロジックを知ることは重要です。このレポートはどのデータを利用しているのでしょ うか。そのテープりレのうちの 1つに間違いがあるのでしょうか。レポートの内容が変更され、誤った計算 結果を招いているのカもしれません。何らかの理由により単位が変更されたのかもしれません。 o e はこの数値がどのように計算されたのかとしづ情報に素早くたどり着くことが メタデータによって、 J o e はデータ加工に関するメタデータを参照して、データの出所を突き止めました。このレ できました。 J 也パ←ジニア州の売上データをもとに作成されているようです。しかし、 ポートは、ノースキャロライナ小l それらのデータと、『売上』項目の算出ロジックについて、何ら問題は見受けられませんでした。 についても調査しました。しか 次に、 2つ目の問し、かけ「レポートに何かしらの変更が加えられたのかJ し、変更が加えられてしも様子はありませんでした。 ということは、このレポートは「正しい jとし、うことなのでしょうか。レポートとしては正しい値を示している ようですが、この劇的な変化には何らかの理由があるはずです。 o e i 土、このレポートを作成す この問題を解決するために、もう少し広い範囲で、調査を行って見ます。 J るためのデータフローだけで、なく、ビジネス全体のデータフローを見てみることにしました(図R)。 この図を見ると、売上データは倉庫から の商品の仕入れデータもインプッ卜してい J o e i ま仕入れに関する るようです。そこで' こ 全てのデータの調査を、部下の Marki 依頼しました。 Markはそれらのデータに ついて、「南東地区」とし、うキーワードでメ タデータ探索を行し、ました。 明らかになった原因 ;s" U パみ三入 可 M l l メタデータを探索することによって、 Mark は南東地区の売上レポートにおけ る売上減少の原因を突き止めることがで きました。 TXS副 es どうやら、南東地区の庖舗において、商 SouthWestsales 図R 品の在庫切れが多数発生していたようです。この会社は、最近コロラド、に倉庫を購入したので、すが、な ぜかその新しい倉庫が、南東地区の庖舗の仕入先としてシステムに登録されていました。これらの庖舗 は商品の仕入先として、本来、フロリダの倉庫を使用すべきなのですが、地理的に遠いコロラド、から商 品を仕入れていたことで商品の輸送に時間がかかり、商品の供給量が劇的に落ち、在庫切れを招いて いたようです。 Bob、Joe、Markは、メタデータを利用することで物流の問題を発見することができました。南東地区 ‑208
の居舗の仕入先をフロリダの倉庫に変更し、その結果、売上とコストを改善することがで、きました。また Bobは、商品の搬出ポリシーに関して新たな意思決定を行い、再発の防止に努めました。 5 最後に ここまで、メタデータについて論じるとともに、 S ASによるメタデータ管理方法を簡単に説明しました。 現在、多くの企業が巨大な先行投資を抱えています。ひとたびシステムが構築されたとしても、今度 はそれを維持するためのランニングコストと莫大な手聞がかかります。 今日の情報システムには、便利であるとは言い切れない面が数多く存在することだと思います。メタ データには、「情報システムを便利なものにする」としづ可能性が秘められています。 Bob、J o e、Markの 3人の奮闘は、多少、現実離れしている感もありますが、メタデータを管理するこ とで様々な利益を享受することができるとしう事実に変わりはありません。あなたにしか行うことのできな ASはこれからもソリューションを提供し い創造的な作業に、より多くの時間を割いていただくために、 S 続けます。 ‑ 2 0 9一
日本 5A5ユーザー会 (5UG I‑0) EnterpriseGuide2.0による add‑in機能について 木下貴文 SASI n s t i t u t eJapan株式会社 カスタマーサーピス本部 プロフェッショナルサービス第一部 C r e a t i n gCustomTaskf o rE n t e r p r i s eG u i d e 2 . 0 TakafumiK i n o s h i t a P r o f e s s i o n a lS e r v i c eDepartmentl I SASI n s t i t u t eJapanL t d . 要旨 SASV e r s i o n 8 よりリリースされた、エンドユーザ向け分析/レポーティングツールの E n t e r p r i s e n t e r p r i s eG u i d e 2 . 0には様々な新機能が存在する。それらの新機能の Guideの新パージョンである E ーっとして、独自のタスクダイアログを作成し E n t e r p r i s eGuideの機能としての利用、提供が可能 になった。本稿では、利用方法と幾つかのサンプルを紹介しアドイン・カスタマイズ機能を説明する。 キーワード: E n t e r p r i s eG u i d e 2 . 0、COMアドイン、Vis u a lB a s i c はじめに 昨今、 SASシステムがこれまでとは異なったユーザ一層で、の導入事例が多くなってきている。これま での SASシステムは、 i F a t ‑ C l i e n t J でのクライアント・サーバーでの利用がほとんどであったが、 E n t e r p r i s eGuideやその他のブラウザベース等でのクライアント・インターフェースでの SASシス テムの利用が受け入れられてきた結果と考えられる。ブラウザ等の i T h i n ‑ C l i e n t J と呼ばれるクラ イアントでは、従来の i F a t ‑ C l i e n t J の SASシステムの全ての機能を提供することは、コスト面やツ ーノレの習得面から考えても難しいが、逆に分析/レポーティングを行うユーザーの全てがそれらの機能 を必要としているわけではない。この、ブラウザやシンプルなインターフェースでの SASシステム のエンジンの提供を行う事で、様々なニーズのユーザーに対しでも SASシステムのメリットの提供 が可能になった。 E n t e r p r i s eGuideでは、グラフイカルで、ユーザーフレンドリーなインターフェース での分析/レポーテイング機能を提供しているが、新しいパージョンの E n t e r p r i s eG u i d e 2 . 0のアドイ ン機能により、標準では搭載されていない機能や、業界や自社内のみで発生する処理などを SAS外 のアプリケーション開発言語(詳細については後に説明)で開発をして追加することが可能になる。予 の機能を利用することにより、また新たなユーザー層での SASシステムの利用が期待される。 ‑211一
E n t e r p r i s eGuideとは 第 1章 本章では簡単に、 E n t e r p r i s eGuideの機能と構成についての簡単な紹介をおこなう。 節 第1 E n t e r p r i s eGuideの基本的な機能紹介 n t e r p r i s eGuideはこれまでの SASによるクライアント・サーバーシステム構築手段である、 まず E SAS/Connectによる接続や、ブラウザインターフェースから CGI経由で、サーバー接続をおこなうも のではなく、 COMIDCOM又は、 IOMBridgeといった技術によりサーバーシステムへの通信を実現 している。この CO Ml DCOM又は、 IOMBridgeによる接続では、クライアントモジュールがそれら A S / l n t e g r a t i o nT e c h n o l o g i e sに の技術に対応できているものであれば、サーバーモジューノレで、ある S よりサーバーの接続が可能になる。そのため、 E n t e r p r i s eGuideも SASの SCLや HTMLではなく、 V i s u a lC++で開発されているためより Windowsライクな操作性で親しみがあり、使いやすいインタ ーフェースとなっている。 a' l ' i lZ Oラェ肝 τ 1 1 1. . . . . 1 /pr唯 日 D園 田 町 ,III 回 分布 鈍掴 ー元皮星空事実 簿価みよ 川‑叫 4 予ーフ九必逼宣言 ,,‑フデ』冊徒出 亘さ臨す量 リ ス ト 妻暴漢語+畳 戸国陸極一 dil‑‑JJ 翠宝.,スト 子 巴 聖埼 表分析 表分後 分霞分続 ω "'タス冊令官酎守する 1検 定 元配墨分数分続 ノノパラメ何時なー子「タスタコ h 問フレEl.~する但) 綿形モデル 車合モデル 豆蚤.:‑$¥';;主面記琢吾頚直樹躍し主〈問、 【ユーザーフレンドリーな操作画面】 操作方法としては、行いたい処理を選択して各種設定をおこなうためのウィザードを起動させる。ウ ィザード中で処理をおこなうために必要な変数、及びアウトプットのためオプション等選択して【完 了】ボタンを選択する。以上の操作により、ノンプログラミングで対象データに対してアウトプット 、リッチテキス を得ることができる。アウトプットについては、帳票的なものは HTML形式、 PDF トフォーマットに出力が可能であり、グラフは GIF、JAVA、A c t i v e Xに対応が可能である。また 簡単なデータ加工は、クエリーウインドウの機能を利用することによりノンプログラミングで実行が 可能である。クエリーウインドウでは、特定の条件によるデータの抽出や複数テープ、ルのマージ処理 をサポートしている。複数のマージ処理も、設定することによりレフトジョイン、ライトジョイン等 にも対応が可能になる。これらのデータ加工については、処理後のデータを SASデータセットのみ ではなく SASデータビュー形式で保存も可能であるため、全てデータセットにしなくても使用する 状況にあわせてそれらを使い分け、リソースの管理をおこなうことも可能である。またこれまで紹介 2 1 2
した機能は全て GUI操作で実現可能だが、 GUI操作により生成された SASプログラムを保存しパッ
チジョブとしスケジューリング登録をすることも可能であり、編集をすることによって再利用するこ
とも可能である。
第2
節
E
n
t
e
r
p
r
i
s
eGuideの応用的な機能
E
n
t
e
r
p
r
i
s
eGuideではグラフイカルな GUIを利用し様々な処理をおこなうことができるが、標準で
サポー卜されていなかったり、標準の機能でも実現は可能だが様々な処理を組み合わせる必要がある
処理など、業務や業界に特化した機能を全ておこなうのは難しい。このような場合に、 SASの SCL
言語などではない一般的な開発言語で開発したアプリケーションを E
n
t
e
r
p
r
i
s
eGuideにアドオンす
n
t
e
r
p
r
i
s
eGuideの一機能として実現することが、 E
n
t
e
r
p
r
i
s
eGuide2.0から可能に
ることにより、 E
なった。
園
田
園
田
・ ・・‑ー園田‑圃・ ・ ・ ・ ・
‑
圃 ・・ ・ ・
‑
士
l
8
f
宝E
R ‑ ‑
E
E
E
E
E
E
E
E
?ti~.~l::"q;.::事訴宅島都申司醤軒,匹式且岱E什?入汐
クi主?'-,噌ル岬モ号
ド::::'ヂ宇」略ミ輔包惣f 王
F
臼
う
ヲ
噌
皆 r 時〈つ争
4
心
フ
押
F
附担略些ごM
ルヲ吋
ψ
唱
!
(
:
',三己子干勺引じJ
i引il河U
むむ.riJ:長-盃~;訂1匂亙7毛-毛寺:芽妥安F弓苛〉下言ぜヂ手芝ま安
Eと弘苧苧
F主才f込:¥蚕¥諒1予f冷司告当当!当 E
許
ι
忌与 B
三〉瓦云旨¥'iJ臼主訓i
タ
こさ一主主主与二三
与 三J
J
l
l
J ニ 竺 てZ ι
:::J! iôi色白l~~,ミ
ム
刀 ‑
r
:長べ
三
一
;
←
Ih"
三苫目ヲローニク十
H芸
;;}..帽~
認
書
盟
曹
彊
軍
事
・
ー
ー
ー
・
・
ー
ー
ー
ー
,
"
"
,
葺]~jl
サ、, If~~
,
‑
‑
.
;
:
) F岡 村
岨埋草間噌彊ーー一ー
一
F 筒1I
r‑主宰
揖持
民 主 人 三 付 ふ 土、口し
1
j
:
.
民 z戸 川 し 三λν
1
1"丸山 y
r
~.... ~"
j
1 ι、
I
て '
:
:
一
4・ tν~,升E貫..
!l岬語圏
ペf、‑'.;",‑'も
F'‑"白‑W)fI̲t:':テイララJ
イ
セr
:
、
‑
'
"
η
ι
二マ
F 官:"t‑!i傑気局ER:>イヨヲJ
ートク沖包氏
出
ベ
ペι
ミ 点
三戸三ょやヘ
」ヲ乍よ
,胸 A 占ー~~国
ーテテ..--:F='一時現明 ~+;:.':lヱ
‑.ご令
司
う
ザ
サ主昼~
コ十ふ伶院
宝'~':r匂二、夕刊主"
h
宅
"
"
言
言.
i
閉 ゴ 咽 回 ク 右 割 院 主1
勺…:、
ペ
.‑
γ
.
‑
.‑ミ与 一ても,‑'/ ー
F マi
l
.
与 う ベn
‑
?
:
:
企ーマザド府軍S
事前,;},尚氏
主力軒 t".jJ,~宅院 qt'~;
亨 世i
相'
一一」…
手極
支給^.対自
「
1
[
>
' '~
主þ.:~ JI,;予..t<
R査
ニJ
1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
ー
岨.
.
.
頃晶孟巴
7
士
宇
す
す
で
弓
ゴ
ニ
E
豆ヨZ
ノ
三三五二二ム一二一ャニ-'----'~
"
,
‑
:~- J 事~-'
ー 九 .
ーー}
.••
白
v
←一一
1!
t
'.
:
.
J
I
‑
.
.
.
.
一 +ι
二一」
ι一一-:__.~:_--_;.,__---_'ー
ム
.".‑ '
‑
j
;;.,j".づ建習も至ヲ百~:.両←今霊費もてu:'a.'
【サンプノレアドインモジュール起動時のイメージ】
上記のサンプノレイメージのように、追加されたモジュールはあたかも E
n
t
e
r
p
r
i
s
eGuide2.0上の一機
能のように操作が可能で、データの力[11や分析、レポーティング処理をおこなうことができる。この
n
t
e
r
p
r
i
s
eGuideをツールとしてユーザーに提供するのではな
機能を利用することにより、ただ単に E
n
t
e
r
p
r
i
s
eGuideを
い、エンド・ユーザーが本当に求めるような形でソリューシヨンパッケージとして E
提供することが可能になった。
n
t
e
r
p
r
i
s
eG
u
i
d
e
2
.
0で、アドインモジュールの登録作業をおこ
アドイン機能を利用する際には、まず E
なう必要がある。アドインモジュールを登録して利用可能アドインリストに追加をおこなう。
作業の手順としては、
円︑U
ん
つ
1 . [ツール]メニューの中の[ユーザー設定]を選択し、[アドイン]タブをクリック。 2 . [追加]ボタンを選択すると表示される追加タスクの登録画面で、 [ProgIDJ のコマンドラインに 追加タスクのプログラム識別子を入力する。 3 .手Ij用可能アドインリストで追加したアドインを選択して、 EnterpriseGuide2.0の再起動J をおこなう。 以上の操作で、 EnterpriseGuide2.0上へのアドインコンポーネントの追加登録がおこなうことがで きる。これらの詳細な手順については、後程説明をおこなう。 第 2章 アドインコンポーネントとは 次に前章で紹介したアドインコンポーネントの具体的な内容と開発方法、及び実行例を紹介する。 また紹介の際に提示するサンプルアプリケーションは、 VisualBasicで、開発されたものを利用するが、 本稿では多言語の詳細なロジックの説明等は、ページの都合上割愛する。 第1 節 アドインコンポーネントとは EnterpriseGuide2.0で追加登録の可能なモジュールは様々な言語での開発を可能にしている。これ らのアドインモジューノレ (COMアドイン)は最終的には、 DLL(ダイナミック・リンク・ライブラリ) として用意をする必要がある。これらが可能な開発言語としては、 MicrosoftVisualBasic、Microso氏 VisualC++、.Net、C# 等が上げられる。これらの開発のために、開発言語で利用可能な Enterprise Guideとの接続インターフェイス仏pI)と利用可能メソッドを用意している。これらの詳細な情報に ついては、 SAS社サイトの http://www.sas.com/technologIe s/bi/querv.reporting/guide/segcustomize.chmに詳細な利用方法が あるので参照されたい。上記にある詳細情報は VisualBasicをメインに書かれているが、それ以外の 言語でも、アドインの作成は可能である。以下に簡単なプログラムのサンプルイメージを提示するが、 このサンプルコンポーネントの全て記述すると、膨大な量になるためその中の一部のプログラムを記 述する。 ・ サンプルプログラムイメージ BEGIN MultiUse =‑ 1 ' T r u e Persistable =0 'NotPersistable DataBindingBehavior =0 ' v b N o n e v b N o n e DataSourceBehavior = 0 ' MTSTransactionMod巴 =0 ' N o t An M TSObject END Attribute VB̲Name "SortOptions H 三 Attribute VB̲GlobalNameSpace ニ False Attribute VB Creatable ニ True Attribute VB Predeclaredld = False Attribute VB̲Exposed 二 True " Y e s " Attribute V BE x t KEY = "SavedWithClassBuilder6 , H 2 1 4 ‑
n
Attribute V
BE
x
t KEY =n
T
o
p一L
e
v
e
l ,
n
Y
e
s
H
OptionExplicit
'
l
o
c
a
l variable(s) t
o hold property v
a
l
u
e
(
s
)
Private mvarSortOrder A
s String '
l
o
c
a
l copy
Public PropertyL
e
t SortOrder(ByVal vData A
s String)
'
u
s
e
d when assigning avalue t
ot
h
e property,o
nt
h
el
e
f
t side of an a
s
s
i
g
n
m
e
n
t
.
'
S
y
n
t
a
x
: X.SortOrder = 5
mvarSortOrder = vData
End Property
第2
節
アドインコンポーネントの登録及び実行
アドインコンポーネントを作成してソースファイル、イメージファイル、
DLLファイルを作成した
後に、 EnterpriseGuide2.0で実際に登録をおこなう際には以下のような処理をクラアントサイドで
おこなう必要がある。今回は登録のプロセスを行う際に、 Sort機能を追加したサンプルモジュールを
利用しておこなってみたい。標準の EnterpriseGuide内で実際に Sort処理のみをおこなう場合は、
クエリウインドウを利用して、 SQLベースで実行するしかなく(グラフ等の作成時に自動的におこな
われる、 s
o
r
t処理は除く)データ加工iI寺に従来の SAS言語での Sortプロシジャの重複行削除オプシ
ヨンを利用することはできなくなっている。そのような際に、このような Sortプロシジャをおこな
うモジュールをアドオンで提供することによって、ユーザーの更なるニーズを満たした使い方が可能
になる。アドインコンポーネントの詳細な登録については、以下のようになる。
まず、 Sort処理をおこなうモジュールを開発してそれらをローカルドライブに準備する。(今回は
D:¥EG̲addin
¥e
gaddinvb̲sorttask内に準備をおこなった。)
凶 副 画 面 幽 圃 圃 園 田 園 田 園 ー 園 田 園 田 園 田 由. . .
遡
おい
醐踏lfr~:_WgJ旦Ji
け"岨:) 1
I
I
釦
旦
一
軍
手w!一
戸
町
立
竺
包
い
?
で
,
(
1
)^
レ7
山一色‑‑'̲..̲"..ょに温.,
i:"'}'~ こ土匂~旬手間ゆ空豆沢同法ぽ←#
f
vドレス坦 1'''''0"'0,副hnVec
副 帥 戸 時
】泣い!::
凶:
e
>
'
蹴 i
lbfJ h
i
L
1目伽辺白州辺町伽辺一l
早 田
村山ヲト叫問位、剖問帽
子ぞれまれ
一
│当圃
'円
,
.
,
刷
,
.
,
.
.
回
』ー」
b凶 成 田
!
l
当
関連項目
豆王』主』止
団司団団団
豆il
止2
ニ2
II
ユ与丘ょニ主
S俗>Sort
e:
o
:
p SA
S
.
5
o
"Ub SA5So't
晦
~
SA
S
.
5
o
"
!
v
b
I
o
o
S
o
rt
c
h
:
~自国
町主竺~J S
o
rt
T
dTD
,
,Ls
.
:
.!
T
&
S
kD
札
百
。l
蹴 初i
i
j
ト
h
、
、 t
仇土台竺7ヶー """~þ;(i(':件直キイコ光司..
刃
.
【モジ、ュールフォルダの一覧イメージ】(但し、内容は用意するファンクションによって異なる。)
2
.
ηノμ
1上
RU
次にサンプルモジュールのスクリプトの登録をおこなう。今回のモジュールの DLL
ファイル
は"
D
:
¥EG̲addin
¥e
g
a
d
d
i
n
v
b
̲
s
o
r
t
t
a
s
k
"配下に SasSor
t
.d
l
lとし、う名前であるために、次の様なコマン
ドにより登録をおこなう。登録は Windowsの[スタート]メニューから、[ファイル名を指定して実行]
でコマンドの入力をおこなう。これは Windowsに搭載されている r
e
g
s
v
r
3
2
.
e
x
eを利用し、
<
r
e
g
i
s
t
r
a
t
i
o
n
>の要素の情報を読み込み、クライアントマシン内にある Windowsレジストリに登録を
おこなうという作業にあたる。この作業により、クライアントマシン内にサンプルモジュールをの登
録が完了される。
r
e
g
s
v
r
3
2D
:
¥EGa
ddin
¥e
g
a
d
d
i
n
v
b
̲
s
o
r
t
t
a
s
k
¥S
a
s
S
o
r
t
.
d
l
l
[ファイル名を指定して実行]でコマンドを入力し、登録が完了すると以下のようなメッセージが表示
されるので [
O
K
lを選択する。
また多くのクライアントに対して、上記の作業をおこなうと煩雑さが増すために上記の作業をパッチ
ファイノレとして、ダブルクリックのみで実行が可能な状態にしてユーザーに配布することで、デリパ
リの作業の効率化も考えられる。
間哩盟国圃圃圃圃圃圃圃圃園田臨輯躍:
五l
;や山山…半EG̲ad
叩 叫 叩
!
と
.
.
.
.
.
…ul(…
ご
:
:
:
1
1
登録が完了すると上記のようなポップアップメニューが出現し、登録完了が確認される。
3
.
サンプルモジュールを登録後に、 E
n
t
e
r
p
r
i
s
eGuide内で、登録をおこなったサンプルモジュールの
P
r
o
g
i
dの指定をおこないます。この P
r
o
g
i
dは開発者がスクリプトコンポーネントを参照するために
使用するテキスト名のため、各クライアントに登録をモジュール開発者以外がおこなう際は、事前に
r
o
g
i
dの情報を得る必要がある。 P
r
o
g
i
dが判明の後、[ツール]メニューの中の[ユーザ
開発者から P
ー設定]を選択し、[アドイン]タブ中の[追加]を選択すると。 P
r
o
g
i
d登録画面が表示される。この
P
r
o
g
i
d登録画面に P
r
o
g
i
dを登録し、 E
n
t
e
r
p
r
i
s
eGuideの再起動をおこなうとメニュー中にアドインの
モジュールのメニューが登録されたのが確認できる。
‑216
臨 画 面 目 ・ 圃E
即時間唱理理麟軽震
i
三l
.
,
:
:
.
.
:
.
.
:
.
.
.
.
千f
」キヰ一
平
日
ニ
i
ツ」j
L
J
1」j主
ン
ド ツ」ル!ショ」卜力引トキー 工テ・ィタキ」 アドイン
士
二
ヘ
i
使用可能なアド目イン:
追加
i
削除
│
I~Sample Means
~Sort
区デ)予のインァ1
T」
ト
五l
ぷ~~~:?.::
回 歯 固 蹴 吉 置 里 里 里 里 里 璽 璽 璽 里 曹 輔 議 長芝'..c""~.;二一
P
r
o
g
r
a
m
m
a
t
i
cI
de
n
t
i
f
i
e
r(
P
r
o
g!
D
)
:
│OK
I
キャンセル
│
注:p
r
o
g
r
a
m
m
a
t
i
ci
d
e
n
t
i
f
i
e
r
(
P
r
o
g
l
D
)はアドイン機能で、カスタムコンポ}ネントをユ二」担識別すると
r
口g
!Dの{直がわからない場合は、 7ドインの著者[二連絡してください。
きに使用されます。 P
I キャンセル j
OK
ヘルブ
│
4
.
再起動後の EnterpriseGuide2.0上には新しいタスクを確認することができ、新しい機能を使うこと
で標準の EnterpriseGuide2.0で、は実現がで、きなかった機能を再現することが可能になる。
E里 町 一 百 一 由 一 時 間 調 議 議 議 議
Jyイ )~{E) .
~議長己
主示
ω 掃一戸、<p 書式 (Q) "y‑;t.Ti
Cl~函属曇(品 ~ex I~--:: 之 i 品輸
ヨ軍 10ジェヲト
一立山一山口町
ヒ1HMEQ
山
一向一一州
均一
一剛十一則的
E 一回同
一﹄
一耐一一げん⁝
キュー7テ
.
̲
担
のf
由出
‑Advanc
回
同町
rAS口1
!
り
ス
ト
要忠明主計量
分布
旬開
一元度蚊表
集計表
表分析
表分析
分散分析
t検定
一元配置分散分析
NO
叩
n
FSwedish
r‑
I
D
e
l
a
u
l
t
ー
ヨ
一一一 「口凶 p
u
td
a
同担トー
;iwD附
ー
っ
聞 塁I i
DRT
,
rRe血 cet町 叩0 '
yd
i
s
ks
同国J
e
q
u
lm
e
n
t
s
r~o'-ceasαt 0
1i
n
d
i
e
田 dd
a
t
ao
ri
ns
a
u
a
t
i
o
n
sw
tr
et
h
es
e
日
但
官
何回
d
居 間s
as目 t
山田自由時
rRunt know
.".
田
円e
v
,酬白血
│
1
一二~
,
z
、 ニ.111 .h+... 二 日 旦 ハ 叫 ハ 企
ρ
rE
8
C
D
I
C
rDanish
rFinnish
i「
一一一一一一
,MemOl)
'
1
四 回t
i
n
g
:
一
一
一
つ
r
.Delauttl
o
rs
e
テーブルの迫力E
S
o
r
tDa
由
記述統計量
三j
‑CoI
凶
,n
Q担 q
u
e
n
c
e
WM
ニJ~
一川一一加抽
n
一問 符 ﹁ ﹁
Q
!
一個一一﹄町小
4F
i
力テヨ'
)
s
I
J
担入。 名前目的,
i
一一一一向山
一川一{叩一時吋山町
ー間四・日間四民~TII副園田園田E告さ
1
.
,
【
Sortモジューノレの操作画面】
2
1
7
・
呈c
3
j
一三巴J
̲c
竺
斗
,
.
,
,
[
0 I
まとめ 本論文では、サンプルアプリケーションを利用しユーザーニーズに合わせたアドインの E n t e r p r i s e o r tプロシジャを実装させたサン G u i d e 2 . 0での実装方法について説明をおこなった。今回は、単純に S プルアプリケーションになったが、開発次第では特定の項目の値を設定することにより元データより 抽出をおこない、その後に定型のレポート処理までを行うモジュールを一つの機能として開発するこ とも可能になる。この機能を利用すると、これまでその作業をおこなうためだけに開発を行い、社内 n t e r p r i s eG u i d e 2 . 0内に吸収をして、同 ‑SASシステムと 業務に特化したアプリケーションなどを E してメンテナンス、運用をおこなうことが可能である。それに伴いもう一つのメリットとして、 SAS の柔軟なデータハンドリング能力やデータ処理/分析能力を、これまでの対象ユーザーで、はなかったユ ーザーにも活用することができるようになっている。 これらの機能はエンドユーザーにも利用可能にはなっているが、実際に活用が想定されるのは SASを ystemI n t e g r a t o r、コンサルティング会社などのソリュ 利用したサービスの提供を検討している、 S ーションプロパイダである。各会社が持っている、業務ノウハウ・コンサルティング力をベースとし た業務に特化したアプリケーションを有効にアドイン機能として提供することによりツールにプラ i s u a lB a s i cやV i s u a lC++などの一般的 ス αされた、サービス提供が考えられる。また開発の際も、 V な開発言語を利用できるため、アプリケーション開発者にもハードルが低く開発をおこなっていただ くことができる。 社サイトで自由にダウンロードが可 また今回、本論文中で利用したサンプルアプリケーションは SAS 能なため、 ー度開発をおこなう前にトライアルとしてダウンロードをして試してみることもできる。 サイトのアドレスは以下のとおり、 h t t p : / / w w w . s a s . c o m / t e c h n o l o g i e s l b i l q u e r y ̲ r e p o r t i n g / g u i d e / c u stomt a s k s .ht m l o o ‑ ‑ ワ ム
日本 SASユ ー ザ ー 会 (SUGI-~) SAS/SHARE サ‑/¥ーアクセスログの分析 中村崇文 SASI n s t i t u t eJapan株式会社 カスタマーサービス本部プロフェッショナルサービス第 1部 A n a l y z i n gt h eAccessLog TakatomoNakamura P r o f e s s i o n a lS e r v i c eDepartment1CustomerS e r v i c e sD i v i s i o n SASI n s t i t u t eJapanL t d . 要旨 クライアン卜/サーバー型の接続におけるサーバー上の SASシステムにおいて、どのユーザ ーがどのデータに、何回アクセスしたのかといった情報を得る一例として、 SAS/SHAREソフトウ ェアによるログを利用する方法がある。本稿では、サンプルプログラム等をまじえながらその実 装方法を紹介する。 キーワード SAS/SHAREソフトウェア SAS/CONNECTソフトウェアアクセスログ 1.はじめに SAS/SHAREソフトウェアは排他制御の機能を提供するもので、サーバー上のデータに対し て一貫した同時更新処理の実現を可能とするプロダクトである。サーバー上にこの SAS/SHAREソフトウェアが導入されていれば、そのログを参照することにより、 SAS/SHAREの 配下にあるデータに対しての複数ユーザーからのアクセス状況を確認、することが可能で、ある。 本稿では次ページに示すようなシステム構成を想定し、 SAS/SHARE ソフトウェアによるログを 外部ファイノレに出力させ、さらに SASが提供するサンプルプログラムを利用してそれを SASデ ータセットイ七し、分析可能な環境を作成する方法を紹介する。 2 .システム構成例と操作手順の概要 本稿では次の【システム構成図】に示すような、ンステム構成を想定する。 ‑ 2 1 9
[システム構成図] 一一一一一 F ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー一一一一一ーー. ーーーーーーーーー <サーバー> 3 3 2 1 1 1 3 1 3 2 3 1 1 ,̲ーーーーーーーーーーーーーー ーーーーーーーーーーーー ーーーーーーーーー ーー クライアントの SAS①からサーバー上の SAS②へ SAS/CONNECTにより接続を行なう。 サーバー上の SASの起動には SPAWNERを使用する (SAS/SHAREのログ取得とは関係 ない)。 サーバー上で、 SAS/SHARE ③を起動する。 なお、今回検証のために使用した環境は以下の通りである。 Windows2000P r o f e s s i o n a l( S P 2 ) 1 R e l e a s e8 . 2(TS2MO) ※サーバーにおいては ! s a s r o o t /s a s j a( ! s a s r o o tは SASのルートディレクトリを指す)を用 いて SASを実行する。なお、本サーバーの ! s a s r o o tは/SAS/SAS̲8.2である。 ※サーバーのホスト名は["j p n1 Jである。 ※接続時のユーザー名は["j p n t c n J、事前にサーバーのホームディレクト!)/ u s e r s / j p n t c n に、分析用データの格納場所として["s l o g d a t a Jを作成済みである。 また、 SAS/SHARE によるログ を取得してデータセットイヒを行なうまで、の手順は以下の通りで、 ある。 ( 1 ) SAS/SHAREの環境設定(サーバー) ( 2 ) SAS/SHAREの起動(③) ( 3 ) SAS/CONNECTを用いてサーバー上の SASを起動(①→②) ( 4 ) SAS/SHAREへの接続(①→②→③) ( 5 ) SAS/SHAREの停止、セッションの終了 (①→②→③) ( 6 ) SAS/SHAREのログファイルのデータセットイヒ (①→②) ハ 川U ワ ω ワ ω
3 . S A S / S H A R Eの環境設定と起動 SAS/SI ‑ IARE起動のための環境設定として、サーバーの OSの S e r v i c e sファイルへの登録が e r v i c e sファイルに以下を追記して、 SAS/SI ‑ IAREサーバー名 必要である。サーバーの OSの S とポート番号、プロトコルを定義する c s h r 5 0 6 0 / t c p #SAS/SHAREサーバー ※SAS/SI ‑ IAREサーバー名 I s h r Jを S e r v i c e sファイルに登録 SAS/SI ‑ IAREサーバーは 1つの SASセッション上で、起動を行なう形となる。以下のコマンドに o gオプションを指定する より、サーバー上の SASを起動する。この SASセッション起動時に、一 l ‑ IAREのログ.を外部ファイルに出力させる。 ことにより、 SAS/SI /SAS/SAS̲8.2/sasjaー l o g/ u s e r s / j p n t c n / s h a r e l . og ※‑ l o gオプションを指定し、ログ?を外部ファイノレ/ u s e r s / j p n t c n /s h a r e. log(ファイル名は 任意)に出力する。 SAS/SI ‑ IAREサーバーを起動するために、上記で起動した SASセッション上で、次の SASプ ログ、ラムをサブ、ミットする。 options comamidニtcp ; 引e ttcpsec=̲secure̲ ; proc server msgnumber server=shr ; r u n, endsas ; 本稿で紹介するような、 SAS が提供するサンプルプログラムを利用してロクーファイルをデータ セット{ヒする際には、ここで PROCステートメントに必ず msgnumberオプションを指定する必要 がある。また、上記のプログPラム 2 行目のように I % l e tt c p s e c =̲ s e c u r e ̲; Jを記述することにより、 SAS/SI ‑ IAREサーバーへの接続時にユーザー認証を行なうことが可能である。認証を取らな l e tt c p s e c =̲ s e c u r e ̲ ;Jを 記 述 せ ず 、 PROC ス テ ー ト メ ン ト に お い て い 場 合 は 、 I% a u t h e n t i c a t e = o p t i o n a lを指定する。なお、デフォルト(記述無し)では a u t h e n t i c a t e = r e q u i r e dと なる。 4 . S A S / S H A R Eサ ー パ ー へ の 接 続 本稿では、 2 .の[システム構成図]で想定しているように、まずクライアントの SAS①から SAS/CONNECTによりサーバー上の SAS②を起動し、さらにこのサーバー上の SASセッション から、同じサーバー内で、起動している SAS/SI ‑ IARE③へと接続を行なう a SAS/CONNECTを使用してサーバー上の SASを起動するには、クライアントの SASで次のよ うなプロクずラムをサブミットする。 2 2 1一
o p t i o n sc o m a m i d = t c pr e m o t e = j p n l; f i l e n a m er l i n kn d :半t e s t半C O N N E C Ts c r半t c p u n i x ̲ s u n 4 5 0 . s c r "; s l g n o n; SAS/SHAREサーバーへの接続は、 LIBNAMEステートメントを使用する。サーバー上の S A S に接続完了後、クライアントの S A Sで、以下のプロク守ラムをサブミットすることで、 SAS/SHAREサー ノくーへの接続が開始される。 r s u b m it; 巴r s / j p n t c n / s h r t e s t l 's e r v 巴r = s h r l i b n a m el i b l ̲ s h r' / u s u s e r = j p n t c np a s s w o r d = X X X X X X; 巴n d r s u b m i t; 巴「ニ j p n l; l i b n a m el i b l ̲ s h rs l i b r e f =l i b l ̲ s h r s e r v なお、 S AS/SHARE サ ー バ ー 起 動 プ ロ グ ラ ム の PROC ステートメントにおいて、 a u t h e n t i c a t e = o p t i o n a lを指定した場合には、 L IBNAMEステートメントにて user=、password=オ プションを指定する必要はない。 5 . S A S / S H A R Eの 終 了 と ロ グ フ ァ イ ル の デ ー タ セ ッ ト 化 SAS/SHAREの終了には OPERATEプロシジャを使用する。次のプログラムをクライアントの S A Sで、サブミットする。 r s u b m it; 巴r v e r = s h ru s e rj p n t c np a s s w o r dニ以X X X; p r o co p e r a t es s t o ps e r v 巴r, 二 r u n, 巴n d r s u b m i t; SAS/SHAREを起動した S A Sセッションの起動時に一l o gオプションで、出力先を指定した外部 ファイルは、この S A Sセツ、ンョンの終了時に作成される。上記のプログ ラムをサブミットすること AS/SHAREが終了し、 SAS/SHAREの起動プログラムの後に記述していた で、サーバー上の S ENDSASステートメントが実行され、 S A Sセッションが終了する o このタイミングで l o gオプション で、指定したディレクトリに s h a r e . l o gとし、うファイルが完成する。これは S AS/SHAREが生成する ログが外部テキストファイルとして出力されたものである。 A Sが提供する分析データ作成用サンプルプログ ラムを使用することに このログファイルを、 S A Sで、次のプロク、、ラムをサブミ よって、分析可能な形のデータセットを作成する。クライアントの S ッ卜する。 ηノμ ηノμ ηノμ
r s u b m i t; f i l e n a m eI N L O G' / u s e r s / j p n t c n / s h a r e . l o g ' jp n t c n / s1 o g d a t a ' 1 i b n a m eS L O G D A T A' / u s e r s/ f i1 e n a m ep g m' / S A S / S A S ̲ 8 .2 / s a m p1 e s i s h a r e ' % i n c l u d ep g m ( s l t o o l m . s a s ); 刻n c l u d ep g m ( s l t o o 1 1 . s a s ); 新n c l u d ep g m ( s l t o o 1 2 . s a s ); / 率 先i n c l u d ep g m ( s l t o o 1 3 . s a s ); 本 / I * % i n c l u d ep g r n ( s l t o o 1 4 . s a s ); 本 / e n d r s u b m i t; l i b n a m eS L O G D A T As l i b r e f = S L O G D A T As e r v 巴r = j p n 1 l i b n a m eS ̲ W O R Ks l i b r e f = W O R Ks e r v e r = j p n 1; 上記プログラムで は s l t o o l m . s a s、s l t o o ll .s a s、s l t o o l 2 . s a sと し 、 う 3つのサンプルプログ ラムを使 P 用しているが、以下にそのサンプルプログ.ラムの内容を記す。 S A S / S A S ̲ 8 .2 /s a m p l e /s h a r e ) 分析データ作成用サンプルプロク守ラム(格納場所/ s l t o o l m . s a s .s a s s l t o o ll クロ変数定義を行なう。 ログの読み込みを行なう。データは WORKに作成される。ロ タの 2倍程度の空き容量が必要である。 s l t o o l 2 . s a s l t o ol .s a s により作られたデータセットを目的別に加工し、 TAライブラリ内に保存する。 s l t o o l 3 . s a s s l t o o l 4 . s a s 上記プロク守ラムの実行により、指定した SLOGDATAライブラリ内に複数のデータセットが作 成される。これらのデータセットについて内容を簡略に説明したものが次ページの表である。 2 2 3
SLOGDATAライブラリに作成されるデータセット CONNINFO CONNSUM (プロシジャ、 DATASTEP、ViewTable Window など)の開始 TASKINFO 了を示す USERID‑TASKNMBRで、ユニークになる TASKSUM ーザー別のタスク(上記 TASKINFOに出力されたもの)の数を示す イブラリの割り当て、解除の時間を示す L 1BINFO Iり当て時 2 オブザベーション、解 ーザーごとライブラリごとに、害J 2オブザベーンョンの計 4オブザベーション ブラリが割り当てられた実際のパスを示す ブラリエンジンの データセットへのアクセスを示す デ?ータセットへのアクセスについては、 i n p u t、o u t p u tモードでは OP と CLOSE の 2 オブザベーション、 update モードでは REOPEN、CLOSEの 3オブザベーション MEMINFO lつのデータセットに対し ViewTableWindowを開いて閉じる処理に いては OPEN、REOPEN、REOPEN、CLOSEの4オブザベーション 変数 USERID‑TASKNMBR‑SL lBREF‑MEMNAME でユニークにな め、ここからデータセットへのアクセスの回数、アクセスしていた時 めることができる OCMDINFO OPERATEプロシジャの実行を示す SERVINFO HAREサーバーの起動と停止の時間を示す また、 SAS/SHARE が生成するログの内容と、データセットへの出力は以下のようなイメージ となる。 例 l TRANSPOSEプロシジャの実行 H 汗 F向 1 7 F E B 2 0 0 3 : 1 7 : 5 4 : 1 8 . 5 2 10 4 3 1 0 0S H R T E S T . A S S O C ̲ J . D A T A (1 )o p e n e df o ri n p u t / Sv i a e n g i n eV 8b y" T R A N S P O S E " ( 8 )o fu s e rj p n t c n (1 ) . 1 7 F E B 2 0 0 3 : 1 7 : 5 4 : 1 8 . 9 4 50 4 3 1 0 2S H R T E ST .A S S O C ̲ J . D A T A ( 1 )c l o s e db y 1 " T R A N S P O S E "( 日 )o fu s e rj p n t c n (1 ) . J } → • M叩 恥 MEMINFOへ l 1 tE B i o o a討会S 4 : 1 . g i o i a i u 4 3 . 1 . 4 4民自( i p n t c n ( J Jh a st~nnina.te(r , ; t I I A N S P O S E . . ( i l } . . . . .l ト一一̲̲̲.TASK1NFOベ : f l i r i d e 、 ' r" P r ∞r a m " tt)); 円ノ臼 ・ A4 η4
例 2 ViewTableWindowのオーブeン、クローズ
1
7
F
臼2
0
0
3
:
1
7
:
5
4
:
3
5
.
8
8
60
4
3
1
43
.U
s
e
ri
p
n
t
c
r
i
(分 h
a
se
r
e
a
t
e
d吋 i
旬T
a
b
l
e
之、官i
nゐ
よいの u
l
[
d
e
r~'bfoîs P
/
o
ω
5
s
'
(
4
)
;
.TA$ßì~Qぷ
}
1
7
F
E
B
2
0
0
3
:
1
7
:
5
4
:
3
5
.
9
2
20
4
3
1
0
0S
H
R
T
E
ST
.A
S
S
O
C
̲
J
.
D
A
T
A
(1
)o
p
e
n
e
df
o
ri
n
p
u
t
/
2v
i
ai
e
w
T
a
b
l
eW
i
n
d
o
w
"
(
1
0
)o
fu
s
e
r
e
n
g
i
n
eV
8b
y吋 i
)..一一一砂 MEMINFOへ
j
p
n
t
c
n
(
l
)
.
I
.A
S
S
O
C
̲
J
.
D
A
T
A
(
l
)r
e
o
p
e
n
e
df
o
ri
n
p
u
t
/
Rbyi
1
7
F
E
B
2
0
0
3
:
1
7
:
5
4
:
3
5
.
9
4
40
4
3
1
0
1S
H
R
T
E
ST
ト一一一令 MEMINFOへ
"
V
i
e
w
T
a
b
l
eW
i
n
d
o
w
"
(
1
0
)o
fu
s
e
rj
p
n
t
c
n
(
l
)
.
I
1
7
F
E
B
2
0
0
3
:
1
7・5
4
:
3
6
.
0
5
2
0
4
3
1
0
1S
H
R
T
E
ST
.A
S
S
O
C
̲
J
.
D
A
T
A
(
l
)r
e
o
p
e
n
e
df
o
ri
n
p
u
t
/
Rbyi
十
一一一"'MEMINFO
へ
I一
•
"
V
i
e
w
T
a
b
l
eW
i
n
d
o
w
ぺ10)ofuserjpntcn(l).
1
7
F
E
B
2
0
0
3
:
1
7
:
5
4
:
4
0
.
5
0
50
4
3
1
0
2S
H
R
T
E
S
T
.
A
S
S
O
C
̲
J
.
D
A
T
A
(
l
)c
l
o
s
e
db
y"
V
i
e
w
T
a
b
l
ei
W
in
d
o
w
ぺ1
0
)o
fu
s
e
rj
p
n
t
c
n
(
l
)
.
市Ë_Eí2QQS,;す通4i~6;S5i:.04百貨制Si!fjゐ悩むlh~手伝f布1i1~t!Îd r
Q
!
削
,t
a
I
J
iき
ト
r一一一一砂MEMINFOへ
1
: 明 川 悦 山 仏 川
6
.デ ー タ 加 工 プ ロ グ ラ ム 例
ここでは、 SLOGDATAライブラリ内に作成されたデータセット TASKINFO、MEMINFOから、
それぞれ処理に要した時間、データセットへのアクセス時間を算出するプロク、、ラムの例を紹介
する。クライアントの SASで、以下のプロクーラムをサフaミットする o
r
s
u
b
m
i
t;
/木材料仲林タスクの処理時間判材料紳*/
j
材料タスクごとにコ二日クになるよう 1
:
:並べ脅え材料/
p
r
o
cs
o
r
tdata~SL(お DATA.TASKINFO o
u
tニW
O
R
K
.
S
̲
T
A
S
K
I
N
F
O;
b
yU
S
E
R
I
DT
A
S
K
N
M
B
R ;
r
u
n,
/材料タスク処理時間者:計算竹林/
d
a
t
aW
O
R
K
.
T
̲
T
A
S
K
I
N
F
O;
s
e
tW
O
R
K
.
S
̲
T
A
S
K
I
N
F
O;
b
y U
S
E
R
I
DT
A
S
K
N
M
B
R;
f
o
r
m
a
tT
A
S
K
T
I
M
Eb附 1
3
.
2;
r
e
t
a
i
nS
T
A
R
TE
N
D;
d
r
o
pS
T
A
R
TE
N
D;
i
ff
i
r
s
t
.
T
A
S
K
N
M
B
Rt
h
e
n
d
o;
START~DTSTAMP ;
E
N
D ~DTSTAMP ;
e
n
d
e
l
s
e
d
o
T
A
R
T
二D
T
S
T
A
M
P;
i
fS
T
A
R
T
>
D
T
S
T
A
M
Pt
h巴nS
i
fE
N
D <
D
T
S
T
A
M
Pt
h
e
nE
N
D ~DTSTAMP ;
e
n
d,
i
fl
a
s
t
.
T
A
S
K
N
M
B
Rt
h
e
n
‑225‑
d o; T A S K T I M E = E N D ‑ S T A R T ;ト !t タスク処理にかかった時間を計算キ/ o u t p u t; 巴n d; r u n, /*料材料材デ タセットへのアクセス時間材料材料*/ /料糾データセ、y トの o p e n ‑ c l o s eでコー クになるように並べ替え紳材f p r o cs o r td a t a 二S U 苅D A T A . M E M I N F Oo u t = W O R K . S ̲ M E M I N F O; b yU S E R I DT A S K N M B RS L I B R E FM E M N A M E; r u n, /材料デ タヤットへのアクセス時悶 ( A C C E S S T I M E )を計算本料*/ d a t aW O R K . TM 四I N F O; s e tW O R K . S ̲ M凹 I N F O; RS L I B R E FM E M N A M E; b yU S E R I DT A S K附 B f o r m a tA C C E S S T I M Et i m e 1 3 . 2; r e t a i nS T A R TE N D; d r o pS T A R TE N D; i ff i r s t . M E M N A M Et h e n d o; S T A R T = D T S T A M P; E N D ニD T S T 州P 巴n d; 巴l s 巴 d o; i fS T A R T > D T S T A M Pt h e nS T A R T ニD T S T A M P; i fE N D< D T S T A M Pt h e nE N D= D T S T 州 P; e n d, i f1 a s t .M E 州A M Et h e n d o; A C C E S S T I M EE N D ‑ S T A R T ; /*←ァータセットへのアクセス時聞を計算*/ o u t p u t; 巴n d; r u n, 二 /ホ材料変数 T A S K T H ' l E、A C C E S S T I M Eを含むデータセット作成*材料/ d a t a附 R K .T I M E; k e e pU S E R I DT A S K N A M ES L I B R E FM E M N A M ED T S T A M PA C C E S S T I阿ET A S K T I阿E m e r g eW O R K . T ̲ T A S K I N F OW O R K . T 一問問 I N F O( IN ニdr e n a m e = ( D T S T A M P = D T S T A M P 1 ) ) b yU S E R I DT A S K N M B R; i fd; r u n, /材時間 1 聞に l j P.ベ替え柑/ p r o cs o r td a t a = W O R K . T I M Eo u t = 附R K .T I M E l; b yD T S T A M P; r u n, 巴n d r s u b m i t; U ρhu ワム ム つ
7 .参 考 (1)ログ上の UserI Dとユーザーのアクセス権限 サーバー上の SASセッション②を起動したユーザーと、その SASセッションから SAS/SHARE サーノ〈ーに対しライブ、ラリを割り当てたユーザーが異なる場合のログ 上の UserIDは、前者とな る。ただし書き込み、読み込み権限は後者のものとなる。 u s e r l・・・読み込み、書き込み権限あり u s e r 2 . ..読み込み、書き込み権限なし SASセッション起動者 ライブラリ割り当て データ参照 u s e r l データ作成 ロク寺内 UserI D l i b n a m eステートメント内のユーザー名 ライブラリ害刊当て データ参照 u s e r 2 データ作成 ログ内 UserI D 。 。 。 。 。 。 。 。 u s e r l u s e r 2 u s e r l u s e r 2 × × × × u s e r l u s e r 2 ( 2 )SAS/SHAREを Windowsサーバー上で、起動する際の権限設定 sがWindows2000(もしくはWindowsNT)の場合には、サーバー側で、以下の方 サーバーの o 法により権限設定を行なう必要がある。 →「セキュリティの設定」→「ローカルポリシー」 「管理ツール」→「ローカルセキュリティポリ、ンー J →「ユーザー権利の割り当て」を聞き、 「オペレーティングヘンステムの一部として機能 Jにて、 SHAREサーバーを起動するユーザ ーに対して権限を付与する。 「パッチジョブとしてログ オン Jにて、 r A u t h e n t i c a t e dU s e r s J、ログオンするユーザーに権 限を付与する。 8 .おわりに 以上、本稿では SAS/SHAREのログをもとに分析用のデータセットを作成するプロセスをサン プルのプロク守ラムと共に紹介した。既に SAS/SHAREソフトウェアを導入済みで、かつサーバー 上のデータに対するアクセス状況を把握したい場合には、是非とも参考にしていただきたい。 参考文献 SAS/SHAREU s e r ' sGuide, Version8 " P87~ AnalyzingtheServerLog 円ノ臼 ワi つん 白
日本 S A Sユーザー会 (SUG I-~) 簡易運用入門 弘田貴 カスタマーサービス本部 SASI n s t i t u t eJapan 株式会社 Simpleguidetoemployment T a k a s h iH i r o t a CustomerS e r v i c eD i v i s i o n, SASI n s t i t u t eJapan,L t d . 要旨 SAS E n t e r p r i s eGuideや 、 SAS E n t e r p r i s eMiner等使用する際、元データの整備は不可欠 である。非定型な利用で都度作成するデータであれば、特に考慮する必要はなし、ものの、日 単位、月単位で、定期的にレポート等作成する処理を考慮した上で、データ整備の為の運用 を実施する際の注意点をまとめたものである。 キーワード: 運用、環境構築 はじめに SAS E n t e r p r i s eGuideや 、 SAS E n t e r p r i s eMiner等を使用する際、使用者は、使用する環境 や、データの規模(大きいのか、小さいのか)を意識する事無く使用しがちで、結果、使用環境の 許容範囲を越えるデータを処理しようとして環境を停止させたり、ネットワークに負荷をかけて、処 理時間が予想、に反したりすることがある。このような場合、使用者及び利用促進者には、予め使用 するデータの規模や構造を意識したデータ加工プロセスが必要になることを、再認識していただく ことをお勧する。ここでは、パッチモードによるデータ加工プロセスに着目して、最低限、運用する際 の注意点、整備すべき資料を紹介する。 ハ u d qL qL
処理の流れを決める デ、ータ加工プロセスを考える際に、最初に考えることは、大まかな処理の流れとなる。大まかな 流れとして、元となるデータから、データ加工プロセスを経て、最終的な目的のデータを生成する ことを想定する。 データ加工プロセス 図1 . 次に、元となるデータの種類、データ加工プロセス内の処理、目的のデータの種類へ落とし込 んでして。 元となるデータ SASシステム データ加工プロセス 目的のデータ 図2 . 元となるデータの A, B, C はそれぞれ、異なる形式で任意の場所に保管されている。データ加工 プロセスで、は、それぞれのデータを SASシステム内に取り込む為に、読み込み処理 A, B, Cを実施 する。データ A lを更に、任意のキーで集約した結果 A2を作成する。また、データ A l, B , lC lを 、 2を作成する。 任意のキーで結合した結果 C B, Cは 、 次に、データ加工プロセス内の処理における確認項目に着目して考える。読み込み A, 元となるデータ A, B, C無くしては、正常に SASシステム上のデータ A l, B l, C lを作成できない。 l, B l,Clが生成できていない場合には、同様に正常処理が実施で また、処理終了時に、データ A B, Cでは、起動時には元となるデータ A, B, C、 きていないことになる。したがって、処理:読み込み A, 処理終了時にはデータ A l, B l, Clの存在確認が必要となる。集計処理、結合処理においても同様 に、確認項目を予め想定しておくと表 1となる。 2 3 0一
処理名 入力確認対象 出力確認対象 読み込み A 元データ A 先行の処理 処理1 I 頂 備考 データ A 1 ① ①②.③は、 読み込み B 元データ B データ B 1 ② 並夢J I実行でも可 読み込み C 元データ C データ C 1 ③ 集約処理 データ A 1 データ A 2 結合処理 2 1,B 1,C 1 データ C データ A 読み込み A 読み込みA, B , C ④ ⑤ L̲ 表1 . 処理が正常に終了したのか、異常終了なのかの判定確認項目を予めまとめておくことをお勧め する。これは、次に説明する障害発生時の対応に大きく影響する。 障害対応 障害対応とは、処理が異常終了した際における、処理を正常に戻す為の対応処理を意図する。 異常終了の定義は、様々な事象を想定して考慮する必要があるが、先の表 1での入力確認対象 及び出力確認対象となっているデータが存在しない場合に異常終了とまず定義する。 次に、出力確認、対象のデータは確認でき、正常に終了したかに見えるが、プログFラムの途中で、 エラーとなり、新しいデータが更新されていない。但し、過去に正常に作成されたデータが残った 状態で、出力確認時には、正常と判断されてしまうような場合は、第 1 1こプロク、.ラムが正常に実施 されているかを確認する必要がある。第 2に表 1のデータ有無確認を有効にする為、過去に作成 したデータを予め削除しておく、または、確認対象のデータ名に予め 年月日"とし、う情報を付加 して、確認、時に年月日を意識する等の配慮、が必要となる。また、作成するデータが累積型となる 場合、予め対象データのバックアップ、障害回復時にリストア、再実行とし、う流れも予め想定して おく事をお勧めする。 環境構築の為の準備 次に、環境構築の前段階として、以下の考慮点をあげる 0 .ハードウェア環境 ・ソフトウェア環境 ハードウェア環境 ハードウェア環境を検討する際、以下の資料を予めまとめておくと、後々の管理がし易くなる .リソース一覧 ・メモリ容量算出一覧 0 ぺU n nノ臼 ー よ
リソース一覧 ハードウェア環境を検討する場合、デ.イスク容量の算出は欠かせないものである。最低限、以下 の項目に関しては、予め想定し一覧表を作成しておくことをお勧めする。その際、容量に関しては、 今後の拡張性を含めて任意係数を掛けて算出しておく事が望ましい。それは、システム稼動して、 数ヶ月経過後に、デ.イスク容量が足らなくなった為、処理が停止するようなことは絶対に避けなけ ればなら無い為である。その時点で、プログラム改修や、ディスク増設する場合と、予め任意係数 を掛けた値で、ある程度余裕を持ってディスクを確保してしも場合とで、は、投資費用面でかなりの 差が生まれることは言うまでもない。 フォルダ/ ディレクトリ名 リソース名 ファイ l レ 名 C :干L O W C :干LOW O W C :干L C :' 1S A ST M P A (苅) B (苅) C (苅) Al(中間) C :' 1S A ST M P B l (中間) A ST M P C :干S C l (中間) C :' 1S A ST E S T l A2 C :' 1S A ST E S T Z C2 A.txt B . c s v C . D A T A l bd a t . s a s7 B l bd a t . s a s7 C l . s a s7 bd a t A2 bdat . s a s7 C2 bdat . s a s7 レコード 長 ( B Y T E ) 件数/日 (最大値) 容量 (問) 保存 期間 (月) 想定容量 ( M B ) x1 .5 C :' 1S A S W O R K 表2 . 注意すべきは、データの洗い替え(上書き)とする場合、対象データと新規データ分で、想定容 量は、 2倍以上を確保すること。また、 SASWORKライブラリは、処理用途に合せて 3倍から 5倍 以土確保すること。尚、 SASデータセットは、 compressオプションを使用してデータセットを圧縮して 使用することが可能なことは予め、押さえておく必要がある。 メモリ容量算出一覧 メモリ容量算出では、使用するアプリケーション(サーバ含む)の必須メモリを予め、一覧化し管 理しておくと、新規で、ハード、ウェアを購入する際および、現行ハードウェアでシステムが正常に稼動 できるか否かを計る資料となる。以下の資料は、 SASシステムにのみ着目した必須メモリ容量となる が、他社 DsMSや WEsサーバ、運用管理ツール、パックアップツール等、常時稼動するアプリケー ションに関しての必須メモリは、同様に一覧に記載しておくと良い。 ηJ ηL ηL
また、 WEBによる照会システムや、クライアント・サーバ環境において多数のユーザが、同時に 1つのサーバ機に処理を集中させるようなシステム構成の場合には、 1ユーザにおけるサーバ機の 必須メモリ容量を予め想定し、最大同時アクセス数と掛け合わした値分の容量を確保することが重 要である。 ( A Pサーバ用) 3 2 M Bx5(最大起動数) S A S j S 臥R Eソフトウェアサーバ稼動 S A Sシステム稼動用 阻 Bシステム 小計 表3 . ソフトウェア環境 想定しうるソフトウェア全てのバージョン及ひ、対応するオペレーションシステム(以降 OSと略す) を管理する。 SASシステムにいたっては、システムのバージョン、 TSレベル、 HOTFIX等のパッチ 情報、プロダクト構成等を、予め控えておくと、後々 OSや SASシステムを含む他ソフトウェアのパ ージョンアップ時に効果を発揮する。 実装編 SASプログラムの作成 ここでは、具体的な SASプログラムを記さず、パッチモード‑における注意点を記す。 パッチモードで、の SASシステムの利用は、以下のように、作成した SASプログ、ラムをコマンド、とし て実行する。これにより、対話型ラインモードとは異なり、夜間等のパッチ実行が可能になる。 ※ Windows環境上で、実施した場合のコマンド、例 c :干s a s ¥ ! n l s干j a ¥ ! s a s . e x e ‑ s y s i n 読み込み A . s a s "‑ l o gc :¥ l o g ¥ !読み込み A. lo g " 上記のように、実施する処理のプログラムを登録し、 SASシステムの実行 LOGを別途出力指示 しておくと、処理中にエラーが発生した際、 " C :干l o g¥読み込み A . l o g "とし、う名称で、実行 LOGが出 力される為、原因究明を実施する際、便利である。 パッチモードで、 SASシステムを使用する場合の注意点は、実行する SASプログラムが終了した 時点で、 SASWORKライブラリ上で作成したデークが削除されるとし、う、特性をもつことである。 2 3 3
障害発生の確認、対象となっているデータが、 WORKライブラリで処理するようなプログラムは、固定 のユーザライブラリで一時作成するように変更することが必要となる。 処理の実行 図2の処理を、実際に実行してみよう。表 1 を参考にして、各処理を順番に実行する。 t e st .b a t "を作成する。 以下のように、順番に処理が実行されるように、新たにパッチファイノレ" C :¥t e s t . b a t c:半 sas~nls革ja~sas.exe -sysin “読み込みA. sas" 一log “ c:半log~読み込みA. log" c:¥ sas~nls現ja~sas.exe -sysin “読み込み B.sas" ー log “ c:¥ log~読み込み B.log" c:¥ sas¥ nls現ja~sas.exe -sysin “読み込み C泊 s" 一 log “ c:¥ log~読み込み C.log" c:半 sas~nls高ja~sas.exe -sysin “集計.sas" 一log “ c:半 log~集計.Iog" c:¥ sas¥ nls~ja~sas.exe -sysin “結合泊 s" 一 log “ c:¥ log~結合 .Iog" Windowsのコマンドにて以下を実行する。 c : ¥t e s t . b a t また、以下のように Windowsのショートカット機能を使って、処理毎に実行してして方法、及び、 上記のパッチ処理をシュートカットとしてリンク先に登録することで、手動での実行が可能となる。 . 図3 ‑ 2 3 4
スケジューラソフトを使う 日次処理や、月次処理とし、ったバッチ処理を自動運用したい場合、先に紹介したパッチモード による実行コマンド、をスケジューラソフト等に登録する場合と、障害発生時のエラーハンドリンク守を 考慮した、パッチプロク、、ラムをスケジューラソフト等に登録する場合とがある。障害対応等を考慮す ると後者をお勧めする。スケジューラソフトは、 Windowsの ATコマンド、の使用でもスケジュール登 L 録は可能だが、万人が使用し分かりゃすいものを選択したほうが管理しやすいと言える。 サンプルとして、エラーハンド、リングを考慮、した図 2の処理:読み込み A を対象に、 WindowsNT 上での Microsoft‑DOSで作成したサンプルを記す。尚、 UNIX環境では、シェル等で、同様に作成 し、スケジューラへ登録する。 サンプルでの SASプログ ラムのエラーハンドリング、は、 SAS実行 LOGより、 ERROR"としづ文字 列が先頭に存在するか否か、 ERROR"とし、う文字列が存在するか否かの 2点で確認を実施して いる。共通定義や、固有定義は、別途パッチファイルを分けて行っても良い。また、処理の実施時 間が把握できるように、時間としづ概念を加えても良い。このサンプルでは、メッセージを表示する 形式を採用しているが、パッチ用の LOGファイルに書き出して管理する形式に変更したり、実施 年月日時分の情報をファイル名に付加し、任意期間を持って削除してし、くように変更すると尚良い。 WindowsNT:M i c r o s o f t ーDOSプログラムサンプル TESTAbat‑ 一一一一一一一一一 一一一一一一一 @echo0仔 Rem Rem 共通定義 Rem一一一一ー一一一 s e tSASEXE=c:半ProgramF i l e s¥s a s半n l s笥a ¥s a s . e x e s e tSASWORK=c:¥saswork e s t 半l o g ¥t e s t ̲ a . l o g s e tSASLOG=c:半t Rem 一一一一一一 一一一一一一一 一一一 Rem 定義 Rem一一一一一一一一一一一一一一一一一一一一一一 s e tSASPGMニC :¥TEST半READA .s a s s e tI N F I L E = C :¥LOW ¥ A .t x t :¥SASTMP¥A1 .s a s7 b d a t s e tOUTFILE二 C Fhu べU n ︒ っ
Rem Rem 入力ファイルチェック Rem一一一一一一一一一一一一一一一ー 一一一一 i fnote x i s t%IN円LE%gotoINFILE̲ERROR Rem‑一一一一一一一一一一一一一一一一一一一一一一一一 Rem SASプログラム実行チェック Rem w見SASEXE%‑sysin"%SASPGM%"‑work"%SASWORK%"‑Iog"%SASLOG%"‑icon‑nosplash s t a r tI f i n d s t r1 8"ERROR"%SASLOG弛>nul i fnote r r o r l e v e l1gotoSASERR 二ERROR= 1 " 同 SASLOG%>n u l f i n d ' i fn o te r r o r l e v e l1gotoSASERR Rem一一一一一一一一一一一一一一一一一一一一一一 Rem 出力ファイルチェック Rem i fnote x i s t%OUTFILE%gotoOUTFILE̲ERROR gotoNORMAL Rem Rem エラー処理 Rem一一一一一一一一一一ー 一一一一一一一一一 : I N F I L EERROR echoINPUTFILENOTFOUND:%INFILE% gotoERROR :SASERR echoSAS8ATCHNG:%SASPGM% gotoERROR :OUTFILEERROR echoOUTPUTFILENOTFOUND:%OUTFILE gotoERROR n/μ ハ h u ︿ nu
:ERROR echoERROREND g o t oEND :NORMAL echoNORMALEND :END * *EndofTESTA.bat* * echo ワ ム ワ i qd
日本 SASユーザー会 (SUG1‑0) MEANS, TABULATE, DATASETSプロシジャの機能紹介 渋谷佳枝・ O櫓皮孝史・迫田奈緒子 SASI n s t i t u t eJapan株式会社 カスタマーサービス本部プロフェッショナルサービス第 1部 Us e f u lF u n c t i o n so f MEANS, TABULATE, DATASETSProcedure Y o s h i eShibuyaf f a k a f u m iHiwada/NoakoSakota P r o f e s s i o n a lS e r v i c eNolDepartment J SASI n s t i t u t eJapanL t d . 要旨 本稿では V e r s i o n 6 から V e r s i o n 8 へのパージョンアップに伴い MEANS, TABULATE, DATASETS のそれぞれのプロシジャに追加されたオプションの中 から便利だと思われるもの、上記のプロシジャの便利な使い方などを紹介する。これらの 機能紹介がエンドユーザの利便性の向上に繋がれば幸いである。 MEANS, TABULATE, DATASETS キーワード: オプション、欠損値、一貫性制約 はじめに SASシステムは、 V e r s i o n 6から V e r s i o n 8へのパージョンアップにより様々な機能拡張 が行われた。 ODSに代表されるビジュアル面での向上や配信機能、 DCOMや CORBAと いった分散オブジェクトの準拠をはじめとしたよりオープンな環境での利用など、非常に 多岐に渡り利便性の向上が図られている。また、新たなプロシジャの追加やオプションの 追加など SAS言語に対しても多くの拡張が行われている。そこで本稿ではエンドユーザの 、TABULATE、DATASETSのそれぞれのプロシジャにおける拡 利用頻度が高い MEANS 張点と便利な使い方を紹介する。 1 . MEANSプロシジヤ nud n︿ u nノ臼
最初に MEANSプロシジャの拡張点と便利な使い方について説明する。 MEANSプロシ ジャは要約統計量を算出する際に非常に便利なプロシジャであり、数多くある SASのプロ シジャの中でも比較的使用頻度が高いプロシジャであると思われる。 なお、ここで説明しているオプション等については SUMMARYプロシジヤでも同様に使 用することが可能となっている。 1 . 1新 kに出力可能な経計量 以下の統計量が新たに MEANSプロシジャで出力することが可能になった。これにより n i v a r i a t eプロシジャで出力していた Medianなどの統計量も Meansで出力す これまで U ることが可能となる。 MEDIAN(中央値) P1( 1パーセント,的 P5(5パーセント点) P10(10パーセント点) P90(90パーセント点) P95(95パーセント点) Q1(25パーセント点) Q3(75パーセント点j QRANGE(Q1と Q3との差異) 1. 2Autoname.Autolabelオプション 次に、便利なオプションとして Autoname、A u t o l a b e lオプションを紹介する。これらは 統計量をデータセットに出力する際に非常に便利なオプションとなっている。 Autonameオプションは、 Outputステートメントで出力する統計量の変数名を明示的に 指定していない時、自動的に変数名を作成し出力する。自動的に作成される変数名は、「分 r i a g eに対して平均 (mean)、中央値 ( m e d i a n ) 析変数名+統計量」で作成される。例えば、変数 U を出力する場合、 Autonameオプションを使用すると、出力される変数は rUriage̲Meanj、 rUriage̲Medianj という変数名で作成される。 A u t o l a b e lオプションは、 Autonameオプションと同様に Outputステートメントで出力 する変数のラベルを自動的に作成する。ラベル名は、「分析変数のラベル+統計量」となり、 r i a g e (ラ また、分析変数にラベルがない場合は「分析変数名+統計量」となる。例えば、変数 U ベル「売上 j)に対して平均 (mean)、中央値 ( m e d i a n )を出力する場合、 A u t o l a b e lオプショ ンを使用すると、出力される変数のラベルは「売上̲Meanj、「売上 Medianj というラベ ルで作成される。 これまで 2つ以上の分析変数を対象に複数の統計量を出力する場合、出力する変数名を 指定しないと、全ての統計量を出力することができなかった。そのため、分析変数と統計 量が数多くなればなるほど、記述する変数名の数も増加してしまう。しかしながら、 Auωname オプションを使用すると、変数名を自動的に作成してくれるため、そういった ‑240
変数名の記述という煩雑な作業を軽減することが出来る。以下は変数名を指定した場合と Autonameオプションを使用した場合のプログラムの比較である(アウトプットの結果は同 じ)。出力する変数が増えるにしたがい、 Autonameオプションを使用する事でよりプログ ラムの効率化が図れると思われる。 P R O CM E A N SD A T A=d e m o . b e n t oN W A YN O P R I N T ; V A Rp o i n tn e d a nt o t a l; C L A S Ss h o p; /本変数名を指定した Outputステートメント本/ O U T P U TO U T=s u m r r 阻r y 1M E A N=h e i k i n 1h e i k i n 2h e i k i n 3M E D I A N=c h u o 1c h u o 2c h u o 3; 本 /A u t o n a m eオプションを使用した O u t p u tステートメント本/ O U T P U TO U T=s u m m a r y 2M E A N =M E D I A N=IA U T O N A M E; R U N; しかしながら、分析変数にラベルが貼付されている場合、上記のプログラムにより作成 されたデータセットに出力された統計量には、分析変数のラベルがそのまま適用されるた め、同じラベルの変数が複数作成されてしまう。これではどれがどの変数のどの統計量を 出力したものか一見しただけでは理解しずらし、。また、 Meansプロシジャ中で新たに作成さ れる変数に対してラベルをつけようとしても Warningが表示されてしまう。 4 日9 8 1 7 . 9 0 2 0 9 7 9 9 0 0 8 6 0 8 6 0 8 9 0 7 3 このような場合に、 Autolabelオプションは非常に便利なオプションとなってくる。 Output ステートメントの最後に fAutolabelJ と付け加えるだけで、自動的に重複する事のないラ ベル名を作成し、以下のような理解しやすいデータを作成することが可能となる。 5 I7 3 . 8 1 8 1 8 1 8 1 8 4 0 9 8 1 7 . 9 0 2 0 9 7 9 1 . 3CLASSDATAオプシヨン ‑241‑ 7 3 4 4 5 日 目 。
次に Version8から新たに追加された CLASSDATAオプションについて説明する。 CLASSDATA オプションを使用すると、元データの分類変数に存在しない値でも CLASSDATAで指定した データに存在していれば、回ANSプロシジャの出力結果には CLASSDATAでの分類変数での処 理結果が出力されるようになる。以下の例を参考にしていただきたい。 データ rgenderJ に対して変数「性別」の件数の集計を行いたい。しかしながら、結果に 不明」以外に O件の「男性」という値も出力したい。通常、このデータを Means は、「女性 Jr プロシジャで処理した場合、男性という値は性別に入っていないため出力されない。 ー r genderj i憎 q........1 掛 町 j γ? な i 女性 γ二 : 2 I 不 日 月 P R O CM E A N SD A T A=g e n d e rN W A YN O P R I N T; C L A S Ss e x; O U T P U TO U T= r e s u l t 2 ( D R O P 二 一t y p e ̲̲ f r e q ̲ )N= k e n s u; R U N; しかしながら、出力したい分類変数の値を格納したデータ(下図 rseXJ )を作成し、そのデ ータを CLASSDATAオプションで指定することにより、任意の値を出力することが可能とな る 。 ー P R O CM E A N SD A T A= s 叫 ぬu N W A YN O P R I N TI C L A S S D A T A = 似 IO R D E R=f問 C L A S Ss e x; e s u l t ( D R O P ニ t y p e ̲̲ f r e q ̲ ) N=k e n s u; O U T P U TO U T=r R U N; また、上記のプログラムでは ORDER オプションも指定している。 ORDER オプションも Version8 から追加されたオプションで、出力されるデータの出力順を指定することが出来 る(上記のプログラムでは、出力は件数の多い順)。他にも分類変数の組み合わせを制御す る TYPESステートメントや分類変数の組み合わせの数を制御する WAYステートメントなど の便利なステートメントも新たに追加された。紙面の都合上、ここでは省略させていただ くが、 TYPESステートメントや WAYステートメントの詳細やそれ以外の拡張点についてはオ ンラインヘルプ等を参考にしていただきたい。 2 . TABULATEプロシジャ 次に TABULATEプロシジヤを用い集計表を作成する場合のデータに含まれる欠損値の ワ ム ︼ A任 ワ ム ︼
取扱について説明する。変数内の欠損値がどのようにアウトプットに影響するかは、 T a b u l a t eプロシジャ内でどのように変数を使用するかに影響される。下記の表は T a b u l a t 息 プロシジャがどのように欠損値を取り扱うかについて記している . ‑ 一 一 一 一 ー デフォルトの扱い 表示を変更するには 1.分類変数に欠損値が テーブルより除外する 含まれる場合 2 . 特定のセルに該当す ( Nと NMISS以外の) るオプザベーションの すべての統計量において 分析変数がすべて欠損 欠損値が表示される TABULATEステートメント、もしく は C LASS ス テ ー ト メ ン ト に て MISSINGを指定 TABLE ス テ ー ト メ ン ト に て MISSTEXT=を指定 値の場合 3 . 特定の水準のデータ 結果テープワレに水準が表 が存在しない場合 示されない TABULATE ス テ ー ト メ ン ト に て CLASSDATA=を指定 下記で、オプションの有無によってどのように欠損値が取り扱われるかを詳しく説明する。 欠損値がないデータにて出力される結果は以下のようになる。 一 一 一 一 一 ‑O‑ ‑‑ o5 ‑‑ oE ‑・ O ‑O ・B ・a‑ 一 1 5‑一o 日 ‑E‑o‑0 ‑D E So ‑‑ Oo oE・O 一 7‑ ‑8 5‑ 1 o‑ 2・ ・4‑2‑5 ・3‑5 ・ 2‑ 0 ・B 5 8‑ 一 1 s ・3 一1 ・3 ・4 ・7 一 5 一‑‑ ‑M‑‑ xm‑‑‑‑‑‑‑‑ e 一i ‑ loi ‑ ‑oj i・O lEi i‑ ‑‑ S ‑5 o‑‑ OE ‑l o‑ ‑ 一 ‑B ‑ 1‑‑ E0 ‑B ‑D l ‑B E‑o o ‑日E‑‑ ‑ 一 日 一 目 一 1‑1 ・ 2‑ ‑2 9‑ ・4 ・ 5 5 l‑E 2‑2 8‑ ‑7 2‑一S 2E ‑FF 一 1 ↓l+│+i lil18111ll ↓l+!?i ↓1171++‑ R U N; 一一加一加一畑一加一畑一加一加一加一加一加一加一 M T A B L E Sa g e牢 ( h e i g h t牢 s u mw e i g h t牢 s u m ), s e x; t ‑h t‑ ‑h t‑ ‑h t‑h t‑t ‑t ‑t ‑t m t ‑t 一 ‑‑h ‑ ‑t h‑ h h g ‑z ‑g ‑z‑ ‑g‑ ‑h g‑ ‑h z‑ ‑h g‑ ‑h g‑ g ‑ g‑ FE V A Rh e i g h tw e i g h t; Flelay‑el+lAVl+│+l+│+lal マ +│+l C L A S Sa g es e x; 一h 一 駐 一 抱 一 鮎 一 陶 一 恥 一 h 一 駐 一 陶 一 恥 一 h 一 h l↓1 1 f } l l l 1 1 1 一 ↓11114 ↓I ↓1Illl ↓1Ilil ↓11111 P R O CT A B U L A T ED A T A= c l a s s; ‑e ‑ ・ ‑1 21‑‑31‑‑41‑‑s1‑ 8 ‑g A ‑1‑ [オプションなしの場合] 2 . 1分類変教に欠損値が含まれる場合 分類変数に欠損値が含まれる場合、その値は出力より除外される。欠損値を一つの水準 として集計を行いたい場合は M ISSINGオプションを指定する。このオプションを指定す る事により、欠損値が一つの水準として扱われ、集計結果に反映される。 例)年齢が不明な人を有効な水準として集計する場合 Aωa ηJ ワ ム
一 M‑ qM‑ ‑F‑ x ‑│‑ e‑ + l [MISSINGオプションを使用した場合l P R O CT A B U L A T ED A T A= c l a s s; 山 S叩 s e x伝 司 ; V A Rh e i g h tw e i g h t; T A B L E Sa g e牢 ( h e i g h t牢 s u mw e ig h t牢 s u m ), s e x; R U N; 2 . 2特定のセルに該当する分析変教の値がすべて欠損値の場合 特定のセルに該当する分析変数の値がすべて欠損値だった場合、すべての統計量 ( Nと NMISS以外)に欠損値が表示される。結果表示に欠損値以外の値を使用したい場合は、 MISSTEXTオプションを使用する。これにより、 MISSTEXTオプションで指定した値が 欠損値の代わりに使用される。 例)特定のセルに分類されたオブザべーションの身長、体重の値が欠損値だった場合、欠 損値の代わりに 未測定"と表示させたい。 ILL‑ ・3 問 HHU 内M 円 ﹂ わ た 戸LLir‑ とし J 一山一山一川一代しこ示 JF日山一服一服 L f f E一の定崎﹁寸イム M炉一来一来 一 一値指叩一一一一一一 l i l ‑一 損に宇一一一一1Jl 一一巴庶民欠り文庶民児仰い仰い陶 凸U CM X Hu e d m川 ψaT MUTIlt‑‑ 門 ムTI切 ﹂HH 同一定一 m 一則川一 ψ 今一"‑ 剖一和一 ‑可同一応一 ︐M一 二 巾 g一TI‑ ‑ ‑j s ‑ 氾 (‑g‑ h v 本一 いけ﹁ト﹂ mS/ HU AUHAun n w山 門 HVTlM M 丘町一 g a一Il‑‑ P R O CT A B U L A T ED A T A= c l a s s; C L A S Sa g es e x/M I S S I N G; 一h 一恥一 h 一h 一h 一恥一同一 h 一h 一h 一h 一h [MISSTEXTオプションを使用した場合l 2 . 3特定の水準に該当するデータがない場合 特定の水準に該当するデータがなかった場合、その水準は結果テープルに表示されない。 データの有無に関わらず、特定の水準数での結果を出力したい場合は、 MEANS プロシジ ヤでも記述した CLASSDATAオプション、もしくは PRELOADFMTオプションを使用す る。出力させる表に含める分類変数の組み合わせをデータにしておき、 CLASSDATAで指 2 4 4
CLASSDATAオプ
定することにより、特定の水準数での表を出力する事ができる。また、
XCLUSIVEオプションを使用すると、
ションと共に E
CLASSDATAに含まれない分類、変
LASSDATA
、E
XCLUSIVE
数の組み合わせを除外した表を出力する事が可能である。 C
オプションは V
e
r
・
s
i
o
n
8より拡張された機能である。
4歳のデータが欠落しているが、 1
1歳から 1
6歳までの各年齢を結果テーブルに出力
例) 1
1歳以下のデータがある場合はそれを除外したい場合。
したい、また 1
I
P
R
O
C TABULATE D
A
T
A二 山 s
s CLASSDATA= 叩 d
a
t
a EXCLUSIVE/;
C
L
A
S
Sa
g
es
e
x;
V
A
Rh
e
i
g
h
tw
e
i
g
h
t;
*(height*sumweight*sum),sex/MISSTEXT = "未測定"
TABLES a
g
e
R
U
N
;
l
<オプション無し>
<オプションあり>
FMm‑
x‑‑
一
e‑
l
s
‑+
‑F‑
1
2
•
'
•
'
出力対象でない値
だが、データが存在
するため結果に出
力される
eu~:n 、
l~・“
明e
剖i
g
h
t
1
3
u
m
1
5
日.
5日1
8
5
.日D
I
H
e
i
g
h
l I
S
u
m
1
l
l
S
.
1
0
1
1
自1.1
0
1
1
2
引1.叫
8
日
則1
白
S
2
.
5
0
己
翠
陣
争 J
J
J
J
J
J
‑
J
‑
f
医
日
‑
l
1
竺
T型
t
竺
1
ι
日
t
斗
f
1
日
ι
f
止
ぷ
J
β
虫
J
U
f
J
1
止
1‑
│
卜
ト
一
一
一
一
一
一
‑
一
一
一
…
一
一
… 竺
e
i
竺
g
引
竺
明
h
叩
川!巳
t
也
巴
t
巴
一
叩
一限
但
!
坦
ピ
竺
一
川
l1
3
I
恥
H
4
セ
e
i
凶
gh
吋
l
l I
釦
S
u
叩机
一幻一来一来
⁝一閉山一昭一拍
‑
h
u
│
出口
りた
トっ
ι
落かる
欠なれ
のいさ
タて力
一れ出
デさが
一日
&‑
‑8
4‑
‑2
2‑
‑4
5‑
‑2
7‑
5
← │+l+│+l+i
山一刈一川一町二四時一慌
一川一回一山一耕一剖
↓
│
↓ l↓141↓i
m‑m‑m‑m‑m
一乱一前一釦一釦一釦
g‑g‑z‑g‑g
‑‑h‑ n‑‑hu‑‑hu‑‑h
↓
│
↓ l↓│↓!↓ l
‑
e‑e‑e‑e‑e
一明 ‑H‑ 明 ‑H‑w
ii
CLASSDATAオプションと同じように、出力したい水準のフォーマットを作成し、それを
指定する事でデータの有無に関わらず出力したい組み合わせを出力する事も可能である。
RINTMISSオプションと PRELOADFMTオプションを指定し、フォーマッ
その場合は P
トステートメントにて作成したフォーマットを指定する。
P
R
O
CF
O
R
M
A
T
V
A
L
U
Ea
q
e
f
m
t
1
1ニ1
1
1
2
=
1
2
1
3二 1
3
1
4
=
1
4
1
5
=
1
5
1
6
=
1
6
;
R
U
N;
l
a
s
s;
P
R
O
CT
A
B
U
L
A
T
ED
A
T
A= c
C
L
A
S
Ss
e
x
;
C
L
A
S
Sa
g
e/1PRELOADFMT1;
e
i
g
h
tw
e
i
g
h
t;
V
A
Rh
│
F
O
R
M
A
Ta
g
ea
ョ
e
f叫¥;
T
A
B
L
E
Sa
g
e本(
h
e
i
g
h
t
*s
u
mw
e
ig
h
t本s
u
m
),
s
e
x
パPRINTMISSIMISSTEXT二"来測定"
R
U
N
;
﹁町U
りム
・
A4
3 . DATASETSプロシジヤ 最後に DATASETS プ ロ シ ジ ャ の 拡 張 機 能 と 便 利 な 使 い 方 に つ い て 説 明 す る 。 DATASETSプロシジャは、 SASデータライブラリ中の SASファイル一覧の作成、名前の 変更、コピーや削除などを行うプロシジヤで柔軟なファイル操作を可能とする。 3 . 1 ライブラリ内の全てのメンバを削除 DATASETSプロシジャでは K I L Lオプションを指定することにより、ライブラリ内の全 てのメンパを削除することができる。アプリケーションなどで最後にこのオプションをつ けたプログラムを組み込むだけで、一時的に作成されたデータを一括削除でき非常に便利 I B =オプ である。以下のサンプルコードでは WORKライブラリ内を全て削除している。 L OLISTオプションを指 ションを省略した場合は WORKライブラリが削除され、さらに N ASログにメンパリストが出力されない。 定しているため、 S P R O CD A T A S E T SL I B=w o r kN O L I S TK I L L Q U I T; 3.2指定したメンバ以外の削除 DATASETSプロシジャの SAVEステートメントを使用すると、指定したメンバ以外の全 てのメンパが削除される。このステートメントは多くのデータが格納されたライブラリか ら少数のデータのみを保持しておきたい場合に非常に便利である。 P R O CD A T A S E T SL I B= w o r kN O L I S T; S A V Er e s u l t Q U I T; 3 . 3データセット名の変更 DATASETSプロシジャの CHANGEステートメントを使用すると、ライブラリ内のメン I R L I N Eライブラリの STAFFを パ名の変更が可能となる。以下のサンプルコードでは A NEWSTAFFに変更している。 P R O CD A T A S E T SL I B= a i r l i n eN O L I S T; e w s t a f f; C H A N G Es t a f f= n Q U I T; 3.4インデックスの作成 DATASETSプロシジャの INDEX CREATEステートメントを使用すると、データのイ ンデックスを容易に作成することが可能となる。インデックスを作成することにより、以 2 4 6
下の 2つの点でパフォーマンスの向上が望める。
川尽IERE式が含まれているプログラムを実行した場合、オプザベーションのサブセッ
トへの素早いアクセスが可能
‑SORTプロシジャによるソート処理を事前に行うことなく、 BYグループ処理によるイ
ンデックス順のデータ取り出しが可能
i
r
l
i
n
e
.
m
e
c
h
a
n
i
c というデータセットに単一インデックス
以下のサンプルコードでは、 a
employeeidnumberと複合インデックス a
d
d
i
d (変数1"s
t
a
t
e
J と1"c
i
t
Y
J
) を作成する。さ
mployeeidnumberに同ーの値の
らに UNIQUEオプションを使用することにより、変数 e
組み合わせが存在しないよう指定ししている。
P
R
O
CD
A
T
A
S
E
T
SL
1
B= a
i
r
l
i
n
eN
O
L
1
S
T;
M
0
0
1
F
Ym
e
c
h
a
n
i
c
;
/本重複を許可しないインデックスの作成本/
I
N
D
E
XC
R
E
A
T
Ee
m
p
l
o
y
e
e
i
d
n
u
m
b
e
r /U
N
I
Q
U
E
/本複合インデックスの作成本/
I
N
D
E
XC
R
E
A
T
Ea
d
d
i
d= (
s
t
a
t
ec
i
t
y
)
Q
U
I
T
;
3
.
5一貫性制約の作成
DATASETSプロシジャの ICCREATEステートメントを使用することで、 V
e
r
s
i
o
n
8か
ら一貫性制約を作成することが可能となった。また、 MESSAGE=オプションとの併用でエ
ラー時のメッセージの設定も行うことが可能である。一貫性制約を使用することにより、
データの矛盾や間違いを未然に防ぐ・ことが出来、よりデータの整合性が保たれる。以下の
okjob、 o
k
̲
c
o
s
t
、n
n
u
l
l
̲
i
d
) を作成している。
サンプルコードでは、 3つの一貫性制約 (
P
R
O
C DATASETS L
1
B= a
i
r
l
i
n
eN
O
L
1
S
T;
M001FY m
e
c
h
a
n
i
c
;
/本変数I"i
o
b
c
l
a
s
s f こ!j: "~'El" , "r~E2" , "
M
E
3
"のみが格納可能本/
I
C CREATE o
ki
o
b=C
H
E
C
K(
W
H
E
R
E
=
(
i
o
b
c
l
a
s
s1
N(
'
M
E1
''
M
E
2
''
M
E
3
')
)
)
E
2,o
rM
E
3
'
;
MESSAGE = '
j
o
b Classm
u
s
tb
eM
E
1,M
/本変数I"A
N
N
U
A
L
S
A
L
A
R
Y には 1
0
0
0
0
0以下の値のみが格納可能本/
I
C CREATE o
kc
o
s
t= C
H
E
C
K(
W
H
E
R
E
=
(
a
n
n
u
a
l
s
a
l
a
r
v <100000))
MESSAGE ='
A
n
n
u
a
lS
a
l
a
r
ym
u
s
tb
el
e
s
st
h
a
n1
0
0
0
0
0
';
/本変数I"e
m
p
l
o
v
e
e
i
d
n
u
m
b
e
rI にはN
U
L
L値を許可しない本/
I
C CREATE n
n
u
l
li
d=N
O
TN
U
L
L(
e
m
p
l
o
v
e
e
i
d
n
u
m
b
e
r
)
MESSAGE = '
Y
o
u must p
r
o
v
i
d
ea
nE
m
p
l
o
y
e
e1
0N
u
m
b
e
r
'
;
Q
U
I
T
;
I
変数I"
j
o
b
c
l
a
s
s
J に値I"ME4J を代入しようとすると、一貫性制約1"okjobJ に適合しない
ため、エラーとなり、以下のようなメッセージがログに出力される。
E
R
R
O
R
:J
o
bChssr
n
u
s
lb
eM
E
1,M
E
2宮
口rM
E
2 ヂータセット W
O
R
K
.
M
E
C
H
A
N
I
C
へめ追加/更新に失敗しましたむ
ヂ..~タ i直が一貫性制約口 k_.i ob に適合しません。
N
O
T
E
:T
h
i
si
ne
r
tf
a
il
e
d'l/h
il
ea
H
e
r
n
p
U
n
gt
o~.dd d
at
af
r
口nV
r AlUE
S0
1a
u
s
e1t
o¥
.
h
ed
al
as
:
e
t
.
N
O
T
E
:チーブルを矛盾めない状態に戻すためよ記のエラー前の持入を削除しーます。
詰
l
円‑
n
/臼
d
ω
‑
一貫性制約は SQLプロシジヤ、 DATASETSプロシジヤ、 SCLでのみ生成・追加・ 削除が可能であり、 DATAステップでは取り扱うことはできなし凡なお、作成した一貫性 制約の削除には、 DATASETSプロシジャの I CDELETEステートメントを使用する。 3.6DATAステップとのパフォーマンス比較 以下のサンプルコードでは、同一データ(件数約 3 7 0万件)を対象に DATAステップと DATASETSプロシジャを使用してフォーマットを割り当てる処理を行った際のパフォー マンスを比較している。 D ATAステップでは、フォーマットを適用する場合でも、 1オプザ ATASETSプロシジヤではディスクリ ベーションずつデータ読み込んでいくのに対して、 D プタ部の情報を読み込み、書き換えるだけなので処理時聞が大幅に短縮出来る。そのため、 ATASETSプロシジャを使用するこ フォーマットの適用や変数名の変更などの処理では D とが非常に有効である。 /牢データステップによるフォーマット処理牢/ I * D A T A S E T Sプロシジャによるフォーマット処理 D A T As a m p l e; P R O CD A T A S E T SL I B=w o r kN O L I S T; S E Ts a m p l e; M O D I F Ys a m p le; F O R M A Tb ir t h d a yYY~'t~DD8.; F O R M A Tb i r t h d a y YY附~DDS. • R U N; Q U I T; N O T E :D A T Aステートメント処 処理時間 • N O T E :P R O C E D U R ED A T A S E T S処 理 : ./ 処理時間 C P U時間 " . . ‑ C P U時間 4 . まとめ 今回の論文では、紙面の都合上一部のオプションや機能の紹介に留まっているが、今回 紹介した以外にも多数の拡張が施されている。また、本稿だけでは詳細な説明まで至らな かったため、興味を持たれた方はぜひオンラインヘルプやマニュアルの方も参考にして頂 e r s i o n 8へのパージョンアップに伴い、オープンな環境で SASシステ ければ幸いである。 V ムの利用が可能となり、 DCOM/COMといったアーキテクチヤーを利用した GUIツールも リリースされているが、依然として SASの言語体系は強力なものであり、多くのユーザか ら支持されている。本稿がそういったユーザにとっての一助となれば幸いである。 なお本稿についての質問、意見などがあれば、下記まで。 Y o s h i e . S h i b u v a @時 s . c o m ' I akafumi.Hiwada@sas.com F Naoko.Sakota@百九日 . c o m ‑248
口頭論文発表 経営・経済
日本 SASユーザー会 (SUG1‑0) SASソフトウエアを利用した CIR++モデルの パラメータ推定と金利パス生成 岸田則生 株式会社 CRCソリューションズ 金融システム部 ParameterE s t i m a t i o nandP a t hG e n e r a t i o no fI n t e r e s tR a t e s f o rCIR++Modelw i t hSASS o f t w a r e No r i oK i s h i d a CRCS o l u s i o n sC o r p . . F i n a n c i a lS y s t e m sDevelopmentDept 要旨 瞬間金利モデルの一つである CIR++モデルの日本市場におけるパラメーター値を SAS jETSソフト ウェアに含まれる非線形最小自乗法を用いて推定した。非観測量である瞬間金利の標本値には 1 、2、 3ヶ月もの短期金引を採用し、パラメータ一値の比較を試みた。金利モデルは短期金利ばかりでなく、 長期金利を含む金利の期間構造の将来予測にも利用されるので、期間構造を標本値とするパラメーター 推定も行った。しかし、パラメーターに課せられた制限値内の推定値を得ることは出来なかった。 CIR モデル同様、生成金利パスが正値であることが確認された。 キーワード SAS jETSソフトウェア、 CIR++モデル、金利、平均回帰過程、確率微分方程式、時系列 モデル、自己回帰モデル、非線形最小自乗法 1 . 緒言 銀行経営におけるバンキング勘定の金利変動リスクを補足するための Eaminga tR i s k手法や、金利 を原資産とする派生証券の価格評価には、将来金利が時間的にどのように変動するかを記述する金利の 期間構造モデルが使用される。期間構造モデルには大きく分けると確率微分方程式で定式化される確率 r i g o ‑ M e r c u r i oによる CIR++モテ. 変動モデルと自己回帰式で記述される時系列分析モデルとがある。 8 ル 1) の元になった CIR(Cox‑ I n g e r s o I I‑ R o s s )モデル 2) は前者に属する。 CIRモテールは金利1 1 寺問変動の 性質である正値性と平均回帰性を併せ持つが、現時点の金利の期間構造を反映できない点で問題があ る。この問題点を克服するモデルとして H u I I ‑ W h i t eによる拡張 CIRモデル 3) と 8 r i g o ‑ M e r c u r i oによ る CIR++モテソレが知られている。拡張 CIRモデルは CIRモデルのパラメータを時間依存とする事に より現時点における期間構造を再現するようにしたため、期間構造の解析解は得られず、また数値的 r i g o ‑ M e r c u r i oによる に解くのも極めて困難であり、実務上ほとんど採用されていない。それ対して 8 CIR++モテソレは解析解が得られるので、実務上魅力的なモデルである。 CIR++モテ'ルは金利市場で直後観測できない瞬間的なゼロ・レートを記述する確率変動金利モテールで 2 5 1一
ある。モデルに内在するパラメータを推定するには、ゼロ・レートの市場データあるいはゼロ・レート 、2、3ヶ月ものゼロ・レー から導かれる割引債価格が必要である。本論文ではまずゼロ・レートとして l トを標本値としてモデル・パラメータを推定した。パラメータの推定は最尤法が望ましいが、 CIR++モ デルに従うゼロ・レートの確率密度関数を求めるのは困難なので尤度関数の導出も難しい。そこで、今 jE TSソ 回は CIR++モテソレ確率微分方程式の離散化から得られる差分方程式である自己回帰式に SAS フトウエアの非線形最小自乗法を適用してパラメータ推定を行った。さらに推定パラメータを用いて 金利の時系列的な生成を行い、金利が負にならないことを確認した。現今の本邦の金利状況において、 HuI l‑Whit巴による拡張 V a s i c e kモデルのようなブラウン運動から導かれるモデルでは、生成した金利パ a r n i n ga tR i s kの計算に使用するには問題がある。この問題が生じ スの半分程度が負になってしまい、 E ない CIR++モテソレのパラメータが推定できたことは大いに意味があると考えられる。 E a r n i n ga tR i s kの算出では将来時点での長期金利が必要となる。長期金利の情報が反映されない短期 tR i s kの算出に最 金利の市場データのみで推定したパラメータを用いて算出した長期金利が、 Eaminga 適かどうかはかなり疑問がある。そこで長期金利情報を含むゼロ・イールド・カーブ・データからパラ メータを推定できることが望ましい。幸い CIR++モテソレで、は割引債価格の解析式が求まるので、ゼロ。 イールド・カーブから求めた割引率を標本値としてパラメータ推定が行える。本論文では短期金利から 推定したパラメータ値と金利の期間構造の情報をすべて含んだゼロ・イールド・カーブから求めたパラ メータ値との比較も行った。 2 . CIR++モデル CIRモデルは瞬間的なゼロ・レート(スッポット・レート)Xrが以下の確率微分方程式に従って時間 変動していると仮定する金利変動モデルである。 ) ] ( : t r d X r=k (θ‑x r ) d t+σゾ d W r ここで、 k、0、σがモデル・パラメーターである。これらのパラメーターが正の値を取る場合、このモ デルは市場で観測される短期金利が持つ経験的な性質である、 (1)金利は負にならない、 ( 2 )金利は長期 的に見るとある平均的な金利の周りを変動するという平均回帰性を有している。そのため、 kを平均回 帰速度パラメータ一、 θを平均回帰レベル・パラメーターと呼んでいる。また、 σ は金利のふらつきの oのみで初期イールド・カーブ 度合いを表すパラメーターである。しかし、このモデルはあの初期値 X (金利の期間構造)が決まってしまうので、市場で観測されるイールド・カーブに適合しないという重 大な欠陥を持つ。 CIR++モテソレは確率変動しない時間に確定的な関数 ψ( t )をめに加えた r r、すなわち r rニ Xr+ψ( t ) ( 2 ) が瞬間的なゼロ・レートの動きを表すとしたモデルである。ここで導入した関数 ψ( t )により、 CIR++モ デルは市場で観測される初期イールド・カーブに適合可能となる。確率微分に関する伊藤の公式を利用 rに関する確率微分方程式 すると、 r す ; I , , "dcp(t) I, I 一 ー でT ム =Ikθ+仰 (t)+ , ‑ krrI d t+σ‑ yrr‑ψ(t)d叫 A を得る。 ‑252‑ ( 3 )
B
r
i
g
o
‑M
e
r
c
u
r
i
oは ηから導かれる割引債価格(割引関数)あるいはそれと等価なゼロ・レートの期間
構造が市場価格に適合するためにはシフト関数 ψ(
t
)が
伊(
t
)= fM(
0,
t
)‑f(O,
t
)
f
h̲
(
4
)
1
f(O,
t
)=
2k8
2h+(k+h
)
(
e
thー 1
)
1
h
4h2e
"V
h‑ 1
[
2
1
7+(
k+h
)
(
e
t
J
F
h= yk
可五T
(
5
)
(
6
)
でなければならないことを示した。ここで、 fM(O,
t
)は現時点における瞬間的な市場フォワード・レー
トである。瞬間的なフォワード・レートは市場で取引される量ではないので、実際は市場データから得
られる割引関数 pM(O,
T)の期間構造から
)
fE
‑
p一
‑︐‑
ハU一
(
‑
M‑t
h
nU一
n
一
‑
‑
)
f
︐
ハU
(
M
FJ
(
7
)
の関係を用いて計算する。
確率微分方程式(1)のめの解が非心カイ二乗分布でありその解析解が既知であることを利用して、
B
r
i
g
o
‑
M
e
r
c
u
r
i
oは時点 f、満期│得点 Tの割引債価格 P(t,
T)とゼロ・レート R
(
t,
T)が以下の式で与えら
れることを示した。
pM(
0,
T)A(O,
t
)
e
‑
B
(
o
.
I)xo
P(f,
T)=M
n
A(f,
T)t B
(
f,T)iη‑'
1
'(
1)
1
pM(
0,
t
)
A
(
O,
T
)
e
‑
B
(
O
.
T
)
x
o
1
pM(
0,
T)A(O,
t
)
e
‑
B
(
o
.
l
)
x
o • .,~,
~,~"
,
,
,1
R
(
t,
T)二 一T一‑t
一 I
l
npM
~M":'
,
'
.
,
;
‑
:
"
,
'
‑
wnn. ‑
ln
A
(
t
,
T
)
+B.
(
t
,
T
)
l
r
(
t
)
}1
l一ψ
1
'
"
(
0,
t
)
A
(
O
,
T
)
e一民
O.Tho .
.
.
.
a
¥
"
'
.
.
/ .
.
.
.
.
¥
"
,
.
.
/
¥
.
[
"'/11
(
9
)
r 2he(k+h)(T‑1)/2 fkD/σ2
A(t,T)= 1 ι │
12
h+(
k+h
)
(
e
t
"‑ 1
)1
)
ハU
l
(
.
r
(
8
)
ここで
/︑
ム
)
‑
l
2(
e1hー 1
)
B
(
t,
T)=
l1
2
1
7+(
k+!
z)
(
eI
)
‑ 1
である。
3
. モデル・パラメーター推定法
CIR++モデルのパラメーター推定法として、(1)市場で観測される短期金利を瞬間的なゼロ・レート
の代用金利として用いる方法と、 (
2
)ゼロ・レートの期間構造を用いる方法を試みる。
3
.
1 短期金刑法
確率微分方程式(1)に従うあの解は既知で非心カイ二乗分布に従うことが知られているので、条件付
(
x
l
+
d
l
l
x
l
)も良く知られている。従って、 η = X1 +伊(
t
)の関係で結ばれる η の条件付き
き推移確率密度 p
推移確率密度 p(r
t+d
l
lr
)も原理的には導山可能である。しかし、その推移確率密度から尤度関数を導い
l
て最尤法でパラメーター推定を行うのは、尤度関数が非常に複雑になり現実的には困難である。そのた
め、通常は η が従う確率微分方程式 (
3
)を離散近似することによって得られる自己回帰式から導かれる
ハ︿U
Fhd
つ fu
正規分布に対する尤度関数を用いてパラメーター推定を行う。離散近似では微小時間企fに関して一次 のE u l e r近似および二次の M i I s t e i n近似がよく使用される。確率微分方程式のドリフト関数および拡散 関数が定数でないとき、 E u I巴r近似はあまりよい近似でないことは知られているが、確率微分方程式 ( 3 ) のM i I s t e i n近似に基づく尤度関数を導くのは困難なので、本論文では E u l e r近似を採用する。 u l e r近似して離散化すると 式(3)を E r + t )企t+L ( t )y j ; ie ( t ) O t‑η+μ ( t ( 12 ) μ( t )= k8+k c p ( t )+ d c p ( t ) コ 7krr ( 13 ) L ( t )=σぷマ万 ( 14 ) となる。ただし、 と置いた。また、 e ( t )は全ての fに関して独立な標準正規分布をする確率変数である。すなわち、平均 μ, σ2)と表すと推移確率密度 p( r l +山 I r t )は μ、分散 σ2の正規分布を N( p ( r t + o t lη)‑ N(rt+μ( T ),L ( t ) 2s t ) ( 15 ) で与えられる。これから N+1個の時点 t=Q、l 、2、 ・ 一 、 N に対する尤度関数は容易に導けるが、 μ( t ) および工 ( t )が定数ではないため、最尤法でパラメーターを推定するには、 SAS j IM Lソフトウエアに含 まれる非線形最適化法を用いてプログラミングしなければならない。そこで、本論文ではもっとプログ ラミングが簡単な、 SAS j E TSソフトウエアを用いた時系列標本に対する近似的パラメーター推定問題 に変換する。 η に対する自己回帰式(12 )を時点 t=Q、 l 、2に対して書き下すと , 円 : ! 2L o σ y i oyj;i , 円札, ‑ σ F石 川 r =r o+ st+ ( 16 ) e(Q) r 2= r +[ k 8‑k c p( l )+ k r ' lst+ ) ( 17 e( l ) となる。時点 t= Q、 l 、2、 ・ 一 、 N の N +1個の一連の標本値 r o、r, 、r 2、 . . . 、 r Nから、相隣りあう 3 時点に対して時間移動的に上式を適用し、最小自乗法によってパラメーター推定を行う。本来、伊 ( t )は 時間依存の関数なので、 c p ( 3 )と c p ( N )の値は当然異なる。従って、相隣りあう 3時点の標本値が多数あ るとしてパラメーター推定を行うのは、一組の r o、r, 、r 2、 . . . 、 r Nに対して最尤法でパラメーター推定 を行う場合の近似に過ぎない。 e(Q) と e(l)は独立な正規分布であることを仮定しているので、それとは独立の正規分布 E を導入す ると、上式はまとめて I 1 djM II , ‑cp(1)伍 出 η =r o+ 附 句 ( 1 ) 小 │ 笠 出 +f s t+σyxo+r │ │ d f │ = o l d f │ = l l w e ( 18 ) ともかける。 )と(17 )あるいは式(18 )は 、 SAS j E TSソフトウエアを用いるとパラメーターの最小 自己回帰式(16 自乗推定がきわめて容易に実行できる。 ‑254一
3 . 2 ゼ口・レート期間構造法 CIR++モデルのゼロ・レート期間構造は式 ( 9 )で与えられるが、現時点の期間構造を再現するモデル M なので、 R(O, T)= R ( 0,T)になっている。従って、 R(O,T)からはパラメーター推定可能な表現式は得 られない。そこで、 R ( ! : : . t, ! : : . t+T)‑R(O, T)という量を作ると l ! : : . t+山 川 = 十 ( 企 t+T)RM(0,! : : . t+T) 附 川 一 ! : : . tRM(O山) R ( ! : : . t, O, ! : : . t+T) r~,~ . , ~,~. ~,' I A( B ( O , ! : : . t )‑B ( O , ! : : . t+T I x o I A(O, ! : : . t ) A ( ! : : . t, ! : : . t+T) ~¥ ‑ ' ‑ ' ‑ ‑ ' ‑, ‑ , ‑ ‑ ‑) ' J " v l + 子B ( ! : : . t, ! : : . t+T)x山 ( 19) となる。 九 rは非心カイ二乗分布に従い、その平均 E [ x d l lと分散 V [ X d l lは E[x ω 1=θ +(xo一θ)e‑k且f 千 = V [ X d l l ( 2 0 ) ~(Iーが叶 k d l [ x o e ‑ + ( 2 1) で与えられることが知られている。従って、 ! : : . R=R ( ! : : . t, ! : : . t+T)‑R(O, T)の平均 E [ ! : : . R lと分散 V [ ! : : . R l は容易に得ることができ、 山 M M 伊 1= 十 引 [ 卜 ( 釦 加 山 + リ T) m 町 附 E [ [ R 凹仙 引T η T J π + リ 川 川 刊 ) 日 ] ト 一 T E[R , A( 0, 企 L ν 釦 1 t+T) r ~m • , ̲ ~,~. ~, I .' , ‑' . ‑ ‑ : . ~, ‑ ~ B (O, ! : : . t )‑B(O, ! : : . t+T)I x oI A(O, ! : : . t )A ( ! : : . t, ! : : . t+T) l " •J ~ I +l n ,,~ + ドω ( 2 2 ) t+T)E [ x d l l Au ‑ + x v v ウ‑ ) T f a af ( B l一 戸 一 一 l V p u a [ ( 2 3 ) となる。パラメータの推定はゼロ・レートの標本値から各満期毎の標本平均と標本分散を算出し、それ 2 2 )と式 ( 2 3 )で最小自乗適合すれば実行できる。分散だけでなく平均も用いるのは、分散に対す を式 ( る θの感応度が小さく分散だけからでは 0を決定できないからである。式 ( 2 2 )と式 ( 2 3 )による最小自 乗推定も、 SAS j E TSソフトウエアを用いると簡単に実行できる。 4 . パラメーター推定結果 パラメーター推定に使用した金利は日本市場における 2002年 10月から 2003年 3月までの半年間の 満期 l、2、3ヶ月もの金利を連続複利のゼロ・レートに変換したものである。連続複利を用いるのは 式( 3 )が連続複利を仮定して定式化されているからである。実際の推定には SASjETSソフトウエア中 r o c e d u r eを使用した。推定すべきパラメーターは k、θ、σ、X oの 4パラメーターである。 の MODELP また、パラメーター推定には以下の各条件を課した。 Oく k ( 2 4 ) ノわ︼ F吋U F吋U n
Oく O ( 2 5 ) Oく σ ( 2 6 ) σ2 く 2kθ ( 2 7 ) Oく X o ( 2 8 ) 。く λ。 ー ( 2 9 ) 最初の 5条件はオリジナルの C I Rモデルに従う金利んが正でかつ平均回帰性を持つための条件であり、 最後の条件は C IR++モテゃルに従う金利 η が正であるための条件である。 まず、短期金利を瞬間的なゼロ・レートの代用金利とした場合の推定結果について述べる。表 lに式 ( 16 )、(17 )で推定した結果を、表 2に式(18 )で推定した結果を示す。なお、 1 1 寺聞の単位は年に取って いる。 表1 :式 ( 1 6 )、( 1 7 )による推定値。 。 代用金利 k lヶ月もの 1 9 6 . 9 47 0.000552 0.000552 0. 2ヶ月もの 1 2 3 . 3 0.000654 0. 40 0.000654 3ヶ月もの 6 6 . 6 . 3 2 0.000752 0.000752 0 σ X o 一一 表2 :式(18 )による推定値。 代用金利 k 。 σ X o 1ヶ月もの 1 3 9 . 8 0 . 0 0 0 5 5 1 0 . 0 0 0 5 5 1 . 3 9 0 2ヶ月もの 9 4 . 1 0.000647 0 . 3 5 0.000647 3ヶ月もの 6 8 . 0 0.000745 0 . 3 2 0.000745 表 l、2を見ると代用金利の取り方によって平均回帰速度 kが大きく変化していることが分かる。一 方、平均回帰金利。と拡散パラメータ σ は代用金利の違いによる差はそれほど大きくない。平均回帰 金利の値は推定に使用した標本金利の平均値に近い値が得られている。表に示した有効桁数では e=Xo のように見えるが、実際は条件。く X oを満たしている。表 lと 2の問で大きく値が異なるのは lヶ月 ものと 2ヶ月ものの平均回帰速度である。式(18 )は誤差分布の独立性を仮定して導いた式なので、こ の違いは相隣りあう時点問の誤差が独立ではないことを示唆している可能性がある。 次に、ゼロ・レートの期間構造を使用した場合の推定結果について述べる。表 3に I 1tを 1日 、 5目 、 25日にとった場合の推定結果を示す。この推定法では Oくkおよび、 OくOの範囲内の推定値を得られな かった。図 lに I 1 R の標本標準偏差と C IR++モテソレの推定標準偏差を満期を変数にとって示す。図か ら分かるようにその再現性はかなり良い。 Oくk θ なので平均回帰金利は正となるが、平均回帰速度が負 値なので、金利が時間的に平均回帰せず発散してしまう。従って、この推定値を実際の金利生成に使用 することは出来ない。また、この推定値は短期金利から推定した表 l、2の値とも全く異なる。短期金 ‑256一
利の推定値を用いて f ' : .R の標準偏差を算出した場合、標本標準偏差を全く再現しない。従って、ゼロ・ レートの期間構造に基ずく推定モデルの構成法には何らかの問題があるのかもしれない。 表3 :式 ( 2 2 )、( 2 3 )による推定値。 。 f ' : .t k l日 ‑ 0 . 1 8 0 5日 . 0 4 5 1 . 0 E ‑ 8 ‑ 0 . 1 9 0 ‑ 0 . 1 5 9 2 0 2 5日 ー 0 . 2 1 3 ー 0 . 8 4 6 5 。 ー X o 0 . 0 5 1 1 . 0 E ‑ 8 . 0 E ‑ 8 ‑ 0 . 0 1 3 4 0 . 0 4 2 1 0 . 0 0 1 2 口 同 一 日市日お一 日日 5 1 1 J 152値値値一 戸戸戸定定定一 且 A A推推推一 工 十 一 一 一 t .Rの標準偏差 0 . 0 0 1 4 0 . 0 0 1 0 OORu nunu nunu nunu nunu 制瞳掛挺 0 . 0 0 0 4 0 . 0 0 0 2 0 . 0 0 0 0 。 1 0 20 1 5 25 30 Maturity(年) 図1 :l 1 Rの標本標準偏差と C IR++モデルの推定標準偏差。 5 . 金利パス生成 図 2に表 lの 1ヶ月もの代用金利から推定したパラメーター値と式(1)を用いて生成した CIRモデ ルの 1 8 0 0日間に渡る金利パスを示す。 CIRモデルが持つ金利の正値性と平均回帰性が満たされている ことが見てとれる(実際の金利生成では無限小 1寺聞のを有限時間 t .tで置き換えるので、負金利の発生 が起こるが、平均回帰性により、すぐに正金利に戻る。この図からは負金利を除いてある)。 L 円 i 巧 RU
CIRモデル金利(短期金利推定値使用) 0 . 0 1 0 0 . 0 0 9 0 . 0 0 8 0 . 0 0 7 .L ム I0.006 ロ0.005 ~ 量 配 0 . 0 0 4 0 . 0 0 3 0 . 0 0 2 0 . 0 0 1 0 . 0 0 0 。 200 400 6 0 0 8 0 0 1 0 0 0 経過日数 1200 1 4 0 0 1 6 0 0 1 8 0 0 図2 :短期金利から推定したパラメーター値による CIRモデルの金利パス。 図 3に表 3の Otを l日にとったときのパラメーター値を使用した CIRモデルの金利パスを示す。平 均回帰速度が負値なので金利が発散してしまっているのがわかる。 CIRモデル金利(期間構造推定値使用) 1 .2 00 1 .0 00 0 . 8 0 0 .L ム ロ0.600 ー ギ 聾 宮也言 『 0. 400 0 . 2 0 0 0 . 0 0 0 。 200 400 6 0 0 8 0 0 1 0 0 0 経過日数 1 2 0 0 1 4 0 0 1 6 0 0 1 8 0 0 図3 :金利の期間構造から推定したパラメーター値による CIRモデルの金利パス。 図 4に表 1の 1ヶ月もの代用金利から推定したパラメーター値と式(1)、 ( 2 )、 ( 9 )を用いて生成した 満期 1ヶ月の CIR++モデルによるゼロ・レート時間変化を示す。比較のために CIRモデルによる金利 2 5 8 ‑
パスも示した。 C I Rモデルによる金利パスが低下傾向にあるのに、 CIR++モテソレによる金利が上昇する のは、 C IR++モテソレでは初期期間構造から求まるインプライド・フォワード・イールドが金利の下限値 を決めているからである。 CIR++モデルのゼ口・レート時間変化 0 . 0 0 2 0 一三工己元斗 0 . 0 0 1 8 1 ‑C1R 0 . 0 0 1 6 + l︑プ口取民 内 内 kf n u 内 U u 内 nU 内 U 内 U AUAUAU 6 4AU tnu . ︐ ︐ 0 . 0 0 1 4 0 . 0 0 0 6 0 . 0 0 0 4 0 . 0 0 0 2 0 . 0 0 0 0 o 200 400 600 8 0 0 1 0 0 0 1 2 0 0 1 4 0 0 1 6 0 0 1 8 0 0 経過日数 図4 :金利の期間構造から推定したパラメーター値による C I Rモデルの金利パス。 6 . 結言 CIR++モデルのパラメーター推定を 2種類の方法で、行った。一つは短期金利を瞬間ゼロ・レートの代 j E TSソフトウエアの時系列モデルの取り扱いでパラメーターを推定した。も 用金利として用い、 SAS う一つは金利の期間構造情報を用いる方法であるが、パラメーターに課せられた制限域内で推定値を得 ることが出来なかった。その原因としては、パラメータ一推定法の誤りが考えられる。推定パラメー ターを使用して瞬間ゼロ・レートを生成したところ、金利の正値性と平均回帰性が確認できた。さらに、 満期 1ヶ月のゼロ・レートを生成したところ、インプライド・フォワード・イールドに下支えされて金 利が変動するという、理論的な事実を数値的に確かめられた。 SASソフトウエアにより、ほとんどプロ グラミンク守することなく非線形問題のパラメーターを推定出来たのは、金融工学分野への SASソフト ウエアの適応可能性を示したといえる。 ‑ 2 5 9一
参考文献 1 )D .B r i g oa n dF . M巴r c u r i o Ad e t e r m i n i s t i c ‑ s h伊 e x t e n s i o no fa n a l y t i c a l l y ‑ t r a c t a b l eandt i l 7 le ‑ I 1o r t ‑ r a t em o d e l s . ",F i n a n c巴 a n dS t o c h a s t i c s,5,3 6 9 ‑ 3 8 8 ( 2 0 0 1 ) . homogeneouss 2 )J .C .Cox,J .E .I n g e r s o l la n dS .R o s s :"At h e oηIo f t h et e r ms t r u c t u r eo f i n t e r e s tr a t e s ",Econom巴t r i c a, 2,3 8 5 ‑ 4 0 7( 19 8 5 ) . .Whit 巴: P r i c i n gi n t e r e s t ‑ r a t e ‑ d e r i v a t i v es e c u r i t i e sぺTheR巴v i e wo fF i n a n c i a lS t u d i e s, 3 )J .H u l la n dA 4,5 7 3 ‑ 5 9 2( 19 9 0 ) . ‑260‑
日本 SASユ ー ザ ー 会 (SUG1‑0) コンシューマ・クレジット業の 利益指向の新与信モデル 小野 潔 UFJMH1‑ ProfitableModelf o rConsumerandCreditBusiness Ki y o s h iOno UFJBank 要旨 本稿は利益性を?'1tめた新しいモテ、/レ P r o f i t a b l eModel"を提案する。このモデルは 従来の DefaultModelに P r o f i tModelの要京を取り入れた与信モデルで、ある。特徴 は精度をわずかに犠牲にして,従来モテ、ルよりも高い利益を目指す点にある。構造は 軒のモデルはデフォル 分析途中で目標変数が変化する 2段階モデリングである。 1段l J ' i 度が定常になる途 1Iで、分割l を止める。 ト/正常顧客の 2値フラグを目標変数にして ,f 2段階のモデルは収益/損失の 2値フラグを目標変数に変更し ,1段階で分類されたグ r o f i t a b l eModelの精度は 1段階モデ、ルで、確定させ, /レープごとに分類探を適 する。 P 2段階モデルで、収益/損失の改善を目指す。本稿はキャッシングローンの初期与信モデ ルに P r o f i t a b l eModelを適用した事例を報告する。その結果,従来の DefaultModel より収益性が優れていることが確認された。 m , l P r o f i t a b l eModel,DefaultModel キーワード:データマイニング, P r o f i tMode L DefaultModelとP r o f i tModel について 日本のコンシューマ・クレジッ卜会社は,与信審査を短時間にかつ客観的に行うために 1 887年頃か らデータマイニングを用いた与信モデルが開発している。与信モテ、ルは『性別・年齢・職業・地位・家 族状況などのデモグラフィック属性』と『自社の利用状況』と『個人信用情報機関のデータ』に基づい て個人の信用度合を客観的に算出する。日本の与信モデルは,顧客のデフォル卜/正常を判別する D e f a u l tM o d e l ( デ.フォルトモデル)である。それに対して顧客の収益/損失 1を判別する P r o f i tM o d e l( 利 益モデル)がある。顧客がデフォル卜すれば損失が発生するため,両者は強い相聞があるひ P r o f i tM o c l e lは D e f a u l tM o c l e lより戦略的に優れているが,その実現性やコンプラアンス上に問題が r o f i tM o c l e l ある。日本の金融業では個人行動を捉えるリアルデータが存在しないために,安定した P (利益モテツレ)の開発は難しいと言われている 20 例えば家の購入・結婚・出産・転職・昇給時には多 額の個人資金が動き,大きな収益の機会をもたらすが,予兆となるデータは金融データベースに存在し ない。外部の情報販売会社からこれら情報を購入すれば収益よりもコストがかかり,何よりもプライパ r o f i tM o d e lはデフォルトリスクの シーにかかわるため個人情報保護法に触れる可能性があるむまた P 高い顧客に一定期間の貸し出す戦略を採用できるが,コンブライアンス上に問題が生じる。さらに専門 家は『デフォル卜直前の顧客は,キャッシングローンやショッピングを限度額まで使うため収益性が高 r o f i tMod巴lを構築すれば,優良顧客の い。もし個人属性の変化を捉えるリアルデータがない状態で P 中にデフォルトリスクの高い顧客が紛れ込む可能性がある』と指摘する c これらの理由により日本の与信モデルは利益を直接予測するのでなく,利益と相関関係が高いデフオ I 利益は収益から損失(コストとデフォルト額)をヲ 11,、たものである。 を参照。 2 詳細は佐々木 ( 2 0 0 2 ) ‑261
ルト顧客を予測し,事後的に顧客セグメン卜の利益を計算する構築手順を踏む c 与信モデルは高い精度
が必要であるため,専門家は加工変数の生成・分類器の改良・ハイブリッド、モデ ルの導入により 5%以
上の向上を試みる ι しかしそれらを用いても与信モデルの精度の向上には限界がある。本稿の
P
r
o
f
i
t
a
b
l
eM
o
c
l
e
l (利益指向モデル)は D
e
f
a
u
l
tModelのフレームワークで使わない顧客の収益/損失デ
ータを利用し,利益の改善を目指す。 P
r
o
f
i
t
a
b
l
eM
o
c
l
e
lは,従来の D
e
f
a
u
l
tM
o
c
l
e
lに P
r
o
f
i
tM
o
c
l
e
lの
r
o
[
i
t
a
b
l
eM
o
c
l
e
lの名称は P
r
o
f
i
tM
o
c
l
e
lほど利益を目標に
要素を取り入れた与信モデ ルであるむなお P
していないが, D
e
f
a
u
l
tModelより利益を得られる可能性があるという意味で名づけた。
2
. ProfitableModel(利益指向モデノレ)の提案
P
r
o
f
i
t
a
b
l
eM
o
c
l
e
lはカスケードモデリング3の一種である心カスケードモデリングは複数の分類器」を
組み合せて精度を高める構築法の総称である。ハイブリッド、モテツレ 5はカスケードの具体的な形状や分
類器の組み合せを具体的に実装している心ハイブリッドモデルでは多段階の分類器において同じ目標変
数が使われ, 1段階の分類器で計算された確信度を 2段階の分類訟の説明変数に組み込むことで精度を
高める c なお確信度はデフォル卜率(確率)と違うじデフォル卜率は確信度,実績デフォル卜率,ブラッ
ク/ホワイトのサンプリング数から計算する。
r
o
f
i
t
a
b
l
eM
o
c
l
e
l は相聞のある目標変数を分類器ごとに別々に定義し, 2方向でデー
それに対して P
タマイニングを行なう。特徴はモデ ルの精度をわずかに犠牲にして,従来の D
e
f
a
u
l
tModelよりも高い
r
o
f
i
t
a
b
l
eM
o
c
l
e
lの 1段階の目標変数はデフォル卜/正常顧客の 2値フラグで
利益を目指す点にある。 P
あり, 2段階は収益/損失の 2値フラグである。与信モデ ルの精度は 1段階のモデルで確定され, 2段階
のモデ.ルは精度に関係せず,利益性を高めるために使われる。このモデルのミソは,たとえ運用時に利
益予想が機能しなくとも 1段階のモデ、ル精度が保障されているので,最小限の利益は確保される点であ
r
o
f
it
ab
l
eM
o
c
l
e
lはカスケードモデリングの延長にすぎないが,顧客利益を取り入れた点において
る
亡 P
金融業の専門家に受け入れやすいモデ ルで、ある εなお 2方向の 2段階データマイニングが実務分析で用
いられることは初めてである c
3
. ProfitableModelの理論
3
.1
. 1段階モデノレの分類器
分類器にはカテゴリーを明示できるものと確信度のみでカテゴリーを表示できないものがある。本稿
)
買に並べた顧
の分類器は決定木を採用するが,後者の MBRやニューラルネットワークの場合は確信度1
客を等分割してグ!レープを作成する
決定木は分劃基準値が最小となる説明属性を発見し,高い反応属性)11貢の顧客セグメントの判別ツリー
I (分岐)するたびに各属性の分劃基準値の
を作成する逐次型の分類アルゴ リズムである。決定木は分害J
差が小さくなり,最終的に分割できなくなる。デフォルト/正常と収益/損失の 2値フラグは相聞が高い
r
o
f
i
t
a
b
l
eModelの 1段階
ので, 1段階で多く分岐すると 2段階の分類器の精度が劣化する c そのため P
r
o
f
i
t
a
b
l
eModel は従来の
の決定木はモデ ル精度が定常になる前に分岐を止める。その点において P
D
e
f
a
u
l
tModelより精度が劣る c
本稿の分類器は分割基準値が G
i
n
i値である決定木 CARTを用いる, G
i
n
i値の定義を以下に述べる。
データ集合 Sに
, ]個のカテゴリー値をもっ目標属性が存在し,集合 S内に i個番階の値をもっデータ
i
(
8
)個 (iニ 1
,
.
.
.,j)あると仮定する c ルール Rで 8
1と 8
2に 2分割し,部分集合 8
1内の
がそれぞれ X
i番階の値の分布比率を P
i
(
8
i
)
=
X
i
(
81
)
1[
81[とすると, G
i
n
i値は次式で求まる。
C
Gini(R)= Gini(x(SI))
t
L
│又 1 も 、
=(1一 >:p, (S) ‘)一一~(1-
7
;
tr " "
I
S
I
I
S
、│も
>
:
p
,
(
S
J
)づ ーι(1一 >
:
p,
(S
z
))
I
S
I 台
台" '
"
8A8IEM の決定木は CART のアルゴリズムに準拠していないが, G
i
n
i値を用いた決定木を本稿は
CART と呼ぶ c
3 英語の
Cascade" は階段上に連続分岐する滝を意味する。カスケートモデリングの名称は滝の形状に由来する
4 人工知能で・はデータマイニングの分析手法を分類器としづ。
2
0
0
1
)を参照。
。詳細は小野 (
0
ワu
ρ0
ワu
3 . 2 . 2段階モデルの分類器 1段階のモデルでグループむに分けられ,それぞれに之段階のモデ.ルを適用する 1グループ(こ属する データは分害J t 情報量が少ないため,単独の分類器では精度が低く,わすかな判日 J I力しか得られない c そ 0個の決定木のアンサンフツレ学習を f f lし、て精度を高める c こで本稿は 1 アンサンフツレ ( Enspmblp)学習は,あまり精度が高くない分類器の仮説集合(アンサンプル)に投票権 o o s t i n g( ブ を与えて,投票原理に基づいて判定する c アンサンブ ル学習には, Bagging (パギング), B ーステイング)という 2種類の代表的なモデルが存在する Baggingは複数のランダム・サンプリング o o s t i n gは判定不能 データに同じ分類器を適用し,推定値の等ウエート合計を求める c それに対して B データが多く出現するサンプリングを行い,代表推定値はウエート付き合計で求める久本稿は移植性 c S AS/EMは Baggingと B o o s t i n gの学習法を有する c が高い Bagging を採用する . 2段階のモテ、ルで、算出される利益性の確信度は 1段階のデフォルトの確信度と絶対基準で比較でき ない c そこで利益の確信度は同じデフォルト率を有する顧客の予想利益の相対基準(順位付け)に利用 する c 実務運用ではさらに同一グループ内の利益の偏りを利益に結びつかせる戦略(ストラテジー)を 適用する。例えば利用限度額ストラテジーは,デフォルトリスクに応じて利用限度額の増減を行う戦略 である P r o f i t a b l eModelにこの戦略を適用すれば,同じデフォルトリスクでも利益予想が大きい顧客 の刷用限度額を引き上げることができる。 e . e 3 . 3 . モデ、/レの比較 P r o f i t a b l eModelの選択は 1段階のモデルがリフトチャートを用いて精度を比較し, 2段階のモデ ルが累積利益チャー卜を用いて利益金額を比較する ε 重要なことは利益が大きくても l段階の精度が良 くなければ再現性が乏しいことである。そのため選一択モデルは精度の高い 1段階のモデルの中で,累積 利益が高い 2段階のモテールを選択する。 モデ.ルの精度の比較は,正反応割合チャートと正反応補足割合チャー卜という 2種類のリフトチャー トを用いる。リフトチャー卜はデフォルトリスクが大きい順に並べ,デフォルト顧客の的中確率を表す c 正反応補足割合チャートの縦軸は累積のデフォル卜顧客的中率,横軸は顧客総数(累積セグメン卜)に 対する割合であるむモテ ルの精度は正反応補足割合が大きいほど,あるいは正反応割合が小さいほど優 れている 累積利益チャートは以下のように作成する。デフォルトリスクの確信度が低い)1頁に,同じデフォルト 0等分し,ぞれぞれのカテゴリーごとに収益/損失 リスクならば利益が多い順に並べるむ次に全顧客を 2 を合計する。累積利益チャートはデフォルトリスクが低い順にカテゴリーの収益/損失を累積すること で得られるむ曲線はデフォルトリスクが高くなるにつれて損失が増加するため,凸型曲線になる。累積 lackと羽乃l i t eのサンプリングに応じた 曲線の頂点がモテ、ルの最大利益となる。顧客の収益/損失額は B 調整係数を乗じて現実の数字に近づけたものを用いるむ υ 4 . 分析結果 4 .1.分析データ 対象者は信販会社のキャッシングローンを 2年間中に使用した顧客である。サンプリング数はデフォ ル卜顧客 1 7 2 6人 ( 3 5 . 3 6 % ),正常顧客 : 3 1 5 5人 ( 6 1 . 6 4 % ),合計 1 8 8 1人で、ある。デフォルト顧客の定義 は 2年間に 3ヵ月以上の延滞が発生した顧客であり,正常顧客は延滞なしである c データ項目は個人信用情報機関の情報(借入件数,借入残高,照会件数,契約金額等),個人属性(職 5 0項目を用いた。実際に P r o f i t a b l eModel 業,業種,勤続年数,年齢,居住年数,年収等),その他の計 1 で使われる項目は 20~40 項目程度である。実務のモデル開発で、は精度を高めるために多数の加工デー タを用いるが説明を要するため,本稿は最小限の加工データしか採用しないじ 4 . 2 . 1段階の決定木の分析結果 一般にコンシュマー・クレジッ卜業の与信は,個人信用情報機関のデータが最も有効であると言われ e f a u l tModelと P r o f i tModelの判別ツリ るc その事実が図 lの判別ツリーから読み取れる。本稿の D ーの上層部はすべて図 1の左図と同じ分岐を有する。分岐条件は第 1層が「個人信用情報機関の借入全 民詳細はフロイド,シ γピリ (1999)を参照っ 内ペリ ハ hv ワμ
件数」であり,次層が「他の個人信用情報機関に登録があるかどうカリ r 個人信用情報機関の合計残高j, ニあるかどうか」のいずれかである c 「クレジット等の登録が 2枚以 i 図 lの右図はモテ、ルの精度が 2 1枚(グループ)で、定常になることを示す, 2本の線は学習データと訓 1枚を自動 練データのモデ ルの精度であり,両者が一致するほど良い, SAS/EMは精度が定常になる 2 探索できる c 図 2はモデル精度の観点、から D e f a u l tModelの葉数の影響を比較する。葉数は最終分岐のクー/レーフ。数 I合チャートのモデル曲線は座標点(横軸 5 0 ' %,縦軸 65%) を通る c それ である c 右図の正反応補足害J は全顧客 50%を選択した場合に全デフォルト顧客 G5%を的中するモデルを意味する心図 2は共に SAS/EMが探索した最適枚数 2 1枚のモデルが, 8枚よりわずかに精度が高いことを示すc 図 3は判別ツリーの構造を示す c 左上図の 2個は D e f a u l tModelの決定木の最終葉数 8枚と 2 1枚で ある。判別ツリーの構造は,中心円から外円に向かつて分割されていくことで表現するむ色が濃いほど B la c k と羽なl i t eの分離がうまくいき,区分面積が人数を表わし,最終外円の区分数が判別ツリーの葉 数を表わす。内部の区分構造が複雑になるにつれて,判別ツリーの構造は複雑になる。一般に決定木の 短所の一つは巨大グループを作成することである c 実務のモデル開発で、はおIlかい施策を適用させやすく するために,業務知識を反映させながら葉数:3 0~50 枚になるまで強制分割させる、 本稿の P r o f i t a b l eMod巴lの 1段階のモデルは最終葉数 1 0枚を採用し, 1 0グ.ルーフ。二、とに次の分類 器を適用するこ葉数 1 0枚で分岐を止めた理由は,これ以上分岐するとクールーフ。内のデータ数が少なく なるためである。 4 . 3 . P r o f i t Model と Default Model の比較 P r o f i tModelは目標変数の収益額が問題になるこ少額ローンの顧客は収益からコストを引くとマイナ スの利益となるため,そのままではブラックと判定されてしまう。カード入会から 2年間のコストは, 00円以上になる仁この事実に基づいて複数の収益の境界値を設定しモデ カード作成費用を含めて約:30 ルを比較する 下表 1は境界値とデフォルト/正常顧客の人数割合を記載する。境界値が 1円 , : 35 00円では,デフォ ルト/正常顧客の人数割合はそれほど変化しないc 図 3は P r o f i tModelの収益/損失の境界値が l円 , 3 :5 00円 , 6 000円 , 8000円 , 1 0000円である宇!Jg J ! r o f i tModel は境界値が変動しても大きく判別ツリーの構造が変化しないむ注目 ツリーが含まれる, P r o f i tModelの中に円の分割面積の約 45%を占める巨大なグループ存在することである c 点は図 3の P この部分は「他社借入が 0 また 1件で,かっクレジットカードを 2枚以上保有する顧客層」に相応する ε 一方, D e f a u l tModel葉数 1 0枚以上では,この顧客層を分割できるむつまり P r o f i tModelは D e f a u l t Modelと同じ精度,同じ葉数を有しでも判月リツリーの構造が相違するむ 一般に密に分割された部分はオ ーーパーフイッティングの可能性が高く, しかも経済変化等に弱し、可能性がある。 図 4は P r o f itModelと D e f a u l tM o c l e lの精度の比較を示す。両者の差異は右図の正反応補足割合チ e f a u l tModelが最大 5%程度優れている。左図の正反応割合チャートと ャートからわかりづらいが, D 下表の誤差集計表から,モデル精度が優れている順序は D e f a u l tModel最終葉数 2 1枚 , P r o f i t境界値 1円 , D e f a u l t最終葉数 8枚 , P r o f i t境値:3500円 , 6 000円 , 8 000円 , 1 0000円である c つまり D e f a u l t Model は P r o f i tModelより精度が優れており, P r o f i tModelの境界値が大きくなるほど予測が難しく なる。 図 5は収益面からモデルを比較したものである。左図は D e f a u l tModelの葉数 2 1枚が 8枚より収益 r o f i tModelの境界値による収益の影響が少ないことを示す。右図はリ が大きいことを示す。中図は P スクが少ない場合は D e f a u l tModelの収益が上回り, リスクが大きい場合は P r o f i tModelの収益が大 きくなる。つまり P r o f i tModeは高リスク顧客の収益を予想している可能性がある c 本稿はサンプリン グ条件が複雑なため,誤解が持たれないように累積利益チャートの金額単位を付けていない。 F 収益の境界 264‑
1. 4 . 2段階の分類訪日の分析結果 医1 6は 1段階のク"I~" ーフOU) 一つ l こ 2 段階の分煩掃を適用したときのモデル精度の結果でふj るむ上から 決定木 CAl tTの Bagging,決定本一 CARTの Boo自tmg,決定木 CAIU単体の 11買である, CAW l'単体で T lTの naggingを採用するむまたアンサンプル学習を試みて は精度の向上が見込まないので決定木 CA も精度が上がらないグ、ループも存在した c 図 7の累積利益チャ』 トは D p f a u l tModelと P r o f i t a b l eModel と P r o f i tM o c l e lの利益比較である c リスクが低い場合はl'r o f i t a b l e Model の利益が大きく, リスクが大きい場合は Defaul. l Model, P r o l i t a b l e Model, P r o l i ' tMoI ce l の順位に利益が大きくなる。以ヒから P r o f i t a b l e Model は従来の DefaultModelよりも利益性が高いと言える亡ただモデル再現性は他会社データの検証が必要になる ι 5 . 考察 本稿は P r o f i t a b l eModeLP r 叶l tMode. IDe' l a u l tModelをモデ、ルの構造・精度・利益から比較したと ①P r o f i tModelと De' l a u l tModelの比較 P r o f i tM o c l e lは DefaultModelと比べてモデ ルの精度は低いが, リスクが高いときは収益が高 い , Pro ' l i tModelのモデル構造には全体の 15%弱におよぶ「他社借入が 0また 1件で,かっクレ ジットカードを 2枚以上保有する顧客層」が存在するじ DefaultModel はこの顧客層を分割でき るため, P r o f i tM o c l e lよりもモデルの安定性があると推測される, P r o f i tM o c l e lは De ' l a u l tM o c l e l とぼぼ同じ精度かつ最終枚数が同じでも経済変化に伴う精度の劣化が予想される c ②P r o f i t a b l eM o c l e l P r o f i t a b l eModelは DefaultModelと比べて,モデルの精度はわずかに低いが,収益性は優れ ている。しカ・し実務運用へ移行するには経済変化によるモデルの精度・利益の影響を検証しなけ ればならないむ本稿では過去データが不足しているため時系列変化が検証できず,今後の課題で r o f i t a b l eModelが必ず DefauliM o c l e lより優れているわけでない ε 1段階のモデル ある c また P r o f i t a b l eModelの収益性に大きく影響する c での最適分割数は試行錯誤で求めるが、それが P P r o f i t a b l e Modelはアンサンフツレ学習を用いるため,キャッシングローンモデルを運用するホ ストコンピュータへの移植が簡単でなく,実用化には運用面の課題が残る c 6 . おわりに P r o f i t a b l eModelを開発するために P r o l i tModelと DefaultModelの比較を試みたが、この研究も r o f i tMmlelは使つてはならないと言われていたが,本稿が初め 価値のある結果が得られた。今まで P てP r o f i tM o c l e lの欠点を定量的に追求した。 P r o f i tModelが分害1 [不能の顧客層をさらに分割するには、 顧客のリアルデータが必要であろう。 この事実をキャッシングローンの業務担当者に告げたところ,次の発言が得られ業務上の裏づけがと れた。『他社借入が 0また 1件で,かっクレジットカードを 2枚以上保有する顧客層は,キャッシング ローン顧客の中でリスクが小さい安全顧客に相当する。安全顧客のデフォルトは勤務先,勤続年数、住 居形態等からもう少し深く推測できる。しかし安全顧客の収益は個人信用情報を参考にしても予想が難 しい。逆にリスクの高い顧客の収益は予想、できるかもしれなし、』と c 顧客の予想利益モデルの開発は研究者の夢で、あるが,顧客属性のリアルデータの取得が困難な状況下 で,前述のモデル開発は時期尚早であろう。 隈られた顧客属性データで,与信モデ、/レの精度や収益性を 向上させるには,顧客の収益/損失データか,顧客のリアル取引データの利用が考えられるじ本稿は今 後の与信モデルの改良に新しいアイデアを提供したと位置づけられる c 本稿は個人的見解で、書かれており,所属する UFJ銀行の意見をあらわすものではありません G 7 . 参考文献 ・佐々木研 fリスク管理とそれに必要な要素¥第 2 1回日本 SASユーザ会研究発表論文集, pp3 i ‑9 ‑ 3 5 3, SASI n s t i t u t e 2 0 0 2 Japan, ・コアブ・フロインド¥ロノレート・シヤピリ,訳阿倍直樹J ブースティング入門..人工知能学会, v ol . l ‑ lNo, 5, p p 7 7 1 ‑ 7 8 0, 1 9 9 9 . ・小野ì~ ,“データマイニングを利用した融資モテ.ルの現状と課題..人工知能学会研究会資料 SIG-J-AOO-i, pp-19-5 -l, 2001. ・小野潔, ノ、ィブリッド・コンポーネントの構築..第 2 0回日本 S . ‑ ¥ Sユーザ会研究発表論文集, p p 2 6 9 ‑ 3 2 7, S . 喧 I n s t i t u t e 2 0 0 1 Japan, 内ノω Fhu b ハ
図 1 DefaultModelの判別ツリーと精度 左図:判別ツリー 右図:モデル精度比較(上から学習データ,訓練データ) SAS厄 M 決定木の自動生 成機能は最終葉数 21 枚 で精度が定常になること を算出する c 図2 D efaultModelの葉数の影響 1枚. 8枚,ランダム曲線) 左図:正反応割合チャート(上から. Default葉数 2 右図:正反応補足割合チャート(上から,理想曲線. Default21枚. 8枚,ランダム曲綿) . . 図 3 判別ツリー(左上から Default葉数 8枚.Default 葉~21 枚. Profit境 界 値 1円.Profit3500円 , Profit境界 6000円.Profit境界 8000円.Profit境界 10000円) ρhu ρhu ワ 臼
図 4 ProfitModelの境界値変化と [ ) e f 3 1 1 1 tModelの精度比較 上左図:正反応補足割合チャート 上右図:正反応割合チャート , 8000円 , 6000円 , 3500円 , 1円 ,[ ) e f a l l lt 2 1十 丸 8キ 文 ) (上から Profitl0000円 下表:誤差集計表(上から [ ) e f a l l l t 8枚 ,2 1枚 , Profit Model境界値 1円 , 3500円 , 6000円 , 8000円 , 10000円) 初 ツー)~ : 名 前 r1 担」ゲゥト t ;泌 屯 司 、 Def̲08 ・ ・A̲Gδ両L A Tree Tree Tree Tree Tree Def2 1 P rf O0001 Prf03500 P r f 口6口 口 口 P rf DB口00 A GOAL C GO向L 8 GO向L GO向L6口 口 口 GOALB 口 口 口 節目,~ ;担ーゲ i ii RnotASE iValidRDotASEliMisclassificalioriR. ale!Valid:MisclassificationR. ate ba正 、 瓦泌必両面76. .6‑b.5.尚422証 工 、 . ー ー ー ー ー ー 立岩泊弱漏出泊'…ー一‑...・ーーーー日記05454481 bad bad bad bad bad 日434774日102 日 . 4332265 日 日4 日44171口3877 日4467229751 口4521935459 0.45277 日7399 0. 4568039066 46日 目 659922 0. 0. 4671886823 0. 466日 日 自4335 日 . 2 75日951127 0.2745 日98039 日2日5目233246 口2日52日 日 2646 日7 1 0.3034825 口29439日 日 日7 1 口29544日 口 日 74 0.30259562日4 日3 1日1日 目 2896 0 . 3 2 1日3日2514 図 5 累積利益チャート (横軸:リスクランク(右にいくほどリスク大),縦軸:累積利益) ) e f a l l l tMode121枚 , 8枚 左図:上から [ , 3500円 , 6000円 , 8000円 , 10000円は共にほぼ同じ曲線 中図:ProfitModel境界 I円 ) e f a u t 1 2 1枚が上, リスクが大のときは Profit3500円が上 右図:リスクが小のときは [ 12 j 4 5E 7; 1 1 0 1 1 1 2 1 3 1 4 1 5 1 6日 1 3 1 9叩 , 12 3 4 5 5 7 l ;I J1 1 ;1 1 41 51 51 7l E1 9; 0 1 2 3 4 5 5 1 8 91 01 11 21 31 41 51 61 i1 81 92 0 図 6 2段階モデ ルの正反応補足割合チャー卜 (上から,決定木の Bagging,決定木の Boosing,決定木単体) IU ρhu ー ワ り
図7 P rofitable Modelの累積利議チャート Profit a Q ieMorlel D出 u 封 Modcl菜 21枚 I 叩 μ o d巴I境 界 :3500円 F 6y ノ , 9 ' 謬 で ,~: : ' { j 、 ~。ぞ1 t 都 稽 累 [ 一 醐 煩 額 蜘 。 掛 酷D p p r r o o M h R t 3 M 5 2 e 0 1 0 1 " 、 : 話 1 m ト 訴守: 理 主 2 3 4 5 6 7 B 日 10 1 1 12 1 3 14 1 5 1 6 1 7 18 1 9 20 R1SKRANK ‑268‑ │
日本 SASユーザー会 (SUG1‑0) 非補償型ロジットモデルを用いた企業倒産確率の予測モデル ‑NLPProcedure による非補償型ロジットモデルに対するパラメータ推定 坂巻英一 株式会社金融工学研究所 東京工業大学大学院 社会理工学研究科価値システム専攻博士後期過程 1年 RiskScoringModelw i t hNon‑CompensatoryL o g i tModel ‑ParameterE s t i m a t i o nf o rNon‑CompensatoryL o g i tModelbyNLPProcedure‑ Sakamak . i Y o s h i k a z u F i n a n c i a lTe c h n o l o g yResearchI n s t i t u t eI n c . TokyoI n s t i t u t eo fTechnology G r a d u a t eS c h o o lo fD e c i s i o nS c i e n c eandTechnology 要旨 現在,我が国の金融機関における最大の課題である金融システムの安定化を実現するために,信用 リスクの測定と管理の効率化・精度の向上が今求められている. 信用リスク管理 l ま今日統計モデルを活用したアプローチが主流になっているが中で、も二項ロジットモ ま,従来用いられてきた線形補償 デルを用いたものは現在多くの金融機関で利用されている.本論で l 型二項ロジットモデルを企業のデフォルト予測に用いる際の問題点を指摘すると共 l こ,従来型モデルの 持つ問題点を改善することを目的とし非補償型ロジットモテ.ルを用いた企業デフォルト確率の予測モ デルを提案する.併せて.SAS NLPプロシージャを用いた最尤推定を行う方法を紹介すると共に,非補 償型ロジットモデルを信用リスクの分野へ応用する際の今後の課題と展望について考察する。 キーワード: 信用リスクモデル・非補償型ロジツトモデル・ NLPプロシージャ 1 .はじめに 経済が低迷を続ける中,わが国における金融システムと金融行政に対する信頼を回復し、世界 から評価される金融市場を作ることは,今日の金融市場に課された大きな課題である。こうした 中金融行政は,平成 16年度に主要行の不良債権比率を現状の半分程度に低下させ、問題の正常 化を図るとともに、構造改革を支えるより強固な金融システムの構築を目指すとしており,現在 全ての金融機関・投資家個人・事業会社に対し,信用リスクの存在を十分に認識しそれを測定・管理 することが求められている. 信用リスク分析の基本として現在でも広く行われている手法の一つに財務諸表分析がある.財 務諸表分析は 1 9 世紀末に金融機関が融資対象企業における信用調査を目的として開発された手 法である。しかしながら,財務諸表に基づく分析はアナリストの分析経験の深さに大きく左右さ れることが多く,その結果,分析結果にばらつきが生じることが多い。このような主観的な分析 手法のみではリスク測定に関するコンシステンシーを保つことが難しい上、大量の信用分析を精 度良く行う上で費用も時間も掛かるといった問題点が指摘されていた. こうした問題点に対し,数理統計的手法取り分け多変量解析的手法を駅使したモデルを用いる ことで財務諸表分析を科学的な方法論によって導出しようという試みがW.H . B e a v e r( 19 6 7 )以降盛 .I .A l t m a n (1 9 6 8 ) (1 9 7 9 )( 19 7 1 ) (1 9 7 6 )の んに行われるようになってきた.中でも最も有名なものが, E 発表した Z値モテール或いは Zスコアモデルと呼ばれる手法である. 本論では A l t m a n (1 9 6 8 )以降,これまで先行研究として行われてきた信用リスク管理における統 ~269
計的アプローチの流れを概観すると共に,現在広く用いられている線形補償型二項ロジットモデ ルを基礎とした確率モデルによる企業デフォルト確率の推定方法が持つ問題点を指摘すると共に, これらの問題点を解決しデフォルト確率の推定精度を向上させるための非補償型二項ロジットモ デルを基礎としたスコアリンクョモテソレの改善提案を行うことを試みる. 2 .先行研究における信用リスク分析モデルの紹介 ここでは統計的アプローチに基づく信用リスク測定手法についてデフォルト企業の予測を例に 先行研究としてこれまで行われてきた研究を紹介する.前述した通り,企業のデフォルト傾向に l t m a n ( 1 9 6 8 )の判別分析モデ、ノレに遡ることができ,その研究成果は Z値モデ ルと 関する研究は. A して知られ,これまで企業のデフォルト傾向分析において最も広く使用されてきた手法の一つで あると言える. ここで,判別分析を用いた信用リスク測定方法について簡単に説明する.属性を示すリスクフ ァクターが個社 i毎にそれぞれ存在するとし,これらのリスクファクターに対してウエイ卜を課 し、加重平均することでデフォルトに対するリスクファクター (Z, ( / ) )、非デフォルトに対するリ , ( 1 ) ) を合成する。 スクファクター (Z a ︐ l ( ︑ z J 1 } = βIXIJ +β2X2J +… + βmXmf z J 2 ) = βIXIJ +β2X2J +…+ βmX 1 l I ' ここで合成されたリスクファクターのそれぞれのクツレープにおける平均を ( 2 ) z ,z ( l ) ( 2 ) とする。また、合成されたリスクファクターのサンプル全体における分散を均r ( Z )とする。さら に、未知のパラメータであるウエイ卜は、下式を最大化することによって決定される。 η 2‑ ー ( E ( l ) ‑ f ) y ( 3 ) V αr ( z ) このようにして得られたパラメータをウエイトとし、複数のリスクファクターの加重平均の値 の水準によって、任意の与信がデフォル卜・非デフォル卜のどちらに属するかが決定されること になる。 ここで紹介した線形判別関数に基づく信用リスク分析は計算が容易であることと伝統的ないわ ゆるスコアカード方式に代表される信用評点分析に似た点が多いため,扱いやすく現在広く一般 的に利用されている.しかしながら,判別分析を信用分析に適用する場合には,その統計的仮定, 1 9 9 9 ) 信用分析に特有の問題点など以下の点に十分注意を械う必要があった. (森平 ; 1 : .1>>正規性と等分散性 判別分析を実施するにあたり分析に用いられる変数の正規性及び等分散性の仮定が満 たされない場合,判別係数の統計的検定や判別評点によるデフォルト予測が正しく行われ なくなる可能性がある。仮に,正規性と等分散性の仮定が満たされない場合には,誤差項 の確率分布に関する仮定のみを要求する定性的従属変数モデルや利用するリスクファク ターに関する仮定を全く必要としないツリー分析等のノンパラメトリック手法が適して し、ると考えられる. 1 : .2 > >母集団におけるデフォルト・非デフォルト確率の均一性 判別分析では通常,デフォルト・非デフォル卜企業を判別する場合,デフォルト企業と 非デフォルト企業の割合に関して何ら事前情報がなく,デフォルト企業と非デフォルト企 e 業の割合は等しいという仮定の基で、モテ ルの構築が行われていた.しかしながら,通常, デフォルト企業と非デフォルト企業との割合は,地域毎・銀行毎等によって異なるのが普 通でありこれらの仮定は現実に反することになる. 1 : .3>>算出された重み係数の持つ意味 推定された判別係数は回帰分析における推定回帰係数と異なり,その絶対値の大きさは ウi ハ U ' つ
ユニークに決定されるのではなく,その相対的な比率のみがユニークに決定される.従っ f i J 別評点 て,判別係数から推定された判別評点もその絶対値はユニークに決定されない. ' の値そのものの絶対値についても同様である.つまり,判別点からの各企業の判別評点の 偏差のみが意味を持つことになる. スコア)を用いて企業のデフォルト・非デフォルトを分類するためには,リス 特に判別評点 (Z クファクター(独立変数)が多変量正規分布に従うこと,デフォルト企業と非デフォルト企業の独 立変数の分散・共分散行列が等しいという二つの強し、仮定が必要不可欠で、あり,分析手法が広く一 般的に利用されている半面,統計的に扱いにくいといった問題点も含んでいる. また, リスクを数値化するためにはいつどのくらいの確率で企業がデフォルトするかを明らか にする必要がある.即ち ,Z値スコアに代表される判月リ分析的アプローチでは比較的良い・比較的 悪いといった相対評価としての尺度を与えることが出来たとしても,絶対評価としてどのくらい の確率で企業がデフォルトするかを把握することは出来ない. こうした問題点を解決する手法としてやがて定性的従属変数モデルが代用されるようになって きた。定性的従属変数モテ、ルの代表的なものとして,線形回帰分析モデルが上げられる.即ち, y, :0 (正常)或いは 1 (デフォルト)を取る確率変数 X1 の持つ j 番目の信用リスクファクター ) :個社 i s j番目のリスクファクターに対する推定ノ fラメータ e j :個 社 iの誤差項 とした時, , : 。 + 工 β, +久 y,= β ( 4 ) X " . 1 = ' となりこの回帰モデルから得られる従属変数の期待値がデフォルト確率の推定値を表すことにな る。しかしながら,線形回帰モデルを用いた手法では, リスクファクターの合計値が大きいとこ ろでは lより大きくなり,一方, リスクファクターの合計値が小さいところでは 0より小さくな ることから,確率の定義に反することになる.この問題を解決するために,従属変数の期待値が 0より小さい時にはデフォルト確率を 0,1より大きい時にはデフォルト確率を!とするといった 推定方法が取られることがあるが,推定デフォルト確率を 0と lの聞に王子、意的に押し込めること は自然ではないと考えられる. こうした問題点を克服するための手法として,ロジスティック回帰分析が用いられるようにな ってきた (Ma 口i n ; 1 9 7 7 ) . ロジスティック回帰分析では, リスクファクターの合計値を ZI=β。 +β, X" +… + βmX ( 5 ) 1 l 1 1 と定義した場合,個社 iがデフォノレトする確率 p, を PI=l(6) 1 +exp(‑Z, ) により与えるというものである. ( 6 )式により企業 iのデフォルトが起こる確率 p, が定義された場合,係数ベクトル pに対する尤度 = L(~ I X", X, 2" " X ' I I I)であることから 関数は L, I TL, L(~) = =ITp, ‑ ' " ( l‑p, ) ' ‑ Y , で与えられる. ここで, ‑271‑ ( 7 )
y,1:個社 Iがデフォノレトした時 y, =O:個社 iがデフォノレトしなかった時 二 である。また. ( 7 )式の両辺に対し対数を取ることにより対数尤度関数を 工{y,logpi+(1‑y,)log(1‑p,)} I ( s )= , = 1 ( 8 ) と定義できる.一般的に,パラメータの推定には通常最尤推定法が用いられ. ( 8 )式が最大になる ような係数ベクトル pを決定する. 3 .従来型モデルの持つ問題点 9 6 8 )の古典的信用リスクモデ ロジスティック回帰による企業デフォルト確率の推定は A1tman(1 ルに比ベデ、フォルト確率を絶対尺度により測定することを可能にしたという点において意義のあ るものであると言える.しかし,このモデルはいわゆる線形補償型二項ロジットモデ、ルを基礎と しており,モデ、ルの中で使用されているある特定のリスクファクターだけがたまたま大きなデフ ォルト傾向を示したことにより,実際にはその企業はそれ程デフォルト傾向が強くないにも関わ らず,高い推定デフォルト確率を与えられてしまう可能性を含んでいる.また,経験則からデフ ォルト直前の企業はほぼ全ての財務指標について平均値に比べてデフォルト傾向に傾いていると 1は日経新聞社が提供する BULKシステムに搭載された財務データ公開企業にお 考えられる。表 . ける,デフォルト企業と正常企業それぞれについて代表的な 7つの財務指標の平均値を算出した 結果であるが,この表からもデフォルト企業の全ての財務指標は正常企業のそれと比べ企業経営 を悪化させる方向に傾いていることは明らかである。こうした事実を鑑みた場合,モデルの中で 使用されているリスクファクターが総合的に強いデフォルト傾向を示した場合に推定デフォルト 確率が上昇するとした,従来型の線形補償型二項ロジットモデルではデフォルト企業の捕捉に限 界があるのではないかと考えられる。 ラベル Xa xb Xc Xd Xe Xf Xg Xa Xb Xc Xd Xe Xf 自己資本比率 借入金依存度 売上高支払利息・割引料 当座比率 預貸率 売上高営業利益率 支払準備率 自己資本比率 借入金依存度 売上高支払利息・割引料 当座比率 預貸率 売上高営業利益率 2830 2830 2830 2830 2830 2830 84 84 84 84 84 84 。 2 . 5 5 9 5 3 4 1 0. 4604436 4.9957143 4.9326155 0.8874064 4. 4315789 0 . 3 5 2 0 7 4 8 0 . 0 0 9 6 6 2 6 0 . 8 9 1 8 0 1 6 0 . 5 9 0 5 6 5 0 0 . 0 4 1 7 9 1 3 0 . 2 9 8 5 7 0 6 0 . 2 4 6 6 9 8 5 0.0021947 0 . 0 1 7 7 7 2 6 0 . 5 6 5 5 4 4 8 0.000317524 0 . 8 6 2 5 4 6 9 一0 . 0 2 1 4 2 4 2 0 . 0 9 5 3 9 2 3 2.5071885 0 . 3 5 0 4 3 5 6 0 . 0 0 6 9 2 6 5 平均値 標準偏差 1 最小値 0 . 0 0 7 3 1 4 4 0 . 8 0 9 2 5 5 3 0 . 0 2 8 6 1 1 3 4086666 0. 0 . 1 0 3 9 2 2 8 0 . 0 4 2 1 9 4 7 4437821 0. 0 . 5 5 8 4 7 5 4 0 . 0 2 6 7 8 2 8 0 . 3 7 0 6 3 4 8 0 . 1 4 1 8 7 9 9 0 . 1 2 4 9 8 3 0 . 6 1 1 2 8 7 1 2 . 2 8 8 6 8 0 5 0 0 . 0 4 2 3 8 4 0 4.6631497 0.1592179 0.0086844 1 .8037889 .0553471 0 . 0 2 7 1 4 6 0 1 0 . 6 0 0 1 0 3 6 0.0882768 。 円r u 円r u ワl
ラベル 支払準備率 こうした問題点を解決する上で,片平ら ( 1 9 9 8 )はマーケティングサイエンスの分野において興 味深い研究を行っている.マーケティングサイエンスの世界においては,多くの場合線形補償型 二項ロジットモデルにより消費者の意志決定が行われることを仮定しモテ ル構築が行われる.し かし,どんなに価格が安い商品で、あっても品質が一定の基準を満たさなければ消費者にその商品 が受け入れられないといったように,いわゆる非補償型の意志決定が行われる場面は少なくない. この点に関して,ある条件のもとでは非補償型のモデルを補償型のモデルで近似できることが, Dawesa n dC o r r i g a n( 1 9 7 4 ),J o h n s o na n dMeyer( 1 9 8 4 )等によって示されてはいるものの,そもそも 消費者が非補償型の意志決定を行う頻度が高いとしづ指摘がある上 ( B e t t m a na n dJ a c o b y( 1 9 7 6 ), Paynea n dR a g s d a 1 e( 1 9 7 8 ) ),属性聞に負の相聞がある場合にはそのような非補償型の意志決定を補 J o h n s o n,Meyera n dGhose( 1 9 8 9 ) ) . 償型モデルによって近似できないことが示されている. ( これを企業のデフォルトに当てはめて考えてみた場合,特にデフォルト直前の企業についてみ てみると,殆ど全ての財務指標が企業の経営を悪化させる方向に傾いている.また,従来企業デ フォルト確率予測モデルにおいてはモテ子ルの説明変数として企業の財務指標が利用されることが 多いが,財務指標は一般に相互に強い負の相聞を有していることが多く, J o h n s o n, e ta l . (1 9 8 9 )の報 告を考慮するならば,企業デフォルト確率の予測モデ、ルとして従来行われている線形補償型の二 項ロジットモテ守ルを適用することは統計的な観点から適切ではないと考えられる。こうした点を 鑑みた場合,従来型の線形補償型二項ロジットモデ、ルよりもむしろ,モデルの中で使用されてい る全てのリスクファクターが強いデフォルト傾向を示した場合にのみデフォルト確率が上昇する としたいわゆる非補償型三項ロジットモデルを用いた方が現実に則しているのではなし、かと考え ることができる.そこで,本論では従来型の補償型二項ロジットモデ ルを基礎とした信用リスク モデ、ル(スコアリングモデル)の問題点を解決し,企業デフォルト確率の推定精度を向上させる ことを目的として,非補償型三項ロジットモデルを用いたモデ、ルの改善提案を行うこととする。 また,本論における提案モデルの妥当性を検証するために,実データをモデ、ルに適用すること によりモデ、ルの妥当性を検証するとともに本論における提案モデ ルで、ある非補償型モデ、ルが従来 型の線形補償型二項ロジットモデ、ルに比べ高い推定力を持つことを示す。 3 ‑ 2 本論における提案モデルの説明 ここで本論における提案モデ、ルとして,片平ら(1 9 9 8 )を基礎とし,企業のデフォルト確率推定 モデルとして,以下に示す「連結型」と「分離型 Jの二つのモデ、ルを示す. <連結型モデノレ> モデルの中で考慮、される全ての属性が閥値を越えたときに,企業デフォルトが発生することを 仮定したモデルである.ある企業 iが与えられた時この企業がデフォルトする確率を K 1 ,p =t II . ~ Jl+cxp(β s , k(X'k ーら)) ( 9 ) により定式化する. ただし, Xk :企業 i の k番目の属性に対する推定パラメータ ( i =1 , 2, . .. , 1 ; k =1 , 2. ,ー ・ , め s k:モデルで使用される k番目の属性に対する推定パラメータ Tk :k番目の属性についての関値( k =1 ム… ,K) とする. <分離型モデノレ> モデルの中で考慮、される何れかの属性が閲値を越えたときに,企業デフォルトが発生すること を仮定したモテツレで、ある.ある企業 iが与えられた日寺この企業がデフォルトする確率を qd ηi ワμ
A ~ =1 ‑I I (1‑. 2tf 1 ~ , ( 10 ) " ) l+exp(‑βk '( X ' k‑' k ) ) により定式化する. ただし, X k:企業 Iの k番目の属性に対する推定パラメータ ( i ニ 1 , 2, 一 ・, I ; k =1 , 2, . . ,的 s k:モデ、ルで、使用される k番目の属性に対する推定パラメータ Lk :k番目の属性についての関値 ( k =1 ム ・ …, 1 0 とする. 3 ‑ 3 比較対象モデル 6 )式で示された通常の二項ロジットモデルを用いる. 本論における比較対象モデ ルとしては. ( 3‑4 パラメータの推定 パラメータの推定は最尤推定法により行い. ( 1 1 )式を最大にするパラメータ (s) を求める. L ( s )= T I p / '(1‑p y ‑ y , ( 1 1 ) i = 1 3 ‑ 5 モデルの適合度に関する検証 本論では従来の線形補償型二項ロジットモデル,非補償型ロジットモデルの適合度指標として, C h a k r a v a r t ie ta l . (1 9 6 7 ),H a r t e re t 対数尤度. AICの各統計指標に加え, Kolmogorov‑Smirnov統計量 ( a . l( 1 9 8 4 ), 問1 a m i s( 1 9 9 0 ) (1 9 9 2 ) ( 2 0 0 0 ) )(以下 KδDistanceと記述する).d i v e r g e n c eの各指標をモデ ノレ評 価に利用した.ここで, K‑SD i s t a n c eとは二つの分布をそれぞ、れスコアに基づき累積してゆき,そ i v e r g e n c eとは正常企業に対して付与されたスコ の百分率をとった場合の最大の差である。また, d アとデフォルト企業に対して付与されたスコアの期待値と分散からそれぞれの分布がどれだけ離 れているかを表す指標であり 的:正常企業に付与されたスコアの期待値 内:デフォルト企業に付与されたスコアの期待値 九:正常企業に付与されたスコアの分散 VB :デフォルト企業に付与されたスコアの分散 とした時, 2 ( μ A μR ) 2 D i v e r g e n c eニ I l ~~/1/ 九十九 ( 12 ) によって計算される. 4 .モデルの実データへの適用 ここで,本論における提案モデ、ルの妥当性を検証するために 提案モデ、ルに対し,実データを 適用することを試みる.検証用データとしては,日本経済新聞社が提供する BULKシステムに搭 載されている公開企業情報を使用した. 4 ‑ 1 検証用データ概要 1 . 2000年 4月から 2001年 3月までの各社決算データ 2. データボリューム:モデ、ルで、使用される財務データに関して欠損値を含まないもの 2, 914件 3. デフォルト件数:決算書公聞から 3年以内にデフォルトした場合をデフォルトと見なしモデ ルを構築(デフォルト確率:8 4 / 2, 914=2.88%) A4 ヴ t b nノU
4. モデル内で使用された財務指標 実務経験に基づき企業のデフォルトに大きく影響すると考えられる X , κ 4 υ t . 自己資本比率 ( . 借入金依存度(伏 Xけ ) h 売上高支払利息・割引料(広) 当座比率(ん) 預貸率(ぶ) 売上高営業利益率(劫 支払準備率 (X g) を財務指標としてモテ寸ル内で使用した。 ただし,企業の財務データに基づく各財務指標の算出過程は以下の通りである. 自己資本比率 三資本金合計/資産合計 借入金依存度 二(長短期借入金+割引手形 +CP) /(資産合計+割引手形) 売上高支払利息・割引料 二(支払利息・割引料)/(売上高・営業利益) 当座比率 三(現預金+受取手形・売掛金+有価証券)ん流動負債合計 預貸率 二(現金・預金)/(長短期借入金+受取手形割引高) 売上高営業利益率=(営業利益)/(売上高・営業利益) 支払準備率 =(現金・預金)/(流動負債合計) ・ ・ ・ ・ ・ またモデ ル検証用として使用した検証用データの基礎統計量を以下に示す 表. 2 検証用データの基礎統計量 MEANS プD シジャ ー寸 「一一ー _1J1~~- '7~!~_ ‑ u Xa Xb Xc Xd Xe Xf Xg 自己資本比率 借入金依存度 売上高支払利息・割引 料 当座比率 預貸率 売上高営業利益率 支払準備率 l平均値 l 標準偏差 l 最付直̲̲̲ J 最大値 2914 2914 2914 2914 2914 2914 2914 0 . 3 7 7 8 7 2 2 0 . 3 6 5 2 5 3 7 0 . 0 1 0 2 0 8 8 0 . 8 7 7 8 7 4 6 0 . 5 7 6 5 3 6 9 0 . 0 3 9 3 7 0 3 0 . 2 9 2 7 9 4 2 0 . 2 3 1 4 9 8 2 2.2886805 0 . 2 7 1 7 4 5 2 0.0021947 0 . 0 1 8 3 6 4 4 0.5666294 0.000317524 0 . 8 5 4 2 4 7 7 ー0.0271460 0 . 0 9 7 3 6 4 8 ‑2.5071885 0.0564024 0 . 3 4 7 3 5 2 2 0.9667590 4.6631497 0. 4604436 4.9957143 4.9326155 0.8874064 4315789 4. 。 4‑2 パラメータの推定 このデータを基に本論における連結型・分離型双方の非補償型モデル並びに通常の線形補償型 二項ロジットモデ、ルを用いたパラメータ推定を最尤推定法により実施した. r o c e d u r eを使用した。推定に使用したプログラムの一部を参 パラメータ推定には SASの NLPP 考資料として付録に添付する.ただし,非補償型モデルに関し変数選択法により効率的にパラメ ータ推計を実施することができる SASモジュールは現在のところ市販されていないため,本論で は全てのモデ、ルに対しパラメータを総当り法により推定している.推定に当たっては,探索結果 が局所最適解 ( L o c a lMinimum)に落ちることのないよう,其々の変数の組合せに対して 20回ずつ 初期値を発生させ,其々の初期値を基にした最尤推定法による探索を行い, AIC並びに対数尤度 を最小にするパラメータの組合せを其々のモデルにおけるパラメータの推定結果として採用した. 円ノμ ﹁町U ηl
表. 3 パラメータの推定結果 パラメーヲ 。 定数項 B , 自己資本比率 U, B, 借入金依存度 U, B, 売上高支払利息・害l │料 U, 事 B Bd 当座比率 従来型線形繍 償型ロジットモ デル p‑ 値 ‑ 2 . 3 9 3 0 . 0 0 0 0 1 ー 1 .660 0 . 0 1 2 6 0 1 .2 9 1 非補償型モデル (連結型) 0 . 0 2 3 3 4 ‑ 2 . 0 2 3 0 . 1 8 2 8 2 ‑ 1 .257 0 . 0 0 8 2 7 p‑ 値 ‑ 6 . 6 1 2 0 . 0 0 0 0 6 0 . 0 9 8 0 . 0 0 0 1 9 , 預貸率 ‑ 2 . 9 1 8 0 . 0 1 5 4 5 47 7 ‑ 2. 0 . 0 0 0 2 7 p‑ 値 6. 45 6 0 . 0 1 5 2 2 3 . 6 1 0 0 . 0 0 0 0 0 0 . 5 6 6 0 . 0 0 8 2 8 2 . 9 4 6 0 . 0 0 0 0 0 ‑ 6 . 3 7 6 0 . 0 0 0 0 4 0 . 7 9 9 0 . 0 7 1 8 3 Ud B 非補償型モデル (分離型) U. Bf 売上高営業利益率 ‑ 3 2 . 1 6 8 0 . 1 4 0 7 6 ー 1 .540 0 . 0 9 8 4 8 0 . 0 2 9 0 . 0 0 0 0 0 9 . 6 1 9 0 . 0 0 0 0 3 ‑ 5 . 9 6 6 0 . 1 8 6 7 4 0 . 2 2 5 0 . 0 1 8 9 9 Uf , 支払準備率 U, B 対数尤度(・2 l o g L ) 5 6 9 . 1 0 5 0 7 . 1 2 6 0 3 . 0 7 AIC 5 8 3 . 1 0 5 2 3 . 1 2 6 1 5 . 0 7 Divergence 0 . 1 4 6 0 . 1 5 9 0 . 0 9 9 K‑SD i s l a l l c e 59.18% 64.74% 56.84% 5 .考察 ノ〈ーゼ、ル合意に基づく自己資本規制の改定に向けた今日の動きに見られるように信用リスクの 計量化に当たり,信用格付を基礎とする考え方が注目されるようになってきた.例えば, BIS規 制の新提案では銀行の抱える信用リスク量を把握するにあたり「内部格付手法 J を利用する場合 には銀行独自の格付を利用することが認められているが,そもそも各銀行の抱えるリスク量に相 応しい自己資本の積み増しを行うためにも,現時点で銀行各行が抱えるリスク量を正確に把握で きる精微な確率モデルが必要となることは言うまでもない. これに対し,従来広く一般に用いられてきた手法の一つに線形補償型二項ロジットモデ ルに基 づくデフォルト確率の予測が挙げられるが,官頭で述べたように,企業のデフォルト傾向と各財 務指標との問には,補償型というよりはむしろ非補償型の関係が成り立つ傾向が強いことが経験 貝J Iから推測される。一方で,信用リスクモデルにおいては,例えば自己資本比率と負債比率との 関係のように相互に強し、負の相関を持つ財務指標がリスクファクターとして用いられることが多 いが,こうした変数を線形補償型モデルに適用することは,前述した通り確率的な問題点がある。 そこで、本論で、は従来型モデ、ノレの代替案として非補償型ロジットモデ、ルを用いたデフォルト確率予 測モデ、ルを構築することでこうした問題点を克服することを試み,併せて本論における提案モデ ルに実データを適用することで本論における提案モデルが従来型モテ、/レに比べ優位性を有するこ とを示した. 図. 1は従来の線形補償型モデル,非補償型モデ、ルそれぞ、れによるデフォルト企業の補足曲線(リ フトカーブ)を描いたものである。このグラフからもわかるように,本論で提案した非補償型モ デルによるデフォルト企業の補足力についてみてみると,分離型モデ ルで、は従来の線形補償型モ デルに比べ,補足力が落ちるものの,連結型モデ ノレでは従来型モデ、ルに比べ非常に高い補足力を 示しており,非補償型(分離型)モデルを仮定した本論における提案モテツレは,従来型モデ、ルに 対しモデルの改善効果が認められると考えられる。このことは,前章において算出された対数尤 度 , AIC統計量からも明らかである。 ‑276
図. 1累積デフォルト件数の推移 1 0 0 w 80 き 70 橿 I t 60 ム E =ミ回 、 令 r 40 1 ト 棒 眠 ' 0 健一一一 一一一一」 一一一ー一一一一 20 : ーーー・補償型 ー・ー非補償型(連結) ‑t 戸非補償型(分離) 一一一一「 l 最後に,本研究の応用領域と今後の課題について言及する。 本論では,財務指標のみを用いてモデルの妥当性を検証してきた。しかし,一般的に企業のデ フォルト確率予測モデ、ルを運用するに当たっては特に対象となる企業規模が小さくなるに従い財 務データの粉飾や意図的なデータ操作が行われることも多く,財務データそのものに対する信頼 性が低下するといった問題点が指摘されており,こうした問題点を解決するために定性的な項目 をそデ、ルの中で、考慮、することが近年求められている。その際,どのようにして,あるいはどの程 度の割合で定性要因をモデルの中に反映させてゆくのかといった点が問題となる。実務的には, 定性要因と財務データを同時に線形補償型二項ロジットモデ、ルの中で考慮するといった方法や, 定性要因のみからのパラメータ推定と財務データのみからのパラメータ推定を独立に行い,経験 則に基づきある一定の割合でそれぞれを加味するといった方法がとられることが多いが本論にお ける非補償型の提案モデルを利用することにより,確率的にもより適切に定性要因と財務指標を モデルの中へ同時に取り込むことが可能になるのではなし、かと期待できる。 本論では企業のデフォルト確率を予測するに当たり,従来型の線形補償型二項ロジットモデル に代えて非補償型ロジットモデルを使用することによりモデルの改良を図ることを試みた。パラ メータを推定する際,現在 SASシステムでは LOGISTICプロシージャを利用することにより容易 に二項ロジットモデルにおけるパラメータ推定を実行することが可能である。パラメータ推定の アルゴリズムとしても総当り法以外に変数選択法 ( S t e p w i s e 法)等を使用することも可能である。 一方で,本論で提案した非補償型ロジットモデルについて見るとその応用可能領域が,近年徐々 に注目されつつある。このモテ、ルは企業デフォルト傾向の予測のみならず,マーケテイングリサ ーチにおける消費者選択行動の予測・土木工学における旅行者の交通手段選択の予測等幅広い分 野で応用可能であることが先行研究によって報告されており,今後その活用領域はますます広が ることが予想される。しかしながら,現在の SASシステムにおいて,非補償型ロジットモデルの パラメータ予測を行う際には. NLPプロシージャ等を利用した細かなプログラミングが必要とさ れるため,非補償型モデ、ルに対してもより簡便な利用環境が開発されることを期待する。また, 本論ではモデルにとって最適な利用変数を決定するに当たり,総当り法による変数選択を実施し たが,この方法は必ずしも最適な変数の組合せを選択するとは限らない。またモテ守ルの中で使用 される変数の数が増加するに従いモデルの中で考慮、しなければならない変数の組合せ数が急激に 培加してしまい、最適なパラメータを推定するまでにかなりの時間が必要とされるといった問題 点が予てより指摘されている。こうした問題点に対処するために,これまで一般の線形モデルや S t e p w i s e / B a c k w a rd I Fo r w a r d )による変数選択アル 線形補償型二項ロジットモデルでは,変数選択法 ( ゴリズムが考え出されてきたが,同様の変数選択アルゴリズムを非補償型ロジットモデ、ルに適用 するための統計的手法の開発もあわせて必要になってくると考えられ,これらの研究課題を今後 の研究に委ねたいところである。 以上 6 .謝 辞 本論文を掲載するに当たり,論文発表の機会を与えて頂きました SASI n s t i t u t eJ a p a n社様に対し, この場を御借り致しまして深く御礼申し上げます。 ・ ヴ4 ヴda nノ臼
付 録. 1 連結型モデルにおけるパラメータ推定を実施するための SASプログラムの例 本論における連結型モデ、ルによるパラメータ推定を行う際に使用した SAS プログラムを以下 に示す パラメータの推定には分離型同様全ての変数の組合せを考慮した上で対数尤度が最も小さくな る変数の組合せを見つけ出す総当り法を採用した キ / SASプログラムキ/ 去におけるパラメータ初期値の乱数発生本/ /本最尤推定 j D a t an u l l r a n n o r ( O ) ) ; c a l ls y m p u t ( " B a ", r a n n o r ( O ) ) ; c a l ls y m p u t ( " B b ", r a n n o r ( O ) ) ; c a l ls y m p u t ( " B f ', r a n n o r ( O ) ) ; c a l ls y m p u t ( " B g ", c a l ls y m p u t ( " U a ", r a n n o r ( O ) ) ; c a l ls y m p u t ( " U b ", r a n n o r ( O ) ) ; r a n n o r ( O ) ) ; c a l ls y m p u t ( " U f ', c a l ls y m p u t ( " U g ", r a n n o r ( O ) ) ; R u n ; / *NLPプロシージャによるパラメータ推定打 P r o cN L PD a t a = d a t a s e t T e c h = N e w r a pO U T = O U T lo u t e s t = o u t e s t l c o v = 2v a r d e f ニnp c o vp s t d e r r : P a r m sB a = & B a,B b = & B b,B f =品B f,B g = 品B g, U a = & U a,U b = & U b,U f = & U f,U g = & U g : V a = B a * ( X a ‑ U a ): V bニB b *( X b ‑ U b ): Vf=Bh(Xf‑Uf): V g = B g * ( X g ‑ U g ): P a = l / ( l + e x p ( ‑ V a ) ): P b = l / ( l + e x p ( ‑ V b ) ): P f = l /( 1+ e x p( ‑ V f ) ): P g 二 l / ( l + e x p ( ‑ V g ) ): P = ( ( P a ) ) * ( ( P b ) )* ( ( P f ))* ( ( P g ) ): L L = D e f a u l t * l o g ( P )+ ( l ‑ D e f a u l t ) * l o g ( l ‑ P ) : M a xL L : p r o f il eB aB bB fB gU aU bU fU g/a l p h a = O .0 5 : R u n : t ︒ 凸 円〆ム ︐ ヮ
付録 .2 分離型モデルにおけるパラメータ推定を実施するための SASプログラムの例 本論における分離型モデルによるパラメータ推定を行う際に使用した SAS プログラムを以下 に示す. パラメータの推定には全ての変数の組合せを考慮した上で対数尤度が最も小さくなる変数の組 合せを見つけ出す総当り法を採用した. / *SASフ。ログラム*/ /*最尤推定法におけるパラメータ初期値の乱数発生*/ D a t a̲ n u l l ̲ ; c a l ls y m p u t ( " B a ", r a n n o r ( O ) ) ; c a I Is y m p u t ( " B b ", r a n n o r ( O ) ) ; r a n n o r ( O ) ) ; c a I Is y m p u t ( " B c ", c a l ls y m p u t ( " B d ", r a n n o r ( O ) ) ; r a n n o r ( O ) ) ; c a l ls y m p u t ( " B e ", c a l ls y m p u t ( " B f ', r a n n o r ( O ) ) ; c a l ls y m p u t ( " B g ", r a n n o r ( O ) ) ; r a n n o r ( O ) ) ; c a l ls y m p u t ( " U a ", c a I Is y m p u t ( '・ Ub", r a n n o r ( O ) ) ; r a n n o r ( l l ) ) ; c a l ls y m p u t ( " U c ", c a I Is y m p u t ( " U d ", r a n n o r ( O ) ) ; r a n n o r ( O ) ) ; c a l ls y m p u t ( " U e ", c a l ls y m p u t ( " U f ', r a n n o r ( O ) ) ; r a n n o r ( O ) ) ; c a I Is y m p u t ( " U g ", R u n ; / *NLPプロシージャによるパラメータ推定打 P r o cN L PD a t aニd a t a s e t T e c h = N e w r a pO U T = O U T 1o u t e s tニo u t e s t 1 c o v = 2v a r d e f = np c o vp s t d e r r : P a r m sB b = & B b,B f二 品B f,B dニ 品B d, U b = & U b . U f = & U f . U d = & U d : V bニB b本 X b ‑ U b : V f = B f本 X f ‑ U f : d ‑ U d : V d = B d本 X P b = l / ( l + e x p ( ‑ V b ) ): ) ): P f = l /( 1+ e x p( ‑ Vf P dニl / ( l + e x p ( ‑ V d ) ): l ‑ P b )本 ( l ‑ P d )本 ( l ‑ P f ): P = l一( o g ( P )+ ( l ‑ D e f a u l t )本 l o g ( l ‑ P ): L L = D e f a u l t本 l L : M a xL p r o f il eB bB fB dU bU fU d/ a l p h a = O .0 5 : R u n : 2 7 9
一参考文献一 Altman, Edward, I , F i n a n c i a lR a t i o s( 1 9 6 8 ),D i s c r i m i n a n tA n a l y s i sandTheP r e d i c t i o no fC o r p o r a t e B a n k r u p t c y ", J o u r n a lofFinance, 2 3 ( 4 ), 589‑609 Altman, Edward, I( 1 9 7 0 ),R a t i oA n a l y s i sandTheP r e d i c t i o no fF i r mF a i l u r e :R e p l y ", J o u r n a lofF i n a n c e, 2 5 ( 5 ),1 1 6 9・1 1 7 2 Altman, Edward, I( I971 ),喰a i l r o a dB a n k r u p t c yP r o p e n s i t y ", J o u r n a lofF i n a n c e,2 6 ( 2 ),333‑345 Edward, I , (1 9 7 6 ),AF i n a n c i a lEar IyWamingSystemf o rO v e r ‑ T h e ‑ C o u n t e rB r o l e r ‑ D e a l e r s ヘ Altman, J o u r n a lofF i n a n c e,3 1 ( 4 ),1 2 0ト1224 Beaver ,Wi I Iiam(1966),F i n a n c i a lR a t i o sAsP r e d i c t o r so fF a i l u r e ぺJournalofAccounlingResearch, 4 ( S u p p ), 7 1・I I I .andJ a c o bJ a c o b y( 19 7 6 ), " P a t t e m so fP r o c e s s i n gi nConsumerI n f o r m a t i o nA c u i s i t i o n ヘ Bettman,JamesR Advancesi nC o n S l l m e rR e s e a r c h, 3, 31 5 ‑ 3 2 0 C h a k r a v a r t i,Laha,andRoy,( 1 9 6 7 ) .HandbookofMethodso fA p p l i e dS t a t i s t i c s,Volume1 ,JohnWiley andSons, p p .392‑394 o r r i g a n ( 1 9 7 4 ),L i n e a rModelsi nD e c i s i o nMaking",P s y c h o l o g i c a l Dawes,RobinM andBemardC B u l l e l i n, 8 1( M a r c h ),9 5・ 1 0 6 ,H .L . , Khamis,H. J .andLamb,R . E . ( 1 9 8 4 ),M o d i f i e dKolmogorov・Smimovt e s t so fg o o d n e s so f H a r t e r 日t ",C ommunicalionsi nS l a l i s l i c s, S i m u l a l i o nandC o m p u l a l i o n,Vo. I1 3, No.3, 293・3 2 3 . E r i c. J .andRober 口 t J .Me りy e 釘r ( 1 9 8 4 ), J ohnson, P 桁r o ω c e 閃s s 臼e s :Th 児e E f f e c tぱ 0f Var 削 戸 yi n gC叩 on t e 目x t " ヘ ヂJ 占 J o u 仰 r 円F 月 n 附 叩 a 1イ 0 . (COf 月 n 岱 s S l 山 a 川m 仰 η n e 成 r R. ω e ' s e σ a r c 九 h 1 , V O ω. 1日 1I , J u n e ι, 押 pp . 5 却 28 ‑ 5 臼4 1 E r i c. J ,R o b e r tMeyerandS a n j o yGhose( 1 9 8 9 ), " ¥ ¥ 乃1 e nChoiceModelsF a i l :Compensatory J o h n s o n, J O l l r n a lofM a r k e l i n gR e s e a r c h, 2 6 ( A u g u s t ), Modelsi nN e g a t i v e l yC o r r e l a t e dE n v i r o n m e n t s ", 255‑270 H. J. ( υ I ゆ9 9 2 ), Khamis, ofNof 月 1 伊 中 I p a r a m e l r 灯i cS I σ川 t μ I 凶 山 s μ l tI C , S ム Vo . I2,1 7 ‑ 2 7 . 回1 a m i s,H . J .( 1 9 9 0 ),Thed e l t a ‑ c o r r e c t e dKolmogorov‑Smimovt e s tf o rg o o d n e s so f f i t ", J o u r n a lo f S l a l i s l i c a lP l a n n i n gandI n f e r e n c e,Vo . I24,317‑335. Khamis,H. J. ( 2 0 0 0 ),Thet w o ‑ s t a g ed e l t a ‑ c o r r e c t e dKolmogorov ふnImovt e s t ヘJournalofApplied S l a l i s l i c s,Vo . I27, No.4, 4 3 9 ‑ 4 5 0 . D a n i e l( 1 9 7 7 ),E a r l yWamingo fBankF a i l u r e :AL o g i tR e g r e s s i o nApproach ぺJournalofBanking M a r t i n, 1 ( 3 , )249・276 andF i n a n c e, Payne, J ohnW.andE. K. E a s t o nR a g s d a l e( I9 7 8 ),V e r b a lP r o t o c o l sandD i r e c tO b s e r v a t i o no f ぺi nAdvancesi n S u p e r m a r k e tShoppingB e h a v i o r :SomeF i n d i n g sandaD i s c u s s i o no fMethods ConsumerR e s e a r c h,5, 571‑577 片平秀貴 ( 1 9 9 8 ), ロジット分析を用いた満足化モデ、ル"消費者選択行動のニューディレクション ズ,関西学院大 1 9 9 9 ), 信用リスクの測定と管理"証券アナリストジャーナノレ, 9 9 . 9 森平爽一郎 ( 森平爽一郎 ( 1 9 9 9 ), 信用リスクの測定と管理"証券アナリストジャーナル, 9 9 . 1 1 ‑280一
日本 SASユーザー会 (SUG1‑0) SASR i s kDimensionsによる統合リスク分析のご紹介 0嘉陽 E希 子 鬼 頭 拓 郎 尾 高 雅 代 田 中 愛 力スタマーサービス本部プロフェッショナルサーピ、ス第 1部 SASI n s t i t u t eJapan 株式会社 I n t r o d u c t i o no fi n t e g r a t e dr i s ka n a l y s i su s i n gSASR i s kDimensions A k i k oKayo Ta k u r ok i t o MasayoOdaka A iTanaka P r o f e s s i o n a lS e r v i c eDepartment1 CustomerS e r v i c e sD i v i s i o n SASI n s t i t u t eJapanL t d . 要 己 金融分野においてリスク管理という場合、一般的には 3つのリスクが考えられる。マーケツ 日トリスク、クレジットリスク、オペレーショナルリスクで、ある o マーケットリスクとは、金融マーケットの 変動によるポートフォリオの価値変化(とくに起こりうる損失)の量であり、クレジットリスクはカウン こ ターノ ξーティの格付悪化やデ、フォルトとしりた状況変化によるポートフォリオの価値変化(とく l 起こりうる損失)の量である。マーケットリスクおよびクレジットリスク以外の不特定なリスクを総じ てオペレーショナノレリスクとしづ。 この発表では、 SASRisk Dimensionsの環境で統合リスク量の計測を行なう方法について説明 する。 SASRiskDimensionsにおける分析環境の特長、リスクファクターのモデ、ル化、プライシン グロジックの登録、ポートフォリオのリスク分析プロジェクトの構築、レポーテインク、、機能など、具 体的な一連の手順を説明する。 キーワード: リスク計測 SASR i s kDimensions 統合リスク管理 1 . リスクとは ト 1リスクの考え方 金融分野における代表的なリスクとして、マーケットリスク、クレジットリスク、オペレーショナルリ こ スクがある。マーケットリスクとは、金融マーケットの変動によるポートフォリオの価値変化(とく i 起こりうる損失)の量であり、例えば金利カーブの変化や株価指標の動向によって保有してい る債権の価格や株価などは変動する。クレジットリスクとは、カウンターパーティの格付悪化や デフォルトといった状況変化によるポートフォリオの価値変化(とくに起こりうる損失)の量である。 例えば格付が下がれば金利スプレッ卜 の影響により評価価格は下がり、また、デフォルトの場 合は保有商品の価値自体が無くなることになる。マーケットリスクおよび、クレジ、ツトリスク以外の 不特定なリスク、例えばシステム障害などによる損失量を総じてオペレーショナルリスクとしづ。 このように、企業は様々な要因により損失を被る可能性を有しており、これらの複雑に絡み合っ たリスクを正確に測定するのは至難の業である。 SASRisk Dimensionsでは、複雑なリスク計測 2 8 1一
を系統的に管理することで、リスク要因の把握や様々な角度からのリスク量の把握をより簡便に わかりやすく行うことができる。 1 ‑ 2 .リスクの基礎的な構成要素 リスクの基礎的な構成要素は、マーケットデータなどから算出するリスクファクター値、リスクファ クターの変動を予測するモデ、ル、各金融商品に対応するプライシング、ポジ、ンョンデータの 4 つである。 リスクファクターとは、金利や格付などのようにマーケット情報から取得されるもので、あり、日々 変動するマーケットにおいてはリスクファクターも一定で、はなく変動する。その変動によりリスク 量も変化することになる。これらのリスクファクターの変動をモデ、ル化で、きれば、将来における 商品の価値変動を予測することができる。リスクファクターに関するモテ、ルはモンテカルロシミ ュレーションなどの分析において用いられる。予測モテ、ルからの各リスクファクターの予測値を プライシングアルゴ、リズ、ムにインプットとして与え、各商品の価値を計算する。得られた商品の 価値とポートフォリオの保有比率から損益分布を描きリスク量を計測することになる。 i 2 .R i s kD i m e n s i o n sにおけるリスク構成要素の取扱い」では、同ソフトウェアにおけるこれら4 つのリスク計測のための構成要素の取扱いについて記述する。 R i s kD i m e n s i o n s利用の準備作業 分析環境において、リスク計測に必要な情報およびプライシング方法を系統的に登録し、デー タを用意した後、実装されている分析エンジンを利用することで、様々な角度からのリスク計測 が可能となる。この分析環境で使用する変数名、マトリクス等は一元的に登録、管理される。こ れらの登録された変数と入力データの変数名とを紐付けることで、データソースの形式にとら われない分析が可能となる。 登録変数の種類はシステム変数、商品変数、リスクファクター変数、リスクファクターカーブ、参 つに大きく分類される。 照変数の 5 ー一四百-~ーーーー一_.-目当時岨官胃竜一・・哩“ J~~ ‑ . " ...=.l旦』主』 d l円 出 同 国 由 ]R e間 企 G 品 開 C O n I 串 山 田 山 叫 由]p 回 1 1060$) Metk 国 Dd l : ~ Wcmenv 旧‑ f 可 申 Variable Definit i 中・ i Sys(em‑d山 I i ed VariabJ 目 I 白 骨 』 副 rumen を VdriabJes i i申 . i 中ー c I I Instrumenを A1tribute 回 出 cation V o! ' " idble ! I l ト . JOutput Voridbles 白 骨 Nl " lm e01 a Risk Factor Variable ー」 l 白 畠 Risk Factor Variables i 中一・ ! R臥 Fdctor Curv目 j . . 111 Reference VeriabJes ヱ』 2 8 2
2 .R i s kDimensionsにおけるリスク構成要素の取扱い 2 ‑1.マーケットデータの取扱い R i s kDimensionsにおけるマーケットデータの登録は、ソースファイルの登録、パラメータ行列の 指定、および値を変換するためのプログラム指定から成り立つ。 マーケットデータソースファイノレの登録 [MarketD a t a Jタブ、→ [MarketDataS o u r c e s Jで、分析のインプットとして R i s kDimensionsで 使用するマーケットデータを含んだ SASデータセットまたは SASデータビューを登録する。 登録で、きるマーケットデータの種類は次の 9種類である。 .Tim巴 S巴r i e s 時系列デ、ータ • CurrentMarket カレン卜マーケットデータ • Volat i l i t y リスクファクターのボラティリティ推定データ ・ CovarianceM a t r i x 分散共分散行列 ・ S c e n a r i o s シナリオデータ • ChangeS c e n a r i o s 変化率シナリオデータ . L inearTransformationMatrix リスクファクターベクトノレの線形変換行列 .Paramet巴r s パラメータ行列 .Corr巴l a t i o nandV o l a t i l i t y 相関行列および対応する標準偏差ベクトノレ 一 ーー島‑望骨 三j ̲ ̲ ̲ ̲ ̲ ̲ ・・・.~閉ヨヨョ..日露・",om・ E・:r. rui'T・・a 函昭司冒富川四;tm;'l霊剛山'l! o .t aS et :I m k t r . t e s P . t h :I C :~SAS8. 2 半 ri 州s.叩 le~s肌問 nv~va.ワ!山 I.t i ons~ T y 同: I n t e r v . l : B r o w とι 」 Y l l T imeS e r i e sD a t aS e t C u r re n tM a r k e tD a t aS e t yD at aSe t Vo凶Iit Cov a r i a n c eM a t r i xD a t aS e t S c e n a ri o sD a t aS e t α国 nceSc開ariosDataSet L i n e a rT r a n s f o r m a t i o nM at r i x t P a r a m e t e r sD a t aSe C o r r e l a ti o n直司 Vo泊t i l i t y s p e c l f y . . . I パラメータ行列の指定 [Market D a t a Jタプ→ [Paramet巴rM a t r i c e s Jでは、 [Market Data S o u r c e s Jの登録において i P a r a m e t e r s Jおよび寸Lin e a rT r a n s f o r m a t i o nM a t r i x Jと指定したデータソースから必要な行 および列のみを抜き出し、関数やサブノレーチン、プライシンク守プロク、、ラム等で、利用可能な 行列として定義する。 L 円 ぺ ηu nx u
リスクファクター値算出プログラムの指定
[Market Data]タブ→ [Transformation S
e
t
s
]は
、 [Configration]タブ→ [Method Program
L
ibrary]→ [Risk Factor Transformation]で、登録されたプログラムのリストで、ある。登録したリ
ストを [Analysis]→ [Analysis Project]で、指定することで、選択されたマーケットデータから
Analysis Projectで、扱うリスクファクターの値を自動的に計算し、分析結果に反映させること
が可能となる。
hM園町叩齢 .tr r.: 1腕副司田m:1'IjI l~~t五 4
,
.
=
.
且l
三j
S
e
l
e
c
l
e
dT
r
a
n
s
f
o
r
m
a
li
o
n
s
:
u
s
d
̲
jpy̲
fw
d
u
s
d
̲
d
e
m
̲
fw
d
邑ニ」
A
<
‑Remove I
̲
Q
!
巴
」
2
‑
2
. 関数、サブルーチン、リスクファクター値算出およびプライシングに用いるプログラム
Risk Dimensions では、プライ、ンングおよびマーケットデータからリスクファクター値への変換等
に用いる関数、サブルーチン、プログラムを一元的に登録・管理する。下記では、それぞれの
コーデ、イング例および登録方法について説明する。
関数およびサブルーチンの登録
[Configrat
i
o
n
]タブ→ [Function L
i
b
r
a
r
y
]で
、
は SASもしくは C 言語による関数およびサブル
ーチンを登録できる。登録した関数およびサブ、ノレーチンは、[Configration]タブ→ [Method
ibrary]において、商品タイプ別のプライ、ンング等に使用するプロクゃラムから呼出
Program L
して利用する。
関数登録の例
o
MoneyMarketDepositsのプライシング関数ー
/本一関数の開始宣言一一一一一一
一一一
一本/
f
u
n
c
t
i
o
nmmd巴p
p
r
c
(v
a
l
d
a
t
e,amount,c
o
n
t
r
a
t巴, matdate,s
p
o
t
v
a
l
[*
]
, m
a
t
u
r
i
t
y
[*
])
l
a
b巴 1="Mon巴yMarketD
e
p
o
s
i
tP
r
i
c
i
n
g
";
i
m
(
s
p
o
t
v
a
l
)
;
n
p
o
i
n
t二 d
matdatet
h巴門 r
e
t
u
r円 (
0
)
;
i
fv
a
l
d
a
t
e>
/ホ←評価日から満期までの時間を算出一一←
一
一
一
本
/
t
i
m巴 二 i
n
t
c
k
('
d
a
y
',v
a
l
d
a
t巴, matdat巴)
/
3
6
0
;
/*線形補完によるスポットレート取得一
一一一
一一一*/
i
f(tim巴 く = m
a
t
u
r
i
t
y
{1
))t
h巴ns
p
o
t
r
a
t巴 =s
p
o
t
v
a
l
{
1
}
;
i
f(
t
i
m巴〉ニ m
a
t
u
r
i
t
y
{
n
p
o
i
n
t
))thens
p
o
t
r
a
t
e二 s
p
o
t
v
a
l
{
n
p
o
i
n
t
}
;
2
8
4
i
f(
t
i
m
e>
m
a
t
u
r
i
t
y
{
l
}
)and(
t
i
m
eく m
a
t
u
r
i
t
y
{
n
p
o
i
n
t
}
)t
h
e
nd
o
;
doj=
1t
o
n
p
o
i
n
t
‑
1
;
m
a
t
u
r
i
t
y{
j
}
)and(
t
i
m
eくm
a
t
u
r
i
t
y
j
{
+
1
}
)thend
o
;
i
f(
t
i
m
e>
s
p
o
t
r
a
t
e二 s
p
o
t
v
a
l
j
{
}
+
(
(
s
p
o
t
v
a
l{
j
+1
トspotvalj
{
}
)
*
(
t
i
m
e
‑
m
a
t
u
r
i
t
y{
j
}
)
/
(
m
a
t
u
r
i
t
y{
j
+1
トmaturity{
j
}
)
)
;
got
op
r
c
;
e
n
d
:
e
n
d
:
e
n
d
;
1
*一評価日時点の価格
一一 *
1
一一一一
p
r
c
:
((
s
p
o
t
r
a
t
e*t
i
m
e
)
)
;
p
r
c=amount*(
1
.+c
o
n
t
r
a
t
e
)
*e
x
p一
r
e
t
u
r
n
(p
r
c)
;
1
* 関数の終了宣言一一
一一一
*
1
e
n
d
s
u
b
;
上記関数の場合、下記のようにプログラムを書くことで戻り値 prcを取得する。
│
̲
v
a
l
u
e
̲=mmdepprc( 刊を指定);
プライシングプロク守ラム、リスクファクター値算出プログラムの登録の登録
[
C
o
n
f
i
g
r
a
t
i
o
n
Jタブ→ [Method Program L
ibraryJ
では商品タイプ別のプライシングに必要な
データ項目の加工(Instrument Input)、各商品のプライシング(Instrument Pricing)、マーケ
ットデータのリスクファクター値への変換 (RiskFactorTransformation)を行うためのプログラ
ibrary で登録した SASもしくは C
ム登録を行う。 SASによるプログラム、および Function L
言語による関数やサブ?ルーチンを使用することがで、きる。[ConfigrationJタブ→ [Instrum巴nt
TypesJの登録で、は、商品タイプごとにプライシングのための IMethod ProgramJを指定する
必要があり、必要に応じて IInstrument InputJを指定できる。また、 [Mark巴tDataJタブ、→
[Transformat
i
o
nS
e
t
s
Jで、は登録した I
R
i
s
kFactorTransformationJを利用できる。
InstrumentI
n
p
u
tの登録例 (Govbond̲lookup関数は FunctionLibraryにて定義済とする)
methodGov̲Bond̲lnputdesc=.
.GovBondI
n
p
u
tLookup
k
i
n
d
=i
n
p
u
t
"
c
a
l
lg
o
v
b
o
n
d
̲
l
o
o
k
u
p
(i
s
s
̲
t
y
p
e
.c
o
u
p
f
r
e
q)
;
"
;
‑285‑
戸‑‑ Govbond lookupサブルーチン s u b r o u t i n egovbond̲lookup( i s s ̲ t y p e $,f r e q )k i n dニi n p u t ; o u t a r g sf r e q ; i fi s s ̲ t y p eニ "BTAN" thenf r e q=1 2 ; i fi s s ̲ t y p e="OAT 2 ; thenf r e qニ 1 i fi s s ̲ t y p e="Treasury"thenf r e q6=; e n d s u b ; InstrumentPricingの登録例 CGovbondprc関数は FunctionLibraryにて定義済とする) methodGovBondPFdesc二 "GovBondPF" k i n d = p r i c e "VALUEニ GOVBONDPRC(̲ d a t e ̲,p a r ̲ l c,c o u p f r e q,coupon," 勺n a td a t e,zcu刊 e,zcurve.MAT) ; " RiskFactorTransformationの登録例 methodUSD̲DEM̲FWDdesc="USD/DEMForwardsbyi n v e r s e " k i n d二 t r a n s ; usddem1m =1 ノ demusd1m; usddem3m=1 . /demusd3m; usddem6m=1 . /demusd6m: endmethod; 2‑3リスクファクターのモデリング リスクを計測するには、特定のマーケット環境における金融商品の価値を予測する必要がある。 RiskDimensions では、目的の商品に関する情報とマーケット情報から商品の将来価格を求め るために、リスクファクターモデ、ルを登録する機能が備わっている。リスクファクターモデ、ルとし IRossモデルや Yasicekモデル、幾何ブラウン運動、 ARCHや GARCHなどの て CoxIngersol 時系列モデ、ル等様々なモデ、ルを登録で、きる。登録は [RiskModeIsJタフ守にて行なう。 以下に幾何ブラウン運動と GARCHモデ、ルの登録例を示す。 ‑ 2 8 6
rx, x,1+μX'̲I+ηf
ニ
幾何ブラウン運動
ー
If
l,=布 x,
[
モデ、ル式
'
‑
‑h,= σー× X2t i
斗﹁
圃圃晶間四割岡田nll!i阻冨副師岡田掴ー・E・_~OJ 2tl
e
n
d
o
g
e
n
o
u
s x;
p
a
r
a
m
s m
u sigma;
d
0
0
0
0
1
0
0
0
0
2
0
0
0
0
3
0
0
0
0
4
0
0
0
0
5
0
0
0
0
8
0
0
0
0
7
0
0
0
0
8
0
0
0
0
9
0
0
0
1
0
0
0
0
1
1
0
0
0
1
2
一 ①
x =l
a
g
(
x
) +m
u栴 l
a
g
(
x
)
;
i
g
m
a栴 s
i
g
m
a琳 l
a
g
(
x
l栴 l
a
g
(
x
)
;
h
.
x =s
h.x:xの分散を定義している
l
a
b
e
ls
i
g
m
a ="
D
i
f
f
u
s
i
o
nP
a
r
a
m
e
t
e
r
"
;
D
r
i
f
t
P
a
r
a
m
e
t
e
r
"
;
l
a
b
e
lm
u ="
この定義がない場合
2乗で一定となる
Xの分散は(J
4
・
モデ、ル式
4 GARCHモデル
[
?
;
1
1
1
?
:
E
土
川
+
芝 h'̲J
,
久
h ω+ 久
O x
η
恥
ユ
ヘr一
1
l M口m s明
0
0
0
0
1
0
0
0
0
2
0
0
0
0
3
0
0
0
0
4
0
0
0
0
5
0
0
0
0
8
0
0
0
0
7
0
0
0
0
8
0
0
0
0
9
,
.
r
e
t =m
e
a
n
;
r
c
h
O +a
r
c
h
l琳 z
l
a
g
(r
e
s
i
d
.
r
e
t栴 r
e
s
i
d
.
r
e
t 1+g
a
r
c
h
l柑 z
l
a
g
(
h.
r
et
);
一
一
h
.
r
e
t =a
d一
l
a
b
e
la
r
c
h
O ="
C
o
n
s
t
a
n
tp
a
r
to
fc
o
n
d
i
t
i
o
n
a
lv
o
l
a
t
i
l
i
t
y
μ
:
l
a
b
e
la
r
c
h
l ="
C
o
e
f
f
i
c
i
e
n
to
fl
a
g
g
e
ds
q
u
a
r
e
dr
e
s
i
d
u
a
l
s
"
;
C
o
e
f
f
i
c
i
e
n
to
fl
a
g
g
e
dc
o
n
d
i
t
i
o
n
a
lv
o
l
a
t
i
l
i
t
y
"
;
l
a
b
e
lg
a
r
c
h
l ="
上記のように、 ModelProgramEditorウインドウにて、 SAS
コードによりモデ、/レ式を指定する。
の MODELプ口、ンジャにより実行される。つまり、ここでは MODELプロ
このコード、は SAS/ETS
シジャを使用した PROCステップの一部を指定していることになる。
従って Modelプロシジャで、記述で、きるモテ、ル式は、全て取扱いが可能といえる。
各モデ、ル式で、使用されてしも変数の役割の設定は、幾何ブラウン運動の例の①のように SAS
プログ、ラミングで、記述するか、 [ModelJ→ [VariableD
e
f
i
n
i
t
i
o
n
.
.
.
Jで、行える。
〉定
I1n a
附
柑耐凶蜘岡 。
on
附
M掛叫
IR s
陶回
柑制巾問
IT
』副tI凶圃副色tI臼同。閣胃』刷色凶 :1戸百E一一一-一て~"W' I
:
1
宵
古T
刷 目yl
由 e
句圃情
..,.,町田..,.,.,..山.DOe l
I
e
I
z
x
:
:
.iDII.t
o
r
: 古T
l
て
m 回......同制......凶副‑田
』官叫副
i副'''''''由
一
一
一
一
‑
: 。
回
r一
一
一
一
一
ー与‑‑‑ニニニて
IU..i 国 V・ l~措: IDELEU
1
QMM
o
e
r
・e
・]i,国側同認Ido
fM o " , 町 市
SUR
S岨 m同".u‑田畑匂困 R E
u噌 ..tatedABIP'・目白n
旧
.
.
.
.
齢.
.
.
‑ n
恒..0..冒'
d
l
i
z
回 M ethodofM or
n
e
r
幅
、
.
"
.
・・
暗
闇
ロ'SUR I
t
e
r
.
t
e
dS岨 mr
開
"
2SL
S
1
同信 2
S""
胆Le圃.‑国
IT2S
LS lterot回 2S.
岨 eL e 瞳 句 ‑ 田
富 l
S
i
竺
全竺d
竺オ
、
旬
"t同
.
.3Sta胆 L e 副 ‑ 園
田 SLS 長・I"a
ted3Stacela
副 ‑ 帽
F
l
I
時l F
ul
!
"
、for̲
回、)lk.:i
m "m l
忌.,告白od
‑287‑
OLS法などの推定方法
や欠損値の扱い、その
他の設定はオプ、ンョンと
して指定できる。
以上の設定を終えたあとに、実際にデータにモデルをあてはめ推定を行なう。データの使用 変数とモテ、ル式で、定義されている変数とを紐付けをすることで、モデ、/レ式を適応で、きる。 一 従って形式が一致していれば、データの使用変数名の制約はなし、とし、うことになる。 1 ‑ M o d e lS p e c i f i c a t i o n ! 師 団 岡 田 四 日l I n p u lD at aS e l : R I S K S A ! lP . x r a t e G A R C H l l 臥~CH(L l) M o d e lY a r i a b l e s : D a l aSetV a r i a b l e s : I D A T E D E M R E T D E Mリ3 D J P YU 3 D 一凹 匡逗三コ ES 再一時 主l 五 2‑ e ZE 竺竺~ 一 h ! : l D ‑ ‑ " P E e E l ‑ ‑ h u ‑ a ‑ ・ 1‑ 町一一口 v ‑ n g 「 竺j ~ C 1 e a r l 2 ‑ 4ポジションデータの取扱い データの構造が決まり、プライシングアルゴ、リズ、ムの登録後に、分析対象となるポートフォリオ P o r t f o l i o s Jタブにてリスク分析環境に登録する。データ登録では、データの使用変数 デ、ータを [ C o n f i g u r a t i o n ]タブ、で、既に登録済みの変数との紐付けを行なう。リスクファクターモデルと同 と[ 様にデータの使用変数名に制約はない。 四百眠間間同ーーーーーーーーーーーーーーーーーーーーーー三 lロIxl ua Req u i r e dV 寸i a b l e s .Numeric OCharac匂r 1 O p! io n a lV a r i a b l e sI 一 ± ょi 田 tv a r i a b l e : I n s t r u m 以44 m a p st o D a t as e tv a r i a b l e : 一 一 一 ょi 口元山両五V函 abl司五五 SetVariableI DesorIp!ion Iinstid i n s t i d I n s t r u m町 l tI D n a m e ̲ t y p e ̲ i n st !y p e ~I R i s kF a c t o rV a r i a b l e T y p eo fO b s e r v a! io n 叩 e 01 lnS … t~ ーと」とE斗 J主」 3 .R i s kDimensionsによるリスク計測 前章までに、リスク計測に必要な構成要素の R i s kDimensions環境への登録を説明した。本章 では、前章までに登録した構成要素を組合わせた様々なリスク計測をプロジェクトとして管理 する方法について説明する。 ‑288
)スク計測のプロジェクト管理 3 ‑ 1 .1 必要な構成要素を全て登録した後、 [ A n a l y s i s J タブにおいて、これらを組み合わせて目的に i s k Dimensions では、構成要素の組合せを「分析プロ 応じた様々な分析を行うことができる。 R ジェクト」として扱う。分析プロジェクトは、分析作業を実行させるためのスクリプトで、名前を付 けて保存することができる。分析プロジェクトを実行すると、保存された設定項目に従って Risk Dimensionsが自動的に作業を開始する。設定項目は以下の通りである。 ①処理の対象となるポートフォリオファイル ②処理に使用するマーケットデータ ③使用するリスクファクターの変換設定 ④実行する分析のタイプ(3‑2参照) i o nの設定 ⑤結果を分類する Cross‑Classificat ⑤レポーティングの設定 ( 4章参照) リスク分析を行うときには、ポートフォリオ全体だけでなく、ポートフォリオの一部だけを対象にし i o n の設定にお たいとしづケースもある。分析の切り口を変えたいときに⑤の Cross‑Classificat いて、クツレープ変数を指定して実行結果を分類することで、ポートフォリオの細部をチェックす ることや、結果を細かく切り貼りすることが可能になる。 以下に、完成したプロジェクト設定の例を示す。 ‑ x C I . . s s l f i出 国 帥 1 . 1 1‑ 巾 A n aI . . I . P O 凡1 0 1 1由 也 r 1 c e lD t . h . . . s 時E 岨 ユ 」旦ヰj 山 n n m mu uh I r n p li e dV o l s U S D G Z P rT n C o m p 目晶 E噂 d曲 T " ̲ ̲ ̲ ̲ ̲ ' 1 ̲('0'‑"̲. A !i d .s e s ' *Derived̲FX̲Fwd̲Curves cb 市 U S O ̲ D E M ̲ I m p V oI ̲ I n p u l s 凶o ̲ J P Y̲ I m p V oI ̲ I n p u l s s o a : rA n s C y⁝ 直)[)GZPrinCo ID~ 帥巴ー臼 L生 虫J 巳 漕Cur r e n lM ar k e、 C ur r e n lM ar k e l 2 C ur r e n l V D a l ~i I yLo~ormCov M i d 9 5 H i s l o r i c a l S 目門町 i o s 1 S とe 門a r i o s 2 P l一如 a l y s i s 日 PorHoli o s 日 PorHoli oF il e , "i d e F i r r n . ar k e lD a t a 8 . . . . M 白… M . ar k e lD a l aS o u r c e s 一 …C u r r e n l M a r k e l 白 一 Tr s .n s f o r m a li o n$ e l s A Ii a s e s D e ri v e dF XF w dC u r v e s M a r kl oM a r k e l R a l e s A吋 V o1 s P L S u r fI!lc e E x c h a e R . e t e P L C u r v e s , 日 M o d e l s 8 . . .R e p o r l s …N o li o n aI sR e p o r t 8印刷 甲 一 心Dir 同 , , ( 山 町 f P LA n . el y s i s 巴 →Eωurren町 U S D 」単::.J~ニJ 旦虫斗 3 ‑ 2 .R i s kDimensionsの分析手法 R i s kDimensionsで実行できる分析のタイプは以下の通りである。 一2 8 9
セン、ンティピティー分析 [ S巴n s i t i v i t vA n a l v s i s J リスクを計測する指標として一般的に利用される、デル夕、ガンマ、シータを算出し(ローとベガ は暗黙的に使用可能)、ポートフォリオのリスクをモニタリングする。 s c巴n a r i oA n a l v s i s J シナリオ分析 r ユーザーが指定する、ンナリオ通り l こリスクファクターが動いた場合の、特定の期間にわたるポ ートフォリオの損益を算出する。 P r o f i t / L o s sCurv巴 A n a l y s i s J 損益曲線分析 [ ひとつのリスクファクターだけが変動し、他のファクターが動かない場合に、変動するファクター の関数としてポートフォリオ損益の変化を算出する。 損益 2次元分析 [ P r o f i t / L o s sS u r f a c巴 A n a l y s i s J 2つのリスクファクターだけが変動し、他のファクターが動かない場合に、変動するファクターの 関数としてポートフォリオの損益の変化を算出する。 除o fJ t l l =Q:,州均時";0) 15 0 5 " ... 旬h 絶ー ~ヨ rp 首‑....‑ーで7 ー ヒストリカノレシュミレーション [ H i s t o r i c a lS i m u l a t i o n J 過去に生じたマーケット変動が将来もそのまま起こるという考えのもと、リスクファクターおよび、 ポートフォリオ価値の過去の値を単純集計することによってポートフォリオの損益の変化を算出 ‑290
する。 a r l oS i m u l a t i o n J モンテカノレロ、ンュミレーション [Mont巴 C 過去のマーケットデータからリスクファクターのモデ、ノレを作成し、各モデソレに初期値を、誤差項 に乱数より得られた数値をそれぞれ代入すると、モデルのアウトプットとしてリスクファクターの 将来の予測値が得られ、それを用いて個別銘柄のプライシングを行う。これに現在のポートフ オリオの保有比率をかけ合わせると、将来のポートフォリオの価値やポートフォリオ全体の収益 率が算出される。この初期値の代入から収益率算出まで、のステップを反復することによって、 ポートフォリオの将来の収益を分布として得ることができる。 . . . . . , セ 国 τ a ‑ 、 司 e / ︑ ︑ / ー 一 ‑‑‑17 ‑ 2 I l 1 0 。 1 0 2 0 : J l P r o f r t J ' l . . o a c . . . . . . . . . 剛 τ r ・ ' ‑ ‑ ‑ ‑ ー ‑ ‑ ‑ ‑ . , . . . , ‑ ‑ ‑ 、 0 釦 凶 " ,. …「一一 シナリオ、ンュミレーション[ S c e n a r i oS i m u l a t i o n J 過去に起きた特定期間のマーケット変動データ(あるいはリスクファクターを大きく変化させるシ ナリオデータ)をユーザーが指定して、そのシナリオのもとでのポートフォリオの収益の分布を 生成する。 デルタ・ノーマノレ [ D巴l t a ‑ N o r m a l J リスクファクターの変動に対するポートフォリオの感応度と、リスクファクターの分散共分散行列 よりポートフォリオの変動の分散を計算し、これに信頼水準と保有期間の条件を与え、 VaR を 算出する。デルタ・ノーマノレで、は、リスクファクターの変動が多変量正規分布または対数正規 分布となることを前提としている。 カレント・エクスポージャー分析 [ C u r 印 n tE x p o s u r巴 A n a l v s i s1 リスクファクターモデル、ポジションデー夕、プライシング・プログラムを用いて、ポートフォリオの 各デ、リパティブ許取ヨ l の時価評価 (Markt oM a r k e t )を個別に算出する。 P o t e n t i a lE x p o s u r巴 A n a l v s i s J ポテンシャル・エクスポージャー分析 [ モンテカノレロシュミレーションにより、デリパティブ取ヲ l の契約期間中に生じるカレントエクスポ 円川d 1i ワ 白
ージャーの増加見込み額(ポテン、ンヤノレ・エクスポージャー)を予測する。 3 ‑ 3 .リスクレポート SAS/EISソフトウェアや REPORTプロ、ンジャなど、 SASのレポート作成ツーノレを利用してカスタ ム・レポートを作成することができる。 R i s kDim巴n s i o n sでは、レポート作成用パッチプログラムや E I Sアプリケーションのレポート・テン プレートを分析環境に登録することができる。レポート書式を登録しておけば、 [ A n a l y s i s Jタブ で、分析の結果を保存するファイルに自動的にテンプレートの書式を設定することが可能にな る 。 Euro 民 間d 向 抽 60 O p t i mal白 m Eu rob 酎l dPort 向 向 島 問' C Iure fk f十 ̲ , 咽 一 時 一 町 一 , ̲ ‑ " 一 一 一 … ー … ー … 一一 W Il nud ηL ヮ
口頭論文発表 調査・マーケテイング
日本 SASユーザー会 (SUG1‑0) 建築生産における建築物の耐久性確保に関する 実務者の意識と実態 。 小 島 隆 矢 * 小野久美子柿 植木暁司問 * 独立行政法人建築研究所住宅・都市研究グループ主任研究員 枠 国土交通省国土技術政策総合研究所住宅研究部研究官 国土交通省国土技術政策総合研究所総合技術政策研究センター主任研究官 Theq u e s t i o n n a i r et oc o n s t r u c t i o nworkingmembers aboutthed u r a b i l i t yo fab u i l d i n g OTakayaKOJIMA* KumikoONO 柿 K y o u j iUEKI** * BuildingResearchInstitute * * NationalInstituteforLand&InfrastructureManagement 要旨 本報では,建設プロジェクトに関わる実務者を対象としたアンケート調査のデータに基づき,建築物の 耐久性確保についての取り組みの実態および実務者の意識に関する分析結果を報告する。質的変数の ク守ラフイカルモデリンク、、(グラフィカル対数線形モデリングゃ)により定性的な因果構造を同定し, l j 慎序ロジス ティック回帰分析により定量モデ、ル化および内容の解釈を行ったところ,現状の問題点が浮き彫りとなる 結果となった。なお,グラフィカルモデリングには贋野元久氏作成のソフト L‑GM,順序ロジスティック回帰 . 0 . 1 ‑ Jを用いている。 分析等には JMP5 キーワード: グラフイカルモデリング, Ii国序口ジスティック回帰, JMP,建築実務 1 . はじめに 近年,住宅の品質確保の促進等に関する法律など,建築物の施主・ユーザー保護の視点に立った政 策が展開されているが,建築物の耐久性については,ユーザーニーズ や立地条件等の状況に応じて仕 様を確定する技術が確立されていないのが現状である。そのため,独立行政法人建築研究所・国土交通 省国土技術政策総合研究所では,ユーザーからの要求レベルに応じて適切な建築材料・部材・構法の 選定する目的志向型耐久設計を実現するための支援ツールの研究開発に取り組んでいる 1)。 本稿では,この研究の一環として 2 0 0 2年 2 " ' 3月に実施した,建設プロジェクトに関わる実務者を対象 としたアンケート調査について報告する。調査目的は,現状の建築生産プロセスにおける取り組みの実態, 実務者の意識などを把握することにある。業界団体などの紹介によりリストアップした調査対象者(設計事 務所,総合請負業,専門工事業,材料メーカー,住宅メーカー,官公庁等の業種にて,企画・計画,意匠 設計,構造設計,工事監理,施工管理,専門工事,材料,研究その他の業務に従事する実務者)約 490 名に配布し,有効回答数 1 8 8名(有効回収率 38%)を得た。 円〆臼 p h υ nud
2 .分析方針 本稿で主に取り上げる設問は,建築生産プロセスを「企画・計画」から「竣工・維持管理」まで 6段階のフ エイズ、として,各フェイズ、について,下記 3項目を評価させたものである c ・ニーズ、提示頻度: 施主・発注者から耐久性に関わる要望が提示されることは,1.ほとんどない ~4. よくある (4段階評価) .ニーズ 確定必要性: 耐久性に関わる要望が確定していることが,1.必要でない ~4. 必要である (4段階評価) .重要度: 耐久性確保のための取り組みが,1.重要でない ~4. 重要である (4段階評価) これらの設問のデータは,回答者×フェイズ、×上記 3項目とし、う, 3相 3元データの形式をなすことに なる。そこで,回答者×フェイズを観測個体として,因果関係の分析を実施した。より具体的には,上記 3 項目こ「フェイズ」および「回答者の主な業務内容」を加えた 5変数を分析対象として,質的変数のグラフ [ 1 貢序ロジスティック イカルモデリング(グラフィカル対数線形モデリング)により定性的な因果構造を同定し, 1 フェイズ」の水準の内容は以下の通り。 分析により定量モデ、ル化および内容の解釈を行う。「業務 JI ・業務: 1.企画設計 2 .意匠設計 3 .構造設計 4 .工事監理 5 .工事計画管理 6 .専門工事 7 .材料製造販売 8 .研究開発 9 .その他 .基本設計 3 .実施設計 4 .施工計画 5 .施工実施 6 .竣工・維持管理 ・フェイズ、: 1.企画・計画 2 なお,グラフィカルモデリング(以下, GM)には慶野元久氏作成のソフト L‑GM,)1慎序ロジスティック回帰 分析等には JMP5 . 0 . 1一jを用いている。 3 .予備的検討・事前処理 3 . 1 分析対象サンプル 有効回答者数は 1 8 8名であるので,本来のサンプルサイズ、は有効回答者数 1 8 8名×フェイズ、 6水 準 = 1 1 2 8となる。しかし,分析においては,以下に示すようにしてつかの事前処理が必要で、あった C まず, I 業務」は SAのはずで、あったが,複数の業務を選択した回答者が 1 9名ほどいた。九仰を用いた 分析で、は観測個体に重みをつけることがで、きるので,これらの回答者のデータはダ.ブ、ルカウン卜(一部,ト 倍( 3倍)の行数を害j 'り当てる代わりに,その行のウェイトを 1 / 2 ( 1 / 3 )とする リプル)して,通常の回答者の 2 ことにより対応した。 L‑GMにはこの機能はないので,他の回答者に比べて 2倍 or3倍のウェイ卜を与えるこ とになるが,やむを得ない。 また, I ニーズ提示頻度」は,前の設問の回答により該当者のみ回答する形式で、あったため 140~150 名しか回答していない。これらの回答者のデータは,この設聞を用いた分析においては欠測値として分析 から除外している。 結局,分析対象サンプル数は,分析の種類により, 980~1080 程度の範囲にて変動することとなる。 3 . 2 データのモニタリング 「ニーズ、提示頻度 JI ニーズ確定必要性 JI 重要度」の度数分布を図 1に示す。「確定必要性 JI 重要度」に 叫 円 4 ρhu nυ
ついては, 1 1:殆ど重要(必要)でなし、」の度数が非常に少ない。そこで、, 1 2 :あまり重要(必要)でなし、」と 統合し, 3段階評価として,以後の分析を進める。なお, 1 提示頻度 (4段階)J も含め,し、ずれも数値が大 きい水準ほど,頻度・重要度・必要性が高くなることを表している。 ~., l . :‑:‑::‑ 一一→一一「 3 2 構 耕 置・圃E 蜜 ‑ , 凶ρ ヨ己一三園田・・ E 『多変量i 毒開図;頻度図特列』 I J ; イ1 提示頻 一 一 一 一 一 一 一 冨 一 ヂ 一 一 一 一 一 ‑E 来 挙 違 ※ 潜﹁聖 図 1 「ニーズ提示頻度 J1 ニーズ確定必要性 J1 重要度 J の度数分布 変教の数=5 重要 V ︒へ}Hh 国骨佐世 r 司州問哩 国H 制 盟 国 富 図 2 多変量連関図 ( L‑GMによる) 図 2は,分析対象 5変数の多変量連関図である (L‑GMによる。水準の順序は,左 o r下から右 o r上に , 2, 3…)。この図より,次のことが分かる。 向かって, 1 ‑提示頻度・必要性・重要度については互いに正の相聞が高い。 ‑各フェイズ.と,提示頻度・必要性・重要度の関係はど、れも似ている。(重要度が高いフェイズは提示頻 度が高い,等) 297‑
なお, 2元分割表の独立性の検定結果は,もともと直交してしも業務ーフェイズ(どの回答者も 6つのフェ イスについて答えているので),および業務・重要度の 2 元分劃表だけが有意ではなく (p=0. 495),他の 変数の組に関してはし、ずれも p<O.005の水準で有意な関連を示している。 4 . 質的変数のグラフィカルモデリング 4 . 1 独立グラフのモデリング まず,この 5変数聞の条件付き独立関係を分析する。ク、、ラフイカル対数線形モデ、リング(詳細は文献 2)な =1 8 0 4 )p=l .O O )。 どを参照されたし、)により,下図のような独立グラフが得られた (χ2=1270.68(df F笹 l i n 9 00 0 ‑ 00 5‑一一一一一一一 0 . 0 5 ‑ 0 .1 0一一一一一一 O .1 0 ‑ 02 0 .0 0 0 . 2 0 ‑1 図3 独立グラフ <補足>独立グラフの見方 独立グラフで線のない変数聞は,他の変数を条件付きにすれば(ある水準ごとに層別して関連を調べ る,とし、うこと)独立になることを意味している。さらに,他の変数を介して間接的には線がつながる変数の 場合,全サンフ。ルで、クロス集計を行えば関連があるように見えても,聞を取り持つ変数で層別して(間接的 な経路を切る)クロス集計をすれば,関連がなくなることを意味している。 独立グラフから因果関係を推論する場合,線のない変数聞に直接的な(他の変数を介さなし、)因果関 係を考える必要はほとんどない。線のある変数は直接的な因果関係の候補である。 ただし,線があるからとし、って必ず直接的因果関係がある,とし、うことにはならない。 I X→ z ←Y J(何ら関 連のなし、 2変数xy がz lこ影響する)としづ因果関係の場合に,結果系変数zで、層別すると xyは独立ではな くなる。簡単な例としては, xy を2つの学科の試験の得点, zを総合得点と考えればよい。総合得点が同 程度の人ばかり集めれば,両学科の得点は負の相関を示すであろう。 逆に,条件付き独立関係が IX‑Z‑yJとしづ独立グラフで表される場合, r x→ z← Y Jとしづ因果関係 (因果合流)を考えることは,一般には否定される。 x y lこ何らかの関連があった場合,その関連が zとしづ 結果系変数で、説明されてしまったことを意味するからで、ある。結果によって原因が説明されるとし、うのは不 自然である c 以上より,独立グラフは,因果グラフ(直接の因果関係を矢線で表した図)をもとに,因果合流する変数 聞に線を追加し,矢線を線でおきカ通えた図 uモラルグ、ラフ Jと呼ぶ)1こなっていることが期待される。これら の知識を使えば,独立グラフから因果グラフが推定できる場合がある。(補足終わり) 業務 Jr フェイズ、J が原因となって, 以下,図 3の独立グラフに基づき,変数聞の因果関係を推論する c r 「提示頻度 Jr 確定必要 Jr 重要度」に違いが生じる,としづ因果の順序は明らかであるから,問題は結果系 ‑298一
3変数の順序である。 まず I 提示頻度→必要性←重要度」としづ因果合流は,重要 提示頻度の聞が切れていることから否 定される。次に「業務→提示頻度←必要性」としづ因果合流も,業務一必要性の聞が切れていることから 否定される。結局,可能な因果の順序としては, I 提示頻度→必要性→重要度」品、うことになる。この因 果関係においては「業務→提示頻度←フェイズ」としづ因果合流で「業務 フェイズ」の聞が切れているが, これは提示頻度によって関連が説明されたのではなく,もとより関連がなかったのである(どの業務の人も, 全てのフェイズ、について回答している)。 4 .2 因果グラフのモデリング これまでの考察により,因果の順序は以下のように決まったことになる。 {業務,フェイズ}→{提示頻度}→{必要性}→{重要度} この順序情報を取り入れたグラフイカル対数線型モデ「リング、の結果,得られた因果グラフを図 4に示す。 n= S 8 0 逸脱度二 1114.743 ( d f= % 1684) p=I.0000 業務 定必 重要 7, ; イ ス b 図4 因果グラフ 結果的に独立グラフに矢線をつけただけになったが,この手順を踏まないと,例えば「フェイズー必要 性」聞の線が,直接の因果を表すのか,重要度への因果合流によるものかが分からない。 因果グラフは,以下のような因果関係を表している。 1 )I 業務 JI フェイズ、」が「提示頻度」に影響する。 独立グラフで「業務 フェイズ」聞が切れていることから,業務とフェイズ の交互作用はなく,業務による違い P とフェイズ、による違いを単純に加算して提示頻度の分布が決まる。 2 )I フェイズ、JI 提示頻度」が「必要性」に影響する。交互作用の有無は不明。 3 )I フェイズ、JI 必要性」が「重要度」に影響する。交互作用の有無は不明。 「業務」が直接影響するのは「提示頻度」だけ,とし、うのはやや意外な結果である。 以下, )1慎序口、ジスティック回帰分析により,上記1) ~3) の関係を具体的に調べてして。 5 .順序ロジスティック回帰分析 5 .1 r ニーズ提示頻度」を目的変数とした分析 まず, I ニーズ、提示頻度」を目的変数とした順序ロジスティック回帰を実施する。「業務 JI フェイズ」の主 効果および交互作用項(念のため)を説明変数としたモデ ルの要因効果(検定結果およびパラメータ推定 値)は以下の通りである。なお, l j 慎序ロジスティック回帰の要因効果は,パラメータ推定値の数値が大きく d n 凶d 凶 ハ ワ ム
なるほど,目的変数が小さい水準の度数が多くなることを示しているの 要因 フェイス. 業務 業務本フェイス. 「フェイズ」主効 1 . 0 p値 (Prob>ChiSq) Wald カイ2乗 80. 46 76874 1 6 . 6 5 8 7 3 3 6 5 0 . 5 3 8 9 3 5 1 自由度 5 8 40 0 . 0 0 0 0 0 . 0 3 3 9 0 . 1 2 2 7 「業務」主効果 交互作用項 │+主効果 • 1企 画 掛 け . 5 . d 2意匠設計 ! I . 0 一. 5 l i X 3髄 設 計 X 4工事監理│ . 工事計画 • 5管理 l ' 。 。6専門工事! 1 aH 山積 間蜘世主叫申告 H 凶混 回おH 同高 お剖即時湖 m 高磁器M 由 園高・園川相 GW 向 車 献EMS 杭 ∞ ・ 樺H E 晶 画 由 ぽ援制司副菜苓‑ト .国 間別固十仰梅H 右組側市世帯骨円 間銅同附H ・守 +自阿国師開削 +自胸囲剣‑ 関邸主制時・H封 H 困者 布部岨担保 園高H湿 肯湖 +抑制仰 M 周お・園川相 1 . 0 1 1 ロ 7耕 料 製 造 販売 i ‑ 8研究開発:i 1 o 1 9仇 : i l 図 5 ニーズ提示頻度についての順序ロジスティック回帰(グラフは要因効果) グ、ラフイカルモデ、リング、の結果を信用すれば I 業務 JI フェイズ」の主効果だけを解釈し,交互作用は無 視してよいことになる。しカミし,検定結果は有意ではないものの,回帰分析における一般的な変数選択の p 値 <O .2~O. 2 5 )は満たしている。また,図 5によれば,中にはかなり大きい効果を持つ交互作用 基準 ( 項もあるので,それらは解釈に加えた方がよし、かもしれない。 しかし,ひとまず主効果を中心に解釈してみよう。この結果は,施主にとってニーズ、の提示が可能となる のが,設計図が具体的に固まる「実施設計」フェイズ、および,具体的に施設ができあがる「施工 JI 竣工・維 持管理」のフェイズ、のように,施主が具体的な図面や実物を確認で、きるフェイズ で、あることを示している。 すなわち現状で、は施主にとって実物が提示されるまで,ニーズの伝達が困難であるとし、うことを表してい ると考えられる。また,ニーズの提示頻度が高い業務は意匠設計と工事施工計画管理の担当者であり, 施主と接する機会が他の業務担当者に比較して多いことからも納得できる結果である。 5 .2 「ニーズ確定必要性」を目的変数とした分析 GMの結果によれば, I フェイズ、JI 提示頻度」の主効果および交互作用が説明変数の候補であるが, I 業 務」を取り入れたモデ、ルも可能性があった(図 6の検定結果参照)。特に I 業務 JI フェイズ」と「提示頻度」 の交互作用は取り入れるべきか微妙なところである。要因効果の採否によりパラメータ推定値に大きな変 化はなかったので,一応,とcちらの交互作用項も取り入れたモデノレを採用して考察を進める。 「フェイズ」と「提示頻度 J,I 業務」と「提示頻度」の,主効果と交互作用を含めた要因効果を表す図を図 6に示す(I 業務」は 9水準もあるので,交互作用のパターン別に図を 2つに分けた)。 まず,主効果だけを解釈すれば I 提示頻度が多いほど必要性が高い JI 企画・計画フェイズ、の必要性 ‑300‑
は提示頻度の割には低く,実施設計フェイズの必要性は提示頻度の割には高く回答される Jとし、うことに 1 Jの場合には,逆に確定必要性が なろう。しかし,図 6をみると,交互作用は無視できない。提示頻度が 1 少し高まる場合があるようである。フェイズでいえば「施工計画」と「施工実施J,業務でいえば3番目のグラ フの5つの業務が該当する(設計者は全てこちらのパターンに分類されている)。この結果から,以下のよ うな解釈が考えられる。 1つめのグラフ:フェイズ戸毎の分析 要因 業務 フ ェ イλ. 企画フェイズでは提示頻度に関係なく,他のフェイズと比較 提示頻度 業務*提示頻度 フェイス.*提示頻度 して施主のニーズが確定していなくてもよしせ考えている傾向 が見られる。企画フェイズにおけるニーズの確定に対する期 d f 8 5 3 24 1 5 W a l dカイ2乗 1 0 . 3 2 5 3 9 8 4 7 9 . 7 0 3 1 0 8 7 5 3 . 0 4 2 4 4 4 1 2 9 . 5 2 8 5 1 0 8 1 7 . 9 0 3 0 6 9 7 p~ 0 . 2 4 2 9 0 . 0 0 0 0 0 . 0 0 0 0 0 . 2 0 0 9 0 . 2 6 7 8 待が低いことにより,プロジェクトの当初段階で要求を確定し, i3 次フェイズ以降に伝達することを重視しないことによる問題が生 2 じてし喝可能性があると推察される。 また,ニーズの提示頻度とニーズの確定度の必要性との関連!日 の傾向を見ると,企画・計画,実施設計,竣工・維持管理フェイ │1 ズには提示頻度に応じて確定必要性が高まる右下がりの傾向 が,施工計画,施工フェイズには山形(提示頻度 1 の確定必要 2 ‑ 1 ‑・‑施工 ~-3 2 3 4 一持ー竣工・維 1 持管理 1 ニーズ提示頻度 性が高し、)となる傾向が,基本設計フェイズ、にはその中間の傾」 こI3 向が見られる。これは施工計画,施工フェイズ、が,既に生産 l 入っているため先送りが出来ない 性格を持つこと,また専門性 │ 2 ‑‑+‑5.工事計 が高く,施主からのニーズ、の提示頻度が少なくても業務を推進 一合一 7 . 材料製 造販売 画管理 4 1 1 o するための確定が必要な項目を担当者が把握していると考えて ‑‑e‑8 . 研究開 i いるのではなし、かとし、うことが推察される。 発 2つめのグラフ:業務毎の分析(右下がり) ‑ 2 , 工事計画管理,材料製造販売,研究開発担当においては, i ‑ 3 ニーズの提示頻度が高いフェイズにおいてニーズ〉が確定する; 1 2 3 4 ニーズ提示頻度 必要があると考えられてしも傾向が見られる。この傾向は「施主 3 の要望頻度=確定必要度 Jと認識していることを表していると推 2 察される。 1 │ o 3つめのグラフ:業務毎の分析(山形) 企画・計画,意匠設計,構造設計,工事監理,専門工事担当 │ ‑ 1 者においては,ニーズの提示頻度に関わらす,確定する必要 1 2 があると考えている項目が存在すること,また,提示頻度 1の確卜3 定必要性が特に高いことは, I 施主が認識していない確定が必 ニーズ提示頻度 要なもの」が数多くあると考えていることが見て取れる。これは建 図 6 ニーズ確定必要性についての 順序ロジスティック回帰 設プロジェクトの推進にあたり,施主より高い専門性を有してい (クヲフは要因効果) l 41i U 八 qベU
d一 52 ることの意識の現れとも考えられる。 要因 7工 イ7 . : 5 .3 「重要度 jを目的変数とした分析 確定必要 G Mの結果によれば i フェイズ、Ji 確定必要性 Jの主効果 1 .5 および交互作用が説明変数の候補である。念のため「業 0 . 5 務」なども取り入れたモデルも検討したが,変数選択の結果, 電.. す 。 ニーズ確定 必要性 なお, i 提示頻度」は分析に用いないので,これが欠測値 となるサンプルも用いている(その他の欠損J I値もあるので, フェイズ 刷昨也窓岨晶・H鎖 e 、 d c") + から除外している。要因効果および検定結果を図 7に示 H 凶寝 阻おH起 1 .5 m 克 服 製M た。交互作用の効果はごく小さなもので、あったので,モデル p値 0 . 0 0 0 0 0 . 0 0 0 0 ¥~ 右組 M 肯欄 0 . 5 61 .4696572 1 61 .049156 阻お・阻剣 「フェイズ、Ji 確定必要性」の主効果のみのモデルを採用し Wald カイ 2乗 」 N = 1 0 8 0となっている)。 図7 重要度についての 順序ロジスティック回帰 (グラフは要因効果) この結果から以下のような解釈ができる。 全体としては,ニーズ確定が必要なフェイズほど重要度が高いとされている。このことから,耐久性確保 のためにニーズが確定していることは重要な要因の 1つであると考えられていることがわかる。 一方,フェイズの主効果より,耐久性確保のために重要なフェイズは,実施設計,施工,維持管理フェ イズであり,企画・計画,基本設計,施工計画フェイズ、はあまり重要視されていないようである。一般なプロ ジェクト管理においては「目的の明確化」は重視されるべきであるから,企画・計画フェイズ、の重要度が最 も低いのは意外な結果(あまり芳しくない結果)である。 6 .まとめと考察 ここまでの分析の主要な結果を図 8にまとめる。 が読みとれる。 各段階の分析結果からは,次のような「現状の問題 J 「ニーズ提示頻度」を目的変数とした順序ロジスティック回帰分析より 施主・発注者がニーズを具体的に提示できるのは実施設計ならび施工,竣工・維持管理段階であるこ とが明らかとなった。初期段階においては「プ口、ジェクトの目的」が明確にされていない可能性がある。 「ニーズ確定必要性」を目的変数とした順序ロジスティック回帰分析より 実務担当者は企画フェイズ、におけるニーズ、の確定を求めていない傾向が明らかになった。これは上記 ニーズ、を提示で、きない施主」と「ニーズを重視しない実務担当者」が少な 提示頻度の考察とあわせると, i からず存在するようである。実務担当者は施主よりも確定することが必要な内容を把握しており, (相談や 提示の有無は不明だが)施主になり代わり確定していることも多いのではなし、かと推察される。 「重要度Jを目的変数とした順序ロジスティック回帰分析より 実務担当者はニーズの確定必要性が高いほど,耐久性確保のための取り組みの重要性も高くなると考 えてしも一方で、,企画・計画フェイズにおける取り組みをさほど重要と見なしていない。これはプロジェクト の方向性を決定する主導権の所在が明確でなしせ考えられ,この部分に問題がある。 ‑ 3 0 2
│ f ‑ 一 一 二一 」 │ 函 i 3 │一←企画.計 1 2 t1 l‑‑a一基本設計 十 l 片 十 一 実 蜘 抑 悶 施 鰍 側 段 制2 〆 ︐ ︐〆 F1 ︐ ︐〆 片 l+ 吋 函 副! 一.一施工 1 2 3 ニーズ提示頻度 4 ( 十 紅 一 維 引! 持管理 " H ¥¥ 即 hF 注型・H部 Ha 高脳同宮山相 園 高H 揖 布踊 M肯柑 圏直・国側 n v 布市高割問骨制日制主主 制悩悩制量. H 匝医 S 園 出 畑 骨 回 E 咽if:時J 4 司側提 H 高齢副f1j ' " ̲ N 円守骨@草 l 司 │ 1 < ‑I (A) コ C u . コ 企画設計,意匠設計,構造設計, 工事監理,専門工事の担当者は 」ーーニーズ、提示が殆どなし吐き,逆に 確定必要性を高く回答 1 i 施工計画・実施フェ巴ス、で、は 提示が殆どなし、と,逆に 回答 確定必要性を高 4 ニーズ確定 必要性 ニーズ 確定必要'性の害1にぱ, 企画・計画は低め, 竣工・維持管理はやや高め 実施設計,施工実施は高め 図 8 主要な結果のまとめ フェイズ H縦一 附伽紘制品‑ H援 一 回おH 凶器 て才 お剖刷国有附脈 (") 園高・回剣 + +蜘絹 肯 M糊 c 」 、 ~
上記の問題点をまとめると,次のようになろう。 ・施主のニーズ、が PJの初期段階(企画・計画 基本設計)においてはあまり表現されない。 .一方,ニ一ズ、を確定することは「実務担当者」にとつては重要で、あるため,施主からのニ一ズ い状態でで、,実務担当者の裁量により意思決定を行うことが少なくない。 これは専門家への「お任せ」型の業務形態とし、え,ニーズを反映した設計目標を示すことが現状では 困難なことを示している。本調査の分析結果から今後の研究開発における課題として, 1.施主によるニーズ、の確定への支援 2 .実務担当者による施主のニーズの確定への支援 と し 、 う 2点が設定され,解決に向けての検討を開始することとなった。 7 .分析手法に関する検討事項 最後に,本報の分析について再考したい。主要な論点は以下の通り。 .GMでは「業務 確定必要」聞が切れたモデ、ルを採用したが,後のロジスティック回帰で、は復活させてい る。また,そのロジスティック回帰においても,要因効果のパターンをみると交 E作用の存在は明らかで あるのに,交 E作用の要因効果が有意でない。これは,実質的には交E作用パターンは 2 群に分けれ ば十分であるのに,業務のカテゴリ数が 9水準もあることに起因している。実質的な自由度に比べて数 倍の自由度が課せられ, p値が大きめの値になってしまうので、ある。水準数が多い場合は, p値や F値 だけを見て(要因効果を見ずに)変数選択するのはまずいとし、うことになる。また,質的変数の GMにお いては事態はさらに深刻である。 GMは,その結果から「どんな要因効果を解釈すべきか」を読みとるも のであるから,要因効果を見ないと GMが機能しないようでは本末転倒なのである。 .GMで「業務 確定必要」聞を切らなし、とすれば, I 提示頻度←確定必要」の因果1 ) 買序も可能となる。こ のモデ、ルにも魅力があり, I 一部の業務・フェイズ、にて,ニーズ確定必要性が高い場合,施主にニーズ、 提示を求める群と,施主には求めず自分で決めてしまう群の 2極分解が激しくなる」と解釈できる結果と なる。ただしこの関係は目的変数の水準を全体的に上げる(下げる)とし、う「平均」に対する効果ではな く,中間の水準より両端の水準が多く(少なく)なるとし、う「分散」に対する効果なので, 1 ) 頁序ロジスティッ ク回帰では表現できず,名義ロジスティック回帰を行う必要がある。名義ロジスティックは順序ロジスティ ックに比べてパラメータ数が多くなる分,推定値が不安定になりやすい。要因効果の出力も複雑で,見 やすくしにくい。かとし、って,単なるクロス集計からで、は本報の分析結果ほど、明確には要因効果を読み とれない。そこで結局,このモデルは採用しなかったので、ある。 注釈・参考文献 1 )本報の調査は,独立行政法人建築研究所の研究課題「耐久性能評価に基づく建築部材仕様選定シ ステムのプロトタイプ開発」および国土交通省国土技術政策総合研究所の研究課題「耐久性能に関す る要求レベル対応型の建築部材仕様選定、ンステムの開発」の一環として行われたものである。 2 )日本品質管理学会テクノメトリクス研究会編:グラフイカルモデ、リング、の実際,日科技連, 1999 3 0 4
日本 SASユーザー会 (SUG1‑0) JMPによるワインの顧客価値分析 林俊克 1) 平野広隆 2) (株)資生堂製品開発本部 1) (株)アーキテクト 2) AnalysisofWine'sCustomerValuebyJMP To s h i k a t s uH a y a s h i1) andH i r o t a k aH i r a n o2) S h i s e i d oProductDevelopmentD i v .and 2)A r c h i t e c t 1) 要旨 2003 年 3 月、首都圏に居住するワインを飲む女性 200 名 (20 歳 ~59 歳)を対象に、ワインに 関する 2種類の平易なフリーワードによるアンケート調査(非定形自由文形式群 100名、定形 sポート 自由文形式群 100名の計 200名)を行い、結果をJMPを用いて価値ポートフォリオ、 c フォリオ、価値認識構造図に可視化し、価値意識と価値認識の構造を分析した。その結果、女 性にとってのワインの顧客価値とその認識構造が把握で、き、圃産ワインのあるべき方向を提案 することが出来た。 JMPのテキストマイニングへの応用の可能性が示唆されたものと考える。 キーワード: テキストマイニング、 JMP、茶筆、顧客価値 はじめに JMPは、諸データから「素早く、労少なく、役に立つ情報を抽出し可視化する」としづデータマ イニングの目的を高いレベノレで、達成した、非常に便利なツーノレで、ある。本報では、ワインの顧 客価値の分析をテーマに、 JMPをテキストマイニング、の手法を用いたマーケティングリサーチ (ニーズ、の抽出・価値意識の解明)に応用した事例を報告する。諸解析は主としてJMP(V5) を用い、テキストマイニングに際しての形態素解析は奈良先端科学技術大学院大学情報科 u p : !I c h a s e n . a i s t ‑ n a r a . a c必参照)を使用 学研究科が提供する「茶茎 J(公式ホームページ h した。茶室の出力データをJMPに取り込む際の前処理(分析に供するワードの絞り込み等)は E x c e l を使用した。もちろん、 JMPのみでも茶室出力データの前処理は可能であり、小島らが iJMPによる統計解析入門 (2002/12、オーム杜)J で詳述している。 ハH u nペU RU
方法 2003 年 03 月 09 日 ~10 日、東京 30Km 圏に居住する自宅で週 1 回以上ワインを飲む女性 20 0 名 (20 歳 ~59 歳)を対象に、ワインに関する 2 種類の平易なフリーワードによるアンケート調 査(非定形自由文形式群 100名、定形自由文形式群 100 名の計 200名)を行った。 1.非定形自由文形式群のアンケート 非定形自由文形式群では、 ( 1 )今市場で、売っているワインとは? ( 2 )理想のワインとは? ( 3 )国産ワインとは? との設問に対して、思いつくままにその定義をフリーワードのショートセンテンスで、記入してもら った。一種の投影法で、演者らはこのアンケート手法を「定義法」と呼ぶ。次に、定義したそれぞ れの内容に関して、「少し詳しく文章にしてくださしリと非定形の自由文で、説明をしてもらった。 2 .定形自由文形式群のアンケート 一方、定形自由文形式群では、非定形自由文形式の時と同様、まず ( 1 )今市場で、売っているワインとは? ( 2 )理想のワインとは? ( 3 )国産ワインとは? との問いに対して、思いつくままに定義をフリーワードで記入してもらい、次に定義したそれぞ れの内容に関して、「少し詳しく文章にしてくださし汀とお願いする際 fOOなので口口だから ムムだ」のフォーマットに従った定形の自由文で、説明をしてもらった。演者らはこのアンケート 手法を文章完成法と呼ぶ。 3 .アンケート結果の処理 得られたフリーワード(今市場で、売っているワイン、理想のワイン、国産ワインそれぞれの定義 s i o n2 . 1f o r と定形、非定形のそれらを詳しく記述した文の計 12コーパス)は茶室(茶茎 v巴r Windows)により、形態素解析した。 だから」の前のワードを原因、後のワードを結果として、 その際、定形の詳述文は、「なので Jf 因果を維持しながら形態素解析を行った o 因果を維持しながら茶室で、形態素解析を行う方法については、演者が f E x c e l で学ぶテキスト マイニング入門 (2002/10、オーム社)J で詳述している。 306‑
非定形詳述文は、文中の接続助詞「ので Ji から Ji ば」の前のワードを原因、後のワードを結果 として、因果を維持しながら形態素解析を行った。 辞書は標準のまま用いユーザー定義語は設けず、出力オプションは基本形と品詞とした O 7 ド澗~""'_6-" ・ . . . . .. . . . ̲ . . , 川 町 田 耳 口 川 町 田m 宇 部 宮究部 泊三い フ7イ ル ( ! J ) 露軍(1) 解析〈島〉 ヘル7 也P … 畳 間; i i r ユ乙J I ' 四段が害い 「表層語 p'基本形 「庇み 「発育 V 品詞 「活用 J 形態素解析の後は、 E x c e lのフィルター機能を用いて品詞情報を基に分析に必要なワード(基 本形)を選別し、分析用データを作成した。本報では、非自立語、フィラ一、記号、助詞、助動 e x .ロ 詞、接頭詞、副詞、連体詞を除外し、主として自立の形容詞、動詞および名詞、未知語 ( ゼ)で構成されるワードを分析用データとして採用した。 J Md ・ 一 r ‑回二 園田11r ⁝ 日 一γ 一 一 一 一 一 一 一一一 ? γ 一J‑u 一 色 ⁝ 一 い 圏 ⁝ 一 し ル ? ⁝ ⁝ 4r 一冨⁝r O一 i ‑ ‑ 一⁝ f E il ⁝胡一回一一色 しE V Ia楊 ・‑一 一 一一一 J4 一ロ固自白自S 自 白g g自 目 白 自 自 自 白 目 白 自 自 目 白 J ¥ 一 ι 叫 一 一組立立五立立立五立立立立立立立立立立立五五立一︑一 立証一口日 け M 乙 ι 7⁝ 苅 部戸田⁝司 氾忠一市 互﹄信 ⁝情伺詞詞詞日開詞伺詞間同日間詞伺伺伺詞詞伺詞革円⁝乱 ⁝胡一間一日間一向一時間一間一世間一世間一世間一間一時間一四一世間時間以↑⁝捌 8一 帽 詔 ィ i J d Agf ⁝ーす咽一日一一回一叩 ‑品加川十一山 分析用データは、九1Pを用いて価値意識分析、価値認識構造分析を行った。 3 0 7
価値意識の分析は、[分析J > [ 2変量の関係jを用いて、市販のワインの定義に出現するワード の出現度数をx .説明変数、理想、のワインの定義に出現するワードの出現度数をY. 目的変数 として散布図を表示することで、行った O 価値認識構造分析は、[グラフ J > [特性要因図]を用いて、原因ワードを子 .x、結果ワードを親. Yとして特性要因図を表示することで行った。 結果 1.ワインの価値意識の分析 価値意識の分析に供するアンケートは非定形自由文形式群 100名と定形自由文形式群 100 名の両群全く同一であるので、両群のデータをプールし、ワインの価値意識を分析した結果が 次の図である。演者らはこの散布図を価値ポートフォリオと呼ぶ。 二 二 コ │哩翌三竺主坦些墾丘三空管堕ニ変量の関係 。 l j Q z 陀いしい 風 車 喧主む ‑良い ー香り 縛 c , 7 . > E安い 町面格 Rよい ーする E手頃 町高い 晶一 dE 唾豊富 '‑‑‑‑T‑ -T---~ E買える E多い 回重類 耳軽 1‑‑' i ! 1 0 2 0市販ワインの 3 ¥7鎮の 4050 0 6 N 価値ポートフォリオの対角線上に位置するワード は、市販のワインに既にある属性であり、かっ 同じ程度に理想でも望まれている属性であるから、今市場にあるワインが顧客(調査対象)に 対してちょうどヒ。ッタリの満足を与えてしも価値であると考えられるが、ここでは、 飲む、安い、手頃、価格、値段 308‑
といったワード、が該当しており、市販のワインが価格において適正な価値を提供できていること
がわかる。
対角線の下側(価値ポートフォリオの右下)は、「理想<市販」の領域であり、市販のワインでそ
の属性がよく認識されているが、理想ではさほど求められない、即ち顧客(調査対象),ことって
「既に満たされている」価値であると分析できるが、ここでは、
種類、手軽、買える、多い、豊富
といったワードが該当している。つまり、ワインは手軽に買えること、種類が多いことは顧客にと
っては、既に当たり前価値で、更にワインの品種を増やしでもあまり有り難がってくれない可能
性が高いと考えられる。
逆に対角線の上側(価値ポートフォリオの左上)は、「理想、>市販」の領域であり、市販のワイ
ンではその属性はあまり認識されていないが、理想では多く求められる、即ち顧客にとって「未
だ満たされていなしリ価値即ち顧客の潜在ニーズで、あると分析で、きるが、
おいしい、味、良い、香り、よい、高い
といったワード がそれに該当している。つまり、味は当然として、香りの良いワインや高いワイン
が市場で求められていると考えられる。
また、│理想一市販 I(理想のワインで定義されたワードの度数と市販のワインで定義された
ワードの度数の差の絶対値)を「価値指数」として横軸にとり、縦軸に国産ワインの定義の度数
sポートフォリオを描くと、次図のようになる。
をフ。ロットして c
[
!
1
7
1ケ ド 子
‑おいしい
‑手軽
‑
高
い
‑昧
‑手・身近
‑多し、
‑種類
‑買える
:畠.5~
‑豊富
瀞必い
‑良い
・
よ
い
.香り
.;品衛.う・胃萄世卦
5
1
0
1
5
2
0
2
5
3
0
価値指数 <
1理想"市販 1
)
3
5
40
nU
υ
ハHU
凶
ハ
︿
理想、との君離が大きく、市場のワインがまだ十分に顧客に満足を与えていない価値属性(種 類が多すぎる、おいしい、手軽、味、香り等)のうち、香りの評価が非常にいことから、国産ワイ ンが緊急に改善しなければならない課題が香りの良さにあることがわかる。 このように、 JMPの散布図描画機能を用いて価値ポートフォリオを作図することで、視覚的に、 顧客の潜在的な価値意識を理解することができる。 Excelを用いても同様な分析は可能である が、散布図に布置されたホ。イントのラベル(ワード)を表示する機能が提供されておらず、手作 業のラベル付けが必要で、あり、作業効率が格段居に違う。 2 .ワインの価値認識構造分析 ワインの価値認識構造の分析は、非定形自由文形式と定形自由文形式のそれぞれが抽出す る構造の比較を行うため、独立に解析した。非定形自由文形式群の解析結果を次図に示す。 演者らはこの特性要因図を価値認識構造図と呼ぶ。価値認識構造図は、結果ワードの上位 3 ワード(買いやすい、飲みやすい、良い)について示す。 手一い 頃¥﹂る │一ど ー 申 EE L 安 川¥ し :ム 売 安一こ 時 J 問 i │ 買 うl やすい ない[ [アルコール│度│高い│ │ く せl ¥ ¥ / / l 飽き l 来る[ [クセ│ないl │飲む│やすい [;毎外│の│比べる│国│方│手│入れる│やすい[ [おいしい│ワイン│高い l 安い l おいしい l │ 良 い │手軽│手│入る│好き[ [ポリフエノール│体│よい│ 顧客が買いやすいと考えるワインは、 価格が安い或いは手頃で手軽に入手できる ものであり、飲みやすいと考えるワインは、 味にクセがなく、アルコール度が高くなく、飽きがこない ものであり、良いワインは、 手に入りやすいとしづ意味で国産、(おいしいワインは高し、から)安くておいしいもの、 ポリフェノール等体によさそう 3 1 0一
なものであると推察出来る。 次に、定形自由文形式群の解析結果を次図に示す。価値認識構造図は、結果ワードの上位 、 3ワード(買う、飲む、おいしし、)について示す。 う ア 斗 │買う l おいご│ │普段 l│特別 l好きll 飲む│易い II まろやか L L L │ l J 1 41 4 1 当 │飲む lJl 理一国 想¥﹂ / f 産 販 ¥J// む 市一一欽 い¥¥ァf物 J み 一飲 安一 ︑一 ‑ー ー も 飲アい ー;︑ る ¥一比 ムロ一 せ一味 良 わ一 ︑ h LJ l おいしい 顧客は、ワインを買うに際しては、 価格(安い、手頃、高価)と味(自分の好み、おいしし、)と買い易さ(どこで、も売ってい る、手軽) を考慮しており、飲むに際しては、 状況(普段、特別)と味(甘口、まろやか、飲みやすい、おいしし、) を考慮しており、おいしさは、 (料理に)合わせて飲む ことを考慮してしも様子が伺える。 ここに示した価値認識構造図は、 JMPが出力する特性要因図のごく一部であるが、全てを詳 細に検討することにより、さらに多様な知見を発見することが出来る。 E x c e lのヒ。ボットテーブ ルを用いることで、原因と結果の対応を分析することは可能であるが、ク P ロス集計表を視覚化する機能が提供されていないので、解釈が非常に困難であるが、 JMPの 特性要因図は、因果関係を直感的に理解できる点で優れていると考える。 考察 平易なフリーワードのアンケートを実施し、 JMPによって価値ポートフォリオ、価値認識構造図 に可視化したワインの顧客価値を総合的に岨唱すると、女'性にとってのワインの価値は、 香りの良さ ハペ U 1i 1i
まろやかな口当たりの良さ 料理に合うことによるおいしさ 価格の安さ、入手の手軽さ が重要なものであるが、一方で 価格の高いワイン への欲求も見られることが理解された。その他、 コクがある、後味が良い、色がきれい、ボトルのデザインが良い 等も重要で、あった。 国産ワインの評価に関しては、味や安心感には全く問題がないが、高価で人に出せるような外 国産のワインを理想とする考えが強し、ため、どうしても一般的で安いイメージを払拭し切れて いないのが実状で、喫緊の課題は香りの改善で、あった。 また、今回非定形自由文形式と定形自由文形式の 2つのアンケート手法を比較検討したが、 非定形自由文形式は思ったこと、感じたことがさほどストレスなく表現できるので、アンケート記 から Jr ば」の前のワ 入時の負担が低い反面、論理的な因果分析が困難で、接続助詞「ので Jr ードを原因、後のワード を結果と主主主といった、荒っぽし、割り切りを必要とした。一方、定形 自由文形式は、アンケート記入の際の負担感が大きい反面、論理的な因果関係を正しく分析 で、きる利点をもっていた。 通常、両手法によって得られる知見には若干の差が生じることが多いが、今回は比較的よく一 致を見たが、前段で両手法に共通して設けた定義形式のアンケートで、予め着眼点を固定し、 書きやすい、書き l こくし、に関わらず必ずその内容をやや詳細に記述させる工夫が功を奏した 為と考えられる c 今回の調査結果から、女性のワイン価値意識に上手く合致するワインとして、以下のようなこと が提案できると考えられ、、 JMPのテキストマイニングへの応用の可能性が示唆されたものと考 える。 ① 女性にとってのワインの価値を真っ向から攻めるとすると、香りが良くまろやかな口当 たりのワインを開発すべきである。 ② 「ザ・国産ワイン」と言えるようなシンボリックなブ、ランド、の創出も手。 ③ 価格を日常用ギリギリのやや高めの価格に設定し、人に出して恥ずかしくなしものに すべきである。 参考文献 林 俊 克 .: E x c e lで、学ぶテキストマイニング入門(オーム社) 2 0 0 2 ‑312‑
田 久 浩 志 , 林 俊 克 , 小 島 隆 矢 . :JMPによる統計解析入門(オーム社) 2 002 朝野照彦魅力工学の実践(海文堂) 2 0 0 1 林 俊 克 , 平 野 広 隆 . :VACAS&DIONISOS が解明する女性にとってのワインの感性価値. 日本感性工学会第 1 0回あいまいと感性研究部会研究発表会講演論文集, 11~15 頁, 2003 林俊克テキストマイニングの現在.マーケティング・リサーチャ ‑94号 , 16~25 頁, 2 0 0 3 林 俊 克 . :VACASによる感性商品開発(ファンデーションの開発事例). 感 性 工 学 第 2巻 l 号・通巻 0 0 6号 , 25~27 頁, 2002 林俊克感性工学的手法によるファンデーションの商品開発.日本感性工学会感性商品 部 会 報 第 l号 , 23~33 頁, 2 002 町田明子,林俊克ネット上書き込み情報のテキストマイニング.第 4 回日本感性工学 会大会予稿集 2 002,2 4 9頁 , 2 0 0 2 町田明子,林俊克ネット上書き込み情報のテキストマイニング. 日本行動計量学会第 3 0会大会発表論文抄録集, 98~99 頁, 2 0 0 2 林 俊 克 感 性 工 学 と 化 粧 品 開 発 . FRAGRAi ¥CEJOじRI ¥A, し 2 9巻第 4号通巻 2 4 6号 , 4 6 ~51 頁, 2 0 0 1 林俊克,道官克一郎,平野宏隆:ワインの顧客価値に関する研究.第 3 回日本感性工 学会大会予稿集 2 0 0 1, 1 4 9頁 , 2 0 0 1 林俊克,真柳真審美"平野宏隆:女子大生の魅力的牛乳像の解明. 日本行動計量 学会第 2 9会大会発表論文抄録集, 104~105 頁, 2 0 0 1 林俊克,田久浩志,道官克一郎,平野宏隆:デ、マテノレによる看護婦の化粧意識の解 0 0 0,5 8頁 , 2 0 0 0 析.第 2回日本感性工学会大会予稿集 2 林俊克,田久浩志,道官克一郎,平野宏隆:デ、マテノレによる看護婦の化粧意識の解 析. 日本行動計量学会第 2 8会大会発表論文抄録集, 113~114 頁, 2000 K .,H a y a s h i, T .,Masuda, M.a n dF u k u c h i, Y . :AnA p p l i c a L i o no f K a n s e iE n g i n e e r i n gt o Dohkan, くa n s e iE n g i n e e r i n g1 ? I I u m a n aC o s m e t i cP r o d u c L‑ A p p l i c a L i o no f Dohkan MeLhod‑, I s e n s i b i l i t ye r g o n o m i c s , 一E d i l e db ySoonYoLee,p . 1 3 ‑ 2 2,I n g a n k y n g y u n g s a, 1 9 9 9 司d 1上 つd
日本 S A Sユーザー会 (SUG I‑J) 看護師のセクシャルハラスメントに対する意識について 回久浩志 1) 岩本晋 2) 1 ) 中部学院大学人間福祉学部健康福祉学科 2 ) NPO福祉法人 OIDEMASE Then u r s e ' so p i n i o nr e s e a r c ha b o u ts e x u a lh a r a s s m e n t TakyuH i r o s h i ChubuGakuinU n i v e r s i t y takyu@chubu‑g.acjp IwamotoSusumu Non P r o f t tO r g a n i z a t i o nOIDEMASE 要 旨 jMP5.01 で看護師が持つセクハラに対する認識の定量解析を行った。各種の質問、および 不快な思いをしたときの看護師がとる具体的な行動と年齢の関係をロジスティック回帰で 示し、医療現場 の新人教育の参考にすることを提案した。 キーワード:セクシャル 1¥ラスメント、看護師、 JMPソフトウエア 【はじめに】 最近、 T V や新聞なと。で、セクシャルハラスメント(以下セクハラと略)の話題をよく耳にするようになった。 中には、故意にセクハラ行為しているケースもあるだろうが、自分自身にとっての普通の行動が知らない 内に相手にとって不愉快な行為をしているケースも考えられる。従来、筆者らは学生におけるセクハラの 意識調査 1.2)をしてきたが、女性の年齢が増加するにつれてどのように意見が変化するかは定かではな い。今回、学生とほぼ同じ居住地の看護師を対象に意識調査を行った。看護師独自の意見の差が存在 するか否かは不明ではあるが、看護師を社会人女性の一例と考え解析を行ったので、報告する C 【対象と方法】 対象は岐阜県 S市の女性看護師 1 9 1名、コントロールは同じく S市の C学院大学女子学生 457名で ある。対象の居住地域がほぼ同一なので地域による意識差はなし叱仮定した。セクハラを想定する場面 として露骨なお誘いの場面でなく、 1:通常の学校や職場で、の生活で、少し離れた間柄の人との対応、もし :食事の席などで、同席した初対面の人と対応する場面と考えた。 くは、 2 フェース項目として性別、独身既婚、年齢、ファッション、化粧に凝るか、異性の目を気にするか、男性 に厳しいか、男女の兄弟の状況、喫煙の有無、過去一年のイッキ飲みの有無などを質問した。 1項目の質問(表 1 )を「別に感じない ( 1点)JI あまり不快でない ( 2 セクハラに関する質問項目として 1 点)JI やや不快 ( 3点)JI 極めて不快 ( 4点)J の 4段階で評価した。得られた点数は合計をして「拒絶度」 と定義し、セクハラ行為に対して寛容か厳しし、かの指標とした。また、女性が不快な思いをしたとき、どの ような具体的行動をとるか ( 1忘れる、 2 :自分の中にとどめる、 3 :仲間を巻き込み悪い風評をながす)を調 べた。統計解析には SAS社の jMPVer5.01を使用した。 【結果と考察】 解析では年代:1 1 8 ‑ 2 2の女子学生と、 2 3歳以上の看護師の意見を比較した。以下の記述で「看護 師」と示す場合は 2 3歳以上の看護師を意味している。 114 にd qぺU
1.フェース項目について 看護師の全年代をまとめ、化粧・髪型にこる、ファッション、男性・女性の兄弟の有無、などの区分で拒 絶度の平均値の差をt検定で、検討したところ、化粧・髪型のみ 5 %の危険率で有意差の低下が見られた。 )。 また女子学生に比較して、看護師では拒絶度の上昇傾向が見られた(図 1 2 .セクシャルハラスメントの質問項目について 女子大生と看護師で拒絶度の変化を求めたところ、全般的に看護師の方の拒絶度が増加していた。 少数ではあるが、女子学生の拒絶度に 10~15 品、った低値が存在したが、看護師ではほとんど存在せ ず、これが年代による拒絶度上昇の一因になっていることが示唆された。これより女子学生と看護師でセ クハラに対する意識が変化することが考えられた。 個別の質問をみると、年齢を聞く、飲み会でのお酌を強要する、などの項目で、年代の上昇につれて )。女子学生では、学年から年齢が明確になるた 「極めて不快」と回答する割合が増加していた(図 2、3 め、年齢に対する質問にはあまり敏感に反応しなし吃考えられた。 女性の形容詞として「色っぽい、セクシー J1"美人、きれしリ「かわし、し、」の 3種類を取り上げ、看護師で どのような意見を持っているかを求めた(図 4 )。その結果、「色っぽい、セクシー」では 6 0 %近くが「やや不 快 J1"極めて不快」と回答し、「美人、きれしリ「かわし、しリではその逆の傾向を示した。また、「美人、きれ でも 1 5 ‑ 1 6 %は「やや不快 J1"極めて不快」と回答していた c これは、褒め言葉と考えられる しリ「かわし¥,( ¥J 形容詞も使い方に留意しなくてはならないことを意味している。しかし、今回の調査は少し離れた間柄と の人、もしくは初対面の人との関係を想定しているので、相手とのコミュニケーションのとり方によってはこ の反応が改善されることも考えられる。 3 .不快な思いをした男性への対処について 不快な思いをした男性への女性の対処に関して検討したところ、年代により対処に有意な差は見られ ないが、 3 0代の看護師で「忘れる」と答えるものが増加している傾向がみられた。そこで、年代ではなく拒 絶度と女性の対処法について、ロジスティック回帰で、分析を行った(図 3)c その結果、看護師の拒絶度 1 点でも、不快な目にあうと、自分の中にとどめる、もしくは、悪い風評をながす人が の平均値である 3 8 0 %近く存在することが明らかになった。男性は女性が不快な思いをした場合に被害が自分にも及ぶ、 あるいは、職場での人間関係に多大な影響が生じることを認識すべきであろう。 【まとめ】 今回の調査は少し離れた間柄との人、もしくは初対面の人との関係を想定してしもとしづ制約があり、 どのような場面にも今回の結果があてはまるわけではない。また、一般の社会人女性と看護師との問で 意見の相違があるかは定かではない。しかしそのような条件でも、女性の化粧や服装によってセクハラに 関連する状況に対して寛容か否か(拒絶度が低し、か高し、か)を判断しがたいこと、女性を褒めても不快 に感じる人が存在すること、何に対しても「別に感じなし、」としづ女性が存在することが明らかになった。結 局のところ、男性は妙な先入観はもたずに相手に対応し、かつ、不用意な発言が場合によっては自分に 災難が及ぶことを認識し行動することが、セクハラに関するトラブ、ルを少なくするポイントと言えよう。 最後に、これらの解析結果は、保健・医療・福祉現場でイ動く職員にとって、よりよい職場環境をつくるた めの基礎資料となることを指摘したい。 【参考文献】 大学生のセクシャルハラスメントに関する意識調査:入山貴弘,渡辺朋恵,田久浩志、第 3田 中 部 学 院 0 0 2 大学国際シンポジウム, 2 男女学生聞のセクハラ感の定量調査:田久浩志、第 5 6回 関 西 SASユーザー会, 2 0 0 3 句1l ρhU n︿U
表 1 質問項目 図 1 年代と拒絶度 準型選主益重型度の元配置分析ぷ泌総滋狩滋お 1スリーサイズ、体型などを訊かれるのはどう 2恋人はいるのかと訊かれるのはどうか 3年齢を訊かれるのはどうか 4飲み会で「つ I f Jとお酌を強要されるのはど 5女のクセ 1 : : . . .という発言はどうか 6髪の毛、肩、腰など体を触られるのはどうか 7色っぽい、セクシーと言われるのはどうか 8美人、きれいと言われるのはどうか 9かわいいと言われるのはどうか 10必要もないのに個人的な性体験を尋ねられ 男性が他の女性の身体、服装や性的な関 1 1 係などを他の人がいるところで話題にする 40 35 E 3 口 ー・ー・ 一 一 ̲ . . ・ ー ← + 巳 : :: : . : . ; . ; . : . ; . 0 ; , ; , . . : : : " ' ; ' ; " : . : . . . : . : ‑ :.......-...-...._...:.,,_:.~・・・ 山 崎 一 一 一 組 2 5 ‑ . . . . " ^ ‑‑ 1 ・一一・ ' , . ‑ . 〆 A ー.. 20 1 5 3 4 56 年代 年代: 1 : 1 822 2 : 2 3 ‑ 2 5 3 : 2 62 9 9 5 4 : 3 03 : 4 049 6 : 5 0・ ・ ・ ・ 図2 ・ 図 3 年代とお酌の強要 年代と年齢を聞く 只 unUF3 nununu 752 mQ照明両 剛聞梱 ルHU動隊院院m 磁m問問関岡田一 U 円 円H 2 3 45 6 年代 年代 図 4 褒め言葉に対する反応 l z 口亡コ口│ 0 . 7 5 水準 1 2 3 4 度数 5 1 8' 2 1 5 t6 1 合計 劃吉 0.31677 0.521)' 0.13043 0.03106 1.00000 4 水準 ηぺU 1ょ ワ ー
日本 SASユーザー会 ( ̲ SUG 1‑0) L if eTimeValueを基準とした施策の最適化方法 一遺伝的アルゴリズムによる解析事例一 0小 谷 田 知 行 , 堀 彰 男 株式会社浜銀総合研究所 戦略研究部 Optimaizationmethodsf o rp l a nusingL i f e t i m eValue Ana p p l i c a t i o nofGeneticAlgorithmstomarketing o r i TomoyukiKoyata,AkioH t d . HamaginResearchI n s t i t u t e,L Dept.ofS t r a t e g i cManagement& Consulting 要旨 銀行は,顧客を維持・獲得・成長させるため,数々の施策を行っている.施策を行うと顧客生涯価 値(以下, LTV)は変化するため,この変化分,あるいは変化後の値によって施策を評価することがで、 きる.この際,経営者が知りたし、ことは,個々の施策の評価だけではなく,銀行全体としての最適な 施策の組み合わせである.しかしながら,最適な施策を求めるには,施策の膨大な組み合わせを試 す必要がある.そこでまず, LTVの精度を把握寸るためにその分布を算出した.次に,遺伝的アルゴ、 リズム(以下, GA)を使用して最適な施策の発見を試みた. 本報告では,計算方法を概説し,適用した事例について紹介する. キーワード: LTV.最適化,遺伝的アルゴリズム.DATAステップ 1 .はじめに 銀行が現在得ている収益は,過去の戦略・施策の結果蓄積されたストックから生まれているものが 主である.預貸のスプレッドから得られる資金収益の多くは,過去の営業活動の結果得られているこ とが代表的な例であろう.つまり,銀行にとって,現在の顧客は,今期の収益だけでなく,将来の収益 を生み出す源泉となっている. そこで,顧客を現在の短期間の収益ではなく,将来得られるキヤツ、ンュフローの現在価値で、評価 する指標である LTVが必要となった.LTVは顧客の価値を評価する一つの指標であるが,顧客に対 して施策を行った場合,施策の前後で LTV は変化する可能性がある.つまり,施策によってワレット (財布).、ンェアが高まり,その結果 LTVも変化するのである.そのため,施策を行ったことによる LTV の変化量を使用して,施策を評価することができる.施策の評価に LTVを使用することによって,将 来得られると期待される収益を考慮した施策を検討することが可能となる. 銀行に限らず,経営判断は,限られた資源をどのように配分するかとし、うことが問題となる.LTVを 淫営判断に使用するためには, LTV の総和をコントロールで、きることが必要て n︿U ︐ n uυ 1ょ
LTVの精度を求める必要がある.施策については,限られた資源から複数の施策を行い,その費用 対効果の合計が最大となることが望ましい.ただし,最大値を求めるためには,考えられる施策につ いて,その対象や時期などの組み合わせる必要があり,膨大な組み合わせ数となる.そこで,遺伝的 アルゴ、リズ、ムを使用して,最適解を求めることを試みた. 本報告では,まず,従来の LTV算出の問題点について整理し,つぎに本報告での LTVとGAの 計算方法の概説と株式会社横浜銀行殿から提供していただいたデータを適用した事例について紹 介する. 2.LTVの算出 2 .1.一般的な LTV算出方法 LTVは,将来得られると期待されるキャァンュフローの現在価値で、ある.そのためには,顧客の継 続率や収益額が必要であり,それらの将来の推定値として過去の収益額や継続率の実績値を使用 する.しかしながら,銀行は,長期間の顧客データを分析に使用できる形で保存していない.そのた め,年齢の異なる複数の顧客の値をつなぎ合わせて,長期間の LTVを推定する方法が用いられる ことが多い. 式 lは,よく使用される LTVの算出方法である.LTV算出の際は,状態を複数定義する. 年齢 3 0歳で給振有顧 例えば,口座無,給振無(口座有),給振有,の 3状態を定義する.すると, I 0年間の LTVJや「年齢 3 0歳で給振無(口座有)顧客のその後 1 0年間の LTVJを求め 客のその後 1 る事ができる. ( /, I+1 )と収益行列 P(l , l+1 )は,年齢 l 歳から 1+1歳の実際の平 この際,状態遷移確率行列 Q 均値(あるいはそれから推定した値)を使用することとなる. 乞[ { d ( / ‑h)Q(h, l)(Q(I, l+1 )仰 ( l , l+1 ) ) } 1 ] LTV(h, i )= LTV( ムi ):年齢h歳 か ら i 歳 ま で の LTV ベクトル I LTV(h, i , l ) i )=i LTV(h, M [LTV(h, i , n ) LTV(h, i , α ):年齢h歳 状 態αの 顧 客 の 年 齢i 歳 ま で の LTV d( j ): j 年後までの割引率 が:行列の要素毎の積 1:要素がすべてl の列ベクトル く式1> U 円 ペυ n ηL
P(h,
i
):年齢h
歳 か ら 年 齢i
歳の収益行列
(P(h,
i
;
l,
l
) ^ P(h
,
i
;
l,
n
)i
P(h,
i
)=I
M
0
M
lP(h,
i
;
n,
1
) ^ P(h,i
;n
.n
)
)
P(h,
i
;
a,
b
):年齢h
歳状態、αの 顧 客 が 年 齢i
歳 に 状 態bとなるときの収益額(i>h
)
II
Q(
l
,
l+1
)
(
h>i
)
'
J V'/'J
1
1
(
h=i
)
J
Q( 丸 i)=~ t!,~~""
(
1
:単位行列)
Q(h,
i
):年齢h
歳 か ら 年 齢i
歳の遷移確率行列
(Q(h,
i
;
l,
l
) ^ Q(h
,
i
;
l,
n
)i
Q(h,
i
)=I
M
0
M
lQ(h,
i;n,
l
) ^ Q(h,
i
;
n刀))
Q(h,
i
;
a,
b
):年齢h
歳 状 態αの 顧 客 が 年 齢I歳 l
こ状態bと な る 遷 移 確 率 (i>h
)
(~Q山 k) =J
1
2
.
2
.
L
T
V算出方法に関する問題
LTVの算出に関する問題は, 3つに整理で、きる.
(
1
)算出のためのデータについて
式 lで問題となるのは,遷移確率行列 Q
(
l
,
l+1
)と収益行列 P(
l
,
l+1
)を,年齢 l
歳から 1
+1歳の
0歳の顧客が 3
0歳になったときに,今の 3
0
実際の値を使用することである.例えば,この場合,今 2
歳と同じ取引行動を行うとは限らないため,遷移確率と収益額が同じとは限らないとしづ問題がある.
(
2
)顧客満足と LTVの関係について
LTVを算出するためには,過去のデータを使用する.すると使用した時点で収益額と継続率の高
い顧客の LTVが高くなる.例えば,現在の銀行でこのことを行うと,住宅ローンのある顧客の LTVが
高いとしづ結果になることが多い.しかし,その顧客は,自ら進んで、その銀行と住宅ローン取引を行っ
たとは限らない.また,現在もその銀行に満足しているかわからない.このような場合でも,住宅ロー
ンのある顧客の LTVは高し、としづ結果となる.つまり,顧客の満足と LTVの値は,必ずしも関係はな
し¥
(
3
)
L
T
Vの精度について
式 lで説明したように継続率と収益額を計算し,それを現在価値に害j
I
り引くことで LTVを求めるこ
とができる.これは,上記 2つの問題を抱えているとはいえ, LTVを算出するための現実的な方法の
ηベU
ーょ
ム
っ
ひとつであろう.しかしながら, LTVを使用する目的は,顧客や施策を評価することが多い.そのため, LTVの精度が分からないと,評価が難しい. 実際,銀行における特定顧客群の年間収益額の分布は,図 lの様になっている.よく言われるよう に一部の顧客が収益の多くをもたらしていることがわかる.さらに条件を追加して顧客を限定しても, 程度の差はあるものの,傾向は同じである.このように分布が偏っている変数の平均値を使用して LTVを算出しても, LTVの分布がわからないため,その結果の評価が難しい. 近世睦 L 収益額 :収益額の分布 図1 本報告では, LTV 算出方法における問題点 i(3)LTV の精度についてJを,モンテカルロ法を使用 した、ンミュレーションによって LTVの分布を求めることで確認する. 2 . 3 . L T V計算方法 本報告において, LTV のモンテカルロ・シミュレーションは,式 l における状態遷移確率行列 Q, l (l+1 )と収益行列 P, l (I+l)を平均値ではなく,ある分布に従う乱数によって決定した.顧客の 状態は, 1 7 (内 lつは口座無)に分類した. 1 )状態遷移の決定, ( 2 )収益額の決定,の手! J 慣を 1 0, 000回行った.つぎ、に状態遷移の決 計算は, ( 定方法と収益額の決定方法について述べる.ただし,いずれの場合も乱数は,別途用意した FORTRANプログ、ラムによって生成し,それ以外は DATAステップ。で、処理している. ワ ム ワ ム ηJ
(
1
)状態遷移
状態遷移は,パラメータに実際の状態遷移人数を使用して,多項分布に従う乱数によって決定し
)
.
た(図 2
N(h):年齢h歳 か ら 年 齢h+1歳 の 状 態 遷 移 人 数 行 列
(N(h;l,
l
) A
N(h)=
1
M
N
(
h
;
1,
1
7
)i
0
¥N(h;17,
1
) A
1
M
N(h;17,
1
7
)
)
b
):年齢h
歳 状 態αの 顧 客 が , 齢h+1歳 に 状 態bと な る 実 際 の 人 数
N(h;α,
N(h;α
)=LN(h;α,
k
)
k
=
1
("'7 ,N(h;α,
1). N(h;a,
17))
このとき,多項分布M
I
N(h,
a
)
;一一一一,A ,一一一一│に従う乱数を発生
¥ '"
N(h;α
) . N(h;α
))
させて,年齢h
歳 の 状 態 αから次の状態を決定する.
図2
:状態遷移確率のパラメータ推定方法と乱数発生方法
(
2
)収益額
収益額の分布は,状態によって形状が大きく異なっている.状態によって特に差があるのは,収益
額マイナスの存在の有無と収益額ゼ、ロの顧客割合で、あった.つまり,取引がほとんどない状態の場
合,収益ゼ、ロや収益マイナスの顧客が多く存在する.そこで,まず,状態遷移の決定と同様に多項
),収益ゼロ,対数正規分布又はパレート分布(収
分布に従う乱数を発生させて,三角分布(収益<0
)
.
益 >0)を決定した(図 3
三角分布が選択された場合は,さらに三角分布に従う乱数を発生させ,対数正規又はパレート分
布が選択された場合は,各々の分布に従う乱数によって,最終的な収益額を決定した.対数正規分
布とパレート分布は,事前に最尤法によってパラメータを推定し,適合度の高い分布を採用した.
N(h;α,
b
;
‑
l
) :年齢h状 態αか ら 年 齢h+1
状 態b
lこ遷移する
収益マイナスの顧客数
N(h;a,
b
;
O
)
収益ゼロの顧客数
"
N(h;a,
b
;
l
)
" b;l)
N(h;α,
b
)= N(h;a,
b
;
‑
l
)+N(h;α,
b
;
O
)+N(h;a,
収益プラスの顧客数
N(h;α,
b
;
‑
l
) N(h;αカ;
0
) N(h;a,
b
;
l
)i
,‑
‑‑
,一一一一一 l
に従う
.
,
N(h;a,
b
) .N(h;α b
) .N(h;a,
b
))
このとき,多項分布M
IN(h,α,b)
( H f1̲ .
. 1
.
.
¥
.
ラ
¥
,.
ヲ
乱数を発生させて,収益額がマイナス,ゼロ,プラスを決定する.
:収益額のパラメータ推定と乱数の発生方法一収益マイナス.ゼロ,プラスの決定一
図3
︑
qU
︑
qU
臼
つ
( 3 )結 果 モンテカルロ・シミュレーションを実行し,状態別に示したものが図 4である.ここでは,二つの状態 について表示している. 一一状態 l 一一状態9 ﹄品世控 、 司 .~.ペ、 ー~ 『 一 一 一 LTY 一 一 一 一 図4 :状態別 LTVの分布 この例では,状態 9の LTVの平均値は状態 lの約 4倍あり,分布を見てもその重なりは小さい.こ のことから,状態 9の LTVは,状態 lよりも高い場合が多いとし、える. もちろん,逆転する可能性もありえるし,その確率を求めることも可能である.さらに,状態 9の分布 は裾が広いため,平均から布離することも多いだろう.これらの評価方法は, LTV の使用目的による. 本稿では, LTVの分布を確認することにとどめておく. 3.GAによる施策の最適化 3 . 1 . L T Vによる施策の効果の考え方 あらためて LTVに影響をあたえる要因を整理すると,次の 4つに分類できる. (1)新規顧客の開拓コストと既存顧客の維持コストの関係 サービス業においては,一般的に新規顧客の開拓コストは,既存顧客の維持コストと比較して高 いと言われることが多い.これについては,銀行や商品によって事なり,かっ銀行の戦略によって変 化する可能性がある. ( 2 )ライフステージによる収益変化 顧客は,就職,結婚,出産などのイベントによって,ライフステージが変化する.これによって銀行 から見た顧客の行動も変化する.この変化の仕方は顧客によって異なっており,そのことが LTVに影 響をあたえる.顧客のライフステージが銀行の働きかけによって変化する可能性は低く,この要因は, 銀行がコントロールすることは難しい. 3 2 4
( 3 )メイン化による収益・継続率の変化 従来から銀行では「メイン化」と称して,給与振込や公共料金の自動振替等の獲得を推進して来 た.これにより,顧客における白行のワレット・シェアを高め,収益額の増加と継続率の向上を図って いた.顧客の「メイン化」は,銀行の施策によって変化する可能性が高く,それにより LTVも変化する. したがって,この要因は,施策によってコントロールで、きる可能性が高い. ( 4 )その他 その他の要因として,口コミ効果や営業コスト等があるが,計測が難しい. 本報告では, 1 ( 3 )メイン化による収益・継続率の変化 J の要因に着目し,施策前後の LTV の変化 分を施策の効果と考える.つまり,施策によってメイン化が進み,その後の収益・継続率が変化する. 収益・継続率が変化することで LTVが変化する. 以下では, GA による最適な施策の組み合わせを求める方法と,事例として株式会社横浜銀行か ら提供頂いたデータとダミーデータを適用した結果を紹介する.なお,施策実施後のデータは,研究 用のダミーデータであり,株式会社横浜銀行のデータではないことを断っておく. 3 . 2 .施策の評価と GA 個別の施策の評価方法は,前述した通り,施策前後の LTVを比較することで行う. 図 5は,実際に計算した例である.この場合,施策後の LTVの平均値は,施策前の 50%増となっ たが,分布は重なっているところが多い.これと,施策に要する費用を勘案して,施策を評価すること ができる. 一一現状 施策実施後 封世縦十 LTV 図5 :施策前後のしTVの比較 3 2 5一
施策の候補について図 5を算出したとしても,実際にすべての施策を行うわけで、はない.最終的に 知りたいのは,銀行全体の顧客について, LTVの合計値を最大にする施策の組み合わせである. ただし,一つの施策について考えても,その対象は顧客の状態と性年齢によって効果が異なる. そのため,状態と性年齢別に効果を推定しなければならない.さらに,施策が複数あり,その組み合 わせを考えると,施策の組み合わせ候補別に状態と性年齢の効果を推定しなければならず,組み合 わせ数は膨大になる.したがって,銀行全体の LTVを最大にする施策の組み合わせを求めるため には,膨大な計算量が必要となる.そこで、,この組み合わせ最適化問題を解くために GAを使用する こととした. 3 . 3 .計算方法 ( 1 )施策の組み合わせの表現方法 GAを使用するため,図 6の様に施策ならびに施策の組み合わせを表現した.すなわち,施策の対 象を性年齢と状態で特定し,施策の種類をあわせて一つの施策をバイナリ表現している.ただし,年 齢については,順序に意味があるため,実行前にグレー表現に変換している. 施策の対象を表現 施策の種類を表現 │ 施策w I 施策の組み合わせの表現(施策数は可変) 性別 : 0男性, 1 女性 年齢 1 ‑ ‑ ‑ ‑ ‑年齢x : 1 0進数の年齢を2進数に変換 ‑ ‑ ‑ ‑ ‑状態y : 1 0進数の状態を2進数に変換 状態 1 ‑ ‑ ‑ ‑ ‑種類z : 1 0進数の施策番号を2進数に変換 種類 1 :施策の組み合わせの表現方法 図6 ( 2 )施策の組み合わせの評価方法 施策の組み合わせの評価方法(適合度)は,全顧客の LTV合計の平均を採用している. また,一つの固体に同じ対象者に対して複数の施策があった場合,その施策が異なる場合は,施 策単独の効果を加算している.同じ施策の場合は,効果は施策一つ分,費用は施策数分だけ評価 している.これにより,同じ対象者に対する複数の施策が増加することを防いでいる. ρ h υ n︿U ワμ
(3)GAの実行 GAは,初期集団を生成し,世代交代(進化)を繰り返し,終了条件に合致したら進化を終了する.こ の 3つのステップについて説明する. 初期集団は一様乱数を使用して生成した.ただし,施策数を決定する必要があるため,まず一様 乱数によって施策数を決定し,その施策数に基づいて施策の組み合わせを生成した.さらに,実際 にありえない施策を含む組み合わせが生成された場合(致死遺伝子)は削除し,再度生成しなおし た. 世代交替時の親の撰択(複製撰択)は,ノレーレット撰択を使用した.子の生成は,ルーレット撰択に よって選ばれた親の施策の組み合わせを交叉させることと,突然変異させることで、行った.交叉が起 きる場所は,バイナリ表現の施策と施策の問で起きることとした.これは,施策の組み合わせを変更さ せるためである.この際,交叉が起きる施策と施策の境目の位置に制限を設けないことで,遺伝子に 含まれる施策数を変化させることと,末端で交叉が発生することで親と同じ個体が残る可能性を残 した.突然変異については,発生場所に制限を設けなかった.これにより,初期集団に発生しなかっ た施策についても,発生するようにした. 終了判定は,評価が 20世代改善しなかった場合とした. ( 4 )結果 実際に計算した LTVの合計値の分布を図 7に示す.結果は, LTVの合計を現状よりも平均値は 30%向上させることとなった.撰択された施策を見ると, LTV の低い状態の顧客に対する施策によっ て LTVの低い顧客が少なくなっていることと, LTVが高い顧客に対する施策によって,継続率が上 昇し LTVが増加したことが要因と考えられる. ーー現状 一一最適解 ﹄品世山学 LTV合計 図 7:GAの結果 (LTVの合計) ‑327一
4まとめと今後の展開 本報告では,モンテカルロ・シミュレーションを使用した L TVの分布の算出と, GAによる最適な施 策の組み合わせ求めることを試みた.その結果, L TVは分布を算出することで,その精度や施策の 効果を評価する一つの指標として使用できる可能性を示すことができた. LTVの計算方法については,パラメータ推定時に,現在は収益額の分布として三角分布やパレ ート分布等を使用している.しかし,この分布の適合度が低い場合が存在する.そのため,経験分布 に変更して,適合度の向上を図る必要がある.また, LTVの評価方法は使用する目的によって異な るため,今後も検討が必要である.さらに, GAについては,解空間が大きいため,より効率的な探索 が可能品、われてしも並列分散 GAにおける島モデルを S AS/CONNECTを使用して実施することを 検討している.探索効率が向上することによって,より複雑なモデ、ルを適用で、きる.例えば,本稿で 想定している対象顧客が明確な施策だけではなく,支庖の統廃合や新規出庖品、った銀行全体に 影響する施策について, GAを使用して最適解を求められる可能性がある. LTVの活用方法として,顧客の評価や今回紹介した施策の評価に加えて,支庖あるいは行員の 業績評価に使用することが考えられる.つまり, L TVの使用により,将来のキャッシュフローにつなが る評価体系を構築することができる. また,本稿における施策の決定だけではなく,新規出庖などの 投資が必要な案件の意思決定のための一つの指標として活用できる可能性がある. 参考文献 山石塚直樹著 ( 2 0 0 1 ),I S A Sによるモンテカルロ・シミュレーションJ,第 2 0回日本 S A Sユーザー会総 会および研究発表会論文集 [ 2 J岸本義之著 ( 2 0 0 1 ),I 銀行業における顧客生涯価値J,慶麿経営論集, 1 8( 2 ),1 ‑ 2 1 [ 3 J戸谷圭子ほか著 ( 2 0 0 2 ),I カスタマー・セントリックをビジネスに結び、つけるには J,金融財政事情, 2 0 0 2年 l月 1 4日号, 4 7 ‑ 5 0,金融財政事情研究会 [ 4 J坂和正敏ほか著 ( 1 9 9 5 ),I 遺伝的アルゴν ズ 、 ム J,朝倉書庖 門︿U ︼ n x u η λ
日本 S A Sユーザー会 (SUG I‑J) Bioinformaticsの手法を活用したクレジット力一ド 取引履歴データの途上審査モデルへの適用事例 0堀 彰 男 , 小 谷 田 知 行 株式会社浜銀総合研究所 戦略研究部 AnA p p l i c a t i o nofTransactionRecordstoCreditRiskModel UsingMethodsofB i o i n f o r m a t i c s AkioH o r i,TomoyukiKoyata HamaginResearchI n s t i t u t e,L t d . Dept.ofS t r a t e g i cManagement&Consulting 要旨 クレジットカードやカード、ローンの途上審査のモデ、ル構築は,現在,決定木やロジスティック回帰 等の手法を用いて行うことが多い.その際,分析に使用するデータの中で重要なものの一つに利用 返済履歴があるが,履歴情報は, 1 顧客当たりのレコード数が決まらず,かっデータ量が多く扱いに くいので, 1顧客 lレコード、となる様に何らかの集約を行って使用することが多い.しかしながら,利用 返済履歴を集約することは,利用返済のパターンの構造をモデル化しにくし、としづ課題があった. そこで, Bioinformaticsで用しもれている隠れマルコフモデルと動的計画法を用いて,利用返済ノ《 ターンの構造をモデル化することを試みた. キーワード B i o i n f o r m a t i c s,隠れマルコフモデル,動的計画法, DATAステップ 1.はじめに モデ ルに投入するデータは,そのモデ、ルに適した形式(データ単位,変数など)にするために,デ ータの最小単位で、ある履歴情報を加工する必要があり,その際に「情報の減少」が生じてしまう.デ ータの「扱い易さ」と「情報の多寡」はトレードオフの関係にあり,現在広く用いられている審査モテ、ル では,時間単位(年月日)でデータを集約した集約情報が一般的に用いられている. しかし,時間単位でデータを集約することで,時系列の「利用パターン」の情報を喪失し,それをモ デノレに反映で、きないとしづ問題がある. そこで本報告では, Bioinformaticsの分野で DNAを構成するアミノ酸や塩基の配列パターンの構 造をモデル化することで, DNA の機能予測に用いられている「隠れマルコフモデル (Hidden ¥ I larkov ' v l o d e l ;以下適宜, HMν! と称す ) Jと,複数の D¥ lA の機能的あるいは進化的関連性を計量する際に 用いられている「動的計画法 (Dynamic Programming;以下適宜, DP と称す) Jに着目し,クレジットカ ードの利用返済履歴情報を用いて,利用返済パターンの構造をモデル化することを試みた.事例と して,株式会社横浜銀行殿から提供頂いたクレジットカード情報を用いた途上審査モデ ルへの適用 結果を併せて報告する ハ同υ ηJ η 〆臼
2 .隠れマルコフモデ、 jレによる利用返済パターンのモデル化 2 . 1モデルの概要 隠れマルコフモデルは,観測不可能な状態からなるマルコフ過程とその状態に依存するシンボ ノレ出力器の組合せによって,シンボ、/レ系列に対応する状態系列を表現するモテ、/レで、ある カジノにおけるサイコロゲームの例 [2]が理解し易いので,以下ではそれを紹介する. あるカジ:ノで、は,ほとんど、の場合に公正なサイコロを使用しているが,時々不正なサイコロを使用し ゲームをコントロールしているとする.公正なサイコロで、は全ての日が確率 1 / 6で出るが,不正なサイ コロでは 6の目が確率 1 / 2,その他の目が確率 1 / 1 0で出る.サイコロを振るたびにカジノは公正なサ イコロから不正なサイコロに確率 0 . 0 5で切り替え,不正なサイコロから公正なサイコロには確率 0 . 1で 切り替えると仮定する.この様な場合,全体の過程は HMMの一例となり,図 lの様に表現でき,これ を HMMのトポロ、ジー(位相)と呼ぶ.また,サイコロの出自の確率を「シンボル出力確率 J,サイコロの 状態(公正・不正)聞の切り替えの確率を「状態遷移確率」と呼ぶ. A. 戸 : ミ 一0.05 T ←Tアー 公正なサイコロ 不正なサイコロ 図1:隠れマルコフモデルのトポロジー このカジノの例では,サイコロを振って出た目の列は観察することができる.しかしながら,公正な サイコロが使用されたのか不正なサイコロが使用されたのかについてはカジノが秘密にしているた め,知ることができない.つまり,使用されたサイコロが公正なのか不正なのかが, r 隠れた」状態とい うことになる. 以上の様に HMMのトポロジーを設計し,シンボル出力確率と状態遷移確率を求めることができれ ば,観察された、ンンボル系列 xとその背後に隠れた状態系列Jrの同時確率 P(x, π)は式 lで求める ことが可能となる(式 lは,配列の長さが Lの場合). 日ι(x;).a; P(x, t r ) aOffl 二 , ; , , . ;+ 1 ( 式1 ) i = 1 a ; : i ; r i + I・状態 πtから状態 πI+Iへの遷移確率 ,eコ ( x ; ) 状態、 πt でシンボル xj を出力する確率 観察されたシンボル系列 x各々に対応する状態系列 Jrを考える際に,全ての組合せの同時確率 を算出することは,式 lを用いれば理論的には可能である.全ての同時確率を算出すれば,その中 で最も確率の高し、(最も尤もらしし、 ) xとπの組合せ(以下,パス〆と称す)が,予測すべき状態系列と なる.しかし,組合せ総数は πxであり ,xとπの増加に伴い,指数関数のオーダーで増加する.この 組合せ爆発問題に対し,これを多項式のオーダーで解くことができる手法として「ビタビ・アルゴ、リズ ム」が知られており,次節でその概要を説明する. ‑ 3 3 0一
2 . 2 .モデルの解法 前述の最も尤もらしいパス π は,ビタピ・アルゴリズムを用いて求めることができる.シンボ、ル系列 ' . ‑ 1で終わる最も尤もらしいパスの確率 Vm̲ i‑ 1)が全ての状態久 lに の i‑1番目について,状態 π 1( ついてわかっていると仮定すると,観察系列の i番目について,それらの確率 Vm(i)は式 2で求める ことができる. ( i )=ら ( x t ) ‑ m T X ( v n I ( i l)‑hlm) 〈式 2 ) V ; r i α ; ; i ‑ l , ‑ η 状態π 1 ーlから状態 κへの l l l i移雌ネ ,e , , ,( x , )・状態'.Jri で、シンボル Xj をn : ) )する i 総 会 不 つまり, i 番目までの同時確率を, i‑1番固までの同時確率から導くことができるので,ノトさな部分 問題の解を記録しておき,その解を利用しながら徐々に大きなサイズの部分問題を解し、てしてとしづ, 再帰的な問題解決手法であるとし、える. 図 2は前述のカジノのサイコロゲームで、はモデルが複雑なので,さらに単純なモデ、ルに対し,ビタ ヒ¥アルゴ、リズ、ムを適用し,最も尤もらしい状態系列を求める手1 ) 債を示している [I[ f、~ 8叫;!;│十 ( 、L ; : i : : 同日 シンボル系列 vbv ←シンボル出力確率 ←同時確率 ←状態遷移確率 b 図2 :ビタビ・アルゴリズムの例 [IJ 左上の箱から右下の箱まで順番に計算を行い,箱の下段に書かれている数値がその段階で、最も 確率の高い同時確率である.白黒反転した箱と太い矢印が,求めたい最も尤もらしし、パス〆で,そ . 0 1 6となる. の同時確率は 0 図 2の例では,ピタビ・アルゴリズムは 8通り ( 2の 3乗)の組合せ最適化問題を, 6(2X3)個の箱 に数値を埋めていくことで解し、ている一般化すると, 7['¥通りの組合せ最適化問題を, πxx回のス テップで、解いているとし、うことである. 1ょ つd リ っ
2 . 3 .パラメータの推定 全てのシンボルおよび、状態があらかじめ既知の学習用データ(以下,既知配列と称す)がある場合, HMM のパラメータで、ある状態遷移確率とシンボル出力確率は,それら既知配列において出力およ び遷移した回数を数え上げることで,最尤推定することが可能である.シンボル出力確率を求める一 般式を式 3,状態遷移確率を求める一般式を式 4に示す. E, ( b ) , ̲ "~, A ' I ( 式3 ) , a ' l=子 マ ヱL ー 〉b,tk(b') L,/ Ak/ e, ( b )二 子r二一一一 A ( 式4 ) 削 b )・状態 kで、シンボノレ bをI e I ¥ ) Jする椛ネ ,Ek(b):状態kでシンボルb を出力した回数 k( ak/ :状態 kから状態 lへ遷移する(I'(i[率 ,Akl :状態k から状態 l へ~移した回数 2.4.途上審査モデ l レへの適用 (1)考え方 今 , HMM とビタビ・アルゴリズムを用いることで,観察される、ンンボル系列の背後に隠れている状 態系列を予測することが可能になった.ここでは,これをクレジットカード情報を用いた途上審査モデ ルに適用する際の基本的な考え方を述べる. HMM におけるシンボル系列とは,会員ごとに作成した一定期間内における配列情報のことであり, 会員のカード利用履歴をそのまま再現していると言える.状態系列は,会員の状態と解釈し,デフォ ノレト(以下適宜, BLACKもしくは Bと称す)と正常(以下適宜, WHITEもしくは W と称す)の 2種類から なる会員属性であるとする.つまり,会員の状態 (BLACK o rWHITE)によって,カードの利用ノミター ンが異なるのではないかとしづ仮説に基づく. 具体的には,図 3に示す様に,状態系列が既知の配列を用いて HMMのパラメータを推定し,得 られたパラメータから HMMのトポロジーを設計する.設計した HMMのトポロジーをもとにピタビ・アル ゴリズムを適用することで,状態が未知の配列(以下,未知配列と称す)のシンボル系列に対して最も 尤もらしい状態系列のパスを推定する. 監盟血到 学習用デタ (n個) ビタピ・""コリズム ~)$'ル系列: A H Cl I E F G I I 状態品列.間,1 1 1 1 1 1 B I I I I 図 3途上審査モデルへの適用 3 3 2
( 2 )前提条件 2ヶ月間とし, B L A C ! < : .はデフォルトした月から遡って観測し, WHITEはランダム 取引観測期間は 1 に決定した月から観測した. シンボル出力確率と状態遷移確率を最尤推定するためには,あらかじめシンボルと状態が既知で なくてはならない.従って,取引履歴そのもので、ある、ンンボノしに対して状態を定義する必要がある. 今回は, BLACKは前半の 6ヶ月を WHITE,後半の 6ヶ月を B L A C ! < : .と し WHITEは全て WHITE と一意に定義した. また,取引回数による結果への影響を把握する目的で,取引観測期間中に l 回以上取引してい 2回以上取引している会員を対象とした実験 る会員を対象とした実験(以下適宜,実験①と称、す)と, 1 (以下適宜,実験②と称す)を行った.使用したデータの件数を示したものが表 lである. 表1:使用したデータ件数 実験① 実験② B L A C K I ¥ 'H I T E I 既知配:7 J ( ' : j ! : 世 りI J ) 1 5 0 0 ' 9 . 5 0 0 1 2 5 0, 一一,一一一一一一一「一一一 I 未知配:7 J 1 1 0 0 : J O O I 1 0 0 i ( 3 )結果 予測された未知配列の状態系列に関し,その予測精度を実験別に示したものが表 2 である.ここ では,各配列の最後の状態のみの一致と不一致に着目し,予測精度を算出している. :モデルの予測精度(上:実験①,下実験②) 表2 実験① 一致 │ 観測市;~~~ 1 ‑ ‑ ‑ ‑ ‑ ‑ ~ト 全体 実験② 1 x ' 検定 不一致 4 pく 0 . 0 5 1 5 2 1 r 検定 ー 致 p <0 . 0 5 pく 0 . 0 5 p<0 . 0 5 表 2の結果を以下に挙げる 2つの側面から考察する. a )実験①,②とも, WHITEの予測精度が BLACKの予測精度よりも高い. b )実験②の方が実験①よりも,全体としての予測精度が高い. a )は,パラメータを最尤推定する際に使用した既知配列に占める BLACK配列の構成比が低いた め , WHITEから BLACKに遷移する状態遷移確率が小さく推計される傾向にあるためと考えられる. また,前提条件における状態の定義で, BLACKから WHITEへの状態遷移確率を実質的にゼロに してしまっていることも原因であると考えられる. b )は,本報告の目的で、あるパターンのモデル化において,一定取引回数未満の短い配列では, パターンを形成すること自体に無理があるとし、うことを示しているものと考えられる. ηべU ηべU ηべU
3 .動的計画法による利用返済パターンのモデル化 3 .1.モデルの概要 「アラインメント」とは, , a l i g n 'で「ー列に並べる,揃える J 、 ,a l i g n m e n t 'で「整列」としづ意味を持ち, B i o i n f o r m a t i c sの分野で,塩基配列やアミノ酸配列の機能的あるいは進化的な関連性(類似性)を計 量する際に用いられる一連の作業のことを言う. 例えば.図 4上に示す 2つの配列をアラインメントしたいとする.ここで,同じ配列位置に異なる塩 基やアミノ酸が格納されることよりも,その配列位置にギャップを挿入し n u l l状態にした方が評価が高 し、(つまり, AとBの機能がまったく異なる)とすると,図 4下に示す 4通りのギャッフ。を挿入するアライ ンメントが最も効率の良いアラインメントとなることは,直感的に理解できる. J 3 1 L A A B 配列① 配列② /;Jイ ン ; ン ト 、 図4 :アラインメントの概念 図 4の様な単純な例であれば簡単に解を求めることができる(ただし,図 4が最適解である保証は ない)が,配列長が長くなりかっ塩基やアミノ酸の種類が増えることで,直感で解を導くことは困難に なる.因みに,配列長が 1 1の 2本の配列聞には,全ての位置にギャッフ。が入った場合の最大配列長 211から n個を選択する組合せ問題になるので,式 5 に示した組合せ数が存在し,その組合せ総数 は nが増加するに従い,階乗のオーダーで増加する(表 3 ) .この組合せ爆発問題を問題の規模 nの 2 乗のオーダーで解くことができる手法として「動的計画法」が知られており,次節でその概要を述べ る. 了 () = 2 C =」 L m ! ( n ! . ( 2 n ‑ n ) ! ( n ! )ー 財) 表3 :組合せ総数 日 2 3 4 6 7 8 9 1 0 n 組合せ数 I I 1 2 1 3 1 4 1 5 1 6 1 7 1 8 1 9 2 0 2 0 7 0 2 5 2 9 2 4 3 . 4 3 2 1 2 . 8 7 0 4 8 .6 2 0 1 8 4 . 7 5 G 組合せ数 7 0 5 .4 3 2 2 .7 0 4 .1 5 6 1 0 .4 0 0 .6 0 0 4 0 .1 1 6 .6 0 0 1 5 5 . 1 1 7 . 5 2 0 6 0. 10 8 0 .3 9 0 2 . 3 3 3 . 6 0 6 . 2 2 0 9 .0 7 5 .1 3 5 .3 0 0 3 5 .3 4 5 .2 6 3 .8 0 0 1 3 7 . 8 4 6 . 5 2 8 . 8 2 0 a qd ー ハ nU ︿
3 . 2 .モデルの解法 動的計画法とは,サイズの小さな部分問題の解を記録しておき,その解を利用しながら徐々に大 きなサイズの部分問題を解し、てゆき,最終的に解きたい問題の解を得るとしづ手法である.言い換え ると,Il時点の解を n‑ 1時点の解を用いて解く,再帰的な問題解決手法である.この考え方を配列 問のアラインメントに応用する. 例えば,以下の 2つの配列をアラインメントする問題を考える. じ 配列① 配列② H E A G A W G H E E P A W H E A E 図5 :アラインメントしたい 2つの配列 ここで,配列を構成する塩基やアミノ酸同士の(機能的な)類似度を表したスコアテープテルと,ギャ ッブ を挿入した場合のスコア(以下,ギャップコストと称す)をあらかじめパラメータとして与え, DP行列 β )の各段階で、式 6を解し、てゆくことで,アラインメントの最適解を求めることができる(図 7 ) .この 2 ( 図6 つの配列の類似度を表すスコアは DP行列の右下に記録されたスコアである lとなる.言い換えると, 配列①と配列②の遺伝学的距離が 1~v 、うことになる. I F( i‑ 1, j一1 )+ s ( x i, Yj )I F(i, ρ ニ max~F (i -l , j)-d r (式 6) I F ( i, j‑l)‑d F, i (j ) :DP行列, s ( x i ' Y j ) :スコアテーブル ,d ギャップコスト F, i (j ) P A 配 W 列「ー ② iH , A E 図6 : D P行列とアラインメントの最適な経路 [2] 配列①: H E A G A W G H E ‑ E 配ダ1 1 ②: ‑ ‑ P ‑ A W ‑ H E A E 図 7 アラインメントの最適解 3 3 5
3ふ途上審査モデルへの適用 (1)考え方 今 , DPを用いることで 2つの配列の類似度を計量することが可能になった.ここでは,これを途上 審査モデ.ルに適用する際の基本的な考え方を述べる. 会員ごとに一定期間内における配列情報を作成する.この配列情報は,会員のカード利用履歴を そのまま再現していると言える.従って,カード利用の傾向が類似しているとし、うことは,会員のクレジ ットカードに対する価値観も類似しており苫さらには,会員の属性も類似しているのではなし、かと考え ! 用の傾向が類似しており,ある特定の使い方を られる.言い換えると,デフォルトする会員はカード禾J している会員は最終的にデ、フォルトするといった,カード利用のパターンがあるので、はなし、かとしウ仮 説に基づく. 従って,会員の状態 (BLACK o r WHITE)があらかじめ既知の配列と,状態の予測を行いたい未 知の配列とで類似度を計量することで,未知配列がどの状態の既知配列に類似している確率が高 し、かを求めることが可能となり,その結果を用いて BLACKとWHITEの判別を行う. 具体的には,図 8に示す様に,未知配列に対する既知配列の距離行列を算出し,未知配列に対 して距離の近い上位 m個の既知配列(以下,近隣配列と称す)を抽出し,その中に占める BLACKの 配列の構成比を算出することで,未知配列の状態を確率的に判別する af矧台未知の:1Ii離行列 未知 l 既知│ スコア 1 1 ¥ 未知配列に対する近隣配列 未知 l 既知 C O R E1 . 11 ) 1 卜S 2!S C O R E1 . 12 1 一¥一 一¥ 一‑ I スコア{ソート済み} 既知配列の状態 S O R T ̲S C O R E1 1 .1 ) S O R L S C O R E1 . 12 1 1 I iTfsCOREII.JI m 2 j!S C O R E1 2 .j ) 3 I 1 !S C O R E1 3 .1 m 3 I1 S O R TS C O R E1 1 . 凶 S O R T ̲S C O R E1 2 .1 S O R TS C O R E1 2 .2 1 1 S O R TS C O R E1 2叫 S O R T ̲ S C O R E1 3 .1 i I i 1S C O R E l i . i l i Im S O R TS C O R E1 . im l l ̲ L1 I S C O R E I ζ1 )‑'一一一+ 2 2 I 2 IS C O R E1 2 .2 1 ¥ I ¥ I ¥ ¥i ¥Iτ B . I A C K ~IIITE ? 2 5 ~IIITE W l II T E H . I A C K 官I I I T E 官I I I T E I I L ¥ C K 図8 :途上審査モテゃルへの適用 ( 2 )前提条件 取引観測期間は 6ヶ月間とし, BLACKはデフォルトした月から遡って観測し, WHITEはランダム に決定した月から観測した. スコアは,シンボルが一致していればスコア 0,一致していなければスコア 2とし,ギャップコストは スコア lとした.また,取ヲ l 回数による結果への影響を把握する目的で,取ヲ l 観測期間中に l回以上 3 3 6
取引している会員を対象とした実験(以下適宜,実験③と称す)と, 6回以上取引してしも会員を対象
とした実験(以下適宜,実験④と称す)を行った.使用したデータの件数を示したものが表 4である.
表4
:使用したデータ件数
;lミ験③
B
L
¥
C
K
5
0
0
1
0
0
既知配列
未知配タ1
W
I
I
I
T
E
9
.
5
0
0
I
O
(
)
(
3
)結果
図 8で示した様に,未知配列に対する既知配列の距離行列を作成し,未知配列の近隣上位 m配
ヂJ
Iに占める BLACK配列の構成比を算出するにこでは, mを 1
0
0とした).そして,既知配列全体に
3
%
)を闇値とし,近隣配列に占める BLACK配列の構成比が闇値以上の未
占める BLACKの構成比 (
知配列を BLACK,闇値未満の未知配列を WHITEとした時の一致と不一致による予測精度を示した
ものが表 5である.
表5
:モデルの予測精度(上:実験③,下:実験④)
実験③
観測
予測
一致
: B
L
A
C
K 1
W
l
II
T
E 1
全体
1
l
l
F
i
!
?
;
観点
x
'検 定
不一致
8
8
1
一一一一
4
G
i
1
3
4
:
ト一一一一一│一一
実験④
!
1
2
1
t
s
4
1
I
;
G
I
8
8
.
0
0%
1
;
;
:
:
'
:
'
J
p<0
.
0
5
6
7
.
0
0
%
1
p<0
.
0
5
~G. 0
0
%
1 p三 0.
424>0
.
0
5
予測
て亙
1
ーマ三五
x 検定
87113
.
0
5
Pく 0
pく 0
.
0
5
.
0
5
p <0
全体
2
表 5の結果を以下に挙げる 2つの側面から考察する.
a)WHITEの予測精度が,実験④において,大幅に向上している.
b)BLACKの予測精度は,実験③,④とも大きな差はない.
a
)は
, HMM の結果と同様,一定取引回数未満の短い配列では,パターンを形成すること自体に
無理があるとし、うことを示しているものと考えられる.
b
)は
!
‑
!
I
T
Eよりも全般的に高く,実験③と④で大きな差
, BLACKの会員あたりの平均取引回数が W
!
‑
!
I
T
Eと比べて特徴的なパターンを形成する傾向が強く,デ、フォルト
がなかったことと, BLACKは W
に至るまでの利用返済のパターンの種類が隈定されるためと考えられる.
4
.まとめと今後の課題
本報告では, B
i
o
i
n
f
o
r
m
a
t
i
c
s の分野で用しもれている隠れマルコフモデルと動的計画法を用いて,
利用返済ノミターンの構造をモデ、ル化することを試み,これを途上審査モデ、ルへ適用した事例を紹介
した.結果,従来扱いが困難で、あった履歴情報のパターンの構造をモデ、ル化することに成功し,実
際の業務への適用に関しても,ある程度の精度を確保することができた.
!
‑
!
M
Mの今後の課題は,状態系列を敢密に定義することが事実上不可能である点に閣し,パウム・
ウェルチ・アルゴ リズ、ムを用いて,シンボル系列のみから確率的に状態系列そのものを予測する方法
3
3
7
‑
を試みたい.また,繰り返し学習のアルゴリズムを用いて,最適な既知配列群のみ抽出し,効率的な 途上審査システムを実現したい. DPの今後の課題は, S m i t h ‑ W a t e r m a n ‑ G o t o hアルゴ、リズ ムを用いた計算の効率化と,シンボル聞 のスコアテープ、ルやギャップコストを意図的に設定することによる,結果への影響を把握したい.また, 予測結果を常に既知配列群にフィード、パックすることで,システムの運用とモテツレのチューニングを 同時並行で行える途上審査システムを実現したい. 最後に,本手法はあらゆる履歴情報のパターンをモデル化することが可能であり,応用範囲も広 いと考えられる.今後は,クレジットカード、の不正利用の検知や, POS情報や WEBアクセスロク可青報 などを活用し,マーケティング 分野などに応用していきたい. P 5 .本手法の SASによる実現 未知配列と既知配列の情報を格納した 2つのデータセットから,該当する任意のオブザベーショ ンを抽出し,同じ DATAステップ内で、計算を実行するために, POINT=オプションを活用した.以下に DPにおけるコード、の例を示す. 0 0 1 d a t ad p ; 0 0 2 s e tu n k n o w n ; 0 0 3 ar r a yk n o w n ! 1O ! ; /ヰ既知配列のシンボル系列ヰ/ 0 0 4 a r r a ys t a t e! 1 0 ! ; /ヰ既知配列の状態系列ヰ/ 0 0 5 a r r a ys c o r e! 1 0 ! ; /ヰスコアヰ/ 0 0 6 r e t a i nk n o w n :s t a t e :s c o r e :・ 0 0 7 /料既知配列の情報の読込林/ 0 0 8 i f̲ n ̲e q 1t h e nd o ; 0 0 9 d o i= 1t o1 0 ; 0 1 0 s e tk n o w np o i n t =i ; n o w n : 0 1 1 k n o w n! i ! =k 0 1 2 s t a t e! i ! =s t a t e : 0 1 3 e n d ; 0 1 4 e n d ; 0 1 5 /料計算の開始料/ 0 1 6 d o i=1t o1 0 ; 0 1 7 % D P ( k n o w n ! i !,s c o r e ! i ! ) ; /牢スコアの算出牢/ 0 1 8 e n d ; ) 医に配列をソート(バブルソート)ヰ/ 0 1 9 % B B L S O R T ; /ヰスコア1 0 2 0 % J U D G M E N T ; /本判定本/ 0 2 1 r u n : 参考文献 [ l J鹿野清宏他編著 ( 2 0 0 1 ),I 音声認識システム J ,オーム杜 [ 2 JR i c h a r dD u r b i nほか著,阿久津達也ほか訳 ( 2 0 0 0 ),I バイオインフオマティクスー確率モデルによ る遺伝子配列解析 J,医学出版 n︿り n x u nべ u
口頭論文発表 SASソリューション
日本 SASユーザー会 (SUG1‑0) ゲノム創薬向け統合ソリューション SASS c i e n t i f i cDiscoveryS o l u t i o n sの紹介 段谷高章 SASl n s t i t u t eJapan 株式会社 力スタマーサービス本部 Anl n t r o d u c t i o nt oGenomicsandSASS c i e n t i f i cDiscoveryS o l u t i o n s TakaakiDantani CustomerServiceDepartment,SASl n s t i t u t eJapanL t d . 要旨 近年、ゲノム関連機器の発展に伴い、複雑で、大容量のデータの分析と管理が必要となってきた。 SASはゲノムデータの管理!と解析のために S f ¥ SS c i e n t i f i c Oiscovery S o l u t i o n s (SOS)としづ新たな製 c i e n t i f i cOiscoveryS o l u l i o n sに含まれる 2つの S o l u t i o n 品を発表した。本論文では、新製品の SASS である SAS I~esearch Dala Management(ROM)とSAS Microarray Solution (MAS)を簡単に紹介す る キーワード: SASs o s、 SASROM、 SASMf¥S 1.はじめに デ オキシリボ核酸 (ONf¥)はアデ、ニン、シトシン、グアニン、チミンの 4つの塩基から附 j f X:されており、 二重螺旋構造を有している。遺伝子とは各タンパク質のアミノ搬配列を指定するもので、生物には数 千 数卜万種類のタンパク質が存在し、塩基 3つの順序で一つのアミノ酸を指定している。この遺伝 子の全貌を明らかにすることで、従来のアフcローチで、は困難だ、った医学的問題の解決に繋がること が期待されているコ 近年、 ONf¥シーケンサや Microarr町、質量分析計などの進歩にはめざまししものがある。これらの 機器からのデータは膨大な量で、あり、分析には優れたコンピューターサイエンスと解析手法が必要と c i e n l i f i c Oiscovery なる ε 本論文は、 SAS がゲノムデータの管理と分析のために発表した Sf¥S S o l u t i o nである SAS Research Dala Management(ROM)と SAS S o l u l i o n s (SOS)に含まれる 2つの S MicroarrayS o l u t i o n( M f ¥ S )を紹介するものである c 晶 A4 ηぺU ーよ
2
. SAS ScientificDiscoverySolutions
o
l
u
t
i
o
n群から構成されており、 2つの S
o
l
u
t
i
o
nが公
S
c
i
e
n
t
i
f
i
cD
i
s
c
o
v
e
r
yS
o
l
u
t
i
o
n
s(SDS)は複数の S
関されている οSASResearchDataManagement(RDM)とSASM
i
c
r
o
a
r
r
a
yS
o
l
u
t
i
o
n(MAS)である。ま
a
v
aベースのグ.ラフイカル・ユーザー・インターフェース (GUI)にてデータの読み込みゃ
ず
、 RDMはJ
管理を行なうことが可能な S
o
l
u
t
i
o
nで、ある 次に、 MASは RDMを基盤としたアプリケーションで、
J
M
i
c
r
o
a
r
r
a
yデータの分析方法と入力エンジンを搭載したもので、ある ο各々の機能に関する詳細は後
述する。
3
. SAS Research Data Management
ゲノム実験によって発生する膨大なデータは組織で 管理し、利用するとし、う観点が必要となる 3 当
然ながら、研究者は分析に必要なデータをプロク守ラミンクずすることなく直接取得することを望むと考え
られる 3 さらに、数値のようなデータのみが唯一の情報ではなく、データと関連する分析結果を見る
必要もある。 RDMは SDSにおけるデータ管理のコアであり、ゲノムデータと関連する補助情報を集約
するための J
a
v
aクライアント
サーバーアプリケーションで、ある c 図 lは RDMの画面であるこ左に階
層構造で記載されている個所が、データや文書などの一覧となっており、右の画而は、必要な情報
の検索を行う画面である。
害者 y 岳、 i;>~.ti
羽川守引もが:の'afF-凶日 ::;1~~~'n(H"',~ 時
滑f1 r. 同部%おも"!,~"';~l'J刊本門前、同柑色、
之蹟;:"晴、抑!:.~'';:;''困問問時
~ DF>':':<>:)~ú:'l ~仰向了術開削
ー!aR.
.3品 主 恥
鏑ザ、叫がおA号D
.
,
e
舗 刊 訂 ιぽ開);).I¥
T
Ua日 i:".I.~拡長 ~.:.t
遡叫~U3、内誠二師
事車市 ,D~引肝ち川
頭剖':~ :< 、 ふ り 吋Y
騒心M! ,"'~ ':.'~帆叫 ~)t'H
諸 制 oiO!I~曲川
窃 ()~1 ♀):',、肺じ、 c,),r
鳴り M!D 1.~;同N t<ò>.γ
鰭>).悦3 憎':r~ 主的T
簿引相 ):j~1J jü4l
著書評枯れ阿久子 D.•V
舗が時内 sf曲目、 U
鳴 が1
t
j
Jち苅 (
.
S
{
.
坑T
麹 ~:ji'f:l.t:;..~;告以内7
調帯版企宮市毛色町
錨事肝ヲ軒、 ~~r",'!
強制叫!;~~脳S Qt. T
,
錨 明 性u 畑 仕H
.
i
:
.
¥r
a 明付3.5掛C~:)><'.l
;.量調拍3$掛 脳 出 3
軍
I~弘司fif:.3.S~tf:当 L~",,1
語 r;;.~U1G~1:;!:::'灯
、 är~;"~f~ 開~.“自治
議~ (('l~'市惜.,('叩 Srl t
f
t
"
:,事情崎同命令肺門 S
f''f暗了出~.If.'.$折谷清怜 d 間即日
経ì(;t~'$ 部恒咽抑が官公.~',,:ð -;-IJ出l
t
:
;
:
'~唖ゐ.,.~合前町内J:lf~ht.l敗、ーをハ.lf:;>苦ヨ刊誌
ペ a ,'l~""凶叫品川t昨日目
法自島 t~h r.'l~j..~号指令恥~.:~t,~f:~;...‘叫叶
a~~~開抑制代、揃刷、
描~ (\.<o\"';-, ~VIX.3r:,,,,t4
s
叫 ;
f
d
:
.
.
.
.
剖
,
J
S.
.
JJ
叫 E
o判 T都 怜 忘 同 州 刷 九Bl'
E草~P"Jt'明!~ll、、:長 :;:'~:j,,!、羽いrJ_ Y‘、
ぇ
.
首蹟メ::-.+~'"誕?誌、山ト通 s)'M s.t
図 1 RDMの画面
凋
qd
っ4'4u
3 . 1 P o o l e dM e t a d a t aR e p o s i t o r y データウェアノ、ウジングの概念には、データを抽出し、分析や報告するのに過した形式でデータ を再構成する流れを含んで、いる。データウェアハウジング、の鍵となるものはメタデータで、ある データ 3 名や保存場所・フォーマットや構造等の前後関係の情報がメタデータである 2 また、メタデータには デ.ータ変換のプロセスも含まれている 3 RDM はデータを集中的に管理するためのプラットフォームを提供するもので、あり、メタデータを統 合整理する方法として採用されているのが、 P o o l e d Metadata I ¥ e p o s i t o r y(PMR)である。データを物 理的に動かすのではなく、作成されたメタデータを読み込む事で、データや補助情報の閲覧や利用 が可能となることが P t v l Rの考え方である。ユーザーは PMRを通じてデータや文書を含む全ての情報 を検索、夕、、ウンロード、する事が可能となるミ検索とダウンロード 機能に J J l lえて、 pivmに新しいデータや 文書を登録するアッフ ロード、機能も存在する G アッブロード、された情報は、アクセス可能なユーザー o であれば誰でも閲覧可能となるニ 3 . 2 S e c u r i t y セキュリティモデ、ルとしては、ユーザー名とパスワードを必要とする方法を選択している。このアクセス 権限に関しては、ユーザーレベル・ユーザーグツレープレベルで桁J I御することが可能で、あり、閲覧専 問のアクセス権限と編集が可能な権限が存在する oRDMで採用されているセキュリティにはシステム 内での行動に閲する A u d i tT r a i lと、データのパージ、ヨン管理も含まれている。 A u d i tT r a i lとデータの ノくージョン管理はデータソースと修正方法を確認することが可能なものである。 4 . SASM i c r o a r r a yS o l u t i o n RDMを基控とした S o l u t i o nとしてまず開発されたのが、 M i c r o a r r a yデータを管理・分析・視覚化する ための製品の MASである。 MASで追加される機能は、入力エンジンと分析プロセスの二つである。 4 . 1 I n p u tE n g i n e s 入力エンジンは測定機器からの出力されたデータを MASのウェアハウス内に取り込む機能である。 入力エンジンは入力するデータの構造にとって特有のもので、あり、各々の実験に合わせてカスタマイ ズすることが可能である。入力エンジンを利用オる事で、生データを容易に読み込むことが可能とな る。生データだけではなく、実験の要因の構造を示すファイルが必要となる。 n p u tE n g i n eのメニュー画面を表示したもので、ある c ここでは、どのようなデータで 次ページの図 2は I あるかを指定し、読み込みに使用するエンジン (SASマクロブ、ログ、ラムと J a v aC l a s s )を指定することが できる 3 エンジンを新たに作成することで、デフォル卜では読み込むことができないようなデータでも 読み込むことが可能となる。 凶 dAz ぺ u n ぺU n
図2I n p u tE n g i n eのメニュー 4 . 2 A n a l y t i c a lP r o c e s s 分析プロセスは、 RDM 上でデータの操作と統計的な計算を行うマクロプロク、.ラムで、ある。このプロセ スは分析データ・統計結果・グラフ等の作成を行うもので 、柔軟に利用することができるご例えば、単 純なデータ表示から複雑な統計モデリング機能まで持ち合わせているこユーザーは入力パラメータ に適切な値を入力する事で、分析プロセスを実行することが可能であるコパラメータの値はデータに よって特有で、あるが、 MASに登録した分析プロセスを読み込む際は、パラメータやコードの編集を行 う必要はない 3 MASには以下の 4つの分析プロセスが陪載されている ο • DataCont巴n t s :SASデータセットの内容をHTML形式で表示する • A r r a y G r o u p C o r r e l a t i o n ユーザーによって選択されたグルーフ。に分割し、多変量約!関分析 を行う ・M i x e d M o d e l N o r m a l i z a t i o n 配列全てを横断した線形混合モデルをあてはめることにより、 M i c r o a r r a yデータを標準化する • MixedMod巴 凶n a l y s i s Gene‑by‑Gen巴に基づく混合モデ ルをあてはめる 分析プロセスに関しても、入力エンジンと阿保にユーザー特有のものを追加することが可能で、あり、 SASマクロ言語を用いてプログラムを記述する必要がある 3 また、入力パラメータの指定等も考慮す る必要もある ο さらに、出力に際して JMPを使用するのであれば、 J S L . のコーディングが必要となるご 4 . 3 M i x e dModelA n a l y s i s M i x e d M o c l e l A n a l y s i sは非常に複雑な分析プロセスで、あり、あらかじめ正規化されたデータを用いて、 s t r Oで、因われた PIWC 高水準の混合モデル分散分析を行うもので、ある。重要な入力ノ fラメータは% MIXEDステートメントである c このフ。ロクーラムは主効果によって調整された三元配置型の階乗モデ、ル であるよモデ、ノレを各々の遺伝子毎に当てはめるに(まI3Yステートメン卜を使用する o fi~iJ 々の泣伝子水 a n U 1 a n U 1 ぺU n
i:jte に等しい配列は、変量効果であると今えられ、 l~íJ じ点から{税制IJ された 2 つの測定値の間 i こ強し、交
互作用が説明されることが多々ある 次ページの医]3は M
i
x
e
c
l
M
o
c
l
e
l
A
n
a
l
y
s
i
sのパラメータ設定 l
図面
3
である J
m四回""間‑・ ・・ ・・ ・・ ・
.
¥
1
1
米
軍
盟国ま聞事,¥1
E
E
E
E
clasz '2そ:< 1inヒ "
¥
f
と :
t(Lay dy
ゼ
二
l
l
O
J
e
l lC \l2i 民主 ~ex .
li
ne t.l: ~e ~e 民 '1 主 u':! s e:x 全,Q. C~
11泊念品a.ge 3
=
芯'
<
:
1
r
,
,
:
;
:
:
'
¥
a
.
ge dye ,
.
'
outν"'
1
全ne工芝 .1<
1
い
とS
:
'
3
;
.
r
:
a
.
'
"
1
.
dOI
i
ld
.r
工主主 Z
1
3Z
l
l
eans S
I
;
!
文
官L
i
じ曾 'A
叫e
;
金S
r
:
;ll且さτE "
S
e
>
:
:
F
e
l
lf*':"ロ¥.1$ Maど. .s e:~: 1 ‑
1
:
e
,
:tiaa
.
:
te "
L
:
.
nt";Ot竺 U
l
r
J
U
;
!
: ~.~ð.ll・ liむを L 1
;
,
:t
I
1
1
.
.
"
,e "
1
¥
<
;
.
,.
1
王̲ D
.
'
:
"
九
,¥
.
l
" 町k6
, .
.
g
e1‑
1
;
e
.
:
!
:
:
̲
:c
i
a
.
uSE ・~!ì :e: Cyi I:i~:削 :;1 Cy5<~ d
:
jと 1 .
.
1
;
ピ認 t
臼
A
.
e
.S
t
: '~~e;.;‘ じ
'
Y
J
' Lin
e
'
" 芯t ・マ 1
i"ヒ 1 ‑
1 ‑1 1
:
.;:~にÍ11"乙.:: '~~e;-: t
:
)
' A包含.~ ~ヒお禽 2主温三 1‑l‑11;
崎
図3M
i
x
c
c
l
M
o
c
l
e
l
A
n
a
l
y
s
i
sのノミラメータ設定両面
i
v
l
i
x巴c1M
o
c
l巴I
A
n
a
l
y
s
i
sは A
r
r
a
y
G
r
o
u
p
C
o
r
r
e
l
al
i
o
nと同様に、 SASサーバー上で処理を実行し、 JSLファ
イルを作成する。その後、.1i
v
l
l
コにて.ISLファイルを実行し、分析結果を図示する。次ページの図 4は
JMP を丹]し、て結果を表示したものである G 左上のグラフはボルカノプロットであり、指定した
E
S
T
l
i
v
l
A
T
Eステートメント毎に作成される 左下のグラフは、少なくとも lつのボ、ルカノマップにおいて
ν
s
o
n
f
e
r
r
o
n
i 流で切り分けられた遺伝子の最小自乗平均の平行座標プロットで、ある。中央下のグラフ
は最小白采平均のグラフであるが、平均 0、分散 lに標準化されたグラフである。中央上のグラフは、
有意な遺伝子において標準化された故小白来平均の附成要素をプロットしたもので、ある。右の図は、
有意な遺伝子において標準化された最小 I~I 来平均の階層的クラスター分析の結果である。横 '1411 は
遺伝子を表しており、縦柄1はカテゴ リーを表現している ε このフ。ロットの左側には、各遺伝子に関する
情報が表示されているミ表示されている j
J
h
j而で不りJllされてしも色分けは、クラスター分析に由来する
もので、このような JMPのダイナミックリンクと対話性は、統計結果の解釈に i
直している。
戸
川d
A弘
つd
図 4 JMPによる分析結果 DataContents と M i x e c l M o c l e l N o r m a l i z a t i o nは 、 JMP による出力を生成することはなく、 Output D e l i v e r ySystemを通じて、 HTML形式で結果を出力する。 5 .まとめ RDMは、使いやすいインターフェイスで情報の検索と利用が可能となるデータウェアハウ スである。その管理技術を用いて、様々なフォーマットやタイプの異なるデータを管理する ことが可能となる。編集可能な権限を持つユーザーが関連するデータ(文書等も含む)を登録す る事で、アプリケーションを使用しているユーザーも情報の閲覧が可能となる。 RDMの使用 によるデータ官理の合理化とデータアクセスの簡便化は、組織の生産性を向上することにな ると考えられる。また、入力エンジンや分析プロセスを新たに作成することも可能であり、 Microarrayや今後追加されるであろう他の Solution以外の使用法も考えられる。ゲノム創 薬の分野だけでなく、使用法しだいでは他の分野での利用も可能となってくる。 MASは RDMを基盤とし、統計解析者と科学者が共に協力するという形態の元にデザイン されている。統計解析者は実験計画に沿って適切な分析プロセスを作成することができるよ うになる。一方、科学者にとっては、 SASプログラミングなしに利用する事ができ、統計解 析者が作成したプロセスを再利 J l lする事ができる。このように、科学者や統計解析者が専門 3 4 6
知識を必要とする業務に、より多くの H 与I I ¥Jをかけることができるようになると考える。当然 ながら、ソフトウェアは、調査・考察・側々が協力することで得られる効果の代わりにはな らない。しかし、上記のような業務活動を円滑に進める一端を担うことは可能である。ゲノ ム関連情報の量と密度が増大した近年、この流れはより顕著であると考える。 引用文献 Deng,S .,Chu,T.‑M.,a n dW o l f i n g e r,1~.D. ( 2 0 0 2 ),T r a n s c r i p t o m ev a r i日b i l i t yi nt h en o r m a lmouse, m a n u s c r i p tl ob ep u b l i s h e di nt h eCAMDAp r o c e e d i n g s,DukeU n i v e r s i t y . G i b s o n,G .( 2 0 0 2 ),MMANMADAT u t o r i a l,h l t p : !/ s t a t g e n . n c s u . e d u / g g i b s o n / P u b s . h t m i l e y,R .,W o l f i n g e r,R . D .,White,K.P,P a s s a d o r ‑ G u r g e l,G .a n dGibsonG .( 2 0 0 1 ), J i n,W.,R C f\ ntrihlltinn~ n f<e'X,g e n o t y p ei l n c l θ g et ol r 日n s c r i p t if ¥n 日I v日n日n c eI n Drosoph j J a m e J a n o g a s t θ ' 1 ; んf a t u r eCe 刀e t i c s ,29:389‑395. W o l t i n g e r,R . D .,G i b s o n,G .,W o l t i n g e r,E . D .,s e n n e t t,L .,H日m a c l e h, ト 1 . , B u s h e l,P .,A f s h a r i,C ., a n c lP a u l e s,R . S .( 2 0 0 1 ),A s s e s s i n gg e n es i g n i f i c a n c e什omcDNAm i c r o a r r a yc l a t av i am i x e c l m o c l e l s,./o Ul~刀aJ ofComputationaJβi o J o ! f . 九 8 ,6 2 5 ‑ 6 3 7 . v ' V o l f i n g e r,R . D .e ta . l( 2 0 0 3 ),Anl n t r o c l u c l i o nt oGenomicsa n c lSAS③ S c i e n t i f i cD i s c o v e r y S o l u t i o n s,SUCJ28丹、oc σe d i n g s ,SASI n s t i t u t e,I n c .,Cary,NC. I ワ A斗 a qJ
ポスターセッション 統計解析
日本 SASユ ー ザ ー 会 (SUG1‑0) 一般化推定方程式および SASの解析ツール O王露薄宇高田康行取事野口知雄ネ ホアベンティスファーマ株式会社 生物統計・データマネジメント部 日持田製薬株式会社医薬開発部 Ge n e r a l i z e dE s t i 皿a t i n gE q u a t i o n s(GEE) andAn a l y s i s1 切,1sofSAS OLupingWan ピ YasuyukiTa同 ta**TomooNoguchi* * B i o s t a t i s t i c s lDa t amanagementDepartment , A v e n t i sPharm. ** C l i n i c a lDevelopmentDepartment, MochidaP h a r m a c e u t i c a lCO.LTD. 要旨 臨床誌験において、応答変数が二値や計数のデー夕、説明変数が経時データの場合には、一般化推 GEE) を応用するための理論 定方程式を用いる解析が増えてきた。本論文では一般化推定方程式 ( を示し、 SASの 3つの角税庁ツール (GENMOD プロシジャ、 i SASによる貧乏人の GEEJ 1)、お よび iGEEマクロ J2)) を角材斤した結果を比較した。 3つの角特庁ツールにおける精度が同じぐらし、 であったことがわかった。 キーワード: 一般化推定方程式、経時デー夕、二値デー夕、 SASの角平析ツール 1.はじめに 臨床試験や疫学研究において治療効果や曝露効果を調べるための統計手法として回帰モデルが よく用し、られる。例えば、応答変数が連続量の場合の回帰分析、二値変数の場合のロジスティック回 帰、生存時間の場合の比例ハザードモデルなどである。これらの回帰モデルで角平析するデータが 「五いに独立である、あるいは無相関で、ある」としづ仮定が必要である。しかしながら、臨床試験の場 合、同一対象者に対して経時的に得られるデータを通して角平析し、治療効果を評価することがよくあ る。このような場合には無相聞の仮定は正ししせは言えない。そのまま相聞を無視した角平析を行うと、 推定されたパラメータの効率の損失・解析パラメータの分散の一致性が保証されないなどの問題が 存在する。したがって、このようなデータにモデルを当てはめ、治療およびいくつかの説明変数と応 答変数との聞の関係を定量的に評価する際にはデータ聞の相聞を何らかの形で考慮すべきである。 応答変数が連続量で、説明変数の中に経時データがあり、誤差に正規性が仮定できるような場合に は、線形モデルが角平析に利用可能で、あるo SASでは MlXEDプロシジャを用いることにより実行可 能である。応答変数が離散型の場合、 GEEが解析に利用され、 SASにもしてつかの解析ツーノレが ある。 3 5 1一
2 .一 般 化 推 定 方 程 式 一般化推定方程式は経時または相聞があるデー夕、特に応答変数が二値の角平析によく使用される。 1 9 8 6年にLia n gandZ e g e rが周辺モテ、/レの 1 っとして一般化推定方程式を提案してから、応答変 数が二値や順序分類とし、った計数テ、一夕、説明変数が経時データの場合には、時点聞の相聞を考 r o b u s t )な結果を得られると考えられる。 慮し、 GEEにより角特庁を行うことで、ロバスト ( GEEでは N人の対象者がし、て各対象者に対して経時的に応答変数を測定する状況を考える。 i 番 目の対象者の ni~個固の応答変数をYi=() 匂伽r円il,ド戸.日….日..,Y 品 日iIJT ( y i 二 司1 をχ 川 uする。ここでの目的は各対象者内の応答変数問の相聞を考慮した上で、平均的な応答 μi=E ( Y 0 と説明変数 Xi=(χil ・. . ,, X山 ) Tとの聞の関係を定量的に評価することである。 ,ド.川. 1 )一般化推定方程式(パラメータ 8を求める推定方程式): n gandZ e g e l . 3 ) 4 1から提案した一般化推定方程式が下記にある。 Lia ヱ Drvi‑IS i= 0 。 。 μ, Di=‑ ーとし、う部分はロジスティックモデルに基づいた反応変数の期待値である。 β y r ‑ lは応答変数 Yiの作業共分散行列の逆行列で、 Y ;の真の相関構造がわからないので、作業中目 関構造を指定する。 SASを用いて角斬するときに作業共分散行列を指定する必要がある。 Si=Yi一μiは応答変数の観察値と期待値との差である。 従って、以下の一般化推定方程式 3)を解くことによって未知パラメータの推定を行う。 叩 ) = 訓 告κ )I{y μ) = 0 2 )作 掛 目 関 構 造 : 推定の効率を高めるために作業相関構造行列を指定することができる。作業相関構造の仮定はい ろいろあるが、以下の 4種類の相関構造をよく用しも。 ‑ A u t o r e g r e s s i v ec o r r e l a t i o n ) 自己回帰 ( C o r r ( yy i t )=αIs.tl (So Ft ) 向 r r r ヲ Y r r r r11‑]. ヲ r 1 1 ‑ ] . r r11‑3 r11‑3 巳 u nぺU ワμ
時系列解析の時にこうしづ相関構造をよく使う。例えば、カaン患者の発熱、をエンド、ホ。イントとし、 自己回帰は時点聞の相関がある発熱データなどに適切かもしれない。 • Corr(y (Ex=αchang(seabt)le): 交換可能 同 手 Y i J ノー r r r r r r r r r r r r すべての時点聞の相関は一定である。全部の組み合わせが同様な相聞と考えられる。例えば、 時点聞の相関ではなく家族内の相関を問題にしているときに、兄弟聞の相聞は一番目の子供 と二番目の子供の相聞がrとし、一番目と三番目の子供の相関も rとする場合で、ある。 ‑ I n d e p e n d e n t ); 独 立( Coη(r)= I 1 0 0 ・ ・ o o1 0 o0 1 0 0 000 全ての時点聞の相関はゼロであり、「独立で、ある」とする相関構造である。独立な相関構造を仮 定して、ロバスト分散を使って、検定と信頼区間を計算する場合がある。 ( U n s t r u c t u r e dc o r r e l a t i o n ) : • 制約なし Coη(y J =αst 田小 . r r l 3 F うl r : '3 / l 2 ろl r 32 r n 1 r n2 r 1 n 1 " 1 1 1 r 2 1 1 r " J 時点聞の相聞は何も制約をいれず、相関係数は全部違う場合である。 内ぺU にd つο
3)GEEの特徴 U GEEは一般化線形モデルを相関のあるデ、ータに拡張したものと考えられる。 • 応答変数:Y 二 郎 ぃ . , の同時分布を仮定せず、その周辺分布のみをモデル化している。 • 最尤法ではなくモーメント法の考え方でパラメータ推定を行う。 • 応答変数の周辺平均に対するモデルのみが正しければ、仮定した相関構造が真の相関 i Yin)T 構造でなくても N→∞の時、回帰係数の推定値にバイアスが入らない、つまり、 βの一致 性は保たれる。 • 仮定した相関構造が正しくない場合でも、 βのロバスト分散の一致性は保たれる。 3.SASの解析ツール SASのサンプルライブラリーのデータ (GEEModelf o rBinaryData)を少し加工し、 GEEの角勃庁 を行った。 SASの角軌庁ツールは GENMODのプ口、ンジャ、 rsASによる貧乏人の GEEJおよび rGEEマクロ」がある。 Windows版 SASシステムリリース 8 . 2の稼動環境で、 GEEfこ角特庁の用 SA Sツールを利用し、回帰係数およびロバスト分散からオッズ、比およびその 95%信頼区間を算出し た 。 データ構造:データステッフ o tlntn4υ 凋 斗 ハHV ハHV ハHV ハHV 4lntn4υ 凋 斗 HU ハHV ハHV ハHV ︽ HU ︽ HU ハHV ハHV ︽ HU ハHV ハHV ハHV ︽ nhunhunhunhunnunnunkunku A斗 A斗 q L η L η L η L HU ︽ HU ハHV ハHV ハHV ︽ A斗 A斗 ハHU ハHV ハHV HU ハHV ハHV ハHV ︽ HU ハHV ハHV ハHV ハHV ︽ ハHV ハHV ハHV ハHV ハHV ハHV ハHV d a t ar e s p ; i n p u ti d xo u t ∞mecenter2a c t i v ef e m a l ea g eb a s e l i n ev i s i ti n t ; 回 r d s ; 1 0 1 1 0 1 1 0 1 1 0 1 1 0 2 1 0 2 1 0 2 1 0 2 中略 唱l n L HU ︽ ﹃U 4 HU ︽ HU ︽ ・ HU ハHV ︽ ・守 l n t n 4 υ 4 HU ハHV ︽ ハu n u n U ‑354 ハHV 守1 1 4 n U r u n ; n3n3nudnudFhuRUEdFhu 内︿ n4υn4υ u n ︿u n J ι n J ι n J ι n J ι tltl 唱1 1 1 1 l HunHυnHυnHυ4EE4EE4EE ︽ nunununu‑‑ ハHV 2 5 4 2 5 4 2 5 4 2 5 4 2 5 5 2 5 5 2 5 5 2 5 5
1組の繰り返し測定が 1オブザーベーションとなるようなデータを作る。この例では患者さ ん l人(変数 i d x )につき4オブザーベーション(変数 v i s i t( 1, 2, 3ρ)がある。 outcomeは結果変数であり、 c e n t e r 2,a c t i v e,f e m a l e,age,b a s e l i n eは説明変数であ る 1 n t :回帰モデルの切片。全オブ、ザーベーションでイ直 i 1 Jとする。 GENMOD プ口、ンジャ および iSASによる貧乏人の GEEJでは必要ないが、 iGEEマクロ」では必要がある。 • • ・ 0 1 ) GENMODプロシジャを用いた解析 ( 1 )オプションの指定 GENMOD プロシジャを実行するには、オプ、ンョン D i s t,苛pe等を指定する必要がある。上記 のデータセットの角軌庁では、 D i st = Binで、二項分布、ロジットリンク関数を指定し、Type = i n dで、相 関構造を独立と仮定した。 ‑ o み確率分布を指定するオプ、ンョン モデルで使用する品目l 表 1 確率分布およびリンク関数 分布 DIS T= 二項分布 B1NOl ¥ 但ALIB1NIB ガンマ分布 GM 品1AIGAMIG 逆ガウス分布 1GAUSSIANI 1G l ¥ 柾AL川征江T 多項分布 Ml江:rINO NEGB1NINB NORMALI NORI N POISSONI POII P ‑ デフォルトのリンク関数 ロ、ジット 逆数(‑l乗) 逆数の 2乗 ( ‑ 2乗) 累積ロジット 負の二項分布 対数 正規分布 恒等 P o i s s o n分布 対数 相関構造のタイプを指定するオプション 表 2相関構造のタイプ キーワード 相関行列のタイプ ARIAR(1) EXCHICS 1ND MDEP (数値) UNSTRIUN USERI F1XED( m a t r i x ) 1次自己回帰 交換可能 独立 m‑従属 ( 1 T F 数値) 構造化されていない(制章句なし) 固定、ユーザー指定相関行列 ‑355
( 2 )マクロプログ、ラム ノ ' ' ' ︐ ︐ ︐ ︐ ︐ ' ' ' ' ' ︐ ︐ ︐ ︐ ︐ ' ' ' ' ' ︐ ︐ ︐ ︐ ︐ ' ' ' ' ' ︐ ︐ ︐ ︐ ︐ ' ' ' ' ' ︐ ︐ ︐ ︐ ︐ ' ' ' ' ' ︐ ︐ ︐ ︐ ︐ ' ' ' ' ' ︐ ︐ ︐ ︐ ︐ * * * * * * * * * * * * * * 1 * ?廿 行 刊 竹 村 円 ザ 円 刊 ザ 汁 十++11111111+1111+11+11 刊 で 竹 村 * * * * * * * * 十 円 十 林 材 料 神 神* * 1 .S A S J 1 *プログラム名:[G̲GEE 1 *作成者:し Wang 1 *作成日:2 0 0 3 / 0 5 / 0 5 1 * 1 *機能:GEEによるオッズ比、 95別言頼区間およひ下値等の算出 1 * 1 *idsn・ー.......入力データセット 1 *odsn.. ...ー.....出力データセット 1 *class.ー ー ・ ー ー ー ・ ー.個人を示す変数(患者の I D ) 1 *y...............応答変数 1 *x...............説明変数(複数可) 1 *dist...... ・ ....確率分布を指定するオプション 1 *type... .. . ..ーー・ー作業相関構造を指定するオプション 1 *keta...ー・ーー・..少数点以降の桁数 /二ー 1+111++1+++11+1+1++1+1111111+1111111+1+1++1+1+++1+11111111++111111111 拍n a c r oG ̲ G E E ( i d s n =, o d s n =, c l a s s =, y =, x =, d i s t , ニt y p e =, k e t a = ): 1 * 一一一一一回帰係数および分散を算出一一一ー一一* 1 p r o cg e n m o dd a t a = & i d s nd e s c e n d i n g : c l a s s& c l a s s m o d e l& y = & x1d i s t二 品d i s tc o n v巴r g e ニ1 e ‑ 1 2: r e p e a t巴d s u b j巴c t ニ 品c l a s s ltypeニ 品t y p巴 , m a k巴, G E圧 MPPEsr o u t ヰnw r k : r u n, q u i t : 1 * 一一一オッズ比および95% 信頼区聞を算出一一一一* 1 d a t a品o d s n : l e n g t hp a r mo d d sl o w ̲ C Lu p ̲ C Lp ̲ v a l u e$ 1 0 0 : d d s 二'オッズ、比, l o wC L = '9 5 自信頼区間下限, u p ̲ C L = '9 5 目信頼区間上限 l a b巴Io S巴tmw r k : ="lnt巴r c巴p t "t h e nd e l巴t e : i fp a rm o d d s = p u t ( r o u n d ( e x p (巴s t i m a t e ),0 . 1神品 k e t a ),1 2 . & k e t a ) : )0 . 1神品 k e t a ),1 2 . & k e t a ) : l o w ̲ C L= p u t ( r o u n d ( e x p ( l o w e r C L, u p ̲ C L = p u t ( r o u n d ( e x p ( u p p 巴r C L, )0 . 1神品 k e t a ),1 2 .& k巴t a ): . l判 < & k e t a ),1 2 .& k巴t a ): p ̲ v a l u e = p u t ( r o u n d ( p r o b Z,O k 巴 巴 pp a r mo d d sl o w ̲ C Lu p ̲ C Lp ̲ v a l u e : r u n, p r o cp r i n tl a b巴1 :r u n : 9 加 巴n dGG E E : ‑1 nhU Tqu ワ リ
目G ̲ G E E ( i d s n = r e s p . o d s n= od d s . c l a s s = i d x .y = o u t c叩 e . x = c e n t e r 2a c t i v ef 師 a l ea g e bi n .t y p e = i n d . k e t a = 1 0 ) ; b a s e li n e . d i s t= ( 3 )解 析 結 果 P a r a m e t e r オッズ比 9 5 別言頼区間下限 9 5 別言頼区間上隈 p ̲ v a l u e c e n t e r 2 a c ti v e f e m a l e a g e b a s e li n e 1 .9 1 4 5 6 5 0 7 4 3 3 .5 4 4 3 5 2 6 7 7 9 1 . 1 4 6 5 7 6 3 2 9 4 0 . 9 8 1 4 1 8 4 4 6 4 6 . 3 3 2 6 5 5 6 3 4 3 0 . 9 5 8 0 8 8 7 3 7 5 1 .7 9 6 5 6 7 3 1 4 5 0 . 4 8 3 7 9 9 6 8 4 8 0 . 9 5 6 7 9 4 4 1 1 8 3 .2 1 4 3 1 5 3 6 1 1 3 . 8 2 5 9 0 8 0 6 0 7 6 .9 9 2 4 6 6 0 2 3 3 2 . 7 1 7 3 1 7 3 5 3 7 1 .0 0 6 6 7 6 2 0 4 5 1 2 . 4 7 6 2 2 6 7 7 9 0 . 0 6 5 9 5 1 6 5 2 4 0 . 0 0 0 2 6 2 3 0 4 1 O .7 5 6 0 3 5 2 3 4 6 0 . 1 4 7 9 7 4 3 8 1 8 0 . 0 00 0 0 9 5 7 ∞ 2 ) iSASによる貧乏人の GEEJを用いた解析 第 1 6回薬効評価研究会で紹介された iSASによる貧乏人の GEEJにあるフ。ログ"ラムに対して下線 信頼区間および P値 は 部分を変更した後、プログFラムを実行した。その結果得られたオッズ、比、 95% GENMOD プロシジャを用いた角軌庁結果と少数第7 位以上で一致した。 ω従来プログラム ①I U J w er = t( b e t a O )ーr s e 也盟盤, 盟9 6 ; Upper=t( b e t a O ) + r se # 1 .9 ( g ) pr o cl o g i s t i cd a t a=r e s pd 蹴 e n d i n g∞v o u t o u t βs t 一 司∞ v ; e n t e r 2a c t i v ef e m a l ea g eb a s e! i ne ; modeloutcomeニc 弓 g e ep=e y ; o u t p u t o u t run, (却変更したプログラム C D U J w e r = t(betaO)-rs岬orobit(O.975~; Upper=t( b e t a O ) + r s e # o r o b i t ( O . 9 7 5 ) ; 笹 ⑫ 冶r o ∞ ) 犯 c c l 阿 句 O 噂 g i 油 c 血 da t 匂a 弔 = r 陀e 白s 刺 刊 pd e悶 n d i n g∞ 仰 v o 山 u 1 modelout ∞me=center2activefemal巴 agebase! i ne ∞ , fnve沼 e=le‑l2; =pg e ep=e y ; o u t p u to u t run, 3 ) iGEEマクロ」 fGEEマクロ」では、LiangとZegerの GEEのアブρローチを使用し、同じ個人の観察時点聞の相 9 8 9年に O r i g i n a lv e r s i o nを作成され、 関関係を扱う回帰係数を推定するためのプログラムである。 1 1 9 9 4年に U p d a t eし 、 V e r s i o n 2 . 0 3にされた。 h t t p : / /剛 w . s t a t l a b . u n i ‑ h e i d e l b e r g . d e / s t a t l i b / G E E / G E E 1から 自由に GEE1203.SASをダウンロードし、 rGEEマクロ」が実行できた。 iGEEマクロ」からの最終 的な出力は回帰係数、回 j 制系数の分散 ( r o b u s tvarianaも含む), p‑値及びオッズ比、 95%信 頼 区 間などがあった。 巳d ヴ ー つ リ
( 1 )iGEEマクロ」を新子するために使うオプション オプ、ンョン 項目 い品玉関数 内容 g(μ)=μ I d e n t i t y Logarithm g(μ)=In[μ] 玉 ニ2 U品 Iρgit ( 1 ‑μ)] g(μ)=In[μ 1 Li叫( =3 Gaussian Var(Y)=1Var(Y)=σy2 い品玉ニ4 ニ1 V訂i Poisson Var(Y)=μ Var(Y)=μ(1・ μ) V町 i=2 Bin 紅 γ Gamma Var(Y)=μ 女 μ l ' i=4 Va Independent ρ=0 Coπ=1 ρ手 O Corr=4 Re c i p r o c a l 平与づ士散の関係 作業相関行列 iGEEマクロ」 Li叫( =1 V訂i=3 StationaryM‑dep. Non‑StationaryM‑dep Exchangeable AR‑M ( 2 )iGEEマクロ」 上記のデータセットを用いて、 iGEEマクロ」を起動する下記の SASプログラムにマクロのパラメー タを指定し、実行した。詳しくは参考文献 2に譲る。 百i n c l u d e. G E Eのマクロライブラ J ) '; G E E( d a t a = re s p . y v ar = cu t c a n e . x v a r = i n tc e n t e r 2a c t i v ef e m a l ea g eb a s e li n e . i d= i d x vi s i t t v a r= tv a l u e s = 1 234 I i n k = 3 . = 3 . v a ri c o r r = 1 i t e r = 1 0 . S卯 1 s = 1 5 0 . w o r k = 33 0 . m i s s d e l = y e s ); ( 3 ) 鰯庁結果 I G E Eマクロ」中にt 分布における 9同点では 1 1 .96Jとし、う値を用いられているが、それを Probit関数 Probi t( 0 .9 7 5 )を用いた上で、桁数も修正した場合、オッズ 比、 9 5 弘信頼区聞が GENMOD プロ、ン ジャを用いた角特斤結果と少数点7位まで一致した。 Fhd n x u qu
4 .終わりに SASのサンプルライブ ラリーのデータ (GEEm o d e lf o rb i n a r yd a t a ) を利用し、 3つの解析ツール P を糊庁した結果を比較した。 3つの解析ツーノレを用し、た角斬結果は少数点 7桁まで一致でしたこと から、それらの精度は同じぐらいであると考えられた。なお、 iSASによる貧乏人の GEEJでは欠 涜[ j f 直があっても欠測のデータを含んで角勃庁できることに対して、 iGEEマクロ」および GENMOD プ口、ンジャで、は欠涼[ 1直があった場合は欠測のデータを除いてから解析している。 iGEEマクロ」で、は SAS社のサポート対象になってしないので、 GENMOD プ口、ンジャまたは iSASによる貧乏人の GEEJを使うことを薦める。 参考文献 1 . 佐藤俊哉酒井弘憲酒井弘憲でもわかる GEE第 1 6回薬効評価研究会 1 9 9 5 . 2 . 松 岡 浮 GEE 第 1 6回薬効評価研究会 1 9 9 5 . 3 . S c o t tL .Zeg e randKung‑YeeL i a n g .L : m g i t u d i n a lDataAn a l y s i sf o rD i s c r e t eand 1 2 1 ‑ 1 3 0March1 9 8 6 . c o n t i m u o u so u t c o m e s .B i o m e t r i c s42, 4 . Kung‑YeeL i angandS c o t tL .Zeg e rL : m g i t u d i n a lDataAn a l y s i su s i n gg e n e r a l i z e d l i n e a rm o d e l sB i o m e t r i k a73, 1 32 2 1 9 8 6 . 5 . S c o t tL .ZegeζKung‑YeeL i angandPaulS .Al b e r t .Modelsf o rLon g i t u d i n a lD a t a :A g e n a r a l i z e dE s t i m a t i n gE q u a t i o nA p p r o a c h .B i o m e t r i c s44, 1 0 4 9 ‑ 1 0 6 0December1 9 8 8 . 6 . 松山裕、林邦彦佐藤俊哉山本精一郎大橋靖雄G e n e r a l i z e dE s t i m e t i n gE q u a t i o n s の理論と応用薬理と治療 2 4 ( 1 2 ): 2531・2542, 1 9 9 6 ・ ‑359‑
日本 SASユ ー ザ ー 会 (SUG1‑0) NLMIXEDプロシジャーを用いた ItemResponseModelのシミュレーション 0 板 東 説 也 事 宮 岡 悦 良 e・ 緑 )1 修 一 日 高 原 佳 奈 $ 事 ・有限会社電助システムズ電脳事業部 $事東京理科大学理学部 東京理科大学大学院 SimulationStudiesofEstimation in ItemResponseModels usingNLMIXED procedure ・ iy a o l 倍率* S huuiti Midorikawa事 事 K anaTakahara*事 Etsuya Bandoh EtsuoM 事 DENSUKESYSTEMS C o ., L t d . **Tokyo University ofScience 要 旨 近年、統計モデルとして線形混合モデ、ルが注目されてきている。凶 8.2では MIXEDプ 口、ン、ジャーを用いることで様々な事柄に対して複雑かつ詳細な解析が可能となった。しかし、 我々の身の周りの出来事に関して、全てこの線形な混合モテ、ルで、処理出来る訳で、はないこと も事実である。即ち、非糠形な場合の混合モデルをどのように処理して行くかとし、うことが問題 となる。今まで非線形混合モデルを用いる場合には、 IMLを用いプログ、ラムを作成する必要が あり、多大な手間と時間を費やしてきた。そんな折に、 SAS System V8 から追加された NLMIXED プロシジャーで、は、容易に非線形な混合モデルを解析することが可能となった。そ こで本稿においては、この NLMIXEDプロシジャーでの推定を I t e mResponseModelを例に用 いてシミュレーションによる検証を行ってみた。 キーワード I t e mResponseModel、NLMIXEDプロシジャー 1 . はじめに ι . t e mResponseModelであるが、われわれの身の回りには、試験 心、理検査. これから取扱う I アンケ一トなど様々な テスト その採点成績は根拠の明確な数字として考えて良いのだだ、ろうか。 そこで、これらを数値的に解析しようと開発されたのが 1940~1950 年代以降発展してきた項目 反応理論(ltemResponse Theory; IRT)を中心とする現代テスト理論である。そこで被験者の 能力とテストの正答率の関係について I t e mResponseModelとしづ統計的モデルをたてて考え る 。I t e mResponse Modelは能力を表す変数 θの関係として定義される。変数 θはこのモデル 上で、実数値をとる連続変数である。また θは被験者の能力を表す指標であり、被験者個々 により異なる値をとるものとする。 能力変数 θを用いて、被験者の各項目に対する正答率を P( θ )と定めると、正答率 P( θ )は変 数 θの関数であり、 Oから 1の聞の値をとる。一般に正答率とは低い能力では低い正答率、高 ハ hu よ ー ηべU
い能力では高い正答率となる。したがって P ( θ)は被験者個人の能力 θに依存する単調増加 g i s t i cf u n c t i o n )を用いて正答率を表すこ 関数を仮定する。よってここではロジスティック関数(lo ( θ )は lつまたは 2つの母数を与えて次のような式で表される。 とにし、正答率 P P( θ). , ̲. " . 1 1+e x p [一θ (‑ b ) ] ( 1 ) または P ( θ)=l(2). 1+exp[‑a(θ‑ b ) ] ここでの a, bをそれぞれ項目の 識別力 ( d i s c r i m i n a t e ) "と 困難度 ( d i f f i c u l t y )"と呼ぶ。 a, bは ともに実数値をとる母数であり、総して項目母数(i t e mp a r a m e t e r )と呼ばれる。 ( 1 )式を l母数ロ ジスティックモデル ( 1p a r a m e t e rl o g i s t i cmode l ) 、( 2 )式を 2母数ロジスティックモデル ( 2 p a r a m e t e rl o g i s t i cmode l)といい、以降それぞれを 1 母数モデル、 2母数モデルと呼ぶことにす る。以後この 2つの l t e mR e s p o n s eM o d e lを用いて話を進めて行く。 尚、次節では, 正答"または 誤答"の 2値変数を表す結合確率関数を定め、さらに能力母数 θについての周辺尤度関数を求める。そして得られたモデルについて、被験者の反応データ が与えられたときの項目母数の推定について述べておく。しかし項目母数、能力母数を同時 に推定することは母数が増えてしまい困難であるため、項目母数にのみに限定し、最尤法によ り対数周辺尤度方程式を解くことで最尤推定値を得る。また項目母数についての尤度方程式 は計算が困難な場合となる積分を含むことから、 G a u s s求積法 ( G a u s s i a nQ u a d r a t u r e )により 近似的な方程式を求めて行く。さらにこの方程式は非線形でありことから D u a l ‑ Q u a s i ‑ N e w t o n M e t h o dを用い,数値解として項目母数の最尤推定値を得る。 2 . 推定方法 以降の節では 2母数モデルについて述べる。 l母数モデ、ルについては 2母数モデルにおい て α=1とし同様に扱うことができる。 今 、 N 人の被験者はそれぞれ互いに独立であり、被験者 i ( i = 1, 2 , .・, N)について、それぞ ( j= 1 , 2, . . . ,n )の反応もまた互いに独立であるとする。そのとき、 N 人の被験者が れの項目 j n個の項目について、反応データ U1 , U , . . . , U1n, U2 …, U 1, 1 I 2 Nnを得る確率は、次のように表され る 。 P(U i l 二 Ui2 =Ui2, . . . , Uin=U'nI~ , a,b) Ui l ' 尚 、 θ =(θl'( ) 2 '…θN ), a=(al, a2, …aN ) b=(bl'b2, …bN ) とする。 ヲ N f 1P(叫 = 叫 ん =Ui2, . . . ,U = U市 1‑ 1 f l 3 6 2
=I T I TP(U'j=Uリ│咋 aj,b)=I T I T [ 円 ( 司) ] " i j [ 仰の]ト"" H j = 1 ; = 1 j = 1 = 相[ 1 + e x p [ ‑ ; j 川山l : z r i y f ただし、 Uijは lまたは 0のいずれかの値をとる。 i=1 , 2・ ' ,, .N )は固定された被験者 iの能力を表す母数と 次に、周辺尤度関数を求める。町 ( する。また θは実数値をとる母数とし、 θの確率密度関数を砂(めとする。 N ) そこで、それぞれの被験者 i ( i=1 , 工 … , について、それぞれの項目 j( J=1 ユ… ,n )の反 応は互いに独立であるとすると、 n個 の 項 目 に 対 す る N 人 の 被 験 者 の 反 応 デ ー タ ( i=1 , 2, " ' , N;j=1 ,工・ , n )を得る確率は、 (3)式より次のように定める。 U ' j = = ・,'U = u N n l a , b ) P(UI UI 2 J U I J, N = I TP(U l I ニ U1 2' Nn = , U ; 2 U ; 2 ", "U ; U;I I / = u ' na l , b ) =日弁θ ()P(U;I叫 ん ニ UI . . . , U =u θ I,a , b) d θ 2, in =日弁 ( θ ) I TP(U'jニ叫 ! B,a ,叱凶 j j jn ( 4 ) ただし、 Uijは lまたは 0のいずれかの値をとる。 4 )式より次の式で定められる。 さらに、周辺対数尤度関数は ( 1 0 gL(a, b ; u11, u12'・ ・ ・ ヲ UN, , ) = 乞 logI o ( θ ) I TP(U,j =U θ│,aj,久凶 り ( 5 ) ただし、円は lまたは 0のいずれかの値をとる。 l θ 2 いま θの分布を標準正規分布と仮定する。つまり仰)=T=exp[‑7]と仮定すれば、 1 2 π L 、 b, についての対数尤度方程式は次の式で表される。 ペ ηu nhu nペU
と
o
g
L
(αム ;Ui
U2
.
.,
.UNi
)O
1,
i,
δ死l
j'
f~
っー
j'
lj'
"‑j'
IYJ
ニ
θ21δ!
I
B
ね りd
θ
x
p
[一 2]
P
(
杭iJ =U
,
a
i,
b
;
)
‑
‑
;
:
;
.
‑
P
(叫 =u│
i
ャ ゾZ
π e
J' ,
‑
‑i
jI~ '-j'~ J 仇
!
t
i
'
f~ 叫[竺]P(U'i ニ uJθヲ ai , b;)dθ
J.
J2
π 2 ." J
'
J1
=0
J' J
この方程式の左辺は計算が困難な積分を含むこともあることから、 SAS ではそれらに対して
Gauss求積法及び適合型 Gauss求積法を用いた推定を行っている。そこで求積法の違いや標
本の大きさの違いによって推定値がどのように変化するかを見るために以下のシミュレ一泊ン
を行ってして。
3
. シミュレーション
,
.,uNより項目母数について以下
ある 1つの項目に対し、 N 人の被験者の反応データ U"u
2
のS
t
e
p
1'
"
'
‑
'
S
t
e
p
3で l母数モテ、ルのシミュレーションを行う。
S
t
e
p
1
:被験者数と項目母数の真の値を設定する。そして、ある lつの項目について、被験者
の能力を平均 O、分散 lの正規分布に従うと仮定し、能力母数の擬似乱数を発生さ
せる。
S
t
e
p
2
:生成した擬似乱数より、 1回1回のベルヌーイ試行で、各被験者の正答率に基づ、く擬似
データの作成をする。ここでの擬似データは被験者の人数分の 0‑1 のデータであ
る
。
S
t
e
p
3
:作成した擬似データより項目母数の推定を行う。尚、推定に用いたプログラムは、
Program1が Gauss 求積法、 Program2が適合型 Gauss 求積法として下記に記した。
1
*Gauss 求積法 *
1
p
r
o
cn
l
m
i
x
e
dd
a
t
a
=
i
t
e
mn
o
a
d
;
parmsb
1
=
0
.
7
;
z
=
(
x
‑
b
1
)
;
p=1/(
1+
e
x
p
(‑
z
)
)
;
modelu~binomial(1 , p);
randomx~normal(0 , 1) s
u
b
j
e
c
t
=
i
;
o
d
so
u
t
p
u
tP
a
r
a
m
e
t
e
r
E
s
t
i
m
a
t
e
s
=
p
e
;
vi
nHu
(
p
r
o
g
r
a
m
1
)
3
6
4
/*適合型 Gauss求積法*/ p r o cn l m i x e dd a t a = i t e m ; parmsb 1 = 0 . 7 ; z = ( x ‑ b 1 ) ; l+ e x p ( ‑ z ) ) ; p=l/( mod巴Iu~binomial(l , p ) ; u b j 巴c t = i ; randomx~normal(O , l) s n uTA ︐ . o d so u t p u tP a r a m e t e r E s t i m a t e s = p e ; ( p r o g r a m 2 ) 4 .結 果 上記シミュレーションによる結果を下記、表 1 " " ' 2 に記載しておく。尚、全ての結果については シミュレーションによって得られた推定値の平均値を記載している。 表1. 1母数モデノレ(推定回数の変化) P a r a m e t e r 推定回数 被験者数 真の値 推定値の平均 ( G a u s s求積法) 推定値の平均 (適合型 G a u s s 求積法) 1 0 0 B 1, 000 5, 000 500 0 . 5 1 0, 000 0.7258545 4875879 0. 0. 4993304 0.5062841 4998722 0. 0.5015052 0.5007595 4988295 0. 一一ー一一」ーー 表2 . 1 母数モデノレ(被験者数の変化) P a r a m e t e r 推定回数 被験者数 真の値 推定値の平均 ( G a u s s求積法) 推定値の平均 (適合型 G a u s s 求積法) 1 0 0 B 1 0, 000 500 0 . 5 1, 000 0.5073437 0.5044951 0.5007595 0. 4988295 0. 4993125 0. 4979776 以上の結果より、 l母数モデルにおける困難度 bの推定値は、かなり真の値に近い結果が得ら れた。また I t e mRespons巴 Modelにおける求積法による真の値と推定値との差については、 l 3 6 5
母数モデ、ルで、は被験者数が少ない場合に適合型 Gauss 求積法の方が真の値に近い推定値 を導きだしてしもとし、う結果が得られた。また 2母数モデルに関しては、現在様々なシミュレー ションを行し、調査中である。 5 .ま と め 最後に、本稿では l母数モデルにおける被験者数及推定回数の変化による結果のみの記載 に留めた。また NLMIXEDプロシジャーによる疑問点及び改良点としては、 Gauss 求積法によ 等他の値が欠損値表示されて る推定を行った際、推定値の値は表示されるにも係わらず、 SE いる点は、実際内部でどのような処理が行われているのかという点が非常に疑問の残る点であ る。また現在 NLMIXEDプロシジャーでL用し、ることのできる能力母数の分布は標準正規分布の みであり、他の分布を用いることができれば、更に使用範囲が広がるのではなし、かと改良を期 待している。 参考文献 [ 1 ] . 赤木愛和・池田央(監訳),教育・心理検査法のスタンダード,図書文化社, ( 1 9 9 3 ) [ 2 ] .B i n e t, A.,&Simon, T .,Thed e v e l o p m e n to fi n t e l l i g e n c ei nyoungc h i l d r e n,TheT r a i n i n g S c h o o l,( 1 9 1 6 ) . [ 3 J .Dobson人 J .,統計モデル入門,共立出版, (1993) 19 9 4 ) [ 4 J . 池田央,現代テスト理論,朝倉書庖, ( 1 9 7 3 ) [ 5 J . 森正武,数値解析,共立出版, ( [ 6 ] .Rasch, G .,P r o b a b r i cm o d e l sf o rsomei n t e l l i g e n c eanda c h i e v e m e n tt e s t s i l s e nandL y d i c h e .( 1 9 6 0 ) Copenhagen,N [ 7 J . 佐藤次男・中村理一郎,よくわかる数値計算,日刊工業新聞社, ( 2 0 0 1 ) [ 8 J . 東京大学教養学部統計学教室編,人文・社会科学系の統計学,東京大学出版, ( 19 9 4 ) [ 9 ] . 豊田秀樹,項目反応理論[入門編J ,朝倉書庖, ( 2 0 0 2 ) L .R .,Maximumv a l i d i t yofat e s tw i t he q u i v a l e n ti t e m s,P s y c h o m e t r i k a1 1( 19 4 6 ), [ 1 0 J .Tucker, 1 ‑ 1 3 . ‑366
[ 1 1 ] .VanDerL i n d e n, W . j .,& Hambleton, R . K .,Handbooko fmodernI t e mResponseTheory, S p r i n g e r,( 19 9 6 ) . 口2 ] .P i n h e i r o, j . C .andB a t e s, D.M,A p p r o x i m a t i o n st ot h eL o g ‑ l i k e l i h o o dF u n c t i o ni nt h e o u r n a lo fC o m p u t a t i o n a landG r a p h i c a lS t a t i s t i c s, N o n l i n e a rM i x e d ‑ e f f e c t sModel,j 4,1 2 ‑ 3 5 .( 19 9 5 ) [ 1 3 ] . 伊藤陽一, NLMIXEDプロシジャを用いた項目反応理論モデ、ルのパラメータ推定, j ), ( 2 0 0 2 ) 日本 SASユーザ会 (SUGI‑ [ 1 4 ] . 伊藤陽一・大橋靖雄, QOL質問票における項目反応理論に対するパラメータ推定, j a p a n e s ej o u r n a lo fB i o m e t r i c s,Vo . 123,No.1 .( 2 0 0 2 ) h ハu nぺU ワー
日本 SASユーザー会 (SuG 1‑0) 変量効果モデルによるメタ・アナリシス O e r S i m o n i a n ‑ L a i r d法の S A Sマクロの作成 0中 西 豊 支 浜田知久馬 東京理科大学大学院工学研究科 D e v e l o p i n gS A Sm a c r of o rm e t a ‑ a n a l y s i su s i n gD Lm e t h o d ( r a n d o me f f e c tm o d e l ) Y u s h iN a k a n i s h ia n dC h i k u m aH a m a d a G r a d u a t eS c h o o lo fE n g i n e e r i n gT o k y oU n i v e r s i t yo f Science a g u r a z a k a,S h i n j y u k u ‑ k u,T o k y o1 6 2 ‑ 8 6 0 1 1 ‑ 3,k 要旨 メタ・アナリシスで、研究開で効果の均一性の検定が有意な場合は、各研究の効果は変動を伴 うと仮定する変量効果モデ、ルを用いるが自然である。研究聞の効果の変動の大きさをモーメン L a i r d法が有名である。 SASで 卜法によって推定する変量効果モデルとしては DerSimonian‑ は固定効果モデ、ルによるメタ・アナリシスは生存時間をエンドポイン卜とした場合 PHREGの STRATA文を用いて可能だが、変量効果モデルを用いたメタ・アナリシスはプロシジャでは可 r L a i r d 去を用いて統 能でない。そこで本稿では、変量効果モテ、ルの代表で、ある DerSimonian‑ 合ハザード比を計算するための SASマクロを示す。 キーワード: メタ・アナリシス D e r S i m o n i a n ‑ L a i r d法 PHREGプロシジャ S A Sマクロ 1 .はじめに メタ・アナリシスは異なった研究の結果をまとめるための手法である。通常、個々の臨床試験 のサンプルサイズは十分でない場合が多く、特にがん研究において大規模臨床試験は困難であ る。メタ・アナリシスは類似した研究の結果を統合することによりサンフ。ルサイズを増やし検 出力を上げる。メタ・アナリシスには二つのアプローチがある。固定効果モデルと変量効果モ デルである。前者は、本来効果は研究問で均ーという考え方に基づく。現実として研究ごとに 効果の推定値はばらつくが、それは偶然変動であると考える。一方、変量効果モデ、ルでは試験 ごとに効果が異なっていることが前提になる。 SASで、は固定効果モデ ルによるメタ・アナリシ スは生存時間をエンドポイントとした場合 PHREGプロシジャの STRATA文を用いて可能だ が、変量効果モデルを用いたメタ・アナリシスはプロシジャでは可能でない。そこで本稿では、 erSimonian‑Laird法を用いて統合ノ¥ザード比を計算するため 変量効果モデ、ルの代表で、ある D の SASマクロを示す。 円Hd ρhv n︿U
2 .メタ・アナリシスのモデル 各研究から計算した e f f e c ts i z eの推定値を適当な変換により漸近的正規近似が仮定できる状況 を考える。この仮定は最尤法による推測を行っているときは妥当である。 ) ( 1EA B [[ 司, s }‑N(θ~ , S[2) ここで、 B f f e c ts i z eの推定値を適当な変換したもの、 は各研究から計算した e j S 2 2は B [の推定分 散である。 θ fの例としてハザード比あるいはオッズ比の対数変換を行うことがあげられる。 2 ‑ 1 固定効果モデル 固定効果モデルは各研究効果が同ーの e f f e c ts i z e θ を持ち、均一性 ( h o m o g e n e i t y )を仮定した方 法である。 (θ)=l (θ!孔 S[2)は 帰無仮説 Hoθ1 … =θkの下では θの対数尤度 l 土宅笠=土 wj(Bj θ)2 制 使 Q= ( 2 ) 与 とした。 となる。ただし、 W2= s i θの海Ii近的最尤推定量 θAMUiは 主 丑 BAMUi = ここで、 岬 ( 3 ) )W 1 AMIA]= Iw j よって、 情; 95%CI:叫 1 . 9 ( 4 ) エ 咋 笠 =ZWIdJ)2 d ( 5 ) また、 Q は Q= ηst n︿U n u
自由度 kの χ2分布に従うが Q統計量は Q lと Q2とに分解できる。 土w J , 9 t‑ t 9 h)+ Q= = (()AMLE ‑ 訓 付 LW , (θrθ / J :)2+L w, θ ( / J :一θ ) 2 AM AM ( 6 ) i = 1 、 一 一 一 一 、r一 一 一 一 ノ Ql χk'12に従う に 一 一 一 一 、r一 一 一 一 ノ II I Q2 Iχ12に従う Qぃ Q zを用いてそれぞれ研究効果の均一性の検定、有意性の検定を行うことができる。 2 ‑ 2 変量効果モデル 固定効果モデルでは θ tを共通と考えたが、現実には各研究効果司がバラツキ τ2を伴う(プロ トコールの違い、患者の違い、地域の違い、研究者の違いなど)と考えた方が自然である。そ h e t e r o g e n e i t y )をモデル化した一つの自然なモデルとして こで、この不均一性 ( 町│ θ, r2~ N( θ, r 2 ) i=1 ム… , k ( 7 ) としづ変量効果モデルを考える。この仮定の下(1)式は シ2~ N(θ,sf+T2)i=IL‑‑,k , ) (I θ, S ( 8 ) と置き換えられる。変量効果モデルで、は θ、r2を推定するために周辺尤度を最大化する制限付 き最尤法 (REML 法 ) を 考 え る の が 自 然 で あ る 。 τ2 の 推 定 に 関 係 す る 対 数 尤 度 l (θ, r)=1(θ, rI t 9 "S, 2)は 2 2 2 氏 一 [ 会 ( 詳 叫 ( 9 ) l ( θr ) となる。ここで、重み変数 Wi*を ん ﹂ ﹂ シ /¥ お ι 一︽ゲ ‑ed l一+ w 九 MI. 竿手 ( 1 0 ) J W ‑371
。 o C I :い ( l l ) ともとまる。ただ.し、 ρ勺 ‑ A 似一一寸(] ︐克一一一 す臼一 ( 1 2 ) である。 ( 1 2 )式の右辺は w 2 ‑ 3D e r S i m o n i a n ‑ L a i d法 REML法では反復計算が必要でLある。一方、均一性の検定統計量 Qlを利用したモーメント法 を適用すると、繰り返し計算の必要がない推定値が得られる。 LW , ( θ ' j‑( ) Q J= AMI . I :)2 =Q‑QJ =むκ(θt一θ)2‑ ( L W , ) ( θ 訓/:"ー ( 1 3 ) θ ) 2 となるので、 Lw,Var依‑ J(Lw,)Va巾訓 =号 む叫 wJ y y E(QJ)= L / : "] z = ) LW ル , V i αr J i 一( L W ) , 以 ) ( 匂 で;̲)2{ い w イ 2 J削 v a r( ( ) J ) + 吋 W ; μ V W 叫a κ が r ω 叫 偽 ( 的 内 ( ) 2 ' ) μ + +w ; μW 叫ar ( ( ) k オ ) 州 中 巾 判 ド 臼 削 刊紅 叫り州" 刊訂 W n IW,+rL =む(十 r 一(乞吹)(ホ)2( 2 ) 2 r2ZWJ21( ̲ 1一一←一一│一 ‑=‑+ .) 'r ア = 乞 wr(ld)(l ,' ( W, I w , / L... 2 J F ~Iw 市 叫5 5 ) =( k‑ 1 ) となる。そして、 Qlがその期待値である ( 1 4 )式と等しくなるように Fを推定するとモーメント 推定量が次のように計算される。 円 ta n〆'u qd
f 弘[ m [ o z f ( 1 5 ) よって、 ( 1 5 )式でもとめた Fを用いて θ / ) S J . エ ι L ィ 聞刊伝; 95%α:θ ( 1 6 ) ( 1 7 ) 1 6 )式、信頼区間は ( 1 7 )式となる。 DerSimonian'Laird法による統合した効果の推定値は ( 3 .マクロの計算 C D e r S i m o n i a n ‑ L a i r d法) 本マクロは各研究の個別の生存時間データからハザード比を推定し DerSimonian'Laird 法に より統合するものである。 計算手順を以下に示す。 1 . 各研究の効果を漸近分散法の基づく固定効果モデルで、推定する。 2 . 均一性の検定統計量 Qlを計算する。 3. 研究問のバラツキの大きさて 2を推定する。 4. 各研究の重みを計算する。 5 . 重み付き平均により統合した推定値をもとめる。 6. 統合ハザード比の 95%信頼区間を計算する。 7 . 統合ハザード比の有意性の検定を行う。 4 .プログラムの開発 3節で示した計算手順を行うための SASマクロを開発した。個別データについて、研究施設、 打ち切り情報、生存時間、治療情報をまとめたデータセットを用意する。また、本稿で、はハザ ード比を統合する過程を示す。 ハペ U η︐ i qu
1.各研究の効果の推定値を求める。 コックスの比例ハザード モデ、/レを用いて各研究の対数ノ¥ザード比をもとめる。(浜田 1995 参 照) * i n p u t 1 =入力データセット 1 : 愉n a c r oi s u i t e i( i n p u t1 ): p r o cs o r td a t a = 品i n p u t 1 : b ys t u d y : *一一各研究の効果 ( l o g H R i )とその分散 ( VI o g H R i )の推定一一一一一ー: p r o cp h r e gd a t a = 品i n p u t 1o u t e s t = e s t b yc o v o u t m o d e lt i m e * c e n s o r ( l ) = t r e a t / r l: b y s t u d y : p r o ct r a n s p o s ed a t a = e s t b yo u t = e s t b y : v a rt r e a t : i d̲ t y p e ̲ : b y s t u d y : d a t ad 1 : s e te s t b y : fi I e' d a t a .d at ': p u tp ar m sc o v : 蜘l e n di s ui t ei : 百i s u i t e i ( i n t e g r a l ): 神 神 材 料 入 力 デ ー タ セ ッ ト 1材料紳材料材料材料材料材料材料材料* s t u d y :研究 t i m e 生存時間 c e n s o r 打ち切り情報 ( 1:生存、途中打ち切り 2 :死 亡 ) t r e a t 治療法 ( 1 :c o n t r oI2・治療群) **********************************************************ネホ** 実行例 次に示す入力データセット ( i n t e g r a l )を用いて実際にメタ・アナリシスを行った結果を示す。 s t u d y )は 1 4であり、解析対象 ( I D )は 10225例である。 研究数 ( integraI ] (一部) 入力データセット [ I D 2 3 4 study t i m e A 5 A 4 .5 B 3 .8 D 3 .2 c e n s o r treat 2 2 。 。 必HH晶 ︐i η nペU
結果 study 41EnJιη u a u 寸 ﹁ hupnv A A H n円υhLvnHU ﹁F﹂ ﹁ ↑t n h u H円H 0 1 8 ︐ ﹃ O B S ~ 一0 . 0 1 7 8 1 ﹃J V U R n ‑ ‑ ﹂ HM川 Um川 11111 n k u n同u n H V 4 1 E n J ι η u a u 寸 0 . 0 3 0 7 3 ‑ 0 . 9 0 9 0 3 0 . 0 7 8 2 2 ‑ 0 .1 7 7 4 5 ‑ 0 . 3 0 4 6 1 ‑ 0 . 2 0 7 8 7 ‑ 0 . 4 3 4 8 0 ‑ 0 . 1 3 1 1 8 0 . 1 1 1 7 1 ‑ 0 .2 6 9 9 9 ‑ 0 . 1 1 9 9 3 ‑ 0 . 1 4 9 2 1 0 . 9 8 7 4 7 対数ノ、ザード比 の推定分散 0 . 0 1 9 5 1 0 . 0 1 0 9 4 0 . 1 9 2 0 6 0 . 0 1 8 5 4 0 . 0 1 5 2 9 0 . 0 1 6 3 7 0 . 1 0 6 4 8 0 . 0 1 1 1 0 0 . 0 0 8 8 7 0 . 1 1 1 4 2 0 . 0 1 2 6 0 0 . 0 1 4 0 2 0 . 0 1 4 1 3 0 . 0 8 5 3 7 マクロを実行することにより各研究の効果の大きさ ( P A R M S )と分散 ( C O V )を含んだデータセット が作成される。 2 . 均一性の検定統計量 QJ= W ;X ( l o g H R ;ー l o g f 訂正)、研究開のバラツキの大きさて 2、重み付き RDS1 を計算し、 9 5見信頼区間をもとめ、最後に有意性の検定を行う。 平均 H ****************マクロ D S L * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 判円 p u t 2 =入力データセット 2 : 知n a c r oD S L ( i n p u t 2 ) : d a t aw e i g h t : s e t& i n p u t 2 : d u m m y = 1 : *一一[漸近分散法に基づく均質性の統計量 ( 0 1 )を計算] ー w i )を計算一一ー, *一各研究の重み ( w iニl / ( V l o g H R i ): w l o g H R i = w i * l o g H R i : p r o cs u m m a r y : v a rw iw l o g H R i: o u t p u to u t = s u m w e i g h ts u m = : * 漸近分散法に基づく統合ハザード比 ( H R )の推定ーへ d a t aH R :s e ts u m w e i g h t :l o g H R = w l o g H R i / w i : H Rニ巴 x p( 1o g H R ): d a t ac u l : s e tH R : d u m m y = l :l o g H R v = l o g H R : k e e pl o g H R vd u m m y : d a t ac u l : m巴r g ew e i g h tc u l: b yd u m m y : * 漸近分散法に基づく均質性の検定一; d a t a日l : s e tc u l : q 1 = w i * ( l o g H R i ‑ l o g H R v ) * * 2 : 一 ー , 戸 hu ワdh A︿ U
p r o cs u m m a r y : v a rq 1d u m m y : o u t p u to u t = o u t 0 1s u m = O lk : 骨一一一一一│均質性の検定 *一一[変量モデル : D e r S i m o n i a n ‑ L a i r d l 去に基づく統合ハザード比の推定]一一一一; 統計量 Q I d a t aD S L :s e tw e i g h t : w i 2 = w i * * 2 : ww 2 : p r o cs u m m a r y : v a rw i wi2:output o u t = s u m w e i g h t 2s u m= *一一一一研究開のバラツキの大きさ ( t a u 2 )の推定一ー; d a t at a u 2 :m e r g eo u t 0 1s u m w e i g h t 2 : t a u 2 =( 0 1ー ( k ‑1 ) )/( w ‑( w 2 )/ w ): i ft a u 2 > = Ot h e nt a u 2 = t a u 2 : ← ‑ → て e [ s et a u 2 = O : 2の 計 算 │ d a t ac u [: s e tt a u 2 : d u m m y1 : 二 *一一ー各研究の重み ( wi D SL )‑ ‑ ‑ : d a t aw i D S L : m e r g e& i n p u t 2c u [: b yd u m m y : w i D S L = l / ( V [ o g H R i +t a u 2 ): k e e pw i D S Ld u m m y : * 統合ハザード比例 R D S υ の推定一ー; d a t aH R D L S : m e r g e& i n p u t 2w i D S L : b yd u m m y : w [ o g H R = w i D S L * [ o g H R i : p r o cs u m m a r y: v a rw l o g H Rw i D S L : o u t p u to u t = s u m H R D S Ls u m = w l o g H Rw D S L : d a t aH R D S L : s e ts u m H R D S L : l o g H R D S L = w l o g H R / w D S L : H R d s l = e x p ( l o g H R D S L ): ←一一│統合ハザーは│ *一一有意性の検定一一; 0 2 = [ o g H R D S L * * 2 * w D S L : p = l ‑ p r o b c h i( 0 2 .1 ): * ‑ ‑ ‑ ‑ (信頼区間の推定) ‑‑: ri s k = e x p( 1o g H R D SL ): r i s k [ o w e r = e x p ( [ o g H R D S L ‑ 1 . 9 6 * ( 1 / w D S L ) * * . 5 ): r i s k u p p e r = e x p ( l o g H R D S L + 1 . 9 6 * ( 1 / w D S L ) * * . 5 ): 95%信頼区間 蜘l e n dD S L : 唱O S L ( d a t a ): 件特材料入力データセット 2材 料 材 料 材 料 材 料 材 料 材 料 材 料 材 料 * 料 [本プログラムではマクロ i s u i t e iによってもとめている] [ o g H R i :第l 試験の効果の推定値[本プログラムでは対数ハザード比 ( P A R M S ) ] VI o g H R i:第│試験の効果の推定値の分散[本プログラムでは C O V ] * * * * * * * * * * * * * * * * * * * * * * * * * * キ * キ キ キ キ キ キ キ キ キ キ キ キ キ キ * * * * * * * * キ キ キ キ キ キ キ キ キ キ キ キ nhu ワ i qd
実行例 入力データセット s u i t e iに よ っ て 各 研 究 の 効 果 を 推 定 し た デ ー タ セ ッ ト dataを用いる。マク ここでは、マクロ i S Lの実行結果は次のようになる。 ロD 結果 O B S Q 2 1 0 . 7 0 9 0 p . 0 0 1 0 6 6 1 7 4 r i s k r i s k l o w e r r i s k u p p e r 0 . 8 3 0 9 9 0 . 7 4 3 7 7 0 . 9 2 8 4 4 参考のため、固定効果モデ、ルによるメタ・アナリシスを行った S ASプ ロ グ ラ ム と そ の 実 行 結 果 を示す。 P HREGプ ロ シ ジ ャ に お い て 研 究 施 設 を STRATA文で指定している。 仲紳材料仲固定効果モデルによるメタ・アナリシス材料材料材料梓* p r o cp h r e gd a t a = i n p u t d a t ao u t e s t = e s t b yc o v o u t m o d e lt i m e * c e n s o r ( l ) = t r e a t / r l; s t r a t a s t u d y ; キ キ キ キ キ キ キ ホ ョ ド * ヨ ド ホ キ キ キ キ キ キ キ キ * * キ * キ * * * * * ホ * キ キ キ ホ キ キ ホ キ キ ヨ ド ヨ ド ヨ ド ホ ホ ホ ホ ホ ホ ホ * * ホ * ホ * * ホ ホ * * 結果 A n a l y s i so fM a x i m u mL i k e l i h o o dE s t i m a t e s V a r i a b l e H a z a r d R a t i o 9 5 %H a z a r dR a t i o C o n f i d e n c eL i m i t s t r e a t 0 . 8 4 0 0 . 7 8 3 0 . 9 0 1 変量効果モデルによるメタ・アナリシスは固定効果モデルと比べてバラツキジを考慮する分、 信頼区間が広がることが分かる。 6 .まとめ 本稿ではエンドポイン卜を生存時間とし、対象データとして個別データが得られることを想定 した DerSimonian'Laird法を用いて統合ノ、ザード比をもとめる SASマ ク ロ を 示 し た が 、 マ ク ロ DSLの 入 力 内 容 を 各 研 究 の ハ ザ ー ド 比 か ら オ ッ ズ 比 に 変 更 す る こ と に よ り ハ ザ ー ド 比 だ け でなくオッズ比等の幅広い指標を統合することができる。このように簡単なプログラムにより メタ・アナリシスは実施できるがメタ・アナリシスの宿命上、結果の解釈は簡単ではない。メ タ・アナリシスによって得られた結果はあくまで探索的な解析で新たな研究によって検証がな される必要がある。 3 7 7
参考文献 丹後俊郎 ( 2 0 0 2 ) メタ・アナリシス入門 朝倉書庖 大橋靖雄、浜田知久馬 ( 1 9 9 5 ) 生存時間解析 東京大学出版会 ( 19 9 3 ) S A Sによるデータ解析入門 竹内啓、市川伸一、大橋靖雄、岸本淳司、浜田知久馬 京大学出版会 丹後俊郎 ( 2 0 0 0 ) 統計モデル入門 1 9 4 ‑ 1 9 5朝倉書庖 浜田知久馬 ( 1 9 9 5 ) S A Sによるメタ・アナリシス S U G I ‑ ] 2 4 1 ‑ 2 5 4 東 ワ I n︿U ︒ ︒
日本 SASユーザー会 (SUG1‑0) メタ・アナリシスにおける公表バイアスの評価 trim‑andイi l法の SASマクロの作成 0松 岡 伸 篤 浜田知久馬 東京理科大学大学院工学研究科経営工学専攻 E v a l u a t i o no fp u b l i c a t i o nb i a si nmeta‑analysis DevelopingSASmacrof o rt r i m ‑ a n d ‑ f i l l "method ONobushigeMatsuoka and ChikumaHamada GraduateSchoolo fE n g i n e e r i n gTokyoU n i v e r s i t yo fScience 1‑3, kagurazaka,S h i n j y u k u ‑ k u,Tokyo 162‑8601 要旨 メタ・アナリシスにおける公表ノ〈イアスの影響を評価する手法として Duval and Tweedie(2000a, b )により t r i m ‑ a n d ‑ f i 1 1法が提案されている。 t r i m ‑ a n d ‑ f i 1 1法はメタ・アナリシスの対象研究を逐次的に削除して統合 効果を推定するため、 SAS でプログラムを作成する際、異なったデータセットで、同じ作業を繰り返す必要 日 1法を DATAステップ、 PROCステップなど、を組み合わせて、 lつの手続きとし がある。そこで、 trim‑and一 て実施するため SASのマクロを作成した。 ーメタ・アナリシス キーワード. 公表ノくイアス trim‑and 日1法 f u n n e lフ。ロット SASマクロ 1 . はじめに メタ・アナリシスを行なう際、非常に大きな問題となるのが公表バイアス (publication b i a s )で、ある。薬剤の 有効性を評価する研究を行なった際、有意な結果が得られなかった研究の結果は投稿されにくく、投稿 されたとしても受理されにくし、傾向がある。そのため、公表されている複数の独立な研究結果にのみ基づ いてメタ・アナリシスを行なうと、結果が有意な方向に偏る。この偏りが公表ノ〈イアスで、あり、メタ・アナリシ スを行なう際には公表バイアスの影響について検討する必要がある。そこで¥本論文では、れmnelプロット に基づき公表バイアスの影響を評価する t r i m ‑ a n d ‑ f i 1 1法の SASマクロを作成した。 2 .funnelプロット 公表バイアスを視覚的に検討する方法として f u n n e lフ。ロットと呼ばれる散布図が用いられる。れmnelプロ ットとは、 横軸.オッズ比、ハザード、比などの効果の推定値 圃 縦軸:効果の推定値の推定精度(標本サイズまたは推定値の標準誤差の逆数) として、メタ・アナリシスの対象としている各研究の結果をプロットしたもので、ある。標本サイズが大きいと推 定値のばらつきは小さく、真の効果に近くなる。一方、標本サイズ、が小さいときは、公表ノ〈イアスが存在し なければ真の効果を中心に左右対称にばらつくため、全体としてお nnelプロットは漏斗 (funneI)を逆さまに したような左右対称形になる。 ・ υ 内叫 i ウ nペU
••. ••. ••. ••. ••. ••. 果 効 効果 ︑ J‑‑‑F ‑・ ‑ ・ 2 ・ ・ 4 ‑ ‑ ‑ ﹁ ‑‑‑ ‑‑‑ ‑ ‑‑ ‑ ‑‑ ‑‑ ‑ ﹄ • • •• ‑ ‑ ‑ ‑. ‑ ‑ . . ︐ ‑‑‑‑‑ ‑‑‑ E ・‑‑ • • • • •• I‑‑Ill‑‑11 F L h v 標本サイズ ‑ ・ ・ . ・ . ・ 標本サイズ t . i i ! ? i ! t 1 . 3 : .1 次の図 l 、2は横軸を対照群に対する薬剤群のハザード比としたれm n e lプロットで、ある(中央より右は薬 剤効果なし、左は薬剤効果あり)。 図2 :公表バイアスあり 図 1:公表ノくイアスなし 図 lのれm n e lフ。ロットは左右対称に近いため、公表ノくイアスは見られなし、と半Ij断できるが、図 2の白 n n e l プロットは右側の点が欠け(点線で囲んだ部分)、左右非対称になっている。つまり、ネガティフ。な結果と なった研究が公表されていないと考えられる。したがって、公表ノくイアスの影響が懸念される。 3 .t r i m ‑ a n d ‑ f i l l: 5 去 t r i m ‑ a n d ‑ f i l l法とは公表ノくイアスが存在しなければ白 n n e lプロットが左右対称になるとし、う特性を前提と している。白 n n e lフ。ロットを左右対称にするために必要な未公表研究の数を D u v a la n dT w e e d i e法により 計算し、仮想的に左右対称になるように研究を追加することにより、公表バイアスの影響を除いた上でメ n e lプロットが対称形に タ・アナリシスによって統合した効果を推定しなおすことがで、きる。具体的には、白 n t r i m )して未公表研究数を推定し、推定された研究数だけれm n e l プロットが なるまで、繰り返し研究を削除 ( 1)して未公表の研究の点と見なす(im p u t e )方法で、ある。 左右対称になるように配置(日1 3 .1 .DuvalandTweedie: 5 去 この方法は、白 n n e l フ。ロットから未公表研究数を推定する方法で、ある。ここで、手)11買の説明のために以 下のような仮定を設ける。 メタ・アナリシスの解析対象として K個の研究を収集した時、 f u n n e lフ。ロットの右端の点よりん個の研究 が未公表となってしも(公表バイアスが存在する)とする。また、各研究の効果の推定値を θ lとし、真の効 果 θが既知であるとする。 このとき、 Yi =θtθ とおき、絶対値 ! Y i !の順位を円とし、次の 2つの統計量を定義する。 • • γ y, が負かつ最大の順位 K まで、連なっている連の長さ i > T : L K= (符号付 W i l c o x o n順位和) u v a la n dT w e e d i eにより この 2つの統計量を利用した未公表研究数 k。の推定量として以下の 3つが D 提案されている。 R o= y‑1 ム一生二些+ 1 ) ‑ 2K‑1 u 十ふん九 + j Q o= K なお、これらは研究数の推定量なので最も近い整数に丸める必要がある。 ‑380一
※これらの導出については参考文献 [ 3 J参照。 ※ 3つの統計量のどの値を用いるかについては、 k 。が Kの 2 5 %以上と想定される場合にはん、そうで 3 J参照) なければ R。を用いることが推奨されている。(参考文献 [ また、 f u n n e lフ。ロットの左方向がネガティブな結果で、ある場合には ・ γ y, が正かつ最大の順位 Kまで、連なっている連の長さ ・九 = L > , ( 符号付 W i l c o x o n順位和) , ' ¥> 0 と変更する。 3 .2 .t r i m ‑ a n d ‑ f i l l法のアルゴリズム t r i m ‑ a n d日1法は前述したように D u v a la n dT w e e d i e法を用いて、「左右対称、なお n n e lプロット」を仮想的 に再生する方法である。 D u v a la n dT w e e d i e 法では真の効果 θを既知と仮定しているため、漸近的一致 性が成り立つ。しかし、現実には真の効果とし、うものは未知の値である。そこで、 t r i m ‑ a n d ‑印 法 で は 変 量 効果モデ、ルで、ある D e r S i m o n i a n ‑ L a i r d法により推定した統合効果を真の効果の推定値として用い、反復 収束法を適用する。アルゴ、リズ ムは次のようになる。 S 白t e 叩p1 . 初期推定f 値 直 6ι(1 り ) を D巴町r 而市 S i r m 日o n i a n一L a i r d法により推定し、 万 y(1り)ニ伐一 θ ダ(1り ) 吃 と し 、 Du 山v a la n dTwe巴d i e 法によりれ 1)を推定する。、 k oが Kの 2 5 %以上と想定される場合には L。、そうで、なければ R。を k 。として本マクロで、は用いる。 S t e p2 .f u n n e lフ。ロットの最左端の方に位置する点から k J 1 )個の点を除く ( t r i m )。残りの点から同様に θ(2) を推定し、 y J2}=d d ( 2 )とおいて k J 2 }を推定する。 S t e p3 . 同様の作業を e (.1ー1) = e (.I)となるまで、繰り返す。つまり、と.1) =0となった時点で、終了となる。最 終的に除かれた点の総数を A L Z L i t ( j ) )とおく。 S t e p4 . 左端の最大値からん個のデータを。 (.1)の回りに左右対称に配置(日 I I)して、対称な f u n n e lフ。ロット を再生する。推定誤差の値は対称、なデータと同じ値を採用する。 S t e p5 . 再生された K+k 。個のデータに基づいて統合効果を推定しなおす。 4 .trim‑and‑刑法の SASマクロの作成 4 .1 .プログラムの作成方針 4 . 2節で示したように、 t r i m ‑ a n d ‑ f i l l法は「統合効果を D e r S i m o n i a n ‑ L a i r d法で推定=キ未公表研究数を 推定し、点を削除司統合効果を D e r S i m o n i a n ‑ L a i r d法で推定=キ・・・・」としづ作業を反復しなればならない。 したがって、 SASにより t r i m ‑ a n d一 日I法を実行するためには複数のプ口、ンジャを 1つのまとまりとして登録し、 反復するマクロを作成する必要がある。 t r i m ‑ a n d日1 法では解析対象となる研究数が逐次的に変化する が、本マクロで、はこの履歴が追えるように、各段階ご、とに異なったデータセット名を与えた。また、各段階 での結果を f u n n e lプロットとして図示した 次節で、作成したプログラムを示し、解説する。 G 4 .2 .SASマクロを用いた t r i m ‑ a n d ‑ f i l lアルゴリズム プログラムの構造を示す。 t r i m ‑ a n d 日Iアルゴリズムをマクロ(マクロ名 : T a n d F )として定義する。さらにマ クロ TandFの内部に D e r S i m o n i a n一L a i r d法をマクロ(マクロ名 :DSL)として定義する。なお、もう lつマクロ (マクロ名:n a m e s )を定義するが、このマクロは S t e p3( 3 . 2節)での最終的に取り除かれた点を計算するた めである。 1i o o qぺU
入力データセットの変数は ・各 研 究 の 効 果 ( ハ ザ ー ド 比 ) の 推 定 値 の 対 数 を と っ た も の . 各研究の効果の推定値の対数をとったものの分散 つ を 含 み 、 そ れ ぞ れ の 変 数 名 は logHRiと VlogHRiと固定する。 の2 以下に、 trim‑and一 日Iアルゴ、リズ、ムのプロク守ラムを示す。 1 * * * * * * * * * * * * * * *TrimandF i l l;去のマクロ * * * * * * * * * * * * * * * 1 *ー一一変数の説明ー * ; *N 研究数; *i 入力データセット N o . (初期入力データセットを 1番とする。); *i n p u t 入力データセット名; *HRi 各研究での効果の推定値(本論文ではハザード比); *HRdl :D e r S i m o n i a n ‑ L a i r d;去により統合効果の推定値(本論文ではハザード比); *なお、入力データセットの変数は ( l o g H R i.V l o g H R i ) ; 1 * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 1 もr nacro TandF(N, input); ①マクロ T andFを 定 義 し 、 内 部 に マ ク もdo i=l 宅to 品N ; ロ DSLを定義する。 , もmacro DSL(input i ); data 品input品工 ;set 品input品i;dummy 1; data weight;set &input&i;dummy=l; ハ 一 一 漸 近 分 散j 去に基づく均質性の統計量 (Ql)を計算 ‑‑‑‑*1 士 /ι 一一一各研究の重み(旧)を計算ーーリ wi=l/(VlogHR工); wlogHR工=wi*logHRi; proc summary;var wi wlogHRi;output out=sumweight sum=; /*一一一一漸近分散 j 去に基づく統合ハザード比 (HR)の 推 定 一 一 り data HR; set sumweight; logHR=wユogHRi/wi; HR=exp(logHR); data cul;set HR;dummy=l; logHRv=logHR; keep logHRv dummy; data cul;merge weight cuユ ;by dun官官 y; /合一一漸近分散法に基づく均質性の検定一一一‑*/ data Ql;set cul; ql=wi*(logHRi‑logHRv) *2; proc summary; var ql dummy;output out=outQl sum=Ql k ; 合 1*一一変量モデルに基づく統合ハザード比の推定 り data DSL;set weight; wi2=wi *2; proc summary;var wi wi2;output out=sumweight2 sum=w w2; ハ一一研究開のバラツキの大きさ (tau2)の推定 合/ data tau2;merge outQl sumweight2; tau2 (Ql‑(k‑1))/(w‑(w2)/凶); if tau2> o then tau2=tau2; else tau2ニ 0; data cul;set tau2;dummy=1; ハ一一各研究の重み(凶工 DSL) 一一世/ data wiDSL;merge &input品i cul;by dummy; wiDSL=1/(VlogHRi+tau2);keep wiDSL dummy; ハーー統合ハザード比 (HRDSL) リ data HRDSL;merge &input品i wiDSL;by dummy; wlogHR=wiDSL logHRi; proc summary; var wlogHR wiDSL; output out=sumHRDSL sum=wlogHR wDSL; data HRDSL;dummy=l;set sumHRDSL; 合 ニ ニ 合 ‑ 3 8 2
logHRDSL=wlogHR/wDSL; HRdl=exp(logHRDSL); 5 ); CIU=exp(10g(HRdl)‑1.96*(1/wDSL)安 企 . CIL=exp(10g(HRdl)+1.96*(1/wDSL) *.5); call symput('HRdl', HRdl); L " " " proc print data=HRDSL;run; 出 ② D巴rSimonian‑ Laird法 による統合効果 (HRdl ) の 推定結果 安 / 安 funnel plotの 作 成 一 一 り data funnel;merge &input&i HRDSL;by dummy; se=sqrt(VlogHRi); se2=1/se; HRi=exp(logHRi); if 1く = nー く ニ 14 then dummy=l dummy; else dummy=dummy 2; data funnel;set funnel; titlel h=5 c=blue f=swissb 'funnel plot'; axisl label=(f=swissb h=4 a=90 'l/Standard error'); axis2 label=(f=swissb h=4 'Hazard ratio') order=0.3 to 1.4 by 0.1; legendl label=none value=(h=3 c=black); proc print data=funnel;run; proc format; value dummy l='original data' 2='imputed data'; runi proc gplot data funnel; plot se2勺 lRi=dummy/href=&HRdl ③ funn巴l プロット上に統合効果の推定 href=l LH=(2) ト ¥ 0 frame ‑ 値を点線で表示。 legend=legendl vaxis=axisl haxis=axis2; format dummy dummy.; S卵 白 0 11 v=dot h=3; ④マクロ DSLの定義終了と呼び出し。 symbo12 v=circle h=3; doループで、 i ニ lからとしているので、初期 もmend D SL; I ~ 入力データセットCi nputdatal)から入力 もDSL(&input, &i}; ト百 /合一一一一 tirm and fillアルゴリズム 安/ data dsyi;merge HRDSL funnel;by dummy; data dsyi; set dsyi; yi=HRi‑HRdl; y=abs(yi); proc rank data=dsyi out=rankdata; var y; ranks wscore; /* 一 Duval and Tweedie法による ROの計算 ‑‑*/ 合 女 ,̲ ニ data stepRl;set rankdata; if yi>O then wscore=l*wscore; else wscore=‑l*wscore; data stepR2;set stepRl; keep wscore; proc transpose data=stepR2 out=stepR3; proc means data=stepR2; var wscorei output out=stepR2 min=min max=max; data dsRO;set stepR2; gamma=‑l安 (min+max); RO=gamma‑1; /九ーー Duval and Tweedie} 去による LOの計算一一‑‑*/ data stepLl;set rankdata; if yi>O then Tk=O wscore; else Tk=工*wscorei proc summary ;var Tk dummy;output out stepL2 sum=Tk K; data dsLO;set stepL2; LO=(4安 Tk‑K*(K+1))/(2*K‑1); Lニ int(LO); 工f abs(LO‑L)く=0.5 then L=L; 合 士 3 8 3
else L=L+1; Duval and Tweedユe~,去による QO の計算 data dsQO;set stepL2; QO=K‑1/2‑sqrt(2 (K**2)‑4*Tk+1/4); / 合 ー 合/ ⑤ if~then goto文によ 合 /*ー‑‑ kOの決定 * / シ⑤ data dsk&i;merge dsRO dsLO; 工f L/K>=O.25 then ca ユ symput( 'kO', L ); kO , ・RO); else caユ 5戸nput(, data dsk&i;set dskιi; /、¥ kO=&kO; もif &kO=O もthen もgotolout;) proc print data=dsk&i; , '" 、ー/ proc sort data=inputdasa~í;by ユ ogHRi; /*‑‑‑‑ kO個の点を削除」主主:im) 一一一‑*/ 1= ‑ data &inputもeval,(.;;'工 +1);merge &input&i dsk&i; (~ノ 工f 1 く = 乍 。 ιkO then delete; , Je邑p dummy logHRi VユogHRi; ) … Z主 品 弘 之 直 f り 、 koが 0 となった時 点 で do ル ー プ か ら 脱 出 。 ⑥ ko個 だ け 研 究 を 削 除し、入力データセッ トを逐次的に更新す る ロ 也コ ut: . l , もmacro names(name number); もdo n=l もto &number; &name&n もend; もmend names; data dsk; set もnames(dsk,品 i ); keep kO; ハ一一最終的に取り除かれた点の総数 */ proc means dataニ dsk; var kO; output out=dsk sum=sumkO; data dsk;dummy=l;set dsk; proc print data=dsk; /合一一未公表論文の imputed vaユueのハザード比を計算一一り ユ ; もlet i= data impute;merge &input&i dsk;by dummy; if 0く= n く=sumkO; keep dummy ユogHRi vユogHRi; data impute2;set impute; HRi=exp(ユogHRi); data impute3;merge HRDSL impute2;by dummy; x=HRdユ HRi; HRi=x+HRdユ ; logHRi=log(HRi); keep HRi ユogHRi VユogHRi dummy; /*一一一一未公表論文を再生したデータセット(口ユ ldata)の作成ー‑‑*/ data filユdata;set &input品 i impute3; keep ユogHRi VユogHR工 dummy; /*一一統合ハザード比を推定し直すために再生したデータセット (fiユldata)をマクロ DSLに入力 もDSL(fiユ data); 寸府、 もmend__T~~dF; , i~ もTan dF( 14 inputdata); j proc print;run; . . J I ⑦マクロ TandFの定義終了。 I I I解析対象の研究数と入力データセット名を指 定し、マクロ TandFを呼び出す。 */ 必 ハ1 ηべU 00
5 .プログラムの実行例 解析対象究数が 1 4研究、効果指標がハザード比であるデータセット(データセット名 : i n p u t d a t a 1 )に対 して、 t r i m ‑ a n d ‑ f i l l法の SASマクロを実行した プログラムを実行するには、 4 . 2節の⑦で示したように研 究数と入力データセット名をマクロ TandFにおいて指定すればよい。 5 .1 .入力データセット 次の表 1(こ示す初期入力データセット(in p u t d a t a 1 )を用いて、 4 . 2節の SASマクロを実行する 表 1:初期入力データセット(in p u t d a t a 1 ) O O OBS 1 2 3 logHRi ' 0 . 9 8 7 4 7 ' 0 . 9 0 9 0 3 ‑ 0. 43617 VlogHRi 0.08537 0.19206 0 . 0 1 1 0 3 1 4 0 . 1 1 1 7 1 0 . 1 1 1 4 2 このデータセットにおいて l o g H R iが小さしものから各反復段階で推定された k 。個だけ、逐次的にデー タが削除される。 5.2.結果の出力 各反復段階ごとの結果の出力を示す。 ( 1 ) 1 4研究での結果 データセット HRDSL(統合ハザード比の推定結果) ̲FREQ̲ logHRDSL HRdl dummy OBS CIU CIL l 0 . 1 8 6 2 0 0 . 8 3 0 1 1 0 . 7 4 3 2 2 0 . 9 2 7 1 7 1 4 ・ ‑ データセット d s k 1 ( k。の推定値) OBS ••• ̲FREQ̲ 1 4 • R O LO ‑ 0 . 2 2 2 2 2 1 4研究での f u n n e lフ。ロット ‑ @285窃 1F M 円 u a v ' h J u a e ﹄ O ヒ ︒ 今 1111!!lLPIlli‑‑tlil‑‑!l 1 1 1 0 • •• • 2 O .3 0 . 40 . 5O .6 0 . 7O .8 O .9 1 .0 1 .1 1 .2 1 .3 14 目 Ha 圃甘同世。 . . . or !l i n a ld a t a 図3 :1 4研究での f u n n e lプロット k O F h υ o o nぺU
( 2 ) 1 4研究から 1研究除いた 1 3研究での結果 デ 、 ー タ セ ッ ト H R D S L • ̲FREQ̲ dummy OBS 1 3 • logHRDSL HRdl CIU CIL . 7 7 2 8 6 0 . 9 3 7 2 9 0 . 1 6 1 2 1 0 . 8 5 1 1 2 0 デ、ータセット d s k 2 。 FREQ 1 3 OBS RO LO ‑ 0. 4 。 k O ※ k oが 0と推定されたので、反復終了となる。 • 1 3研究での f u n n e lプロット 1 1 . 1 0 旨 • I . 4 I • O .3 0 . 4O .5 O .6 O .7 O .8 O .9 1 .0 1 .1 1 .2 1 .3 1 .4 Haz国世間目。 . . . o r l r i国 1d . t a 図4 :1 3研究での f u n n e lプロット ( 3 ) 1 4研究に 1研究追加した 1 5研究での結果 • データセット HRDSL OBS dummy ̲FREQ logHRDSL HRdl CIU CIL 1 5 0 . 1 7 2 9 4 0 . 8 4 1 1 9 0 . 7 5 2 6 3 0 . 9 4 0 1 7 ‑ 再生された 1 5研究での f u n n e lプロット . 1 1 1 0 ﹄ aukJuaaマ O@285ah ︒ ︒ 守 ︐ ヒ 一 . 2 . . .。 斗 O .3 O .4 O .5 O .6 O .7 O .8 O .9 1 .0 1 .1 1 .2 1 .3 1 .4 Haz潤‑d岡目。 ・ 図5 :再生された 1 5研究での f u n n e lフ。ロット . . . o r l g l n a l dah"o 1 . 皿 ,t 剖 d a t . 386‑
5.3.結果のまとめ 表 lに t r i m ‑ a n d ‑ f i l l法を適用した結果をまとめる。 表 1 :t r i m ‑ a n d ‑ f i J J法の結果 研究数 │ ハザード比 K=14 K=13 K=12 I 9 5 %信頼区間 0.743~0.927 0 . 8 3 0 0 . 8 5 1 0 . 8 4 1 0.773~0.937 0.753~0.940 未公表研究数は l研究と推定された。再生する前の 1 4研究で、の統合ノ¥ザード比が 0 . 8 3 0で、あったの に対して、再生された 1 5研究で、の統合ノ、ザード、比を推定しなおすと 0 . 8 4 1修正されたが違いは大きくな い。この結果から、今回対象としたデータは公表バイアスの影響が小さく、また公表バイアスの影響を考 慮、しても統合効果の推定値はほとんど影響を受けないとし、える。 6 .まとめ t r i m ‑ a n d ‑ f i l l法は公表バイアスの有無のみならず、バイアスの影響を調整した上で統合効果を推定しな おすことにより公表バイアスの影響を評価で、きる。 t r i m ‑ a n d ‑ f i l l法は反復作業を行なうので, SASマクロに . 2節⑦に示したように研究数と入力データセット名の指定の よりプログ ラムを作成した。本マクロで、は、 4 み行なうことにより、メタ・アナリシスの解析対象に対して公表バイアスを評価することができる。また、今回 はメタ・アナリシスの効果指標としてハザード、比を対象としたが、入力データセットで、効果の指標をオッズ 比等に変更することにより、他の指標を用いたメタ・アナリシスにおける公表バイアスの評価も可能であ る 。 【参考文献】 [ 1 ] 丹後 敏郎、 2002 メタ・アナリシス入門" 朝倉出版. [ 2 ]SueDuvalandRichard引;ve e d i e ., 2000 "Tri m ‑ a n d ‑ f i l l : ASimpleFunnel‑P l o t ‑BasedMethod o f T e s t i n gandAdjustingf o rP u b l i c a t i o nB i a si nMeta‑Analysis" B i o m e t r i c s, 56, p p . 4 5 5 ‑ 4 6 3 ¥ 刊e d i e ., 2000 ANonparametric τhmandF i l l " Methodo f [ 3 ]SueDuvalandRichard1 ‑Analysis" Journal o fArne r i c a nS t a t i s t i c a l Accounting f o rP u b l i c a t i o n Bias i n Meta A s s o c i a t i o n,Vo. 195,No. 499,p p . 8 9・97 [ 4 ] 松村智恵子・余回昭夫・田崎武信、 2001 " t i r m ‑ a n d ‑ f i l l法によって公表ノくイアスを探る" 癌臨床研究・生物統計誌 Vo . 121, No.1, July2001,p p . 2 5 ‑ 3 8 、 1 993 [ 5 ] 竹内啓 監修、市川伸一・大橋靖雄・岸本淳一・浜田知久馬 著 SASによるデータ解析入門[第 2版]." 東京大学出版会. ヴ{ oD qu
ポスターセッション 統計教育
日本 SASユーザー会 (SUG1‑0) 看護系大学における疲学園生物統計学教育の実態調査 田中司朗 東京大学医学系研究科生物統計学 Researchone d u c a t i o no fE p i d e m i o l o g yandB i o s t a t i s t i c s S h i r oTanaka B i o s t a t i s t i c s,Schoolo fH e a l t hSciencesandN u r s i n g,U n i v e r s i t yo fT o k y o . 要 旨 看護系大学における疫学・生物統計学教育の実態について、国公立大学 62 校及び私立 大学 27校を対象 l こ、自記式調査票を用いて調査を行った。調査の目的は、担当教官の 背景・教官が授業を行ってして上で問題と感じている点・講義と実習の内容を把握し、教官の背景と 抱えている問題点の関連性を検討する事とした。対象校 89校のうち 50校から 61通の回答が得られ、 担当教官の専門分野や所属学会などの背景、抱えている問題点、講義・実習・卒業論文指導の内 容などが明らかになった。特に、疫学・生物統計学を専門としている教官が講義している大学は少な く、工学部・薬学部・理学部数学科なとoの他学部所属の教官に頼ってしも事や教科書に対する要望 が強し、事、学生に学ぶ意欲や数学とパソコン・情報処理の能力が足りないと感じている教官が多い 事が示された。 キーワード: 疫学、生物統計学、教育、調査票 1 . はじめに 疫学は特定の集団における健康に関連する状況あるいは事象の、分布あるいは規定因子に関す る研究を行う学問であり、生物統計学は医学研究におけるデータの取り方、解釈の方法などを考え る応用統計学である。質の高い医療を提供するために科学的根拠を医療現場で、有効に活用するエ ビデンスに基づく医療 (EBM)が注目を浴びている。看護課程の学部学生にとっても EBM を実践す るために論文や統計資料を読み解く機会が増えており、疫学・生物統計学を学ぶ事が重要となって きている。 看護系の専門学校及び大学のカリキュラムは基礎分野、専門基礎分野、専門分野に分類され、 指導要領の上では疫学・生物統計学に関する授業は一般教養に該当する基礎分野に位置づけら れる。これは 1997年の大学・専門大学看護課程におけるカリキュラム及び看護師国家試験出題基 準によるものである。保健師の指導要領では疫学・保健統計としづ名で必修とされている。疫学・生 物統計学は看護師国家試験にはあまり出題されていないなど、カリキュラム上、大きく取り上げられ ていないのが現状である。 nud 1i つd
一般に、統計学を教える教官の不足は以前からも指摘されており、全大学の学部教育における統 計学の教員数は 0.5%にすぎず、統計学の学部教育は統計学を専門としない教官に依存している といわれている。しかし疫学・生物統計学の学部教育を対象とした研究はほとんどなされておらず、 文献などから実態を把握する事も難しい。大きく取り上げられていなし、 c 2 . 目的 本研究では看護系大学における疫学・生物統計学教育の実態を把握するため、自記式調査票を 用いて調査を行う。目的は、疫学・生物統計学の授業を担当する教官の背景、教官が授業を行って いく上での問題と感じている点、看護系大学においての疫学・生物統計学の講義・実習の内容を把 握し、教官の背景と抱えている問題点に関連があるかどうかを検討することとする。 3 .対象 看護系の教育課程を持つ国公立大学 62校及び私立大学 27校(計 89校)の疫学・生物統計学の 授業を担当している教官を調査対象とした。各大学のシラパスやホームページなどから担当教官を あらかじめ調べ、原則として疫学・生物統計学担当の教官を調査したc 4 .方法 調査計画書に基づき 2002年 7月下旬に調査票 3部と調査を依頼する手紙及び返送用の封筒・切 手を、対象校の疫学・生物統計学担当の教官宛に郵送により送付した。教官名が不明な場合は学 科長(若しくは学部長)宛とした。調査票を 3部送ったのは一つの大学に複数の担当教官がし、る事も 考えられたためである。発送締め切り期日は 8月 31日とし、返送されてこなかった大学には電話で再 度依頼した。集計後、調査票を回収できた教官には結果を報告書にまとめ 12月下旬に送付したc 調査には表紙を含め A4用 紙 11枚 、 33項目からなる自記式調査票を用いた。調査票の表紙には 依頼文を載せ、フ。ライパシーは守る事、調査結果は報告書にまとめてフィードパックする事、連絡先 を明記した。質問項目の内容については表 1{こ示す。 表 1、詞査票の質問項目 問 1 教官の背景(現在の所属、学位と最終学歴、専門分野、所属学会) 問2 疫学・生物統計学教育についての考え方(どのような状況で必要になるか) 問3 教官が授業を行う上で問題と感じている点(教材、設備、教官、生徒など) 問4 講義内容(カリキュラム上の位置付け、教科書や統計パッケージ、扱う分野) 問 5 実習内容(カリキュラム上の位置付け、教科書や統計 Jやyケージ、扱う分野) 問 6 卒業論文指導の内容(指導形態、参考書や統計 I~ッケージ、扱う内容やテーマ) ‑392‑
5 .結果 5 .1.回収状況 校のうち 50 校から 6 1通の回答が得られた。回答数が対象校の数より大きいのは複数 対 象 校 89 50/89)であった。回収できた大 の教官が回答してきた大学があったためで、ある。回収率は 56%( 学とで、きなかった大学剖こ地域差や国公立・私立の割合の差は見られなかった c 5 . 2 .担当教官の背景 2人 (20%)、公 担当教官の専門分野を表 2に示す。疫学・生物統計学を専門としてしも教官は 1 0人(17%)、看護学の他の分野を専門としてしも教官は 13人 衆衛生学を専門としている教官は 1 (22%)で、あった。他学部からの教官は 18人 ( 3 1%)であり、他学部における統計(数理統計、確率 論、経済統計)、工学部、薬学部出身で医療情報、心理学を専門とする教官がみられたc また、所属学会については表 3 のとおりである。看護に関する学会は 2 0人 (33%)の教官が所属し 4人 (23%)、日本看護研究学会 16人 (26%)が主で、あった。疫学・公 ており、日本看護科学学会 1 人 (66%)の教官が所属しており、日本疫学会 1 8人 (30%)、日本公 衆衛生学に関する学会には40 9人 (64%)が主で、あった。統計に関する学会に所属してしも教官は 1 1人 (18%)と少 衆衛生学会 3 8人 (30%)が所属しており、医療情報学会 14人 (23%)が主で なかった。情報に関する学会には 1 人( 1 1%)と少なかった。 あった。心理に関する学会に所属してしも教官は 7 また、看護学生にとって今後どのような状況で、疫学・生物統計学が必要になると考えられているか 2人 を教官に質問した結果、ほとんどの教官が疫学・生物統計学を教える必要があると答え、しカも 5 (85%)と多くの教官が学生に十分身についていなしせ回答した。 表 3、担当教官の所属学会 ( Nニ 5 1) 看護に関する学会 2 0 ( 33 % ) 3 ( 5 % ) 日本看護学会 1 4 ( 2 3目 ) 日本看護科学学会 2 6目 ) 日本看護研究学会 1 6 ( 3 ( その他 5 % ) 疫学・公衆衛生に関係する学会 4 0 ( 6 6 % ) 1 8 ( 3 0 % ) 日本疫学会 3 9 ( 6 4月 ) 日本公衆衛生学会 1 4 ( 2 3目 ) その他 1 8月 ) 統計に関する学会 1 1 ( 7( 1 1目 ) 日本統計学会 3 ( 5目 ) 応用統計学会 6 ( 1 0目 ) 計量生物学会 5 ( 8 % ) 行動計量学会 ( 3目 ) その他 情報に関する学会 1 8 ( 3 0目 ) 1 4 ( 2 3月 ) 医療情報学会 その他 9( 1 5月 ) 1 1% ) 心理学に関する学会 7 ( 4 ( 7目 ) 日本心理学会 1 0目 ) その他 6( ) 表 2、担当教官の専門分野 (N=51 6 9 % ) 4 0 ( 看護学部 ( 3目 ) 疫学と生物統計学の両方 1 2目 ) 7 ( 疫学 ( 5目 ) 生物統計学 1 7 % ) 1 0 ( 公衆衛生学 2 2 % ) 1 3 ( 看護学科のその他の分野 ( 9 % ) 看護学(専門は不明) 3 1目 ) 1 8 ( 他学部 ( 5目 ) 数理統計または確率論 ( 2目 ) 経済統計 7 % ) 4 ( 工学系、薬学系の医療情報 ( 2 % ) 薬学部のその他の分野 ( 5月 ) 工学部のその他の分野 5目 ) 3 ( 数学科の統計以外の分野 ( 2月 ) 農学 ( 3目 ) 心理学 無回答 ぺ n υ 円 Hu nぺU
5.3. 教官が授業を行ってして上で問題と感じている点 教官の感じている問題点を、表 4のように質問項目に対し問題意識をもっていると答えた教官数で 示す。ここで、は 60%以上の教官が問題意識をもっていたものを取り挙げる。 教材については 39人 (65%)の教官が「調査・統計実習に適した教材が少なしリと回答した。設備 について問題で、あると回答した教官は少なかった。教官・スタッフの人数に関しては 46人 (75%)の 教官が「チューターなど授業を手伝ってくれるスタッフの人数が不足している」と回答した。学生につ いて「学生の疫学・(生物)統計学を学ぶ意欲が足りなしリ 40人 (67%)、「学生に授業を行う上で前 提となる知識・能力が足りなしリ 47人 (78%)品、った回答があり、学生に足りない能力として「数学」 45人 (74%)、「パソコン・情報処理 j23人 (38%)が挙げられた。また、教官については 37人 (6 2%)の教官が「教官自身にもっと学ばなければならない分野がある」と回答し、教官自身に足りない 「 ノ fソコン・情報処理Jl4人 (23%)、「調査 能力としては「数学Jl7人 (28%)、「医学Jl2人 (20%)、 や研究の実践 j21人 (34%)が挙げられた。また、自由回答では、「看護に関する実例を挙げた教科 書がないJl9人 (31%)、「統計学の重要性を知らない教官が多い j5人 (8%)としづ意見があった。 表4、担当教官が授業を行う上で感じている問題点 (N=61) 教材について 39 ( 6 5 % ) 調査・統計実習に適した教材が少ない 35 ( 5 8 % ) 問題集のようなものが少ない 外国の良い教科書がなかなか翻訳されない ) 23 ( 3 9九 34 ( 5 6 % ) 内容(難度・分野など)の適切な教科書がない 設備について 8 ( 1 3 % ) パソコンやインターネットなどの設備の不足 学生が使用できるような統計ソフトの不足 ) 1 5 ( 2 6九 9 ( 1 5 % ) 文献を草J I用する環境が整っていない 9 ( 1 5 % ) 液晶プロジェクターや O H Pなど映像関係の設備の不足 教官・スタッフの人数について 32 ( 5 2 % ) 担当教官の人数の不足 46 ( 7 5 % ) 授業を手伝ってくれるスタッフの人数の不足 学生の疫学・生物統計学を学ぶ意欲が足りない 40 ( 6 7 % ) 47 ( 7 8 % ) 学生に前提となる知識・能力が足りない 6 ( 1 0 % ) ・語学牢 ‑数学牢 45 ( 7 4 % ) ・医学牢 1 0 ( 1 6 % ) 23 ( 3 8 % ) ・パソコン・情報処理牢 教官について ) 4 0九 担当教官の聞で意見交換ができる場がない 24 ( 4 3 % ) どういった分野・難度まで教えればよいのか分からない 26 ( 6 2 % ) ご自身にもっと学ばなければならない分野がある 37 ( ・語学牢 4 (7%) 2 8 % ) ・数学宇 1 7 ( ・医学牢 1 2 ( 2 0 % ) 2 3 % ) ・パソコン・情報処理牢 1 4 ( ・調査や研究の実践宇 2 1 ( 3 4 % ) *この分野について知識・能力が足りないと思うと回答した教官散を挙げた。 nHu n︿U A ω ‑
5.4.看護系大学においての疫学・生物統計学の講義・実習の内容 疫学・生物統計学講義の必修・選択と実習の有無、講義時間を表 5に示した。複数の授業がある 場合の講義時間は、時聞が長いものをその大学の講義時間とした。ほとんどの大学で疫学・生物統 計学の講義が必修となっており、その講義時間は 90分の講義が週 1回で 15週前後、すなわち 135 5 1%)と多かった。実習に関しては 31校 (62%)の大 0分前後の講義が組まれている大学が 23校 ( 学で行われていた。 用いられてしも教科書・統計ノミッケージを表 6に示した。教科書を用いていた大学は 30 校あった C 特によく使われている教科書はなかった。複数の大学で使われていた教科書・教材を挙げると、南 山堂「保健統計・疫学」、南江堂「疫学基礎から学ぶために」、医学書院「ナースのための疫学」、厚 生統計協会「厚生統計テキストブ'/ク」がそれぞ、れ 2校ずつで、用いられていた。また 17校 (36%)で 講義がプリントのみによって行われていた。統計ノ fッケージは SPSSが多く 21校 (42%)で用いられ ていた。 表 5、授業の必修・選択、講義時間 (N=50) 必修・選択と実習の有無 4 4 ( 8 8 % ) 必修の講義あり 6 ( 1 2 % ) なし 3 1 ( 6 2 % ) 実習あり 2 4 ( 7 7 % ) 必修の実習あり 7 ( 2 3 % ) なし n x u 1J ︑ ︑1J︑1J UAUAUA 'lRuqu ( (( t l・ 噌 tL 噌 ︒ 凸 qua斗 Fhd n J ι 噌tL 講義時間 2 7 0分から 1 3 5 0分 1 3 5 0分 1 3 5 0分から 4 0 5 0分 無回答 表 6、教材・統計パッケージ (N=50) 教材 教科書を用いている 3 0 ( 6 4 % ) プリントのみ 1 7 ( 36 % ) 無回答 3 統計パッケージ sp SS 2 1 ( 4 2 % ) HALBOU 5 ( 1 0 % ) j MP 4 ST A T V IEW SA S 2 2 ( 8 % ) ( 4 % ) ( 4 % ) 講義・実習の分野に関しては「疫学」と「生物統計学」など講義が分かれている事も考えられるため、 2 .統計における基 その大学の授業全体で網羅できている分野にまとめて集計し、表 7に示した。 1 本概念」に含めた分野や、 1 4 .統計解析」のうちの基本的な分野に関しては 90%前後の大学で講 1.疫学における基本概念」や 1 3 .医学・疫学研究デザイン」に含めた分野について 義していたが、 1 4 .統計解析」のうちメタアナリシスや生存時間解析に触れている大学は は 70%前後となっていた。 1 約 30%と少なかった 表には示していないが、実習で触れてしも分野については「メールやワープ C E x c e lなどの表計算ソフト j26校 (93%)、「統計ソフ ロなどパソコンの基本的な使用 j21校 (78%)、I 校 (77%)の割合が大きかった。 トを用いた統計処理 j25校 (89%)、「実際のデータ解析 j20 ‑395‑
表 7、講義のなかで触れられている分野 (Nニ 50) 触れない ( 9 8 % ) ( 8 3 % ) ( 8 9 % ) ( 9 8 % ) ) ( 9 6弘 ( 9 8弘 ) 斗 ・ 斗 ・ LqJnJqJqJqJqJRJVFhuFhuRunJRU 内 斗 ・ ( 9 8九 ) ( 1 0 0 % ) ( 1 0 0 % ) ( 7 4 % ) ( 8 9 % ) ( 8 1 % ) ( 9 4 % ) ( 6 9 % ) ( 5 3 % ) ( 5 1% ) ( 6 0 % ) ( 3 0 % ) ) ( 3 1% quququnJ ( 8 1% ) ( 8 1% ) ( 6 8 % ) ( 6 4 % ) ヲ﹄ q u q u ? ﹄ quηJ 斗 ・ ( 0 % ) ( 0 % ) ( 2 6 % ) ( 1 1% ) ( 2 1% ) ( 4九 ) ( 3 6 % ) ( 4 9 % ) ( 4 9 % ) ) ( 4 4九 ( 6 6出 ) ( 6 9 % ) 斗 ・ 41414lqLqLqLququ 1002502622011 ( 2九) ︒ onDqLnu 7 7 7 5 2 8 4 1 4 3 7 4 4・ qJqJqJqJ d d d q u d q u A quqLqLq44141 11 n D n D d斗 n 口 ( 1 7 % ) ( 1 7 % ) ( 3 0 % ) ( 3 4 % ) 守 jnHU 内 正 守 IFhun 口 d斗・ q u d斗 凋 斗 凋 μ寸 凋 斗 4lnO 凋斗 4l 内 ノ ﹄ イl ) ( 2九 ( 1 7 % ) ( 9 % ) ( 2 % ) ) ( 4弘 ( 2 % ) ( 6 9 % ) ( 6 2 % ) ( 8 4弘 ) ( 7 8 % ) ( 7 3 % ) ( 7 3 % ) ( 8 0九 ) ( 7 0 % ) ) ( 8 1% 555556667 jnuntnJQuquno 守 ( 3 1% ) ( 3 8 % ) ( 1 6 % ) ( 2 2 % ) ( 2 7 % ) ( 3 0 % ) ( 2 0 % ) ( 3 0 % ) ( 1 9 % ) 軽く・詳しく触れる 無回答 4lnonORunJηLRU4lFhu qdηLnJqJnJnJqJqJqJ A品 寸 守j 111111 1.疫学における基本概念 疫学の定義,目的,対象,歴史 がんや感染症など各々の疾患における疫学 因果関係についての解説 擢患率や有病率など接病頻度の指標 オッズ、比、相対危険、寄与危険など曝露効果の指標 敏感度と特異度や予測価など検査の特性 偏りと交絡 マッチング 生命表や人口動態調査などの保健統計資料 2 .統計における基本概念 質的データと量的データ(データと尺度と型) 正確度と精度 無作為抽出と無作為害J Iり付け・外的と内的妥当性 平均値や分散など代表的な統計量 正規分布やポアソン分布など代表的な分布 検定と推定 3 . 医学・疫学研究デザイン 観察と介入、縦断と横断などの分類 ケースコントロール研究とコホート研究 臨床試験 地域介入研究と地域相関研究 4 .統計解析 データの記述とグラフ表示 t 検定 X2検定 ウィ jレコクソン検定 平均値の差の信頼区間 分散分析 相関係数 重回帰分析 ロジスティック回帰分析 層別解析 SMRなどの標準化 メタ・アナリシス 生存時間解析 n︿U ハ hu n u d
5.5.教官の背景と抱えている問題点の関連性 疫学・生物統計学を専門としてしも教官と専門ではない教官で抱えている問題点がどう違うかを調 べるため、「それについて問題と思う・思わなし、」と「疫学・生物統計学を専門としている・していない」 とで比較した結果、疫学・生物統計学を専門としている・専門としていないで、割合が異なっていた問 題点は「教官自身にもっと学ばなければならない分野がある J(特に語学、医学と調査や研究の実 践)であり、有意差はみられないものの特に割合の異なっていた問題点は「チューターなど授業を手 伝ってくれるスタッフの人数が不足している」、「学生の疫学・(生物)統計学を学ぶ意欲が足りなし、」、 「学生に授業を行う上で前提となる知識・能力が足りない J(特に数学とパソコン・情報処理)で、あった。 いずれも専門としていない教官のほうが問題で、あると答えた割合が大きかった。また、専門でない教 官をさらに「公衆衛生学」、「看護のその他の分野が専門」、「他学部」に分類してみると、他学部に所 属している教官が「内容(難度・分野など)の適切な教科書がない」と答えた割合がやや小さく、「学 生に数学とパソコン・情報処理の能力が足りなし、」と答えた割合がやや大きかった。 専門としている教官と専門としていない教官で講義している分野がどう違うかを比較した結果、「因 果関係についての解説」、「擢患率や有病率など疾病頻度の指標」、「オッズ、比、相対危険、寄与危 険など曝露効果の指標」、「敏感度と特異度や予測価など検査の特性」、「生命表や人口動態調査 なとoの保健統計資料」、 iSMRなどの標準化」など、「疫学における基本概念に含めた分野」、「医学・ 疫学研究デザ、イン」に含めた分野は割合の異なるものが多かった。いずれも専門としてしも教官の ほうが教えている割合が大きかった。 また専門でない教官をさらに「公衆衛生学」、「看護のその他の分野が専門」、「他学部」で分けて みると、特に他学部に所属してしも教官が疫学の基本概念や研究デザインに関する分野、看護・医 療で特に使われている解析手法についてあまり講義していなかった O 6 .考察 教官の背景については、ほとんどの教官が疫学・生物統計学を教える必要性があると考えていた 事や、他の教官に疫学・生物統計学の重要性が認知されていないとしづ意見が 5件あった事など、か ら、疫学・生物統計学の教育は重要であると考えられているようである。しかし、疫学・生物統計学を 専門としている教官が講義している大学は 21%しかない一方で、工学部・薬学部・理学部数学科な どの他学部からの教官に頼るケースが 31%あった。また、疫学・公衆衛生学に関する学会に所属し ている教官が 66%いるものの、そのうちのほとんどの教官は日本公衆衛生学会に所属しており、日 本疫学会などの疫学に関する学会に所属している教官は少なかったO 統計に関する学会に所属し ている教官が特に少なく 18%しかいなかった事も含め、疫学・生物統計学を教える教官の不足が伺 えた。 授業を行う上での問題点については、学生に教科書を購入させず、プリントで、授業を行ってしも大学 は36%と予想していたよりも少なく、講義は教科書を中心に行われており、「内容(難度・分野など) の適切な教科書がなし、」と 56%の教官が回答した事、自由回答で看護に関する実例を挙げた教科 円 Hu qtu ワi
書がないとしち意見が 19件あった事など、教科書に対する要望が少なからず見られた。多数の大学 で用いられている教科書はなかったが、もし標準的な教科書があれば分量・難度ともにどの程度教 えればいいかの基準となり教官にとっても講義しやすくなると考えられる。また、統計パッケージが高 価であるとしち意見が 3件あった。実習等で用いられている統計ノミッケージとしては SPSSが多かっ た。圏内では SPSSが広まってしも事に加え、比較的安価なため導入しやすいためと考えられる。 教官・スタッフの人数が不足している事を問題と感じている教官も多く、若手を育成する必要があ るとしづ意見も 3件挙げられるなど、教官自身も教官の不足を問題と感じているとしづ事が分かった。 また、多くの教官が学生の意欲・数学とパソコン・情報処理の能力の不足を感じていた。 講義・実習の内容については、ほとんどの大学で疫学・生物統計学の授業が必修になっており講 義時間も充分とられており、大学の設備に不満は見られず、制度・設備に関してはどの大学でもある 程度充実してしもと考えられる。また、手伝ってくれるチューターがし、ないとしづ意見も多かったが、こ の事が実習の充実しない一つの原因とも考えられる。疫学・生物統計学を専門とする教官が増えれ ば、研究室の院生などをスタッフとして用いる事ができるようになると思われる。疫学における基本概 念や研究デザインに関する分野は 70%前後の大学でしか教えられておらず、もっと講義で、取り上げ られる事が望まれる。 教官の背景と抱いている問題点や講義内容との関連性については、学生に数学とパソコン・情報 処理の能力が足りないとしづ意見が、特に他学部に所属してしも教官の中に多かった。その理由とし て数理的な面を重視して教えているカもしれない事、看護学生のなかに数学を十分に履修していな いものもいる事、他の学部の学生と比較してしまう事が考えられる。疫学の基本概念や研究デザイン に関する分野、看護・医療で特によく使われてしも解析手法については疫学・生物統計学を専門と する教官の方がよく教えているようで、あった。この事からも疫学・生物統計学を専門とする教官が今 後増えてして事が望まれる。 7 .結論 本研究では看護系大学における疫学・生物統計学教育の実態について自記式調査票を用いて 調査を行った。疫学・生物統計学を専門としている教官が疫学・生物統計学を講義している大学は 少なく、工学部・薬学部・理学部数学科などの他学部に所属している教官に頼っている事が分かつ た。また、良い教科書・実習用の教材・問題集がなく、特に看護に関する実例を挙げた教科書が望 まれている事、教官やチューターの人数が不足している事、学生の意欲、数学やノミソコン・情報処理 の能力が足りない事が問題点として挙げられた。疫学の基本概念や研究デザインに関する分野、看 護・医療で特によく使われている解析手法については講義している大学がやや少ないようであり、特 に工学部・薬学部・理学部数学科などの他学部に所属している教官はそれらの分野について講義 で触れてない傾向があった。また、他学部に所属している教官に学生に数学とパソコン・情報処理の 能力が足りないと感じているものが多かった。 ‑ 3 9 8一
参考文献 l ) J o h nM .L a s t編、疫学辞典第 3版 、2 0 0 0 2 )厚生省健康政策局、医療技術評価推進検討会報告書、 1 9 9 9 3 )看護問題研究会監修、新訂看護教育カリキュラム、第一法規、 1 9 9 7 4 )村山征勝、大学における統計学の教育・研究環境とその問題点、統計数理、 1 9 9 5、v o. l4 3、n o . 2, 3 6 7 ‑ 7 5 5 )宮下光令、笹原朋代、 E v i d e n c e ‑ 8 a s e dN u r s i n g誌について、 Q u a l i t yN u r s i n g、2 0 0 1、v o. l7 、n o . 1 0、 841‑8 6 )宮下光令、笹原朋代、数間恵子、わが国の看護研究論文に用いられている統計手法について、 Q u a l i t yN u r s i n g、2 0 0 1、v o. l7 、n o . 1 0、849‑54 9 9 2、v o . I8 9 ( 1 )、 7 )丹後俊郎、消化器病学に関する研究論文で、の統計的方法について、日消誌、 1 90‑96、v o. l8 9( 2 )、561‑8、日消誌、 1 9 9 3、v o . I9 0 ( 1 )、75‑82、v ol .9 0( 8 )、1722‑8 8 )丹後俊郎、研究の種類に応じたデータのまとめ方、日消誌、 1 9 9 5、v o. l9 5( 5 )、412‑8 9 )浜田知久馬、臨床統計 FAQ、臨床医薬、 1 9 9 9、1 5巻 1 0号 、 1 583‑99 1 0 )浜田知久馬、統計ノミッケージを誤用しないために、臨床麻酔、 1 9 9 9、v ol .2 3、n o . 1 0、1651‑6 1 1)山内一史、看護における情報学;イ可をど、う教えるか、看護展望、 2 0 0 0、v o. l2 5、n o . 1 3、1476‑86 9 9 5、第 3 7巻、第 2号 、 72‑6 1 2 )佐藤俊哉、調査票の作成、保健の科学、 1 1 3 )真部昌子、「国試出題基準」はどのような看護婦を求めているのか、看護教育、 2 0 0 0、vo. l4 1、 202‑7 [島みどり、今、求められる基礎教育の質、看護教育、 1 9 9 7、vo. l3 8、874‑86 1 4 ) )I ハ 凶d n凶d q o
ポスターセッション システム
日本 SASユーザー会 (SUG I-~) S A Sを用いた X M Lデ ー タ の 作 成 一O D Mv e r .1 .1 対応一 0岡 下 邦 博 進藤三富子 株式会社日本アルトマーク 統計解析部 M a k i n gX M Ld a t af i[ e sf o rO D Mv e r. 11i nS A SS y s t e m K u n i h i r oO k a s h i t a S a t o k oS h i n d o m ar ci n c UIt S t a t i s t i c a lA n a l y s i sD I v I s i o n 要旨 2002年 4月に CDISC( C l i n i c a lDataI n t e r c h a n g eS t a n d a r d sC o n s o r t i u m )は、 XML文書を用いた臨床データの標準仕様として ODM( O p e r a t i o n a lDataModel ) のV e r s i o n1 .1を公開したc 臨床データのあり方を模索する中で今後有力なトレンドとな ると思われる XML形式に注目し、 ODMV e r s i o n1 .1形式のデータから SASを用いて 作成・運用する社内システムを開発する方向性について社内で検討した結果を報告し たい。 キーワード B a s eS A SX M LO D Mv e r .. 11 . 1C D I S CO D M ( O p e r a t i o n a lD a t aM o d e l l 米 国 の 非 営 利 団 体 IC l i n i c a l Data I n t e r c h a n g e S t a n d a r d s 0月に策定した仕様。現在 V e r s i o n1 .1 ( 2 0 0 2年 4 C o n s o r t i u m ( C D I S C ) Jが 2000年 1 月策定 ) 0XMLを用いた電子的なデータ交換方式の標準化を行っている。調査票の形 式にこだわらず、 XMLデータを作成する事が可能になった。また SASにも関連した仕 様も含まれており、報告書を作成する上での解析用 SASデータセットを作成で、きる。 4 0 3
1 .1C D I S CO D Mデータ構成 1.調査概要 ( S t u d yA t t r i b u t e s ) I I .調査内容 ( S t u d y ) 1.調査・プロトコール名等 ( G l o b a lV a r i a b l e s ) 2 .基本項目 ( B a s i cD e f i n i t i o n s ) 単位 ( MeasurementU n i t ) 3 .ファイル構成 ( M e t a d a t aV e r s i o n ) ①データバージョン管理 ( l n c l u d eP' 1 i o rM e t a d a t aV e r s i o n ) ②患者登録「青報 ( P r o t o c o lS t u d yE v e n t s )→ 症 例 番 号 o r登録番号 F o n n sf o ' 1S t u d yE v e n t )→ 患 者 背 景 、 有 害 事 象 … ③フォーム名 ( F o r mD e f i n i t i o n s )→患者背景・性別、年齢… ④フォーム詳細 ( 1 .クずルーフ。キ一項目(It emGroupR e f e r e n c ef o rFo' 1 m) 註.グループ項目(It emG r o u p s )→ SASデータセット名及び構成 m s )→ SAS変数名 ⑤変数項目(Ite A d d i t i o n a lI n f o r m a t i o nf o ・ ' 1l t e m )→効果判定・服薬状況等 追加情報 ( C o d eL i s t )→ SASフォーマット ⑤コードリスト ( I I I .管理情報 ( A d m i n i s t ' 1 a t i o nD a t a ) I V .キ一項目 ( R e f e r e n c eD a t a ) C l i n i c a lDataS t u d y ) V.臨床データ情報 ( V I .入力データ ( S u b j e c tD a t a ) 具体的なモデル構成及び仕様については DTDファイル等を参照してほしい。 . 2S A Sシステムにおける X M Lデータ SASシステムでは、 V8より評価版ではあるものの、 XMLへの出力及び読込が可能に なった O 日本語での解説がほとんどないため、開発にあたっての情報収集は海外のサ イトが中心となった。 4 0 4
SAS→ XMLの変換は以下の方法で実行する。 l .DATAステップc 2.SASSCLによるデータ編集 3.XMLLIBNAMEエンジン(評価版) SASXMLLIBNAMEENGINE(SXLE)Module(レジストリ必要) → CDISC対応 4.0DMMarkup(評価版) XML→ SASの変換の変換は以下の方法で行う。 l .DATAステッフ。 2.SASSCLによるデータ編集 3.XMLLIBNAMEエンジン XMLMapオフヘンョン使用(評価版) P o i n t e rの仕様に基づく XMLファイノレc ※XMLMap:XPath及 び X 3 . 開発手順 3 .1開発目的 入力された SASデータセットから Web上に帳票を表示するシステムを作成する。 SAS デ、ータセットは作業内容によってデータ仕様が異なるため、 CDISCの ODMを標準仕 ava等にて Web 様とし、仕様に従って XMLファイルを作成する 作成された XMLは J C 上に表示される。 3 .2開発内容 ・フロー作成 .仕様書作成 .SASデータ定義書 'ODMデータ定義書 x c e lで作成し、 SASプログラムでデータ取込 ※共に E 再利用できるように標準フォーマット作成 ‑プログラム開発 .SAS→ XMLデータ変換 ( S A S ) ※DATAステップで XML出力 HTA) .運用画面 ( ※ HTA(HTMLA p p l i c a t i o n ):HTML形式のアプリケーションツール ‑405一
4 . 問題点及び今後の課題 4 . 1 問題点 'XML出力が C l i n i c a lD a t aしか対応していないこと .正確な仕様書作成の必要があること → lつでも誤りがあれば、 XMLファイル作成に与える影響が大きい .変換後のデータの検証方法が確定していないこと ASC o n t e n t sリストと仕様書との検証 →S →症例数が多くなると XML形式では膨大な量になる XMLパージョンアッフに伴って対応をとっていく必要があること 'XMLファイルのボリュームが SASデータセットよりかなり大きいため、 S t a n d a l o n eではシステムに負担がかかること .SASフォーマットカタログに未対応であるため、現状は SASフォーマットな ‑今後、 しで出力していること 4 . 2今後の課題 .データ管理体制の確立を目指す 現在 S ASデータセットをマスタデータとしているが、 ODMとどちらかに するかを検討する必要がある。 ASの場合、 A u d i tT r ・a i lを用いた管理方法が考えられる →S ODMの場合、データ入力・修正を含めたシステムの開発が必要となる l i n i c a lD a t a以外のデータ処理が未対応のため、今後対応を広げていく必 ・C 要がある .DATAステップ以外の XMLデータ変換方法を模索する必要がある。次期日本 語パージョンにて標準装備されることを期待する ・他のデータベース(Me dDR , AM EDIS等)の連携をとる必要がある ・テストデータは英語で行ったため日本語対応のテスト・運用が必要となる 'XML→ SASへの対応については SDM.ADaM用 SASデータセット作成、 XMLMapの利用などが考えられるため、今後検討をすすめていく必要がある 参考文献 1 )r 解析用データセットのあり方 ‑ C D IS Cを意識して‑J. S U GトJ2 0 0 2論文集, 長谷川要,本山佳代子,小崎昌昭,如城靖子融麟麦酒株式会社医薬カンパ二一 開発本部開発推進部 2 )C DI S Cホ ー ム ペ ー ジ 出 担4血w w : . s , ̲d i s c . o r g / 3 )r l n t r o d u c t i o nt ot h eC D I S CQ p e r a t i o n a lD a t aM o d e lV e r s i o n1 .1( F i n a l ) J ‑406‑
h t t p : / / w w w . c d i s c . o ̲ r g / m o d e l s / o d m / v1 .1 / 0 D M 1 ‑ 1 ‑ 0 ‑ l n t r o .p d f 4 ) r O v e r v i e w o ft h e C D I S C O p e r a t i o n a lD a t a M o d e lf o r C l i n i c a lD a t a A c q u i s i t i o n a n dA r c h i v e( b a s e do nC D I S CD T D1 . 1F i n a l ) s /o d m / v1 .1 / O D M 1 ‑ l ‑ 0 ‑ 0 v er vi e w .p df h tt p: // w w w .c d l主ιorg/mode1 0nf 0rt h e0p er ati 0n a1D at aM ode1( 0D M )J 5 )r Sp eci fi c ati h11.~...:.L血胆斗止 i s c . o r g / m o d e l s / o d m / v L 1 / 0 D Mト 1 ‑ 0 .h t m1 6 )r O v e r v i e wo fT e c h n i q u e sf o rR e a d i n ga n dW r i t i n gO D MD a t a J2 0 0 1 / 1 1 / 6 世l Q : // w w w .c Q .i s c .0C g / p d f / C D I S C R e a d W r i t e O D M2 7 .p d f 7 )r O p e r a t i o n a lD a t a M o d e lP r o o fo fC o n c e p tD e m o n s t r a t i o n1 1thA n n u a lE u r o p e a n W o r k s h o po nC Ii n i c a lD a t aM a n a g e m e n t JT e s t i n ga n dA p p li c a t i o n s D1 S C C1 i ni c a1D at aC o n n e ct at h o n,2 0 0 1 / 1 0 / 3 0 T e a m,C b ̲UQ.:丘四旦虫回出 日 m / P . 包 斗 よT H O N L L 8 )r C D I S C, t h en e wX M Ls t a n d a r df o rC Ii n i a lD a t a J ,X M L 4 P h a r m a,C o m p u t e r C h e m i s t r yC o n s u l t a n c y h t t p : / / w w w . c o m p c h e m c o n s . c o m / C D I S C / i n d e x . h t m l 9 )r X M La n dS A S A nA d v a n c e dT u t o r i a l J 'S U G I 2 5 .p a p e r1 3 ‑ 2 5 .G r e gB a r n e s C N e l s o n .S T A T P R O B ET e c h n o l o g i e s , Cary. N b_Uι丘四型U~s. com/proceedings/su 巴~/2 区担/2 5p旦主Jl..Cit 1 0 )r X M LR o a d m a pf o rt h eS A SS y s t e m J ,S U G A 0 2,R u d yGYle n .Q u a l. 1T .S e r v i c e s ! り 旦ι//wwws a s .c o m / o f fi c e s / a si a 旦記主 c / s . Q / s u g a / 2 0 0 2 / p r e s e n t司じ旦 s / S U G A 0 2 ‑ ‑ T S 3 ‑ ‑ X M L r o a d m a p ‑ ‑ R u d y G y z e n ‑ ‑ Q U A L IT .p d f 11 ) r X M LR e s o u r c e s J, S A SI n s t i t u t e, I n c ., T e c h n i c a lS u p p o r t, B a s eS A S C o m m u n i t y h t t p : / / s u p p o r t .s a s .c o m / r n d / b a s e / i n d e x ‑ ' x m l ‑ r e s o u r c e sh t m l i ウ d ハM1 n u
日本 SASユ ー ザ ー 会 (SUG1‑0) SASデータセットのエクスポート 羽田野実 SASI n s t i t u t eJapan株式会社 カスタマーサービス本部プロフェッショナノレサービス第 1部 ExportingaSASdatas e t MakotoHatano ,CustomerS e r v i c e sD i v i s i o n, P r o f e s s i o n a lS e r v i c eDepartment1 SASI n s t i t u t eJapanL td . 要旨 基幹システムデー夕、実験データなど SASSystem にインポー卜されたデータを加工、集計、分 析された結果を他のシステムやアプリケーションにエクスポート(出力)する場合がある。エクスポート r a c l eなどのデータベースシステム、 M i c r o s o f tEXCEL、XMLファイル、カンマ区切りフ 先として O . 2 において追加・拡張された機能を用いて ァイルなどがある C 本論文では、 Windows 版 SAS8 SASデータセットを M i c r o s o f tEXCELにエクスポートする方法について、プログラムコードを例示し ながら記述する c キーワード: BASE、ACCESS、EXPORT、EXCEL 1.はじめに SASデータセットを M i c r o s o f tEXCEL(以下 EXCEL)にエクスポートするには、 DDE(Dynamic Data Exchange)を始め表1.1に示す方法などがある。これらの方法のし、くつかについて記述す る 。 4 0 9 ‑
表1.1SASデータセットのエクスポート方法 記述 方法 DDE FILENAMEステートメント DDEエンジン OLE オートメーション SCL(SASComponentLanguage) DBLOADフ。ロシ、ジャ EXPORTフ。ロシジャ ODS(OutputDeliverySystem) SAS8 . 2 ODBC SAS8 . 2,LIBNAMEステートメント ODBCエンジン OLEDB SAS8 . 2,LIBNAMEステートメント OLEDBエンジン 2 .DDE DDE(DynamicDataExchange 動的データ交換)とは、 M i c r o s o f tWindowsオペレーティングマ システムファミリに実装されているフ。ロセス開通信(IPC)の形式で、ある。 FILENAMEステートメントに DDEエンジンを指定して DATAステップ。で SASデータセットを EXCELファイルに出力で、きる プ O ログラム例を図 2 . 1に記述する。 / 会 EXCELの起動*/ options noxwait noxsync; x 'start excel'; data null; rc sleep(2); ニ run; ハファイル参照名の割り当て (DDEエンジン) */ filename class dde 'excelISheetl1rlcl:r20c5'; ハ SASデータセットの EXCELへの出力安/ data null; set sashelp.class; file class; if n ニユ then put '名前 T 工 '09'x 性別 身長(インチ) '09'x '年齢 ' 0 9 'x ' 0 9 'x 体重(ポンド) f index(trim(name), ' 0 9 ' x ) or index(trim( n a m e ), ' ' ' ' ) then d o ; 0 0 .); temp= put(name,手 quot巴 2 4 1 0一 ' 0 9 'x ;
put ternp 宇 +(‑1) 日; end; else ; put narne 平 +(‑1) @ 工 f 工 ndex(tr工rn(sex), '09'x) or index(trirn(sex), " ") then do; ternp= put(sex,平 quote200.); put '09'x ternp 宇 +(‑1) 日; end; else put '09'x sex $ +(‑1) 日; 工 f age > .z then do; ternp= left(put(age,best12.)); put '09'x 七e r n p $ +(‑1) 日; end; else put '09'x @; if height > . z then do; ternp= ユeft(put(height,best12.)); put '09'x ternp 平 +(‑1) 日; end; else put '09'x @; if weigh七 > . z then do; ternp= left(put(weigh七 bes七12.)); ー1 ); put '09'x ternp 宇 +( end; else put '09'x; run; 図 2.1DDEのプログラム例 また、図 2.2 のコードのように EXCELコマンドを発行してシート追加、シート名、罫線追加など 様々な制御ができる。 i ー 1ょ ・ a4
filename xcmd dde 'excellsystem'; data null; put '[close.all]'; /* EXCELファイルのクローズ*/ ハシートの追加世/ pu七 , [new(]ー)] '; run; 図2 . 2EXCELコマンド発行プログラム例 3.0LEオートメーション OLE オートメーション (OLEAutomation)を使用して SASデータセットを EXCELファイルに出 力できる。この場合、 SAS/AFの SCL(SAS Component Language)でプロク、、ラムを記述する必要 .FSP .HAUTO.CLASSである。 がある。使用するクラスは、 SASHELP 4 . DBLOADプロシジヤ DBLOADフ。口、ンジャで、 SASデータセットを EXCELファイルに出力するフ。ログ、ラム例を図 4 . 1に 記述する。 proc dbload dbms= excel data= sashelp.cユass path= ' e :' itemp ¥c lass.xls'; putnames y ; limi七二 0 ; label; reset all; load; run; 図4 . 1DBLOADフ。口、ンジャのフ ロクザラム例 c 4 1 2
5 . EXPORTプロシジャ EXPORTフ。口、ン、ジャで、 SASデータセットを EXCELファイルに出力するフ。ログ、ラム例を図 5 . 1に 記述する。 proc export dbms= excel d昌 七 昌 = sashelp.cl昌 ss outfile= ' e :¥temp¥cl昌 sS.xls'; run; 図 5.1EXPORTフ。ロシ、ジャのフ。ログ.ラム例 6.0DS SAS 8.2で追加された ODSCOutputDeliverySystem)、 で SASデータセットを EXCELファイ . 1に記述する。 ルに出力するプログ、ラム例を図 6 七工 t le; footnote; ods listing close; ods html file= ' e :¥tempYcl昌 sS.xls'; proc sql; select * f r o r n s昌 shelp.class; quit; ods h t r n l close; ods listing; 図 6.10DSのプログラム例 EXCELファイルへの出力の見映え(罫線、色など)は、 TEMPLATEフ。ロシ、ジャや ODSタグを用 いてカスタマイズ できる。 内ベU ・ 44 1ょ
7.0DBC SAS 8.2 で追加された SAS/ACCESS LIBNAME ステートメントオフ。ションでエンジンに ODBC(Open Database Connectivity)を指定することにより、 SASデータセットを EXCELファイ . 1に記述する。 ルに出力するプログラム例を図 7 1ibnam巴 x1sユib odbc noprompt= "dsn=Exceユ Fi1巴 s ; dbq=巴xc巴lfiユ巴 . X 1 S l t i proc copy ln= sasus巴 r out= x1s1ib; S巴l巴ct cユass crlm巴 fitn巴ss /mt= data; run; 図 7.10DBCのプログラム例 8 .OLEDB SAS 8 . 2 で追加された SAS/ACCESS LIBNAME ステートメントオフ。ションでエンジンに OLEDB を指定することにより、 SASデータセットを EXCELファイルに出力するプロク。ラム例を図 8 . 1 1こ記述する。 l工bnam巴 xユsl工b 0ユ巴 db provid巴 工 = Microsoft.J巴t.OLEDB.4.0" 刊 prop巴rt工巴 s=('data source' 二 1 巴:¥ t巴mp¥exc巴ユ . xユs ') provid巴 r string= "Exc巴 1 8.0; HDR=YES;"; proc app巴nd base= x1sユ工 b.cユass data= sasuser.cユass; run; proc app巴nd bas巴 = xユsユュ b.crim巴 data= sasus巴r.cr工m巴; run; 図 8.10LEDBのフ。ログラム例 9 . まとめ SAS 8.2で追加された ODS及 び SAS/ACCESS LIBNAMEステートメントオフ。ションにより、 SASデータセットの EXCELファイルへの出力が、より容易に、より SASフoロ グyラムライクになった。 今後 SASSystem9以降も更なるエンハンスが期待されるの 4 1 4
ポスターセッション 経営・経済
日本 SASユーザー会 (SUG1‑0) 労働市場の時系列分析 . . . . . . . J M Pを利用して j 甫 j 畢浩一 八千代銀行/青山学院大学 Time‑seriesA n a l y s i so fLaborMarket . . . . . . . U s e ro fJMp. . . . YachiyoBank/ AoyamagakuinU n i v e r s i t y K o u i c h i Urasawa 要旨 品1 Pを利用し、日本の労働市場をマクロ分析する。(集計データにて) u v分析、総供給曲線、オークン係数、フィリップス曲線、個用意調整速度係数を 理論と実証を交えながら分析する。 JMP、Labor Market、E c o n o m e t r i c s キーワード: 目次 , .はじめに 1 章 労働市場におけるマクロ経済分析 1 節 日本の労働市場における経験的背景 2節 uv分析 2章 マクロ分析 1 節総供給曲線 2節 オ ー ク ン 係 数 3節 雇 用 調 整 係 数 の 推 計 ‑417一 まとめ
はじめに 1 9 9 8年頃より、米国の失業率もついには逆転するとし、う未曾有な状況に陥った。このような 深刻的な長期の不況下において、体力のない企業は吸収され、また企業内においても早期希望 退職制度や高齢者世代を中心にリストラが活発に行われるように、長期雇用制の維持が困難に なってきている。それと同様に雇用システムの特徴のーっとして、年功序列賃金制度が能力主 義システムに転換してきている。 3このような経済停滞を端に発する雇用の変化の主要な原因と 9 9 0年代においては、機 見るのが妥当であるのだが、他にも要因となるものもあるであろう。 1 械部品や繊維衣料品の東南アジア諸国での生産拠点の国際化、合併などによる産業界の再編、 女性の高学歴化・機会均等法における社会進出、インターネットやオートメーション化にみら れる急速な技術革新とそれに対応できる企業内訓練の困難性、中途採用者の増加やフリーアル パイタ一、ワーク、ンェアリング 4など職業形態の変化など、社会環境・構造変化が顕著であっ た時代である。そして雇用の潮流は、旧来前の雇用制度の特徴とされてきたものが、企業の欲 する人材とその欲する能力を有する労働者とのミスマッチ 5を排除した、流動性のある労働市 場へと変化しているのではないか。 日本の雇用の安定性に変化が見受けられる一つまり日本的雇用の安定性とは、雇用量の変化 が小さいことである労働保蔵を行なっていることである。つまり失業率の低位安定性も含め、 終身雇用制や年功序列賃金制にみられる、長期にわたる企業と労働者の「暗黙の契約」の論理 3 .長期雇用制度や年功序列制度は日本的なものではなく、長期雇用制度は西欧諸国でも多くみられ、米国にお いては先任権制度による若年者のレイオフは多いが、長期雇用は一般的である。年功序列制度に関しては、企 業への定着という企業戦略、基幹労働力を確保する為に永年勤続を優遇し、熟練的スキルを積みながら昇進す る人的資本理論で説明できる。但し査定制度(成績)や能力によって、賃金の相違はあるのである。雇用制度に 1 9 8 7 )、中村・大橋 ( 2 0 0 2 )に詳しい。人的資本論は、 J . M i n ωr (1 9 7 4 ), G .Bec k er (1 9 6 4 )参照。 ついては、中馬 ( 4.オランダモデルが注目されており、日本においては、兵庫県が検討している。兵庫県経営者協会「ワークシ ェアリング検討委員会報告J 参照されたい。またオランダ、 ドイツ、フランスのワークシェアリングの効果と して計量分析している内閣府『世界経済の潮流~ 2 0 0 2秋を参照されたい。 5.ミスマッチはマクロ分析の章 u v分析でも触れるが、最近では松下モデル'と呼ばれる、インターン制度をも ちいた学生と企業の相互理解(ミスマッチの解消)が今後主流になると言われている。インターンシップ事例 松下電器産業「松下ウォーミングアップ・プログラム」短時間の面接・選考というプロセスでは困難な「企業 と学生の相互理解に基づいた採用と就職」を主にしている。採用の際に基準についても「学歴・潜在能力・総 合力」から「能力(初速のスピード)、スキル、専門性」に特化しつつあるようである。また富士ゼロックスは web 上にて fFXDBS ワークショップ」を開催。期間は長いもので、 NEC の 2 ヶ月 ~1 年間と長期のもので研 究開発を行なうものや、ジョンソンのマーケッティング、日立製作所などの営業・経理・法務・人事を経験す るものが多く、 2~3 週間程度が主流である。採用人数については、松下電器産業の 150 人から wowow の 4 人など様々であるが、平均して 20~30 人である。大学側の積極的な取り組みは、平成 10 年度 143 校 (23. 7 % ) 平成 11年度 1 8 6校 ( 2 9 . 9%) 平成 1 2年度 2 5 0校 ( 3 8 . 5%) と徐々に増加傾向にある。(日本経済新 聞 2 0 0 1年 3月 2 8日、フジゼロックスホームページより) ‑ 4 1 8 ←
から、労働の流動性が低く、その反面、賃金や労働時間の変化が激しいことで、安定性を保って きたのである。特に日本は企業特殊的スキノレ 6を蓄積していく長期雇用体制を形成していると 考えられており、日本の高度成長を支え、 1980年代世界が注目していた独自の雇用形成さ れたといわれる。そこで、本論文は時系列分析を主体とした、労働市場のマクロ分析をおこな 。 つ 1章.労働市場におけるマクロ経済の分析 1章 1節 目本の労働市場における経験的背景 この 1節では、労働市場を構成する基本的事実の変化と、景気変動 ( GDP) と失業率や労 保蔵とい 働時間などと相聞があるのか概観する。その結果によっては、本論で、の企業内労働J 2月には完全失業率は 5.5%と過去に稀に見る高 う観点からも補完できる。まず、 2001年 1 い水準を示し、平成不況の長期停滞を示している。特に今後日本は、少子高齢化による人口 985年から 2001年までの 構成は経験的事実であり、労働市場の先行き懸念が心配される。 1 変化をみてみると、 0 歳 ~14 歳までの非労働人口は、 2, 603 万人から 1 , 828 万人と半分近く 減少し、 6 5歳以上の高齢者は、 1 , 246万人から 2, 286万人と1.8倍程度増加している。以下 表 1・1より、人口比では、 1998年に逆転している。労働人口比率にしても、男子の労働 表 1・1 年齢(0ー 1 4議 、6 5議以上人口)、男女労働力の人口比率 暦年 口比率 1982 61 .0 3 9 . 0 : ; 1 1 ; c q j i 守 主 1983 2 2 . 5 6 0 . 5 3 9 . 5 1994 1 6 . 7 1 3 . 5 5 9 . 5 4 0 . 5 1984 2 2 . 0 4 60. 3 9 . 6 1 9 9 5 1 6 . 3 1 4 . 0 5 9 . 5 4 0 . 5 1 9 8 5 .5 21 6 0 . 3 3 9 . 7 1 9 9 6 1 5 . 9 1 4 . 5 5 9 . 5 4 0 . 5 1 9 8 6 2 0 . 9 6 0 . 2 3 9 . 8 1 9 9 7 1 5 . 6 1 5 . 1 5 9 . 5 4 0 . 5 1 9 8 7 2 0 . 2 1 9 9 8 関購購盟関 5 9 . 3 4 0 . 7 1 9 8 9 1 9 . 5 1 9 9 9 1 5 . 1 1 6 . 2 5 9 . 3 4 0 . 7 1990 1 8 . 8 2000 1 4 . 8 1 6 . 7 4 59. 4 0 . 6 1 9 9 1 1 8 . 2 1992 1 1 1 7. 7 1 2 . 6 1 4 5 9. 4 0 . 6 2 0 0 1 1 4 . 6 1 7 . 3 5 9 . 3 4 0 . 7 5 9 . 2 4 0 . 8 2002 ~ 1 4 . 4 1 8 . 0 1 5 9 . 1 4 0 . 9 総務省統計局「人口統計月報 j r労働力関査」より、年齢別人口/総人口にて算出、男子・女子労働人口/労働力人 口(就業者数+完全失業者)にて算出 5 .H a s h i r n o t ο a n dRai s i a n ( 1 9 8 5 ) ( 1 9 9 2 )より、企業特殊スキル(勤続年数)は、他の企業に転職するとその経験 )と区別される。 J . M i n c e r ( 1 9 7 4 ) (こ詳しい。 が失われてしまうスキルとして、一般的スキノレ(年齢ー教育年数 6 4 1 9
市場参加が減少、女子は上昇傾向にある c この点は進学率の上昇や、男女機会均等法や育 児法の法改正も含め、男女共労働市場の参加率に影響しているであろう。 以上のように、 時代とともに変化が見て取れるのであるが、景気の変動によって、失業率や雇用などは変化 していたのであろうか、図 1 ・1によると 図 1・ 1 B 6 必守今 d q ︐ ﹀ 曹znu ‑2 1960 1970 1980 1 9 9 0 2000 2010 暦年 yx . 一 実 質 GDP I 2 1 1 ー失業率 ‑ー製造業入織率&ー離職率 ∞ ホデ-$1については、『経済統計要覧 ~2∞2 CD‑ROM 版と、『世界の潮流Jl2 2を使用したロ 景気変動によって、失業率や雇用の流動性を示す離職・入職率においては、相聞がなし、ように感じ られる。表 1・ 2において簡単な多変量解析を行なった。景気と失業率において、相関係数が 0. 47 5 であり相聞がなし吃判断できることから説明できない。では入職・離職が労働の流動性への代理変数と 2 0 0 2 )は長期的雇用関係の 捉えるならば、労働力の需要である入職についてはどうであろうか。中村( 変化を類推する為、失業と全産業の入職率と離職率をグラフ化している。高度成長期を通して雇用者 の長期勤続化が進行するとともに、定着化も進行し、その傾向は変わってないとし、パプ、ル崩壊後も失 業率とは逆に安定している。つまり若年層と高齢者層の失業が高い要因としている。本論文での実証 では、製造業の入職・離職率を用いて行なっているが、図 1・1 から、中村と同様に低位安定を示してい る。相関係数においては、景気変動と入職率が 0 . 5 4 3 9と高く、離職率が 0 . 1 8 7 3と比較すると低い為、 景気好況期には積極的採用を行い、不況期には解雇を行なわない、労働保蔵が行なわれていると考 9 9 0年代からその間隔に聞きが生じ、企業は解雇(離職)をせざるを得ない状況と判 えられる。但し、 1 断される。更に、景気変動において製造業は、所定外労働時間において調整していることが、相関係 数0 . 5 1 0 4であることからもわかる。図 1・2からも明らカも景気変動と同調していることが示されている。 1 9 9 5 )によると GNPと労働者数の変化の相聞は低く、労働保蔵の傾向と労働時間との相 大日 ( 聞が高いことが示されているの ‑ 4 2 0
表 1・ 2多変量解析 相関係数 実質 GDP成長率 失業率 製造業入臓率 離磯率 製造業所定外労働時間 実質 GDP成長率 1.∞∞ ‑0 . 4 7 5 8 0 . 5 4 3 9 0 . 1 8 7 3 0 . 5 1 0 4 失業率 ‑0 . 4 7 5 8 1 .0 α ) ( ) ‑0. 6 6 1 3 ‑0. 4 1 8 6 ‑0 . 0 7 5 9 製造業入聴率 0 . 5 4 3 9 ‑0. 6 6 1 3 1 .0 α ) ( ) 0 . 6 4 8 6 0 . 3 9 9 1 隆磯率 0 . 1 8 7 3 ‑0 . 4 1 8 6 0 . 6 4 8 6 1 .0 α ) ( ) ‑0 . 2 6 8 4 製造業所定外労働時間 0 . 5 1 0 4 ‑0 . 0 7 5 9 0 . 3 9 9 1 ‑0. 2 6 8 4 1∞ ∞ 図 1・ 2 2 5 20 1 5 > ‑10 5 。 ‑ 5 1960 1970 1980 1 9 9 0 ∞ 2 o 2010 麿年 y x,ー実質 GDP成長率 1章 2節 回一製造業所定外労働時間 uv分析 u v分析によって、より u v分析とは、労働市場の需給状況の変化を表す指標の一つであり、労働 製造業の入職・離職は労働市場の需給を示す指標の一つであるが、 詳細に分析できる。 力供給を雇用失業率 (Unemploymentr a t e ) で表し、労働力需要を欠員率 ( V a c a n c y ) で表す ことで、失業を需要不足型と構造的失業に分析できる。構造的失業とは、欠員が増加しでも失 業率が減少しない状況での失業であり、企業と労働者の技能・経験などのミスマッチから生じ る失業や、転職がすぐに欠員補充という形では達成できない時間的ラグが生じる失業である。 失業率と欠員率が等しくなることは、労働市場の需給が均衡していることなので、その時に発 生する失業率は、構造的失業と解釈することができる。そしてプロットしたデータから以下の ことが読み取れる。推計データとして、 2つの異なったデータを用いた。 1ょ 一 Aq っ
厚生労働省『職業安定業務統計』完全失業率と求人倍率と、雇用失業率 7 と欠員率 8 (労働力調
査)のデータを用いて推計した。
u
=
v 労働需要供給均衡
U ↑>v
↓であるならば、生産量・労働の需要不足による失業の多い労働市場
U ↑=
v↑であるならば、労働者と企業におけるミスマッチが引き起こす構造的失業労働市場
U ↓<v↑であるならば、需要過多であり、労働力不足である労働市場(パブ、ル期)
U ↓=
v↓であるならば、完全雇用状態である労働市場
(
手 0)
下記図 1 ・3をみると、 2つのデータを時系列の動きを辿ってみると、大体同じ動きをして
いる。ただし完全失業率と求人倍率のデータは、まとまったデータではあるがその計測危うさ
を指摘する点もあり、 8参照雇用失業率と欠員率での分析が実経済を表している数字と言ってよ
いと判断する。
1963 年 ~80 年頃は、失業率も欠員率も低く、労働の需給は均衡していたこと
が伺え(左下枠)、 1989年のパブ、ル期は失業率が低く、且つ欠員率が高いとしづ労働不足であ
ったこと(右下枠)が示されている。そのバブル崩壊後の 1991年頃から、右下から左上方向(1995
年)へ向かい、経済不況化における生産や労働需要の不足からくる失業率の高さが伺える。 2000
年頃より右上方向に転じ、高失業率で職を求めてはいるが、希望する仕事とのミスマッチが生
じてきていることがわかる。
図 1 ・3
5
.
5
4
.
5
. 00
4
98
5
.
99
売5
業
率 3
2
.
5
2
89 ・
:
'
9
1
90
1
.5
ι
7
3
.
7
5
1
.5
1
.75
1
.25
有効求人倍率
2
2
.
2
5
図 1・
3において、データに関し上図 l
立
、1
9
6
3年から 2
0
0
1年までの暦年データを使用し、『経涛統計年鑑』の CD‑ROM
データから作成した。下図は年内問府政策統括官『世界の潮流 2002
J]のデータ 1
9
8
0年から 2
0
0
1にて作成した。
7
.
8
. 労働省による雇用失業率、欠員率は以下の計算で行なっている。
雇用失業率=完全失業者数/(完全失業者数+雇用者数) 欠員率=(有効求人数ー就職件数)/{(有効求人数
就職件数)+雇用者数} 。有効求人数
就職件数は未充足求人数としても表されている。厚生労働省の職業安定
所による求人倍率は、昨今のインターネットや人材派遣業が発展したことで、正確さという点で欠けている可
能性がある。また完全失業率も完全失業者/労働者数であるため難点があると判断した方が妥当である。しか
しまとまったデータとしては有効である為、本論文にも使用した。
dq
ワ
ム
ワ Iu
O 作 RU grf‑5 i 01 9 9 t O O 9 8 . . 5 a4.C ~ 4 u s事i 9 . 697 a ~3 .5 " " c コ 3‑ ・ 9 3 " 89 ・ 90 ι 9 2 2 .5 " " 2 8 7 .9~ 9 1 T T T T 2 2 . 5 3 3 . 5 Vacancy 2章 2章 1節 マクロ分析 総供給曲線 ケインズ型の考え方より、総供給曲線は物価水準( P )と産出量 (Y=GNP) の関係を表すもの であり、総需要関数にもよることから、その傾きを時系列に計測することで、日本の労働市場 の変化を実証できる。ただし日本がどのようであるかは比較対象を必要とする為、米国を対象 とする。特に総供給曲線の傾きが、フィリップ曲線(賃金調整速度)の傾きをオークン係数で 除したものと等しいことから、労働市場の変化に数字として何か見えてくるはずである。まず、 総供給曲線を分析し、オークン係数、雇用調整係数を推計する。まず総供給曲線が右下がりで あることから簡単に説明するならば、中谷 ( 1 9 8 1 )を始め多くの教科書に取り上げられているが、 黒坂 ( 1 9 8 8 )、黒縄( 1 9 9 8 )、坂井( 1 9 9 8 )によると、 Q=F(N) 8 u b j e c tω F >0 F'<0 Q=生産量、 N=労働投入量である生産関数であり、 N による 1階微分が正で、 2階微分が負であることは労働の限界生産物 MPL(Marginalp r o d u c t o fl a b o r )が労働投入量を増加するとともに逓減する。 生産物の価格 ( P )と名目賃金 ( W )が与えられている時の利潤(π)は πニ PF(N)‑WN ・・・・・(1) であり、利潤最大に行動するならば、 N で微分する。すると PF(N)=W で表され、生産物 1単位追加生産されるときに、得られる価格(物価水準)と限界生産物(労 働投入量)の限界費用が導きだすことができる。 P=W/F(N) と変形できる。価格(物価水準)は名目賃金に労働投入量の逆数を掛けたも ・ ワ 'U ︒ ︒ωA
のである。つまり、賃金を一定としたと仮定すると、物価水準の上昇によって雇用と生産量 (FN) は増加する、総供給曲線は物価水準と産出量において右上がりである。 そこで坂井や黒坂は、名目 GNPと実質 GNPと GNPデフレーター(物価)のデータを用い、 名目 GNPの変化によって、総需要曲線が総供給曲線上を動くならば、物価と名目 GNPの弾力 性と実質 GNPと名目 GNPの需要量(生産量)の弾力性の比が総供給曲線の傾きを求めること ができるとした。総供給曲線の推定式は様々にあるが、黒坂(19 8 8 )は、日本の失業率が低いこ とから、フイリップ曲線の傾きとオークン係数の逆数により、総供給曲線の傾きが推計できる、 DornbuschandF i s c h e r流の求め方 lより、下記の式による名目 GNPと実質 GNP、GNPデフ レーターより求めた方がより好ましいとしている。 logP(GNPヂ 7レーダー)=α +sl o g Y ( 名目 GNP)・・・・・(1) l o g E (実質 GNP) =γ +al o g Y ( 名目 GNP)・・・・・ ( 2) によって、両辺を Y (名目 GNP) で微分すると、 d/sが実質 GNPの GNPデフレーター (物価)の弾力性であり、総供給曲線の傾きである。 3 この結果はどう解釈したらよいだろうか。まず米国との比較から行なうと、黒坂 ( 1 9 8 5 ) や黒 1 9 9 8 )との数値の違いは推計年代やデータ数、四半期か暦年による違いによるが、日本の方 縄( が傾きはキツイ(大きし、)ことが解る。但し、黒縄に関しては、暦年データで推計しデータ数 上の制約からか 1 9 7 0年代以降傾きは米国と比較し緩いという結果となっている。では傾きが 大きいということはどういうことであろうか。右下がり方向への供給曲線の移動がある場合(シ ョックなど 4 )、価格や生産 (GNP) への影響が小さいことであり、上述にも示したが、総供給 曲線は労働投入による限界費用=賃金と一致する。つまり景気(産出量)によって、物価の上 昇=賃金の上昇などの影響は生じないことを示している。逆に需要曲線はショックに対し、生 産 (GNP) よりも物価の変動がおおきくなる。つまり現在のデフレ下においては、需要ショッ クが大きいと考えられる。以上から日本は供給サイドに優位であり、労働の限界生産性は逓減 することから、生産の波に対して、伸縮的な賃金調整を行ないながら、固定的な雇用体制を築 き、労働力保蔵を行っていたと解釈される。企業では不況期には解雇することはせず、遊休し ていることで、日本的と呼ばれる年功序列制や終身雇用制によって経済が成り立っていたこと がわかる。 では、日本の時系列でみた場合はどうであろうか、全期が傾き 2. 4 9 8であり、パブ ル崩壊前 1.ケインズ型とは、『一般理論』第 5編 20章にて、「有効需要の変化に対する物価の弾力性と産出量の和は 1 1こ等し い、有効需要はある部分は産出量や物価に影響を及ぼすことから影響力は消失する」ことからでFある。 2 . D o r n b u s c ha n dFischer のロジックに関しては、坂本・中山他訳 ~7 クロ経済学(下 u や、黒坂(1 988) 、黒縄(1998)を 参照されたい。 3 .両辺を Yで微分すると(1)式は dlogP!dY=dP!P!dY=s・ (dl o g Y / d Y )、 ( 2 )式は dE/dY=d E厄 IdY=ト ( d l o g y / d Y ) よって、 dP/P/dE/E=/ j/日が導き出される。 4 .石油危機などの供給ショックによって、物価高と失業によるスタグフレーションなどである。 4 2 4一
表 1・ 3 日本とアメリカー総供給曲線の傾きー 日本 アメリカ こに δ δ/s( 傾IR 2 2 δ/β(傾 IR δ β n き) き) 1 9 8 0・ 1 期 ‑200 8 7 1・ 3期 (全期) 1 9 8 0・ 1 期 ‑1990・ 4期 40 1 0. 4456 d ( 1 4 . 2 7 ) 両 1 9 9 0・ 0 . 1 3 9 4 3期 ( 1 .8 0 ) 1 ( 1 5 . 1 0 ) 1 *日本のデ-~I立東洋経済新報社『経済統計年鑑』、内閣府『世界の潮流2∞2~ の季節調整済四半期デ-~使用した。デー舎の加工分析 を行なった。決定係数 R2に関して項の上が (1)式、下が (2)式の決定係数である。 *0内l 立t 値であり、日本の B値0 . 1 3 9以外 i 立、すべて 5% 有意である。 黒坂 ( 1 9 8 8 )の推計結果 アメリカ 日本 暦年 s Iδ s 内 R J V 守 守 同( J a a T一 zu tvaa ︑ 一 5 mな nu⁝ 4E t 一r︑ 守 ー nU"4E 随一 5 F F . A⁝7 1960‑1985 1 δ 武縄( 1 9 9 8 )の推計結果 δ l /s(傾き) 日本 アメリカ l δ /s( 傾 ︒ ︒ の ︐ ι 守 F ・ OO 守 F41 nU 守 F ︽司 4E‑nnU4E 4laaTno ntnunu 内 nu 凶 n u d v FU 守 Fnon 日 nuunuunud ‑‑‑ ︽叫︾︽叫リ nununU 789 vnud ‑‑‑ l き) 1970‑19791 1 2 . 0 0 9 1980‑19891 11 . 2 1 7 1 1990‑19951 11 . 2 5 5 9 後で推計してみたが、パブ ル崩壊前後は、黒縄と同様傾きはキックなるという結果である。 ( 2 . 0 →6 . 2 7、0 . 4 6 →0 . 8 1 ) この解釈については、景気が好況時の方が、転職リスクが少なく労働需 要が大きいが、パブ、ル崩壊後は、需要サイドによる価格=賃金の伸縮的効果が大きくなり労働 者側からも移動しないという伸縮的賃金・固定的な労働市場体制であると考えられる。但し、 425‑
供給曲線の傾きだけでは言及できないので、以下の分析と合わせで考える必要がある。供給曲 線の傾きがキツイことは、需要ショックは数量よりも価格によって吸収される度合いが大きく なることは述べたが、 1 9 9 0年代におけるデフレ下の経済においては、名目貨幣量増大により迅 速に物価上昇をもたらすマネタリスト的な価格調整メカニズムが有効で、あると付け加えておく。 2章 2節オークン係数 オークン係数はいわゆる生産の変動(実質 GNP) に対して雇用調整(完全失業率)がどれだ 1 9 9 8 ) は実質 GNP成長率と失業率のデータを け行なわれるかの調整度の逆数である。坂井 ( 使用しており、浜田・黒坂 ( 1 9 8 4 ) においても推計方法として詳しい。本論文は、浜田・黒坂 ( 1 9 8 4 )の推定式を使用する。 I n ( 1 0 0 ‑u )=α+β11nY+β2f u= 完全失業率 y=実質 GDP t=代理変数(タイム・トレンド) (100‑u)が対数変換した雇用率であり、 1%雇用率が変化すると、 s%産出量が変化する。 その係数 3の逆数が雇用の弾力性であることから、係数の逆数がオークン係数となる。オーク ン係数が大きい程、雇用の調整がされず産出量に対して雇用の保蔵度=労働者の安定性が高い ことがいえる。逆に低い(低下傾向)にあるならば、調整がされる=流動的になってきたと言 えるのである。 表 1・ 4の結果より、 1 9 8 0年代は米国の方が労働保蔵の傾向を示し、内部労働市場を形成して 980年 いたことが伺え、その他の期間は日本の方が係数は高い。また日本の時系列を見ても、 1 前半から 1 990年パブ、ル崩壊前までは、労働保蔵による内部労働市場を形成する傾向を示し、 パプ、ル崩壊後の 1 9 9 0前半は景気が下がりつつも、解雇など雇用調整にタイム・ラグが生じる ことから、産出量が小で、も、低失業率により 1 6 . 6とし、う数字が算出されたのである。労働保蔵 =安定性を余儀なくされたのである。 1 9 9 5年以降は 1 9 8 0年代の数値に近似し雇用調整が弾力 的傾向とみることができる。さらにフィリップス曲線の傾きが、総供給曲線の傾きとオークン 係数の積で導き出せることから、その係数は 1 9 8 0年代と 1 9 9 0年代を比較するに約 6倍 ( 1 2 . 9 →7 3 . 8 )、アメリカは約 3倍 ( 6 . 9→ 1 7 . 1 )であった。フィリップス曲線とは、失業者で代理される 労働市場の需給状態が名目賃金に及ぼす効果を示す非線形の曲線であることから、名目賃金の 伸縮性、硬直性による賃金の調整速度を表すものとして使われる。日本の結果は 6倍 ( 1 2 . 9 5 → 7 3 . 84)ということであるから、労働の安定性や内部労働市場を形成しながら、名目賃金の変化 が大きいという形で賃金調整がされていることが示される。また昨今、実力主義や能力主義に 代表される雇用システムの推移をみる限り名目賃金の変化は、雇用の流動性を示すことを示す 要素とも捉えることができるではなし、かと考える。 ‑426
表1 ・ 4 オークン係数の推計結果とフィリップス曲線の傾きの導出 日本 全期 後期 前期 ∞ ① ② ③ ④ ∞ 1 9 8 0・1‑2 1 . 31 1 9 8 0・1‑1990・ 4 1 1 9 9 1・1‑2 1・ 3 180・1‑'85・4 186・1‑'90・4 1 9 1・1‑'95・ 4195・ 4‑'01・ 3 8 0 . 1 1 6 8 0 . 1 5 4 5 0 . 0 8 5 0 . 1 2 8 8 0 . 1 0 6 9 0 . 0 6 0 . 1 1 6 9 t 値 ( 2 6 . 0 6 ) * * ( 1 9 . 2 9 ) * * ( 3 . 7 6 ) * * ( 4 . 0 8 ) * * ( 3 . 0 5 ) * * ( 0 . 9 9 ) ( 3 . 0 6 ) * * /s R2 円 8 : 5 6 1 6 4 ' 38 o/sII 7 , 7639152 ~.9,354531 ぃ 1 6 . 666667, $$5431 ' 9 9 : 6 : 4 7249Ull令 ;éH.1Q~.7Q~9 0 . 9 5 4 0 . 9 0 2 0 . 9 7 1 2 . 4 9 8 2 . 0 0 1 6 . 2 7 6 0 . 8 9 9 0 . 9 1 7 0 . 9 1 8 0 . 9 2 7 -lz;司--------五福!ーで-C~j:~河アー--云忌 アメリカ 8 一幅一吋一昨 o/β フイリップ 黒坂 ( 1 9 8 8 )による推計結果 日本 アメリカ 期間 期間 1960‑1985 1960‑1985 J 8 0 . 0 2 7 1 0 . 3 5 9 t 値 ( 1 0 . 2 9 ) ( 5 . 5 6 ) 1/ 1 36:9∞3~9 2, 7855t532 s R2 0 . 9 7 0 . 9 5 *データに関しては、東洋経済新報社『経済統計年鑑 2002~CD-ROM 、内閣府『世界の潮流 2002 春』より四半期デー タを使用した。またフイリップ幽線 i 立、総供給幽線の傾き xオークン係数で求められることから導出した。黒坂 (1988)参 照 2章 3節 雇用調整係数の推計 t 円h 凋川︑ ワμ
景気変動によって生産量が調整される時、どうしても雇用量の影響には時間的ラグが生じる。 前節ではオークン係数を用いて、生産量に対する雇用の調整(保蔵)としづ観点から述べた。 雇用調整係数は労働需要係数とも呼ばれ、実際には計測できない最適雇用量日を達成するため、 ラグ付き内生変数として、 1期前の雇用量 L と、現在の雇用量 Lとを用いることで、雇用 ト l 調整速度 λを求めることである。つまり雇用調整には、雇用調整コスト 5や人員整理などのタ イム・ラグが生じる為、 1期前の雇用量のある部分 λでしか調整できないことから、部分調整 1 9 9 5 )や坂井 ( 1 9 9 8 ) 6は計量分析の立場から定式化 モデルと呼ばれる推計式を用いる。山本( し、黒坂 ( 1 9 8 5 ) 理論と分析を行なっている。野田 ( 2 0 0 2 )は、赤字企業の雇用調整速度を計測 している。本論文は黒坂のモデルを使用している。 最適雇用量は 当期の生産量とで決まる生産関数を考えると良い。生産量とは、賃金と労働 時間としたならば、対数変換した次式が導かれる。 L=α+β, Y '+u .(1) L=α+β, Y '+ W, +LT+u .(1) , 1期だけのラグを用いた部分調整モデル L‑L ‑, =λ位 ; ‑L J・・・・・ (2) (2) 式に(1)式を代入すると L, =λα+λβ, Y '+(1‑λ) L , ‑ ,+λu.・・(3) 変数などは坂井 ( 1 9 9 8 ) を用いるが、特に日本の経済基盤である製造業の各データを使用す ることで雇用調整の現状を示すことができる。また変数 Y である生産指数に関しでも、データ の制約上製造業が望ましいのデータは、『経済統計要覧~ w 日本経済統計年鑑』の 1 962年から 2 001年の四半期データ(季節調整済)使用した。 推定式 lnL =α+βlnY, +ln(W , / 汽) + ( 1 ‑ λ) L ̲, +T' ・・・ (4) L=製造業常用雇用指数 ( 3 0人以上) y 可拡工業生産指数 w=製造業賃金指数 (30人以上) p=消費者物価指数 T=タイム・トレンド 5 .雇用調整費用の存在、つまり募集費や新規採用時の担当官や採用者への OJTによる指導者の機会費用など多 くの費用が必要である。その為、需要の減少としても直ぐに解雇をすることは将来の「販売可能性」の危険性 や雇用の不安定性からくる生産性の低下の危険性も吟味しなければならない 3 6 .計量分析の立場から詳しく解説されている。坂井 ( 1 9 9 8 )は黒坂 ( 1 9 8 5 )のモデ、ノレに近い。 ‑428‑
表 2・ 5 雇用調整速度係数の推計結果 s(InY) 期間/係数 α 1 9 7 3 . 1 ‑ 2 ∞ 1 . 1 0 . 2 7 1 1 0 . 0 7 4 6 ‑ 0 . 0 5 0 . 9 2 2 8 ‑0.0003 ( 3 . 9 7 ) * * 本 ー (1 3 . 8 8 ) 本* ( 8 . 9 1 ) * ( 5 4 . 9 3 ) 海* ( ‑ 5 . 31)** 0. 4619 0 . 0 8 3 7 一0 . 0 4 7 7 0 . 8 7 2 2 ‑0.0004 ( 3 . 4 5 ) * * ( 4 . 2 7 ) 料 ( ‑ 9 . 6 8 ) * * 本* ( ( 2 8 . 0 3 ) ‑ 2 . 3 7 ) * * 0 . 7 2 6 8 0 . 0 5 5 7 ‑ 0 . 0 5 2 6 0 . 8 5 3 2 1 ‑0.0006 ( 2 . 8 8 ) 林 ‑ 1 0 . 5 9 ) * 本 ( 2 . 6 4 ) * * ( 0 . 5 6 3 3 0 . 0 7 0 4 柿 ( 2 . 8 2 ) ‑ 7 . 5 4 ) * * ( 3 . 4 3 ) * * ( A) 1 9 7 3 . 3 ‑ 1 9 8 4 . 4 ∞ B) 1 9 9 0 . 1 ‑ 22 . 1 1' 7 3 . 3 ‑・ 8 3. 4 n' 8 4 . 1 ‑・ 9 3 . 4 m' 9 4 . 1 ‑ ' 0 2 . 1 log(W/P) 1 . 1 8 2 7 0 . 0 9 1 6 ( 3 . 5 4 ) * * ‑ 0 . 0 4 4 6 ‑ 0 . 0 5 8 9 λ T 0 . 8 5 9 2 ‑0.0004 n 0 . 0 7 7 2 0 . 9 7 7 115 0 . 1 2 7 8 0 . 9 4 2 66 0 . 1 4 6 7 9 0 . 9 9 1 48 0 . 1 4 0 8 0 . 9 5 8 43 . 9 6 1 0 . 2 8 9 5 0 40 0 . 2 5 3 3 0 . 9 9 4 32 ‑ 2 . 0 0 ) 紳 ( 1 8 . 9 3 ) * * ( 0 . 0 0 0 3 林 ‑ 8 . 9 6 ) ( 4 . 2 8 ) * * ( ( 9 . 6 2 ) 林 ( ‑ 1. 4 5 ) 1 . 1437 0 . 0 7 8 4 0 . 7 4 6 7 ‑ 0 . 0 0 1 ( 2 . 7 6 ) 料 ( 4 . 5 4 )榊 ー (1 0 . 1 8 ) * * R2 ‑ 3 . 8 7 ) 特 ( 2 0 . 6 0 ) * * ( 0 . 7 1 0 5 ‑ 0 . 0 4 3 9 1 ‑ λ 本 ( ( 9 . 0 3 ) * ‑ 3 . 1 8 ) * * ホ推計データは、東洋経済新報社『経済統計要年鑑 2002~CD-ROM より、季節調整済四半期データを使用した。期間 の年度績の数字 i 立 、 1‑4期を示している。 w= 製造業賃金は、消費者物価指数で除し実質化しである。 ホマーク*ホは 5%有意である。 以上の結果から、黒坂 (1988) のアメリカのデータを借りるならば、 1960 年 ~1985 年データで 速度係数は、 0.66 であり日本はその時期に照らし合わせると 0.140~ O .289であるから、アメ リカと比較することで日本は、かなり小さいことが解る。つまり生産変動に対して、雇用調整 をする中で最適な雇用調整をアメリカは 6 6 %雇用調整を行なっていることを示し、日本は最 適雇用に 14%~28% されている=雇用調整を景気に対して行わないことを証明している。時系 列でみるとパブ、ル崩壊前後には、雇用調整が活発であったこと、そして 1995年以降も景気変 動(生産量)に対して、雇用の調整が製造業の分野で行なわれていることが示されている。た 2 0 0 2 )のように高齢者や若年層に雇用 だし、現在も終身雇用制度が多くの企業でみられ、中村 ( 調整が行なわれているとも考えられる。 まとめ パブ、ル崩壊による雇用の構造変化において、依然日本はバブル崩壊時のような景気後退期を 経験している。そしてその構造変化はむしろ、労働市場と景気にはタイム・ラグがあることか ら現在も続いているようである。ただし 1990年を堺に変化が生じているのは上記分析から明 ハ吋υ ηノU A斗
らかである。日本の労働市場の歴史にも構造変化の生じた時期は依然あった。 1 970年代の 2 度に渡る供給ショックである石油危機であるが、黒坂 ( 1 9 8 8 )は、オークン係数の労働生産性の 観点、から論及している。石油危機以後から労働供給の調整として、労働保蔵を行ないながら労 働時間による雇用調整を行なうようになったというこの時に構造変化が生じたと述べている。 図 1・2からも支持される。 本論文からの結論として、供給曲線、オークン係数、フィリップス曲線、雇用調整速度を分 析して、時間・名目賃金調整をすることで、日本は労働保蔵をしながら安定的である日本的と 呼ばれる雇用体制を築きあげてきたようである。ただしバブル崩壊後の景気低迷は、雇用のミ スマッチを生じさせ構造的失業が多くなってきていること、さらに雇用調整速度が速くなりつ つあり、流動的にならざるを得ない状況にあると考えられる。実力主義や能力主義による企業 の利潤中心的な労働市場を形成しながらの労働市場の柔軟性・弾力的なものと、企業の基幹的 な労働力保蔵(安定性)を形作る雇用システムの共存がもたらされる労働市場と考えられる。 ただしその結論にはミクロ的な分析も必要とする。本論では述べないが、時系列の賃金関数分 析により、勤続年数や年齢などの稼得(賃金)の効果は下がってきているし、転職コストも下 がってきている。少子高齢化を迎える日本において労働問題は重要な課題であり、ライフサイ クノレにおいても大きな要素を閉めている。今後更に集計データによるマクロ的分析と個票デー タによるミクロ的分析の両方の検討が必要であろう。 盈金旦型金 荒井一博、大橋勇雄 黒坂佳央 『労働経済学』 1 9 8 9 有斐杜 『マクロ経済学と日本の労働市場供給サイドの分析』東洋経済新報社 1988 島田晴雄『労働経済学』岩波書庖 1 986 大日康史,有賀健 人的資本の形成と労働保蔵 ~RBC 理論の日本労働市場への応用~ 1995 1 7 7イ ナ ン シ ャ ル ・ レt 守 ュ ーJ May1995 大蔵省財政金融研究所 山本拓 野田知彦 『計量経済学』 「労使関係と赤字調整モデル」経済研究 奥西好夫「アメリカの労働経済学 J 坂井吉良 1 9 9 5 pp.l77~~ 株式会社新世社 Vo . 153, N o . 1, Jan.2002 W 日本労働研究雑誌~ 1996, No. 43 1 pp. 43‑5 1 WSASによる経済学入門』シーピーエー出版株式会社 1998 M i n c e r . J ( 1 9 7 1 ) ' S c h o o l i n gE x p e r i e n c eandE a r n i n g J NBERandColumbiaU n i v e r c i t y P r e s s1 9 7 1, pp3, ppll, pp83~ GarySB e c k e r ( 1 9 7 5 ) IHumanC a p i t a l At h e o r e t i c a lande m p i r i c a la n a l y s i swiths p e c i a l r e f e r e n c et oe d u c a t i o n J Ga 巧TS . B e c k e r 佐野陽子訳 東洋経済新報社 1 9 7 5 I I n v e s t m e n ti nhumanc a p i t a l : At h e o r e t i c a la n a l y s i 」 自 HashimotoMasanoriandRa i s i a nJ o h n ( 1 9 8 5 ) 'EmplymentTenureandEarningsP r o f i l e s Am e r i k a nEconomicR創riew~Vol. 7 5, no. 4 ,S eptember , 1985 i nJapanandUnitedS t a t e s J W Msa s a n o r iHashimotoandJohnRa i s i a n 'EmplymentTenureandEarningsP r o f i l e si n JapanandUnitedS t a t e s :Re p l Y J W Am e r i k a nEconomicReview~ Vo . 180, n o . 1March1992 べ a n﹃ u ハ qu
旦本豆企 5ユーザー会 (SUG I‑J) アジルな SupplyChainを実現する予測プロセスの自動化 ‑SAS@High‑PerformanceForecastingのご紹介 松舘学 SASI n s t i t u t eJapan株式会社 カスタマーサービス本部プロフェツショナノレサービス第 2部 Automationo fF o r e c a s t i n gProcesse n a b l i n gA g i l eSupplyChain ‑I n t r o d u c t i o no fSAS@High‑PerformanceF o r e c a s t i n g ManabuMatsudate . tCustomerServicesD i v . P r o f e s s i o n a lS e r v i c eNo.2Dep SASI n s t i t u t eJapanL t d . 要旨 時系列予測にまつわるあらゆるステップを自動化し、サプライ・チェーン運営の高速化を実現する SAS High‑PerformanceF o r e c a s t i n g を実現するテクノロジーとプロシジャの利用法の紹介。また、予測自動化の ビジネス応用事例として SAS@SupplyChainI n t e l l i g e n c eソリューションを取り上げる。 キーワード: サプライ・チェーン,予測の自動化, SASHigh‑PerformanceF o r e c a s t i n g,HPFプロシジャ 1.はじめに:SASSupplyChainI n t e l l i g e n c e 昨今の厳しい経済環境の中で、企業は競争優位の確立のため、さまざまなビジネス上の戦略を模索してい る。その中でも、製造・流通・消費財業界では、サプライ・チェーン・マネジメント(以下SCM)改革の先進事例 に注目が集まっている。 生産」 サプライ・チェーン・マネジメントとは、企業内はもちろん、企業聞のコラボレーションによって「調達 JI 「在庫管理 JI 輸送 JI 販売」という全てのビジネス・プロセスを統合することによる「全体最適 J を目指し、競争優 位を築こうとする試みである。 SAS社は、 SCMにおける計画業務に欠かせない解析・予測・最適化に関わる ケイパピリティを提供し、 SCMをさらに支援・強化する、 SASSupplyChainI n t e l l i g e n c eを提唱している。 SASSupplyChainI n t e l l i g e n c eは、サプライヤ戦略を最適化するSAS@S u p p l i e rR e l a t i o n s h i p Management、生産・品質工程管理のSAS@ProcessI n t e l l i g e n c e、コスト管理のSAS@ValueChain Anal戸i c s,需要予測・在庫管理・価格最適化のSAS@DemandI n t e l l i g e n c eの4つのソリューションから成る ビジネス・スイートである。 SASDemandI n t e l l i g e n c eは、需要予測の SAS@DemandP l a n n i n g、在庫管理・補充コストを最小化し、 サービス・レベノレにあった在庫補充を提供する SAS@I n v e n t o r yReplenishmentP l a n n i n g、価格や値下げの 最適化を行なう SAS@P r i c eO p t i m i z a t i o nからなる。 EA 噌 べU n 4 ハ日・
消費者の趣向が多様化し、商品数が増加し、商品のライフサイクルが短期化する今日、生産計画・在庫計 画の立案は戦略的に重要な課題である。単に統計ツールを利用して、需要予測の精度を上げていくことだけ ではなく、需要動向を常時把握して、予期しない販売動向に俊敏に対応できるように、柔軟なサプライ・チェ ーンを構築してしてことがキー・サクセス・ファクターとなる。 SAS Oemand P l a n n i n g は、数千・数万に及ぶ膨大な商品に対して高速かつ高精度の予測を自動化す ることで予測担当者の作業を大幅に軽減する。同時に、特殊な需要パターンを示す商品など、商品特性に応 じた高度な解析手法によって対話型の予測を可能にしている。予測の自動化には、 SASHigh‑Performance F o r e c a s t i n g がコア技術として利用されている。本稿では、特に予測の自動化技術にフォーカスし、 SAS High‑Performance F o r e c a s t i n g(以下 HPF)で用いられる大容量・高速・高精度の自動予測のアノレゴ、リズム とサンプル・プログラムを紹介する。 2 . 予測の自動化 2‑1.SASOemandPlanning SASOemandP l a n n i n gはビジネス上のあらゆるレベルの意思決定をサポートする、スケーラピリティのある 需要予測を可能する。配送センターから庖舗としづ地域軸、商品分類コード・ SKUなどの商品軸まであらゆる レベルで、日々の販売状況を自動かっ正確に需要予測を行なう。また、新商品・短ライフサイクルの商品など、 予測の難ししものについては、対話型の予拠インターフェースを利用で、き、 SAS社の培ってきた高度な分析 力を活かして正確な予測を可能にした。また、セールス・プロモーションの効果も加味してシミュレートで、きる。 このように、 SAS社の提供する最適化手法を用いて、 1つ 1つの対象に対して需要予測を行なうため、どんな に詳細なレベルで、も需要の動向を把握で、きる。加えて、予期しない需要変化の対応するため、エージェントが 常に予測精度をモニタリングしており、一定の精度を下回ると予測担当者にメーノレなどで、アラートを発する。こ れにより、膨大な商品数の予測精度の監視作業を軽減し、システムによる自動運転のリスクを軽減する。 顧客のニーズに合致したサービスを提供するために、サプライ・チェーンにおいて重要なフェーズで、ある需 l a n n i n gは、企業の収益性向上に多大な貢献をする。 要予測を正確に実現する SASOemandP 2‑2.予測自動化の必要性 予測は、企業内計画プロセスにおける意思決定の筏拠となる。資金調達、生産・在庫計画、資材配分、予 算、販売ノノレマ、キャンベーン、調達活動などの決定は、将来の予測に基づいている。根拠となる予測がより 正確であればあるほど、より高度な意思決定が可能になる。 苫舗と別々のユニットで、それぞ、れ独 従来型のサプライ・チェーンで、は、需要予測が工場や配送センター、 j 立して行なわれており、その予測も経験則に基づくものであるなどデータによる根拠に乏しし、ものである。この ため、庖舗などの下流での需要予測の変動が、上流である工場に至る頃ーには増幅して伝わり、過剰な在庫・ 仕掛り在庫の増加をもたらし、企業の収益を圧迫している。この効果を鞭のしなりに例えてブル・ウィップ効果 と呼んでいる。在庫は帳簿上流動資産に計上されるが、簡単にキャッシコ・フローを生み出すことは困難であ ると同時に、在庫の維持費などの間接コスト増大を引き起こす。 ブノレ・ウィップ効果による見込み発注を回避し、過剰在庫を削減するための正確な需要予測を行なうには、 サプライ・チェーンのプロセスを統合し、企業内だけで、なく企業聞のコラボ、レーションを通じて予測情報を共有 することが理想的である。需要予測における課題は、こうした情報の共有化のハート、/レだけで、はなく、膨大な 商品数の存在もあげられる。予測を行なう対象商品が数万を超える場合があり、これが障害となり全ての予測 i u ワ q a A ー ハ
を正確に行なえないことがある。 実際こうした、生産・在庫・販売計画にあたって ERPや POSシステムによって蓄積されたトランザク、ンョン・ W Jの データを利用して、数千・数万にも及ぶ対象の需要予測を行ないたいとしウビジネス・ニーズは多い。予 i 対象が僅かであれば、熟練した分析者は、これまでの業務上の経験や勘を活かし、予測ソフトウェアを利用し てさまざまな時系列モデ、ルを適用しながら、精度の高い予測を行なうことができる。実際 SAS 杜では SAS/ETSなどの高度な統計処理のための諸機能を提供してきた。 000品目を超えるような大容量の予測となる しかしながら、コンビニエンス・ストアのように商品数が平均約 3 と、上記のような、分析者が一つ一つの商品に対して予測を行うのは非常に労力の強いられる作業となる。こ のような場合、予測精度の低下を抑えつつ、データの最適化や時系列分析をある程度の自動化が有効であ る 。 実際に予測の自動化が必要となってくるのは、次のようなケースが考えられる ・ 0 ・ ・ 予測対象が数千・数万にも及ぶ 頻繁に予劃を行なう必要がある 予測に利用したいデータがあらかじめ時系列データになっておらず、データ加工を行なう必要がある こうしたニーズに応えるため、 SAS杜は SASHigh‑PerformanceForecastingを開発した。 HPFは、予測 に関連するあらゆるステップ(①トランザクション・データを時系列データに変換②予測モデ、ル構築③最適 モデルによる予測④予測値算出⑤モデソレ適合度検証)を自動化し、大容量・高速・高精度の予測を実現 する。 もちろん、コンビニエンス・ストアのような小売居で、の需要予測に限らず、銀行 ATMへの現金補充における 需要予知など、幅広いビジネス上の活用法が考えられる。 なお、本稿では誌面の都合上、時系列モデルの統計的な解説は行なわない。時系列モデ、ルについては、 A.Cノ、ーベイ1などを参照されたい。 SAS/ETSとSASHigh‑PerformanceForecastingとの比較 SAS/ETS SAS/ETS SASH i g h ‑ P e r f o r m a n c e プロシジャ 時系列予測システム F o r e c a s t i n g 統計専門家 初級 中級レベルの担当者 担当者 対話式による様々な分析 対話式・自動 パッチ GUI 精度重視・少数の対象 精度と効率 自動 ッチ ノf 効率重視・膨大な対象 3 . 予測の自動化プロセス 3ー 1 .予測の自動化とは 予測の自動化とは、分析者への負荷を最小隈にするよう、システムが自動で予測を行なうことである。予測 の自動化プロセスでは、それぞ、れの時系列・候補となるモデルに対して、予測結果がもっともよく当てはまるよ うにパラメータ推定の最適化を独立して行なう。したがって各々の時系列に対して、何種類もモデ、/レをあては める。 こうした予測の自動化と、通常の予測は性格が大いに異なる。分析者が一つ一つ行う予測は、最適な予測 r o b u s t )なモデ、/レを選び、それぞれの予 をゴーノレとしている。しかし、予測の自動化のゴールは、もっとも頑丈 ( n4U A 斗 η4u
測精度がある程度得られることである。 実際のビジネスでの運用においては、商品のライフステージ、特性に応じて予測手法を適宜変えてし、くこと が望ましい。たとえば小売業で、は、予測の対象の商品にランクをつけ(サービス・レベノレとリンクさせてもよし、)、 重要度の低い商品については、自動で予測を行ない、その中で精度が低し、と判断されたものに対しては、 SAS/ETS を利用して、さらに精度の向上のため予測モデソレの修正を行なう、としづケースが考えられる。また、 重要度の高い商品についてははじめから分析者が対話的に分析を行なってしく、といった商品特性別の利 用が理想的である。 3‑2.予測のステップ つのステップにわけで見てして。 次に、実際にどのように予測が行なわれるかを、 6 ( , )データ最適化 分析対象データを適切な形式に変換するステップで、あり、予劃を行なう上で、非常に重要なステップで、ある。 Webログデータや POSのトランザクションなどは時間間隔が一定で、ないデータを、時系列モデ ノレを適用する ために、一定の時間間隔をもった時系列データに変換する。また、欠損値が存在すると正確な予測が行えな いため、平均値などを利用して統計的に欠損値を推定して補完を行う。 ( 2 )最適モデル候補選択 アノレゴ、リズ、ムは、時系列データの特徴を把握し、そのデータに妥当性のあるモデ、ルのリストを抽出するとしづ 流れになる。トレンド、のある時系列にはトレンド、に対応した時系列モデ、ノレ、季節性がある時系列には季節性に 対応した時系列モデルのリストを選択する。非線形なデータは、線形なデータに変換しなければならない。ま た、需要が断絶的で、ある筒厳需要の場合には、クロストン法を用いて予劇を行なうよう指定も可能である。 経験的に、時系列データは季節性やトレンドとし、った観点から特徴つけることがで、きる。したがって、時系 列モデ、ノレを適用する際はこれに留意する必要がある。 また、時系列モデ、ノレを当てはめるにあたって、変換を行なう必要性が生じる場合がある。その際には自動 で、対数変換・平方根変換・ロジスティック変換・ BoxCox変換などを行ない、最適なモデ、ルを判断するよう指 定可能である。 (3)予測モデル選択 ( 2 )最適モデ、ノレ選択のステップで抽出された妥当性のある時系列モデ、ノレ候補それぞ、れを、時系列データ に適用し、予劃値を算出する。その中で、もっとも当てはまりの良いモテ、ノレを 1つ採択する。 モデルの選択に当たって、このアノレゴリズ、ムで、はデータをサブ、セットして抽出し、それに対してモデ、ノレを複 数適用し、適合度統計量を比較することで、最適なモデ、ルを決定する。 サブセットされるデータは、最新のデータから遡って最初の欠損値が登場するまで、のデータで、ある。なお、 データ量が少なく、モデ、ノレの適合度が低いと考えられる場合は、サブ、セットをせずに全てのデータを利用して モデ、ノレを適用する。サブセット・データによる予測モデ ルの検討を行うことで、厳密な精度と予測対象データ の容量をある程度トレード・オフし、予測モテ、ノレ選択にかかる処理時間を短縮で、きる。このサブ、セット・データ は、ニューラノレ・ネットワークにおけるトレーニング・データに類似するものと考えると理解を助けるカも知れな し 、 。 4 3 4
( 4)予測値算出 ( 3 )のステップで選択されたモデ、/レを、時系列データに適用し予測を行なう。その際に、前ステップで行なっ たようなサブ、セット・データだけではなく、データ全件を利用して予測値を算出する。サブセット・データはモデ ルの選択にのみ使用されるもので、予測モデ、ルが一意に特定された後では予測に用いない。 また、予測に基づいて意思決定を行なう際は、予測値、信頼区間の上限信頼直界および下限信頼限界な どのうち、どの幅で予測値とするか判断する必要がある。たとえば、小売屈において、サービス・レベルが低く 過剰在庫を抱えるリスクが大きい場合は下限信頼限界を用い、サービス・レベノレが高く売れ筋商品など販売 機会損失を回避したい場合には上限信頼限界を用いるなど、臨機応変の対応が必要となる。また、 HPFのア n v e n t o r yReplenishmentP l a n n i n g の入力データとして、在庫最適化計画と連携が可能 ウトプットを、 SASI である。 (5)適合度検E 採用された予測モデ、ルを用いた予測結果から、パラメータ推定値および適合度統計量を計算し、モデ、/レの 当てはまり具合を確認する。 s t a t i s t i c so ff i t )は、実績値とモテ、/レを比較することによって、予測モデ、/レの適合度を確かめ 適合度統計量 ( るための統計量である。平均平方誤差 Meansquaree r r o r(MSE)、平均絶対誤差率 MeanAbsolute A I C )などを用いて比較される。 PercentageE r r o r(MAPE)、赤池の情報量基準 ( モデ、ルの適合度を確認し、満足してものであれば、これを予測基準値として採用する。実際の販売計画で は、この予測基準値に対して、セールスプロモーションの効果などのマーケティング、効果を調整して、最終的 な予測値を導出する。 (6)パフォーマンス(予測精度検笹) ( 1)から ( 5 )のステップまで、は予測プロセスであったが、このステップは、実績値と予測値を比較するレビュ ー・プロセスで、ある。予測をもとに生産・販売計画が立案され、商品が実際に顧客に販売され、その販売実績 が明らかになった後に、果たして予狽J Iがと、れだけ正確で、あったかを検討する。パフォーマンスは、次の点を考 ・ ・ ・ 慮して行なうと良い。 予d! J I 精度はどうで、あったか 予7j V J精度の低下の原因はなにか 予測精度が前回の予測に比べて低下した場合、何がおこったのか 精度検証をする際の判断基準として、前述した適合度統計量を用いることで、モデルどれだけ適合していた かを判断できる。また、グラフを書くことによって、実績値が予測値の信頼区間内に存在したかどうかで判断す ることができる。 過去当てはめたモデルにおいて精度が良好で、あったが、その後同じモデ、/レで、行なった予測で、は精度が低 下していたならば、流行が廃れた、競合他社のプロモーションなどの不規則なイベントが起こった、マーケット シェアが低下した、あるいは単純にそのモデ ルで、は適合しきれなくなった等と、他のデータを利用して判断す ることができる。 このように、モデ、ルの精度を確認し、精度が悪かった場合にはその因果関係を考察し、モデ ルの精度を繰り 返し高めてし、くことが業務では求められる。 u ハ︿ Fhu a4
4 . サンプル・プログラム 次に、 SASHigh‑PerformanceF o r e c a s i t n gの機能である HPFプロシジ、ャを利用したプログやラムのサンプ ルを紹介する。 1 9 9 4 . 1 ‑ 1 9 9 9 . 1)データである。すでに時系列 サンプル・データは、小売庖における商品ご との販売履歴 ( P データに変換されている。このデータを利用して予測を行なうには、下記のプログラムを実行する。入力デー e x t y e a rである。 I D は日付変数の d a t e を指定し、月間隔なので タセットは Sales、出力データセットは n i n t e r v a l = m o n t hオプションを指定する。予測の対象が全ての商品なので、 f o r e c a s t = ALL で指定している。 販売実績 1‑Feb‑94 I 5128 4174 8123.2 565 1000 12.12 1 5 . 1 99.9 13556 12413 1・阿 ar‑94 5222 4482 7807.2 406 1005 11 .78 1 5 . 3 102 11063 12752 1‑Apr‑94 3925 4665 7543.2 266 1043 12.24 11 .3 79.5 11799 16222 1 ‑阿 ay‑94 2750 4759 7242 194 1074 46 13. 14. 7 96 14497 13622 l‑Jun‑94 5117 4469 6486.8 290 1042 12. 49 13. 4 98 14999 13193 1 ‑ J u l ‑ 9 4 5570 4497 5654.3 583 1110 14.14 .8 21 104.8 15711 17201 1‑Aug‑94 3812 4103 6584.5 625 1054 14.28 19 107.5 12584 I 9455 1‑Sep‑94 5917 4076 5635.2 654 1086 42 13. 1 9 . 1 115.7 I 13036 I 11649 1‑0ct‑94 5575 3801 7567.1 583 1054 14. 41 15269 プログラムの例 PROCHPFdata=Salesout=nextyear; I Ddate INTERVAL=month; FORECAST̲ALL̲;r u n ; モデルと実績値(1 999年 2月以降を予測) 一 z ‑ ‑ E E ‑ ‑ ‑ = ・ ・ ‑ : = ‑ = : ‑ Z E ‑ ‑ ‑ = ‑ = ‑ ‑ ‑ : =‑ DDDDDDD 盲目EE ぴ口 =司 ー nununununununununu nU 門 U 門 U 門 U 門 U 門 U 門 U 門 U 門 u nUAU3Axv'tzokda守 内 J A ζ JAN1994 JAN1995 JAN1995 JAN1997 日付 JAN199g 1 4 トshoes合 ‑socksト e ‑laces I ‑436一 JAN1999 JAN2口 口 口
このような簡単なプログラムで、自動的に予測モデ、ルを当てはめ、予測値を出力することができる。オプショ ンをさまざまに設定することで、出力データセットには、パラメータ推定値や適合度統計量、信頼区間などの データを含めることが出来る。 なお、このグラフでは予測期間を指定しなかったので、テ、フォルトで、 12 期 分 の 予 測 値 が 出 力 さ れ て い る (1999.2以降の部分)。 5 .まとめ 本稿では、 SASHigh‑Pe斤ormanceF orecasting で用いられる予測の自動化のテクニツクを実際の業務に 即した形で紹介した。このテクニックによって、大容量・高速の予測自動化を実現した。サブ、セット・データを用 いた予測モデソレの選択プロセスによって高速化を実現し、実際の業務予測担当者の作業を大幅に軽減し、 サプライ・チェーン・サイクルのますますの短縮化の期待に応えることが可能となる。また、高度なサプライ・チ ェーンにおける需要予測で、のキー・サクセス・ファクターは、単に予測精度を上げることではなく、精度を常に モニタリンク守して変化を即時に捉えるシステムを整備しつつ、予測パケットを短期化してその変化に対応で、き る生産プロセスなどの社内プロセスを再構築することである。 l ドイツの 4大銀行のひとつで、世界トップ 3 0に入るコメノレツ銀行は、 SAS社の予測ソフトウェアを使用して、市場予 測と最適化供給計画を注文処理に統合し、支庖や現金支払機への現金供給を最適化するアプリケーションを開 発。コメルツ銀行で、は、 SAS社の予測ソリューションにより、それまで、現金支払機 (ATM)Iこ滞っていた現金や物流コ ストを最大 18%まで削減できた。 1 A . C .ハーベイ著国友直人・山本拓訳「時系列モデ、/レ入門」東京大学出版会, 1985 *SASP u b l i s h i n g [参考文献] • SASHigh‑PerformanceF o r e c a s t i n gWebサイト ・ ・ ・ h t t p : / / w w w . s a s . c o m / t e c h n o l o g i e s / a n a l y t i c s / f o r e c a s t i n g / h p f / i n d e x . h t m l SASWhitePaper Large‑ScaleAutomaticF o r e c a s t i n g‑ M i l l i o n so fForecastsw i t hSAS High‑PerformanceF o r e c a s t i n g SASP u b l i s h i n g,2002 SASHigh‑PerformanceF o r e c a s t i n gProcedureReference R e f .h t t p : / / s u p p o r t . s a s . c o m / r n d / a p p / d a / n e w / h p f / h p f . p d f What 'sNewi nSAS9 . 1SASHigh‑PerformanceF o r e c a s t i n g t B 円 A斗 a nぺU
<参考資料 >SAS@High.PerformanceForecasting:HPFプロシジャ簡易プロシジャ・レファレンス
PROCHPFoption;
BY 変 数 名 ;
FORECAST 変数リスト Ioption;
lD 変数名 INTERVAL=intervaloption;
PROCHPFステートメント
BACK=n 予測が開始されるオブザベーションを指定。デフォルトは BACK=Oo (
9
.
1
)
DATA=SAS.data‑set 入力データセットの指定。
LEAD=n 何期先まで予測するか指定。デフォルトは 12期
。
MAXERROR=number エラーの許容範囲を指定。デフォルト i
ま5
0。
NOOUTALL 予測期間の最終オブザベーションのみをデータセットに出力。
OUT=SAS‑data‑set 出力先 SASデータセットの指定
OUTEST=SASd
a
t
a
‑
s
e
tパラメータ推定値および適合度統計量を含むデータセットを出力
司
OUTFOR=SAS‑data‑set 実績値と予測値、 95%信頼区間を含むデータセット出力
OUTSEANSON=SAS‑data‑set 季節統計量を含むデータセットを出力
OUTSTAT=SAS‑data‑set 適合度統計量を含むデ?ータセットを出力
OUTSUM=SAS
・
d
a
t
a
‑
s
e
t 各種統計量および予測値を含むデータセットを出力
OUTTREND=SAS‑data‑set トレンドに関する統計量を含むデータセットを出力
PLOT=o
p
t
i
o
nI
(
o
p
t
i
o
n
s
)ODS出力をカスタマイズ。 9
.
1では評価版。詳細はプロシジャ・レファレンス参照。
PRINT=o
p
t
i
o
nI
(
o
p
t
i
o
n
s
) アウトプット画面に出力する内容を指定。デフォルトでは、画面出力されない。
ESTIMATE...パラメータ推定値適合度統計量
SUMMARY... 要約統計量
FORECASTS...実績値と予測値、 95%信頼区間
TRENDS... トレンド統計量
SEASONS... 季節統計量
ALL...全て出力
STATISTICS...適合度統計量
PERFORMANCE…パフォーマンス時の統計量を表示 (
9
.
1
)
PERFORMANCESUMMARY'"パフォーマンス時の要約を BYグループごとに表示 (
9
.
1
)
PERFORMANCEOVERALL…パフォーマンスの時の要約を全ての BYグループで表示 (
9
.
1)
STATES...バックキャスト、イニ、ンャル、ファイナルのステイトを表示 (
9
.
1
)
PRINTDETAILS アウトプット画面に詳しい結果を出力
SEASONAL
lTY=number 季節サイクルを指定。デフォルトは九
SORTNAMESFORECASTステートメントで指定された変数名をソートして表示 (
9
.
1
)
STARTSUM=n 予測を何期日から開始するか指定する。 Lead=nオプ、ンョンの値と併用。
BYステートメント
BY グループ名グループごとに予測を行なう。
FORECSTステートメント
FORECAST 変数リスト Ioption;
‑438一
ACCUMULATE=o p t i o n タイムパケットの積み上げ・配分を指定。 ALPHA=number有意水準を指定。闇値は 0‑1。デフォルトは、 0 . 0 5で信頼区間 95%。 HOLDOUT= number 予測モデ.ル選択に利用されるサンプルの期間を指定。サンプル抽出される期聞は、最新のデータカら 欠損値が存在しない区間まで。なお、 HPFでは予測モデルの決定に利用される期間を指定するので、あり、最適な予測モデルが 選択された後には、実績値を全て利用して予測を行なう。 HOLDOUTPCT=number サンプル期間の長さを全体の何パーセントにするカ a指定。 ( 9 . 1) n t e r m i t t e n tオプションで、指定した値より大きい時、問歓需要と判断して 10M/ INTERMITTENT=number平均の欠損値間隔が i クロストン法を利用する。デ、フォルトは、 1 . 2 5 .BESTALLオプ、ンョンと併せて使用する。 MEDIAN 中央値で予測を行なう。無指定ならば、平均で予測を行なう。 MODEL=モデ、ル名 。 予測に際して、あらかじめ時系列モデ ルを指定することが可能。デフォルトは、 BEST NONE..モデ、ルを適用しない DAMPTREND..ダンプトレンド指数平滑化 SIMPLE...指数平滑化 SEASONAL...季節調整平滑化 DOUBLE...2重(ブラウン)トレンド平滑化 WINTERS...乗法型ウインターズ、 L lNEAR...線形(ホルト)指数平滑化 ADDWINTERS...加法型ウインターズ BEST...平滑化法全て (SIMPLE,OOUBLE,LINEAR,OAMPTRENO,SEASONAL,WINTERS, AOOWINTERS) BESTN. 季節性のないモデル (SIMPLE,OOUBLE,L lNEAR,OAMPTRENO) BESTS...季節性のあるモデ、ル (SEASONAL, WINTERS, AOOWINTERS) 9 . 1カaら 10Mに呼称変更) IDMICROSTON..クロストン法。問駄需要(需要が断続的なケース)に用いる。 ( BESTALL...全てのモデルから選択 (IOM[CROSTON,BEST) 9 . 1 ) NBACKCAST=n パックキャストを初期化するオプ、ザべーション数を指定 ( REPLACEBACKBACK=option で指定されたデータを、 OUT=データセットで 置き換える ( 9 . 1 ) REPLACEMISSING...実績f 直中の欠損値を、予測値で補完する SELECT=o p t i o n 適合度統計量を指定。デフォルトは、 RMSE。 SSE,MSE,UMSE,RMSE,URMSE,MAPE,RSQUARE,ADJRSQ,AADJRSQ,RWRSQ,AIC,SBC,APC, MAXERR,MINERR,MINPE,MAXPE,ME,MPE が利用可能。詳細はプロシジャ・レファレンスを参照のこと。 SETMISSING=o p t i o n[number1 0ステートメントの項を参照。 TRANSFORM=o p t i o n データセットの変換方法を指定, MOOEL=CROSTONの時は無効。 NONE...変換しない。デフォルト。 LOGIST lC . . . ロジスティック変換 LOG...対数変換 BOXCOX(n)...BoxCox変換。ー 5: : ' On三5 SQRT...平方根変換 AUTO...Noneまたは Logから自動で変換法を決定。 USE=optionOUT=及び OUTSUMニデータセットにおいて出力される予測値を特定する。 PREDICT...予測値を用いる。デフォルト。 UPPER...上直信頼限界を用いる。 LOWER...下限信頼唄界を用しる。 ZEROMISS=o p t i o n1 0ステートメントの項を参照。 nぺU ・ A4 ハヨ
l Dステートメント I D 変数 INTERVAL=intervaloption ACCUMU凶 JE=option タイムバケット毎にどのように累算するカるを指定。 NONE..そのままの値を用いる。デフォルト。 N . . .欠損以外の数 TOTAL...合計 NMISS..欠損の数 AVERAGEI AVG...平均 NOBS...オブ、ザべーション数 MINUMUMIM I N . . .最小値 F I R S T . . .最初の値 MEDIANIMED...中央値 LAST...最後の値 MAXMUMIMAX...最大f 直 STDDEVISTD...標準偏差 AL lGN=option... 出力での SAS 日付の表記位置を指定。 BEGINNINGIBEGIB(デフォルト), MIDDLEIMIDIM,ENDINGIENDIEが利用可能。 END=option... データセット中の日付値の終了日を指定。 INTERVAL=option 日付値の間隔を指定。 YEAR,SEMIYEAR,QTR,MONTH, SEMIMONTH,TENDAY ,WEEK,DAY ,HOUR,MINUITE,SECOND が使用可能。 NOTSORTED 変数をソートして出力しない ( 9 . 1 ) SETMISSING=optionInumber …欠損値の補完方法を指定。 MISSING(欠損値として扱う), AVERAGEIAV , G MINIMUMIMIN,MEDIANIMED, MAXIMUMIMAX,FIRST ,LAST ,PREVIOUSIPREV ,NEXTが使用可能。 START=o p t i o n . . .データセット中の日付値の開始日を指定。 ZEROMISS=o p t i o n 最初、あるいは最後の f O Jの値の扱いを指定。 NONE, LEFT , RIGT , BOTHが指定可能。 lDMステートメント ( 9 . 1) IDMoptions; 9 . 1では、間駄需要 I n t e r m i t t e n tOemand Modelの機能が大幅に強化された。詳細はプロシジャ・レフアレンスを参照 のこと。 INTERVAL=(smoothing‑model‑options) SIZE=(smoothing‑model‑options) AVERAGE=(smoothing‑model‑options) number BASE=AUTOI SASHigh‑PerformanceF o r e c a s t i n g の HPFプロシジャの、ンンタクスは、 SAS@System9を元に記述されている。 ( 9 . 1 )と記述さ れてしるものは、 SAS@9.1 からの新機能。 ‑440一
ポスターセッション 調査・マーケテイング
日本 SASユーザー会 (SUG1‑0) 地方における実演芸術鑑賞の実態 一県民芸術劇場(兵庫県)の来場者調査より一 有馬昌宏 神戸商科大学商経学部管理科学科 AnAttemptt oGraspt h eDemandS t r u c t u r eo fP e r f o r m i n gA r t si nHyogoP r e f e c t u r e M a s a h i r o Arima KobeU n i v e r s i t yo fCommerce 百王T ヒ 二 , ヲ ミ ご 日 兵庫県で実施されている、地方での実演芸術の鑑賞機会を提供するための県民芸術劇場への来場 2年度と 1 3年度に実施し、この調査データを SASおよび JMP 者を対象とするアンケート調査を平成 1 を用いて分析し、レジャー白書や社会生活基本調査とし、った全国規模の無作為標本による調査の結 果と比較対照することにより、地方における実演芸術のライブ、での鑑賞活動の実態を明らかにしようと 試みている。 キーワード: アンケート調査、 JMP、SAS8 . 2、TABULATEプ口、ンジャ 1 .はじめに わが国経済社会が成熟し、交通基盤や情報通信基盤が整備・高度化されるとともに、我々の生活様 式は大きく変化し、我々の活動内容は多様化して行動範囲も拡大してきている。この生活様式の変化 と現状を総務庁統計局の「平成 1 3年 ( 2 0 0 1年)社会生活基本調査」に基づいて生活時間(15歳以上 の人々の週全体の平均時間)の観点から見てみると、 1次活動(睡眠、食事など生理的に必要な活動) は1 0時間 3 4分 、 2次活動(仕事、家事など社会生活を営む上で義務的な性格の強し、活動)は 7時間 00分であるのに対し、自由時間である3次活動は6時間 26分と 1日の生活時間の 4分の 1を超えてお 、 り2 5年前の昭和 5 1年 ( 1 9 7 6年)調査と比較すると 3次活動に充てられる時間は 59分も増加してきて いる。しかし、この余暇活動時間の変化や余暇活動内容の変化は、人々の年齢・性別・職業・居住地 域などの違いを超えて一律に進行してきているものではない。 例えば、 3 次活動の中の積極的余暇活 動を構成してしも「趣味・娯楽」の種目別にみた行動者率は、表 1に示すように 4 7 都道府県の問でか なりの変動を示している。 本研究は、このような状況を踏まえ、兵庫県が推進している「こころ豊かな地域社会づくり」のための ηペ U a4 a4
表 1 趣味・娯楽の都道府県別の行動者率(範囲と変動係数) 最高 全ジャンル スポーツ観覧 美術鑑賞 演芸・演劇・舞踊鑑賞 映画鑑賞 クラシック音楽鑑賞 ポピュラー音楽鑑賞 楽器演奏 邦楽 カラオケ 埼玉県 福岡県 東京都 東京都 東京都 東京都 東京・京都 滋賀県 石川県 埼玉県 兵庫県 8 9 . 3 2 4 . 9 2 8 . 9 2 2 . 5 4 4 . 3 1 2 . 9 1 5 . 6 1 3 . 4 2 . 3 4 4 . 8 8 6 . 3 1 9 . 3 2 0 . 5 1 6 . 8 3 6 . 2 1 0 . 5 1 3 . 5 . 1 11 1 . 4 3 9 . 1I 最低 7 7 .2 青森県 1 3 . 1 徳島県 1 0 . 9 沖縄県 1 1 . 0 愛媛県 1 9 . 5 秋田県 6 . 1 和歌山県 9 . 8 青森県 8 . 1 徳島県 0 . 9 群馬県 2 8 . 8 青森県 変動係数 (%) 3 . 9 1 5 . 2 20. 4 1 7 . 2 1 7 . 6 1 7 . 1 1 3 . 8 1 0 . 7 21 .5 1 0. 4 平成 13年社会生活基本調査報告より作成 c 一つの基盤として、積極的余暇活動を構成する「趣味・娯楽」の中でも特に実演芸術の鑑賞関連活 動に注目し、兵庫県が県内で展開してし、る『兵庫県民芸術劇場』への来場者調査を実施し、社会生活 基本調査やレジャー白書で知られる「余暇活動に関する調査」などの全国調査との比較を通じて地域 社会における芸術・文化の現状と課題を把握し、今後の県や市町の芸術・文化行政立案と評価のた めの基礎資料を提供することを試みるものである。 2 .既存の芸術・文化統計の状況と本研究の概要 わが国の芸術に関する統計情報の整備状況は、芸術・文化に関連する活動を客観的に把握して計 量的に分析することの必要性や要求が、経済学や社会学を中心とした社会科学分野での学問的関心 からだけではなく、文化政策やアートマネジメント(芸術経営)などの実務的な観点からも高まってきて いるにもかかわらず、 1976年から 5年毎に実施されている総務庁統計局の「社会生活基本調査」、財 団法人自由時間デザイン協会(旧名は財団法人余暇開発センター)による 1976年から毎年実施され て「レジャー白書」として公表されている「余暇活動に関する調査」などが継続的に実施されているだけ で、その整備は 1970年代後半になって漸く着手されはじめた段階で、あるとし、える。 しカも、上記の調査は、全国の約 7 .7万世帯、約 2 0万人を対象とする「社会生活基本調査 ( 2 0 0 1年 から全国の 3千人を対象とする「余暇活動に関する調査」まで、し、ずれも無作為標本に基づく 調査)J 調査ではあるが、残念ながらミクロの標本データは提供されておらず、報告書などで公表されているマ クロの統計データから分析を行うことがで、きるのみで、あった。なお、ミクロの標本データによる分析として は 、 1996年の社会生活基本調査のデータを用いて社会人の音楽鑑賞活動の有無を規定する要因と 3 J、2000年の全国消費実 児童・生徒のクラ、ンック音楽鑑賞活動を規定する要因の分析を行った有馬 [ 態調査のデータを用いて実演芸術の鑑賞構造を分析しようとした有馬・周防 [ 5 Jなどがある。また、ミク ロの標本データを用いた研究の可能性については、有馬 [ 4 Jを参照されたい。 また、上記の各種全国調査は芸術活動のみに焦点を当てた調査ではないため、芸術の享受に関 する詳細な分析を試みようとしても、ジャンル(種目)を細分化した各芸術分野での芸術の享受量(ある ‑ 4 4 4
いは需要量)や享受のスタイルについてまで踏み込んだ設聞がされていないとしづ問題点やサンプル 数に伴う問題点があった。 を利用して兵庫県での観劇、 例えば、「レ、ジャー白書」として公表されている「余暇活動に関する調査 J 演芸鑑賞、音楽会・コンサートなど、についての参加率の変化をみると、表 2 (こ示すように、母集団の大 2 0 0 0年の国勢調査による兵庫県の 1 5歳以上人口は 4,7 1 6,4 3 3人)に対してサンプル数が 1 0 0前 きさ ( 後と非常にノトさいことの影響を受け、推定された兵庫県での参加率は大きく変動しており、この数字で 兵庫県での鑑賞の実態を代表させることには無理がある。 したがって、芸術活動の細分化された各ジャンルの需要や芸術の享受者(需要者)の享受スタイル なども把握できる詳細な標本データを得て、さらに芸術の享受活動に影響を及ぼす個人属性などでブ レイクダウンを重ねる細かな分析にも耐えうるだけの標本数を確保できる調査を限られた予算の範囲 内で行おうとすれば、調査対象を特定の社会階層や特定の地域に限定した上で、標本抽出にも工夫 を凝らした独自の調査を実施することが必要になる。 こうした観点から、兵庫県が県内で展開している『兵庫県民芸術劇場』事業の一般公演事業に着目 し、『県民芸術劇場』を所管している兵庫県県民生活部芸術文化課ならびに財団法人兵庫県芸術文 化協会の協力を得て、『兵庫県民芸術劇場』の一般公演入場者を対象とする来場者調査を実施し、消 費支出の観点から芸術・文化関連活動の実態を全国的に把握できる「家計調査」と行動の有無や頻 度の観点から芸術・文化関連活動の実態を全国的および都道府県別に把握できる「社会生活基本調 査」の分析結果と比較対照しながら、兵庫県民の芸術・文化活動の特徴を解明していくことを目的とす る本研究を企画した。 3 .兵 庫 県 「 県 民 芸 術 劇 場 」 の 来 場 者 調 査 か ら み た 実 演 芸 術 鑑 賞 の 実 態 3 .1 調 査 の 概 要 1 9 9 1年度)より、県民に優れた舞台芸術を身近に鑑賞できるように、兵庫県 兵庫県では、平成 3年度 ( と市町等がその経費を一部負担し、県内芸術団体等の協力を得て公立文化施設を会場とする「県民 2年度は、県内 3 7市町で延べ 3 8回の「県民芸術劇場」が 芸術劇場」事業を展開してきでいる。平成 1 4, 6 1 2人の県民が、また平成 1 3年度は、県内 3 2市町で延べ 3 3回の「県民芸術劇場」が 開催され、 1 開催され、 1 1, 0 0 4人の県民が舞台芸術を鑑賞している。 我々は、限られた経費の中で兵庫県民の芸術鑑賞活動の実態を把握すべく、「県民芸術劇場」を所 2年 管してしも兵庫県県民政策部芸術文化課と財団法人兵庫県芸術文化協会の協力を得て、平成 1 度は、平成 1 2年 8月 6日に南淡町立文化会館で開催された「南淡町立文化体育館竣工記念ミュージ 3年 3月 1 1日に芦屋市のルナ・ホールで、開催された「新世紀の響きハイドン・オラトリ カノレ」から平成 1 オ」までの 1 4の県民芸術劇場の公演について、平成 1 3年度は我々のミスにより調査票の授受ができ なかった 2つの公演を除く 3 0の公演について、来場者調査を実施した。有効回答者数は、平成 12年 4 9 9人、平成 13年度調査で 3, 5 1 2人で、あった。 度調査で 4, 1 5の回答選択肢からの なお、調査票は A4サイズの用紙に両面印刷されたもので、①情報入手先 ( ‑445
表2 i 余暇活動に関する調査(レジャー白書 ) Jに よ る 芸 術 活 動 参 加 率 の 推 移 ビデオの鑑賞(レンタルを含む) 1987 1988 1990 1 9 9 1 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 全国 3 0 . 8 3 6 . 9 4 4 . 4 4 2 . 9 .6 41 4 4 . 3 4 3 . 2 4 2 . 2 4 0 . 8 41 .0 45. 4 4 5 . 7 4 2 . 6 東京 3 8 . 9 3 7 . 7 4 9 . 0 51 . 7 4 4 . 8 4 8 . 7 5 0 . 3 4 8 . 8 4 4 . 0 4 4 . 4 4 6 . 6 4 9 . 9 4 4 . 9 大阪 兵庫 24. 4 3 7 . 2 4 4 . 9 4 35. 4 0 . 1 3 7 . 6 4 4 . 1 3 3 . 5 3 9 . 9 3 9 . 5 4 7 . 1 3 3 . 7 4 0 . 7 4 42. 38. 4 3 6 . 5 4 4 . 6 3 5 . 1 4 2 . 3 3 9 . 3 4 7 . 1 4 4 . 6 4 2 . 9 5 0 . 9 4 7 . 0 5 4 . 5 4 0 . 0 3 7 . 6 43. 4 観劇(テレビ l ま除く) 1987 1988 1990 1 9 9 1 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 全国 1 2 . 6 1 2 . 5 1 2 . 1 11 .9 1 2 . 6 1 2 . 8 1 2 . 8 1 1 . 7 1 2 . 2 1 2 . 7 11 .5 1 0 . 5 1 2 . 6 11 . 7 東京 1 8 . 8 .2 21 2 2 . 3 2 0 . 8 2 0 . 4 2 4 . 0 2 3 . 4 2 3 . 2 2 2 . 7 21 .3 1 8 . 9 2 0 . 8 2 3 . 2 21 .3 大阪 1 3 . 7 1 6 . 6 1 2 . 0 1 8 . 5 1 2 . 5 1 4 . 5 1 7 . 5 9 . 9 .0 11 1 6 . 4 9 . 6 11 .9 1 2 . 5 1 2 . 7 兵庫 1 6 . 2 1 3 . 6 1 2 . 2 1 0 . 3 1 2 . 7 1 5 . 3 1 2 . 4 1 0 . 1 1 5 . 5 2 0 . 3 1 4 . 9 1 4 . 1 1 2 . 6 1 2 . 8 演芸鑑賞(テレビは除く) 1987 1988 1990 1 9 9 1 1992 1993 1994 1995 1996 1997 1998 1999 2000 2 0 0 1 5 . 1 5 . 1 4 . 7 4 . 8 5 . 5 4 . 6 5 . 2 6 . 5 6 . 2 8 . 1 3 . 9 4 . 3 5 . 6 全国 4 . 6 4 . 9 東京 4 . 3 4 . 6 大阪 兵庫 2 . 6 7 . 0 4 . 0 8 . 3 2 . 0 4 . 0 6 . 0 5 . 3 5 . 4 5 . 5 5 . 6 6 . 9 6 . 1 9 . 2 8 . 6 7 . 9 5 . 9 1 3 . 9 6 . 7 5 . 6 7 . 5 6 . 0 6 . 5 5 . 5 2 . 4 6 . 7 4 . 7 6 . 5 7 . 8 6 . 3 5 . 2 4 . 4 3 . 6 3 . 5 3 . 3 9 . 0 4 . 1 3 . 7 5 . 5 音楽会・コンサートなど 1987 1988 1990 1 9 9 1 1992 1993 1994 1995 1996 1997 1998 1999 2000 2 0 0 1 全国 1 9 . 8 1 9 . 8 1 9 . 1 21 .5 2 0 . 9 2 2 . 0 2 2 . 3 2 0 . 8 2 2 . 3 2 0 . 0 2 0 . 9 2 0 . 4 2 3 . 6 2 2 . 5 東京 2 5 . 0 2 4 . 5 2 6 . 7 2 9 . 3 24. 4 31 .4 3 3 . 5 26. 4 31 .0 2 8 . 1 2 5 . 2 3 0 . 6 3 4 . 4 2 9 . 1 大阪 兵庫 1 1 . 8 1 8 . 4 1 4 . 2 21 .8 1 5 . 2 1 5 . 4 1 8 . 3 1 5 . 2 1 9 . 1 1 5 . 7 1 4 . 6 11 . 7 1 8 . 5 1 5 . 6 1 9 . 2 2 8 . 2 1 7 . 9 1 5 . 5 1 8 . 1 .6 21 1 4 . 1 1 6 . 8 2 0 . 5 2 4 . 5 2 3 . 0 2 2 . 8 2 3 . 7 1 7. 4 音楽鑑賞 (CD'レコード・テープ・ FMなど) 1987 1988 1990 1 9 9 1 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 全国 31 .3 3 2 . 0 3 4 . 1 3 7 . 9 3 9 . 6 41 . 7 4 0 . 1 3 9 . 1 3 9 . 2 3 8 . 8 .9 41 3 9 . 8 4 0 . 2 4 0 . 6 東京 4 2 . 6 3 5 . 6 4 3 . 6 4 5 . 9 43. 4 4 8 . 2 4 8 . 6 4 8 . 8 4 6 . 8 4 5 . 8 4 6 . 6 4 8 . 1 4 3 . 9 4 7 . 6 大阪 兵庫 21 .8 3 0 . 4 2 8 . 6 3 3 . 2 3 4 . 8 3 8 . 0 3 9 . 7 .5 31 3 2 . 7 3 3 . 9 36. 4 2 8 . 1 3 7 . 5 2 8 . 3 4 1. 4 3 6 . 7 3 2 . 8 3 0 . 6 2 9 . 8 3 6 . 7 3 0 . 0 3 8 . 6 4 0 . 8 3 6 . 0 45. 4 4 8 . 3 3 9 . 3 3 8 . 5 サンプル数 9 9 1 1987 1988 1990 1 全国 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 3, 205 3, 379 3, 527 3, 529 3, 408 3, 470 3, 41 6 3, 467 3, 420 3, 413 3, 46 1 3. 426 2. 42 1 2. 43 1 東京 352 326 337 403 349 384 377 377 3 6 1 367 323 338 314 296 大阪 兵庫 2 7 1 285 132 288 147 264 266 266 233 216 1 6 5 259 152 235 1 6 5 234 1 4 9 245 153 266 164 1 6 1 149 152 1 3 5 205 109 99 1 )昭和 62年より、それまでの全国 5万人以上都市に居住する 15歳以上男女で 3,000サンプルに加え、 5万人 未満都市及び郡部の 1, 000サンプルを加えた計 4, 000サンプルによる調査を実施してきたが、平成 12年 調 査 (平成 12年 12月実施)より、再び調査対象を以前の都市部 3, 000サンプルに戻している。 2)参加率とは、ある余暇活動を 1年間に 1回以上おこなった人(回答者)の割合である。 出典・各年版の『レジャー白書』から作成した。 ‑446‑
無制隈複数回答)、②同行者 (6の回答選択肢から単一回答)、③県民芸術劇場鑑賞の有無 (2の回 答選択肢から単一回答)、④過去を通算したジャンル別実演芸術鑑賞経験の有無 (22 の回答選択肢 から無制限複数回答)、⑤過去 l年に限定したジャンル別実演芸術鑑賞経験の有無 (22 の回答選択 肢から無制限複数回答)、⑥稽古事や学校・地域での主体的文化・芸術活動のジャンル別経験の有 1 9の回答選択肢から無制限複数回答)、⑦公演内容の評価 ( 4の回答選択肢から単一回答および 無( 理由と感想の自由回答)、③入場料金の評価 (3の回答選択肢から単一回答)、⑨今後の県民芸術劇 場のジャンル別鑑賞希望の有無 (16 の回答選択肢から無制限複数回答)、⑬県民芸術劇場に対する 意見・感想(自由回答)、⑪年齢 ( 8の回答選択肢から単一回答)、⑫職業 ( 1 3 の回答選択肢から単一 回答)、⑬性別 ( 2の回答選択肢から単一回答)、⑭住所(市町村名を自由回答)、の 1 4の質問から構 成されている。 3 .2 調査データの入力と解析 調査データは、有馬 [ l Jと有馬 [ 2 Jの方法に従って、マイクロソフト社の表計算ソフト E x c e l を利用して 公演別に入力し、 SASによって入力エラーチェックを行うとともに無制限複数回答形式の質問に対する データを各回答選択肢に対応する O 一l型の 2値データに変換し、公演別に作成された SASデータファ イルの結合を行った。その上で、 JMP を利用して性別と職業、および職業と年齢のクロス集計を行い、 矛盾する回答がないかのデータの論理的エラーチェックを行ったO また、データの単純集計も JMP を 利用して行った。ただし、調査票の④、⑤、⑥、⑨の無制限複数回答形式の質問については、これら の質問の聞のクロス集計や、年齢や職業や性別との聞のクロス集計を JMPを利用して行おうとすれば、 例えば⑫の職業(回答選択肢の数は 13)と⑤の過去 l年に限定した実演芸術鑑賞経験、ジャンノレ(回答 選択肢の数は 22)との間では 13または 22のモザイク図と分割表からクロス集計表を作成する手聞が あるように、かなり面倒な作業が必要となる。この手聞は、無制限複数回答形式だけでなく、回答数が 制限されている制限複数回答形式の質問についても同様である。そこで、複数回答形式の質問を対 象とするクロス集計については、有馬 [ l Jで紹介した TABULATEプ口、ン、ジャを利用して一括してクロス 集計表を作成するフロログラムを作成し、 SASで実行することとした。なお、 JMPでは SASで作成した SAS デ ータセットがそのままの形式で、読み込めるが、 JMPで作成したデータセットを SASで利用しようとすれ ば 、 l)JMPで、データセットを保存する際に通常の iJMPデータテーブル」としてではなく iSAS移送ファ イル」として保存し、 2)SASのプログラムで、 DATAステップで、データを読み込む前に COpyプ口、ンジャ で、移送ファイルを変換する、としづ手順が必要なので注意されたい。この手続きは、 SAS 社のウェブ、サ イトのテクニカサポートのページ (http://www.sas.com/o 伍c e s /a s i a p a c i f i c /j a p a n /s e r v i c e /t e c h n i c al /f a q / ! is t / b o d y/p c 0 2 1 .h t m l )で紹介されている。 3 .3 集計結果の分析 現在、公演実施市町から我々のもとに郵送されてきた平成 1 2年度と平成 1 3年度の回収された調査 票のデータ入力作業は完了しており、全国を対象とした無作為調査である社会生活基本調査やレジ ‑447
表3 県民芸術劇場来場者調査の単純集計結果 性完J I 1.~監 ι主生 3 .不明・無回答 サンプル数 年齢 1 . 10歳未満 2 . 10歳代 3 .20歳代 4 .30歳代 5.40歳代 6 .50歳代 7 .60歳代 8 . 70歳代以上 9 不明・無回答 サンプル数 2000年度 1 .8 唱 1 2. 4 弘 6 . 1首 11 . 7 弘 1 9 . 1弘 21 .3 弘 1 7 . 7 % 唱 6 . 8 3 . 2 弘 4. 49 9 2001年度 3 . 0 % 1 9 . 0 % 5 . 6 % 1 0 . 3 弘 1 6 . 7首 1 9. 8 弘 1 4 . 5 也 5 . 7 % 5 . 3 % 3 . 5 1 2 2000年度 1 6 . 8 % 百 9 . 5 7 . 0 世 7. 4 弘 3 . 1 % 21 .3 弘 3 . 3 弘 8 .1 弘 1 .6 弛 2001年度 1 4 . 6 也 7 . 1 % 覧 5 . 9 70% 2 . 7弘 1 9 . 0 % 47 弘 1 4 . 3 覧 17 也 11% 弘 0 . 2 8 .6% 弘 3 . 8 9 . 3 弘 3 . 5 1 2 仕事 1 会社員(常勤) 2 .パートタイム 3 . 自営業 4 公務員 5 .教員 6 専業主婦 7 小学生 8 中学生 9 .高校生 1 0 大学・短大生 1 1 専門学校生 12 無 職 1 3 その他 1 4 不明・無回答 サンプル数 1 . 1 弘 0 . 1弘 1 0 . 6 % 3 . 7首 6 . 5 弘 4. 49 9 03 これまでに県民芸術劇場で公演の鑑賞を されたことがありますか。 1 今回がはじめて 2 これまでに鑑賞した 3 不明・無回答 サンプル数 07 本日の催しのご感想はいかがで したか 。 2001年度 2000年度 54. 4 弘 1 とてもよかった 53. 4 弘 2 よ治、った 2 7 . 6 弘 2 6 . 6 首 3 ふつう 3. 4 弘 5 . 0 % 0 . 6 首 4 よくなかった 0 . 2 弘 5 不明・無回答 1 5 . 4 百 1 3 . 4 百 サンプル数 4. 49 9 3 . 5 1 2 08 L圭ど 2 ふつう 主亘ど 4 不明・無回答 サンプル数 4 4 8一
Q1 本自の催しを何でお知りになりましたか。(複数回答) 2000年度 2001年度 1 7 . 1 % 1 6 . 9也 1 ポスター 1 7 . 2 也 1 8 . 0 也 2 ちらし 5 . 0 也 5 . 6也 3 新聞 2 . 3 % 4 . 県広報 2 . 0 首 .6 也 21 2 6 . 1 % 5 市・町広報 3 . 4 目 2 . 6 % 6 情報誌 8 . 1也 7 出演者から 5 . 7 百 9 . 5 見 1 0 . 6也 8.会場からの案内 0 . 8 首 9 .雑 誌 0 . 2 弘 2 2 . 4 覧 21 .0目 1 0 知人から 11.ァレピ aフジオ・ CATV 1 .0百 1 . 1百 1 .4 首 3 . 2 % 1 2 有線放送 1 5 . 2 弘 11 .3 弘 1 3 学 校 や PTAからの案内 1 .4 首 1 4 回覧板 2 . 1唱 5 . 6 百 6 . 3 也 1 5 その他 サンプル数 4, 49 9 3 . 5 1 2 Q2.今日はどなたとお越しになりましたか 2000年 度 2001年 度 1家 族 4 8 . 2 弛 4 7 . 5 弘 2 職場の人 3 . 8 % 4 . 8 % 3 学校の人 8 . 6 覧 1 3 . 8 百 4 近所の人 1 3 . 1百 1 2 . 2 也 5 一人で 1 5 . 5 也 1 2 . 9 首 11 .2 也 6 その他 1 0 . 0 首 4. 49 9 3 . 5 1 2 佳之7')レ数 Q4.本日の公演を除き、これまでに劇場・ホールでご覧に なった演目があれば、該当する演目すべて l こOを お付けください。 2000年 度 2001年度 4 2 . 8 弘 4 2 . 5 % 1 オーケストフ 2 器楽演奏 3 0 . 1弘 2 9 . 0 覧 2 7 . 3 弘 3 室内楽 2 8 . 1也 21 .9 弘 4 .声 楽 2 2 . 1也 3 2 . 9 首 5 .合唱 3 0 . 7 首 1 2 . 9 弘 1 3 . 6 也 6 .オペフ 1 9 . 0 % 1 9 . 5 弘 7 バレエ 8 .ミュージカル 2 9 . 5 弘 3 3 . 7 % 2 8 . 6 目 2 9 . 1 % 9 .演 劇 1 3 . 1也 1 0 歌舞伎 1 3 . 2 弛 6 . 7 首 1 1 文楽 6 . 6 弘 1 2 能・狂昌 1 3 . 5 % 1 5 . 7 % 7 . 9 也 1 3 邦楽 7 . 2 弛 1 4 .邦 舞 3 . 7 % 4 . 1 % 1 5 民謡 7 . 3 弘 8.4% 1 6 ジャズ 1 8. 4 也 1 7 . 2 % 6 . 5 弘l 7 . 5 弘 1 7 ロック 1 7 . 6 弘 1 7 . 7 也 1 8 ポップス 2 5 . 0 % 1 9 歌謡曲・演歌 2 5 . 2 弘 2 4 . 4 弘 2 2 . 9 首 2 0 .落語・漫才 5 . 8 覧l 4. 4 唱 2 1 その他 1 0 . 3 也 22 観た」とがない 4, 49 9 サンプル数 3 . 5 1 2I Q5.本日の公演を除き、過去 1年間に限定して劇場・ホー でご覧になった演目があれば、該当する演目すべて Oをお付けください。 2000年度 2 1年 度 1 オーケストフ 2 2 . 1也 1 8 . 8 也 2 器楽演奏 1 5 . 1也 1 3 . 8 也 1 4 . 0 首 3 .室 内 楽 1 2 . 1目 4 .声 楽 1 0 . 2 % 9 . 3 也 5 合唱 1 6 . 2也 1 5. 4 也 4 . 8 也 6 .オペフ 4 . 0也 7 .1 ¥レエ 6 . 0 首 6. 4 也 8 ミュージカル 11 .8 也 1 5 . 1 % 9 演劇 1 0 . 6也 9 . 8 % 1 0 歌舞伎 5 . 0 % 4 . 2 % 1 . 5也 1 1 文楽 1 .3 弘 1 2 能・狂言 5 . 2 % 6 . 5 首 1 3 邦楽 2 . 6 首 3 . 0 弘 1 4 邦舞 1 .3 首 1 .3% 1 5 民謡 3 . 8 首 3 . 4 % 8. 4 百 1 6 ジャズ 7 . 9 % 1 7 ロック 2 . 1弘 2 . 1百 6 . 5 百 1 8 .ポップス 6 . 5 弘 1 0 . 3 首 1 9 歌謡曲・演歌 1 0 . 6 弘 7 . 8 弘 20 落語・漫才 8. 4 百 3 . 6 首 21.その他 3 . 1弘 22 観た」とがない 1 7 . 3 弘│ サンプル数 4. 49 9 3 . 5 1 2 Q6 以下にあげる学校のクラブ・公民館・カルチャ センター Q9 今後、「県民芸術劇場」でご覧になりたい演目を下言i ∞ などで行われている活動や個人で行うお稽古事につい て、参加したり習ったりしたことのあるものすべてに Oを お付けください。 2000年度 2001年度 1 ピアノ 2 2 . 9 也 2 5 . 5 % 5 . 1也 2 電子オルガン 5 . 0也 7 . 2 也 8 . 3 也 3 ブフスバンド・オーケスト 1 8 . 2 首 1 8. 4 也 4 コーフス・声楽 5 邦楽 3 . 7也 3 . 2 也 6 . 民謡 1 .6 也 2 . 2 % 3 . 5也│ 7 邦舞・おどり 3 . 2 也 4 . 2 担 8 .バレエ・モダンダンス 3.4% 5 . 2 覧 9 社交ダンス 6 . 3 弛 1 0 .華 道 1 9 . 5 % 1 8 . 6 % 1 1 茶道 1 6 . 7 % 1 5 . 9 % 1 1 2 和歌・俳句 3 . 8也 3 . 1 % 1 .5 也 1 3 詩・文芸 1 .2 弘 7 . 5首│ 1 4絵冨 8 . 1 % 2 5 . 6 弘1 1 5 .書道・習字 26. 4 也 1 6 ロック・ジャズなどのパン 1 .6% 2.4% 4 . 3 % 4 . 6 % 1 7 カフオケ 9 . 6 百 8 . 3 弛 1 8 その他 1 9 した」とがない 2 4 . 3 首 サンプル数 4, 499 3 . 5 1 2 ジャンルから3つお選びください。 l l ‑449一 1 オーケストフ 2 器楽演奏 3 .室 内 楽 4 声楽 5 .合唱 6 オペフ 7 バレエ 8 ミュージカル 9 演劇 1 0 歌舞伎 1 1 文楽 1 2 能・狂言 1 3 邦楽 1 4 邦舞 1 5 ジャズ 1 6 その他 1 7 特人ない サンプル数 2000年 度 2001年度 3 5 . 2 也 3 2 . 1也 1 5 . 9 首 1 3 . 2 % 1 6 . 2 % 1 4 . 0 覧 7 . 7 % 7 . 2 百 9 . 4 幅 9 . 9 % 1 0 . 4 % 1 0 . 6 唱 1 4 . 9 唱│ 1 4 . 0 弘 31 .3 目 3 3 . 3 首 1 7 . 7 % 1 7 . 8 覧 11 .2% 1 0 . 6 覧 5 . 1弘 4 . 0 弛 11 .5 弘 1 0 . 7 覧 5 . 1 % 5 . 0 首 2 . 1覧 1 . 9 % 2 0 . 3 % 1 5 . 8 弛 3 . 9 首 3 . 4 % 5 . 6 % 4 . 4 9 9 3 . 5 1 2
表 4 県民芸術劇場来場者調査のクロス集計結果(過去 1年の鑑賞の有無×性別と年齢) 平成1 2年 度 (2000年度) 1.オーケストフ 2 器楽演奏 3 .室 内 楽 4 .声 楽 5 .合唱 6 .オペラ 7 .バレエ 8 .ミュージカル 9 .演 劇 1 0 .歌 舞 伎 11.文楽 1 2 .能・狂言 1 3 邦楽 1 4 邦舞 1 5 .民 謡 1 6 ジャズ 1 7 ロック 1 8 .ポップス 1 9 .歌謡曲・演歌 2 0 .落語・漫才 2 1 .その他 2 2 .観たことがない サンプル数 男 女 未 10 満 歳 1 0歳 代 20歳 代 30歳 代 40歳 代 50歳 代 60歳 代 7 以 0歳 上 全体 2 5 . 2 1 6 . 2 1 6 . 3 1 0 . 8 1 4 . 3 4 . 8 4 . 3 9 . 0 9 . 6 3 . 0 2 1. 4 1 5 . 1 1 3 . 7 1 0 . 3 1 7 . 6 4 . 9 6 . 9 1 3 . 2 1 1. 4 5 . 9 1 .6 5 . 8 2 . 7 1 .6 3 . 6 7 . 5 1 .9 6 . 8 1 0 . 9 7 . 8 3 . 6 6 9 . 0 923 2, 1 6 . 0 8 . 0 6 . 7 4 . 0 1 2 . 0 2 3 . 2 2 2 . 1 1 7 . 3 1 7 . 7 2 0 . 5 8 . 3 6 . 3 1 1. 4 1 3 . 0 7 . 9 5 . 5 8 . 3 4 . 7 3 . 9 1 3 . 0 6 . 3 0 . 0 4 . 3 1 5 . 8 1 5. 4 1 .2 . 3 71 254 2 2 . 5 1 5. 4 1 4. 4 1 0. 4 1 6 . 6 4 . 8 6 . 2 1 2 . 0 1 0 . 8 5 . 0 1 .5 5 . 3 2 . 7 3 . 7 8. 4 2 . 1 7 . 0 1 0 . 1 7 . 7 3 . 7 6 8 . 3 4, 095 男 女 未 1 0 満 歳 1 0歳 代 20歳 代 30歳 代 40歳 代 50歳 代 60歳 代 7 以0歳 上 全体 2 3 . 0 1 3 . 2 1 3 . 5 7 . 7 1 4 . 6 2 . 8 4 . 2 1 0 . 3 7 . 0 2 . 5 1 .3 4 . 7 1 .9 0 . 6 3 . 7 1 0 . 9 3 . 0 5 . 7 8 . 1 9 . 1 2 . 7 2 4 . 3 882 1 7 . 0 1 4 . 5 .8 11 1 0 . 0 1 5 . 9 4 . 5 7 . 5 1 7 . 2 1 0 . 9 5 . 3 11 .9 6 . 9 9 . 9 3 . 0 4 . 0 1 .0 1 4 . 9 2 4 . 8 1 4 . 9 1 .0 2 . 0 2 . 0 0 . 0 2 3 . 2 1 9 . 0 1 9 . 0 1 3. 4 2 4 . 7 6 . 3 4 . 9 1 6 . 2 7 . 0 1 6 . 2 2 . 1 1 2 . 7 5 . 6 5 . 6 7 . 8 9 . 2 . 4 1 0 . 7 20. 4 1 4 . 8 1 .4 4 . 9 142 1 8 . 7 1 4 . 1 1 2 . 3I 9 . 3I 1 5 . 5 4 . 0 6 . 5 1 5 . 2 9 . 8 4 . 5 1 .3 6 . 3 1 . 3 4 . 2 2 . 9 0 . 7 3 . 9 1 0. 4 2 . 7 7 . 3 8. 4 7 . 5 3 . 8 6 6 . 5 1 , 172 1 . 3 1 6 . 0 1 8 . 7 1 0 . 7 1 .3 0 . 0 2 . 7 1 .3 。 。 1 . 3 5 . 3 2 . 7 2 . 7 2 . 7 2 . 7 1 0 . 7 6 2 . 7 7 5 1 3 . 0 11 .0 7 . 8 3 . 5 11 .4 1 .9 4 . 8 6 . 5 8 . 2 0 . 9 0. 4 1 .1 0 . 7 0 . 2 0 . 9 4 . 7 2. 4 3 . 7 0 . 4 2 . 2 6 . 5 4 7 . 1 537 1 9 . 6 1 5 . 3 1 2 . 2 4 . 7 7 . 5 4 . 7 4 . 3 9 . 4 9 . 0 1 .2 0 . 8 4 2. 2 . 8 0 . 0 0 . 8 8 . 2 7 . 8 7 . 5 1 .6 2 . 8 5 . 5 6 0 . 0 255 1 5 . 6 11 . 7 1 2 . 9 5 . 3 .9 11 3 . 0 8 . 1 1 6. 4 9 . 5 2 . 8 0. 4 4 . 4 1 .8 0 . 2 0 . 6 8 . 1 3. 4 7 . 1 5 . 7 5 . 3 4 . 7 64. 4 506 21 .3 1 3 . 3 1 5 . 9 8 . 2 1 4 . 5 3 . 9 5 . 1 1 3 . 3 1 0 . 9 4 . 6 0 . 5 3 . 7 2 . 7 1 .2 1 .8 1 0. 4 2 . 1 1 0 . 8 1 0 . 5 7 . 4 4 3. 6 9 . 0 828 2 7 . 7 1 5 . 3 1 3 . 3 1 2 . 6 1 7 . 3 4 . 5 5 . 1 1 0 . 7 1 2 . 0 5 . 7 1 . 7 7 . 5 4 . 0 1 .5 5 . 0 9 . 8 1 .3 7 . 6 1 6 . 6 1 0 . 6 2 . 1 7 5 . 3 918 3 0 . 5 2 2 . 6 2 0 . 8 1 9 . 0 2 7 . 7 9 . 1 8 . 0 1 3 . 6 1 2 . 2 1 0 . 1 2 . 9 8 . 3 2 . 8 2 . 5 6 . 5 8 . 2 0 . 7 5 . 3 1 3 . 7 9 . 8 2 . 6 7 9 . 5 722 l 1 . 3 平 成 13年 度 (2001年度) 1.オーケストフ 2 .器 楽 演 奏 3 .室 内 楽 4 声楽 5 .合 唱 6 オペラ 7 .バレエ 8 ミュージカル 9 .演 劇 1 0 .歌 舞 伎 11.文楽 1 2 .能・狂言 1 3 .邦 楽 1 4 邦舞 1 5 民謡 1 6 ジャズ 1 7 ロック 1 8 .ポップス 1 9 歌謡曲・演歌 20 落語・漫才 2 1ーその他 2 2 .観たことがない サンプル数 1 . 3 6 . 9 3 . 7 1 . 7 2 . 7 7 . 2 1 .9 7 . 1 11 .3 8 . 3 3 . 2 1 5 . 3 2, 200 。 。 。 。 3 . 0 1 .0 3 . 0 2 . 0 3 . 0 5 . 9 2 2 . 8 1 0 1 1 0 . 9 9 . 5 3 . 9 3 . 1 1 0 . 1 3 . 7 4 . 8 1 0 . 9 5 . 9 0 . 3 0 . 2 2 . 0 0 . 9 0 . 6 0 . 5 2 . 0 1 .6 2 . 3 0 . 8 2 . 6 4 . 7 3 5 . 9 644 1 3 . 0 9 . 3 9 . 3 7 . 3 4 1 1. 2 . 6 3 . 1 1 5 . 5 7 . 3 1 .6 0 . 5 2 . 6 3 . 6 0 . 0 0 . 5 6 . 2 6 . 7 9 . 3 2 . 6 3 . 6 1 .6 2 3 . 3 1 9 3 450一 1 3 . 7 1 3 . 1 11 . 7 7 . 9 1 0 . 8 3 . 5 1 3 . 7 2 3 . 3 1 2 . 0 1 .5 0 . 0 3 . 8 3 . 5 0 . 3 1 .8 1 0 . 5 4 . 1 7 . 9 7 . 0 8 . 5 5 . 0 1 9 . 5 343 21 . 7 1 6 . 3 1 2 . 7 1 0 . 9 1 5. 4 4 . 1 6 . 3 1 5. 4 1 0 . 6 3 . 4 1 .1 5 . 6 3 . 6 1 .1 2 . 0 1 0 . 9 1 . 4 1 0 . 7 1 0 . 7 1 1 . 6 2 . 9 1 2 . 9 559 2 2 . 0 1 5 . 9 1 6 . 2 1 0 . 1 1 7 . 2 4 . 2 5 . 7 1 3 . 9 1 0 . 8 5 . 6 2 . 0 8 . 2 4 . 3 1 . 7 3. 4 1 0 . 8 2 . 3 8 . 2 1 6. 4 1 0 . 5 1 .4 11 .9 647 2 7 . 8 1 8 . 1 1 8 . 1 1 7 . 2 2 6 . 0 4 . 9 5 . 1 1 4 . 3 1 2 . 1 .0 11 2 . 9 1 2 . 8 3 . 7 2 . 6 8. 4 1 0 . 1 0 . 9 6 . 6 1 9. 4 11 .5 4 2. . 4 6 454 32│ 1 . 4 3 . 0 8 . 2 2 . 2 6 . 7 1 0. 4 8 . 5 3 . 1 1 7 . 9 3 . 0 8 3
ャ一白書での集計結果とも比較対照しながら分析作業を進めているところであるが、我々の調査は県 民芸術劇場の来場者の中でも特に調査に自主的に協力してくれた人々を対象しているとし、うことで有 意調査であり、無作為抽出の標本調査ではないために分析結果の解釈には交響楽団とオペラの聴衆 調査を実施した Kurabayashiand Matsuda[7Jで、行われているような慎重な吟味が必要であり、分析に 時間がかかっているのが現状である。参考までに、平成 1 2年度(有効回答数 4, 4 9 9 )と平成 1 3年度 (有効回答数 3, 5 1 2 )の調査について、表 3に各質問項目の単純集計結果を、表 41こ過去 1年に限定し た実演芸術鑑賞経験日生別および年齢との聞のクロス集計結果を示しておくが、これらの表からも容 易にわかるように、本調査の回答者は性別では女性に、年齢では 40歳代から 60歳代の年齢層に偏っ ており、過去 1年間に限定した実演芸術の鑑賞経験率(社会生活基本調査の行動者率、レジャー白 書の参加率に相当)は、無作為標本による社会生活基本調査で、の行動者率やレジャー白書での参加 率を大きく上回っている。 4 .今後の課題 本研究では、「モノの豊かさ J から「ココロの豊かさ Jへと人々の価値観が大きく転換して芸術・文化へ の意識が都市や地方を問わず高まる環境のもと、兵庫県の県民芸術劇場来場者調査の分析結果をも とに、レジャー白書や社会生活基本調査とも対照しながら、多様化した余暇活動の中で、ライブ鑑賞 やメディア鑑賞を通じて、芸術がどのように需要されているのかの一端を明らかにしようと試みた。しか し、分析が不十分であり、今後は、今回の分析を基礎に、さらに深く分析をしてして必要があるとし、える。 4年度と平成 15年度も、兵庫県県民生活部芸術文化課と財団法人兵庫県芸術文化協会 なお、平成 1 2年度ならびに平成 1 3年度に実施した県民芸術劇場来場者調査と同内容の調 の協力を得て、平成 1 査を継続しており、将来は時系列的な分析も行ってしく予定である。また、本研究は兵庫県内の公立 文化施設で開催されている兵庫県民劇場の来場者に限った来場者調査(聴衆調査)を試みているが、 同様の内容の来場者調査は、民営か公営かを問わず全国の劇場・ホールで、実施されており、調査票 の様式と設聞を共通化してこのような調査を全国規模で実施できれば、劇場・ホールの来場者のプロ ファイルを体系的に知ることがで、き、今後の地方での芸術・文化関連施策の立案や実施に資すること が大となると期待できる c 謝辞 県民芸術劇場への来場者調査にご協力いただいた来場者の皆さん、ならびに来場者調査を実施す るにあたって面倒な作業を担って下さった地元主催団体の担当者の方々、また来場者調査の実施に ご理解を示された兵庫県県民生活部芸術文化課と財団法人兵庫県芸術文化協会の皆様に、この場 を借りて感謝の意を表させていただきます。なお、本研究は、平成 1 2年度神戸商科大学特別調整研 3年度神戸商科大学学術研究会研究助成金の支援を受けて行った研究で、あり、共同研 究費と平成 1 究者である神戸商科大学付属情報処理教育センター教授周防節雄先生ならびに同講師古隅弘樹先 生から貴重なアドバイスをいただくとともに、神戸商科大学大学院経営学研究科経営情報科学専攻博 4LA ・ AU RU
士後期課程の小田真樹子氏からはデータクリーニング、用のプログラム開発など、で、助力を得たことに対 しても、ここに感謝の意を表します。 参考文献 [ l J有馬昌宏、「パソコン版 SASシステムによる大規模統計調査データの解析 『現代青年の芸術意識 1回日本 SASユーザー会総会および研究発表会論文集、 p p . 2 9 7 ‑ 3 1 4、 と芸術活動』調査の分析」、第 1 1 9 9 2。 [ 2 J有馬昌宏、「無制限複数回答形式のアンケート調査データの入力と処理方法」、第 2 0回日本 SAS ユーザー会総会および研究発表会論文集、 p p . 2 7 7 ‑ 2 8 4、1 9 9 8 。 [ 3 J有馬昌宏、「社会生活基本調査による余暇活動の分析」、財団法人統計情報研究開発センター、 『平成 1 0 年度総務庁統計局委託研究報告標本データの提供に関する研究報告書』、 p p . 2 5 ‑ 3 0、 1 9 9 9 。 [ 4 J有馬昌宏、「文化経済学における実証研究の動向と課題」、文化経済学(文化経済学会く日本>)、 、p p . 1 1 ‑ 1 6、2 0 0 2 。 第 3巻第 1号 [ 5 J有馬昌宏・周防節雄、『消費実態から見た芸術・文化の需要構造に関する基礎的研究』、ミクロ統 計データ活用研究会平成 1 3年度分研究成果報告会、 2 0 0 2 。 [ 6 J有馬昌宏、「地方における実演芸術の需要の実態一家計調査・社会生活基本調査・県民芸術劇場 4巻第 6号 、p p . 9 9 ‑ 1 5 2、2 0 0 3 。 来場者調査から一」、商大論集(神戸商科大学)、第 5 [ 7 JK u r a b a y a s h iY .a n dY .M a t s u d a,E c o n o m i candS o c i a lA s p e c t soft h eP e r f o r m i n gA r t s ,K i n o k u n i y aC o .L t d ., 1 9 8 8 . i nJ a p a n :S y m p h o n yO r c h e s t r a sandO p e r a 4 5 2
日本 SASユーザー会U;UGI‑0) 青年期女性の自意識と完全主義傾向の関連 中村晃士事 牛島定信事 時俊彦事事 清水英佑・・ *東京慈恵会医科大学精神医学講座 **東京慈恵会医科大学環境保健医学講座 Ther e l a t i o n s h i pbetweenself‑consciousandpe斤ectionismofadolescentfemale K o j iNakamura事 SadanobuUshijima事 ToshihikoAgata事 HidesukeShimizu・e *DepartmentofPsychiatry , J i k e iU n i v e r s i t ySchoolofMedicine J i k e iU n i v e r s i t ySchoolofMedicine **DepartmentofPublicHealthandEnviromentalMedicine, 要旨 女子大学生に対し, MPS (MultidimensionalPerfectionismS c a l e l,公的自意識尺度,私的自意識尺度 の 3つの自己記入式質問紙を施行し,自意識と完全主義傾向の関連について検討した.公的自意識には, 親の期待」が取り込まれ,私的自意識には, I自身の行 MPS の下位項目「ミスへの過度のとらわれ J I 動への疑し、」が pく 0 . 0 1で取り込まれ,それぞれの質的な違いが明らかとなった. キーワード: 青年期女性,完全主義傾向,公的自意識,私的自意識,重回帰分析 1.はじめに 青年期には,自我の発達上においても自我同一性の獲得の問題,社会への適応など様々な問題を抱え ており,現代社会においては,そういった問題を解決する時期が延長し,青年期自体も長い期間として 捉えられるようになってきている.そして,社会への不適応を起こす中で,個人の性格の問題が浮き彫 りとなるケースが少なくない.その不適応を起こしやすい性格の中で,最近「完全主義」が注目されて し、る.自らの完全主義としづ性格から,自分がミスをすることを許せず,自分に常に高い目標を設定し て,あがき続け,結果として不適応を起こすと考えられる. また,最近青年期女性において対人恐怖症例の増加が指摘されており,一般的にも対人緊張を持つ人 たちが増えている印象がある.そこには自意識との関連があり,中でも公的自意識が高いと対人緊張を 持ちやすいとされている. そこで今回我々は,青年期女性の完全主義傾向,公的自意識,私的自意識のについて,その関連と合わ せて調査し,検討した. 453‑
2. 対象と方法 M u l t i d i m e n s i o n a lP e r f e c t i o n i s mS c a l e ),公的自意識尺度,私的自 女子大学生 78名に対し, MPS ( r o s tら( 1 9 9 0 )が作成した完全主義傾向を多 意識尺度の 3つの自己記入式質問紙を施行した. MPSは F 5項目の質問からなり,下位項目は「ミスへの過度の 次元的に把握することを目的とした評価尺度で, 3 親からの高い期待 J I 親からの批判 J I自身の行動への疑しリ「整理整頓好 とらわれ J I自身の高目標 J I き」の 6項目から構成されている.各質問項目に対しては I 強く同意する」から「全く同意できない」 1 9 9 9 )が作成し,その信 の 5段階リカレントスケールが用いられている.その邦訳版の MPSは田中ら ( 頼性と妥当性(基準関連)が証明されている.また MPSはすでに国内外でも摂食障害患者を対象に用 e n i g s t e i n,S c h e i e r,& Buss(1975) いられ,その有用性が指摘されている.また,自意識尺度日本語版は F が作成したものをもとに,菅原 ( 1 9 8 4 ) によって作成されたもので,公的自意識尺度 1 1項目,私的自 0項目からなり,これも 7段階のリカレントスケールが用いられている.背景因子として, 意識尺度 1 年齢,長子か否かについても調査した.得られた結果は SASを用いて統計学的検討を行った. 3. 結果 3名 (93.6%) で,平均年齢は データの記入ミスのあったものを除いた有効回答数(有効回答率)は, 7 21 .2: t4 . 1(Mean士 SD)歳であった.まず長子か否かで MPSおよび自意識尺度の結果を比較したのが, 結果 Iから結果 3までのグラフである .Fが長子の群を表し, Sが長子以外の群を表している.完全主 義傾向の下位項目および公的自意識,私的自意識の長子か否かで,優位な差は認められなかった. 結果 1 MPS( 1 ) c o m ME^N 30 T S MEAN pe 1 ' 1 11 ミA N 15 30 '2 F ミスへの過度のとらわれ S 自身の寓目標 4 5 4一 両親の高い期待
結果 2 MPS( 2 ) じ " MI.:.AUN c . J . . . " M LハN cr t . lC At ‑ J ' 0 1コ ' " C543 " 自身の行動への疑い 両親からの批判 整理整頓好き 結果 3 自意識 仁 川 " ' . . . . n M E Af . l 一 一 一 一 prIv . . . t, . , . t . I F . ¥ N 7() ‑ 1 , , .0 L 上 公的自意識 私的自意識 8 ハ苛 ロリ ロリ
次に長子か否かの区別無く,全体として自意識と完全主義傾向の関連について調べた.公的自意識尺度 と私的自意識尺度を,完全主義傾向の下位 6項目でステップワイズ法により重回帰分析を行った.この . 1 5とした.結果は公的自意識は表 4,私的自意識は表 5に示した通りで、あった. 際の取り込み基準は, 0 表 4 公的自意識のステップワイズ法による重回帰分析の結果 S t e p 2 V a r i a b l e P a r a m e t e r S t a n d a r d P a r t i a l M o d e l E n t e r e d E s t i m a t e E r r o r R ‑ S q u a r e R ‑ S q u a r e P r >F C O M O .6 8 8 5 3 0 . 1 3 2 7 3 0 . 2 4 6 2 0 . 2 4 6 2 0 . 0 0 0 1 P E ‑ 0 . 5 3 0 0 9 O .1 9 6 4 5 0 . 0 9 1 0 0 . 3 3 7 3 0 . 0 0 9 表 5 私的自意識のステップワイズ法による重回帰分析の結果 S t e p V a r i a b l e P a r a m e t e r S t a n d a r d P a r t i a l M o d e l E n t e r e d E s t i m a t e E r r o r R ‑ S q u a r e R ‑ S q u a r e P r >F D A 0 . 9 8 7 7 0 0 . 3 5 0 7 6 0 . 1 2 1 9 0 . 1 2 1 9 0 . 0 0 0 1 公的自意識には, MPS の下位項目「ミスへの過度のとらわれ (COM)J I 親の期待 ( P E )Jが pく 0 . 0 1 で取り込まれた.私的自意識には, I 自身の行動への疑い(DA )Jが pく 0 . 0 1で取り込まれた. 4. 考察 厳しくしつけられた完全主義傾向が高い長子に多し、」といった報 以前より,対人恐怖患者などは, I 告があったが,今回の調査では,完全主義傾向,自意識ともに長子と長子以外の聞に優位な差は認めら れなかった.このことから,昔の家長制度といった規範が現代社会においては崩れてきているのではな いかと推察された. ,I 親の期待」の 2項目が取り入れられたことから, また公的自意識には「ミスへの過度のとらわれJ 公的自意識は,ミスへの過度のとらわれ,親の期待など,周囲に対する敏感さが関連していることが分 かった.また私的自意識には, I自身の行動への疑し、」が取り込まれたことから,内省的な自己への敏 感さが私的自意識には関連していることが分かつた.これは質問紙の内容から当然の結果とも言え,今 後さらなる検討が必要と考えられた. 456‑
5. まとめ 完全主義傾向,自意識は,長子か否かでは差がみられなかった 公的自意識と私的自意識は,完全主義傾向と関連があり,さらには質的な違いが明らかとなった. ‑457‑
日本 SASユーザー会 (SUG1‑0) 個人レベルの選好を基にしたクラスタリング 河崎一益字 松沢利繁特 株式会社日本アルトマーク統計解析部市 (械インターナショナル・クリエイティブ・マーケテイングプロダクショングループ帥 C l u s t e r i n gbasedons e l e c t i o no fani n d i v i d u a ll e v e l Kazumasukawasaki 事 ToshishigeMatsuzawa 梓 S t a t i s t i c a lA n a l y s i sD i v i s i o n,UltmarcI n c . キ ProductionGroup,I n t e r n a t i o n a lCreativeMarketing 叫 要旨 クラスター分析は、マーケット・セグ、メンテーションのために広く行われてきた。多くの場合消 費者の意識(製品に対する態度やライフスタイルを表わす意見項目など)をクラスター化するこ とが多かった。今回は、消費者の商品に対する選好を基にクラスター分析を行うと同時に、従 来のクラスター分析との比較を行い、その有効性を探ることを目的とした c キーワード: クラスター分析、選好、補償型モデ、ル、 SAS/STAT 1.問題の背景 クラスター分析は、 1 9 7 0年代から 1 9 8 0年代にマーケット・セク。メンテーションのために多用さ れた。この時代のクラスター分析は、ライフスタイル分析を基本においており、特に、 V ALS(自) は、マズ、ローの欲求5段階説をベースに消費行動に関する 800項目の質問を組み合わせて、 9 つのセグメントに分けたもので、あった C しかし、消費社会の高度化、複雑化に伴い、ライフスタ イル分析を基礎においたクラスター分析で、のマーケットセグメンテーションは、「マーケティン グ活動にどのように活用するのか」といった具体的場面の有効な活動におけるサポートの難し さから徐々にその意義が薄れてきた。 今回、我々は「消費者が商品をど、のように選択するのか」を基にクラスター分析を行うことに よって、購入のパターン引のセクョメントを発見することを試みた。 山 V a l u eAndL if e s t y l e 購買決定プロセスにおける消費者の行動を予測するために心理学的理論と社会学 的理論に従って消費者を類型化したスタンフォードー研究所のライフスタイル分析 ~459~
2 .調 査 の 設 計 分析に使用するデータを得るためにアンケート調査を行い、株式会社日本アルトマークの 社員が分担して収集した。回収数は 213票で、あったが、内容に不明・未記載等の不備のない 187票(男 :96票、女 : 9 1票)を有効票として分析を行ったc 表1.今回調査した商況 ト一一一 デジタルカメフ 缶入りお茶 プフス、マァレピ パナソニック 伊藤園 シャープ DMC‑F1‑S お いお茶 コカコーフ まろ茶 ヤクルト お茶 キリン 生茶 PZ‑43BD3 オリンパス ミュー 1 0DIGITAL キャノン PowerShotG3 ミ ノ ノ レ タ DIMAGEF300S 目立 W50‑PDH3000 ソニー KE‑32TS2 パンソニック TH‑42PX10 カップフーメン 青 日1 カップヌードル 明星 ラーメン職人 エースコック わかめラーメン 青 日1 ラ王 3 .分 析 の 流 れ 今回は各対象者に対して、デ、ジタルカメラ・缶入りお茶・フ。ラズ マテレビ・カッフ。ラーメンの各 4商品(計 1 6商品)を提示して各商品の属性評価(デザイン・使いやすさ・機能(味)・メーカー (ブランド)・価格)と総合的な購入意向を聞いた。 消費者の選好モデ、ルは補償型モデ、ルと非補償型モデ、ルに大別されるが、今回は補償型モ デルを想定して、総合的購入意向を従属変数、各属性評価を説明変数として個人別に重回 帰分析を行い、各属性変数の偏回帰係数を算出した。 R‑squareの平均は 0.7567とかなり高い i { 宣となった。 個人別に得られた偏回帰係数が各個人の選好を表すものと考え、算出した偏回帰係数を 用いてクラスター分析を実施した c 表2 .クラスター分析の結果 全体 サンプルサイズ プ、ザイン 使いやすさ 機能 価宇各 メーカー 1 8 7 0 . 1 8 2 2 0 . 1 7 1 2 0 . 2 7 3 9 0 . 3 1 9 6 0 . 2 9 7 9 クフスター クアスター クアスター クアスター クアスター 2 3 0 . 2 7 0 2 0 . 1 4 3 8 0 . 2 9 1 0 0 . 2 6 6 9 0 . 3 0 4 8 2 3 7 0 . 1 2 5 2 0 . 2 1 9 1 0 . 3 1 3 1 0. 4077 0 . 3 0 5 6 3 43 0 . 1 7 9 5 0. 13 1 1 0 . 2 2 5 3 0 . 3 3 8 6 0 . 2 6 1 6 4 53 0 . 1 7 1 5 0 . 2 2 4 1 0 . 2 6 4 5 0 . 2 9 4 5 0 . 3 0 6 6 5 3 1 0 . 2 0 6 7 0 . 0 9 9 4 0 . 2 9 8 1 0 . 2 7 0 1 0 . 3 1 9 4 ‑460一
クラスター分析の結果から、以下のように各クラスターの性格付けを行った C 表3 .クラスター別特徴 クラスター 特 クアスター l クラスター 2 クアスター 3 クフスター 4 クアスター 5 徴 プザインを特に重視するグループ f r l f i協コンシャスで、あり、機能も重視するクソレーフc やや価絡を重視するグループ 使いやすさを重視するクeルーフ。 メーカー、使いやすさを重視するグループ 各クラスターがうまく分かれているかどうかをみるために、 1 6 商品の購入意向に対して、クラ 6商 品 中 7商 品 が p<O.05で、有意となっ スターを要因として分散分析を実施した。その結果、 1 たc 表4 .選好クラスターを要因とした場合の購入意向の有意性 E : 有意とならなヵ、った商 I 有意となった商品 パナソニック DMC‑FI‑S オリンパスミュー 1 0DIGITAL キャノン PowerShotG3 ミノノレタ DIMAGEF300S コカコーフまろずだ 伊藤圏お いお茶 キリン生茶 ヤクルトお茶 目立 W50‑PDH3000 シャープ PZ‑43BD 日清カップヌード、/レ ソニー KE‑32TS2 ノf ンソニック TH‑42PXI0 エースコックわカ、めラーメン l 珂星ラーメン職人 日清フ王 上記結果をみると、定番(よく知られた)商品でクラスター聞に購入意向の差がみられる傾向 にある c 同様の分析を意識項目についても実施した。 25項目のうち以下の 6項 目 が p<O.05で 有 意 となった。こだわりと情報探索項目で各クラスター聞での差がみられる。 表5 .有意となった意識項目 どんなことにも関心を持ち、何でも自分で試してみたい 新しいファッションや流行を人より早く取り入れる方だ 特定の商品(時計など)にこだわりがある インターネットで情報をよく検索する おいしいものを求めてあちこち食べ歩いている j ; J . j i l ! J 買いをすることが多い A ハhU ー よ ー ハ
4 .従来型クラスターとの比較 従来型クラスターとの比較のため、 25個の意識項目を 5段階で回答してもらい、それを基に 8つの因子を抽出した。説明率は 64.5%で、あった。 抽出した因子を用いてクラスター分析を行し、以下の 5つのクラスターを得た。 表6 .クラスター別因子得点 サンプルサイズ 社交因子 ファッションセンス因子 買い物楽しみ因子 本物志向因子 インターネット因子 情報探索因子 計画購買因子 機能重視因子 クラスター l クラスター 2 クラスター 3 クラスター4 クラスター 5 5 5 0 . 3 0 9 2 ‑ 0 . 0 4 3 1 ‑ 0 . 0 7 9 2 ー0 . 46 38 0 . 3 0 6 7 0 . 1 1 1 5 0 . 2 5 2 0 ‑ 0 . 9 2 8 9 3 3 ‑ 0. 45 44 0 . 0 6 3 9 ‑ 1 . 0 9 4 5 1922 0. ー0 . 49 4 3 ‑ 1 .0532 ー0 . 1 0 6 1 0 . 2 9 6 4 2 3 0 . 2 9 2 4 ー0 . 5 1 6 3 0 . 8 0 4 8 ー0 . 7 8 4 6 ‑ 0 . 1 2 1 7 ‑ 0 . 1 1 1 4 ‑ 0 . 9 9 3 8 1 . 0 5 7 2 3 4 ‑ 0 . 8 6 8 5 0 . 0 2 9 1 0 . 0 3 0 8 ‑ 0. 1258 ‑ 0 . 1 0 2 4 1 . 0 7 9 9 0 . 3 8 1 0 0 . 5 1 6 6 42 0. 49 50 0 . 2 6 5 4 0. 49 80 0 . 9 8 7 8 0 . 1 3 6 4 ー0 . 1 3 1 7 一0 . 0 1 0 8 し 一 一 一 一 ‑ 0 . 0 1 3 5 この結果から、各クラスターに以下のようなネーミング、を行った。 表7 .クラスター別特徴 クラスター l ものにこだわらないグ、ループ クアスター 2 買い物を楽しみと感じていない・情報非探索クすループ 機能を重視する・買い物エンジョイクールーフ。 クラスター 3 クアスター 4 クアスター 5 情報を個人で探索するグループ 本物を志向する・買い物を楽しみとするグループ 消費者の選好で、クラスター分析を行ったときと同様に、 16 商品の購入意向について分散分 析を実施した。この結果、 16商 品 中 6商品が p<O.05で、有意となった。消費者選好から作成し たクラスターの場合と大きな違いはないが、有意差のみられた商品群がお茶・カッフ。ラーメンに {扇っている。 表 8 .従来型クラスターを要因とした場合の購入意向の有意性 有意となった商品 有意とならなかった商品 パナソニック DMC‑F1‑S オリンパスミュー 1 0DIGITAL 目立 W50‑PDH3000 コカコーフまろ茶 キリン生茶 日清カップヌート、ル キャノン PowerShot03 ソ ー ‑ KE‑32TS2 パナソニック TH‑42PX10 エースコックわかめフーメン 明星フーメン職人 日清フ王 ミノ/レタ DIMAOEF300S 伊藤園お いお茶 ヤクルトお茶 シャープ PZ‑43BD3 4 6 2一
また、 25個の意識項目についてはすべての項目においてド 0 . 0 5で、有意差があった c 25個 の意識項目をベースに因子分析を行い、それをもとにクラスター分析を実施したわけであるか ら当然の結果とし、えよう c 次に、佐々木(1984)の行った RECスケールを用いて、選好に基づいて作成したクラスター と従来型のクラスターとの比較を行った。 RECスケール ( R a t i o n a l i t y andEmotionaI it yofConsumer)は以下の 12の項目について、 2項目のうち、 「そう思う」から「そう思わなしリまでの 5段晴での回答を求めるものである。 1 ①、③、⑤、⑧、⑮、⑫が合理性に関する項目であり、②、④、⑥、⑦、⑨、⑪が情緒性に関す る項目である。「そう思う」に 5点を与え、以下 4点 3点 2点、「そう思わなしリを l点として、合 理性、情緒性の各項目を合計したものである。 表 9 .RECスケールの項目(佐々木、 1 9 8 4より作成) 買い物時にはよくパーゲンを利用する 流行のものを良く買う どの庖で買えば得かを行く前に良く調べてみる そのもののムードや情緒を特に重視て頁う 買う物は必要最低限にとどめておく 買う時には庖員がすすめるものにする 買う時にはよく広告をしているブランドを買う 実用性とか使いやすさを特に重視して買う 見た感じとか美しさを特に重視して買う できるだけ多くのものを比較したうえで買う物を決める 新しいものが出た時は人より早く買う とにかく安くて経済的な物を買う (合理性) (情緒性) (合理性) (情緒性) (合理性) (情緒性) (情緒性) (合理性) (情緒性) (合理性) (情緒性) (合理性) 各クラスター別の平均値は以下のようになった。 表 1 0 .クラスタ一日 IjRECスコア サンフ。ル サイズ 全 選好を基にし たクラスター 従来型の クラスター 体 クアスター l クアスター 2 クアスター 3 クアスター 4 クアスター 5 クフスター l クアスター 2 クアスター 3 クアスター 4 クラスター 5 H ' f 緒 性 合理性 1 8 7 2 3 3 7 43 5 3 3 1 5 5 3 3 2 3 34 42 ← 平均値 標準偏差 平均値 標準偏差 1 9 . 5 6 7 1 8 . 8 7 0 1 9 . 5 4 1 1 9 . 3 2 6 1 9. 43 4 4 . 0 1 9 5 . 1 3 7 4 . 1 6 1 3 . 9 2 0 3. 49 5 3 . 6 4 9 3 . 5 0 9 3 . 5 2 6 3 . 5 9 6 3. 42 7 2 0 . 6 7 7 2 0 . 0 7 3 1 6. 45 5 2 0 . 0 8 7 21 .5 8 8 1 9. 42 9 3 . 9 4 5 2 . 9 3 0 3 . 2 5 1 5 . 0 8 0 4 . 1 6 4 3 . 7 6 9 1 6 . 5 2 9 1 7 . 9 5 7 1 5 . 8 1 1 1 7 . 7 9 1 1 6 . 1 5 1 1 5 . 2 2 6 1 7 . 8 3 6 1 4 . 7 5 8 1 5 . 9 5 7 1 4 . 6 7 6 1 8 . 0 2 4 3 . 1 4 9 3 . 5 4 5 3 . 7 3 5 3. 47 0 3 . 1 9 7 4 6 3 3 . 6 9 4
これを見ると、選好を基にしたクラスターは合理性では差がみられないが、情緒性では差が みられるの従来型のクラスターでは、合理性・情緒性とも差がみられる。分散分析を実施すると、 選好を基にしたクラスターでは p<0.05で情緒性に有意差がみられるが、合理性では有意差が みられない。従来型のクラスターでは合理性・情緒性ともに p<0.05 で有意差がみられた。 5 .今後の課題 ①調査商品の選定 調査商品をどのように選定するかがクラスター分析に大きな影響を与える c 特に多数の人 がよく知っており、ある程度価格について知識のあることが条イ牛となる。今回は多少欲張りす ぎて商品カテゴ リーを広く取ってしまったが、対象者を設定する際には対象者がある程度価 格感度を持った商品を選択することが重要である c ②消費者の商品カテゴリーに対する関与 今回は消費者の各商品カテゴリーに対する関与の問題を考慮、することなくモデ、ルを設定し たが、消費者の関与の程度によって選好モデルが異なることが予想される。したがって消費 者の商品カテゴリーに対する関与度の測定方法の確立と、関与度を考慮したモデ、ルの構築 を考えてして必要があると,思われる c ③モデルの楕激化 今回は、消費者の選好が補償型モデ、ルで、行われることを前提に進めてきたが、商品カテゴ リーや消費者のタイフ。によっては非補償型ルールが採用されるケースもある。したがって、 消費者の選好ルールを把握して、それをモデルに生かしていくことが重要である。特に消費 者の選好ルールは商品のカテゴ、リーや関与度品、った様々な要因が絡まってくる。これらの 要因を考慮、したうえで、モデ〉レの精微化を行っていきたいと,思う。 〈参考文献〉 ( 1 ) 朝野照彦 ( 2 0 0 0 )i マーケティング・リサーチ工学」講談社 ( 2 ) 片平秀貴 ( 1 9 8 7 )i マーケティング・サイエンス」東京大学出版会 ( 3 ) 片平秀貴 ( 1 9 9 1 )i 新しい消費者分析一 LOGMAPの理論と応用一」東京大学出版会 ( 4 ) 杉浦徹雄編著 ( 1 9 9 7 )i 消費者理解のための心理学」福村出版 ( 5 ) 竹村和久編 ( 2 0 0 0 )i 消費者行動の社会心理学」北大路書房 ( 6 ) 中西正雄編著 ( 1 9 9 8 )消費者選択行動のニュー・デ、イレク、ンョンズ」関西学院大学出版会 ( 7 ) ピルヨ・ラークソネン(池尾・青木監訳)( 1 9 9 8 )i 消費者関与」千倉書房 ( 8 )V i t h a l aR . R a oJ o巴1H S t巴c k 巴1( 19 9 7 )i A n a l y s i sf o rS t r a t e g i cM a r k e t i n g J ADDISON‑WESEY 464‑
日本 SASユーザー会 (SUG1‑0) 患者参加型医療情報交換システムのニーズ調査 0義 津 宣 明 ' 船曳淳ネ 小山博史牌 牟株式会社三菱総合研究所安全科学研究本部 )ニカルハイオインフォマティクス研究ユニット 枠東京大学大学院医学系研究科ク 1 I n v e s t i g a t i o no fNeedsf o raP a t i巴n t ‑ O r i e n t e dI n t e r a c t i v eH e a l t hCommunicationSystem NobuakiYoshizawa* JunF u n a b i ki * トj i r o s h iOyama S a f e t yS c i巴nceResearchD i v i s i o n,M i t s u b i s h iResearchI n s t i t u t e,I n c . c h o o lo fM e d i c i n e,TheU n i v e r s i t yo fTokyo Departmento fC l i n i c a lB i o i n f o r m a t i c s,GraduateS 神 岬 百 王 子 ヨζ 己 日 患者参加型の医療情報交換システムに求められる機能を訊べるために、 1 , 6 8 4 名を対象とした 医療情報交換に関するニーズ・意識調査を実施した。詞査はインターネットアンケートを利用し て実施した。調査内容は、①医療者からの情報開示や説明等に関する満足度や不満原因に関 する基礎的詞査、②病院内外を結ぶネットワークを利用する上でのニース、訊査、③高度医療ネ ットワーク及び先進的医療に関する意識調査、の 3カテゴ、リーから構成した。得られた回答につ いて、 SAS及び JMPを用いて統計解析を実施した。本詞査結果は、今後の医療情報交換シス テムの方向性について示唆にとむものであった。 キーワード BaseSAS,SAS/STAT,JMP,インターネットアンケート,医療情報システム 1 . はじめに インターネットを利用したインタラクティブ、・ヘルス・コミュニケーション ( I n t e r a c t i v eH e a l t h Communication)は、今後急速に普及することが予想される。インターネット利用者数は平成 1 3 年末時点で 5 , 5 9 3万人と推計されており、国民のほぼ半数を占めている [ l J。特に、インターネッ トの世帯普及率は、平成 1 2年の 3 4 . 0 % から平成 1 3年の 6 0 . 5此 2倍近くに急増している[1 J。こ のような状況から、今後は患者参加型の IHCが医療情報システムにおいても重要な位置をしめ るようになると思われる。これまで、も、医療機関のホームページを中心に IHC に関する研究が報 2, 3 , 4 J。本研究では約 1 , 6 0 0名を対象としたインターネットアンケートによるニーズ、 告されてきた [ 調査の結果を報告する 調査内容は、①医療者からの情報開示や説明等に関する満足度や不 G 満原因に関する基礎的調査、②病院内外を結ぶネットワークを利用する上で、のニーズ調査、③ 高度医療ネットワーク及び先進的医療に関する意識調査、の 3カテゴリーで構成した。本研究で は、①カテゴリーを中心に調査結果の概要を報告する。 4 6 5
2 .調査方法と回答者属性 2 . 1 調査方法 g o oリサーチのインターネットアンケートを利用した [ 5 J ogooリサーチでは、あらかじめ登録され たモニターにアンケート参加を依頼し、 web画面で回答が入力される。郵送式のアンケートとは異 なり、回答数が 1, 684件に達した時点で、調査を打ち切った。 2 .2 回答者属性 回答者の性別は、男性 ( 5 0 . 1 % )、女性 ( 4 9 . 9 % )であり、性別については偏りが無かった o 年 齢 , 35""3 9歳 , 40""44歳が、それぞれ約 2 0九程度で全体の 60 弘ほどで あった o これ は 、 30""34歳 に 、 1 0弘程度である、 25""29歳 , 45""49歳 , 55""59歳を加えると回答者全体の 90%となる。図 1に 年齢・性別の分布を示す。年齢が上がるにつれて、男性の割合が多くなる。 2 0 ‑ 2 4 2 5 ‑ 2 9 30‑34 3 5 ‑ 3 9 4 4 0・4 4 5 ‑ 4 9 5 0 ‑ 5 4 5 5 ‑ 5 9 6 0 ‑ 6 4 65‑69 7 0 ‑ ・ ‑・ ‑ 国 O~ 1 E 2 0 " 6 0誕 40~ 8 0 " 1 0 0! 4 図 1 回答者の年齢・性別分布 (N= , 16 8 4 ) 最も多かった回答者は「専業主婦 J( 2 0 .明)で、それについで「給与所得者(技術・専門職)J ( 17.4%)が多かった o 居住地域は、首都圏(埼玉,千葉,東京,神奈川 : 4 5 . 1 % )、関西(京都,大 1 7 . 2 % )で全体の 6害J I以上となったo 阪,兵庫 : 3 .単純集計結果 3 . 1 診療経験 複数回答の結果は、短期通院 ( 4 2 . 8九)が最も多かった。ここで、あらためて以下の方法で分 ‑466‑
類しなおした。 「入院」または「長期通院」経験者は、「入院・長期通院」に分類 上記以外の「短期通院」経験者のみを、「短期通院」に分類 「入院及び通院ともになしリは、そのまま「なし」に分類 上記の結果、回答者の診療経験は以下の 3つに分類された。 「入院・長期通院 J 8 4 2名 ( 5 0 . 0 % ) 「短期通院 J 4 9 8名 ( 2 9 . 6九 ) 「なし J 3 4 4名 ( 2 0. 4 九 ) 医療情報に関する具体的な質問については「入院・長期通院」の 8 4 2名のみが回答している。 3 .2 診 療 記 録 等 の 閲 覧 希 望 日本看護協会の調査 [ 6 ]と比べると、本調査では 自分に関する記録の 閲覧希望が強かった ( 表1 )。また、"十分説明されれば見なくてもよし吃思う。 が日本看護協会の調査の半分ほどであ った。この違いは、実際に入院している患者への調査とインターネットによる一般への調査の違い と考えられる。入院患者は相対的には医療スタッフからの説明に満足していることが示唆されてい る。今回の調査では、「長期通院」に比べて「入院 J を経験した回答者が「自分に関する記録は全 て見たいと思う。」割合が高かった。 表 1 診療記録の閲覧希望 ( N = 8 4 2 ) 入院十 長期通院 入院 長期通院 日本看護 のみ 6 ] 協会調査 [ 51 .9 % 5 4 . 3 % 4 8 . 6九 3 3 . 6 % 2 6 . 1 % 2 6 . 2 % 2 6 . 0弘 1 8 . 3 % 十分説明されれば見なくてもよし吐息う。 21 .0 % 1 8. 4 % 2 4 . 6 % 41 .3 % 見なくてもよし立思う。 % 1 .0 1 .0 % 0 . 8 % 4 . 3 % 自分に関する記録はすべて見たいと思う。 自分が見たいと思うものだけ見られればよい と思う。 2. 4 % 無回答・不明 3 .3 医師からの説明 医師からの説明について、満足度を調査した。前述の診療記録の閲覧希望と満足度の関係を 図 2に示す。 非常に不満だ、った"回答者は 3 1名と少ないが、医師の説明に対する不満が大きい ほど、カルテ等の診療記録の開示要求が強くなっている。 n i ι nhu ・ a4
非常に満足した ‑自分に胡する記録はすべて見 たいと思う。 やや満足した ロ自分が見たいと思うものだけ見 まよいと思う。 られれ l ふつうだった ロ十分説明されれ 1 ;1:見なくてもよ いと思う。 口見なくてもよいと思う。 やや不満だった 非常に不満だった 5日 目 0% 100% 図 2 診療記録の閲覧希望と医師への説明の満足度の関係 (N=842) 3 .4 医 師 か ら の 説 明 へ の 不 満 医師からの説明への不満の理由は図 3に示すようになった。 日 目 1日 目 2日 目 3日 目 40 目 50% 60 目 個人的耳鑑に配慮し世章をもって脱明してくれなかっ た. 責任をもって説明して〈れなかった. 盛性宣かに挺して〈れなかった. 病状を聞いてくれなかった. 情置の周回について説明をしてくれなかった. 病気由極度や重傷置につし、て説明 Lてくれなかった. I~~:a)~ I 治療の同容について説明 Lてくれなかった. 会計同容について説明して〈れなかった. 医師の観明苦理解できなかった. その他 図 3 医師からの説明への不満の理由(1¥=114) 「入院」と「長期通院のみ」で回答内容に違いが認められた。「入院」経験者では、 個人の尊厳に の 2倍以上で、あった。また、「長期通院 配慮、し敬意をもって説明してくれなかった。"iJH長期通院J のみ」の場合、 病気の原因" 病気の程度"に関する説明不足への不満が、「入院」経験者を上 4 6 8
回った。 治療の内容"説明の不足は、「入院」経験者及び「長期通院」の両方の半数程度が不満 をもっていた。 会計内容"の説明については「入院」経験者の不満が、「長期通院」の 2倍ほどと なっている。 3 . 5 医師・看護婦・その他の病院のスタッフに対して望むこと 「医師・看護婦・その他の病院のスタッフに対して望むこと」の各質問の回答について次のよう な得点付けを行い分析した。 = 3, どちらでもない"= = 2, 強く望む "=4点, ある程度望む"= , 望まない "=0 あまり望まない"==1 各問の得点平均を以下に示す。 一一→一一一 T ; ‑ 1 十分わかりやすく説明してくれること。 患者の話を良く間いてくれること。 親近惑をもって接してくれる二と。 医師と患者が同じ自の高さで会話でき. 患者の目を見て話してくれること。 きちんとした服装でいる二と。 医師と患者の椅子の質の差をなくすこと。 。 2 3 4 5 図 4 医師・看護婦・その他の病院のスタッフに対して望むこと (N=842) 図 4より、要望の 5 齢、! J 聞に、選択肢は以下の 3つに分類することができる。 分 質 類 問 説明・コミュニケーション 十分わかりやすく説明してくれること。" (インフォームド・コンセント) 患者の話を良く聞いてくれること。" 親近感をもって接してくれること。" しぐさ・まなざし (間接的なコミュニケーション) 医師と害、者が同じ自の高さで会話できるこ と 。 患者の目を見て話してくれること。" 医療スタッフの外見的な特徴 きちんとした服装でいること。" 医師と患者の椅子の質の差をなくすこと。" ‑469‑
3 .6 病院のスタッフに対する希望 病院のスタッフへの希望に対する回答を、 S A S / S T A Tを用いて因子分析を行った。結果を下 の表 2に示す。 表 2 病院のスタッフへの希望についての因子分析結果 コミュニケーション因子 質問項目 外見因子 共通性 十分わかりやすく説明してくれること。" 0 . 7 5 6 9 6 一0 .10097 0 . 5 8 患者の話を良く聞いてくれること。" 0 . 7 4 2 0 0 0 . 0 6 1 8 1 0 . 5 5 親近感をもって接してくれること。" 0 . 6 3 0 7 8 0.29716 0. 49 患者の目を見て話してくれること。" 0 . 5 8 8 5 6 0 . 5 4 9 8 2 0 . 6 5 0 . 0 1 7 4 8 0.81016 0 . 6 6 0 . 0 0 3 4 3 0 . 7 1 7 2 1 0 . 5 1 0. 45696 0 . 6 4 4 2 6 0 . 6 2 2 . 0 8 1 .99 医師と患者の椅子の質の差をなくすこ と。" きちんとした服装でしもこと。" 医師と患者が同じ目の高さで会話でき ること。" 説明分散 得点の平均点で求めた分類と、因子はおおむね上記のように対応するといえる。なお、 患 者の目を見て話してくれること。"及び 医師と患者が同じ目の高さで会話できること。"は、 両方の因子に同程度の寄与を及ぼしている。 4 .医療情報システムへのニーズ 入院中に、パソコンや携帯端末から病院内の医療情報にアクセスできるとした場合、どのよう なことができればよいと望まれますか。"とし、う問への結果を図 5に示す。なお、診療歴別に大きな 違いは無かった。 この他に、 病院内から病院外へインターネットで、接続可能な場合"及び ご家族が入院され ている場合、自宅や職場等からインターネットを利用してできること についてもニーズ、調査を行っ た。なお、いずれの質問で、もセキュリティは保証されている前提とした。また、インターネットアンケ ートの特長である自由記述の処理の容易さを利用して、自由記述の分析も行った。なお、これらの 調査結果をもとに"患者参加型医療情報交換システム が開発された [ 7 J。 4 7 0
0% 20% 40% 60% 80% 100% 自分の受けている治療法に関する詳しい情報が 得られること。 服用している薬の効果や副作用に関する情報が 得られること。 病気に関する詳しい情報が得られること。 治療にかかる費用に関する情報が得られること。 自分の検査記録や診療記録が参照できること。 医師からの口頭による説明がわかりやすく文書化 されたものを参照できること。 今後の治療スケジュールが確認できること。 主治医以外の医師に相談できること。 医師や看護婦と病状等についての情報をやりとり できること。 代替治療法に関する情報が得られること。 苦情を伝えられること。 他の患者と情報のやりとりができること。 医師や看護婦の経歴や趣味等に関する情報が得 られること。 し 図 5 医療情報システムへのニーズ、(N=1, 6 8 4 ) 5 .その他 セキュリティ技術の進展にともない、将来、自分自身の検査記録や診療記録を自己管理すること が可能となった場合を想定して、情報の自己管理の希望を質問した。結果は、 非常に自己管理 したい。"(28.0%)、 ある程度は自己管理したい。" ( 6 0 . 5児)との回答だった。したがって、 9割程度 の回答者が、環境が整備されれば検査記録や診療情報を 自己管理"する希望をもっていること が確認できた。また、インターネットや超高速ネットワークを利用した高度医療に関しても、 非常に 期待する"(45.6%)または やや期待する"(48.3%)との回答だった。 最後に、今後の医療に関して注目される 9項目について、重要度を質問した。結果は図 6に 示す通りである。図の下に示した項目ほど、 わからない"の占める割合が増えている。この点に関 しては、今後一般への分かりゃすい情報の提供等が望まれる。 471‑
医師への最新の医学情報の提供 医師や看護婦と患者の信頼関係の構築 患者情報の共有化による医療機関同士 の連携と役割分担 力ルテや診療報酬明細書などの医療情 報の開示 医療情報の集約による医療の地域格差 と公平性の確保 自分の受ける医療について自己決定で きる社会的慣習の確立 科学的根拠に基づいた医療の確立 第三者による医療機関の評価 遺伝子診断やオーダーメード医療など の先端技術の応用 0% 20% 40% 60% 80% 100% 図 6 医療に関連する様々な項目の重要度 (N=1, 6 8 4 ) 6 .まとめと今後の課題 インターネットアンケートにより患者参加型医療情報交換システムのニーズ 調査を行った。調 査の結果から、インターネットを用いた情報提供や交換のニーズ が高いものが確認できた。また、 医療情報の自己管理に対するニーズが高いことも分かった。 なお、今回は直接の調査対象としなかったが、最近注目が高まってしも医療の安全に関して も、患者参加によるインシデントの低減などが指摘されている [ 8 J。今後は、医療の安全の視点に 立った患者参加型情報交換システムの重要性も高まると考えられる。 参考文献 1)総務省編, I 平成 14年版情報通信白書 J,ぎょうせい, ( 2 0 0 2 ) . 2 )福田吉治ら, I インタラクティブ・ヘルスコミュニケーションの現状と効果に関する研究:医療機関 のホームページに関する意識調査とその現状 J,医療と社会, vo! . ll, No.3,pp. 43‑54(2002). 3 )橋本栄里子ら I インターネット上の病院の情報発信内容に関する研究・病院のホームページ . ll , No.3,p p . 6 9 ‑ 8 7 ( 2 0 0 2 ) . は患者に何を伝えているのか J,vo! 4 )インターネット医療協議会 I インターネット上の医療情報の提供と利用の実態に関する調査研 究報告Jl l i t p :, / / w w w . i i l l l臼.01'.i D / J ISSEI\ I/ kou~ei 1 9 9 9 .h tr n 1 ( 2 0 0 3年 5月現在). 5 )gooリサーチ, 1 l H p : //ff~seill・ch ぷoO.ne. ip/bu~iness/top.htmJ (2002年 5月現在). ・ ウ1 A44 ワ 臼
6 ) 日本看護協会, i2000 年患者への診療情報提供に関する調査 J,日本看護協会調査研究報 告 No.61,( 2 0 0 1 ) . 7 )] .F u n a b i k i,N . Nobuaki,H . Tsunoda,H . Oyama,"Oevelopmento faweb‑basedsystemf o r r i e n t e di n t e r a c t i v eh e a l t h communication",]apan ] o u r n a lo fM e d i c a lI n f o r m a t i c s, p a t i e n t一o Vo. I22‑Supplement,p.692(2002). 8 )村上陽一郎ら r リスクマネジメント医療内外の提言と放射線部の実践 J,医療科学社, ( 2 0 0 2 ) . 謝辞 本研究は、平成 1 3,1 4 年度科学技術振興調整費「高速ネットワーク環境下における高度医療ア プリケーションの研究開発」の一環として実施された。 4 7 3
ポスターセッション グラフィック・統計教育
日本 SASユーザー会 (SUG1‑0) SAS/GRAPH入門 社内における教育研修事例 0林 行 和 畑中雄介 小出起美雅 山口孝一 株式会社 CRCソリューションズ /CRO業務部 DM'統計解析チーム I n t r o d u c t o r ySAS/GRAPH ~ AnI n t r o d u c t i o no fI n ‑ h o u s巴 T r a i n i n gCours巴 Y u k i k a z uH a y a s h i Yusuk 巴H a t a n a k a K im i n o r iKoid巴 K o i c h iYamaguchi CRCS o l u t i o n sC o r p . CROD巴p a r t m巴n tD a t aManagement& B i o s t a t i s t i c sS e c t i o n 要旨 市販の表計算ソフトなどによるグラフ作成と違い、 SAS/G孔生 PHによるグラフの作成は細 部までを思うように作り込むことができ、非常に有用なツールで、ある そこで弊社における O SAS/G孔生 PH初心者のための教育研修を紹介する。 キーワード SAS/GRAPH、社内教育、 Windows版 SASSystem8、ANNOTATEMACRO 1.はじめに 弊社のような CRO 業務を行なっていると、クライアントの希望により細部まで指示のある グラフを作成する必要性が出てくる c SAS/GRAPHは ANNOTATEMACRO等を使うことに よりその仕様に沿ったクマラフを作成することがで、きる有用なツールで、ある。しかしながら、 ANNOTATE MACROまでを説明した初心者のための入門書になるようなものがなかなか 見当たらない。弊社でも結局、業務で必要性が出た時に随時、グラフ作成経験者が教え る状況であり、無駄が多く、情報の共有化の観点からも問題がある。そこで、 SAS/GRAPH 初心者を対象とした SAS/G比企PHの教育研修を紹介する。 2 .まずはグラフを描いてみよう! SAS/GRAPH の代表的なフ。ロ、ンジャに GPLOTフ。ロ、ンジャとし、うものがあります c まずは i ︐ ヮi ・ d4 ︐ ヮ
GPLOTフ。ロシジャを使ってど、んなグラフが描けるのか試してみましょう。 次のような 3群 ( K E Y ) 5例ずつ計 1 5例に対し、 0 , 2 , 4の 3時点で測定値が存在するデータ セット WRKを使います。 GPLOTプロシジャは PLOT品、うだけあって、最も簡単に描ける グラフは散布図です。縦軸に時点。の測定値 (VALO)、横軸に時点 2の測定値(¥1,札2 )とな るような散布図を描いてみましょう c /キデータ作成本/ data W R K ; i n p u t KEY PATNO V A L OV A L 2V A L 4 ; c a r d s ; 1 5 6 1 5 5 1 5 6 5 4 1 5 5 2 1 5 7 1 3 1 5 4 1 5 3 1 5 3 4 1 5 5 1 5 3 1 5 3 5 2 1 5 3 1 5 1 5 6 5 4 1 5 0 5 6 1 2 6 1 2 7 1 5 4 1 5 5 1 5 3 5 4 1 4 8 2 8 1 5 6 1 5 4 1 5 0 5 3 1 2 9 1 21 0 1 5 7 1 5 6 1 5 2 5 0 1 4 7 5 1 1 31 1 1 4 5 31 2 1 5 7 1 5 1 1 5 6 1 4 8 1 4 2 31 3 1 31 4 1 5 8 1 5 2 1 4 3 5 5 1 4 7 1 4 5 31 5 1 r u n ; ト一一散布図一一; proc g p l o td a t a = W R K ; 本V A L 2 ; p l o t V A L日 r u n ; qui t ; ト 縦 軸 × 横 軸 の1 ) 頂で一 散布図を描くには PLOTステートメントを使用しますc PLOT [縦軸の変数l * [ 横軸の変数1; の1慎で指定しなし吃縦横が入れ替わってしまいます。そこだけ注意しましょう。 以下のようなグラフが描けたでしょうか?( F i g 1 ) このグラフから分かるように、 OUTPUTそのままを縮小して貼り付けを行なうと、ラベルの文字 が小さすぎて潰れてしまったり、枠ギリギリにプロットがあり見にくかったりします。その見栄え を整えるのが最終目標です。 ‑478‑
E V A i L 5 3 l 1 5 1 1 5 5 1 5 5 1 5 1 1 5 1 1 5 1 1 5 1 1 5 0 1 1 9 1 1 8 1 1 1 1 5 2 1 5 1 1 5 1 1 5 1 1 5 5 1 5 6 V A ll 3 .推移図を描いてみよう! 見栄えを整える前に GPLOTプロシジャでできることをいろいろ見てみましょう。 そこで、散布図の次に推移図をf 郎、てみましょう。縦軸に測定値、横軸に時点となるような推 移図を考えます。そのような推移図を作成するには、データセットの構造を変えた方が便利で、 す 。 守二データを縦型に変換一, proc s o r t data=WRK; b y KEY P A T N O ; r u n ; proc transpose dataニWRK out=WRK1; b y KEY P A T N O ; v a r YALO YAL2 Y A L 4 ; r u n ; data WRK1; s e tW R K 1 ; i f NAME ='YALO' t h e n YISITニ0 ; i f NAME ニ ' Y A L 2 ' t h e n YISIT=2; i f NAME = ' Y A L 4 ' t h e n YISIT=4; drop NAME rename COL1=YAL; r u n ; M院内 Tll n川V MN n w B 'iaan l u 川 WHTl nk= ︑ 肉 ‑2U ‑‑ilt LA ‑2uuv‑ 一 ・ 同 U+AT ﹃ ﹂ i πbFnuHu' PIMall ・﹂ーハ U4 移川 ・ ふ字‑ g b ‑nunuv 4Jnu ‑ 引 l 一 v ︐ +ATnuv 本 / Y軸変数本 X軸変数=組付け変数の1 ) 医 本 / ‑479一
r u n ; qui1 ; 推移図を描くには、縦軸と横軸、そして横軸の推移をす丑付ける変数が必要になります。 PLOT ステートメントを使い、 PLOT [縦軸の変数 l * [横軸の変数]ニ[紐付け変数] と指定します。すると次のようなグラフが描けます。 J#iF4弘j ポ u'1itale‑‑YATA‑‑‑1 L IT65112111 6 ︐1RT 62 AAEJRekdEd'bRdEJR ︑ ︐5 ︐4 1 2 ι4aappapd''q 巨日 ・ 1l x x Y 1 S I T P A T N O +++ 1 . ;+ + 2 ~ 1 ~ 3 ++ + 4 ・ 5 ・・, 6 1 1 xX x1 1 、"/13 " 、 "14 ・T X X X 1 1 色や、ンンボルの形を変えることで、紐付けされていますが、白黒出力だと、どの値が対になって いるかわかりません。推移図ですから推移を線で結びましょう。 SYMBOLステートメントを使い ます。 p r o cg p [ o ld a l a = W R K 1 ; p [ o l V A L * V [ S [ T = P A T N O ; s y m b o[ v = n o n e c ニb [ a c ki = j o i n[ = 1r = 1 2 ; q u i t ; ここで使用した SYMBOLステートメントのオプ、ンョンは、 v= プロットの種類、 1 ‑ .補間線の線種、 c= 線やプロットの色、 i = 補間線 r ニ :指定した symbolの繰り返し数 4 8 0 ←
巨E V A L 1 1 1 1 ) 1 ‑ 5 1 1 5 5 1 5 ! 1 5 1 1 5 2 1 5 1 1 5 ~ I ! l l ! i 1 ! 1 I ! I 1 ! 5 1 ( ( l ! l 1 ! 2 V I S I T p m o一 一 一 1 ‑ 2 一一‑) 一 一 一 i 一‑ 5 一 一 一 』 一 一 一 ! ‑‑i 一‑ g 一一一 I~ ‑ 一 一1 1 一 一 一1 2 一 一 一1 1 一 一 一1 ! 一 一 一1 5 4 .体裁を整えよう! さて、それでは、他の文書に貼り付けても見栄えがよくなるように調整していきましょう。縦軸 横軸共にラベルを大きくした方が見やすそうで、す。目盛も工夫してみましょう。 goptions gunitニp c t ; proc gplot data=WRK1; plot VAL宇VISIT=PATNO Inolegend vaxis=axis1 haxis=axis2; s y m b o l v=dot h=0.5 c=black i = j o i n1 = 1r = 1 5 ; ニ4 . 0 ) offset=(O,0 ) a x i s 1 label=(font='Times New R o m a n ' h 二 l .0 ) minor=(n=4 h = 0 . 5 ) major=(w=l h length=75pct width=2 order=(140 t o1 6 0b y5 ) value=(font='Times New R o m a n 'h = 4 . 0 ) origin=(15, 1 5 ) ; l ) axis2 label=(font='Times New R o m a n 'h = 4 . 0 ) offset=(l, minor=none majorニ ( w = lh = 1 . 0 ) o 4b y2 ) width=2 lengthニ 80pct order=(O t ニ( font='Times New R o m a n 'h = 4 . 0 ) originニ ( 1 5, 1 5 ); v aI ue AXIS ステートメントを使い、縦軸、横軸のラベル等を細かに調整することがで、きます。これ らのオプションによって規定する単位は [GOPTIONS UNIT=]で指定することができます。 複数の端末でフ。ログラムを流す可能性があることを考えると、 p c t を指定しておいた方がよ いでしょう。 4 8 1
LABEL.一変数のラベルの表示、 OFFSET.一軸のと。こから目盛をスタートするか、 MINOR, MAJOR …目盛の線の設定、 LENGTH …軸の長さ、 ORDER .一軸上の目盛の飛び幅、 WIDTH …軸の太さ、 VALUE 一目盛の値の設定、 ORIGIN . ..始点 巨日 VAL 1 6 0 1 5 5 1 5 0 1 4 5 1 4 0 。 2 4 VISIT 随分と見栄えがよくなったんじゃないでしょうか?どの症例も同じ SYMBOLで設定したの で凡例を外しました。 PLOTステートメントの NOLEGENDがその設定です。 5 .体裁を整えよう!p a r t 2 ( M e a n + S D ) 次に群毎の平均値±標準偏差をグラフにしてみましょう。±標準偏差の部分のパーなどは ANNOTATEMACROを使用することによって自分の好きなように調整できます。まずは平均 値と標準偏差の計算。 p r o cu n i v a r i a t ed a t a = W R K ln o p r i n t ; v a rV A L : b y K E YV I S I T ; o u t p u to u t = W R K 2m e a n = M E A Ns t d = S D ; r u n ; ±標準偏差の縦線とパーは ANNOTATEMACROの%LINEを使用します。 d a t aA N N 0 1 ;s e tW R K 2 ; % d c l a n n o ; ,3 ) ; % s y s t e m ( 2,2 i f S D > O t h e n d o ; 4 8 2
出l ine(VISIT, MEAN‑SD,VISIT, MEAN+SD,black,1,0 . 2 ) ; ト S D縦線 ; 引 i n e ( V I S IT +0.2,MEAN‑SD,VISIT +0.2,MEAN‑SD,black,1,0.2); 宇一上横線ー; 目l ine(VISIT‑0.2,MEAN+SD,VISIT‑0.2,MEAN+SD,black, 1 ,0.2); ト下横線 e n d ; = 0 t hen deI et e; i f S Dく r u n ; ; 座標 (x1,y1)と(x2,y2)を結びたい時に %LINE(x1, y1, x2, y2,線の色,線の種類,線の太さ); としづ指定の仕方をします。 ANNOTATE MACRO の x 値、 y 値 が 座 標 内 の 値 で あ れ ば 、 %system(xs,ys,h s ) ; の xs, y sの部分を 2、画面内の%値にしたい場合は 3を指定します C ANNOTATEMACROで、作成したデ、ータセットは GPLOTフ。ロシジャの PROCGPLOTステー トメントのオプ、ンョンか、もしくは、 PLOTステートメントのオプ、ンョンで、指定することがで、きます。 gopti 0円s gunit=pct; proc gplot data=WRK2; n。 円 =ANN01; p l o t MEAN宇VISITニKEY / nolegend vaxis=axis1 haxis=axis2 a s y m b o l v=dot h=0.5 c=black i = j o i n1 = 1r = 3 ; ニ4 . 0 ) offselニ ( 0, 0 ) minor=(円= 4h = O .5 ) a x i s 1 label=(fonl='Times New R o m a n ' h major=(w=l h =1 .0 ) length=70pct widlh=2 order=(140 1 01 6 0b y5 ) 5 ) ; value=(font='Times New R o m a n ' h = 4 . 0 ) origin=(15,1 1 0, 1 0 ) minorニ円 one axis2 label=(fonl='Times New R o m a n 'h = 4 . 0 ) offsetニ ( major=(w=l h = 1 . 0 ) lenglh=80pcl order=(O 1 04b y2 ) width=2 1 5 ) ; value=(font='Times New R o m a n 'h = 4 . 0 ) origin=(15, r u円 ; qui 1 ; ~ MEAN 160 155 150 145 140 。 2 VISIT 483‑ 4
ここでは、 PLOT ステートメン卜のオプ、ンョンとして[ ANNO= ]の部分で、 ANNOTATE
MACRO により作られたデータセットを指定しています c MEAN::!::SDの上と下のパーに長
さが出てきたため、症例毎の推移図の X 軸より余白を持たす必要があります。それを X 軸
{
倶
側
R
則]
1の設定でで、ある AX
氾I
臼
S2ステ一卜メン卜の OFFSETオフ。、シンヨンで
F
i
g
5
)
次のような MEAN::!::SDのグラフが出来上がります o (
このグラフを見てどうでしょう ?3 群が重なって見づらいですよね ?3 群を少しずつずらし
て打ち出したり、 SYMBOLを変えたり、線種を変えたりで群を見やすく工夫しましょう c さら
にラベルやタイトルを整えて見栄えをよくしてみましょう。それを最後の章で実践します。
6
.見栄えを完成させよう!
ANNOTATEMACROを使用し、見栄えの最終調整です。 ANNOTATEMACROを使用
するには %ANNOMAC; の一文を実行します。またカタログ ファイルへの保存方法、更に、
P
他のファイルに貼り付けるのに有用な拡張メタファイル (EMF)への変換方法を紹介します。
%
A
N
N
O
M
A
C
;
ト V
I
S
I
Tずらし
;
d
a
t
aW
R
K
3
;s
e
tW
R
K
2
;
i
fK
E
Y
=
lt
h
e円 V
I
S
I
T
=
V
I
S
I
T
‑
0
.
3
i
fK
E
Y
=
3t
h
e円 V
I
S
I
T
=
V
I
S
IT+0
.
3・
・
r
u円・
S
Dバ一
;
d
a
t
aA
N
N
0
1
;s
e
tW
R
K
3
;
出d
c
l
a
n
n
o
;
%
s
y
st
e
m(
2,2
,3
)
;
i
f S
D
)
O t
h
e円 d
o
;
ト S
D縦線ー;
出I
I
n
e
(
V
I
S
I
T,
M
E
A
N
‑
S
D,V
I
S
I
T,
M
E
A
N
+
S
D,b
l
a
c
k, 1
,0
.
2
)
;
ト M
E
A
N
‑
S
D横線一;
出l
i
n
e
(
V
I
S
I
T
‑
0
.
1,M
E
A
N
‑
S
D,V
I
S
IT+0
.
1,M
E
A
N
‑
S
D,b
l
a
c
k, 1
,0
.
2
)
;
ト M
E
A
N
‑
S
D横線一;
出I
I
円e
(
V
I
S
I
T
‑
0
.
1,M
E
A
N
+
S
D,V
I
S
IT+0
.
1,M
E
A
N
+
S
D,b
l
a
c
k,1
,0
.
2
)
;
e
n
d
;
f S
Dく=
0 t
h
e円 d
e
l
e
t
e
;
i
牢
r
u円・
トタイトル、縦軸、横軸表記ー;
d
a
t
aA
N
N
0
2
;
l
e
n
g
t
hT
E
X
T$
8
0
;
目d
c
l
a
n
n
o・
%
s
y
s
t
e
m
(
3,3
,3
)
;
トタイトルー;
出I
a
b
e1
(
5
0,9
5,"推移図 (
M
e
a
n:
tS
D
)
",b
l
a
c
k,0
,0
,5
.
0,'MS ゴシック, 5
)
;
牢 Y
軸ラベル ;
484‑
見I a b e1 ( 5,5 0,"測定値", black,‑89.99,9 0,4.0,'MS ゴシック 5 ); X 軸ラベル : 見I a b e1 ( 5 0, 5,"時点", bI a c k,0,0,4.0,'MS ゴシック, 5 ) ; ト凡例一; 見l ine(80, 1 1, 9 0, 1 1, black, 1, 0 . 2 ) ; 目l ine(80, 7, 9 0, 7, black,2, 0 . 2 ) ; 出l ine(80, 3, 9 0, 3, black, 1 4,0 . 2 ) ; 出l abel(85, 1 1," . " , black,0,0, 2 . 0,'MS ゴシック, + 竹 ); 引 目l a 灼b 巴I ( ω 8 5 ι, 7,"0 釦 目l a 灼b e 削I ( ω 8 5, 3,"口", bI ack,0,0,2 . 0,'MS ゴシック, + ) ; 出l a b e l ( 9 1, 1 1," :KEY1", black,0,0,3 . 0, 'MS ゴシック" ) ) ; 引a b e l( 9 1, 7,":K E Y 2 ", black,0,0,3 . 0,'MS ゴシック" ) ) ; 目I abeI( 9 1, 3,":KE Y3 ", bI ack,0,0,3 .0,'MS ゴシック" ) ) ; r u n 本 X 軸目盛 ; data ANN03; l e n g t h TEXT $ 8 0 ; 制c lanno; ) ; %system(2, 3, 3 ト目盛ー, 出l i n e ( O,2 0,0, 1 9, black, 1,0 . 2 ) ; %line(2,2 0, 2, 1 9, black, 1,0 . 2 ) ; ack, 1,0 %line(4, 2 0,4, 1 9, bI . 2 ) ; ト目盛値 ; 出l abel(O, 1 7 . 5," 0 ", b1 ack,0,0,4.0,' Ti m e s New R o m a n ', 5 ) ; ack,0,0,4.0,' 目l abel(2, 1 7 . 5," 2 ", b1 Ti m e s New R o m a n ', 5 ) ; 目l a b e l( 4, 1 7 . 5," 4 ", black,0, 0,4.0,'Times New R o m a n ', 5 ) ; r u n ; 本 一 ー ー ー 一 一 ー 一 一 ー , data ANN02; s e t ANN02 ANN03; r u n : 本 本‑‑ E MFファイルヘ ; FILENAME FIG " C :半SAS̲FIG̲EMF半F1 G .e mf "; GOPTIONS RESET=ALL GUNIT=PCT TARGET=LIPS3A4 DEVICE=EMF GSFNAME=FIG GSFMODE=REPLACE ROTATE=LANDSCAPE; goptions gunit=pct; proc gplot data=WRK3 anno=ANN02; plot MEAN叫 ISIT=KEY / nolegend vaxis=axisl haxis=axis2 anno=ANN01; ニ 1 .8 c ニblack i=join 1 = 1 r = 1w = 2 ; symbo1 1 v=dot h symbol2 v ニcircle h ニ 1 .8 c=black i=join 1 = 2 r ニ1w=2; ニ l .8 c=black i = j o i n1 = 1 4r ニ1w=2; symbol3 v=square h ) axisllabelニnone offset=(5,5 .O ) minor=(n=4 h = 0 . 5 ) major=(w=1 h =l length=65pct width=2 order=(140 t o1 6 0b y5 ) 2 0 ) ; value=(font='Times New R o m a n 'h = 4 . 0 ) origin=(15, axis2 label=none offset=(O, O ) mlnor=none maJor=none length=75pct orderニ ( ‑ 0 . 5t o4 . 5 ) width=2 value=none origin=(15,2 0 ) ; r u n ; 4 8 5
巨百 推移図 (Mean+S D ) 160 1 5 5 測定値 ¥¥E¥J1 1 5 0 、 1 4 5 1 4 0 。 2 4 時点 SASSystem8より、更に様々なタイプの T r u eF o n tが使用できるようになりました。しかし、 o n t もあり、他文書への貼り付け時の見 ファイルの保存形式によってはサポートされない F 栄え等を考慮すると、 EMFファイルが汎用的で、あるようでLす C [参考文献] ( 1 )r SAS/GRAPH リファレンスガイド R e l e a s e 6 . 0 3E d i t i o n JSASl n s t i t u t eJapan株式会社 (2)rSASプロシジャリファレンス V e r s i o n 6, F i r s tEditionJSASl n s t i t u t eJapan株式会社 ‑486
ポスターセッション グラフイツク・レポーテイング
日本 SASユーザー会 (SUG1‑0) S A Sグラフによる動く万華鏡の作成 岸本容司 神戸商科大学 経営学研究科経営情報科学専攻 Moving K a [ e i d o s c o p e sb y SAS/GRAPH Y o j iK i s h i m o t o Graduate S c h o o [o fB u s i n e s s Administration, K o b e University o fC o m m e r c e 要旨 昔からある万華鏡という玩共のカラフルな絵模様を、 SAS/GRAPHを使って出画し、 G I Fアニ メーションとして出力することを試みた。当初は、従来の万華鏡で見えるような絵模様の静止画像 を想定していたが、開発を進めるうちに、動きのある方がよりダイナミックに凡えるので、絵模様 が回転したり、移動したり、色が微妙に変化していくといった多様な機能を付加していった。その 結果、通常の万華鏡のイメージとは少し異なるものとなった。種々のマクロ変数を S ASプログラ ムの冒頭部で設定することにより、多彩なパターンの絵模様が表示できるようにした。 キーワード: SAS/GRAPH、G I Fアニメーション、万華鏡、マクロ変数 1.はじめに 万華鏡とは、三枚の鏡板を組んだ三角柱の1 II 1 こ種々の色ガラスや色紙の小片を入れたもので、 回しながらのぞいて模様の変化を見て楽しむ一種の玩具である。その万三在鏡の " 1 ]に見える刻々 ASの G I Fアニメーションを作成する と変化する模原をディスプレイ上で表現しようと考え、 S 機能と乱数を用いてプログラムの作成を試みた。当初は、従主米│長毛の万華 の静止画像を想定していたが、開発を進めるうちに、回Jきのある方がよりダイナミックに見え るので、絵模様が回転したり、移動したり、色が微妙に変化していくといった多岐な機能を付 加していった。その結果、通常の万華ー鏡のイメージとは少し異なるものとなったが、本論文で は便宜上、 w 成される絵模慌を万葉銑と 乎ぶことにする。 1 [ 2 .プログラムの概要と流れ 万華鏡の模様を表現するために、このプログラムでは直純を用いている。そのために、まず、 4 8 9 ‑
その直線を描くために必要な座標点を求める(図 lの①)。また、 GIFアニメーションは複数の 静止画を連続して表示することによって、動いているように見せている。そのため、静止画を 複数枚作成する(図 1の②)。このときの静止画 l枚 l枚のことをここではフレームと呼ぶこと にする。また、このプログラムでは、 1つ目の万華鏡のデータをフレーム枚数分作成してから、 2つ目、 3つ目、・・・と万華鏡のデータを追加することで複数の万華鏡を同時に表示すること r a p h b a s eという S A Sデータセットに‑̲e̲保存をし もできる(図 1の③)。その全てのデータを g I Fアニメーション用の G I Fファイルに一度に書き出している。こうすれば、出力が l た後に、 G 回で済むため、 lフレーム毎に G I Fファイルへ書き出すより、フログラムの実行時間が節約で きる。 プログラムの開始 ①座標演算 一]一 作図処理 GIFアニメ形式で書き出し J Ji l l れ 一グ一口 一今︑一の ‑引一ム L 山一一フ ‑ 4一 ラ 一 グ 一口一 フ ‑‑咽 J 一 一 フ 一 /¥図 EA 3 .万華鏡の表示パターンを設定するパラメータ 多彩な模様を描くために、多様なパラメータを用意した。それらはプログラムの冒頭部です べてのマクロ変数を設定することで実現している。従って、プログラムを実行する際に、マク ロ変数の設定を変えるだけで、まったく異なる万華鏡が作成できる。マクロ変数で指定できる ‑ 4 9 0
主な機能は以下の通りである。 .GIFアニメーション ・フレーム枚数 ・l枚分のフレームがディスプレイ上に表示される時間 .万華鏡の 5種類の移動パターン ①常に中心にあって不動、cz:∞状に移動、③枠に沿って移動 ( 1 )、④枠に沿って移動 ( 2 )、 ⑤ランダムに移動 図 2の aから dに② ⑤の移動パターンを示す。 a ∞状に移動 b 枠に沿って移動 ( 1 ) c 枠に治って移動 ( 2 ) d ランダムに移動 図 2 移動パターン .万華鏡の数 ・個数 ・複数個あるとき、①軌跡が lつ、②軌跡が万華鏡の数と同じ数 ・複数個あるとき、①同じ絵模保、②別の絵模係 ‑ 4 9 1一
b 別の絵模様 a 同じ絵模様 図 3 万華鏡が複数個あるときの絵模様のパターン .万華鏡の形状 ・万華鏡を構成する基本の扇形の個数 .基本の扇形の中にある線の本数 ¥、令、 い 。 で テ J ̲ ‑ ‑ a 扇形の数 24、線の数 1 5 b 扇形の数 48、線の数 1 0 0 図 4 万華鏡の基本の扇形の数とその中にある線分の本数 ・万華鏡の半径 ①固定、②大小の繰り返し、③外枠までの最短距離 b 外科ーまでの最短距離 a 大小の繰り返し 図 5 万華鏡の半径のパターン 492‑
‑移動範囲 ‑回転速度 ①すべてのフレームが同じパターン、 ‑万華鏡の模保 ②アニメーション l j lにパターンが l回変化、 ③ lフレームごとにパターンが変化 .万華鏡を構成する線 ‑太さ 平ー, ¥ . 府 + ニ ニ ー : ニ a線の太さ 1 図 6 線の太さ ‑色もしくは、赤、緑、 青の比率を指定 ‑アニメーション時のグラデーションの有無 .万華鏡の表示される範囲を示す枠 ‑枠の形 ①正方形、②横長の長方形 ‑枠、タイトルの有無 (このパラメータ「なし」に設定すると、万華鏡のみの GIFアニメが作成できる。) これらマクロ変数の値の詳細についてはプログラム中のコメントを参照されたい。 4 .まとめ 本論文で解説した万華鏡作成フ ログラムから山力される GIFファイルは動きを伴うものであ o る。そのため、本論文上には実際のテーィスプレイ上で見えるカラフルなアニメーションは掲載 できない。 SAS プログラムおよびサンプル画像は無料でダウンロードできるようにしている。 ( h l l p : / / m i g h l y .k o b e u c .a c .j p / s u g i ‑ j / 2 0 0 3 .h l m l ) ただ、将来、プログラムの機能のアップな どで本論文に掲載しているプログラムと若干異なる場合もあり得る。今回は直線を使って、絵 模様を作成したが、将来、任意の図形を組み合わせて万華鏡のパターンを作成するプログラム を試作したい。 aAU1 ペ n u n同d
[謝辞)
本論文を作成するに当たり、神戸商科大学の周防節雄教授と古隅弘樹講師から様々なコメント
やアドバイスを頂いた。また、 SAS I
n
s
t
i
t
u
t
eJapan株式会社の漁智一氏からは貴重な情報を頂
戴した。ここに記して謝意に替えたい。
[参考文献)
[1]長谷川要 (
2
0
0
1
)r
S
A
S
/
G
R
A
P
Hソフトウェアを用いたフラクタル図形の作成JI
r
第 20回 SAS
ユーザー会総会および研究発表会論文集~ ,
pp322‑323
[
2
]長 谷 川 要 (
2
0
0
2
)r
スピログラフを再現しよう ‑GIE
必.JIMDeviceDriverを用いたアニメーシ
ョン図形の作成 J Ir第 21 回 SAS ユーザー会総会および研究発表会論文集~ ,
pp587‑592
[
3
]
S
A
S
/
G
R
A
P
HSampleProgramshttp://support
.sas.comltechsup/sample/sample̲graph.html
付録プログラムリスト
本
/ m
a
n
g
e
k
y
o
.s
a
s本
//本万華鏡の模様を G
I
Fアニメーションにして書き出すプログラムヰ/
o
p
t
i
o
n
sn
o
s
o
u
r
c
en
o
n
o
t
e
sn
o
m
p
r
i
n
t
;
ヰ
/ G
I
Fアニメーションについて本/
出l
e
tp
it
c
h
=
1
0
0
;
/本 GIF アニメーションのフレーム数推奨値 50~300
牢
/
本
/ 1
0未満の時、万華鏡は常に中心!こあり、大きさ不変本/
/本推奨値 50~200 (
1の時、静止画像)
本
/
出l
e
tf
r
a
m
et
i
m
e
=
1
0
;
/キ GIF アニメの 1 フレームの表示時間(単位 0.01 秒)推奨値 5~20 牢/
/本万華鏡の移動について本/
目l
e
tm
o
v
e
=
O
;
ヰ
/ 0
=常に中心、 1
=∞状に動く、 2
=
枠に沿って動く (
1
)、
3
=
枠に沿って動く (
2
)、4
ニランダム軌道牢/
/ヰ万華鏡の移動速度 m
o
v
eニ4のときのみ有効(単位p
ct
)本
/
出l
e
tm
o
v
e
̲
s
p
e
e
dニ 1
0
;
/キ万華鏡の数について牢/
自I
eth
o
w
m
a
n
y
=
l
;
出l
e
ts
h
a
p
e
=
O
;
出l
e
ts
h
i
f
t
=
O
;
/キ万華鏡の形についてヰ/
%
I
e
td
i
v
i
d
e
=
4
8
;
出l
e
tl
i
n
e
̲
n
o
=
1
5
;
出l
e
tr
a
d
i
u
s
=
O
;
出l
e
tm
o
v
e
̲
r
a
n
g
e
=
9
5
;
出l
e
ts
h
a
p
e
̲
p
a
t
t
e
r
n
=
l
;
出l
e
tr
o
u
n
ds
p
e
e
d
=
‑
3
6
0
;
/本万華鏡の数本/
/ヰ複数個ある万華鏡の形状のパターン
0
=
別々 1
ニ同じ (
h
o
w
m
a
ny
)1
のときのみ有効)本/
/牢複数個ある万華鏡の移動パターン
0
=同じ 1
=
別々 (
h
o
w
m
a
n
y
>
lかつ m
o
v
e
=
1,
2,
3
のときのみ有効)牢/
/キ万華鏡の分害IJ 数偶数のみ推奨値 12~128 キ/
/キ万華鏡を構成する線の数推奨値 20'~100(line w
i
d
t
h
=
l
)
5~ 2
5
(
l
i
n
e width寸)本/
/本万華鏡の半径の変化パターン
0
=変化なし、 1
=小さくなってから元の大きさに戻る、
2
=中心点から枠までの最短を半径とするキ/
/牢万華鏡が移動し、この値が0または 1
のとき最大値 1
0
0
‑
m
o
v
e
̲
r
a
n
g
eキ/
/牢移動時の万華鏡の移動範囲(単位p
ct) 推奨値 30~95 キ/
/キ万華鏡の形状の変更パターン
1
=変化なし、 2
=二種類、 0
=フレームごとに別のパターンキ/
/本万華鏡の回転速度(単位。)(
"
36
0
"でアニメーション中に一回転)ヰ/
/ヰ万華鏡を構成する線について牢/
4
9
4一
出l e tl i n ew i d t h = 2 ; % I e t color̲pattern=l; /本線の太さ推奨値 1~5 (単位 p ct ) 本/ /本線の色の指定 0 =一色を指定、 1 =輪ごとに変化、 2 =全ての線が別の色本/ 引e t line̲color=cxffOOff; / *color̲pattern=Oのときのみ有効(色の指定は R G Bまたは n a m eで指定)本/ /本色の濃淡 ( color̲pattern二 1または 2のときのみ有効)本/ 引e tr ̲ i d = l ; 本 / 0 =赤色のグラデーションなし、 1 =あり本/ % I e tg ̲id=l; 引 etbid=l; 見l e tr ̲ d e n s e = O ; 児l e t gd e n s e = O ; % I e tb ̲ d e n s e = O ; / 本 0 =緑色のグラデーションなし、 1 =あり本/ / 本 0 =青色のグラデーションなし、 1 ニあり本/ /本赤色の濃度 2 =赤の濃淡のみ、 1 =赤色が濃い、 0 =普通本/ /本緑色の濃度 2 =緑の濃淡のみ、 1 =緑色の濃い、 0 =普通本/ /本青色の濃度 2 =青の濃淡のみ、 1 =青色の濃い、 0 =普通本/ つのうち 2 つ以上が 1 のとき全体的に暗色 /本上記の 3 ヰ/ /本上記の 3 つのうち 2 つ以上が 2 のとき黒一色 ヰ/ 引e tb a c k color=cxfOffff; /¥背景の色(色の指定は R G Bまたは n a m eで指定)本/ 引e tf r a m e w o r k = O ; /本枠の有無 0 =あり、 1 =なし¥/ /*枠の形状 0 =正方形、 1 =表示限界の長方形平/ 出l e t framework̲patternニ0 ; 出l e t anime=c:~mygif 半 mangekyo. g i f ; /ヰ作成する G I Fファイルの出力先本/ /平一一一ー 一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一 /ヰ万華鏡を作るためのプログラムヰ/ 一一一一一一一一ー f il e n a m ea n i m e"&anime"; 目l e t time=round(timeO); % I e t pi=constant( " p i " ) ; /¥乱数のシードヰ/ /¥円周率本/ 出l e t rate=(100+71*&framework̲pattern)/100; /ヰ枠の縦と横の比率本/ /本枠が長方形の時のデータ¥/ %macro o b l o n g ; a x i s 1l e n g t h = 7 .7 i n order=(一1 7 2t o1 7 2b y1 7 2 )c o l o rニ"&back̲coI 0r "; 0 1t o1 0 1b y1 01 )c o l o rニ"&back̲coI 0r "; a x i s 2 length=4.5in order=(ー 1 % m e n d ; /本枠が正方形の時のデータヰ/ %macro s q u a r e ; a x i s 1 length=4.5in order=(一1 0 1t o1 0 1b y1 0 1 ) color="&back̲color"; a x i s 2 length=4.5in order=(一1 0 1t o1 0 1b y1 01 )c olor="&back̲color"; % m e n d ; /本枠とタイトルがあるときの設定本/ %macro e x i s t ; ニJ ; s y m b o l 1i t i t l e 1h = 5p c t f=mincho"動く万華鏡" 出m e n d ; /ヰ枠とタイトルがないときの設定本/ %macro n o e x i s t ; ‑495 ヰ/
s y m b o l 1i = n o n e ; % m e n d ; 出m a c r口 make̲random̲no; /本乱数発生のシード作成本/ d a t a dummy̲make̲seed; dummy̲seed̲firstニ &ti m e ; dummy̲seed̲second=&time+123; seed̲step=&time+1234; r u n : % m e n dm a k er a n d o mn o ; 出m acro p o i n t i n g ; p r o c datasets I i bニw or k n0Ii stki1 1; /本既存の S A Sテンポラリーテータセットの削除ヰ/ qui t d a t af r a m e w o r k ; /ヰ枠のデータヰ/ l e n g t hk e y $8 ; ) d oi = Ot o %eval(&pitch‑l key=put( i, z 8 . ) x = ‑ 1 0 0ヰ &r at e +1 ;y = ‑ l0 1 ; 0ut put; &r at e +1 ;y =1 0 1 ; 0ut put; x=‑100ヰ x =1 0 0本 &r at e +1 ;y =1 0 1 ; 0ut p ut; r at e + 1 ;y 二一 1 0 1 ;o u t p u t ; x =1 0 0ヰ& 0 0ヰ &r at e +1 ;y = ‑ l0 1 ; 0ut put; x =ー 1 e n d : r u n ; 出m a k er a n d o mn o ; 出d o order=O % t o% e v a l( & h o w m a n y ‑ 1 ) ; /ヰ制。 ( 1 )の始まり本/ 出i f &shape=O %then %make̲random̲no; /本ランダム軌道時の始点と移動方向ヰ/ d a t am a k e ̲ s e e d ; s e t dummy̲make̲seed; = r a n u n i( s e e d ̲ s t e p + & o r d e r )日 叫 pi: dummy̲dir e cti o n dummy̲x̲st art ̲ p o siti o n =r a n u ni( s e e d ̲ st e p + & or d er )叫 move ーr a n g e叫 r a t e ; )刈 m o v e ̲ ̲ range; dummy̲y̲start̲position=ranuni( s e e d ̲ s t e p + & o r d巴r r u n ; /ヰ制。 ( 2 )の始まりヰ/ 出d o size=O % t o% e v a l( & p it c h ‑ 1 ) ; d a t ab a s e ; s e t make s e e d・ d r o p dummy̲seed̲first dummy̲seed̲second d u m m y ̲ d ir e c t i o n du mmy ̲x ̲st art ̲p0siti 0nd u m myy st artp0si ti 0n i ; a r r a y dummy̲var { 5 } dummy̲seed̲first dummy̲seed̲second dummy̲direction d u m m y ̲ x ̲ s t a r t ̲ p o s it i o n dummy̲y̲start̲posit i o n ; a i n 1 ‑ d u m m y ̲ r e t a i n 5 ; a r r a y dummy̲retain { 5 }d u m m yー「巴 t dAUI nhu n同d
r
e
t
a
i
n
dummy̲retain1‑dummy̲retain5;
r
e
t
a
i
n dummy 0
;
i
f n
̲
=
lt
h
e
nd
oi
=
lt
o5
; dummy̲retain{i}ニ dummy̲var{i}; e
n
d
;
d
ow
hiI
e(
d
u
m
m
y く&I
i
n
en
日
本 (
&
di
vi
de
t1
)
);
dummy=dummyt1;
a
i
n
3
;
di
r
e
cti
on=dummyー「巴 t
ー「巴 t
a
i
n
4
;
x̲start̲position=dummy
y̲start̲position=dummy̲retain5;
s
eI
e
ct(&shape̲patt
e
r
n
)
;
w
h
e
n
(
O
) seed=dummy̲retain1t&siz巴
;
w
h
e
n
(
l
) seed=dummy r
e
t
a
i
n
1
;
w
h
e
n
(
2
)d
o
;i
f &size く r
o
u
n
d(
&
p
it
c
h
/
2
) t
h
e
ns
e
e
dニ dummy r
e
t
ai
n
1
;
e
e
dニ dummy r
e
t
a
i
n
2
;
e
l
s巴 s
巴n
d
:
巴n
d
;
o
u
t
p
u
t
;
巴n
d
;
r
u
n
;
data plot̲KaleidoScope;
s
e
tb
a
s
e
;
r
e
t
a
i
n segment 0 vertex̲no 0 first̲random second̲random;
drop change s
i
z
ea
n
g
l
ex
̲
c
e
n
t巴ry̲center a
n
g
l巴 move a
n
g
l巴 c
ir
c
l
e angle̲add
direction x̲start̲position y̲start̲position first̲random second̲random
real̲radius̲id real̲move r
a
n
d
o
m
̲
n
o angle̲shift;
i
f mod(dummy,
÷t1)=1 t
h
e
nd
o
;
segment=segmentt1;
vertex n
o
=
O
;
a
n
u
n
i(
s
e
e
d
)
;
f
i
r
s
tr
a
n
d
o
m =100本r
本r
a
n
u
ni(
s
e
e
d
);
s
e
c
o
n
d random=10日
巴n
d
;
vertex̲no=vertex̲not1;
f
r
a
m
eo
r
d巴r
=
&
s
i
z
e
;
circle order=&ord巴r
;
nNU
JHU
‑
‑
一一
叫
R nU
Hu=
内
角
川
dnd
・1 I O U
‑"uuv
dnu
r‑m
ρvou
﹁﹁
H
門
u
l同
Auou
︐
.
υ
n
)nHV
1
Plu
1hH
/︿¥
t
んU
n
u
r
nH
(o
P
し1hH
a'LOU
て
叫
o
u
︐
.
ew
o
t
h巴r
w
i
s
ed
o
; real̲radius一i
d
=
&
r
a
d
i
u
s
;
r
e
a
l move=&move;
巴n
d
;
﹄
同
・
4
凋
ηt
nd
e n d : /本万華鏡の中心点の座標本/ a n g l em o v e = 2本& p i本& s i z e / & p it c h ; a n g l e ̲ c i r c l e = 2本& p i時 o r d e r / & h o w m a n y ; a n g l e ̲ a d dニ a n g l e ̲ m o v e t a n g l e ̲ c i r c l e ; a n g l es h i f t = & s h i f t本a n g l ec i r c l e ; s eI e ct ( r e aI ̲ m o v e ); w h e n ( O )d o ;x ̲ c e n t e r = O ;y ̲ c e n t e r = O ;e n d ; w h e n ( l )d o ;x ̲ c e n t e r = & m o v e ̲ r a n g e本si n( a n g lea d d )叫 r a t e ; yc e n t e r = & m o v e一r a n g e本si n( 2ね n g l e ̲ a d d ‑ a n g l e ̲ s h i f t ); e n d ; m o v e ̲ r a n g e本c o s( a n g le ̲ a d d )叫 r a t e ; w h e n ( 2 )d o ; xc e n t e rニ& i n ( a n g l e ̲ a d d ‑ 0 . 5ね n g l es h i f t ) ; y ̲ c e n t e r = & m o v e ̲ r a n g e本s e n d ; w h e n ( 3 )d o ;x ̲ c e n t e r& r a t e叫 m o v e ̲ r a n g e 本( a b s( m o d( 1 .4 牢c o s ( a n g l e ̲ a d d ) + 2,2 ) ‑ 1 ) ‑ 1 ) ; / 2宇 品p i O R i fa n g l ea d dく 1 3 / 2叫 p l くa n g l e ̲ a d dく5 / 2叫 p iO R iく a n g l e ̲ a d dt h e nx ̲ c e n t e rニ a b s ( x ̲ c e n t e r ); 7 / 2泌 p 二 yc e n t e r = & m o v e一r a n g e 本( a b s( m o d( 1 .4 村 i n ( a n g l ea d d ‑ 0 . 5ね n g l e ̲ s h i f t ) + 2,2 )一1 )ー 1 ); g l es h i f tく& p iO R i f a n g l ea d d ‑ 0 . 5ね n 2 宇 品P I くa n g l ea d d ‑ 0 . 5ね n g l e ̲ s h i f tく3 本& p it h e n y ̲ c e n t e r = a b s ( y ̲ c e n t e r ); e n d ; 牢c o s ( d i r e c t i o n ) w h e n ( 4 )d o ;x ̲ c e n t e r = ( a b s ( m o d ( a b s ( & m o v e ̲ s p e e d泌 SIZe t & m o v e ̲ r a n g e t x ̲ s t a r t ̲ p o s i t i o n t a n g l e ̲ c i r c l e ),4 叫m o v er a n g e ) ‑ 2叫 m o v e ̲ r a n g e ) ‑ & m o v e ̲ r a n g e )叫 r a t e ; y ̲ c e n t e r = a b s ( m o d ( a b s ( & m o v e ̲ s p e e d刈 s l z e本s i n ( d i r e c t i o n ) t & m o v e ̲ r a n g e t y ̲ s t a r t ̲ p o s it i o n t a n g l e ̲ c i r c l e ),4 叫m o v e 一r a n g e ) ‑ 2凶 m o v er a n g e ) ‑ & m o v er a n g e : e n d ; e n d ; /本万華鏡の半径の係数本/ s e l e c t ; w h e n ( Oく =r e a lr a d i u si dく= 1 ) d o ;c h a n g es i z eニ ( ab s( & pi t c h ‑ m o d( re aI ̲r a di u s ̲ ̲i d 叫p it c h t 4本r e a l ̲ r a d i u sー i d 本& s i z e,2 刈p it c h ) ) + & p it c h / 1 0 0 ) / & p it c h ; i fr e aIm ov e> 0t h e n c h a n g e ̲ s i z e = c h a n g e ̲ s i z e牢( 1 0 0 ‑ & m o v e 一r a n g e )/ 10 0 ; e n d ; w h e n ( r e a lr a d i u si d = 2 ) c h a n g e ̲ s i z e = m i n ( 1 0 0刈 r at e ‑ a b s( x ̲ c e nt er ),1 O O ‑ a b s( y ̲ c e nt er ) )/ 10 0 ; e n d ; 4 9 8
/本万華鏡の中心点と万華鏡を構成する座標を結んだ直線の角度本/ angle=2宇 品p l宇vertex no/÷+2泌 p i泌 size/品pit ch 宇 品r ound̲speed/360; i fm o d( v e r t e x ̲ n o,2 ) = 0t h e nr a n d o m ̲ n o = fi r s t ̲ r a n d o m ; e l s e random̲no=second̲random; /本万華鏡を構成する線分の座標本/ x=change̲size宇r a n d o mn oれ os(angle)+x̲center; y=change s i z e本r a n d o m ̲ n日本 si n( a n g le )十yc e n t e r ; r u n ; /ヰ座標データの出力設定本/ d a t a make̲KaleidoScope; l e n g t hk e y$ 8f u n c t i o n$ 8c o l o r$ 8 ; r e t a i nc o u n t 0c o l o r ; r et ai nx s y s" 2 "y s y s" 2 " when " a " ; d r o p bg̲dense r b ̲ d e n s er g ̲ d e n s ec o u n t seed̲step dummy̲retain1‑dummy̲retain5 s e e d ; s e t plot̲KaleidoScope; k ey =put( &size,z8 .); /ヰ座標点を結ぶ線分の設定本/ i f vertex̲no=l t h e nd o ;i f &color̲pattern=2 t h e n function="move"; e l s e function="poly"; c oI o r = "品b a c k ̲ c oI 0r "; si z e =品l i n e ̲ w i d t h ; 巴n d ; e l s ed o・ 0I 0r ̲patt er n ); s eI ect( &c w h e n ( O ) color="&line c o l o r " ; otherwise (color̲pattern=l a n dv e r t e x ̲ n o = 2 )O R &color̲pattern=2 t h e n i f品 d o ; bg̲dense=max( & b ̲ d e n s e, & g ̲ d e n s e ); rb̲dense=max(品r ̲ d e n s e, & b ̲ d e n s e ) ; rg̲dense=max(&r̲dense, & g ̲ d e n s e ); color̲r=put(abs ( m o d( ( 5 1 2 ‑ 2 5 6ヰb g ̲ d e n s e )本r a n u ni( s e e d )十1 0叫 s i z e刈 ri d ,( 5 1 2 ‑ 2 5 5杓 g ̲ d e n s e ) )ー ( 2 5 6 ‑ 1 2 8杓 g ̲ d e n s e ) ), h e x 2 . ) ; color̲g=put(abs b ̲ d e n s e )本r a n u ni( s e e d) t1 0刈 s i z巴泌 g ー i d ( m o d ( ( 5 1 2 ‑ 2 5 6ヰr ,( 5 1 2 ‑ 2 5 5ヰr bd e n s e ) )一( 2 5 6 ‑ 1 2 8ヰr bd e n s e ) ), h e x 2 . ) ; c o l o rb = p u t ( a b s ( m o d ( ( 5 1 2 ‑ 2 5 6宇r g ̲ de n se )ヰr a n u ni( s e e d) t1 0刈 s i z e刈 b ̲ i d ,( 5 1 2 ‑ 2 5 5宇r g ̲ d e n s e ) )一( 2 5 6 ‑ 1 2 8ヰr g ̲ d e n s e ) ), h e x 2 . ) ; o l o r ̲ r I color̲g I c o l o r ̲ b ; c o l o r = " c x " Ic count=count十1・ i f &howmany宇c o u n t > 2 5 5t h e nd o ; ‑499‑
p u t // " 材 料 材 料 材 料 材 料 材 料 件 警 告 件 材 料 材 料 材 料 材 料 材 料 材 料 * "/ "色の設定は 2 5 6色までですが、現在この限界値を超えました。"/ "色の設定に関わるマクロ変数の値を変えてください。"/ ne ̲n 0, sh ape, c01 0r ̲ patt er n 等が該当します。"/ "h o w man y,1i " 料 材 料 材 料 材 料 材 料 宇 材 料 材 料 材 料 材 料 材 料 材 料 材 料 材 料 材 料 "//; a b o r t ; /宇プログラムの実行中止宇/ e n d ; e n d ; si ze = &1 i newi dt h ; i f &color̲pattern二 2 t h e nf u n c t i o nニ" dr a w "; e l s ef u n c t i o n = " p o l y c o n t " ; e n d ; o u t p u t ; r u n ; /宇グラフを描くための元データを溜め込む宇/ p r o ca p p e n d base=graphbase d a t a = m a k e ̲ K a l e i d o S c o p e ; r u n ; 2 )の終わりヰ/ /宇目d o( % e n d ; /宇制 0 ( 1)の終わり宇/ % e n d ; /宇データをアニメーションの順番に並べ替える宇/ p r o cs o r t data=graphbase; b yf r a m e ̲ o r d e r circle̲order s e g m e n tv e r t e x ̲ n o ; r u n I Fアニメーションの設定宇/ 宇 / G 1c b a c k = "&back̲co1 0r "b or d er ; g o p ti o n sr e s e tニa1 g o p t i o n s device=gifanim g s f n a m eニ a n i m egsfmode=replace gepilog="3B"x delay=&frame t i m e ; o p ti o n sn o b y1 i n e / 宇 G I Fアニメーションの作成宇/ p r o cg p l o t data=framework; b yk e y ; ヰ / G I Fアニメーションのフレームを変数回y lこ対応させる宇/ 0ty 宇x/ a nnotate=graphbase h a x i s = a x i s 1v a x i s = a x i s 2 ; p1 出i f &framework̲pattern=D % t h e n% s q u a r e ; %else % o b l o n g ; 出i f &framework=D % t h e n% e x i s t ; 出e l s e% n o e x i s t ; r u n ; q ui t ; 出m e n dp o i n t i n g ; % p o i n t i n g ; 5 0 0一
‑ 日 本 SASユーザー会世話人会 東京大学 大橋靖雄 副代表世話人 キリンビール株式会社 本川裕 世話人 成躍大学 岩 崎 学 (2003年年次総会チェアマン) 三菱証券株式会社 青沼君明 株式会社ベ jレシステム 24 雄一 神戸商科大学 野防;喜木 小周酉舟八 株式会社 U F J銀 行 潔節目光章 代表世話人 持田製薬株式会社 株式会社竹中工務庖 ‑ 日 本 SASユーザー会事務局 SASI n s t i t u t eJapan株式会社内 干1 0 4 ‑ 0 0 5 4東京都中央区勝どき 1 ‑ 1 3一1イヌイピル・カチドキ 8F TEL:0 3 ‑ 3 5 3 3 ‑ 6 9 3 6 FAX:0 3 ‑ 3 5 3 3 ‑ 1 6 1 3 E ‑ m a i l :jpnsaswg@sas.com j a p a n / h t t p : / / w w w . s a s . c o m乙 第 22回 日 本 SASユーザー会総会および研究発表会論文集 初版第 1刷発行 2 0 0 3年 7月 3 1日 発行 日本 SASユーザー会 SASI n s t i t u t eJ a p a n株式会社