SASユーザー総会論文集 2002年

>100 Views

April 21, 25

スライド概要

生物学的同等性試験解析ソフト[BESTS]V3の開 発 呉本真莉
解析用データセットのあり方-CDISCを意識して - 長谷川要
臨床統計解析におけるSASプログラミングの生産性および品質向上への試み 祐野浩子
プリント出力における美の追求 佐賀野修一
SAS/lntrNetソフトウェアを用いた進捗管理システムの実例報告 西川明宏
PRO CKDE 及び PROC DISCRIM による分布の 重なり具合(OVL)の推定 奥山ことば
臨床試験データの品質保証 小関洋子
臨床試験データマネジメント業務でのCOMPARE プロシジャ活用法 水留稔
医薬特別セッション:JMPによる副作用データマイニング,JMP4Jによるロジスティック回帰モデルの教育-併用薬剤の種類,有害事象の種類別の探 索的解析- 澤田克彦
医薬特別セッション:JMPによる副作用データマイニング,JMP4Jを使用した有害事象の生存時間解 析の教育 西山智
医薬特別セッション:JMPによる副作用データマイニング,JMP4Jを使用した有害事象解析におけるデータ加工-ロジスティック回帰分析,生存時間 解析への導入部分として- 野田昭夫
V.8 における生存時間解析関連プロシジャの機能 拡張 浜田知久馬
SASVer.8によるマイクロアレイデータの解析 濱野鉄太郎
MIXEDプロシジャを用いた反復測定データの解析 菅波秀規
PCA/aNN によるマイクロアレイデータの解析 角谷伸一
回帰分析におけるクロスバリデーション 水田匡彦
回帰分析における多重共線問題の実際 水田匡彦
実験計画法の学部内一般教育 柴山忠雄
GENMODプロシジャによる計数データの解析 高橋行雄
超過変動ボアソンデータの傾向性検定プログラム の開発 大津洋
SASシステム V9 における統計機能の拡張(1) 小玉奈津子
SASシステム V9 における統計機能の拡張(2) 泉水克之
ロジスティック回帰における対応のあるデータ分析 深澤武志
from Version 6 to Version 8 with large volume Datasets & lntrNet 藤本浩
SAS/GRAPH ソフトウェアと ODS を使用したグラフ作成方法-HTML,ActiveX,JavaなどのWebに 対応して- 迫田奈緒子
V8 における拡張エディタの便利な使い方の紹介 檜皮孝史
AppDev Studio 2.0 における Javaアプリケーション 開発手法について 福間岳
Visual Basic によるシンクライアントアプリケーショ ンの構築 村山友子
SAS/ACCESSソフトウェアTeradataインターフェー スの紹介 室伏将成
金融業の顧客の推移分析 小野潔
構造変化を考慮した住宅系不動産価格査定装置 の開発 清水千弘
住宅ローン債権のキャッシュフロー評価 西野嘉彦
コストベースハザードモデルによる債権回収活動 の効率化 谷岡日出男
ABC/M とスコアカードによるプロセスマネジメント 張凌雲
リスク管理とそれに必要な要素 佐々木研
ハザードモデルを使用した住宅ローンの収益予測 中井眞人
住工混在地域の生活道路に関する意識調査-茶 第とJMPによる自由記述データの分析- 小島隆矢
SASによる疾患群別平均在院日数の推移の解析 楊学坤
ロジスティック回帰分析を用いた言語習得特性の分析 安間一雄
看護師募集のためのマーケティング・リサーチ- 学生が望む病院,学生に望まれるであろう病院- 田久浩志
選好回帰による歯磨き粉の最適コンセプトの探索 河原達也
個人の購買履歴データを活用した顧客セグメン テーションの方法 小山斉
ECサイトにおける顧客分析 河本光香
半導体ウェハテストデータ自動解析システムの構 築 林田行信
JMP特別セッション:新しい実験計画法の適用とその効用,JMPによる最適実験の計画と多特性の 最適化 芳賀敏郎
MP特別セッション:新しい実験計画法の適用とその効用,JMPソフトウェアによる表面処理工程の 最適化事例 葛谷和義
MP特別セッション:新しい実験計画法の適用とその効用,古典的実験計画手法とJMPのカスタム計 画 岩崎学
症例一覧表作成ツール「CATS」による臨床試験 データの読み合わせ用帳票の作成 山橋愛子
拡張最小化法による被験者割付 高市敦司
「薬らしい」物質の発見:データマイニングを用いた QSAR モデリング 片岡尚子
NLMIXED プロシジャを用いた項目反応理論モデ ルのパラメータ推定 伊藤陽一
SASアプリケーションにおける数値表現誤差の扱 い 羽田野実
SPD Server ソフトウェアの機能紹介 山本克巳
SAS/ETS ソフトウェアを用いた天候デリバティブ価格評価 岸田則生
在宅人工呼吸療法関連6病態の患者数推計 縣俊彦
大学生の自己評価 中村晃士
需要予測における季節調整と X12 プロシジャの 利用例 高野江里子
ポジショニングのためのデータ解析 原島淳
劣化データを用いた信頼性モデルのための新手 法(翻訳) 尾高雅代
品質管理におけるデータウェアハウジングの利用 (翻訳) 木下由香里
スピログラフを再現しよう-GIFANIM DeviceDrive を用いたアニメーション図形の作成- 長谷川要
SAS ANNOTATE MACRO を用いたグラフの作成 竹田眞

profile-image

SAS言語を中心として,解析業務担当者・プログラマなのコミュニティを活性化したいです

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

第 21回 日 本 SASユーザー会総会 および研究発表会 論文集 2002年 8月 1日(木) 2日(金) '"'‑J

2.

SASは、株式会社 SASインスティチュートジャパンの登録商標です。 SASSystem、SASSystemを構成するプロダクト群は、 SASI n s t i t u t eI n c . の登録商標です。 その他、本論文集に記載されている会社名、製品名は、一般にそれぞれ各社の商標または登録商 標です。 本論文集の一部または全部を無断転載することは、著作権法上の例外を除き、禁止されています。 本論文集の内容を実際に運用した結果の影響については、責任を負いかねます。

3.

目 次 口頭論文発表 @医薬品開発 生物学的同等性試験解析ソフト [BESTS]V3の 開 発 … … … … … … … … … … … … … 3 呉本真有(株式会社アーム〉 山本典子 矢船明史(北里研究所〉 浜田知久馬(東京理科大学〉 解析用データセットのあり方 ‑CDISCを意識してー…………….,.・ ・‑……...・ ・1 1 H s 長谷川要(キリンビール株式会社〉 本山佳代子 小崎昌昭 如城晴子 臨床統計解析における SASプログラミングの……………...・ ・‑…………………… 2 1 生産性および品質向上への試み t b野浩子(株式会社シー工ーシー〉 H 永田信行 猪原辰也(大正製薬株式会社〉 松下勲 山田剛久(イーピー工ス株式会社〉 プリント出力における美の追求...・ ・ ・ ・..…………………...・ ・‑……………… 3 1 H H s H 佐員野修一(住商情報システム株式会社〉 目崎武信(塩野義製薬株式会社〉 SAS/lntrNet ソフトウェアを用いた進捗管理システムの実例報告…………………… 4 1 西川│明宏(有限会社電悶システムズ〉 NPO法人日本臨床研究支援ユニット〉 酒井淳子 ( 川│戸美由紀(東京大学〉 粛藤明子 大 橋 錆i l i (東京大学 /NPO法人日本臨床研究支援ユニット〉 PROC KDE 及 び PROC DISCRIM による分布の重なり具合 (OVL)の推定……… 5 1 奥山ことば(菖育製薬株式会社〉 臨床試験データの品質保証・・・・・・・・・・・・・・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 65 E 小関洋子(株式会社ベルシステム 2 4) 西上昌子 野島茂生 根本智之 渡辺敏彦

4.

臨床試験データマネジメント業務での COMPAREプロシジャ活用法...・ ・‑………… 73 H 水留穏(持田製薬株式会社〉 杉原圭亮 伊東仁 く医薬特別セッション :JMPによる副作用データマイニング〉 JMP4Jによるロジスティック回帰モデルの教育…...・ ・‑…………………… 8 1 H ー併用薬剤の種類、有害事象の種類別の探索的解析一 津田克彦(大鵬薬品工業株式会社〉 西山智(アベンティスファーマ株式会社〉 野田昭夫(株式会社 SASインスティチユートジャパン〉 高橋行雄(日本ロシユ株式会社〉 JMP4Jを使用した有害事象の生存時間解析の教育...・ ・..…………………… 9 1 H 西山智(アベンティスファーマ株式会社〉 高橋行雄(日本ロシユ株式会社〉 津田克彦(大鵬薬品工業株式会社〉 野田昭夫(株式会社 SASインスティチユートジャパン〉 JMP4Jを使用した有害事象解析におけるデータ加工...・ ・‑………………… 99 H 一口ジスティック回帰分析、生存時間解析への導入部分としてー 野田昭夫(株式会社 SASインスティチユートジャパン〉 高橋行雄(日本口シユ株式会社〉 津田克彦(大鵬薬品工業株式会社〉 西山智(アベンティスファーマ株式会社〉 φ 統計解析(チュートリアル) V . 8 における生存時間解析関連プロシジャの機能拡張………… 浜田知久馬(東京理科大学〉 φ 統計解析 SAS V e r . 8 によるマイクロアレイデータの解析……………………………...・ ・ . . 139 H 漬野鉄太郎(北里大学〉 MIXEDプロシジャを用いた反復測定データの解析…………...・ ・ . . … . . . ・ ・..…… 149 H H 菅波秀規(興和株式会社/東京理科大学〉 五所正彦(興和株式会社〉 PCA/aNNによるマイクロアレイデータの解析………………………'"・ ・ . . . . . ・ ・ . . 159 H 角谷仰一(塩野義製薬株式会社〉 田崎武信 竹政伊知朗(大阪大学〉 門田守人 松原謙一(奈良先端科学技術大学院大学〉 1 1 H

5.

回帰分析におけるクロスバリデーション……...・ ・・・‑……...・ ・ . . … … . . . ・ ・ . .1 6 9 H H a H H 水田匡彦(住友金層工業株式会社〉 回帰分析における多重共線問題の実際……...・ ・‑………...・ ・..……………… 177 H H 水田匡彦(住友金層工業株式会社〉 実験計画法の学部内一般教育…………… ・・‑……...・ ・‑…… ・ ・ . . . . . … 1 8 5 H H H H H 柴山忠雄(前:名古屋市工業研究所〕 GENMODプロシジャによる計数データの解析………...・ ・‑…………...・ ・‑…… 1 9 3 s H 高橋行雄(日本ロシコ株式会社〕 超過変動ポアソンデータの傾向性検定プログラムの開発…………...・ ・..……… 2 0 3 H 大津洋(藤沢薬晶工業株式会社〕 SASシステム V9 における統計機能の拡張(1)…...・ ・..…………...・ ・..……… 2 0 9 小玉奈津子(株式会社 SASインスティチコートジャパン〕 H H SASシステム V9 における統計機能の拡張(2 )……………………………...・ , . ・ 2 1 9 泉水克之(株式会社 SASインスティチユートジャパン〕 H ロジスティック回帰における対応のあるデータ分析...・ ・ . . … … … . . , ・ ・..………… 2 2 9 H H 深津武志 ‑システム f r o mV e r s i o n6t oV e r s i o n8w i t hl a r g ev o l u m eD a t a s e t s&I n t r N e t . .一 一 一 一 … … ー 2 4 1 藤本浩(株式会社アイエスアイディ・デロイト〕 土屋尚友(株式会社電通国際情報サービス〉 平田康之 SAS/GRAPHソフトウェアと ODSを使用したグラフ作成方法…...・ ・‑……...・ ・ . .2 4 9 c t i v e X、J a v a などのW e b lこ対応して一 ‑HTML,A 迫田奈緒子(株式会社 SASインスティチュートジャパン〕 H H 森下陽子 V8における拡張エディタの便利な使い方の紹介………………...・ ・‑……...・ ・ . .2 5 9 槽度孝史(株式会社 SASインスティチュートジャパン〉 H H 東一成 AppDevS t u d i o2 . 0における J a v aアプリケーション開発手法について………… 2 6 7 福間岳(株式会社 SASインスティチュートジャパン) V i s u a lB a s i cによるシンクライアントアプリケーションの構築…...・ ・‑……...・ ・ . .2 7 5 村山友子(株式会社 SASインスティチコートジャパン〉 H 段谷高章 1 1 1 H

6.

SAS/ACCESSソフトウェア T e r a d a t aインターフェースの紹介……………………… 2 8 9 室 伏 将 成 ( 株 式 会 社 SASインスティチコートジャパン〉 φ 金融 金融業の顧客の推移分析………………...・ ・..…………………...・ ・..………… 3 0 1 小 野 潔 ( 株 式 会 社 UFJ銀行〉 H H 構造変化を考慮した住宅系不動産価格査定装置の開発…….........…………… 3 0 7 清水千弘(株式会社リクルート/麗津大学〉 華大学〉 小 野 宏 裁 ( 麗j 高辻秀興 φ 経営・経済 住宅ローン債権のキャッシュフロー評価……………...・ ・ . . … . . . ・ ・..…………… 3 2 1 H H 西野嘉彦(株式会社金融エンジ二アリング・グループ〉 中林三平 コストベースハザードモデルによる債権回収活動の効率化...・ ・‑……………… 3 2 9 H 谷町日出男(株式会社金融エンジニアリング・グループ〉 ABC/M とスコアカードによるプロセスマネジメント...・ ・..………………………… 3 3 9 H 張凌雲(株式会社ニューチャーイノベーション〉 伊藤武志 リスク管理とそれに必要な要素…………………...・ ・ ・ ・..……………………… 3 4 9 H H H 佐 々 木 研 ( 株 式 会 社 SASインスティチコートジャパン〉 φ 調査 マーケティング E ハザードモデルを使用した住宅ローンの収益予潰l . . . . .・・ . . . . ・ ・‑……………… 3 5 7 H H 中井員人(株式会社金融エンジ二アリング・グループ〉 住エ混在地域の生活道路に関する意識調査...・ ・..………………………...・ ・ . .3 6 3 一茶莞と JMPによる自由記述データの分析一 H H 小島隆矢(独立行政法人建築研究所〉 赤池光子(国土交通省国土技術政策総合研究所〉 若林直子(特定非営利活動法人生活環境 NPOあくと〉 SASによる疾患群別平均在院回数の推移の解析………………...・ ・‑………… 3 7 1 H 楊学押(Il!買天堂大学〉 今井義正 大島純子 ( I ! 頁天堂医院〉 小島茂(Il!買天堂大学〉 ロジスティック回帰分析を用いた言語習得特性の分析...・ ・..…………………… 3 8 1 H 安 閏 一 雄 ( 玉) I !大学〉 lV

7.

看護師募集のためのマーケティング・リサーチ……………………………...・ ・ . . 385 一学生が望む病院、学生に望まれるであろう病院ー H 田久浩志(申部学院大学〕 林俊克(株式会社資生堂リサーチセンター〕 小島隆矢(独立行政法人建築研究所〕 平野広隆(株式会社アーキテクト〕 選好回帰による歯磨き粉の最適コンセプトの探索………・ ・ ・‑………………… 389 H H j 司原達也(東京都立大学〕 松下一徳 大津留彩 沼田宏美 個人の購買履歴データを活用した顧客セグメンテーションの方法………………… 399 小山斉(東洋大学〕 渡辺美智子 樫井尚子(東京情報大学〉 ECサイトにおける顧客分析……………………………………...・ ・‑…………… 4 0 5 H j 司本光香(株式会社 SASインスティチユートジャパン〕 鷲山丈博 ‑品質・生産管理 半導体ウエハテストデータ自動解析システムの構築……………………………… 4 1 5 林田行信(ユー・工ム・シー・ジャパン株式会社〕 右近勇 く JMP特別セッション:新しい実験計画法の適用とその効用> JMPによる最適実験の計画と多特性の最適化...・ ・ ‑ … … . . . ・ ・‑………… 4 2 5 H H 芳賀敏郎(元:東京理科大学〉 JMPソフトウェアによる表面処理工程の最適化事例…………...・ ・..……… 433 葛谷和義(株式会社デンソー〉 H 村山実 古典的実験計画手法と JMPのカスタム計画…...・ ・..……………...・ ・ . . … … 4 4 1 H 岩崎学(成践大学〕 V H

8.

!ポスターセッション ‑医薬品開発 症例一覧表作成ツール r C A T S jによる……………………...・ ・ . . . . . ・ ・..………… 4 5 7 臨床試験データの読み合わせ用帳票の作成 H H 山橋愛子(有限会社電悶システムズ〉 安 藤 茂 子 (NPO法人日本臨床研究支援ユニット〉 山内みずき 甘利裕邦(財団法人パブリックヘルスリサーチセンター〉 大橋請雄(東京大学 /NPO法人日本臨床研究支援ユニット〉 拡張最小化法による被験者割付…………………………………...・ ・..………… 4 6 7 H 高市穀司(株式会社ベルシステム 2 4) 西次男 「薬らしい」物質の発見:データマイニングを用いた QSAR モデリング……………… 4 7 3 片岡尚子(株式会社 S ASインスティチュートジャパン〉 ‑統計解析 NLMIXEDプロシジャを用いた項目反応理論モデルのパラメータ推定…………… 4 8 5 伊藤陽一(東京大学〉 ‑システム SASアプリケーションにおける数値表現誤差の扱い……………………………… 4 9 7 羽田野実(株式会社 S ASインスティチュートジャパン〉 SPD S e r v e rソフトウェアの機能紹介…………………………...・ ・..…………… 5 0 9 H 山本克巳(株式会社 S ASインスティチユートジャパン〉 服部光利 ‑経営・経済 SAS/ETSソフトウェアを用いた天候デリパティブ価格評価………………………… 521 岸田則生(株式会社 CRCソリユーションズ) 塩田雅之 Vl

9.

φ 調査・マーケティング 在宅人工呼吸療法関連 6 病態の患者数推計……………...・ ・‑………………… 5 3 3 H 鼎俊彦(東京慈恵会医科大学) 豊島裕子 中村晃士 西岡真樹子 佐野浩賢 清 水 英1 右 佐伯圭一郎(大分吾護科学大学) 稲葉裕()l真天堂大学〉 黒沢美智子 石原英樹(大阪府立羽曳野病院) 木村謙末郎 栗山喬之(千葉大学) 1 大学生の自己評価...・ ・ . . . . . ・ ・ ・・..……………………………………...・ ・ ‑ … 5 3 9 H H H H H 中村晃士(東京慈恵会医科大学) 牛島定信 上別府圭子(東京大学) 鼎俊彦(東京慈恵会医科大学) 清水英佑 需要予測における季節調整と X12プロシジャの利用例………….....・ ・‑……… 5 4 3 高野江里子(株式会社 SASインスティチユートジャパン〉 H ポジショニンゲのための子ータ解析………………………………………………… 549 原 島 淳 ( 株 式 会 社 SASインスティチユートジャパン〉 ‑ 品質・生産管理 劣化データを用いた信頼性モデルのための新手法(翻訳)……… ・ ・‑……… 561 尾高雅代(株式会社 SASインスティチュートジャパン〉 H H 品質管理におけるデータウェアハウジングの利用(翻訳)・............… ・ ・‑……. 5 7 5 木下白書里(株式会社 SASインスティチユートジャパン〉 H H ‑グラフィック スピログラフを再現しよう…………………...・ ・ . . . . . ・ ・‑………………………… 5 8 7 ‑GIFANIMD e v i c eD r i v e rを用いたアニメーション図形の作成一 H H 長谷川要(キリンビール株式会社〉 SAS ANNOT ATE MACRO を用いたグラフの作成一一………・…・・……・…・・……一 5 9 3 竹田員(株式会社 CRCソリユーションズ〉 佐藤智美 Vll

10.

口頭論文発表 医薬品開発

11.

日本 SASユ ー ザ 一 会 (SUG1‑0) 生物学的同等性試験解析ソフト [BESTS]V3の開発 0呉本真新卒山本典子事矢船明史*****浜田知久馬町 事株式会社アーム医薬情報部 件北里研究所バイオイアトリックセンタ‑ m 東京理科大学工学部経営工学科 D e v e l o p i n g [BESTS] t h ea p p l i c a t i o nf o rB i o e q u i v a l e n c e Mari Kuremoto* Noriko Yamamoto* Akifumi Yafune 神 間 Chikuma Hamada 山 *Medical and Drug Information D e p t .Arm Corporation * * K i t a s a t oI n s t i t u t eB i o ‑ I a t r i cCenter 梓牟 F a c u l t yo fE n g i n e e r i n g, S c i e n c eU n i v e r s i t yo fTokyo 要旨 SASシステムを利用した生物学的同等性試験解析ソフト [BESTS]V3を開発したので、その概略を 紹介する。 V3では、ユーザニーズに柔軟に対応するため、薬物動態 (PK)解析の機能を追加した。 更に入出力データの拡彊にも取り組んだ。今後は、多様なモデルへの対応やネットワークシステム 型の展開を目指す。 x c e l Windows 総括報告書 キーワード:生物学的同等性解析薬物動態 (PK)解析 SAS E 1 . はじめに SASシステムを利用した生物学的同等性試験解析ソフト [BESTS]V3を開発したのでその概略を 紹介する。 [BESTSJ( B i o ‑ E q u i v a l e n c eS t a t i s t i c a lS y s t e m )は、表計算ソフトウェアで、ある I E x c e l Jと世 界的に定評のある統計パッケージ ISASJを自動的に連携するシステムで、データの入出力に E x c e l を使用している。これまでの [BESTS]V 2 では、同等性検証のパラメータ算出、 2X2 クロスオーバー 分散分析、 PK パラメータの比の信頼区間算出、血液中濃度のグラフ作成、追加試験の併合解析、 例数設計等が可能で、あった。 [BESTSJは 、 Windows 上で簡単に操作でき、報告書等の作成に心強 いツールとして、開発現場から支持を受けている。最近では、ユーザから多くの要望をいただくように なり、中でも薬物動態 (PK)解析機能充実への要望が多く、 [BESTS]V3では PK のノンコンバートメ ン卜解析機能を追加した。 PK 解析はブ.リッジング.試験で、も重要な位置を占めており、信頼性の高い SASを利用した解析システムが求められている。 今回は、これまで、の開発経験を生かして、よりユーザ側の立場に立った使い易いソフトを目指し、 解析に使用するデータおよび解析結果の形式にも柔軟性を持たせた。 V2 では、 E x c e l 形式のみで あった入力デ、ータを、 SAS データセットの形式も可能とした。更に、 PK解析では、ステップ数、時点 ‑ 3一

12.

数等の指定を行うと自動的に入力フォームが作成される機能を追加した。この入力フォームを利用 することにより、ユーザのデータ作成作業が軽減される o また、解析結果は電子申請を意識し、 EXC EL形式だけでなく HTML形式およびPDF形式でも出力可能とした。 本稿では、これらの機能を具体的に紹介し、 [ B E S T S Jの今後の展望と課題について述べる。 2 . [BESTS]V3の概要 [ B E S T S]V3のメニュー構成を図 lに示す。 V 3では、 P K解析と生物学的同等性解析が実施でき、 血液中および尿中薬物濃度のデータを読み込み、解析に必要なパラメータの計算を行う。また、被 験者毎や薬物毎のグラフを作成することができる。 PK解析では、データ入力フォームを利用したデータの入力、算出したパラメータの記述統計量の A S / I N S I G H T接続による探索的な解析が可能である。 計算、 S 生物学的同等性解析は、『後発医薬品の生物学的同等性試験新ガイドライン』に準拠し、ガイドラ インに示されてしも信頼区間法による同等性評価に加え、本試験と追加試験を併合した解析を実施 することが可能である。また、生物学的同等性試験には不可欠な例数設計機能をもち、予試験のク ロスオーバー分散分析の結果に基づく本試験の例数設計が行える。 [BESTS]V3 ‑パラメータ計算 AUC Cmax tmax k e l 遡点数 相関係数 t 1 I 2 MRT VRT AUMC CL e t c ‑グラフ作成 ・遡点数任意指定 PK解析 両手的同等性解析 データ入力機能 2X2クロスオーバー 記述統計量算出 分散分析・信頼区間算出 INSIGHT接続による 記述統計量算出 探索的解析 追加試験(併合解析) 分散分析・信頼区間算出 例数設計 図1.[ B E S T S]V3メニュー構成 4ー

13.

次に、以下の項目毎に詳細を紹介する。 1 )データの入力機能 2 )パラメータ計算 3 )解析(生物学的同等性解析) 4 )解析(薬物動態解析) 5 )出力機能 6 )グラフ作成機能 3 .データの入力機能 [ B E S T S J V 3では、 E x c e l形式および、 S A Sデータセット形式のデータが利用可能である。 E x c e l形 式の PK 解析用データでは、ステップ毎に、症例数、用量、時点等が異なることが多く、データを作 成する際には煩雑な作業となり、十分な注意が必要である。そこで、作業時間とミスを軽減するため に 、 PK 解析ではデータ入力機能を装備した。ユーザは画面上から、試験の種類、用量、時点等を 入力すれば、それに合った E x c e l入力フォームが自動的に作成される。 ※入力シート自動生成画面 ※自動生成された入力フォーム 単測定型 一一蒔頁数 1 5 単位 h r 00̲;) 1 1_ fl2;~4()R 1224: 1 1 l4Ri29()..ー ステップ例数投与量単位 1: 旦 l Q ! ! ! K 2: 主 主Q ~ 3 : 立 主Q ~ 4:立笠~ 5: ̲ 2 ̲ QQ ~ 2 2 2 2 2 2 2 3 3 3 3 3 3 4 4 4 4 4 4 5 5 5 5 5 5 1 5A I 1 5A2 1 5A3 1 5A4 1 5A 5 1 5A6 30A7 30A l l 30A9 3 O ,Al0 30A l 1 30A12 4 5A13 4 5A14 4 5A15 4 5A16 4 5A17 45A18 60A19 60A20 6 0 ‑A21 60A 2 2 . 60A幻 60A24 90A25 90A26 90A27 90A盟 90A29 90A却 図2 . E x c e lデータシートの自動生成 ‑ 5‑

14.

4 .パラメータ計算 生物学的同等性解析及び PK解析に必要なパラメータを自動計算する。 血液中濃度から計算される C max、t m a x、 AUC、 MRT、VRT、AUMC、k e l値などに加え、尿中排 ?世量、体重などから腎クリアランスや体重当たりのクリアランスなど様々なパラメータを計算することが できる。パラメータは必要なものだけを選択することがで、き、対数変換も簡単に行うことができる。また、 単位設定機能があり、投与量、血液中濃度、尿中濃度、尿量、体重などの単位を指定することによっ て、自動的にパラメータの単位換算を行う。更に、遡点数は、血液中濃度の時間経過をグラフで視 覚的に確認しながら任意に指定でき、パラメータは、遡点数の変更毎に自動的に再計算される。こ れらすべてのパラメータ値は、データとして保存可能であり、そのまま以下に示す記述統計量や同等 性解析、グラフ作成などに利用できる。 5 .解析(生物学的同等性解析) 5 . 1 分散分析・信頼区間算出 対照薬と被験薬について行われた 2 期 2 剤のクロスオーバー試験で、各パラメータの分散分析 max等一 表、両薬剤聞の平均値の%差および、その信頼区間の出力を行う。ノミラメータは、 AUC、C 般的に使用されるパラメータの中から任意に選択でき、必要に応じて対数変換の実施を選択できる。 デフォルトでの選択は、ガイドラインに示されているパラメータ変換方法に一致している。 また、信頼区間は、任意の百分率(%)で指定が可能である。対数変換を行わなかったパラメータ に関しては、実スケールで、の薬剤問差とその信頼区間および対照薬平均の表示も行うことがで、きる。 生物学的同等性試験では、脱落・中止例のために群問で例数がアンバランスとなる場合があり、 B E S T S Jでは GLMプロシジャあるいは MIXEDプロ 分散分析を行う上で適切な調整が必要となる。 [ シジャを用いて解析を行い、適切な調整を行っている。 A U C0 →lim (常用対数変換) 分散分析結果 自由度 変動要因 被験者間変動 群文は持込効果 被験者/群 被験者内変動 1 4 薬剤 時期 残差 1 4 平方和 平均平方 分散比 pj 直 0 . 0 3 5 3 0 1 0 . 0 3 5 3 0 1 0 . 0 4 2 7 7 8 0 . 8 2 5 2 2 7 . 7 6 5 6 0 . 3 7 9 0 0 . 0 0 0 9 2 8 0 . 0 0 1 1 6 4 0 . 0 0 1 5 4 1 0 . 6 0 2 6 0 . 7 5 5 7 0 . 5 9 8 8 8 9 0 . 0 0 0 9 2 8 0 . 0 0 1 1 6 4 0 . 0 2 1 5 6 9 0 . 0 0 0 0 0 . 4 5 0 5 0 . 3 9 9 3 90%信頼区間 薬剤間差(%) 下限(%) よ限(%) 2 . 4 5 0 0 ‑ 7 . 7 8 8 6 3 . 1 9 7 6 図3 .解析結果例 1 5 .2 併合解析 併合解析では、 2X2のクロスオーバ一法により実施された本試験と追加試験について、ガイドライ ンで指定されている、変動要因に「試験 jを加えた解析を実施する。各パラメータについての分散分 m a x等について、両薬剤聞の平均値の%差お 析結果と、生物学的同等性判定パラメータ AUC、C ‑ 6一

15.
[beta]
よびその信頼区間を出力する。群聞で、例数がアンバランスになった場合は、本試験のみの場合と同
様に適切な調整を行う。

5
.3 伊l
数設計
生物学的同等性試験では、予試験の結果などに基づいて本試験での例数設計が行われる。予
試験の結果などから得られる推定値には確率的な揺れがあるため、この点を考慮した例数設計が必
要となる。さらには、両薬剤が生物学的に同等であるとしづ条件の下で、設計された例数で試験を行
った場合、生物学的に同等であるとしづ結果が得られる確率がどのくらいあるのかとし、う点も検討して
おく l必要がある。 [
B
E
S
T
s
Jでは、これらの点を考慮した例数設計を行っている。入力項目はデータの
対数変換の有無、 α(90%信頼区間の場合は α=0.1)、残差分散、薬剤間差である。無変換の場
合には、対照薬データの平均値も入力する。結果には、例数 (
1群あたり)に対する検出力とそのグラ
フも出力される。

6
.解析(薬物動態解析)
薬物動態パラメータの一覧表に加え、記述統計量を出力することができる。また、 S
A
S
/
I
N
S
I
G
H
T
との接続機能により、投与量と各パラメータとの線形性の確認や任意のパラメータ問の関係の検討、
任意の患者背景因子と各パラメータとの回帰や相聞の検討が可能であるのこの他、パラメータのバラ
ツキを確認するためのビジュアル化を、簡単なマウス操作で 実施で、き、ユーザニーズ にあった多方
面からの探索的な検討が可能であるの

薬物動態パラメ

タの記述統計量

AUC0
→∞
U.u
(
n
g
.
h
r
/
r
n
L
) (
n
g
.
h
r
/
回L
) (
n
g
/
r
n
L
)
8
8
8
6
5
0
.
3
3
6
7
9
.
4
6
1
3
5
.
3
n
3
6
7
.
0
0
3
8
7
.
5
9
51
.
58
3
1
9
.
3
5
3
4
9
.
7
7
7
B
.
8
6
5
2
3
.
4
9
5
B
9
.
5
8 1
2
9
.
3
1
1
3
3
0
.
41
3
9
5
.
7
8 2
1
4
.
5
9

AUιu
→∞

I
1
J
I
i
I
:

ステップ

1
5
m
g

例数
平均

世偏差
I
l
'
Ii
居小伯
中央値
盛大値

l
開示〈副
劃
│
A
U
C

3
0
m
g

2

・30.8986 O凶
O
S
E

モデル式

3
0
5
.
2
5
0

中央値
民 大f
直

5
0日E

3

4
5
m
g

A 4
日D
U 3
0
0日

c

日
!0
0

‑
ー
ー
‑
・

d

一

伊j
数
平均

4
軍準偏差

.

2
0
0
0

伊l
数
平均

十票摺偏差
居 小f
血

E
'
I、値
ーー

'
r

央個
患大値

一
・

8
1
3
9
B
.
3
3
5
4
B
.
6
6
6
8
8
.
2
9
1
2
2
6
.
5
8
2
3
6
0
.
1
9

8
2
1
3
.
3
7
7
5
.
7
5
1
1
9
.
7
8
2
0
2
.
1
5
4
01
.2
3

8
2
.
2
3
1
.2
7
1
.5
0
2
.
0
0
6
.
0
0

日

8
2
1
5
3
.
5
2
1
9
5
6
.
2
1
6
5
2
.
7
6
1
5
2
6
.
6
3
5
9
7
4
.
6
8

日

3
6
2
.
7
3
3
1
7
.
8
2
1
1
8.
42
2
0
9
.
4
5
9
4
5
.
8
5

8
2
.
2
9
0
.
8
1
1
.0
0
2
.
5
0
3
.
0
0

2
1
1
2
.
7
5
1
B
5
0
.
3
6
6
0
2
.
9
3
1
4
7
2
.
1
2
5
9
1
6
.
3
5

4
0

6
0

O
O
S
E

│
彊

f~一J一J曲一J組一一J │ I・
‑i
次 救 {多 I
I
I式 }

ー

i

I

均7日刊平方~~1:

自由度
¥
1
¥
モ
:8
デ
9
平
i
j
1
j
レ
4
均7
リ
平
4
6ン
方8
?
1な 固自由婦直
1
の
5←3
鋲
s
1
5
平
是
刊
度

三
五│

寄
日
)与
.2
1
宰
日1 F統計
4
.
2
量
;
7 Pf
0
直B
;
5
{
;
F
5
J
3
)

図4
.解析結果例 2

i

8
2
.
3
3
1
.0
B
1
.0
0
2
.
0
0
4
.
0
0

8
1
3
01
.5
4
5
5
2
.
5
6
6
2
3
.
8
3
1
0
51
.1
2
2
2
8
3
.
3
6

‑
ー

2
0

t
.
.
.
(
h
r
)

16.

7 .出力機能 パラメータ計算、解析等の出力結果は、総括報告書などへの使用を考慮した E x c e lへの出力と、 電子申請を考慮した H TML形式および P D F形式での出力が可能である。出力は体裁が整ってお り、そのままレポーテインクマに使用することがで、き、結果を打ち換える手聞が軽減され、信頼性が高ま る。また、 E x c e l による出力結果はカット&ペーストが可能であり、必要に応じて加工が容易に行え る 。 8 .グラフ作成機能 グラフ作成機能では、報告書作成やプレゼンテーションで、不可欠なグラフの作成を、簡単な操作 で行うことが可能である。グラフは、報告書などへの使用を考慮し、 E x c e lで作成する。被験者毎の血 K解析では、ステップ毎に全被』験者を重ねたグラフを 液中濃度グラフ、薬剤毎の平均グラフの他、 P 出力することが可能である。濃度軸は、オリジナルスケールと対数スケールから選択することが可能 . D .または S . E .を表示できる。 で、平均値グラフでは、必要に応じて S 被験者個々の血液中濃度 一時間推移曲線 ..0・ー対照薬 ‑‑一被験薬 時間 (hours) 時間 (hours) 内 I ∞ ー . a ‑ . ω ト .~ o~一 一一一一一一一一一一一一 E¥凶一E)M四回開 組 1 対照薬 →ー棚薬 一 ( ' " 内 。 ~VV ~ 150 鰹 DOD00 54 045'0 5 B'l 250 「r E2∞ ", ‑0‑' 対照薬 ‑‑一被験薬 二 2 時間 (hours) 時間 (hours) 250 ~ 一。ーー対照薬 ‑‑一被験薬 時間 (hours) 図5 .グラフ例 8一

17.

9 .おわりに [BESTSJは、製薬メーカーの開発現場の業務の効率化及び、信頼性の高い解析を目的として開 K解析はノンコンバートメント解析 発され、パージョンアップρを重ねてきた。今回のバージョンで、は、 P のみにとど、まったが、様々なモデ ルによる解析が実施できるように発展させていくことが今後の課題 である。また、 AppDevStudio等を使った Web系対応版の開発も現在計画している。 これからもより使い易く、ユーザニーズ、にあったアプリケーションを目指して、パージョンアッフ。を行 ってして予定である。是非、ユーザからの率直なご意見をお寄せいただきたい。 (参考文献) Chow,S‑C.andL iu,J .P .( 1 9 9 2 ) .D e s i g na n c lA n a l y s i so fs i o a v a i l a b i l i t yandR i o e q u i v a l e n c eS t u d i e s .MarじelDekker,f ¥ew Y o r k . .,Hauschke,D .andS t e i n i j a n s,V .W.( 1 9 9 1 ) .Sam[ Jl es i z cd e t e r m i n a t i o nf o rb i o c q u i v a l e n c ea お おe s. s 口1 e n tbymeans D i l e t t i,E . o u r n a lo fC l i n i c a lPharmacology,Thcra[ Jya ndToxicology,29,1‑8 o fc o n f i d e n c ei n t e r v a l s .l n t e r n a t i o n a ll 高田寛治 (1995).薬物動態学.薬業1 1 寺報社,東京 矢船明史 (2000).生物学的同等性試験における信頼区 f mに基づく伊l 数設計について臨床薬理, 31,715‑718 ‑9

18.

日本 SASユーザー会 (SUGI‑J) 解析用データセットのあり方 ‑CDISCを意識して‑ 0長 谷 川 要 、 本 山 佳 代 子 、 小 崎 昌 昭 、 如 城 靖 子 キリンビール株式会社 医薬カンパニー 開発本部 開 発 推 進 部 臨 床 デ ー タ 統 括 担 当 S t a n d a r d i z a t i o no fS t a t i s t i c a lA n a l y s i sDatasetModeli nc o n s i d e r a t i o no fCDISC KanameHasegawa,KayokoMotoyama,MasaakiKosaki,YasukoUjo C l i n i c a lDataManagement& B i o s t a t i s t i c sGroup,DevelopmentCoordinationSection i v i s i o n,KIRINBREWERYCO., じTD. DevelopmentDepa口ment,PharmaceuticalD 要旨 本論文では、臨床試験のデータ解析に用いる解析用データセットの標準化に的を絞り、当社におけ る現状の問題点及び改善策について考察し、米国の C l i n i c a l Data l n t e r c h a n g eS t a n d a r d s Consortium(CDISC)が提唱するデータセット形式を参考!こ、解析用データセットのあり方について検討を 行ったので報告する。 キーワード: 解析用データセット、標準化、 CD lSC 1 . はじめに 1 lガイドラインの施行に伴い、複数の臨床試験成績を併合した統計解 近年、 ICH‑E9l および ICH‑M42 3 ガイドラインでは海外臨床試験成績との類似性評価 析の必要性が求められてきている。また、 ICH‑E5l に関する指針が述べられており、もはや異なる試験問での解析用データの共有は避けては通れない状 況にある。 しかしながら、当社においては解析用データに関して標準化が行われていないため、解析担当者 個々人によりデータ構造や変数名が異なっている現状がある。また、共同開発あるいは外部委託する際 にデータセットの構造の相違により、併合した解析の実施に当たっては解析用データセットの再構築な ども含め多大なリソースと時間が費やされてきた。 方、米国食品医薬品衛生局 (FDA)では電子申請の受け入れが行われており、その際に SASデ ータセットを添付資料として提出することが既になされている。これらの SASデータセットの形式は電子 l i n i c a l 申請ガイダンスげにもある程度の標準的な形式が提示されている他に、米国の非営利団体 C [ l a t i lI n t e r c h a n g eS t a n d a r d sC o n s o r t i u r n( C D I S C ) R lでは、電子申請する際に必要となるデータセット構造 τよ ー

19.

の標準化などを行う目的で様々な活動が行われている。 今回当社における解析用データセットの標準化を行う目的で、主に CDISCを参考に検討を行ったの で報告する。 2 . 当社における現状の問題点 図 lに当社の解析業務における電子データの一連の流れを示す。 DM部門では入手した CRFを基に 症例データベースへデータを入力し、最終的には症例 SASデータセットの形式で、解析担当者へ引き渡 される。この過程では症例データベース定義及び症例 SASデータセットの定義を含む DB定義書を基に 作業が行われる。この段階での症例 SASデータセットの構造は、症例データベースを管理する DMシス テムに依存した構造となっており、解析にそのまま利用で、きる構造となっていない。そのため、解析担当 者は解析計画書に基づき、解析処理が行し、やすい形式で解析用データセット定義書を作成し、それに 基づき症例 SASデータセットを解析用 SASデータセットに変換し、解析処理を行っていた。 D Mシステム ( O r a c l eD a t a ) i一 一 一 一 一 「 I DB I │定義書│ 図1.解析業務における電子データの流れ これらの作業過程で、特に解析用データセット定義書に関しては社内において標準化がなされておら ず、解析担当者各人が個別に作成し作業を行っている。そのために、薬剤ご、とに変数名やデータセット の構造が異なることによりプログラムの使いまわしができず、さらに同じ薬剤でも試験毎に変数名やデー タセットの構造が異なることがあり、併合した解析を実行する際には、その都度解析用データセットを再 構築するなど多大なリソースと作業時聞が費やされ問題となっていた。また、海外データを用いた併合解 析を行う際にも同様の理由により、困難を極めた。 こうした解析用データセットの標準化がなされていないことに起因する業務効率の改善を目的に、解 析用データセットのあり方について特に海外の情報を中心に検討を行うこととした。 3 . 海外における解析用データセット標準化に向けた動き (CDISCについて) 近年米国では、医薬品の承認申請において電子申請が盛んに行われており、データセットの標準化 も急速に図られている。特に米国の非営利団体である CDISCは、データセットの標準化に関して重要な 役割を果たしているむ I よ 守h ︐ q

20.

図 2に示す通り、 FDAにおい Cは電子申請による申請件数が年々増加している。増加する理由としぐ、 承認審査期間が短縮されるためと考えられるが、短縮化が達成されている背景のーっとして、申請デー タの標準化がなされていることも重要な要因として挙げられる 米国 FDA が定めた電子申請に関するガ C イダンス 6ぷ)によれば、症例データは SASの移送形式ファイル (XPTの V5形式)が指定されている。さら に、これら SASデータセットの構造についても一部標準的なものが例示されている。 一一一ー一一一←一一一一一一一一←一一一一一一一一一一←一一一一一一 500 " ω 450 ↑ 一 一 一 一 一 一 一 一 一 一 一 〈 2400 一 一 一 口 6350 a300 U : : 250 21 5200 ! z ~ 150 I " ' E100 。 コ 50 0 ~ 1998 1999 2000 2001 Year 図2 . 米国における電子承認申請の申請件数の推移 9) また、 CDISCでは、臨床試験全般に関わるデータの標準化の活動が行われている。表 lに CDISCの 活動内容を示す。 CDISCでは表 1(こ示す 7つの WorkingTeamが活動しており、特に解析用データセッ トの構造の標準化に関しては SubmissionData Standard Team(SDS Team)とAnalysis Dataset ¥1odeling r . !Team)の活動が該当する SDS Teamでは主に安全性データを中心 lこ12の解析用データ Team(ADa c セットの標準化の活動が行われ、 Submission Data Model Version 2.011,12.18)として現在公表されている。 一方、 ADa¥1 Teamでは主に有効性の評価に関わるデータを中心に、データセットの標準化の活動がな されているが現在正式にリリースされたものは存在しない c 検討段階のものはし、くつか公表 13.15)されてい る 。 表 1.CDISCの活動内容(各 WorkingTeamの活動内容) 10,17) WorkingTeamの名称 活動内容 O p e r a t i o n a lDataM o d e l i n gTeam(ODM) XMLを用いた臨床試験データの収集や変換等を意図したモデルの開発 SubmissionDataS t a n d a r d sTeam(SDS) 承認申請のための安全性データモデルの標準化を検討 A n a l y s i sD a t a s e tM o d e l i n gTeam(ADaM) 承認申請のための有効性データモデルの標準化を検討 ト ー 一 L a b o r a t o r yD a t aTeam(LAB) 臨床検査データの C e n t r a lL a b .からの受け渡し方法の標準化を検討 ト 一 一 T e s t i n gandA p p l i c a t i o n sTeam( T AP) E d u c a t i o nTeam(EDU) CDISCO p e r a t i o n sandI n f r a s t r u c t u r eG r o u p ( O I S ) 標準化されたデータモデル等の確認作業を実施 教育カリキュラムを作成し、 CDISCの普及や利便性を図る活動を実施 CDISCのインフラに関わる活動を行う リd

21.

表 2 に AnalysisDataModel(ADaM)とSubmissionDataModel(SDM)の比較を示す。 ADaMは FDAの S t a t i s t i c a l Reviewerの利用を前提に、有効性の解析が行し、やすい形式で構成され ている。データの形式は統計的な処理を行うために原則として数値変数を用い、さらに症例採否情報を 含む、まさしく統計解析処理を実行するのにふさわしいデータ形式を目指して標準化の活動を行ってい る。特に、 SAS のプロシジャを意識して、解析する際には可能な限りソースコードを単純に実行できるよう にすることを前提に、標準化の作業が進んでしも 13) ご SDMは FDAの C l i n i c a lReviewerの利用を前提としており、安全性の評価項目が閲覧しやすい形式で 構成されている。データ形式は原則として文字情報を用い、個々の患者データの経過を容易に把握で きる形式を前提に標準化が行われている。特に電子申請する際には、ここで、定義されたデータセットの 一覧表 Case Report Tabulations(CRTs)の作成も要求されている叩。 CDISCのデータの標準化に向け た活動は FDA側も採用しており、 FDAが行った CRTs閲覧のための PatientProfileViewerのパイロット 試験 16)には、 CDISCが提唱している SDMのデータセットモデ、ルが採用されている。 表 2.AnalysisDataModel (ADaM) と SubmissionDataModel(SDM)の比較 14) CDISCWorkingGroup End‑user P r i m a r yReviewR e s p o n s i b i l i t i e s Scopeo fr e v i e w A n a l y s i sDataModel(ADaM) SubmissionDataModel(SDM) FDAS t a t i s t i c a lReviewer FDAC l i n i c a lReviewer E f f i c a c y S a f e t y Datas u p p o r t i n gP r i m a r yand n t impo吋a SeeFDAGuidancef o rI n d u s t r y Documents Secondarys t u d yo b j e c t i v e s DataF i l eS t r u c t u r e R e f l e c t sa n a l y s i sandr e p o門i n g R e f l e c t sd a t ac o [ [ e c t i o n Dataa n a l y t i c Humanf r i e n d l yf o rg e s t a l tr e v i e w S p e c i f i ct os t a t i s t i c a lmodel Standardized P r i m a r i l yNum巴rJc P r i m a r i l yA l p h a ‑ t e x t Numericcodesf o ra n a l y s i s D e s c r i p t i v eT e x t Yes L imited Mayi n c l u d ev a r i a b l e st h a tdon o t e x i s ti nt h eCRTdatabase R e p r e s e n t a t i o no fp a t i e n tl i s t i n g s S t y l eo fData DataTypes CodedV a r i a b l e s l a g s ' Data F Somed e r i v e ddatai n c l u d e d D e r i v e dd a t a Maybeh e a v i l yd e r i v e dand t r a n s f o r m e d Representsaviewo ft h eCRT database No Yes Standardv a r i a b l enaming c o n v e n t i o n s Yes Yes Yesw i t hp o s s i b l ea d d i t i o n a l tr i b u t e s a1 Yes CDISCs t a n d a r dd a t amodel 表 3 に SDMを構成する 12の安全性の評価を行うデータセットのドメイン一覧を示す。これらはのデ ータセットは、 FDAガイダンスにて要求されているデータセットとほぼ一致している。 ‑1 4

22.

表3 . データセットドメイン一覧表 11) D e s c r i p t i o n Dataset DEMO AE CONMEDS DISPOSIT ECG EXPOSE CHEM HEMAT URINE MEDHIST PE VITALS L o c a t i o n Demographicsand S u b i e c tC h a r a c t e r i s t i c s AdverseEvents Demo.xpt S t r u c t u r e Purpose 1r e cp e rs u b j e c t CRT Concomitant M e d i c a t i o n D i s p o s i t i o n 1r e cp e radverse e v e n toccurrence Conmeds.xpt 1r e cp e rs u b j e c tp e r m e d i c a t i o nevent .x p t 1r e cp e rs u b j e c t D i s p o s it CRT ECG E c g . x p t CRT DrugExposure L abs‑Chemistry L abs‑Hematology L a b s ‑ U r i n a l y s i s Medicalh i s t o r y P h y s i c a lExamination V i t a lSigns AE.xpt CRT CRT 1r e cp e rs u b j e c t .p e r v l s i t e cp e rc o n s t a n tdosing Exposure.xpt 1r lp e rs u b j e c t i n t e同 a Chem.xpt 1r e cp e rv i s i tp e r v i s i V c o l l e c t i o n / e x a mp e rl a bt e s t Hema . tx p t 1r e cp e rv i s i tp e r v i s i V c o l l e c t i o n / e x a mp e rl a bt e s t U r i n e . x p t 1r e cp e rv i s i tp e r v i s i V c o l l e c t i o n / e x a mp e rl a bt e s t Medhis . tx p t 1r e cp e rs u b j e c t .p e r e x a π 1 P e . x p t 1r e cp e rs u b j e c t .p e r e x a π 1 V i t a l s . x p t 1r e cp e rs u b j e c tp e r v i s i t CRT CRT CRT CRT CRT CRT Key V a r i a b l e s Sponsor‑ determined Sponsor‑ determined Sponsor‑ determined Sponsor‑ determined Sponsor‑ determined Sponsor‑ determined Sponsor‑ determined Sponsor‑ determined Sponsor‑ determined Sponsor‑ determined Sponsor‑ determined Sponsor‑ determined Comment 表 4 に D E M O(Demographics and Subject Characteristics)のデータセット変数定義書を示す。これら デ、ータセット変数定義書の作成ポリ、ンーは、 F D A ガイダンスで要求されている事項に対して最低限カバ ーできることと、各企業により変数の持ち方は違えど、だいたい通常入ってくるようなデータ変数を含むよ うに考膚、されている (80%ルール)。表 3や表 4で、示したデータ定義書は、 F D Aの reviewerに対し提示し、 データ加工なしに再解析できる環境を用意することを目的とした必須文書であり、これら定義書は define.pdfとして作成することが F D Aガイダンス中 1 , i )で要求されている。 表 4.DEMOデータセットの変数定義書 1 1 ) V a r i a b l eL a b e l Type StudyI D Centero rS i t eI D I n v e s t i g a t o rI D I n v e s t i g a t o rName UniqueS u b j e c tI D S u b j e c tI D Agei nYearsa tB a s e l i n e Sex Race TreatmentCode TreatmentGroup Country V i s i tNumber V i s i tDay V i s i tName A c t u a lStudyDay0 1V i s i t Date0 1V i s i t Char Char Char Char Char Char Num Char Char Num Char Char Num Num Char Num Num DMREFDT S u b j e c tRelerenceDate Num DMREFTM BIRTHDT S u b j e c tRelerence下Ime Date0 1B i r t h 、「Jum 、「Jum WEJGHT HEJGHT SUBJJNIT 日h ti nKiJoqrams Wei H e i g h ti nCentimeters S u b j e c tJ n i t i a J s Num Num Char Decodes/Format M.F IS03166 [S08601 YYYY‑MM‑DD [S08061 YYYY‑MM‑DD IS08061HH:MM IS08061 YYYY‑MM‑DD υ ︑ ︐ー V a r i a b l e Name STUDYID SITEID INVID INVNAME USUBJID SUBJID AGE SEX RACE TRTCD TRTGRP COUNTRY VISITNUM VISITDY VISIT DMACTDY DMDT Role Comment

23.

表 5に参考として、現在検討が進められてしも有効性データセットの変数定義書を示すc このデータ は Time to Event(生存時間変数)をエンド・ポイントとするデータセットの標準的な仕様の例示で、ある。 ADaMTeamでは、解析用データセットを加工せずにそのまま SASフ。ロシ、ジャで不I J用可能なデータ形式と )、症例の採否情報や、解析時に必 することを目指しておりにれを ONEPROCA W A Yと称している:表 6 要となる共変量の変数を含むデータ構造を検討している。 なお、有効性データについてはエンドポイントの違いや、測定時点の違いなど安全性データと異なり 標準化に際して薬剤ごとに固有の相違が存在し、様々な点で標準化が難しい部分が存在する。 FDA の ガイダンス山中においても有効性データに関しては個別に規制当局と話し合いの上、データセットの形 式をスポンサー倶J I と取り決めることとなっている。 表5 .TimetoEventModelの変数定義書 13) V a r i a b l e Name ORUGIO V a r i a b l eL a b e l Type Orug1 0 STUOYIO SITEIO INVIO SUBJIO AGE SEX R o l e Comment Char Key Maybeusedb ysomeSponsors I f o r ISE o r Reviewers f o rd r u g c l a s sa n a l y s e s Study1 0 Centero rS i t e1 0 I n v e s t i g a t o r1 0 S u b j e c t1 0 Agei nYearsa tB a s e l i n e Sex Char Char Char Char Num Char Key Key Key Key S e l e c t i o n S e l e c t i o n SEXCO Sex Num RACE Race V a r i e s TRTCO TreatmentCode ト Jum TRTGRP VAR#1.K S PP Char TreatmentGroup Kv a r i a b l e sr e p r e s e n t i n ga n a l y s i s andsubgroupc o v a r i a t e s ト Jum S u b j e c tP e r ‑ P r o t o c o lF l a g TIP TIPCNSR Jum T imet oOiseaseP r o g r e s s i o n ( d a y s ) ト Censoring I n d i c a t o rf o rT ime t o Num OiseaseP r o Q r e s s i o n T imet oTreatmentF a i l u r e ( d a y s ) TIF ime t o Censoring I n d i c a t o rf o rT TIFCNSR TreatmentF a i l u r e v a l ( d a y s ) O u r a t i o no fSu刊 i SURV SURVCNSR CensoringI n d i c a t o rf o rO u r a t i o no f S u r v i v a l Num Num Num Num Oecodes/Format M=Male F=Female 1=Male 2=Female S e l e c t i o n S e l e c t i o n 1=A 2=B =No 1=Yes Coding o r Char/Num c o u l d dependoni n d i c a t i o n S e l e c t i o n S e l e c t i o n S e l e c t i o n 。 = 。 。 。 Maybeusedf o rISE S e l e c t i o n N o tCensored 1=Censored =NotCensored 1=Censored =NotCensored 1=Censored L inkt op r o t o c o lo ra n a l y s i sp l a n L ink t o P r o t o c o l E x c e p t i o n s L is t i n g L inkt oP r o t o c o lo ra n a l y s i sp l a n L inkt oP r o t o c o lo ra n a l y s i sp l a n L inkt oP r o t o c o lo ra n a l y s i sp l a n L inkt oP r o t o c o lo ra n a l y s i sp l a n L inkt oP r o t o c o lo ra n a l y s i sp l a n L inkt oP r o t o c o lo ra n a l y s i sp l a n 表6 .O N EPROCAWAYの事例 proc phreg data=s.surviva1(where=(s̲pp eq 1)); mode1 ttp*ttpcnsr(1)=trtcd/r1; run; 4 .解析用データセットのあり方について 前述したように、海外においては既に解析用データセットに関して標準化を推進する動きが向えろ。 ー方、わが国でも今年に入ってから DIA19‑22lによる CDJSCの活動の紹介が行われ、また製薬協が主体と な り CDISC の国内における活動の準備が開始されているこれらの状況下で最近我々は、米国製薬会

24.

社の電子申請資料(巴 B L A )を利用する機会があり、特に再解析の必要性から FDAに提出した S A Sデー A Sデータセットの構造は、前述した C D I S C タセットを利用する機会を得た。これら FDAに提出された S が提唱する形式に従し、作成されていることが確認され、実際に安全性データや、有効性データの再解 析を行ってみたが以下の点において非常に利便性が高いことを認識した。 データセット定義書が標準化されており、解析目的とするデータがどのデータセットに含まれてい るのかが容易に識別できた S A Sプロシジャ等で、集計を行う際に、ほとんど、データの加工を行わずに処理が可能で、あった 複数の試験データを併合する解析が容易に行えた 一度作成したプロク守ラムで、異なる試験データの解析に容易に再利用できた 0 年後、別の解析担当者が過去データを再利用したい状況下でも容易に実行可能で おそらく、 1 あることが想定された D I S C形式に則ったデータを作成することは業務効率の観点から有用性が高いと 以上の結果から、 C D I S C及び共同開発先の情報を参考に、標準的なデータセットのあり方につ 考えられ、当社においても C いて議論を行った。 D I S Cが提唱するデータセットにより近しもの 理想、論から言えば、 DM部門の DMシステムから直接 C が出力されることを望むべきだが、現段階では利用している DMシステムの制限から困難であることが予 A Sデータセットから解析用 S A Sデ 想された。そのため、実行可能な改善策として、図 lで示した症例 S ータセットを作成する際の、解析用データセット定義書の標準化を目指すこととした c 標準化の作業に当たり、表 3~ 表 5 に示す様式のデータセット定義書の作成はデータを標準化する上 で有益であると考え、これらの様式の文書を必須文書とし、全ての統計解析担当者で共通の項目を含 む定義書の作成を行うこととした。 D I S Cでは、表 4に示す変数定義書に含める項目等を予め定義しているが、これら項目の必要 また C D I S Cで要求されている項 性の検討と、不足している項目についても検討を行った。その結果、現行の C A Sデータセットの変数情報 目の他に、当社で利用している DMシステムとの連携項目、すなわち、症例 S A SFORMATカタログマ名や、変数の属性の詳細 ( C D I S Cでは C h a r型もしくは Num型 を含めることとし、 S のみ)、及び導出方法の詳細(たとえば、日数計算の方法など)も必須項目と考え、表 7に示す項目を解 析用データセット定義書に含めることとした。 表7 . 解析用データセット定義書に含めるべき項目 項目 変数名 変数フベル 属性 フォーマットカタログ名 入力されるァタ情報 D Mシスァムの変数情報 コメント 内容 半角英数字日文字で変数名を付ける 半角 4 0文字以内で変数フベルを付ける 文字型の場合は長さも含めて定義する。骨I Jえば、半角 4 0文字の変数は $ 4 0とする。数値変 数は SASのデフォルトで指定される長さ Bを原則として用いる。 出力フォーマットが指定されている変数についてはフォーマット名を表示する その変数がlIXり得る値について表示する。伊l えf ; !、性別であれば M =男 、 F =女といった情報 を表示する。 D Mシスァムが出力する症例ァーータセットのァータセット名及び変数情報を表示する 変数変換した場合の変換方法や、途中で変数追加した際の履歴情報などを必要に応じて表 示する 1 7

25.

また、併合した解析を前提にすると変数名の共通化は必須であると考えた。その際、 C D I S Cでは予め 必要と思われる変数名については標準化が行われており、可能な限りこのネーミンク守ルールに従うことと した。 A Sデータセットを作成した際に、定義書 さらに、前述した解析用データセット定義書に基づき解析用 S こデータセットが作成されたかど、うかを確認するための何らかの資料の必要性も検討されたO 具体的 通り l A Sデータセットの変数情報を CONTENTSプロシジャ及び ODSの機能を には、出来上がった解析用 S 利用して、変数情報一覧表を自動作成し、これを確認資料とすることとした。図 3に今回の検討により新 たに考えられた電子データの流れ図を示す。 以上、解析用データセット定義書の標準化を行うことにより、今までL問題となっていた解析業務の処理 工程が改善され、業務効率の向上につながる環境を整備出来たと考える。これら一連の改善活動につ いては社内作業手順書 (WPD)として作成し、担当者間で共有化及び遵守するよう現在作業をとり進め ている。 ̲ ‑ ‑ ‑ ‑ ー ー ー , g 解析用デタセッ トの共通化により 併合した解析が容 易に実現 ︑ 11 にむヒ? 也会 にプー二コ解折プログ竺ム,f ι 自動生成 (CDISC準拠) 図3 . 検討後の電子データの流れ 5 . おわりに 本論文では解析用データセットのあり方について、主に C D I S Cの活動を参考に検討したが、標準化 に向けてはいくつカ、の問題点が残されている。そのーっとして、データを入手する段階、すなわち CRF そのものから解析データセットを意識して標準化する必要があると考えられる G 実際に、海外においては も提示されているお)。また、当然ながら入力用デ それぞれのデータモジュールに対応する標準的な CRF ータベースについても標準化が必要と考えられる G 終わりに、今回のテーマ内容と外れるが、 C D I S Cでは;1,氏ベースの CRFを用いずに電子的にデータの p e r a t i o n a lD a t aM o d e l i n gT e o l l lーで行われ、その 受け渡しを可能とした XMLを介する標準化の活動が O 1 8

26.
[beta]
成果も公表:2,1‑26)されている。今後 0
¥
‑
1部門を含め、こうした動向にも注目したいと考えるの

6
.参考文献
1
) i
臨床試験のための統計的原則」について.医薬審第 1047号.厚生省医薬安全局審査管理課長
0年 1
1月 30 日.
通知.平成 1
2
) 医薬品の製造又は輸入の承認申請に際し承認申請書に添付すべき資料の作成要領について.

3年 6月 2
1 日.
医薬審発第 899号.厚生労働省医薬局審査管理課長通知.平成 1
3
) 外国臨床データを受け入れる際に考慮、すべき要因について.医薬審第 672号.厚生省医薬安全
0年 8月 1
1 日.
局審査管理課長通知.平成 1
4
) USFoodandDrugA
d
m
i
n
i
s
t
r
a
t
i
o
n
. Guidancef
o
rI
n
d
u
s
t
r
y,P
r
o
v
i
d
i
n
gRegulatorγSubmissionst
o
t
h
e Centerf
o
rB
i
o
l
o
g
i
c
sE
v
a
l
u
a
t
i
o
ni
nE
l
e
c
t
r
o
n
i
c Format ‑ B
i
o
l
o
g
i
c
s MarketingA
p
p
l
i
c
a
t
i
o
n
s
.
November1
9
9
9
.h
t
t
p
:
/
/
w
w
w
.
f
d
a
.
g
o
v/c
b
e
r
/g
d
l
n
s
/e
b
l
a
.
p
d
f
5
) USFoodandDrugA
d
m
i
n
i
s
t
r
a
t
i
o
n
. Exampleo
fa
nE
l
e
c
t
r
o
n
i
cNewDrugA
p
p
l
i
c
a
t
i
o
nS
u
b
m
i
s
s
i
o
n
.
Februarγ1999.http://www.fda.gov/cder/guidance/NDA̲Example.htm
r
o
v
i
d
i
n
gRegulatorγSubmissionsi
n
6
) USFoodandDrugA
d
m
i
n
i
s
t
r
a
t
i
o
n
. Guidancef
o
rI
n
d
u
s
t
r
γ ,P
E
l
e
c
t
r
o
n
i
cFormat‑G
e
n
e
r
a
lC
o
n
s
i
d
e
r
a
t
i
o
n
s
.I
T
2
.Januarγ1999.
http://www.
f
d
a
.
g
o
v/cber/g
d
l
n
s
/e
l
e
c
g
e
n
.
p
d
f
r
o
v
i
d
i
n
gR
e
g
u
l
a
t
o
r
yS
u
b
m
i
s
s
i
o
n
si
n
7
) USFoodandDrugA
d
m
i
n
i
s
t
r
a
t
i
o
n
. Guidancef
o
rI
n
d
u
s
t
r
γ ,P

v
,
明w
.
f
d
a
.
g
o
v/cder/guidance/2353fn.
lpdf
E
l
e
c
t
r
o
n
i
cFormat‑NDAs.I
T
3
.J
a
n
u
a
r
y1
9
9
9
.h
t
t
p
:
//
8
) C
l
i
n
i
c
a
lDataI
n
t
e
r
c
h
a
n
g
eS
t
a
n
d
a
r
d
sConsortiumHomeP
a
g
e
.h
t
t
p
:
/
/
w
v
r
w
.
c
d
i
s
c
.
o
r
g
/
e
v
i
n,
ル1
0,CDER's A
s
s
o
c
i
a
t
eD
i
r
e
c
t
o
rf
o
rI
n
f
o
r
m
a
t
i
o
n
9
) E
l
e
c
t
r
o
n
i
cI
n
i
t
i
a
t
i
v
e
sa
t FDA,Randy L
:
'
v
lanagement,a
tt
h
eDIAmeeting"
C
l
i
n
i
c
a
lDocumentManagement,
"November2001
.

h
t
t
p
:
/
/
w
w
w
.
f
d
a
.
g
o
v
/
c
d
e
r
/
r
e
g
u
l
a
t
o
r
y
/
e
r
s
r
/
l
e
v
i
n
̲
e
l
e
c
t
r
o
n
i
c
/
s
l
d
0
0
4
.
h
t
m

.http://www.cdisc.org/pdf
!Brochure0105.pdf
1
0
)CDISCB
r
o
c
h
u
r
e
.May2001
1
1
)I
n
t
r
o
d
u
c
t
i
o
nt
ot
h
eCDISC S
u
b
m
i
s
s
i
o
nDataDomainModelsV
e
r
s
i
o
n2
.
0
. SDSWorkingGroup.

.http://www.cdisc.org/pdf/Submission̲Data̲Domain̲Models̲2.pdf
December2001

.
lSDSWorkingGroup.November2001
.
1
2
)CDISCS
u
b
m
i
s
s
i
o
nMetadataMode
h
t
t
p
:
/
/
w
w
w
.
c
d
i
s
c
.
o
r
g
/
p
df
!SubmissionMetadata¥
1odeIV2.pdf
1
3
)CDISC S
t
a
n
d
a
r
d
sf
o
rA
n
a
l
y
s
i
sD
a
t
a
s
e
t Models(ADaM). DrugI
n
f
o
r
m
a
t
i
o
nA
s
s
o
c
i
a
t
i
o
n Meeting,
I
n
n
o
v
a
t
i
v
eS
t
a
t
i
s
t
i
c
a
lS
t
r
a
t
e
g
i
e
si
nToday'sEnvironment,i
v
l
a
r
c
h2
0
0
2
.
h
t
t
p
:
/
/
w
w
w
.
c
d
i
s
c
.org/pdf/DIASt
a
t
s
Da
v
e
C
h
r
i
s
t
i
a
n
s
e
n
.p
p
t
a
s
e
l
i
n
eA
n
a
l
y
s
i
sF
i
l
e
.ADaMWorkingC
;r
o
u
p
.June
1
4
)ADaMStrawmanf
o
rP
e
r
c
e
n
t Change合omB
2
0
0
1
.h
t
t
p
:
/
/
w
w
w
.
c
d
i
s
c
.
o
r
g
/
m
o
c
l
e
l
s
/吋 am/CFB.ModeLV1.pdf
1
5
)G
u
i
d
e
l
i
n
e
sf
o
rt
h
eC
r
e
a
t
i
o
no
fA
n
a
l
y
s
i
sDataF
i
l
e
sandDucumentationo
fS
t
a
t
i
s
t
i
c
a
lI
¥n
a
l
y
s
e
sf
o
r
S
u
b
m
i
s
s
i
o
nt
ot
h
eFDA
.ADaMWorkingC
;r
o
u
p
.Februarγ2002.
日 明.
c
c
l
i
s
c
.org/m
o
c
l
e
l
s
/a
c
l
a
m
/
AD孔I
v
!
̲C
u
i
d
e
l
i
n町一 Vl.pdf
h
t
t
p
:
/
/
w

i
e
n
tP
r
o
f
i
l
eV
i
e
w
e
r
;N
o
t
i
c
eo
fP
i
l
o
tP
r
o
j
e
ct
.Feder日1f
<
e日i
s
t
er
.Vo.
166,No.2
:
1
7 Den'mber1
0,
1
6
)P孔t
ー

27.

2 0 0 1 . 1 7 )CDISC E d u c a t i o l l Committee P r e s e n t s IndustrγMetadata S t a n d a r d sf o r Data I n t e r c h a n g e . http://www.cdisc.org/pdf/CDISC%20SCDM%202002%20Presentation.pdf 1 8 )C l i n i c a lDataI n t e r c h a n g eS t a n d a r d sConsortium(CDlSC)S t a n d a r d sandT h e i rI m p l e m e n t a t i o ni n aC l i n i c a lDataManagementS y s t e m .Drugl n f o r m a t i o nJ o u r n a l,Vo. l35,p p .853‑862,2001 . 1 9 )C l i n i c a l Data I n t e r c h a n g eS t a n d a r d sC o n s o r t i u m . Drug I n f o r m a t i o nA s s o c i a t i o n5 t h Annual a p a n .J a n u a r y2 0 0 2 . WorkshoponC l i n i c a lDataManagement,TokyoJ h t t p : / / w w w . c d i s c . o r g / p d f /J apanDIA‑RubergCDISC̲OverviewO1‑25‑01 .p p t 2 0 )EuropeanE x p e r i e n c e sI m p l e m e n t i n gCDISC.DrugI n f o r m a t i o nA s s o c i a t i o n5 t hAnnualWorkshop a p a n .Januarγ2002. onC l i n i c a lDataManagement,TokyoJ h t t p : / / w w w . c d i s c . o r g / p d f / D I A J a p a n ̲ U r S . p p t 2 1 )FDAV i e w p o i n to fCDISC.DrugI n f o r m a t i o nA s s o c i a t i o n5 t hAnnualWorkshoponC l i n i c a lData a p a n .J a n u a r y2 0 0 2 .h t t p : / / w w w . c d i s c . o r g / p d f / J a p a n D I A W i l s o n . p p t Management,TokyoJ . DrugI n f o r m a t i o nA s s o c i a t i o n5 t hAnnual 2 2 )WhyCDISC?A P h a r m a c e u t i c a l CompanyV i e w p o i nt WorkshoponC l i n i c a lDataManagement,TokyoJ a p a n .Januarγ2002. ! JapanDIAJob.ppt h t t p : / / w w w . c d i s c . o r g / p df 2 3 )O p e r a t i o n a lDataModelProofo fConceptD e m o n s t r a t i o n .1 1 t hAnnualEuropeanWorkshopon C l i n i c a lDataManagement .October2001 .h t t p : / / 附 w .cbtech.com/Paris̲CTHON/ 2 4 )I n t r o d u c t i o nt ot h eCDISCO p e r a t i o n a lDataModelV e r s i o n1 . l (F i n al ) . h t t p : / / w w w . c d i s c . o r g / m o d e l s /odm/v1 .1/0DM1 ‑ 1 ‑ 0 ‑ l n t r o . p d f 2 5 )Overviewo ft h eCDISCO p e r a t i o n a lDataModelf o rC l i n i c a lDataA c q u i s i t i o nandAr c h i v e ( b a s e d . 1F i n al ) .http://www.cdisc.org/models/odm/v1 . 1/0DMI‑1‑0‑0verview.pdf onCDISCDTD1 2 6 )Overviewo fTechniquesf o rReadinga n dW r i t i n gODMD a t a .November2001 . h t t p : / / w w w . c d i s c . o r g / p d f /CDISCReadWriteODM27. p d f / so l u t i o n s / f d a . h t m l 2 7 )FDAandSAST e c h n o l o g y .h t t p : / w w w . s a s . c o m / s o l u t i o n s / p u b l i c ̲ s e c t o r ‑2 0一

28.

日本 SASユ ー ザ ー 会 (SUG1‑0) 臨床統計解析における SASプログラミングの生産性および品質向上への試み 0祐野浩子¥永田信行¥猪原辰也・¥松下勲・¥山田剛久事事$ 事株式会社シーエーシ一産業システム第二事業部 事事大正製薬株式会社医薬開発部 事・・イーピーエス株式会社臨床情報処理部門 l n c r e a s i n gProgrammingP r o d u c t i v i t yandlmprovingQ u a l i t yi nC l i n i c a lS t a t i s t i c su s i n gSAS OHirokoYuno'、NobuyukiNagata'、TatsuyaI n o h a r a '、 ・I s a oM a t s u s h i t a・ 事 ,Taka十l i s aYamada'事 $ • R&DSystemD i v i s i o n,CACC o r p o r a t i o n ・ MedicalDevelopmentD i v i s i o n,T a i s h oPhamaceuticalCO., L t d $ 事 事 BiometricsD i v i s i o n,EPSC o .,L t d . 要旨 臨床統計解析プログラミングに、標準化、モジュール化および、再利用品、う品質管理手法を採用し、 B i s t a W o r k s )を構築した。 それを強力にサポートするワークベンチ ( i s t aル' o r k sの運用から一年を経過した プログ ラミンク。の世界における品質とは何かを改めて考察し、 B 現時点において、その導入効果を再点検する。 キーワード:品質、標準化、モジュール化、再利用 1 . はじめに 臨床試験の解析には SASが広く用いられている。その解析用 SASプログラムは試験ごとに作成され、 また使い捨てられているのが現状である。これは、プログラミングの生産性および品質としづ面から、ま たプログラミング守ノウハウの継承とし、う観点からも問題を含んでしも。 我々は、製薬メーカー、 CRO そして SIベンダーのそれぞれが保有する技術・ノウハウを結集し、臨 床統計解析プログラミングーの世界に、標準化、モジュール化および再利用といった最も効果の高いと いわれる品質管理手法を積極的に採用し、これを強力にサポートするプログ.ラムワークベンチの構築 を試みた。 ソフトウェア開発における品質向上施策は、標準化、モジュール化、再利用、変更管理、ド、キュメント 管理、ワークフロー管理、レヒ〉、教育、外注管理およびテスト管理など多岐に亘る。 本文では、プログラミングの品質管理手法について改めて考察し、また構築したワークベンチ ( B i s t aW o r k s )の概要を紹介しながら、一年間の運用を経てその導入効果を再点検する。 つ ム

29.

2 .プログラムの品質特性と品質向上のための施策 2 . 1 品質特性 プロク。ラムの品質とは、プロク。ラムが指定された効用を発揮するために必要なすべての特性を SO/IEC9126( jI SX0 1 2 9 )の定義では、 i(l)機能性、 ( 2 ) 信頼性、 ( 3 ) 使用性、 意味し、国際標準 I ( 4 ) 効率性、 ( 5 )保守性、 ( 6 ) 移植性Jの6 つの品質特性と、それをさらにブレイクダウンした品質副特 性を定めている。 表 1 ISO/IEC9126 ソフトウェア品質特性と副特性 品質特性 品質副特性 1 ; i 合目的性、正確性、接続性、標準適合性、セキュ m j 2信頼性 両日告高正回復性 一 機能性 ; i ;両証 ; L反証 │ 遠 足 長 : 主 主 任 : 説 瓦 [五五反証、言語効説 戸扇子三両ロ更性、試験性、安定性 ; A説証 j 員境右記長;ふーん業性;言語向性、吉弘正 ISO/IEC9126では各品質特性を以下のように定義している。 ( 1 ) 機能性:利用者の要求を満たす一連の機能を実現する属性 ( 2 ) 信頼性:プログラムの達成レベルを維持し続ける能力の属性 ( 3 ) 使用性:利用者がプログラムを使用するのに必要な労力や使用結果、使い勝手に関する 属性 ( 4 ) 効率性:プログラムの性能と、必要とする各種資源の効率に関する属性 ( 5 ) 保守性:プログ、ラムに対して改訂を行うために必要な労力に関する属性 ( 6 ) 移植性:プログラムをある環境から別の環境へ移行できる度合いに関する属性 2 .2 臨床統計解析プログラムの品質特性 臨床統計解析プロク、、ラムに求められる品質特性は、以下の様に考える。 ( 1 ) 信頼性はほとんとoのプロク守ラムで、重視されるが、臨床統計解析プロクマラムで、は特に重視され る 。 ( 2 ) 保守性、移植性は軽視されがちであるが、臨床データの有効期間は長く、その聞にプログラ ムの改定や移植が行なわれることもあり、保守性、移植性は重視すべきである。 ( 3 ) 使用性、効率性はそれほど重視されない。 つ

30.

2 .3 品質向上のための施策 品質向上のための施策としては、「標準化、モジュール化、再利用、変更管理、ドキュメント管理、 ワークフロー管理、ユーザーロール管理、レヒーュ、教育、外注管理、テスト管理」などが考えられる。 それぞれが品質向上に果たす意味や役割を述べ、また品質特性との係わりを考えてみる。 ( 1 ) 標準佑 標準化により、プログラムの構造や記述が解り易く修正が容易になる。 また、記述上の個人差も少なくできる。 ( 2 ) モジュールイじ 要素が増えれば複雑さは急激に増すことは古くから知られている。 プログラムの複雑さを最小にし、独立性を最大にすることにより、プログラムの可視性を 良くし、また単体テストも容易にできる。 (:3)再利用 プログラムを再利用可能とするために形式化し繰り返し利用する。品質が確認されたソ フトウェアを再利用することにより、生産性、晶質、標準化が一気に促進される。 ( 4 ) 変更官理 プログラムの変更を体系的に管理し、常に正確な最新版を把握し、混乱が生じないよう にする。 ( 5 ) ドキュメント管理 プログラムを利用する際、および変更するときのために必要な説明書などの文書を作成 しておくことにより、作業効率の向上と品質の低下を防ぐことができる。また、変更情報 や作業記録等のドキュメントは、バリデーションの証拠としても用いる。 ( 6 ) ワークフロー官理 作業範囲と責任を明確にすることにより信頼性を一層向上させることができる。 プログラムの品質はプログラムの開発過程において作りこまれるため、その過程がカット されたり、正しく行なわれないとその信頼性は疑わしいものとなる。 ( 7 ) ユーザーロール管理 作業者の役割を明確にして管理することによりシステムの信頼性・効率性を維持・向上 させる。 ( 8 ) レビユ 各工程で作成される設計書などの文書やプログラムのソースコードなどを対象として 関係者が集まり会議形式で検証する。プログラムや仕様の欠陥や不具合を発見し改善する 効果が期待できる。 ( 9 ) 教育 プログラムの品質には、個人のもつ技量が大きなウェイトを占める。定期的かっ継続性 のある教育は必要不可欠である。 ︿ qd つム

31.

( 1 0 ) 外注管理 プログラムを外部に発注する場合、外注先の企業が常に品質の高いプログラムを開発で きる体制、能力を持っているかを判断する必要がある。発注側は適切な監査と牽制を実施 することが必要である。 ( 1 1 ) テスト管理 テストはプログラムが設計者の意図どおりに機能することを確認する行為である。 テストを実施する際にはテスト計画書を作成し、それに基づいて実施する。モジュール毎 のテストを実施し、さらにモジュールをいくつか組み合わせた機能をテストする結合テス トのように段階的にテストを実施すると、効率良く漏れのないテストが実施できる。 一般的な品質特性と施策との関係は以下のようになる。 表2 品質特性と施策との関係 施策 1 2 3 4 5 6 7 8 9 10 11 標準化 モジュール化 再利用 変更管理 ドキュメン卜管理 ワークフロー管理 ユーザーロール レピュ 教育 外注管理 ァスト管理 品質特性 使用性 効率性 。 。 。 。 。 。 。 。。 。 。 。 。 。 。 。 。 。 。 。。 。 。 。 。。 。。 。。 。 機能性 信頼性 保守性 移植性 ム ム ム ム ム ム ム ム ム ム ム ム ム ム ム ム ム ム ム ム ム ム 0:効果あり、 ム:一部効果あり、 一:関係しない 3 .B i s t a助 成sの概要 B i s t a W o r k sはプロク、 ラム開発段階における品質要求に対する改善の試みで、ある。本章では B i s t a W o r k sの概要を紹介し、本システムがサポートする品質向上胞策の内容について述べる。 3 .1 B i s t a助 成sの概要 B i s t a W 0 1おは、ライブラリ管理、プログ.ラム実行管理、ワークフロー管理、作業記録管理、ユーザ ーロール管理、マスター管理の6機能から構成される。 (1)ライブラリ管理 統計解析業務で用いるプログ.ラムを含むあらゆるド、キュメントを体系的に管理する 3 管理する対 象は SASモジュール、標準ライブラリ、テーマライブラリ、標準解析セット、統計解析手)11 員 、 デー夕、ド キュメント、実行結果である。 2 4‑

32.

①モジュー jレ(SASモジュール、標準ライブラリ、テーマライブラリ) SistaW O/* sでは、統計解析プログラムをモジュールとしづ機能単位に分割したものを管理す るa モジュール化によって、プログラムの可視性を良くし、再利用を可能にする。またモジュー ル化の過程で標準化を促進する。 S i s t a W o r k sでーはモジュールを SASモジュールと呼び管理するが、その内、システム全体を通 して再利用できるモジュールを標準ライブラリと呼んでいる。また、特定のテーマ内だけでら再利 用できるものをテーマライブラリと呼んでLそれぞ?れを区別して管理する o 標準ライブラリ、テーマ ライブラリは SASマクロ形式で作成する。 C E標準解析セット 標準ライブラリをしてつか組み合わせてセットにしたものを標準解析セットと呼ぶ。標準解析 セットはそれ自体で一つの機能を実現する。標準ライブラリを小部品とすれば、標準解析セット は中部品として位置付けられる。 ③統計解析手)1贋 統計解析手順は SASモジュールや、標準ライブラリ、テーマライブラリ、標準解析セットを組 み合わせて、目的とするプログラムを作成するための定義体である。 標準ライブラリやテーマライブラリは再利用可能なように形式化しているので、この時点で固 有のパラメータが与えられる。 盆王三室 データはテスト用と本番用に区別して管理する。 中間解析を行うプロトコールでは、データはその解析毎に管理する。 ⑤ドキュメント 統計解析業務で作成するあらゆるドキュメントを管理する。 ドキュメントの種類・名称はシステム設定時のマスターの定義により自由に設定できる。 ⑥実待結果 プログラム実行管理によって実行された実 ι 行結果を管理する。 実行結果には、統計解析手順の情報、入力データ、結果デー夕、 SAS実行ログなどが含まれる。 ( 2 ) プログラム実行管理 S i s t a W o r k sは、統計解析手順から実行可能な SASプログラムを生成し実行する。 実行にはテスト実行と本実行のモードがある。また、統計解析手順からはリバースにより、解析プ ログラムの流れやパラメータ受け渡しの情報を記述した統計解析手順書と呼ばれるプログラム設 計書の生成を行う。 ( 3 ) ワークフロー管理 ワークフロー管理とは、登録するのは誰か、承認を行うのは誰か、をシステムで管理し制御する 仕組みのことである。 SistaW O/* sで、は、登録→(テスト実行→確認)→承認としづワークフローを基本に制御して にd qL

33.

いる 3 ワークフロー管理により、作業範囲と作業のプロセスを明確にすることができる。 ( 4 ) 作業記録管理 ライブラリ管理、ワークフロー管理、プログ.ラム実行管理、ユーザーロール管理などで、の変更要 求の発生カミら解決までの履歴の追跡把握を可能にする。 作業記録管理は、システムの信頼性を確認するための重要な機能である。 ( 5 ) ユーザーロール管理 ユーザーの権限によって使用できる機能を定義する。 ユーザーは関係する機能だけを使用することになるため、システムは全体にかかる負荷が軽減さ れ、稼動の安定とセキュリティが保たれる。 ( 6 ) マスター管理 システムの設定情報を管理する。 図1 B i s t a肋 r k sの概念図 BistaWorks ラリ管理 │ ユメント ; j│データ !! 「プログラム実行管理 I l 1 SA 1 !解析プログラム ~I 型!日L I I I 1(SAS7。日グラム) 附‑ ‑ ‑ ‑ ' 1 1 1iSAS ザユーJ~ (整形) 1 1/組合せ I I I 己竺ど竺1 V 担 限引 I I 実行結果 I :" i !Ii 一一一一…一一一・・"寸1¥ ̲̲ • I i I標 準 一一一一 i Iテ │ …一一一 j~二一一一一一一一一一一一 開 コ y . : : : : . : : : : 一 戸 Z旦ニ宣理ーー │登録 ‑ + l テ ス ト l 作業記録管理 L … 一二二ザー・ロール管理 マスター管理 ‑2 6一 ・ :一一ぺ ‑+1確認! 1

34.

3.2 Bゐ ,t a W o r k sがサポートする品質向上施策 B i s t a W o lおは、前章に挙げた胞策の内、標準化、再利用、モジュール化、変更管理、ド、キュメント 管理、ワークフロー管理、ユーザーロール管理とし、う品質管理手法をサポートする。 B i s t av ' 均 Iおがサポートする応策と、品質特性との関係を以下に示す。 表 3 Bゐ ,t a助 成sがサポートする品質向上施策 B i s t a W o r k sがサホ。ートする施策 機能性 フ。ログラムについてモシ'ュール単位で、の管理を行う →モシ.ュー/レ化、標準化 ム 標準ライフヲリ、テーマフィフ'ラリなど、再利用可能な モシ.ュールの管理を行なう→再利用、標準化 フ。ログラム作成、ドキュメント作成、データなどの変更 履歴、フ。ログラム実行などの作業記録の監査証 跡を残す→変更管理、卜.キュメント管理 変更履歴や作業記録などの監査証跡をいろん な角度から参照できる→変更管理 フ。ログアム、ドキュメントやデータをフ。ロトコール単位に一 元管理する→卜守ュメント管理 統計解析手順カミら統計解析手順書を作成する →ドキュメント管理 登録、確認、承認など役割を明確にしたワークフ ロー制御を行なう →ワークフロー管理 ユーサ.一ご、とに権限を制限するロー/レ機能を提供 する →ユーサ.ーロール管理 ム 0:効果あり、 ム ム ム ム ム 品質特性 使用性 効率性 。。 。。 。 。 。。 。。 。 。 信頼性 ム ム 移植性 ム ム ム ム ム ム ム ム ム:一部効果あり、 ム 。 。 。 。 。。 。 保守性 ム 一:関係しない 4 .評価 本システムの導入前と導入後を比較し、統計解析業務における効果と可能性を評価してみた。 4 . 1 システム導入前の状況 システム導入前の状況は以下のようで、あった。 (1)システム導入前における品質保証は、夕、、ブルプログ、ラミンク守による結果の照合で、成果物の保 証を行っていた。 ( 2 ) ダ、ブ、ルプロク♂ラミング、によって、単純には同じものを 2系統で作成するため、マンパワーは倍 かかっていた。 ( 3 ) プログラム等の作成に関するルールは暖昧で明確に規定しておらず、従って個人のスキル によって判読のしやすさがまちまちで、あった。 ( 4 ) プログラムの管理体系が明確に規定されておらず、ファイル単位で のセキュリティのみで、あっ た 。 ( 5 ) プログラムは解析の内容に合わせてその都度作成し、再利用に関してはあまり意識していな 2 7‑

35.

かったo ( 6 ) 作業履歴等はその都度規定の書式に規って作成していたが、全ての解析作業が終了した 後に纏めて作成していた。 ( 7 ) 監査対応等解析業務を行う上で、の作用履歴を残すのが負担となっていた。 4 . 2 システム導入前の準備 システム導入に際して以下の作業と業務の見直しを実施した。 (1)プログ ラム作成の手順を見直し、モジュール化を念頭においたルール化を行った。 ( 2 ) モジュール毎に動作確認を行ない、その結果について第 3者が内容を確認し承認するとしづ 1 買をとった o 手1 ( 3 ) 動作確認の終了したモジュールを組み合せ(統計解析手順)、一つの解析単位を形成しそ れ毎に作業管理を行うこととした。 4 . 3 システム導入後の効果 システムを導入して一年を経過した段階で、以下の効果が確認できた。 (1)モジュール化のためにプログラム作成のルールを明確にした事で、個人毎にばらついてい たプログラム記述内容が、ほほ均一化できた。 ( 2 ) モジュール化を行うために解析業務を見直し、標準化できる部分は標準化を進め、 D M部 門とのデータ授受のルール化、解析業務に係わる帳票等のテンプレート化等を進める事が 出来た。 ( 3 ) 使い回しの出来る部分を切り出しライブラリ化する事で同様なプログラム作成工程にお ける作業上のダブりを減らす事が出来た。 ( 4 ) ライブラリがある程度揃わないと実際にプログラム作成工程での効率化は望めないが、使 い回しの出来るルーチンを必要な時に呼び出し、組み合わせて一連の解析プログラムを作 成し集計解析できるという仕組みは、プログラム作成工程において効率的(無駄なコーデ ィング作業を減らす)な方法で、あった ( 5 ) プログラムの作成単位が機能単位のモジュール単位なので、第 3者による確認作業が簡単 になり、モジュールの完成度(品質)を高める事が出来た。 ( 6 ) 今までの集計プログラムでは似たようなルーチンを使っているプログラム部分が間違え ていた場合、全てにおいて同様の箇所を同様に修正する必要があったが、解析手順でモジ ュールの組み合わせを官理しているため、該当箇所のモジュールのみの修正で、対応が可能 となり、該当する解析手1聞の修正は必要であるが、プログラム自体の修正作業は簡略化で きた。 ( 7 ) 1解析 lプログラムで行うよりモジュール管理にする事でー保証単位が小さくなり、動作確 認の手間もある程度簡素イじできた。 η〆 00

36.

( 8 ) 最初の内は、モジュール毎の動作確認作業は煩雑であったが、実際にプログラムを作成し ている段階で通常自己チェックを行っており、その作業内容を規定通りに残せば良いので、 思、ったほど苦にならない。 ( 9 )業務単位を分けた事で、作業履歴の管理が簡略化できた。 ( 10 ) 作業履歴の殆どがシステムで官理されており、また、必要な際に呼び出せるので、監査 対応等その部分に係る時間の節約が見込めた。 5 .まとめ 統計解析フ。ロク、、ラムの品質を論じる際には、ダブルプログラミングが強調されて議論される傾向があ るが、本文に掲げたような品質管理手法を採用していない前提では、その議論はあまり意味を持たな し 、 。 我々は、プログラムの品質とは何か、品質を作りこむための手法とは何かを真剣に考え、それを取り 入れることを試みた。新しいシステムの導入には、必ずその考え方にあわせたビジネスフローやルー ル化が必要になる。一年を経過した現在、ようやく新しい仕掛けも定着し、その成果も現れてきた。 今後、ライブラリが整備されていき、更にモジュールイじが徹底されれば、解析担当者の解析業務 におけるプログラム作成・管理に係る部分の効率佑及び品質の向上が飛躍的に見込めるものと考え ている。 ‑2 9

37.

日本 SASユーザー会 (SUG1‑0) プリント出力における美の追求 0佐 賀 野 修 一 〈 田 崎 武 信 # 守主商,t 静置システム株式会社エンタープライズ・ソリユーシヨン事業部 判塩野義製薬株式会社解析センター P u r s u i to fB e a u t 抗I JP r i n t o u t s , Ta k e n o b uTa s a k i * * S h u i c h iS a g a n o ' , . tS u m i s h oC o m p u t e rS y s t e m sC o r p o r a t i o n * E n t e r p r i s eS o l u t i o nDep 制 B i o s t a t i s t i c sDep , . tS h i o n o g i&C O ., L 凶. 要旨 SASプログラムからのプリント出力に美を凝らす.そのための工夫を一連の文書にまとめてみま した.それらの文書はもともと塩野義製薬(株)社内の共有知の資料として開発しました.しかし,箪笥 や畳が廃れつつあるいまの時代,しまし、こんだり,隠しもつよりも,原則公開すべきである.公開して, 社外のかたからも批判を仰ぐべきであると判断しました.芸術・技術の変化・進歩は早い.そのため, 批判は,私らのさらなる発展を促すはずであるとも考えました. 具体的には初級編,中級編,上級編,補足マクロ編, ODS 編のシリーズ,およびこれらの編のそれ ぞ、れに対応する実践応用編の、ンリーズを「歌って踊れるプログラマ,歌って踊れる統言明科斤担当者 を志向して :DDEとODSによるプリント出力」と題して開発しました.しかし,後者の実践応用シリーズ は実務に根ざして開発したことから公開すべきでなし吃判断しました.そのうえで,前者のシリーズの とODS を核に再構成して紹介します. 内容をDDE キーワード: 表出力, DDE,ODS,M S ‑ E x c e l,p d f 1 . はじめに SASのみの閉じた世界でプログラムからのプリント出力を見映えのよしものにすることには,すな わち美を追求することには限界があります.そこで、, SAS以外のアプリケーション・ソフトワェアの力を 制御す 借り,そのアプリケーションに集計解析の結果を出力して,表の枠組などを SASプログラムでf S ‑ E x c e lの表を作成することを考えました.その ることを考えました.具体的には DDEを利用して M 一方で,昨年 SASノ《ージョン 8がリリースされ,その新機能である ODSを活用すれば SASの世界 だけでもフ リント出力の美を追求で、きるかもしれないと考えました. 4 それらの考えは決して新しし、ものでなく,私らだけのもので、もないはずです.しかし,過去の S U J I ‑ J の資料をふりかえると,とくに DDEの応用に対して批判的なものが多いように感じました. DDEによる表の作成に対して長所よりも短! j J f が強調されてい支した批判の多く 1 :1:,出力カテゴリな どの楚動に応じてーァ、ログ、ラム在'再皮開発し 再皮ベリデーションを行なわなければならなし、ことでし ‑3 1

38.

た. この論文の元になった塩野義製薬(株)社内の啓発資料で、は, DDE応用の短所のひとつを解消 すべく,出力カテゴリの変動に左右されることなく表を作成できるプログラム例を紹介しました .ODS は SASパージョン 8からの新機能とし、うこともあり,その理解と応用を意図として開発したフ勺ログ、ラム 例を紹介しました.知識あるいは技術を共有するために作成したそうした資料の概略を以下で報告 します. 2 . DDEを利用して, SASプログラム内で MS‑Excelの表を作成する 2 . 1 データに依存して解析結果を出力する まずは,行数が可変な M S ‑ E x c e l表の作り方を紹介します.いま,丘町プロシジャと t r a n s p o s eプロ シジャを適切に利用することで,試験薬と対照薬が投与された,患者さんの,有害症状の分布が集計 ASデータセット S a m p D a tに格納されているとします.ただし, され,その結果が展示 lのような形で S 出力する行数はプログラムを作成する段階で、はわかっていないとします.いまの例ですと何種類 の有害症状が登場するかは予め分かっていないとします. このとき,なにも用意されていない自主£伏態の M S ‑ E x c e lシート上に,頻度集計の結果を出力した いとします. 展示1. S ASデータセット S a m p D a tの内容 有害症状 試験薬 対照薬 A eN C n t 1 C n t 2 頭痛 倦怠感 関節痛 胃部不快感 3 1 0 1 8 1 3 1 2 1 7 20 まず,出力すべき行数を決めるため,展示 lに示した頻度集計の結果の行数をマクロ変数化しま ASマクロ変数に置き換えるには c a l ls y r n p l l tステートメントを使います. c a l ls y r n p l l t す.変数の値を S ステートメントは最初に作成したいマクロ変数名を'と'で、囲い,カンマで、区切ったあとに,そのマクロ 変数に格納したい変数の値または文字列を指定します.ここではタイトルを 2行出力しますので,デ ータセットのオブザベーション数に 2を加えた個数の行が必要となります.この行数を OsSCntと し 、 うマクロ変数に格納します.このための SASプログラム・コードを展示 2に示し支す.この例示では SASマクロ変数 OI 3S C n tこ ( 6とし、う値が格納されます. IM d qぺ ︐ ︒

39.
[beta]
展示 2
.SASプログラム・コード 1
data̲NULL̲ ;
s
e
t S田~Dat e
n
d= LASTOBS ;
邸 ) then c
a
l
ls
y
m
p
u
t
(
'
O
B
S
C
n
t
',
c
a
r
p
r
e
s
s
(
p
u
t
(
̲
N
̲
+
2,つ? 8
.
)
)
)
i
f (凶STO
r
u
n

なお, end=オフ。ションは, s
e
tまたは mergeステートメントで、指定されたデータセットの最後のオブ、
ザベーションに対して, end=で、指定した変数 LASTOBS の値を 1
1こセットします.また,それ以外の
オブ干ベーションに対しては変数 LASTOBSの値に 0をセットします.
つぎに,展示 Iに示した頻度集計の結果とタイトルとラベルを, DDEを利用して, MS‑Excelの特
定のシート上へ出力します.このために,展示 3の SASプログ、ラム・コードを実行します.このプログ
ラムでは,タイトルとラベルも出力しています.実行結果を展示 4に示します.

.SASプログラム・コード 2
展示 3
optionsmissing= '
0
'
d
a
t
a̲Nl
J
LL
̲;
fi1
enameDDE
似
DDE 官 C
E
L
[[
B
ook1]Sheet1!r1c1:r品O
B
S
C
n
t
.c3" n
o
t
a
b
f
il
eD
D
E
O
u
t
‑
pDat ;
s
e
tS釦
i
f N = 1thendo
put '薬剤別有害症状の分布, •
put '症状名, '
0
9
'X '試験薬, '
0
9
'X '
対R
言葉'
end
p
u
tAeN '09'XC
n
t
1 '09'XCnt2 ;
r
u
n
optionsmissing= ' ,

展示 4
.SASデータセット SampDatを MS‑Excelへ出力した結果

2
. 2 データに依存して表の枠組を構成する
前節の方法でタイトルとラベJ~ と S八S データセット上(1) 値を出力した MS-[xcd (')シートに対して,

罫線を書き入れ支‑;)‑.:tた,文字(立[酉を指定しま‑')‑‑.ニラベバ部分は実線で1
I
1
J
iJ、ことにし支')‑.数値が

̲3
3一

40.
[beta]
出力される部分も実線で囲み,さらに縦方向に実線,横方向に細線を号│くことにします.文字位置は
中央とすることにします.このような罫線処理のための SASフ。ログ、ラム・コードを展示 5 に示します.
その実行結果を展示 6に示します.

展示 5
.SASプログ、ラム・コード 3
d
a
t
a N比 L̲ ;
S
Y
S
T
E
M
';
f
il
e
n
a
m
eD
D
E
S
Y
SD
D
E日 CELI
f
il
eD
D
E
S
Y
S;
p
u
t'
[
w
o
r
k
b
o
o
k
.a
c
t
i
v
a
t
e
(
"
[
b
o
o
k
1
]
s
h
e
e
t
1
"
)
]
';
p
u
t'
[
s
el
e
c
t(
"
r
2
c
1:
r
2
c
3
"
)
]
';
p
u
t'
[
b
o
r
d
e
r(
111
)
]
';
p
u
t'
[
aI
i
g
n
r
r
e
n
t(
3
)
]
';
p
u
t"
[
s
eI
e
c
t(
地q
u
o
t
e(
"
r
3
c1:
r
&
O
B
S
C
n
t
.c
3
"
))
]
";
1
,
1
,
7,
7
)
]
';
p
u
t'
[
b
o
r
d
e
r(
1,
p
u
t'
[
aIi
g
n
r
r
e
n
t(
3
)
]
';
r
u
n

putステートメントで,[J
'によって固まれた部分は ExceIマクロ関数です.展示 5では 4つの ExceI

マクロ関数を使用しています.workbook.activate は指定したファイルとシートをアクティブにします
(選択します).この ExceIマクロ関数は,次に登場する s
e
l
e
c
t,b
o
r
d
e
r,a
l
i
g
n
m
e
n
tとし、った E
x
c
e
Iマク
ロ関数の処理の対象となるファイノレ名とシート名を指定するもので、す.この指定を行なわなかった場
合,直前に選択されていたファイノレと、ンートを文操に処理が行なわれてしましぜす.
s
e
l
e
c
tはセルの範囲を選択します(反転します).この s
e
l
e
c
tも w
o
r
k
b
o
o
k
.
a
c
t
i
v
a
t
eと同様,指定を

行なわなかった場合,以降に出てくる Excelマクロ関数は直前に選択されていた範囲のセルを夫七象
に処理が行なわれてしまいます.
borderは先の s
e
l
e
c
tで選択された範囲を対象に,罫線を引く E
x
c
e
lマクロ関数で、す.
a
l
i
g
n
m
e
n
tは先の s
e
l
e
c
tで選択された範囲を対象に,セルの文字位置の指定を行なう E
x
c
e
lマク

ロ関数です.
ま
た
, Excelマクロ関数の引数には workbook.activateや selectのように,引数を"と"で囲む必要の
ある関数も相生します.このため putステートメントの外側を'と'で囲むと SASマクロ変数を利用する
ことができ支せん.かといって S八Sの putステートメントの外側を"と刊で、囲むと, Exeelマクロ関数での"
と・・が意図通1)(こ働きません.この問題を回避する方法が S八S マクロ関数の %bquote です.こ
ρ
の
{
η
y
〉
刈
官
%
l
州

算子など、の記号の意味をなく寸す‑{副動j
き
さが
治2
あり
t)ます.展示 50
刈b
q
l
l
o
t
eは E
x
c
e
l関数の引数に含まれる2
e

重引用符を文字のひとつとして扱うためのも(7)です.
いまの詞 [
1
月では2
. 1 節の展示 3 のフログご刀、を実行させてかiう展示 5 のフ lコ'ブヲムを実行;_~-.:;)と

aA守

つJ

41.

しましたが, 2つのプログラムは原則,どちらを先に実行してもかまいません.例外として, M S ‑ E x c e l の表示形式が「標準」の場合で, M S ‑ E x c e l側が自動で、「数値J として扱うような値,例えば 0 0 1などが 存在するときには, E x c e l関数を用いて,セルの書式設定を「文字列」に変えるなどの処理が必要に なります.このような処理はデータセット上の値を出力する前に,行なう必要があります. 展示 6 .展示 3のプログラムに続けて展示 5のプログラムを実行した結果 2 .3 E x c e lマクロ関数の代表例とその指定法 E x c e lマクロ関数はいろいろ用意されていますが,それらのうち,この節の目的からみて有用と考 えた5つを以下で涼召介します. ( 1 )p u t[ w o r k b o o k . a c t i v a t e ( [ファイル名]シート名 " ) J '; 出力先の M S ‑ E x c e lのファイル名およびシート名を指定します. E x c e lマクロ関数を利用し,罫線やセルの書式の設定を行なう場合は,処理の対象となるファイル 名とシート名および範囲を選択しなければなりません.この E x c e lマクロ関数はそれらのうちファ イル名とシート名を指定するものです.この指定を行なわなかった場合は,直前に選択されてい たファイルと、ンートを対象として出力されてしまいます指定の方法は, w o r k b o o k . a c t i v a t e としづ E x c e lマクロ関数名のあとに出力先に指定したい M S ‑ E x c e lのファイル名と、ンート名を円ど'で、囲み ます. E x c e lマクロ関数で、は,このタ守プ守ルクォーテーションで囲むことがよくあります.SASのテキ ストを出力するときなどとは違い,シング、ルクォーテーションで、の代用はで、きませんので、注意して ください. ( 2 )] lu t[ s e !e C lC 出力量包囲づ' J; 出力先のセ!レを選択します(反転し支す)• sekel とし、う Excl'!マクロ関数の;t勺とl こ,選択し〆たいセ!~ の範囲を"と刊で、囲み支す.範囲の指定を 行な〉ための s i I Jを展示 7 1こ示Lます. F ヘ υ つd

42.

展示 7 .セノレの範囲指定の方法 M S ‑ E x c e l で返討尺される事担週 1 1 子 B ' ! J 1 1 丁l 列から5 行5 7! J ま で l 行全部 ( r l c 1 : r l c 2 5 6 を指定したのと同じ) 列全部 ( r l c 1 : r 古5 5 3 6 c lを指定したのと同じ) l l 行l 列と3 行3 列まで 行l 列カミら2 1 ' J 2 列 ま でと5 7 1 "1 列から6 1T2列まで l 指定方法 put ' [ s e l e c t C r l c ( ' ) J ' put '[ s e l e c t( 午1 c 1・r 5c5")J ' put '[ s el e c t( ワ nJ' put '[ s el e c t( 、l " ) J ' put '[ s e l e c tC r 1 c 1,r 3c3")J ' put '[ s el e c tCr 1 c 1: r 2 c 2,r 5 c 1: r 6 c 2 " )J ' rの後ろの値は行数, cの後ろの値はカラム数を表しています. ( 3 )p u t[ b o r d e r(引数 1 ,引数 2 ,引数 3,引数 4,引数 5 ,…,引数 1 1 ) J '; 罫線を制御します. border としウ Excel マクロ関数のあとに,引数として O~13 までの数値を指定し,罫線の種類を選 択します.この Excel マクロ関数は引数 1~ 引数 11 まで 11 個の引数を伴います.そして各引数 は O~13 の整数をとり,この値が 13 手畠賓の線種に対応します.ここで、は一般的に利用されるヲ l 数 1~ 引数 5 をとりあげ,それらの意味を展示8 に示します.また,一般的に利用される 51 数の値 O~7 までの線種を展示9 に示します. 展示 8 .罫線を制御する引数の意味 展示 9 .罫線の線種 値l 0 1 なし 11 実 線 意味 引数l 甜尺した範囲の外枠に罫線を引く 引書包 趨尺した官巴園の各セルの左側に罫線を引く 引 蜘 組尺した量四の各セルの右側に罫線をヨ l く 引数4 甜尺した幸四の各セルの上保J I に罫線を引く 引数5 甜尺した範囲の各セルの下例に罫線を引く 線種 2 1太 線 3 1破 線 4 1 点線 5 1短 太 線 6 1二 電 線 7I細 線 ω , ω ( 心 4 1 ) pu 凶tt 官 [ 日f e l l l n a 託 t . f o n 叫 t C 牛 フオントとフオントサイズズを指定します. P f o n n at .f o n tとしづ E x c e lマクロ関数のあとに,フォント名を"と"で囲んで指定します.カンマで区切 x c e lマクロ関数は s e l e e t マクロ関数でセル ったあと,生年字で、フォントサイズを指定します.この E の選択を行なった範囲に対してフォントとフォントサイズを指定します. ( 5 )p u t[ a] i g nm e n t ( 引数 1 , 5 1数 2,5 1数 3, 5 1数 4 ) J・ ; 文字位置を指定します. aligIJ11l 8nt とし、う Excel マクロ関数のあとに引数 l では 1~7 の数値,ヲ l 数 2 で、は trlle または削se , 引数 3 では 1~3 の数値,引数 4 では O~4 の数値を指定します.引数 l~ ヲ l 数 4 の意味を展示 1O(こ要約します二 υ p h υ ︑ っ

43.

展示 1 0 .文字位置を指定する引数の意味 ヲl 数: 意味 引 数l 横位置の指定を 行なう 直 { 1 意味 引数3縦位置の指定 2 左詰 3 中央 右詰 引数4 文字の方向を 5 両嬬揃え 指定 4 6 7 ヲl 数 2 文字の折り返し ヨ l 数 処理の内容 標準 均等 趨F 、範閣内で中央 { 直 処理の内容 日 ロ l 上昔 2 中央 二 ロ 会 ロ 3 下 横書き 縦書き 2 下から上への横書き 3 上から下への横書き 。 反す T r u e セノLィ憶に合わせて折りi f a l s e 折り返さない 2 .4 DDE機能における留意点 DDE機能を利用するためには,出力先の M S ‑ E x c e lのファイルをあらかじめ開いておくことが必 LMW ︑ ︑ S ‑ E x c e lを使って他の作業を同時に行なうことはで、きないことに注意してくださ 要です.この場合, M • さらに, E x c e lマクロ関数を使うときには,出力先のファイルおよびシートを M S ‑ E x c e lのアプリケー ションの中で,アクティブ"(l番前に選択された状態)にしておかなければなりません. 3 . ODSを利用して, p d f形式のファイルを作成する 3 .1 ODSの登場 S A Sパージョン 6では S A Sによる集計などの結果を S A S以外のアプリケーションに出力する方法 は限られていました.このため, S A Sによる集計などの結果を, DDE機能を利用して, M S ‑ E x c e lの シートに出力する方法を2節で紹介しました. A Sパージョン 8がリリースされ,この新しし v . ; : ;ージョンで、 O D S ( O u t p u tD e l i v e r yS y s t e m ) ところで, S 機能が追加されました.この O DS機能を用しもと S A Sの出力結果を h t m l形式または p I c f 形式めフ ァイルに格納することがで、きます.あるいは,プロ、ンジャの出力結果を S A Sデータセットに出力する DSテンプレイトと呼ばれるものを基礎にしてい ことができます.これらふたつの機能は,いずれも O ます. 3 .2 プロシジャ固有の ODSテンプレイトのf 静E を得る ODSの導入によって各プロシジ γはそれぞれの ODSテンフUイトをもつようになりました .ODS テンプレイトは, o d sステートメントを使用して結果を S A Sデータセットに出力するときに必要になりま DSテンプレイトは,どのような形のデータセットなのか,とし、った情報を す.各プロシジャに固有の O ODSを利用して S A Sデータセットへ出力するときには必ず,どのテンプレイトを使う もっています . c l f形式などのファイルを作成する場合は S A S のかを指定しなければならなりませんただし, p υ J﹄ 円 ︑ っ

44.

Outputの出力をそのままファイルに出力するので ODSテンプレイトの指定は原則必要としません. 代表的なものとして, meansプロ、ンジャの ODSテンプレイト名は summalγ です.meansプロシジャ の ODSテンプレイトの情報を展示 1 1に示します. .meansプロシジャの ODSテンプレイトの情報 展示 11 1 *r r e a n s プロシジャ * 1 O ut p u tA d d e d : 名前 ラベル: テンプレート J、 ス S u 阿南町 要車揃計量 b a s e . s 叩 r n a r y M e a n s . S l . . I 1 1 T la r y 展示 1 1のような,プロ、ンジャの ODSテンプレイトの情報を得るために, o d st r a c eとし、うステートメ r a c eステートメントを使うことにより, lρg画面で、そのプロ、ンジャの情報を確認す ントを使います.odst ることができます. t a b u l a t eプロシジャの ODSテンプレイトの情報を Log画面に表示させるための SASプログ、ラム・コ ードを展示 12に示します.このプログ、ラムを実行したときに Log画面に表示される ODSテンプレイ トの情報を展示 13に示します. 展示 1 2 .o d st r a c eの指定方法 o d st r a c eo n p r∞ t a b u l a t ed a t aニ L i b r a r y . D a t 0 1; g eW e i g h tH ei g h t; c l a s sS e xA g eW e i g h tH ei g h t,S e x; t a b l eA r u n 出 5t r a c eo f f 展示 1 3 .o c l st r a c eを実行した時のLo g出力 O ut p u tA d d e d : 名前 ラベル データ名 パス・ T a b ! e T a b ! e1 R e p o r t T a b u ! a t e . R e p o r t .T a b l e 展示 12のプログラムのように,プロシ'ジャを使う前に, odstmceon として,情報を得るための処理 r a c巴 の開始を宣言します.次に情報を得たいプロシジャとステートメントを指定します.最後に odst ︒ 白 勺 J

45.

o f fとして,情報を得るための処理の終了を宣言します.これらのプログラムを実行したときの Log画 面の表示が展示 1 3になります.テンプレイト名は名前のところに記載されてしも T a b l eです. 3 .3 Tabulateプロシジャの結果を pdf形式のファイルに出力する ODS機能を利用して SASOutputを pdf形式のファイルとして入手します.このため,まず, ODS 出力のファイルをど、このフオルタ守になんとしづ名前で保存するかを指定します. odsp d f f i l e = 'パス名ファイル名.拡張子, つぎに,プロシジャを実行します.最後に ODSファイル出力の処理を終了させます. odspdfc l o s e; SAS Ou旬以を pdf形式のファイルに出力するためのプログラムを展示 14に示します.このプログラ ムにより得られた pdfの出力結果を展示 1 5に示します. 4 .SASプログラム・コード 展示 1 odsp d ff i l e=' C :¥W i n d叩 5¥T 凹 p ¥T a b u Ia t eの凶f出力.p d f ' a b u l a t ed a t a=L i b r a r y . D a t 0 1; p r∞ t g h t; c l a s sS e xAg eW e i g h t出 i g h t,S 回; t a b l eAg eW e i g h t出 i r u n o d sp d fc l o s e 展示 1 5 .展示 1 4のプログラムによる p d f出力結果 このようにして, L l b u l a t eプロシジャの結果が p d f形式のファイノレl こ出力されます.その内容は SAS 3 9一

46.

のR e s u l t sV i e w e rに表示されます.同時に, o d sp d ff i l e=で指定したフォルダに p d f形式のファイル e s u l t sV i e w e rは展示 1 4のプログラムなどを実行したときには必ず作動しま が作成されます.なお, R d f形式だけではなく h t m l形式や r t f形式の出力も同様の R e s u l t sV i e w e rに表示されます.印 す.p 刷したい場合は R e s u l t sV i e w e rで印刷を行ないます.あるいは保存したファイノレを,そのファイル形 式に関連付けされたアプリケーションで、開いて印刷を行なうことも可能です. 4 .おわりに SASによる集言明特庁結果のプリント出力に対して,正確さだけでなく美しさまで求められることが多 e c h n o l o g yの課題であり, S c i e n c eの課題とは異 いのではないでしょうか.美の追求は A比あるし、は T c i e n c eを盾にして美の追求を拒否するほどの集言明科斤でなければ, Artも なるはずです.しかし, S 追求すべきカもしれません.美はやはり魅力ですから. 学術論文で、は図表の「最適化」が期待されます.そのために,カラーの図表を受け入れる雑誌も 増えています.プロモウション資料で、は美しい図表が訴求力をもちます.臨床開発の仕事でも強調 したい部分では美しい図表,図表の最適化を追求したくなります.しかし,すべての図表で美を追求 することはあまりにも労力的で,ときに,結果の信頼性と対立します.プログラムの運営上も過度のカ スタマイゼイ、ンョン,過度の標準化は好ましくなし吃考えます.ここでは,プログラム実行結果の角特尽 を容易にするためにという範囲で,出力表の美を追求しました. 2節では DDEを利用して SASプログラム内で E x c e lに表を出力する方法を, 3節では ODSを利 d f形式のファイルを出力する方法を紹介しました.プログラミングの面で比較すると, ODS 用して p によるプログラムのほうが,簡便に作成することができます .3 節で紹介した頻度集計の結果を DDE で再現するプログラムは, ODSによるプログラムよりも長く,複雑になります. しかし, DDEによる E x c e l出力のほうが美しさや汎用性でまさります.ただし, ODSにはさまざまな オプ、ンョンがあり,これらを駆使すれば DDEによる E x c e l出力と遜色のない出力結果が得られるか もしれません.この面での追求は今後に向けて私らの研究課題です. この論文では図をとりあげませんでした.また,検定や推定のためのプロシジャからの出力をとり ASフ。口、ンジャはいろいろな応用場面を想定して開発されているために,特定 あげませんでした.S の場面で、結果を角帯肘ーるためには「読み替え」が必要です.これらの面で、の研究も私らの今後の課 題です. ‑4 0ー

47.

日本 SASユ ー ザ ー 会 (SUG1‑0) SAS/lntrNetソフトウェアを用いた進捗管理システムの実例報告 0西 川 明 宏 ぺ 酒 井 淳 子 ぺ J I I戸 美 由 紀 ぺ 粛 藤 明 子 ぺ 大 橋 靖 雄 叫 ・有限会社電助システムズ 1 吋 NPO法人日本臨床研究支援ユニット ・東京大学大学院医学系研究科 叫東京大学, NPO法人日本臨床研究支援ユニット 3 Theexamplereportoftheprogressmanagementsystem usingSAS/lntrNetsoftware ヘ J unkoS a k a i2 ,MiyukiKawad A k i h i r oN i s h i k a w aホ 事 事 口事 , A k i k oS a i t o '3, YasuoOhashi, Ph, D ホ4 3 'DENSUKESYSTEMSC o ., L td ., ホ 2JapanC l i n i c a lResearchSupportU n i t 事 ホ U n i v e r s i t yo fTokyoGraduateSchoolo fMedicine 3 U n i v e r s i t yo fTokyo,JapanC l i n i c a lResearchSupportU n i t 4 要旨 臨床試験における進捗情報は、関係機関内及び関係機関間での共用性が高い情報であると いえる。 SAS/lntrNet ソフトウェアを用いることにより、プラットホームにほぼ依存しない進捗情報 の配信が可能となる。 しかし、臨床試験の進捗管理方法は、試験毎に多岐にわたる。それぞれに応じた進捗情報管 理システムの構築は、非効率である。そこで、様々な臨床試験の進捗管理を可能とする汎用的な 進捗管理システムを同じく SAS/lntrNetソフトウェアを用いて開発した。 本稿では、研究者主導研究の支援を主な目的とした NPO法人日本臨床研究支援ユニットにお ける進捗管理システムの導入実例を報告する。 キーワード SAS/lntrNetソフトウェア,進捗管理システム 1.はじめに 研究者主導研究の支援を主な目的とした NPO法人日本臨床研究支援ユニット(代表:大橋靖 雄)において、臨床試験の進捗管理システムを構築したc 開発初期段階においては、 SAS/lntl'Net ソフトウェアを用いるかどうかとし、うことは流動的であっ たc しかしながら、インターネットを介した日本臨床研究支援ユニット外の各関係機関への進捗情報 配信としづ構想を実現化する為のテストケースとして、 SAS/lntl'Net ソフトウェアを用いた開発を開 始した。 2002年 5月現在は、日本臨床研究支援ユニット外への情報配信は未だ行っていないが、 日本臨床研究支援ユニット内のほぼ全てのマシンから、ブラウザを通して、進捗情報の閲覧が可能 となっている c また、既に 3つの臨床試験の進捗管理が行われている c 今後も、本システムによる進 捗管理は増えると予想される。問題点等も多く残るものの、総じて考察した場合には、成功事例と考 えることができる。[図 1]は、日本臨床研究支援ユニットにおけるシステム構成図で、ある 4 1 C

48.

[ 図 1] 日本臨床研究支援ユニットシステム構成 Webサーバ データサーバ S A S / l n t r N e tソフトウェア クライアント ( S A Sシステム導入) クライアント ( S A Sシステム非導入) 2 .進捗管理システムの機能紹介 本システムを紹介するにあたり、『管理者』と『ユーザ』の定義を明確にする必要がある c 本システム の特徴は、臨床試験毎に全く異なった進捗管理を行えるとしづ点である。このことは、逆に臨床試験 毎のマスタ設定を必要とする c 臨床試験毎のマスタ設定を行う担当者を本稿で、は『管理者』と表現する。『管理者』は、 SASシステ ムについての基本知識があることを前提に、本システムは開発された c ブラウザを通して、進捗状況 の把握、入力、帳票出力等を行う担当者を本稿では『ユーザ』と表現する。『ユーザ』は、基本的に SASシステムに関する知識を必要としない。 2 .1進捗管理事象の予定日の把握 本システムでは、進捗管理事象をイベントと呼ぶc イベントとは、具体的には、 iCRF回収」や「症例 等である c 管理者は、臨床試験毎に、予め、イベントとその予定日を算出する為 毎ロジカルチェック J の関連情報を登録しておく c 本機能は、管理者によって登録された情報を元に、症例毎にそのイベ ントの予定日を算出する。予定日を越えたにも関わらず、完了していないイベントには、ブラウザ上 で色を識別して表示することにより、ユーザに警告を発するコ イベントの予定日の算出方法は以下のとおりである。 i個のイベントを E (i)と示す。 E (i)の予定日と完了日を p (i 、 )D (i)と示すc また、 E (i)が、別のイ (j)の発生に伴い、その予定日が決定される場合には、 E (j) をE (i)の起点イベントと呼ぶ。 ベント E j=S (i)と示す。さらに、 E (S (i))から E (i )まで予定日数をL(i)とする c aA守 つh

49.

前記の定義に従うと、イベント E(i)の予定日 P(i)は、以下の式で示される。 E ( S (i))が完了済の場合(起点イベントが完了済の場合、つまり D(S(i))が有効な日付の場合) p (i)=D(S(i) )+L (i)ー・① E ( S (i))が未完了の場合(起点イベントが未完了の場合、つまり D(S(i))が欠損の場合) P (i)=P ( S (i) )+L (i)ー・② ( S (i ))を計算する c ②の場合、再帰的に P 前述の①及び②に従うと予定日 p(i)は、下記のように算出される c (表1) E (i ) S (i) L (i) D(i) P (i ) 2 0 0 2 ‑ 0 8 ‑ 0 1 CRF回収 2 モニターチェック 0 0 2 ‑ 0 8 ‑ 0 5 5 2 2002‑08‑06 ← 2 0 0 2 ‑ 0 8 ‑ 0 1の 5f l後 3 ロジカルチェック 0 0 2 ‑ 0 8 ‑ 1 2 1 0 2 1 2002‑08一1 ← 2 0 0 2 ‑ 0 8 ‑ 0 1の 1 0' 1 1 後 4 クエリー送付 3 D 7 2002‑08一1 ← 2 002‑08‑12の 5日後 D クエリー回収 4 1 0 2002‑08‑27 ← 2002‑08‑17の 1 0I 1後 以下の[図 2Jは、本システムの進捗一覧画面である c (表1)の D(i)と p (i)の列は、[図 2Jでは、 症例番号 l番の行のデータとして表示されている c [ 図 2J 進捗一覧画面 CRF回収 症例番号施設名担当医師名 青空病院山田夏雄 夕焼病院西本秋子 予定日 完了日 2 0 0 2 ‑ 0 8 ‑ 0 6 5 2 0 0 2 ‑ 0 8 ‑ 0 1 2 0 0 2 ‑ 0日 0 予定日 完了日 2 0 0 2 ‑ 0 8 ‑ 1 1 2 0 0 2 ‑ 0 8 ‑ 1 2 予定日 予定日 完了日 完了日 2 0 0 2 ‑ 0 8 ‑ 1 72 0 0 2 ‑ 0 8 ‑ 2 7 2 0 0 2 ‑ 0 8 ‑ 1 5 2 0 0 2 ‑ 0 8 ‑ 2 0 2 0 0 2 ‑ 0 8 ‑ 2 52 0 0 2 ‑ 0 9 ‑ 0 4 2 0 0 2 ‑ 0 8 ‑ 1 0 CRF回収 症例番号施設名担当医師名 モニターチェゥクロジ力ルチェゥククエリー送付クエリー回収 予定日 完了日 予定日 完了日 モニターチェゥクロジカルチェゥククエリー送付クエリー回収 予定日 完了日 予定日 完了日 予定日 完了日 予定日 完了日 2 .2進捗管理事象の完了日の入力 S A S / l n t R N e tソフトウェアを用いれば、サーノくからクライアントへの情報の配信に留まらず、クライ アン卜からサーバへの情報の入力も行うことができる c ユーザは、予め管理者が登録したイベントについての完了日の入力を行うことが可能である c ‑4 3一

50.

本システムは、ユーザ毎、さらには臨床試験毎に「更新権限」と「閲覧権限」の何れかを設定するこ とが可能であり、[図 3 ]は、「更新権限」をもっユーザの完了日の入力画面である c テキストボ、ックスに 日付を入力して一覧表保存ボタンをクリックすることにより、そのデータが SAS データセットに反映さ れる c [ 図3 ] 進捗一覧保存画面 i 症例番号:施設名担当医師名 CRF回収 膏空病院山田夏雄 クエリー送付白クエリー回収 予定日 予定日 予定日 完了日 完了日 完了日 完了日 完了日 2002‑08‑06 2002ー 0 8 ‑ 1 1 2002ー 0 8ー 17 ! 2 0 0 2 ‑ 0 8 ‑ 2 7 下 t モニターチェゥクロジ力ルチェゥク 予定日 1 2 0 0 2ー08ー0 1‑ 12002‑08‑05. : ! 2 0 02‑08ー12 1 i 予定日 1 5 2002‑08‑20 2002‑08‑25 : 2002‑09‑04 2002‑0 1 i f 一一…一一 r 一一一一一… i r‑‑…一一 12002‑08‑10 日 i 夕焼病院西本秋子 .‑‑:‑……一一一 一一一一一…ー CRF回収 ;症例番号(施設名;担当医師名 予定日 完了日 モニターチェゥクロソ力ルチェゥク 予定日 完了日 予定日 完了日 クエリー送付 i クエリー回収 予定日 完了日 l 予定日 完了日 一覧表保存 2 .3他システムのデータの取り込み 現実問題としては、管理する症例情報のいくつかは、他システムに既に存在する可能性が高い 3 例えば、症例登録時に別システムに入力した症例の進捗情報を把握するために、再度、本システム にその症例を登録することは煩雑な作業である。 そこで、管理者は、臨床試験毎に、本システムで使用する「症例番号」・「施設名」等の症例に関 する情報と iCRF 回収」等の登録したイベントの完了日が、他、ンステムで、使用するどのテーフずルのど、 し 、 SAS/ACCESS ソフトウェアが導入さ の変数にあたるかとし、うことを予め指定することができる c も れているならば、指定先のテーフツレは、必ずしも SASデータセットで、ある必要はない c [ 図4 ]は、他シ ステムのデータの取り込み概念図である c ユーザは、他システムから取り込んだデータを、あたかも本システムで管理するデータのよ うに、ブラウザ上で閲覧することが可能である。ただし、仙システムから取り込んだデータ を、本システムを月 jいて更新することはできない。[図 4 ]では、更新権限をもっユーザで、ログ、イ ンしているにも関わらず、 iCRF 回収」の完了日がユーザによって入力で、きなくなっているじこれは、 iCRF回収」の完了日を他システムカも取得している為である。 もちろん、本システムのみで全ての症例情報の管却を行う場合には、本システム独自に、 症例番号や施設名を入力、更新することも可能である。 A斗 a A斗 a

51.

[ 図4 J他システムのデータの取り込みイメージと本システムの設定 e 口 CRF回収 症例番号施設名担当医師名 モニターチェゥク口ジ 予定日 予定日 完了日 完了日 ブラウザ 2002‑08‑06 膏空病院山田夏雄 2002二泊ご白 夕焼病院西本秋子 2002‑0 日1 0 令 2002‑08‑15 本システム I 2 0 0 : 変換設定 その他のシステム 口 早 2 0 0 : i ー E 子 12002‑08‑05 1 2 0 C 表示タイトノレ 取得先データセット 取得先変数名 症例番号 DS~ COL l 施設名 DS1 COL2 十 E当医自市名 DS1 COL3 CRF回収 DS2 COL2 S A Sデータセット D S ̲ l COL3 一一一一惨 入力 S A Sデータセット D S2 COL2 山田夏雄 1I2002‑08‑01 西本秋子 2I2002‑08‑)0 2 .4様々な検索条件による症例の絞込み 本システムでは、絞り込み方法を大きく 2つに分類している。 一方は、進捗状況に無関係な、『症例情報による絞り込み』である c 症例番号による絞り込みや施設名による絞り込み等がこれに該当する。管理者は、検索条件項目 を、予め、臨床試験毎に設定することができるつ例えば、ある臨床試験では、「担当医師」による症例 の検索が必要になる可能性があれば、検索条件項目として、「担当医師」を登録しておくニ別の試験 では、「担当医師」による症例の検索は必要なければ、検索条件項目「担当医師」の登録は不要で ある。また管理者は、ユーザの検索条件入力をテキスト入力とするか、コンボ、ボ、ックス選択とするヵ、を 図5 Jは、「登録番号」のテキスト入力による検索、「施設名」のコンボボック 決定しておく必要がある c [ ス選択による検索、「担当医師名」のコンボボックス選択による検索が可能となるように設定を行った 一吋 υ Aせ

52.

例である c ユーザは、随時、必要な検索条件項目を入力もしくは選択して検索を行う。 他方は、『進捗状況による絞り込み』である。 これに関しての管理者による設定事項はない。進捗状況による絞り込みでは、ユーザは、対象と なるイベントとそのイベントの完了・未完了、予定日の期間、完了日の期間の何れかを指定する(未 完了のイベントの場合、完了日の期間は指定できなし、)c 例えば、対象となるイベントを iCRF 回収」 とし、「未完了」で、「予定日が昨日以前」のデータを抽出すると、 CRF回収が遅れている症例を抽出 できることになる c また、対象となるイベントを iCRF回収」とし、「完了」で、「完了日が一週間前から 本日」のデータを抽出すると、一週間以内に CRF回収が行われた症例を抽出できることになる。対 象となるイベントを指定せずに、「未完了」で「予定日が咋日以前」のデータを抽出すると、進捗が遅 れてしも症例全てを抽出することになるご また、 2つに分類された検索方法『症例情報による絞り込み』と『進捗状況による絞り込み』は、同 時に指定することも可能である。様々な検索条件の組み合わせにより、多くの要求に耐えることが可 能となっている。 ] 検索条件入力画面 [ 図5 [ 盈扇l言語j-;:~よる語韮み 進捗情報による絞込み 表示列 γ一一一一一一一一‑‑‑‑蚕福喜一一石戸因究 i 登録番号 !施設名 i 医至高百ヨ i 担当医師名戸百宣荏ヨ ゴ i味完了, ICRF回収 : : 11 K 予定日 1 ) , 1 施設名 ヨ I : : : J‑: l f s当医師名 i l ‑ ‑ ‑ E 竺亘堕ヨ][1Bヨ‑ j i l ゴ i 完了, I 条件ちし ド予定日 │モニターチェック │ロジカルチ日り l i E j二 言 目 )1 ーヨ「寸「ヨ I一 一 ヨ I : : : Jγー ヨ ド完了日 ) 1 ーヨ「ーヨ「ーヨ I 1ーヨ「ーヨI:::J I 恒一村正当 長 : 72 r 霜高了ーヨ 進捗情報表示 11ページの表示症伊l数同市ちヨ 進捗一覧読み取り専用問弓 条f 特別ア j 2.5進捗状況等の帳票印刷 進捗管理に必要とされる帳票は、臨床試験毎に多岐にわたることが予想されるこ標準的な印刷レ イアウトを実装するのは、難題で、あった。 そこで、本システムに帳票レイアウトを実装することは断念し、その代わりに、管理者が作成したレ イアウトを本システムに取り込む機能を実装したc 管理者が、予め、帳票レイアウトとそのレイアウト上に出力変数名等を指定した M i c r o s o f tE x c e l ‑4 6一

53.

のシートを準備し、それを本システムに登録することにより、様々な帳票出力が可能となった。さらに、 帳票出力の前準備として、 SAS フ。ロク、、ラムを起動で、きる機能も本システムに実装した。ユーザがブラ ウザ上で、出力する帳票を選択し、印刷ボ、タンをクリックすることにより、本システムは、管理者作成の SAS フ。ログ、ラムを実行する そのプロク、ラムによって作成されたデータセットと、管理者によって作成 C された帳票レイアウトを本システムが関連付けながら読み取る c そして、本システムは、目的とする帳 票を M i c r o s o f tE x c e lフ、ックとしてサーパ内に出力する c ユーザは、出力された M i c r o s o f tE x c e lブーツクをタ ウン 0‑1 ,"することがで、きる O ダウンロード したも J のをクライアント側の M i c r o s o f tE x c e lを用いて印刷する c 臨床試験毎に、帳票を登録するとしづ作業は、手聞がかかる c その反面、臨床試験毎に設計がで きるとしづ自在性を持つことができたと考えられる c [ 図6 J 帳票出力のメカニズム ー ロ ブラウザ 帳票出力要求 ~L聞→一一 S A S / l n t r l i e tソフトウェア 1 l i c r o s o f tE x c cI 管理者作成レイアウト │ │実行 1 S A Sデータセット ダウンロード 要求帳票 2 .6進捗状況等の加工・集計・グラフ表示 進捗状況の加工集計内容も、帳票と同様に臨床試験毎に多岐にわたることが予想される c そこで、帳票と同様のメカニズムと同様に、管理者の作成する SAS プログラムを本システムに取り 込む機能を実装したc つまり、管理者が SASフ。ロク、、ラムを用いて作成した SASデータセットや SASグ ラフをブラウザに表示することができる c なお、管理者は作成する SAS プロク、、ラムを作成するに当た って、殆ど SAS/lntrNetソフトウェアは意識する必要はない。 4A古

54.
[beta]
ユーザは、管理者の作成した

[7
] グラフ出力例

SASフ。ログ、ラムは意識することなく、

完了量生の推移

加工データセットやク守ラフを閲覧
完了数

することができる c さらに、ユーザ
は表示された加工データセットに
対して、フーラウザ上からクロス集計
を行うことができる c クロス集計部
分は、本システムに実装されてい
る機能であり、管理者がプログラ
ムによって作成する必要はない c
クロス集計部分には、 OOS機能を

ラ勺ヤイ;~)_'-,~

.
.
(
)
.‑
<
'
1

::(:',-il--{!.'.; 寸 ~Î

?\):.~:/)-:

利用している。

[7
]は全てのイベントが終了した症例の数の時系列推移グラフを出力した例である。

3
. 日本臨床研究支援ユニットにおける利用状況
20025月現在稼動中の進捗管理についての概要を(2)で示す。

(2)
臨床試験名

A

C

B

目標症例数

50

1200

300

登録イベント数

1
4

45

5
1

指定可能な検

整理番号,施設名,

登録番号,1i包設名,科名,責任

登録番号,施設名,責任医師名 J
旦当

索条件項目

科名,責任医師,担当

医師名

医師名

!
{
C名
医師, C
2

出力帳票数
主な出力帳票

主な集計機能

症例別進捗一覧表

イベント終了状況

1
2

5

進捗状況一覧(施設へ送付)

CRF従 1
1
¥
1時期通知票(h包設へ送付)

未回収 C
RF一覧

C
!F提出管促主主(施設へ送付)

進捗状況集計表

j
.!t捗状況覧(施設へ送付)

イベント終了状況

イベント終了状況

官促中症例覧

J
l
i
.
斉症 i
i
9
J
一覧
管i

,

(2)からもわかるように、試験毎に多くの役割を担っているとし、ってよいであろう c

日本臨床研究支援ユニットで、運用を行うことにより、発生した問題点で、現在来だ改善されてレな

‑4
8
55.

しものには以下のものがある c ①完了日を数字で入力するのが面倒である ②マスタの設定が面倒で、ある ③汎用的な為、逆に個々の試験では使いにくし、部分がある ④イベント数と症例数が多い場合、検索による絞込みを行わず、全ての症例を表示すると、レス ポンスが悪くなる c lv ︑ ①については、今後、完了日の一括入力モジュールを作成するなどの方法が取れるカもしれな ②と③については、汎用性を持たせた裏返しの結果である c 汎用性を縫持しつつ、少しでも②と ③の問題点を排除するように改善してゆかなければならない。 ④については、現在改良中である c SASプログラムの改良と、ハード面で、のボ、トルネックとなってい る部分の調査を行っている。 4 . おわりに 前章からもわヵ、るように、問題点もまだまだ残っている。本システムは、さらなる改善の必要があ るc 開発開始当初より、本システムは、スパイラル型の開発フ。ロセスを取っている スパイラル型の開 η 発プロセスは、「要求」、「設計」、「実装テスト」、「評価」を繰り返す開発手法である勺この手法は、開 発期間が短い状況においては、システムテストが不十分になりやすい為、非常に不安定な開発手法 である c しかし開発期聞が十分に取れる場合において、最も、ユーザ要求を受け入れやすい手法で ある c 今後も、上記のスパイラルに従い、本システムをよりよりものにしてゆくことが望まれる c 進捗管理は、臨床試験の本質ではないが、臨床試験を成功させる為の大きな要素である c それ ゆえ、進捗管理には、多くの時間を費やす c しヵ、し、それにも関わらず、結果的に予定通りに進まないことがあるとすれば、その一因として、進 捗情報が一元化されていなかったとし、うことはないだろうかコ個々が進捗管理に時間を費やしていな がら、それぞれが、別の進捗情報を元に管理していたとしづ経験はないだろうかc 進捗を一元的に管理し共有することには大きなメリッ卜がある c チーム内での一元化と共有、部門 内での一元化と共有、社内での一元化と共有、協力会社間での一元化と共有、臨床試験関連者全 4 9ー

56.

てでの一元化と共有と進むにつれて、その臨床試験の成功の可能性が大きくなるとし、っても過言で、 はないのではないだろうか。 本システムを用いることにより、少しでも臨床試験の成功が近くなればよいと考えている。 また、本、ンステム開発によって蓄積したノウハウが、到来間近であろう ROC主流の時代に少しでも 貢献できることを期待する。 [参考文献] (l)fSASによる Web配 信 j,SASインスティチュートジャパン ( 2 ) I S A Sシステムヘルプ j(オンライン), SASインスティチュートジャパン (3)100S初級 j,SASインスティチュートジャパン Fhd ハHU

57.

日本 SASユーザー会 (SUG1‑0) PROC KDE及び PROCDISCRIMによる 分布の重なり具合 (OVL)の推定 奥山ことば 寓有製薬株式会社 臨床医薬研究所臨床統計部 E s t i m a t i o no fO v e r l a p p i n gC o e f f i c i e n t(OVL ) U s i n gKDEProcedureandDISCRIMProcedure Okuyama,Kotoba o o r d i n a t i o n,C l i n i c a lDevelopmentI n s t i t u t e, B i o s t a t i s t i c s& DataC BANYUP h a r m a c e u t i c a lC o . .L t d . 要旨 弔戎 1 0年 8月に I C H ‑ E 5r タ恒韮鯨データを受け入れる際こ考膚すべき民婦世田こついての撮七がi 動時れた。 以上に標準 現在までに外国臨未テ」タとの崩以│投開面するための様々な借十軒が提案されてし、るが、視瀞宙利E 自弘、手出土柄主してし、ない。そのような中、嘉数動態データの期以「齢評価轄として、 2群間の分布の壷より具合 J ιo 礼は直横切こ瑚孔やす ( O V L )をノンパラメトリックな方法宏郎、て推定することが対語・拠出]によって提案され く、 O~l で規摘出れてしも捕葉で、:あり、期以全を評価する良し、捕素であると考えられる。そこで、本初移民、は正勝怖 (等分散、不戦齢を仮定した場合及びノンパラメトリックな方法(カーネル密度推泡を用し、た場合i こっし、て、 PROC KDE及び PROC0おC R L v lを郎、て OVLを算出できることを示す。また、 2つの調釘背コ淵以性を詞町する際こ荷剣間 でのサンフ。/レサイズが大きく異なることがしばLば開基となるが、その防コ O礼の描百?調こつしても梅拾情。更 に、主要変動 2 複紛〉る場合は、それら変動コ司粉布における壷切具合が興劇コ対象となる。そこで、柿閉穴、は多 変 量 へ の 槌 肪J 設示すと共l 、 こ 2変量司粉布の0¥ ιの推定キ鞍の様相号。 キーワード OVL、KDEプロシジャ、 DISCRIMプロシジャ、カーネル密度推定、平滑パラメータ Ver .8より新しく KDEフ。ロシジャとしづノンパラメトリックな確率密度の推定方法の 1つで、あるカーネル関 数を使った密度推定が実施で、きるプロシジャが登場した。 KDE プロ、ンジャで、は N o r m a l カーネルを採用 壬意の平滑ノ fラメータを指定で、き、 2 変 量 し 、 4つの平滑パラメータ(バンド、幅とも呼ばれる)の推定方法と f まで、のカーネル密度推定が行える また、 Ve r .8以前より D I S C R II vIプロシジャでは、多群、多変量に対す O るカーネル密度推定が行え、任意の平滑パラメータに対する 5つのカーネル関数が選択で、きる。 l節では、 OVLの概念および定義式を簡単に述べる。 2節では、 l変量における 2つ の 分 布 聞 の OVL 推定方法を密度推定において正規分布と仮定したパラメトリック法と分布を仮定しなしリンパラメトリック法 について簡単に説明する。更に、ノンパラメトリック法で、用いられるカーネル密度推定を KDEフ。口、ン、ジャ I S C R l t v lフ 口、ン、ジャを利用して推定する方法を示す。 3節では、 S t i n ea n c lH e y s e [ 1 2 ]が行った4つ および D G しの推定精度の検討を行う。 4節では、ブリッジングて、よく問題とな の設定における数値計算において OV るサンフ。ルサイズ、の違いが大きい場合の OVL の推定精度について、正規分布で不等分散の場合につ いて評価する。 5節では D ISCRlivIプ口、ンジャおよび KDEフ。口、ンジャを利用した OVLの 多 変 量 へ の 拡 張 方法を示し、 2変量における OVLの推定精度について正規分布を仮定した場合の評価を行う。最後に 6 節でまとめを行う。 υ ‑ ﹁ l

58.

1.OVしとは OVL( O v e r l a p p i n gC o e f f i c i e n t )とは、分布の重なりの程度(重なり具合)を表す指標である。概念は非 常に理解しやすく、図 lの 2つの分布 (f( x )とg(X))が重なっている部分を定量化したものである。ょっ て 、 OVLの定義式は以下のようになる。 f 0比 = min[f(x), g ( x ) ] d x f( x ) I ¥ 〆ーーヘ'‑、 f(x)とg(x)が完全に離れて分布している場 合は、 OVLは 0になり、 f(x)とg(x)が完全に 一致する場合は、 OVL は lとなる。つまり、 OVL は 0~1 の値をとる規準化された統計量 である。また、単調な変数変換に対して、 OVL は不変であるとしづ性質が知られている。 図 1 OVLの概念、図 最近、この OVLを分布の類似性の評価指標 として用いることが提唱されてきている。真の分布を正規分布引反定したパラメトリックな OVL の推定に ついてはさまざま研究されてきているが [ l J [ 2 J [ 6 J、ノンパラメトリックな OVLの推定については、 S t i n ea n d 0 0 1年に初めて提唱されたc更に、日本においては大橋・水野 [ 4 Jによって、薬物 H e y s e [ 1 2 Jによって、 2 動態学的ノ fラメータのブリッジングの評価指標としてノンパラメトリック法による OVLを用いることが 2 0 0 2 年の 1月に提案された。 2 .1変 量 に お け る OVL 2 . 1 正 規 分 布 に お け る OVLの 推 定 (1¥ラメトリック法) 本節では、 2群とも正規分布で等分散、不等分散の場合について OVLの理論値を示す。これらの計 EANSプロシジャ、 DATAステップ。を用いて簡単に計算できるため、 S A Sのプログラムは割愛す 算は、 M る 。 2 .1.1等分散の場合 2つの正規分布が等分散の場合の OVLの理論値は、以下のように求められる。 刈 0比 = 2 φ ( ‑ 1 μ f ‑ μg/ 1 ここで、 xf~N( μ['σ 2) , Xg ~N(ι , 0 2 ) であり、 φ(・)は標準正規分布の分布関数である cμf , Pg, σユに 5 (5は 2群をプールした標準偏差)を用いる c 最尤推定値王f'王g, 2 .1 .2 不 等 分 散 の 場 合 2つの正規分布が不等分散の場合における OVLの理論値は、 2つの分布が 2点で交わるため、場合 分けして求めるため、以下のような式となる。 OVL=φ( ( xf‑.Llf) / σ f)+φ ( ( Xg‑! lg ) /σg) ‑ φ( ( Xf‑Pg) / σ g)‑φ(( 九一 μf) / σ f)+1 ここで、 xf~N( μ f' σ ;) , Xg~N(!lg' σ~) であり、 X f, Xgは以下の式で与えられる値である。 (Xf , Xg)=(σ;σ~rlkLl f σ;v;)±σfOg { ( μ f‑Pg) ニ+2 ( σ g σ;) l o g ( σg/σfy 2J 等分散の場合と同様に、 μf 'σ;, Pg, σjとして最尤推定値云f, 5 , g, 5g(5 , fX f 5gは各群の標準偏差)を 用いる。 2 . 2 カ ー ネ ル 密 度 推 定 に よ る OVLの推定(ノンパラメトリック法) 2 . 2 . 1 カーネル密度推定とは / nとなる)密度関数を全 カーネル密度推定とは、観察された 1つ 1つデータが中心となる(積分すると l F ︑υ ム つ

59.
[beta]
ての観測値に当てはめ、 xにおけるそれらの確率密度の和(重ね合わせ)を行ったもので、ある C 定義式
は次のようになる c

j
(
x
)= 土す ~K(三二三)
/
l伺 z
I ¥z
I )
ここで、 K(y)はカーネル関数、 z
Iは平滑ノミラメータで、 x
;は観測値である。下図に、 ‑
2、1、2の 3つデ
ータに、 N
o
r
m
a
lカーネルで、平滑ノ fラメータを 1とした場合のカーネル密度推定の {
f
l
Jを示す c
0
.
3
0

寸

0
.
2
5
0
.
2
0
0
.
1
5
0
.
1
0
0
.
0
5

。

0
.
0
0

‑
6

‑
2

4

2

4

6

図 2 カーネル密度推定の例(横軸 :
x、縦軸:密度)
一般に、カーネル関数の種類は密度推定に与える影響は,J
、さいとされ、平滑ノ〈ラメータの与える影
響は大きし,、ことが知られている。色々な平滑パラメータを当てはめて、適切なものを推定すれば良いが、
平滑パラメータを大きくする程、 OVLが大きくなってしまう問題がある(正規分布を仮定したように滑らか
2
J
cこの方法で
な分布に近づくと OVしが大きくなり、分布によっては OVLの過大評価になってしまう)[1
はさ、意的に平滑パラメータを選択で き OVLを大きくすることができるので、信頼'生に欠けてしまう 従っ
て、平滑パラメータの算出方法や決定方法の詳細を事前に規定しておくべきである c そのようなことから、
事前に決めたアルゴリズ、ムにより最適な平滑パラメータを決定する手法が必要となってくる c
r

次に、 f
(
x
)の推定量として f
(
x
)の良さを評価するために、二乗誤差 SE(Square E
r
r
o
r
)を考える す
C

なわち、

SE=
{
f
(
x
)‑f
(
x
)
}ー
であり、図 3における線分の 2乗となっている この期待値は、平均二乗誤差 MSE(恥!
e
a
nSquare E
r
r
o
r
)
ζ

と呼ばれるものである。 j(x),
"xの.v
!SEは
、

MSE=Er[
{
f(
x
)‑f
(
x
)
}ー
)=V
a
rr[
f(
x
)
J+{
B
i
a
sr[
f(
x
)
Jγ
であり、 f
(
x
)の分散と B
i
a
s(偏り)の 2乗の和であることが分かる c 更に、 xの全域での MSEの和をとった
もの (x について積分したもの)は、平均積分二乗誤差lv!ISE
(
i
v
l
e
a
nl
n
t
e
g
r
a
t
e
c
l Square E
r
r
o
r
)で
、
あ
り
、 n→∞とした場合の漸
近 的 刈 ISE を A¥![SE(Asymptotic ¥
;
!
e
a
nl
n
t
e
g
r
a
t
e
c
l Square
E
r
r
o
r
)としづ c この AMISEを最小化する平滑パラメータについて
議論されることが一般的である。
)
1
(

l
r

‑バ
/

)
r

lE
=
[
岩
手

図3 f
(
x
)とf
(
x
)の誤差

ここで、 R(g)=fg'(x)dxである。採用するカーネル閣数が決ま

σ
;は算出することができ、 R(f")のみが推定の対象となる

れば R(K),

G

︑
っ
υ

60.
[beta]
2
.
2
.
2 平滑パラメータの推定方法
SNR法 (
S
i
m
p
l
eNormalR
e
f
e
r
e
n
c
er
u
l
e
);hSNR
5
真の分布 fを正規分布とした場合の R(
f"
)(=3/(8.
J
;
a ))を、IzA.lflSEの式 (
1)に代入して得られる

平滑パラメータである。その推定値は以下のように書ける。

8
五
…,リ = r
.
J
;
R(
K
)(
'
1‑
一
一
一
一
一
一
I 011
h

山

I

3σ~

I

特に、 Normalカーネルを選択した場合 (R(K)=(
2.
J
;
)六σ:=1)は、五日R =o[4j(3n)
Y
5となる c こ
こで、

dは fの標準偏差の推定値である c データが正規分布の場合には、最適な平 j
骨
ノ fラメータを与える c
OS法 (Oversmoothedbandwidth
2
;hos
Oversmooth な平滑パラメータは、様々な性質のよい分布に対する平滑パラメータの上限値でAある c
特に、 Normalカーネルを採用した場合の平滑パラメータは以下の式から推定される。

刈/ イ

(
7
0
'
;
;
;
'
I
zOS =
この平滑パラメータは正規分布のような性質のよい分布においては、非常に推定精度が高くなるが、特
徴が多くある(凸凹が多くある)分布の場合は平滑化しすぎてしまう傾向がある。
SROT法 (
S
i
l
v
e
r
m
a
n'
sR
u
l
eo
fThumb
2
;I
zSROT
S
i
l
v
e
r
m
a
n(
l9
8
6
)
[
1
1
Jが見いだした経験的な平滑パラメータてーあり、以下の式により推定される。

Iz附=0
.
9minla,
邸
/
l
.
34}
1
‑1/5
ここで、 dは標準偏差の推定値であり、 IQR(
ln
t
e
r
Q
u
a
r
t
i
l
eR
a
n
g
e
)は Qj‑Q
l(
3番目と l番目の四分位
点の差)の推定値である。 S
t
i
n
eandHeyse[
1
2
Jで用いられた方法は、 '
;
S
.
Y
R=
o
[
4
j
(
3
n)
Y
5
の a(分布の
バラツキの尺度)iこ minla,
取/1.34J
を採用し、問 Eプロシジャで採用されているものと異なる。
Sl
P
l法 (
P
l
u
g
‑
i
nf
o
r
m
u
l
ao
fS
h
e
a
t
h
e
randJ
.
ones2
;I
zp1
S
h
e
c
川l
e
r andJ
.
ones[10Jによって考案された方法で、 I
zA.
I
I
庇の式(1)の R(
f
"
)の推定値 R(
f
"
)を

R(
f
"
)!こよって推定する方法の 1つである。 S
J
.
P
l 法では、 f
"もまた平滑パラメータ aA.¥fISEのカーネル
関数によって推定される。詳細は Sheatherand]
o
n
e
s
[
1
0
J、その評価については Parkand¥
1arron[
5
J、
]
ones e
t
.a
.
l[
3
Jを参照されたし、。 KDEプロシ、ジャでは対数スケールでL等間隔のグリッド・での hAMISEの式
(
1
)の方程式を解き、最適な平滑パラメータを見出す。このように R(
f
"
)を推定する問題において、現

在のところ最良の方法とされている。
2
.
3KDEプロシジャと DISCRIMプロシジャを利用した OVLの 算 出
2
.
3
.
1 KDEプロシジャ
KDEプ口、ンジャでは、 1群ごとに 2変量までの Normalカーネル関数を用いた密度推定を行える c また、
平滑パラメータは 4つの推定方法から選択でき、更に任意の平滑パラメータも指定できる(詳細な指定
1は、変
方法は付録 3を参照)。以下に KDEプロシジャを利用して OVLを求めるプログラム例を示す c d
(群:1、2
)、v
a
l
(標準正規乱数)からなるデータセットで、 g によってソート済とする。平滑パラメータの
数 g
推定方法は SNR法を用いた。

‑AT
F﹁d

61.
[beta]
/女各若手の密度推定値(この場合一 l、 2) に区間
幅 0.12=(6‑(‑6))/100を掛け、全区間に対し
小さい方の和をとって OVLを求める。*/

プ
ロ
グ
ラ
ム
{
:
7
"
i
J1
げ OVL を算出する際の積分範囲である -6~6 を

100区間に分け、各グリッドにおける密度推定値
densityをデータセット testに格納する。*/
proc kde data=d1 method=snr
gridl=‑6 gridu=6 ngr工 d=101
out = test;
by g
;
var val;

data d2;
set test1 end=eof;
keep ovl;
retain ovl 0
;
if ̲n̲=1 then ovl=O;
f=̲1*0.12;
g=̲2*0.12;
ovl=ovl+min(f.g);

/*グリッドごとに密度推定値を並び替え*/
proc sort data = test; by val;

if eof then output;

/*密度推定値 dens工tyを転置*/
proc transpose data=test out=test1;
by val;
var density;
id g;

/*出力*/
print data = d2; var ovl; run;

2.3.2DISCRIMブ。ロシジャ
DISCRIM プロシ、ジャの本来の機能は判別分析であり、多群、多変量の場合にも対応している。判別

分析においては、推定密度値より事後確率を算出して、事後確率が最大となる群に判別される。このた
め、分布の密度推定の機能を有しており、更にテストデータ(将来のデータ)に対する密度推定値をデ
ータセットとして保存することができる。この機能を利用すると、テストデータを積分するグリッドごとに作
成することで OVLの算出に必要な密度推定値を得ることができる(詳細な指定方法は付録 3を参照)。
I別法に関連)、
更に、分布の推定方法として、(多変量)正規分布で等分散を仮定する場合(線形半J
(多変量)正規分布で群問で不等分散を許す場合(二次判別法に関連)の密度推定を行える。従って、
確率密度関数を用いて理論的に OVLを計算することが困難な場合でも、パラメトリック法に基づく OVL
の計算は可能となる。更に、カーネル関数を利用したノンパラメトリック法を行うことも可能である c 以下
に、ノンパラメトリック法を使用する際の KDEプロシジャとの差異についてまとめた c

3変量以上に拡張できる。
Normal カーネルの他にカーネル関数を密度関数に限定する場合は最適と言われている
Epanechnikovカーネル関数が利用できる(他にも Biweight/Triweight/Uniformカーネノレがある)c
KDEプロ、ンジャは Ver
.8以降から利用できるが、 DISCRIMフ。口、ンジャは Ver.6.12等でも利用可

能
。
また、 DISCRIM フ。ロシジャの欠点としては、多変量の場合の平滑パラメータ行列を求める際に、共分
散行列に掛ける係数が変量問で同ーのものしか指定できないことである c 真の分布が多変量正規分布
であるような場合や、 2変量で、のバラツキが同程度で、あれば精度よく推定が行えるが、多変量分布が歪
んでいたり、多峰性の場合は推定がうまくし、かないことがある (Wandand]ones[13])。
平滑パラメータの指定方法 (R=a)
平滑ノミラメータの決まった指定方法はないため、計算した結果をマクロ変数などに格納し、 R=オプシ
骨パラメータの係数を共通 (
h
;=aa;,
I=12
)とする場合は、
ョンとして指定する必要がある。各群で平 i

R=αとして問題ないが、共通でない場合 (
I
z
;=
a
;
a
;,
i=
12
)は
、 DISCRI¥I!フ。口、ンジャを 2回実行する必
要がある。つまり、 R=引を実行し、群 1の密度推定値のみを採用、次に R=引を実行し、群 2の密度推
定値のみを採用するという少々煩雑なものである。また、 h;=b,
I=12のように標準偏差を用いない場
合は、事前に標準偏差で害I
1
った値 b/aを指定するか、 METRIC=IDENTITY(a=1とする)として bを指
定する必要がある c 多変量の場合、 METRIC=IDENTITYは共分散行列を単位行列としてしまうため、使
用する際には注意が必要である。
F町
υ

ヨ
︻

62.

SASのマニュアル [ 8 Jには、 1つの規準として真の分布を正規分布として Normalカーネルで、推定する 方 法 (SRN法)が掲載されている。この平滑ノ fラメータの算出式は、 Uniformカーネル、 Normalカーネル、 Epanechnikovカーネルに対してのみ与えられているが、 1変量の場合は付録 2 (こ与えた係数を Normal カーネルの最適な平滑パラメータに掛けることにより、求めることができる。また、 I くOEフ。ロシジャで、提案 されている平滑パラメータを計算し、付録 2の係数を掛けたものを OISCRIMプ口、ンジャで、様々なカーネ ル関数に利用することも可能である。 以下に、パラメトリック法による密度推定値を求めるフ。ログラム例とノンパラメトリック法としてのカーネ ル密度推定値を求めるフ。ログラム例を示す。データセット d 1は 、 KOEプ口、ンジャでのフ。ログラム例と同 様のものである c パラメトリック法は正規分布で等分散の場合で、ノンパラメトリック法は Normalカーネル を使用し、 SNR 法の場合である (OVL の算出する部分は KOE プロシジャのプログpラム {~j を参照)。 勺 ‑ ι ︐ . 1ム n u y rb b ︐ i!. + L 叶+し A o ︐ 10n ︑ ‑ru t‑ P 54L+し e 円︑u t oむ AU a hde プログラム例 2(ノ 《 ラ メ ト リ ッ ク 法 ) ブ 。 ロ グ ラ ム 例 3(ノンパラメトリック法) /ヰ SNR; 去を適用するために、 /*密度推定値を得たい x 軸の値を発生 ‑6から 61 グリッド数 101なので区間幅は 0.12とする*/ I 計算値をマクロ変数 rに格納本/ data nu11 r = (4/3/100)**(1/5); ca11 symput(' r ',r); /*Norma1カーネル、 SNR; 去の場合、 distance、 method=npar、kerne1=norma1、r=&r、 poo1=noと指定。*/ proc discrim data=d1 test=test testoutd=test1 method=npar kerne1=norma1 poo1=no distance r=&r; c1ass g ; var va1; run; /*テストデータに対する密度推定値を格納する データセットは testoutd=で指定する。正規分布 で等分散の場合は method=norma1、poo1=yes と指定する。*/ proc discrim data=d1 test=test testoutd=test1 method=norma1 poo1=yes distance; c1ass g ; var va1; run; 3 .数 値 計 算 I KOEプロシジャおよび OISCREv!フ。ロシジャを用いて、 S t i n eandHeyse[ 1 2 Jによって行われた数値計 算での OVLの推定精度 ( B i a s ;真値との差)の数値計算を行った。これらの数値計算から得られる考察 t i n eandHeyse[ 1 2 Jにおいて詳細に行われているので参照されたい。そして、その結果に については S 基にブリッジング試験でユ問題となる様々な条件に対して検討を行った。 3 . 1 数値計算の条件 設 定 1(正規分布で等分散で平均値が 2群で異なる場合) 2群の分布を N ( 0 . 12)および N ( μ, 1 : ! ) ; μ = 0、0 . 2 5、0 . 5、l、2とし、サンプルサイズを 100/群した。密度 の推定方法は、正規分布で等分散および不等分散における OVLの理論値 (OATAステップ)、正規分 布で等分散および不等分散の密度推定の後、積分を行って OVLを求める方法 (OISCRI' v ! フρロシジャ)、 U n i f o r m、Normal、Epanechnikov、B i ¥ ¥ e i g h t、T r i w e i g h t )と2つ ノンパラメトリック法で 5つのカーネル関数 ( 、 SROT法 ;SROT法は KOEプ口、ンジャで求められるものと若干 の平滑パラメータの推定方法 (SNR法 1 2 Jと同様に SNR法の標準偏差の部分に mlnド 邸/1.34J を代入した方法を用いた)の 異なっており、 [ 組合せ (OISCRlivIプロシジャ)、ノンパラメトリック法て;, Normalカーネルを用いて4つの平滑パラメータの 推定方法 (SNR法 、 SROT法 、 OS法 、S J P I法 )(KOEプロシジャ)を用いた。また、繰り返し回数は 1000 回、積分におけるグリッド数は 1 0 1、評価指標は 1000回の数値計算による B i a s(推定値 真値)の平均 値と標準偏差とした。 (正規分布で平均値は同じで分散が異なる場合) 設定 2 2群の分布を N ( O, および N ( O . σ e ) ;0 = 1 .2、 1 .5、2 . 3、5 . 7とした c 他の条件は設定 1と同じ。 n p n v

63.

設定 3 (正規分布と混合正規分布の場合) 2 2 2 2群の分布を N ( 0, 1 ) および混合正規分布 ( p N ( 0, 1 ) + ( 1 ‑ p )ぷ( 2, 2 );混合割合 p0 . 9、0 . 8、0 . 7、0 . 6、0 . 5 とした。他の条件は設定 1と同じ。 二 設 定 4(混合ベータ分布と混合ベータ分布の場合) 2群の分布を混合ベータ分布 ( O .7 B ( 7, 2 ) +0 . 3 B ( 2, 7 ) )および混合ベータ分布 ( p B ( 7, 2 ) + ( 1 ‑ p ) B ( 2, 7 ) ) ;混 合害J I合 p = 0 . 7、0 . 6、0 . 5,0. 4 、0 . 3としたc 他の条件は設定 1と同じ c [ 1 2 Jと同様に、データに対して自然対 数変換を行い、闇値を一∞ ∞と変換後に OVLを求めた(単調な変数変換に対する OVLの不変性)c 設定5 (色々な平均の差における分散比と B i a sの関係の検討) 2 群の分布を N(0 , 1 2 ) およびぶ (μ ,。 2);μ=0~3(0.5 刻み)と σ=1 ~1. 5(0.02 刻み)の組合せに対して、 サンプルサイズ 1 0 0 /群で、繰り返し数を 1 0 0 0回とし、等分散と不等分散で推定したときの OVLの B i a s の平均値を求めたc 3 . 2 結果と考察 設定 1~4 の結果は [12J の精度を再現できたc [ 1 2 Jとほぼ同様で、特に新しい結果を得なかった表につ I 愛する c また、 E p a n巴c h n i k o vカーネルと B i w巴i g h tカーネル、 T r i ¥ ¥巴i g h tカーネルはほぼ同様の値 いては害J であったため、 E p a n巴c h n i k o vカーネルの結果のみ示すc 更に、設定 5の一部のグラフを図 4 (こ示す c まず、 パラメトリック法(理論式)と DISCRIMプロシ、ジャで正規分布を指定した場合は、全ての設定において、ほ ぽ同様の値を示した c また、カーネル関数の種類はカーネル密度推定にはあまり関係ないとし、うものの U n i f o r mカーネルは若干他のカーネルより推定精度が落ちることがわかる c SJPI 法は設定 1~3 までは、 他の平滑パラメータより偏りが小さかったが、二峰性の混合ベータ分布の場合は、偏りが大きかったc 次に、ブリッジングに適用する際の考察を行うごここでは、 OVLの推定値が 0 . 8以上であれば、 2試験 . 8付近の推定精度を特に考察する。 OVLを用いて類 問の類似性を認めると仮定した、 OVLの真値が 0 似性の評価を行う場合、 OVL の計算方法と共に、その判断基準の設定が重要となると考える。設定 1の 也の手法でも比較的精度が良い。設定 2 場合は、正規分布で等分散のパラメトリック法が最適で あるが、 f の場合は、正規分布でL不等分散のパラメトリック法が最適、次にノンパラメトリック法が良い c 設 定 3では、 等分散のパラメトリック法が最適であった C これは、分布の形状が正規分布に類似しており、 2群の平均値 の差が標準偏差の比に対して大きかったためと考えるご順にノンパラメトリック法の精度が良く、不等分散 のパラメトリック法はかなり過小評価される c 設 定4の場合は、やはりノンパラメトリック法の精度がよかった。 このような二峰性の分布の場合は、 2つの分布の重ね合わせである可能性が強し、ため、類似性を議論す る前にその構造の解明が必要となろう c このような分布に遭遇した場合は、ノンパラメトリック法を使用する ことを推奨するが、 S J P I法の使用には注意が必要である。 また、設定 5(図4 )から判るように、標準偏差の比に対して平均値の差が大きい場合は、等分散性を仮 定したパラメトリック手法でLも十分な推定精度が保たれているため、常に等分散を仮定することが悪いと 言うことではない。 L ︑ 戸 2 表 1N ( O, 1 2 )と混合正風分布 p N ( O, j 2 ) +( l‑ p ) N ( Z, 2 ) における OVLの B i a sとSD I 比日ム口宝ロJ Ii ' 口 J "n μ 0 . 9 0 . 8 0 . 7 0 . 6 0 . 5 O Y Lの真値 O .8 9 2 O .8 3 8 0 . 7 8 4 0 . 9 4 G O .5 a s S O s i a s S O Bi a s S O s s i a s S O si i a s S O 0 . 0 1 00 . 0 5 1 0 . 0 0 1' 0 . 0 5 00 . 0 1 5~0.049 ‑ . 0 1 0 0 . 0 4 9 正規分布(等分散) ‑ 0 . 0 2 00 . 0 4 5 0 0 . 1 1 7 0 . 0 ; ) 2‑ 正規分布(不等分散) . 1 1 4 0 . 0 5 9‑ 0 . 1 2 30 . 0 5 6‑ 0 .1 0 60 . 0 4 8 0 . 0 9 00 . 0 5 9 0 5 1 0 0 .0 2 7~O. 0 . 0 2 50 . 0 4 9 0 1S C R I M( N o r m a1 ;S R OT ) ‑ 0 . 0 5 80 . 0 3 4 0 . 0 3 9: 0 . 0 4 1 ‑0.0320.048 ‑ 0 . 0 3 8: 0 . 0 4 2 0 O I S C R I M ( E p a n e c h n i k o v ; S R O T )‑ 0 . 0 5 70 . 0 3 5‑ . 0 3 20 . 0 4 9 0 . 0 2 8' 0 . 0 5 2‑ 0 . 0 2 6 0 . 0 4 9 D I S C R I M ( U n i f o r m ; S R O T ) . 0 3 9; 0 . 0 4 4‑ 0 . 0 3 40 . 0 5 1‑ 0 . 0 3 10 . 0 5 3‑ 0 . 0 2 9 0 . 0 5 0 0 . 0 5 G0 . 0 3 5 0 0 . 0 4 9 0 . 0 3 3, . 0 2 70 . 0 4 7 K D E( ' 10r m a1 ; S N R ) ‑ 0 . 0 5 80 . 0 3 6 0 . 0 4 4: 0 . 0 4 4‑ 0 . 0 4 00 . 0 4 8 0 ‑ O . O( j j (0 . 0 3 4‑ 0 . 0 : l 4: 0 . 0 4 6 0 K O E ( N o r m a l ; S R O T ) . 0 2 8: 0 . 0 5 0 0 0 . 0 4 50 . 0 4 0‑ . 0 2 40 . 0 4 8 . 0 4 4, 0 .0 4 4‑ . 0 3 4' 0 . 0 4 9 0 0 . 0 4 10 . 0 4 8 0 . 0 2 8' 0 .0 4 6 K O E( N or m a1 ; O S ) 0 . 0 5 50 . 0 3 7 0 . 0 3 00 . 0 4 6 0 . 0 2 2 0 . 0 5 0‑ 0 . 0 1 8' 0 . 0 4 9 K D E ( i i o r m a l; S J Pl ) 0 . 0 6 20 . 0 3 6‑ 0 . 0 4 10 . 0 4 2 0 υ

64.

表 2 混合ベータ分布 0 . 7 B ( 7, 2 )+0 . 3 B ( 2, 7 )と 混合ベータ分布 p B ( 7, 2 ) +( l‑ p ) B ( 2, 7 )における OVLの B i a sとSD 混合割合 p o .7 o .6 o .5 0 . 4 0 . 3 o .9 0 7 0 . 8 1 4 o .7 2 1 o .6 2 8 O V Lの真値 O Bi a si S B i a s S O Bi a s S O Bi a s S O Bi a s S O ‑ 0 . 0 4 6: 0 . 0 3 40 正規分布(等分散) . 0 1 8[ 0 . 0 4 70 . 0 4 9 : 0 . 0 5 60 . 0 7 0 : 0 . 0 5 90 . 0 8 9: 0 . 0 6 1 ‑ 0 . 0 6 3: 0 . 0 3 50 正規分布(不等分勝 . 0 0 6 : 0 . 0 4 50 . 0 4 1 : 0 .0 5 40 . 0 6 6 : 0 . 0 5 80 . 0 8 7: 0 . 0 6 0I OISCRIM(~ormal;SROT) ‑ 0 . 0 7 8: 0 . 0 3 4 0 0 . 0 0 7 0 . 0 6 0 0 . 0 2 3 , 0 . 0 6 4 . 0 1 3' 0 . 0 4 8 0 . 0 1 8 ' 0 . 0 6 3 0 1S CR I ¥ !( E p a n e c h ni k o y ;S R O T )0 0 . 0 1 3 : 0 . 0 5 0 0 . 0 1 7 : 0 . 0 6 4 . 0 7 60 . 0 3 6 0 . 0 0 6 0 . 0 6 1 0 . 0 2 3 0 . 0 6 4 0 .0 10~O. 0 5 10 . 0 1 2 , 0 . 0 6 10 O I S C R I M ( U n i f o r m ; S R O T ) ‑ 0 . 0 7 5: 0 . 0 3 8‑ . 0 2 6 : 0 . 0 6 40 . 0 3 3: 0 . 0 6 5 K O E ( N o r m a l; S N R ) ‑ 0 . 0 7 8: 0 . 0 3 1 0 . 0 1 4: 0 . 0 4 60 . 0 2 0 [ 0 . 0 6 20 . 0 0 8 : 0 . 0 5 90 . 0 2 6: 0 . 0 6 2 K O E ( N o r m a l ; S R O T ) . 0 2 0; 0 . 0 4 70 ‑ 0 . 0 8 7: 0 . 0 3 3 0 . 0 0 2 0 . 0 6 0 0.013ι0.063 0 . 0 1 8: 0 . 0 6 4 K D E( N or m a1 ; O S ) ‑ 0 . 0 7 5' 0 . 0 3 1 0.0110.047 0.0110.058 0 0 . 0 6 20 . 0 2 3 , . 0 3 1 : 0 . 0 6 2 K O E ( N o r m a l; S J P I ) . 3 0 8 : 0 . 4 4 10 0 . 2 1 0 ' 0 . 6 3 40 . 2 0 5 : 0 . 5 1 40 . 2 1 8 : 0 . 4 2 30 . 4 1 1 : 0 . 4 5 4 一差 一占由﹂ 一の 一均 一平 ﹁111L 0 . 2 0 平均値の差 =1 0 . 1 5 0 . 1 0 0 . 0 5 0 . 0 5 0 . 0 0 ‑ 3 1 ‑0.051.00 1.10 一o : 0 5 1 r f r d・ L │ 一0.10 一 一 一 一 0 . 2 0 0 . 2 0 0 . 1 5 0 . 1 5 0 . 1 0 0 . 1 0 0 . 0 5 0 . 0 5 U 円 ‑ nU4l Fhunu 一一 ‑ 0 . 1 0 I 0 . 0 0 nu‑‑ z nunu ー nv;Ilil‑ ‑ 0 . 0 0 平均値の差 =3 0, 3 )に対する分散比と OVLの B 図4 平均値の差 ( 2, 1, i a sの関係 実線:正規分布で等分散、破線:正規分布で、不等分散 4 .数 値 計 算 E 次にブリッジング試験でよく問題となる 2試験問におけるサンプルサイズの違いの影響について数値計 ρ 4 Jでサンプ ルサイズの減少による OVLの評価も 算を行い、 OVLの精度について考察を行う。大橋・水野 [ 行っていたので、ここでは、正規分布で平均値は等しいが、分散が異なる場合について評価を行ったc 4 . 1 サンプルサイズが異なる場合 e ) ;a= )および N ( O, 2 . 3 1とし、推定方法としてはパラメトリック法(等分 l 2群の分布を N(O, 1 .228, 1 .5 1, a2 散/不等分散の正規分布)、ノンパラメトリック法 (Normal カーネノレ(DISCRIM;SROT 法 、 KDE;SNR 法 、 SROT 法 、 OS 法 、S 2 0 : 1 2 0 ( 1 : 1 )、 J P I 法))を用いた 繰り返し回数は 2000 回、サンプルサイズ(比)は 1 3 υ o o ︑ ︐

65.
[beta]
1
2
0
:
6
0
(
2
:1
)1
2
0
:
3
0
(
4
:
1
)1
2
0
:
1
5
(
8
:1
)6
0
:
6
0(
1
:1
)6
0
:
3
0
(
2
:1
)6
0
:
1
5
(
3
:1
)3
0
:
3
0(
1
:1
)3
0
:
1
5
(
2
:
1
)1
5
:
1
5(
1:
1
)とし、積分のグ リッド、数は 5
1とした。評価指標は数値計算 Iと同様に OVLの B
i
a
sの平均値と
標準偏差である c

42 結 果 と 考 察
.
8付近の結果についてのみ考察する(3
;a=1
.5
1の場合)c
本計算結果についても OVLの真値が 0
通常の 2群聞の差の検定などにおける傾向と同様であったため、他の結果は害I
1
愛する。サンプルサイズ
の比が大きくなるか、サンプルサイズの減少と共に偏りが大きくなる c また、バラツキも大きくなっており、推
定精度が低下する c 平滑ノ fラメータについては、サンプルサイズ、の減少と共に OS法
、 SNR法が SROT法
、
S
J
P
I 法に比して偏りが小さかったが、これは真の分布が正規分布であるためで、常にこの関係、が成立す
.
3
1(真値が 0
.
9
0
10
.
6
1
7
)の場合も同様のことが観察された c
るわけではない c 標準偏差が1.22823N
(
O,1'lおよびぷ (
0,
a'
)
;a=
1
.5
1の場合の
サンプルサイズ、が異なる場合 (
n
l
:2
)における OVLの B
i
a
sとSD(OVLの真値;0
.
9
0
1
)
1
2
0
:
6
0
n1
:n
2
1
2
0
:1
2
0
1
2
0
:
3
0
1
2
0
:1
5
S
D
B
i
a
s
S
D
B
i
a
s
B
i
a
s
B
i
a
s
S
D
S
D
.1
3
9 0
.
0
4
4 O
正規分布(等分散)
O
.1
5
6 0
.
0
3
0 O
.1
L
i 0
.
0
6
4 O
.0
7
8 0
.
0
8
8
0
.
0
0
7 0
.
0
5
20
.
0
1
1 0
.
0
2
4 0
.
0
7
9
.
0
6
7 0
正規分布(不等分散)
0
.
0
0
5 0
.
0
4
30
.0
2
4 0
.
0
5
5 O
.
0
6
9 O
.0
5
8 0
.
0
8
3
.0
3
8 0
D
I
S
C
R
D
I
(
¥
'
o
r
m
a
l;
S
R
OT) 0
.
0
1
2 0
.
0
4
6 ‑
K
D
E(
N0r
m
a1;
S
N
R
)
.
0
4
6 O
.0
2
0 0
.
0
5
5 ‑
0
.0
3
4 0
.
0
6
8 O
.0
5
3 0
.
0
8
3
0
.
0
1
1 0
‑
0
.
0
1
4 0
.
0
4
7 O
.0
2
2 0
.
0
5
6 0
.
0
3
5 0
.
0
6
9 0
.
0
5
6 0
.
0
8
3
m
a1;
S
R
OT)
K
D
EG
i0r
0
.
0
1
9 0
K
D
E
G
i
o
r
m
a
l;
O
S
)
‑
0
.
0
1
0 0
.
0
4
6 ‑
.
0
5
5 ‑
0
.
0
3
4 O
.0
6
8 0
.
0
5
3 0
.
0
8
2
K
D
E
(
N
o
r
m
a
l;
S
J
P
I
)
‑
0
.
0
1
2 0
.
0
4
9 0
.
0
2
2 0
.
0
5
8 ‑
0
.
0
3
8 O
.0
7
0 0
.
0
6
3 0
.
0
8
5

6
0・6
0
6
0
:
3
0
6
0
:1
5
3
0
:
3
0
3
0
:1
5
1
5
:1
5
l
l
i
a
s
S
D
S
D
B
i
a
s
S
D
l
l
i
a
s
S
D
l
l
i
a
s
B
i
a
s
S
D
l
l
i
a
s
S
D
.
0
8
9 0
.1
1
3 O
.0
6
2 0
.
0
7
9 0
.
0
8
8 O
.1
1
4 0
.
0
6
2 0
.
0
7
9 0
.
0
7
8 O
.0
8
7
O
.1
3
8 0
.
0
4
5 O
0
.
0
1
5 0
0
.
0
2
7 0
.
0
7
1 ‑
.
0
8
4 O
.0
2
2 0
.
0
7
9 ‑
0
.
0
3
5 0
.
0
9
1 ‑
0
.
0
5
0 O
.1
0
4
0
.
0
1
0 0
.
0
6
0 ‑
0
.0
3
4 O
0
.0
5
4 0
0
.
0
3
3 0
.0
7
2 ‑
.
0
8
6 ‑
.
0
8
0 0
.
0
5
4 O
.0
9
0 ‑
0
.
0
6
0 O
.1
0
3
0
.
0
1
9 0
.
0
6
2 ‑
0
.
0
3
3 0
0
.
0
5
2 0
.
0
8
6 O
.0
3
3 0
.
0
7
9 0
.
0
5
3 0
.
0
9
1 0
.
0
6
3 O
.
0
7
2 ‑
.1
0
3
‑
0
.
0
1
8 0
.
0
6
2 ‑
0
.
0
5
9 0
.
0
8
7 0
.
0
4
5 0
.
0
8
0 ‑
0
.
0
6
6 0
.
0
9
1 0
.
0
8
2 O
.1
0
4
0
.
0
3
9 0
.
0
7
3 ‑
‑
0
.
0
2
5 0
.
0
6
3 ‑
0
.
0
5
1 0
0
.
0
3
0 O
.
0
9
1 0
‑
0
.
0
1
6 0
0
.
0
3
2 0
.
0
7
2 ‑
.
0
8
6 ‑
.0
7
9 O
.0
5
0 0
.
0
5
8 O
.1
0
3
.
0
6
2 ‑
0
.
0
4
5 O
0
.
0
4
0 0
0
.
0
6
4 0
.
0
8
9 ‑
.0
8
4 ‑
0
.
0
7
0 O
.0
9
3 ‑
0
.0
8
7 O
.
0
7
5 ‑
.1
0
9
‑
0
.
0
2
4 O
.0
6
5 ‑

5
. 多変量における ov
し
主要変数が複数ある場合、それら変数の同時分布における重なり具合 (
OvUが興味の対象となる c 例
えば、薬物動態学的パラメータの AUCと Cmaxの同時分布によって 2地域聞の類似性を評価することは、
各パラメータを独立に比較する場合に比べて、より厳密な比較となるであろう c 以下では、 OVL 推定の多
変量への拡張方法と 2変量における数値計算を行い、 2変量における OVLの精度について考察を行う c
5
.
1 多変量への拡張
多変量における密度推定関数を以下に示す。

/(x)=‑Lykp[H一I(X‑Xi)]

n
J
J
H
J
Jf
:
t

ここで、川 =1ム

スは p 次元ベクトノレ、 H は平滑ノミラメータ行列 (
pxp)て
:
'1判│は H の行列式の絶

日LK(Xl)とし、

x)=
対値である。更に、カーネル関数は、各変数におけるカーネル関数の積 K,, (

ト

H =z
IA、IA 1とする。 1変量の場合と同様の考え方で、多変量における AMISEは以下の式となる c
R(K) .z
14 1"
AMISE=一一一+ム i
{trace[AA'V2f(
x
)
]
} dx
I
ll
z
"
4J
ゐ

66.

ここで、 v2f ( x ) ; j=云告よである。 5 .1.1多変量における平滑パラメータ行列の選択 )/2であり、 p が大きくなると推定するパラメータ 平滑パラメータ行列 H での異なる要素の数は p(p+1 数は大変多くなるため、 H{ こ制約を加えたものを考えることが一般的である。 H= z II 各変数に対して独立に同ーの平滑パラメータ z Iを採用するものである。各変数が独立に分布しており、 データの尺度が類似しているとき(標準化後の値など)に有効である。 H =d i a g ( l z p h 2, . . , I z I ' ) 各変数に対して独立に別々の平滑パラメータ hl, 1 z2, . . ,z 11'を採用するものである。各変数が独立に分 布している場合に最適である。 2変量の場合、独立に平滑パラメータを指定すると、ロバストで、あることが l9 9 3 ) [ 1 3 ] )。 わかっている(Wanda n d] o n e s( H= z lof ̲ 1 /2 データの共分散行ヲJ j Lを採用するものである。一般に「データの球状化」と言われており、データを線 z o Iにより平滑化を行い、その後に逆変換してデータの尺 形変換して共分散行列が単位行列にし、 H =l 度に戻すことと同じである。データが多変量正規分布に従っている場合に最適である。i¥o r m a l カーネル / 1 4 / ( p+2 ) )1 / ( 川 Jf ̲I/2/ 1 ‑ I / (p‑4J 2 1 ‑ 1 /6である c を使用した場合の最適な H は ( となる。特に、 2変量の場合は、ま / 特別な場合として、f̲1/こを対角化した H= z Io d i a g ( 主1/2)を使用する場合もある。これは、各変数が正規分 布に従っており、変数同士が独立と見なせる場合は最適となる。 5 . 2 2変量における OVL 5 . 2 . 1 DISCRIMプロシジャ 1変量におけるパラメトリック法で OVLを求める理論式は明示的に求められたが、多変量におけるパラ メトリック OVLを理論的に求めることは難しい場合が多い。しかしながら、 DISCRIMフ。ロシジャにより多変 量正規分布の密度を推定できるため、その推定値からパラメトリック OVLを求めることは容易である。 Var ステートメントに変数を追加するだけで、後の指定方法は l変量の場合と同様である。 ノンパラメトリック法で=あるカーネル関数を用いた密度推定においては、平滑パラメータを任意に指定 できるが、一般に用いられる平滑パラメータ行列は、ivIETRIC= オプ、ンョンを使用することにより、簡単に指 定できる。但し、変数ご〉とに平滑パラメータを個別に指定することはできない。以下に、平滑ノ fラメータの 指定方法を示す。 H= z II; H=z IO主1 / 2. METRIC=IDENTITYを指定、 R=オフ。ションで、任意の値 z Iを指定c y!ETRIC=FULL( テ フォルト)を指定、 R= オフ。、ンョンで 任意の値Iznを指定 共分散行夢j J c 3 zとして群をプールした共分散行例 (POOL=YES)または群ごとの共分散行列 (POOL=NO)が指定できる。 H =z Io d i a g ( 主1 / 2 );METRIC DIAGONALと指定する以外は、 H =I z ( え1 / 2での指定方法と同じ 二 U n i仕om、N o r m a l、E p a n e c h n i k o vの場合の H=l z of ̲/ l こにおける最適なIzoは 、 SASのマニュアル参照 [ 8 J 5 . 2 . 2KDEプロシジャ KDEフ。口、ンジャでは 1群での 2変量までのカーネノレ密度推定をサポートしており、平滑パラメータの指 定方法は、 SNR法と変数ごとに任意の平滑パラメータ値を指定する方法の 2つが利用できる c 6 0

67.

H=d i a g ( z 11, 1 12) ; B W: V ! = 1 z1, l 12と任意の平滑ノミラメータ 1 z1, l 12を指定 H =n‑l /r ' d METHOD=SNRと指定c これは、多変量正規分布の場合に Normalカーネル を使用した場合の AMISEを最小化する最適な平滑ノミラメータ行列を対角化 6 した H = diag(iI/2) n ‑1 / である。 3 数値計算 E 5. 2変量正規分布の場合のパラメトリック法とノンパラメトリック法での OVL の推定精度を検討するため、 数値計算を行う c 以下に設定条件を示す。 設 定 1(2変量正規分布で 2群で共分散行列は同じだが平均ベクトルが異なる場合) 2群の分布を ¥(0, 0, 1 九1 , "0 . 8 )および ¥ ( μ ,μ, 1 ", 1 ", 0.8);μ=0.25、0. 45、0 . 7 5、0 . 9 5 とした。ここで、 2 N (μl'的 ,0 ト イ ,p)は、平均ベクトノレ (μl'Pュ)、相関係数 ρの各標準偏差 ( σ 1.o~) の 2 変量正規分布で ある。密度の推定方法は、パラメトリック法(多変量正規分布で等分散、不等分散)、ノンパラメトリック法 (~ormal カーネル、 Epanechnikov カーネル、し;niform カーネル (DISCRIM プロシジャで平滑パラメータは H =z Io まれを最適化するパラメータを採用)、ト: o r m a l カーネル(1く DE プロシジャで S¥R 法; O /d H =n‑1 i a g ( i1 / : . ) ) )とした。繰り返し数は 1 0 0 0回、グリッド数は 5 1x5 1とした。評価指標は数値計算 I、 Eと同様に OVLの B i a sの平均値と標準偏差である c 設 定 2(2変量正規分布で' 2群でL平均ベクトノレは同じだが、共分散行夢J Iが異なる場合) 2群の分布を ¥(0, 0, 1 ", 1 ", 0 . 8 )および ¥ ( 0, 0,σ : : 0', "0 . 8 ) ; σ 二 l、1 . 1 5 4、 1 .293、1 . 5 3 7、 1 .727とした。推定 方法、サンプルサイズ、繰り返し回数、グリッド数、評価指標は設定 1と閉じ c 5.4結果と考察 数 値 計 算 の 結 果 を 表 4、5に示す。共分散行列が等しい場合においては、 DISCRI¥i!プロ、ンジャで、多変 量正規分布とプールした共分散行列を指定した場合の偏りが一番小さヵ、った c 1変量の場合と比べて精 度が低くなった。また、共分散行列が異なる場合においては、 DISCRI¥! フ。口、ンジャで、多変量正規分布と プールしない各群の共分散行列を指定した場合の偏りが一番小さ泊、った。この場合、プールした共分散 を指定した場合を除いて、どの推定方法においても l変量で、の精度よりかなり低くなった 部 分 的 に 500/ 群を実施してみると、パラメトリック法で、は精度が l変量と同様であったが、ノンパラメトリック法で、は若干精 度が低下しているごこのとき、 i くDEブ《口、ンジャの S¥R法では、パラメトリック法に近い成績が得られた c なお、実際のデータのバラツキを汗liiIi する方法として B o o t s t r a p法の適 が提案されている [ 1 2 J。各 1 洋におけるサ 作カ、ら復元 1 1 1 1 1 ! ¥( m r Uを許して 1 1 1 1 1 !¥)し、そのブートストラップ。標木における ンブ/レサイス、と同じサンプルサイズを各 i OVI.を算出する。この作業を 1 31 1 1 1繰り返す。そして、以下の式カ、ら OVLの推定以の標準誤差を求める。 3 m 払 SE ム / 1 バ 川 ' 八 〔 こ こ で で 、 、 OVL ,; とは各ブートストラップ。燃本における OVL の推定値である。多変!止の場合も同慌であるが、必要とな る 13 は附加することが予想される。データの隙 n 1i 誤差を求めるには 13=50~200 (パーセント点で ß=1000~2000) 程 度必要とされている。 OV しの推定で必.~となる 13 については、本研究で、は検討を行ーっていないので、割愛する。 e 表1 : 2変 1 , ( JUM 分 イi lN ( O, O, l , 1 九0 . 8 )および2変 . l t ! . : I E規分イi lN ( μ ,μ, 1 e, 1 三0 . 8 ) ; 1 I= 0 . 2 5、0 ., 1 . 5 、0 . 7 、 五0 . 9 5における OVしのl3i a sとSD( n1 0 0 ) 二 o O .2 5 0 . 4 5 O .75 " O .9 5 0 0 . 8 13 : ¥1の真値 O .8 9 5 O .6 9 3 0 . 6 1 7 B i a s S l l B i a s S l l B i a s S D B i a s S D Bi a s S D ‑ 0 . 0 7 1 O . O : 1 7‑ 0 . 0 1 50 . 0 5 1‑ 0 . 0 0 70 . 0 5 4 0 t 正規分布(等分間 2変E . 0 0 40 . 0 5 4‑ 0 . 0 0 3' 0 . 0 5 3 0 .I O S0 . 0 : 3 5‑ 0 . 0 4 00 . 0 4 4‑ 0 . 0 2 20 . 0 5 1‑ 0 . 0 1 20 . 0 5 3‑ 0 . 0 0 90 . 0 5 2 2変量正規分布(不等分i 加 ‑ 0 . 0 8 80 . 0 3 4 0 D I S C R I ¥ I ( ' : o r m a l;S~R) 一O .1 7 : 30 . 0 2 8‑ . 0 4 80 . 0 4 1 0 . 0 1 40 . 0 4 70 . 0 0 0 0 . 0 4 8 Il ISCRIM(Eplincchnikov;S~R) 0 . 1 5 : 30 . 0 2 9 0 . 0 7 1 0 . 0 3 6 0 . 0 : 3 : 30 . 0 4 2 0 . 0 0 1 0 . 0 4 70 . 0 1 3 0 . 0 4 8 DISCRI~(lniform;SNR) 0 . 2 0 80 . 0 2 7 O .1 2 1 0 . 0 : 3 : 3 0 . 0 7 70 . 0 4 0 O . O : 1 7O .日4 7 0 . 0 2 1 0 . 0 4 8 l 1 l i l1 ; S i i R ) ‑ 0 . 1 4 1 0 . 0 2 9‑ 0 . 0 6 20 . 0 3 8‑ 0 . 0 : 3 00 . 0 4 G O K D E( i i or . O O G. 0 . 0 5 10 . 0 0 3 0 . 0 5 2 / 1 ρhU

68.

2 表 5 2変量正規分布 N ( O, O, 1 ヘ1 , 0 . 8 )および 2変量正規分布 N ( O, O, 0 2, 0 2, 0 . 8 ) ; 。寸、 1 . 1 5 4、 l .293、 l .537、 1 . 72 7における OVしの B i a sとSD( n = 1 0 0 ) 1 .1 5 4 1 .5 3 7 1 .2 9 3 1 .7 2 7 o .895 0 . 8 1 3 0.693 0.617 B i a s !S D B i a s S D B i a s IS D B i a s iS D B i a s iS D . 0 3 4 ;0 . 0 3 7 0116iO037 0.236,0.037 0 2変量正規分布(等分散) . 3 1 2 10 . 0 3 6 ‑0.07110.037 0 0 . 0 1 3 ! 0.047 ‑ 2変量正規分布(不等分布切 ‑ 0 .1 0 8 !0 . 0 3 5 0 . 0 4 2 '0 . 0 4 3 0 . 0 2 4 !0.047 ‑ 0 . 0 1 0 i0.045 0 . 0 9 4 ;0 . 0 3 6 0 D[ S CR I ¥ I ( i ¥o r r n a1: S~ln ‑ 0 .1 7 3 i0.029 ‑ 7 '0 .047 0 0 . 03 . 0 2 9 '0.047 . 0 6 1 i0 . 0 4 3‑ . 0 4 5 ‑0.030 0.048 ‑ 0 . 0 4 9,0 0 . 0 2 4 10.047 0 .1 5 3 '0.029 ‑0.078 0.038 ‑ D1 S C R1 ¥ 1( E p a n e c h ni k o v :S l i l l . ) ‑ 0 . 0 5 6 : 0.047 ‑ 0 . 0 4 5 :0.047 D IS CR I ¥ I ( U ni f o r r n :S I I l l . ) ‑ 0 .2 0 7 !0.030 ‑ 0 .1 2 6 '0 . 0 3 6‑ 0 . 0 8 8 '0 . 0 4 1 ‑ . 0 4 8 ‑0.019:0.052 ‑0.013,0.050 K D E( N or r n a1: S N R ) ‑ 0 . 1 4 2 '0.029 一0 . 0 6 6 '0.040 ‑0.037,0 σ O V Lの真値 6 .まとめ 本発表では、ブ‘リァジング試験で、問題となる類似性の評価指標として、 0~1 に基準化された統計量で ある OVL(分布の重なり具合)を紹介し、この OVLを KDEプロシジャおよび DISCRIMプ口、ンジャを用い て推定する様々な方法を示し、正規性、等分散性などの条件が満たされない場合の OVLの推定精度を 評価したc 実際の現場では、真の分布を想定してその分布を仮定した手法を用いるのが最善であるが、 それらの前提条件が崩れた場合も考慮して手法を選択するべきである。今回の結果はそのための一助 になれば幸いである c 謝辞 本研究を SUGトJ2002 にて発表するにあたり、高有製薬株式会社の渡遺裕之氏には、発表の後押し をして頂き、また論文等を詳細に検閲し多くのアド、パイスして頂いた。また、住友製薬株式会社の鎗田政 男氏には情報の提供を頂き、サントリー株式会社の遠藤輝氏には論文を検閲して頂いた。ここに記して 謝意を表したい。 参考文献 [ I J B r 百d l e y, E ., しO v e r 1 a p p i n gc o e f l i c i e n t, I nE n c y c l o p e d i ao f S t a t i s t i c a lS c i e n c e s, 6, 5 4 6 ‑ 5 4 7,1 9 8 5 . [ 2 J l n m a n,He 問 F .a n dB r 百d l e y,E ., し Theo v e r l a p p i n gc o 胡c i e n ta sam e a s u r eo fa g r e e m e n tb e t w e e np r o b a b i l i t yd i s t r i b u t i o n s a n dp o i n te s t i m a t i o no f t h eo v e r l a po f t w on o r r n a ld e n s i t i e s, C o m m u n i c a t i o n si nS t a t i s t i c s,1 8 ( 1 0 ), 3 8 5 1 ‑ 3 8 7 4,1 9 8 9 . [ 3 1 1 o n e s,M .c . ,M a r r o n, J .S .,a n dS h e a t h e r ,S .J ., Ab r i e fs u r v e yo fband\\~dth s e l e c t i o nf o rd e n s i t ye s t i m a t i o n, J o u r n a lo ft h e Am e r i c a nS t a t i s t i c a lAss o c i a t i o n, 9 1, 4 0 1 ‑ 4 0 7,1 9 9 6 . v e r l a p p i n gC o e f f i c i e n tの利用,第 2 9回薬効評価閉会 [ 4 J大儒靖雄・水町左智子,薬物動態デ ータのブ、リッジングにおける O 杉揖, 2 0 0l . [ 5 J P a r k,B y e o n gU .a n dM町 o n,J .S .,C o m p a r i s o no fd a t a ‑ d r i v e nb a n d 叫 t hs e l e c t o r s, J . o u m a lo ft h eAme r i c a nS t a t i s t i c a l A s s o c i a t i o n, 8 5( 1 ) ,6 6 ‑ 7 2,1 9 9 0 . [ 6 J R o m,D .M .n a dHwang,E ., T e s t i n gf o ri n d i v i d u a la n dp o p u l a t i o ne q u i v a l e n c eb a s e do nt h ep r o p o r t i o no fs i m i l a rr e s p o n s e s, S t a t i s t i c si nM e d i c i n e,1 5 ( 1 4 ),1 4 8 9 ‑ 1 5 0 5,1 9 9 6 . [ 7 ] S A SI n s t i t u t eI n c .,日本語オンラインヘルプ V e r s i o n2 . 0, 2 0 0l . [ 8 J S A SI n s t i t u t eI n c .,SAS/STATU s e r ' sG u i d eV e r s i o n8 ;C h a p t e r25η1eDISCRIMP r o c e d u , 陀 SASP ub 1 i s h i n g,1 0 11 ‑ 11 1 9, 1 9 9 9 . SAS/STATU s e r ' sG u i d eV c r s i o n8 ;C h a p t e r3 3T h eKDEP r o c e d u r e, SASP ub l i s h i n g,1 6 8 7ー 1 7 0 6,1 9 9 9 . [ 9 J S A SI n s t i t u t eI n c ., [ 1 0 J S h e a t h e r, S .J .a n dJ o n e s, i v . lc . , Ar e l i a b l ed a t a ‑ b a s e db a n d w i d t hs e l e c t i o nm e t h o df o rk e m e ld e n s i t ye s t i m a t i o n .J o u m a lo f t h eR o y a lS t a t i s t i c a lS o c i e t y, S e r .B, 5 3, 6 8 3 ‑ 6 9 0,1 9 91 . B .W., D e n s i t ye s t i m a t i o nf o rs t a t i s t i c sa n dd a t aa n a l y s i s ( C h a p t e r3 ), Chapmana n dH a U,1 9 8 6 . [ 1 1 ] S i 1 b e r r n a n, R o b e r tA.a n dH e y s e, J o s e p hF ., N o n ‑ p a r a m e t r i ce s t i m a t e so fo v e r l a p, S t a t i s t i c si nM e d i c i n e, 2 0, 2 1 5 ‑ 2 3 6, 2 0 0l . [ 1 2 ] S t i n e, [ 1 3 J何宰邦夫・大森宏訳,ジェフェリー S・シモノフ著,平滑化とノンノ句メトリック回帰への招何 1 9 9 8 ),g~林統計thJJ会, 1999. [ 1 4 J W a n d, ゐ 1 .P .a n dJ o n e s, M .c . ,C o m p a r i s o no f S m o o t h i n gP a r a m e t e r i z a t i o n si nB i v a r i a t eK e m e lD e n s i t yE s t i m a t i o n, J o u m a lo f r i c a nS t a t i s t i c a lA s s o c i a t i o n, 8 8,5 2 0 ‑ 5 2 8 . l h eAme pU 内 つb

69.
[beta]
付録 1 密度推定の評価指標 MISE、AMISE

データ (X1,
X2,
… ,
xn)が与えられたもとでの xにおける確率密度は、カーネル│芸j
数 K(y)を用いて以下のように存ける。
1、
.
; 1̲
̲
fx‑x,¥
f
(
x
)
=
̲
:
̲y~KI 一ーム|
1
1

壬1/
z

¥ /
z

}

カーネル関数 K(y)の制約は以下のようになる。
0:5K(y)<C< 坦 ,
K(y)=K(‑y),
μ。
=
l
"lIJ =0,
,
l
l2=a:J,ymK(y)
の=μ m< ∞forO:5m < ∞
また、 f(
x
)は非常に滑らかな関数とする。 f
(
x
)の評価は i
v
l
l
S
Eあるし、は AMISEを最小化する基準が一般的である。
AMISEは
¥
<
I
!SEより数学的に扱いやすいためよく用いられる。まず、 MSEの定義式を以下に示す。
MSE=EI[
(
f(
x
)‑f(
X
)
)
2
]=Ef[
{
f(
x
)‑EI(
f(
X
)
)
}
2
]+{Ef(
f(
x
)
)‑f
(
X
)
}
2=Varrlf(
x
)
]+{
B
i
a
sI[
j(
X
)
]
}
2
従って、 f(
x
)の分散と f
(
x
)からの B
i
u
s(偏り)の 2乗で表せることが判る。この i
v
l
S
Eをx全域に対して和をとった(積分
した)ものがi'v!I
S
Eとなる。したがって、 MISEをなるべく/トさくするような f
(
x
)が f
(
x
)を良く再現していることになる。こ
のとき、この式の f
(
x
)にカーネル密度推定関数を代入する。ここで、らは与えられた値であり、 Xjが確率変数となる
ことに注意する。そして、 E1[
f(
x
)
]、E1[
f2
(
X
)
]を求める(途中、変数変換 (y=‑(x‑x,)//z)し
、 K 関数の対称性を用
いる。更に、 f(x+h
y
)を xのまわりでテーラー展開したものを代入して近似を行う。更に、 K 関数が左右対称であるた
め 灼 =0であることを用いることにより求めることができる)。それらを ¥
<
I
S
Eの式に代入すると、

ユ
。
;

一
つ

l'(
f"
(
x
)
)
f(x)R(K) I
MSE=
l
/
z 一+
4
A+O(fll)+O(lf)

となる。ここで、 R(g)=fg2
(
X
)合である。この 日を x全域で積分すると ¥
I
I
S
Eを求めることがで。き、 1
1 → zとした場合
の漸近的な'vII
S
E(AMISE)が以下のように得られる。
R(K) /
z
'σ:R(
f
"
)
I
I/
Z
4
,

AMISE=~+

したがって、 A
i
v
l
!SEを最小化する平外a
fパラメータは、
、

/
z
"
.
,
,
"

=I~笠LIEI V5

.
.
I
,
¥f
山 一

l
a
;
R(f'')

I

'

として求めることができる。 Al
v
Il
S
Eの式カ、ら、平滑パラメータ z
Iが大きくするに従って分散は J
I、さくなるが、 Biusは大きく
i
a
sの間には t
r
u
d
e
‑
o庁の関係がある。
なることがわかる。このように、分散と B

付録 2 カーネル関数と平滑パラメータ
カーネル関数

r~企1 {iI'[

係数

U
n
i
f
o
r
m

/
2
K(x)=1

[
‑
1,
1
]

(
1
)

Normal

2
.
2
1
4

2.214h

2
.
6
2
3

2
.
6
2
3/
zN

B
i
w
e
i
g
h
t

K(x)=(l/&)叫 (
‑
x2/
2
) (一∞,∞)
2
[
‑
1,
1
K(x)=(
3
/
4
)
(
1
‑x )
2
[
‑
1,
1
]
K(x)=(
1
5
/
1
6
)
(
1
‑X )
2

2
.
9
7
8

zN
2
.
9
7
8/

T
r
i
w
e
i
g
h
t

3
5
/
3
2
)
(
1
‑X2
)
3
K(x)=(

1
.
74
0

1
.7
40/
z
"

E
p
a
n
e
c
h
n
i
k
o
vI
Q
u
a
d
r
a
t
i
c

[
‑
1,
1
]

h
A.lfISE

九

tu

内

phU

70.
[beta]
付録 3 プロシジャの概要
以下に、各 PIWCDISCI~l ìvI /1く DE ステートメントのオブ】ション等を示す。
カーネノレ佐波打f
司
有f
f
パラメータ
プロシジャ

w
:

liy~]I )7コ2 円iヤ fラメータ
1
1 ゲラフ
山知ための州ッドのt
t
i
J
'
i
生
変1
の数
刑宣l
i
f
定'
U
l
'
8
をf
出方法
m
定Lたいグリッドのデータを
f
ラメトリック1
よ
H
:
;
l
J
f
r
='
1
'
‑
行ヤザメータ)
1
1
が
年
;
,u tれば、 S
"
i
l
被
:
、 OSrt1
D
I
S
C
I
¥
I1
v
1ノ
多担止 なし
1
杉h
l
l
改
(
口U出【刈守1
0
m
1
a
l阿 iニγω)
日1
1
o
t
, が可目せであるが、それ以タトの D八.1ì-\ステップで l~ïXしてお
、
│
次OCD
I
S
C
I
¥
l
i
v
lステートメ
司J
i
的I
J¥
X
(
口
1
C
出α
l
守1
0
1
1
1
1
i
l
I
I
X
X
)
I
=
1
1
O
)
i
Y
'
ご き
均l
o
t
i
t, 場合は、司'‑i↑ドラメータをl
ントで、 TINIDATA
手 fータセ
ノ
ン
ノf
ラメトリックf
去
マニュアノレには多変呈の場合(J';JtI
k
fり
g
c
o
n
l
o肌 とに変えて)
]
I
J々に1
i
民f
D
I
S
C
R
I
M
フ。口、ンジャを2@[
夫 ッ卜よれを{旨走しておくと、
d
i cc(?
ノヴノピス倒船盟問
の臼ì\1RY:去に|現するE同1.t/~ラメータ
山1
1
V
司l
a
l
c (
年初平 I
V
I
J 了
1
1
'NI
'
O
l
rID=データセットで街
(
U
n
I
f
i
n
r
n、Nom
叫
、E
I
X
l
l
1
c
c
h
n
i
k
o
v
)
が記│没
)
日1
e
l
h
c
x
l
司1
I
l
i
U
'
(ノンパラ r
l
剥 斤i
l
l
k
c
'
l
l
1
c
l
ニオフρ泊ン(以下のJ
行
i
1
J
J
¥
で
き
る
)
されている。
}Jtjff'定fló亦Jlyi~トできるo デフォ
U
n
i
f
o
l
TIlカーネル〈テ、フォル卜X
k
c
l
l
1
e
l
=
u
n
i
J
∞n
l山)
ル卜で、は、各Wf
¥
の(
r
W
;
:
̲
がタr9
J
i
'
N
o
m
l
i
l
l
カ
ー
ネ
ノ
l
‑
‑
{
k
e
m
e
l
=
n
α
η凶 1
n
o
r
)
に{札、たものが、純度打己主:
U立
I
O
PU
1
仁
:
d
1
l
1i
k
o
v
プ
J
ーネル{km1c1=q
x
u
l
l
'
Ch
n
恥
,vI
c
'
p
<
1
)
の変t
'
,
y
;となる。
l
3i
l
¥
'
o
i
g
h
l
プ
Jー
ネ
ノ
l
‑
‑
{
k
c
l
l
1
c
l=b
附 i
g
h
l
l
l
叫
T
r
i
¥
¥
'
e
i
g
h
t
プ
Jーネル(
k
e
l
l
1
c
1=1
J
ね'
o
i
g
h
l
l凶
I
亡
オ
フ
"
シ
,
,1
ン(右のセノレ割!(む

凶
,

r

x

,

、
司

I
X
o
l
すむ旦 I
noW
i'iをプールした主 1
1
1制約主)

よ込

mc
l
J
i
c
寸叫I
l
c
l
i
;
辺 α叫 i
d
o
n
l
i
l
y
(主
、 diag(主
)
、 1(ユー
J<.DI~

ク
リ
ッ
ド
日I
V
!
i
D
)。
NO
I
l
1
凶
プJーネル

l 没~lllt:
l
油
/
ι引1
'
に
L
つ
臼〆
4
f
ぇ
l
之
6
1
1
ム
S
I
¥
O
T
l
t(J11c
l
h
O
O=S
I¥
0
'
1
)
s
,
'
t
mrL(
J
1
1
Cリ
1
0
0=SMi
)
OSW(
I
l
1
C
叶1
α
l二 O
S
)
S
̲
)
I'
I
Y
L(
m
c
l
h
c
x
l=S
.
n可
)
ミ
j
P
l
YI;'では、ヰ刊バラメータを決めるた
{
(
i
目
別(
S
.I
I
"
I
凶ひく=
めの、グリット"
ミ
1
1
司
1
v
I
lNコ
)
,
グ
リ
ッ
ド
数
(
ミI
J
引 Ut
v
I
ご
)
をJ
行
J
P
L
V
仏X
二O
SYL
定できる。デフォルトはS
の2日
午
、
S
,WIMIN=
S
̲
)
P
Ii
¥
仏X
!1
8、
S川N
U
i
v
l
二2
1である。
(
了
[
‑
:
:
0
.
(
b
¥
¥
T
I
l=i
(
'
l
)
i
2
変
4
"
(
s
i
l
l
1p
l
巴 川 市u
r
d
(
̲
'
l
m
c
e(
m
c
t
h
α
1=S
N
Ii
)
I
L
0
{
b
¥
¥
T
I
l=
1W
f
の
(
i
1
'
C
、2
1
1
Y
の仙

SNI~W, o
sYL
、S
I
¥
O
T
Y
L
、
日1
1
コ
│ G
I
¥
I
D
I
"
=
、G
I引DU=、G
I引DN=
〉
ぴ
なし
斗
こ
りI
,
I
(
、制l
み合出二上り、,f:t'l)同ため
日1
1
0
l, 出土、!万ステートメン卜l
のグリッドをJ 限t~J-る。 OUIミ
や
)
'l
o
t
i
l, 日I
J
f
こ.
H
f
1
t
'
i'
f
i
i
,
;
e
[l
i
二
日
:
の
J
)
1
介
は:
o
n
l
(孔U
'
,は
、'
1キ1
パラメータを W
f
ごとに データセットで将i
皮
J
i
同J
J
t
L
]
I
J
々にJ
似; d
u
n
i
vu
i
a
l
c 公えて、 1、仁王に)
α
1
s
i
l
y
7
)
¥
J
IX
1
1
J
'
できる。
ミ
収
〉
平I
V
I
J(
J
<
.
DE
プロシジャを 2
1日
大行)。
212
1t
y
'
)J
)
)
)
令のク、リッドは、そ
2
変!
l
l
のl
L
J
作土、 S
N
I
¥出土b
y
ス れぞ'
A
'
l
のオプションに対して、
テー卜メン卜により 11-y~]1 ドjWil: l
W
I
的
(
[
I
'
[
,2
1
1、
的
(
i
1
1
と 定ヂる

,

m

可能, It~、の fnJ]の以内土、 ;ì(z

べてJ
げ
J
i
:
)

71.

日本 SASユーザー会 (SUG1‑0) 臨床試験データの品質保証 O小 関 洋 子 西上昌子 野島茂生 株式会社ベルシステム 24 医 薬 関 連 サ 根本智之 渡辺敏彦 ビス事業本部 東 京 CRO事業局東京データマネジメントグループ Qualityassuranceo fC l i n i c a lt r i a ld a t a i s h i g a m i,ShigeoNojima,TomoyukiNemoto YokoKoseki,AtsukoN MedicalSupportBusinessU n i t TokyoCROBusinessDepartment TokyoDataManagementGroup 完旨 臨 床 試 験 デ ー タ の 明 証 に は す で に 各 製 薬 会 社 や CRO によりデ一則一ニングのプ吋スの 点から様々な検討が行われ、独自の業務手順に反映されている。当社でも I S 0 9 0 0 1 の考え方を臨床試験に 適用し、「品質システム」を構築しており、現在は、各臨床試験の設計段階のステップを計画的に、かっ確実に 行う手)[)買を標準手順として組み込むことにより、臨床試験データの品質の維持と吏なる向上を目指している。こ のような「システム J からは、質の高いデータが期待されるが、必ずしもこのような「システム」が常に完墜に設計で きるわけではなく、実際のプロセスの中で、本当に「システム」が有効に機能しているかどうかを検証していくこと も重要な課題である。 H 宇今、入力のプロセスにおいて、入力データの客観的な品質基準を設定することが話題 になっており、何らかの数値基準を持って対応している製薬会社も見受けられる。しかし、実際にはその基準を 当てはめる前提条件も含め、品質基準の恨拠については明確になっていない場合が多いようである。 そこで我々は、今まで経験したしてつかの業務を調査し、その結果からミス発生のプロセスの解明と入力デ、ー タに対する計量的な品質基準について模来、検討した。 ASデータセット、品質保証、品質管理、 I S 0 9 0 0 1 キーワード:臨床データマネジメント、 S 1.はじめに 1 .1 治 験 の 品 質 保 証 お よ び 品 質 管 理 治験の品質管理・品質保証は、答申 GCP において「治験依頼者は、治験に関する全てのデ ータの信頼性とその適正な処理を保証するために、データ取り扱いの各段階に品質管理を適用 S 0 9 0 0 0に準拠していることは周知の しなければならなし、」と求められており、またその考え方は I とおりである。しかし、具体的な方法(手順)や基準が示されているわけではなく、治験依頼者の標 準手順書に基づく品質保証および品質システムの履行とデータ取り扱いの各段暗に、品質管理 を適用することが求められているのみである。 1 .2 臨 床 試 験 に お け る デ ー タ マ ネ ジ メ ン 卜 業 務 臨床試験のデータマネジメン卜業務は、現在ではデータマネジメント部門として組織化されて しも製薬会社も多し、ものの、データマネジメン卜部門の業務内容は、業務を実施する組織体系、 nhリ

72.

組織の規模、関連部署との職務分掌によって異なる場合が多い。しかしながら、データマネジメ ント業務の本質は実施された試験の適正な記録を保証することと、症例報告書のもれ・記載内容 のチェックと集計・解析のためのデータの電子化、し、わゆるデータ入力である。 医療現場の情報が臨床試験の情報として標準化されていくプロセスの中で、それぞれに重要 な業務であるが、特に後者のデータ入力に関しては一見、単純な業務のように思われるが、単な る入力ミスだけが品質に影響を及ぼすだけでなく、多くの系統的なミスが発生しやすい構造を持 ち、品質の高さは設計の完成度にかなり依存するごまた、このプロセスは SASを品質管理ツール として用いることにより、その質の客観的評価が可能となる。 1 .3 電子データの信頼性保証 入力データの品質を保証するために不可欠なのは、的確な情報のモデル化で、ある c 言い換 えると、データベース等の適切な設計であると共に、中辻 1)の報告にもあるようなデータマネジメ ント業務の明瞭なプロセス管理、電子化時のエラーの軽減で、ある。 データ入力の際に発生するエラーは、何らかの理由に起因して発生するエラーと、単純に入 力者が打ち間違えるエラーに分類されるが、ここで、は前者を、ンステマティック(系統的な)エラー、 後者をランタ守ムエラーと呼ぶことにする。 システマティックエラーの原因は、たとえば入力用の画面の不具合により、誰が入力しても、同 じような入力間違いを誘引するような場合や、入力用のコード、ブ、ツクや入力指示書、コーデ、イング 作業そのものの間違い等がある。従って、システマティックエラーは、設計段階で注意深く原因を 取り除くための手順を組み込むことによって防ぐことが可能で、あるが、タずブ〉ルエントリーで、は防ぐこ とは難しい。 一方、ランダムエラーの発生は入力者の資質に依存し、ランダムに発生することから、ダブ ル エントリーでは、二人の入力者のミス発生率を m1, m2とするとマッチング' 1 &の修正により mlXm2 の残存率までミスを軽減させることが可能となる c 例えば、二人の入力者のミス発生率を 1%とす ると、残存するミス率は 0.01%となる。 すなわち、システマティックエラーに対しては設計段階で、徹底的に低減をはからなければ、入 力データの質の低下をもたらすことになる。 一方、ランタ守ムエラーに対しては入力者の研修により低減を計ることが可能で あるが、コストパ R フォーマンス的にはダブ、ルエントリーが有効である。 弊社では、データマネ、ジメント工程の設計段階を明確に手! J 固化することにより、システマティッ クエラーを排除するため努力している。しかしながら、現実的には症例報告書の設計にまで関与 することが出来ないことや、事前にコード体系を固定することが困難であるため、システマティック エラーを完全に排除することが難しい。においてそのため、夕、.ブ、ルエントリー後の読み合わせ手 順も併用することが必要であると考える。 ‑6 6

73.

今回は実際に、システマティックエラーがどの程度発生するか、またそのメカニズムはどのよう になっているかを検討する目的で、ダブルエントリー後に全例に対し症例報告書との読み合わせ J 買において、と、、の程度エラーが発生しているのか、夕、.ブ、ルエント を実施し、弊社のデータ入力手I リー後に実施している全例に対する読み合わせ結果カも調査し、その結果から電子データの品 質保証の基準を検討することとした。 2 . 調査内容と結果 2 . 1 データマネジメン卜の業務手 [ J 目 症例報告書コピーについて、コーデ、インクー作業等の入力前処理を行った後、異なる 2名の入 ユ一夕 i にこよるマツチンク 力担当者が入力し、双方の入力テo一一【夕のコンビピf ス卜アツフ。し、不一致箇所がなくなるまで繰り返し同作業を行い、全症例読み合わせを行った後、 解析用 SAS データセットを作成している。また、入力作業に関しては、症例毎にベアを設定した 状態でE行っている。作業プロセスを以下に示す乞 入力前処理 読み合わせ 2 . 2 調査概要 2 . 1の手 J I ! 買にてダフ、ルエントリーによるデ、ータ入力の手順が類似する試験のなヵ、から、 5試験(試 )を選択し、ダ フ、ルエントリー後に実施している全症例における症例報告書と入力デ 験 A から E ‑6 iー

74.

ータリストとの読み合わせの結果から、データ入力後の症例報告書と電子データとのエラー箇所 を調査した。 を用い、以下の方法により 3 つの SAS データセット 本調査で、は品質管理のツールとして SAS を作成した。 SASデータセットA :ミス管理データセット 読み合わせによるエラーデータおよびエラー箇所の変数名 SASデータセットB :ミス分析データセット 読み合わせによるエラー箇所ごとに、入力前処理の記録、 ファイの記録等から、データ入力工程のどの部分で ベU 生じたミスであるか調査し、分類した結果 SASデータセット C :項目分類デ、ータセット 電子データの全変数を、主要解析項目、副次的解析項目、 有害事象に関連する項目、その他に分類 これらの SASデータセットを用い、各試験のエラー率とその傾向を分析した。 2 . 3 調査結果 SASデータセット A を用いて、エラー箇所の数(エラー数)と全例の入力項目数(全項目数)と から、エラー率を求めた。その結果を T a b l e1.に示す。 エラー率は試験によって異なり、 0 .022%から 0.142%の範囲にあった。 T a b l e1.各試験のエラー数とエラー率(%) 症例数 全項目数 エラー数 エラー率(%) 試験 A 6 8 2 3, 9 4 5 1 7 0 . 0 7 1 試験 B 6 7 2 4 . 3 7 9 1 6 0 . 0 6 6 試験 C 2 4 9 1 5 4, 0 8 8 1 4 2 0 . 0 9 2 試験 D 1 7 6 1 8 5, 0 8 5 2 6 3 0 . 1 4 2 試験 E 1 8 6 1 , 1 9 7, 8 4 0 2 6 0 0 . 0 2 2 続いて、 SASデータセット B を用いて、エラー箇所を発生工程引(入力前処理、データ入力、 ベジファイ)に分類し、エラー数とエラー率を求めた。 「入力前処理」とはデータのコーデ インク 等の作業で、ありシステマティックエラーに分類で、きる c こ d れに対し「データ入力」と「ベリファイ」とは本来のランタゃムエラーで、あると分類で、きる c phu n 白

75.

T a b l e2 .工程別のエラー数とエラー率(%) 工程 入力前処理 データ入力 ベリファイ 9 6 ( 0. 0 2 5 ) 2 ( 0 . 0 0 8 ) 試験 A ( 0. 0 3 8 ) 8 ( 0 . 0 3 3 ) 合計 1 7 ( 0 . 0 71 ) 。 試験 B ( 0. 0 0 4 ) 1 5 ( 0 . 0 6 2 ) 1 6 ( 0 . 0 6 6 ) ( 0 . 0 0 4 ) 試験 C 1 1 6 ( 0 . 0 7 5 ) 試験 D 1 6 7 ( 0 . 0 9 0 ) 試験 E 1 9 0 ( 0 . 0 1 6 ) 上段エラー数、下段:エラ 2 1 ( 0 . 0 1 4 ) 5 ( 0 . 0 0 3 ) 2 6 ( 0. 0 1 7 ) 3 2 ( 0 . 0 1 7 ) 6 4 ( 0 . 0 3 5 ) 9 6 ( 0 . 0 5 2 ) 6 1 ( 0 . 0 0 5 ) 9 ( 0 . 0 01 ) 7 0 ( 0 . 0 0 6 ) 1 4 2 ( 0 . 0 9 2 ) 2 6 3 ( 0 . 1 4 2 ) 2 6 0 ( 0 . 0 2 2 ) 数/全項目 x100(%) 「データ入力」は 2名の入力担当者が共に誤ったために発生するエラーで、あり、「ベリファイ」は、 「データ入力」後のベリファイリストには検出されたが修正作業で、ミスが発生し、結果的にエラーと して残っているものでありこれも通常ダブルエントリーだけでは検出されないランダムエラーに 分類される c 集計結果を T a b l e2 .に示す。エラー率は、各試験とも入力前処理>データ入力>ベリファイ の[ l j 買で、あったc 次に、 SASデータセット A と Cカ、らエラー箇所を主要解析項目、li¥ J I次的解析項目、有害事象、 その他(背景因子、観察項目、臨床検査値等)に分類し、エラー数とエラー率を求めた。その結 果を T a b l e3 .に示す。 ‑69‑

76.

T a b l e3 .項目分類ごとのエラー数とエラー率(%) 項目分類 主要解析項目 試験 A 試験 B 試験 C 試験 D 試験 E ( 0 . 0 0 4 ) 。 。 。 。 合計 副次的解析 有害事象 その他 3 1 2 1 7 ( 0. 0 1 3 ) ( 0 . 0 5 0 ) ( 0 . 0 7 1) 1 0 1 6 ( 0. 0 0 4 ) ( 0 . 0 4 1) ( 0 . 0 6 6 ) 49 93 142 ( 0 . 0 3 2 ) ( 0. 0 6 0 ) ( 0 . 0 9 2 ) 42 1 7 204 263 ( 0 . 0 2 3 ) ( 0 . 0 0 9 ) ( 0 . 1 1 0 ) ( 0 . 1 4 2 ) 8 58 194 260 ( 0 . 0 01 ) ( 0. 0 0 5 ) ( 0 . 0 1 6 ) ( 0 . 0 2 2 ) 項目 ( 0 . 0 0 4 ) 5 ( 0. 0 21 ) 。 エラー箇所は主要解析項目、副次的解析項目、有害事象にも存在しており、エラー数は全項 目数に対する各項目の割合にほぼ比例していた。 2. 4 品質保証の基準の検討 今回調査した 5試験の症例数は 60 例 ~250 例、入力項目数は 25 , 000~ 1 , 2 0 0, 0 0 0で、一般 的な受託業務の症例数、入力項目数である。また、データ入力の工程は 5試験とも同じであるこ とから、このデータ入力の工程で、処理される電子データのエラー率は 0.02%~0.15% と推察でき る 。 T a b l e2 .の結果から、エラーは入力前処理の工程に起因するもの、すなわちシステマティック エラーが多く、データ入力およひ、ベリファイの工程に起因するいわゆるランタずムエラーは少なか った。データ入力時やベリファイ時に発生するランダ、ムエラーは、テンキー等のタイプミス、入力 漏れや症例報告書との確認漏れ等であるが、これに対してシステマティックエラーは、症例報告 書の記載内容を確認し、データ入力方法や入力値そのものをデータ入力担当者に対して指示 する入力前処理に起因するエラーで、あり、この 2つは以下の理由により本質的に異なるものであ るc 臨床試験の質を確保する目的で最も重要であるのは、臨床試験の結果を本当に正しく評価 出来るかどうかの観点である c システマティックエラーもランタームエラーも症例報告書を正しく反映 7 0

77.

していないとしづ点では同じであるが、ランダムエラーはまさにラン夕、.ムに発生することから、検出 力を低下させることはあっても、常に特定方向にバイアスを与えるもので、はない c これに対してシ ステマティックエラーは、 lつの原因が、すべての症例の同一項目を同じ方向に誤らせる、すなわ ち、バイアスがかかる可能性があり、誤った結論を導き出す可能性が高いとし、うことである c すなわち、ランダ、ムエラーは許容でーきる余地はあるが、システマティックエラーは許容すべきで、 はない。 たとえば、ランダムエラーであれば、 1項目に lカ所未満の間違いであれば結論に大きなバイ アスを与えるものではないと考えても問題はない。すなわち、 1 0 0 0 項目の試験であれば、 1 / 1 0 0 0ニ 0 . 0 0 1 以下であれば同一項目に重複してエラーが発生することはない c さらに安全側を 0 0 0 = 0 . 0 0 0 5 = 0 . 0 5 %であればほぽ問題がなさそうである。 取り1/2 試験 A から E のランダムエラー、すなわちデータ入力時とベリファイ時のエラー率 0.004%~ 0.052%であり、実務的にもエラー残存率としては 0 . 0 5 %を採用しでも無理はなさそうである。 しかし、このエラー残存率はあくまでも、ンステマティックエラーが排除された上で、の基準値であ る 。 3 .考察 電子データと症例報告書との聞で生じるエラーの種類には、システマティックに発生するエラ ーとランダムに発生するエラーが存在する。我々はデータ入力手順の同じ 5つの試験について 調査し、その調査結果から発生のメカニズ、ムの検討と、ランダムエラーにおけるエラー率、すなわ ちエラー残存率の基準について検討した。 調査結果から、エラー残存率の基準としては、 0 . 0 5 %が妥当であると結論付けた。この値は、渡 辺ら 3)が報告しているダブ ルエントリー時の誤り率 0 . 0 3 0 %より高し、ものの、中辻 1)が検討している 電子データの品質保証の基準として採用されている値と一致している。 一方、システマティックエラーは許容出来ないにも関わらず、今回の調査では、 0.016%~0.09弘 とラン夕、、ムエラーより多く出現していることが判明した。 また、今回の調査からデータ入力時のミスを軽減させ、効率的なデータ入力の実施を目的とし ている入力前処理の工程での判断ミスが多いことが示された。さらに入力前処理で発生している エラー箇所を調べてしてと、薬劃名、疾患名および、有害事象のコード、を誤って付加している場合 や、合併症や併用薬剤などの複数レコード、の繰り返し、時点ごとに繰り返される観察項目の入力 指示が誤っているケースが散見された。 本来、このようなシステマティックエラーは品質、ンステムに組み込まれた手)[[買において排除さ れるべきである。しカミしながら、現状では、症例報告書書式設計に関与出来ない、コード体系が 事前に確定出来ない、更には複数レコードの繰り返しゃ時点ごとの観察項目に関しては、症例 ー

78.

報告書の記載が症例報告書記載方法から逸脱している場合や、計画にはない観察データが記 載されている場合など、イレギュラーなケースも多く、一定の手 J I ! 頁で、完全に排除するまで、には至っ ていない 一方、項目分類においては、コーテ、イング等の作業が多い有害事象等で、のシステマティック エラーが高頻度で出現することが予想されたが、各項目でそれ程大きな偏りがないことから、計 画的な設計および設計段階でのレビュー等の手順により、システマティックエラーがある程度押さ えられていることも確認できた。 今回は電子データと症例報告書との全例、全項目の読み合わせによるエラー率の基準を検 討したにとどまっているが、今後、調査対象の試験範囲を広げ、今回作成した SAS データセット の情報を充実させ、残存エラー率 0 . 0 5 %の妥当性に関して継続的に確認してして予定である。 さらに、入力データの質を確保する上で、最も重要で、あると考えられる、ンステマティックエラーを 低減させるための設計段階でのアプローチや、中辻1)も提案しているサンプリングによる電子デ ータの品質保証の手順に関しても検討する必要があると考える。 今回設定した残存エラー率の基準は、あくまでも自らの品質を確保するためのひとつの目安 でしかないが、上記のようなアプローチにより、はじめて意味を持つもので、あり、このような継続的 なアプローチが品質をスパイラルアップさせるものであると考える。 [ヲ│用文献 1 1 )中辻昇、プロセス管理に基づくデータ保証、 D I A第 5回 DM年会 ( 2 0 0 2 .1 .2 4 ) 2 )渡辺敏彦他、臨床検査における入力データの信頼性確保について、第 1 5 回 SAS ユーザー会 ( 1 9 9 6 ) ‑i2

79.

日本 SASユーザー会 (SUG1‑0) 臨床試験データマネジメント業務での COMPAREプロシジャ活用法 0 7 t く留稔 杉原主亮 伊東仁 持田製薬株式会社 医薬開発部 P r a c t i c a luseo ftheCOMPAREProceduref o rc l i n i c a ld a t amanagement MinoruMizutome、KeisukeS u g i h a r a、H i t o s h iI t o C l i n i c a lDevelopmentDepartment MOCHIDAPHARMACEUTICALCO.,LTD. 要旨 臨床試験のデータマネジ メント (Dt v I)業務は、試験実施準備から試験終了までの多くの段階に 関与する 我々は、ミスの生じやすい業務に対し同一作業を 2系統で実施し、その結果を比較する 3 ことで作業の信頼性を確保している。 2系統で実施した結果の比較には COMPf ¥I ¥ E プロシジャを 活用する。本報告では COMPARE プロシジャの実行結果の利用方法およびプロシジャへの要望 点について述べる。 キーワード: 臨床試験、データマネジメント (DM)、COMPARE プロシジャ 1.はじめに 臨床試験のデータマネジメント (DM)業務において、同一作業を 2系統で実胞し結果を比較する ことで作業の信頼性を確保することがある。ダブ、/レエントリーの結果比較、ダフ。ルフ。ロク、ラミング の 実行結果の比較などである。我々は、これらの 2系統で実施した作業結果の比較には COMPARE プロシジャを活用している。 COMPARE プロシジャを用いることで比較作業および作業結果の確認 が容易になる。 2 .臨 床 試 験 デ ー タ の 比 較 臨床試験データをダフ会ルエントリーした SAS データセット同士を比較する場合がある。 1症例あ 7 3‑

80.

たり 5000~ 1 0 0 0 0 個のデータが入力されるが、その入力ミスを検出するためである ο このような SASデータセットを比較するには COMPAREプ口、ンジャが威力を発揮する J 2‑1.データ入力 1例分の C a s eR e p o r tF o r m( C R F )のデータを同一構造の 2つのデータベース双方に独立に入 力するニ COMPAREプロ、ンジャはデータセットの情造も含めて比較するため、変数名、変数の型、 フォーマット情報、ラベル等、全ての条件を同一にしておくことが望ましい。 2‑2.入力結果の比較 CRFのデータを入力した 2つのデータセットを COMPAREプ口、ンジャを用し、て比較する。 COMPAREプロシジャを用いることで、基本的にはプログラム 1行だけで比較が可能である。 5 0 0オ 0 0 0 変数といったデータでも十数秒で比較が完了する。この簡便さが ブザベーション、 5 COMPAREプロシジャを用いる最大の理由である。比較結果は SAS アウトプット画面に出力され るふ比較の要約、比較データセットの情報、変数に関する情報、データの差分リストといった様々な 情報が出力される。オプションの指定により情報を選択した出力も可能で、あるコしかし臨床試験デ ータの入力値の比較においては、 COMPAREプロシジャの出力はやや冗長である o 2つのデータ セットの入力値が同じか否かが最大の興味であり、入力値の差やパーセント差には興味が無い J 必要な情報のみを出力するとし、った加工の利便性、あるいはプ口、ンジャ実行結果を一覧表様式へ ASデータセットに出力 出力する等の電子データとしての利用可能性を考慮すると、実行結果を S しておくほうがよい。我々は OUT=オプションで、データセットを出力し、データステップおよび TRANSPOSEプロシジャを用いて加工している(図 1)。 変数値の比較結果 [ [ I D [ [ [ [ 基準 比較 A G E A G E 1 9 . 0 0 0 0 2 1 .0 0 0 0 差 覧差 2 . 0 0 0 0 1 0 . 5 2 6 3 [[ 4[ [[ 基準 比較 1 0 [ O O U I O O U I 差 略差 [[ [[ 5[ 2 0 0 2 0 5 0 5 2 0 0 2 0 5 1 5 1 0 . 0 0 0 00 . 0 0 0 0 4 9 9 SAS アウトプット画面、出力(抜粋) ヰι 7 4ー

81.

1 0 B A S E C O M P A R E O I F P E R C E N T B A S E にJ C O M P A R E O I F にJEJV 4 内U 凋斗 E J V R V 7 ' n o n v n υ 1lTlTit‑‑IT‑‑lnt O B S ‑ 凋 斗 凋 斗 凋 川 守 凋 斗 に JEJVEJVEJV T Y P E ‑ A Uマ A Uマ A Uマ A Uマ に J O B S P E R C E N T A G E O O U I T O U Y O 1 9 . 0 0 0 0 2 0 0 2 0 4 3 0 . 0 0 2 0 0 2 0 5 0 5 .0000 21 2 0 0 2 0 4 3 0 . 0 0 2 0 0 2 0 5 0 5 2 . 0 0 0 0 1 0 . 5 2 6 3 2 3 . 0 0 0 0 0 . 0 0 0 . 0 0 0 2 3 . 0 0 0 0 2 0 0 2 0 5 0 5 . 0 0 0 . 0 0 0 0 2 0 0 2 0 5 1 5 . 0 0 1 0 . 0 0 0 . 0 0 0 0 0.00 0 2 0 0 2 0 5 0 5 。 。 2 0 0 2 0 5 0 5 OUT=オプションによるデータセット出力 C O M P A R E O O U I 2 0 0 2 0 4 3 0 2 0 0 2 0 4 3 0 5 0 0 U1 2 0 0 2 0 5 0 5 2 0 0 2 0 5 1 5 A G E A G E lnυ 4 A G E FLAG ・ n J A崎 に J B A S E ハυ ‑ n J A Uマ に J 9 1 0 N A M E nHV4Ean︽ U FKJntnt 1 0 nHvnwdn︽ U FKJ'int O B S 。 加工後のデータセット出力 図1.比較結果確認のための出力例 S A Sアウトプット画面と加工後のデータセット出力は、ほぼ同じ型式にしてある。見やすさ、電子デ R I N Tプロシジャ出力の利用のしやすさといった点を考慮して ータとしての利用しやすさ、および P し、るためである。 COMPARE プロシジャのデフォルト設定を用いると、同一オブ、ザベーションの変数が比較される。 このためオブザベーションの順序が違うデータセットを比較してしまうと膨大な差分リストが発生する ORT ことがある。ステートメントを適切に利用することで、このような事態を回避できる。あらかじめ S プロシジャにより並べ替えを実施したうえで、 WHERE ステートメントを用し、た特定条件のオブザベ l し、たカテゴリごとの比較を行えばよし、(図 2)。 ーションの比較や、 BY ステートメントをJl ‑7 5

82.

O B S 1 0 A G E O O U I T O U Y O 2 0 0 2 0 4 0 1 2 0 0 2 0 5 0 5 2 2 2 4 2 0 0 2 0 4 1 1 2 0 0 2 0 5 0 5 3 3 5 0 4 4 5 5 1 9 2 0 0 2 0 4 3 0 2 0 0 2 0 5 0 5 2 0 0 2 0 5 0 5 2 3 2 0 0 2 0 5 0 5 2 0 0 2 0 5 0 5 2 2 O B S 1 0 ~ 2 3 3 4 4 5 5 6 A G E O O U I T O U Y O 2 2 5 0 2 0 0 2 0 4 0 1 2 1 0 0 2 0 5 0 5 2 0 0 2 0 4 3 0 2 2 0 0 2 0 5 1 5 2 0 0 2 0 5 0 5 2 0 0 2 0 5 0 4 2 0 0 2 0 5 0 5 2 0 0 2 0 5 0 5 2 0 0 2 0 5 0 5 2 3 2 2 P R O CC O M P A R EO A T A = M A I NC O M P A R E = S U B : I ' /H E R E1 0 = 3 : *10=3 の OBS のみ比較*~ R U N : P R O CC O M P A R EO A T A = M A I NC O M P A R E = S U B : *10 ごとの比較*: B Y1 0 : R U N 司 図2 .プログラム例 入力したデータを川し、た演算結果を比較する場合に、算出式や有効桁数の違いにより微ノトな < INT プロシジャ等で、の目視による確認では見えない差も 違いが発生することがある J このような、 PI COMPAREプロ、ンジャで、は検 1 1¥されることがある(図 3 ) ε O B S C U L C 1 C U L C 2 P R I N T プロシジャ出力(見た目は同じ) 1 1 基準 比較 O B S1 1 C U L C 1 C U L C 2 1 . 0 0 0 0 1 .0 0 0 0 ‑ 1 .1 1E ‑ 16 ‑ 1 .1 1E ‑ 1 4 差 弘差 1 1 1 1 1 1 C O M P A R E プロシジャでの比較結果(差が検出される) 図3 .COMPAI~E プロ、ンジャで・検出される差(例) 7 6‑

83.

演算結果の比較において事実上問題としない微小な差の検出を避けるために、あらかじめ算出式 <OUND 関数で計算結果を適切な桁数にまるめ および使用関数を確認するのがよい。演算後に I る等の事前の処理を定めておくのも有効である。 3 .作業結果の比較 デ「ータセットの比較以外にも、例えば目視によるデータチェックの結一果を SAS データセット化す ることで、作業結果を比較することも可能である。「現病歴のコメントに除外基準にあてはまる記載が 有害事象の対症療法の記;肢から併用禁止薬の使用が疑われる」等の試験実施計画から逸 ある Ji t l出作業を 2系統で実肱し、抽出結果の比較確 脱する症例を特定したい場合、我々は逸脱症例 h 認をもって逸脱症例特定の信頼性を向上させている。 3‑1 抽出作業 ここでは CRF として収集されたデータを用いて、試験実胞計画i から逸脱する症例を抽出する 作業について述べるミ抽出条件および内容に応じて、コンピュータ・フ。ロク守ラムで、チェックする項目 と目視で、チェックする項目に分類して、逸脱症例抽出を行う。 コンピュータ・プロクザラムで、チェックする項目立、 SAS プログ ラムを用いて、データ問の論理的な 矛盾、不整合等の有無を判断する 目視で、のチェックは、医師が記載したコメン卜についての確認、 3 併用薬と有害事象項目との関連についての位認など、コンピュータ・プロクーラムで、チェックするのが 困難な臨床的な知識を必要とするチェックが主なものとなる。これらのチェックにより試験実施計画 から逸脱する症例を抽出する。チェック結果は「該当・該当せず Jの二値データとして SAS データ セットとする。これにより 2系統での作業結果の比較および確認が容易となる(図 4)。 コンピュ一世・プログラムでのチェック 目視でのチェック 図4 .抽出作業の流れ ‑7 7ー

84.

3‑2.抽出結果の比較確認 2系統での抽出作業結果について比較確認する。比較方法そのものは 12‑2.入力結果の比 の手順と同様である。 COMPAREプロシジャを用いることで、症例ごとの比較やチェック項目ご 較J との比較が簡単に実行可能である o 2系統での抽出作業結果に相違がなければ逸脱症例抽出は 終了である。 抽出作業対象のデータにはミスが無いとするならば、コンヒ。ュータによるチェック結果において 相違がある場合はコンヒ。ュータ・プログラムの作成ミスが考えられる。原因を明らかにして不具合を 修正し、チェックを再実行する。一方、目視によるチェック結果において相違がある場合は、抽出条 件の多義性や一方の作業者によるチェック個所の誤りが疑われる。これらについては抽出条件の 見直しおよび修正、あるいはチェック個所の確認等、事実関係を明らかにする。以上のような作業 により逸脱症例を特定するのである。 4 .COMPAREプロシジャについて CRFのデータを入力したデータセットそのものの比較およひ.逸脱症例抽出の作業結果の比較 とし、うことについての事例を述べたο いずれの場合も COMPAREプロ、ンジャを用いることには利点 がある。例えば、症例の追加やデータ変更のたびに容易にデータセットの比較を実行で、きる。また、 コンヒ。ュータ・プロクーラムによるチェックは、 2系統での逸脱症例の抽出作業から作業結果の比較ま RFの電子データと S A Sプログラムがあれば容易に実行可能である。目視での抽出結果に で 、 C ついても電子データ化することで効率よく確認できる。これらにより、労力をかけずに、試験中必要 に応じ何度でも逸脱症例のチェックが可能となる 3 COMPAREプロシジャは、データセットの比較実行としづ単純な機能しか持ち合わせていない が、この機能に特化しているとも言える。特定症例データのみ、あるいは特定変数のみを比較した し、というような場合、事前に症例(変数)の抽出、加工をしてから比較する、とし、う 2ステップの手順 が想定される。 COMPAREプロシジャで、あれば事前の加工が不要で、あり、ステートメントおよびオ プションを加えることだ、けで 1ステップの手順で、済むので、ある。 ここで、はプロシジャ機能としてさらに望むことについて述べる。 4‑1.文字データの比較について もともと文字データの比較は S A Sの範鴎外として設計されているかもしれないが、臨床試験の DM 業務においては文字データの存在は無視できない。例えば医師のコメントも重要な情報であ るため正確に電子データ化し活用したい。このような文字データについて比較した場合、 113文字 とし、うように、異なる部分がわかりやすいような表示機能が望まれる。データセット出力 目が異なる J UTPUTウインドウでは「違う」としづ情報のみに集約されて した際には一応の表示機能があるが、 O しまう(図 5)。文字データを数値データと同様に扱うことが可能になれば、業務効率が向上すると考 えられる。 円 ソt ︒ 百

85.

変数値の比較結果 1 1 基準値 比較値 O B S1 1 M l M l 1 1 + + 1 1 1 治験薬が原因と思われ 治験薬が原因と思われ 1 1 ( O U T P U T ウインドウ.情報が集約(?)されてしまう) O B S T Y P E O B S M l 1 B A S E 治験薬が原因と思われる胃部不快感の訴えがあるた 2 C O M P A R E 治験薬が原因と思われる胃部不満感の訴えがあった 3 DIF 4 P E R C E N T x x . . . . . . . . . . . . .x . .ー..... x . X x . . (データセット出力:相違部分の表示が可能) 図5 .文字データの比較 4‑2.変数の相違に関するデータセットへの出力 2つの同 a 構造で・あるはずのデータセットを比較する場合において、変数の相違に関する出力 の充実が望まれる。例えば、一方のデータセットに存在し、他方のデータセットに存在しない変数 についてデータセットに出力させるオプ、ンョンを付けるというものである。変数に関しては、 OUTPUT ウインドウへの出力はで、きるがデータセットへの出力ができなし、のである a この作業を行 うとすると CONTENTS プ口、ンジ.ャ等の利川が考えられる。しかし、変数の相違とし、うのはデータセ ットの比較の一部である。このため COMPAI<E プロシジャの中で完結すると利便性が向上すると 考えられる ο 4‑3.プロシジャ実行状況のモニターおよび実行中断の手段 これは COMPARE プロシジャへの機能というよりは SAS システム全体に望む機能である。 FREQ プロシジャにおける TAsLE ステートメントの EXACT オーフ。ションなど、プロシジャの実行 H 寺聞が分単位でかかるような場合、どのくらい進行しているのかを示すような機能があると利用者は 安心できるよまた、予想外に時間のかかるプロシジャを実行してしまった場合に、半強制的な中断 ではなく通常手段としての中断ができることが望ましい会 ‑7 9ー

86.

5 . 終わりに 臨床試験期間を短縮するためには DM 業務を迅速かっ E確に実施することが望まれている。 迅速かっ正確な作業のためには、作業効率に優れたツールを選択するとし、うことが重要である ο 大 量のデータに対して処理を行う場合、 SAS を用いるのは有 mである SAS の利用によって、全体 o の作業量および作業時間の大師 i ' i l J減、さらに結果の再現性とし、ったことが実現で、きる 3 電子データ の比較という点においては、 COMPARE プロシジャは強力なツールであるご DM 業務には、 COMPARE プロ、ンジャのみならず、データ分布状況の確認や要約統計量の算出など SAS の利 用が適当と考えられる場而が随所にある。業務の流れの中において、 SAS をはじめとした各ツー ルの利用方法を検討することで、さらなる試験運用の効率化を進めたい ο 参考文献 1 )D a t aE n t r ya n dCHFR e v i e w ;K o i c h iF u n a k i,1 イi t o s h iI t o,TomoyaM a s a k i ;DIA1 s tA n n u a lJ a p a n SymposiumC l i n i c a lDataManagement;J a n u a r y1 3 ‑ 1 4,1 9 9 8 2 )CRF レビューのための論理チェックプログ.ラムの開発;伊東仁、宮原直樹、中西猛、矢島勉、舟 喜光一;日本行動計量学会第 27 回大会発表論文抄録集 105 ‑8 0一

87.

日本 SASユーザー会 (SUG1‑0) JMP4Jによるロジスティック回帰モデルの教育 一併用薬剤の種類,有害事象の種類別の探索的解析ー 0津 田 克 彦 牢 ・ 西 山 智 料 ・ 野 田 昭 夫 * * * ・ 高 橋 行 雄 材 料 *大鵬薬品工業株式会社 DM部 料アベンティスファ マ株式会社臨床研究センター ***株式会社 SASインスティチュートジャパン JMPジャパン事業部 ****日本ロシュ株式会社医薬開発本部 EducationofLogisticRe gressionModelwithJMP4J ‑MiningAn a l y s i so fConcomitantDrugsandAdverseEvents‑ K a t s u h i k oSawada* H i r o s h iN i s h i y a m a * * A k i oNoda*** Y u k i oT a k a h a s h i * * * * l i n i c a lD a t aManagementD e p t .T a i h oP h a r m a c e u t i c a lC O ., L t d *B i o s t a t i s t i c s& C **A v e n t i sPharmaL t d . ***SASl n s t i t u t eJapanL t d . ****N i p p o nRocheK .K . 要旨 医薬品の市販後のデータ解析に携わる人々を対象としたロ、ジスティック回帰モデ ノレの教育を目的 として,以下の構成からなる教育プロクザラムを開発し,実用化した. ・必須統計学用語(オッズ 比,目的変数,説明変数)の解説 ・ロジスティック回帰モデ〉レによる解析実施前の準備作業解説 jMP4j操作法解説 ・ ・ロジスティック回帰解説 ‑実習(副作用発現に影響する背景因子の探索) ‑実習(副作用発現に対する併用薬剤との相互作用の探索) jMP4j は変数名に日本語を用いることができることから,市販後のデータ解析において,多数の併 用薬剤名と有害事象との関係をロジスティック回帰モデルにより探索的に解析する際,有用と I~'われ た. キーワード: JMP ソフトウェア, PMS,ロジスティック回帰モテソレ,併用薬剤相互作用,探索解析 1.はじめに 医薬品の市販後には有害事象に関連する膨大な臨床データが集積されるが,このような市販後デ ータを解析し,医薬品の安全性に影響する因子を推定する際,ロジスティック回帰など、の統計モデ、 ルを適用させることは意義があると考えられる.しかしながら,現状ではこのような解析には主に分割 表に対する適合度の検定などの 有意差検定"が適用されている.これは従来,市販後データの解 N 析に携わる人々にとって,モテ守ル解析を適用するには,その適用方法,解析結果の解釈,従来の有 8 1

88.

意差検定との対応などの質問に回答するために,克服すべき種々のハード、ルがあったためで、あると 考えられる. jMP4jは SASに比べてグラフィカル・ユーザ。インターフェイスに優れており,このような問題を解決 するための非常に有用なツールに成り得ると考え, jMP4jによるロジスティック回帰モデルの教育プ ログラムを開発し,実用化したので報告するー 2 .教育プログラムの概要 教育プログ ラムは座学で、はなく実習形式とし,必要最小限の学習で,実際に現場で有害事象に影 響する因子をロジスティック回帰モデ、/レによる探索的に推定出来る能力を修得することを目的として 開発した.実習には架空のデータを作製することも当初考慮したが,実際に集積されたデータを使 用する方が種々の実務に即した体験ができると考え,過去に実施された使用成績調査のデータを 患者が一切特定できない形態で大鵬薬品工業株式会社から実習データとして提供していただいた. 当該使用成績調査データは集積例数が 14, 002例であり,既に再審査結果が判明しているもので、あ る.実習目標は,副作用発現に影響する背景因子をいかに推定し,副作用発現に対する併用薬剤 の相互作用をいかに推定することとした. 教育プログラムの構成 ・必須統計学用語(オッズ比,目的変数,説明変数)の解説 ・ロジスティック回帰モデ、ルによる解析実施前の準備作業解説 ・ jMP4j操作法解説 ・ロジスティック回帰解説 ・実習(副作用発現に影響する背景因子の探索) ‑実習(副作用発現に対する併用薬剤との相互作用の探索) 3 .教育プログラムの内容 3 ‑1 . 用語の解説(オッズ比) オッズ比はロジスティック回帰モデルの結果に基づき副作用発現リスクを評価するのに必 須の概念である.市販後データの集計で一般的に用いられている分割表に基づきオッズ比を 計算する作業を通じ,オッズ比とはある背景因子によって副作用発現リスクが増減するかを 評価するための有用な指標であることを理解してもらう.これにより,ロジスティック回帰 モデル解析結果の解釈の助けとなる. u ︐ っnmu

89.

表 1 投与前腎機能別副作用発現状況 計 1 6 2 6 障害 前腎機能 1 1 5 8 1 正常 1 2 5 8 4 6 2 3 1 3 2 0 7 ( 9 5 . 2 8 ) ( 4 . 7 2 ) 計 家﹁ 勝一時 円月一本﹁ 溌一町 百回一一 作一副 ツ ズ オ 腎機能正常症例のオッズ 0 . 0 4 4 8 腎機能正常のオッズ比= =一一一一=0 . 5 3 3 腎機能障害症例のオッズ 0 . 0 8 4 0 腎機能障害症例のオッズ 0 . 0 8 4 0 腎機能障害のオッズ比= =一一一一=1 .8 8 腎機能正常症例のオッズ 0 . 0 4 4 8 3 ‑ 2 . ロジスティック回帰モデルによる解析実施前の準備作業 ロジスティック回帰モデルにより副作用発現に影響する背景因子を推定する場合,推定結果は,ど のような背景因子を説明変数としてロジスティック回帰モテeルに組みいれたかによって微妙に異る. そのために,説明変数の選択基準をあらかじめ定めておく必要があり,次に示すような基準が考えら れる ‑事前の情報(前臨床データ 承認時臨床データなど) から副作用発現に影響する可能性がある項目を積極的に選択する .重要な背景因子については解析必須とする ‑相関の高い背景因子同士はいずれか 1つを選択する JMP4Jでのロジスティック回帰モデルは,目的変数(骨l 作用の有/無)を名義尺度に定義しておく必 要がある.副作用の有を 0に変換し,副作用無を lに変換しておくことにより,副作用発現のオッズ?と 有 Ji 無」の文字列のままでも実行可能であるが, i 有」に対する「無」のオッズ?となり,推定結果 なる i 1形式のデータに変換しておくことを強調している. を理解し易くするため, 0, ハ ndJ O V

90.

目的変数 亡二〉 ロジスティック回帰 分析用データ 元データ 説明変数 重症度 亡二〉 3 ‑ 3 . ロジスティック回帰の必要性 表 2に示すようなデータを仮想する. 表 2 年齢 (才) 15‑20 21‑25 26‑30 31‑35 36‑40 41‑45 46‑50 51‑55 56‑60 61‑65 66‑70 71‑75 76‑80 合計 高[ 1F 用 なし (人) 1 3 0 1 1 5 1 0 0 9 8 8 7 6 8 6 1 5 1 34 2 8 2 1 1 4 1 0 8 1 7 あ り (人) 7 8 1 2 1 4 2 6 3 9 5 4 6 6 8 3 8 8 9 7 84 5 5 6 3 3 ‑8 4ー 副作用 発現率 0 . 0 5 0 . 0 7 0 . 1 1 0 . 1 3 0 . 2 3 0 . 3 6 0. 47 0 . 5 6 0 . 7 1 0 . 7 6 0 . 8 6 0 . 8 5 重 1 f E 1 l I一 一

91.

年齢にともない,副作用発現率が単調に増加しており,年齢と副作用発現率の関係式を表す場合, 直線回帰式 l年 齢 副作用発現率 = so+s 式 ( 1 ) をあてはめた場合,副作用発現率=一 0.31+0.016x年齢となることから, 82歳以上では予測発現率 ). が lを越え,逆に 19歳以下では予測副作用発現率が O未満になってしまう(図 1 一一一一一一一一一一一一 / ・ . . ., . .・ ・ . 。→ . 8 Pブ . / ~ •• •••. , , 〆 . 〆 〆 . 、 . . . 。 . . ~~. . 、 ノ ' ー ・ ' 。 。 . 2 . a 2 0 4 0 6 0 8 0 1 0 0 年齢 三ざ空竺主竺竺j発 現 率 =‑0.311626+0州 市 年 齢 図 l 直線回帰のあてはめ これに対し,このデータにロジスティック回帰式 l n 副作用発現率 ‑ : 日 叶 山 内 山 中 = so+戸l年齢 式 ( 2 ) をあてはめ, J M P 4 Jにより ,s0,s1を推定する(表 3) . 表 3 ロジスティック回帰モデ ル解析結果 │パラメータ推定値 項 切片 推 定 値 標 準 誤 差 力 イ 2乗 4 . 5 5 1 4 7 6 0 . 2 3 5 6 6 0 8 0 . 0 8 9 6 7 8 3 9 0 . 0 0 4 5 9 2 5 p j 直( P r o b > C h i S q ) 3 7 3 . 0 2 年齢 3 81 .3 1 推定値は次の対数オッズに対するものです:0 / 1 式 ( 2 ) は逆ロジット変換により式 ( 3 ) の形に変形出来る. 8 5‑ く. 0 0 0 1 く. 0 0 0 1

92.

副作用発現率= Xp(sO+sl年齢) +ロ p (so+戸l 年齢) 式( 3 ) 表 3の出力結果から, x p (ー4 . 5 5+ 0 . 0 8 9 7年齢) 、 ‑l + e x p (‑ 4 . 5 5 + 0 . 0 8 9 7年齢) 副作用発現率一 " ' " ' 1の範囲に収まることがわかる(図 2 ) . となり,年齢がし、かなる値をとっても予測副作用発現率は 0 JIl‑‑ │1iJIl‑‑Ji‑‑1l 寸 守内 4 時限献医学百 nocuaa nunununu ﹁ ‑ ・ ・ ・ y/.‑. 百 ・, U ︽ ﹁︒ ﹁Il‑‑ 20 6 0 40 8 0 1 0 0 年齢 図 2 ロジスティック回帰のあてはめ 式( 2 )は 副作用発現率 1‑副作用発現率 =e x p ( s o+s I年齢) 式 ( 4 ) 4 )左辺はオッズ、を表すことから,ロジスティック回帰モデルのパラメータ推定値 と変型できる.式 ( s0 = ‑ 4 . 5 5,s1 = 0 . 0 8 9 7ならびに年齢の値を代入し,オッズ戸を計算することが出来, 2つのオッズ、の比 から例えば,年齢 4 0歳の人に対する 6 0歳の人のオッズ比は ο 6歳のオッズ 4 0 歳のオッズ e x p (‑ 4. 55+0 . 0 8 9 7x6 0 ) =( e x p ( 0 . 0 8 9 7 ) ) 2 0=6 . 0 1 e x p ( ‑ 4. 55+0 . 0 8 9 7x4 0 ) となる. この事例は,説明変数が連続変量(年齢)の場合でらあったが,説明変数が投与前腎機能の有無,性 別などの 2値変量を 0と 1に置換えた場合も同様の考え方により,得られた口、ジスティック回帰式の 推定値から同様にオッズ比が計算出来る. 実習データの副作用発現を目的変数,投与前腎機能有無を目的変数に指定して得られたロジステ ィック回帰モデルの J M P 4 J出力結果(表 4)からは,腎機能正常 = 0,異常 = 1としたので,パラメー タ推定値 s0 = ‑ 3 . 1 0,s1 = 0 . 6 2 8から腎機能正常症例に対する腎機能異常症例のオッズ戸比は ‑8 6一

93.

腎機能異常のオッズ 腎機能正常のオッズ e x p (‑ 3 . 1 0+0.628x1 ) ==cxp0.628=1.87 巴x p (‑ 3 . 1 0+0.628x0 ) と計算出来る. 表 4 ロジスティック回帰モデル解析結果 │パラメータ推定値 推 定 値 標 準 誤 差 カ イ 2乗 p f 直(Prob>ChiSq) 3 . 1 0 4 6 6 2 7 0 . 0 4 5 8 5 0 7 4 5 8 5 0 . 0 0 0 0 0 . 6 2 7 7 2 4 2 3 0 . 1 0 3 4 6 7 2 3 6 . 8 1 く0 0 0 1 推定値は次の対数オッズに対するものです 0 / 1 項 切片 前腎機能 2 3 ‑ 4 .副 作 用 に 影 響 す る 背 景 因 子 の 探 索 jMP4jで、はロジスティック回帰モデ ルで、の説明変数の選択機能はないので,パラメータ推定値の検 定結果の有意水準を定め ( p= 0 . 0 5 等),フルモデノレからの変数減少法による変数選択を 1STEP ずつ実行する.実習データを用いたロジスティック回帰モデ、ルから最終的に得られた解析結果の表 を表 5 に示す.結果の解釈の誤りを避けるため,表中には,オッズ、比の推定方向を明確に記載 記伊J することを強調する. 表 5 副作用発現に影響する背景因子探索結果 背景因子 説明変数の 推定方向 オッズ、比 1日投与量 性別 アレルギ一体質 投与前肝機能 投与前腎機能 併用薬 1 9 増力日ごと 男( 0 ) に対し女(1) 無( 0 ) に対し有(1) 正常( 0 ) に対し異常(1) 正常( 0 ) に対し異常(1) 無( 0 ) に対し有(1) 1 . 0 8 7 0 . 6 8 9 1 .474 1 .3 2 1 1 . 6 3 4 2 . 1 8 1 オッズ比95%信頼区間 下側 上側 1 . 0 0 2 0 . 5 8 1 0 . 9 9 1 1 .096 1 .314 1 . 7 8 6 1 . 176 0 . 8 1 6 2 . 1 1 5 1 . 5 8 6 2 . 0 1 8 2 . 6 8 4 3‑5.副 作 用 発 現 に 対 す る 併 用 薬 剤 と の 相 互 作 用 の 探 索 医薬品の開発段階では,限られた条件での動物実験,臨床試験データしか得られていないため, 当該医薬品の薬物相互作用に関する情報は十分とは言えない.従って,医薬品の市販後に収集さ れる膨大な臨床データから,当該医薬品が投与された症例での有害事象発現に対し,相互作用を 有する可能性が高い薬剤を検出し,着目することは意義がある.市販後に併用される多数の薬剤ご j M P 4 jは変数名に臼本語を用いる とに有害事象との関係を解析することは従来,容易で、はなかった . ことが出来,このような目的の探索的な解析に適している. 3‑5‑1. 探索解析時の併用薬剤の取り扱い 医薬品の市販後のデータとして CRF(Case R e p o r t Form)に記載された併用薬剤は一般的に,医 薬品名データファイル(医薬情報研究所)に基づく薬劃コードとしてデータベース化される.薬剤コー ドは全体が 9桁で構成され, 9桁は商品名,上 7桁は医薬品一般名を表すため,併用薬剤と有害事 円 ソd o ハU

94.

象との探索解析には上 7桁に基づく医薬品一般名を使用している.また,薬効分類ごとの探索解析 には上 2桁に基づく薬効分類名を使用している. 3‑5‑2. 実習データを用いた併用薬剤との相 E作用探索解析手順 疾患の治療においては 対象疾患の治療を目的とするもの,合併症の治療を目的とするもの,治 3 療薬による副作用の予防,軽減を目的とするもの等,様々な目的で多種の併用薬剤が処方される. 従って,これらの併用薬剤を薬効分類によりグ、ループ化し,如何なる薬効分類に属する併用薬剤が 副作用発現に対する交互作用を有するのか概要を把握する事は意義がある.また,特定の化学構 造,作用機序により,副作用発現に対する相互作用を有する可能性も考えられるため,化学構造を 特定出来る医薬品一般名による探索解析も重要である. これらの観点に基づいて,以下に示す手J 買で併用薬剤との副作用発現に対する相互作用を探索解 析する. ( 1 ) 第 1ステップ:薬効分類別に副作用発現率を集計 ( 2 ) 第 2ステップ:併用薬の数順に副作用発現頻度を集計 ( 3 ) 第 3ステップ:薬効分類別にロジスティック回帰モデ ル解析 薬効分類聞の交互作用検討 ( 4 ) 第4ステップ:併用薬一般名での副作用発現率を集計 併用薬一般名で、ロジスティック回帰モデ ノレ解析 なお,これらの解析を実施するには,元のデータを探索解析に適した形式のデータに加工する過程 が必須であるが, jMP4j による探索解析のためのデータ加工技術については,本教育プログ、ラムの 共同発表者の報告内容吋こ詳しく解説されている. 3 ‑ 5 ‑ 3 . 併用薬剤との相互作用のロジスティック回帰モデル 併用薬剤との相互作用の探索解析は,多数の併用薬剤の中から相互作用を有する可能性の高い 薬剤を,探素的に見つけることを主眼としているため,各薬効分類,あるいは各医薬品一般名での 併用有無のデータのみ,ロジスティック回帰モデルの説明変数として指定する.患者背景因子は説 明変数に指定しない. 薬効分類別の集計結果,併用症例数が 1 0 0人以上であった 1 4種類について,併用の有無を目的 変数としてロジスティック回帰モテ、ル解析を実施した.jMP4j出力結果を表 6 に示す. 薬効分類 2 2(呼吸器官用薬), 2 3(消化器官用薬), 3 1(ビタミン剤), 6 3(生物学的製剤)が有意と なった. 8 8‑

95.

表 6 薬効分類男J [ のロジスティックモデル解析結果出力 │パラメータ推定値 項 推 定 値 標 準 誤 差 カ イ 2乗 p f 直(Prob>ChiSq) 切片 ‑3.2080468 0.0545258 3461 0.0000 .6 0β579 0.17202346 0.0906954 1 1 :中枢神経系用薬 3 . 6 0 0.05099036 0.1107362 6 1 :抗生物質製剤 0.6452 0 . 2 1 2 2 :呼吸器官用薬 0.36859512 0.1359594 0 . 0 0 6 7 7 . 3 5 0.28127353 2 1 :循環器官用薬 0 . 1 4 5 4 9 1 0 . 0 5 3 2 3 . 7 4 [ ‑0.2459963 0.1930777 6 2 :化学療法斉J 0 . 2 0 2 6 1 .62 0.28300079 0.1562596 3 9 :その他の代謝性医薬品 0 . 0 7 0 1 3 . 2 8 〈β001 0.68689259 0.1577883 2 3 :消化器官用薬 1 8 . 9 5 ‑0.2244136 0.2132806 0 . 2 9 2 7 3 3 :血液・体液用薬 1 .1 1 ] (抗ホルモン斉J I を含む) 0.12772431 0.2211965 24・ホルモン斉1 0 . 5 6 3 7 0 . 3 3 3 1 :ビタミン斉J I 0.67306137 0.0075 0 . 2 5 1 7 3 1 7 . 1 5 42煙 霧 用 薬 0.14927139 0 . 6 8 6 8 0.370272 0 . 1 6 63・生物学的製剤 0.56386057 0.2534008 0 . 0 2 6 1 4 . 9 5 0 . 3 4 0 5 9 8 1 0.3782858 0 . 3 6 7 9 4 4 :アレルギー用薬 0 . 8 1 0 . 2 5 7 7 0.5276362 0. 32滋 養 強 壮 薬 4661278 1 . 2 8 推定値は次の対数オッズに対するものです:0 :有 / 1無 オッズ比 1 .1877057 1 .05231274 1 . 44570215 1.32481594 0.78192508 1 .32710621 1 .98752986 0.79898462 1.13623971 1 .96022913 1.16098802 1 . 75744416 0.71134471 0.58999795 有意となった4つの薬効分類を説明変数とし,併用薬剤同士の交互作用についても解析したが, J . MP4Jの出力は省略するが,薬効分類聞での交互作用は検出されなかった(結果出力省略). 次に,医薬品一般名での集計結果,併用症例数が 1 0 0人以上でドあった 2 9薬剤について,併用の 有無を目的変数として,ロジスティック回帰モデ、ル解析を実施した. JMP4J出力結果を表 7に示す. ω ツペバリ 比日ノ ズ リエ 0 . 3 1 4 4 0 . 6 2 1 9 0 . 0 4 7 7 0 . 6 0 6 9 0 . 2 0 5 8 0 . 0 0 0 7 0 . 0 0 9 1 0 . 0 0 0 2 0 . 3 4 4 3 0 . 1 0 4 3 0 . 7 8 3 9 0 . 3 9 9 3 0 . 7 5 2 5 0 . 9 0 8 0 0 . 5 0 5 1 0 . 0 0 0 2 0 . 0 6 7 8 0 . 1 7 1 6 0 . 7 6 8 6 0 . 5 6 8 4 0 . 7 2 6 3 0 . 0 1 1 2 0 . 1 7 3 2 0 . 1 8 9 3 0 . 6 2 1 5 0 . 7 5 1 1 0. 44 6 1 0 . 0 2 2 0 オ削ン :‑nU7' 川口 7 制∞おブ : ‑ xoo 1 .8 7 円﹁' 0 . 0 1 0. 44 帥ケ 川 1 .0 1 1 . 43 2 5 3 5 8 6 1 .1 6 0 2 9 3 4 4 1 . 48 2 6 9 4 3 3 0 . 7 6 7 1 4 3 1 4 1 .6 4 1 7 5 7 0 5 2 . 1 1 4 7 2 1 5 4 2 . 2 3 2 9 4 5 7 3 1 .5 4 9 8 1 1 1 1 0 . 7 8 5 5 8 5 3 5 1 .5 3 0 6 8 0 2 1 .08116257 0 . 6 7 1 2 9 1 5 1 .1 2 4 9 6 0 4 9 1 .0 4 6 5 1 3 7 1 1 .3 3 7 6 3 8 3 1 2 . 6 0 4 9 8 5 9 3 1 .6 3 7 7 6 1 0 9 0 . 5 2 4 1 8 8 1 0 . 9 1 8 5 8 5 7 0 . 7 4 4 4 7 1 5 9 0 . 8 5 6 8 1 0 6 2 1 . 75 4 3 1 2 6 4 1 .6 3 5 1 0 8 1 2 0 . 5 2 5 4 3 1 7 2 1 .1 2 9 8 6 1 9 9 0 . 9 0 8 9 4 1 8 1 1 . 32 6 0 1 6 1 3 1 . 75 4 8 2 9 4 6 ン ︑ ボ レ カ フ ロ 卜 ナ ク ナ 値ム p ウ E38426071194810949324524085J 手9 J q ζ q ζ G d q L R U 司uOO 苛M O O R u n U 7 ' 4 1 0 0 q u n u q u f l n 吋 Q U 7 ' q L 4 l F b q ' ι 'ト l 2 ︽ 幻1030116l02000L30006110005 ドに ィ8 1 力3 3 ︐ tLFKJA吋 RJvnun341quq ιnUTi‑hJ ︽ b O 0 7 ' 7 ' G d q u R U 7 ' 7 ' O O T I H吋 勾 乙 ︽ b q u A吋 n U 7 ' A吋 Zぞ2 4 75 56 35 46 79 35 78 41 78 36 67 97 06 69 11 31 58 49 02 13 92 88 23 62 B1 05 45 59 54 工 割田2 8 0 3 9 5 8 3 4 3 8 0 4 2 6 1 1 8 3 3 7 8 8 8 5 1 0 0 5 4 E 8 0 3 4 8 2 J 1 1 B a u ‑ ‑ 5 8 3 6 5 8 1 4 5 2 4 4 0 2 3 0 3 5三 7 唱 写 4lnJ7'1louphuquqι7'phJvphJvqιAHV 勺4ququaU b n u ワι Q U 7 ' 4 1 4 1 1 l n U 7 ' 4 1 n U F h J V F d Jソ 89‑ Z 仁 ﹄ ﹁ 工 nunvnvnvnunvnununvnununvnvnvnunununununvnununununvnununvnuhy/ ︽ 特 023315023122243342242542342332 叩 n ヨ ηζnwuaqnvqu 内dqd7'quT'aqη ︐ ιFKJGd 氏unUη ︐ ι 1也 氏u n旬 ︑ 以 内 ︐ι n u n 6 F o n U ¥ 守lkJFboonJRUFboondoon吋 F300QU7'RJVQJV7'qun1000JVFhuq'ιtlauqLGJvq 乙 勺L J / 47'qJV 凋斗 内 J 値412439447621281667271642359268 m Mm 定∞削 u ω 別加引内初 m m u 閃 引 河 川 川 崎 花 町ωmm おnmmMM 卯 叩 山 ぺ ︐ aunuauqι︒4quqU4EquRJvnU1 b G M ワιquodqunuRJV7'nu つMqunU17'︐ 7 ︑ 01968 5793117087404354540740513 1 ‑J 僧符 ii ま 主 マ ' n U A﹃ 7 むプ Kジ 3 2 0 1 3 0 4 7 8 4 0 4 0 0 1 0 0 9 4 0 0 0 0 5 4↓ 1 0 2 5 7 / ‑ooo‑0000‑oo‑oooo‑‑ 一 一 ODD‑00芳江 品川判ン酸沼二完治む附フ ム ウ砧ケ リす 件対ン 酸ノム ンムペウンヌイア ンホウ凡ムンヤリルシツ一つ rmfm 一一一午ンンル叫 7 医薬品一般名別のロジスティックモデ、ノレ解析結果出力 描一切ンルン川判明政弘朴ト村づりンル制河 内一印刷ゆ忠野忠才出引刈副主説明か認訴訟関川 JJ 且 息 と 有 計一片スセミンフルルトクルラオシラベベアロ万ンギ化酸酸酪酸厳酷齢出土 パ一一項切アアアイオカカケジスセテトトピヒフフメリ口塩塩塩塩塩塩硫硫推引 1L よ 表

96.

ステイン,塩酸アンプ、ロキソール,硫酸イセパマイシン,インドメタシンの 8薬剤で、あった.ファモチジン . 6と最も高かった. はオッズ比の点推定値が 2 3 ‑ 5 ‑ 4 . 探索結果の解釈に関する注意点 ロジスティック回帰モデ、ノレで、の探索解析の結果の解釈は慎重に行わなくてはならない.モデルの 解析結果のみに基づき,オッズ比が高かった併用薬剤は,副作用の発現率を高める原因だと判断 するのは危険である.先にも述べたとおり,併用薬剤は様々な目的で処方されており,副作用の処 置薬として当該併用薬剤が処方された結果,副作用の起きた症例では当該薬剤が併用された症例 が多いだけカも知れない可能性がある.可能な場合は, CRF まで戻り,併用状況,併用理由等を確 認したい.解析結果の適切な解釈を得るためには,対照としている疾患,治療薬に関する知識は不 可欠である. 4 .まとめ 医薬品市販後のデータ解析に携わる人々を対象とし,ロジスティック回帰モデ、ルの教育プログ、ラム を開発し,実用化した. jMP は変数名に日本語を用いることができることから,市販後データにおいて,多数の併用薬剤 名と有害事象との関係をロジスティック回帰モデ、/レにより探索的に解析する際,有用と思われた. 謝辞 今回の教育プログラムの開発にあたり,市販後使用成績調査の実データを快く提供頂いた 大鵬薬品工業株式会社安全性情報部に対し,心より感謝致します. 参考文献: 1 ) 野田昭夫,高橋行雄,津田克彦,西山智 ( 2 0 0 2 ) .jMP4jを使用した有害事象解析におけるデー タ加工.日本 SASユーザー会論文集 2 ) 浜田知久馬 ( 1 9 9 9 ) . 学会・論文発表のための統計学.真輿交易医書出版部 ‑ 90‑

97.

日本 SASユーザー会 (SUG1‑0) JMP4Jを使用した有害事象の生存時間解析の教育 0西 山 智 * 高 橋 行 雄H j 畢 田 克 彦 H合野田昭夫**** *アベンティスファーマ株式会社臨床研究センター H 日本ロシュ株式会社医薬開発本部***大鵬薬品工業株式会社 DM部 ****株式会社 SASインスティチュートジャパン JMPジャパン事業部 EducationofSurvivalAnalvsistoAdverseEventwithJMP4J ト-l iroshi 卜~ishiyama * Y u k i oT a k a h a s h i * * K a t s u h i r oSawada*** AkioNoda* * * * *PRO p e r a t i o n sCenter , A v e n t i sPharmaL t d . **NipponRocheCo,L t d l i n i c a lDataManagementDep . tTaihoPharmaceuticalCo,L t d * * *B i o s t a t i s t i c s&C t d . * * * *SASI n s t i t u t eJapanL 要旨 我々は医薬品の市販後に集積される有害事象に関連する膨大な臨床データの統計解析 に携わる人を対象とし, jMP4jを使用した有害事象データの統計解析の啓蒙的教育プログラ ム開発を行い,実用化した. 従来,統計解析を専門としない人々にとって高度な手法で、あった生存時間解析法は,主 に癌の臨床試験に適用され,発展してきたが,有害事象と服薬期間の関連性の概観にも有用 である.しかし,市販後データに携わる人の中には,統計的手法としての生存時間解析法の 知識を持たなくとも,経験的に有害事象と服薬期間を考えるときに,生存時間解析的な発想、で ある,経過時間と分母の大きさの関係に注意してしも場合もあると思われる. 本教育プログ ラムは, jMP4jを用いることにより, SASプログラミング等が難しい人でも容易 に解析実施できることを知り,実習を通して市販後有害事象データに対する生存時閥解析法 の有用性の理解,及びjMP4jによる解析実施法をマスターすることを目的とする. 本報告では,有害事象データの生存時間解析の教育プログラム実習内容を紹介する. キーワード: jMPソフトウェア,市販後臨床試験,生存時間解析 1i ハ 日

98.

1.はじめに 生存時間解析法の基礎,及び応用について理解するには,相当の統計学の知識を必要 とする.しかし,本教育プロク守ラムで、は統計学に詳しくない人にも,取り掛かりゃすい統計解析 ツールで、ある jMP4jを用い,津田1)らと同じ使用成績調査の 1 4, 002症例の実データによるデ ータ解析実習を通し,生存時間解析法の考え方の要点,及び実際に jMP4jにより解析する技 術の習得を目標とした. 次章以降に,教育プロク、.ラムの概要を示す. 2 .有害事象と服薬期間 医薬品の市販後には,有害事象に関連する膨大な臨床データが集積される.この市販後 の有害事象データの統計解析を行う際に気を配るべき重要な関心事の 1つに,有害事象と!眠 薬期間の関連性がある. 薬剤のfJf1薬期間に依存して発現頻度が高くなる(遅発性)有害事象が存在する場合,これ 眠薬期間 を見逃すことは重大な問題となる可能性がある.しかし,市販前の治験データでは, 1 に依存的に発現頻度が高くなる有害事象が存在しても,その頻度が低い場合はサンプル数 が限られるために検出力が低い.ゆえに,遅発性の有害事象を発見するには市販後の大規 模データによる検討が不可欠となる.さらに市販後において,治験では経験のない長期服薬 がある場合には,より注意深い検討が必要であろう.一方,統計解析の問題として,市販後に 集積されるデータの中には有害事象が発現した症例のみの情報,すなわち事象報告ベース のデータがある.この場合は,有害事象発現頻度と服薬期間の関係を正しく推定するのは困 雑である. 製薬企業等において市販後データに携わる人には,医学的薬学的側面の知識に強く, 有害事象と服薬期間に関する問題は常識で、あっても,適切な統計手法は十分に理解されて いない場合が珍しくない.厳密に言うと,現状の製薬企業等で集積されている市販後有害事 象データの中には,上に述べたように有害事象の観察対象症例の母数が分からない等,本質 的な問題が存在し,生存時間解析法を適用するには注意が必要である.しかし,市販後デー タの統計解析に携わる人にとって,生存時間解析手法及びその実行手段の理解は,有害事 象発現の経時的なリスクを視覚的に捉えられ,また,発現様式の相対的な把握,解釈が可能 となり有意義と考える. 3 . 生存時間解析 生存H 寺問解析の主な目的に,興味ある反応(イベント)がある生存時間の区間に 1 )集中し て発生するか, 2 )fI寺問に依存しないでランダムに発生するか, 3 )生存している確率はしてらか, ‑9 2ー

99.

及び治療群や背景因子の影響による生存 H 寺問に違いはあるかの探究がある. 本教育フ。ロク。ラムで、は,前者に関連する有害事象発現タイプの分類を主な興味の対象と した.有害事象発現タイプのイメージを図 lに示す.3タイプの名称は(工業)品質保証の分野 の用語である.なお,市販後の有害事象として特に注意をはらう必要があるのは薬剤の服薬 期間に依存して発現頻度が高くなるタイプ(③磨耗故障型)である. ①初期故障型 ②偶発故障型 立ち上がりが早い 直線的な増加 ③磨耗故障型 後半で急に増加 発現率 服薬期間 服薬期間 服薬期間 図 1 有害事象発現タイプの分類 3‑1.生存時間データ 本教育プログ.ラムで、は,津田ら 1)と同じ使用成績調査のデータについて,有害事象は器 3器官分類のうち発現頻度の高い 7分 官別に分類したものを解析対象とし,簡単のために 1 類(一般的全身障害,肝臓・胆管系障害, I I I lノl 、板・出血凝血障害,消化管障害,代謝・栄養 障害,白血球・網内系障害,泌尿器系障害)を用いた.なお,ここで使用したデータは,薬剤 との因果関係が否定されない有害事象,すなわち副作用のみであるため,以後「有害事象」 でなく「副作用」と呼ぶ.なお,野田ら A Sプロクググ、守、ラムを表 3示す. 法の手順を解説しているが参考のために S 一般に,症例あたり同ーの副作用を複数回観察しうる.ただし,教育プロクーラムで、は簡単 のために器官分類ごとの初回副作用発生を目的の反応とした.実際の観測値は,服薬開始 (左)).生存時間解析では, 日及び副作用発現日(または服薬終了日)として得られる(図 2 服薬開始日を基準(第 O 日)として,副作用発現(または服薬終了)までの期間を扱う(図 2 (右)).解析用データには,副作用が観察されなかった症例を打ち切りとして解析で扱うた め,打ち切りまでの期間にこでは,服薬終了までの期間)の情報も必要である.また,簡単の C e n s o r )としたが,打ち切りには,時間打ち切り,個数打ち切り, ために服薬終了を打ち切り ( 情報(意味)ある打ち切り,ランダムな打ち切りなと、、のバリエーションがる.さらに,データの欠 測,副作用発現及び打ち切りの時期が正確に特定されない場合もある.これらの取り扱いに ついては,専門書を参照されたい. ‑93‑

100.

試験開始 観察開始 d → ①←骨発現 @←一一歩 Event 発現 ②: ー ー ー ‑ ④ ト 一 一 . Censor ③; 一一一一静発現 ④! 一一一一+ 服 薬 終 了 ⑤ ! E v e n t • f t l i薬 終 了 ⑤j 会C ensor ② : 0 時間 E v e n t 服薬期間 図 2 生存時間データ 3 ‑ 2 . 力プラン・マイヤー推定 服薬期間に対する副作用発現率の推定を考えるとき,ある時間の区間内で,発現数を 総例数で害J I る発現率の推定は,観察の途中で副作用と服薬終了が生じることを勘案してお らず過小推定となり,誤りである.これは,服薬期間に対する累積発現率の単純プロットに対 応する.器官分類別の副作用累積発現率を図 3 ( 左)に示す. 観察の途中で,副作用と服薬終了が生じるため,時間の経過とともに観察対象の症例 数は減る.ある観察時点の直前で,まだ副作用発現または服薬終了していない症例数をリ スク集合と言う.カプラン・マイヤー推定量は,ハザード成分(副作用発現数/リスク集合)に ついて, ( 1 ハザード成分)を副作用発現時点ごとに掛け合わせた階段状の関数になる.器 官分類別副作用のカプラン・マイヤープロットを図 3 ( 右)[手順 1 Jに示す. 図 3 において最も高頻度に発現している副作用は肝臓・胆管系障害である.単純な累 積発現率を見ると, 2 1~28 週において 2~3% 程度であり,服薬期間に対して副作用発現は, 一見、右肩下がり(初期故障型)に見てとれる.しかし,時間に対して観察対象の母数を適切 に扱うカプラン・マイヤー推定で、は, 2 8週時において 9%程度の副作用発現率となり,服薬 期間に依存せず副作用は一定の頻度(偶発故障型)で発現することが分かる.これより,服 薬期間と副作用発現の関係は,適切な解析法を用いない場合,発現率の過小評価及び時 間依存的に発現頻度が高くなる副作用(磨耗故障型,遅発性)を見逃す危険性を含むことが 分かる. メニューパーの[分析 ( A ) J→[生存時間分析]→[一変量]を選択し, Y .イベントまでの時間に 服薬期間(日),グソレープ変数に器官分類,打ち切りに CENSORを指定し, OKボタンを押 す. ) 慎 lカプラン・マイヤー推定による解析 手1 ‑ 94‑

101.

0 . 1 0 0 . 1 0 0 . 0 9 0 . 0 9 0 . 0 8 0 . 0 8 0 . 0 7 0 . 0 7 時 隠0 . 0 6 0 . 0 5 世 十 日0 6 献0 . 0 4 献0 . 0 4 ~0.05 肝臓・ i j ; !管系障害 0 . 0 3 0 . 0 3 0 . 0 2 0 . 0 2 0 . 0 1 0 . 0 0 肝臓・胆管系障害 0 . 0 1 { i O .[ j 。 市密主一一一量子x 1 4 2 1 服薬期間(日) 2 8 0 . 0 0 3 5 。 1 4 2 1 服薬期間(日) 2 8 3 5 図 3副作用の累積発現率(左)及びカプラン・マイヤープロット(右) 3 ‑ 3 . 発現タイプの評価 本教育プログラムで、は,発現タイプの統計的な評価法として,生存関数にワイブツレ分布 と仮定し,生存関数の両辺に 2重対数をとる方法を紹介している.すなわち jMP4jで求めた ) [手順 2 Jにおいて b e t aとlの大小関係 ( b e t aく1:初期故障型, b e t a >1: パラメータ推定値(表 1 磨耗故障型)により評価するものである. ( 右)のカプラン・マイヤーフ。ロットを見ると,服薬期間依存的な副作用発現はないよう 図 3 に思われる(偶発故障型)のに対し,ヲイブルパラメータによる評価で、は消化管障害以外の 6 器官分類の全てにおいて,服薬期間依存的に副作用頻度が有意 ( b e t aの 95%信頼区間の 下限が 1より大きし、)に高くなっている(磨耗故障型).これは服薬期間の分布を見ると, 1週 間以内に約 70%さらに 2週間以内に約 90%の症例が服薬終了していることから,カプラン・ マイヤー推定においてリスク集合の大きい投与開始当初の形状に強く影響を受けるためと ( 右)では, 7 日固まで、右肩上がりとなっている.jMP4j では,容易にカプラ 予想される.図 3 Jは服 ン・マイヤー推定の信頼区間のプロットがで、きる.ここには示さないが信頼区間[手順 3 薬期間に依存して急激に広くなっていることが読み取れた. 手順 lで出力したカプラン・マイヤーブ ロットの出力テープツレから, [Kaplan‑Meier法によるあ p →[ W e i b u l lのあてはめ]を選択する. てはめ J 手順 2 ヲイブルパラメータ推定 手順 1で出力したカプラン・マイヤープロットの出力テープツレから, [ 1 くa p l a n ‑ M e i e r法によるあ てはめ]→[プロットのオプション]→[信頼区間]を選択する. 手順 3 カプラン・マイヤー推定の信頼区間プロット ‑9 5

102.

表 l ワイブツレパラメータによる評価 器官分類 A l p h a B e t a L95A l p h a U95A l p h a L95B e t a 一般的全身障害 4 7 0 . 5 3 9 1 . 71 6 1 8 9 . 1 1 9 2 7 5 4 . 1 5 9 1 .1 7 5 2 :. 2 9 5 1 7 肝臓・胆管系障害 1 0 6 . 3 6 9 1 .4 3 3 8 9 . 1 6 4 1 3 0 . 3 7 9 1 .3 2 5 1 .5 4 3 336 血小板・出血凝血障害 4 9 9 . 5 2 0 1 .5 3 2 2 2 0 . 9 5 3 1 9 3 9 . 5 4 4 1 .1 4 2 1 .9 50 2 5 消化管障害 7 9 3 6 . 1 6 9 0 . 8 4 2 1 5 9 6 . 8 9 9 9 4 9 3 8 . 4 0 8 0 . 6 2 2 1 .0 94 43 代謝・栄養障害 2 7 7 . 1 8 0 1 . 5 0 6 1 7 3 . 0 9 5 5 2 7 . 6 1 4 1 .2 65 1 . 75 7 6 9 白血球・網内系障害 2 1 2 . 6 0 0 1 .4 60 1 4 8 . 8 2 3 3 3 4 . 8 5 8 1 .2 7 6 1 .6 5 1 1 1 6 泌尿器系障害 4 7 0 . 9 6 0 1 .3 4 2 2 4 8 . 5 8 2 1 1 6 3 . 3 1 3 1 .0 9 4 1 .6 0 6 C J ( U95B e t a 故障数 3 ‑ 4 .Cox回 帰 分 析 前出の津田ら 1)において,ロジスティック回帰分析による副作用発現に影響する背景因 子の探索及び推定を紹介している.ロジスティック回帰分析で、は,時間が考慮されないのに 対し, Cox回帰分析では症例ごとの服薬期間の違いを考慮する. 本教育プロクマラムで、は, Cox 回帰モデ、ルの数学的側面,及び変数選択には触れず JMP4Jの出力の解説にとどめた.ただし, Cox 回帰モデルで、は比例ハザード性という強し、 i~IJ 約があることを解説し,複数の因子を同時にモデ ルに取り込む場合の注意を示す. Cox 回 帰分析の実習では,ロジスティック回帰分析より見当をつけた背景因子をモデルに取り込み, 同慌の傾向が得られるか確認する. 津田ら1)のロジスティック回帰分析と同じ背景因子をモデ /レに入れた,肝臓・胆管系障害 副作用に対する Cox 回帰分析において、ロジスティック回帰分析とほぼ同様の結果が得ら れた(表 2 ) [手順 4 J . 表 2肝臓・ 1 1 旦管系障害副作用に対する多変量 Cox回帰分析結果 説明変数の惟定 リスク比 95%信頼区間 背景因子 リスクよヒ 方向 下側 上側 投与量 1 9増加ごと 1 . 11 7 1 .0 0 6 1 .2 3 5 性Jj J I 女/男 0 . 5 7 7 45 6 0. 0 . 7 2 6 アレルギー体質 無/有 0 . 7 7 9 0. 43 5 1 .2 79 投 与 前! J 干機能 障害/lE常 1 . 16 5 0 . 9 1 6 1 .4 74 投与前腎機能 障害/正常 1 .0 8 0 0 . 8 1 1 1 .4 19 無/有 2 . 1 8 7 1 .6 5 9 2 . 9 3 4 併用薬 メニューパーの[分析( A ) J→[生存時間分析]→[比例ハザード]を選択し,イベントまでの時間 に服薬期間(日),打ち切りに CENSOR,By に器官分類,モデル効果の構成に分析する 背景要因を全て指定し, OKボタンを押す. 手順 4Cox回帰分析 ‑ 96‑

103.

4 . おわりに 医薬品の市販後データ解析に携わる人を対象とした.I . MP4. 1 を mし、る市販後データの生 存時間解析の教育プロクマラムを紹介した.JMP4J はグラフイカル・ユーザ・インターフェースに 優れ扱い易いにもかかわらず,データハンドリンクー及び統計解析は高機能で、ある.この教育プ 寺問解析の理解,及び解析実行の習得に有用と思われる. ログラムは,生存 H 5 . 参考文献 1 ) 津田克彦,西山智,高慣行雄,野田 H 百夫 ( 2 0 0 2 ) .I . MI刊 j (こよるロジスティック回帰分析 A Sユーザー会論文集. の教育. 日本 S . MP! l.)を佐川した有害事象解析にお 2 ) 野田昭夫,高橋行雄,惇田克彦,西山智 ( 2 0 0 2 ) .I A Sユーザー会論文集. けるデータ加工. 日本 S 3 ) 大橋靖雄,浜田知久馬(19 9 5 ) . 生存時間解析 S A Sによる生物統計. 東京大学出版会 謝時:今回の教育プロクoラムの開発にあたり、市販後使用成績調査の実データを快く提供頂 いた大鵬薬品工業株式会社安全性情報部に対し、心より感謝致します ‑9 7ー 3

104.

表3生存時間解析データ作成のための S A Sプロク、、ラム ぞ ‑M 弘山 れ そー が b 内〆﹄ J いけ一 川ラ ーブ の t ィ 問う HH ラ 寄付 有官 リ名 目 ︑L 占 正 H︐ と ト﹄ F ed n f﹂ υ 景 A 背 2 . の釦 患附す 者 G る ﹁院と 也吊れる 1 0 =・聴覚・前庭障害 ホ変数名を下記とする; 1 0 ='抵抗機障害 o u t p u t 1 0 = '皮膚・皮膚付属器障害 o u t p u t ホ/ キ O E M O G:d ̲ s t a r t(開始日), d u r a t io n(投与日数) キ A E r u n i p a t ie n(症例番号), c l a s s o r g (器官分類), do c c u r(発現日) ネ ;o u t p u t; p r o cs o r td a t a = 0 2 ーーーーーーーーー一一一一 ーーーーーーーー一一一一一一一一一一一一一 b y1 0i p a t ie n run; p r o cs o r td a t a = A E 3 b y[ 0i p a t ie n r u n ー p r o cs o r td a t a=1 i b1 .O E M O Go u t=O E M O G l :b yi p a t i e n: r u n : d a t aS U R V I V A Ll i b1 .s u r v i v a l ;m e r g e0 2A E 3 b y[ 0 p r o cs o r td a t a=[ i b1 .A Eo u t=A E l b yi p a t i e n r u n : i p a t i e n d r o pd ̲ s t a r td u r a t i o nc [ a s s o r gdo c c u r do c c u r 2 d a t aO A T A1:m e rg eO E M O G lA E l b yi p a ti e n i fc e n s o r‑ =0t h e nc e n s o r=1 do c c u r 2=do c c u r ‑ds t a r t i f1 0i n キ〈ー‑ d u r a t i o no fa d m i n i s t r a t i o nu n t i11 s te v e n t ('一般的全身障害 k e e pi p a ti e nd ̲ s t a r td u r a ti o nd ̲ o c c u rd ̲ o c c u r 2 '血小板・出血凝血障害, ,消化管障害 o , ,肝臓・胆管系障害 ',白血E事・網内系障害 c l a s s o r gs e xh e p a t i cr e n a lc o n c o m i td o s ea [ e r g y '代謝・栄予痕 r u n '泌尿器系障害 ' ) i fc e n s o r=0 t h e nt i m e=do c c u r‑ds t a r t: p r o cs o r td a t a = A E 2;b yi p a t i e nc l a s s o r gd ̲ o c c u r 2:r u n: i fs e x=' 男 t h e ns e x 2=0 e [ s es e x 2=1 p r o cs o r td a t a = A E 2n o d u p k e y;b yi p a ti e ncI a s s o r g:r u n: i fa l e r g y='無, t h e na l e r g y 2=0: e l s ea l e r g y 2=1 d a t aA E 3 s e tA E 2 i fh e p a t i c='正常, t h e nh e p a ti c 2=0 i fc l a s s o r g角 = d a t aA E 2 s e tO A T A l e [ s et i m e =d u r a t i o n‑1 r u n 1 0 = c l a s s o r g c e n s o r = O d r o p c[ a s s o r g r u n e l s eh e p a t i c 2=1 i fr e n a l='正常 i fc o n c凹 i t='無 p r o cs o r td a t a = O A T A lo u t = O In o d u p k e y;b yi p a t i e n:r u n: t h e nr e n a l 2=0:e l s er e n a [ 2=1 t h e nc o n c o m 2=0 e1 s ec o n c o m 2=1 d a t a0 2 :s e t0 1 1 0 ='一般的全身障害 o u t p u t 1 0 ='肝臓・胆管系障害 l a b e[i p a t ie n =症例番号. :o u t p u t l a b e1i d =器官分類' 1 0 ='血小板・出血凝血障害 o u t p u t l a b e1t i m e =服薬期間(目)' 1 0 ='消化管障害 o u t p u t 1 a b e1s e x 2 =性見1 1 2 ' 1 0 ='代謝・栄予癌日 o u t p u t l a b e la l e r g y 2 = 体 質2 ' 1 0 ='白血琢・網内系障害 ・ o u t p u t l a b e lh e p a t i c 2='前肝機能' 1 0 ='泌尿器系障害 o u t p u t 1 a b e[r e n a1 2 =前腎機能' 1 a b e[c o n c凹 2 = 併 用 薬 2 ' / キ r u n, 以下 6分類は、実習で省いた 1 0 ='呼吸器系障害 o u t p u t キー一一一 f i n is h一一ーーーーーーーー 1 0 ='赤血琢障害 o u t p u t キ JMP4J で SAS デ-~セット(キ. s d 2 )を読み込む場合、 S A S 1 0 ='中枢・末梢神経系障害 o u t p u t デ-~の変数ラベルが JMP4J の変数名となる 一一一一一一一一ーーーーー; のパu n川︐u

105.

日本 SASユーザー会 (SUG1‑0) JMP4Jを使用した有害事象解析におけるデータ加工 一口ジスティック回帰分析、生存時間解析への導入部分として一 0野 田 昭 夫 * 高 崎 行 雄 料 津 田 克 彦 * * * 阿 1 I 1 智**** *株式会社 SASインスティチュートジャパン ***大鵬薬品工業株式会社 料1 1本ロ、ンュ株式会社 材料アベンティスファーマ株式会社 D a t aP r o c e s s i n gmethodsw i t hJMP4Jf o rt h eA n a l y s i so f A d v e r s eE v e n tD a t a AkioNoda YukioTakahashi** K a t s u h i r oSawada** 安 合 合 柑合 H i r o s h iNishiyama**** SASI n s t i t u t eJapanL t d . **NipponRoche TaihoPharmaceuticalc o ., L t d . * * * * A v e n t i sPharmaL td . 要旨 我々は新医薬品の市販後の集積された有害事象に関連するがJ1 万人の臨床データ(以 下:PMS)のデータマイニングおよび統計解析について、啓蒙的な教育プロク、ラムの開発を行 い、実用化した3 この教育プロク守ラムで、行う課題は SAS(こよって実施可能で、あるが、対象者は E x c e lのような 表計算型ソフトを主に用し、ている人々である 3 そのためにマウス操作主体で、プログラムを組 むことなく分析ができるJMPソフトウ :I̲ア(以下・ JMIコ)が啓蒙的な教育に適していた 3 この教育プロク。ラムで、は、統計モデルを斤]し、た解析の考一え方について、実習を通して習得 するために、 3つの SASデータセット、すなわち「患者の背景」、「症例別有害事象のリスト J、 l 症例別併用薬剤名リスト」を使用している。 JMPは、自由に SASデータセットを読み込め、またそのデータテープ、ルを ExceHこI JI I Iに書 き出す、とし、った機能が備わっている。さらに、多くの有害事象を対象にした効率的な分析の i 空の考え方な ために必要な、マッチマージ、カーテシアン積によるマージ、症例ffi:号ごとの転i どを、小さいデータを1 日し、てデータ } J I I工の演習を試みている。そしてこれらのデータ } J I I J 二 は 、 ロジ、スティック回帰分析、生存 I 時間解析を行う上では欠かせない作業となる J 本論文では、実際にその教育フ。ログ ラムで使用しているデータを佐川して、そこで、行って いるデータ加工について報告する。 キーワード JMPソフトウェア、 PMS、データ加工 9 9ー

106.

はじめに データ解析を行う際に避けて通れない技術がある。それはその解析手法にかけるための データの作成である。一般的に統計解析自体については、必要な変数およびオプションの設 定などで補うため、それほど難しい作業ではないと思われる。ではデータ加工についてはどう であろうか。 E x c e l は実際にとても便利なソフトであることは周知であり、フィルタ機能やピホ ツトテープp P ルなど多機能で、ある。ところが PMSJ Hにデータを加工する場合、復数のファイルを結合すると いった、データを変換する作業は容易ではないことが多い。また、その他のソフトウェアを使用 する場合、プログラミングをしなければならない場合があるが、それは普段プログラミングを行 わない人たちにとって、プログ、ラミングスキルを習得することを最初のステップにしなければなら ないとしづ意味で障害があるといえるつ なお本論文で使用したデータは共同発表者の論文 (1)と同じ使Hl成績調査のデータであ る 。 1 .併用薬剤と副作用発現の関係を検証するためのデータ加工法 われわれが開発した教育プログ.ラムにおいては、多くの m: J! J~ と副作 1 日の関係を調べる 場合にロジスティック回帰分析を使用する。ロジスティック回帰分析を使用する意義について は、他の論文υ {に譲るとして、木章では、ロジスティック回帰分析を行う場合に必要なデ、ータを どのように作成していけばよし、かについて解説する c 1 ‑1 .1 0 0症例以上で処方されている併用薬剤のデータを抽出する i 1 ‑ 1併用薬剤 .JMPJおよび i l ‑ 2背景 . J M P Jとしウ 2つのデータテーブルを使用する。 1 ‑ 1併用薬剤 .JMP 1 0 0

107.
[beta]
1
‑
2背景 .
J
M
P

まず 1
0
0症例以上で使用されている併用薬剤の抽出を行うため、 1
1‑
1併用薬剤 .
J
M
P
jを
変数「薬剤名 Jで要約する。メニューパーより「要約」コマンド を使用して変数「薬剤名 Jで要約
し、作成されたデータを再びメニューパーの「並べ替え J
コマンド、を使用して降順ソートし、変数

I
N
jの値が 1
0
0以上の行を抽出する(1
1
‑
3 併用薬剤数 .
J
M
P
J
)。
1
‑
3併用薬剤数 .
J
M
P

日!ァオヌイリン
川?ミノフィリノ

221

2
1
2
l

日|メフ ~'n. 後

141t'ラペフタゼ

212;
2
1
1:

→ ー ..
ナ

0
0
.
1
円 lフロセミド

I

1
6
1ト ラ ネ キ サ ム f Q 曲
川ファザジン
,
白
川│アセトアミノフ工ノ
,
日 i
円 I
bルパ、ノクロムスルホン駐ナトリウム
,判
•.•• t
‑J~jï
2叶トシ"温度トスフ日キサシン

一一一一一一一一一一一
一一一
一
一 一 一 一 一13一
2川'"昼食シ 1
ロヌロヰザツ:;
8: '
1
221~ 化リソチーム
,日: :
j
…→
ι ' ) '
,.
t
2什ケトフロフェン
133:,
'
2什ヒペラシ I
J
:
ヴトりウム
.~-- -ï12~'
.
.
.
.
1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
)
.
.
.
.
.
.
.
.
.
.
.
.
'
.
.
1
251l
i
r
.
厳
ア
ミhシノ
132: ゥι

<
.
1

守成、正午
全体の百数
週択されて L
'る打数
m外 制 てUる門委食
表 示L
匁レ行数

7
"
¥
l
vff)""Jl、
た1
数
,

とt
l
回

1
1

0
1
1

五l
極プロ辰口二五

仁.•.1百
.
.
.
.
.
.
壷I

2
川ヒペンス Mチペピジン

: はじ汁

.
2
什 ';7ロキワシン

r

1121‑

一
一‑
‑
j
‑
o
T
T斗
← "''c.;i;J
以 立 合 主4
1
三f}

u1
1
".
.
.
.
.
.
.
.
.
.
.
." " 口正ソラロフェン子卜リろ五

0
1
1
‑

一 一
一
寸
ー
一

o
l
W
ι
:
ι
:誌 ':;:'>:λ

必要な併用薬剤名がわかったので、次に 1
[
‑
1併用薬斉]
1
・
.
JM
Pjから、その併

九九

m薬剤を服用

1
‑
1 併用薬剤、)
M
P
Jと1
1
‑
3 併用薬剤数」を変数「薬剤
している症例番号のみを抽出する。 1
名」で、マッチマージさせる。.JMI
コの「結合 Uoio)J
コマンド、で、は、1+¥力時の変数を選択する機能
が備わっているので、変数を選択し出力する。そして、次に「並べ倖え Jコマンドを使用し、変
)
慎ソートする。この )
J
I
I工により、分析に必要な行数が 1
1,
6
1
7行から 7
,
5
1
1
数「症例番号」で昇1

行になる (
1
1
‑
1マッチマージ後 .JMPjL

‑101ー

108.

ト 4 '7ッチマージ後 . JMP 'ソース f:'~~持労10'母、 .;~~k.:.: 片 岡IiI J J t 量 号 阿寮制コード 阿骨組コード 岡lI!訓告 , ' "5 一 事訴 主 体の行動 週 間 きれている行量 腕井きれている行量 11‑4 '7ツチマージ後..IMPjには副作用の有無を表す変数が存在していないため、 11‑2 背景 .JMPjから必要な情報を取得しなければならない。そこで 1 1‑ 4 マッチマージ後 .JMPjと 11‑2 背景 .JMPjを変数「症例番号」でマッチマージする。このとき必要な変数のみ残すように する (11‑5 ~IJ 分割前.J MPj) 。 1‑2. ロジスティック回帰分析用データに加工する 併用薬剤!と副作用の関係を見るために、ロジスティック回帰分析を行うが、「ト 5 ~IJ 分割 前. J M I コ」のままでは解析できないので、ロジスティック回帰分析を行うためのデータに更に加 工する必要がある。 1 ‑ 5 列分;や' J J I I i . J M P u 望副島邑 圃圃園田国圃圃圃圃圃圃圃圃園田園闘窃由説緩語語 河ゆ再語障鍾'~$Wわ'妥 マソス fi~ M : ' V 碑総 同護側.'富 岡劃作用 I A I併用隷 同併用隷到の集制名 まず「ト 5 ~IJ 分割前 .JMPj に値がすべて 11j の新しい変数 INj を追加する。そしてメニュー パーの「テーブル」から「列の分割」コマンド‑を選択して、変数 INjを変数「薬剤名 Jで分割する (11‑6 ~IJ 分割後 .JMPj) 。 102‑

109.

1 ‑ 6列分割後.JMP 同副作用 同併用禁 問?スピリン DLーリジシ 問アセトアミノフェン 同 7ミノフィリン 悶インドメヨシン 問者フロヰt;tシン 回1JJ l r J ¥ソワロムスルホン圃ナトリウム 悶1J J~ ボシステイン 内ケトブロ 7エン 町ジヲロフヱナヲナトリウム ̲ . . . r . . : ' > : : " . : " " ' 子 1 1 ‑ 6: 7 " J ' 分割後 . J M P Jでは、変数「薬剤名」の値が変数名になり、症例番号毎に変数 I N J の値 1 1 Jが横展開された形となっている。このとき、併用していない薬剤については欠測値とな として値を I O Jに変換する必要がある。薬剤名のすべて っているので、「服用していなかった J の変数を選択し、メニューパーの「編集」にある「検索」コマンドを使用して、すべての欠測値を I O Jに置換する ( 1 1 ‑ 7 分析用データ.JMPJ)。 値が夕、ブルバイトの変数の値を、横展開時(JMP では「列の分割」という)に変数名にする 機能は、 JMPのすばらしい機能である。この機能があるために、英数字の変数名への置き換え といった煩雑な作業を省略で、きる。 JMP のロジスティック回帰分析は、ダフ守ルバイトの変数名をそのまま用いることができるた めに、薬剤名がそのまま表示され、結果がし、かにみやすくなるかがわかるだろう。 ト 7分析用データ . J M P 謹逼轟 全主盟主主 'ソース 一一 '努棋羽詰 同症例Ii号 同副作用 問併問寮 [1'1アスピリツ DLーリツン 同アセトアミノフェン 同アミノ7ィリン 同インドメタシン 同オフロヰサシン 回カ"パソヲ口ムヌルホソ圃ナトリウム 悶カルホシステイン 同ケトブロフェン トリウム 同シヲロフヱナ Qj ハ川V ntu 1i

110.
[beta]
2
.副作用発現に対する服用期間の影響を探索するためのデータ加工法

われわれが開発した教育プログ、ラムにおいては、副作用発現に対する服用期間の影響を

探索する手法として生存時間分析を使用している。生存時間分析を使用する意義については、
他の論文句)に譲るとして、本章では、生存時間分析を行う場合に必要なデータの作成方法に
ついて解説する。

2
‑1.生存時間分析用のデータ作成①
r
2
‑
1背景 .
]
M
P
jとr
2
‑
2副作用 .
]
M
P
Jの 2つのテープ、ルがある。これら 2つのテーブルから、
副作用の発現の生存時間分析を、副作用の器官分類ごとに行うためのデータ(r分析前デー
タ.
J
M
P
j
)を作成する。

ゴJ H

・

E
aa‑‑ss

﹂
﹂

aas‑

一二↑こ﹄
γ
‑
a
‑

黒一苦著書
曹哲一哲一智一書膏膏茜膏正
規一言芭賓首茜胴咽咽一晒一胴嗣一晒一惜一朝一時一貫胴嗣苔笥智嗣一
一通預不
‑S 高一週禍
や不 S 事量

J

1111r

阿国日

剖
4dJdl

慶一

⁝︐一一

一

H
J
Z

問りりリリりリりりりりりリ一り
u
u
u︐
︒
室‑
w‑mem宝伺宝伺宝伺窓 窓 窓 窓 宝
mm
‑
a
U時
時
u"川
崎
一
"
同
川
崎
凶
時U時
u"官"w
官
u"
川
崎
一
時u U
m時随
w
m
w
m
w
m
一
田昌隆箇箇箇箇箇瞳陸
箇
昌
一室
障費醐
伸
一
司町司句可可司可可司可司一司・不

程制措判闘相闘闘闘由同制刷一刷判明

一

軒伺匝同富田 . .
白血回週 t
!O)

刊一﹂一一一一一一

・

GPT.HI

町田明

向自国・園内ヰ阻害

‑m'

師 団

E

配偶肘

E 曹~陶宮

1
'
1
¥摂理 2
2

‑788889
88881111
克 w w w w w 出 w w w 叫 w u MMMW
999999999e99‑"""

H
肝
ー
圃
圃
ー
・恒
・曹呆陣苦

m‑‑

72
7i
7
ヨ
2547043317:3
UAhnhNAHhMAAμμMW一
MUM

H国'f!抽書

a
F
a
‑
‑

1
回目

m
‑

回 2
α

副一一一一
・f・一個﹄堕冶 E↑白書.賓有・.一望
有団山県掴山.期間
一一 一 一 一 一
a
m 同 一 一鍋
開
一一十一日
‑周一一一‑
一倒一奇想賓寄
豊富一旦恒賓賓思哩・二
有富一軍書賓・
︐
・
川 U 2 2 . 2 ? 1パ・ 2 7 一
2 2・
一
2 7 2 2 2 !222.2a

<
Z5
J

代...賓降雪

一

fml'l 恒~陣吉

A
‑
‑
r

皮 切O
崎

哩果同宣

34MM一 3 5 a

肝回

晦与一品一一一一一

事 1

合計一}一・!一一一

i(tlO吉 日m
:

勝一山一一一一↑一一

OJf
!
:
GOTよ鼻
GPT
上
、‑<iTP
:
t
.J
I
刷P U
GOT:
t
.M

11 圃毘哩~個室

'
'
'
'
O
'
Z0
7
C
‑
4

向車置陣苦

m

SSE‑
T晶︑百貨一山 7 内 同 日 4 3 ‑ 2 2 3 9 7一

晃"

阻害

↑一一一一‑一一‑一

zg

下痢

0
1
7
1

皮膚'
<
<
1向車置同吉

引 2 H S H Y 幻お幻了
日 一 叩 山 6 同 日 目 的 ω n 日 同 5‑n一
1M↑
W
M一
HHHWMW一
U
W一
M
U‑U一
Mwuuuuuw一
uw‑UU
鈷 ‑uwMWMMWM一
w一
M一
M
W
F
M
w
‑
M
W一
w w一
w一
w一
wu‑u⁝
圏
一UMMWMWMMW一
WUM7u‑
u
日
一
一沼市巾唱団明市一川一一畑山一川一一畑一一削一四一川一哨一明一明叫川一問団一明一 m

嗣

A
‑

A
‑

・1 ‑ 2 E
一一一室︒一‑回一
与一栂一↑一一
M
m ↑隆一
a
m
‑
‑
m
e
&
m m
m
‑
‑
m
c
'耐・ m・a・a
俳民一・南砂 ・a・
E
' J・剛一.南砂耐一ゆ耐.偽一‑
町
惨
耐
.
晶
桶
向
一
=
E正
.高問正正正正一晶
正
a 正↓正正
正正正一尋
・正一写守正広正今正一正↑ 信
m
‑
m
‑・
・
一一一一一一一一↑一↑一一一
肝
4一↑一一一一院一吉一一↑苦言一一一一
ZA‑‑
一一一一度目一一‑随
um‑‑
a
帥‑
6
柄
・ ・耐婚繭硲雨.働砂耐.偽.鋼一 町
一
・
守
一‑
a↑
・
局
一
.
品
開
)
.
耐
.
耐
.
耐 ‑
mm・昼間・耐.剛一単
m・
‑正正
.正正正正.正一正.正一哩↑令一 a
戸正↑正正.正正↑盗掘正正.正予
m
z
同一一一一一一

︒
一

﹀一一

竜野明'

.
s

但2
2

1
1
1 1
揖
8
1
1
0
0
1
0
9

∞ ll.'l!fl
∞
"
. 'R
∞
'
""
.
" 晶
」
一
"
'
""

0
7
5
C

a

8
4
1
100)1
5
1
100)1
9
0
l
82
6
1
!0

1
0
1
¥
1
1
1
1
1
旧日

1
0
4

下嗣

但
2
(
12

J

完抽
j 畳的全身障害
日開問

t

照明司圃圃圃圃圃圃圃圃圃圃圃圃園田醐綿弓き滋綴議
警
ラt
z
'
;
守

2
‑
2副作用 .
J
M
P

L
‑

主一一一一一一一一一一一一ーーー‑連機鱗

も
事

.u

閑
a
由・嵐官邑鍋倒 問門口門ロ・且
m
慣刻 λ
買 E 併与与枯与竃尋守用伶臭
w 轟里‑ .ロ帆k 偽 鼠 " 刷 晶
信
"
匙憐
u芳
a 偽昆剣"副罰"
分町凶民属.邑斗守紬弛除
白
阿
白
阿
ロ
阿n
M白阿白阿白阿白阿白阿白阿 n
川伺阿白阿ロ阿 n閃

匡刷・:;

下風
下嗣

1
1
1叙
I
I 一
害
"
,
珂
"
一
有
,
E
極
化
一
‑
化
化
化
曹
曹
曹阻
防毒

宿泊

副作用者

U

ド
0
7
5
4
高官>l

副~用コ』

2
‑
)背景 .
J
M
P

r
2
‑
2副作用 .
]
M
P
jは、薬剤を服用して副作用が発現した症例についてのデータである。

111.

このデータにおいては、同一症例で複数回の副作用が観察されるため、症例番号はユニーク ではない。そのため、同一症例で発現した副作用の器官分類が重複してしも場合は、それら のうち初回に発現した情報を解析対象データとして抽出する必要がある。 JMP でこのような抽 出をおこなう場合、結合コマンド、を使用する。まず 12‑2 副作用 .JMPJを昇順で変数「症例番 u 冨 作用データ・ソート後 .JMPJ )。次に 12‑2 副作用 .JMPJを変数「症例番号」、「器官分類」で要約する u 副作用データ・ソート後要 号」、「器官分類」、「発現日」の順番で並べ替える 1 約 .JMPJ)。そして「副作用データ・ソート後 .JMPJと「副作用データ・ソート後要約 .JMPJを結合 コマンドで、マッチマージする。この時のキ一変数は変数「症例番号」、「器官分類」である。また、 「副作用データ・ソート後 .JMPJのほうで重複を削除するように指定することを忘れてはならない u 抽出後副作用データ..JMPJ)。次に「抽出後副作用データ .JMPJに新しい変数 1 CensorJ を 0 Jに、副作用が発現していない場合 作成する。この変数は、副作用が発現した場合に値が 1 1Jとなる変数で、ここではすべての値が 1 0 Jの変数を作成する。最後に、 1 2 ‑ 1背 は値が 1 景 .JMPJを加工するときに使用するデータを作成する。先に作成した「副作用データ・ソート後 要約 .JMPJを変数「器官分類」で要約しておく u 器官分類 . Ji v 1PJ)。 2一l 背景 .JMPJの加工に移る。全症例番号と全器官分類の総組合せのデータを作 次に 1 成するために「器官分類 .JMPJと12‑1 背景..JMPJを結合コマンドを使用して、カーテシアン積 J i v l PJ )。データの行数は ( 1 4, 002 行:1 2 ‑ 1 背景 .JMPJ)* でマージする(1背景カーテシアン積 . ( 13行:1 器官分類 .JMPJ)=( 182, 026行:1 背景カーテシアン積..JMPJ)となる。 ここまで作成してきた「抽出後高1作用データ .JMPJと「背景カーテシアン積 .JMPJをキ一変 数「症例番号」、「器官分類」でマッチマージする(1分析前データ .JMPJ下図参照)。 「分析前データ . J M ] > J( 7行のみ抽出) 症例番号 器官分類 開始日 投与日数 発現日 Censor 100001一般的全身嘩害 1990/8/10 1 2 1 . 100002一般的全身障害 1990/7/16 7 1 . 100003一般的全身障害 1990/7/6 1 5 1990/7/12 100004一般的全身障害 1990/7/16 1 0 1 . 100005一般的全身障害 1990/8/13 1 0 1 . 100006一般的全身障害 1990/7/20 4 1 . 100007一般的全身障害 1990/7/23 3 . 1 ‑j05一 。 .

112.

2 ‑ 2 .生 存 時 間 分 析 用 の デ ー タ 作 成 ② J M P Jでは、変数「開始日」のデータタイプが文字値の ここで使用している「分析前データ . 名義尺度となっているため、日付計算できるように数値の連続尺度に変更する。次に変数 r C e n s o r Jの値が欠測値になっているが、これは「服薬期間中に副作用は発現しなかった J こと lJに変換する。 を意味するため、置換コマンド、を使用して値を r 次に変数「観察期間」を作成する。変数「観察期間 J は変数 r C e n s o r Jの値により計算方法 C e n s o r Jの値が r O Jの場合、「副作用が発現した」こと が異なるため、注意が必要である。変数 r の値は「副作用の発現期間」を意味する値を入れる必要が を意味するため、変数「観察期間 J ある。これは、変数「発現日」から変数「開始日」をヲ│し、た計算結果である。逆に変数 r C e n s o r J の値が r lJの場合は、「服薬期間中に副作用は発現しなかった」ことを意味するため、服薬期 間を意味する変数「投与日数」から r lJ引し、た値を代入する。変数「観察期間」を作成するた めの計算式エデ、ィタの記述を下図(変数「観察期間」の計算式エディタ)に示す。 変数「観察 J~I 間」の計算式エデ、イタ ・ 主i E ・ ‑ 一 国 融 機警 ‑ 国j E * i A i m h i I OK 症例醤号 器官分類 開始日 役与回数 発羽田 ごと巴j J m f f l I , , / 1)7 I C e n s o r 観照期間 」土~ 日 B1 根内 WIr VJ BO 品川一口: B 一 九四二一助 h vy 嘉一一一四揖 B 且 υ 円 ZR に e l s e VJ ' C f E nu ココ D~;C~~~二原活一死1== 5 判 =争波多 B銭 ‑1 : 計算式エディタ内の指定で、は、 Day関数を使用している。 Day関数は引数の値から「日」を の日付値が 1 9 0 4年 l 月 l日から秒単位で、持っ 算出する関数である。ここで注意すべきは、 JMP ているとし、うことと、と守の段階で、Day関数を使用するかとし、うことである。 ‑106一

113.

ゴ14SJ ιH 11 一 ︒ 43 一 十 ﹁ l 一十 七 ー斗寸行正 一 8 一 1 一一一一⁝ 一 一 LU‑‑ 1 乙 L144j 明晃一 与 U 1 1 1 1 3 1 1 位 一 wwm 一ト ruffw 一 四 百 一 四 百 一 忠 一 頗一書室吉一書一吉一苦言一宮口書苦書苦言書一宮曹 骨一陣陣陣一陣一陣一陣陣一陣陣陣陣陣陣陣一陣障‑ 官一ほほほ一崎一清一九四清一晴山市同法ヨ一泊四清一ほほ一 ドいで一京﹁一 品一蜘蜘一誌一靴一枇靴一船舶附靴蜘一靴枇一⁝芯・一 ーで﹁一一一↑仁一一ト一‑ ‑一一一同世劃量 mmm M 一一一ゅ一一引創世 ‑ tい い 行 U 一量分回目白羽周一一辺てていワ 前一﹃A K ‑ w 附附必叩 析一一口一個官枯与喧叩需一 uhU 山口札川 骨一ソ列一庄器開投発品観一行一削 阿阿問問 一‑‑主退院昌一チ 一一一一一一一{普通磯鱒蹴 一 号 而 一 一 一 一 一 一 尚 一 説 明 一 兆 一 一 一 一 ⁝ 叩 一 E 二一一三一一二一一一仁 Z同 47‑o‑ 号頗祖ー閤一 ‑ ‑ v ‑ ‑ E 廟 一 豆 町 一 唯 一 日 一 部 一 2 ‑ 3分析前データ . J M P 1 2 ‑ 3分析前データ . J M P Jにおいては、上記のように特定の変数のみを抽出したが、元の デ?ータテープ、ル 1 2 ‑ 1背景 . J M P Jにある変数「性別」や「体質」などの背景要因の検討を行いた い場合、または新しい変数を作成する必要が生じた場合、適切なところでそれらの変数を残す、 もしくは追加するとし、うことに注意を払う必要がある。後は生存時間分析を行うのみである。 終わりに 解析を行う際にもっとも重要なことは、解析者が何を目的としてどのような解析を行おうとし ているのか、ということであろう。そしてそれらの解析を行う上で、もっとも時間を要するのが、解 析用のデータを作成するデータ加工部分あるとし、える。 PMS 関係者の取り扱っているデータ は、ほとんどの場合において統計解析に適した形ではなしせ思われる。仮に、解析に適した形 でデータが手元に来たとしても、解析を行っていく聞に出てくる疑問を更に解析するためには、 新たな変数が必要となる場合が生じ、「データの加工」としづ作業が発生することになると考え られる。 そのデータ加工になるべく時間を割くことなく、本来の解析に時間を害1くために、 JMPは有 用である。それは JMPが備えている機能性でもあり、またプログラミングをせずともデータ加工 を行えるとしづ特長であると言える。 最後にJMP などの GUIベースの解析は探索的な解析であり、規制当局などに提出するよう な公式文書の結果として用いる場合には、その結果の再現性を確保するためにJMP スクリプト (プログラム、マクロ)化することが肝要であると考える。 本論文では、紙面の制約があるために、特に PMSの解析を行う際に使用するロジスティッ ク回帰分析および、生存時間分析を行う場合に必要なデータ加工方法に焦点を当てたが、開 ‑]07‑

114.

発したプログラムではその他にもしてつかのデータ加工方法について解説をしている。 MS関係者が自身でデータ解析用のデータ加工を行う、その一助となれば この機会が、 P 幸いである。 謝辞:今回の教育プログラムの開発にあたり、市販後使用成績調査の実データを快く提供頂 いた大鵬薬品工業株式会社安全性情報部に対し、心より感謝致します。 参考文献 ( 1 )津田克彦,高橋行雄,西山智,野田昭夫 ( 2 0 0 2 ) .j M P 4 j によるロジスティック回帰分析 A Sユーザー会論文集. の教育. 日本 S ( 2 )西山智,高橋行雄,津田克彦,野田昭夫 ( 2 0 0 2 ) .j M P 4 jを使用した有害事象の生存時 A Sユーザー会論文集. 問解析の教育. 日本 S 1 0 8一

115.

口頭論文発表 統計解析(チュートリアル)

116.

日本 SASユーザー会 (SUG1‑0) V .8における生存時間解析関連プロシジャの機能拡張 0 浜田知久馬* * 東京理科大学工学部経営工学科 E x t e n s i o no fSAS P r o c e d u r e s f o rs u r v i v a la n a l y s i si n V.8 C h i k u m aH a m a d a T o k y oU n i v e r s i t yo fS c i e n c e a g u r a z a k a,S h i n j y u k u ‑ k u,T o k y o, 1 6 2 ‑ 8 6 0 1 1 ‑ 3,K 要旨 S A S V 8 . 2における機能拡張によって,生存時間解析関連のプロシジャにいくつかの重要な新機 能が加わった. C o xの比例ハザード モデルによる生存時間解析を行う P H R E Gプロシジャでは, C O V S A N D W I C Hオプシヨ ンが加わり,この機能によってスコア残差統計量に基づいてパラメータ推定値のロバストな標準誤 差を計算することが可能になった.P H R E Gでは,ロバスト分散を用いて,個々のパラメータ推定値が O であるかの W a l d検定,総括的帰無仮説(全てのパラメータが O であるか)の W a l d検定とスコア検定, T E S T文によるパラメータの線型仮説の検定が可能である.ロバスト分散は,再発事象等,独立性が成り立 たない場合について生存時間解析をする際に有用である. ワイブ.ル分布等のパラメトリックな生存時間分布を仮定して,加速モデルに基づいて解析を行な うL I F E R E Gプロシジャでは, M O D E L文で交互作用項を定義することが可能になり,より柔軟にモデ、ルを 構築することが可能になった.また P R O B P L O T文によって,モデルあてはめを行った結果を視覚的に評 価する機能も充実した.モデルによって推定した累積生存時間分布とその信頼区間を,ノンパラメト リックな経験分布と比較することは,モデルを構築するために重要な示唆を与える.特に二重対数プ ロットは分布形やモデルのあてはまりについて視覚的に様々な情報を提供する.また C o x ‑ S n e l l残 差も出力できるようになった. 本稿では,チュートリアルとして,生存時間解析の代表的なモデルで、ある,比例ハザードモデ ル と加速モデ ルについて特徴・違いを解説するとともに, V 8 .2 の新機能について紹介する. H R E G L I F E R E G ロバスト分散加速モデ、ル キーワード:P 2 重対数プロット 論文概略 生存時間解析の代表的なモテ、ルで、ある,比例ハザード、モデルと加速モデ、ルについて概説するとと H R E Gのロバスト分散の計算, L I F E R E Gの累積分布プロット等の V . 8の新機能について紹介する. もに, P 1 1i l

117.
[beta]
1.はじめに
医薬分野では,カプランマイヤ一法,ログランク検定, Cox[司 ~m 等の生存時間解析手法が,標準的な
統計手法として定着した.特に生存時間分布を特定しないで、も解析を行うことができる Coxの比例ハ
ザード モデ、ルは,ヘテロな人間集団を記述するモデルとして有用であり,臨床統計では頻用されて
いる.これに対し基準生存時間分布として物理的モテ守ルを想定しやすい工学分野では, ワイフツレ分

2つ
布等の特定なパラメトリック分布を仮定した加速モテ守ルを用いて解析が行なわれることが多い .
のモデ

ルには一長一短がある.本稿ではチュートリアルとして生存時間解析の代表的な 2つのモデ

ルで、ある比例ハザードモデルと加速モデ、ルの特徴と違いについて解説する.

S
A
Sで、はそれぞれのモデ、/レを用し、た解析用に P
I
I
R
E
G,L
I
F
E
R
E
Gが用意されているが,

リリース 8
.2か

ら機能拡張がなされ,前者ではロバスト分散の計算,後者では MODEL文で交互作用項を定義するこ
とが可能になり,より柔軟にモテツレを構築することが可能になった.また PROsPLOT文によって,モデ
ルのあてはめを行った結果を,視覚的に評価する機能も充実した.これらの新機能についても紹介
する.

2
.比例ハザードモデ、ルと加速モデ、ル
生存時間解析の代表的な 2つのモデルである比例ハザード、モデル (proportiona1 hazard mode1)
と加速モデ ル (acc巴l巴rated failure tim巴mode1
)の特徴と接点について解説する.比例ハザードモ
テ守ルはある l
瞬間に死亡する確率であるハザード関数 h (t) について,次のモデ、ルを想定する.

h (t) =ho (t) ・e x p (sTZ)
ニ

ここで

h0 (t) ・e x p (s,
Z,
+s2Z2+ ・・・ +s"z,
,
)

(
1
)

zは p次元の共変量ベクトル , sは共変量の効果を表す p次元のパラメータベクトルで

ある.本稿ではベクトノレはイタリックの小文字,行列はイタリックの大文字で表すことにする.ま
) (t) は,基準人(zが0ベクトルで、ある仮想的な人間)のハザード関数である.
た h(

これに対し加速モデ ルで、は,共変量の);{:;響で、死亡までの時間ο
Tが定数倍になる.

T=
T
υ ・exp (sTz)
=To. e x p (s,Z,
+s2Z2+ ・・・ +s"z,
,
)

(
2
)

加速モデ ルが生存時間を直接モデルイじするのに対して,比例ハザードモデルでは時間の逆数の次
元を持つハザードに対してモテ守ルイじするので,共変量の影響は全く反対になる.すなわち死亡のリ

HREGとL
I
F
スクが上がって生存時間が短くなれば,逆にハザードは上がることになる. したがって P
E
R
E
Gが出力するパラメータ推定値の符号は反対になる.パラメータ推定値を指数の肩に乗せた巴 xp
(s)は,比例ハザードモデルで、はハザード比, j
)[J速モテ守ルで、は生存時間が何倍になるかを示してい

る.比例ハザード、モデ、ルと加速モデルの違いを図 lに模式的に示した.
寺1日関数に対する影響を考えるとより明確になる.比例
この 2つのモテ守ルの違いは共変量の生存 H
ノ、ザード、モデ ルの下で、は,生存関数は次のようになる.
S (t) ニ S
o (t)
p(p'z)

(
3
)

c>

例えば巴 Xp(sTz)=aだとすると,共変量の影響でどの日寺点でも生存関数が a釆=になることになる.
S (t) は O~l の問の値なので

a >1のときは(ハザードが上がるので)生存時間が減少するし,

a<1のときは(ハザードが下がるので)延命することになる.すなわち比例ハザードモデルでは縦

軸の方が a采
ー
に{
r
j1び縮みする.
)
1
1速モデ、ルの下では生存関数は次のようになる.
これに対し, )

S (t) =So (L/c x p (sTz) )

(
4
)

加速モデ ルて、は,横軸の時間軸が伸縮する.仮に巴 Xp(sTZ) 2だとすると,共変量の影響で時間
二

︼

1η/
1

118.

ウ ム tT 一一一 c d一 +し一 c d レ ﹃中 旬 判 モ' E 門HH 明 日H 速一 比例ハザードモデル S (t)= S0(t)2 土 、 to 0.0 0.1 。 。 。 0.0 0 二重対数プロット 比例ハザードモデル l o g (l o g ( S ) ) l o g ( ‑ l o g ( S ) ) ー 二重対数プロット 加速ハザードモデル sph 垂直方向に 水平方向に 平行移動 平行移動 s, l o g ( t i m e ) l o g ( t i m e ) 二重対数プロット 二重対数プロット lψ 1 )横軸:l o g ( t i m e ) 縦軸 : l o g (ーl o g ( S ) ) 2 )比例ハザードモデルのとき,上下に平行移動 3 )加速モデルのとさ左右に平行移動 4)ワイブル分布のときは直線 (上下.左右に同時に並行移動) 比例ハザードかつ加速モデル ‑s( 加速)/a= s( 比例) ‑s( 加速) γ = s( 比例) l o g ( t i m c ) 図 1 加速モデ、ルと比例ノ¥ザードモデル 一113

119.

軸が 1 / 2倍になり, 同じ生存率を与える時聞が t→ 2tに変化するので生存時間が延びるし, exp (βTz)が 1 / 2だとすると,同じ生存率を与える時聞が t→ 0 . 5tになるので生存時聞が短くなる. さて数理的には比例ハザード モテ、ルと加速モデルには接点があり,共変量の影響が,加速モデルで、 も,比例ハザード・モデ、ルで、も表現できる分布はワイフ守ル分布に限られることが知られている ( K a l b f l e i s c ha n d Prentice 2章 参 照 ) . 基準分布がワイブル分布に近い場合には,後で説明するように, 2つのモデノレ問のパラメータに は次に示すような関係がほぼ成り立つ. 一日(加速モデ、ル) s( 比例ハザード) ' 7 ( 5 ) a ( I J [I速モデ、ル) ここで Hは,それぞれのモデルの下で共変量に対するパラメータ , aは尺度母数であり,ワイブ ル分布の下で、は形状母数 γの逆数となる. さて,この 2 つのモデルの違いは, 2 重対数プロットによって明確に特徴付けられる. 2 重対数プ ロットとは l o g(時間)を横軸, l o g一 (l o g(生存率))を縦軸にとったグラフである.比例ハザードモデ 3 )式より ルでは, ( l o g( ‑ l o g( S( t ) )s T z + l o g ( ‑ l o g ( S o ( t ) ) 二 ( 6 ) となる. したがってプロットが共変量の影響で上下方向に sTZ平行移動する.これに対し,加速 モデルで、は , ( 2 )式の対数をとることにより l o g T =l o g T0+sTz ( 7 ) となる. したがって左右の方向に βT Z平行移動する.特にワイブ、ル分ギIiで、は生存 H 寺間関数 S( t ) e 二 xp(‑; t t>)であるので l o g ( ‑ l o g ( S ( t ) ) = l o gλ+γlogt ( 8 ) となる.したがって 2重対数プロットは傾き γ の直線になる.直線であれば,垂直方向に平行移動す 重対数プロ れば,水平方向にも同時に平行移動することになる.したがってワイフ守ル分布だけは, 2 ットが直線になるために,比例ハザードモデ、ルとあると同時に加速モデ、ルになる. 2重対数プロットではワイフソレ分布は傾き γ の直綿になる.したがって図 1の右下における 2つの ま,水平方向の距離 s "を一 γ倍したものになる.これらのパラメータ 直線開の垂直方向の距離 sphl は,それぞれハザード比,生存時間の長さの比の対数をとったものを表す. f f l Jハザードモテールの最大の利点は h0 ( t)に特定の分布を仮定しないでも,部分尤度に基づいて 比f 共変量の生存時間に対する効果 (s)を推定できる点にある.共変量の影響についてはパラメトリッ クな仮定が必要であるが,生存時間分布については特定の分布を仮定する必要がなく,パラとノンパ J [ 名セミパラメトリックモデ、ルと呼ばれる. ラの中間的手法ということで,比{列ハザードモデ ルは5] これに対して加速モテcルで、は基準となる生存時間分布を明示的に指定しなければならない.L I F E R E G ではワイブ、ル分布,対数ロジスティック分布等が選択できる.工学の分野では,故障メカニズムから 特定の分布を物理的に選択できる場合が多いが,異質性の高い患者を対象としている臨床研究では, 基準分布を選択することや,選択した分布が適合しているかを評価することが困難である.パラメト リックな解析では結果の妥当性は仮定したモデルの妥当性に完全に依存する. ただしモデルがあてはまっていることを前提にできれば,パラメトリックモデルで、はより柔軟な 解析を行なうことができる.例えば,加速モテ守ルで、は右{l¥I]打切りのみならず,左側打切り・区間打切 りを扱うことも容易である.実際に L I F E R E Gでは,これらの打切りデータについても,対応することが L I F E R E Gでは O U T P U T文で生 可能である.また各個人について生存関数を予測することも容易である.( 存関数の推定値及び信頼区間をデータセットに落すことも可能であるし, P R O s P L O T文でグラフ化す 1 1 4

120.

ることもできる. ) 更に一般になじみが研く理解しにくいハザードという概念を持ち出す必要が なく 1 1 寺間が定数倍になると解釈できるので,臨床医にとっては,よりわかりやすいモデルといえ よう.またモテ守ルが適合している場合,生存時間の順位情報しか利用しなし、 Cox回帰よりも効率が よくなることも期待できる.このように 2つの解析法は一長一短があり,実際のデータ解析の場面 では両者の特徴を理解しつつ,相補的に利用する必要がある. 3.Cox回帰におけるロバスト分散 PHREGプロシジャにリリース 8 .2から, COVSANDWICl!オプションが加わり,この機能によってスコア 残差統計量に基づいてパラメータ推定値のロバストな標準誤差を計算することが可能になった.簡 甘いて例示する.ロバスト分散を用いないプログラム例は表 1ようになる. 単な例を J 表 1 プログラム P ! lI ¥ EGの計算例 内 d Fh︐ U 守︐︐ ︽ nhu nU t‑nt qLFhv n t a斗 tint nbtlqd ハ V4EanJL r f l a斗 ︐ ‑ l n u data t e s t ; i n p u tg i d t @@; proc phreg data=test m o d e lt = g ; 仮想的なデータとして 1 群 , 2群それぞれ N 3からなるデータを想定する.群を識別する変数が g 二 で , IDが計 6人の個体を識別する変数である.実行結果は表 2のようになる.もちろん Nが小さいの で結果は有意とならないが,パラメータ推定値は負なので第 2群の方のハザードが低し、(生存1 1 寺問が 長い). 表 2 出力 PHREGの計算例 A n a l y s i so fM a x i m u mL i k e li h o o dE s t i m a t e s P a r a m e t e r S t a n d a r d C h i S q V a r i a b l e D F E s t i m a t e E r r o r C h i ‑ S q u a r e P r> H a z a r d R a t i o E 1 ‑ 0 . 8 6 0 5 7 0 . 4 2 3 0 . 9 3 2 5 1 0 . 8 5 1 7 0 . 3 5 6 1 これに対しロバストなサンドイツチ分散に基づいた解析を行う場合は, PROC PHREG文で COVSANDWICl!(または COVS)オプションを指定する.プログラム例は表 3のようになる. 表 3 プログラム PHREGのサンドイツチ分散の計算例 proc phreg data=test covsandwich; m o d e lt = g ; 結果は表 4のようになる. 表 4 出力 PHREGのサンドイツチ分散の計算例 A n a l y s i so fM a x i m u mL i k e li h o o dE s t i m a t e s P a r a m e t e r S t a n d a r dS t d E r r C h i S q V a r i a b l eD F E s t i m a t e E r r o r R a t i oC h i ‑ S q u a r eP r> H a z a r d R a t i o E 1‑ 0 . 8 6 0 5 7 0 . 4 2 3 0 . 7 9 8 1 1 0 . 8 5 6 1 .1 6 2 7 0 . 2 8 0 9 パラメータ推定値の値は変わらないが,標準誤差が表 2 と比べて, 0.93251から 0.79811に低下し ている.ロバスト分散は標準誤差を 2来ーした 0.798112=0.63698である.通常の標準誤差とロバスト な標準誤差との比が StdErr Ratio(0.79811/0.93251=0.856)として出力されている.この例では標準誤差 がO .856倍小さくなり,これに伴いカイ 2釆統計量は(1/0.856)2になり p値はノl 、さくなる.このロ バスト分散は, DFsETA統計量と密接な関係がある. DFsETA統計量とはその観測値を除いたときのパ 1 1 5ー

121.

ラメータ推定値の変化の大きさを近似するものである. PHREGプロシジャでは OUTPUT文で DfBETAニ 変 数名オプションにより指定した変数に DfBETA統計量を出力することができる. DFBETA統計量を出力 するためには表 3のプログラムに次の 1文を追加すればよい. output out=out dfbeta=dfb1; データセット OUTの変数 DFB1にDFBETA統計量がおとされる.データセット OUTの内容を PRINTプロ シジャで出力すると表 5のようになる 表 5 出力 DfBETA統計量 O B S i d t E 2 3 4 5 2 3 4 5 2 5 3 4 2 2 d f b 1 ‑ 0 .1 9 7 9 1 ‑ 0 .1 7 3 7 2 0 . 5 1 7 2 0 O .1 8 2 4 5 O .1 6 2 3 3 6 6 2 ‑ 0 . 4 9 0 4 0 このデータでは 6番の個体の変数 DFB1が負の方向で最も大きくなっている.この個体は群 2のうち で,生存時間が最大の個体で与あり,この個体を除くと 2 群の死亡のリスクは増大する.このパラメー タ推定値の変化ム 1=b‑b(l)をDf3 IETA統計量は近似している.ロバスト分散は 6人の個体の DFBETA 統計量の 2乗和に等しく ( ‑ 0 . 1 9 7 9 0斗 ( ‑ 0 . 1 7 3 7 2 ) 2 + ( 0 . 5 1 7 20 ) 2 + ( 0. 1 8 2 4 5 )斗 ( 0 .1 6 2 3 3 )斗 ( ‑ 0 .4 9 0 40 ) 2=O .7 9 8 1 12 =O .6 3 6 9 8 となる. さて次にデータセット TESTから. OUTPUT文を使って同ーの観測値を 2回出力させたデータセット丁 目 T2を作成する.このデータを P l l E E Gで解析するプログラムと出力は次のようになる. 表 6 プログラム PHREGの計算例(データセット TEST2・N=12) data test2;set t e s t ; output;output; proc phreg data=test2 m o d e lt ニg . 表 7 出力 V a r i a b l巴 E P l l E E Gの計算例(データセット TEST2:N=12) A n a l y s i so fM a x i m u mL i k e li h o o dE s t i m a t e s e r S t a n d a r d P a r a m日t D F E s t i m a t巴 E r r o r C h i ‑ S q u a r巴 P r >C h i S q ‑ 0 . 8 6 0 5 7 0 . 6 5 9 3 8 1 .7 0 3 3 0 . 1 9 1 9 H a z a r d R a t i o 0 . 4 2 3 N=6のとき(表 2)とパラメータ推定値は変わらないが. Nが2倍になるので,標準誤差は 1 /. . ( 2 . カ イ2乗統計量は 2倍になり,有意性がより強くなる.これに対し,ロバスト分散を用いた解析のプロ グラムと結果は,それぞれ表 8と表 9のようになる. 表 8 プログラム 刊I R E Gのサンドイツチ分散の計算例(データセット TEST2:N=12) proc phreg data=test2 covs(aggregate); m o d e lt = g ; i di d ; output out=out dfbetaニd f b 1; 検定を含めて N=6のとき(表 4)と結果が全く変わっていない.これはどうしてだろうか? P H l i E G では 1D文で,個体の識別変数を指定することにより,再発事象を定義できる.このデータでは,同 じ観測依を 2回山力している.したがって,各個体が同じイベン卜を同じ時間に 2回起こしているこ とになる. Fhu ‑ ‑ l

122.

表9 I U ) J P II iEGのサンドイツチ分散の計算例(データセット TEST2:N=1 2 ) A n a l y s i so fM a x i m u mL i k e li h o o dE s t i m a t e s P a r a m e t e r S t a n d a r dS t d E r r H a z a r d V a r i a b l eD F E s t i m a t e E r r o r R a t i oC h i ‑ S q u a r eP r>C h i S q R a t i o g 1‑ 0 . 8 6 0 5 7 0 . 7 9 8 1 1 1 . 21 0 1 .1 6 2 7 0 . 2 8 0 9 0 . 4 2 3 したがって 2回の再発事象は相聞が l で独立ではなく,複数回の観測を行なったとしても情報量の 増分はない.表 7の独立だとみなした解析結果は,明らかに情報量を過大(分散を過小)に評価して I I R E G文で, c o v s ( a g g r e g a t e )を指定しているが,これはサンドイ いる.表 8のプログラムは PIWC P D文で指定した個体の単位で集計を行うための指定である. 1 2個の観 ツチ型分散を計算する際に, I 測値の DFBETA統計量は次のようになる N=1 2 ) 表 10 出力 DFsETA統計量(データセット TEST2: d t E d f b 1 O B S i ‑ 0 . 0 9 8 9 5 ‑ 0 . 0 9 8 9 5 2 ‑ 0 . 0 8 6 8 6 3 2 2 ‑ 0 . 0 8 6 8 6 4 2 2 5 3 5 O .2 5 8 6 0 O .2 5 8 6 0 6 3 5 7 4 3 2 0 . 0 9 1 2 2 0 . 0 9 1 2 2 8 4 3 2 0 . 0 8 1 1 6 9 5 4 2 5 4 2 0 . 0 8 1 1 6 1 0 0 .2 4 5 2 0 6 7 2 ‑ 1 1 1 2 6 7 2 ‑ 0 .2 4 5 2 0 倍に増え,個々の観測値の影特 J J [が半分に低下するため, Nニ6の場合と比べて Dド I 3ETA統計量 Nが2 は正確に半分になる. A G G l i E G A T Eオプションを指定しない場合, DF3 IETA統計量の 2乗和がロバスト分 散となり, N=6のときと比べて,分散は 1 / 2,カイ 2乗統計量は 2倍になる.これに対し A G G l i E G A T Eオ プションを指定した場合, I Dを単位とした集計を行ない,個体ごとに DF3 IETA統計量の和を計算して, Nニ 6に直してから 2乗和を計算する. したがって N=6の場合と結果は変わらなくなる.データの独立 した単位は似体であるので,影響j 支 を i J ! l J るときには,個体を単位とした:tIミー計をしなければならない. Jackknif巴推定量とロバスト分散 ロバスト分散の妥当性は Jackknifc推定量との関連からも導くことができる. 任意の統計量を Jとすると,その分散の Jackknife推定量 VJは次のようになる. VJ=工 o(i)‑J(・))2(N一I)/N ( 9 ) J( i ) : i番目の観測値を除いた推定値 J (・ )= L :J( i )/ N (:H)/Nの項は Nが大きくなれば lに近づき,また J (・ ) も N個のデータ全体を使って求めた推定 値に近くなることが期待できるので,これは近似的に DF3 IETA統計量の 2乗手1 Iと考えることができ を示す. るー最も簡単な例として,算術平均の Jackkni[e分散を計算する伊l ( X .( i )‑X.・ ())=(X.(i)‑X.) 二(工 Xj‑Xi)/( N ‑ I )一(L :Xj )/N 二 ( N(L :Xj )‑N Xi一 ( N一1 ) (L :Xj ))/(N(N‑l)) =(工 Xj‑NXi)/(N(N‑I))=(X.‑Xi)/(N 一1 ) X .( i )‑X.・ ())2(N‑l)/N=工 ( X .‑Xi)2/( N( N一1 )) VJ=工 ( lli‑

123.

=SE2 以上のように簡単な代数計算により, Jackkoife分散は通常の平均値の標準誤差 ( S E )の2乗に一 致することがわかる. さて文字通りの Jackkoife分散を計算するには,それぞれの観測値を除いて N回の回帰分析を行な う必要がある.Cox回帰の場合,それぞれのパラメータ推定値を計算するのに,反復計算が必要であ り,計算の負荷がかなりかかる.このため PHREGで計算するのは,反復計算を l 回だけ行なう近似的 な値である.以下では DFBETA統計量の近似の理論的背景について解説する. p個のパラメータが存在し,この推定値を p X1 のベクトノレ bで、表すことにする .bはニュートン +1 回目の反復計算の推定値札 lとk回目の反復計算 ラプソン法による反復計算によって求められ, k の推定値久には,次の 関係式が成り立つ. b k' i = bk+I(bk ) ‑IU(bk ) ( 9 ) L 1b ( 1 0 ) 二 bk<[‑bk=I(bJ1U(bk ) ここで , Uは対数尤度をパラメータベクトルで、微分した pX1 のスコアベクトル,Ilま対数尤度をパ ラメータベクトルで、 2 階微分してマイナスをとった, p XPの観察情報行列である. Si: 各個人のスコア Uへの寄与を表すのスコア残差の ( pX 1 )のベクトル(T.s i = U) をN行並べた NXpの行列 S:S/ とすると, L 1bは次のように書き直すことができる. L 1b=( I‑1S乃1=DT1 ( 11 ) A bl=I I S I :DFBETA統計量 ( 1 2 ) D=SI I :N×pの行列 1:要素 l のNX1のベクトル 個々の観測値のパラメータ推定値への寄与はL1b iとなり, これが PHREGで出力される DFBETA統 計量である. 各変数の DFBETA統計量の 2乗を観測値の個数分足し合わせる操作は,行列を用いて次のように表 現できる. ZA b l A b lLP1b=I If ; g T s jI ‑ I . ( 1 3 ) このようにして計算されたのがロバスト分散である.またこの統計量はダ5を 11がはさみこむ形 式になっているので,サンドイツチ型分散とよばれる. PHREGプロ、ンジャでは, COVSANDWICHオプションを指定することにより,個々の推定値をロバスト 分散の平方根をとった標準誤差と比較して,有意であるか評価する Wald検 定 の 他 に 複 数 の パ ラ メ ータが同時に 0であるか評価するロバストな総括的な検定の結果も出力される.例えば,データセ ット T E S T fこPHREGプロシジャを適用すると,次のような総括的検定の結果(表 11)も出力される. 表 11 出力 PHREGのロバストな総括的検定 T e s t i n gG l o b a lN u lIH y p o t h e s i s :B E T A = O T e s t C h i ‑ S q u a r e D F h i S q P r>C 0 . 3 4 9 8 L i k e l i h o o dR a t i o 0 . 8 7 4 3 0 . 3 4 3 0 S c o r e 0 . 8 9 9 0 0 . 2 5 8 0 M o d i f i e dS c o r e 1 . 2 7 9 4 W a l d 1 . 2 1 5 9 1 0 . 2 7 0 2 c o r e(スコア検定)は通常の尤度原理に基づいたロバスト分散を L i k e li h o o dR a t i o (尤度比検定)と, S 用いない検定の結果である.これに対して, Wald検定はロバスト分散を用いた総括的検定であり, 定式化すると次のようになる. U 7よ 1 バ ︒

124.

ロバスト WaldX2=bT( DTD)‑1 b I bT(1 ‑1 (STS)1‑IF b ニ ( 1 4 ) 通常の Wald検定ではパラメータ推定値の分散共分散行列として,情報行列の逆行列(1‑ 1 )を用 いるが,ここでは,ロバスト分散 (DT D )を用いている.ただし,この場合はパラメータ数が lつで あるので DTDI はスカラーになり,パラメータ推定値が 0であるかを帰無仮説とする Wald検定に一致 する.尤度原理に基づくスコア検定は,パラメータに対する対数尤度の傾きを表すスコア関数が 0 であるかを評価するものである.スコア検定を先の表記に基づいて定式化すると ScoreX2=UT1 ‑U / =[ 1TSJ l‑[ST1J 1 ( 1 5 ) となる.ただしスコアベクトル (u)と情報行列(1)は帰無仮説 β =00 コ下で評価している この式は次のように害き直すことができる. I / Score平2 =[ 1TSI‑J1 [l‑ST1J I ここで;Iの代わりに印TDF= ( 1‑1βTS)1‑1) ‑1を代入すると,ロパス卜なスコア検定を構成でき, P I I I ¥ E Gで 、 は "ModifiedScore‑とラベルされて出力される. ロバスト ScoreX2=[ 1Tsl‑/J ( 1 ‑1(STS)1勺‑1 [ 1‑ I S T 1 J [ 1Ts1‑ / J( 1βTS)‑11 I S T 1 J )[1‑ 二 I [ 1TSJ(βTsF)[ST1J 二 2 したがってロバスト Scor巴 X は ( 1 6 ) スコア統計ー量のみに基づいて計算できる.各個体のスコア統計 量への寄与は ,OUTPUT文で RESSCOI¥E=変数名オプションを指定することにより任意の変数に出力す ることができる. PHREGでは,この統計量をスコア残差と呼んで九、る.スコア残差の計算プログラ ム例を表 12に示す. 表 12 プログラム ロパス卜なスコア検定 proc phreg data=test covssandwich ; m o d e l t=g/maxiterニ0 i di d output out=score resscore=score; proc print; proc means data=score ; v a r score;output out=score sum=sum uss=v; data score;set score; 料 2 / v ; X2=sum ~lODEL 文で, MAXITER=Oオプションを指定しているのは帰無仮説の下で,スコア残差の値を評価す るためで,この指定を行なうことにより,反復計算を一度も行わない場合の推定結果が出力される スコア残差を含んだデータセット SCOREをPRINTプ口、ンジャで出力した結果は次のようになる. 表 13 出力 O B S 1 2 3 4 5 スコア残差 i d t 1 1 2 2 3 5 4 3 5 4 g 1 1 1 2 2 s c o r e ‑ 0 .4 1 6 6 7 ‑ 0 . 3 9 6 6 7 O .3 6 3 0 6 0 . 0 2 4 1 7 ‑ 0 . 0 0 3 6 1 6 6 7 2 ‑ 0 . 5 8 6 9 4 この例では,パラメータは lつだけなので, (1 6) 式で 1T~はスコア残差の和, (STS)は2乗和にな る.プログラムでは, ME^NSプロシジャを利用してこれらの統計量を計算し,それぞれを変数 SUM, Vとして出力している.結局,ロパス卜 Scor巴 X2( smNY)は次のようになる. ハ 同J 1i l

125.

表 14 出力 ロバストなスコア検定 F R E Q O B S T Y P E s u m 6 O ー 1 . 0 1 6 6 7 V x 2 0 . 8 0 7 8 7 1 . 2 7 9 4 3 これは確かに, PHREGプロシジャが出力する M o di fi e dS c o r e1 .2 7 9 4 ( 表 11)に一致している. ‑ロバスト分散の適用例 inとW e i( 19 8 9 )は,モデルに対して重要な共変量を含めない ロバスト分散の適用場面について, L と,通常の Wald検定は名義有意水準が保持されないが,ロバスト分散を用いると名義有意水準が保 たれることをシミュレーションによって示している.もう 1つの重要な応用例は,独立でーはない生 存時間データを解析する場合である.相聞がある生存時間の代表例は,一人の個体に繰り返しイベ ントが起きる再発事象データの解析である.表在性!傍脱癌の再発, I 情息・てんかん発作の繰り返し, 白血病による発熱の再発等,医薬分野では様々な応用が考えられる.このような多重イベントデー タの解析法として,様々なアプローチが提案されているが, P I I R E Gではリリース 6 .1 0以降, AG(And巴 r s巴 na n d Gill(1982))モデル, PWP(Prentic , 巴 Williams and P巴t巴rson( 19 8 1 ) )モデル, WLW(Wei,L i n and W巴issfeld( 19 8 9 ) )モデルによる解析が可能になった.本稿では AGモデルについて,ロバス ト分散を利用した解析例を紹介する. PHREGでは MODEL文で次のような再発事象型のデータを扱うための構文が可能である. MODEL(t1,t 2 ) *打切り変数(打切り値のリスト)=説明変数のリスト/オプション・ MODEL文では,イベント時間変数,説明変数,存在すれば打切り変数(+打切り値のリスト)の 3 つの変数の組を指定するの記号の前にイベント時間変数を指定し,対象者がリスクにさらされ ていた期間の半開区間(Tl, T 2 ) のはじめと終わりを示す. 2つの変数の名前を()で囲み, (アスタリスク)の後で打切り変数の名前, * ()で囲って打切り値を示す.打切り変数の値がこれ らの値をとる場合は時点目で打切られたものとして扱うの符号の後ろの変数はモテツレの説明変 数である • る {~Il 題として, PHREGプロシジャのマニュアルに記載されている j j 芳脱癌の再発を取り上げ このデータは 86人のデータからなり,最大 4回の再発を起こした個体が存在する. 例えば, 3, 1 0, 1 5週の時点で腫療を再発し, 2 3週までフォローされた患者(lD = 5 )がし、るとしよ う.説明変数は TRT(treatment),SIZE(初期の腫湯の大きさ), NU ¥ 1 BER(初期のj j 車場の数)である.こ , l Z 2は ( 1 , 1 ,3 )である.データは次の 4つの観測値によって表すことがで の患者について, TRT,Z きる. 表 15 再発事象データの例示 T S T O P S T A T U S T R T S I Z E Nm l BE R υ υ 内︽ υ ﹁町 内︽ υ ﹁町 。 ︽ υη υ ll υ ﹁町 ハ UnJnURυ ﹁ h J u ︑ 町 T S T A R T ︒J ハ‑ULR1Ui n r﹃&υ I D ( T S T A R T, T S T O P )はその個体がリスクにさらされていた区間を示すものとする.変数 STATUSはTSTO PのH 寺点で再発が起きたかどうかを示す打切り変数である. 1は腫壌の再発を意味し, 0は再発が 起きてないことを示す. PHREGプロシジャは多重ハザード モテずルをあてはめる.通常のロバスト分 散を用いないプログラム例は次のようになる. ‑120ー

126.
[beta]
16 プログラム

再発事象データの解析

proc phreg data=bladder;
mod巴I (tstart, tstop) 本 status(O) = trt number s
i
z
e
;
i
di
d
;

解析結果は次のようになる.
表 17 出力 再発事象データの解析
T
e
s
t
i
n
gG
l
o
b
a
lN
u
lIH
y
p
o
t
h
e
s
i
s
:B
E
T
A
=
O
T
e
s
t
C
h
i
‑
S
q
u
a
r
e
D
F
P
r >C
h
i
S
q
i
h
o
o
dR
a
ti
0
1
6
.7
7
2
8
3
0
.
0
0
0
8
Li
k
eI
S
c
o
r
e
1
8
.
5
6
9
8
3
0
.
0
0
0
3
W
a
l
d
1
8
.
2
0
9
7
3
0
.
0
0
0
4
A
n
a
l
y
s
i
so
fM
a
x
i
m
u
mL
i
k
e
li
h
o
o
dE
s
t
i
m
a
t
e
s
P
a
r
a
m
e
t
e
r
S
t
a
n
d
a
r
d
H
a
z
a
r
d
V
a
r
i
a
b
l巴 D
F
E
s
t
i
m
a
t
e
E
r
r口r C
h
i
‑
S
q
u
a
r
e P
r >C
h
i
S
q
R
a
t
i
o
t
r
t
10
.
4
5
9
7
9
0
.
1
9
9
9
6
5
.
2
8
7
3
0
.
0
2
1
5
0
.
6
3
1
口u
m
b
e
r
1
0
.
1
7
1
6
5
0
.
0
4
7
3
3
1
3
.
1
5
4
1
0
.
0
0
0
3
1
.
1
8
70
.
0
4
2
5
6

SIZ巴

0
.
3
8
0
1

0
.
0
6
9
0
3

0
.
5
3
7
5

0
.
9
5
8

SIZE(初期!重傷の大きさ)は再発のハザードと有意な関連はみられないが, NUMBER(初期 j
陸揚の数)

は高度に有意であり,ノ¥ザード比が1.1
8
7であることから,腫蕩の個数が l
個増えるごとに再発のハ
ザードが1.1
8
7倍になることがわかる.また治療効果 T
liTも同水準で有意であり,ノ¥ザード比が O
.6
3
1であることから,治療でハザードが 0.631倍に抑えられることがわかる.ただし AGモデルでは複数

のイベントが独立して起きることを仮定しているが,この仮定は現実には成り立たない可能性が高
プログラム例は表 18のようになる.

い.そこでロパスト分散を用いた解析をしてみる
表 18 プログラム

ロバスト分散を用し、た再発事象データの解析

proc phreg data=bladder covs(aggregate);
mod巴I (tstart, tstop) 本 status(O) = trt number s
i
z
e
;

i
di
d
;

結果は表 19のようになる.
表 19 出力

U

内︿

U

内︿

u

内︿

守︐︐

unxυ

内

?lo 内︿

ハ
U4EE

円

0
.
5
7
3
2

H
a
z
a
r
d
+
L Zhu‑‑
qG ・
n nU4l

︑
﹀
〆

守 ︐ ︐ 内 ︿U

I
e

守

寸 ︐ ︐ 内 ︿U

内︿U

U
門
1''44I
RV4aRU
‑
‑
守 IenHV
1hunuvnuv
ハL
V ・
nuvnuv

V

n
v
l

﹁

u

門U

﹁・・

HU4EEnMUV

し
︒﹁nd5 7

0
.
3
1
7
4

︑

︑
﹀
〆

U

﹂

n
L
V

0
.
0
7
5
5
5 1
.
0
9
4

︑
円 HH

2u

ハunHUpnu
Tinuunuu

nNH4EE4EE

+
Lつ
ム
つ
ム

内︿

r
‑‑
ハunHV u
ro
o‑‑

nunU

10
.
0
4
2
5
6

riFhupnu
n
J
ムハH
V

﹁ト﹂

s
i
z
e

内︿

寸・

T
e
s
t
L
i
k巴I
i
h
o
o
dR
a
ti
0
S
c
o
r
e
M
o
d
i
f
i
e
dS
c
o
r
e
W
a
l
d
A
n
a
l
y
s
i
so
fM
a
x
i
m
u
mL
i
k
e
li
h
o
o
dE
s
t
i
m
a
t
e
s
t
a
n
d
a
r
dS
t
d
E
r
r
P
a
r
a
m
e
t巴r S
V
a
r
i
a
b
l巴 D
F E
s
t
i
m
a
t
e
t
r
t
10
.
4
5
9
7
9
n
u
m
b
e
r
1 0
.
1
7
1
6
5

門
H﹁ R u q u R u q u
pvnuvnuvnuunMU
llnunununu
HHnuvnuvnuvnuv
﹂
n
L
v ・‑‑‑
nuvnuvnuvnuv

r

円

}l

守

F
ト﹂

﹁
ト
a

nuvnν'

一
一AU

n円以

u

肉︑

しV

肉︑

υ
n
u

ρ

1
h
u
H

+
L

n
u
口 quFhu
n ν e n口 n
凶V
Fhun凶
vvdvlnム
J nJ
H q G 守''phU 内︿UFhJ
V
H門
V
J
HU7'Fhua斗7'
1lnu
1lqupbou‑‑1l
u‑‑141414l
l
M 山 内 ・I
1
n
u

免U

ll‑ ハ
L
V

︽

t
n
u
n
u

gb

b

u

肉︑

n川

}
守 l

ρν

+
L

ロバスト分散をJf
J
し、た再発事象データの解析

0
.
9
5
8

まず,総括的検定ではロバスト分散を灯]し、た 2種類の検定である Modified Scor巴
と Wald険定の結果
L
i
k
e
li
h
o
o
dR
a
t
i
o
),通常のスコア検定 (
S
c
o
r巴)と比べて,
は,ロバスト分散を考慮しない尤度比検定 (

カイ 2乗統計量の値が 3,1割減少し,有意十"1:が弱くなっていることがわかる.個々のパラメー夕刊t
定値

lUM
の検定では,通?有の標準誤差に比べて,ロバスト分散の平方根は, 1~3 割程度大きくなっている. ¥

3
IE
l
iが有意であることは変わらないが,標準誤差の噌大のため TRTはもはや同水準では有意でなくな
る.
このデータは 86人の患者からなるが,再発事象として複数の観測値が存在するので観測値の合計は l

‑121

127.

7 8になる. S t d E r rR a t i o fま一人の個体の中で再発イベントの相聞が非常に高ければ,独立だとみなし 1 7 8 / 8 6 )o .5=1 .4 4倍程度になるはずであるが(完全に独立の場合は l 倍), て求めた標準誤差と比べて ( そこまで高い相聞はなく,1. 1~ 1. 3倍程度になっている. 4 .加速モデ、/レによるモデル化 抗癌剤の薬理効果をみる実験を例にとり,加速モデルによるモデル化について解説する.限られ た領域を除けば,抗癌剤が単独で、顕著な癌の縮ノトあるいは生存時間の延命効果を示すことは少なく, 臨床の現場では併用されることが多い.抗癌剤の併用は,異なったメカニズムの薬剤による相乗的, あるいは異なった d o s e ‑ l i m i t i n gt o x i c i t yを持つ薬剤を併用することによって重篤な副作用の発現 を防ぎつつ,高い効果を上げることを期待して行われる.既に多数の抗癌剤が市販されており,併 用の考えられる組み合わせば膨大なものになるが,癌の致死性の高さ,抗癌剤の強し、副作用等のも ろもろの条件から,臨床試験によって効果的な抗癌剤の組み合わせを見つけるには多くの倫理的, 社会的制約が存在する.このため薬剤の併用効果を調べる i nv i t r o 試験あるいは動物実験の役割は 以前にも増して重要である.最終的には人による臨床試験によって効果を確認しなければならない が,臨床試験を倫理的かっ科学的に効率よく行うためには,十分な基礎データが必要である. しか しながらこのような非臨床試験の併用効果を評価するための統計解析の方法論は,十分確立されて いるとはいえない.本稿では生存日数をエンドポイントとして併用効果を評価する動物実験の解析 法について例示する. L I F E R E Gプ口、ンジャは V 8 .2 から, M O D E L文で、交互作用項をモデルイじすることが L A S S文と M O D E L文を組み合わせて様々なモデルを,より柔軟に構築することが可能に 可能になり, C f 主つ T こ. A と B という 2つの薬剤の併用効果を調べるための実験計画として,次のようなニ元配置型のデ、 ザインが用いられることが多い. Nはそれぞれの水準で実験に用いた動物数を示している. A 2 N 20 N 2 1 N 2 2 A 1 NiO N11 Nl2 AO No o N01 N02 B O B 1 B2 この例のように、薬剤 Aがコントロール (0用量)を含めて 3用量,薬剤 B も 3用量の 3x3の繰 り返しのある二要因実験が実験計画の典型例になる て行われることが多く ln V1VO実験はラットあるいはマウスを用い 1群あたりの動物数は 1 0匹前後が標準的である.実際の解析はエンドポイ ン卜が生存時間データであり,打ち切りが存在するため,生存時間解析の手法を用いる必要がある. 表 20 ニ元配置型のデータ nDn44lnunLflnunL4lnU ・ AAntntnt1 414lnununU 生データ(単位日) 4 31 0 01 0 01 0 01 0 01 0 01 0 0. 3 8 6 81 0 01 0 01 0 01 0 01 0 0. 2 9 3 8 4 1 4 8 6 41 0 01 0 0. 4 9 9 11 0 01 0 01 0 01 0 01 0 0. 3 4 4 4 5 1 5 1 7 01 0 01 0 0. 3 2 3 2 3 5 4 1 4 3 4 4 46. 2 5 2 8 2 9 2 9 3 0 3 2 34. 2 2 2 4 2 4 2 5 2 5 2 6 28. 2 0 2 1 2 2 2 3 2 3 2 3 2 42 52 63 1 ここでは実際の動物実験データを修正して用いることにする.データを表 20に示す. A,Bは薬 斉J !の投与量の水準を表す.投与量は両薬剤とも等差的に設定されている.ここでは,表記を単純にす 1 2 2ー

128.

るため 0,1 ,2の 3段階で表示する.無作為化を行なった日から死亡までの日数が観測されている.観 測は 1 0 0日で終了しているので, 1 0 0と示されているデータは打切りである. 最初に生存時間分布に指数分布を仮定して A とBの併用効果を検討する. 指数分布では確率密度関数は(I7 )式のようになる. f(t )=λ.e x p( λ . t ) ( 1 7 ) このとき累積分布関数は ( 1 8 )式のようになる. F(t)=1 ‑ e x p(一 λt) ( 1 8 ) 指数分布では,平均が 1 / λ ,分散 1/λ2になる.またメディアンは logO.5/λ になる.加速モデルは, 前述のように生存時間を表す確率変数が共変量の影響で定数 ( k )倍になるとするモデル ( T = T o X k )で ある. このとき確率密度関数は次のようになる. f(t )=λ/k • e x p (一 λ/k • t ) すなわち λ λ / kを新たなノ fラメータとした指数分布にしたがう.このとき平均は k/λ ,メディ 一 logO.5/λ)となる.すなわち,共変量の影響で平均,メディアンが定数倍になるモデル アンは, k( として解釈できる ( λ 自身はハザードを表すノミラメータなので,ハザードがl/kになるモデルとして 解釈することもできる). 最初に L I F E R E Gプ口、ン、ジャの結果の読み方を例解するために, AとBを数値変数としてモデル化する 例を示す.プログラム例は次のようになる. 表 21 プログラム 指数分布(連続量モデル) d a t ar a t : d oa = 2 .1 .0 : d ob = 2,1 ,0 :g = c o m p r e s s( a1 1b ):: d oi = lt o1 0 : @ :i ft i m eg e1 0 0t h e nc e n s o rニ1 巴 :I s ec e n s o r = O : i n p u tt i m e@ o u t p u t : 巴n d : e n d :巴n d : c a r d s : 4 31 0 01 0 01 0 01 0 01 0 01 0 0. 3 8 6 81 0 01 0 01 0 01 0 01 0 0. 2 9 3 8 4 1 4 8 6 41 0 01 0 0. 4 9 9 11 0 01 0 01 0 01 0 01 0 0. 3 4 4 4 5 1 5 1 7 01 0 01 0 0. 3 2 3 2 3 5 4 1 4 3 4 4 4 6 2 5 2 8 2 9 2 9 3 0 3 2 34. 2 2 2 4 2 4 2 5 2 5 2 6 28. 2 0 2 1 2 2 2 3 2 3 2 3 2 42 52 63 1 a t : p r o cI i f e r e g d a t aニr m o d e lt i m巴* c e n s o r ( l ) = ab / dニ巴 x p o n e n t i a l : 変数を C L A S S文で指定せず MODEL文のみで指定した場合,その変数を連続変数としてモデル化する. 0 =( D I S T R I B U T I O N = )は分布形を指定するためのオプションで,表 2 2の分布を指定することが可能 だが,ここでは指数分布を指定している. aとb, 2つの変数を指定しているので,次のようなモデル を想定していることになる. T ToX巴x p(γAA+γIIB) 二 =ToXexp(γAA)Xexp(γ 日 B) 1 =ToXαAXsI ‑123‑

129.

ただし, α=exp(γA)'s=e x p( γ 日)である. 結果は表 23のようになる. I F E R E Gで仮定できる分布 表 22 L WEIBULL ワイプノレ分布 EXPONENTIAL 指 数 分 布 切 片 の み ( 尺 度 母 数 は 1) LNORMAL 対数正規分布,切片と尺度母数 デフォルトの指定 切片と尺度母数 LLOGISTIC 対数ロジスティック分布,切片と尺度母数 GAMMA ガンマ分布,切片と尺度母数と形状母数 NORMAL 正規分布,切片と尺度母数 LOGISTIC ロジスティック分布,切片と尺度母数 : U力 表 23 I 指数分布(連続量モデル) T y p巴 I I IA n a l y s i so fE f f e c t s W aI d h i S q D F C h i ‑ S q u a r e P r>C E f f e c t く. 0 0 0 1 a 1 2 5 . 6 6 4 1 0 . 0 0 4 3 1 8 . 1 4 6 8 b A n a l y s i so fP a r a m e t e rE s t i m a t e s S t a n d a r d 9 5 %C o n f i d e n c e C h i一 r r o r L i m i t s S q u a r eP r>C h i S q D FE s t i m a t e E く0 0 0 1 2 . 8 7 0 6 O .2 3 0 4 2 . 4 1 9 1 3 . 3 2 2 1 1 5 5 . 2 8 く0 0 0 1 1 .0 2 3 1 0 . 2 0 1 9 0 . 6 2 7 2 1 .4 1 8 9 2 5 . 6 6 . 1 8 7 2 0 . 1 6 7 4 0 . 9 0 1 3 8 . 1 5 0 . 0 0 4 3 0 . 5 3 4 3 0 1 . 0 0 0 0 0 . 0 0 0 0 1 . 0 0 0 0 1 . 0 0 0 0 P a r a m巴t e r I n t e r c e p t a b S c a l e W e i b u lIS h a p e 0 1 . 0 0 0 0 0 . 0 0 0 0 1 . 0 0 0 0 1 . 0 0 0 0 。 E s t i m a t e )が I n t巴r c e p tと L I F E l i E Gプロシジャでは, AもBもOの場合の基準分布のパラメータ推定値 ( して出力されるが, λ自身が出力されるのではなく, I n t e r c e p t=l o g( 1/λ)であることに注意する ( ‑ I n t e r c巴p t )となる. I n t e r c e p tはすべての共変量が Oである場合 必要がある.したがって λ三 田 p (AとBの両方が 0の対照群)の基準分布のパラメータであり.指数分布の場合, exp( In t e r c e p t )= e x p ( 2 .8 7 0 6 ) = 1 7 .6 5は,生存時間の期待値として解釈できる. 2 3 1と0 . 5 3 4 3となる.これを指数の肩に また γA'γIlの推定値が aとbの行に出力され,それぞれ1.0 乗せた α二 巴 x p (1 .0 2 3 1 ) = 2 .7 8 1 8,s=exp(O.5 3 4 3 ) =1 .7 0 6 3はそれぞれ,薬剤を l 単位増やしたときに, I F E l i E Gはこの値を直接出力しなし、).例えば,薬剤J Aでは, 1 単 生存時間が何倍になるかを示す(ただし L 位では 2 .7 8倍 , 2単位では 2 . 7 82=7.72倍に生存時間が伸びることを意味する.加速モテールでは,期待 値,メディアン等が共変量の効果によって同様に定数倍になるモデルとして解釈できる.本稿では α, Bを延命効果比と呼ぶことにする.パラメータ γA'γBがOのときは,延命効果比が lとなり,生存時 間の延長が認められないことになる.すなわち延命効果がないとしづ帰無仮説は, γA'γ I l がO であ ることを検定するのと等価でらある.表には,それぞれのパラメータの標準誤差 ( S t a n d a r dE r r o r lと9 同 信頼区間 ( 9日 C o n f i d巴n c eL i m i t s lが表示される.パラメータの信頼区間を指数の肩に乗せると,延命 x p( 0 .6 2 7 2 )~cxp ( 1 .4 1 8 9 )=1 .8724~4. 1 3 2 6となる.カイ 2 乗統 効果比の信頼区間となる.薬剤 A では e 計量は,推定値を標準誤差で割って 2乗したもので,これを自由度 lのカイ 2乗分布を比較することに よって p値が計算される.この例では薬剤 AもBもp 値は 0 . 0 1より小さく,有意な延命効果があること が確認できる.なお指数分布はワイブル分布の形状ノ fラメータを lと置いた場合に等しくなるので, W e i b u l lS h a p eは強制的に lと置かれている. さて,これに対し C L A S S文で変数A,Bを指定した場合のプログラムを示す. ‑]24‑

130.

表 24 プログラム 指数分布(カテゴリー) proc I i f e r e g data=rat order=data; c l a s s ab ; e n s o r ( l )司 b/d=exponential; m o d e l timeキc AとBの2変数とも 3カテゴリーなので,自由度は 2である.したがって 3水準聞の効果を表すパラメー タを推定するためには何らかの制約式を置く必要がある.分類変数をモデル化する場合,デフォルト では GLMプロシジャ等と同様に,最後の水準のパラメータを 0とした,モデル化が行なわれる.この例 では order=dataを指定しないと,用量 2のパラメータが 0と置かれる.しかし用量 0を基準とした方が 便利である.どの水準を基準にするかを柔軟に指定する機能は LIFEREGにはなく,ここでは苦肉の策 として, order=dataオフ。ションを指定している.これは,データセットに出現した順に水準の順序を 逆 1頂付ける指定である.表 2 1のプログラムでは, 00ノレープで数字の逆順に 2,1,0と水準が出現して いるので,最後の水準である用量 0のパラメータが 0とおかれる.結局,次のようなモデルが想定され たことになる. T=ToXexp(γA1DA lZ ) 1+γAID A2+γIlIDIlI+γIlIDI =ToXexp(γA1DA 2 )Xexp( γ I lI DI I I )X口xp(γIl2D 1 l2 ) 1)X巴xp(γAZDA ToXλ 八 l I 〉八 I X入A 2 l〉八:2Xλ1311 3 1 3 1×入 1 3 2 1〕1 3 2 二 ただし DA 日量が lのとき l 他は 0, D 八 2 は薬斉IJAの用量が 2のとき l 他は 0, D I l Iは薬剤 1は薬斉IJAのj Bの用量が lのとき l他は 0, D I l Zは薬剤 Bの用量が 2のとき l 他は 0の値をとるダミー変数である. 2三 巴 xp(γA:)' λBI exp( γ l l l ), 人Ill=exp(γ 日 1 )である. また λAI二 =exp(γAI), 人A 二 LIFEREGプロシジャの出力は表 2 5のようになる 表 25 出力 +lih u'hu ﹁﹁﹂会 pv ρ U 41 41 指数分布(カテゴリー) T y p eI I IA n a l y s i so fE f f e c t s W a l d h i S q D F C h i ‑ S q u a r e P r >C < .0 0 0 1 2 2 7 . 1 4 3 6 2 7 . 6 1 0 7 0 . 0 2 2 3 A n a l y s i so fP a r a m e t e rE s t i m a t e s o n f i d巴n c巴 S t a n d a r d 9 5目 C C h i D FE s t i m a t e E r r o r L i m i t s S q u a r eP r >C h i S q 1 2 . 8 5 3 1 0 . 2 4 1 5 2 . 3 7 9 9 3 . 3 2 6 4 1 3 9 . 6 2 < . 0 0 0 1 .4 1 1 1 1 .1 8 2 9 2 .7 9 4 2 2 1 1 .9 8 8 5 O 3 . 4 0 < . 0 0 0 1 1 . 8 2 6 6 1 1 1 . 1 5 4 8 0 . 3 4 2 8 ~4829 1 . 35 O .0 0 0 8 o 0.0000 0.0000 0.0000 0.0000 1 1 . 0 5 2 3 0 . 3 8 7 1 0 . 2 9 3 6 1 . 8 1 0 9 7 . 3 9 O .0066 .3465 ‑ 0 .1 8 3 0 1 .1 7 5 4 2 1 0 . 4 9 6 2 O . 0 5 0 . 1 5 2 2 o 0.0000 0.0000 0.0000 0.0000 o 1.0000 0.0000 1.0000 1.0000 b ワι 1 1 n u ? ι T l n u P a r a m e t e r I n t e r c e p t a (γA) ) γ 八1 a ( a b ( γ 1 l2 ) b (γB1 ) S c a l e W e i b u lIS h a p e 0 1 . 0 0 0 0 0 . 0 0 0 0 1 . 0 0 0 0 1 . 0 0 0 0 最初に Type 1 1 1 Analysis of Effectsとして, 3水準間で、延命効果が等しいとしづ仮説を検定した 1 1仮説は 結果が出力される.変数 A とBに対応して,それぞれ帰 7 A Ho・ γAI‑γA2=0, B Ho:γIll‑γB2= 0 となる.どちらの帰無仮説も 5%水準で棄却され,両薬剤とも 3水準問で延命効果が異なることがわ かる 続いて個々のパラメータ推定値が出力される 連続量とカテゴリ一変数を用いた 2 つのモデ ル問でパラメータ批定値を比 i絞した結果を表 26に示した. ー 1 2 5

131.

表 26 連続量とカテゴリ一変数を用いたモデルの比較 I n t巴rcept Al A2 Bl B2 2.8531 1 .1 5 4 8 1 .9 885 0.4962 1.0523 exp(推定値) 17.34 3 .1 7 3 2 7.3049 1 .6424 2.8642 推定値 2.8706 1 .0 2 3 1 2 .0462 O .5343 1.0686 exp(推定値) 1 7 . 6 5 2.7818 7.7384 1.7063 2.9114 モデル カテゴリー推定値 連続量 連続量モデルでは,用量 lに比べて用量2では推定値で2倍,延命効果比 ( e x p(推定値))では 2乗 倍になる. 2 つのモデルで切J 果の大きさは似通っており,連続量によるモテソレ化が適切であること が確認できる.得られたパラメータ推定値に基づいて 3X3の各水準の生存日数の期待値が言ト算でき る.連続量によるモデルの計算例を示す. 表 27 各水準の生存日数の期待値(連続量モデノレ) 80 AO A1 A2 82 81 To (17.65) Tos TOs2 。 。 T α2β2( 3 9 7 . 5 7 ) ( 3 0 . 1 1 ) T α(49.09) ToQ' s ( 8 3 . 7 6 ) Tα2(136.55) Tα2β(233.00) 。 ( 51 .3 8 ) T αs2 ( 1 4 2 . 9 2 ) 。 。 (T 1 . 70 6 3 ) = 1 7 . 6 5, α=2.7818, s= o このように加速モデルでは,各水準における延命効果の大きさを明示的に評価することができる. パラメトリックモデルの大きな利点は,モテ子ルを前提に様々な効果の指標を計算できることにある (打切りデータを含む場合,単純な算術平均は明らかに生存時間を過小に評価してしまう.) ただい多少複雑なモデルになると期待値を計算する過程は煩雑である.このようなときは OUTPUT 文で予測値を出力する機能を利用するのが便利である.XBETAニオプションによって,線型予測子 sT zが出力され,これを指数の肩に乗せると指数分布の期待値が計算できる.また P 二オプションで指 定した変数名に,各観測値における生存時間の弘点の予測値を出力することができる.デフォルトで は50 児点(メディアン)が出力されるが, Q =オプションの指定によって,任意の%点が出力できる.メデ ィアンと期待値を計算して,データセット RESULTにおとすためには,表 2 1のプログラムに表 2 8 に示すプログラムを追加すればよい. 表 28 メディアンを計算するための追加プログラム o u t p u t out=result p=median std=se x b e t a = x bq ニ0 . 5 0 ; data r e s u l t ; s e t result;mean=exp(xb); proc print;where i dニ1; STO二変数名オプションを指定することにより,先点の推定値のみならず,その標準誤差も計算する X B )を ことが可能であり,これを用いて切点の信頼区間を構成することもできる.DATAステップで巴 xp( m e a n )が計算できる. 計算することによって期待値 ( 表 29 出力 期待値とメディアン O B Sabg it i m ec e n s o r P R O B m e d i a n x s e m e a n b 1000 01 2 0 O .5 1 2 . 2 3 2 2 . 8 7 0 5 6 2 . 8 1 8 1 7 . 6 4 7 1 1 010 11 2 2 0 . 5 2 0 . 8 7 23 . 4 0 4 9 1 4 .3 4 3 3 0 .1 1 1 2 1 020 21 2 5 O .5 3 5 . 6 1 4 3 . 9 3 9 2 5 1 1 . 4 6 4 5 1 . 3 8 0 0 . 5 3 4 . 0 2 5 3 . 8 9 3 6 2 7 3 1 101 01 3 2 . 4 9 9 4 9 . 0 8 8 4 1 111 11 3 4 0 . 5 5 8 . 0 5 8 4 . 4 2 7 9 6 9 . 7 3 0 8 3 . 7 6 1 5 1 121 21 4 9 0 . 5 9 9 . 0 6 74 . 9 6 2 3 1 2 7 . 6 1 31 4 2 . 9 2 3 O .5 9 4 . 6 4 8 4 . 9 1 6 6 7 3 3 . 5 5 01 3 6 . 5 4 8 6 1 202 01 2 9 7 1 212 11 3 8 0 . 5 1 6 1 . 5 0 0 5 . 4 5 1 0 2 4 9 . 6 3 2 2 3 2 . 9 9 5 8 1 222 21 4 3 。 。 。 。 。 。 。 。 。 0 . 5 2 7 5 . 5 7 35 . 9 8 5 3 61 0 0 . 6 2 53 9 7 . 5 6 7 phu q〆 ︼

132.

出力を表 2 9に示す.全ての観測値について予測値が出力されるが,ここではAとBの組み合わせ からなる 9 水準の最初の個体の予測値のみを WI! EI~E 文で限定して出力させている.変数 PROB が弱点 の確率を示す.A , B がともに 0の対照群ではメディアンが 12.2日であるが,指数分布が右にスソを引く 分布のため期待値は 17.6日となる.また標準誤差である SEを利用して信頼区間を構成する場合には 漸近正規近似を利用して,正規分布の切点で隔をつければよい.例えば対照群のメディアンの 95%信 2 .2 3 2 : : ! : :l .96・2 .818=6.7~17. 8となる.ただし直接正規近似をするよりは対数変換後に 頼区間は 1 正規近似した方が近似の精度はよい. L A S S文と M O D E L文を組み合わせることによって,表 3 0の 11通りのモデ、ルをあてはめる. さて C 表 30 11通りのモデル 1 非要因モデル 80 81 82 T 自由度 1 AO To T T A1 To T A2 T T T 2 主効果モデル (A) 80 81 82 自由度 3 AO T T T A1 T λ A 1 A 1 丁 λ A1 T λ A2 T λA2 T λA2 T λA2 3 主効果モデル (8) 80 81 82 自由度 3 AO T T λ 6 1 丁 λ62 A1 T T λ 6 1 T λ62 A2 To T λ6 T λ62 1 4 二要因主効果モデル (A8) 80 81 82 自由度 5 AO T T λ 6 1 T λ62 A1 A 1 T λ T λA1λ61 To λA 1 λ 6 2 A2 T λA2 T λA2λ61 T λA2λ62 5 比例モデル (A) 80 81 82 自由度 2 AO T T T T α Tα A1 T α T α2 T α2 T α2 A2 6 比例モデル (8) 80 81 82 自由度 2 AO To TO s2 Tos A1 T s2 TO Tos A2 T TO s2 Tos 7 比例モデル (A8) 80 81 82 自由度 3 AO T β T TO s2 A1 T α T α s2 T α3 T α2 T α2 s2 A2 s T α2 8 併用効果モデル 80 81 82 自由度 4 AO T s2 TO Tos T α s2 ρ2 A1 T α T αβρ T α2 sρ2 T α 2 s2 ρ4 T α2 A2 9 比例主効果モデル (A8) 80 81 82 自由度 4 AO T T λ 6 1 T λ62 A1 T α 6 1 α T λ T λ62α T α2 A2 T λ61α2 T λ62α2 10 主効果比例モデル (A8) 80 81 82 自由度 4 AO T TO s2 Tos A1 T λ A 1 TO s2λA1 TosλA1 A2 T βλA2 丁 λ A2 TO s2λA2 1 1 飽和モデル 80 81 82 自由度 9 AO T T λ12 T λ13 A1 T λ 2 1 T λ22 T λ23 A2 T λ 3 1 T λ32 T λ33 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 プログラムは表 31のようになる. ‑12i 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。

133.

表 31 プログラム 11通りのモデル 1 .m o d eIti m 日本 c e n s o r ( l ) = / d =巴x p o n e n t i a l ; / d二日 x p o n e n t i a l ; 2 .c l a s sa ; m o d e lt i m e * c e n s o r ( l )ニa 3 .c l a s sb ; m o d e lt i m e * c e n s o r ( I ) = b / d = e x p o n e n t i a l ; 4 .c l a s sab ; m o d e lt i m e * c e n s o r( l ) = ab / d = e x p o n e n t i a l ; p o n e n ti aI ; 5 . m o d e lt i m e * c e n s o r ( l ) = a / d =巴x p o n e n ti aI ; 6 . m o d e lt i m e * c e n s o r ( l ) = b / d =巴x 7 . m o d e lt i m e * c e n s o r( 1 )ニab / dニe x p o n e n ti aI ; * b / dニ巴 x p o n e n t i a l ; 8 . m o d e lt i m e * c e n s o r ( l )ニaba p o n e n ti aI ; 9 .c l a s sb ; m o d e lt i m e * c e n s o r ( l ) = ab / d =巴x p o n e n ti aI ; 1 0 .c l a s sa ; m o d e lt i m e * c e n s o r ( l ) = ab / d =巴x p o n e n ti aI ; 1 1 .c l a s sab ; m o d e lt i m e * c e n s o r ( l ) = a ba * b / d =巴x モデルのあてはめを比較するため, L I F E R E Gプロシジャの出力から,対数尤度を転記した結果を表 3 2に示した.表中でモデル また AIC 二 x2は非要因モデル (1)との対数尤度の差をとって 2倍したものである. 2 対数尤度 +2X白由度として計算している. 表 32 モテ子ルあてはめの結果 モデル 自由度 1 非要因モテツレ 2 主効果モテ ル (A) e 3 主効果モデル (B) 4 二要因主効果モデル (AB) 5 比例モデ、ル ( A) 6 比例モデ ル (s) 7 比例モデル (As) 8 併用効果モテ、ル 9 比例主効果モデル (AB) 1 0 主効果比例モデ ル (As) l l飽和モデル 対数尤度 モデノレ x2 AIC 3 2 .7 7 2 6 1 2 . 2 3 0 2 4 0 . 8 4 1 0 3 2 . 0 5 1 4 1 2 .1 3 4 4 4 0 . 6 0 8 2 4 6 . 1 1 9 6 * 4 0 . 6 1 4 8 4 0 .8 3 2 8 4 7 .1 6 8 8 1 4 4 . 5 5 1 6 5 . 0 9 1 4 0 . 4 8 1 4 3 . 2 7 1 6 3 .1 9 1 3 6 .7 2 1 3 3 . 2 0 * 1 3 8 .7 1 1 3 8 . 4 9 1 4 2 .1 5 l ‑ 8 5 . 6 6 1 7 6 9 .2 7 5 4 3 ‑ 7 9 . 5 4 6 6 3 ‑ 5 ‑ 6 5 . 2 4 1 2 2 ‑ 6 9 .6 3 6 0 2 7 9 .5 9 4 5 5 .3 5 7 6 3 6 4 ‑ 6 2 . 6 0 1 9 6 5 . 3 5 4 3 4 ‑ 6 5 .2 4 5 3 4 ‑ 9 ‑ 6 2 . 0 7 7 3 モデル 8は連続量として A, B, AXBの交五作用をモデル化している.これに対し,モデル 1 1ではカテゴリ一変数としてモデル化している.モデル 8と1 1で対数尤度の値はほとんど変わらず, 8のモデルは自由度 4ではあるが 自由度 9の飽和モデルに近い説明力を持っている.この 8のモ 3 3 . 2 0であり, A 1Cの観点から最もよいモデルとなる.モデル 7 と 8でモデル X デノレの AICは 1 5 . 5 1であり,これは自由度 lのカイ 2 乗分布の上 1 J U J 5 %点である 3 . 8 4より大きいので 2 薬剤の用量の積項は有意にモテ守ルを改善するといえる. 8のモデルについてパラメータ推定を行っ 2の違いは た結果を表 33に示す. 表 33 出力 併用効果モテ守ル ( 8) A n a l y s i so fP a r a m e t e rE s t i m a t e s S t a n d a r d 9 5 %C o n f i d e n c e C h i P a r a m e t e r D FE s t i m a t e E r r o r L i m i t s S q u a r eP r>C h i S q I n t e r c e p t 3 . 1 1 9 7 O .2 7 5 0 2 . 5 8 0 6 3 .6 5 8 7 1 2 8 .6 7 < . 0 0 0 1 a 0 . 6 2 2 1 O .2 5 0 8 0 . 1 3 0 5 1 . 1 1 3 7 6 . 1 5 0 . 0 1 3 1 b 0 . 1 5 8 5 0 . 2 3 6 3‑ 0 . 3 0 4 7 0 . 6 2 1 6 0 . 4 5 0 . 5 0 2 5 ab . 2 7 1 9 O 0 . 6 2 3 1 0 .0 9 0 1 1 .1 5 6 1 5 .2 5 0 . 0 2 1 9 S c a l e 1 . 0 0 0 0 0 . 0 0 0 0 1 . 0 0 0 0 1 . 0 0 0 0 W e i b u lIS h a p e0 1 . 0 0 0 0 0 . 0 0 0 0 1 . 0 0 0 0 1 . 0 0 0 0 本 。 ‑ 1 2 8ー

134.

Estimateを G の肩に乗せたものが,表 30 8の To , α ( 3, ρの推定値になっている. 得られたモデ、ルは次のようになる. ^ ̲B ^XB roXαXs Xρ ^XB =22.64X1 .8 628. X1 .1 718~ X1 .8 617 =巴 x p ( 3 .1 1 9 7 )Xexp(O.6 2 2 1 ^ )X巴x p ( O .1 5 8 5 B )Xexp(O.6231^XB) 交互作用項 ρ の推定値が 1以上で、有意であることは,同薬剤を併用すると単剤の効果の積よりも 大きく生存時間が延命し,併用効果が存在することを示している. さて指数分布を仮定して,延命効果について評価したわけであるが,この仮定が正しし、かは検証 を虫ーすることである.仮定のチェック法としてはいくつかの方法が考えられるが,ここでは最初に 悦党的な評価法を試みる. L I F E I ¥ EGプロシジャではリリース 8.2から PROBPLOTオプションが ) ] ! Iわり, 確率プロットによって仮定した分布のあてはまりを視覚的に評価することが可能になった.確率プ I に I l 寺l f J lt,縦 1 M Iに累積分布関数 7 1の確率をプロットするが,適当な変換を行ない,仮定 ロットは横取1 した分布が正しいときは直線にのるようになっている.例えば,ワイブル分布を仮定した場合, ~t ' M Iに log(一log( 1‑ 1 7 ) ),横 ' I l l l i (こ1og( t )をとってプロットすると直線になるので二重対数プロットが出 F E I¥ EGプロシジャでは,ノンパラメトリックな経験分布 f ) ! , l 数による累積分布│封 力される.また,し l 数の値も出力され,これが直線からどれくらいずれているかを評価することによって,分布の迎合 度を測ることができる.イベント,右側打切りデータのみならず,左側打切り,区間打切りデータ を含めて,予測累積確率とその信頼区間を図示できるのは, LIFEREGプロシジャのユニークな機能 である. PROC L IドE I¥ EG文の XD^T^=オプションで指定したデータセットに含まれる共変量の値に対 n [ l することが可能であ 応した累積分布関数を出力するので,特定の個体について累積分布関数を予 l る. XD^T^ニオプションを指定しない場合は,連続変数については全体の平均, CL^SS文で指定した ^とBの用量が共 分煩変数については最後の水準についての,予測累積分布関数が言十算される.薬剤l のときの分布関数を出力するプログラム例を表 34に示す. にl 表 34 プログラム 予測累積分布関数 d a t ax d a t a ; a = 1; b = l; t i m e = .;censor= proc 1ifereg data=rat xdata=xdata; mod巴 1time*censor(I)=a b a吋 /d=exp; 0,7 5 nodata; probplot ppout vref(intersect)=25,5 l門s et/ctext=blue; 共変量の値を含んだデータセット XD^Ti¥を作成する . 1 1 寺問変数 ( ti m巴)と打切り変数 (censor)は欠測 とする.PROBPLOT文で, PPOUTは累積確率の数値自身を OUTPUT四面に出力するための指定である.ま た i ¥OD^T^オプションは,ノンパラメトリック法による経験分布関数の出力を省略するためのオプシ 1 1干を一緒にした経験累積分布が出力されるが,これを AとBの用量が l ョンである.デフォルトでは 9 のときの予測累積分布と比較しても立りとがないため, l i ¥力を省略させている.出力は図 2のように なる. 理 │12では実線が予 n l l J分布関数,点線がその信頼区間を示している.VREFオプションを指定したため, 25, 50, 75犯の参照線が出力される.また intersectの指定によって,参 H @線が予測分布関数と交わった } : J , で,垂直線が下ろされ ,0 1 0点が図上で表示される.左上の # iは , INSET文の指定によって図に付け ) ) ! I えられ,推定条件と結果についての情報を合んでいる.オプションを追加することにより,パラメー タ推定値も出力することができる. 1 2 9

135.
[beta]
日
ヨ

95

i

1JlumM
j46
す
------~,----'-唱
1
h
3
[
IC
I
J
a
e
v
:
四
elM11920J// ,
,
G
R
』

f

80

I
i
1
I
'
x
J,
国
一
抱
♂
m
〆
6
[二

2柑加画面d
5
0
40
3
0
2
0
E
u
」
;
同
q
p
p
h

m
aJ

J

叶
仁f/zf/¥
」
寸
】
i
‑

/

/

7

1

‑

--~j/

‑‑一:井‑‑‑
,一
一,
ー
'
ー
‑
ー'

ー

一一一--~--/"":一::;;-------;-一一一ー --1 一ーー

!

j

.
.
.
.
.
.
‑
"
.
.
〆
̲
,

1
0

一

一一一一

!

1
C
【
)
)

白
日

Eヰ 日l
e
n
t
i
a
1P
lo
tF
b
rt
i
r
国

図 2 LIFEREGの確率プロットの出力

句
園
、
‑
.
圃
・
・
・
開
園
.

I II I I
I!
I I I

I
I

I

九切お

nununu
ロ0
H
H的
3
υ肩口﹄口 O Uロ﹄百︼旦臼守己E

Lト
!..,J.....I,̲.L一一一「一一ー一一‑‑
I

I

LEEE‑EEE

・

・・・「ー‑,
: ig

.

.
,.
,

"

1̲

~...

om

。

I_D_ ーーーー~ ‑‑

,
・̲L‑ーーーーーーーーー‑

E
O

40

2J

E

A
‑
‑
‑

聞

I

L. L L・
・a

~D

t
江田

ST
京A
寸
'
A
:

a~O b~O

一-a~O b~1

.
.
.
.a~ 1b~l
‑‑a=2b=O a ・ a~ 2b~ 1
'a~1 b~O

ー-a~O b~2
....a~lb~2

・
・ a=2b=2

図 3 LIFETESTのノンパラメトリック生存関数

130‑

】
)0

136.

次に L I F E T E S Tプ口、ンジャを川し、て特定の分布を仮定しないノンパラメトリックな推定値を計算し, LJ F E J i E Gプロ、ンジャの結果と比較してみる.L I F E T E S Tプロシジャのプログラムは,表 35のようにな R O C L IF E T E S T文の P L O T S =オプションの指定で, S ( K M (カプランマイヤー)プロット), L L S(二重対 る.P 数プロット),L O G S U J i V(対数プロット)が出力される.また C SニN O N Eは,打切りデータのプロットを省略 するためのオプションである.変数Gは ,9 つの群を表す変数であり,これを S T l i A T A文で指定すること により, 9 群が同時にプロットされる. 表 35 プログラム ノンパラメトリックな生存関数の推定 p r o c1 i f e t e s td a t a = r a tp l o t s = ( s,I l s,l o g s u r v )c s = n o n e : ti m et i m e * c e n s o r( 1 ): s t r a t ag : 図 3~5 にそれぞれ問プロット,二重対数プロット,対数プロットを示した. 対数プロットでは,一 l o g ( S )を縦柄I (こプロットしている.指数分布のとき生存関数 S(t)=exp(一 λ L)なので,傾き λの原点を通る直線になるはずであるが,図 4では多くの群で直線からの君臨が 大きく,指数分布のあてはまりが悪いことがわかる.このデータは 20日目まで全く死亡が起きて いないが,指数分布であれば,全ての時点で一定のリスクがあるはずでーある.二重対数プロットで は,前述のようにワイブル分布では直線,また共変量の効果が比例ハザード的であれば群!日j で垂直 方向に平行,加速モデルが当てはまっていれば水平方向で平行になる.二重対数プロットを見ると, ほぽ直線に近いが,生存 H 寺I H Jが長くなるにつれ,傾きが寝てくる傾向があるので平行とはいえない. ただし生存時間が長い群では,イベント数が少なく情報量不足により不安定でLある点を考慮しなけ ればならない.そこで次にワイブノレ分布をあてはめるが,今度は O U T P U T文のオプションで,あては めた分布の 1~99 までのル誌を山力させる.デフォルトでは 50九点のみが出力されるが, Q =オプショ ンを桁定すると,任意の複数の%/,1、が山力できる.プログラムは表 36のようになる. 表 36 プログラム パラメトリック(ワイブソレ分布)な生存関数の推定 p r o c1 i f e r e g d a t a = r a t : e i b u1 1 : m o d e lt i m e * c e n s o r ( I ) = aba * b / dw o u t p u to u t = o u tp = ts t d = s t dq = O . O It o0.99 b y0 . 0 1 : d a t ao u t : s e to u t : g = c o m p r e s s( a l l b ): w h e r ei ニ 1 : s u r v = I ‑ ̲ p r o b ̲ : p r o cs o r t : b yg̲ p r o b ̲ : p r o cg p l ot : p l o ts u r v * t = g : w h e r et <ニ1 0 0 : 二 データセット O U Tでは累積確率が P R O s ̲,弱点がTで出力されているが, ̲ P R O s をl からヲ│し、て生存 s u r v )を計算し,群別に時間 1Lを横網1,推定生存関数を縦軸にとったグラフを出力させている. 関数 ( UFEREGの出力は表 37のようになる. 表 37 出力 ワイプノレ分布(併用効果モデル) A n a [ y s i so fP a r a m e t e rE s t i m a t e s 5 %C o n f i d e n c e C h i ‑ S t a n d a r d 9 D FE s t i m a t e E r r o r L i m i t s S q u a r eP r>C h i S q P a r a m e t e r [ n t e r c e p t 3 . 1 6 5 9 a 0 . 5 9 3 8 b 0 . 1 3 3 0 a ホb 0 . 3 6 4 1 S c a [ e 0 . 3 0 1 0 W ei b u[ S h a p e1 3 . 3 2 1 9 0 . 0 8 3 1 3 . 0 0 3 1 0 . 0 7 5 5 0 . 4 4 5 9 O .0 7 3 1 ‑ O .0 1 0 3 0 . 0 9 1 9 0 . 1 8 4 0 0 . 0 3 5 8 O .2 3 8 4 3 .3 2 8 61 4 5 3 .0 1 0 . 7 4 1 8 61 .8 9 0 . 2 7 6 4 3 . 3 1 0 . 5 4 4 3 1 5 . 6 9 0 . 3 8 0 1 O .3 9 5 4 2 .6 3 0 7 4 . 1 9 4 7 1 3 1ー く0 0 0 1 く0 0 0 1 0 . 0 6 8 9 く0 0 0 1

137.
[beta]
2
.
0
L

口

15

的

~

J

官
、

,

ヨ
。
。 10
Z
0
.
5

0
.
0

4
0

20

D

8
0

印

目D

t
i
m
e

STRAT
i
¥

a=Ob=1

a~O b~O

....
也

a~ 1b~ 0

本品事 a~lb~l

--a~2 b~O

R

司

2

個申喝 a~O b~

.時 φa~lb~2

a=2b=1

・+・ a~

2b 2
二

図4 LIFETESTの指数プロット

J

4
.
50

4
.
2
5

L弔 o
ft
江田
51
京AT
i
¥
:

a~O b~O

市守喧 a~O b~

1

一一一 a~ 1b~ 0

本号本 a~lb~l

‑‑aニ 2bニ O

~<:;>a=2

b=l

個申喝 a~O b~

2

e 時。 a~l b~2

軒 町 士 2b~ 25 LIFETESTの2重対数プロット

1
3
2ー

ム
十

︐
︐

J

︐

︐

473.
75

aF

3
.
S
O

咋

3
.
2
5

・
FaF

∞

3

'︐︐

2.
75

︐
'

2

'e ' ' ・

n
o

n

︐
︐〆

z

r

ι

a

包

AJ

, 句

〉 一

E
刃

'︐一 ︐ ︐
evaF#

=

︐︐︐

ー
パ ilj平

α

日

E

I

o
"

J

Jd'''''r
︐
︐︐︐
a
'
'
' ノポ

<
"

JJ''J'Jff+
︐白 ' ' ' e

ffk

。

︐!?tl
事

L
白

4
.
7
5

138.

ワイブル分布では前述のように基準生存関数は S( t )ニ exp(λtγ) となる.この γ がW ei b uI IS h a p eとラベルされて出力されている ( S c a l eは,その逆数をとったもので ある). λの値は LIFEREGでは直接出力されない λは I n t e r c e p tとS c a l日から次のように計算される. λ二 回 p(一 Intercept~Scale) 荷数分布はワイフマル分布の特別な場合で、 γ=1となる.言し、かえれば, ワイフール分 ;(jî はlI~flliJ tを γ 乗にベキ乗変換すると指数分布になる.またワイブル分布のハザード関数は h ( t )= λ ty‑1であり, γ>1 のときは時間の増加とともに,死亡のリスクが上昇し,磨耗 ~if;:~章型と呼ばれる.図 6 にワイ フソレ分布から予想される生存関数を示した.図 2のK M i 去によるノンパラメトリックな生存関数の推 定値と比べてみると, N が 7~10 と非常に小さい点を考慮すれば,それほどあてはまりは思くないと いえる. さてモデルのあてはまりを定量的に評価するため,指数分布,ワイブル分布,一般化ガンマ分布, 数正規分布の 5つの分布をあてはめ,対数尤度を比較 対数正規分布,対数ロジスティック分布,長l した結果を表 38に示す. 表 3 8 分布のあてはまりの比較 白山度 対数尤度 指数分布 4 ‑52.5019 ワイブル分布 5 ‑ 3 2 .5555 分布 一般化ガンマ分布 6 .3052 ‑31 会j 数正規分布 5 ‑ 3 7 .1250 D FE s t i m a t 3 . 1 5 9 ; 0 . 4 2 6 2 0 . 0 8 3 6 0 . 1 2 8 9 O .3 2 9 6 ‑133ー

139.

s u r v 1 0 0 . 9 0 . 8 0 . 7 0 . 6 0 . 5 0 . 4 0 . 3 0 . 2 0 . 1 一 *コホイト今 0 . 0 l J 2 0 3 0 4 0 臼 印 7 0 8 0 1 2 一ー勾 90 ∞ 1 E叫 皿a t 回 Q且 は i l eV a l 四 00 . . . . . . . 0 1 戸 向 。2 •••• lJ 叫 軍 1 1 円 令 嗣 押 2 1 図 6 LIFEREGの予測生存時間曲線ワイフル SUlV 1 0 0 . 9 0 . 8 0 . 7 0 . 6 0 . 5 0. 4 0 . 3 0 . 2 0 . 1 0 . 0 む 2 0 3 0 羽 田 印 7 0 8 0 1 2 ‑ーお 90 1 0 0 E叫 皿atedQ uaは江"V a l u e 00 " ' 0 1 平キ 戸 向 。2 . .l J 叫 寧 1 1 円 令 嗣 押 2 1 図 7 LIFEREGの予測生存時間曲線対数ロジスティック q 1A A ︑ υ 時A

140.

5 .終わりに V 8 .2における PH¥ fEGとLlrE¥ fEGの拡張は図らずしも,比例ハザードモデルと ) ] 1 1速モテずルの特徴をよ り必調した形となった. すなわち PHREGでは比例ハザードモテ守ルの基準分布を仮定する必要がない という特性に加えて,ロバスト分散によって生存時間の独立性が崩れても妥当な推測が可能になっ た.より頑健なモデルを構築することが可能になったといえよう.これに対し, LIFEREGでは,より 簡単にモデ ルを構築することが可能になり,また様々な生存時間の指標を出力したり,結果を視覚 化することが容易になった.より柔軟にモテ、/レを構築することが可能になったといえよう. 繰り返しになるが 2つの代表的な生存時間解析のモデ.ルで、ある比例ハザード モデルと加速モデ ルには一長一短があり,実際のデータ解析の場面では両者の特徴を理解しつつ,相補的に利用する 必要がある. 参考文献 1 .Allison, P .D .( 19 9 5 ) Survival analysis using the SAS systcm. SAS Jnstitut巴 I n c . 2 .Anders巴n, P . K . and Gill,¥ f. D . ( 1 9 8 2 ),Cox's regr巴ssion model counting process: a large samplc s t u d y . Annals of Statistics, 1 0, 1100‑1120. 3.Collctt,D .( 1 9 9 4 ) Modclling survival data i n Medical Research. Chapman and l l a ll . 4.Cox,D . R .( 19 7 2 ) . I¥egression models and life‑tables(with discussion). ] I ¥ S S s34, 187‑220 5 .Kalbfleisch, ] .D . and Prentice,1 ¥ .L . (1980). The statistical analysis of failure tim巴 c l a t a . Wiley 6.Lin, D . Y .,W巴 i ,L . ( 19 8 9 ),The robust inferenc巴 for lhe Cox proportional model. ]ournal of the American Statistical Association, 84, 1074‑1078. 7 .l 'rentice, 1 ¥ .L .,Williams,B.]., and Peterson,A.V. (1981), On lh巴 regression analysis a ilure tim巴 d a l a . Biometrika, 68, 373‑379. of multivariat巴 f 8 .Therneau,T .~l. and Grambsch P .~l. ( 2 0 0 0 )¥ I o d e l i n g survival d a t a . Spring巴r ] . , L in, D .Y ., and Wcissf巴 l d, L . (1989), R巴gression analysis of multivariate in 9 .Wei, L, complete failure tim巴 data by modeling marginal distribulion, ]ournal of the American Statistical Associalion, 81, 1065‑1073. υ つJ ︑ 一 l

141.

口頭論文発表 統計解析

142.

日本 S A Sユーザー会 (SUG I‑J) SASV e r . 8によるマイクロアレイデータの解析 j 賓野鉄太郎 北里大学大学院薬学研究科 臨床統計部門 M i c r o a r r a yd a t aa n a l y s i sw i t hv e r s i o n8o ft h eSASsystem T e t s u t a r oHamano O i v i s i o no fB i o s t a t i s t i c s,K i t a s a t oU n i v e r s i t yGraduateSchool 要旨 マイクロアレイは細胞や検体内の遺伝子発現をゲノムレベルで解析するツールであるー解析におい I別分析,あるいは仮説検定などの統計手法が用いられることが多い.しか ては,クラスタ一分析,半J し.データの再現性や検定の多重性の問題が指摘されており,データの前処理や解析手法の選択 には十分な注意が必要である.本論文では SASシステム"''¥ージョン 8を用いたマイクロアレイデー タの解析法を紹介し,解析上の問題点について議論する. キーワード: マイクロアレイ.SASシステム,正規化.LOESSプロシジャ 1 .はじめに 生命現象の理解,新薬の開発,および疾患の診断において,遺伝子の機能特定は有益な情報を 1,2 ]などのゲノム研究によって多くの遺伝子が発見され,その機能を特定す 与える.ヒトゲノム計画 [ る試みが現在行われている.そのような研究は一般にポストゲノム研究と呼ばれており,マイクロアレ 3,4 ]は,そのポストゲ、ノム研究における有用なツールのひとつで、ある.本稿では SASシステム・パ イ[ ージョン 8を用いたマイクロアレイデータ解析について紹介する. 2 .マイクロアレイとは 遺伝子の機能を理解するためには,遺伝子を個別に解析するだけでは不十分である.なぜならば, 遺伝子は単独で機能しているのではなく,生命システムの一部として機能しているからである.よって, 遺伝子の機能を理解するためには,遺伝子聞の相互ネットワークを理解する必要がある.マイクロア レイは数千から数万の遺伝子を同時に解析するツールで、あり,その情報は,遺伝子聞の相互ネット 5 ] . ワークを理解する上で有用である [ 1 3 9

143.

マイクロアレイは,小型のチッフ。上に数千から数万種類の相補的 DNA(cDNA)断片を配置したも のである.それらの断片に相補的な塩基配列がサンプル中に存在すれば,アレイ上にサンプルを滴 ゼ 、 下して適当な条件下に置いたときに相補的な塩基配列同士が結合する.この現象をハイブ、!)タoイ ーションとし、う.マイクロアレイ実験で、は,組織検体や培養細胞などのサンフ。ノレから,遺伝子の転写 産物で、あるメッセンジャー RNA(mRNA)を抽出し,それを cDNAまたは相補的 RNA(cRNA)(こ逆 転写する際に蛍光色素などで標識化する.標識化したサンフ。ルをマイクロアレイに滴下してハイブリ ダイズさせる.そして各スポットの蛍光強度を測定することにより,各遺伝子の発現量を定量化する. 3 ]であり,もうひとつは マイクロアレイは大きく分けて 2種類ある.ひとつはオリゴヌクレオチドアレイ [ cDNAマイクロアレイ [ 4 ]である.オリゴヌクレオチドアレイでは,半導体の基盤作成技術を用いて, 25 ~40 塩基の配列(オリゴヌクレオチド)をチッフ。上で、直接合成する.ひとつの遺伝子は 20~40 個の オリゴヌクレオチドで表現され,各オリゴヌクレオチドの蛍光強度を遺伝子毎に要約することにより,各 遺伝子の発現量を定量化する.チップ上に合成する塩基配列は自由にデザインできることから,オリ 6 ] . ゴヌクレオチドアレイは一塩基多型 (SNP)の解析にも用いられる [ cDNAマイクロアレイで は,実験によって得た cDNAをスライドガラス上にスポッテインクーする.ひと つの遺伝子はひとつのスポットで、表現されることが多い.cDNAマイクロアレイ実験で、は,アレイデー タ聞の誤差変動を考慮するために,ふたつのサンプルを別の蛍光色素で標識化して,それらを混合 したものをハイブリダイズさせることが多い.これを競合的ハイブリ夕、、イゼーションとしヴ.一方,オリゴ ヌクレオチドアレイでは,ひとつのサンプルによる非競合的ハイブリダイゼーションを行うことが多い. マイクロアレイは医学および、生物学の研究において幅広く用いられている.例えば Golubらは,オ リゴヌクレオチドアレイを用いて急性リンパ性白血病 (ALL)患者と急性骨髄性白血病 (AML)患者を 7 ] .彼らは 6817個の遺伝子をスポッティング、したオリゴ ヌクレオチド、アレイ 診断する方法を提案した [ を用い, 38人の患者の骨髄あるいは末梢血から抽出した mRNAの情報のみを用いて診断を行った. その結果, 38人中 36人に対して臨床診断と一致する診断を与えた. 8 ] .臨床試験データの統計 近年,臨床試験におけるファーマコジェノミクスの応用が増加している [ 解析では,ほとんどの場合で SASシステムが用いられていることを考慮すると, SAS、ンステムで、マイ クロアレイデータを解析する機会は今後増加するものと思われる.本稿では SAS システムを用いた マイクロアレイ解析法を紹介する. 3 .マイクロアレイデータの解析 3 .1.解析の目的とその特徴 マイクロアレイデータ解析の目的は, グ、ルーピンクー ・フイノレタリング ネットワーキング に分類することができる.まずク、/レーヒ。ンクーで、は,発現フ。ロファイルが類似している遺伝子群(あるい はサンフ。ノレ群)をク。ルーフ。化することが目的でありクラスター分析や判別分析などの手法を用いる 9 ] .クソレーヒ。ンク1 ま遺伝子の機能特定や疾患の診断に有益な情報を与える.次にフィル ことが多い [ ‑140

144.

タリングは,発現フ。ロファイルが特徴的な遺伝子群を抽出することが目的であり,主に仮説検定が用 1 0 ] .例えば,癌細胞と正常細胞で発現が異なる遺伝子群を抽出することで,癌化に関与 いられる [ する遺伝子の情報を得ることができる.最後にネットワーキングで、は,遺伝子発現のパスウェイを推定 1 1 ] . することが目的であり,ペイジアンネットワークなどの手法が用いられる [ マイクロアレイデータの主な特徴は,データ数が膨大であること,および変動要因の影響を受けや すし、ことである.マイクロアレイ解析で、はサンプル毎に数千から数万の遺伝子発現データが得られる. 実験で用いるサンフ。ル数は数個から数百(固なので,解析対象は数万から数百万個のデータである. 一方で,マイクロアレイは数 cmのチッフ。に数千から数万の cDNA断片を配置したものであり,些細 1 2 ] .ゆえにマイクロアレイ解析で は,必要なデータを取捨選 な実験変動がデータに大きく影響する [ 1 3 ] .ゆえに,本稿ではマ 択して実験変動を調整するとし、う,いわゆるデータの前処理が重要である [ イクロアレイデータの前処理に重点をおいて解析手法を紹介する. Perouらは, 42人の乳癌患者から G5個の組織検体を摘出し, 8102個の遺伝子による cDNAマ 1 4 ] .また, 20 人の乳癌患者に対しては イクロアレイを用いて乳癌の遺伝子発現解析を行った [ doxorubicin投与前と投与後の発現データを測定している.本稿では Perouらのマイクロアレイデー タ を 用 い て 解 析 を 行 っ た . Perou らのデータは, The Stanford Microarray Database (http://genome‑www5.stanford.edu!MicroArray/SMDI)にて一般に公開されている.上記デー タベースでは本データに限らず様々な種類のマイクロアレイデータを公開しており,多くの研究者に 有益な情報を提供している. 3 . 2 .マイクロアレイデータ マイクロアレイは大きく分けて 2種類あることを前述したが,得られるデータはアレイの種類によって 異なる.オ:;ゴ ヌクレオチド、アレイ実験で、は非競合的ハイブリ夕、 イゼーションを行うので,蛍光強度は P あるサンフ。ルの各遺伝子の mRNA発現量とみなすことができる.一方, cDNAマイクロアレイ実験で、 は競合的ハイブ、リタ。イゼーションを行うので,ふたつのサンプルの蛍光強度比を発現量の指標として 1種類の正常細胞の mRNAを混合したものを対照として用 用いることが多い.例えば Perouらは 1 い,他のすべてのサンフ。/レと競合的ハイフ、リ夕、、イゼーションを行うことで、アレイ聞の変動を考慮してい る[ 1 4 ] . 一般に, cDNAマイクロアレイ実験で、はサンフ。ルの蛍光強度を赤色で、図示し,対照の蛍光強度を 1 5 ] .そこで,あるサンフ。ル j(j= l,…川)の遺伝子 i(i =1 , . ・ .,/11)の蛍光強度 緑色で図示することが多い [ υ とおくことにする.このときサンプル jにおける遺伝子 iの蛍光強度 を民とし,対照の蛍光強度を G jG i jで、あるが,解析時にはその対数である l o gュ(R; jGυ )が用いられることが多い.図 1はあるサ 比は R; ンプルの対数発現比のヒストグラムである.ヒストグラムは UNIVARIATE プロシジャの HISTOGR A l V Iステー卜メン卜て、作成した.また, NORMALオフ。ションで、正規分布のフ。ロットを追加 した.対数発現比の分布型は正規分布に近いことが分かる.このデータでは,他のサンプルについ てもおおよそ正規分布に近い分布型で、あった. 一般に,オリゴヌクレオチドアレイを用いた解析でも結果の安示には対数発現比を用いることが多 l GJ,以下では 2種類のアレイを区別せずに議論を行うことにする. いので [ 1 4 1

145.

HumanB r 田 s tTumcrsDatao fP e r o u (2 C X ) ) ) 2 5 2 0 1 5 1 0 ‑ 8 . 7 ‑ 7 . 5 ・6 . 3 ‑ 5 . 1 ・ 3 . 9 ・ 2 . 7 ‑ 1 .5 ・0 . 3 0 . 9 Z . 1 3 . 3 4 . 5 5 . 7 6 . 9 l o g r a t i o 図1.対数発現比のヒストグラム 3 . 3 . データの正規化 前述したように,マイクロアレイは変動要因の影響を受けやすいことから,アレイデータをサンプル 1 3 ] .アレイデータの位置およ 問で比較可能にするためには,位置および尺度の調整が必要である [ び尺度に関する調整を正規化とし、うが,統計学における正規化とは異なり,位置のみの調整を行う 場合も正規化とし、うことがあり,注意が必要である. 図 2はサンフ。ル毎の対数発現比の箱ひげ図で、ある.パージョン 8では箱ひげ図を BOXPLOTプ ロ、ンジャによって簡単に描画することがで、きる.図 2より,特に四分位点範囲が大きく変動しているの が確認できる.この例では四分位点範囲に系統的な変化は見られないが,例えば経時観察データ を扱う場合には,時間の経過に伴って範囲が系統的に増加および減少する場合があり,そのような 場合の尺度調整には注意が必要である.上記の箱ひげ図は位置および尺度に関する正規化の必 要性を判断する上で有用な情報を与える. l o g i R i j ) +l o g 2 (G i j )] / 2に依存することが報告されている 変動要因の影響はスポットの平均対数強度 [ [ 1 3, 1 7 ] .Tsengら[ 1 3 ]および Dudoitら[ 1 7 ]は,その原因として,蛍光色素が安定した物質ではない こと,蛍光色素聞の標識効率が異なること,スライドのコ一子イングが一様でなし、こと,およびスポッタ ーのピン問で変動が生じることを挙げている. 1 4 2

146.

HumanB r e a s tTumσsDa t ao fPerou(2 C X X ) ) 1 5 1 0 巴 口 ロ ‑ 1 0寸 E 昌 口 巳 ー1 5 sa血ple HumanB r e a s tTumσsDa t ao fPerou(2 C X X ) ) 「 1 0 口 口 口 H ‑ 5寸 E 自 ー 日 ロ • t ヨ i i 包 • 同 a ロ 国 口 日 ロ 自 置 u 】 口 ロ 口 口 ‑ 1 5 日 r ' l p ! e 図2 . サンプル毎の対数発現比に対する箱ひげ図 ‑143

147.
[beta]
Human B
r
,
臼s
tTumorsD
a
t
ao
fPerω(
2
C
C
O
)
1
0
ε
r
a
ti
o

8
.
0
0
0
0
0
7
.
0
0
0
0
0
S
.
O
O
O
O
O

5
.
0
0
0
0
0
4
.
0
0
0
0
0
3
.
0
0
0
0
0

̲.・・.・..

三角

:

ー
.
'
・ ・
・
,

.
0
:~ ~;.. ø'~ .~:\~{~~f~~~心潟椛,~:~'.~~;-;.:;~/~!~:~.;' ~'"".~~. ~っ:If--7;-J

;
'
.
0
0
0
0
01
.
0
0
0
0
0

語鑑盈蕗泌ιJL主~.:'.iii~1~~.; ~.~~:: . ム . , ・ J
~て:-: ':~・f湾軍辺司還車窓函館磁総説豆、~~?~ll{i,ぺJペヌ~. '
,
:
'
.
‑
̲
:'
,
.
.
̲
̲
.
・:、・川町 }
o
;
'
,・
書長1
2
立海軍. .
図蹟置盤福留醤誕虚諸説丞t.:辺々~ナ7

..、・日ームゲ *,<::i,.: 哩~.{.!.t~t .'l'じよう1.'\ぞ~<主:てコ Jγも" '
.
' .~..7 ,
̲ .~.

.
‑
:
:
,

•

J5
沿

.
:~・.

,
.
'¥
,
:
'
, "f.叫疏積当菅醸翠竃靖国圏直握栂種魁@凶樫:訊;..~ .~~'.~ •

.
:~_:;' ':.'~':~.::~~'f~弘之被顎瀦癒檀醒畷怒~Ir{\::'.:し J

‑
1
.0
0
0
0
0

,
.
'.
:.~・ 7 ・, .
;
.
~.'\ ~ぞい
伝 f清笠宮釈明忠之~.~~・・吋3 ・...
.
.
:,~.: ::';':て i~::-~_~-t.y~京ぞ鳴らλγIJJ!?Jf
v
‑‑‑
h いて・.~~.:- .\.;~ .
.
,
I
.
.
.
'
f
..
;
.
:" ~

‑
2
.
0
0
0
0
0

ザ

‑
3
.
0
0
0
0
0
ー4
.
0
0
0
0
0

0
‑
5
.
0
0日0
‑
8
.
0
0
0
0
0
‑
7
.
0
0
0
0
0

。
日
‑
8
.
0
0
0
‑
9
.
0
0
0
0
0
2
.
0
0
0
0
0

4
.
0
0
0
0
0

6
.
0日0
0
0

8
.
0
0
0
0
0

1
0
.
0
0
0
0
0

1
2
.
0
0
0
0
0

1
4
.
0
0
0
0
0

1
8
.
0
0
0
0
0

m
e
a
n
!Ot

図 3.MAプロットと L
OESS曲線

u
d
o
i
tらが提案した MAフ。ロットを用
平均対数強度に依存する系統的変動を考慮するためには, D
1
7
]
.M Aフ。ロットは,横軸に平均対数強度,縦軸に対数強度比をとった散布図で、
いると便利である [
フ。ロットの例で、ある.図 3より,対数強度比に系統的な変動が生じていること,および
ある.図 3は MA
平均対数強度が小さし、ときに対数強度比の変動が大きいことがわかる.

u
d
o
i
tらは, MAフ。ロット上に非線形回帰曲線を当てはめ,その残差を用いて正規化を行
さらに, D
1
7
]
.この方法により,実験系における非線形な誤差変動を考慮した正規化を行う
う手法を提案した [

OESS曲線を当ては
ことができる.図 3の曲線は M Aフ。ロット上に非線形回帰分析の手法で、ある L
1
8
]
.ここでスムージングパラメータは 0
.
2 に設定した.パージョン 8 では新たに
めたものである [

LOESSフ ロシジャが追加され,このような非線形回帰分析を簡単に行うことがで、きるようになった.
ESIDUALオフ。ションを追加すればよい.図
残差を出力するためには, MODELステートメントに R
4は L
OESS曲線の残差に対して再び M Aフ。ロットを書いたものである.図 4より,平均対数強度に
o

依存した系統的変動が除去されていることが分かる.尺度に関する正規化は,残差データに対して

STDIZEフ。口、ンジャなどを用いることにより簡単に行うことができる.以上の操作をサンプル毎に行う
ことにより,アレイデータをサンフ。ル問で、比較可能にすることができる.

A斗 4
6A凶1

1

148.
[beta]
,
田s
Huηian B
r
tTumorsD
a
t
ao
fP
e
r
∞
(
2
f
J
J
J
)
Residu~ I

3
.
0
0
0
0
0

i.
0
0
0
0
0
6
.
0
0
0
0
0
5
.
0
0
0
0
0
4
.
0
0
0
0
0
3
.
0
0
0
0
0

二~':.~ :
訂
1
"
比
ふ
JJ¥L
心
い
J
4
以
以
U
J
三
J
:
J
J
仁
1
i
1
J
正
三
ぺ
J
之
去
必
主
之
之
之
主
"
三
:
i
三
J
三.勺ぐ
弓公伝弘,~/Jよ伝三-:;:己主只
η

>
}
ミ
ぐ
々
!
え
え
乙
ぷ
や
口
れ
只
ベ
主
ぷ
ん
.
.
';".:"Þ:i~~:;,"'/.にぶつγφツ泌総γ~;~!~~~~"::~>I
~~ ~~:. ~;
‑
.
"
.
‑
,
、
.
.
.
.
.
コ
日
曹
司.
.
.
"1.耳目~越正喧茸llIJ.t量:':~主õ:t.õI~:,:子 ,(!.,I

1
.0
0
0
0
0

千
=
ず
;
子

.・;.~:~:. '~f~~'i1慧藷溢謡謹謹歯謹揖塑喧型民設~I:J\~~ ・ :1,,: ':.

弓
.
.
心;'~'. ?;~01
.0
0
0
0
0

.
♂
:
三
;刊
r壬 .ト,
r.;ミぷ
ι 宅辛1干〆ダv玲椛令核毛f仁\パ摂翠J
コ:ぺぎケ\1'べ〆..デ
rr
「
fづf
竺fトr
穴行ぺ冶
T可て..~つ
に::Y:?hY
γγ
イ「
Jι
と三「乙
,人ぺ~勺ゾジ",
三・;三'.ÿ:./}.~たうえ tミ7ペペ日5JM ・日-:.~. ~ "
'
.
:.
:.•

‑
1
.
0
0
0
0日
司

ι ミ;i
=ヤ'. .;~:. ,よ,-:; 4
f
μ
.
ι
"
'
;
.
.
r
.
.
!

ν

〈
J
.
;
:
九 、
イ
て
:

2
.
0
0
0
0
0

3
.
0
0
0
0
0

‑
4
.
0
0
0
0
0
'
5
.
0
0
0
0
06
.
0
0
0
0
0
'
)
.
0
0
0
0
0
‑
3
.
0
0
0
0
0
‑
8
.
0
0
0
0
0
2
.
0
0
0
0
0

4
.
0
0
0
0
0

6
.
0
0
0
0
0

3
.
0
0
0
0
0

1
0
.
0
0
0
0
0

,

0
0
0
0
0
1.

1
4
.
0
0
0
0
0

1
6
.
0
0
0
0
0

meanh
耳

図4
.残差に対する MAプロットと LOESS曲線

3.4.データ解析
本節で、はマイクロアレイデータの解析で、用いられる主な統計的解析手法について紹介する.

3.4.1.グルーピング
マイクロアレイデータ解析で最も頻繁に用いられているグルーピング手法はクラスター分析である.
クラスター分析は,遺伝子問(あるいはサンプル問)の発現フ。ロファイルを比較して,類似性の高いも
のをグループ化する手法である.類似性の指標には相関係数やユークリッド、距離が用いられることが
多い.Eisen らは酵母の遺伝子発現フ。ロファイルをク、/レーヒ。ンク守するために階層型クラスタリング手
法を用いた [
1
5
]
.また, Tamayoらは酵母や骨髄性白血病細胞のデータに対して自己組織化マッフ。

(SOM)としづ手法を適用した [
1
9
]
.マイクロアレイデータに対するクラスタリングの詳細に関しては
Sherlockの文献 [
9
Jを参照されたい.

SASシステムでは CLUSTERプ口、ンジャで、階層的クラスタリンク、を, FASTCLUSブ。口、ンジャで、 k
平均法を適用することができる.また, TREEプロシジャを用いることで階層型クラスタリングの樹形
図を描画することができる.ただし,マイクロアレイデータ解析で、は何千もの遺伝子に対してクラスタ
ー分析が行われるので, TREE7
'ロシジャを適用する前に,興味ある遺伝子を選択した方が良好な
結果が得られるだろう.

‑
1
4
:
;

149.

他のグ ルーヒ。ンクー手法で、は判別分析が用いられることが多い.半J I 5 ] J [ 分析は疾患の診断を行う際に 特に有用である.マイクロアレイデータに対する判別分析手法の中で注目されているのがサポートベ 2 0 ] .SVMはカーネル関数を用いてデータを高次の特徴空間に射影 クターマシーン (SVM)である [ I 別分析を行う手法である.Brownらは,卵巣癌細胞のマイクロアレイデータに対 し,特徴空間上で半J 2 1 ] .その結果, してサポートベクターマシーンを適用し,他の判別手法との性能比較を行った [ Brownらのデータに関しては SVMの方が他の手法よりも判別能力が高いことが示された. SASシステムでは, DISCRIMフ。ロシジャで、線形判別分析やノンパラメトリック判別分析法を適用 することができる. 3. 4. 2 .フィルタリング 遺伝子のフィルタリングマで、最も用いられているのは仮説検定である.検定手法自体は通常の t検定 2 2 ]を参照ふしかし,何千から何万の遺伝子に対し や分散分析がよく用いられることが多し、(例えば [ 1 7 ] .Du出 d0江 1 tらは て検定を行うために,し、わゆる検定の多重性の問題が生じることが指摘されている [ f 白 : am 廿 叫 i 孔 均 l y 試験全体の第一種の過誤 ( ステツフ。ワイズ.調整 p値[ロ 23 司]を用いて解析を行つた.またThs h e rらは,部分帰無仮説については考 慮、しない,としづ~~し、意味での FWE を調整する false d i s c o v e r yr a t e(FDR)を用いた解析法を提 案している [ 2 4,2 5 ] . SASシステムでは, MULTTESTフロシジャを用いることにより,様々な調整 p { 直を適用することが 可能である.ステッフ。ワイズ調整 p値は STEPPERMオプションや STEPBOOTオフ。ションを用いる ことで適用できる.FDRオフ。ションを用いると, FDRに基づいた調整 p 値を得ることができる.また, MULTTESTプロシジャで、は複数の対比を用いた解析が可能であり,例えば Perouらのデータに対 o x o r u b i c i nの投与前と投与後の比較を,多重性を考慮 しては,対照群と乳癌群との比較,および d しながら行うことができる. 4 .考察 本稿では SASシステム・パージョン8におけるマイクロアレイデータ解析について紹介した.マイク ロアレイデータ解析においてはデータの前処理が重要であり,データの正規化には BOXPLOTプ ロシジャや LOESSフ。ロシジャが有効で、あることを示した.また,正規化後の解析においては,特に MULl 寸 ESTプ口、ンジャによるフィルタリング守が充実していることを紹介した.クラスター分析と判別分 析に関しては,今後のバージョンにおける SOMおよび SVMの適用が期待されるところである. 実は, LOESS による正規化手法にはスムージングパラメータの選択としウ問題点がある.LOESS によって得られる残差はスムージンクーパラメータの設定値に強く依存する.実際の解析では,図 4の ように残差の M Aプロットを描画して,正しく正規化が行われているかを確認することが大切であろ っ . 前述したように, SASシステムで、マイクロアレイデータを解析する機会は今後増加するものと思われ る.しかし,マイクロアレイ解析を専門とする統計担当者の数は非常に少ないのが現状である.SAS システムを用いたマイクロアレイの解析事例が数多く報告されることを期待したい. ‑146一

150.

参考文献 1 . LanderES,Linton LM,B irrenB,Nusbaum C,ZodyM C,BaldwinJ,e ta. 1I n i t i a l sequencinganda n a l y s i so ft h ehumangenome.λTatw・ e .2 001;4 0 9 ( 6 8 2 2 ) :860‑921 . 2 . VenterJC,AdamsM D,MyersE W ,L iP W ,MuralRJ,S uttonGG,θta . 1Thesequenceo f t h ehumangenome.S c i e n c e .2001;291(5507):1304‑51 . 3 . FodorSP ,ReadJL,P irrungM C,StryerL,LuAT ,S olasD.L i g h t ‑ d i r e c t e d,s p a t i a l l y addressablep a r a l l e lchemicals y n t h e s i s .S c i e n c e .1991;251(4995):767‑73. 4 . Schena M,Shalon D,Davis R W ,Brown PO. Q uantitative monitoring o f gene e x p r e s s i o n patterns with a complementary DNA m i c r o a r r a y . S c i e n c θ. 1 9 9 5 ; 2 7 0 ( 5 2 3 5 ) :467・7 0 . 5 . S z a l l a s iZ . Genetic network a n a l y s i si nl i g h to fmassivelyp a r a l l e lb i o l o g i c a l data a c q u i s i t i o n .Pac砂 1 1 1 pB i o c o m p u t .1999;:5‑16. 6 . SapolskyRJ,HsieL,Berno, A GhandourG,MittmannM,FanJB .High‑throughput polymorphism screeningandgenotypingwith high‑densityo l i g o n u c l e o t i d ea r r a y s . GenetAna . 11999;1 4 ( 5 ‑ 6 ) :1 8 7 ‑ 9 2 . 7 . Golub TR,Slonim D K,Tamayo P,Huard C,Gaasenbeek M,Mesirov JP ,e t al . Molecular c l a s s i f i c at i o no fc a n c e r :c l a s sd i s c o v e r y and c l a s sp r e d i c t i o n by gene e x p r e s s i o nmonitoring.S c i e n c e .1 9 9 9 ;2 8 6 ( 5 4 3 9 ) :5 3 1 ‑ 7 . 8 . AmeenM,Smith CH,BarkerJN. Pharmacogenetics i nc l i n i c a l dermatology. BrJ Dermato 1 .2002;146( 1 ) :2 ‑ 6 . 9 . SherlockG .Analysiso fl a r g e ‑ s c a l egeneexpressiond a t a .B riefB i o i n f o r m .2001;2 ( 4 )・ 3 5 0 ‑ 6 2 . 1 0 .WuTD.Analysinggenee x p r e s s i o ndatafromDNAmicroarrayst oi d e n t i f ycandidate g e n e s .JPatho 1 .2001;1 9 5 ( 1 ) :5 3 ‑ 6 5 . .ImotoS,GotoT,MiyanoS .Estimationo fg e n e t i cnetworksandf u n c t i o n a ls t r ・ uctures 11 betweengenesbyusingBayesiannetworksandnonparametricr e g r e s s i o n .PacSymp Biocomput.2 0 0 2 ; :1 7 5 ‑ 8 6 . 1 2 .LeeM L,KuoFC,WhitmoreG, A SklarJ .Importanceo fr e p l i c a t i o ni nmicroarraygene expression s t u d i e s : s t a t i s t i c a l methods and evidence from r e p e t i t i v e cDNA h y b r i d i z a t i o n s .ProcNatJAcadS c iUSA.2000;97( 18 ) :9 8 3 4 ‑ 9 . s s u e si ncDNAmicroarraya n a l y s i s : 1 3 .TsengGC,OhM K,RohlinL,LiaoJC,WongWH.I q u a l i t yf i l t e r i n g,channelnormalization,modelso fv a r i a t i o n sandassessmento fgene u c l e i cAcidsR e s .2001;29( 12 ) :2 5 4 9 ‑ 5 7 . e f f e c t s .N 1 4 .PerouC M,S o r l i eT,EisenM B,vandeR i j nM,J e f f r e ySS,ReesCA,e ta. 1Molecular ァ p o r t r a i t so fhumanb r c a s ttumours.人T n t u r c .2000;406(6797):747‑52 ,Brown PO,I 30 t s t e i nD . Cluster a n a l y s i s and d i s p l a yo f 1 5 . Eisen M B,Spellman PT 1 4 7

151.
[beta]
genome‑wideexp1'e
s
s
i
o
np
a
t
t
e
r
n
s
.J
う.
ocM
ョt
1AcadS
c
iUSA.1998;9
5
(
2
5
)
:1
4
8
6
38
.
i
b
e1' SL
.Vecto1' a
l
g
e
b1'ai
nt
h
ea
n
a
l
y
s
i
so
fgenome‑wide
1
6
.KuruvillaFG,Pa1'kPJ,Sch1'e
exp1'e
s
s
i
o
nd
a
t
a
.Gθnomθ s
io
l
.2
0
0
2
;3
(
3
)
:RESEARCH0011
.10
0
11
.1
1
.
1
7
. Dudoit Y,Yang YH,Callow MJ,Speed T
P
.S
t
a
t
i
s
t
i
c
a
l methods f
o1' i
d
e
n
t
i
f
y
i
n
g
n
t
i
a
l
l
yexp1'e
s
s
e
dgenesi
nr
e
p
l
i
c
a
t
e
dcDNAmicroar1'ayexperiments.T
e
c
h
n
i
c
a
l
d
i
f
f
e1'e
Repo1't578,Depa1'tmento
fS
t
a
t
i
s
t
i
c
s,UCBerkeley
,CA.,2
0
0
0
.
s
s
eE
. Regression by l
o
c
a
lf
i
t
t
i
n
g
. J01l1てn
a
1
s of
1
8
. Cleveland W S, Delvin SJ,G1'o

Economθt
r
i
c
s
.1
9
8
8
;3
7
:8
71
1
4
.
1
9
.TamayoP,SlonimD,MesirovJ,ZhuQ,Kita1'eewanS,Dmit1'ovskyE,Lande1' ES,
Golub TR
. Interpreting patterns o
f gene e
x
p
r
e
s
s
i
o
n with s
e
l
f
‑
o
r
g
a
n
i
z
i
n
g maps:
methodsanda
p
p
l
i
c
a
t
i
o
nt
ohematopoieticd
i
f
f
e
r
e
n
t
i
a
t
i
o
n
.ProcNat1AcadS
c
iUSA.
1
9
9
9
;9
6
(
6
)
:2
9
0
71
2
.
2
0
.VapnikV S
t
a
t
i
s
t
i
c
a
1
1
e
a
r
n
i
n
gt
h
e
o
r
yWiley
,NewY
o
r
k
.1
9
9
8
.
. Brown M P
,GrundyW N,LinD,C
r
i
s
t
i
a
n
i
n
iN,Sugnet C W
,FureyTS,AresM Jr
,
21

HausslerD.Knowledge‑baseda
n
a
l
y
s
i
so
fmicroarraygeneexpressiondatabyusing
supportv
e
c
t
o
rmachines. }ケ"oc^匂 t
1AcadS
c
iUSA.2000;9
7
(
1
)
:2
6
2
‑
7
.
王1
,Duggan D,ChenY,RadmacherM,B
i
t
t
n
e
rM,Simon R,Meltzer P,
2
2
. Hedenfall

GustersonB,E
s
t
e
l
l
e
rM,K
a
l
l
i
o
n
i
e
m
iOP
,WilfondB,BorgA,
'
I
i
‑
e
n
tJ
.Gene‑expression

.2
0
0
1
;3
4
4
(
8
)
:539・4
8
.
p
r
o
f
i
l
e
si
nh
e
r
e
d
i
t
a
r
yb
r
e
a
s
tc
a
n
c
e
r
.N Eng1JMθd
S
.R
esamp1ing‑basedm
l
l
1
t
i
p
1
et
e
s
t
i
n
g
:θ'
x
a
m
p
1
e
sandmethodsf
o
r
2
3
.W
e
s
t
f
a
l
lPH,YoungS
,NewY
o
r
k
.1
9
9
3
.
p
‑
v
a
1
1
1
ea
d
j
l
l
s
t
m
e
n
t
.Wiley

i
b
s
h
i
r
a
n
iR,ChuG
.S
i
g
n
i
f
i
c
a
n
c
ea
n
a
l
y
s
i
so
fmicroarraysa
p
p
l
i
e
dt
ot
h
e
2
4
.TusherVG,T
う.
o
cNat1AcadS
c
iUSA.2001;9
8
(
9
)
:5116‑21
.
i
o
n
i
z
i
n
gr
a
d
i
a
t
i
o
nr
e
s
p
o
n
s
e
.}

2
5
.BenjaminiY,HochbergY
.Cont1'o
l
l
i
n
gt
h
ef
a
l
s
ed
i
s
c
o
v
e
r
yr
a
t
e
:ap
r
a
c
t
i
c
a
landpowerful
approacht
om
u
l
t
i
p
l
et
e
s
t
i
n
g
.JRS
t
a
t
i
s
tS
o
c
.B
.1995;5
7
:2
8
9
‑
3
0
0
.

‑1‑!8‑

152.

日本 S A Sユーザー会 (SUG I‑J) MIXEDプロシジャを用いた反復測定データの解析 。菅波秀規 *1*2 五所正彦大 1 大 1興和株式会社!臨床解析ff! 1 勺 東 京l J j!科大学大学院工学研究科 Analysiso frepeatedmeasuresdatausingMIXEDp r o c e d u r e . HidekiSuganami*I*~ MasahikoGoshol 金 1B i o s t a t i s t i c sandDataManagementDep , . tKowaC O . L t d . 大2 01 ・ 8 n 1 1 a t eS c h o o J(IfF .n g I)1ρ ρ 1 ', ηg, F ミ ( ' 1 ρ n ( ' ρ T T n i v向 官i 十yn f↑'nkvn 大 要旨 SAS/STAT ソフトウェアでは、線形モデルにおいて複数の分散成分を扱うためのプロシジャと して MIXEDプロシジャが別意されていふ。この MIXEDプロシジャを用いて反復測定データを 解析する方法として、 randomステートメントを用いる方法(混合効果モデル)と r epeatedステ ートメントを用いる方法(周辺モデル)がある。本報 f f fでは、 [ I h j者の使用方法を概説し、使 m J 二 の注意点といくつかのオフションについて紹介する。 キーワード: MIXEDプロシジヤ,混合効果モデル, } ? i l辺モデル,ロバスト分散 1, 反 復 測 定 デ ー タ と GLMプ ロ シ ジ ャ 反復測定データは、 l個体について複数回測定を行うことによって得られる。例えば臨床試験で は 1被験者ーに対して来院間隔毎に測定を行うことによって反復測定データが発生する。反復測定 データではデータ問に相聞が生じているので、一般線形モデルを mいて解析を試みる場合には、 このキ1 I闘を考慮した解析を行う必盟がある。 GLMプロシジャでは、多変量分散分析や単変量分散分析における臼由度の補正によって反復測 定データを解析することができる 1)。しかし、欠測が存在する場合には個体自体が解析から外され てしまうことや、状況によっては過度に保守的な検定となることから 2)、実際のデータ解析に使用 することは勧められない。 GLMプロシジャによって扱うことができる単変量分散分析モデルは式(1 )の形式をとる。モデル は固定効果ーを表す X β と誤差ベクトル εによって特徴付けられる。 Y=X β+ε ( 1 ) 1 4 9ー

153.

1 Y :観d! 1 されたデータベクトル x 既知の固定効果に対する計画行列 β :未知の固定効果パラメータベクトル 布 " 昔 日 ι . ol. , , , , a : : : . J‑ ~,/ 1 . 1 I /V ここで V(E)=Iσ2=Rとする 2 . MIXEDプロシジャ SAS/STAT ソフトウェアでは、複数の分散成分を持つ線形モデルを扱うためのプロシジャとし て MIXED プロシジャが用意されている。 MIXED プロシジャでは random ステートメントと r e p e a t e dステートメントの一方もしくは両方を用いることで反復測定データを扱うことができる。 Randomステートメントは反復測定データに対して混合効果モデルを当てはめ、 r e p e a t e dステ ートメントは問辺モデルを当てはめる。混合効果モデルは、どのパラメータを変量として扱うか によっていくつかのモデル化の方法があるがへ本報告では切片だけを変量成分として扱う Randomi n t e r c e p tmodelを考える。 本報告において説明のために用いるデータのプロットを図 lに示す。データは 2 群 (4時点) の反復測定データであり、左右にそれぞれ 1群ずつを示している。本報告ではデータの発生源は 特に重要ではないため、ここでは説明しない。 図 1 データのプロット 左右に群1] 1にデータを示した。 2 . 1 . 混合効果モデル randomステートメントによる混合効果モデルは、式( 1 )に個体差を表す変量効果 Zyを追加した 形式をとる(式 ( 2 ) )。これはデータ聞に相聞が生じるぽ凶を 1 占│体長と考え、個体を条件づけたドで は誤差は独立であるとするモデルである。 y=x β+Zy+ε ( 2 ) Z :変量効果に対する既知の立十回行列 7 ・未知の変量効果パラメータベクトル ここで V( )=IσL二 G V(ε)ニIσ~ =Rとする , 1 5 0ー

154.

変量効果を追加したモデルにおけるデータの分散共分散行列は以下のようになる (ここでは 3 n~て ←円 Ir.11、 井一一』斗ー、 " ' Tλ, ¥~ t )' Jノj ' C 二 ノj、 ツ ノ 。 V(Y )= ZGZ'+R 0000 ︑ に 0 000002 に 000 ︑ rnoo 1+ σ;σ;σJ 、、, σJσ;σ; 1 ̲2 ̲2 σル σム σわ 00 ︑ ︿ 000 . 0 0 0 0 0 0 orH0000 a : b σ ?+σ2 0 0 0 ︐ rwO0000 b ‑i'‑l‑JJ σ‑ ︐庁叫円庁久q 円庁﹁0 0 0 σh 000 σ ; σi+σ; J ‑ 0 7 0 庁円 庁 町 円 庁 町 円 0 ' J ‑ 1 q 0 0 ︐ ︑ 一 ︐ ︐︐ 0 ︑ ‑ 汽 円 ︐町 r 勺 ︐r 0 0 0 勺 可lili‑‑L = 可一机 ︑﹁円 σ 0 0 0 + ︐r 町︑町 0 '手踊 0 σ 0 0 σ 0 0 2LP ヲ ︐︐ ‑m ‑4+000 ,一 σJ+σ; σ i 、一, σ ; σJ+σょ σょ σ 1 このことから変量効果が存在する下では、誤差に独立を仮定しでも i J l J 定値には共分散がブロッ ク対角行列の形式で現れることがわかる。これは後述する周辺モデルにおいて複合対称 (CompoundSymmetry:CS) 構造を J R定した場合のデータの分散共分散行列に等しい。 反復iH J 1定データの解析ではデータの分散共分散行列がどのように特徴付けられているかを確認 することは有用である。 MIXEDフロシジャでは random ステートメントに v オプションをつけ ることでデータの分散共分散行列を出力することができる。しかし、プログラム 1のように個体 を random ステートメントで直接指定する場合には、全ての個体について分散共分散行列が出力 されるため、分散共分散行列の構造を確認することが同難である。そこで、プログラム 2のよう に切片項を random ステートメントで指定し、 s u b j e c t オフションによって個体を指定すれば 1 個体分の分散共分散行列を出力することができる。 p r o cmixed; c l a s sDRUGIDTIME; modelY=DRUGTIME/ddfm=s a t t e r t h ; randomID/t y p eニ v cv ; r u n ; プログラム 1 混合効果モデルの指定 p r o cmixed: c l a s sDRUGIDTIME; modelY=DRUGTIME/ddfm=s a t t e r t h ; randomINT/s u b j e c t = I Dt y p e=v cv ; r u n ; フログラム 2 分散共分散行列の効果的な出力方法 混合効果モデルによるモデルの当てはめイメージを│玄I 2(1;:)に示す。実線は固定効果で推定され I RU I

155.

る平均プロファイルを表しており、破線が変量効果による個体への当てはめを表している(図'‑1" は 4例分を示している)。このように各個体を意識したモデルの当てはめを行うことから Subject • e・ τ1 1 1 1 ゴ ‑ ;~._J!'.l....... '7 . . . , . . . . 1̲ +キτ マ 。ド己じ 1 1 11 . ‑ ;u(JUむ1 '-吋ぜ0.,レ.~ I.̲ ( ̲ D G i ' . J.~。 混合効果モデルにおいて p r e d i c t e d オプションによって予測値を出力した場合には各間体(破 線)に対する予測値が得られ、平均フロファイルに対する予測値は得られない。 SASの予測値の プロットを図 2 (右)に示す。 、 . . . i li4titil‑‑L 図 2 混合効果モデルによるモデルの当てはめイメージ(左)と予測値のプロット(右) 本プロットでは 1群(図 l左)だけを示している。 2 . 2 . 周辺モデル repeatedステートメントによる周辺モデルでは、混合効果モデルのように新しい効果を追加す ることなく、誤差の構造を特徴付けることで反復測定データの相聞を考慮した解析を行う(プロ グラム 3)。固定効果は式 ( 1 )と変わらないが、誤差の分散共分散行列の非対角部分(共分散)をモ デル化することによって相関を考慮した解析を行う。 MIXED プロシジャでは、モデル化する分 AR(1 ), TOEPなど)が用意されている。この内 CS 散共分散行列の構造に対して様々な構造 (CS, 構造は混合到来モデルにおいてjJi' ] i 体を 2 2 h t効果に指定したモデルと同じ分間共分首交付タリとなる ( 2 . 1参照)。 p r o cmixed; c l a s sDRUGIDTIME; modelY=DRUGTIME/ddfm=s a t t e r t h ; repeated/s u b j e c t=IDt y p e=c s ; r u n ; プログラム 3 周辺モデルの指定 周辺モデルによるモデルの当てはめイメージを 1~13 (左)に示す。周辺モデルでは、固定効果に よって平均プロファイル(横矢印)を当てはめ、各l f l , t 体の平均プロファイルからのズレ(縦矢印) は分散共分散行列によって当てはめる。問辺モデルの予測値は、個体に関する情報を持たないた め、群内のすべての個体が同じ平均フロファイルを予測値として持つ(図 3(右))。このように平 均プロファイルを中心としたモデル化を行うことから、 PopulationAveragemodelと1 1手ばれるこ ともある。 内 ノU PU ょ ‑

156.

i ‑ ; ; ; ‑ ‑ ‑ ‑ ‑ ‑ ‑ 区) 3 周辺モデルによるモデルの当てはめイメージ(左)と予測値のプロット(右) 本プロットでは l群(図 1左)だけを示している。 3 . 当てはまり統計量 周辺モデルにおけるデータの分散共分散行列の構造選択方法については、他に詳しい説明がある ため州ここでは扱わない。しかし、どちらもリリース G . 1 2を用いて解説しているため、リリース 6 . 1 2からリリース 8 . 1に移行した際に当てはまり統計 : i iの方向性が変わったことに注意する必要 がある。 . 1 2では AIC、BICともに大きい方が当てはまりが良いとされていたが、リリース 8 . 1 リリース 6 以降では小さい方が当てはまりが良いとされている九 MIXED プロシジャでは他のプロシジャ (LOGISTICプロシジャなど)と AICの定義が異なっていたが、今[[1)の改定によって一旦.して解 ヌ[ 5にリリース 8 . 2における当てはまり統計呈の出力を示す。 釈することが可能となった。 l 4 . ロバスト分散 分散共分散行列の構造を決定するための方法はいくつか t 起案されている1)5)。しかし、データの 真の桝造を完全にモデル化することは不可能であり、また常に真の構造に最も近い分散共分散行 列が選択されるとは限らない。分散共分散行列の誤特定は、パラメータの標準誤差がバイアスを 持つことになるため固定効果の検定に大きな影響を与える。このため川辺モデルを用いて推測を Iの推定そのものに興味はなくとも正しい標準=誤差の推定は重要な 行う場合には、分散共分散行タJ 問題となる 7)。この問題への対応として口バスト分散を川いる点法があり、 MIXEDプロシジャで はe m p i r i c a lオプションによってこの解析が実行可能である(プログラム 4 )。 p r o cmixede m p i r i c a l; c l a s sDRUGIDTIME; modelY DRUGTIME/ddfm=s a t t e r t h ; y p eニ c sr ; r e p e a t e d/s u b j e c t二 IDt 二 1 ・ un; プログラム 4 e m p i r i c a l オプションの指il:による口バスト分間の利 ! [ l υ つJ ︑ ‑1i

157.

ロバスト分散は式 ( 3 )で定義される九一見複雑な形式に見えるが、中心部分の偏差平方和部分が Lでお定しえ刀法共刀;;文行列にミ干しければ式 ( . 1 )のように モデJ 段涼万二主アJ Lで忠い乙パラメ ク 推定値の分散共分散行列に等しくなる。このことから、 e m p i r i c a l オプションをつけて解析を行 った場合に、標準誤差の推定値の変化が小さい構造がデータの構造を良く表していると考えるこ とが出来る。 V (占 )= ( X ' v ‑J Xt 'X ' v ‑J ( y‑ x 3 I X y‑ x I 3 )v ‑t X ( X'v‑t X } ー ! ( 3 ) ( x ' v ‑ t xt x ' v ‑ t v v ‑ t x ( x ' v ‑ t xt= ( x ' v ‑ J xt ( 4 ) V(占 )= e m p i r i c a l 寸プションを用いない場合 ( n a i v e ) と用いた場合 ( r o b u s t } の山力の要約を函 4に s t i m a t eの項に示しているパラメータ推定値は、特定の時点と薬剤群に関する推定値を示 示す。 e し 、 P値は効果内のオーバーオールの検定を表している。時間 (TIME) に対する標準誤差の推定 は 、 SIMPLEにおいて大きく変化している。これは、サンプルデータに時点を通じて何らかの相 聞があるにも関わらず、 SIMPLE構造を仮定した解析では、データは時点を通じて独立であると して解析を行っているためである。これに比べ、他の構造は少なくとも相聞があると仮定した構 造であるため、影響の大きさに違いはあるものの全体的に影響は小さい。また、群(DRUG) 効 m p i r i c a l オプシ 果は、サンプルデータにおける薬剤効果が大きいため P値が 0.1%未満であり、 e ョン使用前後で差がないように見える。しかし、標準誤差の推定値は構造によって変化しており、 分散共分散行列の構造が推定に影響を及ぼしていることがわかる。 時間、群とも TOEPの標準誤差は殆ど変化していない。本データに対しては F i tS t a t i s t i c sとコ レログラム 1)からもデータの分散共分散構造は TOEPが妥当であると考えられていたが、この結 果も TOEPを支持しているといえる。 ここで特に強調しておきたいことは、 e m p i r i c a l オプションを用いた推定ではいずれの分散共分 散行列を指定しでも結果に大差ないということである。データに独立を仮定する SIMPLEでさえ、 e m p i r i c a l オプションを用いることによって他の構造を選択した場合と変わらない結論を得るこ とができている。実は本サンフルデータでは時点を経るに従い分散が減少していることがデータ から見てとれる(基本統計量からも推測できる)ため、分散共分散行列の対角要素は右下にいく につれて小さい分散をとるような構造を指定すべきである。この場合には UNや CSHなどを用 いることによって適切に分散共分散構造を指定することができる。しかし、実用を考えた場合、 MIXED プロシジャでは多くの分散共分散行列の構造が用意されているため、全ての構造に対す る当てはまりを検討することには時間を要する。このような場合にも図 4に示した e m p i r i c a lオ プションによる共分散構造誤特定に対する安定性から、代表的な分散共分散行列について当ては まりを検討し、最も当てはまっている構造において e m p i r i c a l オフションを用いるというアプロ ーチをとることができる。 また、常に UNを使用すべきであるという意見もあるが、 UNは推定しなければいけないパラ メータが多いため他の構造で分散共分散構造を適切に表すことができる場合には避けたい方法で ある。 1 5 4

158.
[beta]
structur巴 factor estimate s巴 (naiv巴)
.0.0328
。ーっ 2115

S巴

SIMPLE

DRUG

CS
CS
AR(
1l
AR(
1l

TIME0.2595
.0.0314

DRUG

.0.2585

TIME

TOEP
TOEP

TIME

0.0296
.0.2564
.0.0309

DRUG

ー0.2579

UN

TIME

.0.0310

UN

DRUG

.0.2598

DRUG

(robustl

"111 1
:
‑.
、ー‑‑"

"

円-・ T・~~ ~ ~ー~!::

→ 0.03094
→ 0.01087

0.01975
0.01023
0.03175
0.01314
0.03128
0.01097
0.03175

ー令

0.03071

→ 0.01092
→ 0.03093
→ 0.01087

'
) 0 C '7

~

<.0001 ー 令
0.0086 →
<.0001 ー 令
0.0723 →
<.0001 ー 令

0.03071

0.0179 →
<.0001 ー 令

→ 0.01086
→ 0.03031

0.0161 →
<.0001 ー 令

ー令

0.01093
0.03136

P(naiv巴)
"

p(robustl
n

"1 10

<.0001
0.0132
<.0001
0.0220
<.0001
0.0153
<.0001
0.0151
<.0001

図 4empirica1 オプションを川いない場合 (naive) とJl
J
いた場合 (robust) の出力

5
. 不等分散のあっかい
解析しようとしているデータにおいて、各群の分散が異なる場合には、次のような対応方法を勧
めていることがある 9) ["単純な正規分布に従う 2若手比較を考える場合、等分散であれば studentt
0

検定を行い、不等分散であれば welch t検定を行う。また多群の場合には、等分散であれば分散
分析を行い、不等分散であればKruska1‑Wallis検定をする。」これは不等分散の多群データを扱
う方法が広く利用可能でなかったための対応策であると考えられる。しかし、不等分散のデ一夕
王a
1
に対してノンパラメトリツクなKrusk
不等分散の問題に対して、 MIXED フロシジャでは group オフションを用いることによってパラ

) 。プログラムは repeated ステートメントにつ
メトリックな解析が可能である(プログラム 5
いて示すが random ステートメントによっても類似の解析が可能である。ただし、 random ステ
ートメントでは、個体問分散に関する分散共分散行列 (GMatrix) についてのみ groupオプショ
ンの効果が現れるため、完全に結果が一致することはない。

procmixed;
classDRUGIDTIME;
modelY=
DRUGTIME/ddfm二 s
a
t
t
e
r
t
h
;
repeated/subject=IDtype二 csrgroup=DRUG;
run;

プロゲラム八

group オプションの指定方法

図 5にサンプルデータ(図 1) に対して group オプションを指定した場合と指定しない場合の
当てはまり統計量を示す。この結果からは、不等分散データへの対応のために増加したパラメー
タ数を考慮しでも、 group オプションを指定したモデルの方が当てはまりが良いことが分かる。
なお、サンプルデータのプロット(凶1)からも両者は不等分散であることが見て取れ、モデル
選択が適切であることが推察される。また、等分散性の検定が必盟 であれば、 FitStatisticsで示
a

υ

aA

匂

‑
﹁

Fhd

159.

される対数尤度を用いて尤度比検定を行うことができる。 不等分散 F i tS t a t i s t i c s 等分散 4 8 4 . 8 ‑ 2ResLogL i k e l i h o o d ‑ 4 5 8 . i ‑ 4 i 6 . 8 AIC( s m a l l e ri sb e t t e r ) ‑ 4 5 4 . i ‑ 4 i 6 . i AICC( s m a l l e ri sb e t t e r )‑ 4 5 4 . i ‑ 4 6 3 . 1 BIC( s m a l l e ri sb e t t e r ) ‑ 4 4 i . 9 ‑ !~!5 当てはまり統計量 6 . 分散共分散行列の問題 2 1 ; 1において混合効果モデルと]i'i J 辺モデルについて示した。混合効果モデルにおいて個体を変量 効果として指定するモデルと、 J J i J辺モデルにおいて C S柿造を指定することは同じ分散共分散行 列になることを示したが、応用上気をつけなければならない点がある。 ひとつは分散共分散行列の推定における問題であり、もうひとつはデータの独立性の検定におけ る問題である。 まず推定の問題について解説する。混合効果モデルでは変足効果に対する分散共分散行列(個体 問分散を表す)と誤差の分散共分散行列(個体内分散を表す)を別々に推定し、両者の平I (変量 Jと積をとった後)をデータの分散共分散行列としている 効果に対する分散共分散行列は計画行ヂj ( 2 . 1 参照)。このため、変量効果に対する分散共分散行列と誤差の分散共分散行列のそれぞれが i E定値でなければならない。しかし、個体問分散が極めて小さい場合には、個体問分散に関する 推定値が負の値となり、分散共分散行列が非正定値となってしまうことがある。この時ログには NOTE ( N O T E :E s t i m a t e dGm a t r i xi sn o tp o s i t i v ed e f i n i t e . ) がL U力され、個体間分散は強制的に Oに ' i ! ! i 定される。周辺モデルではデータの分散共分散行列を直接 C S構造の仮定の下で推定するため、 只分ほか貝 ω岨じ/ぶったとしてもプータの分散共分散行列が 1 1 二辻他じめれば同j 足!なべ推疋か於 J する。この分散共分散行列の推定における制限のために、同一データに対する両モデルによる解 析結果が一致しないことがある。 この問題に対して、 MIXED フロシジャのオフションとして、 noboundオプションを用いるこ とによって負の分散を認めた解析を行うことができるが、混合効果モデルを用いて推測を行うの であれば、 0に強制する解析の方が自然である。 次にデータの独立性の検定における問題について解説する。データの独立性の検定は混合効果モ デルでは変量効果の検定に相当し、 c o v t e s tオフションによって変量効果に対する Wald検定を出 j Jすることが可能である。また、周辺モデルでは共分散の検定に相当し、デフォルトで尤度比設 1 ¥力される。変量効果の検定に対する Wald検定については利用可能であるとする報告もあ 定が 1 るが問、検定統計量の分布が歪んでいるため利用価値はないという報告もあるため 11)注意を要す る 。 このことを直感的に説明するために、級内相関係数(式 ( 5 )左上)と積率相関係数(式 ( 5 )右上) を用いて解説する。式 ( 5 )には混合効果モデルによって得られるデータの分散共分散行列(式 ( 5 )左 下)と周辺モデルによって得られるデータの分散共分散行列(式 ( 5 )右下)も同時に示した。 級内中1関係数の分母には伺体問分散と例体内分散の手1 Iが、分子には品川本問分散が定義されている。 phU FHU 1

160.
[beta]
これは全体の分散に対する~i'il体問分散の割合を表す指標であり、 0""'1 の値をとる。一方加率キ1I 関

係数の分母には分散の附の半方制が、分子には共分散が定義されており、

1
"
"
'+1の値をとる。

;2 およ右足モデ}~で;立、支 iiLi泊先:という 13112; こ関する ;JJ民;之介主導入すーユことによ J て反佐測定ア
ータを扱おうとしているため、

~"il{本間分散に負の値を認めることができない。このことは、級内

相関係数によってデータの相関を表そうするアブローチとして考えることができる。また、周辺
モデルでは、データの分散共分散行列を特徴付けることによって反復測定データを扱おうとして
いるために、このような制限は存在せず砧率相関係数(共分散)によってデータの相│閑を表そう
とするアプローチとして考えることができる。
ここで、それぞれのモデルにおいてデータの独立性を検定するための仮説を考える。陥 J!\~ 仮説は

それぞれ、変量効果が o(o~ =0)、共分散が o(
σ1
)
=0) とィ号えることができる。しかし、対立仮
説は、変量効果の検定は分散成分の検辻-であるために片側似説 (σ~>O) としてしか定義できない
が、共分散の検定は I,"î 側似 ~i~見( 0 1
)手=
0) として定義 l可能である。このことから個体問分散が極め

て小占〈、

U
:の推定値の候補が負の{直になる場合には、変 lA効果に京、jする検定は実行不能となる。
υ
σ

o

[
:
σ
!

σb?UU

o

σ刊
一+
σ
。ー

σ‑
b

今

ヲ ゥ

[
σb
、
戸

σわー

σ;+σi
σ‑
b
ウ

ヲ

l

ヲ

l

、、

l

σ Hー' +σ,~
‑IJ

I

一
白
川
引

・

στ
P/C =一
τ÷

σ
h I

σ
│
h
I

(
5
)

σσ

I

σik

σjk

hq2bf

ρσσ ρσσ

:級 l
付キ1I関係数

MpvdHJ

技
:似体 I
H
b
士i
:似体内分 i
放
:引率制 1
主i
係数
:分 i
孜
:j
切H孜

7, ふ た つ の モ デ ル の 使 い 分 け
反復測定データの解析には、混合効果モデルと周辺モデルが利用可能であることを 2 章で示し
た。どちらのモデルを川いて反復測定データを解析すべきであるかについてはいろいろな考え方
がある。
ふたつのモデルのどちらかを使わなければならない場合には、使い分けについて次のように考

λることができる。まず、データにキ1閑が発生する加が複数存在し、しかもそれぞれの分散に独
立を仮定できるならば、混合効果モデルを用いて解析を行うべきである。これは、問辺モデルで
は分散共分散行列を特 i
ごすることによってデータの +
聞の発生源が複数
1
1閑を扱っているため、ね i
ある場合には、それぞれのいl
子のモデルに対する影粋を検討できないためである。 MIXED プロ
シジャにおいても r
epeatedステートメントによる出力で複数の要因を分離することはできない。
犬l
が」つの場合には(例えば、 1M
次に、キn
関を生じさせる'tll
J体に対する経時的繰り返し測定)、

常に J
i
i
J辺モデルを)jJいるべきである。これは、周辺モデルを川いた場合にはデータの分散共分散
行列において c
s以外の多様な構造をとることが!日米ることと、ロバスト分散が利川可能である

‑]57
161.

ためである。ロバスト分散の有川性については 4章で示した。 しかしながら、 MIXEDプロシジャでは randomステートメントと r e p e a t e dステートメントの ! 吊することができるため、之れぞれの良さを口町;こ活用す乙ことができる。担問主主じ 両方主平J させる要因が個人に対する経時的繰り返し測定の場合であっても、両方のステートメントにおい て個体を指定すれば、個体内分散、個体問分散、データの共分散の全てが出力される。このこと によって測定したデータによって説明可能な分散(個体問分散)と説明不可能な分散(誤差分散) について検討することが可能となる。また、真のデータの相関構造によっては、両方を指定する モデルが最も当てはまりが良いこともある九 8 . 最後に MIXEDプロシジャを用いた反復測定データの解析について概観した。 MIXEDプロシジャでは、 GL i v i では十分に長うことができなかった反復測定データを複数の方法で解析することぷ可能に なっている。また、不等分散が扱えるようになったことや、ロバスト分散を利用できるようにな ったことから解析の自由度も大 l隔に向上している。 今 回 の 報 告 で は 単 純 な 反 復 測 定 デ ー タ の 解 析 を 解 説 し た が 、 randoT'1ステートメントと repeated ステートメントを組み合わせることによってより複雑な相関構造を持つモデルを解析 することが可能である。複雑なモデルを指定できるようになったことは歓迎すべきことであるが、 解析者が SASに解析させたいモデルと SASが解析するモデルが一致しない危険性も高まってい ることには注意する必要がある。さらに MIXEDプロシジャには今回紹介しなかったオプション も多く用意されている ( p r i o r ステートメントを用いて Bayes的アブローチも可能)ため、 MIXED プロシジャを用いて解析を試みる場合には、 MIXEDフロシジャの特徴を良く知る必要がある。 9 . 参考支献 1 ) 高橋行雄,大橋靖雄 ( 1 9 8 9 )SASによる実験データの解析.東京大学出版会 2 ) 岸本淳司 ( 1 9 9 6 )PROCMIXED入門.日本 SASユーザー会論文集 . 1 7 9 ‑ 1 9 7 3 ) B.Helen,P . R o b i n( 1 9 9 9 )AppliedMixedModelsi nM e d i c i n e .W i l l y 4 )R .C . L i t t l e( 2 0 0 0 )Modelingc o v a r i a n c es t r u c t u r ei nt h ea n a l y s i sofrepeatedmeasuresd a t a . S t a ti nMed.19:1793‑1819 ,R .C . L i t t e l l( 19 9 6 )AdvancedGeneralLinearModelswithanEmphasisonMixed 5 ) D.Latour ModelsCourseN o t e s .SASI n s t i t u t e e r s i o n8 . 6 ) SASI n s t i t u t eI n c .( 2 0 0 1 )SAS/STATU s e r ' sGuide,V . Y.Liang, S .L .Zegar( 1 9 8 6 )L o n d i t u d i n a ld a t aa n a l y s i su s i n gg e n e r a l i z e dl i n e a rmodels, 7 )K B i o m e t r i k a .73,1 3 ‑ 2 2 . .J . D i g g l e,K . Y .Liang,S.L.Zegar( 1 9 9 4 ) A n a l y s i so fLon g i t u d i n a ld a t a,Oxfordu n i v e r s i t y 8 )P p r e s s . 9 ) 吉村功 ( 1 9 8 7 ) 毒性・薬効データの統計解析.サイエンテイスト社 1 0 )菅波秀規,吉村功 ( 2 0 0 0 ) 混合効果モデルの実用化.計量生物セミナー資料 1 1 )松山裕,山口拓洋 ( 2 0 0 1 ) 医学統計のための線型混合モデル.サイエンテイスト社 p﹁ υ Tよ o o

162.

日本 SASユ ー ザ ー 会 (SUG I-~) PCA/aNNによるマイクロアレイデータの解析 0角谷伸ーへ田崎武信へ竹政伊知朗付,松原謙 H へ 門 田 守 人H *塩野義製薬(株),帥大阪大学大学院病態制御外科,対*奈良先端科学技術大学院大学バイオ サイエンス科ゲノム機能解析 A n a l y s i so fMicroarrayDataUsingPCA/aNNMethod TakenobuT a s a k iへI c h i r oTakemasa**, K e n i c h iMatsubara帥 へ S h i n i c h iKakutani*, M o r i t oMonden** 大 B i o s t a t i s t i c sD e p t .,S h i o n o g i& C o ., L t d .,大D e p t .S u r g e r yandC l i n .O n c o l o g y,Graduate OsakaU n i v .大 ,* * D e p t .B i o l o g i c a lS c i e n c e,NaraI n s t .S c i e n c eandT e c h n o l o g y S c h o o lofMed., 要 旨遺伝子の発現フ。ロファイルを測定する方法の Iつに cDNAマイクロアレイがあるこれから 得られるデータの特徴は,サンフ。ノレの数が限られる一方で,遺伝子の数が数千から数万と多 いことである.SAS の世界で,これはオブPザベーションの数に比して,変数の数が圧倒的に多 いことを意味する.このような超多変量データの解析に最初に利用された方法は,クラスター 分析,主成分分析 (PCA)などである.しかし最近では, CART,SOM,SVMなどの非古典的 t な多変量解析法が積極的に試用されている.そのようなチャレンジの Iっとして, Khan e a. 1(2001 )は PCAとaNN( アーティフィシャルニューラノレ不ツトワーク)を組み合わせた方法による 疾患分類にとり組んでいる.この論文ではその方法の拡張形を提案し, SAS による実行を例 示する. キーワード cDNAマイクロアレイ,遺伝子発現データ,主成分分析,アーティフィシャルニューラ ノレネットワーク,クロスヴ、アジデ イション 1.はじめに 遺伝子の発現フ。ロファイルを測定する方法に cDNAマイクロアレイがある.ここから得られた遺 伝子発現データに基づき,疾病に関連する遺伝子を同定することが試みられている.遺伝子 発現デ、ータではふつうサンフ。ルの数が限られる.その一方で,遺伝子の数は数千から数万と 圧倒的に多いこうしたデータを解析し,疾病に関与する遺伝子を同定することは容易ではな い.Khane ta . 1(2001)は PCAとaNNを組み合わせた方法で疾患分顕に取り組んでいるに の方法を以降では Khanらの方法とよ主).まず,主成分分析を行ない変数(遺伝子)の次元を 締約する.手持ちのデータをキャリブ、レイション叩データとテスト川データに分;引す『る.つぎに Jデータをトレイニング)J Iとヴァリデイション J I Iとに分ける.トレイニング)IJデ キャリプレイション H ータを川いて aNN に I~/: 刊をさせ, . j $ U . l,¥分間モデルを j t ' j唱する.十1 ¥ ' ' 1j 長されたモデルをヴァリデ ‑159‑

163.

イション用データにあてはめて検証する.さらに,キャリプレイション用データのなかで,別のト レイニング用とヴァリデイ、ンョン用のデータを作成し,それらについて同じ手順を反復する.最 後に,構築されたそデ、ノレの集合(委員会)をテスト用データにあてはめて,疾患分類性能を最 終的に検証する.このような 2重の検証を伴うアプローチが Khanらの方法である.その方法 では別に,解析に用いた各遺伝子が疾患分類に及ぼす影響度を表すひとつの指標を計算す る.その指標の大きさによって遺伝子のランキング、を行ない,ランクの低い遺伝子を順次削除 する形で重要な遺伝子を絞り込む. 大腸癌患者の遺伝子発現データを解析して,肝転移に関与する遺伝子を探索するにあた , り Khanらの方法に注目した. 1組のデータからひとつのそデ〉レを構成するとしづ既成概念に とらわれていなし、こと,ヴ、アリデ イションとテストとし、う 2重の検証プロセスが新鮮に感じられたか らである.しかし,テスト用データをも含む全データで5最初に次元縮約を実施するフ。ロセスは 問題であると感じた.PCAによる次元縮約もデータに依存して変動する.この不安定要素をと り組むように Khan らの方法を拡張した.拡張した方法によって大腸癌患者の遺伝子発現デ ータから,肝転移に影響を及ぼす遺伝子の探索を行った.この結果を報告する. 2 .PCAJaNNアプローチ 2 . 1 Khanらのアプローチとその拡張 前節で述べたように Khanらの方法で、はテスト用のサンフ。ノレを含む全デ、ータ i こPCA を適用して 次元の縮小をはかる.その後の解析はすべて PCA スコアを基礎にする.すなわち, PCA スコ アを利用してそデ、ルを構築し,モデ、/レを検証する.テスト用のサンフツレを純粋な未来のサンフ。 による次元 ルと考えると,未来のサンプノレを含む全データによる次元縮小は奇妙である.PCA 縮小は対象とするデータに依存する.モデ、ルの構築にそのことを反映させるべきで、ある.モデ ルの予測性能の評価にもそのことを反映させるべきで、ある.このような考えから Khanらの方法 の拡張を考えた.拡張したアプローチの全手順を図 1に示す.この提案法では, PCA をそデ ル構築のプロセスのなかに組み入れた. 変数の数が多いと PCAの計算負荷は大きくなる.とくに,提案法では PCA計算を反復する ためにその計算負荷は深刻である.このため,遺伝子数の影響が弱し、計算法を採用すること にした.その概l H 各を次色i r で述べる ‑)60ー

164.
[beta]
O
. 遺伝子 p個 x サンプル円個

テλト用テ'‑'1

キ
ャ)
1プレイション用デ‑'1

1 キャ,)プレイション用サンプ}~をランダム l 二 3 つのゲループに等分する
上
伝
子

よ
繰
度
再

返
す

回目回

6

遺
位

7

2 ウ・市・イ泊ン用のサンプ川ツトとして 1つのグループを選ぶ

J
グ
プ
レ
1

ー ウ 用

3 主成分分析によつて次元を縮約する

更
し
て

4与 う 山

4

ず可~γ~、司.

反
復
(

3
回

3

I l
̲
1
ν
川
崎
叩
培
3
/
々
耐
崎
矧
…を射ウ

変
を

す
る

1

分

I

復
│ す

│ る
5 トレイニング後のモデルを検証するの'
7リデイション用デ ‑
9
)一一一̲j

~

B 各遺伝子の疾患分類に対する貢献度を計算し,この値に基づいて

5

遺伝子をランキけする
9
.テスト用データで検証する

巴

1
0 遺伝子を絞り込む(ランキング結果から上位遺伝子を選択する)

図1.PCAJaNNアプローチ(拡張法)の全体図

22主成分分析と特異値分解
,

いま,遺伝子を行,サンフ。/レを列とする行列を考える.遺伝子発現データは一般に,サンフ。ノレ

0
6
9遺伝子×
数 n が少なく遺伝子数 p が多いデータであるたとえば今回とり扱うデータは 2
217サンフ。ノレの行列である.このような超多変量データに直面して最初に考えることは遺伝子
(変数)の次元の縮約である.このための手段としては主成分分析が有力である.その場合,普
通に考えると ,pxp行列の固有値問題を解かなければならない.これは遺伝子数が樋端に
多いと面倒になる.しかし,図 2の特異値分解の双対関係を利用すると ,nxn行列の固有値
q

1
1

q
q

p

1
1

q

=p

x
T
xの第 1固有ベクトル
T
x
x
あるいは x
T
xの第 l岡有値の平方恨(特異値)
l

xx T の首 ~ 1
1,
1
;千ベクトノレ

|立I~. !1.'f W([I1 ぅ)-fíJl((nH~Jtlヌi

1
1
1
¥
]
l
l
i
1
を'
W
(こどご,その l而(
1
主r
"
j
i
喧できる│求I
~ iti欠の政式夫 J 見に ~.j" ぶしている.
]

(

161‑

)
l

X= LAI{

165.

この式の両辺で左から e を掛ける.すると, eX=eLAR=AR ( 2 ) を得る. いま ,nxn行列の固有値問題を解し、て A(固有値)と L(固有ベクトル)とが得られているとす る. L(固有ベクトル)は ,pxp行列の固有値問題からすると r 実質的に」スコアに相当する. そして ,pxp行列の固有ベクトノレは ( 2 )式から「実質的に」求めることができる.ここで「実質 的」と括弧をつけて断ったのは「規準化を除いて」としウ意味である. 今回の解析では,主成分分析の処理時間を短縮するために,特異値分解を活用した.な お,縮約次元数については,第 l主成分からの累積寄与率が 80%を超えることを目安にした. このとき,大腸癌の遺伝子発現データはおよそ 1 2個の主成分に締約された. 2 . 3aNN(アーティフィシャルニューラルネットワーク) PCAJaNN法では疾患,いまの場合,肝転移の有無を予測するために aNNを用いる.ここに 出力ユニットは転移なしと肝転移を表す 2個の指標変数である.入力ユニットは,主成分分析 から得られる主成分スコアで、ある.中間層を lつ,中間層のノウドを 2個,そして 1 2個の主成 分を用いたときの aNNの模式図を図 3に示す. 出力層 中間層 入力層 図3 .aNNの模式図 :の中間届をもっモデルで・ある.しかし,今回の解析に 通常の aNNは図 3のように]つ以 1 は ql !1 ~I)~i のない nNN を利用した.この場合の aNN は出力ユニットごa との重凹帰 l こ相当する. そして,入力1Mに!日し、る:-l~)j比分の例数を l~ とすると aNN モデ、ルは:2 G l f , l ; jのベラメタによって 同定される.行易に!;1J保できるように, ̲ t U力j v iの 2ユニットを lつの:2W i変数にお; i台すれば,未 知l パラメタは 1 : 1fl,~j になる.このとき,通 ~~H' の JIlt 小 2 来 jQI 'liJ1 を 11 ジスティック同却におさかえるこ ともできる. ‑162ー

166.
[beta]
2.
4PCA/aNNアプローチの実行手順

2.
4.
1 キャリフ、レイション用データとテスト用データへの分割

069個の遺伝子と 217個のサンフ。/レからなり,サンプ
解析対象とした遺伝子発現データは, 2
2
7サンフ。ノレ,肝転移 5
4サンプル,その他の転移 24サンフ。ル,正常
ノレの内訳は転移なし 1
1
2サンフ。ルで、あった.その他の転移と正常のサンフ。ノレはすべてテスト用とし,最終的な疾患
分類方式の特異性を調べるために温存した.残りの転移なしと肝転移のサンプルはそれぞれ
キャリフ、、レイション用とテスト用におよそ 3
:
1の割合でランダムに分割した.具体的に,転移なし

1サンフ。ノレと肝転移の 1
5サンフ。ルをテスト用に温存した.
の3
2.
4.
2 3分のクロスヴァリテ、イション
クロスヴァリデ、イションの手順で、は, 1
例削除方式でなく, 1
1
3削除の 3分クロスヴァリデ、イションを

3
5個のサンプルをラ
利用した.すなわち,キャリブ、レイション用とした転移なしと肝転移の計 1
ンダムに、ンャッフルして,同じ大きさの 3つのグ、/レーフ。に分割した.そのうち 2つのグループ,
個のサンフ。ノレをトレイニング、セットとして aNN
を学習させ,残りの 3
番めのグノレー
計 45X2=90

5個のサンフ。ノレをヴァリデ、イションセットとして過学習の監視に利用した.トレイニングと
プ,計 4
ヴァリデ イションの手順を,ヴ、アリデ、イションのグ、/レーフ。を入れ替えることで、 3回反復したヴ、アリ

250回繰り返した.この
デ、イションセットとトレイニング、セットへ分割するためのシャツフリングは 1
2
5
0回繰り返し,各、ンヤツブリンク、、で3
個の aNN
モデ、/レをあてはめた.し
ようにシャツブリンク守を 1
2
5
0回含めた.そして,全部で 3750
たがって,各サンフ。ルをグァリデ、イションセットに全部で 1
個の aNN
モデ、ノレを構成した.
2.
4.
3モデルの評価(委員会評価)
各サンフ。ノレについての 1
250回の予測は 2通りに利用できる.すなわち,個々に判断してから
平均をとること (A委員会)と,平均をとってから判断すること (B委員会)が考えられる.より具体
的に,ひとつの aNN
モデルは,各サンプルについて,そして転移なしと肝転移のそれぞ、れに
の聞の値を与える.
ついて,出力として, 0と1

A委員会の場合では,最大の出力を強制的に値 l
におき換え,残りの出力をl
f
i
1
l0におき換える.

2
5
0回の予測のうち何回が正しかったかを求める.
そして, 1
B委員会の場合では,すべての t
Jl力の平均値を計算する.そのうえで,その平均値の最大値

(こおき倹える.
と残りの値を強制的にそれぞれが'[1と値 O
今回は,サンフ。ルを分類するために, B 委員会の方式を利

mした.ヴァリデ、イ、ンョンセットの

サンプルについての委員会は 1
2
5
0 恥l
のモデルで構成され,一方,テスト f
l
lのサンプルにつ

1
iGO何のモデルで情成されることに注,むしたい.
いての委司会は i
2.4.4ノイズサンプルの分類

/
)P(~八JaNN Y1; による疾忠分 m てすよみサL ブ吋ルを, 1t;i i
会の平均 s
i
Z
;
う
1
j
l
t大の疾忠にう〉
今
!
iI(
m つ1- るーコ市二めに大さい i}}~l~上 ]1 i~ff する. L
、
方 L,
し

γ
n
Lの.
j
U
l
¥でも恥い寸ト,..'ヴル,いまの f
i
Jでノ

‑l(
j
3ー

167.
[beta]
イズとしてテスト用データに含めた,その他の転移と正常の 2種類のサンフ。ノレについては,転
移なしと肝転移のいずれの疾患にも分類したくない.このために,ひとつのサンプルについて,
その理想票までの距離 dcを定義する.
dc=jSM)2

ここで, cはそのサンフロノレの真の疾患 ,Ojはそのサンフ。ノレの疾患 iについての委員会平均票,
そして δi̲cは iがそのサンフ。ルの真の疾患 cに対応すれば値 1,そうでなければ値 Oをとる変数
となる
である.この距離は,相異なる疾患に所属する2つの理想的なサンフ。ノレの聞の距離が I
ように規準化している.したがって,距離(は0とl
の聞の数値になる.いまの事例で考えると,
,そうでなければ値O
をとる変数を 01とする.同様にして,肝転移に
転移なしに所属すれば値 1
ついて o
うを定義する.
中間層を利用しなし、 aNNが多重回帰に帰着することは先に述べた.その計算内容を詳述

2個の主成分を利用する場合で話を進める.01とO2のそれぞれを応答 ,1
2個の主成
する. 1
分 PC1,
'
'
'
, PCI2を説明変数として 2通りの重回帰をあてはめる.その結果は以下のように表現
できる.
PCI,s +s
ふI
1
I
2,
s=s
s
,
,
IO +s
,
ll
,
I2PC
,
2s +…+s
1
2PC
,
O2,5 = β2.0 +β2.IPC
s+β2.2PC
I
,
,
2s +… +β2.lePC
ロ

ここに,PC 1•s …, PC I2,s I
ま以下のように表現できる.
'

̲
̲・
,
,
x
PC..=α l,
X
・
・ +α
L
A
l,
2X
A2
t
^l
,
,
,
2069
^2069,
s +α I
s+
s
r LA.

r

T

̲+
,
̲=α
‑L
PC,2.5
X,
・
ー +α
L
A
I
2,
A
1
2,
'
‑
"
'
1
2,
2X
^2
"
1
.
,
1
^
1
.
s +α
2069^2069.s
‑
r

‑
r

T

委員会の平均票は, 1
2
5
0個のそデ、ルから計算される 1
2
5
0個の得点。いの平均として求めら
れることに注意したい.ここでキャリフ、、レイション用データを利用して,疾患タイプごとに,その
の経験確率分布関数を構成する.この経験確率分布関数は(委員会平
I
真の疾患からの距I
t
(
1
均票ではなく)個々の aNNモデ、/レを用いて作成する.したがって,この分布に登録される距離
の個数は,その疾患タイフ。に属するサンフロノレ数の 1
2
5
0倍である.そうした経験確率分 1
1
1関数
に基づいて,あるテストサンプルが与えられたとき,分頬を

m否することも可能にする.このた

1
想、からの距l
めに,各疾忠について, J
r
r
i
l
tとして許容で、きるカットオフ距献を定義する
ここでは,経験 i
!
(
H~存分千打開放の!J 5'% 点にあたる距離を力、ソトオフに選んだ.もし,あるサンプ
ルがこのカットオフ h' I1 I~lt のタト fWJ にあれば,そのサンフ。ルの分 w を保留する.このカ、ソトオフによ
1
'
),mi~ あるし、 i-上沼 I! の校 t1\、の斗トンプル:1-"その他の jß~

r
l
¥として識別することが可能となる.

2
5 遺伝子の影響度
.
4.
I(
/
)fiJll~!行における UlYな, ['~l 在!のひとコ l よむ[ム(- (
1
)'
,
(1) 込みであ~~)こ(!ったように,各
アしイギ~- 1
j
i

164‑

168.
[beta]
遺伝子について,疾患の識別に及ぼす影響度を計算する .k番目の遺伝子の値を入力変数

S
kを以下のように定義した.
らとして ,Xkに対する識別の感度:^

11ιιI~I
一
一
‑
N,N
t
I
OXk.sI
o

針モ

ここに, NSはキャリブ、レイション用サンフ。ノレの個数 ,N。は出力の個数である.感度 S
kを計算

k
;を以
する手順には, 3750個のモデ、/レからなる委員会が関係する.また,各出力 0;の感度 S

N
S
Tc
u

1一
N
S

下のように定義した.

この出力ごとの感度については絶対値だけでなく符号も別に定義した.すなわち,感度に対
する寄与が絶対値で最大のものを探し,その符号が正()であれば感度の符号を正()とし
た.この符号が正であることは,その遺伝子の発現が増加すれば,その疾患に所属する確率
も増加することを意味する.この符号が負であることは,その逆を意味する.し w、かえると,その
符号によって,遺伝子が u
p
‑
r
e
g
u
l
a
t
eされるのか c
l
o
w
n
‑
r
e
g
u
l
a
t
eされるのかを判断で、きる.な

ど
i
̲は , 仏 (s番めのサンプノレについての k番めの遺伝子の発現量)

お,感度の定義で, I

1

1c
J
Xk"1

のみをわずかに変化させるときに,各出力 0;がどのくらい変化するかの量の絶対値を表してい
る.この偏微分は数値微分で近似すること,すなわち xをたとえば x+O.lへと変化させたとき
のoの変化量として計算することができる.しかし,モデ、ルが複雑で、なければ,代数的に計算
することも可能である.今回は,前述の pとαを利用して以下の式から影響度を代数的に評
項でサンフ。ノレを表す指標 5は主成分の掠形性および中間層のなし、 aNN
価した.この式の第 3
によって消失することに注意したい.

。I ι
0;

Iι
、u α ,

O
O
; OPCj

一 一 一 一 = 専一一一一一一一一一ー=

e
)
xkl
X
:
i
.:
=
:
X
.
l
:
.

3

i
xk I
い υ
自
針
。 PCj J

I I,)

)
.
1
1
.

このような影響度を用いて遺伝子のランキンクーを行なった.そして,このランキングに基づい
て,遺伝子の絞り込みを行った.今回は,遺伝子のランキンクー上位 153Gf
i
!
t7
G
8
f
l
i
m,384個
,

192何
, 9G倒
, 48個
, 2
4
f
l
円!の遺伝子を選び,おのおのについてキγ
vリブ、レイションとテストの全
手1
)
闘を反復した.

2.
4.
6 分類性能の最終的な評価
~1750 伽!の aNN モデ、ノレからなる委 kl 会を川いてテストJIlのサンプルを何別に識別する.このと
き,住民忠からの距 I~!f がいずれもカットオフ (p'[ を起える H}[f には誠 JJI] を{早出する
に上引先 lJ.t 分間 U)1"Uìt を汗{JIIj-)-るとき,ノイズサン寸、 J~ ,
こっし、てI:Uk!也分

j
l
:
:ししい:
1
j
I
I
'
l
J
i
‑
‑
(
"あるとする.

‑165

PCA/aNN

wを(以i
Y
lj
‑ることが,
て

169.
[beta]
3
. 事例
大腸癌における肝転移の識別を目的として遺伝子発現データに PC
A
l
aNN法を適用した結
果を,以下に報告する.

全 2069
個の遺伝子を用いたときの PC
A
laNNにおける遺伝子ランキング'
‑
1こ基づいて遺伝子
を絞り込んだ.上位遺伝子 1
5
3
6個
, 7
68個
, 3
84個
, 1
9
2個
, 9
6個
, 4
8個
, 2
4個のそれぞれを

A
laNN解析を反復した.おのおのの場合におけるテスト用データでの正分類率を
用いて PC
表 1に示す.
表1.テスト用サンフ。ノレでの正分類率
転移なしの行および肝転移の行において,括弧内は分類を保留した例数を表す
2069個 1
5
3
6個 7
6
8個 384個
1
9
2個
9
6個
48個
2
4個

群¥遺伝子の個数
3
1例)
転移なし (
肝転移(15例)

ノイズ、サンプ/レ
その他の転移 (
2
4例)
正常サンプル (
1
2例)

8
0
.
0
%
(
3
)

8
0
.
0
%
(
3
)

8
6
.
7
%
(
2
)

9
6
.
8
%
(
1
)
8
6
.
7
%
(
2
)

6
6
.
7
%
100%

6
6
.
7
%
1
0
0弘

1
0
0
%
1
0
0
%

1
0
0
%
1
0
0
%

100%

1
0
0
%

1
0
0
%

9
6
.
8
%
(
1
)
8
6
.
7
%
(
2
)

9
6
.
8
% 9
6
.
8
%
8
6
.
7
% 8
6
.
7
%
(
2
)
(
2
)

100%

1
0
0
%
1
0
0
%

7
0
.
8
% 6
2
.
5
%
1
0
0
% 100%

2
5
.
0
%
2
5
.
0
%

(
1
)

100%

(
1
)

なお,転移なしサンフ。ノレと肝転移サンプノレの行で3は,分類が保留された例数を分母のみに

4例と正常サン
含めて正分類率を算出している.ノイズ、サンフ勺レ(し、まの場合,その他の転移 2
プノレ 1
2例)の行では,分類が保留された場合のみを正分類とみなし,正分類率の分子に計上
している.
肝転移の有無に視点をおき,大腸癌の肝転移に影響を及ぼす最少の遺伝子の組み合わ

4個の遺伝子になる.この上位 2
4個の遺伝子による正分類率は,転移なし,肝転
せは上位 2
移のし、ずれでも 100%
で、あった.ただし,このときのノイズ、サンプノレに対する特異度は上位 48
個の遺伝子を用いたときよりも劣化した.

4
.考察
大Il易癌の肝転移に影響を及ぼす遺伝子の探索を, Khane
ta
.
1(2001
)のアフロローチを拡張し
た PC
A
lnNNアフ。ローヲーによって実行した.その結果は十分に満足で!きるもので、あった.

PC八J
<
lNN アブローチは,モデ ルをひとつ情築して,そのそデルを内部│京本あるいは外部
悼み;によって険証するとし寸従来の枠組を超えている.その委員会方式は b
a
g
g
i
n
gや

b
o
o
:
o
t
.i
n
g(1)i
j
‑えjjに近いといえる.
ii{;多変 i止の泣 Ii.~ (‑注目デ』ータヒL
とり!従うために !'CA/aNNア
ブ
、 11、一二)二では i1
J
1
:'
)
}
分
l
‑
J
‑
i
;
1
:
'
j采
一

‑166

170.
[beta]
用している.しかし,主成分分析ではどの変数,どの遺伝子が最も重要であるのかとしウ問題
に直接答えることが難しい.この難点を克服するために PCAJaNNアプローチでは,遺伝子の
ランキングを行ない,その結果に基づき変数を絞り込むとしづ戦術を採用している.なお,大腸
癌の肝転移においてこのアフ。ローチで抽出された遺伝子の組み合わせの生物学的な有意性
は別に考察されている.
委員会方式を採用することで PCAJaNNアプローチは,サンフ。ルご、との王分類率の算出を
可能にしている.そして,正分類率のよいサンプルに注目して,解析を再実行すれば,より純
粋な遺伝子セットの抽出が可能になるカもしれない.

PCAJaNNアプローチに関連して,遺伝子発現データを解析するうえで避けられない問題
がある.それは欠測値の発生である.欠測値を無視して,解析を行うことは困難である.今回
の事例では欠損iJ値を補完するために,欠測セノレに対して,該当するサンフ。/レの周辺平均①,
該当する遺伝子の周辺平均②,および全平均③をそれぞれ利用可能なデータから算出した
うえで,①+②

③の値を代入した

∞

遺伝子発現デ一夕の欠測補完について, Troyansk
王a
ya e
ta1
.(200
1
)は
, kNN 法 (
α
k
‑

NearestNe
引i
副
ghbo
町r
甘
, SVD法 (
S
i
n
g
u
l
a
rValueD
e
c
o
m
p
o
s
i
t
i
o
n
),および行平均 f
去をとりあ
げ,比較しているそして, kNN法がもっとも好ましく, kNN法 >SVD法>行平均法の順に

RMSE
K サンプル近傍遺伝子近傍
0
.
2
9
4
8
1 0
.
3
1
7
6
0
.
2
5
9
2
2
0
.
2
9
6
4
0
.
2
6
2
7
3
0
.
2
9
5
2
0
.
2
6
1
8
4
0
.
2
9
6
8
0
.
2
6
2
4
5 [
Q
:
亙
0
.
2
5
8
7
6
0
.
2
9
4
2
7
0
.
2
9
7
4
0
.
2
5
6
4
8
0
.
2
9
7
8 1
0
.
2
5
6
0I
9
0
.
3
0
1
4
0
.
2
5
9
2
0
.
2
5
9
3
1
0 0
.
3
0
4
4

0
.
3
5

E

0
.
3
0

0.25

o 1 2 3 4

5 6 7 B

9 10

k
図4
.kNNt
i
f
i完で kを変化させたときの RMSEの変化
好ましいと結論している.この論文の結論を織かめるために,この論文の事例にも kNN 1
:
去
を
適用し, j
法初]の欠i1
!
I
J
t
i
l
l完方法(行平均│列平均

全平均)との 1
mで平方恨平均平 )5偏 差

llMSEを‑
J
じ除したーその結県を図 4
(こ示す.kNNt
J
̲
;
は RMSEを改善すあこと,しかもサンプ
t

ル近付?を手I
I
J
I
Iするよりも, i
i
I伝子泣 (
'
)
jを*
1
1川する:
1
工うが上し、ことがわかった .kNN泣伝子法に
上って t
i
B完したヂ」一々を丸J
'
訟としたI'CAhlNNi
1
;の結果iJここでは',i
l
!
J
<
歪
寸
『
る
.

‑167

171.

謝辞 同僚の浦狩さん,山本さん,惣田さん,平野さん,松村さん,浜口さん,山田さん,佐藤さんら に感謝します.とくに,慰田さんには図 4を提供していただきました. 参考文献 K h a n . J . .Wei, J . S .,R i n g e r, M.,Saa ,lL . H .,Ladanyi, M.,Westermann, F B e r t h o l d, F ., 勺 Schwab, M.,Ant o n e s c u, C .R . , P e t e r s o n, C .,andM e l t z e r, P . S . ( 2 0 0 1 ) .C l a s s i f i c a t i o n andd i a g n o s t i cp r e d i c t i o no fc a n c e r su s i n gg e n ee x p r e s s i o np r o f i l i n ganda r t i f i c i a l n e u r a ln e t w o r k s .NatureM e d i c i n e,7,6 7 36 7 9 . ・ O ., C a n t o r, M., S h e r l o c l , 王G ., Brown, P ., H a s t i e, T ., T i b s h i r a n i, R ., Troyanskaya, B o t s t e i n, D .,andA ltman, R . B . ( 2 0 0 1 ) .M i s s i n gv a l u ee s t i m a t i o nmethodsf o rDNA 4, 5205 2 5 . m i c r o a r r a y s .B i o i n f o r m a t i c s,1 ・ 本稿のデータ解析用に開発した SASプログラムに興味のあるかたは,次の E ‑ M a i l アドレス までご連絡ください.s h i n i c h i . k a k u t a n i @ s h i o n o g i . c o . j p ‑168

172.

日本 SASユーザー会 (SUG1‑0) 回帰分析におけるクロスバリデーション 水田匡彦 住友金属工業株式会社 総合技術研究所計調1市 1御研究開発部 Crossv a l i d a t i o na tr e g r e s s i o na n a l y s i s Masahiko Mizuta Instrument& ControlR&OOepartment SumitomoMetalI n d u s t r i e s .LTO. 要旨 回帰分析手法は、目的変数を説明変数で予測する統計解析手法であり、例えば SAS/INSIGHT ソフトウエアを利用すれば簡単に回帰モデルを得ることができる。しかしながら、得られた回 帰モデルを目的に合致するように十分評価したうえで活用しているかについては疑問が残る。 品質管理を行うための品質予測として回帰モデルを利用する場合には、回帰モデルの予測精度 を高めるとともにその信頼性を高める工夫が必要であり、回帰分析手法の適用で大切なことは 回帰モデルを評価することであると言える。本論文では、回帰モデルの評価方法にクロスバリ デーションを取り上げ、どのように回帰モデルを評価し決定したかの一例について説明する。 キーワード: 回帰分析回帰モデルクロスバリデーション SAS/INSIGHTソフトウェア 1.はじめに 回帰分析手法は、種々のデータから目的とするデータを予測する予測モデ、ル作成手法においては最 もポピュラーな手法のひとつで、ある。製造業における研究開発では、物理現象をモデ、ル化した物理モデ、 ルの構築を試みるとともに、物理モデ、ルを作成するための前段階として、あるいは物理モテールに代替す るモデルとして、回帰モデルに代表される統計モデルを作成することも多い。具体的には、例えば製品 品質を予測するモデルとして回帰モデルを作成する c 回帰モデルは、例えば SAS/INSIGHTソフトウェア などのソフトウェアを利用すれば、簡単に作成することが可能である。しかしながら、得られた回帰モデル の評価を怠り誤った活用をすれば、特に製造現場においては品質管理の観点から危険な状況に陥るこ とにもなりかねない。 本論文では、回帰分析結果で、ある回帰モデ ルを評価するひとつの方法としてクロスバリデーションを取 り上げ、具体例を示したうえで、回帰モデルの評価に関して考察を述べる。 ‑169

173.

2 .クロスバリデーションの準備 2 . 1 課題の設定 A S / I N S I G H Tソフトウェアを 品質管理の対象である品質を予測する回帰モデ、ルを得ることを目的に、 S 利用して回帰分析を実施する。次に、得られた回帰モデルの予測精度を向上させるとともに信頼性を向 上させる目的で、クロスノ叩デーションを実施し得られた回帰モデルを評価する。 2 .2 データファイル 0 0 であり、データはす クロスバリデーションに利用できるデータファイルを表 1に示す。データ総数は 1 べて実製造プロセスで、得られたもので、ある。ただし、データは基準化しており、特異なデータが含まれて いないことも確認している。利用できるデータ総数は多くないものの、品質測定に時間と費用を要すること から貴重なデータであり、このデータファイルのみを利用した回帰モデルの作成を考える。 回帰分析手法の適用では、品質測定結果である品質としづ変数を目的変数とし、その品質に影響を及 ぼすことが既にわかっている 4種類の操業要因を説明変数とする。なお、回帰分析には直接利用しない が、品質の測定値の大小に強し、相聞のある操業条件としづデータも有していることを付記しておく。 表 1 データファイル データ N o. 2 品質 要因 1 要因 2 要因 3 要因 4 操業条件 1 2 5 1 8 6 . 2 7 1. 4 1 0 2 . 2 6 0 A 1 0 2 9 2 . 0 . . . 6 0 . 0 1 0 2 . 9 60 B . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 9 1 4 7 2 0 9 . 9 6 6 . 2 1 0 3 . 2 120 D 1 0 0 1 3 8 1 3 3 . 6 1 0 5 . 6 2 0 2 . 9 90 E ・‑・ 4 2 .3 回帰モデル 回帰モデルとは、次式に示すように、予測対象を目的変数とし、種々の説明変数の線形結合により目 的変数を予測するモデルで、ある。回帰モデルの利点は、予測対象の目的変数に対する説明変数の影 響度合いや寄与度を明示的に評価できる点である。 ・ ・ ・ +αkXXk+s ( 1 ) y=α¥XX¥+αeX X2+ y:目的変数 X1 , X 2 ' ., ・ Xk:説明変数 α j) a2'… , αk'回帰係数 s:切片 2 .4 回帰モデル作成のねらい 局所的なデータのみに通用する回帰モデルの作成ではなく、広範囲のデータに通用する汎用性のあ る回帰モデ、ルの作成を目指す。換言すれば、製造プロセスにおいて実用的な回帰モデルを作成するこ とに主眼を置く。実用的な回帰モデルとは、例えば、品質を目標値に制御できるように、対象プロセスの 操業条件を標準化するのに有効に活用できる回帰モデルを意味する。 l i O

174.

2 . 5 クロスバリデーションの概要 得られた回帰モデ、ルが広範囲のデータに通用する汎用性のあるそデ /レで、あるかどうかを確かめるため に、利用可能なデータファイルを学習用データと検証用データに分害IJし、学習用データから回帰モデ、ル を作成し、得られた回帰モデ、ルを検証用データで精度検証を行う。本論文ではこの一連の作業をクロス バリデーションと定義している。クロスバリデーションを行う目的は回帰モデルを評価することで、あり、学習 に用いていない他のデータに対しても学習用データから得られた回帰モデ ルが利用できるかどうかを評 価する。 デ、ータファイルを学習用データと検証用データに分割すーる一般的な方法は、データを N分割し、 N‑l 個分のデータを学習用デー夕、残りの 1個分のデータを検証用データとする方法である。ここで、データ ファイルを分割する場合、データは無作為的に分割する必要がある。この理由は、データが偏った場合、 偏ったデータに対する回帰モデルが得られることになり、学習に用いていないデータには通用しない可 能性が高まるためである。 2 .6 データファイル分割方法 クロスバリデーションを実施するために具体的に行ったデータファイルの分割方法を表 2に示す。デー タファイルを 2分割、 3分害IJ、4分割、 5分割し、学習用データと検証用データを作成したうえで、学習用デ ータを用いて回帰分析手法を適用し、回帰モテツレを算出する。ここで、回帰モデル算出数はデータ分割 数に対応しており、回帰分析手法を適用した繰り返し数を意味する。 表 2 データファイル分割方法 分割数 学習用データ数 検証用データ数 回帰モデル算出数 1 2分割 50 50 2 2 3分割 67 33 3 3 4分割 75 25 4 4 5分割 80 20 5 2 .7 データのランダム化 汎用的な回帰モデルを得るためにはデータの偏りをできる限りなくす必要があることからデータをランダ ムに分割する必要がある。そこで、データのランダム化を行うために、乱数を発生させることにより無作為 にテずータファイルを分割する場合と、作為的にデータファイルを分割する場合の 2通りの分割を行った。 両方の分割方法に対してクロスバリデーションを実施し、分割方法も含めて考察する。 2 . 8 評価項目 回帰モデ、ルの評価は、学習用データおよび検証用データのクロスバリデーションを実施して得られた回 帰係数と、予測誤差の標準偏差および誤差平均で行うこととする。 1 7 1

175.

3 .クロスバリデーションの実施 3 . 1 無作為分割データの分析結果 デ?ータファイルを無作為に分割する目的で、乱数を発生させたうえでデータの並び替えを行い、データ ファイルの分割を行った。それらのデータを用いてクロスバリデーションを実施した結果として、分割数別 に、回帰係数を図 1に、予測誤差の誤差平均および標準偏差を図 2に示す。 0 . 8 O .7 O .8 0 . 7 O .6 童 話 0 . 5 銀 O .6 0 . 5 E o 4 EE04 当 E 回 0 . 3 @] 0 . 3 0 . 2 0 . 2 。 0 . 1 0 . 1 0 要因 1 要因 2 要因 3 要因 4 要因 2 要因 3 要因 4 要因 1 要因 2 要因 3 要因 4 O .8 0 . 7 0 . 8 0 . 7 0 . 6 O .6 語 0 . 5 銀 0 . 5 E o 4 EE04 睦 団 要因 1 0 . 3 回 0 . 3 0 . 2 0 . 2 。 O .1 0 . 1 0 要因 1 要因 2 要因 3 要因 4 図 1 回帰係数算出結果 制 8 .0 8.0 6.0 1 制 6 .0 l 彊 井 里 幹 i R 40 王 ? 時 制 l 彊 井 幹 里~ 2.0 ロ倹証 2 0 . 0 ・学習 3 ロ倹&IT3 : l i !‑2.0 4.0 4 .0 誤差平均 誤差平均 標準偏差 標準偏差 8.0 8 .0 ,.学習 1 1 制 6.0 i 口倹証 1 事 ! ロ学習 2 4 .0 車 i ロ倹証 2 2 .0 1・学習 3 安 0.0 ロ倹証 3' 絡 1 制 ‑2.0 │ロ学習 4 , │口検証 4! 時 口学習 2 2 .0 安 時 1 制 0.0 : l i !‑2.0 井 幹 ‑学習 1 ロ倹証 1 4 .0 ‑ 4 .0 制 事 ! 井 幹 車 王 ? ‑学習 1 口倹証 1 口学習 2 6 .0 4.0 ロ倹証 2 圃学習 3 2 .0 ロ倹証 3 時 O .0 1 制 : l ! i‑2.0 ‑ 4 .0 誤差平均 誤差平均 標準偏差 図2 予測誤差の統計量 1 7 2ー 標準偏差

176.

3 .2 作為的分割データの分析結果 品質評価値の大小に強く影響を及ぼす操業条件なるデータの情報を利用し、分割したデータに偏りが 生じないように作為的にデータファイルを分害J Iした。それらのデータについてクロスバリデーションを実施 'こ示す。 した結果を、分割数別に、回帰係数を図 3に、予測誤差の誤差平均および標準偏差を図 4 0 . 8 O .8 O .7 0 . 7 O .6 O .6 童 話 0 . 5 也 記 。 室4 回 0 . 3 0 . 5 鋭 。 室4 回 0 . 3 O .2 0 . 2 O .1 O .I 0 0 要因 1 要因 2 要因 3 要因 4 O .8 O .8 O .7 O .7 ・ 。室 O .6 要因 1 要因 2 要因 3 要因 4 要因 1 要因 2 要因 3 要因 4 O .6 語 O .5 i dataI1 固 0 . 3 0 . 2 │ ロd a t a 3 1 固 0 . 3 旧d a t a 4: 0 . 2 O .1 oI 。 室4 │ ロd a t a 2 1 語 O .5 4 0 0 要因 1 要因 2 要因 3 要因 4 図 3 回帰係数算出結果 8 . 0 8 . 0 6 . 0 l i ! I J 6 . 0 4.0 ‑学習 1 I 瞳 鮒 2.0 │口検証 1I │口学習 2 I │口検証 2 2.0 安 時 l i ! I J 。 ‑ 4 . 4.0 誤差平均 標準偏差 誤差平均 Z 標準偏差 8 . 0 8 .0 鮒 腿 o0 : ! i . l i ‑2.0 2.0 判 同 l 彊 4.0 口 o0 8 車 ‑学習 1 1 口検証 口学習 2 6 .0 1 i 4.0 1ロ検証 2 2 .0 ・学習 3 口検証 3 l E ト o .0 1 制 京 ! i ‑2.0 1 │口学習 4 国在宅証 4: ̲ 鮒 8 単 安 ト 倍 判 同 6 .0 1 口学習 2 4 .0 1 2 .0 o0 誤差平均 標準偏差 !・学習 5' 誤差平均 図 4 予測誤差の統計量 1 7 3 口検証 2 1 園学習 31 口検証 3 , 口学習 4 ! 1 口検証 41 : ! i . l i‑ 20 ‑4.0 4 .0 ・学習 1 i 口検証 1 1 判 同 1 彊 標準偏差 口検証 5

177.

4 .クロスバリデーションの評価 4 . 1 結果の整理 無作為分割データおよびデータに偏りが生じないように作為的に分割したデータを対象としたクロスバ 1こ示す。 リデーションの結果を、表 9 表 9 結果の整理 データ分割方法 無作為分割データ 2 作為的に偏りが無いよ う分割したデータ 回帰係数 予測誤差の統計量 2分 割 お よ び 3分割では、 検証データの予測誤差統計 データ聞の差異が大きい 量は学習データと同程度 分割数に依存せず、データ 検証データの予測誤差統計 聞の差異は小さい 量は学習データと同程度 4 .2 結果の評価 二分割することにより、 汎用性のある回帰モデルを作成するには、利用で、きるデータファイルをランタ ムi c データの偏りを出来得る限り取り除くことが肝要である。ここでいうデータとは、目的変数のみならず、説 明変数を含む。ただし、全データをその分布状況も含めて把握することは困難であるうえ、目的変数を予 測するとし、う本来の目的カもすれば非効率である。そこで、、回帰モデルを評価する目的で、ここではクロ スバリデーションを実施し、得られた回帰モデ、ルの回帰係数と予測誤差の統計量を評価することとした。 1こ示すように、無作為分割によりデータのランダム化を図った場合で、あってもばらつき 回帰係数は、表 9 は大きく、データ分割数は少なくとも 4以上とすべきであると考えられる。 また、予測誤差の統計量を定量的に評価する指標として下記の評価指標を導入し、データ分割数と評 1こ示すが、この評価指標から判断すると、データ分割数は少 価指標の関係を整理した。その結果を図 5 なくとも 3以上とすべきであると考えられる。 z =エσi/N z :評価指標 ( 3 ) σ i :検定用データの標準偏差 N :データ分割数 8 FnuFhd │ J 出回草川 │ 土1 2 3 2 割 │ 7 とコ二ま::=0 4 2 3 4 5 6 デ タ 分 割 数 (‑) ワ4 7i ‑ d 図5 データ分割数と評価指標の関係

178.

4 . 3 回帰モデルの決定 1 あるいは 5分割することで得られた学習 上記評価結果を踏まえて、データファイルを 4分害1 データをもとに回帰係数を算出した。算出された回帰係数は、今回対象としたデータでは、ほ ぽ同等の値が得られるとともに、予測誤差の統計量にも大差が生じなかったことから、データ ファイルを 4分割あるいは 5分割したクロスバリデーションを実施することにより、データの 偏りは抑えられたものと判断した。また、表 9から判断すると、情報を活用して作為的にデー タファイルを分割した方が少ない分割数でデータのランダム化は可能であるとも考えられるが、 そのような情報は無い場合が多いのが実状である。 回帰モデルは、無作為に 5分割したデータを対象としたクロスバリデーションにより得られ 2 )式とし た 5つの回帰モデルの中から、回帰係数が 5式の中央値となるものを選択することで ( . 5(学習用データ)および て決定した。なお、回帰モデ、ルの予測精度は、予測誤差の標準偏差で 5 5 . 6(検証用データ)であり、品質のスペックを満足する回帰モデルが得られた。 以上のように、得られた回帰係数の偏差と先述の評価指標から回帰モデルを評価したことにより、 目標とする予測精度を有する実用的な回帰モデルを得ることができた。 Y= 0 . 3 4 1XX1+ 0 . 3 9 1XX~ + 0 . 0 8 1XX: l 十 0 . 1 0 7Xxj+24.158 ( 2 ) 4 .4 クロスバリデーションに関する考察 回帰モデルを作成する場合、利用できるデータの全てを利用することを考えてしまいがちであるが、利 用できる全データを用いて回帰モデ、ルを作成した場合には、回帰モデ、/レを評価で、きなかったり、データ に偏りがあった場合には適切な回帰モデルが得られないなどの不都合が生じる。データに偏りがある状 況下で、回帰モデ、/レを作成した場合、回帰モデ ルを作成するのに利用したデータや同様の偏りがあるデ ータに関しては非常に良い予測精度を示すものの、他のデータの予測精度は著しく悪化するとしづ結果 が得られることは明らかである。 以上のことから、クロスノ〈リデーションは、回帰モデルを正しく評価するうえで重要な手段であると言える。 今回実施したクロスバリデーションで、は、以下のことが判明した。すなわち、データの偏り具合がわからな 1 もしくは 5分 い状況下で回帰モデルを作成する場合には、利用できるデータファイルをラン夕、、ムに 4分害1 割したうえで、クロスバリデーションを実施すれば、得られた回帰係数と予測誤差の統計量から、回帰モデ ルおよびデータファイルを評価することが可能で、あることがわカ追った。一方、データの偏り具合が判明して し、るような特殊な場合には、作為的にデータをランダムに分割することが可能であり、ランダムにデータ分 割を行ったうえで、クロスバリデーションを実施すれば、先と同様に回帰モデルを評価することがで、きること がわかった。 なお、本論文では特に述べていないが、データファイルに特異なデータがある場合には、データファイ ルから除いたうえで回帰モデルを作成する必要があることは言うまでもない。ここでいう特異なデータとは、 回帰モデルで、は表現で、きないデータを指している。 1 7 5ー

179.

5 .まとめ 本論文では、回帰分析のクロスバリデーションについて述べた。回帰モテ、ルを作成する目的にも依存 するが、重要なことは、得られた回帰モデルを評価することで、あり、クロスバリデーションは得られた回帰 モデルを評価するうえで、有効な手段のひとつで、ある。クロスバリデーションを実施し芳しくない結果が得ら れた場合には、回帰モデルを算出するためのデータに偏りがないか、回帰モデ'ルで、は表現で、きない特 異なデータが含まれいなし、かなどを考察する必要がある。考察の結果得られた知見をクロスバリデーショ ンにフィードパックすることにより、目的に適合した回帰モデ、ルが得られると考える。 以上 pnU 1i

180.

日本 SASユ ー ザ ー 会 (SUG1‑0) 回帰分析における多重共線問題の実際 水田匡彦 住友金属工業株式会社 総 合 技 術 研 究 所 計 測 市J I御研究開発部 M u l t i c o l l i n e a r i t ya tr e g r e s s i o na n a l y s i s Masahiko Mizuta Instrument& ControlR&DDepartment SumitomoMetalI n d u s t r i e s , LTD 要旨 回帰分析では説明変数の独立性が大前提であるが、製造業における品質解析を実施する場合であ っても、説明変数聞の相聞が明確でないことが多い。特に、説明変数の数が多大になればなるほど、説 明変数聞の相聞は複雑になる。説明変数の独立性が崩れれば回帰モデルが実質的な意味をなさなく なるという多重共線問題を生じる。その対策として、説明変数聞の相関関係を把握する必要があるが、 説明変数が膨大になれば、実際上全ての相聞を把握することは不可能に近い。そ三で、まず、回帰分 析手法を適用して回帰モデルを算出した後に、算出された回帰分析手法を評価する方が効率的である。 本論文では、多重共線問題について整理し、回帰分析手法を適用する際の留意点について述べる。 キーワード: 回 帰 分 析 回 帰 モ デ ル 多 重 共 線 性 SAS/INSIGHTソフトウェア 1.はじめに 製造プロセスにおいて品質制御ならびに品質管理を行う場合、測定される様々な操業要因を基に品質 管理対象である品質を予測したいとしづ要求が生じる。この要求を満足するために、物理的な現象をもと にモデ、ルを作成することも考えられるし、統計的なモデルを作成することも考えられる。この統計モデルは、 物理モデ、ルを作成する前の段階としづ位置付けで、あっても十分な意味を持ち、回帰分析手法は統計モ デルの代表格で、あると言える O しかしながら、算出された回帰モデ、ルを評価することなく、あるいは誤った 評価を下して、使っている場合も見受けられる。 本論文では、回帰分析手法を適用する場合に問題となる多重共線の問題について、具体例を示すとと もに留意点を示す c l i iー

181.

2 . 回帰分析手法の適用 2 . 1 回帰モデル SAS/INSIGHT ソフトウェアを利用して収集したデータを対象に回帰分析手法を適用する。回帰分析の 目的は、品質の測定値である項目 Y を操業要因 X1、X2、X3で予測する予測式を作成することである。 ここで、回帰モデルは ( 1 )式のように説明変数の線形結合として表現される。 ( 1 ) y = α IX X 1十 α 2X X2十・ー十 α kX X k十 日 y :目的変数 X1, X2J', ・ Xk:説明変数 αl'aZ"" , ak :回帰係数 。:切片 2 .2 データファイル 回帰分析に使用するデータファイルを、表 1および表 2に示す。 Y は品質、 A1から 83はすべて操業要 因を示す。また、 A1と 81、A2と 82、A3と 83はそれぞれ同じ操業要因であり、便宜上、項目名を変え ているに過ぎない。データ 1とデータ 2の相違点は、データ N o .が 2 0の項目 A1( 8 1 )の値のみであり、具 体的には、データ 1では 1 0 2であるのに対して、データ 2では 1 0 0である。項目 A1 のデータ範囲は 3 0 から 1 0 2までであることから、 1 0 2が 1 0 0と計測された場合の誤差は 2 . 8 %である。 これらのデータファイルに対して、 SAS/INSIGHT ソフトウェアによる回帰分析を実施すれば、果たして、 同じような回帰モデルを得ることができるであろうか。 表 1 データ 1 N o . Y 2 3 4 5 6 7 8 9 1 0 1 1 1 2 1 3 1 4 1 5 1 6 1 7 1 8 1 9 2 0 1 6 0 1 7 0 1 7 0 2 0 0 2 2 0 2 3 0 2 4 0 2 6 0 2 9 0 3 2 0 3 5 0 3 6 0 3 8 0 4 0 0 4 0 0 4 1 0 4 2 0 4 4 0 4 6 0 4 7 0 A 1 3 0 3 3 3 3 3 9 4 5 4 5 4 8 5 4 6 0 6 6 7 5 7 5 8 1 8 4 8 4 8 4 9 0 9 6 9 8 1 0 2 表 2 データ 2 A 2 1 0 1 1 1 1 1 3 1 5 1 5 1 6 1 8 2 0 2 2 2 5 2 5 2 7 2 8 2 8 2 8 3 0 3 2 3 3 3 5 A 3 4 8 5 0 5 1 5 5 5 8 6 0 6 4 6 8 7 0 N o . 2 3 4 5 6 7 8 9 1 0 1 1 1 2 1 3 1 4 1 5 1 6 1 7 1 8 1 9 2 0 7 2 7 4 8 0 8 2 8 6 8 6 8 8 8 8 9 0 9 4 9 6 1 7 8一 Y 1 6 0 1 7 0 1 7 0 2 0 0 2 2 0 2 3 0 2 4 0 2 6 0 2 9 0 3 2 0 3 5 0 3 6 0 3 8 0 4 0 0 4 0 0 4 1 0 4 2 0 4 4 0 4 6 0 4 7 0 B 1 3 0 3 3 3 3 3 9 4 5 4 5 4 8 5 4 6 0 6 6 7 5 7 5 8 1 8 4 8 4 8 4 9 0 9 6 9 8 1 0 0 B 2 1 0 1 1 1 1 1 3 1 5 1 5 1 6 1 8 2 0 2 2 2 5 2 5 2 7 2 8 2 8 2 8 3 0 3 2 3 3 3 5 B 3 4 8 5 0 5 1 5 5 5 8 6 0 6 4 6 8 7 0 7 2 7 4 8 0 8 2 8 6 8 6 8 8 8 8 9 0 9 4 9 6

182.

品質 Y と操業要因 A, lA2, A3および 81, 82, 83との単相関図をまとめて図 lに示す。単相関図に相違 が生じているのは、 A1とY の単相関図と 81とY の単相関図のみであり、 A2とY の単相関図と 82とY の単相関図、および、 A3とYの単相関図と 83とYの単相関図は、当然のことながら一致している。また、 これらの単相関図から判断すると、各操業要因とも品質 Y との正の相聞が強いことがわかる。 . . . . . 4 0 0 y3 0 0 . . : . 2 0 0 . . E : 2 0 0 . . . 4 0 6 0 A 1 ! 1 8 0 1 0 1 0 0 y3 0 0 y3 0 0 . . 6 0 8 1 8 0 1 0 0 1 0 6 0 . . . . 2 0 3 0 日2 7 0 8 0 A 3 9 0 7 0 8 0 8 3 9 0 . : . 4 0 0 . .. . y3 0 0 . . .. . . 2 0 0 . . . 日 : . . . 5 0 .. . . : : 4 0 主j . 3 0 : . : . . .. . . . . . . . 2 0 0 . . . : . : 2 0 0 . 400 . . : y3 0 0 . 2 0 A 2 リ . . 4 0 0 .. . . 5 0 6 0 .. 図 1 操業要因と品質との相関 2 .3 回帰モデルの算出 SAS/INSIGHT ソフトウェアにより算出された回帰モデルは、データ lおよびデータ 2に対してそれぞれ ( 2 )式および ( 3 )式で表される。先に示したようにデータファイルの相違は測定誤差程度であるにも関わら ず、得られた回帰モデ、ルは大きく異なる結果が得られた。特に、操業要因 A2( 8 2 )に関しては、得られた 回帰係数を比較すると符号までもが異なる結果であり、物理的に解釈することも困難である。 本論文では、このような問題を指摘する目的で、二つのデータファイルを準備したが、一つのデータフ ァイルのみで回帰分析を適用した場合には一方の回帰モデルのみが得られるため、このような問題に気 付かず、得られた回帰モデルを利用した場合には、品質管理上、誤った操作を行う危険性がある。 Y =4.7444xA1‑4.3282xA2+1 .6929xA3‑24.0322 ( 2 ) . 9 5 0 1x81+1 .0671x82+1 .6811x83‑23.5058 Y=2 ( 3 ) li9‑

183.

3 .回帰モデルの評価指標 3 . 1 寄与率 寄与率とは、回帰モデルを用いることにより目的変数のデータをどの程度表現できるかを示す指標であ る。以下に示す ( 4 )式は分散の関係を示しており、右辺の第 1項は回帰モデルにもとづく予測値の変動を、 第 2項は残差(観測値 予測値)の変動をそれぞれ示す。換言すれば、右辺第 1項は回帰により説明さ れる部分の変動であり、右辺第 2項は回帰により説明されない部分の変動である。寄与率は S I // S / "の 式で表現されることから、寄与率が 1で、あれば回帰モデ!レにより目的変数のデータを全て表現できること を表し、寄与率が 1に近いほど、目的変数を回帰モデルで、表現で、きていると判断できる。 S Y 2ニ S/+S/ ( 4 ) S / :目的変数(観測値)の分散 S/:推定値の分散 s ム残差の分散 今回得られた二つの回帰モデルの寄与率は、 S AS/INSIGHTソフトウェアで、は当てはめの要約に示さ れており、表 3 1こ示す寄与率を得た。得られた寄与率は二つの回帰モデ、ルともにほぼ lであることから、 どちらの回帰モデルも目的変数の変動をよく表現できていると判断できる。では、この寄与率だけで、算 出した二つの回帰モデ、ルはどちらも利用できると判断して良いのであろうか。ただし、得られた回帰モデ ルは異なっており、回帰係数の相違は物理的意味を解釈する場合にも問題となる。 表 3 寄与率算出結果 寄与率 回帰モデル 1 回帰モデル 2 0 . 9 9 8 7 0 . 9 9 8 7 3 .2 t 統計量 次に、回帰モデ /レ中の回帰係数に意味があるかどうかを考える。回帰係数を検定するための指標のひ とつがt統計量で、あり、回帰係数が 0 との仮説を立てて検定を行い、仮説が棄却できれば回帰係数は O で、はなく回帰モデルの回帰係数に意味が有ると判断する。したがって、説明変数の目的変数に対する影 響度合いを示す指標が t統計量である。 SAS/INSIGHT ソフトウェアで、示されるパラメータ推定値の中の t統計量算出結果を表 4 1こ示す。 A2お よび 8 2のt統計量は、自由度が 1 9で 5 %の有意水準の t統計量 ( 2 . 0 9 3 )よりも小さいことから、帰無仮説 は棄却できない。すなわち、回帰係数は 0との仮説が成立し、回帰係数に意味がないことが統計的に検 定されたことになる。 表 4 t統計量算出結果 t 統計量 t 統計量 A 1 2 . 9 8 8 1 3 . 1 0 A2 ‑ 0 . 9 5 82 0 . 3 9 A3 3 . 4 5 8 3 3 . 47 64 句 ハH υ n ハν

184.

4 . 回帰分析手法適用の留意点 4 . 1 問題点の抽出 寄与率は良好であるにも関わらず、データファイルに僅かな誤差があるだ、けで、回帰係数が大きく異な る三つの回帰モデ ノレが得られた また、 t統計量による検定を実施すると、ある操業要因に関しては回帰 O 係数の意味をなさないことがわかった。そこで、今回作成した回帰モデルにおいて何が問題で、あったか を解明する目的で、説明変数聞の相関関係として散布図行列を作成することにより調査した。 Al, A2 お よび A3の散布図行列を図 2に示す c 図 2から、視覚的に、 AlとA2に強い相聞があることがわかる。この 相関関係は、単回帰分析の結果、次式で表される c ( 5 ) .0 ) Al=2.96XA2十 0 . 6 9 (寄与率=1 1111 ︑ 2 0 . . ! J 可 . 十 , 1 3 0 / . 2 ' 8 図 2 説明変数の散布図行手J I 4 . 2 多重共線問題 独立変数聞に直線的な相関関係、があるとき、または、相聞が強くほとんどそれに近い関係のときには、 多重共線性の問題があると呼ばれる この場合、独立変数であるとしづ前提は失われており、回帰分析 F 手法を適用する場合、算出された回帰モデ、ルを評価するには注意を要する。 4 . 3 留意点の整理 回帰分析手法はソフトウェアを利用すれば誰でも簡単に適用できる手法であるが、多重共線問題のよう に注意すべき事項もある。多重共線問題のほかにも、データの変動が無い場合やデータが偏っている場 合には回帰係数が決まらなかったり、予測誤差が大きくなるなどの問題が生じることもあるし、特異なデー タが含まれていればその特異なデータの影響を強く受けるとし、った問題も生じる。 ‑181

185.

5 .回帰モデルの作成 5 . 1 解析目的 一般的に、回帰分析を適用する目的は、単に目的変数を予測することが目的の場合と、プロセス制御 に活用することが目的の場合に大別できる。ここで、回帰モデルをプロセス制御に活用するとは、操業要 因と品質との相関関係をもとに物理的な関係を説明したり、プロセス制御のための操作量を決定すること を意味する。 5 . 2 評価指標 解析目的に合致した回帰モデルを得るには、得られた回帰モテ、ルをどのように評価すればいいのであ ろうか。 単に、目的変数を予測することが目的の場合は、回帰係数の符号も含めて回帰係数そのもの にはあまり興味がなく、回帰モデ、ルによって目的変数をどれだけ表現できるか、すなわち寄与率により評 価すればよし吃思われる。したがって、多重共線問題が生じ、回帰係数が一意に決まらない場合で あっ ても、それは問題ではなく、回帰係数を任意の一組に決定すればよい。 一方、回帰係数を物理現象の説明に利用する場合やプロセス制御の影響係数として活用する場合に は、回帰係数そのものに興味があり、寄与率のみの評価で、は誤った回帰モデルを得る危険性も有り、 t統 計量まで算出して検定を行う必要があると思われる c 5 .3 課題の整理 今回の回帰モデ、/レの作成目的は、単に目的変数の予測だけではなく、解析結果をプロセス制御に活 用することであり、各回帰係数の数値そのものが重要となる。そこで、今回の解析では、寄与率のみで評 価するのではなく、検定まで実施する必要がある c なお、検定を通して多重共線問題が生じていることが 判明すれば、その対策を施したうえで、回帰モデルを決定する。 5 . 4 対策の検討 説明変数聞の関係を次式に示すが、先述したように、 A1( 81 ) と A2( 8 2 )に強い相関関係がある。すな わち、 A1( B1 ) と A2( 8 2 )は独立変数ではなく、従属変数である。 A1=2.96XA2+0.69 (寄与率=1 .0 0 0 ) ( 6 ) B1=2.94XB2+1 .9 6 (寄与率=1 .0 0 0 ) … ( 7 ) これらの関係式を用いれば、先に得られた回帰モデ ルは次式のように書き換えることができる。整理さ れた両式はほぼ一致しており、先に得られた回帰モデルの回帰係数は本質的な意味を持っていなかっ たものと判断できる。 Y=4.7444X(2.96XA2+0.69)‑4.3282xA2+ 1 .6929XA3‑2 4.0322 ‑ ・ ・( 2 ) ' .6929xA3‑20.7586 =9.7152xA2+1 Y=2 . 9 5 0 1X( 2 . 9 4X82+ 1 .9 6 )+1 .0 6 7 1X82+1 .6 8 1 1X83‑2 3 . 5 0 5 8 ‑ ・ ・( 3 ) ' =9 . 7 4 0 4X82+1 .6 8 1 1X83‑17.7236 ‑ 1 8 2ー

186.

先述したように説明変数聞に従属関係が生じていることが明らかであるため、ここでは一方の説明変数 を回帰モデルの説明変数から除外する対策を考える。 A1とA2のどちらを説明変数から除外するかにつ いては、例えば、測定精度あるいは操作量として操作しやすいか、また、制御しやすし、かなどの観点から 判断すればよい。 5 . 5 回帰分析結果 説明変数として A1( 8 1 )および A3( 8 3 )を選択し、先と同様に回帰モデ、ルを算出した結果、次式を得 た 。 Y=3.268XA1+1 . 716XA3‑23.771 (寄与率 =0.999) ( 8 ) Y=3.302X81+1 .697X83‑24.329 (寄与率 =0.999) ・ ・ ・ ( 9 ) また、 t統計量は表 5の結果を得ており、 5%の有意水準で回帰係数に意味があるとの結果を示してい る 。 表5 t 統計量算出結果 t 統計量 t 統計量 A1 1 0 . 6 0 81 1 0 . 1 6 A2 3 . 6 1 82 3 . 5 1 5 . 6 回帰モデル活用の前提 先に得られた回帰モデ、ルを活用したプロセス制御を考える。品質 Yを制御するのに、操業要因 A1( 8 1 ) および A3(83)の影響係数として、回帰モデ、ルとして算出された回帰係数を用いることとする。ただし、こ 8 1 )と A2( 8 2 )の相関関係を前提として回帰モテ守ルを作成していることから、この回帰モデル こでは、 A1( を活用する場合には、それらの相関関係がデータ解析時と同様に保たれていることを前提にしなければ ならない。したがって、それらの相関関係が保たれなくなった場合には、回帰モデ、ルを見直す必要があ る 。 6 .まとめ 回帰モデルは、例えば S A S / I N S I G H Tソフトウェアを利用すれば、簡単に作成することができる。大切 なことは、解析目的に合致した回帰モデルを評価し、活用することである。回帰分析を行う際の前提条件 は説明変数の独立性であるが、当たり前の条件ゆえに見過ごさてしまうこともある。 本論文では、基本に立ち返り見過ごしてはならない多重共線問題の実際を示すとともに、回帰モデル の代表的な評価指標として寄与率と t統計量を取り上げ、寄与率の評価だけでは回帰モデルの評価を 誤る可能性があることを述べ、解析目的に合致した検定を行うことにより、品質制御あるいは品質管理に 活用で、きる回帰モデ、ルを作成することが肝要であることを述べた。 以上 ‑183

187.

日本 SASユーザー会 (SUG1‑, , ) ) 実験計画法の学部内一般教育* 0柴山忠雄 (前所属・名古屋市工業研究所) Analysisanddesignofexperiments i nundergraduateg e n e r a leducation* TadaoShibayama ( R e t i r e d : NagoyaM u n i c i p a l l n d u s t r i a lResearchI n s t i t u t e ) ヒ ニs ?;l.ご日 百五 先例を類似の場面にあてはめる実務教育を離れ,複数要因の組み合わせ完全配置の上で確定する応答関数 の応答分解 ( A N O R E ) から出発し,効果成分の加法性と効果成分平方不u の分離性とに基づいて効果成分を定義 A N O V A ) を与え,条件を補うと,分/Iff E する.分離性は制約式から導かれ,応答関数のこの配置での分散分析 ( 性カ込ら制約式が導かれる.各々の要因の平均演賞子・残差演算子を m いて効果成分の陽表示を得る.見やす い表示で効果成分,対比,処理などの一つ一つを区別し多次元線形ベクトル空間の演算を扱い,直積系・法 算系の基本ベクトルの関係を整理する 省略/重複配置の一般の応答は制約式っき最小 2乗法で扱う.その 実情:の手順は FORTRAN77記法で表わす.ほぼ同様に S A S言語も利用できる.この枠組みで実験の計画および 解析の手法の意味を理解させ S A Sおよび川Pソフトウェアの活用をたすけ実務教育の負担を軽減できる. キーワード S A S / S T A Tソフトウエア G L Mプロシジャ J M Pソフトウェア S A S / Q Cソフトウェア S A S言語 ‑実務のための教育 1本国内では工場の生産技術を q l心に実験計回u 法の利用が推奨されている.分散 この 5 0年以上にわたり [ を定量する古典実験計画法から省略実験を主体とする田口実験計画法が生まれ,どちらも企業利益に直結す ると考えられて実利的な関心を 1子び,日常の業務に必要な素養として,実務の中での体得が強調された. r r 過去の実例を見まねで、現在の課題にあてはめて先人の講評を受け各種の配置と結果の角軌 手! J 固とを体験す るから,品目織の中の行動の規律・対日むを継承できる. しかし,原理を湾出平するには困難があり,一般教育の 数学・統計学・物理実験学などの延長として実験計画法を学ぼうとすると距離が大きい.その距離を埋める 努力は学校でも企業でも一般に無用と見なされているが,成功すれば,案外,役立つかもしれない. ‑統計科学の手法としての教育 実は,海外でも,そして,古典実験計画法の本来の利用分野である心理学・生物学・医学・農業への応用 でも,また,統計科学の基本手法としても, {本験による実務的な教育方法が, Fisher以来, うけつがれてい る.その背景には統計科学の役割から生まれた基本の姿勢があり,一自t ; 科学との阻維を大きくしている. 統 計 科 学 の 儲J I は,実験事実・経験事実をありのまま見つめ, a )釦 j J,b )集団内の変動,および, c )事実 の~:約,この 3 つの視点で知見をふるい分け,人間活動に役立つ実用的に 1J:味のある知識をとり出すことで キ E n g l i s hh a n d o u ta v a i l a b l e . 1 8 5

188.

ある ( F i s h e r,s e c t i o n1 ,1 9 2 5 ) . そして,この役割を実務の中で果たす姿勢が常に求められる. しかし,統計集団・統計変動に基づいて事実を見ることをあまりに求め過ぎると困難を生じる.人聞は, 集団そして変動よりも,まず,今日も明日も安定していて信頼できる明白な確定の事実にささえられて生き るのであり,集団も変動も,むしろ,その種類の確定の事実に基づいて把握するほかなし、からである. したがって,実験計画法も一般教育の数学・統計学・物理実験学などの延長として学ぶことが好ましい. ただし,それにはいくつかの大きな困難があり,それぞれの困難を適切に解決することが必要である. .SASソフトウェアの利用 実験結果の角勃庁のための一品封集方分莫型による高度の計算手段をS A S / S T A Tソフトウェア G L Mプロシジャが与 L Mプロシジャは機械計算のプ えている.そのほかの S A Sソフトウェアのフ。ロシジャもそうであるように, G 9 9 0 )は計算手段の背景にある数 ログラムを単に与えるだけではなく,その解説文書 ( S A SI n s t it u t e,I n c .1 理を詳細に解説しており,実験結果の解析のための各種の計算手段の根拠を正確に知るために役立つ. 実験の計画についてはS A S / Q Cソフトウェアパージョン 6 にF A C T E X,O P T E Xなどのプロシジャがあり,そ の解説文書 ( S A SI n s t i t u t e,I n c .1 9 8 9,初版)は, F A C T E Xプロシジャの章で素数累乗配置の数理をわかりや すく説明しており, O P T E Xプ口、ンジャの章で不規則な配置の最適化をわかりやすく説明している. したがって,実験結果の角勃庁手順をS A S / S T A Tソフトウェア(解説文書を含む)により,また,配置の生成手 順をS A S / Q Cソフトウェア(解説文書を含む)により,それぞれ,学ぶことができる(芳賀 1 9 9 2 ). . 1 M Pソフトウェアの利用 この 1 0年あまり,パーソナルコンピュータ,メモリおよびそれに装備されるオベレーテイングシステムが 発達した.キイボード/ディスプレイ/プリンタによる文字系入出力にマウス/キイボード、/ディスプレイ 併用の対話形式,スプレッドシート形式,図表形式などの柔軟な画像系入出力が追加された.コンピュータ 利用法も実用ソフトウェアも大きく変化し,急速な普及と同時に,性能が向上し,価格が低下した. この傾向に対する準備を S A SI n s t i t u t e,I n c . はかなり以前からすすめていたと思われる. 1 9 8 9年 1 0月か ら]MPソフトウェアパージョン l を提供しはじめ,現在,パージョン 4を提供している.ただし, S A Sソ フトウェアとは別の体系と位置づけコンピュータハードウェアおよびオベレーテイングシステムの進歩にと もなう各種の使い勝手の改善に対応するものとしている (JMP ⑧ I n t r o d u c t o r yG u i d e, V e r s i o n4 2 0 0 0 ) . しかし,解説文書によると,両方の聞には密接な関係があり,実験結果の角材庁の基盤も配置の生成の基盤 も共通である. ]MPソフトウェアは,使い勝手が改善されていて,近づきゃすいが,解説文書を含めて,内 容は S A Sソフトウェアと同等以上の水準に保たれており, S A Sソフトウェアの理解のためにも役立つ. ‑確定部分・揺動部分 ] M P , S A S / S T A Tおよび S A S / Q Cの各ソフトウェアは実験計画法を統計科学の正統の立場に基づ、いて教育す るのに役立つが,統計科学の正統の立場を身につけ妥当な理解に到達するには学ぶ側も当時百を要する. 実は,これまでの実験計画法の枠組みの中でも,完全に統計集団・統計変動のみに基づいて応答を把握す ることは困難であり,普通は実験または経験から得られる応答の値を確定部分と揺動部分(の標本)との和 と見なす仮定を用いている.この「確定部分」は,実験・経験の日 H 寺・場所が変化しても,そして,実験の 実施者または経験の体験者が変化しても,条件を一定に固定すれば結果も一定に確定する部分である. これに対する「揺動部分」は確定部分に加わって応答の細部を確率的に変動させる標本で、ある.この部分 は数理的には変動部分を意味するが変動の発生の背景までを意識して量子物理学・統計物理学・物理実験学 などで、は揺動部分という例(岩波理化学時典,各版)があり,実験計画法でもそういってよいであろう. ‑試算部分・残差部分 実験結果の角件斤では,実験または経験で得られる応答をいくつかの確定部分およびいくつかの揺動部分の 総和と見なし,確定部分の各々に近い「試算部分」の各々と揺動部分の各々に近い「残差部分Jの各々とに 応答を分解して,確定部分の各々の大きさおよび揺動部分の各々の大きさを見績もる.実験の時間・工数・ ‑186

189.

経費を節約しながらその財責もりの精度を高めることがさまざまの実験計画の本来の目的である. ‑応答分解・分散分析 実験結果の解析の目的は応答の確定部分の各々およひ守番弱j部分の各々を応答分解の結果から定量すること であり,分散分析はその手段の一部分であるが,応答分解は分散分析の背後におしゃられがちである. たとえば,田口実験計画法の基本部分は省略配置の上の応答から完全配置の上の応答を求める省略実験で あり,その方法の中心は応答分解で、あって分散分析で、はない.それにもかかわらず,その方法のさまざまの 実施例の説明(田口 1 9 7 6 ‑ 1 9 7 7 )では分散分析表が大きな部分を占めており,応答分解の説明は少なし¥ 古典実験計画法の書物でもその傾向がある.たとえば r 行動科学のための手法」としづ副題の添えられた 実験計画法の教科書 ( K i r k1 9 9 5, 3版)は各種の配置の実験結果について 1 )平方和による角材庁と 2 )処理平均 による解析とを示しているが,どちらも,角材庁の最終結果として表示されているのは分散分析である. S A S / S T A Tソフトウェア G L Mプロシジャを要因配置実験の実験結果の解析のために用いる場合には, プロシ、ジャ開始文 r P R O CG L ¥ !く(付属指定節)> ;J につづいて, 離散変数指定文 r C L A S Sく(離散変数名)く(の複数個の列)> > ;J のあとに, M O D E L (従属要素)=(独立要素)く(の複数個の列)> (/(付属指定節)> ;J 模型指定文 r が常に 必要である ( S A SI n s t it u t , 巴 I n c .1 9 9 0,p.900). この模型に基づく応答分解が角~析の基礎となるが,この解 説文書に G L ¥ !プ口、ンジャの代表的な使用例として示されている出力結果 ( p .9 7 2 ‑ 9 7 3,O u t p u t 2 4 .1 2 ) の主要 部分は応答平方和を模型平方和・残差平方和に分離する分散分析表である.なお,指定をしておけば,効果 成分平方和の各々を GLMプロシジャの 4種類の方式で求めた値 ( S S l,S S 2,S S 3,S S 4 )も出力される. 指定をしておけば,効果成分も出力されるが,効果成分平方和のほうが重視される.各種の効果成分平方 和は「推定可能」量のみから定まり付帯条件には左右されない不変量であり, しかも,実験配置の上の実験 結果の集団に直結している特徴量である 統計科学の立場から見て,これだけの事実には重みがある. しかし,各種の平方和の意味を知るには一般化逆行列を r fJし、る応答分解 ( S A Sl n s t it u t e,I n c .1 9 7 8 )にさ かのぼる必要がある.また,応答の効果成分の加法性のみを仮定して得られる各種の平方和は制約式などに 左右されない不変量ではあるが,実験式に効果成分を利用する場合には,正準制約式(支捕1 性の制約式)の 使い勝手はよい.その実用的な便利さを推定可能性の凡地だけで無視せず,むしろ,加法性に組み合わせ完 全配置の上での効果成分平方和の分離性を補足して,その理論的な意味の裏付けとする立場もあろう. こうして一時安科学の側から接近すると,統音防長団・統計変!日jのみを基礎とする統計科学の正統の立場から の説明がわかりやすくなり,統計学を専門としない統計学利用者・初心者には便利な場合がある. その点では]MPソフトウェアはコンピュータ技術の進歩にともなう利用拡大に配J 在して機能および解説文 書の内容を整理しており,応答分解の結果を実験式として利用する場合の使い勝手にも留意している.ただ し,これまでの統計科学の正統の立場は維持しているから, -~財ヰ学の側からの初等的な接近ではない. なお,応答に関数式をあてはめる応答曲面法は,これまでの実験計画法の中では,特殊の方法であり,そ れよりも,一般平均,主効果および各階の交E作用に応答を分解する通常の応答分解が重要である. ‑枝分かれ配置・組み合わせ配置 分散分析 ( F i s h巴 r,s 巴c t i o n4 0,1 9 2 5 )は応答の全変動を級間変動と級内変動とに分解する手法として導入 された歴史があり,枝分かれ配置での平均値と分散とに基づく古くからの説明がわかりやすい. しかし,複数要因の交E作用を含む応答の角執庁は,かなりの模索のあとで交互作用の妥当な定義に到達し た歴史があり(Ir w i n1 9 3 7 ),組み合わせ完全配置での応答分解として説明するほうがわかりやすい. .組み合わせ完全配置 この配置の処理ごとに単一に応答が確定している場合の取り扱し、を理解すると,処理ごとに応答の標本が 複数個ある場合の取り扱い,または,標本数が処理ごとに均一でない場合の取り扱いを理解できる. このような一般の配置の場合に,これまでの統計科学の正統の立場では,各々の配置ごとに,妥当な分散 分析および応答分解を個別に定義する必要がある.たとえば, S A S / S T A Tソフトウェア G L Mプ口、ンジャの 4種 ‑]87‑

190.

類の効果成分平方和 ( S S I,S S 2,S S 3,S S 4 ) は,一般化逆行列の演算に基づく効果成分平方和の演算手1 ) 国 に , 標本数が処理ごとに均ーの場企,均一でなし場合,および,標本数 o (欠部11)の処理がある場合の効果成分平 方 不nの統計科学的な解釈の差を個別に反映させて得られる.また, SAS/STMソフトウェアは標本数の差,配 置の差,模型の差などに配慮し GLM のほかに ~OVA , N ESTED,REGなどのプロ、ンジャを用意している. 組み合わせ完全配置での正準制約式に基づく応答分解を制約式っき最小 2来一法で応答にあてはめると広い 範囲の問題に共通の方法で対処できる.なお,欠測となった処理があれば規準方程式の解が不定になるのは 自然であり,解析の技巧による対策には限界がある.欠損J Iとなる特定の処理を組み合わせ完全配置の中から 本質的に排除できない場合には枝分かれ配置,一元配置などに配置を組み帯えるのが妥当であろう. 組み合わせ完全配置で、の正準制約式に基づ、く応答分解は,詳細に吟味してみると,加法性と分I).ll~性とに基 づく効果成分の定義と直接に関係しており,この応答分解が妥当にあてはまる応答は多いと思われる. この配置の処理ごとに応答が単一に確定しでさえいれば,効果成分を拘束しなし、かぎり,この応答分解が 常にあてはまる.その効果成分のうちのいくつかが Oで、あったとすれば,組み合わせ完全配置のうち,その 全部の処理よりも少ない数の処理の上の応答の値を用いて,全部の処理の上の応答を算定できる. この少ない数の処理のつくる配置を省略配置と名づけ,省略配置を用いて完全配置の上の応答を求める実 験を省略実験と名づける.無効 ( 0 ) と仮定した効果成分が本当に無効で、あれば省1 各実験が成功する.それは 省略実験の結果から算定した完全配置の上の応答の試算値と実視J [ 値との一致によって判定される. ‑分類・関数 組み合わせ完全配置で処理ごとに単一に確定する応答を複数独立変数の関数の数値表として書くと,基本 関数による線形展開が可能となり,統計学を専門としない利用者に実験計画法がなじみやすくなる. ただし,この姿勢は統計学の専門家にはうけし、れられない.般率的に変動する標本の複雑な集まりを処理 に基づいて分類し,背後にある真実を見出し,いま実現されずにいてもいずれ実現されるであろう標本を予 測する必要がある. しかし,組み合わせ完全配置の上で単一に確定する応答│到数の一般平均,主効果および 各階の交互作用への応答分解は単純な標本の分類の枠組みをあたえ複雑な標本の分類の基礎となる. i 性 ‑分離性と制約式との等{J]I 組み合わせ完全配置の上の応答関数の効果成分を加法│生と分離性とに基づいて定義することができる. 加法性: 応答関数 y y( a, b, ・ ・ ・ ,k ) がつぎの式 ( 1 ) の示すように効果成分の和に分解されること. y y( a, b,・ , k ) =yy:M+yy:A(a)+・ + y y : K ( k ) + y y : A s ( a, b ) +・ + y y :I I K( h, k ) +yy:~C(a , b , c)+・ + y y : U H K ( u, h, k ) +・ + y y :A s C .. . U I I K( a, b , c ,・ , u , h, k ) ( 1 ) ここで,独立変数 a, b , ・ ・ ・ , kは要因 A, B ,・ー, Kの水準値の一組であり,従, : J f l変数yyは応答の値で、ある.右 辺の項yy:~!は定数(一般平均)であり,項yy:X(x) は単一の要因X の水準値x のみを独立変数とする関数(主 効果)であり,項 y y : X 1 X 2 ( x l, x 2 )は要I29X lの水準値x lと要因口の水準値x 2とを独立変数とする関数 (2要因 交E作用)であり, 3要因以上の各項がつづき,最後は全部の要因を含む交互作用の項となる. 分1 } l m 性 : 式(1)の左辺の応答[)l j : 数 y y( a, b , ・ ・ ・ ,k ) のこの配置の上での平方和]が,つぎ、の式の示すよう r (2) に,式(1)の右辺の効果成分の各々のこの配置の上での平方和の和に分解されること l :y y( a, b ,・ , k )^ 2= l :y y:~1^2+ l :y y : A( a )^ 2 +・ +l :y y : K ( k )^ 2 +l: yy:~ ( a, b )^ 2 +・ +l :y y :H K( h, k )^ 2 :y y :AsC( a,b , c )^ 2 +・ +l :y y :U H K( u, h , k )^ 2 +・ +l :y y :~C.. . U l !K( a,b , c,・ , u, h , k )^ 2 +l 和記号 Zは配置の処理 ( a, b,・ー, k )の全部の上でとる.分離性はつぎの「正準」制約式から導かれる. 制 約 式 l :@ x l l y y : X ( x ) = O, l :@ x l1 lyy:X1X2(xl,x 2 ) 0, l :@x2押yy:X1X2(xl,x2)=0, r (2a) 二 l :@xl押y y :X1 X2X3( x1 ,x 2, x 3 )= 0,l :@x2押y y :X1X2X3( x1 ,x 2,x 3 )=0,l :@x3押yy:X1X2X3(xl,x2,x3)=0, 」 この式で,記号愈は添え宇の先頭を表わし,記号押は添え字の末尾を表わす. 整数x ,整数x l などは要因 X ,要因 X l なとーの水準値をそれぞれ表わす.手l r 記号 l :@x札 和 記 号 l :@xl押などは それぞ、れの添え字の表わす水準値 x,水準値 x l など、の可能な値の全部にわたって作用させる. 制約式を式 (2) の「基礎」分離,~:から導くことはできないが,つぎの 2 つの条件を補足すれば導くことが でき,この「完全」分離性と制約式とは等価になる(証明は式を数多く書く必要があり月J [ に報告する) . ‑188

191.

A )加法性の式(1)の右辺の効果成分の任意のーっか任意のし、くつかを 0としたときにその結果として左辺 a, b, ・ ・ ・ ,k ) についても分列針生の式 ( 2 ) がなりたつこと に得られる応答関数yyl( 一 直交性. s )力I l f 計上の式(1)の右辺の効果成分の任i 立の一つカ任意のし、くつかを加出生の式(1)と分離性の式 ( 2 )と 3 ! Jの応答関数yyO( a, b, ・ ・ ・ ,k ) の対応する効果成分でおきかえたときにその結果として にしたがうまったく 5 a, b,. . . ,k ) についても分離性の式 ( 2 ) がなりたつこと 交換性. 左辺に得られる応答関数 yy2( ‑演算子表示 X ) ごとにつぎの平均演算子と残差演算子とを定めると効果成分が応答関数の式で表わされる. 要因 ( 平均演算子 EX二 : (1/1X)L :@ x井 ( 3 ) 残差演算子 DX二 : l‑EX ( 3 a ) ( 3 )( 3 a ) ここで整数 1 Xは要因 X の水準数を表わす.平均演算子EXおよひヲ支差h t i X ) l : 子 DXは任意の関数に左fH!)から作用さ せることができる代数演算子でありつぎの恒等式 ( 3 b )がなりたつ.右辺の各項を応答関数yy(a, b, ・ ・ ・ ,k )に 作用させると,結果の各項が全体として ) J I I法性および分離性を満足し効巣成分の一つ一つを表わす. ( 1= = ) ( EA +D A )( E s + D s )・ ( E K + D K ) 三 日 ¥ .E s .・ ・ ・ .EK +D A .E s .・ ・ ・ .EK +E A .D s .・ ・ ' .EK+・ +E A .E 1 3 . . . . .DK +・ +D A .D B .・ ・ ' .DK ( 3 b ) ‑部分平均 b, c, h, k ) (例)が要因A, 3 1, C, 1 しK の組み合わせ完全配置の上で、確定する場合に,式 ( 3 )一( 3 b ) 応答関数yy(a, の演算子 EX を用い,部分平均の演算子~l , i l lA,地Bなと、をつぎ、の式 ( 3 c )で定義する.さらに l = EA +DA=EB+凶 な どとし,代数演算員J ! により展開して整理すると,部分平均が効果成分の l次結合として表わされる. ~L y y( a, b, c, h, k ) =E A .E 1 3 .E C .E l ! .E K .yy( a, b, c, h, k ), M A .y y( a, b, c, h, k )= 1 .E 1 3 .E C .日 ! .E K .y y( a, b, c, h, k ), ~1A13. y y( a, b, c, h, k )= 1 . 1 .E C .日 ! .E K .y y( a, b, c, h, k ), ( 3 c ) ‑応答ベクトル 組み合わせ完全配置の上で、確定する任意の応答関数の値 y y( a, b, ・ ・ ・ ,k )の全部を縦 1ヲJ Iに紙面に書き,行 列代数の縦ベクトルと見なし 応答i もいクトルと名づ、け Dirac 右J 舌弧を用し、てつぎの式 ( 4 ) のように表わ b, ・ ・ ・ ,k )の全部を同じ1 ) 買序で左から右ぺ質 1行に紙面に書き,行列代数の横 す.また,応答関数の値 yy(a, ベクトルと見なし,応答横ベクトルと名づけ, Dirac左括弧を用いてつぎの式 ( 4 a )のように表わす. 応答縦ベクトル yy( a, b, ・ ・ ・ ,k ) ) ( 4 ) 応答横ベクトル ( y y( a, b, ・ ・ ・ ,k ) ( 4 a ) ( 4 )( 4 a ) この記号法を用いると組み合わせ完全配置の上で、確定する応答関数 y y( a, b, ・ ・ ・ ,k )を託たくクトルまたは横 b, ・ ・ ,k )として書き,たがし、に害きなお ベクトルとして書き,それぞれのベクトルの要素を応答関数yy(a, し,さらに,ベクトルの聞の,または,ベクトルに対する演算を式として書き表わすことができる. ‑記号累乗による水準値の表示 1 1 ' = 1, ・ ・ ・ ,n ) として表 組み合わせ完全配置をつくる要囚の総数を整数 nで表わし,その一つ一つを要因 Xw ( わす.要因 Xwの水準数を整数 1 11'で攻わし,水準値の一つ一つを整数 xw ( =1 , . . "1 11')で区別する. 1 3, ・ ・ ・ , Kを要因 X l, X2, ・ ・ ・ , Xn として表わせは,要因A, 1 3, " ' , Kの処理 ( a, b, ・ " ,k )は処理 ( x l, x2, " ・ ,x n ) 要因 A, として表わされる.また,応答関数 y y( a, b, . . . , k )は応答関数 yy( x1 , x2, . . . , x n ) として表わされる. (1 ,. 一 ,1 11')を記号累乗 xw^tw ( tw= O, ・ ー ,g w )で書く表示がある.指数 tw このほかに,要因 Xwの水準値xw二 の上限伊 ( = l w ‑ l )は要因 Xwの自由度と名づけられる.この表示では,応答関数y y( x l, x2,. ・ "x n ) は,記号累 乗の積 (finney‑Kempthorne 処理二記号結)を用し、て,応答関数 yy( x1 ^L1 .x 2 ^ t 2 .・ ー .xn^tn)とする. ‑基本ベクトルまたは基本関数による民間(単一要因系の場合) 要因 Xwのみで、定まる応答 yyXw(xw^tw) の応答空間では 1 次独立な l,~ヱf':約いクトノ同 (Xw^Tw: xw^t w ) ) とそ m *( X w ^ T w :x w ^ t w ) とが要因 Xwの水準数 1 11'¥こ等しい本数ずつ定まる.どちらも対 れに双対の基本横ベクトル ( = 0, " ' ,g w ) で 1本ずつ区別し,それそ れの要素m( X w ^ T w :x w ^ L w )または要素日 ( X w ^ T w :x w ^ t w ) を処 比指数日 ( a 1 8 9

192.

理指数t wニ (0, " ' ,g w ) で一つずつ区別する.単位演算子! wをつぎの式 ( 5 ) で定め,その式の両辺を応答説佐く クトル y y X w( x w ^ t w ) ) に作用させて基本紙佐くクトルm ( X w ^ T w : x w ^ t w ) ) または基本関数m( X w ^ T w :x w ^ t w )の 1次 結合を得る.その係数(対比) ( m * ( X w ^ T w : x w ^ t w )・y y X w ( x w ^ t w ) ) は対比指数T wで一つずつ区別される. ;@ Tw =O, g 叫 m( X w ^ T w :x w ^ t w ) )( m *( X w ^ T w :x w ^ t w ) ( 5 ) ! w= 2 .基本ベクトルによる展開 単一要因系での基本紙佐ペクトルおよび双対横ベクトルのうち対比指数Twの値が Oのものに着目する. 主方向基本(縦)ベクトル m ( X w ^ O : x w ^ t w ) ) を単位要素ベクトル ( m ( X w ^ O : x w ^ t w )= 1 ) とする.また,主方 向双対(横)ベクトル ( m本 ( X w ハ0 :x w ^ t w )を均分要素ベクトル ( m * ( X w ^ O : x w ^ t w )= 1 / 1 w ) とする. そして,単位演算子 ! w( 式( 5 ))を平均演算子伽と残差演算子加との和として,つぎのように書く. ! w=Ew+$w Ew=m ( X w ^ O : x w ^ t w ) )( m 本 ( X w ^ O :x w ^ t w ) 。 w= 2 ;@ Tw =I , gw 井m ( X w ^ T w : x w ^ t w ) )( m *( X w ^ T w :x w ^ t w ) ( 5 8 ) 単位演算子 ! w( w = I, ' ・ "n ) の直積は完全配置の応答空間の単位演算子 I でありつぎの式で展開される. ! ( = !IX ・ X!n= ( E l + ) II)X … X ( $ n + 恥) ) = EIX$2X . . . X$n+自1XE2X ・ XEn+E 1X$2X ー ・ xEn+ ・ ・ ・ ・ ・ +$ 1X白× ・ ×恥 + ・ ・ a w +$ 1X$2X ・ X~ 右辺の各々の項を応答説佐〈クトノレy y( x l^ t1.・・・.x n ^ t n ) ) に作用させると効果成分説必ぺクトルが一つ一つ 定まり,式 (3b)の効果成分と一つ一つ対応する.この応答空間の基本紙佐ぺクトルは単一要因応答空間の基本 紙倍ぺクトルの直積で、あり Finney~Kempthorne対比記号積 X1 ^ T1 .・ ・ ・ .X n ^ T nで指定される.双対基本横ベク トル ( m本 ( X l^ T1 . ・ .Xn^Tn:)も定まり,それと応答縦ベクトノレ y y( x1 ^ t1 .x 2 ^ t 2 .・ ・ ・ .x n ^ t n )) との内積 ( m *( X 1^ T l .・ . X n ^ T n :x1 ^ t1 .・ . x n ^ t n ) ・y y( x 1^ t1 .・ . x n ^ t n )) ( 5 c ) は対比と名づけられ,一つ一つは Finney~Kempthorne対比記号積 Xl^Tl.・・・. X n ^ T nで区別される. ‑省略実験の数理 応答関数の値y Y ( 8, b, ・ ・ ・ ,k )は実験で完全組み合わせ配置(完全配置)の処理 ( 8, b, ・ ・ ・ ,k )ごとに定めら れる(完全実験) . 誤差の影響がなく応答の値が確定する場合には,応答の値の総数は処理の総数 ll(こ等 しい ( = l A . 1 B .・ ・ ・ .1 K ) .この値の一組は加f 剖主と分離性とに基づいて効果成分の一組に換算される. この効果成分の一組からもとの応答の値の一組が求められる.応答が特定の一つまたはし、くつかの効果成 分(活動成分)だけで定まり,ほかの効果成分は恒等的に o(無効成分)であるとすると(拘束式) ,配置 の一部分(省略配置)の処理の上の応答の値から活動成分が求まり,結果的に,完全配置の全部の処理の上 の応答の値が求められる(省略実験).省略配置はその中に含まれる処理の目録(処理表)で指定される. 応答が(一般平均のほか)主効果のみを活動成分とする場合の省略配置は主効果配置と名づけられ,これ に直交配置が多く用いられる.その処理表は累乗形,巡回形などの組み合わせ論的な直交配列表である. ‑累乗形直交配置 各々の要因の水準数1 w( w =1 , ・ " ,n ) がたがし、に等しし、組み合わせ完全配置すなわち累乗完全配置の共通水 準数が素数である場合に省略配置として素数累乗配置を用いる.この配置の基干選配置として,まず,共通 水準数がもとの累乗完全配置の共通水準数lと同じで,要因数mがもとの累乗完全配置の要因数nより小さ い累乗完全配置をつくると,その列の数は要因数mに等しくなり,その行の数はl ^ mに等しくなる. 基礎配置の 1 行ごとに省略配置の処理表の 1 行ずつを対応させ,各々の行を Finney~Kempthorne 基礎記号 積(すなわち基礎配置の Finney~Kempthorne処理記号積) c x1 ^ c t1 .c x 2 ^ c t 2 .・ ・ ・ .c x m ^ c t mで区別する. この Finn巴 y~Kempthorn巴基礎記号積の各々に,つぎの式 (6) で定義される法算分類を作用させ,基礎配置 の処理ごとに,水準類別番号 c tを得る.この水準類別番号 c tの列を省略配置の処理表の列とする. c t =c t 1 .c T 1 + c t 2 .c T 2 +・ + c t m .c T m( m o d1 ) ( 6 ) 7 ' Jをつくるから,省略配置の処理表の列はその列をつく この法算分類一つを用いて省略配置の処理表の 1 ‑190一

193.

るのに用いた法算分類の F i n n e y ‑ K e m p t h o r n e分類記号積 c X l^ c Tl .c X 2 ^ c T 2 .・ ・ ・ .c X m^ c T mで指定される. ただし,分類指数 ( cT l ,c T 2,. . ., c T m )は分類結果の重複を避けて選び,一つの順序(生成順)で左から右 〈横 1行 に な ら べ そ の1 ) 慎序で分類記号積をならべ,その順序で省略配置の処理表の列をならべる. 素数累乗配置をつくる演算は水準数 1 (=素数q ) を法とする有限代数である.その原型はラテン方格法を 拡張した法算系の応答分類である.水準数lが累乗素数q ^ s (指数sは正の整数)の場合にはG a 1 0 i s有限体の 有限代数に拡張され,累乗素数累乗完全配置の省略配置が累乗素数一累乗配置として得られる. ただし,通常の実験結果を解釈するためには,法算系の応答分類の分1 司式分は見やすくない.直積系の基 本関数による応答展開のほうが重要で、あり,直積系表示と法算系表示との関係づけが必要である. 素数累乗配置および累乗素数 累乗配置はどちらも累乗形の組み合わせ論的直交配列表を処理表とするの で,まとめて,累乗形直交配置と名づける 処理数 1 ^ m( 分1 両文分数n ニ ( l^ m 一1 )/( l 一1 ))の累乗形直交配置 は処理数 l ^ nの累乗完全配置の1/1 ^( n ‑ m ) 実施となる.この数理は「定義対比」を用いて整理される. ‑制約式っき最小 2乗法 省略配置では,応答の無効成分を指定して活動成分を求めるために,まず, iH!J約式および応答方程式から 解が確定することを確かめる.ふつうは,解が確定することのわかっている配置,または,それを変形した 配置を用い,その配置の上の応答を制約式っき最小 2乗法により効果成分(活動成分)に変換する.この変 換は任意の省略配置または完全配置について数値的な計算手順として実現でき変換係数も求められる. 実算には対角要素法を用いる 応答が確率的な変動を含まず確定する場合には,得られる活動成分は代数 的な応答分解で得られる効果成分と数値的に一致する.確率的な変動または誤差を含む応答,処理要因と実 施要因(繰り返し番号など)とに影響される応答,不規則な省 111各配置または変形配置の上の応答,などに同 じ形式の計算手順をあてはめることができる.計算手順を FORTRAN77の主プログラムの集まりとして書いて おき,その中の配列の寸法など,必要となるパラメータの値を,問題ごとに,手直しをして用いる. これに対応させて数多くの入/出力演算値を各々のテキストファイルの中で、順序づ、ける.基本的な入力演 算値は配置の上の応答の値であり,列挙してテキストファイルとする.基本的な出力演算値は効果の値で、あ り,列挙してテキストファイルに出力させる 重要なのは,配置ごとに,プログラムのパラメータの手直し をし,応答の値および効果の値を正しく順序づける作業である. i卜算を実行すると,し、くつかの種類の確率 的な変動の標本が各々の効果の推定値と残差とに流入するようすも具体的に追跡できる(柴山 2 0 0 1 ) . ‑確率的な変動の取扱い こうして FORTRAN77の主プログラムの集まりとして書かれた制約式っき最ノト 2乗法の計算手順は柔軟であ り,まず,配置にあてはめる段階で,配置の特徴と効果成分の意味とを理解できる.また,計算を実行すれ ば,効果成分は自動的に得られ,各種の配置の性質(分解数など)を実算によって具体的に自白君、できる. 確率的な変動をともなう場企に計算手順の入力演算値となる応答yは処理要因の関数となる確定応答 y yと これに確率的につけ加わる変動の標本v vとの和である.この応答y が,制約式っき最ノト 2乗法により,試算 応答 y vと残差v yとに分解される.試算応答 y vは確定応答y yと確率的な変動の標本v vの一部分とのね!となり, 残差v yは標本v vの残こりの部分のみの和となる.どちらも標本であり,実験を追加すると変動する. 実現漂本に背景母集団を想定し,また,実験を追加して得られる累積標本の延長に漸近母集団を想定する のは,さらに実験を追加したときの標本の見当をつけるためであり,その論理はわかりやすくしたい. .理解のための教育 先入観にとらわれず真実を求める統計科学の姿勢は重要であるが,問題ごとに効果成分,対比などの具体 的な定義式/表現形式を模索する負担は専門外の利用者には大きすぎる.と。んな確率的な変動も,人間は, 日頃,安定な,確定的な事実に照らして,それに対する誤差としてのみ把握する.効果成分も対比も,その ような把握の枠組みであるから,広い範囲の問題に共通のわかりやすい定義を与えることが好ましい. 効果成分の加法性に基づ、く線形推定可能性の理論 ( s o s巴 1 9 5 0 ) はその基礎となる.効果成分を確定するた 封生のほかi こ制約式をつけ加える必要があるが,分散分析による統計科学的な検定・推定は H J I )約式 めには力日1

194.

によらない推定可能量のみで組み立てることができる.この事実は実験結果的析の手法に大きく影響してお J AS/STAT ソフトウェア G L Mプロシジャの効果成分平方和の 4種類もこの延長上のものである. り , S ただし,一般平均,主効果, 2要因交互作用などの「効果成分」が何を意味するか I 対比」とは何か,な どの説明は容易ではない.制約式を固定せず推定可能性だけを根拠とする角特庁手法の自由さと定義された基 本概念の包括する意味の幅広さとに初心者は途方に暮れ,さらに, I 正準」制約式の意味も不明である. 統計科学ではない一見支科学の数式は,たとえばテイラー展開も,またフーリエ展開も,個別の課題にあて はめて意味づけられ,使い勝手のよい数式が選ばれるが,その数式が表わす数学的な事実は確定している. それと比べて,応答分解の基礎を加法性のみに限定した効果成分の式の自由さは大きすぎる.付帯条件を適 切に与えることによりどんな統計集団のどんな関E にも対処できるとしても,さまざまの統計集団を適切に 識別し適切な付得条件を選ぶことは統計科学の正統の訓練を受けた専門家だけができることである. それができるのが専門家であるが,一般科学とはおよそ隔絶されたその独特の深遠な広大な世界に初心者 はどう接近するのかりまた,その世界の成果を専門家ではない一般の利用者はどう活用するのか? しかし,応答が組み合わせ完全配置の上で確定する易恰 i こ,効果成分の1 J I I法│生のほかに正樹j l J約式を仮定 すれば,その配置の上の応答平方和が効果成分平方和の和に分離される.この分離性をしてぶんかt i l l足すれ ば,逆に,正準制約式が得られる.組み合わせ完全配置の上で確定する応答関数は,効果成分の加法性と効 果成分平方和の分離性とに基づいて,効果成分に,常に,一通りに,また,ただ一通りに,展開される. これを「正準展開」と名づけると,その展開項が効果成分となる.組み合わせ完全配置の上で,効果成分 の加法性は「応答分解 J ( 州O R E ) を与え,効果成分平方和の分離性は「分散分析 J ( A N O V A ) を与える. 正準」制約式は式 ( 2 ) の「基礎J分離性に補足を加えた「完全」分l i l ! t 性と等価であり,その意味 そして, I が確定する.揺i l i Jを含む一般の応答には, i llJ約式っき最小 2乗法で,この応答分解をあてはめて,統計科学 の正統の方法で,試算部分から応答の確定部分を推定し,残差部分から応答の揺動部分を推定する. この場合に観測される対象は組み合わせ完全配置の上で確定する応答関数とそれに重なる揺動とであり, 配置の差は観測手段の差にすぎない.ただし,効果成分のと、れを活動成分としどれを無効成分とするかは観 測の対象に対する作業仮説である.たとえば,一般平均と主効果とを主効果配置で求めても,ほかの効果 成分を応答関数が含んでいれば,正しくない結果となるから,以後の観測による確認が必要である 応答,効果成分,対比,処理などは数多くの添え字を組み合わせて区別される. しかも,多次元線形ベク トル空間の演算による角材斤が多し、から,見やすい表示が必要である.実算では印RT 臥N 77 記法による演算手 1 ) 慎・演算値の表示が便利であり,コンパイラ言語としての S A S言語の利用も重視してよいであろう. この手順をふめば,学部程度の一般教育の延長として実験の計画および解析の手法の意味を理解すること は十分に可能であり, S A Sおよび ] M Pソフトウェアの活用をたすけ,実務教育の負担を軽減できる. 参考文献 B o s e, R . C .( 1 9 5 0 )L e a s ts q u a r eぉ p e c t so f a n a l y s i so f v a r i a n c e ., J n s t ' eo f S t a t sMimeograph9 ,U n i v .o f N o r t hC a r o l i n a . F i s h e r ,R . A .( 1 9 2 5,1 9 4 8 )S t a t i s t i c a lm e t h o d sf o rr e s e a r c hw o r k e r s ., O l i v e r& B o y d . 芳賀敏郎 ( 1 9 9 2 ) :SAS/QCによる実験の計画, 日本S A Sユーザー会 S U G I ‑ ]1 9 9 2論文集, p . 6ト 7 4 . [同 i n, J . O .( 1 9 3 7 )・D i s c u s s i o no nM r .B a r t l e t t ' sp a p e r ., Sl I p p l e m e n t t oJ O l l r n a l0 / RoyalS t a t ' lS o c i e t y4 ( 2 ),1 7 1 ‑ 1 7 4 . 岩波理化学辞典初版 ( 1 9 3 5 ) :I 輯射揺動」の項. 岩波理化学辞典第 5版 ( 1 9 9 8 ) :I ゆらぎ J ( ユ1 0 0 ) の項, I 揺動散逸定理 J ( ヨ0 5 5 ) の項. K i r k ,R . E .( 1 9 9 5 ) :E x p e r i m e n t a ld e s i g n :p r o c e d u r e sf o rt h eb e h a v i o r a ls c i e n c e s . .3r de d n,B r o o k s / C o l e SASI n s t i t u t e,I n c .( 1 9 7 8 ) :T e c h n i c a lR巴p o口R ‑ I0 1, T e s to f h y p o t h e s e si nf i x e d ‑ e汀e c t sl i n e a rm o d e l s ., SASI n s t i t u t e,I n c . SASI n s t i t u t e,I n c .( 1 9 8 9 ) :SAS/QC ⑧S o f t w a r e :R e f e r e n c e,v t 巴r s i o n6 .,F i r s te d i t i o n,SASI n s t i t u t , 巴I n c . SASI n s t i t u t e,I n c .( 1 9 9 0 ) :SAS/STAT ⑧U s e r ' sG u i d e,v t 巴 r s i o n6 .,F o u r t he d i t i o n,SASI n s t i t u t , 巴I n c . , 巴I n c .( 2 0 0 0 ) :JMP ⑧I n t r o d u c t o r yG u i d e,V e r s i o n4 ., SASI n s t i t u t , 巴I n c SASI n s t i t u t 柴山 1 ( S ' J . j k( 2 0 0 1 ) :要因配置実験の結果角材 のための簡易な入力形式 f l本 S A Sユーザー会 S U G I ‑ ]2 0 0 1論 文集, p . 3 7 3 ‑ 3 8 0 ; 補足資料圧縮ファイルa n o r c .z i p,f i砂ip.sas.com/pub/weがles/Japan/contrib/sugi OJ ̲ a n o r e・ 田口玄一 ( 1 9 7 6,1 9 7 7 ) :実験計画法,上,下, 3版,丸善; ( 1 9 5 7,1 9 5 8 ) : 上,下,初版,丸善. r r 1 9 2

195.

日本 SASユーザー会 (SUGI‑J) GENMODプロシジャによる計数データの解析 高橋行雄 日本口シュ株式会社 医薬開発本部 AnanalysisforcountdatausingprocGENMOD YukioTakahashi PharmaDevelopment/Nippon RocheK . K . 要旨 計数データの解析にバージョン 6までは, LOGISTICと CATMODフ。ロシジャを併用 してきた.パージョン 8 で LOGISTICフ。口、ンジャに c l a s sステートメントが追加され,さらに modelステートメントで交互作用が記述できるようになり, CATMODフ。ロシジャを併用する理由 が薄れた.他方 GENMODプロシジャは,リリース 6 . 0 9で、追加された一般化線形モデルの統 計ソフト GLIM"の流れをくむプロシジャであり,パージョン 7で、大幅に機能アップされた. 共 変量として分類データ,および連続データを持つ l元配置実験から得られた計数データの場 合について比較検討した結果 lsmeansステートメントを持つ GENMODフ。ロシジャが,推定平 均の算出機能を持つ分だ、け優れているが,一般的には甲乙つけがたかった. キーワード: ロジスティック回帰, SAS/GENMOD,SAS/LOGISTIC 1.はじめに GENMODプロシジャは, SASのリリース 6 . 0 9で提供された新しいプロシジャであり,計数デ ータに対して GLMプロシジャ流の分散分析モデルの考え方によって開発されている. SASでは, 計数データの解析には, LOGISTICおよび CATMOD プロシジャが用いてきた. LOGISTIC プロ シジャは回帰モデル, CATMODプロシジャは多重分割表の解析モデルの流れをくむものである. GENMODプロシジャは, V e r s i o n8 (実際には V e r s i o n7 )でl s m e n おおよび e s t i m a t eステートメ ントが追加され,各種の推定平均が容易に求められるようになった. LOGISTIC プロシジャも V e r s i o n8で c l a s sステートメントの追加, mod巴lステートメントで交互作用の指定ができるように なり, 2つのプロシジャは機能的に類似してきた.その結果として,どちらのプロシジャを標準 的に用いたらよいか判断しがたい状況となった. V e r s i o n 6 までは, LOGSTIC と CATMOD プロシジャを互いに柏完的に併用してきのは, LOGISTICプロシジャでは,交互作用項がll10 d e lステートメントで指定できない, c l a s sステート メントが使えない,などの理由であった.さて, V e r s i o n 8の世界では,どちらか一方に絞ること 1 0に使う必要があるのだろうか.これ ができるのであろうか.それとも 2つのプロシジャを補完 ( 1 9 3

196.

は,解析の対象となる分野に依存する問題であり,一般論では解決できない.そこで,反応変数 u r が 2イ 変数あるいは順序カテゴリ変数であるような二重盲検比較臨床試験において,共変量を含 む統計解析の場合に限定して比 l技することにした.因子(治療)は 3水準とし,共変量としては カテゴリ変数と連続変数の両方がある場合とした. 2 . GENMODと LOGISTICプロシジャの基本 GENMODプロシジャは,一般化線形モデル ( g e n e r a l i z e dl i n e a rmodels) のためのプロシジャで g e n e r a ll i n e a r ある. GLM プ ロ シ ジ ャ は , 反 応 変 数 が 連 続 量 で あ る 場 合 の 一 般 線 形 モ デ ル ( models) を対象としているに対し一般化組形モデルは,反応変数が正規分布のみならず 2 項分布 あるいはポアソン分布に従うような場合にも解析ができるように拡張されたものである. 2 . 1 分布関数とリンク関数 3Xj の 期 待 値 が, 2項 分 布 に 従 ロジスティック回帰モデルは,説明変数 Xi の線形結合 ηi= f う P iのロジット変換 I n ( p i/ ( 1 ‑P i ) )= η f であたえられる場合である . P iについてプロピット変 換 φ一l(p) した場合は,プロピット法(プロピット回帰モデル)となる.り の期待値そのものが t 正規分布に従うとした場合には, GLM で取り扱ってきた一般線形モデルとなる.これらの分布 関数と変換(リンク関数)は,次に示すように GENMODプロシジャの MODELステートメント のオプションで指定する. ロジスティック回帰モデル I dist=Binomial link=logit; プロビット回帰モデル I dist=Binomial li出 =probit; 一般線形モデル I dist=Normal link=identity; 反応が順序カテゴリ変数の場合には,分布関数は mutinominal,リンク関数は cumlogit,または cumprobit とする. LOGISTIC プロシジャもリンク関数の概念が取り入られており, l i n k = l o g i tま たは l i n k = p r o b i t オプションが使用でき,反応が順序カテゴリ変数の場合には分布関数は自動的 に多項分布にきりかえられる. LOGISTICプロシジャのリンク関数は,これ以外に補対数対数変換 (complementaryl o g ‑ I o g )だ けであるが, GENMOD プロシジャでは,分布関数として,ポアソン分布,ガンマ分布,負の 2 項分布などがあり,リンク関数として補対数対数変換,対数変換,事変換が用意されていて,こ れら組み合わせて多様な解析モデルが構築できる. 2 . 2 Classおよび Lsmeansステートメント GENMODプロシジャの c l a s sステートメントで生成されるダミー変数は.それぞれのカテゴリ に対応する水準が l となる glm タイプで,解析時には最後の水準が落とされる.これに対して LOGISTIC のcIa s s ステートメントでは, glm タイプ以外に,対比 ( e 仔e c t ) タイプ,任意の水準 をダミー変数から落とした参照 ( r t f e r e n c e ) タイプなどが指定でき,解析の目的に合わせて選択 できるようになっている. GENMODプロシジャの Ismeansステートメントは GLMおよび MIXEDプロシジャの i 走れを dAY nHU ‑ ‑ A

197.

くむもので.各水準の推定仰のみならず.全ての 2水準fIl J の組合せの差の推定量が得られる. 2.3 評価に用いるデータ 表 lに二重盲検比較試験で待られた結果を示す.それぞれの水準の有効率,オッズ,オッズ比, ロジァト,およびロジットの差を示す.これらの統計量は各プロシジャの出力の意味を理解する 上で参照するために計算したものである. 表 l 3群の比較,反応は 2値 反応あり 反応なし y=O 24 2 5 2 6 y = 1 2 1 2 0 9 T r e a t m e n t Omg omg 20mg 4 5 4 5 3 5 有効率 p 5 3 . 3 9 も 55.6% 74.3% ロジット オッズ odds 1 .1 4 2 9 1 . 25 00 2 . 8 8 8 9 比 基準 1 . 0 9 3 8 2 . 5 2 7 8 l o g i t 差 0 . 1 3 3 5 0 . 2 2 3 1 1 .0 609 基準 0 . 0 8 9 6 0 . 9 2 7 3 l o g i tニ ln(p/(I‑p)),odds=p/( l‑ p ),p=1/ (1+exp(ーl o g i t ) ) 3 . 解析結果 3 . 1 LOGISTICプロシジャによるロジスティック回帰モデルの例 LOGISTIC プロシジャの解析プログラムを下に示す. c l a s s ステートメントでは最初の用量 Omg を参照水準とするダミー変数の作成を (pram=reference r e f = f i r s t ) オプションで指定し, model ス テートメントのオプションで l i n l く= I o g i tとしてリンク関数をロジット変換とする. Program1 a (LOGISTIC 1因子) proc logistic data=dOl class TRT (param=reference ref=first) rnodel Y = TRT / link=logit freq N ニュートン・ラフソンのアルゴリズムを用いた最尤法により,ロジットの差の推定値,および n t e r c e p tが Omg のロジットの推定値, TRT 1 0 オッズ比が標準出力として得られる.この例では I が 10mgと Omgの差, TRT20が 20mgと Omgの差になっている. Refオプションの f i r s tで指定 された Omgを基準としたオッズの比も出力されている. ES 唱l 噌l 旬l n u O u t p u t1 a (LOGISTIC 1 因子) Analysis o t MaximumL i k e li h o o d Estimates Standard Wald Estimate Parameter E r r o r Chi‑Square 0.1335 I n t e r c e p t 0.2988 0.1997 0 . 4 2 3 4 0.0896 TRT 1 0 0.0448 0 . 4 8 8 7 0.9273 TRT 2 0 3.6003 E t t e c t TRT 1 0v s0 TRT 2 0v s0 P r >ChiSq 0.6550 0.8324 0̲0578 O d d s Ratio Estimates P o i n t 95%Wald Estimate Contidence Limits 1 . 0 9 4 0 . 4 7 7 2.508 2.528 0 . 9 7 0 6.588 3.2 GENMODプロシジャによるロジスティック回帰モテ、 jレの例 Cla~s ステートメントでは最後の水準 20mg を参照水準とするダミー変数の作成が自動的に行わ れる. Model ステートメントのオプションで分布関数として dist=binomial として 2 l J I分 布 , リ ンク関数として l i n k = l o g i tとロジット変換を指定する.各水準の推定イ'[![の出力のために Ismeansス テートメント 2水準聞の差の推定値の1'1',力のためのオプション d i f fを折定する. ‑195

198.

P r o g r a m2 a (GENMOD 1 因子) proc genrnod data=dOl ; class TRT ; model Y = TRT / dist=binomial link=logit lsmeans TRT / diff ; freq N ; 最尤法によるロジットの推定値の出力を o u t p u t2aに示す.この例では I n t e r c巴 p tが 20mgのロジ ツトの推定値, TRT0が Omgと 20mgの差 0.1335‑1.0609ニ 0.9273,TRT 10が 10mgと 20mgの c a l巴の推定値は1.0000 であるが,これは Ov巴 r ‑ 差 0.2231‑1.0609 = ‑0.8377 となっている. S d i s p e r s i o n (過大発散)に関連したパラメータで,これを考慮していないという意味である.ロジ ツトの差の推定値は, Omg対 10mg,Omg対 20mg, 10mg対 20mgの全ての組み合わせが出力さ れている.ただし,推定値は (Omg)一(10mg) =0.1335‑0.2231=‑0.0896が計算されている. Omg と 10mgの差のワルドカイ 2乗値は 0.04であり,これは LOGISTICプロシジャの推定値 TRT 10 のカイ 2乗値 0.0448に対応している. O u t p u t2 a (GENMOD 1 因子) Analysiso fP a r a m e t e rE s t i m a t e s S t a n d a r d W a l d9 5 %Confidence C h i P a r a m e t e r D F Estimate E r r o r L i m i t s Square P r > ChiSq 1 .8189 I n t e r c e p t 1 1 . 0 6 0 9 0 . 3 8 6 7 0 . 3 0 2 9 7.52 0 . 0 0 6 1 TRT 0 1 ‑0.9273 0 . 4 8 8 7 ‑ 1 . 8 8 5 2 0 . 0 3 0 6 3 . 6 0 0.0578 TRT 1 0 1 ‑0.8377 0 . 4 8 9 5 ‑ 1 . 7 9 7 1 0 . 1 2 1 6 2 . 9 3 0.0870 TRT 2 0 0 0.0000 0 . 0 0 0 0 0 . 0 0 0 0 0 . 0 0 0 0 Scale 0 1 . 0 0 0 0 0 . 0 0 0 0 1 . 0 0 0 0 1 . 0 0 0 0 N O T E : Thescalep a r a m e t e r was held f i x e d . E f f e c t TRT TRT TRT E f f e c t TRT TRT TRT L e a s tS q u a r e sM e a n s S t a n d a r d TRT E s ti m a t e E r r o r D F 0.1335 0 . 2 9 8 8 0 . 2 2 3 1 0 . 3 0 0 0 1 0 1 . 0 6 0 9 0 . 3 8 6 7 2 0 。 。 。 TRT 1 0 Chi‑ Square 0 . 2 0 0 . 5 5 7 . 5 2 Differenceso fL e a s tS q u a r e sM e a n s S t a n d a r d TRT E sti mate E r r o r D F 1 0 0 . 0 8 9 6 0 . 4 2 3 4 0 . 4 8 8 7 2 0 一0 . 9 2 7 3 ‑0.8377 0 . 4 8 9 5 2 0 P r >ChiSq 0 . 6 5 5 0 0 . 4 5 7 0 0 . 0 0 6 1 C h i Square 0 . 0 4 3 . 6 0 2 . 9 3 P r >ChiSq 0.8324 0.0578 0.0870 3 . 3 LOGISTICと GENMODプロシジャの比較, 1元配置型の場合 LOGISTIC プロシジャの良さは,参照水準に対するオッズ比の推定と 95%信頼区聞が共に出力 されていることである. GENMOD は,各水準のロジットが推定され,その差も推定されている ことである. LOGISTICプロシジャの標準出力にない水準の推定値は, c o n t r a s tステートメントを追加するこ l a s s ステートメントの parm オプションにより生成 とにより得られる.ここで指定する係数は, c された夕、ミ一変数に対応して変えなければならない. P r o g r a m1 b( LOGISTIC,c o n t r a s t ) contrast 'TRT 0 ' intercept 1 TRT 0 0 / estimate=parm ; contrast 'TRT10' intercept 1 TRT 1 0 / estimate=parm ; contrast 'TRT20' intercept 1 TRT 0 1 / estimate=parm ; 1 9 6一

199.
[beta]
GENMOD プロシジャでオッズ比とその 9
5C
k信頼区間jを算出するためには,次の e
s
t
i
m
a
t
e ステ

ートメントの exp オ プ シ ョ ン を 追 加 す る こ と に よ っ て 待 ら れ る . こ こ で 指 定 す る 係 数 は ,
"glm" タイプのダミー変数に対応している.このように新たなステートメント,あるいはオプ

ションを追加すれば,互いに不足していた結果が得らる.
P
r
o
g
r
a
m2
b (GENMOD.e
s
t
i
m
a
t
e
)
estirnate 'TRT 0 vs. 10' TRT ‑1 1 0 / exp ;
estirnate 'TRT 0 vs. 10' TRT ‑1 0 1 / exp ;
3.
4 FREQプロシジャの尤度比検定との関連
l元配置型の 2値データに FREQ プロシジャの結果とロジスティック回帰モデルとの共通点を
a
b
l
e ステートメントの c
h
i
s
qオ
示す.様々な mXn の分割表に対する統計的検定手法があるが, t
i
k
e
l
i
h
o
o
d刊 t
i
oc
h
i
‑
s
q
u
a陀)が次に示す LOGISTIC の出力の
プ シ ョ ン で 出 力 さ れ る 尤 度 比 検 定 (l
L
i
k
e
l
i
h
o
o
dR
a
t
i
oの ど =4.300に一致する.なお、 FREQでは,結果が 2X2の表の場合にのみオッ

ズ比が出力され, 3水準の場合には出力されないので、 2 つの水準の組み合わせたプログラムが
必要となる.
O
u
t
p
u
t1
a (LOGISTIC続き)
Testing G
l
o
b
a
lN
u
lIH
y
p
o
t
h
e
s
i
s
:B
E
T
A
=
O
T
e
s
t
C
h
i
‑
S
q
u
a
r
e
D
F
P
r >C
h
i
S
q
L
i
k
e
li
h
o
o
dRatio
4
.
3
4
0
0
2
0
.
1
1
4
2
Score
4
.
1
7
9
9
2
0
.
1
2
3
7
W
a
l
d
4
.
0
5
3
1
2
0
.
1
3
1
8
3
.
5 有効率の差の 95%信頼区間
GENMOD プロシジャでは, I
s
m
e
a
n
s ステートメントに c
l オプションを付け加えることにより

ロジットの差の推定値とその SEの 95%信頼区間が計算される. しかし,有効率の差の 95%信 頼
区聞は計算されない.これは,ロジットの差の 95%信頼区間は,有効率では比となり有効率の絶
対値が一意に計算できないためである.
反応
T
r
e
a
t
m
e
n
t
Omg
1
0mg
2
0mg

r/(%)

24/45(
5
3
.
3
)
25/45(
5
5
.
6
)
26/3
5(
7
4
.
3
)

表 2 差の 95%信頼区間
ロジット
ロジットの差 │差の
SE
推定値
SE
推定値
下限
0
.
1
3
3
5 0
.
2
9
8
8 基準
0
.
2
2
3
1
1
.
0
6
0
9

上限

0
.
3
0
0
00
.
0
8
9
6
0
.
7
4
0
3
0
.
3
8
6
7 0
.
9
2
7
3 0.
48
8
7 I‑
1
.
8
8
5
2 0
.
0
3
0
6

そこで, 0mg のロジット 0.1335 (53.3%) を基準とし,それに 20mg のロジットの差

0
.
9
2
7
3

を上乗せし,さらに::!::1
.96SEを加える.
95%cl:(0
.
1
3
3
5+0
.
9
2
7
3)1.96X0.
4887=(0.1032.019)

これを逆ロジット変換すると有効率に換算した 95% (52.5%88.3%) が得られる.下限が 52.5%
と基準値の Omgの有効率 53.3%よりも下回っているので,有意な差でないことがわかる.

4
.反応が順序カテゴリの場合
反応に順序がある場合には累積ロジットによる解析ができる.表 lで示した 反応あり"は,
2段階に区分された反応をまとめたものであり

分けたものを表 2に示す.
197‑

200.

表 3 3群の比較,反応は順序カテゴリ 反応なし 有効率 反応あり 0(++) 2 4 2 5 2 6 T r e a t m e n t Omg Omg 2 0mg 1( + ) 8 7 3 2 1 3 1 3 4 4 5 4 5 3 5 p(O) p( l ) 53.30% 55.60% 74.30% .11% 71 .11% 71 82.86% ロジッ卜 l o g i t ( O ) l o g i t (1 ) 0 . 1 3 3 5 0 . 2 2 3 1 1 .0 6 0 9 0 . 9 0 0 8 0 . 9 0 0 8 1 .9 810 p(O)=(O)/T , p(1 ) = ( ( 0 ) +( 1) ) / T , l o g i t( i )=I n(p( i )/( l‑ p( i ) )) GENMOD プロシジャでは,分布関数に多項分布,リンク関数に累積ロジットを指定する.水 s t i m a t eステートメントの使い方は,反応が 2値の場合と同じである. 準聞の差の推定のための e P r o g r a m3(GENMOD 累積ロジット) proc genrnod data=d03 i class TRT i model Y = TRT / dist=multinomial link=cumlogit type3 /*wald*/ 工smeans TRT / diff cl i estimate 'TRT 0 vs 10' trt ‑1 1 0 / exp i estimate 'TRT 0 vs 20・ trt ‑1 0 1 / exp i freq N i 累積ロジットによる推定結果は, l n t e r c e p t1および i n t e r c e p t 2 と 2つの切片を持つ推定値が出力 n t e r c e p t lは logit(O),I n t e r c e p t 2は logit(1)の場合の 20mgの推定値であり, TRT 0 の推定値 され, I は , Omg と 20mg の差の推定値であるが,これは,反応++および、反応+の両方の差を考慮したも . 0 2ではパグのためか残念ながら のである. Lsmeansステートメントの結果の出力は,リリース 8 得られないので e s t i m a t eステートメントによる結果を示す.反応++の場合で、も反応+の場合で、も 表 4 に示すように投与量聞の差は一定となっていることが確かめられるであろう.これは, 2つ の累積オッズを考慮した投与量問の差であり, exp オプションによって得られたオッズは,累積 比率を考慮したオッズとなる.なお,累積ロジットによるロジスティック回帰モデルは,比例オ 一m aQdhbRdnununu P ︐ ︑ト m 089qdoo J v n H u n H v n H v n H u n H U 今喝 一 一 O U 凋斗 Rvqdnudnunu C ハ Unhu司dnwdハ Uハ U n L 司dnunu 凋 付 EJ 今 enDnhuハ Uハ Uハ Uハ U JU ・ c J V ‑ 1 ‑ ' t nノιハ H u n H u n H Vt 噌' 噌 e4lS 一 mrum t nt 2unu‑‑‑ F ・ U U ハU 噌l 噌l 噌l ハU 噌l l司 噌 ・h弘刈1LnDn口噌l 司dハUハU + 1 SRdntQUEdnununu ヒ Qd 凋斗 Ruqd 凋斗 nunU 間 rJU eil w ・2u + 1 内 d r aJur ハ U 7'ハ ハ pr02 57d9 00 内 唱 aroυnU﹃ / ﹃ /nunU 4lAU ﹃ペ﹄凋外刈外刈付ハunu nU 門H↑ F ﹄ ・ dnunununununU CJV+ 唱 enbnDEJ 今 ・唱 Lnunu t‑290 0o F ‑‑‑‑‑‑‑‑ l 句 l 句 l 句 lnunU nunu nU 噌lηζ + 1 l lnununU I s ‑‑ U ﹁﹁句 門 ﹄ ↑ ー i'qu FE2u りJ 円以一 c J V v ' 日 ン 一 ︐ 一 口 一 積 一 累 一 O 一 M 川一 戸 ﹂ 一 P a r a m e t e r I n t e r c e p t 1 I n t e r c e p t 2 TRT TRT TRT S ca l e 一 M G‑ i 司令L‑ qd‑ 司令L‑ 一 u u ‑ 一 O ッズモデルともいわれている. C h i Square P r >ChiSq 8 . 1 6 0 . 0 0 4 3 2 1 . 1 5 < . 0 0 0 1 0 . 0 4 4 4 4 . 0 4 0 . 0 6 0 6 3 . 5 2 C o n t r a s t EstimateR e s u l t s C h i ‑ S t a n d a r d E r r o r A l p h a C o n f i d e n c eL i m i t s Square P r >ChiSq E s ti m a t e L a b e l 0 . 6 4 9 7 0 . 2 9 1 0 0 . 0 5 0 . 4 3 8 2 0 . 7 0 2 5 0 . 2 1 0 . 1 3 2 2 TRT0 + + 0 . 4 2 0 . 7 6 8 8 0 . 5 1 5 7 0 . 2 9 4 6 0 . 0 5 一0 . 3 8 5 9 0 . 1 9 1 5 TRT10++ 0 . 3 8 2 0 0 . 3 4 2 8 1 . 8 4 0 4 8 . 1 6 0 . 0 0 4 3 1 .0 9 1 6 . 0 5 0 TRT20++ 0 . 3 0 4 1 0 . 0 5 0 . 3 0 7 4 1 . 4 9 9 2 8 . 8 3 0.0030 0 . 9 0 3 3 TRT0 + > . 3 5 7 4 9 . 7 2 0 . 0 0 1 8 0 . 9 6 2 6 0 . 3 0 8 8 0 . 0 5 0 1 . 5 6 7 9 T R T 1 0 + > .1 5 く. 0 0 0 1 0 . 4 0 5 1 0 . 0 5 1 . 0 6 8 8 1 . 8 6 2 8 2 . 6 5 6 8 21 T R T 2 0 + > 0 . 4 0 6 6 0 . 0 5 9 3 0 . 0 5 0 . 7 3 7 6 0 . 8 5 6 2 0 . 0 2 0 . 8 8 4 0 TRT 0v s1 0 1 .0 6 1 1 0 . 4 3 1 4 0 . 0 5 0 . 4 7 8 3 2 . 3 5 4 2 E x p ( T R T 0v s1 0 ) 0 . 4 7 7 3 1 . 8 9 5 1 4 . 0 4 0 . 0 4 4 4 0 . 9 5 9 5 0 . 0 5 0 . 0 2 3 9 TRT 0v s2 0 1 . 2 4 6 0 0 . 0 5 1 . 0 2 4 2 6 E x p ( T R T 0v s2 0 ) 2 . 6 1 0 3 . 6 5 2 9 ‑198ー

201.

1 貢序カテゴリ 表 4 3群の比較,反応は ) ロジット ロジットの推定値 有効率 T r e a t m e n t omg omg 2 0mg p(O) p(l) f o g i t ( O ) l) f o g i t( f o g i t ( O ) f o g i t (1 ) 53.30% 55.60% 74.30% .11% 71 71 .11% 82.86% 0 . 1 3 3 5 0 . 2 2 3 1 1 . 0 6 0 9 0 . 9 0 0 8 0 . 9 0 0 8 1 .9810 0 . 1 3 2 2 0 . 1 9 1 5 1 .0916 0 . 9 0 3 3 0 . 9 6 2 6 1 . 8 6 2 8 ロジット差オッズ比 基準 基準 0 . 0 5 9 3 0 . 9 5 9 5 1 .0 6 1 2 . 6 1 0 3 5 .共変量がカテゴリ力ルな場合 有効率に影響をあたえる共変量として遺伝子型 (Genotype) が知られ,次のような結果が得ら れた.共変量の影響を除いた上で用量聞の比較を行いたい. 表 5 Genotype別の有効率 G e n o t y p e G1 G2 T r e a t m e n t Omg 10mg 20mg omg 1 0mg 20mg 反応 .1 ) 22/36( 61 20/30( 6 6 . 7 ) 2 3/3 1( 7 4 . 2 ) 2/9( 2 2 . 2 ) 5/1 5( 3 3 . 3 ) 3/4( 75 . 0 ) f o g i t 0. 45 20 0 . 6 9 3 1 1 . 0 5 6 1 ー 1 .2528 ‑ 0 . 6 9 3 1 1 . 0 9 8 6 差 基準 0 . 2 4 1 1 0 . 6 0 4 1 基準 0 . 5 5 9 7 2 . 3 5 1 4 odds 1 .5714 2 . 0 0 0 0 2 . 8 7 5 0 0 . 2 8 5 7 0 . 5 0 0 0 3 . 0 0 0 0 オッズ比 基準 1 . 2 7 2 7 1 . 8 2 9 5 基準 1 . 7500 1 0 . 5 0 0 0 5 . 1 交互作用の検討 LOGISTIC で 用 量 と 遺 伝 子 型 の 交 互 作 用 の 確 認 法 を 下 に 示 す . Class ス テ ー ト メ ン ト で は GTYPEを追加する. Modelステートメントで,交互作用を TRT*GTYPEと積の形で指定する. Program4(LOGISTIC 交互作用) proc logistic data=d02 ; class TRT GTYPE model Y = TRT GTYPE TRT*GTYPE / link=logit freq N 主効果および交互作用は,分散分析表形式でワルドのカイ 2乗が出力され,交互作用 TRT勺 TYPEは,有意でないことがわかる. GENMODプロシジャでも同じ結果が得られる. Output4(LOGISTIC 交互作用) Type I 1 1 Analysis o f Effects Wald DF Chi‑Square Effect P r >ChiSq 2 2.8552 0.2399 TRT 3.8252 GTYPE 0.0505 2 1 . 4 2 5 5 TRT*GTYPE 0.4903 5.2 交互作用を含まない主効果のみのモデル LOGISTICの場合 2水準 主効果のみのモデルは共変量 GTYPE を model ステートメントに追加し,第 G2" を参照水準とするダミー変数の作成を r e f = l a s tオプションで指定する. Classステー トメントで、参照水準を指定しているのでパラメータの推定値は,それぞれの参照水準との差の推 定値とワルドのカイ 2乗検定が出力されるので, Omg と IOmgの差, Omg と 20mgの差の結果が 得られる. さて,問題は,それぞれの水準の他の共変量の影響を除いた場合の推定値を必要とする場合で l a s sステートメントで生成されたデザ ある.このためには,共変量についての分布の仮定をし, c イン行列に応じて, contrastステートメントにより推定式を生成する必要がある. 2つの遣伝子型 1 9 9一

202.

が均等であるとの仮定した場合に場合には, GTYPEの推定値に 0 . 5 を掛ける必要がある. Program5(LOGISTIC 共変量がカテゴリ) proc logistic data=d02 ; class TRT (param=reference ref=first) GTYPE (pararn=reference ref=last ) ; rnodel Y = TRT GTYPE / link=logit ; freq N ; contrast 'TRT 0 ' int申 rcept 1 TRT 0 0 GTYPE 0.5 / estirnate=parrn ; contrast 'TRT10' intercept 1 TRT 1 0 GTYPE 0.5 / estirnate=parrn ; contrast 'TRT20' intercept 1 TRT 0 1 GTYPE 0.5 / estirnate=parτn ; 門 F 1111 υ O u t p u t5(LOGISTIC 共変量がカテゴリ) Analysis o f MaximumL i k e li h o o dEstimates Standard Wald E s ti m a t e E r r o r Chi‑Square e r Para冊 t ‑0.8633 0 . 4 8 9 3 3 . 1 1 2 4 I n t e r c e p t 0 . 4 4 4 9 0.3656 0.2690 TRT 0 . 5 0 0 6 2.9428 0.8587 TRT 0 . 4 6 2 8 7 . 1 5 1 2 1 . 2 3 7 6 GTYPE unU l 噌 円 l ハ U 唱 ?﹄ 円 u J h J U4 U守 l qu4aqdqd 4 J V Aι H A斗 q J Vl 噌 内 nununU ﹃︐︐内 仏 ・ 1 E ・・・ ハし・・‑ r / ︑ n ﹁ 円U1 口 ﹃J AUekJn SIr‑‑KJ 噌l a 見U 唱 lnunD W U 5 n u 円U 仏H Qunununt ハ し ・‑‑ S ﹁ tkJKJKJ teI558 11D‑mηζ54 unu‑‑14ap 口 4a S 川UtL enunU l 唱 n n 円 u d n ﹁ tkJKJ 唱1 1 1 凸しVIlAι p h u n H U lnunt +LWm 守 soilquRU 内正 el ﹄l﹄ ・ ‑ ‑ TlnununU 一一‑ Au n aakJKJKJ 仏 Hnununu nHnu‑‑ 9u ゐE E 内 1lnununu ‑0・ ‑ A 内 anununU m︐ drqdqd7' l r O 咽l 唱lkJ t a r 4 a nノ﹄nt q u ︐同urE 4 J V4 J V Aι S t ゐ ﹂ 門 門 ﹁ト﹂門川﹁ト﹂・・・ nE WQu n u n円 ekJKJηζ + ーAιAιAι + L 2 U A斗ハノι l 守 s m n t 円υ戸 口 見 ut‑‑‑‑ r+tnununU +tqJv‑ enuw‑ ‑‑ O C o n t r a s t Type TRT 0 PARM TRT10 PARM TRT20 PARM P r >ChiSq 0.0777 0.5454 0.0863 0.0075 C o n t r a s t ステートメントによる各用量の推定は共変量の水準によって変える必要があり、煩雑 a l s sステートメントで p a r a m = e f f e c tと指定しておけば共変 である.これを避けるために共変量を c 量の重みを考慮した差の推定値が得られるが,回帰係数の推定値の意味が変数によって変わって しまい結果の説明が煩雑になってしまう。 GENMODの場合 GENMODプロシジャでは, l s m e a n sステートメントで d i f fオプションを付け ることによ各水準の推定値と水準聞の差の推定値を両方得ることができる.ただし, Omg に対す る 10mgおよび 20mg のオッズ比の推定値を求めるために estimate ステートメントで水準聞の差 を構成しはpオプションの指定が必要となる. Program6 (GENMOD 2因子) proc genrnod data=d02 ; class TRT GTYPE ; rnodel Y = TRT GTYPE / dist=binomial link=logit type3 /*wald*/ lsrneans TRT / diff cl ; estirnate 'TRT 10 vs 0 ' TRT ‑1 1 0 / parrn ; TRT ‑1 0 1 / parrn ; estirnate 'TRT 20 vs 0 freq N ; ・ O u t p u t6(GENMOD 2因子) unu 円 ノ ﹄ edpb 噌 unu 門 vv tl ln e huTITI n 門 門n a tLTITI E s ti m a t e 0.2690 0.8587 C o n t r a s t EstimateResults Standard E r r o r Alpha Confidence Limits 0 . 4 4 4 9 0 . 0 5 ‑0.6030 1 . 1 4 1 0 0.5006 0 . 0 5 ‑ 0 . 1 2 2 4 1 . 8 3 9 7 C h i Square 0.37 2 . 9 4 P r >ChiSq 0.5454 0.0863 6 . 共変量が連続量の場合 遺伝子型を連続変数とみなした解析を行い分類変数とした l 劾合の結果と対比しつつ LOGISTIC と GENNODプロシジャの比較を行う. SASデータセットで GTYPEが Glの場ー合を1.0 とし, G2 2 0 0一

203.

の場合を 2 . 0 と連続変数とし,両プロシジャ共に c l a s s ステートメントから GTYPE を落とし. modelステートメントで GTYPEを直岐記述すれば連続変数として扱われる. LOGISTIC プロシジャの場合にパラメターの推定値を表 6 に示す. TRT 1 0 の推定値は TRT0 との差 0.2690 であり,分類変数でも連続変数でも結果は同じである. GTYPE は,分類変数の場 o g i t ( Gl ‑ G 2 ) =1 . 2 3 7 6が推定されており,連続変数の場合は, 合は, G2を参照水準としているので l GTYPEが l単位増加したときのロジットが l o g i t ( G 2 ‑ G1 ) =‑ 1 .2376 と符号が逆転している. GTYPEが分類変数の場合の切片 I n t e r c e p tは , 表 6 共変量の種類による推定値の変化 TRT と GTYPE の 参 照 水 準 の ロ ジ ッ ト , TRT=Omg かつ GTYPE ニG2 の場合の ‑ 0 . 8 6 3 3 が推定されているのに対し,連続変数の場合 , GTYPE=O の場合1.6120が は , TRT=Omgで P a r a m e t e r l n t e r c e p t TRT TRT GTYPE 1 0 2 0 分類変数 E s t i m a t e 0 . 8 6 3 3 0 . 2 6 9 0 0 . 8 5 8 7 1 . 2 3 7 6 連続変数 E s t i m a t e 1 .6120 0 . 2 6 9 0 0 . 8 5 8 7 1 .2376 推定されている.これらのことを考慮して, 共変量の影響を除いた各用量の水準の推定値は, c o n t r a s t ステートメントで, GTYPE の重みを .5X(‑1 .2376)=‑0.2444, 10mgの場合は, 1 .6120+0.2690+1 .5X 1 .5とすると Omgの場合は1.6120+1 ( 一 1 .2376)= ‑0.0246 のように分類変数の場合の推定値が求められる. LOGISTIC プロシジャの c o n t r a s t ステートメントを用いた結果の出力は省略するが、これは表 7 の GENMOD プロシジャ の分類変数とした場合に一致する。 表 7に示したように GENMODの Ismeansス テートメントによる各用量の水準平均は,こ れとは異なる.これは,共変量が連続変数の 9 7X 1 .0 + 28X 場合は, GTYPEの 平均値, ( 表 7 GENMODによる Is‑meanの違い E f f e c TRT TRT TRT 分類変数 s t i m a t e TRI E oI ‑0.2445 0 . 0 2 4 5 1 0 2 0 0 . 6 1 4 2 i 連続変数 E s t i m a t e 0 . 0 9 7 1 0 . 3 6 6 1 0 . 9 5 5 8 125=1 . 2 2 4 0における各用量の水準の推定 2 . 0 )/ 値が求められているからである.言い換えると分類変数として扱った場合は, GTYFE の Gl と G2 の出現頻度が同じとみなした推定値となり.連続変数とみなした場合は,出現頻度を考慮し た推定値になっている.これは,どちらが正しいかの問題ではなく,定義の問題である. GENMODプロシジャの I s m e a n sステートメントは, SASの GLMプロシジャの定義と同じである. どのような水準平均が妥当なのかを解析を始める前に定めておく必要がある. LOGISTIC プロシ s ‑ m e a n を求めたいときは,次のように GTYPEの 平均値, ジャで I 1 . 2 4 4 を重みをとする必要 カfある. 組み合せ平均の図示 交互作用が有意でないので遺伝子型の主効果を共変量としたモデルによ る推定値のグラフを作成することが結果の解釈に役に立つ.考慮した水準の組み合わせの推定値 u t p u tステートメントによって得られる.その結果を図 lに示す。図の左の I s ‑ m e a nが、表 7 は , o で示した GENMODの用量ごとの推定位、 0.0717,0 . 3 6 6 1,0 . 9 5 5 8となっている。 ‑201‑

204.

0 . 8 じ Jグ ;鑑 ~ 0 一一/ 0 . 4 伊 X 0 . 2 じ子グ ーィ~ 1 X 。 ‑2 1 0 Treatment(mg ) 20 1 0 Treabnent(mg ) 20 図 l 遺伝子型の出現頻度を考慮、した I s ‑ m e a n 。 : GTYP E=l ,X :GTEPE=2,.:ls‑mean 7 . LOGISTICと GENMODプロシジャの使い分け SASのパージョン 8の LOGISTICと GENMODは 2値データに対してロジスティック回帰モデ ルの基本的な性能は同じである.使い分けは,制御因子を含んでいるような場合には水準平均を 標準的に出せる GENMOD,オッズ比による評価を重視したい観察データの解析には LOGISTIC を主体にして,他方をネl i完的に用いるのが現実的で、ある.モデルに含める変量が多いような観察 データを対象にする探索的な解析の場合には,オッズ比とその 95%信頼区間を示し,それがオッ ズ lを含むか否かで結果の要約が薦められる. LOGISTIC プロシジャでの C l a s s ステートメントで変数ごとに基準となる水準が指定すると, その水準からのオッズ比が明示されて出力されるようになり,使い勝手が向上した. GENMOD プロシジャでも e s t i m a t eステートメントのはpオプションによりオッズよヒとその 95%イ言車買区間の 出力を得ることはできるが,標準出力としている LOGISTICプロシジャの方が,探索的回帰分析 の場合には使い勝手が良い. GENMOD プロシジャは 比較したい因子がはっきりしていているような実験データの解析に 適している.これは, Lsmeans ステートメントにより,各国子の水準の推定値および差の推定値 が簡単に得られるからである.臨床試験などで,共変量などの影響を除いた水準平均および差の 平均を求めたい場合などは, LOGISTIC プロシジャよりも使い勝手が良い.これは, LOGISTIC プロシジャで、は水準の推定には,推定で考慮する共変量の指定を自ら行なわなければならないか らである. 以上の比較から,単純な l元配置型の解析であれば, LOGISTICお よ び GENMODプロシジャ はの使い勝手は甲乙つけがたいが,共変量を含む実験データの解析の場合には, GENMOD プロ シジャを標準的に使うことを薦める. LOGISTICの特徴的な機能としては.各種の変数選択,豊富な回帰診断統計量, GENMODの みの機能としては,経時データへの拡張 (GEE) があるが,これらについても別途報告したい. 文献 S t o k e s,M.E.,D a v i s,C .S .,Koch,G.G.( 2 0 0 0 ),C a t e g o r i c a ID a t aA n a l y s i su s i n gt h eSASS y s t e m . 2nde d . 内ノ臼 nHu nノ ︼

205.

日本 SASユーザー会 (SUG I-~) 超過変動ポアソンデータの傾向性検定プログラムの開発 大津洋 藤沢薬品工業株式会社 開発本部臨床統計企画部 SAS/IMLprogramo ft e s t i n gt r e n df o rCountDataw i t hExtra‑PoissonV a r i a b i l i t y H i r o s h iO t s u B i o s t a t i s t i c sa n dP l a n n i n g,D e v e l o p m e n tD i v i s i o n D . F u j i s a w aP h a r m a c e u t i c a lC o .,LT 要旨 薬理試験や、用量反応性探索試験を実施した時、 Cochl 'a n‑Armitage検定が用いられる。しかし、 Cochl 'a n‑Annitage検定は、直搾性を仮定しているので、用量反応性が umbl 'e l l aT ypeのよう s t u t iand1'akashiYanagawaは 、 な時には十分な検出力が得られない場合がある Erni1'l'iA umbl 'e l l a Ty pe の用量反応データに対して、従来用いられているも良い検定手法を発表した c こ こでは、 Erni‑Yanagawa論文に掲載されている手法を SASIIMLソフトウェアで、実現したので、そ の報告を行う。 G .. S A S / IM Lソフトウェア電 E xtr a‑Poi s s o n (超過変動ポアソン分布) キーワート. 1 . はじめに O (対照) 1 5 21 29 100 1 0 33 1 6 27 1 6 1 8 41 26 21 33 60 表l:Amest e s t (変異原性試験) 333 33 38 41 1000 20 27 42 (数値はコロニー数) I J泣 反応の関係があるかどうかを調査したし、。 というデータに関して、平均怖に J ます、これらのテータの平均および分散を J ; とめたのが去 2である。 平均 刀 , ' ‑ まf l : x . じん O (女 十 日 町 21 .67 4 9 . 3 3 1 0 1 8 . 3 3 33 2 5 . 0 7 3 . 0 100 4 2 . 5 7 G . : 3 . ) 274.33 表 2:Amest e s t (要約統計量) 2 0 3一 333 37.33 1 6 . 3 3 1000 29.67 1 2 6 . 3 3

206.

表 l、2よ り ・データはコロニー数なので、 Poisson分布モデルを想定する .用量一反応曲線は線形性が仮定できない。 o i s s o n 分布モデルの場合は、平均=分散の関係がある。表 2 と推測できる。しかし、通常の P より、平均く分散の関係が目立つことより、従来の手法を用いることは難しいと考えられる。 そこて、、 ErniT r iA s t u t iandTakashiYanagawa は " T e s t i n gTrendf o rCountDatawithE x t r a ‑ P o i s s o nV a r i a b i l i t y " の中で、超過変動がある場合の非線形反応を検出する検定量を導く手法を開発し、 B i o m e t r i c s 誌に投稿・受理され、近日掲載予定である。 本論文では、この Erni‑Yanagawaが提案した方法を、 SAS/IMLソフトウェアを利用してマク ロを作成した。 2 . Erni‑Yanagawaが提案した手法(概略) 2 . 1データの定式化 dl d、 dk Y I I ) ' 2 1 Y k I YII/I Y 2 1 1 2 Ykl/k YI+ ) ' 2 + と よ (各用量群の個数は、 nJ,..,.n kとする) ここで、 Y i jを i 番目の d oseが投与された日寺の、 j番目に観測されるデータとする。 また、 Yi+ 土 土 土 j~1 tニ I j~1 = yリ , Y++‑ Y i j, ヱ = 1 7 + Y++ チ = , ι+ I li' チ 乞 = Y++ ' d l i ( ( 'ι+ Iニ l とする。 2.2 問題の定式化 用量 diにおける平均を此とする。この μ はスコアベクトル Q,=( a d にモデル化する。 u .ニ ヱ sa. l o g i ここで、 rくk、({Ol , ¥ , ・ =αOkとする。 2 0 4 ¥ i a ' k )を用いて、以下のよう

207.
[beta]
2
.
3スコアベクトルの定義
lo=「 L(lJ, l
)

刊+つ宗広了〕

d J
υ
d(

d
J
=
(
d
(
l

=

dk ‑
J
)

‑
l

とする。このとき、 G'
1
am・Schimdtの直交化法を用いて、
‑l
︐
u

l一
川

F

︐
)
t

︐

G

/︐

l

︐
.︐

(I

/︐

11

•••

l;=(d;lι)=〈2 t S 1 1 M

ど

. 12k) =
a2
α
2=(
1
'.
司が;
の各々を求める。

2
.
3検定統計量の算出
直交ベクトルを利用することにより、帰!!l~仮説は、 2.1 のモテ守ル化を用いることにより HO:β(2) 二 O とおく

9
9
2
)により、検定統計量は以下で与えられることが示され
ことができる。 Gene'
1a
t
i
o
ns
c
o'
1
et
e
s
t
(
B
o
o
s
:1
ている c

,, [X~ 5
GSr=5:ユ)-)'(ユ

一一

2)~(2)

コ 5
(
Z
}
=
(
S
c
t
l
Y

Scty

(
)Y
.
J
'
)
)
九
}
や4
ー

リ‑

この GS
'
1は、i$i近的に自由度 rの χ2采ー分布に従うの
従って、 2
.
1,
2
.
2節より1'=1の時の検定統計量は、

LG1iYi+ I
I
l j

GS1=~

、

y一 人 Y
土
川
之(
I
υ

また、 r
=2の時は、

川

;
;
1
;
J
:
巳
吋 )2)寸〕ドk
U
:
:
:
U

亭
2

Ul=
叫

αα

y

叫
イ
作
仲
,
,
[
悼
悼
[
匝
防
喜
む
(
い

‑205一

である

208.

と書き直すことができる。 2. 4GSl, GS2の性質 GS1 は、クラスター化された 2項データに対して、傾向性検定を行う場合の特別な場合と同一である。 また、 P iegorschや B a i l e rが提唱している Q L ‑ t e s tと競合するものである。一方、 GS2は umbrella typeの傾向性検定を行う場合に、高い検出力を持っていることが、 Erni‑Yanagawa論文のシミュレー ション結果から得られている。 また、 GS1, GS2 は、超過変動ポアソンデータについて分布を仮定しない点がこの手法の優れている点 であるといえる。 3 .SAS/IMLプロダクトを用いたマクロの構成 3 ̲ 1 注意 本プログラムは、 SASV ersion 8 . 2で作成したが、 V e r s i o n 6 ( R e l e a s e6 . 1 2 )でも問題なし吃思われる。 SAS/IMLプロダクトを用いた出力を整形するために、 RossB e t t i n g e rによる %printimlを用いて表 現している。このマクロの詳細については、 SASWebS i t e c o m / s e r v i c e / t e c h t i n呂 / o u i c k t i n s / n r intim̲ 1htm1 1 l t t n : / / w w w ̲ s目白 ̲ に記載されている。 3 . 2データセット定義 このマクロに渡すデータは、以下の形式とする。 DATAXXX; INPUTCOL1‑COL4; CARDS; o 10 100 1000 〆Dose*/ 8 1 6 1 7 2 〆Response 以下続く吋 RUN; 3 . 3 出力データ 出力データとして、以下を用意した。 出力項目 A ̲ O, A ̲ 1, A ̲ 2 D ̲ 1, D ̲ 2 GS1 GS2 PGS1 PGS2 説明 S c o r ev e c t o r ( 確認用) GS1(検定統計量) GS2(検定統計量) 1 ) 1 ‑ P r o b c h i ( G S ̲ 1, 1 ‑ P r o b c h i ( G S ̲ 2, 2 ) phu qL ハHv

209.

4 .データ解析 4 . 1Amesデータ 表 lで与えられた Amesデータについて解析を行った結果は以下の通りである。 0 . 1 6 3 A2= 0 . 1 7 8 3 3 . 2 3 5 7 A1= ‑ A0= 0 0 . 1 4 8 7 6 0 . 2 3 5 7 O .1 5 6 4 0 . 1 4 1 2 0 . 0 8 3 0 1 0 . 2 3 5 7 ‑ 0 . 0 9 6 8 ‑ 0 . 0 9 0 6 0 . 2 3 5 7 0 . 0 5 7 6 6 ‑ 0 . 4 8 6 3 0 . 2 3 5 7 O .1 6 6 7 7 0 . 4 9 9 6 8 0 . 2 3 5 7 ← D1= 2 4 6) [2 5 9 9 4 3 .1 ‑ 2 3 6 5 0 0 0 4 . 2 2 7 9 0 3 . 8 2 1 3 ‑ 3 0 4 4 6 一1 4 6 ‑ 1 6 3 4 6 2 8 7 7 5 4 5 6 0 5 6 . 6 ニ . 9 0 2 5G S ̲ 2= 8 . 2 5 0 8 5 G S1= 0 PG S1= 0 . 3 6 6 7 9 PG S2= 0 . 0 1 6 1 6 一方で、 SAS上で同様な解析を行う場合には、 MULTTEST プロシジャを使って 3 33 84 1 2 02 74 2 DATAA M E S ; 0,3 31 0 0,3 3 3,1 0 0 0 ; D OGROUP=O,1 D O1 = 1 TO 3 ; I N P U TR E S@ @ ; O U T P U T ; E N D ; E N D ; C A R D S ; 1 52 12 9 1 61 82 1 1 62 63 3 2 74 16 0 P R O CMULTTEST D A T A = T E S T ̲ M E A N ; C L A S SG R O U P ; T E S TM E A N ( R E S ) ; C O N T R A S T' L I N E A R ' 12 3456 ; R U N ; と指定することで、コロニー数の平均値が直線的かどうかを対比により検討することができる。 OBS t e s t var contrast valu巴 問A N R E S L I N E A R 1 0 3 2 S巴 4 1 4 . 5 9 0 n v a l 1 2 r a w ̲ p 0 . 0 2 8 4 7 4 結果としては、 MULTTESTの結果と GS2を用いた結果は 0 . 0 5以下となったが、 GSlは 0 . 0 5以 下とはならなかった。しかしながら、 MULTTESTを実行するためには、すべての用量で等分散性 を仮定しなければならないため、このままの結果を受け入れるのには問題がある。 従って、 .GSlは 、 MULTTESTプロシジャよりも誤判定が少ないと考えられる ・G S2は、非線形の用量反応性をうまく捉えている。 といえ、提案された統計量が現状の手法よりもうまく当てはめていることが分かる。 0 勺t ハHU ワω

210.

R e f e r e n c e l ) E n r iTriA s t u t iandTakashiYanagawa(2001).T e s t i n gTr endf o r CountDatawithE x t r a ‑ P o i s s o nV a r i a b i l i t y ,B i o m e t r i c s(掲載予定) 2 )柳 川 尭 ( 1 9 8 6 ) .離散多変量データの解析,共立出版株式会社 3 )浜 田 知 久 馬 (1999).MULTTESTQ&A , 第 1 8回日本 SASユーザー会研究発表会論文集 謝辞 当フ。ロクーラムの作成する動機付けを与えて頂きました、九州大学大学院数理学研究府柳川教授、および フ。ロクーラムのチェックを実施して頂いた、三菱ウェルファーマの積山様に感謝し、たします。 AppendixSAS/IMLマクロ 蜘a c r oe r n i ̲ y a n a (D A T A) ; "P ri n ti m lマクロを使用しない場合は、下をコメント アウ卜してください。 前イ安う場合 i 正、マクロがあるパスを指定してくださ 、、‑ i J .)・ 結i n c l u d e' D :¥xxx¥xxx半p r i n t l m l . s a s '; P R O CI M L ; S T A R TE Y (D A T A) ; / キ D E F I N I T I O N* / J = N R O I ' I( D A T A ) ;K = N C O L ( D A T A ) ; ;Y = D A T A [ 2 : J, J ; D=D A T A [ l,J i * F O RP R I N T水/ C D = C H A R ( D ) ;R D = C H A R ( t ( D O ( l,j ‑ l,l ) ) ) ; f e FI NI TI O NO FF L J N C TI O N S* / / *D / *D E FI N EYi +* / Y ̲ C O L=Y [ + J; / ¥ D E F I N EY + +キ/ Y ̲ A L L=S U M (Y) ; Y ̲ O N E=(Y = .) ; / *D E FI N EN令 A N DN i* / ;N ̲ A L L=S U M (N) ; N=Y ̲ O N E [ +,J Y ̲ B A R=Y ̲ A L L / N ̲ A L L ; 1 * '日A RO FY + +ホ/ D 一 日A R=D * t( N ) / N ̲ A L L ; / *B A RO FD * / / *D E FI NI Ti O NO FS C O r ' l EV E C T O R S点/ A ̲ O=j ( Kl , l ) / S O R T ( N ̲ A L L ) ; D1=t( D )ーD ̲ B A R *j ( K,11 ) ; 1 '1= D ̲ l井 非2 ; 1 '2= N *1 ' I1 ; N R ̲ D 1 = S O R T (1 '2) ; A ̲ l =D ̲ 1 / N R ̲ D 1 ; 1 '3 = ( Nれ ( A ̲ l )) * 1 ' 11 ; ̲ 2=( 1 ' I2 * A ̲ O ) / S O R T ( N ̲ A L L ) ; 1 '3 1 '3 ̲ 3=1 '3 * A ̲ 1 ; ' I1 ‑ 1 ' I3 ̲ 2 ‑ 1 ' I3 ̲ 3 ; D ̲ 2=1 1 '4=D ̲ 2桝 2 ; 1 '5= N * 1 ' I4 ; N R ̲ D 2=S O R T (1 '5) ; A ̲ 2=D ̲ 2 / N R ̲ D 2 ; / キ E N DD E F I N I T I O N本/ / *S O L V ET A Y 1,T . . . A Y 2* / T A ̲ l l =Y ̲ C O L * A ̲ l ;T A ̲ 2 2=Y ̲ C O L * A ̲ 2 ; 刊̲ l = ( ( Y ‑ Y ̲ B A R * Y ̲ O N E )榊 2 ) [ +,J ; / ( Y ij ‑ b a r Y i 2* / T W2 1 = A1 #非2 ; / ホ A 1] " 2 * / T W2 2 = A2 料2 ; / *A 2 j2 * ; ) ;A Y = j ( 2,1 , O ) ; V=S H A P E ( O22 J =刊一円T W ̲ 2 1; V [ l,l V [ 2,2 J =T W 一円T W ̲ 2 2 ; J =TW 一円 ( A ̲ l似 ̲ 2 ); V [ l,2 電 司 電 V [ 21 ]= V [ l,2 J ; A Y [ l J = T A ̲ l l ; A Y [ 2 J = T A ̲ 2 2 ; J ) ; T W ̲ 3=S O R T ( V [ l1 G S ̲ l =( T A ̲ 1 1 / T W ̲ 3 )料 2 ; G S ̲ 2=t ( A Y ) * I N V ( V ) * A Y ; P ̲ G S ̲ l =1 ‑ P R O B C HI ( T ̲ A Y 1電1); P ̲ G S ̲ 2=1 ‑ P R O B C HI ( T ̲ A Y 22 ); / 本 O U T P U T* / R E S E TN O N A M E ; 宅 *先頭で、 P R I N T I M Lマクロをコメン卜アウトしていれ t j'下の 4つ の ; R I N T I Mしをコメン卜アウトしましょう〈 率先 P 本代わりに、コメン卜アウ卜している部分をアクティ フしますー; 出P R I N T l I I L (A0A1A2¥f w = 7s p a c e s = l ) ; 出P R I N T l I I L (D ̲ lD ̲ 2¥f w = 7s p a c e s = l ) ; 児P R I NT l I I L (G S ̲ lG S ̲ 2¥f w = 7s p a c e s = l ) ; 児P R I N T lI I L (PG S1PG S2¥f w = 7s p a c e s = l ) ; / 本P R I N T ,**点** D A T A**ホネ料電 Y[ C O L N A M E=C DR O W N A M E = R DJ" '*牢*** S C O R EV E C T O R*判*制. A ̲ O [ c o l n a n 昨 ' A O ' J A ̲ 1 [ c o l n a m e = ' A 1 ' j A…2 [ c o l n a m e = ' A 2 ' J " D ̲ l[ c o l n a m eニ・ D 1 ' JD ̲ 2 [ c o l n a m 自 = 'D 2 'J * * 説 * ホ R E S U L T" T ̲ d y 1T ̲ . a y 2 "求*本牢*' ' T ̲ a y 1 = 'T ̲ A Y 1 ,' T ̲ a y 2 = 'T ̲ A Y 2 , 、 ./ F I N I S HE Y ; U S E& D A T A .; R E A DA L LI N T O̲ W ̲ D A T A ; R U NE Y (̲ W ̲ D A T A ) ; O U I T ; 9 6 ME N D自 r n l ̲ y a n a ; t ‑当屯 大 司 司 ‑ 2 0 8 当マクロについての連絡先: 藤沢薬品工業株式会社 開発木部臨床統計企画部大津洋 c ‑ m a i l: h i r o s h i ̲ o h t s u @ p o . f u j i s a w a . c o . j p

211.

日本 SASユーザー会 (SUG1‑0) SASシステム V9における統計機能の拡張 ( 1) 株式会社 SASイ ン ス テ ィ チ ユ ー ト ジ ャ パ ン 小玉奈津子 NewF e a t u r e so fS t a t i s t i c a lP r o c e d u r e s i nSASSystemV9 a p a nL t d . SASI n s t i t u t eJ Na t s u k oKodama 要日 次期メジャーパージョンとなるパージョン 9に拡張新規追加される予定の SAS/STATソフト ウェアの新機能の概要について紹介する。 キーワード:ノ tージョン 9 SAS/STATソフトウェア 新機能拡張点 1 はじめに SASシステムでは、咋年、一昨年とパージョン 6 . 1 2からのパージョンアップとしてパージョン 8( 8 . 1、8 . 2 ) を出荷してきた。その次期パージョンとして、パージョン 9という新規パージョンを }¥ージョンする予定である。本稿では、パージョン 9で拡張新規追加される予定の SAS/STATソ フトウェアの新機能の概要について紹介していきたいと思う。 なお、本稿は米国 SAS本社で開発中である SASシステム V9の β版に基づいて作成している。 f 4 なる可能性 ここで記載している内容が、米国または日本で E式にハージョンされた際の仕様とは 5 があるので、ご注意いただきたい。 ‑209‑

212.

2 新規追加プロシジヤ SASjSTATソフトウェアのパージョン 9において新規追加される予定のプロシジャは以下の通り である。 • MIプロシジャ ・MIANALlZEプロシジヤ 評価版として追加される予定の新規プロシジャは現在のところ次の 7つである。そのうち lつ は 、 PHREGプロシジャの拡張点を評価するプロシジヤである。 • POWERプロシジャ ・SURVEY 工OGISTICプロシジャ • ROBUSTREGプロシジヤ ・GLMPOWERプロシジヤ ・TPHREGプロシジャ ・SURVEYFREQプロシジャ ・DISTANCEプロシジャ また、新規機能の評価版として、複数のディスク CPUを並列的に使用して、処理を分散する「マ ルチスレッド」を以下のプロシジャが対応予定である。 • MEANSプロシジャ ( B a s eSASソフトウェア) ・GLMプロシジヤ .REGプロシジヤ ・ROBUSTREGプロシジャ ・LOESSプロシジヤ ・DMREGプロシジヤ •E n t 巴中市巴 M i n e r 4 . 2の(回帰分析)ノード 新規追加される欠損値を持つデータに対して、多重代入法を行う MIプロシジャ・多重代入法を . 2で評 行なったデータに対して分析を行なう MIANALYISプロシジャに関しては、パージョン 8 価版だったものが、製品版となった。このプロシジャに関しては、小野 (2000)の SUGI‑Jの論文 を参照していただきたい。 本章では、評価版として追加されるプロシジャについて、概要を紹介していく。ここで紹介す るプロシジャは評価版であり、製品版となる場合には、名称、仕様やプログラミングの文法等が異 なってくる場合があるので、ご注意いただきたい。 2 . 1 検出力と例数を計算するプロシジヤ SASシステムを利用して例数設計を行う場合には、現在まで SAS社が提供しているマクロプロ グラム、もしくは自身で作成したデータステップによるプログラムを利用する必要があった。 パージョン 8では、 SASjSTATソフトウェア等の機能を利用した GUIの「アナリスト」アプ リケーシヨンを利用して、次のの検定に対する検出力と例数設計が可能となっている。 • 1僚本 t検定とその信頼区間 ・2標本 t検定とその信頼区間 ・対応のある t検定とその信頼区間 ・l元配置分散分析 ‑210

213.

「アナリスト」プリケーシヨンでの計算は、独自のマクロプログラムを利用している為、再利用 するのには、多くの手聞が必要となる。 「アナリスト」アプリケーションの使用法については、 SASjSTATソフトウェアのマニュアルに 記岐されているのでご参照いただきたい。 }Iージョン 9に評価版として追加される POWERプロシジャと GLMPOWERプロシジャでは、 前述の「アナリスト」アプリケーションの例数設計の機能をプロシジャとして実装した形となる。 POWERプロシジヤでは、 t検定(対応あり、なし)の例数設計と検出力の計算を行うことが可 能となり、 GLMPOWERプロシジャでは、 l元配置分散分析に対する例数設計と検出力の計拝を行 うことが可能となる。 2 . 2 調査データに対する解析を行うプロシジヤ }Iージョン 8において新規追加された、調査データに対して標本抽出を行う SURVEYSELECT プロシジャ、標本抽出法を考慮した要約統計量を計算する SURVEYMEANSプロシジャ標本抽出法 'て、パージョン 9では、 SURVEYFREQ を考慮した回帰分析を行う SURVEYREGプロシジャに続 l プロシジャ、 SURVEYLOGISTICプロシジャ 2つのプロシジャが評価版として追加される。 SURVEYFREQプロシジャは、調査データに対し、 n元表や、クロス集計表を作成するプロシ ジャとなる。作成される集計表には、 FREQプロシジャと同様に、行や列や全体に対するパーセン トの値の表示される。この値は、他の調査データに対するプロシジャと同様に、標本抽出による重 l lJ出などの等しくない重みを みを考慮して推定し、標準誤差も計算される。クラスター抽出や層別 t 考慮した分散の推定を行うことも可能である。 また、分割表に対して重みを考 F 昔、したデザインベースの検定を行うことや、 2x 2表に対して重み を考慮したオッズ比や危険率、それらの信頼区間を計算することも可能となる予定である。 SURVEYLOGISTICプロシジャは、調査データに対して、ロジスティック回帰を行うプロシジャ である。大規模な原本調査を行ったアンケ トデータに対してロジスティック回帰を行なうには、 標本抽出法の違いによる重みを考慮した分析を必要する場合があり、 SURVEYLOGISTICプロシ ジャはこのような解析に利用することができる。 SURVEYLOGISTICプロシジャに閲する詳細に ついては、本年度の米国 SUGIでの An ( 2 0 0 2 )の論文をご参照いただきたい。 内ノ︼ 14 1

214.

2 . 3 距離を計算するプロシジヤ 距離行列は、保々な分析に利用される。 S ASシステムでも距離データを特殊データセット ( T Y P E = D I S主人 N C E )として扱い、多変 J l i解析に利用することが可能である。しかし、 S ASシステ ムでは、ま真似度や非煩似度といった距離行列を作成するプロシジャは用意されていなかったため、 距雌データは別に用意する必要があった。 ノtージョン 9の評価版として追加される DISTANCEプロシジャは、パージョン 6 . 1 2の時 代から「サンプルライブラリ」に提供されている距隣データを計算するためのマクロプログラム r ' i WISTANCEマクロ」をプロシジャ化したものである。 DISTANCEプロシジャを利用して計算 した距離行列を利用して、クラスター分析や、多次元尺度構成法などの分析を行なうことが可能と なる。 以ドに、 DISTANCEプロシジャを利用して距離データを計算し、 CLUSTERプロシジャを利用 してクラスター分析を行なうプログラム例を紹介する。 分析データは、ヨーロッパ 2 5ヶ国でタンパク質を 9種類の食品からどのくらい段取しているの かi W l定したものである。プログラム例では、国ごとのタンパク質の技取傾向について、 2 5ヶ国を ISTANCEプロシジャを利用してユーグリット距離を算出し、 分煩するために D ジャを利用してクラスタ一分析を行なっている。 プログラム例 l / ' ' ' ' デ タセ Y 卜の作成会合/ data Protein; length country $ 1 4 ; input Country $ RedMeat WhiteMeat Eggs Milk Fish Cereal Starch Nuts FruitVeg; datalines; Albania 1 由. 11 . 4 ~.5 8.9 ~.2 42.3 ~.6 5 . 51 . 7 Austria 8.9 14.~ 4.3 1 9 . 92 . 12 8 .由 3 . 61 .34 .3 Belgium 1 3 . 5 9.3 4.1 1 7 . 5 4.5 26.6 5 . 7 2.1 4 .由 以下省略 / ," DISTANCEプロシジャの実行合引/ proc distance data=Protein out=Dist method=Euclid ;/会会ユ クリット距離の計算付/ var interval(RedMeat‑‑FruitVeg / std=Std); i d Country; r u n ; /""距離デ タの出力士三/ proc print data二 Dist(Obs=1由); r u n ; ‑ : 21 : 2 ‑ CLUSTERプロシ

215.

作成された距隊データ(最初J の1 0オブザべーションのみ) ' F i r s t l~ observat工ons 工n せ1 e oUtPUt data s e t fromPROC DISTANCE' Alb日 工 a OBS Country Albania Austria Belgi可 n Bulgaria Czechoslovakia Denmark 7 E Ge口n a n y Austria Belgium Bulgar工a Czechoslovakia Denmark ~.~~由自由 6.12388 5 .941~9 2.76446 5.13959 6 . 6 1自由 2 6.39178 自.~~~~由 2.44987 4.88331 2.11498 ~. ~~由自由 5.22711 ~.自由~~~ 2.2133~ 3.94761 自ー自由~~~ 3.~1392 2.52541 2 . 1由2 1 1 6.~~8~3 3 .34~49 1 .8 7 9 6 2 2.56341 5 .4~824 自.~~~~白 2.72112 以下省略 CLUSTERプロシジャと TREEプロシジャの実行 j**CLUSTERプロシジャの実行*"/ proc cluster dataニ Dist method=Ward outtree=Tree noprint; id Country; run; /*"デンドログラムの作成付/ axis1 order=(由 to 1 by 1 , 1. 1); proc tree data=Tree haxis=axis1 horizontal; height ̲rsqー ; id Country; run; 作成されたデンドログラム C o u n tr y Albania Bulgaria R o m a ni a Yugoslavia Greece l t a l y PortugaI Spain Austria N e t h e rI a n d s S wi t z e rI a n d 8 e l g i u m W Germany 1r el a n d Fr a n c e U K Denmark Norway Finland S w e d e n ovaki a CzechosI EGermany P OI a n d USSR Hungary 1 . 0 0 . 9 EG e口nany O . B 0 . 7 0 . 8 0 . 5 0 . 4 R‑Squared ‑213 0 . 3 0 . 2 0 . 1 0 . 0 ~ .由自由自由

216.

2. 4 口バスト回帰を行なうプロシジヤ SAS 月M Lソフトウェアの計算ルーチンとしてのみ用意されていたロバスト回帰を実行するプロ 2 0 0 2 )の論文をご参 シジャが、パージョン 9の評価版として追加された。詳細については、泉水 ( 照いただきたい。 3 拡張点 パージョン 9で拡張が行なわれる予定のプロシジャは以下の通りである。 .FACTORプロシジャ ・ FREQプロシジャ ・ GLMプロシジャ ・ LIFETESTプロシジャ • NPARIWAYプロシジャ ・ PHREGプロシジヤ ・ SURVEYREGプロシジャ ・ SURVEYSELECTプロシジャ ・ GENMODプロシジヤ ・ LOGISTICプロシジヤ ・ SURVEYMEANSプロシジャ ・ TRANSREGプロシジヤ 本章では、 FACTORプロシジャ、 GLMプロシジャに追加された新機能について紹介する。 3 . 1 FACTORプロシジヤ SASjSTATソフトウェアの FACTORプロシジャでは、因子の回転法としてプロマックス回転 を指定した場合に利用する NOPROMAXNORMオプションが追加された。 FACTORプロシジャでは、最尤法 (METHOD=ML)により因子を抽出しプロマックス回転を行なう 場合には、回転前の因子に対して、正規佑(各行を、共通性 (communality)の平方根で割り、各列を、 絶対値の最大値で割る)を行ないプロマックス回転を実行している。正規化を行なう為、他のソフ トウェアでプロマックス回転を行なったものと結果が異なる場合があった。 NONPROMAXNORM オプションを利用すると、正規化を行なわないプロマックス回転を行なうことが可能となる。 3 . 2 GLMプロシジヤ GLMプロシジヤでは、多変量型の検定を行う際の p値を正確に計算するためのオプションが追 l (ラムダ) .H o t e l l i n g ‑ L a w l e y 加された。 MTESTニ EXACTオプションを指定した場合には、 Wilks, トレース.Roy's最大恨の検定に対して、正確な p値を計算できるようになった。また、 P i l l a iのト レースに対しては、いままでの近似法より、より正確な F分布にもとづく近似の p値を計算するこ とが可能となる。正確な p{直を利用して検定を行う場合には、第一種の過誤に対しでほぼ 5%の危 険率を守った検定を行うことが可能となる。それぞれの正確な p値についての計算方法は、次の論 文をご参照いただきたい。 2 1 4

217.

• Wilksの λ(ラムダ)について Lec( 19 7 2 ),Davis( 19 7 9 ) ・Pillaiのトレースについて:Mull r(1998) 巴 • Hotclling‑Lawley トレース Davis( 19 7 0 ),Davis( 19 8 0 ) • Royの最大根 (GreatestRoot)Davis( J9 7 2 ),P i l l a iandFlury( 1 9 8 4 ) MSTAT=EXACTオプシヨンを指定した場合、 Pillaiのトレースの検定は、近似の検定を出力す る点に、ご注意いただきたい。例題として、以下に GLMプロシジャを利用して、以下の発掘調査 のデータに対して多変量型の検定を行ってみる。 プログラム伊l /日漸近的な検定会会/ proc glm data=Skulls; class Loc; model Basal Occ Max = Lo仁 川 ounl; manova h=Loc; / 会 合 MSTAT=EXACTの 指 定 的 / manova h=Loc /MSTAT=EXACT; / , "ODS SELECTで必要な部分のみ選択する"*/ ods select MultStat; run; 出力結果 MANOVA Test Criteria and F Approximations for the Hypothesis of No Overall Loc Effect H = Type III SSCP Matrix for Loc E = Error SSCP Matrix S=2 N=3 M=由 Value F Value 日i lks' Lambda 1 >. 61 >143661 Pillai'5 Trace 自. 4471 >2843 Hotelling‑Lawley Trace 自. 58211 >348 Roy's Greatest Root 自. 35531 >891 > Statistic 皿 D F Nu Den DF Pr > F 自. 77 1 6 1 >. 61 >3 2 自. 8 6 1 >. 7 5 1 8 9 .1 >9由9 自. 6272 1 . 1 >7 9 1 >. 4 11 >9 NOTE: F Statistic for Roy's Greatest Root is an upper bound. NOTE: F Statistic for Wilks' Lambda is exact. MANOVA Tests for the Hypothesis of No Overall Loc Effect H = Type III SSCP Matrix for Loc E = Error SSCP Matrix S=2 M=由 Statistic N=3 Value P‑Value 日i lks ' Lambda 自. 6由143661 1 >. 61 >3 2 Pillai'5 Trace 由. 447由2843 1 >.5521 Hotelling‑Lawley Trace 由. 5821由348 1 >.6337 Roy's Greatest Root 由. 3553由89自 由 . 7641 ‑215一 1 >.5397

218.

検定結果を確認してみると、 W i l k ' sの Aは、デフォルトとなる漸近的な検定の NOTEに書かれ ている通り、正確なものとなっている。 Royの最大根では、漸近的な検定出力の p値と比較して、 正確な p値の値は大きくなっていることがわかる。 4 マルチスレッド }¥,ージョン 8までの SASシステムでは、ハードウェアが複数の CPUをもっている場合にも、 lプロセスに lCPUを利用する形をとっていた。パージョン 9より、マルチ CPUに対応した lプ ロセスを細かく(スレッド化)し、複数の CPUに演算処理を同時に投げ計算する、平行処理を行 なう機能がいくつかのプロシジャに追加された。 最初にマルチスレッド対応したこれらのプロシジヤは、大量なデータを分析する場合に計算時 聞がかかるプロシジャといってよいだろう。このことから、複数の CPUを搭載したマシンでマル チスレッドの機能を利用した場合、計算時間の短縮化が期待できる。 他のプロシジャでは、まだ 機能として追加されていないが、 ROBUSTREGプロシジャでは、 PERFORMANCEステートメン トというステートメントが用意され、演算処理を行なう CPUの数を制御することが可能となって いる。詳細については、 C ohen(2002)の SUJI27の論文をご参照いただきたい。 5 終わりに パージョン 9では、以上のような新機能・拡張点、が追加される予定である。傾向としては、よ り細分化した分析を行なうプロシジャやオプシヨンの追加があげられる。また、今まで、あまり考 慮されていなかったリソースを有効に利用し、演算処理時間の短縮化を計るといった試みもされて いる。 本論文は、 2002年 5月現在の公開されている情報を元に作成している。今後改善等がされるこ とも考えられる。 パージョン 9に関する情報が記載されている、オーランドで行なわれた SUGIの論文集は、下 記の URLにある米国 SAS社の WEBより(現在の所)得ることができる。 h t t p : / / w w w 2 . s a s . c o m / p r o c e e d i n g s / s ug i2 7/pr o c e e d2 7. pd1 6 参考文献 MauraS t o k c s,BobR o d r i g u e z,andRandyT o b i a s ( 2 0 0 2 )AP r e v i巴wofSAS/S工 人 : rV e r s i o n9 :Moving i n1 山 戸 q /︼ h u l

219.

R o b e r tCohcnandT r e v o rKeam巴y ( 2 0 0 2 )SASMeetsBigl r o n :l l i g hPerfonnanc巴 C O l l l p u t i n gi n SASA n a l y t i c a lP r o c e d u r e sSUGl27P r o c e e d i n g s TonyAn( 2 0 0 2 )P e r f o r l l l i n gL o g i s t i cR e g r e s s i o no nS u r v e yDataw i t ht h eNewSURVEYLOGISTIC P r o c e d u r 巴S UGl27P r o c e e d i n g s SASS y s t e l l lV e r s i o n9O n l i n eD凹 c U l l l e n tandO n l i n eh e l p(製作中)より抜粋 Lee, Y .( 19 7 2 ), " S o l l l eR e s u l t sont h eD i s t r i b u t i o no f W i l k ' sL ik c l i h o o dR a t i oC r i t e r i o n, "B i o l l l e t r i k a, 95,649 D a v i s,A.W.( 1 9 7 9 ),"Ont h eD i f f c r e n t i a lE q u a t i o nf o rM e i j e rGp, p O , OF u n c t i o n,andF u r t h c rWilk ぬ L i k e l i h o o dR a t i oC r i t e r i o n, "B iO l l l巳t r i k a,66,519‑ 5 3 1 . M u l l e r ,K .( 19 9 8 ),"ANewFA p p r o x i l l l a t i o nf o rt h eP i l l a i ‑ B a r t l e t tT r a c eUndcrHO, "J oumalo f C O l l l p u t a t i o n a la n dG r a p h i c a lS t a t i s t i c s,7,1 3 1‑ 1 3 7 D a v i s,A .W.( 19 7 0 )," D i f f c r c n l i a lE quationofH o t e l l i n g ' sG e n e r a l i z c dT2, "A nnalso fS t a t i s t i c s,3 9, 815‑ 8 3 2 .D a v i s,A.W.( 19 7 2 ),"Onl h eM a r g i n a lD i s t r i b u t i o n so f出eL a t e n tR o o t so ft h eM u l t i v a r i a t e B e t aM a t r i x, "B i o l l l e t r i k a,43,1 6 6 4‑1670 D a v i s,A .W.( 19 8 0 )," F u r t h e rT a b u l a t i o no fH o t c l l i n g ' sG e n e r a l i z c dT2, "C O l l l l l l u n i c a t i o n si nS t a t i s ‑ t i ω ,P a r tB,9,3 2 1‑ 3 3 6 . P i l l a i,K .C .S .andRury ,B . N .( 19 8 4 )," P e r c c n l a g cP o i n t so ft h eL a r g e s tC h a r a c t e r i s t i cRooto ft h e M u l t i v a r i a l eB c t aMa凶 x, "C o m l l lu n i c a l i o n si nS l a l i s t i c s,P a r tA,1 3,2199‑ 2 2 3 7 . TheA p p l iじa t i o nF i r s tE d i t o n( 1 9 9 9 ), 小野 ∞ 裕亮 ( 2 0 )M u i t i p l el m p u t a t i o nを行う V c r s i o n 8 eの評価版プロシジャについて第 1 9回日 本 SASユーザー会総会および研究発表会論文集 3 7 9 ‑ 2 8 6 泉水 克之 ( 2 0 0 2 )SASシステム V9における統計機能の拡張 ( 2 )第 2 1回 日 本 SASユーザー会 総会および研究発表会論文集 ‑217

220.

日本 SASユーザー会 (SUG1‑0) SASシステム V9における統計機能の拡張。) 株式会社 SASインスティチユ一卜ジャパン 泉水克之 NewF e a t u r e so fS t a t i s t i c a lP r o c e d u r e s i nSASS y s t e mV9 SASI n s t i t u t eJapanL t d . K a t s u y u k iI z u m i 要旨 SASシステムの最新パージョン V9における統計プロシジヤについて、テーマを絞ってその概略 を解説する。 ASjSTAT , S A S j E T S,SAS j IML , ROBUSTREG,ENTROPY キ ー ワ ー ド :S 1 はじめに SASシステムの統計機能は、 V8において旧来のプロシジャに対して大幅な拡張が行われ、ま た比較的近年開発された統計手法を新機能として取り込み、更なる発展を遂げている。また、 O D S ( O u t p u tD e l i v e r yS y s t e m )の機能と組み合わせて用いることにより、統計プロシジャを組み込 んだアプリケーションを開発する際の利便性の向上が図られている。 一方、 P r o j e c tM e r c u r y 'の名の下に V c r s i o n 9の開発が現在行われており、本年 4月に米国 F l o r i d a mOrlandoで開催された SASユーザー会 SUGI27'では、既に Version9の概要が発表され、また 幾つかの統計プロシジヤに関するセッションが聞かれている。 ASシステム V9で実装される予定の統計プロシジャから注目すべきトピックを取 この項では、 S り上げる。具体的には、使用頻度が高いと思われる S ASjSTAT 、S A S j E T Sソフトウェアカ通らそれぞ れ一つずつ新規プロシジャを取り上げ、また、他のプロダクトに関する情報も簡単にご紹介する。 本稿は米国 S AS本社で開発中である SASシステム V9の β版に基づいている。米国、または日 ‑219

221.

本で正式にリリースされた際の仕様とは異なる可能性があることをあらかじめご留意されたい。な お、 SUGI27'において米国 SAS本社の開発担当が発表した論文については、下記の WEBページ から入手可能である。 h t t p : / / w w w . s a s . c o m / r n d / p a p e r s / i n d c x . h t l l l l 2 口バスト回帰 (SAS/STAT ROBUSTREGプロシジャ) 2 . 1 回帰分析におけるロバスト性(頑健性) !こまつわる問題 G a l t o n( l8 2 2 ‑ 1 9 1 1 )以来の回帰分析 ( r e g r e s s i o na n a l y s i s )が 、 2 1世紀の現在においても統計解析 の基本的な手法として使用されていることは周知のとおりである。その理由としては、回帰分析と いうものが、理論的に美しくまた明快であると共に、恐らくはその計算が比較的容易であるという 点が挙げられるであろう。実際、基本的な行列演算によってパラメータ推定値等は得られるし、コ ンビュータがこれだけ進化した現代においてはその計算も(通常は)一瞬である。 しかしながら、その計算の簡便さの裏には誤差項が独立同分布かつ正規分布に従うなど、幾つも の「強い仮定」が存在する下で成立する議論であることに注意をする必要がある。 O L S )にはロパスト性が欠如している点である。具 特に問題となるのは、古典的な最小 2乗法 ( 体的には、データにいわゆる外れ値(異常値)が存在する場合、その有効性が著しく低下すること である。従って、外れ値に対して何らかの処理が必要となることも多い。この問題に対する対処法 としては様々な方法が考えられるがーもちろん、外れ値が発生した理由を考えることが第ーであ る 、例えば以下のようなことが挙げられよう。 1 .r 目」で確かめて外れ値を発見し分析から除外する SAS j INSIGHTを用いれば、容易に実行できる。しかしながら、変数が 4つ以上ある場合には 完全に視覚化することができず、データが大きなものであれば作業が極めて繁雑になる。更に は、どのような基準に基づいて外れ値を除外するかが問題となるであろう。 2 .r 影響度診断」を行い外れ値を発見する SASjSTATソフトウェアの REGプロシジャには、これを行うオプシヨンが存在する。また、 オプザベーションの重みを随時変更しながら (REWEIGHTステートメントの利用)、対話的 に分析を行うことが可能である。しかし、視覚イじできないという問題は発生しないが、前項よ り作業が更に繁雑となる。 いずれにせよ、「手作業」による外れ値の特定には色々な問題点があり、また分析者の主観が入 り込む余地もあるであろう。この問題に対する一つの回答がここでご紹介するロバスト回帰の手法 である。 960年代に Huberらの先駆的な研究まで遡るが、大きく発展したのは ロバスト回帰の原型は、 1 コンビュータが発達した近年と言って良いだろう。また、ロバスト性を考慮した分析は、回帰分析 に対してだけではなく、ロジスティックモデルに対する適用や、主成分分析、空間統計、判別分析 といった幅広い分野においても研究されている。 ( [ 7 ] ) ‑220一

222.

SASシステムにおいては、 SASjIMLソフトウェアの LMS(LcastMedianofS q u a r c s )、および 仁r S ( L e a s tT r i l l l l l l c dS q u a r e s )などの手法がサブルーチンを呼び出すことにより既に実行可能であっ た。また、 SASjSTATソフトウェアのドキュメン卜では、 NLINプロシジャの適用例として M 推定 (Tukeyの b i w e i g h te s t i m a t o r ) が紹介されている。 SAS シ ス テ ム V9 で は 、 ロ バ ス ト 回 帰 を 統 一 的 に 扱 う ROBUSTREG プ ロ シ ジ ャ が 評価版(巴 x p巴r i l l l e n t a l )のプロシジャとして追加された。以降でその概略をご紹介する。 2 . 2 ROBUSTREGプロシジャの概略 紙面の関係上、ロパス卜回帰の詳細について触れることができない。ロパス卜回帰の統計理論を 学ぶには、日本語の書籍としては蓑谷[1]がある。一方英語の書籍は多数存在し、また、 Antwerp 大学には Roussecuwが中心となって様々な研究を行っているグループがあり、 WEBサイトで論文 h t t p : / / w i n ‑ w w w . u i a . a c . b e / u / s t a t i s / )これらのものを適宜参照されたい。 を公開している。 ( ROBUSTREGプロシジャでは、大きく分けて 4つの推定方法が用意されている。なお、括弧の 中は、 ROBUSTREGプロシジヤで指定するオプシヨン名である。また、被説明変数、及び説明変 数の値をそれぞれ Yi' Xi、(ロパス卜)回帰パラメータを β、スケールパラメータを σ とおく。 (a)M推定 (METHOD=M) Huber由来の M 推定は、ロバスト回帰の手法の中では最もポピュラーである。理由としては、 理論の面では比較的簡単であり、計算量もさほど大きくないことが挙げられよう。 M 推定では、下記の式を最小化するパラメータを推定する。 l > (守主) pが 2 { ̲ 欠関数であれば、最小 2乗推定量に帰着されるが、 M 推定ではこの関数としてより広いクラ 0種類用意されている。(但し、この関数を変形したも スのものを用いる。適用できる関数形は、 1 のを指定する、といった手続きをする。) (b)LTS推定 (METHOD=LTS) これ以下の 3つの推定方法は、いずれも b r e は downv a l u c " ( b r 巴a kdownp o i n t,崩壊点)を勘案し たものである。 データの中で適当な数のオブザベーシヨンをピックアップし、それを適当な値に変更すると、パ ラメータ推定値を無意味なもの(無限大)にすることができる。例えば、通常の最小 2乗法に基づ いた線形回帰に関しては、たった一つのオブザベーシヨンに対して、その被説明変数の値を極めて 大きくした瞬間に、パラメータ推定値は発散する。 brcakdownv a l u eとは、どれだけのオブザベーシヨンの値を変更しても推定値がその意味を保つ ことができるかの、一つの指標である。この意味においても、線形回帰モデルはロパス卜ではない。 LTSは l c a s tt r iJllJlleds q u a r c s "の略である。具体的には、次 QLTS(θ )を最小とするパラメータ θ ‑221ー

223.

を推定する。 Q L T S ( ( ) )= l . > t i ) 但し、可l ) 壬も)…壬'i)壬…壬1,,)は、残差行 =( Yi‑ X;f )) 2を小さい方から j 慣に並べたもので あり、また hはある定められた範囲の値から選ぶことができる。すなわち、残差の大きい項を評価 の対象から外しており、その意味で I e a s ttrimmeds q u訂 e s "である。 n dVanD r i e s s e n ( [ 6 ] )による「高速 LTSアル なお、 ROBUSTREGプロシジャでは、 Rousseeuwa ゴリズム」を用いている。 ( c ) S推定 (METHOD=S) o h a iによる研究が最初である。これは、前記の LTS推定より「有効 S推定は、 Rousseeuwと Y 性」が高いという傾向がある。 (d)MM推定 (METHOD=MM) Y o h a iが発表した M M推定は、前記の LTS推定(または S推定)と M 推定の方法を組み合わせ たような方法で、 S推定より良い性質を持つと言われている。 以上のロバスト回帰の方法は、 REGプロシジャを用いた通常の回帰分析と比べて、アルゴリズ ム上いずれも長い計算時聞を必要とする。この問題に対し、 SASシステム V9で実装された計算の o h e n [ 4 ]を参照されたい。 「パラレルイじ」を適用することが可能である。詳細は、 C ROBUSTREGプロシジャの構文は以下の通りである。 PROC ROBUSTREGく options > BY variables ; CLASS variables ; ID variables ; MODEL response =く effects> く / options > ; OUTPUTく OUT=SAS‑data‑set > く options> ; PERFORMANCE く options > TEST 'label' effects WEIGHT variable ; RUN; ROBUSTREGプロシジャの構文は、 REGプロシジャのそれと似通っている。但し、質的変数も 説明変数として指定できるので、 CLASSステートメントが存在する。また、 PERFORMANCEス テートメントにおいて、使用する CPUの数を設定できる (LTSや S推定、及ぴ M M推定の初期値 を求めるための LTS 、S推定に対して有効)。 2 . 3 ROBUSTREGプロシジャの実行例 この項では、 ROBUSTREGプロシジャの簡単な実行例をご紹介する。なお、 C h e n [ 3 ]では、解説 付きでより多くの例が紹介されている。 q ︐ ︒ つ ム ︐

224.

以下の例では、 1 0 0オブザベーシヨンのうち 1 0個の y方向への外れ値が存在したデータを乱数 で宝成したものを使用している。 ROBUSTREGプロシジャでは M 推定を行っており、比較のため に REGプロシジャによる最小 2乗法に基づく回帰も行った。 data a ; do i=l to 1~~; x=rannor(12345); 巴= rannor(l2345); if i > 9~ then y=l~~ + 2目安巴; 巴l se y=Hl + 5 合x + 3 合 巴 ; output; 巴n d; run; /付川村川会古川村 REGプ ロ シ ジ ャ , ' ( , ' , , ' , 付叫す判官古川/ proc r巳9data=a; mod巳1y = x ; run; /村町村川付先 ROBUSTREGプロシジャ刊日付先古川付/ proc robustreg dataニam巳thod ニm , mod巳1y = x / diagnostics; r u n ; ' j r 上記の ROBUSTREGプロシジャに対して、下記の出力が得られる。前半は、データの概要、及 びロバスト回帰によるパラメータ推定値の出力である。 Th 巳 R OBUSTREGProcedur巳 Model Information Data Set D巳P巳nd巳nt Variabl巳 Numb巳r of Ind巳p巳nd巳ntVariabl巳s Numb巳r of Observations Method WORK.A Y 1 1~~ M Estimation Summary Statistics Q1 Variabl巳 x M巳dian ~.7823 5.424~ y -~.2~41 1~.966~ Q3 ~.5~57 14.~115 Mean -~.1964 19.5577 Standard Deviation ~.9142 32.639~ MAD ~.8988 7.1644 Param巳t巳r Estimat巳5 Par訓 巴 t巳rDF Estimat巳 Standard Error L wRU 吋m 唱 4・n白m u ‑‑‑ r o ‑ ‑ 4・ '4nkunku 'l‑ 晶 mwRJ司J 唱 Tム141 十 目 ︑ 巳 D 巳寸ム c re xqu ta n c Tよ ~. 3 4 1 2 ~. 3 666 95% Confid巳nc巳 Limits 9.4955 5.~995 Chi‑ Square Pr > ChiSq 887.53 6.5366 251.84 1~.8329 く .~~~1 く .~~~1 MODELステートメントおいて DIAGNOST1CSオプションを指定したので、外れ値に関する情 報が次に出力される。宝成した外れ値が正しく報告されている。また、最後に適合度に関する出力 が行われる。 n z J ワ ム ワ ム

225.

Diagnostics Robust Residual Obs 31 .4837 27.3328 .4349 31 1~~ 24.148~ W‑w‑x ・対 AX‑X 合 会 合 会 91 9 2 9 3 94 95 96 97 98 99 Outlier 27.59~5 26.9633 25.27~~ 28.7295 19.4965 32.438~ Diagnostics S 川 町n ary Observation Type Proportion Outlier ~. 1~~~ Cutoff 3.~~~~ Goo也1巳ss‑of‑Fit Statistic R‑Square AICR BICR Deviance Valu巴 ~. 47 93 127.2165 134.2~48 1843.918 最後に通常の最小 2乗法に基づく線形回帰モデルと M 推定を用いたロパスト回帰モデルの比較 を行った。点が各オブザベーションを表している。また 2本の直線のうち上のものが最小 2乗法、 下が M 推定に基づくものである。 , 1 4 . . . ・ ‑ ‑ 1 ・ . ・ 1 2 0 , ‑ ; . 1 0 4 " 1 お E , 4 お 寸 吋 一τ~_. E 2 最小 2乗法による結果は、外れ値の影響を受けて上に引っ張られてしまっていることが明らかにわ ‑224

226.

かる。一方、 M 推定による結果は、ほとんどのデータ点の保子を正しく捉えている。 3 一般化最大エントロビー ( G e n e r a l i z e dMaximumEntropy ,GME) に基づいた時系列解析 (SAS/ETS ENTROPYプロシジャ) 3 . 1 エントロビーの概念 「エントロビー」の概念は、自然科学の分野では極めて重要なものである。 ENTROPYプロシ J)と直接関係するものではなく、 ジャで言う所の「エントロビー」は、熱力学(熱力学第 2法見 I S h a n n o n ( [ 8 ] )の「情報エントロビー」に基づく理論である。 ある事象が起こりうる状態が G い a2 ・・・・ ~an の 11 個の要素からなる有限集合 A とし、それぞれの 起こる確率を P=( P j )( j=1 ,2, . . ., 1 1 ) とすると、この組 ( A,p)に対するエントロビーは ー エ 円 log(pj) で定義される。このエントロビーは、 P l =P2 =… =pn=jのとき最大となるが、この状態は Gい a 2・ ・ ・a l l のどれが起こるかわからないという意味で「最も不確定性」が高いと言える。 このエントロビーの理論を基にして、最適なパラメータを推定する手法が iGMEJである。 V9 で評価版として追加された ENTROPYプロシジャでは、この GMEに基づいた分析を行うことが できる。以下では、その一つの例をご紹介する。 3 . 2 ENTROPYプロシジャの応用例 GMEの応用範囲は非常に広い。後々な例については、 ENTROPYプロシジャのドキュメントや Golanらによる書籍 ( [ 5 ] )を参照されたい。 (ENTROPYプロシジャは、 [ 5 ]を基にして開発された と思われる。) この項では、 Markov連鎖の推移確率行列を推定する方法をご紹介する。具体的には、推移確率 行列と初期値を基にデータを作成し、それを ENTROPYプロシジャを用いて分析して、少ないデー タから適切な推定値を得られる場合があることを示す。 行列 P= (pρlsi,js5 を状態空間が 5つの元からなる Markov連鎖の推移確率行列とする。すなわ i j三 Oかっ L ] = lP i j= 1とする。ここでは、行列 P、及び(時刻 Oにおける)初期状態 πが次 ち 、 P の形で与えられていることを仮定しよう。 ハU ︑ ︑ 目 目 目 目 ︐ ︐ r ヲ& ー ハU ヴん J ハU ヴん ︑ 介ハU J''a'a ハU ︑ ︑ 一 一 π 1 0,2 0 . 4 0 . 0 0 . 1 0 . 3 1 0 . 1 0 . 5 0 . 2 0 . 1 0 . 1 P=1 0 . 1 0 . 1 0 . 6 0 . 0 0 . 2 1 0 . 0 0 . 0 0 . 1 0 . 0 0 . 9 ¥ 0. 3 0 . 2 0 . 1 0 . 2 0 . 2 次のプログラムは、上記を基に時刻 1 , 2,3,4における状態をシミュレートしたデータを 作成し、 ENTROPYプ ロ シ ジ ヤ を 実 行 し た も の で あ る 。 な お 、 デ ー タ セ ッ ト t c s tには、各 2 2 5

227.

時刻直前の状態が変数 x l から x 5に 、 各 時 刻 の 状 態 が 変 数 y lか ら り に 入 っ て い る 。 proc im ユ ; /台推移確率行列台/ 巴 r u p K 臼 ・ 占 ヰ ヰ ヰ ヰ ヰ 山 251985173299292BBmug‑98426 66481818775885214188879B77 5683818642591233388723158 u m ω ﹃/ ウF U 1 4L L ウF b 広U R U 1ヰm u m ω 広U﹃/L b4m ウF b F b m u m uL ウ 司 dL ウm ‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑ m u m u m u m u m u m u m u m u m u m u m u m u m u m u m u m u m u 11m u m u m u n u m u n u ヰ ヰ ヰ 内同 J Q J R U 1ヰ4 4二4 司d R u p b 司d 1ヰQ 内 1ム 8pb4741ヰ47FbRUQJフh B128888794891BBBGJ 一‑8886146 2185B249282382289EEB48996 2BB448923B62993 19735ヰ4自B27 司 円 1ヰウ 円ヨL ウm ﹃ 1ヰ ﹃/L ウ 司 ご ︿ ﹂d u m w ‑ E U E U 4ゥ 3 w 円ヨ/ 1ヰE ウ L L L 1 468 28 品 川2384BB28142214842214 ・ ‑‑mu‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑ω ‑mω m umωmumwmw mwmumωmununumωmumωmωmununununu JL ﹁n E ‑ フ ﹁2 ﹁2 34Jb1ヰJ 34Jbt今 & 司d4Fbt今 & 司d45 =34JbtムJ xx xxxxx x xxxx x xxxxxxxxxxxx ・・・・・ ︐ ームーム ﹁ Jh ﹁ J J J J 44444JbFbFbRJFb 1ヰ ー ム ー 今 &Jh ﹁ Jh ﹁2 3J ︿ ﹃ ︿ ﹃ ︿ ﹃ ︿ ﹃ V J V J V J V J V J V J V J V J V J V J V J V J V J V J V J V J V J V J V J V J V J V J V J V J V J .•........••...... v o ︑ r a m +L 5 J /巴 ・ ' +L ヤ =5 u‑ 円以巴 TiE τ d・ N c・ ' pty o n1 門 yrl ‑i ノ 4ロ ・ VJ EyK ヨtム ︑ ︑r u ︑ ︑ て は X 7a x H ‑ J+L‑ /女データセッ卜への出力会/ val=('yl':' y S ' )1 1( 'xl':'xS'); create test from z[colnam巴=valJ; append from z ; quユt ; Don ‑ M rmu /rp r Information 工ndex Estimat巴 Variabl巴 ~.1 ~.2}; ~.2 ~.3 x={~.2 ~.3 , ~.1 , ~.2 , ~.9 , ~.2}; ~.1 ~.1 ~.~ ~.~ ~.2 ~.4 ~.~ ~.S ~.2 ~.1 ~.6 ~.~ ~.1 ~.2 ~.1 p={~.2 ~.1 ~.1 ~.~ ~.3 /合初期値合/ /会データの作成会/ do i=l to 4 ; ; y=x六p ); z=z//( y11x x=y; 巴n d; 推移確率行列の推定値に関する出力は下記の通りである。 yn.xm(例えば y 3 . x 4 )は、状態 m ( 状 態4 ) から状態 n(状態 3 ) へ変イじする確率を表している。 GME Variable Estimates つ & phu qL

228.

推移確率行列の成分は 5x 5=おあり(本質的には 20)、データ数が 6個以上ないと通常は推定 できない。ところが、上記の ENTROPYプロシジャは、 4つのデータを基にして概ね良い推定値を 出力することができた。(但し、常にこのように良い結果が得られるわけではない。) 4 その他の拡張点 SASjSTATに関する新機能、拡張点は、小玉 ( [ 2 ) )が詳しい。ここでは、 SASjETS、 SAS 月M L 、 及び SASjORソフトウェアに関する新機能を簡単にご紹介する。 1 . SAS 厄TS ( a ) 関数 金融、財務に関する新しい関数が幾つか追加された。 ( b ) ARI恥1Aプロシジャ OUTLIERステートメントを用いて、時系列の中の「外れ値」を検出することが可能に なった。 ( c ) MDCプロシジャ 多項離散選択モデルを扱うことができる MDCプロシジャには、パラメータに制約条件を 、及び RESTRICTステートメントが追加された。 与える BOUNDS ( d ) MODELプロシジャ SMM(SimulatcdMethodo fMoments)による当てはめを行うことが可能になった。 ( 己 ) UCMプロシジヤ UnobservedCompon 巳n t sMod巳lに基づく時系列解析がサポートされた。 ( f ) X12プロシジヤ 米国センサス局が研究、開発を行っている季節調整法 X12‑ARIMAの最新パージョンに 対応した。更に、幾つかの収束基準の設定法が追加されている。 ( g ) 時系列予測システム カスタムモデルとして、 F a c t o r e dARIMAモデルが追加された。 2 . SAS 月ML ( a ) 1"遺伝的アルゴリズム」の実装 いわゆる「遺伝的アルゴリズム (GA)J を用いた最適佑を行うことができるサブルーチン が、評価版の機能として加わった。基本的には、問題自体をユーザー側で逐一定義する必 要があるが、巡回セールスマン問題 ( T S P )を解くサブルーチンはあらかじめ与えられて いる。 ( b ) 行列に対するソート SORT 、及び SORTNDXサブルーチンを用いることにより、行列を指定した列の値に関 してソートすることができる。これら 2つの違いは、 SORTサブルーチンは行列をソート 後の行列で置き換えるが、 SORTNDXサブルーチンはインデックスのみを作成する。ま た 、 UNIQUEBY関数と併用すると、山1 Lプロシジャの中において SORTプロシジャで Ja 門 つム ん つ

229.

NODUMKEYオプションを指定した結果と同様のものを得ることができる。 3 .SASjOR ( a ) 内点法 内点法は、従来の単体法(シンプレックス法)より短い時間で最適解を求めることができ 2次最適 ると一般に言われている。 V9では、 INTPOINTプロシジャに内点法を用いた 1 イ G Jを行う機能が実装される予定である。 ( b ) 最小 2乗解 大規模問題を高速なアルゴリズムで解く需要が高まってきているが、最小 2乗問題をより 短い時間で解くアルゴリズムに基づいたプロシジャが、新たに評価版として追加される予 定である。 5 終わりに SASシステムの統計プロシジャについては、今後も様々な機能の拡張が予定されている。また、 米国 SASI n s t i t u t eでは追加すべき新機能をユーザーからの投票を募り、 ISASwarcB a l l o l j という タイトルで毎年発表しており、集まった意見を反映する努力を行っている。 SASの統計機能をご利用されている際に、色々とお気づきになられる点も多いかと思います。更 なる統計機能の発展のため、ご意見、ご要望をお閣かせください。 参考文献 [ 1 ] 蓑谷千恩彦 ( 1 9 9 2 ), 1 言十量経済学における頑健推定」 ∞ 多賀出版 [ 2 ] 小玉奈津子 ( 2 2 ), ISASシステム V9における統計機能の拡張(1) J 第 2 1回日本 SAS ユーザ一会総会及び研究発表会論文集 ∞ [ 3 ] Chen,C . ( 2 2 ), R o b u s tR c g r e s s i o nandO u t l i e rD e t c c t i o nw i t ht h eROBUSTREGP r 凹 c ‑ d u r e ", P r o c e e d i n g so f / h eT w e n / y ‑S e v e n / hA n n l l a lSASU s e r sG r o l l pI n / e r nσ/ i o nσ1C o n f e r e n c e, C紅 y,NC:SASI n s t i t u t eI n c . ∞ [ 4 ]Cohen,R .A. ( 2 2 ), SASM 巴 巴t sB i gl r o n :HighP e r f o n n a n c eC O l l l p u t i n gi nSASA n a l y t i c P rc にe d u r e s ", P r o c e e d i n g so f/ h eT w e n t y ‑S e v e n l hAnnu σ1 SASU s e r sG r o u pI n / e m σl i o nσ1CO/l‑ f e r e/lc e,Cary,NC :SASI n s t i t u t eI n c . [ 5 ] Golan,A . ,J u d g e,G .& M i l l e r ,D . ( 19 9 6 ) M a x i l l l u l l lE n t r o p yE c o n o l l l e t r i c s :R o b u s tE s t i l l l a ‑ t i o nw i出 L i l l l i t c dD a t a ",J o h nWiley& Sons,C h i c h c s t er . [ 6 ] Roussccuw ,1 ' . 1 .andVanD r i c s s e n,K . ( 19 9 9 ) C O l l l p u t i n gLTSR c g r c s s i o nf o rL a r g eD a t a S e t s ", T e c h n i c a lR e p o r t,U n i v c r s i t yo fAntwerp [ 7 ]R i e d c r,H . (巴d ) ( 19 9 6 ) R o b u s tS t a t i s t i c s,D a t aA n a l y s i s,andC O l l l p u t e rI n t c n s i v cMcthαls I nl Ionoro fP c t c rI ‑ I u b c r ' s60出 B i r t h d a y ",S p r i n g c r . [ 8 ] Shannon,C .E . ( 19 4 8 ), A l l l a t h e l l l a t i c a lt h c o r yo fc O l l l l l l u n i c a t i o n ",B e l lS y s l e l l l1 詮c l l I li c a l 1011l 7 1a 127,3 7 9 ‑ 4 2 3,6 2 3 ‑ 6 5 6 . ‑228

230.

日本 SASユーザー会 (SUG1‑0) ロジスティック回帰における対応のあるデータ分析 深津武志 L o g i s t i cR e g r e s s i o nf o rMatchedP a i rData T a k e s h iFukasawa 要旨 対応のあるデータを分析する方法として、 p a i r e dt ‑ t e s tがある。この方法では、各層ごとに観 浪 1 1 値の差を算出し、この差を元に検定を行うことになる。しかし、 p a i r c d‑ tt c stは観測値が正規分 布にしたがうもしくは近似していることを条件としているので、応答観測値が Oか 1というような 2項の時はこの検定を行うことはできない。この場合、条件付きのロジスティック回帰を行うこと によって、分析することが可能である。この分析をより簡単にできるようにしたのが、 LOGISTIC プロシジャにおける追加機能の STRATAステートメントである。 この論文では、ロジスティック回帰の基礎的な理論に加え、条件付きロジスティック回帰の説明 を行い、 LOGISTICプロシジャにおける STRATAステートメントの使い方などを紹介する。 キ ー ワ ー ド :LOGISTICプロシジャ、条件付き分析、 STRATAステートメント 1 はじめに 1 . 1 P a i r e dデータの分析 統計手法の基本的なものとして、 2原本を比較する t検定があります。よく使われる t検定には 3通りありますが、その内の 2つは 2標本が独立である場合に使われます。これに対し、 3つ日の 方法は、 2標本間に対応がある場合に用いられ、その考えは、対応のあるデータ聞の差を算出し、 l 標本のデータに要約し、その差が Oであるかどうかの検定を行います。これは、モデルとして 〆 ) l ' t ︑ 叶~: ) -N(( ム)ぺ~ ~))日立 i= l.....1l ︼ η/ n同 d q/

231.

を用いた場合の Ho:O =0に対する一様最強力不偏検定 (UMPU n b i a s e dT e s t )として求めることが できます。 (Lehmann, E .L . ( 19 8 6 ) [ 3 )) この検定方法は(1)のモデルからもわかるように、正規分 布を仮定できる連続変数を用いた場合の方法であり、応答変数が 2項 ( 0かりである場合には、適 していない方法となります。しかし、 2つのオプザベーションの差を取り、 l変量に減らし、検定 を行うという考えを 2項応答変数のデータにも応用することができます。 この論文ではまず、 2項応答変数に対する分析方法としてのロジスティック回帰を紹介します。 atchedP a i rデータに対するロジスティック分析につ そのあと、条件付き分析の一つの例として、 M いて詳細に説明します。この際、パージョン 9における SASプログラムの例として、 LOGISTIC プロシジャにおける STRATAステートメントと EXACTステートメントを紹介します。 1 . 2 ロジスティック回帰モデル 2項モデルの場合、応答変数民(i= 1 , ' ・ ., 1 1 )は 2つの値 ( 0, 1 )のどちらかを取るとします。さら に共変数ベクトルを X i= ( 1 , Xi[γ・ ・, X i p ) '、パラメータベクトルを β =伊0, β1, . . ., β' p ) ' とします。 さらに π i=P r(Y [ X i )を応答確率とすると、 2J 頁分布に対するモデルは η i=g(π i )=x ; sとして i= 1 定義されます。 SASjSTATソフトウェアにおける LOGISTICプロシジャでは、 2項応答のデータ に対しては、単調かっ微分可能な g関数が 3つ用意されています。デフォルトではロジツト関数 g ( π i )= l o g ( π ; /(1‑7 ri ) )を用います。これは 2項分布における自然リンク関数であり、共変数の効 果に対してオッズ比を用いることによって説明がしやすいという利点があります。他に指定可能な g関数としては、プロビット関数 g ( π i )=φ 一1( π i )と補対数対数関数 g (π i )= l o g (‑ l o g( 1 π i ) )があ ります(一般化ロジット回帰では一般化ロジットも指定可能)が、以下では、 g関数にロジットを 用いるとします。 最尤法を用いて、パラメータ推定値を求める際、尤度を求める必要があります。ロジットをリン i、は ク関数にした場合、 i番目のオプザベーションによる尤度への寄与、 L ん = ( 叫β)) y t ( I I ) l ( ; x1 1)ex州 = J¥ J ¥ 月 e x p { x ; s l+1 c x p { x ; s l+1 e x p { x ; s l+ βj ( 2 ) として求められます。尤度 Lは、各オブザべーシヨンが独立しているため、これらの L iを掛け 合わせることによって、 L= n;~l L iとして得られます。この尤度 L を最大にするパラメータの yとし、最尤推定量とします。この際、実際のサンプルを元にして最尤推定量を算出した 値を s ν となり、 SASアウトプットに出力されます。この最尤推定値を求める上で、 値が最尤推定値 β LOGISTICプロシジャは反復重み付き最小 2乗法(lt e r a t i v 巴l yRew巴i g h t c dL c a s t ‑ S q a u r c sA l g o r i t h m 又は F i s h c r ‑ S c o r i n gMcthod)をデフォルトのアリコリズムとして用い、 TECHNIQUE=オプション ‑230一

232.

で NEWTONと指定することで、 Newton‑Raphson法を用いることもできます。この 2つの方法は 最尤推定値として、同じ値を算出しますが、それらのパラメータ推定値に対する共分散は、同じと は限りません。これは、 F i s h e r ‑ S c o r i n gでは応答変数の分散共分散に期待値を取った行列を用いる ewton‑Raphson法は期待値をとる前の値に観測値を代入した行列を用いている違いに のに対し、 N よります。 上記のように最尤推定値 Aを求めた後、それらの推定値を検証・説明する必要があります。推 2 検定を用いて行っています。推定値の検証が済ん 定値の検証は LOGISTICプシジャでは Waldx だ後、パラメータ推定値の説明を行う必要があります。 j番目の説明変数に対する説明を行う際、 オッズが頻繁に用いられます。 i番目のオブザべーシヨンのオツズは、 o dd p(x;s)として求め i=巴x られます。さらに、他の変数に変動がないと仮定した上で、 j番目の説明変数の値が l単位増加し たとします。その結果、 l単位増加した後のオツズは oddJl=口 p (利点+あ)となるので、 l単位増 加した時のオツズ比は o d d ; l / o d d p ( I 3 j )となります。更に LOGISTICプロシジヤでは UNITS i=巴x ステートメントを用いることによって、 l単位の変イじではなく他の増加!分に対するオッズ比の変化 を出力することもできます。 2 条件付き分析 2 . 1 MatchedP a i rにおける条件付き分析 MatchedP a i rデータに対する分析法を用いて、条件付き分析を紹介します。 2つのオプザべー シヨンに対しある基準を用いてぺアとし、そのようなペアが H あるとします。以下ではこのぺア を層 (STRATA)と呼ぶことにします。各層において、オブザベーションに異なる処理 ( T r e a t l l l e n t ) を施すとします。その後、各オプザベーションにおいて、ある特定の事象がおきるかを観察し、応 答変数の値とします。 i jは、試行回数 上記のようなデータに対し、次の統計モデルを当てはめるとします。応答変数 Y 1 1小成功確率7r i jの 2項分布にしたがうと仮定します。この時、 πijは ( 3 )の式によって定義しま す 。 ! O g i t ( j )= α i+s X i j+γIZ i j 7 ri ( 3 ) ここで, i ( =1, ' ・ .,H)は i番目の層 (STRA1A)を表し、 j ( =0,1 )はどの処理 ( T r e a t l l l e n t )かを表し ます。以上より、 ( 3 )式の7ri j を用いてのロジヅ卜モデルは、層 ( STRATA)に お け る 効 果 肉 と 処 理( T r e a t l l l e n t )における効果 βによるものとなります。この際、どの処理を行ったかは変数 Xij =j によって判別するものとし、共変数ベクトルとして Zij とそれに対応するパラメータベクトル J v 1ょ ︑ っnノ臼

233.
[beta]
γ を含むものとします。このモデルに対し、一般的なアプローチを行って、全てのパラメー夕、

。=(
α
1,
'
・ 1αH,
β,
y
'
)
'、に対して推定を行うと,標本数 (
s
a
l
l
l
p
l
e
)を多くするにしたがい、推定す
べきパラメータの数も増加する傾向にあります。これは、標本数を増やすにしたがい,層の数も増
え,各層の効果をそのたびに推定する必要がでてくるからです。
条件付き分析では,各層における効果はあり、層間での遣いはあるものと仮定します。そのた
め、処理効果の有無を検証する際、層間での違いがあることを考慮する必要があります。これは乱
塊法において,通常ブロックによる効果はあるとしながらも、その検証は行わず、ブロックの差を
考慮した上での処理 (
T
r
e
a
t
m
e
n
t
)の検証を行うこととなります。

πは
、 (
3
)式によって定義されているので、 i番目の層における尤度関数、 L
i、は以
確率モデル υ
下のように求められます。
L
i=Pr(Y
l,
Yi
i
O
[
X
i
l,
Xか Zil
>Zの
)
i
1=Yi
O=Y
=

~Zij川
z
自
削肌
(CCCω
訓仇
:;:0
川j北~)沢礼)(比(Iし :ごα:;::::::;:
工に;;二::::::ココユ丸山
;7:二二川
J:LLリ,、
)
句
'
0
)

い

x
ι
L
;
ρ
W
ふ
ん
=
イ
│自川肘酢
C
C
C
ω
;
J 1+♂
山
比(し

(
4
)

川
Xi
F
'
Y
Y
'
Z
L
i
j
j)
山
円
〆
川
川
'
川
げ
円
巧
叩

i
c
n
tS
t
a
t
i
s
t
i
c
s
)であること
, はパラメータ α
この関数よリ、 Yi
2に対する十分統計量 (Su伍 c
O三 Y
1+Yi
i

がわかります。このため、条件付き分析は Y
i
.の分布を求めた後、条件付き尤度を求めることにな
.の離散分布は
ります。まず、 Y
i

Pr(Y
Y
i
.
[
X
il>X
Z
i
O
)
i
O,
Z
i
l,
i
・=

LPr(民 =k[Xil X ZilZiO)Pr(YiO=Yi.‑k[Y =kXi XiOZil

=

1

,i
Q
,

,

i
l

, l
>

, ,ZiO)

珂
k
ε
J

L
v
y
z
i
l
)
1
1
1
)
仏)
=
山 C+eα
x exp{y午向 +(
kXi
)
X
i
O
)
s+γ'(Zi
)k+ZiO(
Yi
l+(Vi. ‑ k
・

k
)
)
)

(
5
)

として与えられます。上記での集合ヌはヌ=(
i
n
(
l
l
i
O,
l
i
)
)
三 i$ m
Y
i
.
)
)として定
iE N:maX(O,
Y
i
.‑I
義します。(Nは非負である整数の集合を表すものとします。)以上より合計変数 Y
i
.による条件付
き尤度関数は以下のように求まります。
Y
.=Y
i
O二 Y;
L
iニ Pr(Y
i
l =Y
o[
i
i
・
)
i
l
'Y
ij
'
i
j
)
)
(
l
:}
)
=
OZ
α)(~:~) 叫 {(l: }=oY内 )ß +ダ

l
(
l
:kEJII
刈
k;

(
6
)

3
この条件 f
付寸き分布に ま
はα
l
町I パラメ一夕カが 含まれていません。つまり、この条件付き分布を用いる

ことによって層による影轡を考慮、した上での分析を行えます。 L
卦け合わせることによって尤
iをJ
度閣数が以下のように求まります。

2
3
2

234.

( : ;) C ; ){(L}~oY Xij)s+ダ (L}~O 町Zi旬グy川 = 口 ん い = 口 l t=lZu(T)( ど れXp{(kXil+(Yi.‑k)X β+γ(川 +Zi似 一 的 )) 叫 j リ i Q ) 1 ニ 日。)(::) . L. L × 口p { ( . L . L川 Y i j X i j ) s+y ' ( ( 7 ) Z i j Y i 条件付き分析では ( 7 )の尤度関数を最大にするパラメータの値 ( s ,y )を Newton‑Raphson法に よって推定し、検定もこの条件付き分布を元にして行います。又、 ( 7 )式より、 β に対する卜分統 計量は ZLlzJ=oYt 内 で あ り 、 同 様 に y に対する十分統計量は Z f=lZLOLlXtjであることがわか ります。(これらの十分統計量は、正確分析を行う際、特に重要となります。) 6 )式を簡略にするため、Ill j=I lj O=1とします。つまり、 1:1の MatchedP a i rデータに ここで ( 対するモデルにします。この時、 Y Iの分布は 012 Vノ Vノ Vノ 一 一 一 一 一 一 )nu z z n u x x nu l 一 一nu v h ‑ 一 7&7&7& Z . (v' P + )n) ) ununU nununu 7&7&7& xxx AWXXX R oo‑ い一一一一一一 Z000 仏 民 民 V川 均 仏 1hL 一 一 一 一 一 h 一 〆t 町 作︑ = 知何山山 =p Fp rp r れ〆1111t = となり、 Y y j .における条件付き分布の式は Y i . = 1の時だけ必要となることがわかります o ・ i y j .= 1を条件とした分布は、 ( 6 )式より、 j Pr(Y i l 'Y j O=Y i O [ Y )= l i+Ijの=1 l i= Y ・= Y P{ Yi l β +Y ' Y i l( Z i l‑Z i O ) ) e x p伊 +Y ' ( Z i l‑Z i O ) }+1 は s+ γ ' ( Z j l‑Z j O ) } cxp{ で与えられる時 xp伊 + γ ' ( Z i l‑Z ω ) )+1 のロジスティック回帰とみることができます。この際、共変数 Z i jは各層での差異 Z j l‑Z i Oに要約 と求められます。又、この条件付き分布は事象の確率が 巴 t o k c s, M.E.,D a v i s, C .S .a n dKoch, G . G . ( 2 0 0 0 ) [ 5 ]における例題では、データ されます。このため, S 変換をおこなった後にロジスティック回帰を行い、上記の条件付き分布を元にした分析を行って います。この方法でのプログラムの詳細などは, C a t e g o r i c a lD a t aA n a l y s i su s i n gTheSASSystem, 2ndE d i t i o nを参照してください。 2 . 2 STRATAステ トメントを用いての分析 パージョン 9では、 LOGISTICプロシジャに STRATAステートメントが追加機能として加わっ たため、事前に条件付き分布(例えば、 ( 6 )式)を求めて、それに対するデータ変換を行わずに、条件 付き分析ができます。(勿論、理論を理解するためには、条件付き分布を求める必要があります。) ︼ υ υ 内合 ︑ っq/

235.

ここでは STRATAステートメントを使って、各層を示す変数を指定して実行する方法をパージョ ン 9のマニュアルに含まれている例題を用いて紹介します。 DATA Data1; DO ID=l TO 6 3 ; Y‑1; DO Outcome = 1TO ~ B @ ; INPUT Gall Hyper @ OUTPUT; END; END; DATALINES; 自由 自由 自由 自由 ~ 1 ~ 1 11 ~ 1 ~ 1 自由 1 ~ 自由 自由 1~ ~ 1 1 ~ 自由 ~ 1 自由 自由 11 11 ~ 1 自由 自由 ~ 1 ~ 1 ~ 1 自由 11 自由 自由 ~ 1 ~ 1 1~ ~ 1 ~ 1 自由 ~ 1 自由 ~ 1 自由 自由 ~ 1 ~ 1 ~ 1 ~ 1 自由 自由 自由 自由 ~ 1 1~ ~ 1 自由 自由 1 1 自由 ~ 1 自由 自由 自由 ~ 1 自由 ~ 1 ~ 1 自由 自由 自由 自由 11 1~ ~ 1 自由 1 ~ 自由 1~ 1 ~ 自由 自由 1~ 自由 自由 1~ 自由 ~ 1~ ~ 自由 自由 ~ 1~ 1 ~ 自由 自由 自由 自由 1 ~ 1 自由 自由 ~ 1~ 自由 1 自由 自由 自由 自由 自由 1 1~ ~ 1 1 自由 自由 1 自由 11 11 ~ 1 自由 1 ~ 自由 ~ 1 ~ 1 1 ~ 自由 1 1 自由 ~ ; このデータセット ( D a t a 1 )は 63組の STRATA(ID)から形成され、応答変数として Outcome(子 宮内膜癌)を、説明変数として G a l l (胆嚢)と Hyper(高血圧)を含んでいます。データセットに関す r e s l o w , N . E .andDay, W( l9 8 0 ) ( 2 ]を参照してくださし、。ここでは、 STRATAス る詳細については B テートメント(及び EXACTステートメント)の紹介に焦点を絞るため、変数選択などの分析に関 する詳細は、パージョン 9のマニュアルを参考にして頂きたいと思います。以下では、 Outcomeを 応答変数とし、 G a l lだけを説明変数とする層別ロジスティック回帰モデルを検証することとしま す。この際、層は変数 IDによって指定されるものとします。これらを実行するプログラムは以下 のようになります。 PROC LOGISTIC DATA=Data1; STRATA I D ; MODEL Outcome(EVENT='l')=Gall; RUN; このプログラムでは、通常のロジスティック回帰モデルにおいても使えますが、 E V E N T = ' l 'と 応答変数オプションで指定することによって、 Outcome=lの確率についてモデルを当てはめるこ とを指定しています。このプログラムの実行結果の一部はアウトプット 1に表示されています。こ のアウトプットでは、層に関する情報が提供されています。オブザベーションの数は 1 2 6であり、 3であることが読み取れます。アウトプット 2では、条件付き尤度関数を最大にする時 層の数が 6 のパラメータの値が最尤推定値として、出力されています。更に Waldr検定値と、近似法による 234‑

236.
[beta]
p
‑値も出力されています。この p
‑値は、 Waldx2統計量が X2分布によって近似できるという仮定で
算出されています。
アウトプット l
Str昌 t昌 Sununary
Outcome
Response
P昌ttern

1

~

1

Number of
Str昌t昌

Frequency

1

1

63

126

アウトプット 2

昌巳

よ
1

3.297~

唱
は

~.S262

d

~.9SSS

u
q

1

ム
︑
.F﹂

G昌 11

︑
円'n

Estimate

d

q
d

tp‑

DF

r昌r
唱
はo
nr
ar

P昌 rameter

wr
a

An
昌1
ysis ofM昌 ximumLike1ihood Estimates

Pr > ChiSq
~.~694

3 正確条件付き分析
3
.
1 M
a
t
c
h
e
dP
a
i
r!とおける正確条件付き分析
前節において、条件付き尤度関数を求めた後、その関数を最大にするパラメータの値を求め、パ
ラメータの最尤推定値等を求めました。又、パラメータの検定には Waldx2検定を用い、近似法に
よって p
‑
値も求められました。しかし、オブザべーシヨンの数が少なかったり、データがまばら
である場合には近似法を用いるには疑問が残ります。このような場合、正確検定を行うことができ
ます。

3
.
2 EXACTステー卜メン卜を用いての正確条件付き分析
正確分析は SASシステムで行うことができましたが、パージョン 9では、条件付き分布と組み
合わせて正確分析を行えます。

J
を用いると、以下のようなプログラムにて正確条件付き分
前
の
{
:
7
i

析を実行することができます。
PROC LOGISTIC DATA=D昌 ta1 EXACTONLY;
STRATA ID;
MODEL outcome(EVENT='l')=G昌11;
EXACT G昌 11 / ESTIMATE=both OUTDIST=dist;
RUN;
PROC PRINT DATA=outdist;
RUN;

Fhd

qtu

ワ
ム

237.

このプログラムは、前述のプログラムに E XACTステートメントを追加しています。又、 PROC L O G I S T I Cステートメントにおいて、 EXACTONLYオプシヨンを追加することによって、正確分 析の結果のみを出力するように制限できます。 E XACTステートメントにおいて、 OUTDIST=オプ ションで S ASデータセット名を指定することによって、正確条件付き分布をデータセットに出力 することができ、 PRINTプロシジャによって出力しています。 ESTIMATE=オプションで bothを 指定することによって、パラメータとオッズ比の推定値が出力されます。 7 )式より、 β(この例で アウトプット 3では正確条件付き分析の結果の一部を表示しています。 ( a l lに対するパラメータ)に対する卜分統計量は T[ = I ; ' = [I J = oYijXij として求められました は 、 G [= 1 7であることが出力されています。又、ここで、統計量 T [ が、このデータからは十分統計値は I に対する条件付き平均を μi、条件付き分散を L [とし、スコア統計泣を S ( T [ )=( T [ ‑ J l [ ) ' L1 [ ( T [ ‑ J l [ ) とします。このデータにおけるスコア統計値は S ( I [ )= 3 . 5 5 5 6となり、スコア統計値が 3 . 5 5 5 6と . 0 3 2 7となることがアウトプット 3から読み取れます。さらに、パラメータ(オッズ なる確率は 0 ‑値は正確条件付き検定と同様、 0.0963として出力されて 比)推定値が出力され、それに対する p います。 アウトプット 3 Sufficient Statistics Parameter Value Gaユ 1 7 Conditionaユ ExactTests ‑MU ‑︑d ‑ ・ ユ ρ﹂ 寸 lム 一+﹂ HV u a ‑ F H﹄ D&C a ‑x F﹂ CJ ‑可 ﹃ Score ユ ty Probabiュ +﹂ d Gall +﹂ Test .可‑‑ ‑ l +﹂ 宍] Effect 3.5556 ~.~963 ~.~799 ~.~327 ~.~963 ~.~799 Exact Parameter Estimates Parameter Gaユ Estimate ~.9555 95% Conf 工d ence Limits -~.1394 2.2316 p‑Vaユue ~.~963 Exact Odds Ratios Parameter Gall Estimate 2.6~~ 95% Confidence Limits ~.87~ 236‑ 9.315 p‑Value ~.~963

238.

正確条件付き分析における p ‑値は、以下の様に求められています。はじめに、パラメータ β に I 対する十分統計量 Tj= I;~ j ) = 0YijXi jを特定します。この例では ・ i j, Yiω=( 1 ,0 )ですが、可能 0 な結果としては ( 0,1 )があります。 (Yil+Yio=lの条件付きのため)この可能な組み合わせ全てに 対し、 Tj の値を求めます。このデータでは Tj は 4から 22の値を取りえます。(アウトプット 4、 G a l l列 参照)次に、 Tj の各値に対し、スコア統計量の値 S(lj) ( S c o r c )を求めます。同時に S(lj) がある値をとりえる時の Y i jの組み合わせ (Count)を数え、それをもとに確率 ( P r o b )も求めます。 最後に p値はスコア統計値がこのデータにおける値よりも大きい時の!確率を合計することによっ . 5 5 5 6なので、それ以上のスコア統計値を て得られます。この例の場合、データからの統計値が 3 もっ時の確率を合計すると 0 . 0 9 6 3となり、正確条件付き検定における p値と一致します。 アウトフ。ット 4 O B S Gall C o u n t 1 2 3 4 5 6 7 8 9 4 5 6 7 8 9 3.5184E13 6.3332E14 5.3832E15 2.871E16 1~ 6.5316E17 1 .1197E18 1.5396E18 1 .71~7E18 1 .5396E18 1 .1197E18 6.5316E17 1~ 1 1 1 2 1 3 1 4 1 5 16 1 7 1 8 1 9 1 1 1 2 1 3 1 4 1 5 1 6 1 7 1 8 1 9 2~ 21 2 2 1. ~766E17 3.~146E17 3.~146E17 1. ~766E17 2.871E16 5.3832E15 6.3332E14 3.5184E13 S c o r巳 P r o b 18.~~~~ ~.~自由自由 14.2222 ~.自由自由 7 1~.8889 ~.~~~58 8.~~~~ ~.~~311 5.5556 3.5556 2 .自由自由 ~.~1167 ~.~3268 ~.8889 ~.~7~82 ~.1214~ ~.2222 ~.16692 ~.自由自由 ~.18547 ~.2222 ~.8889 ~.16692 ~.1214~ 2 .自由自由 3.5556 5.5556 ~.~7~82 8.~~~~ ~.~~311 1~.8889 ~.~~~58 ~.~~~~7 ~.~~~~~ 14.2222 18.~~~~ ~.~3268 ~.~1167 4 その他の機能‑SCOREステートメント LOGISTICプロシジャにおける STRATAステートメントの追加は、条件付き分析を行う際、デー タの加工を行い、 PHREGプロシジャを使うという以前の作業を簡単にしました。又、理論的に全 く同じ方法が 2つのプロシジャで行えるということで、分析を正しく行っているかの検証をする手 助けになると思います。又、 STRATAステートメントと共に EXACTステートメントを実行でき るので、データ数が少ない時により正確な分析を行うことができます。 この他、パージョン 9からは、 SCOREステートメン卜を LOGISTICプロシジャ内で使うことが 2 3 7

239.

できます。これによって、モデル推定を行うデータとその結果を元にスコアリングを行うデータを 指定することができます。又、推定されたモデルの情報を SASデータセットとして保存し、後で 他のデータに当てはめるということもできます。プログラム例としては以下のようになります。 PROC LOGISTIC DATA=Crops OUTMODEL=CropMod巴1 ; MODEL Crop=xl‑x4 / LINK=glogit; SCORE DATA=Test OUT=Score2; RUN; ropsを用いてロジスティック回帰を行 上記のプログラムでは、すでに存在するデータセット C い、その結果をモデル情報として、 CropModelに保存しています。さらに、 SCOREステートメン トでスコアリングをデータセット T e s tに対して行い、その結果を S c o r e 2として新しいデータセッ トに保存します。 SCOREステートメントについての詳細な設定方法はパージョン 9のマニュアル を参考にして下さい。 参考文献 [ 1 ]A g r e s t i, A .( 19 9 3 )C a t e g o r i c a lDataA n a l y s i s [ 2 ] BreslowλE.andDay , W.( 19 8 0 )S t a t i s t i c a lMethodsi nCancerR e s e a r c hVolumeI ‑ T h eA n a l y ‑ s i so fC a s e ‑ C o n t r o lS t u d i c s,Lyon:IARCS c i e n t i f i cP u b l i c a t i o nNO.32 [ 3 ] Lchmann,E .L .( 19 8 6 ) T e s t i n gS t a t i s t i c a lH y p o t h e s i s ,2 ndE d i t i o n [ 4 ] McCullagh,P .,andN e l d e r , J . A .( 19 8 9 )G e n e r a l i z e dL i n e a rModels( T h eMonographsOllS t a t臼 ー t i c sandA p p l i e dP r o b a b i l i t y ,¥ ゐ1 3 7 ) ∞ [ 5 ]S t o k e s, M.Eρavis, C .S ., andKochιG. ( 2 0 )C a t e g o r i a lDataA n a l y s i sl Is i n gTheSASSytem , 2ndE d i t i o n ‑238

240.

口頭論文発表 システム

241.

日本 SASユーザー会 (SUG1‑0) fromVersion6toVersion8withlargevolumeDatasets& IntrNet 藤本浩 株式会社アイエスアイディ・デロイト CRM‑SSS 土尾尚友 平田康之 株式会社電通国際情報サービス産業ソリューション事業部 e ‑コンサルティング部 ト i i r o s h iF u j i m o t o l n c .CustomerR e l a t i o n s h i pManagementS t r a t e g i cS e r v i c eS e c t i o n I S I D ‑ D e l o i t t e, HisatomoT s u c h i y a YasuyukiH i r a t a I n f o r m a t i o nS e r v i c e sI n t e r n a t i o n a l ‑ D e n t s u, LTD e ‑ c o n s u l t i n gdepartment 要旨 CRMに自覚的な企業では DataWarehouse及 び DataA n a l y s i sシステムが全社に浸透しつつあ j されている ο 情報系システムの中でもとりわけ全社的に重要度 り、企業活動の生命線としてフル活Jl が高い物は、基幹系システムに劣らずミッション・クリティカルな稼動を要求されており、ソフトやハー ド、の代替やパージョンアップの際にトラブルを起こす事など許されない ο 本論分は SASシステムで構築された大規模かっ高度な CRMマーケティング、システムで、上記の ような環境下で、メジャーバージョンアップに取り組む際に必要と忠われるタスクや注意点、実プロジェ クトから得られた経験について紹介する。 IntrNetソフトウェア キーワード: 1¥ージョンアップ、バージョン仏大規模データウェアハウス、 SASl 1 はじめに 本論文は以下の内容で、構成されている。 〆 システム構成について 〆 プロジェクト計四について 〆 テスト実胞と結果と対策について 〆 本番環境への移行 〆 まとめ(移行のポイント) 2 . 1 1

242.

2 システム構成 2 . 1 構成図 今回バージョンアップを行ったシステムの構成を以下に記す 但し、クライアントとの守秘義務を O 履行するため概要の記述に止める。 業務系サーバ 8A8サーバ (数台) ( U N I X08x2 ) 哩耳目 口 事 叩 E エキス │ 1¥ ート用 PC ;間 │ユーザー用 PC 2 . 2 スペック システムやデータに関するスペックはおおよそ次の通りで、ある。 ① 0 0万人 会員数:約 8 ② 売上げデータ:約 4 , 5 0 0万件/年 X3年分 ③ OLTPファイル数:約 7 0ファイル ④ SASデータマート数:約 5 0種 、7 0 0データセット ⑤ SASデータセット容量:約 1 1 0G b y t e ⑥ OLTP は過去データの追加・変更・削除が許されているため、 DWH は週次で全件を 洗い替える ⑦ サーバのスペックは強力だが、それをも上回る処理があるため、 DWH の更新は週末 を利用して段階的に行われる ⑧ 逆から見れば、毎日マーケティング活動で使用されているため週末以外のシステム停 止は行えない ⑨ DWH更新中(週末)はアクセス制限を設けている ⑮ S A S / l n t r N e tで行う分析は、海外含め主要な支届から実行可能 ‑242ー I

243.

3 プロジェクト計画 本プロジェクトは、以下の通りかなり制限された状況下で行われた。 〆 S ASシステムバージョン 8リリース 8 . 2onU N I X日本語版としては初めてのユーザだ、ったため、 (万全を期すために)事前調査期間を設ける必要があった。 〆 本プロジェクトはソフトウェアのみならず、ハードウェアや運用環境の同時変更も用件で、あった ため、ソフト,ハード,運用の 3本のタスクを、ンンクロナイズさせながら進める必要があった c 〆 上記パージョンのリリースから、パージョンアップ完了希望日まで、の期間が非常に短かった。 〆 SASシステムを、大規模かっ統合化された環境で、使用した経験を持つ技術者のアサインが 困難なため、リソース不足で、あったo 3 . 1 プロジェクトポリシー 上記の状況をふまえ、今回のプロジェクトを進めるにあたって以下の事項に留意した。 ① ソフトウェアのメジャーバージョンアップで、あるため、製品知識が豊富なスタッフをアサ インする ② 信頼のおける製品であろうとも、基本動作部分のテストを(も)怠らない ③ 実環境でのテスト前に、サンプルプログラムを用いて詳細な動作検証を行っておく ④ データウェアハウス構築部分に関しては、リリース前に完全通しのテストを行う ⑤ 分析に関しては様々な切り口で、無数のテストパターンが出来てしまうため、代表的なテ α を行う) ーマや複雑なテーマを中心にテストを行う(最小限と、残り期間に応じて + ⑥ 単なる動作確認ではなく、共通のデータソースを用いて新旧プログラムの (DWH 構築, 分析実行共に)実行結果の比較を行う ⑦ テスト項目の前後関係に注意し、多少単体テストが遅れても全体の整合性が破綻しな い組み合わせを計画する ③ 今回のテーマに限ったことで、はないが、計画段階で 100%リソースを使い切るような事 はしない(トラブ?ル対策用マージンを確保し、万全を期す)ー 3 . 2 テスト項目の設定 表 1は、テスト項目設定に用いた評価軸の一部で、ある。これらをベースにして詳細テスト項目へ ブレイクダウンした。なお、詳細テスト項目は分量が多く、顧客環境に依存する内容を多く含む ためここでの記述は控えさせて頂く ο ‑243一

244.
[beta]
1:テスト評価軸と確認方法の概要
!テヱ勺?ポイント

事
事
意
書E
分量ラ疋'耳「軍事駒

.
0

大百害援ヂ申告のれンド i
i
j
パヲメ}望書
Vザ

i

.
.
.
.
.
.
l付栴鮮:lI!.

モ心的'
:
'
.
1
‑ル
話
語
調i

治制$路付 1
1セー+ ・ 剖 此 州 事4
よどのコ?バフ r マン刻、問題1
<1叩織の続攻バ哲'.>1‑告

;
t
'
f
.
k
"
)

3

i

ンドや万ヲ:ノヨン舗の殺ない b
、
定などて干仕様変更がむ
いか

や、既存のバラメー習で
もよサiII
υ
た憶が'<1>1
.
始
、

デ明 ~S苦\1j.j~みは1司緯

I~j壬守:もれるが("'''llIh や

ヂー空邸主通['."虫、.t毛主

I
.
l
b
〉
、
f
n
肘 4'
S
P
O
S

口』ドパランヌ縫量~I <l lilll"嗣叫1T&l寝間I <l W

噌厩の報復パラメ‑9 I
h
l
m
li
'
F
寂
?
っ Q!U
査
当
@
; 11. 口}ド r~ランス部分<1)
や、既存'<1)パ予〆ーずでに作輸するか
コ恥ヂ 4ン'
J変更
もより ~Lた恨む右寄るか
卜
地
皇
肉
軍
俸
事E
は
?
ヲ
をロせス関連I
D

車
産
に1
M
¥
'
す‑9か

でも必要か

Ii昌宏l~dlr.:J隠のj
ラ‑
I.;t認するか エ

バヲ芳 7 シス f
c
f
H
1
2
8
1zJiivtZ久h剥用既の
唾 i存除稀めネ
1,'1.パ艇..~ララメ添メーー純ヲ担で;
G
いか

、

,
l
I
i
U
1
>
i
主

大
型F
膨張』問ハンドザ /
t,,,,一端達
その f
車
ツ‑
;
1
"処理
ンヲ
31
データ官、?
tl
'デー担絡会事専のコ?ン殺もア電電!
J
I
ヂー伊笹 l
R
:
仕
都
t
哨
縁
予
知
の
イ
土
実
E
爆
量
が
2
i
T
2荻~.コ
5、差異
、民同 SAS{
1
作勝
ド宅金援書割烹1
予【ヂモブプロセス([>実行
晶、ι
f
1
口ヲラムでも百r>
I
!~?'W) ~1 'f
I
.
c
s
v
t
整み込みパラ〆ー
激怒:lrきを行ヲ
'
9
や
宝E
ている節分、手司普畳、
i
さ寄ぜ右寄せ害事でv5と
豊島怠車問(0正常持軍事

i

い~部
9理t分
p、8
ま喜2fTE4tbTかもむれは

、l1õld~"t

I~i 問問、1-3泊者呈,!i

Iftl料自iæl令改定時間斡!iU!~えむ、差異

;

I
Q
D
プロセス在療量生怒動

要
事
量
E
廃
f
T
かかるフロ包スの

P民
s

H
:
繍の l
i
&2夜ぴ、問部 員置も大容禽デ タモ仮う仕事暑の革審 及
,
(
1
、
連
とな守 1;;.ブロセヌの 2f1f ブnEヌ q);J~if
}
や
都
申
合f
4
f
土
5
湊
絡
が
符克つ晶、マた

I
S
l
i E
E
b
i b

主主:黄色i1:1
l
>1
茸 SAS
浦 1
Z
o
nU
.
(
1
1
iでも竃
1
1
8
3
すべき司F
慣

html作成IC{是ffíしている

や新
婚
の
仕鎌 守
1史つ 、
。
た ?
宅
空
?
金
ロ
を
笠
竺
金
主
通
玄
誠
室
事
産
豆1'
1〈
ヂ

a

e
a

3
.
3 スケジューリング
前述のプロジェクトポリシーに則ったスケジューリンク、、は、予想工数の算出が特に難しく困難で
あった。 SASシステムに関する詳しい知識のみならず様々な要素が必要になるため、計画立案
は期間やリソースが限られている時は特に重要なポイントである。

:スケジュール一覧
表2

‑244ー

245.

4 テスト実施と結果 今回、全てのソフトウェアについてテストを行った訳で、ないことをお断りしつつ、テストを通じて分か った事を以下に述べる。話題の中心となるのは BaseSAS,S A S / l n t r N e t,SAS/SPDSである。今 E n t e r p r i s e Miner,SAS/CONNECT,SAS/GRAPH, 回の環境で使用している他のソフト ( SAS/ACCESSt oOracle等)のテストも実施したが、全く不都合が無かったので、記述しない。 4 . 1 テスト実施 若干スケジュールが前後したものの、前述のフ。ロジェクトポリシーから概ね逸脱せず実施出来た。 但し、当初の計画よりも他システムとの接続テストの項目が増えてしまい、余裕を持った実施とは 言い難かった O 4 . 2 テスト結果と対策(コーディング関連) ここではテストで判明したコーディング関連の変更点について記述する。 ① [Base SAS] ロク。メッセージの文言が変わった事により、ロク、、を読みこんで、運用管理し ているプログラムを書き換えた (NOTE/ERROR) ② [BaseSAS] Nリテラル"としづオフ。ションが追加された事により、マクロ言語で変数名 を自動生成しているプログ、ラムを書き換えた ③ [BaseSAS] p r o cc o n t e n t sで、出力されるデータセットの MEMNAME列の l e n g t hが 32バイトに拡張されたため、それを活用しているプログラムを書き換えた ④ [BaseSAS]p r o cc o n t e n t sの NPOSオプ、ンョンで得られる、出力結果の順番(変数の 物理的位置)が変更された事により、それを活用しているプログラムを書き換えた コーディング 関連に関してはかなり詳細な事象が多く、逆に言えば一般的な使い方であれば V6 P から V8への移行で不都合が生じる事は殆ど無いと思われる。しかし、 SASシステムを「隅から隅 まで使い切っている」ユーザは注意が必要であろう。 4 . 3 テスト結果と対策(システム関連) ここではテストで判明したシステム関連の変更点について記述する。 ① [SAS/SPDS] ソート済の SPDSファイルに SUMMARYプロシジャで、集計をかけに行 くと実行時間が V6に比べて数倍 数十倍かかるようになったため、前段での SORT を止めるようにプロク守ラム変更を行ったご(当時はソフトウェア的に未解決) ② [ S A S / In t r N e t ] ブラウザから渡した「 」文字が S A S / l n t r N e t内で、受け取れなくなってし まったため、オフ。ションのパラメータ値を変更した ③ [ S A S / l n t r N e t ] (SASサーバがパックアップ構成を持っている環境に限定されるが)縮 j ! !時のフ。ロセスの引渡しが上手く行われず、手動操作を行う必要がある。(当時はソフ トウェア的に未解決) υ ﹁同 凋バ守 ノ η

246.

④ [ S A S / l n t r N e t ]% d s 2 h t m lを用いた時に未知のエラーメッセージが出るようになったが、 実用上問題なかった ⑤ [ S A S / In t r Ne t ]プロセスを全て終了させ、立ち上げ直した直後の初回実行プロセスの みレスポンスが返らない。週末に‑̲e̲プロセスダウンさせる都合上、月曜の朝一番に 誰かが一回空実行させる必要がある。(当時はソフトウェア的に未解決) 6時 代 の 上で挙げたものは都合が悪かったものであるが、当然ながら改善点もある。 V S A S / l n t r N e tで 出来なかったこと(そのため、自前で仕組みを構築して無理矢理にでも対応し た)が、 V8から出来るようになりシステム運用面での負荷が無くなった。具体的には、ロード、マネ ージャとし、う機能を使用する事により、 〆 [ S A S / l n t r N e t ]Webサーバカ汁 I Sの環境下で、ロードバランス機能(ユーザからのアク セスが複数になった場合の、実行優先順位管理)が正常に動作するようになった ( V 6でも、 Webサーバがネットスケープであれば動作していた機能) 〆 [ S A S / In t r Ne t ]プロセスモニタリング?機能が加わり、検索待ち時間が長い処理の時に i m e o u t (セッション切断してしまうフ、ラワザ側の機能)を抑制する事が可 起こっていた T 能になった。 上記 2点の改善で製品としての信頼性が確保された。 4. 4 テスト結果と対策(システム関連その他) ここでは上述した以外の、テストで判明したシステム関連の特記事項について記述する。 ① [BASESAS]インテリジェンスな機能なのだが、 SASパージョン 8を使用してデータセ ットを新規作成しても、 V 6エンジンで、作成されたデ、ータセットが残っているディレクトリ (フォルダ)には V6 エンジン形式のデータセットしか作成できなし、(エンジ.ン形式=V8 と指定しても、自動的に V6 エンジン形式のデータセットになる)。つまり、通常の使用 方法では同一ディレクトリ(フォルダ)内に異なるエンジンのデータセットは混在しない (させられなし、)事に注意が必要である。 ② [ S A S / l n t r N e t ] (ロード マネージャを使用する場合)ロード、マネージャ(親プロセス)は、 リソース(子プロセス)配分を行いながら複数の分析リクエストを上手く捌し、ている。この ASシステムの機能を通さずに(例えば U N I Xの k i l lコマンド等で)子プロセスを ため、 S 削除してしまうと、それ以降ロード、マネージャは「し、るはずの」子プロセスにリクエスト処 理を依頼してしまし、(実際はいないので処理できず)、レスポンスが全く返らない状態 になってしまう。特に大規模システムで運用に関わっている方は注意が必要であろう。 phU q/臼 Aq

247.

5 本番環境への移行 5 . 1 移行結果 関連システムの移行作業の待ち時間や、テスト中に発見し切れなかった不具合への対処へ想 像以上の時間を費やした。しかし、大きく計画を崩すようなことなくバージョンアップが完了した。 6 まとめ 今回のプロジェクトを通して得られた移行のポイントを記す。 ・準備段階 前述 1 3 . 1フ。ロジェクトポリシー Jに加え、 〆 不明点があれば小さし、ことでも必ず確認対象にしておく 〆 ハード ウェア構成、ソフトウェア構成、処理内容等を考[在したテスト内容の設計をする ・テスト中、移行中 〆 日々発生する技術上のトヒ。ックなどをタイムリーに情報共有する 〆 プロジェクト進捗管理を精般に行う ・移行後 〆 未決の不具合の内容は関係者間で共有する 上記は内容的に当たり前の事ばかりであるが、読者の方々のヒントになれば幸いである。 謝辞 本システムは、 分析=今 CRM施策実行=今結果の分析=今次の施策実行"のサイクルをシームレスに実 施可能な「統合型 CRMシステム J(の分析系部分)である。 このような I n t e g r a t e d CRMシステムを構築しかっ、継続的に活動を行っている企業は現在におい ても多くはない。(まさに今後の CRM展開の課題と言えよう) 3年も前に先進的かっこれほど大規模なプロジェクトを発足させ、参両させて頂いたクライアントに対 して感謝の意を表したいc 247‑

248.

日本 SASユーザー会 (SUG1‑0) SAS/GRAPHソフトウェアと ODSを使用したグ ラフ作成方法 P ‑HTML、ActiveX、Javaなどの Webに対応してー 迫田奈緒子森下陽子 力スタマーサービス本部プロフェッショナルサービス 株式会社 SASインスティチュートジャパン WebE n a b l i n gYourGraphsWithHTML,ActiveX,andJavaUsingSAS/GraphandOutput D e l i v e r ySystem NaokoSakota YokoM o r i s h i t a P r o f e s s i o n a lS e r v i c eDepartment CustomerServicesD i v i s i o n SASI n s t i t u t eJapanL t d . 要旨 SASシステムバージョン 8以降の新機能として Output D e l i v e r yS y s t巴m(ODS)の機能が追加さ れた。この新機能を利用することによりユーザはより見やすく、また Web配信などにも対応した レポートを作成することがで、きるようになった 3 特に本論文で、はカスタマイズレポートを作成する ためのテンプレート、様々なグラフや集計表の作成、また各集計表やグラフにリンクを張ったフ レームの作成など、のサンプルをご、紹介する3 BASESASソフトウェア キーワード: TABULATEプロシジャ SAS/G恥 ベ PHソフトウェア GCHARTプロシジャ 1.はじめに ODS出力の STYLEオプ、ンョンを利用することで、 TABULATEプロシジャ、 REPORTプロ、ンジャ、 PRINTプ口、ンジャの出力を変更する方法をご、紹介する。 SAS/GRAPHを使用した ODS出力では GOPTIONSステートメント中でどんなアウトフ。ツト形式 を使用するか、 ODS ステートメントオプションで、様々な指定を行うことにより、よりカスタマイズ、さ れたグラフ出力を得る方法を紹介する。 Output Delivery System(ODS)の機能を利用して、見 やすい集計表、 GIFや JPEGファイルのクずラフやエクスプローラ上で、カスタム可能な ActiveXや J a v aアプレットを使用したグラフの作成方法などカスタムレポートの作成方法をご紹介する。 2 .集 計 表 作 成 の サ ン プ ル ODSの機能を利用すると、 H T t v l L形式のアウトプットを作成する際に少々のコードを加えること で、カスタマイズ されたレポートを作成することがで、きる。 2章で、は集計表に会社のロゴ、を付ける、 値によって色を変える、背景の色を変えるといった 3点をカスタマイズ、したレポートを作成する 方法を紹介する。 STYLE=オフ。ションを使用し様々な形式にカスタマイズされたレポートを作成 2 4 9

249.

する。 2 . 1 レポートに会社のロゴを挿入する TEMPLATEプロシジャの中で PREHTMLステートメントを用いてあらかじめテンプレートを定 義しておくことで、 ODSのオプションとしてページヘッダーを使用することがで、きる。この場合使 用できるコードは、図を表示するのために使用する IMGタグ、テキストやヘッダーを作成するた めのフォーマットタグタやロゴ、やテキストを組み立てるためのテーブ、ルタグ となっている。また、図 I Fか JPEGのフォーマットにする必要がある。 はG ASのロゴ、と社名を入れたテンプレートを作成している。 以下のサンプルコードは S p r o ct e m p l a t e ; d e f i n es t y l es a s l o g o 3 ; r e p l a c eb o d yf r o md o c u m e n t/ 0 0 % > < t r > p r e h t m l = '< t a b l e sw i d t h1 ご t dn o w r a pa l i g n = l e f t > く i m gb o r d e rゴ' 0 "s r cゴ' s a s 2 . g i f " > く < f o n tf a c e = " a r i a l "s i z e = 6 > くb > S A SI n s t i t u t eJ a p a nL t d . < / b > < / f o n t > < / t r > < / t d > < / t a b l e > '; e n d ; r u n ; 2 . 2値により色を変える あらかじめ FORMATプロシジャを用いて色を指定したフォーマットを作成しておくことで、集計 表の値の色を大きさによって指定することがで、きる。 /本売上合計によって色を変更するためのフォーマット作成本/ p r o cf o r m a t; v a l u es a l e sl o w‑2 3 0 0 0 0 0 ニ" r e d " 2 3 0 0 0 0 0←2 5 0 0 0 0 0=" g r e e n " 2 5 0 0 0 0 0< ‑ h i g h =" b l u e "; r u n, REPORTプロシジャ、 TABULATEプロシジャ、 PRINTプロシジャで は ODSの s t y l e =オプション を用いることで様々な特性のある出力を得ることがで、きるようになっている。属性の種類として はテープ、ル内の個々のセル、行、列、ヘッダーに指定するものとテーフツレ全体に指定するも RINT のがある。テープ、ル全体に指定する際には次のように指定する。 REPORTプロシジャと P プロシジャについては、以下のように指定する。 ハけ V q〆u R υ

250.

PI ¥OCREPORTDATA d a t a s巴t sS T Y L E = [ s t y l e ‑ a t t r i b u t巴( s ) ] ; 二 PROCPRINTDATA=datasetsS T Y L E = [ s t y l巴‑ a t t r i b u t巴( s ) J ; TAsULATEプロシジャについては TABLEステートメントの最後に指定する。 TABLE く くp a g e ‑ d e t i n i t i o n, >r o w ‑ d巴t i n i t i o n, >c o l u m n ‑ d e t i n i t i o n /S T Y L E = [ s t y l e ‑ a t t r i b ut 巴( s ) J ; 指定可能な属性の中で主要なものをしてつか紹介する o sACKGROUND 背景の色を指定するためのオプションで、個々のセル、行、列に指定することもテーブル全体 に指定することもでる a BORDERCOLOR テープ、ルの枠の色を指定するためのオプションで、個々のセル、行、列に指定することもテー プ、ル全体に指定することもできる 3 sORDERWIDTH テーブルの枠の幅を指定するためのオプションで、テーブル全体にのみ指定することがで=き る 。 FONT フォントについて、定義するためのオプ、ンョンで、個々のセル、行、列に指定することができる。 FONTS I Z E フォントのサイズを指定するためのオプションで、個々のセル、行、列に指定することができる。 FONTWEIGHT フォントの名前を指定するためのオプションで、個々のセル、行、列に指定することができる。 FOREGROUND データ値の色を指定するためのオプ、ンョンで、個々のセル、行、列に指定することができる。 POSTHTML アイテムの終わりに HTML コードを加えることができ、個々のセル、行、列に指定することもテ ープ、ル全体に指定することもできる。 POSTIMAGE アイテムの終わりに図を表示させることができ、個々のセル、行、列に指定することもテープ♂ル 全体に指定することもできる 3 POSTTEXT アイテムの終わりに文字を表示させることができ、個々のセル、行、列に指定することもテーブ ル全体に指定することもできる。 PREHTML アイテムの始まりにトITML コード を加えることがで、き、個々のセル、行、列に指定することもテ ーブル全体に指定することもできる。 2 5 1

251.

PREIMAGE アイテムの始まりに図を表示させることができ、個々のセル、行、列に指定することもテーブル 全体に指定することもできる。 PRETEXT アイテムの始まりに文字を表示させることができ、個々のセル、行、列に指定することもテーブ ル全体に指定することもできる。 2 . 3サンプル 先ほど作成したフォントやロゴを付け加える 3 o d sh t m1b o d y = "d :半S U g l ‑ J半o u t p u t半s a m p l e 2 . h t m l " s t y l e = s a s l o g o 3 ; p r o ct a b u l a t ed a t a = eg . d e m o p r o df o r m a t = y e n I 2 . t a b l ec o u n t r y牢 r e g l o n牢( m e a n牢 s u m牢 [ s t y l e = [ f o r e g r o u n d = s a l e s .f o n t ̲ w e i g h t = b o l d ] ] ), p r o d u c t牢 a c t u a l / s t y l e = [b o r d e r w i d t h = l b o r d e r c o l o r二 b l a c kb a c k g r o u n d二 c x d 8 f 2 f 8 ]; c l a s sc o u n t r yr e g i o np r o d u c t; k e y l a b e lm e a nニ"売上平均" s u m = "売上合計z ' ; k e y w o r d問 a ns u m /s t y l e = [ f o n t ̲ s i z e2b a c k g r o u n d = c x f f d 7 b 2 ] 二 v a ra c t u a1 r u n, o d sh t m lc l o s e 3 .グラフ作成のサンプル SAS/GRAPHとODSを使用することで、 I n t e r n e tもしくは I n t r a n e t上で配布するグラフや WEB 配信用グラフを簡単に生成する事が可能になる。 。 3 . 1 グラフの出力形式 GOPTIONSO GOPTIONS ステートメントの DEVICE=オプションを使用する事でどのアウトプット形式 (ACTIVEX, jAVA, jAVAMETA, HTML, GIF, jPEG ) を 使 用 す る か を 指 定 す る 。 DEVICE=ACTIVEX を指定した場合、 j a v aアプレットを使用した HTMLファイルが作成される。 DEVICE=HTML、もしくは GIFを指定した場合、静的なグラフイメージの GIFファイルが作成さ 寸 PEGを指定し れ、そのファイルへのリンクが貼られた HTMLファイルが作成される。 DEVICE た場合、静的なグラフイメージの.JPEGファイルが作成され、そのファイルへのリンクが貼られた ︼ ノ ︼ η/ υ ︑ 一η

252.

HTMLファイルが作成される ο GOPTIONSステートメントの XPIXEL 、 二 YPIXEL=オプションはグラフの出力に使用される X軸と Y 軸のヒロクセル数を指定する。ここで指定する値に比例して出力されるグラフの大きさが変わ る ェ 3 . 2O D Sステートメントオプション OGTITLE、GFOOTNOTEオプション GTITLE、GFOOTNOTEオプションは、出力デ パイスとして GIFか十ITMLを指定した際に作成 されるタイトルやフットノートに影響する。 GTITLE、GFOOTNOTEを指定すると、 SAS/GRAPH により指定されたタイトノレとフットノートが関連する HTMLファイルで、はなく、出力結果の GIFフ ァイルに書き出されるこ NOGTITLE、NOGFOOTNOTEを指定すると、指定したタイトノレとフット ノートが HTMLファイルを開くと表示されるが、作成された GIFファイルそのものを開くと表示さ れない。後者を選択することにより、タイトルやフットノートが HTMLできれいに表示され、また、 作成される GIFファイルや jPEGファイルの容量を小さくする事が可能で、ある D OGPATHオプション GPATHオプションは DEVICE=十ITML、GIF、jPEGを使用してしも場合、重要なオプションで、 ある。このオプションにより、 GIF、jPEGファイルの作成先を指定する o ここでは ODSステートメ ントで指定する HTML ファイルの作成先と同じ場所を指定する事をお薦めする。 Windows 版 SASシステムにて GPATHオプションを指定せずに GIF、jPEGグラフを作成した場合、そのグ a s r o o tフォルダ'(SASシステムがインストールされたデ、イレクトリ)に作成される。 ラフイメージは s また、日 TMLファイルと GIF、jPEGファイルが別々の場所に作成されるため、日 TMLファイルと GIF、jPEG ファイルの聞のリンクが作成されない。そのため、 HTML ファイルを開いてもグラフ ファイルを探し当てることが出来ずグラフが表示されない。 GPATH オプ、ンョンを使用して、 HTML ファイルの出力先と異なる出力先を指定した場合、 HTML ファイルにグラフファイルへ のリンクが作成される。 OPARAMETERSオプション jAVA、jAVAMETA、ACTIVEX デバイスを使用する場合、 PARAMETERS=オプ、ンョンを使用 することで、出力されるグラフや HTML に対して非常に柔軟なカスタマイズを行う事が可能で、 ある。 PARAMETERS=オプションの構文は以下の通り。 p a r a m e t e r s= ( parameter‑name"= p a r a m e t e r ‑ v a l u e ") ここで、指定するパラメータ名のし、くつかは大文字、小文字が区別さる為注意が必要である。以 下にて、主要な PAI~AMETEI←オプ、ンョンで指定できるパラメータを機能毎に説明するD 3 . 3 背景を制御する Fhd 内 ノ ︼ つd

253.

s a c k C o l o r このパラメータは HTMLの背景色を制御する c デフォルトの値は OSのウインド、ウの色になる。 BackOropColor このパラメータはグPラフの壁(側面、背面、底面)の色を制御する。デ フォルトの値は白。「側 面」は 3Dグラフにおける Y 軸で固まれた部分を示す。「底面」は 3Dグラフにおける X 軸で固 まれた部分を示す。「背面」は 20もしくは 3Dグラフにおける背景を示す。 Backlmage このパラメータでは背景に使用されるパックグ、ラウンドイメージの U RLを指定する。デフォルト では背景には画像は使われず、単一色の背景で表示される。 GradientBackground このパラメータは HTML ファイルの背景のグ ラデーションを制御する。背景に使用される色は r a d i e n t S t a r t C o l o r とG r a d i e n t E n d C o l o rパラメータにて指定する。有効なパラメータ それぞれ G 値は " Y e r t i c a l "か " H o r i z o n t a l " Backlmage パ ラ メ ー タ が 指 定 さ れ て い る 場 合 、 0 GradientBackgroundパラメータは無視される。 G r a d i e n t S t a r t C o l o r このパラメータでは GradientBackground が " Y e r t i c a I "と指定されている場合は上の、 GradientBackgroundが"H o r i z o n t a !勺=指定されてしも場合は左の色を指定する。デフォルトの 値は白。 GradientEndColor このパラメータでは GradientBackground が " Y e r t i c a ! "と指定されている場合は下の、 GradientBackgroundが"H o r i z o n t a l "と指定されてしも場合は右の色を指定する。デフォルトの 値は青。 ImagePosX、lmagePosY これらのパラメータで、は Backlmageで指定された画像の左上部の位置を指定する。ここでは整 任r 仰 a w I 加 I π m 昭 ag e! に こ て "Pos 討 i 江 t t i o n 数を指定し、 D { 像 象 を HTMLフアイルの左上部の隅カか冶ら表示させ、負の整数値は画像を右下部の隅から表示さ せる。 ShowBackdrop このパラメータは棒グ.ラフや散布図の背景の表示を制御する。 "True"のパラメータ値は背景を F a I s e "のパラメータ値は背景の表示を制御する。デ、フォルトの値は " F a l s e "。 表示させ、 " ShowGrid このパラメータは棒グ ラフや散布図の参照線の表示を制御する。 "True"のパラメータ値は参 F a ! s e "のパラメータ値は参照線の表示を制御する。デ 照線を表示させ、 " は"True"。 3.4その他の表示の制御 フォルトの値 A川 ヨ p h υ ηL

254.

ColorScheme このパラメータで、はどのカラースキーマを使用するかを定義している。デフォルトではカラース キーマは使用されない。 GOPTIONSの COLORニオプ、ンョンはこれと同じ機能を果たし、同時に 指定された場合、 GOPTIONによる定義が使用される。有効なパラメータ値は以下の通り。 Beach" C a r n i v a l " C o l o r p r i n t " Commerce" F a l l " Finance" G r e y s c a l e " I n d u s t r i a l " I n t e r n a t i o n a l " Meadow" P a s t e l " P r i m a r y " Southwest" S p r i n g " S c r o l l a b l e L e g e n d このパラメータは凡例をスクロール可能にするかど、うかを制御する 例えば大きな凡例を表示 3 させるようなアウトプットを作成した場合、凡例に圧迫されてグラフが非常に小さく表示されてし まう場合がある。このような場合にこのパラメータを使用すると、スクロール可能な凡例を作成し、 凡例を総グラフ出力範囲の 20%のみを使用して表示させるように制御できる。 "True"のパラメ ータ値を指定する事でスクロール可能な凡例が出力され、 "False"のパラメータ値を指定する 事で、スクロール機能のない凡例が出力される。デ、フォルトの値は "False"。 S i d e C o l o r このパラメータは DEVICE=JAVAで出力された 3D円グラフのグラフ側面の色を制御するにの パラメータはその他のグ ラフ形式や出力形式で、は機能しなし、)。ここではさまざまな色を値とし て設定できる。 "Same"のパラメータ値を指定すると、側面を円グラフと同じ色で出力する。デフ オノレトの値は "Same"。 S p e c u l a r このパラメータは DEVICE=JAVA を使用して 3D円グラフを作成する再に円グラフを照らす光 の反射強度を制御するにのパラメータはその他のグラフ形式や出力形式では機能しなし、)。 このパラメータ値は 0 . 0から1.0の聞を取り、その強度は 0 . 0で最大になる。 Userfmtn このパラメータで、はユーザ一定義のフォーマットを指定する。この構文は FORMATプロシジャ の VALUEや PICTUREステートメントと同じである。 Userfmtnパラメータは複数指定することが できる。末尾の nは lから nまでの値を指定し、複数のフォーマットを区別するために使用する 3 単純な YES/NOを表示させるフォーマットを定義するには以下のように記述する。 paramater‑name = u s e r f m t1 " v a l u e = VALUE YES/NO 1= YES' 2= NO' 3 . 5 基本的な機能を制御する FreqName このパラメータは度数集計グラフを作成したときに作られる度数を値とする変数の名前を定義 する。デ.フォルトの値は "Frequency'二 FreqFmt このパラメータは FreqName で指定された変数名のフォーマットを定義する。デ、フォルトのフオ ‑255

255.

ーマットは BESTフォーマットυ ImageURL このパラメータで、は B acklmageパラメータにより指定された間像をクリックした際にロード‑される URLを指定する。この URLはI I I ] f 像 が" C e n t e r "および" P o s i t i o n "により表示されているときのみ 有効である 3 MenuRemove このパラメーターで、はメニューに表示されるオプションのうち、制御したしものを指定する。ここ ではオプ、ンョンをメニューレベルご、とにピリオド (.)で・区切って表現する。最後に指定したメニュ Y a r i a b l e s "に関連するメニューオプション ーレベル以下のメニューは表示されない。例えば、 " を制御したい場合は以下のように記述する。 MenuRemove" ‑ Y a r i a b l e s " 同様に、ド リルダウンに関するオプ、ンョンを制御する場合は以下のように記述する。 MenuRemove" O p t i o n s . D r i l l d o w n " このオプ、ンョンを指定せずにグ ラフを作成する事で、すべてのメニューを表示させる事が可能 である。 L a b e l梓e l e m e n t このパラメータはク守ラフ要素のラベルを指定する。以下の要素を " L a b e l ̲ * *要素"として指定す る 。 C a t e g o r y X軸のラベルを定義する。このパラメータは AXISステートメントの LABELオ プションが指定されてしも場合、そちらにより上書きされる。 R e s p o n s e Y軸のラベルを定義する。このパラメータは AXISステートメントの LABELオ プションが指定されている場合、そちらにより上書きされる。 S e r i e s シリーズ要素が定義されていた場合そのラベルを制御する。 Group グJレープ要素が定義されていた場合そのラベルを制御する。 S u b g r o u p サブグループ要素が定義されていた場合そのラベルを制御する。 L a b e l ̲ * * R e s p o n s e "="販売価格(合計)" 例)" OサンプノレO 以下はサンプルプログ ラムで、ある。 TABULATEプロシジャで、使用したデータを使って 3次元円 P グラフを作成している。 nhu d ︑ 一qニ

256.

/ 本 O D S出力を開始する本/ o d sh t m 1f i 1 e二 " D :半t e s t半p i e . h t m 1 "( t i t 1 e二 " O D SS a m p 1 e " ) n o g t i t 1 en o g f o o t n o t es t y 1 e = s t a t d o c g p a t h = " D :半t e s t半" p a r a m e t e r s二 ( " D i s a b 1 e D r i l l d o w n " = " T r u e " " T r u e " " S h o w B a c k D r o p " 二 " B a c k D r o p C o 1 o r " " S p e c u 1 a r " = " p i n k " " 1 . 0 ,、 二 " C o 1 o r S c h e噌 刀 二 " S p r i n g " S id e C o1 o r " 二 " S a m e " " S c r o 1 1 a b 1 e L e g e n d " ニ" T r u e " " M e n u R e m o v e " = " O p t i o n s . D r i 1 1 d o w n " " L a b el ̲ ̲ # R e s p o n s e " 二"販売価格(合計)" " G r a d i e n t B a c k G r o u n d " 二 幻 " v e r t i c a 1 " " G r a d i e n t S t a r t C o 1 o r " 二" c y a n り η G r a d i e n t E n d C o 1 o r " 二 " w h it e " ) ; /牢出力デバイスを指定本/ g o p t i o n sd e v i c eニJ a v a / 本 S A S ! G R A P Hオプションを指定本/ g o p t i o n sx p i x e 1 s = 6 5 0y p i x e 1 s 二4 5 0 h t e x t二0 . 5 ; /本凡例を定義する本/ 1 e g e n d 1s h a p e = b a r ( 1, 1 ) c e 1 1 sa c r o s s = 1c b o r d e rC X O O O O O O 二 1 a b e 1二 ( p o s i t i o n = ( t o pc e n t e r ) ) p o s i t i o n = ( b o t t o mr i g h t ) v a 1 u e = ( j u s t i f y二 1 e f t )c f r a m e = w h i t e; /牢タイトルとフットノ トを定義するヰ/ t i t 1 e 1j u s t i f y = l e f tc o 1 o r = b 1 u ef o n t = " A r i a ・ ' l h e i g h t = 1 0 p t" S U G I2 7 " e n t e rc o1 o r = g r e e nf o n t二" A r iaγheig h t = 1 4 p t"サンプル 3 D円グラフ z ' ; t i t 1 e 2j u s t i f y二 c f o o t n o t ej u s t i f y = l e f tc o 1 o r = r e df o n t二" A r ia 1 "h e ig h t = 6 p t"作成田:2 0 0 2 / 0 6 / 0 4 " /本グラフ作成本/ p r o cg c h a r td a t a=S U G I ̲ J . d e m o p r o d; p i e 3 dm o n t h/ t y p e = S U Ms u m v a r = A C T U A La n g 1 e = Of i 1 1 = s o l i dv a 1 u e = a r r o ws l i c eニa r r o w p e r c e n ti n s i d ed i s c r e t ew o u t 1 i n e = 1c o u t 1 i n e = C X O O O O O Oc t e x t = g r a y 二 n o h e a d i n g1 e g e n d = l e g e n d 1 r u n ;q u i t g o p t i o n sr e s e ta l l 二 o d sh t m 1c 1 0 s e; ‑﹁リ の ノ ︼

257.

4. フレーム 一つのデータで複数の集計表やグラフを書き出した場合、一つのフレームを作成しておきコン テンツをクリックするだ、けでリンクするようにしておくと大変便利である。 ODS ステートメントに 少々のコードを加えることで集計表やグラフのフレームを作成することができる 3 以下のサンプルコードは、コメント部分に各プロシジャを記述して使用する。 o d sl i s t i n gc l o s e ; , 二 d:~sugi-J 半 output' ( ur 1 二n o n e ) o d sh t m lp a t h b o d y = 'b d y .h t m1 ; c o n t e n s = ' c o n t . h t m l ' p a g e = 'p g .h t m1 ' f r m . h t m l '( t i t l e = 's a m p l eo u t p u t ' ) ; f r a m e二 ' O D S PR O C L A B E L' TA B U L A T ER E P O R T '; ヰ / T A B U L A T Eプロシジャなどネ/ O D SP R O C L A B E L' G R A P H I CR E P O R T 1 ' ; ヰ / G C H A R Tプロシジャなどり O D SP R O C L A B E L' G R A P H I CR E P O R T 2 '; ヰ / G C H A R Tプロシジャなどヰ/ o d sh t m lc l o s e ; o d sl i s t i n g ; 5 . まとめ 本論文では ODSの機能を利用して集計表やグラフのさまざまなアウトプットの紹介をしてきた。 本文中にもサンプルコード、をし、くつか載せているが一つオプションを加えるだけで、趣向を凝 らしたレポートを出力することができる 3 今回の論文で、は多くのオプションとコード、を紹介してきた。各コードに対応した出力結果を載 せることはで、きなかったが、パージョン6時代とは大きく異なった出力結果を得ることがで、きるよ うになっている。用途に応じてレポートをカスタマイズ、し、より見やすいレポートをたくさん作成し ていただきたいと思う。 「参考文献」 i O u t p u tD e l i v e r yS y s t e m丁目 EBASICSJ SUGI27論文集から iWebE n a b l i n gY o u rG r a p h sW i t hHTML, A c t i v e X, a n dJ a v aU s i n gSAS/Grapha n dt h eO u t p u t D e l i v e r yS y s t e m J ・ CurtisA.Smith,DefenseContractAuditAgency,LaMirada,CA F吋 内 ︒つムυ U

258.

日本 SASユーザー会 (SUG1 ‑ ' ‑ " ) V8における拡張エディタの便利な使い方の紹介 櫓皮孝史・東一成 カスタマーサービス本部プロフェッショナルサービスグループ 株式会社 SASインスティチュートジャパン ConvenientUsageofEnhancedEditori nVersion8 TakafumiHiwadalKazunariAzu 皿 a P r o f e s s i o n a lS c r v i c eDepartment SASI n s t i t u t β J a p a nL t d . 要旨 本稿では V e r s i o n 8より新たに利用可能となった拡張エディタの便利な使い方を構文エラ ーチェックやキーボードマクロを中心に紹介する。この機能を利用することで、これまで SASの文法やプログラミングに煩わされたユーザー、または新たに SASを利用し始めたユ ーザーの利便性の向上に繋がれば幸いである。 キーワード: BaseSASソフトウェア,拡張エディタ,キーボードマクロ はじめに SASシステム V e r s i o n 8は 、 V e r s i o n 6と比較しても多くの機能拡張が行われている。特 に特徴的な面としては、ビジュアル面の向上と使い勝手の向上があげられる。 V e r s i o n 8か らはオープンな環境で利用できるようになり、 J avaや DCOMといったアーキテクチャー を利用した GUIツールが出てきているが、 SASの強みは、以前から利用されている強力な 言語体系を利用できる部分がある事でもある。この強力な言語体系を拡張エデ、イタの新機 能を用いることで、より簡便に利用できることをデモンストレーションを交え説明する。 第 1章 キーボードマクロ キーボードマクロは拡張エディタに追加された機能で、手動で反復のアクションを実行 F h υ η/ ︼ q u

259.

する代わりにタスクを自動的に遂行する単一のマクロを作成し、実行することが出来る。 例えば、 PROCPRINT:RUN:を頻繁に使用する場合、毎回プログラムを記述する変わ りに PROCPRINT:RUN:をキーボードマクロの省略形に登録することで(例えば rpRJ という名称で登録する)、 PRと記述するだけで上記の PROCPRINT ;RUN:を記述するこ とが可能となる。 では、次にキーボードマクロの登録方法と登録したキーボードマクロの使用方法につい て説明する。メニューパーの「ツール」→「省略形の追加」を選択する。すると下記(図1.1.1) の省略キー画面が表示される。 図1.1.1 盤機騒機感蕊機感ミミミま議ミ:三i 目溝型園田園田園田由幽園田縄開輔叩型機 ここで「省略キー」と「省略するテキスト」を記述する。例えば、上記の PROCPRINT:RUN; の例であれば下記(図1.1.2 )のようになる。 図1.1.2 機盤機感、心機!!~~ミミふ主l! E= " ' 1 漣 E 司園田園園田園田醐盟国由自由由由由由出品申由蝿由由開明 九省略今日(8); ! P R一 一 省略するテキスト φ 作ROCP 同卜lT: , IRUN: i唱 t rOKJ をクリックすると登録が完了する。では、登録したキーボードマクロを実際に使用 )のように先程登 してみる。鉱張エディタを聞き、 ipRJ と入力する、すると下記(図1.1.3 録した「省略するテキスト J(PROCPRINT;RUN:)が表示される。 図1.1.3 E * " ' I ! ! 頃 蟹Z 温: J L . g よ担選直盟国自盟問題担盟理盟醐醐醐欝蝿 ‑260‑

260.
[beta]
省略するテキストが表示された時に、 T
ABキーを押すことで PRに代わって省略するテキ

PROCPRINT:RUN;)が拡張エデ.ィタ上に表示される(図1.1.1
)。
スト (
図1.l.1

PRの代わりに PROCPRINT;RUN;が表示

新たに S
ASを利用し始めたユーザーにとって数多くあるプロシジャや関数を覚えるのは

A
Sユーザーにとっても詳細な文法まで覚えることは
非常に大変であり、またこれまでの S
難しい。そこであらかじめこのキーボードマクロでプロシジャの基本形などを登録してお
くことでそういったユーザーの負荷を幾分軽減することが可能になる。次にいくつかのサ
ンプルプログラムを記述する。

サンプルプログラム
1
. MEANSプロシジャを用いたサンプル
キーボードマクロに mcansという名称で下記のプログラムを登録する。
/************************************女女女女女女

MEANSプロシジャの実行
女*女*****女女*女女女女女女女女女**女**女**女*女女女女女女女女女女女女/

PROCMEANSDATA=<データセットを指定>MEANMINMAXN
VAR<分析変数(必須)>;
CLASS<分類変数〉
OUTPUTOUT=<出力データセット名>(統計量)=(変数名);
RUN;
ユーザーは拡張エディタ上で上記のマクロを呼び出し、必要な変数やデータセットの記述

.
1
)だけでプログラムを実行することが出来る。
(図1.2
図1.2
.
1

E A"~晶画正-..,..L五;#~圃圃圃圃圃圃圃圃圃圃園田園田園圃圃圃園田園田

1 /*司-'4':守孝司.,:þ*~::þ'**~.手****唱~*司-'4':キ孝司,,**司F字率."."事傘今季字率*-字寧$
薗'
E
A輔Sヌロシジャの実行

1

3 "マ事..,..,亨寧'ママ.~."T 寧考亨亨事亨亨マキ考,ョr.:r~Tョe牢"..寧ヨ惨亨亨事..,.,~ヨ"-,, .
J

4主
己 PROG 圃EAHS D
ATA • .ashelp.class MEAN MJN MAX N
5
'
1AR a
te ;
S
CL¥
S
S sex
7
O
I
J
T
P
U
T OUT • result mean • heikin ;
a RUN ;

,

9

1
1
) I

261‑

261.
[beta]
また、記述する必要がある変数名やデータセット名にマクロ変数を用いてキーボードマク
ロを作成することも考えられる(図1.2
.
2
)。
図1.2
.
2
1,(聖堕~:守家担ーーーーーーーーーー
1 %Iet indata =sashe[p.c[ass
2 %Iet varva[ = age ;
3 %1et cI
assva[=sex ;
4 %Iet outds =result ;
5 %Iet meanval =heikin
B

7 /特悼紳特紳特判材料J梓悼特特,~.
.
I
'
'
'
.
榊特材料判事判
8

.
.
壬鼻量Sアロシヲャ@実行

9 .~".~.~考孝司ド孝司~.~ド9考孝司酔字キ宇'.~考事事辛孝苧当,宰牢'.1'司F可解当,孝司件、歩キ唱F可解考孝司"百t/
IOBPR日C ~EANS DATA =&indata MEAN MIN MAX N
1
1
VAR !
.
v
a
r
v
a
[;
1
2
CLASS !
.
CI
assvaI
;
1
3
.
OUTPUT OUT =&oulds mean =!
.
m
e
a
n
v
a[ ;
1
4 RUN ;

1
5

2
. 回帰分析を用いたサンプル
回帰分析やクラスタ一分析を行う場合、線形回帰やロジスティック回帰など使用するプ
ロシジャが異なってくる(クラスター分析の場合であれば、階層型・非階層型)。例えば、ま
だS
ASは使い始めて間もないユーザーであれば、線形回帰とロジスティック回帰で使用す
るプロシジヤを混在させてしまうかもしれない。このような場合、キーボードマクロの作
成方法に工夫を施すことで、そういったユーザーの助けになるのではないだろうか。以下
に回帰分析を例にサンプルプログラムを作成してみた。

e
g
キーボードマクロ名:r
登録内容:線形→r ロジスティック→l

②

③
ー
キーボードマクロ名:r
e
g
r

キーボードマクロ名:r
e
g
l

登録内容:

登録内容:

/*線形回帰牢/

/牢ロジスティック回帰*/

P
R
O
CR
E
GD
A
T
A二〈データセットを指定〉

P
R
O
CL
O
G
I
S
T
I
CD
A
T
A=<データセットを指定> ,
M
O
D
E
L <目的変数> =
<説明変数〉

M
O
D
E
L <目的変数〉二〈説明変数〉
O
U
T
P
U
TO
U
T=<出力データセットを指定〉

/ <オプションが必要な場合は指定> ;

O
U
T
P
U
TO
U
T=
<出力データセット> ,

P=<予測値変数名> R二〈残差変数名> ,

B
Y<グループ変数> ,

R
U
N;

R
U
N;
2
6
2ー

262.
[beta]
ユーザーがロジスティック回帰を行いたいとする。このような場合、最初に①のキーボ
.
1
)。ここで線形であれば ir
j
ードマクロを呼び出す(図1.3
J、ロジスティックであれば i]

と表示されているので、 TABキーを押さずに i
lJ と入力する。すると、②のキーボードマ
.3
.
2
)、ここで TABキーを押す。するとロジスティック回帰用
クロが呼び出されるので(図 1
のキーボードマクロの内容が拡張エディタ上に表示される(図1.:
3
.
3
)。

図1.3
.
2

図1.3
.
1
h..
唖~E油Eヨ・・・・・・・・圃圃園田園田園田園

図1.3
.
3

ー

1 /".口タX ァィァク f
i
j
J
l
f
i
t
/
2E;PROC L 日 ~IS Tl C DAH ' <デ‑'"セットを指定>
3 M
日D
E
L <目的変説> ' <
i
R
B
月変蝕 > I<オフションが必要な場合は指定> ;
4
OUTPUT OUT
5 RUN

<出力デーヨセソト〉

J

E

2、CONNECT接続を行う
プロシジャやデータステップ以外にもキーボードマクロを使用することが可能である。
ここでは CONNECTを行う際のサーバーへの接続を例にキーボードマクロを作成してみる。

o
n
n
e
c
tという名称で下記のプログラムを登録する。
キーボードマクロに c
j*********帥***材*材********女*

CONNECT接続を行う
*****女****村吉***********北北村 *
*****j

o
p
t
i
o
n
scomamid=
t
c
premote=
j
p
n
t
e
h;
f
i
l
e
n
a
m
er
l
i
n
k"
!
s
a
s
r
o
o
t
¥c
o
n
n
e
c
t
¥s
a
s
l
i
n
k
¥t
c
p
w
i
n
.
s
c
r
";
s
l
g
n
o
n,

ユーザーは呼び出したマクロを実行するだけで、サーバーに接続を行うことが出来る。
(注:上記のサンプルプログラムはあらかじめサーバー名やスクリプトファイル名が明示さ
れているので、同僚の処理を行う場合はサーバー名・スクリプトファイル名などを環境に
合わせて指定する必要がある)

今︑
υ
p
n
υ

ηノ︼

263.

第 2章 構 文 エ ラ ー チ ェ ッ ク 次に拡張エディタの便利な機能として、エディタの文字の色やフォントなどのデザイン を自由に設定・変更できるようになったことがあげられる。この機能によりこれまで見落 としがちであったスペルミスやクォーテーションやコメントアウトの閉じ忘れなどを事前 に認識することが容易になったことである。 例えば、「未定義のキーワード」の背景を黒、前景色を灰色、「定義済みキーワード」を 青と定義する。もし、拡張エディタ上のキーワードが正しいものであれば青色に変わる。 ステートメント中の最初の文字はキーワードであるため、スペルミスであった場合、灰色 の背景で表示されるため容易にエラーを認識することが出来る。(図 2 .l . l ) 図2 .1 .1 I │図工作タ 三 九γ; γ11ふ γ 川 誌 山 市 民 lGdata t e s t; 2/ . , H ere i s anunreco/Jnizedkey.ord ' p r o d ' ーちノ 人 3 /:~' J l otice ho. t h e section includes 4~ゐ-the line .ith t h emisspelled止e Y J T o r d */ . , / 5l踏襲糠)pri nt 6̲ ‑ Filename中などのクオーテンションの不足も、列が一致するクォーテーションで閉じら .1 .2の場 れるまでテキストの色が変わらないため容易に認識することが出来る。下記の図 2 .l.lのように緑色で斜体になるはずである。しかし 合、コメントアウトの文字は上記の図 2 ながら、 Filenameステートメント中のクォーテーションの閉じ忘れがあるためにテキスト の色が変わっていないのが分かる。 図2 .1 .2 E : i f : l I ! ! i 重 孟 届E遁週邑a ・・・・・・園田園E・E・m留置盟富田富留置盟盟盤蝿謹 守 ︐ Lqoaa Ku 噌﹃の 本来緑色の斜体になるはずが変わっていない カスタマイズについて ここではこれまで述べてきた構文エラーチェックのための拡張エディタの色やフォント のカスタマイズについて言及することにする。まずメニューパーの「ツール」→「オプシ ョン」→「拡張エディタ」を選択する。すると拡張エディタオプション画面が表示される ので、ここでカスタマイズを行ってしぺ。「全般」タブでは行番号の表示などの設定が行え ASのプログラムについてのカスタマ るが、ここでは「デザイン」タブを用いる。今回は S ‑264‑

264.
[beta]
イズであるため、「ファイルの種!Ja
1
Jは

SAS プログラムファイル"を選択する。「ファイ

ルの要素」でカスタマイズを行いたい要素を選択し、その後フォントや前景色・背景色の

.1
.1の場合であれば、以下の図 2
.
2
.
1のようになる。
設定を行っていく。例えば、上記のほJ2
図2
.
2
.
1

ヱ
i
忍i

日 歩 幅 制 抑 明 日 樹 齢機織機ぶミミ、、:、
全段

デザイン

i

:J7イ川柳φ

配色。
対外
名前也〉

‑ファイルの要素

ヨ

I
S
A
S7ロヲラムファイル

ヨj 重弘込己主総立j

r

哲
イ
;
(
!
Z
l
宅

ス~J :7Hß}

ヱi日‑ ‑ 1 0 I
日本語。 7トJ
I
S
)

IMSゴ
ソ
ツ
ヲ

・

7?わゆ凄繁(g).
.
.
.
.
.
.
.
.
.
.
o
.
w
o
.
.
.
'
,.........町一

1E
且

前畠色φ

1/
宮

リ 4叫

テキスト

→「未定義キーワード」
.前景色

ヱ
i

→「黒」
~l

・背景色

.
:
1

習畠色⑮

i
圃灰色

1対)~

1
&同 ナi

→「灰色」

r下韓<U)

・スタイル

ーザ〉ノルコ‑}!‑‑‑‑‑ N

→ iBolclJ

21incIudc lunquolc{色opcn.G~ cslil!
,
;c1
on);

3

4fI 1en~ 剛 e ~Y= prinl~r V~ 叶 r L!st'riel τI
1
:i~"
5d.
oh. lull
6
;
"
レ ut it
Jepl 思 cct i
qtr i
l
l
l
u
n but
.
J
ヒt
;

ヨ
"
, SI.:'C '1C;J'
.
.
prr
,
'
;

d[
t

ロロー笠弘j

第 3章

その他の機能

上記以外の便利な機能として、特定の行をブックマークとして登録できる Bookmark

l
i
n
e
s機能がある。この機能により拡張エディタヒのプログラムが非常に長くなった場合プ
ログラム聞の移動を簡単に行える。ブックマークの登録・利用ともに非常に簡単に行うこ
とが出来る。まず登録を行いたい行にカーソルを移動させ、 Ctrl+F2を押す。するとその行
の左端に図:3.
1のような緑色の目印が表示される。これで登録は完了したので、あとは F2
キーをクリックするごとに登録した行に移動することが出来る。プログラムが数百行にも
及ぶ場合、データステップやプロシジャごとにこのブックマークを登録しておけば、特定
のセクションを捜す時間が大幅に短縮山来るのではないだろうか。
1
8
1
9

TABLE <集計表を作成する変数
OUTP!
LTOUT ' <出力デ}虫包 r
1
0 RUN
/~~,.令"宇宇~~傘寺キ判考キ~~~寺奪考'宇

I
A
8
u
.
iAlF;/ロシヲャ <TJ実お
i
民 本 的 なI
鼻自i
f
L
4f
Fアロシジ今

野複はリヌ 7 レシス告書E
置し
1も ..,:t"'# 司,.~・一争.t'.....,.,~ 司r:,.:.f'_"......,.,~奪、:,...,._",
2
7日 PROC UBULATE DATA ' <デ -~1
2
8
CL/;SS く分~~変蚊〉
9
YAR
<分析変叡〉

処理

ボタン

ブックマーク登録

C
t
r
1+F2

ブックマーク削除

C
t
r
1+F
2
(マークされた行で)

次のブックマークへ移動

F2

前のブックマークへ移動

S
h
i
f
t+F2

登録を行うと表示される

υ

一吋

内/‑

phu

265.

第 4章 ま と め 今回の論文では、 V8拡張機能の中でキーボードマクロ、構文エラーチェックといったユ ーザーにとってはそれほど馴染みのない機能を中心に紹介した。このような機能があるこ と自体初めて知ったユーザーもいると思われる。 ODS等の機能に比べると飛躍的な拡張機 能ではないが、工夫して使用することによりユーザーの利便は向上すると思われる。特に SAS システムの初心者にとっては幾分かプログラムへの抵抗を軽減することにも繋がるの ではなし巾ミと考えている。本論文がそのようなユーザーの契機となれば幸いである。 紙面の都合上、デモンストレーションで使用したキーボードマクロの一部のみを掲載し ているが、興味を持たれた方へのメールの配信も考えている。サンプルプログラムをご希 ' a k a f u m. iH i w a d a @ s a s . c o r nまたは kazunari.Azuma@拍 自 . c o m まで。 望の方は、 T ‑266一

266.

日本 S A Sユーザー会 (SUG I‑J) AppDevStudio2.0における Javaアプリケーション開発手法について 福間岳 力スタマーサービス本部プロフェアンョナルサービス第 2部 株式会社 SASインスティチュートジャパン Javaa p p l i c a t i o ndevelopmenttechniquei nAppDevStudio2.0 Gaku Fukuma P r o f e s s i o n a lS e r v i c eNo2Department CustomerS e r v i c e sD i v i s i o n SASI n s t i t u t eJapanL t d . 要旨 SAS システムを利用した Web 情報配信を T h i nC l i e n t(C/S システム)で実現するよでの、 AppDevStudio webAF、ノフトウエアを使用した Java/We bアプリケーション開発を MVCモデルのよ うな一般的な Java 開発手法との比較を行い、 SASへのデータアクセスの方法や、例外処理につ いて述べ、既存 SASのプログラムを利用するための、汎用的な JSPとServletの作成方法などに ついて記述する。 hhf ワ キ AppDevStudio webAFソフトウェア、 MVCモデル、 JSP、S e r v l e t 1.はじめに 現在、世の中には多くの Webアプリケーションが構築されており、 Webアプリケーション構築に あたっての生産性を高めるべく、様々な開発手法が取り上げられている。 SAS システムを使用 した情報配信をおこなう Webアプリケーションを構築する場合も、 Thin C l i e n t( C!Sシステム) の実現としづ観点では同様であるが、基幹系システムと情報系システムの差異は少なからず存 在する。 Javaを用いてのデータベースに JDBC経由で接続してクエリの結果を返すようなシス テムを構築する場合、通常であれば独自にテープ、ル毎にデータベースアクセスクラスを作りこ む必要がある。この場合、テーブルの持ち方、クエリを投げるビジネスロジック部分、画面との 連携方法などの設計がシステム全体の良し悪しを決めると言っても過言で、はない。ここでで、は、 オブ Webアプリケ一シヨン作成のモデルとデ一夕べ一スが SAS、シンステムの場合との違いや共通点な どを示す事を目的とする。 ‑267

267.

2 .MVCモデルについて I . avaによる Webアプリケーションを開発するにあたって、情報系、基幹系を問わず、適用でき る手法が MVCモデルであろう。 MVCは Model:システム内部の最もコアとなるモデル、つまりヒ、、ジネスロジック View 画面インターフェース (Webアプリの場合は HTML/ . ISP) C o n t r o l :画面からのパラメータをヒ ジネスロジック層に引き渡す為の制御レイヤ F (通常は S e r v l e tを採用する) となり、この 3層(個人的には Datasase層も必要と忠われるが)の開発の切り分け方法が良質 かっ生産性の高いシステムを作る定石と言われている o (図1) View 階層 直面インタ フェース HTML Cont. ro l 階 Modcl 階層 制御レイヤ層 ビジネスロジック層 S p r v l e l DB 階層 EJB JSP DBアクセスクラ ( 図 1 MVCモデ ル) 3 .Model層について SAS システムを導入した場合、 Model 部分は主に統計解析、分析やデータマイニング、の SAS のプログPラムが起動されることになるが、この場合ビジネスロジックの内容がデータベースアク セス処理そのものとなり、データベースアクセス用のオブ ジェクトをヒれジネスモデ、/レとして作成 するのが最も効率が良いミちなみにオラクルの Dsに検索や分析を行うシステムを構築する場 合でも、同様にデータアクセスオブ、ジェクトを作成するこ(ケースにもよるが EJs の Entitysean を使用すると APサーバのメモリ上にリモート OBオブジェクトの参照を常に管理する事になる a v aク 為、パフォーマンスが落ちるケースが多く、通常はステートレスの Sessionseanか単なる J ラスを適用する) このデータアクセスオブ、ジェクトの中身であるが、 SQL を発行する場合であれば、データの Getterメソッドと S e t t e rメソッド・を各カラム毎に用意し、 S e l e c t、(Upda旬 、 Oelete)文をそれぞれ クラス内に用意して、必要に応じてビジネスロジックからデータアクセスオブジ ェクトの各メソッド、 を呼び出して、参照(更新、 i l i l J除)処理を行し、ながら出力する形となる。 Teqプロシジャや gchartプロシジャなどの SAS これに対して、 SASシステムと連携した場合は、 f プログ ラムを実行することで、処理結果が出力できる為、プロシジャそのものをデータアクセスク ラスにそのまま埋め込むことで実現すると思われる。この際、 AppOevStudio 内に備えられてい tlOnクラスで接続し、 Submitインターフェースなどの s e t l コ rogramText()メソッド 内に文 るConn巴c ‑268ー

268.

字列の SASプログ ラムを与えてリモート l 二にある SASデータセットに対して SAS/CONI ¥ECTの n D r i v巴「を通じてフ。ロシジャを実行することになるで、あろう o (コード 1参 ! 日 ここでの SASのアドバンテージとしては、予め SASデータアクセス川のクラスが用意されている t r i n gの変数にす 為、必要なプロシジャをそのまま記述して(必要な分析変数や、分額変数を S ることにより)非常に汎川性の高いクラス、つまり分析のモデ、ル用クラスが作成で、きるところでは ないだろうか。 SQL文で分析用のコードを書こうとすると、コード量は増えるであろうし、さらに汎用性を求めて 上記のように分析項目、分穎項目を変数化すると、 Javaのコードが非常に煩雑になると思わるご さらに SQLを管理する、データアクセスとビジネスロジックのクラス同士の組み合わせが非常に 煩雑になる恐れがある。 SAS の場合、直接クラスに書き込まず、 SAS プロク ラムファイルとして別にモデルを作成し、 Javaクラス内部から該当ファイルを読み込んで、実行させても、さほどの 1/0 は発生しないであ ろうし、モデ、ル自体の拡張性が増大するよ つまり、 Control層にはユーザ(画面)から取得した引数をデータアクセスクラスのメソッドに渡し のみを担わせ、結果として求めている分析結果が得られるとしづシステムが構築 てあげる役割l できると思われる。 この分析モデ /レをコンポーネン卜化(部品化)する事は比較的容易で、 SAS が特化した部分で 1 1す あり、ある程度のパッケージ化が可能で、はなし、だろうか。分析別に(例えば基本統計量を 1 J すモデ、ル、グ ラフを作成するモデルなど)クラスに定義することで開 モデルや時系列予測を/J 発負荷を将来的に減らすことも可能だろう 3 / /S A Sコネクション取得 c o m . s a s . r m i . C o n n e c t i o nc o n二 n e wc o m . s a s . r m i . C o n n e c t i o n ( ) ; " P C " ) ; c o m . s a s . r m i . C o n n e c t i o n . s e t S e r v e r A r c h i t e c t u r e ( c o n, //サブミットインターフェースの生成 s u b m i t= ( S u b m i t l n t e r f a c e ) r∞f . n e w l n s t a n c e ( S u b m i t l n t e r f a c e . c l a s s, c o n ) ; //ソート処理を S A Sプログラムで S t r i n gに倍納 S t r in gp r o g r a mC od eニヤ R O CP R I N TD A T A二S A S U S E R . F I T N E S S ;O U T P U T 二丁目 P 1 ;B YA G E ;P R O CP R I N T ; R U N ; " / /S u b m i tクラスにプログラムをセッ卜する s u b m i t . s e t P r o g r a m T e x t ( p r o g r釧 C o d e ); λGE (年齢)を S t r i n日変数にし u b m i t . g e t O u t p u t T e x t ( ) ; S t r i n gn e w S o r t e d=s て動的に引数を与える事も可能 u b m i t . g e t L o g T e x t ( ) ; S t r i n gl o g ̲ o u t =s となる。 ※ コード 1 サフーミットコード設定フ巴ロク、、ラム phu nwJ q4

269.

一般的に javaで C/Sシステムを構築した場合、最も処理速度のボトルネックとなる部分はデー タベースとの連携であり、遅延が発生するシステムのほとんどがデータアクセスで多くの時間を 浪費している。特にトランザクション管理や、インデックスのつけ方、1/0 処理などのチューニン グを最も意識しなければならないが、 SAS を用いての参照系のシステムを構築した場合そのよ うなトランザクション管理をさほど、意識する必要は無い為、設計、実装共に開発負荷は軽減さ れると思われる。 一方、 SASの場合全てのオブ ザベーションを走査する必要があるため、大容量のデータを扱う F 場合は Webアプリケーションとしてのシステム構築は難しい。つまり Webアプリケーション構築 の場合、当然ながら最低限のレスポンスタイムが求められるため、分析の処理内容、データ数 によって異なるで、あろうが、データマートなど、比較的小規模なデータに分割した上で、分析 のターゲ.ットを絞った Webシステムの構築が望ましい。 また、更新処理や削除処理が少しでも発生しうるシステムの場合、 (SAS/SHAREソフトウェアな どで、ロック管理などが出来るものの)トランザクション管理が Oracle等に比べ非常に貧弱である d b c経由で s q l文を発 と思われる。当然の事ではあるが、 SAS/SHEREソフトウェアを使用して、 j 行するようなシステム開発には細心の注意を必要とすべきだろう。 4 .Viewer層について Viewerに関しては、 j a v aによる Webアプリケーション開発の場合、主に jSPを作成することに なる。ここで重要なことは、 jSPの内部にピ、ジネスロジック (SASの場合は Connection取得やデ ータ操作や SASプロシジャコードなど)を組まないと言うことが前提となる。その理由としてはそ もそも jSPの役割はビジネスロジックを組むことで はなく、引数をサーバ側に渡す事と、サーバ 恨J Iから処理結果を受け取りそれを表示することのみ行えばよし、からである。 特に情報系のシステムの場合、テキストボックスなと、、からパラメータを入れ、結果としてのグラフ や分析の詳細、テーフeル表示などをブラウザに出力する事が最も重要な役割で、あり、仮にビ a v aコードの量が増加し、管理が煩雑にな ジネスロジックをコーデ、イングFしてしまうと、 jSP内の j る。一般的に Webシステムを作成する場合は画面部分は Webデザインのベンダーが作成す るとしりた、開発担当が企業毎に分かれることも多く、 Web デ?ザイナーにビジネスロジックを意 識させないような jSPが望ましであろう。 また、小規模なシステムで、あっても将来的に機能拡張やデータの持ち方が変更したなどといっ た、メンテナンスが発生することを考慮に入れると、 jSP内の javaのコード は必要最低限のもの にすべきである(パラメータ入力用のタグや、出力用のオブPジェクト定義、反復タグなど)。 j a v a S c r i p tのコーデ インク守についても同様で、入力パラメータなどのチェックなどは極力 S e r v l e t a v a S c r i p tのコーディングを避けるべきである。 ( C o n t r o l層)に行わせて、 j webAFを使用しての APl内にはカスタムタグが多数用意されており、 jSPから直接データセット a v aのコーデ イングを意識する事無くシステ を参照して jSP内で、処理を行う事が出来るため、 j ム構築が可能であるが、基本的には SAS との Connection の取得などは.JSP 内で行わず、 270‑

270.

C o n t r o l層である S e r v l e tに行わせるのが理想、であろう。 5 .C o n t r o l層について o n t r o l層の部分は 上記に示したとおり、画面とビジネスロジックの結合を行うレイヤーで5ある C e r v l e tを使用するのが原別であるご一般的に j S P→ S e r v l e t→ E j B→ DBのような 基本的には S C/Sシステムを作成する場合の S e r v l e tの役割は画面から受け取ったパラメータの制御(値チ ェック、整合性チェック)と画面遷移のコントロール、さらにはセッション情報の保持、管理とされ ている。 SASの場合でも C o n n e c t i o nタグを使用して j S Pで SASとのセッションを確立した場合、 ASセッ、ンョンが立ち上がる為、多数ユーザからのアクセスが発 画面が表示される数の分だけ S ASサーバ側に負荷がかかる事になる。このようなケースでは、 A p p D e v S t u d i o 生した場合、 S M i d d l e W a r e S e r v e rを使用して SASセッションを複数ユーザで共有化することも可能で、あるが、 S e r v l e t内で ROCFオブジェクト ( R e m o t e O b j e c tC l a s s F a c t o r y )を生成し、 SASとのセッションを取得し S e r v l e tのセッションオブ、ジェクト内に保持すれば、ブ〉ラウザのセッ ASセッション上で、データセット聞のやり取りが可能となる。つまり、 ションが生きている聞は同一 S S e r v l e tに SASセッションの取得を行わせて一元管理することで¥j S P内で、接続用のコーディン S Pが呼ばれる度に S e s s i o nが グを意識すること事が無くなり作成も簡易化される c 結果として j 立ち上がる事がなくなる為、サーバの負荷も減ると思われる。 C o n t r o l層の最も重要な役割として、ビジネスロジック ( S A Sの場合プ口、ンジャ)からの結果を画 P )に渡すとしづ役割を担っており、セッション聞に保持で、きる情報を必要なタイミングrでL 面(JS j S Pに返す。 e r v l e t のセッションオブジェクトもしくは、ビジネスロジックの E j B この時、 S ( S t a t e f u I S e s s i o n B e a n )のようなセッション問に存続される情報を開発前に予め洗い出しておき、 設計を行うことが必要となる。 C o n t r o l層のもう一つの役割として、画面制御が挙げられる。 SAS の場合画面数が多くなるケ e r v l e t 内で行い、一 ースは少ないであろうが、ログイン画面から始まる画面制御は基本的に S S P lつに対して S e r v l e tを lつ作成し次画面のマッヒ。ング を行わせるのがノーマルな 般的には j P 開発方法である。(コード 2 参照) ー ー ヮの/︼

271.

/ /R e m o t e O b j e c tクラスの作成 c o m . s a s . r m i . R o c fr o c f二 n e wR o c f ( ) ; / /S A SC on n e c t i o nクラスの作成 c o m . s a s . r m i . C o n n e c t i o nc o n= n e wc o m . s a s . r m i . C o n n e c t i o n ( ) ; つ ; c o m . s a s . r m i . C o n n e c t i o n . s e t S e r v e r A r c h i t e c t u r e ( c o n, " P C / /D a t a S e t l n t e r f a c e インスタンスの作成 c o m . s a s . s a s s e r v e r . d a t a s e t . D a t a S e t l n t e r f a c ed a t a S e t二 n u l l ; //以下、データセットとの接続処理 try { d a t a S e t=( D a t a S e t l n t e r f a c e ) o n ) ; r o c f . n e w l n s t a n c e ( c o m . s a s . s a s s e r v e r . d a t a s e t . D a t a S e t l n t e r f a c e . c l a s s,c d a t a s e t . s e t D a t a S e t ( 九a s u s e r . c l a s s ") ; E xc e p t i o ne x ) {例外処理記述} c a t c h( //接続オブジェクトをセッションオブジェクトへ保存 session.setAttributε("eonnec . t i o n ", e o n ) ; ※コード 2:SASとの接続用 Servletクラス内のコード 6 .SASデータベースアクセス処理について 前述したように、 SASシステムに対しての Webアプリケーションを構築する場合、ビジネスロジッ ク内に SASとのコネクションフ ロクーラムを作成する事になる o SAS特有の分析やレポーティングp U 処理は SASエンジンを使用することになる為、 Javaのコード としては、 SAS接続クラスや、グラフ 作成クラス、テーブル作成クラス、集計表作成用のクラスなどを呼び出し、メソッド、を起動させる だけで良い。つまり分析のメイン処理は、 SASが AppD巴vStudiowebAFソフトウェア内で、用意し ている Javaクラス群と、 SASのエンジンにゆだねる事が可能となりアプリケーション開発者は内 部実装に関しては知る必要が無く、呼び出しと戻り値のインターフェースのみを考慮に入れて 作成すればよい事になり、この点においてオブジェクト指向的な見地においても生産性は非 常に高し吐いえる 3 一般的な Webアプリケーションで、は、データベースアクセス処理のプログラ ムを作成し、それぞれ SQL文を発行し、得られたデータの結果をビジネスロジッククラス内で、分 析 ロ 処 理 の コ ー ド を 記 述 す る 必 要 が あ る , SAS システムのパージョン 8より ODS し、しづ、 SAS の分析結果を HTML 結果に吐き出すとしづ機能を使 (OutputDeliverySystem)と S Pや、トITMLに分析結果を吐き出すことも可能と 用すれば、ビジネスロジックからダイレクトに J なる。 勿論、 Web アプリケーションを作成する上で、より複雑な仕組み(結果を吐き出すタイミングでメ ールを飛ばしたり、他の基幹系データと同期を取るなど)が必要になる場合、ビジネスロジック ‑272

272.

層で、のコーデーイングが必要となってくるこ どの機能をビジネスロジック!日で、実装すべきかといった、切り分けが設計段階で必要となるで あろう。 7 .例外処理について 一般的な Webアプリケーションを構築した場合、例外処理を念頭に入れた設計や開発を行主 O E x c e p l i o n )をどのように 特に DBとの連携から発せられる例外 (SQLExceplionや I フロントサイド・に通知するかが重要とされ、例外の設計(切り分け)が大事であると思われる。 SASシステムと連携した場合、まず SASサーバ側で発生したエラーをどのように上位に通知す るかが問題となってくる。 A p p D e v S t u c l i o webAFソフトウェアのような SASm のJ a v aクラス群が用意された中で例外が発 生した場合、発行した SASプロシジャプロク、、ラムのエラーをどのようにハンド、リンク守するかがポイ ン卜となるだろう。 エラーの切り分け方として付け加えれば、システムエラーとヒ守ジネスロジックエラーについての 区別も重要なところである司 SAS で構築するシステム内では、「数値項目の変数に文字変数を 与えてクエリを投げてしまった」、「ライブラリ名称(パス)が存在しなしリなどがビジネスロジック エラーとなるであろうか。一方システムエラーの場合はサーバがダ、ウンしたなどの重度の障害 が起きたケースとなるがこのエラー通知に関してもシステム構築上は欠かせないものとなり、特 に開発前の設計段階で洗い出しておく必要がある ο 勿論ミッションクリティカルな基幹データの 更新などを行う処埋は少ないと思われるが、例外の意識を開発の早い段階で、持つことは安定 したシステムを構築する為の第一条件であると忠われる。 a クラス群のメソッドでは、それぞれ 例外処理の実装方法としては、既存の SAS 用!日 v E x c e p t i o nも用意されているので、クラスを呼ぶ際にきらんと t r y~ c a t c h文でくくり、例外をハ ンドリンク守する。 例外をキャッチした段階で、前もって洗い出しておいた、エラーメッセージとの マツヒ。ンクーを行い、 Viewer層に結果を返す事で実現できるだろう。つまりエラーメッセージ用の マッヒ。ンク守クラスを用意しておくと、開発中に新たに発見されたエラーにも対応できる為、便宜 性が良い。 8 .設計、開発手法について Web アプリケーションを構築する場合、効率的、かっ生産性の高い設計、開発方法が望まれ p p D e v S t u c l i owebAFソフトウェアを利用した場合も例外ではな るo SASシステムを使用した、 A (U n i f i e c lM o c l e l i n g い ミ 特 に 比 較 的 大 規 模 な シ ス テ ム を 構 築 す る 場 合 で あ れ ば 、 UML L a n g u a g e )で、の設計ド キュメン卜作成を行う事が出来れば、将来的なシステムコンポーネントの 再利用性に役立つであろう二 UML ド キュメン卜については、全てを表記する必要は無く、ユー スケース図、クラス図、シーケンス図の 3つを表記すれば卜分であろう。 SAS内にて予め用意さ れたクラスコンポーネントが非常に多い為に、どのクラスを使 mしているのかをクラス図に表記 ηi ワ匂 i

273.

し、ドキュメントとして残しておく事はメンテナンスを考えた上でも非常に重要である。 9 .最後に p p D e v S t u d i o webAFソフトウェアによる ここまで、一般的な Webアプリケーション開発技法と A 開発の違いや共通点などを述べてきたが、最後に開発の上で注意すべき点、優位点などに ついて述べる。 アプリケーションの処理速度面については、純粋に APサーバ内で、データ分析の処理を行っ AS と他の一般的なデータベースシステムとでデータの検索速度を比較した場合、 た時に、 S SASの方が高速に分析処理を行えるであろう ただし、 webAFソフトウェアを使用する場合でも、 ζ 速度面に関しては意識が必要なところである。例えばプログラムコード作成の視点からは、無 ASとのセッションオフ ジェクトを生成するにしても、使用し 駄なループ処理を行わない事や、 S ない(無駄な)セッションは必要なタイミング で、削除を行うなど、コーディング、、に関して意識す べき事は多いごまた、複数人での開発においては、ソース管理をきちんと行う必要がある a A p p D e v S t u d i o 2 . 0においてはソース管理アプリケーションへの連携が整っていないが、時期パ p p D e v S t u d i o 3 . 0 において対応する予定であり、例えばマイクロソフト製品の ージョンで、ある A V i s u a lS o u r c eS a f eなどとし、ったアプリケーションと連携を保ちながら開発が行える。品質やメン テナンス性を考慮した際には、コード‑のデグ レードを起こさなしまうな意識で開発する必要があ るだろう。 A p p D e v S t u d i oを用いた開発では、基本的に SASプログラム自体は、 SQLに比べてコード、数が ASが有利な点であり、特に Webアプ 少ないの為、開発期間は短縮できるであろう。この点は S a v aソースの リケーション開発においてのテ、ータアクセスオフ、ジェクトを作成した場合など、は、 j 内部のデータアクセスのコード、がシンプルで、あれば後々のメンテナンスも考えた上で作成者に とっては非常にありがたいことである。 p p D e v S t u d i owebAFにおいては、基本的にドラッグ&ド ロップ形式で、コードが自動生成 また、 A S Pや A p p l e tなどのグラフの表示に関しては、非常に柔軟性があり開発も容 可能であるので、 j p p l e t 易である。特に、クエリを投げてその結果を動的にグラフに表示させるなどの処理では、 A を自由にナピゲート出来る事や、ヒストグ.ラムをパイチャートに自由にカスタマイズするなどの可 p p l e tや j S Pなどを使用しての p l eチャート、 g c h a r tなどのグラフイ 変性は独自の物であるし、 A a v a開発ツールで、クラスを作成すると非常に工数のかかるものを標準で、備 ックに関しては他の j えているので、他の製品に比べて優位性は高し、と思われる。ある程度の開発テンプレートが出 来てくれば、開発期間も短縮するであろうし、開発教育を行う際にも教育期間が減るのではな p p D e v S t u d i o内で j a v aのコンポーネントが確立しているので、さらに汎 いだろうか。ある程度 A 用性の高いコンポーネント群としてフレームワークが提供することが出来れば、非常に品質の 良いシステムを提供することが出来るであろうミ ‑274

274.

日本 SASユーザー会 (SUG1‑0) V i s u a lBasicによるシンクライアントアプリケーションの構築 0村 山 友 子 段谷高章 株式会社 SASインスティチュートジャパン カスタマーサービス本部 プロフヱツショナルサービス第2部 DevelopingaThin‑ClientApplicationi nVisualBasic TomokoMurayama TakaakiDantani ProfessionalServiceNo2Department CustomerServicesDivision td . SASI n s t i t u t eJapanL 要旨 Windows 版 SASシステム V8eがリリースされてから早2年余りが経ち、 SASI n t e g r a t i o nTechnologies、ノフトウヱ こSAS システムと分散オブジェクトモデルとの統合 アを利用したシステム開発が徐々に進んでいる。本稿では、特 l i s u a lB a s i cを使ったシンクライアントアプリケーションの開発 に焦点をあて、そのアーキテクチャを紹介しつつ、 V 方法について述べる c キーワード: SASI n t e g r a t i o nTechnologiesソフトウェア、 10M、V i s u a lBasic 1 .SASI n t e g r a t i o nTechnologiesソフトウェア概要 SASI n t e g r a t i o nTechnologies、ノフトウヱアは、 V8eより新しく追加された新製品で、ある。この製品は、 SASシステ ムを、企業内に点在するあらゆるシステムやアプリケーション開発環境と統合して利用することを可能にする。具 体的には、分散オブジヱクトモデル、エンタープライズ・ディレクトリサーピ、ス、メッセージング・ミドルウェアという 3 つの業界標準をサポートし、パブリッシングフレームワークと呼ばれる新しい配信機能を提供する。 これらのテクノロジーの中で、今最も利用が活発に進んでいるのが、 SASシステムと分散オブジェクトモデルとの 統合である。 1 . 1I n t e g r a t e dO b j e c tM o d e l( 1 0 M ) SAS I n t e g r a t i o nTechnologies、ノフトウエアの本質は、 10Mを利用することによって、復数のベンダーによる システム構造の違いを乗り越え、 CjS環境の構築を円滑に行うところにある。 10Mは 、 SASシステムを分散オ ブジェクトとして利用するための標準的、かつ明確なインターフェイスを提供している。このインターフェイスに i c r o s o f tの COMや DCOM、Object Management Group(OMG)の CORBA、Java Database よって、 M 戸d ? ﹁ υ ︐ t η〆‑

275.

C o n n e c t i v i t y( J D B C )といった業界標準規格とのシームレスな統合が可能となる。アプリケーシヨン開発者 システムにアクセスするコンポ は、このインターフェイスを利用することで、さまざまな開発言語によって SAS ーネントベースのアプリケーションを容易に開発で きる。この機能は優れた再利用性と開発柔軟性を提供し ている。 10M階層構造のルートイオブジェクトは W o r k s p a c eで、ある。クライアントは、まずこの W o r k s p a c eを取得す o r k s p a c eから提供される。 る。その他のオブジェクトはW それぞれの役割は以下の通りである。 SASフイブラリオフジエクト SASWorkspace L a n g u a g e S e r v i c e D a t a S e r v i c e F i l e S e r v i c e U t i l i t i e s 説明 口一力 jレマシンもしくはサ‑/¥上の S ASセッションを開始する。 SASプログフムの実行やストアドプログフムの呼び出す。さらに、プログラ ムの実行状況を取得。 表形式のデータソースへのアクセスを提供する。 ADO やOLEDB 、JDBC といった標準のデータアクセス A P Iを使用する場合にアクセスポインタの 役割を果たす。また、 SAS ライブラリ参照名の作成や操作を行える。 ファイルや S ASファイル参照名へのアクセスや管理を提供する。 SASW o r k s p a c eの持つ様々なユーティリティをコントロールする。(レザ jレト/¥ッケージ、フォーマット、インフォーマット、オプション、ホスト情報な ど) 以下のイメージ図は、これらのオブジェクトの関係を階層的に表したもので ある。 10M階層オブジェクト 2 7 6ー

276.

10Mインターフェイスは、 Windows版 BaseSASソフトウェアと共に提供される。しかし、これはあくまでローカ 、 COMオブジェクトとして利用する場合に限られているため、ネットワー ルマシンにインストールされた SASを n t e g t a t i o nTechnologiesソ クマシン上に存在する SASをDCOMや10Mを使用して呼び出すためには、 SASI フトウェアのライセンスが必要である一 1 . 2 接続プロトコル クライアントアプリケーションや SASサーバの動作するプラットフォームによって、接続プロトコルが異なるむそ のどちらの環境も Windows環境の場合は、 DCOMを使用することができるが、その他のプラットフォームの 場合には、 SAS独自のプロトコルである 10Mプロトコルを使用する必要があります また、 Windows環境問士 c の接続!こ 10Mプロトコルを使う二とも可能である e ただし、 CORBNIIOP(lnternetInter‑ORBP r o t o c o l )は、現在評価版である。 Ja nCHenl COMC酪省、1 1 制 ndow , , ) • 10M(MVA) 伶 I fu 剖 剛 、1 C羽IlfWl 制。附} 前 0 1 . '( Wil l d 開前!2(J1.'O J t : 挙世包有量) COR9A ~\'l'lndo'削1'fT/2()制 足立:ヶ.問F 1 1 1 1 1 ー ー ー 一 一 ‑ ‑SA.~‘E糊p 懇 芯: r s譲 認 旧 ぽfr ‑一 一 一 一 一 一 CO込V口c < )陣 ・ ー ・ ー ・ ‑ 唱 Co総古島jWf' 分散オブジェクトモデルアーキテクチャ ロCOMjDCOM V i s u a lBasicやV i s u a lC++のようなWindowsクライアントから Windows 環境上の SASサ‑/¥にアクセス n t e g r a t i o nT e c h n o l i g i e sソフトウェアによって提供されている するには、 COMjDCOMを使う。 SASI WindowsC l i e n tインターフェイスは、二つの業界標準をサポートしている。一つは、 ActiveXData inkedEmbeddingf o rDatabeses(OLEDB)である。 Object(ADO)、もう一つは、 ObjectL 2 i 7ー

277.

ロ10MBridgeforCOM SASサ‑/¥がローカル、ネットワーク上のWindowsマシン、 UNIX、OS/390のいずれのプラットフォーム n t e g r a t i o nTechnologies ソフトウェアを使うことによって、 COMルーチンの呼 上で実行されていても、 I び出しを 10Mルーチンの呼び出しに変換し、透過的に SASサーバにアクセスが可能である。 SASを Windows環境で実行している場合、 COM/DCOMを利用する。その他の UNIXや OS/390環境で実行し o rCOMを利用する。 10MBridge ている場合、 COMインターフェイスを取得するためには、 10MBridgef f o rCOMは 、 Windowsサーバ l こ接続する際 l こ使用することもできる。 下記は、 COMがどのように機能しているかを表すイメージ図である。 S 略 I n t田 taiooTedrologi巴 メ/ ・ 1 0 8 r i d g e forα温 Hl '/IP 例) VBアブリ ケーション 10MBridgef o rCOMイメージ図 10MB r i d g ef o rCOMは媒介となり、一方では、 Windowsクライアントと通信する COMインターフェイス を提供し、もう一方で、 SASと通信する TCP/IPコネクションを提供する。 SASは 、 TCP/IPを使って通信する別の媒介を持っており、内部の SASへの呼び出しに変換する。一旦 r i d g e接続で、 呼び出しがあると、 SASは呼び出しが COM接続なのか、 DCOM接続なのか、または 10MB あるのかを問わない。 この全プロセスは非常に早く、毎秒 1000回呼び出しを行うことも可能である。 10MB r i d g ef o rCOMはSAScomb.dllという、 ActiveXコントロールとして提供されている。しかし、直接 これを呼び出すのではなく、代わりに SASWorkspaceManagerを使うべきである。 分散オブジェクト環境においては、ネットワークの速度やサーバのスペック、データソースの場所などに 応じて、アプリケーションロジックの分割を図れることが非常に重要だとされるが、 10MBridgeを使用す ることによって OSの違いに惑わされることなく、コンビュータリソースの最適な活用が可能であるのは、 大きなメリットである。 ロCORBA(CommonObjectRequestBrokerArchitecture) JAVAクライアントから 10Mサーバにアクセスするには、 CORBAを利用する。 CORBAとは、 OMGが定 b j e c tRequestBroker(ORB)は 、 CORBAの重要な要 めた分散オブジェクト環境の技術仕様である。 O 素とされ、ローカル上のソフトウエアコンポーネント(オブジェクト)が、他のマシン上のコンポーネントと通 信するためのインフラを提供する これによって、アプリケーション開発者はビジネスロジックの開発に専 e n t e g r a t i o nTechnologies ソフトウエアは、 10Mb r i d g ef o rJavaと呼ばれる ORBを提供 念できる。 SASI 、 OMG標準インターフェイスを利用し、 10Mサーバとの通信に CORBAに準拠した する。この ORBは i n t e r ‑ o r b プロトコルを使用する, (10MB r i d g e ) 2 7 8一

278.

ロLDAP(LightweightDirectoryAccessProtocol)ディレクトリサービス LDAPは 、 TCPjlPネットワーク上のユーザやネットワークリソース(この場合、 SASサーバなど ) 1こ関する 情報を管理する。 )ケーシヨンから SASサーバへの接続を確立するためには、 LDAPサーバ l こよって管理 クライアントアプ 1 を行う方法と、管理を行わないと方法の二つがある。 LDAPサーバを使う場合 i ま、接続に必要な情報はテキストファイル、もしくは LDAPサーバの中で定義さ れる。一方、使わない場合は、それらをクライアントアプリケーションの中で定義される。定義するのは、接 土、それらに加えて、ポート番号もしくはサー 続するマシン名とプロトコル、さらに Bridgeを選択した場合 l ビス名とユーザ名とパスワードが必要となる c I n t e g r a t i o nTechnologiesソフトウエア i こ含まれる I n t e g r a t i o nTechnologiesA d m i n i s t r a t o r アプリケーシ ヨンを使うことによって、 LDAPエントリを作成することができる。また、テキストファイルでの管理を行う場 合、通常のテキストエディタを使用する。 1 . 3 DCOMと10Mの比較 SASサーバがWindows環境にある場合、何かしらのシステム上の制約がなければ、 DCOMと10Mのどちら の接続プロトコルを選択しでも問題ない c どちらのプロトコルを選択するべきかはシステム環境によって異な る それぞれのプロトコルには、下記のような特徴があるので、システム環境にあわせて選択して頂きたい c DCOM I 側 •M i c r o s o f tWindows 環境における標準プ ロトコルを使用 . MVA( M u l t iVendora r c h i t e c t u r e )のサポート 'SASサーバに関する設定を複数保持可能 'DCOMCNFGによる一元管理 •M i c r o s f t独自の認証と暗号化を使用 こよる管理 ‑スポーナ設定ファイ jレl 'SASjSecureによる暗号化 特徴 利点 管理 暗号化 デーモ ン 制約 e ‑シングルサインオンの実現 'Windows標準の SCM( S e r v i c eC o n t r o l ‑オブジェクトスポーナ Manager)サービス • UNC( U n i v e r s a l Naming Convention) ‑スポーナ設定ファイ jレはすべてユーザが織成 は使用に希J I限あり。 'SASサーバ i まWindows環境のみ。 1.4サンプルプログラム SASセッションの開始 下記プログラムは、 VBアプリケーシヨンから SASセッションに相当する Workspaceオブジェクトを作成し、セッ シヨンを確立する際のサンプルプログ ラムである 接続プロトコルによって、必要となる情報が異なる。 P e 変数の宣言部分は、接続プロトコルで共通のものがあるため、まとめて宣言している。 ワークスペースマネージャを取得 Dim obWSMgr As New SASWorkspaceM anager.WorkspaceM anager ,SASインスタンスを保持 Dim obWS As SAS.Workspac巴 2 7 9ー

279.

エラーを保持 D i ms t r E r r o rA sS t r i n g サ ‑)I定義を保持 O MかL D A Pを使用する場合には、この定義は不要です。 , 牢 C D i mo b S e r v e r D e fA sN e wS A S W o r k s p a c e M a n a g e r . S e r v e r D e f ユーザ名// " ¥ ス ワ ドを保持 O M / D C酬を使用する場合には、この定義は不要です。 '牢 C D i ms t r U s e r I DA sS t r i n g D i ms t r P a s s w o r dA sS t r i n g ,C O Mの場合 S e to b W S= o b W S M g r . W o r k s p a c e s . C r e a t e W o r k s p a c e B y S e r v e r ( " M yw o r k s p a c e ",̲ V i s i b i l i t y P r o c e s s,N o t h i n g," " , " " , s t r E r r o r ) ,D C O Mの場合 '接続プロトコルを指定 o b S e r v e r D e f . P r o t o c o l =P r o t o c o l C o m ,接続定義の名前 o b S e r v e r D ef .Name="DCOMConnection" ,接続先のマシン名 o b S e r v e r D e f . M a c h i n e D N S N a m e= g ̲ s t r M a c h i n e N a n 陪 S e to b W S=o b W S M g r . W o r k s p a c e s . C r e a t e W o r k s p a c e B y S e r v e r ( "問yw o r k s p a c e ", V i s i b i l i t y P r o c e s s,o b S e r v e r D e f," " " " , s t r E r r o r ) ,1 0 Mの場合 'ユーザ名/)~スワ ドを指定 s t r U s e r I D =" M y N T U s e r N a m e " s t r P a s s w o r d =" M y P a s s w o r d " o b S e r v e r D e f . P r o t o c o l =P r o t o c o l B r i d g e O M S p a w n e r C o n n e c t i o n " o b S e r v e r D e f . N a m e= 叩 C o b S e r v e r D e f . M a c h i n e D N S N a m e =g ̲ s t r M a c h i n e N a m e ポー卜番号を指定 o b S e r v e r D e f . P o r t=5 3 0 7 S e to b W S =o b W S M g r . W o r k s p a c e s . C r e a t e W o r k s p a c e B y S e r v e r ( " M yw o r k s p a c e ", V i s i b i l i t y P r o c e s s,o b S e r v巴r D e f,s t r U s e r I D,s t r P a s s w o r d,s t r E r r o r ) L D A Pを利用した場合 s t r U s e r I Dニ " c n = J o s h u aC h訓 b e r l a i n, o u = P e o p l e, o 二S A SI n s t i t u t e, c = U S " 2 8 0

280.

strPassword ニ "MyLDAPPassword" サーバとログイン情報の定義を保持するか、解放するかのオフション指定 。 bWSMgr.Scope= S c o p e G l o b a l '接続に使用した L D A Pサ パ LDAPServer "LDAP://" 色 9strMachineNa間 色 " : 3 8 9 / 0二 SAS Institute, c = U S ", True obWSMgr.Set ,L D A Pサーバのユ ザ obWSMgr.SetLDAPUser strUserID,s t r P a s s w o r d,True 問 ( " M yw o r k s p a c e ' に S e to b W S= obWSMgr.Workspaces.CreateWorkspaceByLogicalNa V is ib i1i tyPr o c e s s," L D A P L o g ic a1 Gr o u p ", s tr U s erI D,s tr E rr or ) SASプログラムの実行(ストアドプログラム) SASサーパ上でプログラムを実行する方法は二つある包一つは、 LanguageService.Submitメソッドを使う方 法である この場合、 SASプログラムは VBプログラムの中に記述する必要がある。 c D i mo b S A SA s SAS.Workspac巴 プログラムをV Bコード中に記述する obSAS.LanguageService.Submit ̲ dataa ;d ox 二 1t o1 0 ; y=x*x*x;" & o u t p u t ;e n d ;r u n ; " g ログをメッセージボックスに出力する MsgBox obSAS.LanguageService.FlushLog(10000) もう一つの方法は、 S t o r e d P r o c e s s S e r v i c eを使う方法であるーこの場合、 SASプログラムは SASサーバ上に 置き、クライアントから渡されたパラメータを取得し、処理を実行するご VBプログ内ラムから SASプログラムに渡 すパラメータ数に制限はない 複数のパラメータをスペースで区切って指定する。 ε き渡される= 以下の例では、 loopTimesマクロ変数は、 VBプログラムからパラメータとしてヨ l D i m obStoredProcessS巴r v i c eA s SAS.Stor巴dProcessS巴r v i c e V l c巴 S e t obStoredProcessService = obSAS.LanguageService.StoredProcessS巴r ストアドプログラムの保存場所の指定と実行 e m p " obStoredProcessService.Repository =" f i l e : c :半t l o o p e r "," l o o p T i問 s = 1 0 " o b S t o r巴dProcessService.Execute" メッセージボックスにログを出力する MsgBox obSAS.LanguageServic巴. F l u s h L o g ( 1 0 0 0 0 0 ) ‑281

281.

c :半temp半1o o p e r .sasの内容 %let loopTimes=3; 牢P rocessBody; dataa ; ; do x = lt o& l o o p t i冊 s ; y=x牢X本x o u t p u t ; 巴n d ; r u n ; obStoredProcessService.Executeが呼び出されると、プログラム中の牢 ProcessBody;ステートメントは、 VB プログラムから渡されるマクロ定義に置き換えられる。 VBプログラムからパラメータが渡されなかった場合、 牢ProcessBody;ステートメントの前に定義された値が使われる。ストアドプログラムを使用することで、 VBプロ グラムと SASプログラムとを完全に分離することができ、それぞれのメンテナンスを容易にすることが可能で ある e 2.SAS機能のモジュール化 V i s u a lB a s iなどのオブジェクト指向言語は、特定の機能ごとに複数の人聞が別々に開発を行うということが容易 に行える。この特徴を活かし、実際にあるお客様サイトではインターフェイス部と SASシステムの機能部分を別々 のベンダーが担当し、一つのアプリケーシヨンを開発した。ここでは、ただフォームを兄J Iにするという方法ではなく、 エラー箇所の特定や配布後のメンテナンス性などを考慮して、 SASの機能部分だけを ActiveXDLしという COMコ ンポーネントにて提供するという方法を取った。本章では、このカスタム DLLの作成方法からエラー J、ンドリングの 方法、コンパイル時の注意点などを紹介する。 2 . 1 カスタム DLLの作成と利用 通常、カスタム DL しを作成するには、以下の手I ! 買に従って行う 2 ロカスタム DLLの作成手順 1 、クラスモジュールの作成 V i s u a l BasicでCOMコンポーネントを作成するには、まずプロジェクト内で、クラスモジュール ( . c l s )を定義 Iモジュールから使用することができる点で標準コードモジ する。クラスモジュールは、プロジェクト内の兄J ュー jレと似ている。相違点!ま、クラスモジュールを使うことで、オブジェクトとして機能を提供できる点にあ る。アプリケーションは、クラスモジュールのインスタンスを作成することで、クラスモジュールに定義され たプロパティやメ、ノッド、イベントなどにアクセスができるようになる c 282‑

282.

クラスモジュールを作成する方法として、プロパティやメソッドなどをコーデインクーで、定義する方法と、クラ スピルダアドインを使用する方法とがある。ここでは、クラスビルダアドインを使用し、クラスモジュールの 一部のコードを自動生成する方法を紹介するご 圃幽‑‑園圃圃園田園園田園田園田盟国圃由由崎明暗額欄鱒機感 S t r t nl : I nt e : r e r S t r i nl : S t n n g S t r i n e 。 8 y V a II n f l dAsS t r i n l t8 y V a l G e t / l e t G e t / L e t G e t / l e t G e t / l e t クラスピルダアドイン 2、作成したクラスモジュールもとにカスタム DLLの作成 V i s u a lB a s i cでは、カスタム DLしを作成するために使用するプロジェクトテンプレートを ActiveXDLLと呼 ActiveXDLLJを選択する。プロジェクトウインド、ウよりデフォルトで作 ぶ。新規プロジェクト作成画面より r 成されている C l a s s 1クラスモジュールを解放し、 1で作成したクラスファイル ( . c l s )を追加する。 Eb 1M圃岨奮副園圃圃圃圃園田園田置盟国薗盟国園田罰置踊睡 山四国師叩醐由時開~ 回想;応 , 口 l ! ; >Proiect 1 (Project 1 ) 目 、 ラ ヲ ラ ス モ シ 〉 、 ーJ 噛 鯨 き で ト 明 示 但1 む; 堅 実 ウィザート マネ」デャ ActiveX 堅 実 Activex DHTML ヰ 、 卜 dト ンD I I ト 守 以 ン 卜 Exe ア フ ヲ ヲ 』 シ ョ ン l1i'均所1( 8 ) ζ l f ! カn l A D c総sl めよ:書き保存~ 名選五組i.1LQ l a 時 10 : に CJ器 s l梯 徹 也J 新規プロジェクトの作成画面 デフォルトの Class1を解放し、新たに作成 したクラスモジュールを追加する 3、Instancingプロパティの設定 カスタム DLLを作成する際には、 I n s t a n c i n gプロパティを設定して、クライアントアプリケーションがそのオ ブジェクトを使用できるかどうか、およびオブジェクトの複数のインスタンスを作成で、きるかどうかを指定 する必要がある, ActiveXDLLの場合、 P r i v a t e、P u b l i c N o t C r e a t a b l e、MultiUse、GlobalMultiUseを選 択することが可能である。 4、DLLの作成 必要に応じて、プロジェクトの名前を変更する。(このプロジェクト名が、 DLLの名前になる。)名前をつけ ‑283

283.

たら、「ファイル」メニューより r P r o j e c t 1 . d l lの作成」を選択し、 DLL を作成する。 LLの利用 ロカスタム D 1、タイプライブラリの参照設定 コンポーネントが登録されると参照可能なタイプライブラリの一覧に表示される。参照設定を行うことで、 i s u a lB a s i cプロジェクトで昇J I 用できる。 プロパティやメソッド、イベントなどのパラメータをV R e g s v r 3 2 . e x eを使って、 COMコンポーネントに畳録されたパスを変更することができる。 R e g s v r 3 2 ま 、. d l lを登録するユーティリティである。以下のようにして、 R e g s v r 3 2ユーティリティ!こ d l lファイル名を号 l 1 数として渡す。 e g s v r 3 2 . e x es a k . d l l 保存フォルダ>r また、レジストリの登録を解除する際には、以下のコマンドを実行する E 保存フォルダ>r e g s v r 3 2 . e x e/ us a k . d l l 2、オブジェクト変数の宣言 コンポーネントのインスタンスを作成して使用するには、オブジェクト変数を宣言して、オブジェクトを参照 する必要がある。 サンプルコ P S e r v i c eとする。) ド(クラスファイル名を S │ィースの作成 D i mc w sA sS P S e r v i c e 3、オブジェクト作成(インスタンス化} V i s u a lB a s i cで、は、オブジェクトを作成して外部コンポーネントにアクセスするには、 3通りの方法があ る 。 New キーワードを S e tステートメントと共に使用する G e t O b j e c t関数を使用する C r e a t e O b j e c t関数を使用する キーワードを使用したサンプルを記します。 ここでは New │…‑ド S e tc w s=N e wS P S e r v i c e 4、オブジェクトの使用 A c t i v e XDLしなどの外部 COMコンポーネントのプロパティおよびメソッドにアクセスする方法は、クラス . c l s )の場合と同じである。 モジュール ( 2 . 2 SASシステム側にて発生したエラーにおけるエラーハンドリング SASプログ、ラム中でエラーが発生した際にクライアントアプリケーシヨンでエラーイベントを発生させるには、 a n g u a g e S e r v i c eオブジェクトの S t e p E r r o rメソッドを使用する。 通常 L ‑284ー

284.

宣言部分において以下を追加する PublicWithEvents obSASLanguage As SAS.LanguageService (途中省略) S e t obSASLanguage = obSAS.LanguageService D i m obStor巴dProc巴ssS 巴r v i c eAs SAS.Stor巴dProcessServic巴 S巴to b S t o r巴dProc巴ssServic巴 二 obSASLanguag巴. S t o r e d P r o c巴ssS巴r v i c巴 obStor巴dProc巴s s S巴r v i c e . R巴pository= " f i l巴:D :半t e m p " E x巴cut巴 " t巴s t ", " " obStor巴dProc巴ssServic巴. (以下、省略) Private S u b obSASLanguag巴̲StepError() D 巴b ug.PrintobLanguag巴.FlushLog(100000) E n dS u b メソッドを使用したサンプルコード StepError なお、クライアントが Windows2000という環境において、この機能を使用するためには、 Windowslこ付属し ている dcomcnfgプログラムを使用してセキュリティに関する設定を変更する必要がある。 1 .r スタート」メニュ から、「ファイル名を指定して実行」を選択 2 .r dcomcnfgJと入力してプログラムを起動 既定のプロパティ」タグを選択 3 .r 4 .r 既定の認証レベル」リストボックスから r (なし)Jを選択 5 .rOKJボタンを押して、プログラムを終了 このようなメソッドを利用する前にインターフェイスにおいて事前に十分な入力規制を行うことも重要である。 2 . 3 クラスモジュールからのエラーの発生 コンポーネントを作成する場合は、次の2種類のエラーを予測する必要がある。つまり、「コンポーネントコード )ケーシヨンに返すエラ で発生し、内部で、処理するエラー」と「コンポーネントコードで発生し、クライアントアプ 1 ー」である。 r rオブジェ 一つ目のエラーは、通常のエラー処理トラップを行い、内部処理する。二つ目のエラーの場合は、 E クトの Raiseメソッドを使い、クラスモジュールにおいてエラ を発生させ、クライアントアプリケーションにエラー を通知する この場合、クライアントアプリケーションでエラー処理トラップを行う必要がある。 c Raiseメソッドの構文 E r r . R a i s enumber, source, description, h e l p f i l e, helpcontext ‑ 2 8 ; )

285.
[beta]
下記の例は、 CreateWorkspaceByServerメソッド、!こよって SASセッションを開始している。このメソッドの
s
t
r
E
r
r
o
rパラメータは、どのサーバ定義が実際に使用されていたのか表す詳細情報を X
ML
形式で、保持する。

複数のサーバ定義情報を保持することも可能であり、これはフェイルオ‑/¥一機能をして働く。つまり、一つの
接続が失敗した場合にも、他の接続が使用され、これはすべての接続が失敗するまで繰り返される。接続が
失敗する理由は、 sasCommandが正しくない、スポーナが起動していない、ユーザ名、パスワードが正しくな
いなどが挙げられる。
t
r
E
r
r
o
rパラメータの値
すべての接続が失敗した場合、 CreateWorkspaceByServerメソッドはエラーとなり、 s
t
io
n /'¥ラメータに
は Err.Descriptionに 引 き 渡 さ れ る 。 こ の 値 は 、 Riaseメソッドの descrip
Err.Descriptionを指定することによって、クライアントアプリケーションへエラーの生成元コンポーネントや

元のエラ一番号を返すことができるので、あとはこの情報を元にデJや:ノグを行ってし、くことがで きる。

On Error GoTo Resume Next

(途中省略)
Set obWS=obWSMgr.Workspaces.CreateWorkspaceByServer("My workspace",̲
VisibilityProcess,obServerDef,strUserID,strPassword,strError)
I
f Err.Number <
> 0 Then
Err.Raise vbObjectError +1000"SPService",Err Description
ー

Err.Clear
Exit Function
End I
f

(以下省略)
CreateWorkspaceByServerメソッドをエラートラップ

<connectionAttempts>
<connectionAttempt>
<sasserver></sぉ server>
巴>
jpntem</sasmachinednsnam
巴
〉
<sasmachinednsnam

<sasport>5310</sasport>
<saslogin></saslogin>
<status>Ox8004274d</status>
<description>Could not establish a connection to the SAS server o
n the requested
machine.

Verify that the SAS server has been started with the ‑objectserver option o
r

that the SAS spawner has been started. Verify that the port Combridge i
s attempting to
connect to i
s the same as the port SAS (
o
r the spawner) i
s listening on.</description>
</connectionAttempt>
〈/
connectionAttempts>

スポーナが起動していなかった場合の Err.DescriptionはML形式)
2
8
6

286.

2. 4 DLLの互換性 一度作成した DLしをパージョンアップや不具合等の問題によって、モジュールを置き換える可能性がある場 合には、 DLLの互換性を保つことが重要である oDLLの互換性が保たれないと再度アプリケーション本体 (EXE)をDLLと一緒にコンパイルして、全クライアントに再配布しなければならなる。この問題を回避するた めには、二つの方法があります。 1、 L a t eBindでActiveX コンポーネントを使う 2、 ActiveX コンポーネントをバイナリ互換モードでコンパイルする i s u a lBasicのヘルプを参照して頂きたい。 前者に関しては、 V D番号によって管理されている。 V i s u a l Basic 後者に関してであるが、 DLしは、それぞ れの GUIDと呼ばれる I はコンパイルの度!こWindowsレジストリに GUIDとそのファイルのありかを登録する合 DLしをバイナリ互換でコ ンパイルしなかった場合、 EXEは今まで使っていた GUIDを見つけることができなくなり、実行時エラーが発生 してしまう。このような状態に陥らないために、バイナリ互換を設定することで、前回の GUIDを継承する必要 があるのである。 3 .I n t e g r a t i o nTechnologieslこ関するドキュメント SAS I n t e g t a i o nTechnologiesソフトウエアには棟々なテクノロジーが包括されているおり、本稿は、その一 面を紹介したものに過ぎない。この他に技術的なドキュメントは、弊社の Webサイトで、多数公開しているので、 こちらも是非参照して頂きたい。 • I n t e g r a t i o nTechnologiesソフトウェアプロダクトホームページ(英語) ・ h 性o :l I w w w . s a s . c o m / o r o d u c t s / i t e c h / i n d e x . h t m l E n t e r p r i s eI n t e g r a t i o nCommunity(英語) h t t o : / / w w w . s a s . c o m / r n d / e a i / i n d e x . h t m l .EnterpriseI n t e g r a t i o nCommunityPaperandP r e s e n t a t i o n(英語) ・ h t t o : / / v . 州w . s a s . c o m / r n d / i t e c h / o a o e r s / i n d e x . h t m l Welcomet ot h eSASI n t e g r副 onTechnologiesWebS i t e ! (英語) h性o : / / w w w . s a s . c o m / r n d / i t e c h / i n t r o . h t m l .sugi25 " E n t e r p r i s eI n t e g r a t i o nTechnologies(英語) Whati st iandWhatcant idof o rme?" / /www.sas.com/user ar o uo s /suai /s u a i 2 5 / 2 501 4 2 .o d f h t t o・ .sugi26 I n t e g r a t i n gSASw i t hanOpenWorld:Java, JSP, LDA門 < , andO r a c l e "(英語) h t t o : / / www2.s a s .com/oroceedi n q s / s u q i 2 6 / p143‑26 .p d f .SAST e c h n i c a lNewsSummer2001 (日本語) 「特集 SASI n t e g r a t i o nTechnologiesソフトウエア」 ‑28i

287.

日本 SASユーザー会 (SUG1‑0) SAS/ACCESSソフトウェア T e r a d a t aインターフェースの紹介 室伏将成 力スタマーサ ビス本部プロフェッショナルサーピ、ス第 2部 株式会社 SASインスティチユートジャパン I n t r o d u c t i o nt oSAS/ACCESSSoftwareTeradataI n t e r f a c e M a s a n a r iM u r o f u s h i P r o f e s s i o n a lS e r v i c eNo2Department CustomerS e r v i c e sD i v i s i o n td . SASI n s t i t u t eJapanL 要旨 パージョン 8よりサポー卜された、 SAS/ACCESSソフトウェア Teradataインターフェースの導入に 際して、必要となる製品、設定や動作環境、接続法を紹介。また、 SAS/ACCESSソフトウェア ODBCインターフェースとの機能・パフォーマンスの比較、 FASTLOADの使用法を紹介するc キーワード: SAS/ACCESSソフトウェア Teradataインターフェース しIBNAMEステートメント、 SQしプロシジヤ、 FastLoad 1.はじめに ノミージョン 8 よ り SAS/ACCESS ソフトウェア Teradata インターフェースがリリースされた o SAS/ACCESSソフトウェア T e r a d a t aインターフェースとは、 NCRの RDsMSである Teradataの データに対し、透過的なアクセスとそのデータ操作を可能にするものである 3 ここで言う、「透過 n t e r p r i s巴 Guideソフトウェアを使って、 的なアクセス」とは SASユーザーが SASシステムや E T巴r a d a t a のデータを読み取りゃ書き込みが可能であることを意味している。こうした機能を利 用することによって、 SASユーザーは Teradata DBMSのフォーマットで、直接データの読み取 I 月等を紹介してして。 りと書き込みが可能になる。以降より、設定手I ‑289‑

288.

2.SAS/ACCESSソフトウェア T e r a d a t aインターフェースの必要要件 T e r a d a t aDBMSへアクセスするためには、 T e r a d a t aのクライアントマシン上に B a s eSASソフ e r a d a t aインターフェース、 NCRの T e r a d a t aクライアント トウェア、 SAS/ACCESSソフトウェア T Windows版で、は T e r a d a t aU t i l i t i e sF o u n d a t i o n ( T U F )と呼ばれる)のコンポーネントの一部 ソフト ( lv 2 ライブラリの以上 3つが必須となる。 SAS/ACCESSソフトウェア T e r a d a t aインタ である CL e r a d a t aクライアントソフトウェアに対応しているが、 TUF6.0以 ーフェースはど のパージ ョンの T P f i xとしづ T e r a d a t a修正ファイルが必要と 前のリリースには NCR社の提供している DR47606e なる。 CL lv 2がインストールされている場合、 l i b c l i v 2 . s o、l i b t d u s r. s o 、e r r m s g . t x tの3つが使用され s r / l i b ディレクトリにある 3 る二これらは通常、 u これらが上記ディレクトリに存在しない場合、 CL lv 2のインストールを行う必要がある c また、こ I s r / l i b以外のディレクトリに存在する場合は別途環境変数を与える必要がある。 1 7 J は以 れらが u i b c l i v 2 . s oと l i b t d u s r . s o がディレクトリ / t e r a / l i b以下、 e r r m s g . t x t 下の通り(以下の例では l がディレクトリ / d a t a / t x t以 下 に あ る 場 合 ) 0 $ setenv LIBPATH /tera/lib $ setenv COPPERR /data/txt 3 .サポートしている環境 動作環境 A I X O S / 3 9 0 ( M V S ) M i c r o s o f tW i n d o w sNT H P ‑ U X 1 1 S o l a r i sSPARC U N I XMP‑RAS T e r a d a t aDBMSは V2R2以降 2 9 0 M i c r o s o f tW i n d o w s9 X M i c r o s o f tW i n d o w s2 0 0 0

289.

4.Teradataへの接続に必要な設定 2で必要とした要件以外に、 /etc/hosts ファイルに COP の設定を行う必要がある。まず h o s t sファイルにホストの I Pアドレスとホスト名を追加する(通常は書込み権限が無し、と思われる ため、一旦権限を変更して、修正後に権限を元に戻す) ホスト名は dbcname COPxとする必 0 要があり、接尾語には必ず COPx(x は数字)をつけなければならない。デ、フォルトのホスト名は DsCCOPl となっている。 Teradataサーバーが複数ある場合、サーバーご、とに接尾語に COPx も含めた 8 文字以内 のホスト名を設定し、接続を行う際には tdpid オプションの桁定が必要となる。また、 dbcname が同じになる場合は、 COPx の x は lから順にする。 1Teradataサーバーの場合、 h o s t sファイノレ l こ DBCCOPl しか登録されていないならば、デ フォルトが DBCCOPlであることより、接続時に tdpidオプションの指定は必要ない。 5.Teradataへの接続と処理の実行 Teradata DBMS のテーフずルにアクセスするには 3つの方法がある。 1つ目の方法は SAS L 1 I 3NAME エンジンを使用した方法である。この方法を用いると、 SAS のリクエストや実行が TeradataDBMSの SQLとして生成され、実行される またオプ、ンョンをつけることによって、 SAS 3 のログウインドウに DBMS側で投げられた処理等が確認できる。 L I B N 必Eステートメントの使用例 1 *DBMS側で流れた処理を SASのログウインドウに表示本/ options sastrac巴二'", d ' sastraceloc=saslog; 本 / T巴radataエンジンを起動し、 T巴radata DBMS と接続本/ 1ibname t巴ralib teradata user=testuser passwordニtestpass; 1 *Teradata DBMS I こ NEW というテープルを作成する * 1 1 *NEWはテーブル EMP の Emp No が 7800~8000 * 1 data teralib.new; a l i b .巴m p ; s巴tt巴r e empno b 巴t we巴n7800 and 8000; wh巴r r u n ; nud nノ ︼ TL

290.
[beta]
(以下はログ)
省略

o
p
t
i
o
n
ss
a
s
t
r
a
c
e
=
'"
,d
's
a
s
t
r
a
c
e
l
o
c
=
s
a
s
l
o
g
;
2

l
i
b
n
a
m
et
e
r
a
l
i
bt
e
r
a
d
a
t
au
s
e
r
=
t
e
s
t
u
s
e
rp
w
=
X
X
X
X
X
X
X
X
;

N
O
T
E
: ライブラリ参照名 T
E
R
A
L
I
B を;欠のように割り当てました。
エンジン: T
E
R
A
D
A
T
A
物理名:
省略

SELECT
4

*FROM EMP 51338963982 no name0DATASTEP

d
a
t
at
e
r
a
l
i
b
.
n
e
w
;

5

巴r
a
l
i
b
.巴m
p
;
s巴tt

6

p
n
ob
e
t
w巴巴 n7
8
0
0a
n
d8
0
0
0
;
where巴m

7

r
u
n
;

省略

SELECT

*FROM NEW8 1338963982 no nam oDATASTEP
巴

省略

CREATE TABLE NEW(EMPNO NUMBER (
6
),
E
N
A
M
E VARCHAR2 (
1
0
),
J
O
B VARCHAR2 (
9
),

阿GRNUMBER (
6
),
HIREDATEDATE,
S
A
LNUMBER(92
),
C
O
M
MN
U
M
B
E
R(
92
),
D
E
P
T
N
ON
U
M
B
E
R(
4
)
)
省略

S
E
L
E
C
T "
E
M
P
N
O
","
E
N
A
M
E
","
J
O
B
","
M
G
R
","
H
I
R
E
D
A
T
E
","
S
A
L
","
C
O
M
M
","
D
E
P
T
N
O
"F
R
O
ME
M
P
省略

WHERE ( (
"
E
M
P
N
O
" BETWEEN 7800 A
N
D 8000) )
省略

I
N
S
E
R
TI
N
T
O NEW (EMPNO,
ENAME,
J
O
B,
M
G
R,
HIREDATE,
S
A
L,
COMM,
DEPTNO) VALUES
E
N
A
M
E,:
J
O
B,
:
阿GR,
TO̲DATE(:HIREDATE,
'DDMONYYYY:HH24:阿
I
:S
S
',
(
:
E
M
P
N
O,:
'NLS̲DATE̲LANGUAGE二American'),
:
S
A
L,
:
C
O
M
M,:
D
E
P
TN
O
)
N
O
T
E
:デ

タセット T
E
R
A
L
I
B
.E
M
Pから 6オブザペーションを読み込みました。

(
巴mpno>7800a
n
d巴
m
p
n
o
<8
0
0
0
)
)
;
W
H
E
R
E(
D
E
B
U
G
:C
l
o
s巴 C
u
r
s
o
r‑C
D
A
=
7
2
8
9
0
1
7
62
01
3
3
8
9
6
3
9
8
3n
on
a
m
e 0D
A
T
A
S
T
E
P
O
M
M
I
T *ー本ー*ー本一本ー本ー* 2
11
3
3
8
9
6
3
9
8
3n
on
a
m
e 0D
A
T
A
S
T
E
P
D
E
B
U
G
: 本 木 本ー本ー本ー本ー* C
N
O
T
E
:デ

タセット T
E
R
A
L
I
B
.N
E
Wは 6オブザべーション、

8変数です。

D
E
B
U
G
: 本一本一本ー本ー本一本ー* C
O
M
M
I
T 本一本ー本ー本一本一本一本 2
21
3
3
8
9
6
3
9
8
3n
on
a
m
e 0D
A
T
A
S
T
E
P
省略

以とのように、 Dataステッフ。を実行した場合は裏側で、 SQLが発行されて、 T
e
r
a
d
a
t
a側で実

‑292
291.

行されているのを確認できる。 2つ目の方法が SQLパススルーで、ある。 SQLパススルーは S i ¥Sのプロシジャで、ある、 PIWC e r a d a t a特有の SQL文を指定するものである o PROCSQLは T e r a d a t aDBMSへ SQL内で T SQL文を渡して、実行が行われるご SQLパススルーの使用例 p r o cs q l ; 牢 /T 巴r a d a t a と接続本/ c o n n巴c tt ot e r a d a t a ( u s巴「ニt e s t u s e rp w = t e s t p a s s ) ; 本 / W o r k ライブラリに N E W というテ ブルを作成本/ c r e a t et a b l ew o r k . n e wa ss e l e c t本 f r o mc o n n e c t i o nt ot 巴r a d a t a 牢 / t e r a d a t aD B M S内の E M P というテーブルから牢/ m p No が 7800~8000 のものを抽出牢/ 本 / E ( s巴1 巴c t本 f r o me m pw h e r ee m p n ob e t w e e n7 8 0 0a n d8 0 0 0 ) ; d i s c o n n e c tf r o mt e r a d a t a ; q u i t ; 上記プログラム中の括弧部分が T e r a d a l aへ渡されて、処理が行われる。 T e r a d a t a側は険索 処理等を返すだけで、実際のテープ i ¥S! I J Uで担うこととなる。この場合、 ル作成部分は S T e r a d a t aDBMSに対して、 S i ¥Sで作成したデータを直接渡すことはできない。 T e r a d a t a側へ渡 e r a d a t aへ読み込ませるような形になる。 す場合は、テキスト形式や CSV形式にしてから T 3つ目の方法は I m p l i c i lSQLパススルーである。 L II 3NAMEエンジンを使用して、 PROCSQL 内で S i ¥Sの SQL文を指定するものである o LIBNi ¥MEステートメントで D a t aステップを使用し m p l i c i l パススルーを S i ¥Sに持たせるのは、 DBMS(この場合、 た場合、 PROCSQLによって、 I T e r a d a t a DBMS)にできるだけ多くの処理を渡す方が効率的だ、からで、ある。以下で T e r a d a t a DI 3MS でも使用可能な SQLの構文、関数を挙げ、また逆に SASでは使用できるが、 I m p l i c i t パススルーの P r o cSQLでは使用できなしものを挙げる ο ・ 使用可能な構文と関数 DISTINCT • S i ¥Sの関数(パージョン 8 . 2以降) i ¥BS, EXP, LOG, LOG1 O, SQIH, LOWCi ¥SE, SUBSTH, TODi ¥Y/Di ¥TE, UPCi ¥SE ・集約関数 ・ * c o u n t (, )c o u n t ( x ), 什e q ( x ), n ( x ), a v g ( x ), mean( x ), max( x ), m i n( x ), sum( x ) JOIN ‑293

292.

• UNION I m p l i c i t パススルーで、使用で、きないもの • CONNECTIONTO ・ 圃データセットオプション INTO句 ・上記リストに無い要約関数 また、 P r o cSQしでは SASでサポートしていない関数等で指定された WHERE句を含むよう e r a d a t aへのクエリーは通さない。 なT I m p l i c i tSQLパススルー使用例 i b n a m eステ 本 / 1 トメントを使用し、 T e r a d a t aへアクセス牢/ l i b n a m et e r a l i bt e r a d a t au s e r = t e s t u s e rp w = t e s t p a s s ; p r o cs q l ; 本 / T e r a d a t aD B M Sへテープル N E Wを作成本/ c r e a t et a b l et e r a l i b . n e wa s /本参照するテープルは T e r a d a t aD B M Sのテ プル E M P* 1 s e l e c t本 f r o mt e r a l i b . e m p 本 / E m pNo が 7800~8000 のものを抽出本/ w h e r ee m p n ob e t w e e n7 8 0 0a n d8 0 0 0 ; q u i t ; 6.SAS/ACCESSソフトウェア ODSCインタ‑フェースとの比較 OOsCは OOsC標準に準ずる OsMSとアプリケーション聞のやりとりを容易にするために確 e r a d a t aインターフェースは SASエンジ 立されたプロトコルで、ある。 SAS/ACCESSソフトウェア T ンの一つであるが、 SAS/ACCESSソフトウェア OOBCインターフェースも同様に SASエンジン の 1っとしてインプりされている。 2つのエンジンの違いは、 SAS/ACCESSソフトウェア Teradataインターフェースは Teradata e r a d a t aOsMS と直接やりとりを行う。それに対して、 CLIv2 インターフェースを読み出し、 T SAS/ACCESSソフトウェア OOsCインターフェースは T e r a d a t aOOBCドライパ経由で T e r a d a t a OsMSへ間接的にやりとりを行う。 ‑294

293.

ノくージョン 8 以前の S A Sユーザーは SAS/ACCESSソフトウェア ODI 3Cインターフェースを用 いて Teradataのデータへアクセスしていた (Teradalaインターフェースはリリースされていなか った)。バージョン 8になって、 Teradata へのアクセス方法がどちらで、も可能になったこともあり、 ユーザーとしてはどういった違いがあるのかをはっきりさせたいと感じていると忠弘以下の表に て両者の機能とパフォーマンスの違いを示す。 機能 。 。 。 FastLoad Read/I n s e r t Update/O e l e t e × 。 ×キ *SQしパススルーでTeradata特有のSQしを書いた時のみ可能 パフォーマンス 生データの読み込み S / AODBCインターフェースは、 S / ATeradataインターフェースに比 べ 、 20%ほどの時間がカ か っ た * h 生データへの書き込み I n s eれのパフォーマンスは 2つのエンジン問で‑差はなかったが、 S /AFastLoadを使うと、 S / A丁 目 白 dutaは桁違いの速さだった* 本上記について、後述の参考文献にて記載する W h i t eP 叩 e rより銭粋したが、詳細な実行環境等は触れら れておらず、また具体的な数値に関しても不明。 以上のように Ter ・ adataインターフェースの方が ODBCインターフェースよりも高い機 能、パフォーマンスを示していることがご確認頂けると思う。 7 . パフォーマンスの向上 SAS/ACCESSソフトウェア Teradataインターフェースで、は TcradataFastLoadLJtilityの特{生 をいくつか共有しており、空テープ、ルへのテープ、ルのロード、やテープ、ルの追加を FastLoadの d 叫J ︑ 戸nη/

294.

をいくつか共有しており、空テーブルへのテーブルのロード、やテープソレの追加を F a s t L o a dの 機能を使用して、高速に行うことができる。 F a s t L o a d は重複行の削除やエラーを拾うことには 弱し、が、非常に高いパフォーマンスを提供することが可能である。 ‑空テーブルへのロード F a s t L o a dを使用しない場合 e r a d a t aへ接続本/ 本 / T l i b n a m et e r a l i bt e r a d a t au s e r = t e s t u s e rp w = t e s t p a s s ; p r o cs q l ; / *S A S D A T Aという S A Sデ タセットを T 巴r a d a t aD B M Sの M A S T E R* / /*という空テブルにロ ド本/ I n s巴r ti n t ot 巴r a l i b . M a s t e rs e l e c t本 f r o ms a s d a t a ; q u i t ; F a s t L o a dを使用した場合 / 本 T 巴r a d a t aへ接続本/ l i b n a m et e r a l i bt e r a d a t au s e r = t e s t u s e rp w ニt e s t p a s s ; p r o cs q l ; 本 / s a s d a t aという S A Sデータセットを T e r a d a t aD B M Sの M A S T E R本/ /本という空テーブルにロード*/ * I n s e r ti n t ot e r a l i b . M a s t e r ( F a s t L o a dニy e s )s e l e c t f r o ms a s d a t a ; q u i t ; ‑テープツレの追加 F a s t L o a dを使用しない場合 / *Teradataへ接続本/ l i b n a m et e r a l i bt e r a d a t au s e r = t e s t u s e rp w = t e s t p a s s ; 本 / T e r a d a t aD B M Sの テ ブ ル M A S T E Rに S A S D A T Aを追加本/ p r o ca p p e n db a s e = t e r a l i b . M a s t e rd a t a = s a s d a t a ; r u n ; FhU のノ︼ A叫d

295.

F a s t L o a dを使用した場合 牢 /T e r a d a t aへ接続本/ l i b n a m et e r a l i bt e r a d a t au s e rt e s t u s e rp w = t e s t p a s s ; 二 p r o cs q l ; 牢 / S A Sデータセットである S A S D A T Aから T e r a d a t aD B M S上に牢/ N T E R M E D I A R Y というテープルを作成牢/ /牢中間ファイルの I c r e a t et a b l et e r a l i b . i n t e r m e d i a r y ( F a s t L o a d = y e s )s e l e c t本 f r o ms a s d a t a ; /牢パススルーを使用牢/ c o n n e c tt ot e r a d a t a ( u s e rt e s t u s e rp w = t e s t p a s s ) ; 二 牢 / I N T E R M E D I A R Yを テ ブ ル M A S T E Rに追加本/ e x e c u t e ( i n s e r ti n t oM a s t e rs e l e c t本 f r o mi n t e r m e d i a r y )b yt e r a d a t a ; 牢 / I N T E R M E D I A R Yは必要ないため削除牢/ e x e c u t e ( d r o pt a b l ei n t e r m e d i a r y )b yt e r a d a t a ; /牢ここまでの実行を c o m i t t* / e x e c u t e ( c o m i t t )b yt e r a d a t a ; q u i t ; 8 . まとめ 以上のように、 SAS/ACCESSソフトワェア T e r a d a t aインターフェースの使用により、 SAS システムから T e r a d a t aDBMSのテープ、ルに対してのアクセス方法をご、確認頂けたと思う。 この文書により、 T e r a d a t aの環境をお持ちである方が、現在の環境を SASシステムによっ て更に生かして頂くきっかけとなれば、これ幸いである。 参考文献: SAS/ACCESSI n . 1 e r f a c e. 1 0T erada . 1 aWhi . 1 ePaper ByDonnaA c l l e ra n c lDougSedlak . 1 aOct Ol . p c l f ) ( h t t p : / / s a s p r o c l .u n x . s a s . c o m / r n c l / w a r e h o u s i n g / p a p e r s / t e r a c l a t 同J n /ハ︼ ︐ 円n

296.

口頭論文発表 金融

297.

日本 SASユーザー会 (SUG1‑0) 金融業の顧客の推移分析 小野 潔 UFJ銀行リテール業務部 CustomerT ransitionAnalysisinFinancebyDataMining Ki y o s h iOno R β阻 i lM a r k e t i n gDe p r u t m e n t ,UF JBankL i m i t e d 要旨 データマイニングは新しい顧客分類を金融業にもたらしたが、 CRM の分野では 戦術レベルにしか利用されていない。その一つの理由は、顧客セグメントの時系列 変化に関する研究が少なく、中長期の CRM戦略の観点から使いづらい点にある。そ こで本研究は顧客の推移分析を試みた。顧客セグメントは業務上の意味を持たせる ために決定木の強制分割で作成した。その継続・剥落ルールを基づいて 3期間の顧 客セグメントに含まれる顧客の変化を調べ、顧客の推移パターンを抽出した。次に 「吸収マルコフ連鎖モデル」と「順序アソシエーションルール」を推移パターンに 適用し、「顧客のリテンション分析」と「顧客の推移パータンの解析」を試みた。そ の結果、推移確率行列から顧客ウェイトの変化を求める方法と、推移パターンから 確信度が高い継続・剥落パターンを探索する方法を開発した。これら分析法は顧客 の推移分析に有効であり、新しい研究分野の方策を示した。 キーワード:データマイニング 推移確率行列 吸収マルコフ連鎖モデル 順序アソシエーションルール S A S l En t e r p r i s e M i n e r 1 . はじめに 1 9 9 0年代にアーサ一・ヒューズが促1 1 1 1した新しい CRMは 、 L TV( L i f e T i m eV日l u e )に基いて顧客セグメント毎(こ CR: V l戦略を構築するもので‑あったo 小売業の顧客セグメン卜は R F i v l分析を用いて作成することができるが、金 融業では一般顧客を単に Rr !vl分析を当てはめても有効性は低い。金融商品や取引は、小売業の Wí '1~財と性 格を大きく異なるためである。そのため、金融業ではデモグラフィク(年齢・性別等)と取引履歴データから顧客 セグメントを作成する。 デ ータウェアハウスの誕生とデータマイニングー技術の発達は、数百{i.';jの顧客セグメン卜をもたらした。しかし現 p .なる CWvlの戦術レベルで終了してしまうケースが大半である。その理由の一つ 状ではダイレクトメールなどの i R i v l戦略に使いづらい点にあるc そ は、顧客セグメントの時系列変化の研究があまり進んでおらず、中長期の C こで本研究は顧客セグメント作成後の分析に重点をおき、「吸収マルコフ連鎖モデ、ル」と「順序アソシエーション ノレール」を用いて、「顧客のリテン、ンョン分析」と「顧客の推移パターンの解析」を試みた。 2 . 分析の概略 金融業の顧客セグメントは、継続・剥務顧客をターゲット変数とし、 S : ¥ S / E nte r p r i s ev l i n e r (以後 SAS/E: V l と略す)の決定木の強制分割により作成する。 得られたルールを 3 W lJili統の顧客データに適用し、顧客のセグメ ントの推移パターンをf I l l 出する。これらの限移ノミターンに吸収マルコフ述鎖モデ ルと順序アソシエーションルー ルを適用する。 吸収マルコフ連鎖モデ、ルは、ある一定期間内に顧客が移動する顧客セグ、メントを惟移確率で、表わす 推移 p 3 0 1

298.

確率 ( T r a n s i t i o nP r o b a b i l i t y )は、顧客セグメントに含まれる顧客数(=顧客ウェイト)の推移から求められる さらに 将来の顧客ウェイトの変化は推移確率行列の積で叶算で、きる。行列計算は、 SAS/IMLを利用する c 一方、 ) [ 1 買序アソシエーションルールは顧客のセグメント推移ノ fターンの分析に用いる。例えば、 1 0 0個の顧客 セグタメントの 2期推移の組合せパターン数は 1 0 0 0 0 ( = 1 0 0 * 1 0 0 )個もあり、 3期になると 1 0 0万個ノ fターンにおよぶ ため、順序アソ、ンエーションルールを用いて確信度が高い推移パターンを選択する。順序アソシエーションル ールは S AS/Evlを利用する。 (分析フロー) ①複数の顧客データベースの中から、変数の AIC値と業務経験から変数選択 ②有効な変数をまとめたデータマートを作成 ③強制分割による決定木分析を実行 ④決定木分析の得られたルールを 3期間H 半年ベース)の顧客データに適用 ⑤得られた顧客の推移ノ fターンをトランザクションデータへ変換 ⑤トランザクションデータから吸収マルコフ連鎖モデルを作成し、将来の顧客変化を推移行列で計算 ⑦トランザクションデータに順序アソシエーションルールを適用し、顧客の推移ノ fターンを抽出 O 3 . 決定木分析による顧客セグメント作成の留意点 決定木の特徴は離散属性と連続属性を共に分析でき、同時に実務者がそのルールを理解しやすい点に ある。一般に実務家が顧客を分類するときは、金融商品・性別・年代等の離散属性を最初に選択するが、 決定木は取扱期間・年齢・人出金回数等の連続属性を最初に選択する。そのため決定木に違和感をもっ 実務家が多い。決定木の分割は属性の分割基準値で決定されるが、そのアルゴリズムは離散属性よりも 連続属性や多様値属性を優先的に選択するためである。決定木 C 4.5は多様値問題を改善するために利 得比基準を用いるが、連続属性の選択問題を解決したわけでない。そこで顧客セグメントに業務上の意 味を持たせるために、分析者は恋意的に決定木を分割する。このような操作を対面学習による強制分割 という。 SASIEMは分岐部分で各属性の情報量値をユーザーに表示し、強制分割が容易にできる機能を 提供している。 継続・剥落顧客の分析は、剥落顧客の負事例データが少ないことが問題になる。少数のデータを最大 限に使用する方法は、①負事例データに合わせて正事例データをランダムサンプリングし、分析後に調 整係数を用いて剥落率を実測数に変換する方法と、②クロスバリデーションによる複数のサンプリング から多数のモデルを作り、平均値を求める方法(アンサンプル学習モデル)等がある。今回は推移パタ ーン分析のために、ルールに業務上の意味を持たせることができる①を採用した。 分析データは業務経験から複数に分割し、各グループ毎に剥落顧客と継続顧客が 1:1にサンプリン グし、その合計約 30万件 150項目のデータを使用した。このユニパースを学習データ:検証データ: テストデータ =5 :3 :2に分割し、下記のような約 100個のルールを作成した。 I F DSUM6D く ‑ 1 0 9 5 21 .5 /キ前期と当期の預金平残高の差キ/ AND 1 3 7 6 6 . 5 く = DSU~6K2 /キ預金平残高卒/ AND DSU¥ 16 J K 2く 2 0 1 2 2 9 1 /キ総残高卒/ AND T R IM N く 5 6 . 5 /キ取引月数キ/ AND LSU~6K2 く 8 9 4 0 2 . 5 /キ貸出の期末残高卒/ AND LHO~6B = ' 0 ' /キ住宅ローン無しキ/ A ¥ " DD T E I O P i n( '0 0 ',' 0 ] '" 1 1 ' ) /キ前期と当期の定期預金の遷移状態キ/ T H E N N O D E = 1 0 0 0 2 1 6 ; /キ顧客セグメント番号キ/ 継続・剥落顧客のルール例 4 . 顧客の推移確率と吸収マルコフ連鎖モデル 顧客セグメントに含まれる人数は、顧客がセグメント聞を移動するため、計測する時点が違うと同じセグメン トでも含まれる人数が変化する e 本研究では、顧客セグメントのウェイト構造の変化を分析するために、吸収 マルコフ連鎖モデ、ルを適用した マルコフモデルは、各顧客セグメントに含まれる顧客の推移が確率的に予測できる。マルコフ連 鎖 (MarkovChain)は将来の状態が現在の状態に依存し、状態空間が離散的な確率過程のことをいう。 η A H υ qtu つ zU

299.
[beta]
吸収マルコフ連鎖は、一度到達したら抜け出すことのできない吸収状態を含む。計算を簡単するた
め、既存顧客のみの推移確率行列を考える。当期の継続・剥落顧客ルールを、次期の顧客データに
適用し、 99個の顧客セグメントに分類したとする。各セグメントの当期から次期へ推移した顧客数
を集計すれば、推移確率行列 (
9
9行 99列)が算出できる。行列の要素は顧客ウェイトであり、剥
落確率を表わす行と吸収状態を表わす列を付け加えて、 (
1
0
0行 100列)の行列を作成する。吸収状
態の表わす列は、最終列 100~IJ が l となるのを除いて、すべて O である。
推移確率行列を構成する要素 r
(
n,m)は、当期 mセグメントの顧客が次期に nセグメントへ移った
確率を意味する。制約条件は、 1>二 r
(
n,m)>二 Oでかつ、 mセグメント内の全顧客数を lのウェイトで
表わす。
r
(
1,
r
(
l,
l
)
2
)
1
'(
1,
9
9
)
吸収状態を表わす列
1
)
1
'(
2,
2
)
1
'(
2,
9
9
)
r
(
2,

。
。

o;

R=
r
(
9
9,
1
). x(992
)
.…
・
ヲ

1
・
(
!
19,
9
9
) ¥0

tOOO,l
) r
(
1
0
0,
2
)
.
.
.
.
.r
(
1
0
0,
99}¥~
条件式

キー一二一

1>=r
(
n,
m)>=0
剥落確率を表わす行
r
(
l,
l
) + 1'(
2,
1
)
+.
.
.
. +r
(
9
9,
1
)+r
(
1
0
0,
1
)ニ 1
1
'(
1,
2
) +1'(
2,
2
)
+.
.
.
. +r
(
9
9,
2
)+1'(
1
0
0,
2
)=1
r
(
1,
99)+ 1'(
2,
99)+ … +1'(
9
9,
99)+r
(
1
0
0,
99)=1

将来の顧客セグメントのウェイトは推移確率行列の積から算出できる。 ωは各期のセグメントの
ウェイト、 tは期数を表わしその総和は 1
00(%)である。その最終行は剥落セグメントのウェイトで
ある。
ω(t)
次期のウェイト
ω(t+1
)
R
(
t
)
条件式
エω=1
分析結果を図 1に示す。すべてのセグメントは剥落顧客の増加に伴って、顧客ウェイトが減少する。急
激に減少するセグメントは、決定木か、営業上の理由に起因する。逆に剥落・解約が少ない(例えば親
が子供のために貯蓄するような)顧客セグメントが存在すると、 H
寺問を経るにしたがって巨大セグメン
トへと変貌する。決定木の分割を変えることで、このような事態を避けることができる。

*

"f

一一丁一一「一一一一一一一一‑‑
一
一
一
一
一
一
!
一
一
一
一
一

ーーよーー一一ーーー一一一 L 一一一一‑‑‑

‑ 叩

汁 / ,

移

即時
ト
4一

ぷ一イ

.司一エ
M
ウ

︑/

ka

メ
グ

セ

図 1

1

ω

ー
に
一
一
ー
ム
ー
‑~ 一

一一

一
一
一

一 一 句 一

一

一一一一一一‑

".竪o
市長凶

ι ι

T勘1
0
1

TDA2 TtIWEJ

7
D
.
E
5 lD長6
字期パース

l
t
'
A
:4

l
t
'
A
:7

~勘定B

下
弘ε9 T
勘E
IO

図 2 剥落顧客のウェイトの推移

次に剥落顧客のウェイトを合計すると、図 2の増加関数が得られる。将来の剥落率は単純に推移確率
行列の積であるため、予測期間が長いと現実とかけ離れた結果になる。そのため、意味ある期間を吟味
する必要がある。(留意点:図 2はサンフリング等の条件が多いため、誤解が持たれないように縦軸の
単位をつけていない)
現実モデルに近づけるには、新規顧客と復活顧客を考慮し、次のように改良する。①新規顧客の移動
qd
ハHv
qu

300.

遷移行列 S(100行 100列)を作成し、次の行列演算を行う。 ω(t+1 )ニ ( R ( t )+S ( t ) ) *ω(t) ② 2期もしくは l期以内に剥落セグメントから復活する顧客を計測し、推移確率行列の吸収状態の表わ す列の Oを変更する。ただし復活顧客の収益性は低いため、 CRMの観点からは比重が小さい。 5 .! J 頃序アソシエーションルールによる顧客の推移ノ fターン解析 マルコフ連鎖モデルは顧客セグメントの時系列変化が算出できるのに対して、 j l f l序アソシエーション は顧客の推移パターンを探索できる。アソシエーションルールは、事象の頻度と確信度を指標として同 時発生するパターンを取り出す。パターンの組合せば膨大にあるため、冗長なものを取り除くアプリオ リ・アルゴリズムが開発されている。その特徴は、単独のパターンから徐々にパターンの組合せを培や していき、設定した最小支持度以下の組合せを除くことである。つまりアプリオリ・アルゴリズムは膨 大なパターンの組合せをすべて調べるのでなく、無駄な組合わせ計算を省くことで、大幅に計算速度が 向上させる。 アソシエーションルールの評価指標は、確信度 ( c o n f i d e n c e )・支持度 ( s u p p o r t )・リフト値である。確 信度は相関の強さを表わし、当期に続けて次期が起こる確率を表わす。支持度は全体集合の中で、その 組み合わせが起こる確率である。リフト度は確信度を期待確信度(確信度の期待値)で割った値である。 例えば顧客 10000人のうち、牛肉を 2000人、しらたきを 500人、牛肉としらたきを 200人が購入し たとする。発見されたルールは、顧客が牛肉を購入するとき、その 10%は同時にしらたきを購入するル ールである。評価基準の各値は、確信度 200/2000=10%、支持度 200/10000=2%、期待確信度 500 /10000=5%、リフト佑二確信度/期待確信度 =2 となる。意味がある推移パターンは、確信度がほか に比べて大きく、かつ支持度が大きく、リフト度が lより大きいことである。逆に般信度が大きくても 支持度が低いルールは業務上の解釈に照らし合わせる必要がある。 順序アソシエーションルールは、アソシエーションルールに時間的な順序を考庖、したものである。顧 客のセグメントの推移パターンに適用すると、「当期はセグメント A に属した顧客は、次期にはセグメ ント B に属する可能性が高い」といったルールが得られる。 順序アソシエーションルールの対象データの構造は、顧客 ID 、顧客セグメント ~J 、順序(時間)か ら構成されるトランザクションデータである(表 1 ) KBR ¥ i OKCFNOは顧客 I Dを 、 ¥ iODEはセグメント(ル ール)番号を、 T I M Eは観測 H 、 5 点を表わす。 l時点のデータ数は、継続・剥落顧客約 3 0万件サンプリング を実測数に復元した 2 0 0万個データである。 3 1 1 寺点の合計数は約 6 0 0万個となる。セグメント数は、既 存顧客セグメントに剥落状態を加えた約 100セグメントである。 0 備考:順序アソシエーションでは、 T I i I Eは S E Q U E N C E、O R D I N A Lを、タ ーゲットの N O D Eは ~O\IINAL を設定 する。TIi I Eは順序1.2 .…や日付を 用いる。 (分析結果) 3時点の分析から、 2チェーンと 3チェーンの順序アソシエーションのパターンが得られる。 3チェ ーンは 3期連続のセグメントの推移パターンである。 2チェーンは l時点と 2時点、 2時点と 3時点の 合算のパターン分析となる。今回は最小支持度 1 0 0個で約 8 0 0パターンが出力された。表 2に、① 2チ ェーンで継続パターン、② 2チェーンで剥落パターン、③ 3チェーンで継続パターン、④ 3チェーンで 剥落パターンの 4分類を示す。確信度の降順に並べた表 2①の l行目のパターン [ 1 0 0 0 2 8 2 ==) 1 0 0 0 2 8 2 J は、当期セグメント 1 0 0 0 2 8 2に所属し、かつ次期セグメント 1 0 0 0 2 8 2に所属するパター 0.84%でサポート値は 0.38%を意味する。 ンの確信度は 9 ①は継続顧客の推移を表わし、上位のパターンはセグメント間のメインパスである。上位は自己への 推移パスが多いが、下位では他セグメントへの推移パターンが現れる。このようなサブパスの中か ら剥落率がと昇や下降する推移パターンを調査し、業務の有効なアブローチと結び付けることが次 の目標となる。 9 9 9 9 9 9は剥落状態である。ここでは 1 0 0 0 1 8 9に ②は剥落モデルを意味しており、セグメント番号 9 ← 3 0 4

301.
[beta]
所属する顧客の 89.96%が剥落する。アソシエーションルールの剥落状態へ推移する確信度は、顧客の
剥落率と同値になる。
③、④の 3チェーンは 2チェーンと比べサポート度が低くなる代わりに確信度が高くなる。サポート
度が低いため、 3期連続で推移するパターンは少ない。④の剥落バターンの中には、徐々に剥落率が高
いセグメントへ推移し剥落するパターンも確認できる。
2チャーンを 2個つなぎ、剥落率が 2連続で上昇する剥落パターンを抽出すると(表 3)、剥落の遷
移状態がわかる。同じセグメントに属する顧客でも至る経路が違えば、その C
R
¥1の対応策も相違する。
ただし連続推移でないため、決定木のルールに基いて原因を探求する。
行I
?チt ーンの締結パターン(確信 r
.
i
fl
i
厨1
サ
ホ
。
ー
トn
f
立
(
%
) 確信度(%)
パターン
q
nR
4
n:
<
:
<
n
n
nワ
R
?
l
n
n
n
?日? ==) 1

的ワチてーンの是l
[
i
友パターン(1i'lli1
1
'
;I
す[
I百)
サ
ホ
。
ー
ト
(
D
'
(
(
弛
) 確信度(%)
パターン

2
3
4
5
6
7

0
.
9
7
0
.
2
9
0
.
5
4
0
.
0
6
0
.
8
0
1
.9
7

8
9
.
2
3
8
8
.
9
4
7
7
.85
7
4
.
8
5
7
3
.
2
1
7
2
.
8
9

2000630==) 2000630
1000259==) 1
0
0
0
2
5
9
3000966=
ニ
)3000966
1
0
0
0
2
1
1==) 1
0
0
0
2
1
1
2000695==) 2000695
1000286==) 1000286

n1
1
0
.
2
3
0
.
7
7
0
.
3
0
5
.
0
5
1
.
2
2
1
.1
8

Rqq
日
7
0
.
0
3
61
.8
4
5
6
.
5
3
5
6
.
2
7
5
3
.
8
2
5
2
.
5
6

1
nnn1
Rq==) qqqqqqq
1000259==) 9999999
二
)9999999
3000971=
2000655二
二
)9999999
ニ
)9999999
3000972ニ
2000664==) 9999999
3001002二
=
)9999999

9
5
9
6

0
.
1
8
0
.
3
9

1
9
.
8
3
1
9
.
8
2

二
)2000694
2000711=
3001008==) 3000972

0
.
1
2
0
.
3
6

1
1
.
3
1
1
4
.
0
6

3000858==) 9999999
二
)9999999
2000701二

(確信庶順)
(
正
):j チェーンの菊[~存ノミターン
(
l
i
在f
邑j
す1
1
1百
)
(
吉
)3
チェーンの締結パターン
サ
ホー
ト
!
直
(
%
) 確信度(出)
サ
ホ
。
ー
トu
f
直
(
叫
)確信度(叫)
パターン
パターン
0
0
0
6
3
0==)2
0
0
0
6
3
0ニ
ニ
)2
0
0
0
6
3
0 0
1
0
0
0
1
8
9==) 1
0
0
0
1
8
9==)
9
2
.
7
3
0
.
8
2
8
1
.
6
8 2
.
0
8
ワ
1
0
0
0
2
5
9==) 1
0
0
0
2
5
9三
ご
〉
0
0
0
7
2
0 0
45 2000720==)2000720==)2
.3
5
.
2
0
71
6
7.
1
.2
8
6

。
。

6
7

0
.
1
8
.
2
6
.
2
0
0
.
2
4
0
.
8
5

6
2
.
7
4
6
2
.
1
6
.1
0
61
5
9
.
8
2
5
9
.
7
7

0
0
0
7
1
9==)2
0
0
0
7
1
9
2
0
0
0
7
1
9==)2
=
)2000700=
二
)2000700
2
0
0
0
7
0
0二
1
0
0
0
2
8
2二
二
)1
0
0
0
2
8
2==) 1
0
0
0
2
8
2
3
0
0
0
8
7
3==) 3
0
0
0
8
7
3==)3
0
0
0
8
7
3
2
0
0
0
7
2
7二
二
)2
0
0
0
7
2
7==)2
0
0
0
7
2
7

0
.
0
7
0
.
0
8
0
.
0
8
0
.
0
7
0
.
0
6

6
7
.
3
2
6
7
.
1
1
6
3
.
1
8
6
1
.
3
2
5
9.
46

1
0
0
0
2
6
6==)2
0
0
0
6
6
4==)
1
0
0
0
2
8
6=
二
>2
0
0
0
6
6
4二
二
〉
2
0
0
0
7
3
8==) 20007~0 二三〉
2
0
0
0
6
9
4==)3
0
0
0
9
7
1==)
0
0
1
0
0
7==)
3
0
0
0
9
0
1==)3

5
1
7
6

0
.
0
5
0
.
0
6

3
8
.
2
0
49
2
7.

2
0
0
0
6
8
0==) 2
0
0
0
7
0
6二
二
)2000706
2
0
0
0
6
8
2==)2
0
0
0
7
2
0==)2
0
0
0
7
2
0

0
.
2
9
0
.
1
8

4
0
.
3
4
.1
1
31

3
0
0
0
9
6
2=
三
)3
0
0
0
9
6
2=
二
〉
1
0
0
0
2
5
2=
二
)1
0
0
0
2
5
2==)

3
ヨ

表 2 順序アソシエーションの分析結果
前期
2
3
4
5
6
7

2000699
2000699
2000699
2000699
2000699
2000699
2000720

最
J
l
落率

4
.
1
%
4
.
1
%
4
.
1
%
4
.
1
%
4
.
1
%
4
.
1
%
1
.9
%

当期
1000252
1000266
1000266
1000286
1000286
1000286
2000653

答率
剥i
5
.
8
9
も
6
.
3
%
6
.
3
弘
5
.
7
5
.
7
也
5
.
7
弘
2
.
6
%

次期!
2000664
1
0
0
0
1
6
4
2000664
1000164
2000664
2000698
3000932

剥落率 ム
寺
町l
落率
2
4.
4
%
2
0
.
2
%
7
0
.
3
%
2
1.
4
%
7
0
.
3
%
2
4
.
4
%
6
.
5
唱

6
6
.
2
%
2
0
.
2
%
6
6
.
2
拡
2
0
.
2
%
2
.
3
%

3
.
0
%

1
.
1
%

表は当期セグメン
卜m
。
貢

ム剥落率= (次期一
前期)の剥落率

表 3 剥落パターン

6
. 決定木の結果をトランザクションデータへ変換するプロク、、ラム
決定木のデータは業務とキーとなる変数でグループ分割し、各グループ毎に負事例:正事例=1 :
lサンプリングで作成した。しかし、アソシエーションルールはイベントの発生した回数に基くた
め、実測数に縮したサンプリングデータを使用しなければならない。再サンプリングには、プログ
Rd
ハHv

qJ

302.

ラムの変更やデータ取得時間が必要になるため、簡単に既存のサンプリングデータを利用したい。 それにはサンプリング調整係数に応じて、決定木の結果をトランザクションデータへ変換する必要 がある。下記プログラムは、表 4 のサンプリングデータを調整係数の逆数だけ、繰返し出力するこ とで、実測数のサンプリングに直している。 材料本決定木の分析結果をトランザクションデータに直す方法材料材料材料**: R E E¥ i O D Eは 、 K B R ¥ i O , K C F N O, G O A L, G R O U P, ¥ i O D E項目から成り立つ。 K B R N O, K C F ¥ i Oは顧客 I D、G O A Lはターゲット変数、 キ / T GOAL='bad' は ~l 落顧客、 GOAL='good' は継続顧客、 GROUP はグループ名、 ììODE は顧客セグメント番号を表わす。キ/ 耳 目l a cr or p( n u m ); 制 on = l% t o 品n u m ;o u t p u t ; 恥n d ;% m e n d ; キr pの引数は、 1 /調整係数, d a t aT R E E ̲ N O D E ;s e te m d a t a . S D ̲ 2 7 8 I J ; キS A S / E ¥ Iのスコア結果(データセット名は自動的に付けられる) : k e e pK B R N OK C F N O̲¥ODE̲G O A L G R O U P ; キ SAS/E~I が作成したデータの内、継続・剥落率や変数データは除く; d a t aA S O DATA・ s e tT R E E ~ODE: K E E PK B R N OK C F ¥ O N O D E キG R O U PとG O A Lで繰返す数を決定する。 A S O ̲ D A T Aが求めるトランザクションデータ; i fG O A L = 'b a d 'a n dG R O U P = 'A ' t h e nd o ; %rpW e n d ; m ¥ ' 2 ) e n d ; e l s ei f GOAL='bad' a n dG R O U P = ' B ' t h e nd o ;% r ρ ,( 2 ) e n d ; e l s ei fG O A L = ' g o o d 'a n dG R O U P = ' A 't h e nd o ;% e l s e ifG O A L = 'g o o d 'a n dG R O U P = 'B ' t h e nd o ;% f p ( 2 0 ヤ end;run; ゲループA 剥落顧客 継続顧客 什1 宝数 l :nn n n 日n .n n n ①サンプリング数 調整係数(=②/①) 1 /調整係数(=①/①) 3 0,0 0 0 L0 0 0 L0 0 3 0,0 0 0 O .5 0 0 2 . 0 0 ゲ、ループR 表 J I 落顧客 継続顧客 1 n nn o o 5 0,0 0 0 o .5 0 0 2 . 0 0 In n nn n n 0 0 5 0,0 0 . 0 5 0 2 0 . 0 0 表 4 複雑なサンプリング例 7 . おわりに 本研究の留意点を述べる。①分析法は金融業の一般的な顧客の推移に適用できるが、顧客セグメント によっては不適合な場合もある。②顧客のリテンション分析は誤差を含むため、実務への応用は検討を 要する。③観測期間は業種によって相違する。④観測時点を増やすしても、時間的にあまり離れたイベ ントを含むパターンは意味がないし、時間的に近すぎるイベントの順序を重要視するのも問題が残る。 本研究は「顧客のリテンション分析に吸収マルコフ連鎖モデルを利用できること J I 推移パターンの 探索に順序アソシエーションを利用できること」を示した。次の課題は「顧客のリテンション分析の検 観測時点の増加に伴うパターン遷移状態 J I 剥落・継続パターンの要因分析 Jを予 証と実務への応用 J I 定している。数量モデルを用いた顧客の推移の研究はあまりなされておらず、今後の発展が期待できる と思われる。 本報告書は個人的見解で書かれており、所属する UFJ銀行の意見をあらわすものではありません。 8 . 参考文献 . Ag ' 1 a w a l,R . ,S ' 1 i k a n t,R . ,F a s tAlg o r i t h m sf o ' 1M i n i n gA s s o c i a t i o nR u l e s,P ' 1 o c .ofVLDB,p p 4 8 7・ 4 9 9,1 9 9 4 . . T' 1 e v rH a s t i e, R o b e ' 1 tT i b s h i ' 1 a n i, J e r o m eF' 1 i e d m a n, " T h eE l e m e n t so fS t a t i s t i c a lL e a r n i n g ", S p r i n g e , ' 12 0 0 1 . M i c h a e lB e r t h o l d,D a i vJ . H a n d,I n t e l l i g e n tD a t aA n a l y s i s " ;S p ' 1 i n g e r,1 9 9 9 . ‑ 古) I [康一,尾崎知伸,植野研J 帰納論理プログラミング"共立出版, 2 0 01 . ・楠岡成雄,青沼君明,中川秀敏"クレジット・リスク・モテ'ル"金融財政事情研究会, 2 0 01 . ・アーサー・ヒューズ"顧客生涯価値のデータベース・マーケティング"ダイヤモンド社, 1 9 9 9 9 . 謝辞 本研究に進めるにあたり、 CRM実務家の観点からアドバイスを頂いた UFJ銀行リテール業務部マー ケティングチームの培田俊之調査役、角田和巳主任、天谷美乃里さんに感謝いたします。 3 0 6ー

303.

日本 SASユーザー会 (SUG1‑0) 構造変化を考慮した住宅系不動産価格査定装置の開発 0清水千弘¥小野宏哉日・高辻秀興日 *リクルート住宅情報企画室住宅総合研究所・麗海大学経済社会総合研究センター 畢大学国際経済学部 村麗 j Developmento ft h eR e c r u i tR e s i d e n t i a lRealE s t a t eAppraisalSystem 目 ChihiroShimizu‑,HiroyaOno ,HideokiT a k a t s u j i *RecruitC o ., L td,**ReitakuU n i v e r s i t y 要旨 SAS System R e l e a s e 6 ̲ 1 2を用いて開発を行ったリクルート住宅価格インデックス (RRPI)に連動し た住宅系不動産価格査定装置のシステムを紹介するつ近年における不動産価格の下落局面にお いては,市場動向を適切に把握できる市場性の高い価格査定が必要とされる c また,金融商品開 発に伴い不動産評価を行う場合には,大量の物件を継続的にカ、っ短時間で行うことが求められる ことから,複数の物件問・時点問で整合性がとられていることが必要となり,システム的な対応が余儀 なくされる cそこで不動産価格指数 (RRPI)に連動した不動産価格査定装置の開発を行った C キーワード SAS/STAT, ETS、ヘドニツク価格法,構造変化テスト, A IC :A k a i kピsI n f o r m a t i o nC r i t e r i o n 1.本システム開発の目的 近年,不動産の証券化,さらには不動産投資信託法の改正に伴う不動産金融商品の開発競争 が始まり,不動産市場と金融市場との融合が本格化している c 不動産金融商品の開発には,不動 産市場に内在するリスク,特に価格リスクを適正に評価することが求められる c しヵ、し,わが国では, 他の不動産金融市場が発達している欧米諸国と異なり市場で実際、に売買された価格情報が様々 な理由で開示されておらず r 公示地価」のように国が地価情報を作成するという,国際的にも異質 I造している c さらに公表される各種情報が市場価格と布離しそのため価格リスクを組み な市場を童J 入れなければならない cこの問題は,鑑定評価の誤差問題 ( V a l u a t i o l lE r r o r )として苫内外を問わず 多くの研究蓄積がある 1) 特に MBSや REITなどの組成・運用等で必要とされる評価技術は対象 不動産単体の評価精度だけでなくー複数物件問での均衡と複数時点間での整合性を担保するこ とが求められる。さらにはその評価の再現性を担保することで透明性を高めることが必要にな 】)例えば B o w l e s .M c A I I I s t C LaIld丁目 r b c r t(2001)で は , 援 正 誤 だ に よ る 指 定 ベ ス の イ ン デ y ヲスが持つ時!日i 的 な う 7情 造を桁摘している。わが1 " 1では‑ ' l 可 干I 消 ノ ‑ 1 <(2002) で 11 本の地価 ilí 紺のうグ栴造銃定抑制 i~(k の大きさを計測している n a ヴ︐ AUu q o

304.

る。そのためには,不動産価絡指数との連動は不可欠であリ,かっ専門家による主観的な意思決 定ではなく統計的技術を駆使した再現性の高いシステム開発が求められる。 J .地域間での整合性がとれた評価を(問題1.時空間調 これら問題の解決には,まず複数日寺点再I .市場性問題)。また,市場が大きく変化する 整問題)宅市場情報によリ評価する必要がある(問題 2 局面では情報配信の時間的遅れが評価誤差を拡大させるため 投資または融資等の判定時期と . 応答性問題)。これら 3つの問題を 情報更新時期の時間的な遅れを解消する必要がある(問題 3 解決するには,早い頻度で逐次更新される「市場」価格情報に関するデータベースを構築し統 計技術を伴った再現性が高い不動産価格査定が可能なシステム開発の実施が求められる。 そこで,本稿では,株式会社リクルートによって週次単位で逐次更新される住宅系の不動産 巴l e a s巴6.12により開発を行ったリクルート住宅価格インデ 「市場」価格情報を用いて, SASSyst巴m R :R巴c r u i tR巴s i d e n t i a lP r i c e1 ndex)に 連 動 し た 不 動 産 価 格 査 定 装 置 を 紹 介 す る c ックス (RRPI 2 .不動産価格査定装置の基礎的枠組み 2 .1.理論的枠組み 不動産市場は.まったく同質の財が存在していないという特殊性を持つために,価格査定を行 うためには、品質調整を行うことが求められる(不動産鑑定評価実務では「個別補整」という), また,市場は常に変化していくことから,時間的な価格変動に対しても敏感に対応していくこと が必要となる(不動産鑑定評価実務では「時点修正」という)。 品質と価格との因果関係を解明しかっ時間的な価格変化を適切に補整することができる手 法として,ヘドニツク価格法がある(たとえば小野・高辻 清水 (2001)(2002))。 ヘ ド 二 ツ ク 価 格 法は,住宅の場合,住宅価格伊)を、住宅価格に影響を与える最寄駅までの距離,都心への通勤時間, x ) に重回帰し価格形成要因を統計的に明らかにする。 床面積建築年などの一群の指標 ( このヘドニツク分析の立場は消費者は一定の予算制約のもとで最も高い効用を得ることが できる住宅を選択し,供給者は利益を最大にできる住宅供給を行う,ことである。このような各 市 場 行 動 の 結 果 と し て 成 立 す る 市 場 均 衡 を 想 定 す る の が へ ド ニ ツ ク 価 格 法 で あ り ( 金 本 (1997)), (x) を推定することになる。 客 観 的 に は 選 好 指 標 ベ ク ト ル rを 変 数 と す る 市 場 価 格 関 数 p = p O l l l o ι e n e o l l sな 市 場 を 前 提 と す る た め , 市 場 の 層 別 化 が 重 要 に な る ( 小 野 ・ 清 水 ( 1 9 9 8 ) )。 また h 本システム開発においてはヘドニツク価格法を用いて消費者が住宅の選択にあたり重要な τ )として(式 1) の よ う な モ デ ル を 採 用 し た 。 不 動 産 価 判断指標となり得る次の指標を価格属性( 格査定装置を構築するためのパラメータとして推定するにはヘドニック関数を推定するため の 分 析 対 象 期 間 (/)と対象地域 (h)をどのように設定するのかといった点が焦点となる。 0gWK+円 l l o g1 1 1 , 0 ' = u"+α11 o gAC'C+, 1 (l o gr : ' i +" .l o gBY+( / ;l o gH‘~' +内, l o gNU+ (17 l o gNR+u鈍Rt+ L(Iリ,,' HC" +工 (1111., 'R ] ),+L(lII. ,~'j'/_\. + L (/IU'1 . / ) " +L(/IU' l J ) , +1,' ‑308 ) ( 式 1

305.
[beta]
h地 I&g純 茸lの i
r宅自i
j棉 ( 日 =1 1
!
I
I
J
;
‑
;ノ ン ヨ / 倒 的

1
i
J
'
.
,

g=2 マ/ンヨノ11:II .(; =3 )ii
l
lて r
t'
(
:)

.
1:
1
' '
.
'
i(
jI
j
,
jM
IVK M 五~\Rまでの距離
4('( ・

r.~ 心までの接近性

HY 築 後 年 数
H
λ

I
而傾

パルコニ

Nlf 総 バ 数
以・ h そ の i
也i
l
l物 属 f
t (h=)
(.
.
.
.
.H)

l
i
I
J
,

(
i=0 .
.
.
.
.
/
)

in線 タ ミ

五j
'
. !!j}~ダミ

(j二 0
.
.
.
.
.
.
.
/
)

1
.
1
λ 行 政 市 区 ダ ミ ー (k=().. .
.
.K)

,時 n
f1ダミ

(
1=(
) .
.
.
.L)

r/)

2
.
2デ ー タ ベ ー ス の 構 築
続いてデータベースの構築を行う。情報源はリクルート社の情報誌「週刊住宅情報」に掲載
表1.データベースの構築

さ れ た 中 古 マ ン シ ョ ン (1989年 4月
2

u

Contcnb

役 者 駅までの距躍

1
・
1

Variablc対
B

価格(1989 年 4 月 ~2002 年 4 月末で

1 ・畳寄,~までの時 1::1 距蕗(,t'):-II1::1 ムハス時r::1)

(
1
1人l)l
¥
l
aTlじ<.!1
0¥)¥::.I1.
.
:
s
l詩l
a
l
lOll
l
l

753689件)・マンション賃料(1992年 l
月

吊,[まで内海近件
1
最寄耳目から, 円9~ 年 11宇山における乗降客 :~ll 位 IIJ
(
.
j
I
"
! .
¥
"
:
C
o
.
.
t
b
l
1'
0じc
n
f
l
a
lI
駅に対する任I
H
I時における乗換え", 1
mモ 汗 む 鉄 道 │
Illll~llh:: !,;~ 1
)
¥
S
I
II(I
)
乗車時m
lの乗降客数による 1
)
1
1
'
[
;、
I
'
p
,
)

W
.f
i
i
(
u
b
'

~20024 月末で 2453689 件)の価格情

, w報,1:
t‑
'
!
.
:
j
{
l
if
M
:
)

l
:
主
任i
l
:
t
'
{
(Hl :
‑
‑
'
:
u
l
l
l
bl
!l
uf ) 品 目

、;,コ拍!捌(I:IS
.
13
:
l1
ピ0
1
1
、

F

S
r
a
c,
;S
q
u
a
r、九h:Ic:I
S
)

i
:
1

(
:
‑
‑
:
l 父 IIl1ln
"
:
l
:
‑
.
o
f
t'
I
l
i
l
)

報を用いた。本稿では紙面の関係から

!111 一位~!l

年

ハルコニー耐照的宅併報記私 l
u
i積 )

"
'

"
" マンン 3 ノ1
1;の総戸数

戸

¥
!
i';1 COl! ~II I1Ul (1 n)

総

分

I
マンンヨノ碍 1
i
i
n
l
f1
(住 宅
i

廿
:
'
¥F
I0tHS
p
a
CI!ね j
l
l
a
ll! ~kh.:r~)ι

では,品質情報・募集価格 (askingprice)

'
i
i
"1理 i~(.\tC ~!a !l ag心 llh!ntCn、,)

~'?' JlV. 'l~

lV
J
;闇ダミー

1
0寄 駅 ま で の 時:
1
日距離に,、ス時間がない場合を従
G';;'~':;:;"~';;:~';;':'~~"'M"

1
1ダ,‑(/下山日!
i
日
山
q
瓦 ミ刷 ̲f)¥ll川
o
川
川
"
川
川
"
山
"

1
1

に関する情報が週単位で提供されるが
円月

.-~

はじめて情報誌を通じて市場に登場し
1

(
1
1
.
1
)

1

竺
昨
!
とT
T
T
O

l
{
f
{
j
J

I
量i附ダミ Ulr'Hlghc~!
F
l
o
o
r 1111日l
、
)

最 1
:
1
情的物件 iそ れ 以 外 J
I

(
0
.
1
)

l
何J
i
'
I,
‑
"'
1~
(
S
I
)Smuh!)tI
Jl
l
Il
l
¥
'
)

l
制L
l部が!約 lそ
れ
.
J
.
:
,
(
外J
I

(
0
.
1
)

、
}

ー
一
一
一
一
一
一
一 一一一一一一一」一一一一一一一一一一一一ー一一一 一
一
一
‑
一
一
一
一
一
一
ー
一
一
一 ‑̲t̲一
一
日
一
一
一
:
軒
r
;
1
'そ れ ヤ t
l
田口部出 i
H向 州 市 '
1
(
:
1そ れ 以 外 o

、

(S1
J2 Sou!hJ
)
U
l
l
l
l
l
l 2
)

リクルート社が発行する住宅情報誌

日

l

I
歩圏とする.徒事問!それ以外 o

中古マンション市場を対象とした分析
例について紹介する。

d
i
l
品揮官l
時1
m
住 宅 情 報 に 掲 粧 さ れ た 日 時 か ら ほ 泊 さ れ た H時 ま │
u
a
.
:
‑
'
!
a
d
.
:
.
.
:
!
J
如
、
:
:
1
"¥
'
1
1
1
1
01
¥l
im叫│での市場に滞宿した時間 (
1
1
)とした

(
J
J
I
J以 a
l
)
.
̲!
)
U
l
l
l
l
l
l
、
)

2002年 4月 末 で 453,
689件)・戸建て住宅

(
0
.
1
)

こより抹消されるまでの
てから成約等 l
履歴情報を有する。そのうち重要なも
のは市場に登場した際の掲載時売り
出し価格情報(日 rsl offerpric巴),情報誌か

ー一一ー一一一一一一一一 一 一
.
.
,
一
一
一
一
一
一
一
一
一
一
ー
一
一
一
一
一
一
一
一
一
一
一
一
一
一
一
ー
一
一
一 一一
一
一
一
一
一
位協 ì~1~ 、ノゲ)'-1 ゲミ
I ̲
̲
̲
̲
"
"
‑
,
.
,
..
.
.
.
.
".'.~_
,.",
|鉄筋鉄骨コノク')寸法!そ '11 他{訣筋~/"ヲ ト)
0I (
0
.
1
)
(
'
e
人
f
,
:
n l
l
l
r
d
<
!
D
u!
l
l
!
l
1
、
) 1
I

。
目

It!:'官誕主"~融資可証'j'{ーニ一一「一一ー一一一一一一一一一一一一一一

{
人
口 1
1
0
川町 F
U
I
H
I
.F
l
l
l
a
n
c
i時 │

.
.
.
.
.
.
.
,
.
.
.
.
.
,.
.
.
.
"
.
.
.
.
.
.
.
.
1

住'{o金融公胤融自 "
J
i
r
t物 件 lその他。

I (
0
.
1
)

.~~~~)!1>'川 a!IO川.?_l~I}!~I!~)_____J_______________________________________________________________J

ベ1 諒 1:';

(
!
{
J
)
i
(I
O.

群

r'::'~.'.:'::..::':':::...:,..:.::.::..: .
.
.
:.::':..;:._:,:.:,:'~:',"::1

J)

I
l
f
t
i自の Z
五当市棉 lそ川他 o 市 掠 1:,住宅 1
,
九
時101m1
'
t
t
:
'
.
.
;
‑
:
.
"
,
:
'
:
"
'
‑
‑
;
‑
:
:
;
, "'''''(::.J .:~_".r ,,__, ..-~A:-";_
.
‑t (
O
.
l
)
ト位基準司 4きじ 1':.6 同;I~ I!(),.;;,')~;.-. ~ Jl、ご作成、
│

一一一一一一,̲
J
.
.!~l̲
_:J_)~~I]!~!~)___________L__-~_______________
ー ー
ー ー
l
~:':r、一昨
1
.
.
.
,
",'.""~
,そ
̲
.
"
"
.
"o
.駅
~,,,
"
"
"
'
U
'
.
.
.
'
""
.
".
w
l
1
1
'
"
円の
E
J当駅 1
山
他
;
‑
‑
;
:
."
(
1
:
'f::fN曹i
山市北怯
'~I
討r
jlJ o
.
'
,
/
)
I'':-~_"::_-':-":;:;;;o' ‑
.
"
,
.
.
,
:
.
.
.
.
.
"
'
'
'
'
'
'
'
̲
:
'
:
:
'
‑
,
'
:
:
'
'
'
'n̲ ,
.
.
.
.
.
.
.
.
.
.
.
.
,
.
.I (
0
.
1
)
:
1
ニ準じた首都圏
1-)2~~駅,_~... J
l
ι ご作凶
│
:
‑
'
1
.1l'
1)f) !
J
U
l
l
l
i
l
l、
)
1
'
"
~~...,,,...._,.,....,,..
.
.
.
.
.
̲
.
1
l

fI崎市 l
'々、 ‑
a
l
(
/
.
!
J
k
r
l り 人j

l
t
n
l
l
(
¥
¥
'
i
l
r
d
)
j)
tl
l
l
l
l
l
l、)
l叫 a

kJ
il
1U
)
J
主c
l
i行政, I
i
f吃 lそ山他 J
I

1

(
0
.
1
)
1

‑ー一一一時点'1'¥ーご i
l
i
.
.
.
.
.
.
.
.
.
'
T
.
.
'
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
l
t[/)/(! 0,

、

.
1
)T
u
n
.
.
.
:

、

帯1
1のよ車刈時点!その他。

ら抹消された時点での価格情報(推定
購入価格:日 rsl bid price)ヲさらにサンプ
ル的に収集された成約(売買)価格
(Iransaclloll pnce)の

3つの情報である。

本来であれば,成約価格が市場価格
となるが不動産取引は相対取引が中

1 (0.11

!
)
tU
l
l
m:
‑
‑
'
l
u
n
!
h
l

心であることから売り手・買い手の個
qJ

QJ
ハHv

306.
[beta]
別 事 情 が 入 る こ と を 考 慮 し 成 約 に よ っ て 情 報 誌 か ら 抹 消 さ れ た H寺 点 の 価 格 情 報 を 用 い る こ と と
した s 情 報 誌 か ら 抹 消 さ れ た 時 点 の 価 格 は 逆 オ ー ク シ ョ ン 的 に 買 し 、 手 が 登 場 す る ま で 価 格 を 下
げていく過程での最初の購入希望価格である。そのため付け値のなかで上位価格という性格は
あるものの相対的に成約価格と比して競争的な市場で形成された価格であり、そのため個別事
情が排除されているものと判断した。データベースは,駅ダミー(首都圏 l
、
548駅)は分析単位ごと
に workf
i
l巴 と し て 作 成 さ れ る が そ れ 以 外 に つ い て は SASデ ー タ セ ッ ト と し て 作 成 し た 。

2
.
3へ ド ニ ッ ク 関 数 の 推 定
前節で作成したデータベースをもとに中古マンション価格が対数正規分布に矛盾しないこと
を 踏 ま え て 、 ダ ミ ー 変 数 以 外 の 変 数 を 対 数 変 換 し て 重 回 帰 モ デ ル を 適 用 し た 。 Mallow'sCp を 基 準
に 基 づ き 変 数 選 択 す る こ と で 推 定 さ れ た 推 定 式 を 式 2お よ び 表 2に示す。
l
o
gR/~ =6
.
1
8
2+09
9
8
'log/
,
;
<
,
'+00
2卜l
o
gRS+0
.
0
2
3
・l
ogNU+0.02卜log/U'

(
3
2
7
.
7
)

(
6
3
9
.
7
)

(2426)

(4177)

(
4l
.9
8
)

424・ACC+O.1
2
2
'W
/
)‑0054'WK‑0
.
1
8
6
'BY+0
.
0
0
8
・S
/)+0
.
0
6
8・K
I
J
‑0.
(‑7789)

(2992)

(
ー7
098)

(
‑
2
6
6
.
2
)

(7312)

(
式 2
)

(
1
9
.
8
7
)

+
工'
C
/
l
.i'Rρ,+L
.
,
C
/e.,
・UJ
,
+L
.k"3.l・ l
'
I
)k +正
A
d
i
l
l
s
l
e
dRs
(
/
l
l
a
r
e
d =0
.
8
8
4

(
N
l
l川 herυI01
川e
r
v
a
l
l
OI
1
Sニ 1
5
7,2
3
2
)

表 2
.中 古 マ ン シ ョ ン 価 格 関 数 の 推 定 結 果 : 都 区 部

都区部のへドニツク価格関数

がた有市心
ルれ専故都

t 択る総は
︑ロド':
し事す積て

︺ハる検一つ
肌いをニに

ヨ ロ ヨu

2

デさと戸正

円ノ刊叶

高︒︐す一目︑

恥て数コ問

配推変面場

までの接近性最寄駅までの距

η一

一
︑
︐ IL‑‑94‑m‑EBb‑一一 515一
987437gF1一
P
目司副一岨曲一判一日一M m一明一市山一正一回一両目的山円一泊三由一冊一四一

‑ae‑‑ae‑‑4 守 十 二

日一副ぼ引司五一円引佐一心一口一持一三目一"明一品一口一町一川一

toil‑ZI‑‑lie‑γ1‑It‑‑
ーす一 :14:Fe 守二
一

m一札札︒山 ‑444ry山町札山一︒一引一 4一引心心一O二
唯
一一
心
︑一

U ﹄

u一 一 司 一 一 ‑ ↑ ‑
n
‑
一一一一一一戸一一
川4
・ T‑osi‑‑53‑ez一 ‑ 一 一 守 一 ILl‑‑TITIj ;‑1ム : 晶 ‑ ‑

叫一川一山一川市一一一山一町一四川一刷一山一川

﹃一一土一土工一一一

一一一一一一一一一⁝一一

白︑一︽一一︽
区一区eruk‑KK一
一unkbEH川
昨
日
区
一H‑K一己 K 1 区

︑‑aE

J
f
布 wh‑HRHR一
uHTU日
2陣
口
一E一
野mh ー刊一湯川町 4一
れト
送車 τ創刊 i‑UM白
m江 H
E‑‑一主主弘北一主絞棟一三径‑一4日目
1 一 一 一 一 ド 一 一u川一 一 一

刷仙一州町叫叩刷川‑側一削川出細川一一一間引制問叫一一一‑山一

げ口一︑ νmHA 号 ︑ t u a d H U U 3 Hゐ 7 口 3 1 ‑ 一

叩↓尚一叩ぷ一叫山一叫叩一叫一川一川一同一同一凶一山叫一山一制剛一岬一削一

一

0 0 0 0 0 4 一心一品︒ ‑o一川市一︒↑︒刊 O‑00 心 一 心 一 ︑

一一一一甲山

↑ Mm
一t
仁 仁 t一07↑ト??↑frrlL

J

N

f しE F E ぷ 一 生 虫 八 議 一 埠 一 史 湘 一 笠 同 一 崎 一 ' 一 山 町

温床一得一科伊崎一主同一夜間二百一川一三川一豊北品上一唱さ峨一山一日一 江 川

制一

同一創刊一山⁝山一向一叩一組組問一間紘一議品目一回常一ぷ

立 引 刊 一 げ 仙 川 田 川 判 ‑uQOC一抱一泊一肝叩一回目制一口ωm
一
川一山⁝川町一川一川一川一般川一川町一川一川 n
3一
1042 2
‑11一
﹀ 3 3 3 一り工︒一刻一い一 O i o t一
O

Nl

同け一棟一一一 R 一 一 一 一 一 線 一E 一一

川一一一川一説明一町一山一日間一線一明一詑両

ば一山一 U一中部一間一mJJW一時五割

7
1一円

山 一 一 m一削一山一けし⁝ι⁝羽一町一刊一副

川一一釧一岬一出一同一間⁝削一町一川一川⁝山一間

一
附
一
町
一 ︑⁝明王子一一め

山一一⁝一山市川市⁝叩⁝川一気川一叩一崎

一

ι
m 川一一巾一均二可一同一C H一 三 弓 一 公

明一山一一一一一一:一一一一?

一
︒

同 一 一 ω一則一一一品一溢言問一明
山 i‑
一︐一一一部一一積一一一F

Rl
Ii
w
百¥
'
/
S
u
h
四
、¥'UnC' DUI1l!ll

U れ係切時
さの/留
制定数積滞

rfLP

は,自由度調整済決定係数で

D
.
:
p
.
:
n
d
c
n
l
¥
'
a
r
i
.
!
h
l
d唱 。 !
t
h
.
:民.
:
s
a
kI
'r
i
co
f
t
'
o
o
l
l
o
m
I
n
i
u
l
I
¥
,
.
:
>
'
h
:
!
!
刷l
u
f
!詩l
i
m,
l
t
i(ln:ULS

離,築後年数は負であり,符号条
件を満たしている。つまり中古
マンション価格は影響の大き
、
しI
J
頂 に 専 有 面 積 が 1%増 加 す る
と 0.998%上 昇 し 都 心 ま で の 接
近 性 が 1%増加する(離れる)と

0.
424%低 下 す る こ と が わ か る 。
ダミ一変数は,徒歩圏,南向き,住

宅金融公庫利用可能ダミーの係数はいずれも正の符号でやはリ符号条件を満たしている。

ニ)本研究の

4

述の分析においては S
ASVCfSlo
n
6
.I
2を 1
1
1し、た。変数選沢においては .
M
a
l
!
o
¥
¥
"
s
C
pを広明として総・1た 1
)/
1
:
を

1
1
1
'、た"
1ょ

AU

っd

307.
[beta]
3
.構造変化に対応した価格査定装置の開発
3I問 題 の 所 在
先 で 作 成 し た 価 格 関 数 は 作 成 さ れ た デ ー タ ベ ー ス の 全 期 間 (19894 月 ~200110 月)を
通じて構造変化がないつまり定数項と時間ダミー係数を除いて回帰係数は全期間を通じて変
化しないことを仮定した。しかし

分析対象期間を通じて構造が変化しないことを前提として

こうした単一のモデルにもとづいて推定することには無理がある。また沿線ダミー・行政市区
ダミーが多く採用されているが地域間で定数項が異なるだけでなく係数そのものが変化する
可能性もある。このような問題は

市場の層別化問題であり構造変化テストを適切に行うこと

M
a
r
k
e
tS
e
g
m
e
n
t
a
t
i
o
n
)に よ り 対 応 す る こ と が で き る 。
ができれば市場分割 (
もし時間的に構造変化が想定されるのであれば例えばデータが毎週または毎月更新される
た び に デ ー タ を 分 割 し て 関 数 推 定 を 行 え ば よ し 、 ( 以 下 、 月 単 位 に 着 目 し 「 月 次 モ デ ル J とする)。
しかしーその場合は関数そのものが独立として推定され関数間での時間的な連続性は担保され
ず,時間的整合性のとれた関数推定を行うことは困難となる。その意味では,一定の時間的な単
位でデータをプールして時間的な価格変化分を吸収したモデル推定が好ましいことになる。
そこで第 lに提起されるのは、ブレイクポイン卜をどのように検出すればよし、かという構造
変 化 テ ス ト の 問 題 で あ る 。 第 2に 提 起 さ れ る の は 過 去 の 観 測 デ ー タ に も と づ い て 推 定 さ れ た モ
デルがあるところへ毎月新たな観測データが加わるとき逐次的に変化するかもしれない構造
をどのように推定すればよいかという問題である。さらにテクニカルな問題と関連するが月
ごとに誤差分散が不均ーであることが予想されかっその分散は未知であるわ。
われわれの目的はこのような構造変化に対応した不動産価格査定装置を開発することであ
り先に提起した「時空間調整問題」に対応していくことである。そのため,最終的にここでの
構造変化テストの問題とは全期間・全地域を複数のブレイクポイン卜で区切って推定される回
帰モデル群の代替案集合のなかから最も適切なものを選択せよというモデル選択の問題に帰
着する。ブレイクポイン卜を多くすれば回帰モデル群全体としての当てはまりはよくなるかも
しれないが全体として多数の説明要因を必要とする。したがって

当てはまりと説明要因の数

との代替関係に着目して適度の当てはまりと適度の数の説明変数という観点から評価するこ

IC(A
k
a
i
l
く
ピ sI
n
f
o
r
m
a
t
i
o
nC
r
i
t巴Iio
n
)が適用できる判。
とにすれば,モデルの選択基準としては A
通常,構造変化モデルの推定は,ブレイクポイン卜で観測データをいくつかの期間に分けて,そ
れぞれの期間ごとの観測データを用いてモデルを推定するというものである。つまりブレイク
ポイン卜で前後の接続性を断ち切ることになっている。そのため先の月次モデルが持つ問題と

j

t変 i
'
干の日 c
h
r
cJ1s
‑
F
i
s
h
c
rl
l
l
J:
m
をt
l
!ず る

,j 二 0)ょっな 1
1
1
1紅!に対して G
a
r
c
i
aJ!ldP
c
r
r
o
l
l(1
l
)
,
(
ワ jでは 211情 i
i
E変化が起こるものの f レイクボ「ノトが主主1
1で
J
;
,
る
助
f? にもf して附 i!i~ 化テストの }j IJ,を!~{ j
J、
している Jushani
1n
dP
c
r
r
o
l
l(
1ワ
り
日
)
は
問i
i
E変化の !
:
I
!数かプレイクポイ/トとともに
主知的ケースに対 jl.. している。必辻 (
2t
10
1
)は
二 0) .c
l
!
の
併
す に.
)
J放が均 であることを l
i
;
jt:~ に同H世作 IHJ 川ダミ
変f
.
(
t
r
i
:
を
J
!
Jい AICに法っき探索的に分析する J
iìl~ をfJE小した ンステム U
J
lW としては .
d
iJ
K .11.1川 筏 ilq2(
10
1
)がある,
1
1

L

可44

qJ

308.

同様の問題を持つ a 構造変化が逐次的に生ずるという仮定の下ではその方法が却って逐次的変 化の過程にある回帰係数を捕捉しにくいものにしている。むしろ自然な着想として,あたかも移 動平均を求めるのと同様に一定の期間長を推定期間にとリ複数の期にまたがってモデルを推 定することで逐次的変化の過程にある回帰係数を推定する方法が考えられる。 , を推定する場合、ある一定の r期 だ け さ か の ぼ っ た 1‑ r+1期 か ら / 期 ま で の 観 測 す な わ ち ,s データ(プールデータ)にもとづいて回帰係数を推定する方法である。推定のためのモデルは , ' ) =X, s, +長 ( 式 3) f と定式化できる。ここで, y , ' = ( y , ' ,y 'ー" Y, ‑c+I') ト 1 宍) λ .二 , (X , ' , X, ーl ', . . . , Xr‑r+I') u, '=( 1 1 , ' , U'̲I" ・・・ , 1 1, 1 ' ) ーァ である。これを次のように適用する。 ① r‑1→/を初期とする。 ② 1‑r+1 期 か ら f期までの観測データをもとに(式 3 )のモデルを推定する。 ③ 1+1→ / と し て 次 の 期 へ 進 み ② を 繰 り 返 す 。 こ れ を 現 時 点 ま で 繰 り 返 す 。 ④ 将 来 の 毎 期 を fとして同様に②を繰り返す。 一 定 の r期 を 推 定 期 間 と し て 観 測 デ ー タ が 重 複 し て 使 用 さ れ る こ と に な る が そ の こ と が 逐 次 的に変化する構造の推定を可能にする要点になっている。構造変化モデルのようにブレイクポ イン卜で接続性を断ち切るのではなくむしろその前後を接続して構造の逐次的な変化を捉え るという方法である。このモデルを「接続型モデル」と呼ぶ。この場合には,異時点聞の価格差 をどのように調整するのかといった問題が発生するがここでは時間ダミーにより吸収しまた 2 0 0 2 ) )。 時間ダミーとして推定される回帰係数は,価格変化を表す価格指数となる(小野ほか ( 前節で推定したモデルは時点ダミーとして推定されたものが時間的な価格指数として推定 n d e x , とは,ある特定品質の住宅について, 1期 の 価 格 されるものである。つまリ/期の価格指数 I h, のヲ基準時の価格 h oに対する比である。 九 hf一 ー 一 一 今a μ l v Ju ︐I4 ( 式 4 ) われわれのモデルでは,もとの価格 h ,と説明変数ご'‑' (1期 の / 番 目 の 変 数 ) に つ い て 対 数 を と ったものを分析データとして用いている。つまり , y, 二l o g l 可 、 X'I 二l o g二'‑'である。これを用いて, l o gIndex, =l o gh, ‑l o gh "=y, ‑y" ( 式 5 ) 、 ) 、 , . '. A・ で そ れ ぞ れ ベ ク ト J レx行 列 A 0)転 i ? iを 去 す 1よ qJ η ' h M

309.
[beta]
と表すことができる。以下では説明の便宜のため

I
.md
c
:
.
r
,

=0

l
o
gfndc
:
.
r
, 二j

J
ノ
"

t

(
式 6)

とした f
̲l
I
?d
どλ
" を,改めて {
d
l
i絡 指 数 と 定 義 し て 議 論 を 進 め る こ と に す る コ 具 体 的 に 2 期 間 モ デ ル
を例に挙げてその作成方法について説明する J 、
ま
, 0則
]
と l矧 と の 2期 間 だ け が あ る と 仮 定 し 0
期を基準時として

l期の価格指数を求めることにする

3

それぞれの期の価格データを

y
"
(I
7
,
, x1
)
'
Y
I
(
1
71x1
)としー説明変数データを>("(川 xK) λ1(111'K)とする。
ヲ

n
(
),n
[は そ れ ぞ れ の

期 の 観 測 デ ー タ 件 数 で あ る 。 K は 説 明 変 数 の 数 で あ る ( 定 数 項 を 含 む ),このモデルでは, 0期と
l期 の 観 測 デ ー タ を プ ー ル し た も の を 用 い て

Y=収+長

(
式 7
)

3lit‑‑Jノ

i'b
︑
︑/h
正
/11111t¥

一
一
ρμ'

i111111ノ

'F

︑
¥L パ L パ

AVy'

一
一

/lil‑‑¥

︐

h1111111 J

x

/11111¥

一
一
u

?Y
I
P‑‑

¥liti‑‑/

fill‑‑¥

UJ

一
一

︑
︑ tt tt

と表される。ここで

①0
1主 要 素 が す べ て ゼ ロ の 列 ペ ク ト ル a ② 1I
主 要 素 が す べ て │ の 列 ベ ク ト ル 。 ③ X",X1の第
0
',
1
'
)は .
1 期の時間ダミーを表してし、
l列 は 定 数 項 の た め の lベクトルである。④九'の第 l列 (

る 。 ⑤ (/1 は
, 1期 の 時 間 ダ ミ ー に 対 応 す る 回 帰 係 数 で あ る 。 ⑥ b(Kx1
)は J寺 問 ダ ミ ー を 除 い た 説
x1
)は
, ({1 と b(Kx1
)と
明 変 数 に 対 応 す る 回 帰 係 数 ベ ク ト ル ( 定 数 項 を 含 む ) で あ る 。 ⑦ s(K+1
1
1
"x1
),
l
I1
(
1
11x1
)は,l
i
1f率撹乱項ベクトルである。
か ら な る 回 帰 係 数 ベ ク ト ル で あ る 。 ③ 11"(

吸収する価格指数部分は, 0期
!
と 1J
切 を 通 じ て 共 通 の 回 帰 係 数 bを
すなわち時間的な変化分を I
l分 だ け 価 格 が シ フ 卜
使用する。ただ l期 に お い て は 0期 に 比 べ て , 時 間 ダ ミ ー に 対 応 す る 係 数 α

すると考えるわけである。
回帰係
さて,回帰係数 pが 推 定 さ れ , 特 定 の 品 質 の 住 宅 を 表 す 説 明 変 数 値 八 ク ト ル ー よ (Kxl) (
数 ベ ク ト ル bに対応する)が与えられると,0期と i期 に お け る 特 定 の 品 質 f を 備 え た 住 宅 の 価
格の推定値九 '
Y
1は
,

九=(O,X ')s=x"b

(
式 8
)

ム=(Lx'T)F=Al+X‑Tb

(
式 9
)

となる。よって, 1期 の 価 格 指 数 Ul
1d
:
c
x1は

I
̲
m
d
e
.
rl二九九二 (/1

(
式 10)

と表される。これが時間的な変化分を吸収するものであり,価格指数となる a
さてここでわれわれが採用した接続型モデルに対してこの価格指数との連動方法を検討す
る。接続型モデルは,ある一定の r期 間 に 関 し て 言 え ば , こ れ と 同 等 の モ デ ル と な る 。 し た が っ て ,
上記と同様にして

r期 間 あ る う ち の r‑1個 の 期 に つ い て 時 間 ダ ミ ー を 用 い れ ば 、 そ れ に 対 応 す

る ダ ミ ー 係 数 が そ の r期 間 に お け る 価 格 指 数 と し て 推 定 さ れ る

u

ところが接続型モデルでは, r

υ

内︑

q︿
υ

ー

310.

期 間 の 適 用 を i期 ず つ 、 ず ら し て モ デ ル を 推 定 す る こ と に な る 。 そ の 場 合 の 指 数 の 接 続 を ど の よ うに行うかが一つのポイントである。 f期 の 接 続 型 モ デ ル l 久前項(式 7 )の 表 現 を 拡 張 し て 次 の よ う に 表 さ れ る 。 予 =. Y, s,+忌1 (式 1 1 ) f a, ̲ ; 司 ,̲ I " 1‑r‑ I 1 I ‑ ‑じ、}', =I ザ ザ ザ ‑ 一 I1 1 I ~~ 1‑r• 1 ,‑ p= 1a ・ ,, = y 1I I11'̲1 1, 1 1, I ト ~ ただし (r‑I+Kxl) 守 α J ," hu y, ) ~ l ‑ l 。,̲; 。。 。 。。 ( '= 。 。。 。 000 X / ' ( ー ",・ ただし (nトリー十・・・+n ' ̲ 1+1 1, Xr‑1+K). ' ( 1 ‑ 1 X, 000 いま f期 の 接 続 型 モ デ ル が 推 定 さ れ , そ こ か ら 時 間 ダ ミ ー 係 数 d li‑u‑¥dfl, O fが 推 定 さ れ た と する。これは,基準時を 1‑r+I !羽とした, 1‑r+2期 , . . . , 1‑1期 , 1!羽の価格指数である。ここで, ( 式 1 2 ) という量に着目すると,これは/期と/ー i 期との価格指数の差を表している。これを,全期間を通 じ た 価 格 指 数 に お け る j 期 の 指 数 Undex ,と 1‑1期 の 指 数 Undex , ̲ ,と の 差 と し て 定 義 す る こ と にする。すなわち / . 1刀d e x .‑Undex. ,= u .‑C I 1 ‑ 1 ‑, ' ‑ . . . . ( ‑ 1 ( 式 1 3 ) である。これを用いて全期間の価格指数は,次のようにして逐次的に作成されることになる。 ①いま, 1ーl 矧 ま で の 価 格 指 数 Undex , ーlが 求 め ら れ て い る も の と す る 。 ② / 期 に 新 た な 観 測 デ ー タ が 得 ら れ る 。 ③ そ れ を 加 え て 1‑r+1 期 か ら f期 ま で の 観 測 デ ー タ を 用 い て 接 続 型 モ デ ル を 推 定 す る 。 ④ l‑r+2期 か ら f期 ま で の H 寺問ダミーに対応する時間ダミー係数ム , ;.2"'" ( / ' ̲ 1, 0 が得 られる。⑤ここから, βf ム lを用し、て, ,‑c I'̲1) / . l I 1d 巳 " , = / . l I 1d 己主ト 1+( u (式 14) として l期 の 価 格 指 数 / . l I 1d e x, を求める。⑥同様にして次期においても繰リ返す。 この方法を適切に区分された空間的なデータ群に対して適用することで,時間的な整合性を とれたヘドニック関数が推定され安定性のある不動産価格査定装置の開発が可能となる。 14 a4 q o

311.
[beta]
3
.
2データによる検証
前項で設定されたモデルによりへドニック関数の推定を行うっここではまず月単位で更新されるデー
Iモデ、ルと 3年を単位として月次で接続してして接続モテツレを比較した。図 lに
,
タにより推定された月見J
、
'
"

月別の都区部を対

υヲ
ご

υ9
q:!~

象としたサンプル
、

〆

~

り九均三
主
2

=
z
肉

付加

数と月別モデルの

~

い口三

自由度調整済み決

。
のお

定係数,接続モデ

一
.
!
‑
,)7S

,
.
。

ルの自由度調整済
み決定係数を観察

ミ
(
,0

RO{ ﹃3N

‑
u
v
o
‑
o
C
N

門C300円

50C(文}同

三尽へる一

︒
︒
一
円
﹁
}
ヘv

ミ }Xヘス一
ω

一三}おおか‑

︒︒トヘ広三

︒
品
︒
一
03

円{}トひか‑

町民へ二

円︒︒ひヘユ

円ご的︒︒一

︒C

ふ
か
一
ひO寸

円︒マおふ{

Rhv
円
︒
︒
︻

L
o
a
‑
︒
︒‑

︒︒円︒へい‑

‑
aひ{

門
主
一

RO

ニ
ヘ

3﹃
)ひか‑

伊

O}
﹃ 30

︒︒あお AP一

︒
色円︒ ‑33‑

した。 こ こ で は
1989 年

4 月から

2001 年 10 月まで

国 1.月次モデルと接続モデルの比較

の 151 期間を対象とした。

表 3
.主 要 変 数 の 回 帰 係 数 の 統 計 分 布

月別モデルでは自由度調整済決定係

(月日'iモデ Fレ)

summalγ5t;Jl
t六t
l
Cミ o
f~5tima! c: d p
a
r
a
m回 目
平均値

最寄里町までの距離
、
,:w
nce1
0n
e
<
l
r
e
s
ts
t
a
t
i
o
n
)
(
D
l

:
t
票準備差! 歪度

I ~._--

!

(Nun
耐 ro
fYea日 日 f
t
e
rI
さ;
l築後年数
,.~ ,
̲
̲ ~-é~~~~~~ti~n) ‑
̲
."
.
.
.
̲
. I‑
O
!泌 ! 日 028 : 02~7
L
o
n
s
t
r
u
c
t
!
o
n
)

単

名i
:

専有面積

e
t
e
r
s
)
(
F
1∞rSpacdSquarcM

j 尖度

1....:....:....:
1005860012jO19910410
I

│
1 1
.045
1 .
.
'.•

C
e
n
t
r
a
lBu同 日 訂 D凶 口 c
t
)

.
l
.e
5
2

がサンプル数の減少にかかわらず増

:0
.
0
8
8 :.
0.
47
4
: •. ••• ;
: v.'V"

差があるがその動きと説明力とは独
立である。 接 続 型 モ デ ル で は 説 明 力

1‑ー
一
一
一
一
ー
ー ‑‑‑i一
一
ー
ー
ー
ー
ー
・4・
一
一
ー
ー
一
一
ー
十
ー
ー
‑

1 'V.'."

ある。 サ ン プ ル 数 は 月 に よ り 倍 以 上 の

: 0e
e
O

j都心まてずコ後近性(Ac民 団i
b
i
l
i
t
yt
oI 0 ", !0'r o !
1 .
0.
43
4
0.162:.0372

!

数 は 最 小 と 最 大 と で は 10%弱 の 開 き が

.0455

!

し
, 1996 年 前 半 ま で は 一 定 の 傾 向 で 改

サンプ レ教 (Numbero
fObst:l"'v
a
t
i
o
n
)
の統 1
!
!
11075086 :2
9
3
.
1
9
9
:0
.
6
8
6 : 1908
計量
I
.
,
"!

善し 1996 年 後 半 以 降 は 自 由 度 調 整 済

平均自由度調整済決定係数(
a
d
j
u
5
t
e
dR I
1 0
.
8
8
1
5qua日 1
の統計量
│

み決定係数が 0.88~ 0.90 の 間 で 安 定 し

F

'0'.' 0 0 /

'V'/vvv

0

00'

: '0' '00

0/0/

:

V.VVV

//

:

!
!0.024 !.0.998 !0.0>9
:

0

0..

Number0
'
1Mode~ 1
5
1

た値を示している。

(接続担モヂ レ1
年}
l

Ummalys
t
a
t
l元t
i
c
sl)fI
!s
t
i
m
a
t
e
dp
a
r
a
m
e
l
c
r

:
'
i

j
標 準 偏 差 i歪 度 j 尖度
1 • ^
'
. !.
.
.
!0.697 !.0452
I .0.057 !0.
∞
ι:.
平均値

i
;
ホ

最寄野、までの距離
曲 目5
ts
t
a
t
i
o
n
)
(
D
l
s
t
a
n
Ce'{on

I.
.
.
.

j 築 後 年 数(Number0'
1Y
e
a
r
sa
t
i
e
r1

:
::

Con沢 町 c
t
i
o
n
)

一
一
一
一
一
一
一
一
一
一 ー

日

0

'0'

1 .
0
.
1
9
2
1

:.
.
.
.
.
. :.
.
"
:

00..

;

0000

0.014: 0
.
7
7
9

I

ι

:

0
0
5
ι

i

.,専有面積
1020 : 0
.
0
7
0 :心日
.
1.
'
8
0
(
F
l
o
o
rSpacdSquareMete日) I
一
一
一
一
一
一
一
一
一
一
一
一
一
一
一
一
一
一
←
一
一
‑
i都 ,
c
̲
,
,
tで の 接 近 性(
A
c
c
e
s
s
i
b
i
l
i
t
y1
0I
I
.
0
.
3
9
7 : 0日
1
1
6 : .0896 : 心 6
5
6
叫1
印 1
Bu
山山
l
目s
刻
5
引叩
引
i
日
山
i 目 D
i
目s
t
n
田c
t
け
)
I心
Cじn

名,

サンプ'し数 (Numl
可r
orOb日 円 '
3
1
1
0
n
)
の絞 1
"
0
".6
roo !
'0
.
, 0'0 !
137957
20:3
9
2
7870: .0026 : .
13
7
9
計量
l

平均自由度調整済決定係数(a命 ~-;t-~d-R-l---~-:,:~----1
1 0
.
8
7
6
i
5
q
u
a
r
e
)の統計量
Number0
'
1Mode~ 1
1
6

:0
.
0
1
9 :.
0
.
8
3
2

.
1
0
2
1

われわれの関心は,推定された回帰
係数の大きさと時間的な変化である。
そこで,月別モデル(151 モデル)・接続
型 モ デ ル (116 モデル)の推定された各
回帰係数の分布と主要な変数として採
択されている専有面積に関わるパラメ
ータの時間的な変化を見た(表 3,
図 2
)。
まず回帰係数の標準偏差を比較すれば

「最寄駅までの距離 J,r
築 後 年 数 Jに お い て 月 別 モ デ ル の 係 数 は 接 続 型 係 数 の 2倍 の 大 き さ

r
専

都心までの接近性」においても非制約型が接続型を上回る大きさで,接続型の回帰係
有 面 積 J ,r
Fhd

1
ょ

っd

312.
[beta]
数が安定していることが確かめられる。
続いて

「専有面積」に関する同帰係数については符号条件を満たした推定値が時とともに

)。 特 に 、 こ れ ら の 係 数 は 対 数 変 換 し た 変 数 に 対 す る 回
大きくなっていく様子が観察される(図 2
帰 係 数 で あ る の で , 元 の 変 数 に 対 し て は 弾 性 値 に 対 応 す る が [996年 初 頭 に lを超えており

消費

者の面積に対する選好が強くなっている様子がうかがわれる。
このようにデー
l、

タにより検証を行
ったところ,例え
ば月単位でデー
、
"
'

タが更新された
データ群のみを

、

1'
1

0
>

対象として関数

9

推定をした場合
2
へ
る
ヘ
三3

ス
ヘ

43P ω‑

おふ0

一円AV

ヘ
FSぉ
c
o
‑

$トヘヨ AUV

09トへいひ

一

戸
V
ふ
へω

︒︒︒一

52

ndZV05

‑‑355‑

乙︽へいか

22S

4

ユ
ヘ

主去る‑

︒
内
ヘ
三 O‑

a
C
N
Aいふ‑

︽

"
'

c‑aa‑

R

mg{おふ‑

合
一
)
ふ
認
︒

~

主
〈

E
ト

,
.
;
:

,
.
.
.
.

c¥

2

X
X
内

'"ゴ'"

N

N

N

図 2
. 回 帰 係 数 の 時 間 的 変 化 一 専 有 面 積 FS:1989/04‑2001
/
10

にはパラメータ
の時間的な整合
十生をとることは困難

て、あり、独立したものとなる。そのためー時間的な整合性をとれた不動産価格査定装置を開発するた
めにはー接続型モデルの優位性が高しせ判断される c

33回 帰 係 数 の 精 査
へドニック関数の時間的な安定性を確保した後には,地理的な範囲の確定ともに,回帰係数の精
査を行う必要がある c 地理的な範囲の確定方法としては,高辻 (2001)に基づく,清水ら (2001)による
システムを活用することとしここでは回帰係数の精査について検討寸る c
先に推定したモデ〉レでは構造推定された関数は,価格と各変数との関係は単純な線形関係に
あることを想定していた。

しかし, 各変数と単位価格との聞の関係が, 単 純 な 線 形 関 係 に あ る

とは想定しにくく,特定の点でキンクしている可能性がある。具体的には, 最 寄 駅 ま で の 距 離 で
はパス圏に入る距離帯, 築 年 数 で は 建 築 基 準 法 の 改 正 や 大 規 模 修 繕 の タ イ ミ ン グ な ど に よ り ,
構造が変化する可能性がある。 そこで j 二 巴 川

次のよ

うにモデルを修正し,関数を再推定する。
(修正モデル 1
)定数項に変化を与える

r=e
.‑

,

(Type2)

(修正モデル 2
)係数そのものにも変化を与える

。
O
.bO+bldrl+b2dI2+b3dr3
r=e
.
.
‑
'

(Type3)

lu+L
.
ll
d
t
l
+
ο2
d
t
2
+
a
3
d
t
3 bO

ど

ι

また,この 2つのダミー変数によって得られる知見は,築後年数等の連続的な変化のなかで,
単位価格の八クトルが変化することを想定しておらず,基本的には線形構造を前提としている。
ただし, 非線形構造があるとしても,

どのような構造があるのかを事前に知りえていない。

そこで,価格の各主要変数との関係を調べるため,任意の範囲で連続的なダミー変数(例えばー
316‑

313.

築 後 年 数 で あ れ ば l年単位で作成する)を作成し(修正モデル:1),探索的な分析を行った(乃 pe4, ) 具体的には, 中 古 マ ン シ ョ ン デ ー タ で あ る た め に , 最 小 値 を l年として, 下 記 の よ う に 3 つ の区間を設定し, ダミ一変数を作成することとした D t l l l l l l l y l 7 三 o t l l l ll T Iy2 〈 D t ll l 1 l l 1y 3 I I I 豆 3 キ ン ク 点 が 2つ で あ る と の 想 定 の も と で は 築 後 年 数 の デ 1 1 1 ー タ の 分 布 か ら 35年 を 最 大 値 と し て 設 定 す る と , /および III の組み合わせのなかから最適なモデルを選択すればよいうこ こでは 5 2 7本 の 関 数 が 推 定 さ れ AICに よ り , モ デ ル 評 価 を 行 った。 また, Type3の 築 後 年 数 に 関 す ICの 変 化 パ タ ー ン を 図 3に示す。 るA 1 = 1 0, 1 1 1 = 1 6で A ICが最小となり, F f :;~O(ρ ず 自 由 度 調 整 済 決 定 係 数 は Typel コ 。 0 0.734 か ら 1ρ 川 0 . 7 6 1 と改善される が , Type2 と の 比 較 で は 変 化 し て い な ︒ ︑ し ¥ 〆 , ̲ , " ̲ ̲ ' " デ 、 、 / " 、 。 、 一 、 IC で比較した場合は, しかし A i 定 数 項 ダ ミ ー モ デ ル (Type2)が 九 三 、 ' ‑ v . ペ ペ プ 「 ‑5074に 対 し て 係 数 ダ ミ ー モ デ ル (Type3)が ‑ 5 4, 782 と改善されている。 国 3 .修 正 モ デ ル 2の AIC/3区分:築後年数 Typel~Type4 までを比較すると単純 な線形構造として推定した基本モデ、ル 1 . 1 の推定値による価格低減と他の 3つの モデルとの問で,特に築後 1 5年あたり の点までの聞で大きな'*離があること がわかる。また,連続的なダミー変数と して推定した修正モデル 3は 単 純 な 線 0 . 7 形構造を持つものではなく,非線形的 な形状で推移していることがわヵ、る。修 0 . 5 正モデ ル Iまたは修正モデル 2との比 0. 4 0 35 3D 較においては,修正モデル 3と修正モ デル lは 築 後 20年 く ら い ま で は , 類 似 し た 経 路 で 低 下 し て い く が , 25年 以 図 4 .モ デ ル 別 築 後 年 数 に よ る 減 価 降 に つ い て は 修 正 モ デ ル 3が 修 正 モ デ ル 2に近似していくことがわかる。 探 索 的 に 観 察 し た Type4 が 真 の 回 帰 係 数 を 近 似 し て い る と す れ ば , 単 純 な 線 型 構 造 で 推 定 す る Typel では価格を再現するときにラ築年数が/トさい段階で推定誤差が大きくなることがわヵ、りヲ Type2また は Type3の方法で近似させることの必要性がわヵ、るに qも υ ウt l

314.

4 .結論と残された課題 「構造変化テスト jに基づく市場分害,]に闘する統計問題を検証しつつ,SAS Syst己I I I R巴l e a s e 6 . 1 2 の 開 発 を 行 っ た c 本稿を過して,以下の点を明らヵ、にした c を用いて「不動産価格査定装置 J 不動産金融市場に内在する不動産の価格リスクの解消のためにはー物件単体で最適な評価を 行うのではなく,時空間的整合性のとれた市場価格に基つく価格査定システムが必要である τ そのためには宅月次単位等で独立にへド ニック関数を推定するのではなく、「接続型モデ、ル Jによ り,関数推定を行う方が上記の目的を達成されるともに,安定的な運用が可能となるの 連続量に関する回帰係数は単純な線型構造ではなく,非線型的な構造をむつが,システムの安 定的な運用を行う上で、ダミー変数による近似法を提案したc 現在では,沿線と行政界をもとに r 最寄駅」を単位とした探索的な構造変化テストにより地理的な 市場分割を行い,提案された「接続型モデル」および「回帰係数の精査」を通して,価格インデックス に 連 動 し た 不 動 産 価 格 査 定 シ ス テ ム 運 用 を 行 っ て い る c 今後においては,次の課題を残している c 先 行 研 究 で1 土Box‑Cox変 換 等 の 変 数 変 換 な ど を し て ア プ リ オ リ な 形 で の 非 線 型 推 定 が 行 わ れ ているが,不安定性を残寸=システム的かつ構造的に安定的な非諌型推定に課題を残寸、 構造変化から当然予想される不均一分散への対応が必要となる P 不均一分散の険定とともに 一般化最ノト二乗法や最尤法などで推定することが必要かもしれない c これらの問題は,SAS で、解決で、きるため,統計実験で、検証しつつ問題解決を図りより情度が高く, 関数の構造およびシステム運用の両面で安定的な不動産価格装置へと改善していきたい f [参考文献] A l l e nC .Goodman(1978,)HedonicP r i c e s,P r i c eI n d i c e s,a n dHousingMarkets, JOIlI"l1U /υlt / r h ul1 ! : ' c o n o m i c s, V o l . 5,No.4、pp974・988 Ameniya(1 9 8 5) , Adval1c山 / 1 : c ol 1o melrics,H a r v a r dU n i ¥ ' e r s i t yP r e s s BowJes,G .,P .M c A J J i s t e ra n dH .T a r b e r t ( 2 0 0J ) AnAssessmento ft h eI m p a c to fV a J l l a t i o nE r r o ron P r o p e r t yJ n v e s t m e n tPerform3nceMeasurement, ". ! OIlrJ7U /olProperly正: fFinance,VoL1 9 .N O . 2 .pp 1 3 9 ‑ 1 5 5 金本良嗣( 1 9 9 7 )Ii都市経済学 J 東洋経済新報社 西村清彦・清水千弘 ( 2 0 0 2 )r 地価情報の歪み:取引事例と鑑定価格のメカニズム」西村清彦編著 『不動産市場の経済分析 J 第 2章 日本経済新聞社所収 小野宏哉・清水千弘( 1 9 9 8 )r 鑑定値・取引事例比較による復興地域の土地評価における地域的特 性 の 検 討 J第 3 3回日本都市計画学会学術研究論文集 小野宏哉・高辻秀興・清水千弘( 2 0 0 1 )r 品質を考慮した中古マンションの価格モデノレの推定 J RJPESS(麗津大学経済社会総合研究センター)Workin巳 P a p e r,N O . I 小野宏哉‑高辻秀興・清水千弘( 2 0 0 2 )r 首都圏中古マンション市場を対象とする品質調整済住 a p e r,NO.3 宅価格指数の開発 J RIPESS(麗海大学経済社会総合研究センター)WorkingP P e t e rC h i n J o y (1 9 7 9 ),HedonicP r i c ea n dD e p r e c i a t i o nI n d e x e sf o rR e s i d e n t i a l1 ‑ I0 1 1 s i n gAgain, . !o l l/'l1a /ol t /rhanEconomics, VoL6、No.2,pp2722 7 3 Rosen,S .( 1 9 7 4 ),HedonicP r i c e sandI m p J i c i tM a r k e t s,P r o d u c tD i f f e r e n t i a t i o ni nP l l r eC o m p e t i t i o n, . ! O l l r I 10 /O l / J o! iI I C O // : C O!lOI l l ) !VoL8 2,p p 3 4 ‑ 5 5 清水千弘・早 } I ]信也・篠津和夫 ( 2 0 0 1 )r 品質調整済住宅価格インデックス作成システムの開発 J SUGI‑J2001 ( 2 0 t h ) /第 2 0回SASユーザー会総会および研究発表会論文集,pp91‑100 高辻秀興( 2 0 0 1 ) rSASによる構造変化テストの方法について Jmimeo Q l l i g l e y,1 0 1 1 1 1M(1 9 9 5,)AS ill1p l eI ‑ Iy b r i dModelf o rE s t ill1a t i n gR e a lE s t a t eP r i c eI n d e x e s, .!oumu/0 / HOl 川: i n g1 : 、 conomics, VoL4, N o . 1平 p . 1・ 1 2 司 司 3 1 8一

315.

口頭論文発表 経営・経済

316.

日本 SASユーザー会 (SUG1‑0) 住宅ローン債権のキャッシュフロー評価 0西野嘉彦へ中林三平ホホ 株式会社金融エンジニアリング・グループ 官U 主任コンサルタン卜,日代表取締役社長 Cash‑Flow V a l u a t i o nf o rM o r t g a g eP o o l s Y o s h i h i k oN i s h i n o,S a m p e iN a k a b a y a s h i F i n a n c i a lE n g i n e e r i n gG r o u p, I n c . 要旨 近年、住宅金融公庫が住宅ローンを原債権とした M B Sを発行したり、住宅ローン業務か ら撤退する金融機関が保有する債権を売却するなど、住宅ローンを直接あるいは間接的に 売買する動きが発生している。これらの売買に際しては何らかの方法で当該ローンの価値 評価を行う必要があるが、一般に投資家に開示される情報は限られる。本論文では入手可 能な情報が極めて少数に限られる場合を想定した住宅ローンの価値評価の考え方を概説し、 S A Sを使用した評価事例を紹介する。 キーワード: A S / G R A P H 住宅ローン、債権売買、キャッシュフロー推定、回収管理、 S 1.はじめに 近年、住宅金融公庫が住宅ローンを原債権とした MBS を発行したり、住宅ローン業務 から撤退する金融機関が保有する債権を売却するなど、住宅ローンを直接あるいは間接的 に売買する動きが発生している。特に MBS の発行は、住宅金融公庫の見直し論議が活発 化し、今後の主要業務のーっとして、民間金融機関が実行した住宅ローン債権を買取り、 これを証券化することが議論されていることからも注目を集めている。一方、民間金融機 関においては、収益機会を求める銀行を中心にリテール業務の主要商品である住宅ローン の推進に総じて積極的であり、優遇金利の設定や、これまで民間では供給が困難であると 言われてきた長期固定金利ローンを商品化するなど、新しい取組が行われている。特に、 長期固定金利商品については、将来の売却や証券化を当初から念頭においている金融機関 も存在することから、ローン売却i や証券化の潜在ニーズが蓄積されているものと考えられ る。銀行以外の金融機関においては、全社的な業務見直しゃ機動的な ALM 管理体制構築 の一環として、住宅ローン債権を売却したり、 MBS を発行することで証券化技術の習得 勺ヘ ム つυ ‑

317.

に勤めている事例が散見される。以上は住宅ローンを保有する側の売却に関する動向であ るが、一方の債権を買取る投資家について見ると、例えば与貸比率の低い銀行や、住宅ロ ーンの残高積み上げに積極的な銀行にとっては、纏まった残高が手に入ると言う意味にお いて、ローンの買取り強い動機があるものと考えられる。 以上のように、住宅ローンを直接・間接に売買する動きが、活発化し始めているが、こ れらの売買に際しては伺らかの方法で当該ローンの価値評価を行う必要がある。一般に住 宅ローンは貸倒れが少なく、その意味でリスクの小さい債権であると言われているが、一 方で貸出期間が 3 0年を超える長期融資が一般であることから、将来に渡って債務者から 返済されるキャッシュフローを推定・評価するニーズは大きい。以下では、住宅ローン債 権のキャッシュフロー評価の概要を説明し、これを定期的な収益性管理に応用することを 提案した上で、 SASを用いて開発したアプリケーションのフロトタイプを紹介する。 2 . 価値評価の考え方 住宅ローン債権の価値評価の基本的な考え方は、当該債権から発生する将来のキャッシ ュフローを推定することにある。将来のキャッシュフローが推定されたならば、これの利 回りを計算したり、目標とする収益性基準を達成する価格水準を求めたりすることが可能 となる。ところで、住宅ローン債権のキャッシュフローは、債務者からの返済によって裏 付けられている。債務者からの返済は通常、ローンの借入時に予め返済スケジュールとし て計画が組まれており、基本的にはこれに沿って返済が行われるのだが、以下の点で実際 には確定的なキャッシュフロー評価が困難となっている。 ①金利変動:変動金利商品の場合、市場金利の変化に応じて約定金利が変更される ②繰上返済:債務者は当初の返済スケジュールを繰り上げて元本を返済することが可能 ③代位弁済:債務者が返済に行詰まった場合、保証会社によって元本が一括返済される 言い換えると、住宅ローンのキャッシュフローの推定は、上記①から③の発生の程度を予 測することで行われる。実際にこれらの予測を行うことは簡単でなく、ファイナンス関係 の研究者や金融機関において様々な手法やモデルが考案されている。特に②の繰上返済に ついては、住宅ローンの特性として強く認識されていることから、住宅ローン価値評価の 研究において中心的なテーマとなっている。以下では②の繰上返済の発生予測に関して実 務上で一般に利用されている方法・モデルについて概説する。 3 . 繰上返済率の推定 3. 1 経験モデル 過去の繰上返済の発生状況を基準にシナリオを設定するという考え方であり、 CPR P u b l i cS e c u r i t i e sA s s o c i a t i o n )が ( C o n s t a n tPrepaymentR a t e ) や米国の PSAモデル ( ‑322ー

318.

CPRはその名のとおり、評価 j V Jt H J中を i l i lじて繰上返済率が‑定である PRを設定する というシナリオを設定するアプローチである。実際にと、の程度の水準の C これの代表である。 かは、評価対象債権プールの過去の繰上返済に関する実績や的権特性(例えば経過年数等) を考慮して設定することが多い。一方の PSA モデルはベンチマークとなる繰上返済率に 対してストレスを一定倍率で負荷するアプローチである。ここで、ベンチマークとなる繰 上返済率は、期間 3 0年の住宅ローンについて年間の繰上返済率を月ごとに表示したもの .2%であるとし、以降 3 0ヶ である。より具体的には、最初の返済月の年間繰上返済率が 0 .2%づっ毎月上昇し、その後は一律 6%となるもので iPSA標準繰上返済モデ 月後までは 0 ル」と呼ばれる。何別の債権プールの評価に際しては、例えば 2倍のストレスを仮定した 場合は、 3 1ヶ月日以降の年 1 : ]繰上返済率が 12%となるよう 30ヵ月日までの繰上返済率を 計算することになる。 J : l F J らかに何倍のストレスを負荷するかと言う設定自体は、やはり過 去の当該プールの実績等を勘案する必要がある。 3. 2 誘導モデル 誘導モデルとは、繰上返済に影響を与える要因を特定し、この要因の変化に応じて繰上 返済の発生が変化するという関係を定式化するアプローチである。例えば、金利水準が低 下すれば、債務者にとってより金利の低いローンに借り替えたいという意志が働きやすく なるという仮説は自然である。実際、近年に懸けての金利低下局面においては、高金利時 代に借入を行った債務者のイ片換え行動や、固定金利から変動金利に変更する動きが活発で あったようである。誘導モデルでは金利水準のように、繰上返済の発生に影響を与える要 因を特定し、これを定式化することが行われる。定式化に際しては、債務者個々の繰上返 済に関するデータを多数収集し、これを分析することが要求される。その際用いられる分 析手法としては、生存時間分析が代表的であり、ハザードモデルとして定式化されること が多い。生存時間分析やハザードモデルに関しての詳細な説明をここでは省略するが、そ の概要は、時間の経過と共に発生する繰上返済率の水準を基準として定義した上で、金利 水準などの要因の影響度合いを別途パラメータとして推定し、基準となる繰上返済率に加 減を与える構造を定式化するものである。 4. 各モデルに必要な情報 以上は、繰上返済の評価モデルであるが、代位弁済についても基本的には同じようなア プローチが適用されている。ところで、経験モデル的なアプローチであれ、誘導モデル的 なアプローチであれ、評価対象債権プールの過去の実結や依柿特性を考慮する必要がある と言う意味では、それらについての情報が債権評価にあたって必要となる。特に誘導アプ ローチの場合は、モデルで採)rJされている説明変数に対応する項目が必要となるし、仮に ーからモデル自体を構築するのであれば、纏まった量の個別的権データとそれらの過去の 返済履歴が要求される。近年は多くの金融機関で情報化投資が積極的に行われてきたこと 内r ム 今 ︑d 今 ︑d

319.

もあってか、個別債権に閲する情報や返済履歴がデータとして蓄積・管理されており、 上 記の情報がまったく入手できないという状況は少なくなってきていると思われる。ただし、 情報システムを導入・更新する以前の状態に遡って情報を整備することは少なく、一般に は過去の情報ほど入手し難いと考えられる。情報の入手が困難な局面では、繰土返済率と 説明変数の聞に特定の関数関係を定義しない経験モデル的なアプローチは、要求される情 報項目が相対的に少ないことから、その意味では使い勝手の良い手法と成り得る。実際、 債権評価が必要となる債権売買時においては、時間的な制約等からデータの入手が困難で あったり、モデル構築に時間がかけられない場合も想定される。そこで以下では、経験モ デル的な方法によるキャッシュフロ一生成を事例として紹介する。 5 . キャッシュフローの生成 キャッシュフロー生成についての単純な方法として、例えば以下のような前提を設定し た上でキャッシュフローを定式化し、これを計算する方法が考えられる。ここでは、繰上 返済率や代位弁済率を過去の実績を勘案して設定し、残存期間中は一定であるという仮定 を設定している。 [前提の例] ①個別債権ごとに毎月の返済による月次キャッシュフローを計算する ②返済方法は元利均等払いとし、ボーナス返済はないものとする ③固定・変動金利とも現在の金利水準が継続するものとする ④繰上返済率及びデフォルト率は全債権・全期間で一定とする ⑤繰上返済に際しては返済期間の短縮のみ行われ、月次の返済額は不変である ⑥デフォルトに際しては保証によりデフォルト率に応じた元本が代位弁済される ⑦デフォルト率相当の毎月返済額は返済されない CF a l l '( 1 ‑cdr) 宮町 (cpr+cdr+i)+MP 1 …キャッシュフローの合計 CF a l l MB , …t期における元本残高(tは月次) M , P …t期における毎月返済額 (tは月次) c p r .・‑繰上返済率(月率) c d r…代位弁済率(月率) i…約定金利(月率) 上記の前提は、ここでの説明の為に設定した事例である。当然、実際の評価においては 3 2 4一

320.

前提の妥当性を考 l 草する必要があるし、場合によっては段々な前提に応じた捜数のキャッ シュフローを生成することも有効であると考えられる。何れにしろ、一度適用するモデル・ 前提が設定され、キャッシュフローが定式化されたならば、後はプルグラムを組んで計算 すれば推定したいキャッシュフローが生成される。キャッシュフローが推定されれば、こ れを要求する利回りで割戻して現在価値を計算したり、あるいは特定の金額で購入した場 合の利回り指標を計算することが可能となる。 6 . 回収状況管理への応用 以下では上記で見た単純化されたキャッシュフロー評価の応川事例として、購入債権の 回収管理への応用について制介する。住宅ローン債権の売買に関して、債権の価値評 l { ! l i 分 析が求められるのは、売買時のイ! I l i f 各算定だけではない。というのも、主として債権を購入 した投資家にとっては、保有資産のリスク管理を定期的に求められるため、購入した住宅 ローン債権についても継続的なモニタリングが必要となる。これに関して、投資家が自ら も住宅ローンをオリジネ一卜している銀行の場合、購入した住宅ローン債権を自ら実行し た住宅ローン債権とまったく同じように管理できれば負担は少ないが、実際には様々な制 約から購入した債権を個別に管理せざるを得ない場合が多いようである。特に利用可能な 情報という面では、購入した債権について入手可能な情報は一般に、購入した住宅ローン 債権からの回収業務を手がけるサービサーからの回収報告警に限定される。回収報告書で は個々の債権の状態についての情報は含まれず、ある一定の区分単位での約定返済額や繰 上返済額、また代位弁済額や延滞債権数などが集計値として報告される。このような状況 でのキャッシュフロー評価の応用事例はシンフルなものとなる。すなわち、回収報告が為 されるたびに最新の繰上返済率及び代位弁済率を集計し、過去に報告された数値を更新し その時点から新たに将来のキャッシュフローを生成し管理指標を計算するという方法であ る 。 パラメータ更新 実績との比較 IRR, AVL 図 1 回収管理のイメージ q/u nくυ ‑ D

321.

7 .S A Sによるアプリケーション ここでは SAS を用いて作成した回収管理用のアプリケーションを紹介する。機能概要 は以下の通りである。現状は他のアプリケーションとの連動は考慮していない。回収報告 が定型的な書式の電子ファイルの形式で入手できるのであれば操作は非常に簡便化される であろう。 [機能] ①入力機能 .回収報告書の読込み ②集計・計算機能 ・約定返済額、繰上返済額、代位弁済額、利息収入額の集計 ・繰上返済率、代位弁済率の集計 ・キャッシュフローの推定 ‑内部収益率、アベレージライフの計算 ③表示機能 ・回収実績額のグラフ表示 ‑繰上返済率、代位弁済率の時系列グラフ表示 .キャッシュフローのグラフ表示 [プロダクト] • BASESAS • SAS/GRAPH • SAS/AF 参考文献 山 FrankJ .Fabozzi:I 債券投資・ディーリングのための金融数学 J土田宏造監訳(出金 . 融財政事情研究会 1991 [ 2 ]大橋和彦: I 証券化の知識」日経文庫日本経済新聞社 2001 3 2 6一

322.

コマンドニ〉 │ C a s hF l o wV a l u a t i o nT o o l 回 収 差 臨 │ │ 主 示 I 実量計 巧竺更新│ C F生 J f L 計算 J t 示 グ 図 2 メイン画面 E s t i m a t e dC a s hF l o w C F百万円 1 7 0 0 1 6 0 0 1 5 0 0 1 4 0 0 1 3 0 0 1 2 0 0 1 1 0 0 1 0 0 0 9 0 0 8 0 0 7 0 0 6 0 0 5 0 0 4 0 0 3 0 0 2 0 0 1 0 0 1 2 3 4 5 6 7 8 9 1 0 1 1 1 2 1 3 1 4 1 5 1 6 1 7 1 8 1 9 2 0 残存年数 返済区分 匿霊童 l 約定返済 隠密宣雄主上返済 豆豆~ 3 代位弁済 図 3 グラフ表示例 区玄:24 手I J 里収入 n /︼ 戸/ つJ

323.

日本 SASユーザー会 (SUG1‑0) コストベースハザードモデルによる債権回収活動の効率化 谷岡日出男 主席コンサルタント 株式会社金融エンジニアリング・グループ Cost‑BasedHazardModel:ANewMethodo fModeling M u l t i ‑Ta r g e tEvents HideoTanioka MathematicalE n g i n e e r i n gD e p t . F i n a n c i a lE n g i n e e r i n gGroup.I n c . 要旨 管理債権の回収率を高めるためには過去の回収事例からどのような属性を持つ債権が回収しや すいかを分析し、その結果を今後の回収活動に活用することが重要である。本稿では、分析モ デルの lつとして新しい「コストベースハザードモデル」を川いることを提案する。これは「完 i 斉」金額と「償却」金額の差を目的基準とし、比例ハザード性を満たす債権属性を決定木方式 で逐次組合せていくモデルである。出案モデルを実験事例に適用した結果、従来の「完済」も しくは「償却」のみを目的基準とした属性探索モデルより催れた結果が得られた。 キーワード:比例ハザードモデル、決定木、債権の回収、 PHREG 1.はじめに 債権の回収、不良化、顧客の離反といった金融分野における様々な分析テーマに対し医学疫学 分野で開発された統計手法であるロジスティックモデルや比例ハザードモデルが用いられてい る。これは人間の食生活や生活習聞の q : lに病理的な疾病の発生因子があるという仮定を考える と同様に、人間の社会経済環境や経済活動の中から特定の経済行部J を起こす要因を見出そうと するアナロジーのようにも思える。ロジスティックモデルと比例ハザードモデルの違いは、イ ベント発生時間をモデルで考慮するか否かの違いであり、ロジスティックモデルはイベント発 生時間を考慮せず、ある観測H 寺点までの累積発生率のみを問題とする一方、比例ハザードモデ : : Jに関わらず一定の大きさで有立な属性効果のみを抽出することを ルは発生時間を考慮し、Jl寺 I モデル構築の主眼としている。 金融分野における代表的な比例ハザードモデルの応用例としては次のようである。 (1)信用管理部門では、過去の利)JJ状況や決済状況から、客観的に定義された「不良」発生 329ー

324.

率の有意な差が時間に依存せず一定の大きさを示す要因を探し出すことにより債権の効 果的な信用管理に利用する、 (2)債権管理回収部門においては、債権内容や顧客属性の中から時間に依存せず常に回収率 の高い属性を発見しそれを回収活動に利用する、 (3)さらに、マーケティング部門や顧客サービス部門では、顧客の自発的な「離反」要因を e 探索し、「離反」もしくは「不良 Jに至るまでの平均顧客寿命に基づく顧客生涯価値(Lif TimeValue) の計測に応用する。 本稿では、管理債権の回収課題を取り上げ、債権の回収率の高い低いを決定するための新しい 数理モデルを提案する。本モデルは、一言で述べるとすれば、比例ハザードモデルで取扱う目 的イベントを 1個から複数個に拡張したモデルであるといえる。管理債権の最終区分は「完済」 もしくは「償却」のいずれかのイベント発生となるが、分析の目的は時間に依存せず常に完済 する確率が高い債権属性を発見するというより、完済する確率が時間に依存せず常に高いと同 時に償却する確率が時間に依存せず常に低いという結合条件を満たす債権を発見することであ る。このような結合条件を満たす債権属性は、より効率的な債権回収に寄与できる可能性があ ると考えられる。 2 .モデルの考え方 まず、基本となる比例ハザードモデルに関する簡単な説明を行い、次に、比例ハザード性を満 たす属性条件の組合せを得るための方法として、決定木手法について述べる。さらに、従来の 考え方に基づく単一イベントをモデル化する方法を述べる。最後に提案する手法の手順を述べ る 。 2 . 1 比例ハザードモデル 比例ハザードモデルは関心のあるイベント発生率(正確にはハザード率)の時系列変化の形状 に関わらず、発生率の比は時間とは無関係に債権属性の違いによってのみ決まると仮定するモ デルである。過去の観測事例は、イベントの発生がまだ観測期間内には観測されていない状態 (これを「打切り」と呼ぶ)を含めて、観測期間の長さに関わらず、イベント発生時間情報と してすべて用いることができる。 2 . 1 )式に示すように、時点 fにおける属性 X のある値を持つ債権のハザード h ( t )( 時 モデルは ( 点 fにおける残留件数を分母とし、完済などの関心のあるイベントの単位時開発生件数を分子 1 寺点 tに関わらず、属性値すべての値 =0 を持つとした場合の基準ハザード とした比率)は、 1 h o( t )の定数倍 (Xのみの関数 e x p ( X ' s ))で表現できる(これを比例ハザード性と呼ぶ)と するものである。 h ( t )=exp(Xι ) h o( t ) ( 2 . 1 ) ー般に、 β ={s}, s2, … , sdは債権属性 X={X1, X2, … , X dにかかる重みベクトルでありデー ‑330一

325.

タから推計されるべきものである。 債権属性 X とハザード比 ( h ( t ) /h o ( t ) ) との関係づけは、上記のように個々の債権属性変数(的 権額、債権種類)や債務者属性変数(年齢や家族構成など)の中で比例ハザード性を満たす属 性を選択し、パラメータとの線形結合の形式で表現されることが多い。しかしながら、今回提 尽く、次節で述べ 案するモデルは債権集団を定義することが必要であるため、線形モデルでは j るように、全債権を比例ハザード性を満たす有意な債権属性カテゴリ { j r (により逐次的に分割し ていくモデル構築方式(決定木方式)を採用する。 2 . 2決定木方式の比例ハザードモデル 決定木方式の比例ハザードモデルのデータへの適用手順は、以下のようになる。簡単のため、 ここでは 2分木を考える。 (1)あらかじめ各属性変数の分布とイベントの発生率との関係から各変数を 2カテゴリ化し ておく、 (2)全債権に対して各 2 l { l変数 Xi( i= I , 2, . . , k)を単一の説明変数(共変量)とした比例ハザ ードモデルを個々に適用する。このとき、比例ハザード性のチェックを行い、チェック i=1, 2, . . , k)を求める、 にパスした場合のみパラメー夕日 i( (3) [ s ; /の値が最大 1となる 2値変数 Xiの値により債権を 2分割する、 (4) 分割された債権集団がもはやこれ以上分割できない(終端ノード)かまだ分割できる(中 問ノード)かを判定し、 1 : :1問ノードに対して(2)、(3) の手 JIIf1を繰り返す、 (5)すべてのノードが終端ノードとなると終了となる。 ここで、(1)の手順は前もって行わないで(2)の段階でダイナミックに行うやり方や (4) の終端ノード判定条件の設定方法などにさまざまなバリエーションが考えられる。 2 . 3従来の方法 さて、時間に依存せず「完済しやすくかっ償却しにくい」という結合基準を満たす債権属性を 見つけるための従来の方法は、以下のような手順となろう。 (1)まず、「完済金額」を目的イベントとした決定木方式比例ハザードモデルと「償却金額」 を目的イベントとした決定木方式比例ハザードモデルを別々に榊築し、完済しやすい債 権属性と償却しにくい的権属性を別々に求める。 (2)それらの債権属牲を相互に組み合わせることにより、目的とする完済しやすくかっ償却 しにくい債権属性を得る。 ここでは、「完済件数 J、「償却件数」では無く、「完済金額 J、「償却金額」を目的イベントとし 1 実際には後で登場する合成イベントの度数を非負の値に向上げする α の値と時間 t および、属性 {I~( 別初期件数で調整した値を最大化する。詳細H は[ 1 ]参照。 υ 今︑ 今︑ ‑υ

326.

たが、金額の重みを分析結果に反映させるためである。 しかしながら、この方法には以下の 3つの問題点が存在する、 (1) 2つのモデルはそれぞれ単独では他方のイベントを単なる「打切り Jとみなしており、 結果を組み合わせたとき、目的とする最適な債権属性が得られる保証が無い、 (2) 2 つのモデルそれぞれにおいては、前提とする属性変数ごとの時間に依存しないハザ ード比一定(比例ハザード性)条件を満足する債権属性のみが得ることが可能である が 、 2 つのモデルを組み合わせた後の債権属性の各イベントに関する比例ハザード性 は崩れる可能性がある、 (3) 2 つのモデルを組合せた債権選択ルールは元のルールと比較すると、複雑さが大きく 増加するため、モデルの予測誤差が非常に大きくなる恐れがある。 最後のモデルの複雑性が招く誤差の拡大は実際のモデル作成上の致命的な欠点となる。そのた め、現実的には 2つのモデルを単純に組合せる方法は行わず、 2つのモデルいずれか精度の高 い方のモデルを用いる方法をとることになる。 2.4提案する手法 提案する手法(コストベースハザードモデルと呼ぶ)は、目的とするイベントを表現する仮想 的な合成イベントを考えることにより、比例ハザード性を満たす債権属性を求めようとするも のである。結果を組合わせる必要が無いため上記の各問題点をすべて克服できる。具体的な手 順は以下のとおりである、 (1)区間 ( t, t+1 ]における「完済金額」・「償却金額」を集計し、これを時点 tにおける関心 のある合成イベントの発生頻度とみなす、 (2)合成イベントを目的イベントとした決定木方式比例ハザードモデルを適用する、 (3)得られた決定木採用属性による債権分類を求める解とする。 ) の値は負 た だ し 、 上 記 (1)で定義する合成イベント発生頻度(1完済件数」・「償却件数 J となることがありえる。負の頻度は理固に合わず比例ハザードモデルを実行する PHREGプロ シジャなどは負のイベント頻度入力を拒否するため、時点 tにおける合成イベント発生頻度の 値がすべて非負となるよう定数 αを一律に足し算する人為操作を加える。 なお、(1)の合成イベント作成操作の手順を以下の図 2. 4 (A)、 (8)、 (C) に模式図として 表示する。 4( A ) はイベント 1 (完済と見倣す)とイベント 2 (償却と見倣す)それぞ、れの時点 fに 図 2. 8 ) では関心のある完済しやすく償却しにくいことを表現する仮 おける頻度を示している。 ( 想イベント 1 ・ 2をイベント 1と 2の頻度差として定義している。 t ニ 5のときこの仮想イベント の頻度は最小値 ‑ 5 をとり負の他となっている。 (C) では ( 8 ) の仮想イベントの時点別頻度に それぞれ 5を足すことにより、すべての H 寺点における頻度が非負になるように操作している。 ペ dJ ペ dJ η ノ臼

327.

(A) Original EVellls 1 斗 & [2J 仁; oun.t 1ー 2] (B)SyIllhelic‑Fvenl [ Connt 1 「 二 子1 rn ヨ│山 L J L 1 ; : j L ; i L j ! ? ? で 1 4 つ う ~ ~ (C)Synthetic‑Event [1ー j [ 1 ‑ 2 + a ] 5 1 . 2 '3 J .~ せ f ' : ' ̲ J 2 + a] Co un. t 図 2.4仮想的な合成イベントの生成 1 2 3 4 5 3 .手法のインプリメンテーション 提案する手法を実行するためのプログラム例を SASで書いた。リストは付録に添付した。 プログラムリストの簡単な説明: 4~18 行:分析用事例データに対して数他項目の 2 カテゴリ化、 11寺間単位を 1 ヶ月単位から 6 ヶ月単位へ変換などを行っている、 27~248 行:合成イベントの作成~各属性の比例ハザード性の確認~比例ハザードモデルの適 用を行う KEISANサブルーティンマクロプログラム、 251~347 行:属性候補変数ごとに SELECT サブルーティンを呼び出しハザード比最大基準 による分割属性選択のための SELECTサブルーティンマクロプログラム。 4 . モデルの適用例 4 . 1 データ 497件、総債権額約 3億円(単価約 6 0万円)の消費者向け販売信用およびローン債権の移管 後1 2ヶ月間の回収履歴データを例示データとして用いた。この中には債権内容に係る情報(移 管金額、移管日)、顧客属性情報(年齢、性別、勤務先企業規模、居住区分、会員期間など)、 回収履歴情報(月次回収金額、完済または償却記録)が記録されている。これらの生の項目か ら以下のように分析に用いる変数の選択と加工を施した。 (1)説明属性変数は移管時点で判明している 8つの顧客:属性項目と債権金額(移管金額)を 用いた。ただし、各 m日は決定木分析に用いるために事前に表 4.1(A)に示す 2値カテゴ リ化を行った。 (2)イベント項目は回収脱出!HM 肋〉ら表 4 . 1( B )に示すように完全回収(完済)と回収放棄(償 却)とし、その時点と金額とした。 qtu qtu ︑ qυ

328.

債権全体の完済率と償却i 率(金額ベース)の推移を図表 4 . 1 に表示する。 l年経過時点では完 済率 10.8%、償却率は 16.5%となっている。 表4 . 1 分析データ項目一覧 値 目 一 一 叫 縦 一 ( A ) 属性項目 性別 配偶者有無 与信状況 勤務先規模 住居 年収 年齢 会員期間 カァゴリ 備考 { F . M } 男/女 [ Y . N } あり/なし { H .L ! [ H . L } [ H上l [ H .L ! { H . L } [ H .L ! I 笥/低 備考 移 管 後 6k月 /12ヶ月時点 [完済償却,残留} 万円 大/小 所有/賃貸 品/低 高/低 長/短 全体 0 . 2 累 積0 . 1 5 金 . 1 額 0 。 。 比0 . 0 5 率 6 1 2 経過月数 図表 4 . 1 債雄全体の回収金額と償却金額の累積比率の推移 4 . 2モデルの評価基準 分析目標は、このデータからできるだけ完済率が高いと同時に償却率が低い債権属性を求める ことであるが、具体的に以下のような 2種類の数量的基準を設定した、 (基準 1 ) :1年経過時点における完済率、 (基準 2 ) :1年経過時点における完済率ー償却率。 (基準 1)は回収できた金額のみで評価するという立場を示す。一方(基準 2) は回収できた 金額から償却金額をロスを差し引くべきだとする立場を示している。 4 . 3分析結果 . 3 . 1、図 4 . 3 . 2 にそれぞれ「完済」、「償却」を目的基準とした決定木方式比例ハザードモ 図 4 . 3 . 3に提案するコストベースハザードモデル デルから得られた債権属性決定木を表示し、図 4 から得られた債権属性決定木を表示する。 なお、決定木生成の終了条件は、モデルを公平に比較するため、すべてのモデルで、共通に最小 債権数 >=50かつ、セグメント数 =4に設定した。 3 3 4ー

329.
[beta]
「 品(72体)

[
N
1
]セフr
:
J
:
.
ノ
ト1

ω
7
1
'
牛)お務先持者皇

I

N
J
]

~o;~ l=::訟二二二~-云

i
i
r
i二EE‑‑てy オ

, ‑ 棚(
1制
[
N
21口セグえノト3 2
で仁竺竺二:ー :
;
:
j ;I
~"r←ーっ一~---~
「一有(22(糊一一一→移管金額
,~o~ ト-:-..己'"ど一一円十三五:7-ι一一一--:
* O~ー一一一子一一一一‘
"
[
N
21
] ‑
I
ii 戸「一一

ι

幽岬
I
I
[
限1
日セゲえM 一 一 一 一 一 一 一 一 一 二 三 工 " ~ー
│
ザ 山
-~ 1 一ー

」ー批場{制牛)図書簡煎

~3白方以下 87件)

」一無(邸側

[~凶セグ式ノト2

目

r一一一一一

、

・

I

O
N
I
"

ヒグ山

iI"r~ ~ ~一一一一一一一一一一泊

:
i
:
:
[
E
霊二二三づ 1
1
i
t匡盃二二戸1
f
1
!iZ
:OM トマ~-~~~ニニ H

一一一一,竺竺

畑ト,γ 二二二三〆仁一一;

̲
j'
‑

竺竺

図4
.
3
.
1 I
完済」を目的基準とした場合の決定木

i
l

「一一高収入 (128件)
I [N11]セグメント 1
「一一有 (
2
5
4件)一一一寸年収

I
I

I

[
N
1
]

~一一低収入 (126件)

全 体 (497件)→配偶者有無
[NO]

I
I

.
̲
,
.
牌

i~__̲ ̲

[
N
I
2
]セグメント 2

一

:
i
l
恒 三 Ii恒 三 !

r ‑40患 超 (62件)

I

I

[
N
2
1
]セグメント 3

」一一無 (243件 ト ー → 年 齢

I

[
N
2
]

:
区
云

叫 j二~ーιニゴ

」一一拍車以下 (181件)
[
N
2
2
]セグメント 4

図4
.
3
.
2 「償却 J を目的基準とした場合の決定木

里
三空
宇

「一一 30万超 (
8
7件}
I [N11)セグメント 1
r一ー持軍 (200件)ー斗移管金額

I

I

[
N
1
)

[NO)

I

L‑‑30万以下 (
1
1
3件)
[
N
1
2
)セグメント 2

全体 (497件)ー→住居

I
I

l

r一一高収入 (
1
0
4件)

I

I

!両]

[
N
2
1
)セゲメント 3

」ー惜家(
2
9
7件)ー→年収
[
N
2
)

i

I

」一一低収入 (
1
9
3件)
[
N
2
2
)セグメント 4

図4
.
3
.
3 I
完済 J‑I
償却」を目的基準とした場合の決定木

.
3
.
1~4 図 4.3.3 を比較すると、明らかに、提案する手法(図 4.3.3) のセグメント 2 (
持
図4
家かつ移管金額 30万以下の債権)の完済率が高くかっ償却率が低いことがわかる。

モデル別の比較評価を図表 4
.
3
.
1 (基準 1)、図表 4
.
3.
2 (基準 2
) に表示する。基準 2 のみな
らず、基準 1においても、提案する手法の方が良い結果を出していることが示されている。

5
.結論
2 つのイベントを同時に考慮した比例ハザードモデルの考え方を導入した新しいモデルを提案
し、債権回収の課題に応用した。その結果、本モデルは従来の単一イベントのみを考慮するモ
デルと比較して、より回収効率の高い債権属性セグメントの発見に寄与することを示した。

4

﹁
hd

つ︑
υ

qd

330.
[beta]
図表 4
.
3
.
1 モデル評価(基準 1)
セグメント

モデル

4
2

完済基準

金額
完;斉率 累 積 金 額 累 積 完 済 半 l
モデル評価(基準 1)
1
.
8
9
0
1
3
.
8
%
1
.
8
9
0
0
.
9百│
2
5
.
0弘
也
1
2
.
1
9
0
5
.
3日
10.300
1
2
.
6
三二ふ二完済基準
7
.
2百
5.010
11
.8%
1
7
.
2
0
0
2
0
.
0
'i
‑~:;,,;: ‑~------- ~:_.Q.・償却基準
i1
弘
10昌
8.
4
首
490
29.690
12.
1
4
.
0
弘
!刊、ー
ー十竺",A̲二l!I
l
型
基E
旦
9.160
9.160
4
.
3
%
1
0
.
8
首
16.540
7
.
0
唱
7
.
3
8
0
8
.6弘
9.640
2
6
.
1日o
~i フz
8
.3弘
3.510
29.690
1
0
.
8
也i
1
0
.
0日, ‑
4
司
1
9.
1
.5
%
1, 率 ;
2.320
2.320
1
3
.
2
唱
8.060
1
0
.
3
8
0
5
.
1
%
1
'
9
.
5
11
.2弘
也!
22.140
11.760
5
.
0情。
1
0
.
8
弘│
7
.
5
5
0
4
.
9
百
29.690
i

i

3
4
2

償却基準

3
2
完済ー償却
基準

4
3

も

.

刷

0
.
0
%' ー ム
o 5.000 10.000 15.000 20.000 25.000 30.000
累積債権金額

1
│

図表 4
.
3
.
2モデル評価(基準 2
)
モデル

セグメント 金額 完済率 償却率

2
1
1
0
.
3
0
0
4
1 1
.890
3112.
49
0
1I5
.
0
1
0
4
19
.
1
6
0
1
19
.
6
4
0
2
1 7
.
3
8
0
3
13
.
5
1
0
2
12
.
3
2
0
.
76
0
4
1
11
1
18
.
0
6
0
3
1 7
.
5
5
0

完済基準

償却基準

完済ー償
却基準

1
2
.
6
也
1
3
.
8
司
8.
4
目
11
.8
首
1
4
.
0
首
8
.
6
%
1
0
.
8
唱
8
.
3
1
9
.
4
首
11
.2
首
1
3
.
2
司
百
4
.
9

差

累積完済率
一償却率
1
0
.
3
0
0
1
.
1
%
ー
1
.4
j
1
2
.
1
9
0
4.
4
弘
2
4
.
6
8
0
7
弘
5.
2
9
.
6
9
0
1
覧
9
.
1
6
0
1
8
.
8
0
0
1
.
1
弘
品
3
.
5
j
2
6
.
1
8
0
7
覧
5.
2
9
.
6
9
0
O.3~込
2
.
3
2
0
1.9~も
1
4
.
0
8
0
‑
3
.
6
%
2
2
.
1
4
0
5
.
7主
2
9
.
6
9
0

累積金額

1
5
.
8
百 3
.
2
也
1
9
.
0
百
5
.
3
百
1
5
.
5
百 ー7
.
1
l
も
1
9
.
2
百
7.4%
1
4
.
3首 0
.
3
也
11.7% 3
.
1
!
2
0
.
6
首
9
.
8
首
2
6
.
5
首 1
8
.
2
首
1
5
.
1百 4
.
3
首
1
6
.
9
首
5
.
7
百
1
9.
4
百
6
.
2
%
1
3
.
1唱 8
.
2
首

。

モデル評価(基準 2)

I

d
民三車』 l
i
t
j
‑
云二三

i

一一一>t(s一

謝辞

本稿は 2
0
0
0年 4月から 2
0
0
2年 3月まで著者が所属した筑波大学経営・政策科学研究科(現
ビジネス科学研究科)寺野研究室で、行った修士論文をベースとしている。指導教官の寺野隆雄
教授の助言と指導に謝意を表する。

参考文献

[
1
]谷岡日出男 (
2
0
0
2
)i
金融債権回収に係る意思決定法の研究 コストベースハザードモデル
の活用」筑波大学経営・政策科学研究科経営システム科学専攻修士学位論文

[
2
]谷岡日出男、寺野隆雄 (
2
0
0
2
)i
時系列データマイニングのためのマルチイベントハザード
9回知能システムシンポジウム
モデルJ第 2
[
3
]大橋靖雄、浜田知久馬 (
1
9
9
5
) í 生存時間分析 ~SAS による生物統計 J 東京大学出版会
[
4
F
兵島信之 (
2
0
0
0
)i
多変量解析による臨床研究[第 3版]
J 名古屋大学出版会

[
5
]青沼君明 (
1
9
9
8
) iファイナンスにおけるハザードモデル」第 1
7回日本 SASユーザー会論
文集、日本 SASユーザー会

[
6
]谷岡日出男、中林三平 (
1
9
9
8
)i
2つの判別基準を同時に考慮、したクラス判別ツリー生成法」
2
)、情報処理学会
情報処理学会第 56回全国大会講演論文集 (

[
7
]
S
A
SI
n
s
t
i
t
u
t
eI
n
c
.(
2
0
0
1
) SASV8O
n
l
i
n
eD
o
c
u
m
e
n
t
a
t
i
o
n
(
P
H
R
E
GP
r
o
c
e
d
u
r
e
)

一
」

qJ

つd

p
o

331.
[beta]
付録
日
日
日
日1
/掌掌奪奪掌孝$孝$本字本$参事本字参事参事本参事奪事本参事象字本害事象 .
.

*
*
*
**
**
*
*
*
*
**
*
*
1

00002 本
/
合成イベント法によるコスト
ベースハザ ド モ デ ル ザ
日0
003
/参事本容参事象事孝章容き本孝章容参事象孝章害事孝章奪事本 S参
事
孝
章
.
.
.
事
事害事き奪事事き$本字率 S奪事本/
日0004 /事すべての候補属性は 2 力テゴリ
を持つ分類属性とする本/
00005 /. 6ヶ 月 単 位 に 集 約 率 /
00006 d
at
a bundat
a
;
日0
0日7 s
e
t bunsekj
00008 /
本 2力 テ ゴ リ 化 . /
日0
009 ifnenshu(=500 thenshunyu='L
';
00010 eI
s
e shunyu='H
';
00011
if n
e門rei(=40 then age='L';
日
日
日1
2 eI
s
ea
g
e
=
"H
00013 i
f kikan(=40 t
h
e
n keika='L';
00014 el50 keika='H'
6t
h
e門 t
=
1;
00015 ifmont
hく=
日0
016 el50 i
f month(=12 then t
=
2
;
日
日
日1
7 dropmonth nenshu nenrei ki
k
a門,
00018 r
u
n
;
日
日
日1
9
00020 / 本 欠 損 時 聞 を 埋 め る た め に 用 い る
デデセットの準備本/
日
日
日2
1 data t
;
日
日
日2
2 d
ot
=
Ot
o2
;
00023
o
ut
p
ut
;
00024 e
n
d
;
日
日
日2
5r
u
n
;
日0
026
00027 / . 力 テ ゴ リ 聞 の ハ ザ ー ド 比 例 定 数

1
の計算用 macra *
00028 /.分寄j属 性 探 索 macr
a
s
e
Je
ctから
呼ばれる本/
00029 hacro keisa門
00030
日
目0
3
1 /.初期移管金額本/
日
目0
3
2 proc means data=sl noprint;
日0
33 var kjngaku t
;
)
00034
output out=ikankin(drop=dl
s
u
m
=
ika門kin max=dl t
m
a
x
;
00035 r
u門 .
00036 d
at
a n
u1
1
日
目 037 s
e
t ikanki
n
;
00038 ikankinc=put(ikankin,bestI2.);
00039
c
a1
1
symput('ikankin',ikankinc):
bestI2.);
00040 tmaxc=put(tmax,
日0
0
4
1 c
a1
1 symput(
't
m
a ,tmaxc);
日0
42 r
u
n
;
)
;
日
目 043 ~Iet ikankin=~scan(&ikankin , 1
日0
44 ~put i
k
a門kin=&ikankin;
日0
045 ~Iet tma , =~scan( 品 tma" 1
)
;
m
a =&tmax
;
00046 ~put t
日0
047
日
日
日4
8 /本属性探索./
;
00049 prac summary data=sl n
w
ay
00050 c1
a
s
s&
,
;
00051 v
a
r kingaku;
00052 output out=shoki sum=;
00053 r
u
n
;
00054 /.属性別初期金額本/
5d
at
a shoki;
00日5
日
目0
5
6 s
e
t shoki;
& kiηgaku;
00057 keep ,
日0
058 rename kingaku=shaki;
00059 r
u門。
00060 data ̲null̲;
00061 5
0
ts
h
o
k
i
00062 nn=compress('N'Ilput(̲n̲,1
.
)
)

'
,

,

00063 shokic=put(shoki,bestI2.);
00064 c
a
l
l symput(nn,shokic);
日
目 065 r
u
n
;
00066 ;.属性$時間のデータパターン./
日
日
日6
7 proc 5
q1
;
00068 create t
a
bI
ep
atte
r
n
日
日
日6
9 a
ss
eI
e
ct&
x
,t
,t
;
00070 f
r
o
m shoki
;
日
日
日7
1 QUit
日
目0
7
2
00073 /客集計事/
00074 proc summary data=sl n
w
a
y
;
00075 cJ
a
s
s&
x t event;
00076 v
a
r kingaku;
日
目0
7
7 output out=summary s
u
m
=
;
:
00078 r
u門
00079 prac transpose da!a=summary
o
ut
=t
e
m
p(
drop=̲name̲)。
00080 b
y,
& ι
t
00081
i
d event;
門g
aku;
00082 v
a
r ki
00083 r
u
n
;
日
日
日8
4
00085 /本パタ ンと matchi
n
g*
/
日
日
日8
6d
at
a merge1;
00087 merge pattern t
e
m
p
;
& t
00088 b
y,
00089 r
u
n
;
00090
0
0
0
9
1 /.完済償却金額差./
00092 d
at
as
a
;
日
目0
9
3 間 erge merge1 shoki;
00094 b
y&
x
;
00095 arrayall numerIC̲,
00096 d
o over a
l
l
;
00097
ifa1
1
=
. t
h
e
n a1
1=
0
;
00098 e
n
d
;
=
O
;
00099 i
ft
=
Ot
h
e
nh
a
s5Oi
1 2
)
.
00100 hasseltsum( ,
目
日1
0
1 zanryu=shoki
‑hassei;
日2 s
a
=ー1
‑̲
2
;
O日1
日
目1
0
3r
u
n
;
00104
日
目1
0
5 /事かさ上げ α 本/
00106 prac means data=sa。
円print;
日
目1
0
7 v
a
rs
a
;
日
目1
0
8 autput out=a min=a;
00109 r
u
n
;
日1
1日 data n
u
l
l
0
0
1
1
1 5
0
ta
;
00112 ac=put(a,best12.);
',a
c
);
00113 c
a1
1 symput(
'a
日0
114 r
u
n
;
);
00115 ~Iet a=~sca 門 (&a , 1
=
&
a
;
00116 ~ロ ut a
00117 d
at
as
a
2
;
0日1
1
8 s
ets
a
;
00119 sa2=sat
&a
00120 lagz=lag(zanryu);
00121
if t
=
Ot
h
e
nd
o
;
00122
1
agz=O;
00123
sa2=0;
;
00124 e門d
日1
2
5
if 1
)
0 t
h
e
n censor=I
a
g
z sa2‑
zanryu;
O日1
2
6r
u
n
;
2
7
O日1
ln
u
s分 を 計 算 す る り
目
日1
2
8 h censorの m
00129
prac
summary
d
ata=sa2(
w
h
e
re
=(
censar
<日
)
) nway;
,
;
日
目1
3
0 c1
a
s
s&
00131 v
a
r censar;
日
目1
3
2 autput out=temp sum=chasei;
→

日
目1
3
3r
u
n
日1
3
4d
at
a chosei;
日
目1
3
5 s
e
t te
m
p
;
0日1
3
6 event
=
O
;
00137 t=&tmax
;
00138 drop ̲type̲ ̲freQ̲;
00139 r
u
n
;
00140
00141 /
事 censor分 の 補 正 幸 /
00142 d
at
at
e
m
p
;
00143 5
0
t sa2;
日1
4
4 even1
=
1;
a
2
;
00145 kjngaku三 s
日1
4
6 ou!put
;
日
目1
4
7
ift
=
&I
m
a
x andki
ngakuηe. then
d
o
;
日
目1
4
8
even1
=
0
;
00149
kingaku=za門 r
y
u
;
00150
o
ut
p
u
t
;
00151
e
n
d
;
00152
if censar n
e • then d
a
;
00153
event=O;
00154
kingaku=censor;
00155
output
;
00156 e
n
d
;
x t event kingaku;
00157 keep &
00158 r
u門.
目
日1
5
9d
at
a chosei
a
d
;
日
目1
6
0
5
0
t
temp
chosei(rename=(chasei=kingaku));
00161 run;
00162 /本分析用デーテ完成
本/
r
o
c summary data=choseiad nway;
00163 ロ
x t event;
00164 cJass &
00165 v
a
r kingaku;
00166 autput out=bunseki(drop= t
y
p
e

) sum=;
fre
qー
00167 r
u
n
;
0日1
6
8
00169 / 客 カ テ ゴ リ 数 彊 得 . た だ し 今 回 は
常に k
=
1を 前 混 と す る 事 /
at
a n
uJJ
0017日 d
00171 se
t shoki e門 d=eee;
00172 if eee then d
o
;
門=
put(̲n̲‑1,bestI2.);
日
目1
7
3
00174
c
a1
1 symput(
'k
'• n
);
00175 e
n
d
;
00176 r
u
n
;
日1
7
7 ~I e
t k=~scan(&k , 1
)
;
00178 ~put k=&k;
00179
0018日/.属性変数のダミー変数化./
日
目1
8
1 prac glmmad data=bunseki noprint
ou!design=design prefix=x;
x
;
日
目1
8
2 cI
a
s
s&
日
目1
8
3 model !
=
&
x/noint:
日1
8
4r
u
n
;
日
目1
8
5
00186 data bun5Oki2;
日
目1
8
7
merge design(keep= I
‑&
k
)
bunsekj

,,

日0
188 run;

00189
日
目 t9
0/本交差しないかどうかの検証ザ
日
目1
9
1 /.厳しい基準(各 T に お い て 交 差
しない) 本/
日
目1
9
2
proc
transpose
da!a=bunseki2{where=(t)0 a
n
d event=I))
aut=out
:
x
;
00193 b
y&
00194
i
dt
;
9
5 var kingaku;
日
目1
00196 r
u
n
;

今︑

υ
︑
qυ

332.
[beta]
c
a1
1

F

u
n

け;リ属

日フゴの

HK

'
n
n' ︐力一
Mm
テタ

数メ
変;ラ

3
3
8一

‑e

問
目

0

p

,

h
i
r
e
i
=I
;
r
e
t
a
i
nm
a
xz
o
k
u
s
e
i

︐
e f a︑
0.
d
nt
tn!i
n
a
‑
Ii
t‑
ie
uT
p
r
pd
ec
e
dp
tm
o
m
︐l o u n
0S
15
E4
ns
o
sn
n
4
4
e
n
o
t
t
S
0
2
d
l1
a5
e!
fp
ue
ln
;t
ie
Ee
n
門
1
uo
pd
au
tr
uo
pz
ez
m
r

=ハた

s日し
me
ス川
SJ
T
︐n
f
ll
e
︐‑
じ‑
/o
da
so
dp
ox
a

出汁ツる凹駄凹叩日

i)
H
5'
e' z t z n

司

︐

0
0
3
2
7
0
0
3
2
8

63
73
83
94
04
1n
24
34
44
54
64
74
3
3
3O
3D
3o
3o
3h
ED
3O
3D
3O
3D
3O
3
0
D
D
O
DO
DD
tD
OD
OD
O

を川

'ap
xn

︐︐︐ ︑︐︐︐︐︐

'U

ua

守

,
,
,
,
,
,

0
0
3
1
0d
a
t
a̲
n
u
l
l
̲
;

の能べ
rM
て不尤目白戸
=.un
MmM
ベ劃刊司
n 日
m'円引す分
a‑LMMU
パめ d f u e t M
Hjy
d
1nu
令 e
tf
ty
'l
a=
mt
S= E A
べ /'
tp
m=
u'crzsy
u
F
4
o
h
o
‑
n
xe 一 =
mette
﹁
t254‑a
t
品 U1o'EB4tmd
er
es
l
︐z z
Pn
EEda ﹁
Stenf
z
ea e f n
事1 a
uz
lz
E/
E 1tsl
(rz
制d
1 2 U 3 4 5 6 7が 8 9 0 1選 2 3 4 5 6
unmu引引引引割引引ロロをロロロロロ
oD
oS
yD
DO
DD
ODDDDJT
主DODOO
D
7D
0O
0D
0O
0型
ODODO

,

,

r敏
川

, ,
,
,(

Mリ

白

;

0
0
3
2
9 jf h
i
r
e
i
>
m
a
xt
h
e
nd
o
;
0
0
3
3
0
m
a
x
=
h
i
r
e
i
;
z
o
k
u
s
e
i
=
x
:
0
0
3
3
1 e
n
d
;
0
0
3
3
2 i
fe
e
et
h
e
nd
o
;
0
0
3
3
3
P
u
tz
o
k
u
s
e
i
=m
a
x
=
;
0
0
3
3
4
ヨ
(s
e
!e
c
t
'• z
o
k
u
s
ei
);
s
y
m
p
ut
0
0
3
3
5 e
n
d
;

0
0
2
8
2 ~do i
=
1 Ho hnum;
0
0
2
8
3 p
r
o
cc
o
n
t
e
n
t
s d
a
t
a
=x
&i n
o
p
r
I
n
t
o
u
t
=
t
e
m
p
{
k
e
e
p
=
n
o
b
s
)
:r
u
n
;

m
山)同
︐'工す町出
.mh
H U 叩チと川
zruMEEF
川
thj
ベ山川同
J"Hh
散開 h 司仙
吹0 4 = t o s b u
l{'jh
mHX
刊町山口
(m
UU1ゴ割
・0
'}Etmara‑
mr
テ一片叶品同 K M H
mx 山
斗aH 仁
l
s
品︐
J
JI
t
‑l
xx
dn
JOH
!f
ez
dn
l'
ao
Et
ll
ef
dE
'n
c‑
a‑
ur
﹀
U
OZ
Zn
t
t
s
o
z
z
n
'
n
o
v
o
n
h
c!
a"
(e
E / 孝t
量d
ze
zp
oa
dd
ze
zu
rr
pu
T
4U567 変8901234567890123456789
8e
nm
P2
82
82
8R
1
82
82
92
92
92
92
92
92
92
92
92
93
03
03
03
03
03
03
03
03
03
0
司
2
2
D
hS
y0
o0
o0
o2
t0
0
0O
0D
0O
0D
0O
0D
0O
0D
0O
0D
0D
0O
0D
0O
0D
0D
0O
0D
0O
0D
0
0
t
0

,

t
t

川テ十日川河

1

﹄

,

uゴ白品

nl
ha

o

げ
は

ne

0
0
2
1
5r
u
n
;
0
0
2
1
6 ~put &
C
H
K
1
;
0
0
2
1
7
0
0
2
1
8~ i
f 品 CHK1=~str(8AD) ~then ~do;
0
0
2
1
9 d
at
ab
e
t
a
&i
;
0
0
2
2
0
1
e
n
g
t
h $
8
;
0
0
2
2
1
,
=
"&
,
"
;
0
0
1
2
2
1
=
0
0
2
2
3 r
u門.
0
0
2
2
4 ~put ~str(2 つの P("t) が交差
するため h 属性は削除しました);
0
0
2
2
5 ~end;
0
0
2
2
6
0
0
2
2
7 ~el 5O ~do;
0
0
2
2
8
p
r
o
c p
h
r
e
g d
a
t
a
=
b
u
n5Ok
i
2
o
u
t
e
st
=
b
e
t
an
o
p
rj
n
t
;
0
0
2
2
9
m
o
d
e1
e
sニ b
r
e
sI
O
w
;
t
'
e
v
e
nt(
0
)=x1/ti
0
0
1
3
0
f
r
e
Qk
i
n
g
a
k
u
;
;
u円
0
0
1
3
1 r
0
0
2
3
2 d
a
t
ab
e
t
a
&
i
;
0
0
2
3
3
s
e
tb
e
t
a
;
1
e
n
g
t
h $
8
;
0
0
2
3
4
x
=
'
"品x
0
0
2
3
5
0
0
2
3
6
F
=
(
I
/
&
n
l
‑
l
/
&
n
2
);
);
0
0
2
3
7
"p I="p( I
betal="p( I
)
‑
&
.
.
F
'
1;
0
0
2
3
8
)一品目 F
'
2;
0
0
2
3
9
beta2="p 1
b
e
t
a
2
)
;
b
e
t
a
m
=
m
e
a
n
(
b
e
t
a
l,
0
0
2
4
0
0
0
2
4
1
xt
=
b
e
t
a
m
;
0
0
2
4
2
k
e
e
o x.
.
.
1
;
.
lp
x
l
=F
=b
e
t
a
l
=
p
u
te
0
0
2
4
3
b
e
t
a
2
=b
e
t
a
m
=
;
0
0
2
4
4 r
u
n
;
0
0
2
4
5 ~put ~str(h 属性のパラメータ
を 8
E
T
A
&iに格納しましたれ
0
0
2
4
6 ~end;
0
0
2
4
7
0
0
2
4
8 ~mend;
0
0
2
4
9
0
0
2
5
0
0
0
2
5
1 /.分割属性探索 m
a
c
r
o*
1
0
0
1
5
2
~macro
s
e
le
ct(
jn
d
a
t
a,
o
ut
d
a
t
a
.n
o
d
e
l,
n
o
d
e
2
);
0
0
2
5
3/ 事 説 明 変 数 リ ス ト ザ
0
0
1
5
4 ~Iet 1
=
h
a
i
g
u
;
t 2
=5Oi
;
0
0
2
5
5 ~I e
0
0
2
5
6 ~Iet x
l
=
y
o
s
i
n
;
0
0
2
5
7 ~Iet 4
=
j
y
u
k
y
o
;
0
0
2
5
8 ~Iet 5
=
k
i
b
o
;
t 6
=
n
e
n
s
h
u
;
0
0
2
5
9 ~I e
0
0
2
6
0 ~Iet 7
=
k
e
i
k
a
;
0
0
2
6
1 ~Iet 8
=
n
e
n
r
e
i
0
0
2
6
1 ~Iet 9
=
g
a
k
u
;

,

0
0
2
6
3 /本説明変数の数げ
0
0
2
6
4)
l
;l
e
tx
n
u
m
=
9
0
0
2
6
5
0
0
2
6
6 /.中間計算結果の初期化./
0
0
2
6
7p
r
o
cd
a
t
a
s
e
t
sn
o
li
s
t
;
d
e
l
e
t
e
0
0
2
6
8 ~do i
=
1 Ho hnum;
e
t
a
&
i)
0
0
2
6
9 ~str( b
0
0
2
7
0 ~end;

S 門R = n
ab
xa
e
l
l
t
品Ztat
o
l
a
n
t
‑‑
d(
o
o
e
‑
n
コ 変 刊 zh
s'l 閣 内 ﹁ 司 l S
2nsE
f
一
‑
z
説 Uり c i k
川
叫
o nat t a
oo)nn
M
叩白川ハク町制日
bM
'4
17
27
37
47
57
E17
89xo1
7
エ7 7 7 = 8 8
0O
0D
DO
OD
DD
OL
D
ラ0
D0
O0
Du
OD
DO
D

巾

相

0

r=

‑‑w

C‑
o
enc
EerO
z+
‑d
‑4
0E
10
d
n2 門下')
e
l
l
n
!
引' n υ
xC
o
w
e
川1A
21k
2
h
[
K
PKC
c e﹀
1l
ot
vA
HC
'B
1eh
I
c
e
‑
phECel
r;
ta
se
lf
t1
kf
duHn
a
k
cv
un
aI
ms l e ‑ p c e
hst
C
5
6
7
8
9
0
1
2
3
U
4
=2
D2
D2
O2
D2
D2
I2
‑2
‑1
l2
Im
P2
I
t
uD
DO
OD
DO
OD
DD
OO
DD
oc
ao
os
yo
D
O

0
0
1
9
7d
a
t
ao
u
t
1
;
0
0
1
9
8 m
e
r
g
eo
u
ts
h
o
k
i
;
0
0
1
9
9 b
y 品,;
)
!
shoki‑&a'l/shoki;
0
0
2
0
0 p
l
=
(1
0
0
2
0
1 p
2
=
(
̲
1
)
/
s
h
o
k
i
‑
&
a
'
2!
shoki;
m
e
̲
;
0
0
2
0
2 dr
o
p 門a
0
0
2
0
3r
u
n
;
d
a
t
a
=
o
u
t
2
0
0
2
0
4 p
r
o
c
t"nspo5O

333.

日本 SASユ ー ザ ー 会 (SUG1‑0) ABC/Mとスコアカードによるフ口セスマネジメント 張凌雲/伊藤武志 株式会社ニューチヤーイノベーション ProcessmanagementusingOrosABC/MandOrosScorecard RyounCho/TakeshiI t o NutureInnovation 要旨 iABC品 BM(活動基準原価計算/活動基準経営管理)ソフトウエア OrosABC 瓜4とS c o r e c a r d (業 績モニタリング)ソフトウエア O r o sS c o r e c a r dを活用した経営管理手法を紹介する。 キーワード: Or08ABC 瓜f 、O r08Scorecard、ABC瓜f、バランスト・スコアカード (BSC) 1.はじめに 米国 SASインスティチュート社は、本年 3月に活動基準の分析管理ソフト O1 'o sを開発・販売してい B C ‑ T e c h n o l o g i e s干士を買収した。 るA O1'o sは 、 1989年に、アメリカで、活動基準原価計算 ( A c t i v i t y ‑ B a s e dC o s t i n g:ABC)、活動基 A c t i v i t y ‑BasedManagement: ABM)を行なうためのソフトウェアツールととして開発 準経営管理 ( された。 O1 'o sは、世界 7 3カ国で 4.300件以上導入されており、製造、サービス、消費財、公共など 多様な分野で使用されている。 n u z J W つJ つJ

334.

2 .ABC/ABMとOrosソフトウェア ( 1 ) ABC/ABMとは? ABCは、伝統的原価計算がその対象範囲としてこなかった非製造業や間接部門において、画期 的なコスト管理手法として生まれた。これは、資源コストを活動(作業や業務)別に分化し、使用され た活動量に応じて原価計算対象に資源コストを配分する計算方法で、ある。 ABC の実施は活動の認識を伴うので、コスト情報と活動情報を同時に入手することが可能になり、 コスト低減のためにど、のような活動を改善すればよし、かが明らかになる。 ABMは 、 ABCからの情報を用いて正しい経営の意思決定を促し、活動の管理・改善を継続的に 行なうことで、企業の利益および顧客に提供する価値を高める経営管理手法である ( 2 )O rosソフトウェア概要 O1'o sソフトウェアは Windows上で稼動する PC版のソフトウェアで、あり、構成としては以下のよう になっている。(図 1 ) ( 1 )O1'o sABC/M ABCモデルを構築し、製品、サービス、活動やビジネスプロセスのコストを算出する機能を持つ。 OrosABC 爪4には、その他に外部データベースからデータを取り込む O rosLinksEngine、レ ポート作成ツールの O1'o sReportがある。 ( 2 )O1 'o sResou1'c ePlanning 単位時間と件数、回数等を設定し、活動変動予算の計算を行なう。 組織の目標・計画に対してどれぐらいのリソースが必要か、リソースのキャパシティはどれぐらい かを評価するツールで、ある。 ( 3 )O1 'o sSco1'e c a r d 組織の戦略の方向性と戦略目標を設定し、それに対するモニタリング、評価を行なう。 O1'o sスコア カードでは、 OrosABC 爪4と連動した業績分析ツールで、ある。 ブレークダウンされた戦略を活動と関連づけてモデリングを行ない、戦略別に指標とその評価基 準を設定して指標をモニタリングする。 本稿では、 O rosABC 爪4と O1 'o sSco1'e c a1'dを活用した企業におけるビ、ジネスプロセスモデルの 管理を行なう手法を紹介する。 ( 3 ) O1'o sを用いた ABCモデ ル O1'osABC 爪4を使用した金融機関における ABCモデルの構築例を図 2 1こ示す。 Orosでは、資源をリソース・モジュール、活動をアクティビティ・モ、ジュール、原価計算対象をコストオ ‑340

335.

ブ?ジェクト・モジュールで、管理している。 01'08 ABC瓜4では、一般的な ABC手法と同様にリソースコストをアクティビティへ、アクティビティ からコストオブ、ジェクトへ、害J !当基準(ドライパー)を使って配分する。 ①リソースからアクティビティへ リソース・モジュールには総勘定元帳における費用データを入力する。その費用は、活動へ配 分する基準(リソース・ドライパー)を使って、「アクティビティが、どのリソースをどの程度使ったか J に基づいて各アクティビティに割り当てる。 図 2の例では、リソース割当基準(ドライパー)として、事務時間に従って、各リソースの金額を割り 当てる。 ②アクティビティからコストオブジェクトへ アクティヒ、、ティに害J !り当てられたコストは、次にコストオブジェクトである商品や顧客へ害J !り当てられる。 図 2では、アクティピティ割当基準(ドライバー)として、例えば、普通預金をどのくらい取り扱ったかと いう取扱件数に応じて、その商品を提供するまでに行なわれた活動のコストを割り当てる。 図 2 金融機関における ABCモデ〉レ例 資源 活動 原価計算対象 (リソース・モジュール) (アクティヒーティ・モジューノレ) (コストオブ ジェク卜・モジュール) 人件費 定例給与 役員報酬 賞与引当金 物件費 固定資減価償却費 土地建物賃借料 通信費 情報システム費 委託費 税金 固定資産税 事業所税 印紙税 リソース 害J I当 基 準 (ドライパー) P アクティビティ 営業庖 割当基準 窓口 出納 預金 外為 貸付 (ドライバー) 本音1 [ 営業統括部 法人部 個人部 審査部 経営企画部 センター 事務センター システムセンター 普通預金 定期預金 融資 渉外活動 為替 外国為替 υ 4AMZ 1 ︑ っ

336.
[beta]
2の流れを Oros上で表示すると図 3のようになる。

図 3 Orosにおける ABC/M

B回図E

│忌(']田..ヲIr.r.
I
い
や1
77
イ品<D 編集([)

.'‑,

'A帆

l右

s
‑':..J‑^号

eョIs与

│岳 巴 給 山 手 当

è-~斗涜価償却重量

I~ 巴制強開設倒置慣却畳

i
‑

l

工具器具酒品渇宙慣却畳

岳乞Jその他

貸帥惜叫
‑ 施 詰 官1
理
E貴

丘三二i
ワ ぁ ‑ra
1

P
E円C口MP
P
E
R
.
5
A
凶円 I
E
5
P
E円 DEP
円
PER‑
DE日
PE円 DFU円
P
E
R
.
M
I
5
C
陀附叩……円
m
附
叩
吋
円
E
印
陪
附
N
叩
附
T
陀
P
E 円削
~A
州
N

6乞コ人事

I( 争 宮 周 回 附

│申 邑 面 慢 実 行
│岳 邑 斬 人 研 憎

舎三j情報システム

PE
凹
円F
印U円
附
N
8U5
¥
1
6
1.
76
3
.
お
2
0日
BU5・5TMT
¥
2
8
.
6
0
0即日
士コ人件畳
5TMH
口MP
¥
1
3日f
印
氾50
∞日
申‑給凶手当
5T
附
MT
.
5
弘A凶凶
R
I
旺
E山
¥
1
11
.
915
.
2
訓
D
D
岳‑拠出孟
5T
附
MT
.
口
∞
C NT円l
目
E口
¥
1
リ
.
.
935
日
.
3
二二斗),温且由慣却畳
5TMT
下
.
心
DEP
円
¥
7
30
.
0
∞D
∞D
工具器叩渇価凹叩置聞却即町
勾5
E
山
DFUR
叫叫
2
却
叩
訓
日
叩
凹
日
∞
剛
日
日
∞
梶屈強開設圏 i
且置置却 1
5TMT.
D
E日
¥
3
1
0
.
0
0
0
.コ,固耗品重量
5TMT.5UPP
l
.
IE ¥
3
.
6
0
0
.
1
0
0
辛ーその他消耗品畳
間 T
.
5
0
¥1.2∞∞口
一ー州都消耗品畳
5TMT.50V
¥
2.
4
日
日1
0
0
四ゐ二斗その f
也
5TMT.M[5C
¥
1
0.
42
00
0
0

‑圏品貴
一→』二二ココ茸務
主主」利用明細書送付

申邑ヰットワーヲ官 I
J
申邑ユーザー制

叩
¥
引
1
引
η
1日,∞叩日
日
¥
活
叩
51
口,∞蜘

也君コンビューヨ i~11

ー』ミコ事書官 I
1

e‑包事富蜘センヨー
│ 島 両 聖 書 ザ ヒス北エリア

∞

‑b
斗

E
‑

055
.
P
E円
0
5
.
P
E円日 1
D
5
.
P
E円日2
3
0
5
.
P
E円 0
0
5
.
[
55
.
[
5
.
0
1
0
5
.
1
5
.
0
2
0
5
.
1
5
.
0
3
5ERV
5
E
R
V
.
T
E
L
5
E
R
V
.
T
E
L
.
N

¥
7
3
.
2
4
0
.
9
4
5
¥
3
9
.
0
4
5
.
1
9
4
¥
1
7.
48
4
.
0
3
3
.7
1日
¥
1
6
.
7
11
¥
3
6
.
6
7
0.
18
8
.
1
2
2
¥
2
1
.叩 1
¥
1
1
.
B
B
3
.
8
1
4 T

•

仁江戸1有週開岡田副'I~~晶 1...'.'-品閉問団司,.一一一一一一一一一ー l ロ 1)(

Name
三
二J
商品
士l包 l
曹冨

,

I
RelerenceN I C
o
.
'
CU5T
MERC
W日
日

T}8
l
!
lf
ヲ
二J1冒人

τ

三三アウトレ‑;,jト

日円日
円E
T

E
L
5
NWO
PROD
HBC

51
8
.
0
7
3
¥
4
1.
¥
3
7
.
0
9
9
.
1
4
5
78
3
¥
1
5
.
2
1
6.
¥
8
.
3
3
3
.
9
3
4
¥
625
02
.
3
6
2
¥
2
1
.
¥
1
0
.
3
8
8
.
2
1
4
49
4
.
1
4
7
¥
1
1.
41
8
.
9
2
8
¥
4,
¥1]2
6.
46
9

3
.計画・管理 (
P
D
C
A
)における業務プロセス
ιスコアカード

(
1
) 業務プロセスと ABC
瓜

業務プロセスは一連の活動からなり、様々なレベルにおける経営成果を生み出す目的を持ってい
る。業務プロセスには、経営資源、としづインプットが投入され、予定されたアウトプットを作り出し、その
アウトプットを社内外の顧客へ提供し、それによって成果(アウトカム)が生み出される。経営管理に
おいては、このインプット、アウトプット、アウトカムとしづ対象の管理が必要となる(3
)。経営管理と
は、プロセス管理を意味する。
札 B Mの役割は、インプットとアウトプットの効率を管理することで、あ
プロセス管理においての ABC
札 B M は、製品 1
る。そして、スコアカードはそれを含めたすべての成果を管理することである。 ABC

‑342
337.

個当たりコストや活動 1回当たりコスト、時間当たり人件費など、コストや費用の低減を考える。もちろ んその他にアウトプットを増やし、成果の絶対量を増やすことも必要である。スコアカード、は、例えば、 顧客満足度や顧客対応スピード、需要予測の精度なども管理する。 図 3 インプット・アウトプット図 インプット プロセス アウトプット アウトカム インプット・プロセス・アウトプットについての定量的な尺度としては、インプットは資源の「投入量J、 プロセスは「回数」や「時間」、アウトプットは「算出量」などとなる。 ( 2 ) プロセス管理における OrosABC瓜fの役立ち OrosABC 瓜fを用いることによって、活動 1 回あたりの単位コスト、活動を行なう主体(人や機械)の 単位コストや余剰キャパ、ンティの算出を容易に行なうことができる。業務プロセスがどの程度の単価 の主体(リソース)によって行われているか、その業務プロセスのコストがどの程度でらあるかなどを可 視化でき、あるいは担当者の変更などによるコスト低減効果をシミュレーションすることが可能となる。 sABC/Mは、コスト計算やコスト再配分の方法として、①コストプッシュアプローチ(コスト また O1'o 分解アプローチ)と②デ、イマンド、プルアプローチ(顧客からのコスト消費需要アプローチ)の計算が可 能である。 コストプッシュアプローチは、コストをリソースからコストオフ ジェク卜へと分解しながら割り振ってして a アプローチである。リソースからプロセス(アクティビティ)への配賦の際の単価は、配賦基準(ドライパ ー)量の変化に応じて変動する。一方、ディマンドプルアプローチは、コストプッ、ンュアプローチとは 逆に、まずコストオブ?ジェクトについて、「と守のアクティビ、ティを消費しているか」、「その消費量はどの 程度か」を確認することから始める I。ディマンドプルアプローチは、活動を行なう主体(リソース)のド lゲーリー・ M .コーキンス箸伊藤武志訳 p.122 WABC?ネ、ンメントコスト計算と導入方法.1 (日本能率協会マネジ、メントセンター 1998年) n︿U n︿U 44

338.

ライパー 1単位当たりのコスト(例:1分あたりの事務時間単価)を固定し、その主体(リソース)別に行 われた活動量の積み上げによって活動コストが計算されることになる c 業務プロセスを管理する際には、コストプッ、ンュアプローチよりもデイマンド プルアプローチが適切 である。前者では、コストオブ、ジェクトの量や配賦基準(ドライバー)量(例:事務時間 Hこよってリソー ス単価が変動してしまう。それに対して、ディマンプルアプローチでは、ドライバー 1単位当たりの標 準値を使用する。この標準値は、「リソースコスト÷キャパシティ」で算出されるので、利用キャパ、ンテ ィと未利用キャパシティを分類し、キヤノ号、ンティの管理を行なうことが可能となる O Or08ABC瓜fを用いることによって、以下のようなプロセス管理・改善と様々な意思決定に基づくシ ミュレーションを実施することが可能となる ①アクティビティを行なってしも主体(リソース)やアクティビティ当りの単価低減(人件費削減) ②アクティヒ。テイコスト低減のための改善活動(プロセス改善活動を行なう) ③未利用キャパシティ把握による人員他リソースの再配置・活用 ④リソースの利用を最大化させる商品・サービス戦略 ⑤商品・サービスの価格設定、顧客別の価格設定 ( 3 ) プロセス管理における Or08Scorecardの利用 ABC此 B Mは、図 3のインプット、プロセス、アウトプットを対象とした投入量・回数・産出量とその価 額としづ定量的なデータを管理するツールで、ある。しかしながら、企業の経営(業務)プロセスは、こ のようなデータだけで管理することはできない。経営活動の結果として測定される顧客満足度や、そ れを変化させる要因である顧客対応スピード、資源を効率的に利用するための需要予測の精度など に関しても着目する必要がある。これらの質的な情報に対しての定量・定性的な管理・測定を行なう c o r e c a r dである。 ツールが Or08S ( 4 ) PDCAにおける Or08ABC瓜fとOr08Scorecard プロセス管理を含む経営管理はまた、 PDCA 、すなわち P lan(計画)、 DO(実施)、 Check(評価)、 A c t i o n(修正)であらわされる。この PDCAサイクルを常にうまく回しつづけることで、経営業績が維 持・向上される。 PDCA管理においての ABC 品 B Mやスコアカード、の役立ちは、経営資源のうち組織や人に関わ る PDCA管理において特に有用である。計画段階においては活動を起点とした考え方を使い、商 品・サーヒ、、スなど必要なアウトプットの量から必要な活動量を算定し、その必要活動量に対してどの 程度の要員が必要かを把握する。同時にこれらの要員を活用した場合、どの程度の活動コストがか かり、そしてど、の程度のアウトプット(商品・サービス)コストがかかるかを計画する O Or08ABC瓜fを使うことによって計画した商品販売量、サーヒ、、ス提供量に対する活動量の、ンミュ υ i a A守 e 4 a つ

339.

レーションの実施、実績での管理を行なうことが可能となる。また、 OrosS corecardによって、計画と その結果の測定をすることが可能となる。 4 .Oros ソフトウェアの活用ケーススタディ ( 1 ) 金融機関 Aのケーススタディ ある金融機関 A では、顧客別の粗利は把握していたものの顧客別の営業利益は把握できていな かため、 ABCを用いた原価計算制度の改革のフ。ロジェクトに取り組んだ。 ① 目的 原価計算制度改革にあたり、目的となったのは以下の点で、ある。 ・商品・サービス別の収益管理 ・顧客別収益管理 ・業務・サービスの標準化(業務改善への活用) ②プロジェクトの進め方 ・原価計算対象となる商品・サービスの定義 ・業務プロセスの定義 ・業務プロセス別の資源、・時間の設定 ・ド、ライパーデータの収集等 ③ OrosABCIMの活用方法 ・ディマンド、フ。ルアフ。ローチとコストフ。ツシュアプローチの両方を併用した。業務改善の対象となるリソ ros ースについて、ディマンド、プロアフ。ローチを採用することにより、改善効果の、ンミュレーションを O モデル上で簡単に把握することを可能にした。 .Oros上で、作成された業務単価データを使って、他社の収益管理ソフトと連動させることによって、 顧客別収益管理を実現した。 ・業務プロセス作成の際、関係部署へアンケートを実施し、その情報を Or05で、管理した。 ④フ。ロジェクト実施による成果 ・サーヒ守スメニューの設定と業務の標準化によって、サービスのレベルが向上した ・商品・サービス別採算、ンミュレーションを行なうことで、価格設定なと、の意思決定が可能になった。 ・顧客別収益実績把握により、顧客にあわせた営業活動の高度化・効率化や顧客別の商品価格提 示や決定ができるようになった。 υ 今︑ A斗 A にd

340.

( 2 ) 販 売 会 社 B のケーススタディ 販 売 会 社 Bは、事務集中センターをつくり、営業担当者から事務的な活動をできるだけ分離するこ とによって営業機能の強化を行なうことを計画している。営業担当者、事務担当者それぞれの業務 内容と業務量を把握し、事務担当者と営業担当者の業務の役割分担を決定・変更し、その際の業務 量の変化をシミュレーションし、事務集中センター設立に際しての要員試算を行なった。 ①目的 ABC 瓜f導入の目的は以下のようになる。 ・業務プロセスの可視化と標準化 ・事務集中センター設立に際しての要員計画 ・人的資源のスキル向上 ・顧客別収益性の向上 ②プロジェクトの進め方 ・販売会社 B は、標準的な業務リストを持っていなかったため、業務プロセス調査を実施した。実施 に際しては、ヒアリングなどによるアンケート調査を行なった。 ・事務センター設立後の担当者を設定し、各担当者の職務範囲を決定した 0 ・顧客別ドライバーの決定とドライバー件数の把握した。 ・事務センターの運営プロセス状況を確認する指標の設定した、等。 ③ Orosの活用方法 ・人的資源についてはデ.イマンド、プルアプローチを用いて、現在利用しているキャパシティと未利用 キャパシティを明らかにした。本アプローチで、は、リソースの標準単価が設定されるため、シミュレー ションを行なう際に有効である。 ・業務コストが明らかになることによって、仕入原価とサーピ、ス原価を含んだ、顧客別の収益管理が可 能になった 0 ・OrosS c o r e c a r dを用いて事務センター設立前後について、業務量だけでなく、顧客満足度の評 価など定性的な指標を設定して、事務センター設立の効果管理を行なう。また、業務活動の成果レ ベルを測定することで、より効率的な運営を行なう目標設定がしやすくなった。 ④プロジェクト実施による成果 ・業務・サービス定義の標準化により、これらのコストが明らかになり、業務効率化のためのベースが できた 0 ・業務の集中化により、サービスレベルが安定し、時間・コスト効率が向上した。 Iの営業方針の変更と価格設定変更可能になった。 ・顧客別収益実績分析により、顧客月J ・事務集中センター設立による社内外の効果を定量的な指標のみならず、定性的な指標を用いて、 判断することが可能となり、アク、ンョンが取りやすくなった。 ‑346

341.

5 .まとめ Or08ABC 瓜4は、計算エン、ジンとしての役割はもちろん、資源コスト配賦構造、アクティビティの可 視化、商品・サービスを構成するアクティビティの原価を容易に確認することが可能なことである。 Or08 S c o r e c a r d は、企業の戦略目標と活動を結びつけることが可能でーあるため、企業の目指す べき方向に対して、組織のプロセスが成果を生み出しているかを認識することが可能となる。 経営資源の管理・計画を行なう上で、 O r08ABC!Mや Or08S c o r e c a r d品、ったツールを使うこと は、迅速な経営の意思決定をする上において大変有効なツールとなる。 近い将来、 O r08ABC 瓜4 と O r08S c o r e c a r d ツールは、 SAS 社 S t r a g e g i cPerformance o n 8 0 1 i d a t i o nandR e p o r t i n gと様々な形で連携し、戦略と業務プロ Managementや Planning、C 、財務・非財務指標、財務会計・管理会計を統合し、従来実現されてこなかった、ンーム セス、 PDCA レスな経営管理を可能にすることになるだろう。 d ウー ︐ 4 ︑ っ

342.

日本 SASユーザー会 (SUG1‑0) リスク管理とそれに必要な要素 佐々木研 株式会社 SAS インスティチュートジャパン 力スタマーサービス本部プロフェッショナルサーピ、ス第 1部 Risk Managemen七 and i七s componen七S Ken Sasaki Customer Service Division,Professional Service No. 1 Department SAS Institute Japan Ltd. 要旨 近年においてリスク管理に対する企業の取組方が変わりつつあるコ今までの「リスク J だけに着目した伝 統的な管理手法から離れ、もっと「リスク Jを許容した形での手法に移行しつつある。 それらの典型的な姿 が「リスク・ベース・プライシンクザJや「リスク・プレミアム Jなどの言葉に代表される「リスク・リターン」を総合評 価した形での管理手法であろうコ ここではリスク管理がどのように進化してきたかを述べ、将来あるべき姿 の管理手法の姿を話していこうと忠弘 キーワード: リスク、クレジット・スコアリンクー 伝統的なリスク管理手法 初めにここで述べるリスク管理がどうし、うものかを説明したいと忠久対象商品は「一般無担保ローン Jで クレジットカード、カード、ローン、割賦ローンなどがある。 一部の中、ノト企業向けの無担保ローンにも応用さ れるケースもあるが、上場企業などへの大口融資は対象外となる。 リスク把握の手段は過去の履歴に基づ いた統計モデ〉レを用いる。 この為、モデ、/レ情築に最低限必要なイベントの数(ここで、は対象となるデ、フオ ノレトや不良債権になる)が十分得られるとし、うことが必要条件となる。 どの程度が最低件数かとしづ議論が 000 件とし、う話も あるかと思うが、モデリングの手法や分析のデザインにもよりまちまちであろう。 一般に 3, 000件弱の数で、モデ ル構築した経験もあるので、それが絶対とし、うものでもない。 置 聞くが、私は実際に 1, かれた条件の中で、得られる最善のものを使うのが世間の慣習であろう。 1 . 1 リスクの見極め 典型的なリスクモテ、ノレをとってリスクの「定義 Jを考えてみよう 3 初期与信や途上与信で一般的に使 だけではなく、延滞も含めた「延滞リスク Jがそれである。 われるのは、貸し倒れなどの「デフォルト J だ、けを対象としたモデルは「破産モデ /レ J や「倒産モデ /レ Jであり、リスクモデ、ルの補助的 「デフォルト J [はこの不良の定義によるものであり、その後に ツールとして使われるべきで、あろう。モデ ル情築の 8書J ‑349‑

343.

来るモデリング手法などはそれほど重要ではない。 重要なのはモデ ルから得られるイベントの推定値 1 町立付けられていること (RankO r d e r )である。 それが保証できるのであれ (不良の確率)が統計的に1 ば、手法の違いは気にしなくて良い。では、一般的にモデ、ルから何を見て行くべきであろうかを次に 述べよう c 1 .2 損失削減 リスクの次元だけを利用した管理が一般的であるが、その時に何を注意すればいいのだろうか。 比 較的に求めやすいのが、損失部分の変化である c 上記で・開発されたモデ.ルに基づき、初期与信を 例にとって説明しよう。 与信管理者は申し込みが来た時点で、この口座が仮に承認されて一定期間活動をした時に口座状 態が「良」であるか、もしくは「不良 jで、あるかを前もって判断することになる。 この判断に統計モデルを 用いて申し込み時にしてしまうのが初期与信である。 予測値が一定の閲値まで、行かなかったものに 対しては、不承認とし、う判断が下され、それ以上行ったものには承認としづ判断が下される。 この時に実際に何が起こっているかを見てみよう。 リスクモデ.ルが使われる以前の業務とモデ、ルを採用した時の業務とを比較すると、判別の精度が増し ていることに気づくだろう。 将来的な不良を排除し、良をより多く取り入れることにより全体(承認分)の 良の割合がまし、不良が減少するだろう a しかし、承認者数を減らしたわけではない。 同じ承認率を 持ってして、承認分のポートフォリオのリスクが軽減されたのである 3 文字どおりのリスク削減効果であ る 。 さらに、これを金額に換算することも出来る a 不良は伺らかの形で被害を及ぼすのが常であり、 それを損失として推定できる。 良は逆に収益として推定できる。推定損失額と不良率を掛合わせる ことにより、ポートフォリオ全体の損失額を算出できる。 これをモデ ル導入前と後で、比較すれば、簡単 な損益シミュレーションが出来る。 当然、不良率の減少に伴い、損失額の減少も見込まれる。これが 一番分かりゃすい効果であろう 3 1 .3 効率的な処理 二次的な効果として効率性やスピード が挙げられるだ、ろう。 今まで、人がやってきた作業を統計モデ ルに置き換えることにより、生産性も上がり一度に処理できる申込者数が増える。 また、今までの様に 様々な審査資料を集めるのではなく、必要最小限の情報で置き換えることにより審査に費やす時間も 削減できる。その他の効果としては、会社全体にわたり審査の一貫性が出来、審査官による承認、不 承認の差がなくなる。 1 .4 精密な予測 今までとは違い、計量的な予測値が得られる。 不良率やデ.フォルト率などとし、ったものが典型的で、 あろう。 これらを使い、一定期間のデフォルト率やデフォルト額が推定で、きるだ、ろう。 あくまでも計量 的な指標が出来るとし、うことで、これらの指標がどの程度正確なものかは別次元の話にするが、会社レ ベルでのリスクを考える時にはこのような指標はないよりは在ったほうが役に立った、ろう。 将来的には この指標をより精度の高いものにして行くのがリスク管理の目標になるべきである。 1 .5 一次元でのプライシング r 1 . 1Jで不良率の減少に伴い損失額も削減で、きると言ったが、もう一歩踏み込んだ戦略も組むことが 出来る。 不良率に応じてプライシングを変えることにより、最終的な損失額をコントロールすることが出 こ対する「利用限度額 jや、リボ・カードローンに対す 来る。 ここでのプライシングとは、クレジットカード1 る「利息率 jを適正な値に修正することである c 延滞者が多くなるであろうセグメントに対しては、限度 3 5 0ー

344.

額を抑えて小額で融資することにより、万が一テ、フォルトした際の損失額を抑えることが出来る 3 その 中で良い履歴を呈している口座に対しては、途上与信でどんどん融資枠を上げてし、くことも出来るの で、良に対する収益を損なうものではない。 もちろん、初期審査時に低リスクの評価を受けたものに 対しては、優遇されたプライシングをしてしてものである。 そうする事により、収益増大も期待できる。 このように典型的なリスク管理の中でも、収益性や損失を考慮した戦略は組まれてきたのである。 では、なぜ今まで、の戦略で、は間に合わなくなってきたかを次に話していこう。 2 収益性の必要性 最近変わって来たのがリスクの度合いであろう 3 アメリカで、はクレジットカード 会社の競争が激化し、互い に顧客を取り合うとしづ市場に変わってきた 3 そのため、リスクのある顧客にも敢えて融資をするとしづ形で のピジ、ネスに移り変わった 3 日本では景気不安定による消費者の経済基盤が崩れてきて、クレジットへの 需要が増えてきた。 その結果デ.フォルト件数が増え、全体的にリスクを帯びたポートフォリオになりつつ在 る 。 なぜ、こうなったかの本当の原因は私には分からないが、今まで、の信用ポートフォリオを形成していた根 本的な母集団が変わって来たのは確かだ、ろう。それゆえ、今まで、のモデルで、は捉え切れなかった要素が r a n ko r d e r )の観点から見れ ポツリ、ボツリと出てきたのではないだろうかと私は考える。 統計的順位付け ( ば、モデルは衰えてはいなし、と私は忠弘 しかし、精度の面から運用に耐えられなくなってきているのでは ないだろうか。 ここで脚光を浴びてきたのが収益モデル (revenue model)や利益モテ、/レ ( p r o f i tmodel ) で 、 あ る 。 リスクと は別の観点として、金額の次元で口座を定義付けしたのがこれである。 上記のモデルでは促え切ることの 出来なかった部分を二次元のモデ ルを応用することによって提えようとするもので、ある。 収益モデ.ル自体 新しし、ものでも何でもないが、あまり普及しなかったのは事実だろう 3 その理由として私が見た大きな原因 はデータだった。収益を計算する際に必要な根本的なデータ項目が無かったので、ある。 最近では日本 でもこの辺を認識し始めてきており、その為のデータ整備も活発に行われているようである。 コストまでを計 P r o f i tm o d e l )が一般に出回るのも時間の問題カも知れない。 算した究極のモデル、すなわち利益モデル ( 3 口座管理戦略 一次元のモデルでも戦略は欠かせなしもので、あった。 前述したような「プライシング戦略」はその代表的 な例である。 しかしながら、そこで捉えられていた「リスク」や「損失」が十分ではなくなって来たとし、うのが 0年 、 20 年まえのポートフォリオであれば、その程度の推定値でも十分であったの 正しい表現であろう。 1 カも知れないが、リスクが変わった現状で、はそれが十分で、無くなってきたので、ある。 そのためより正確な推 定値が必要になってきた o 上記の二次元自の「収益」を加えることにより、より詳細で、且つ精度の高い推定 値が算出されるであろう。 例えば、同じリスクスコアで、あっても、ある口座は収益性が高く、ある口座は損失 の方が多いとしづ口座もあるだろう ο そんな時に従来週りの戦略で「限度額」や「利子」を割り当てていたの では必ずしも良い戦略とは言えないだろう。 ここで一つ確認しておきたいことがある ο それは、「どんなにス コアが高くてもそのスコア群(リスクセグメント)の中には必ず不良口座が入って来るとし、うことである」。 往々 にして世間で、は間違った解釈をしたりしているようであるが、あくまでもリスクセグメントをならして見た時に初 めて「リスクがある」、「リスクが無し、」と言えるのであり、各々の個別口座に対しての良、不良の確率ではない。 それ故に、高スコア群の中にも不良が混じってくる。そして、それを判別する良い次元としての指標が「収 益」性なのである 3 収益性定義自体リスクとは関係ないが、私は何らかの関係が在ると考える。 そして、そ υ 丹︑ F h υ 14

345.

の差別能力をうまく使い分けることによりより良い戦略が開発できると考える。 今後はこの戦略開発が大き な焦点となって行くのであろう。 一次元の戦略から二次元の戦略に移ったことが私は画期的なことだと考える。 例として二次元としてい るが、次元の数には制限はない。 何らかのシステムを導入して複雑な戦略管理を維持できるのであれば、 三次元、四次元の戦略があっても良し吃考える。大事なのは今まで、の手法で、は無理だ、った詳細レベルで の差別化が可能になってきたという点であろう。ここから得られるであろう、ミクロの精度向上が最終的な収 益に多大な貢献をしているのだと思う。 リスク把握の困難な現代のポートフォリオに対して、人間もモデル も進化してきたとし、うことだろうかο 4 業務システムー自動化 最後の要素の一つにシステムがある。如何に良いモデルや戦略があってもそれを運用に載せられなけ れば意味が無い。 昨今のビジネスを見ていると規模が大きくなっているため自動化なしでは語られなくな ってきている。もう一つの理由としては戦略の複雑化があるだろう。金融商品が多様化してきてそれに応 じて審査モデ、ルや戦略が複雑になってきている。ある程度の数を越えるとやはり人間の目だけでは追えな くなってくる。 私はシステムの専門家ではないので深く言及するのは避けるが、以下の三点について導入 検討して頂ければ失敗はしないであろう 3 1 . データ更新のタイミング:オーソリ業務などの途上与信で・は最新の情報を常に維持しつづける事 が重要になってくる。 入金やショッヒ。ンク、、取引なとーの情報は常に最新の状態にしておくことが望 ましい。そのため、与信エンジンにデータ更新が反映されるのが遅れるのであれば、その分正確 な与信判断が出来なくなる。取引不正などの一刻一秒を争う業務に対してはこの時間のずれが 命取りになるであろう。 2 . スコアリング.負荷:一般的な途上与信では毎月スコアリング をする。 P 自動引き落とし日が毎月決 まった日である時には、スコアリングの処理もその日に集中しがちである。 仮にスコアリンクずのエ ンジンが業務システムの中にある時には、このスコアリング、の作業が他の業務を圧迫しかねない。 そうなってくると、通常業務まで、も危うくなってくる。 いかに作業負荷を均等にするかもスムーズな 業務フローを考える時には重要になってくるだろう。 3 . 動的な戦略実施:戦略実施には一刻一秒を争うことが良くある。初期延滞の督促戦略がその 良い例だろう。回収成功の鍵は迅速に延滞口座に適切な対処が出来るかにかかってくる。そ の時回収戦略を組むのに 2,3 日かかっていたのでは遅すぎるかも知れない。 時間とし、うものは 非常に重要な意味を持ってくるため、不必要な遅れを出さないための用意はして越したことはな い。この辺の機能は最低限持っておかなければならなし、ものだが、市場に出回っているプロタoク トに関しては大体備えているので、それ程心配するには及ばないだろう。 しかしながら、自社開 発する際には細心の注意を払うべきであろう。 5 まとめ 駆け足で話してきたが、各要素についてもう一度まとめようと忠弘 1 . リスク管理の目標:より具体的なモデル、戦略、期待効果を認識すること。 2 . 実績定義:そのリスク管理を実現するための実績定義、そして必要なデータの準備。 3 . セグメント:複数モデ、/レを考慮した時のセグ メント定義。 P nyIU Fhd ︑ qυ

346.

4 . 戦略:従来の単一モデルに準じた戦略開発から、複数モデ ルを応用したより詳細な戦略立案、開 発 。 5 . シミュレーション:戦略効果の指標を得るための、ンミュレーション。 6 . オートメーションツール:より迅速な処理を促すツール群。 以上のことを実践できればここ当分の聞は安心できるだろう。 しかしながら、リスクとし、うものは時間ととも に進化するものであり、どこまで我々が対応して行けるかが今後の鍵であろう。 ここで話した内容が皆さん の今後に業務に役立つことを祈ってまとめとしたい。 F 令 ︑υ 令 ︑υ ヘu

347.

口頭論文発表 調査・マーケティング

348.

日本 S A Sユーザー会 (SUG I‑J) J、ザードモデルを使用した住宅ローンの収益予測 中井長人 システム部 (械金融エンジニアリング・グループ S i m u l a t i o nF o rp r o f i tofHousing1ρanPOlt f o l i oByCox‑HazardModel Masato Nakai I n c . F i n a c i a lE n g i n e e r i n gGroup, 要旨 住宅ローンは超長期の資産でかつ近年では金利型を自由に選択できる商品が主涜になりつつあり、この 収益予想は極めて難しいといえる。本稿では様々な要因に対して繰上返済や金利型の変更の発生率を Cox比例ハザードモデルで模擬し、このモデルを使用した収益予想について述べる。またこのモデル の検証として実際とモデルについて破綻、繰上、金利型の変更の件数の比較も報告する。 キーワード: 宅ローンの収益予測、繰上返済モデル、 Cox比例ハザードモデル、 Hr 世&羽もi t e金利パス ‑はじめに 住宅ローンは年金と並ぶ超長期の金融資産であり、この間には大きな社会的な変動もありえるので、か なりリスクが高い資産といえる。この係なリスクに備える方法として売却か流動化して早期に切り離す 方法があるが、一般の資産と同様にポートフォリオの概念、を導入して、ポートフォリオとしての収益率 の維持と残高の維持を図る方法もある。 W Jち収益率の高いポートフォリオと低い収益率のポートフォリ オの見極めと新規約定による残高の促進と抑制である。 住宅ローンの債務者は長い債務期間にライフステージの変造や景気や金利変動に│刺さらされて、 H 寺には 破綻に至る場合もあるが1 1 1 来るだ、け債務を軽減する行動をとる。これは一部繰上や繰上完済となってロ ーン供給側にとっては予定外の残高の減少となって収益を減少させる。この様にポートフォリオの収益 の維持を図るには、ポートフォリオ内の的務者が、 l illE.綻や繰上をどの係な要因に対してどの程度発生す るか計測する必要がある。 内︿l v ‑ ﹁ υ ウ t

349.

しかし内的(ライフステージ)、外的(金利推移、景気変動等)の要因以外に債務者がとる行動は下図 の様に債務開始からの経過時間に密接に関連している面もあり、要因の影響力と経過時間の両方で説明 する手法が適切である。この様な手法のーっとして生存分析モデルの C o x比例ハザードモデルがある。 部併呈上勤年始件費釦 部併呈上CPR( CPR犠上完済動年始件数) 0 . 1 0 0 0 日目王E 問叩 市一 0 . 1ぽ目 日民知3 ,一一一一一一一一一一一一一一一一一一← 1 0 :0 .060J ‑1 00¥PSA " ‑ → 一 個 人 ・CPR 。日凪∞ 0 . 0 2 0 0 0 . 0 2 0 0 ⁝一向 ‑数 一一陣 図 2 一部繰上発生率 図 l 繰上完済発生率 C o x比例ハザードモデルの発生率関数 H ( t )は次式で示す様に、時間のみに依存するベースライン関数 h o ( t )とそれを上下にシフトさせる指数部で構成されており、指数部の中は複数の要因(共変量と云う) とその回帰係数の線型和になっている。ベースライン関数と回帰係数は、実績の発生率とその時の要因 の実数値データにより SASの PHREGプロシジャーで回帰して求められる。 H ( t ) = h o ( t )e却 (sj Z j +s2 Z 2 +・ ・ +s"ZJ H ( t ):発生率 h o ( t ):ベースライン関数 式l 六 Z i:要因 i s i :要因 iの回帰係数 分析結果の例として、約定金利と市場金利との金利差、年齢、残債率を共変量とする一部繰上の発生率 の関数を図 3に示す。固定金利型の場合、市場金利が降下すると一部を変動金利で借換えする場合があ り、金利差に応じて一部繰上の発生率が上昇していることがわかる。 回帰(一部緑上・固定金利) Cox‑Hazrad 。 ρ25 童和l 豊年齢残置率 ︒ 川町制眠 010 000 25163 ・ 一‑0.0030.00100.00 一 台 一1 . 0 03 5 . 0 09 0 . 0 0 一昨 ∞ 。s B 10 2 . 0 04 0 . 0 08 0 . 0 0 1 2 経過年世 図 3 金利差・年齢・残存率を要[天│とする一部繰上の発生率関数 Fhd nxU つd

350.

‑分析の結果 住宅ローンには様々なものが用意されているが、特に近年では契約の途中で金利型を自由に変更できる オフ。ション性のローンが主流になりつつある。これの収益と残高を予測することは極めて大事なので、 分析ではこのローンが発売された 1 9 9 7年降のデータについて行った。 分析の結果では一部のポートフォリオについては下表の様に要因にたいする債務者の挙動が判明した。 表内数値はオッズ比凹 ( t ) l h o ( t ) ]であって何れも要因が l増加する場合の発生率の増加率示す。空白欄は 統計上有意にならなかったものである。 契 約 時 の 破綻 繰 上 一 部 固 定 → 固定→ 変動→ 要因 完済 金利型 繰上 変動 期間固定 期間固定 1 年齢の増加 0 . 9 8 1 .01 1 .01 0 . 9 5 0 . 9 9 1 .01 負債比率の増加 1 . 12 2 約定金利から市場 変動 固定 3 金利を引いた差の 1 .09 2 . 2 0 2 . 0 5 拡大 1 .2 期間固定 1 .35 4 利子補給率の増加 0 . 7 8 1 .38 1 .2 1 5 債務者の評点 6 債務の残存率 0 . 9 8 1 .06 1 .04 1 .34 1 .06 要因欄の債務者の評点は、住宅ローンの申込時のデータより債務者をスコアリンクーする別システムより 得た。利子補給率とは勤務先会社の住宅ローンに対する金利補助率で、上表から繰上完済では抑制効果、 一部繰上では促進効果がみられる。債務の残債率からみると、一部繰上げや金利型の変更は残債が多い 早期に発生し、繰上完済は残債が少なくなった後期に発生することがわかる。また金利型の変更は市場 金利に感応して固定金利型から変動金利型や期間固定への移行することが判明した。 ‑モデルの検証 9 9 7年から 2001年までの 4年間と短く、この間に開始から終了する迄のローンは殆 扱ったデータが 1 I 由 EGに計測開始時点と計測打切 どなく経過中のものが大部分を占める。この様な場合には SASの P 母賓とモ 時点を指定すると、図 4の様に長期の経過年に渡って CPR (年開発生件数/年初の件数)がZ デルと一致することが判明した。 帯責とCo x モデルの比較(繰上完済) 0 . 2 αX X l 0 . 1日X氾 十実手配FR . . . . . . c o x モデル 二 ロ ~ 0 . 1附 0 . 0 日X氾 o . c 以X氾 . , . . . . ¥ ' ? U") r 、 cn . , . . . . ¥ ' ? U") r 、'" 期間 図 4 実績の CPRとモデルの CPRの比較 ハ 同 ︐u υ qυ ヘ ‑︑

351.

式 1に示す様に Cox比例ハザードモデルの指数部は時間の関数ではないので要因の影響と時間とは無 関係としている。それを証拠だてるには云わゆる比例ハザード性の検証が必要だが、もっと実証的に過 去の実績金利の推移と 1 9 9 7年 4月時点の約 2万件の約定について、分析したモデルを反映したプログ ラムで一約定毎に債務の返済過程を模擬し、 2000年 3月時点での破綻や繰上件数の発生件数を実績と 比較した。図 5の発生率は発生件数÷期初件数である。この結果では債務者が起こす各挙動について 精度が非常に高いことを示しており、分析の結果得られた Cox比例ハザードモデルと返済過程の模擬 プログラムが極めて適切であることを示している。 繰上イベント・モデルと実績との比較 3 . 5 0 3 . 0 0 ~ 2 . 5 0 時 2 . 0 0 制 1 . 5 0 棋 1 . 0 0 0 . 5 0 0 . 0 0 旧模擬" E塁壁│ 図5 破綻・繰上・金利型変更の実績とモデルの比較 模擬結果について 検証を経た比例ハザードモデルと返済過程の模擬プログラムを用いて各ポートフォリオについて将来の 収益と残高の予測を行った。投入した約定データは 2001年 4月時点の既契約と将来の営業シナリオに よる新規約定である。金利は直近のデータを用いた。或るポートフォリオの模擬の結果では図 6に示す 様に約定ベースでは残高が増加しているが、予想以上の繰上返済によって残高が減少しており収益が維 持できない状態が見られる。この様な場合は営業シナリオの見直しが必要と考えられる。 残高の推草 2500 口上段ー約弁ラダー 2000 l 傾 1 5日 日 制射 司、 1 0 0 0 ロ下段:プリベイ・死亡・て │ フォルト考慮後ラずー │ 500 D み 争 条 争 条 争 条 争 条 争 条 争 条 ぷ,"〆ぷ/ぷ〆ぷぷ JJJJ 九 九 九 九 九 九 九 図6 九 % 九 九 残高の推移予想 ‑360

352.
[beta]
‑モンテカルロ法による分析結果
住宅ローンの資産の割合は比較的高く、自己資本比率やJl寺価会計での評価に備えて住宅ローンをI
J
朝日日ベ
ースで計測する必要がある。この場合では債権ポートフォリオが将来生成するキャッシュフローを適切
に予測された将来の金利イールドで割引いて時価を計算しなければならない。適切な金利イールドは見
Whi
t
e法で多数の金利パスを生成させ統計的に時
出せないので、中心回帰ロジックを反映した Hull&
価を評価するモンテカルロ法を導入した。多数の金利パス上で模擬を繰返すことによって平均的な時価
とその分散が分布として求められることになり、分散に比して時価の低いポートフォリオの見極めが可
0
0本としている。
能になる。今回の分析では距契約のみ対象とし金利パスを 5
H
u
l
lιWhite金 利 イ ル ド(
2
0
P
a
t
h
)
0
.
0
4 ‑一一一一……一一…一一
0
.
0
3
5

i

口03 C

三日間!

i 0.02 ~

干

0
.
0
1
5i
0
.
0
1

0
.
0
0
5
0
σ~

'
"
'

、
ば

r
、

σ、

,ー,ー~

・
ー

、

0a

年数

H叫 1&
羽もi
t
eの金利パス

図7

現在価値の分布

収益のキャシュフローを現在価値にした結果を図 8に示す。この金額はポートフォリオの価値である。
ポートフォリオとしては、 2つの貸出先 A先(地域向け)と B先(職場向け)と 3種の金利型(変動・
固定・期間固定)に分類した。収益は次式によった。但し破綻時は残債額担保額の損失とした。
収益ニ{(約定金利調達金利) 保証料率
死亡保険料率}大残債額
調達金利は金利パス上のフォワードレートより算出した。
この結果 B 先向の固定金利と期間固定金利のポートフォリオは殆ど価値がないことが判明した。これ
は B 先の破綻率がかなり低いので約定金利を優遇しすぎたためと変動金利への切替えが進まなかった
ためと考えられる。また図 3 の平均の収益率でみると変動金利の収益率は高くまた相対標準偏差(注)
も低いのでかなりの優良なポートフォリオとわかる。変動金利の住宅ローンでは金利下降局面での借換
えも少なく、金利リスクもないのでローン供給制には有利な商品といえる。

4
思iPJ
5
c
.
E咽

平均l
活詳記J
スク
5び
も

圃

4
.
σ
.トー 圃

4JBOO

> 3JBOO

ロ

o
.
̲

相 2
JBOO

圃妥動先
口妥蛮B
先
0臨 先
・お間E部 先

•

。

。
02

.語似先

Lー

日変重注ヨ先

i時

盟
:

L>

0匡 問 先

Z仇

1
σ
.

ー1.CBa

0
.
1

ロ

川

長:町
一全型堕璽堕塑‑時間

主主1.正明
日匹叩

;

03

.t.婿苛蛮弘eJe
A婿司宣志ヨ先

。

A
一 一 一 一

04

帯域薬草耳属喜郡)

図 8 収益の現在価値と標準偏差
注)相対標準偏差=標準偏差÷平均値

図 9 平均の収益率と標準偏差

υ

今︑

phu

353.

債務者の返済の Cashflowの現在価値は債権を売却か流動化した場合の値段になる。図 9はその現在価 値が現在の残債額の何倍であるか示したものである。この図では収益性が悪い B 先向けの固定金利の ポートフォリオの現在価値は高く、売却か流動化して切離すメリットが大きいことを示している。反対 に収益性の高い変動金利の現在価値は現在の残債額と差がなく持切りによる収益を期待した方がよいこ とを示している。 円/紺臓高 l r 目変慰1'¥先 l 口変郵先 1 . 0 8 寮1. 07 6 : 1 . ω • 1 . 04 ロ 1 . 03 0 .5 % 0 瓜 1.邸1. 5 % • 2 .0 弘 標準偏差 図1 0 PV/期初残高 今後の課題 今回は債務者の返済データの期間が 1 9 9 7年から 2001年の短期間のため、パブJ L期を挟んだ景気の変 1 の綴な金利との相聞が高いマクロ指標を用いると、各時点のマクロ 動効果を反映で、きなつかた。図 1 指標とその時の破綻率とで Cox比例ハザードモデルを作成し、将来のマクロ指標は金利パスと連動さ せることによって景気変動の効果を反映することも可能である。 金利とマクロ指標 ‑ ‑ ‑ ‑ : : ‑ 守 凋U守 内 dqζ (民)刷叶斗酬明 RUFhd ̲ ̲ ̲ ̲ ̲ . . !.‑‑・ ‑ ‑ ‑ ‑ ‑ 0 0 . 0 0 2 . 0 0 4 . 0 0 6 . 0 0 8 . 0 0 L ibor {1M) 図1 1 金利とマクロ指標(賃上率) 住宅ローンの貸出競争は激化の一途を辿っており、ローン供給側はリスクの高い先への貸出しゃ債務者 に有利な商品を提供しないと残高の上昇は望めない状態と考えられる。今回のモデルはこの要求に応え て様々な債務者と金利設定でも将来の収益予想、が可能である。この分野での多くの評価を経ることが期 侍される。 ‑362ー

354.

日本 S A Sユーザー会 (SUG I‑J) 住工混在地域の生活道路に関する意識調査 茶笑と JMPによる自由記述データの分析 0小島隆矢*赤池光子梓若林直子山 *独立行政法人建築研究所住宅・都市研究グループ主任研究員 神国土交通省国土技術政策総合研究所都市研究部主任研究官 ***特定非営利活動法人生活環境 NPOあくと理事 H(!s~ élJ rGh onI mpressionofL i f eStreeti naResidence‑IndustryMixedUseArea ‑Analysisonv e r b a ldatadescribedbyf r e etermusingChasenandJMP‑ OTakayaKOJIMA* MitsukoAKAIKE 柿 NaokoWAKABA YASHI*** * BuildingResearchInstitute * *NationalInstituteforLand&InfrastructureManagement 本*本 Non‑Pro行tO n r a n i z a t i o na c t 要旨 住宅と工場が混在する地域を対象:こ,それぞれの地域における主要な生活道路に関する意識調査を 行ったに本報では r この道 i こ関してあなたが想い出すもの,事柄はどんなことでしょうカリとしづ自由記述 形式の設聞を中心とした分析について報告する。具体的にほ,奈良先端技術大により開発された「茶築 j とし、うフリーのソフトウェアを用いて,上記自由記述データを形態素(単語より少し短い言語の構成単位 j に分解し, I ] / l .l P ソフトウェア(ノ tージョン‑1. 0 . 5 ] )J を用いて,語句(形態素 )x居住地区のクロス集計に基 づく対応分析などを実.施した ο その結果は各地区の特色がよく表現され,興味深し、ものとなった、 ぃ 卜 ワ キ 茶莞,日本語版 JMPソフトウェア,テキストマイニング.地域環境 1 . はじめに 大都市近郊に広く分布する住七と中小零細工場の混在する市街地は,昭和 30年代後半ヵ、ら公害・環 境問題が集中的に発生し,その解消が大きな課題であったが,公害問題の低減,経済活動の空洞化な ど経済社会環境の変化に伴い,近年では住工共存の可能性が模索され始めているニしかし,これらの地 域では,老朽化した建築物,狭ノトあるいは接道しない宅地,未整備な道路などがまだ多く,快適な市街 地環境の形成が期待されてし、る。 以上のような背景のもと,平成 10年度より建設省建築研究所(当時)では,住宅と中小工場などが混在 大都市市街地 する市街地を対象(こ,その快適環境形成;こ資する基礎的知見全得ることを目的として I の環境形成に関する研究」に着手した。(平成 13年の改組に伴い,現在では国土交通省国土技術総合 政策研究所に引き継がれているつ) 本報では,上記研究の一環として平成 13年 3月;こ実施した住民意識調査における自由記述形式の設 聞について,奈良先端技術大により開発された「茶築」とし、うフリーのソフトウェアと日本語版.lMP ソフトウ ェアを併用し,語句の出現頻度;こ着目した分析を行ったのて、報告する O

355.

2 .調査の概要 2 . 1 対象地場 本調査は,住工混在地域の生活環境の中でも,特にその地域における主要な生活道路について,居 住者の意識 ι景観・交通ほか,様々な観点カら捉えること金目的として行ったものであるコ調査対象地域 としては,東京都区内の工業地域・準工業地域のうち,下記を主な条件としてしくつカ、の候補地を検討し, 最終的:こは墨田区八広と葛飾区東四つ木の 2地域全調査対象地域とすることとしたC 条件: ・街路沿い;こ住宅,工場,商官等が混在立地している 0 .その街路は,周辺の居住者と日常的に関わりが深い。 ・その街路は,周辺の居住者にとって特定しやすし、通りである 、 t .その街路は, 400~500m 程度続く街路で、あるO 2 .2 対象街路の状況 調査員による現地調査報告その他;こより,対象街路の状況を簡単にまとめておく 、 L .対象街路の幅員は,八広約.f. 2m,東四つ木約 6.6m。 -横道の幅員 l 土,八広では 2~3m 程度の細道が多く,東四つ木でT 土 5~ôm程度の道が多い0 .歩行者は八広の方が多く,自転車はほぼ同数,車両は東四つ木の方が多い。 ‑車両速度は,八広では遅く,東四つ木ではやや早い印象「 ‑路上駐車,看板,植え込みゃ鉢植え,路上おかれた仮設物(工場の製品,台車,コンテナ等)などの状 況は,同一街路沿 L、でも場所による違いが大きいい ‑八広は, 1階が工場, 2f;皆が住居とし、う古い建物が目立つ下町 工場!土小規模,住居は一戸建てが多く 3 混在し,建て込んでいる 0 ・東四つ木は,中小の工場,工場アハート,個人商1;5,工場跡地にできた大規模マンション等が混在して こ新しく転入される皆様 d J この地区は都市計画法 しも。工場は八広に比べると大規模。「 この地区 i による工業地区に指定されてし、ます。したがって工場の終夜運転,及び休日稼働や,騒音,振動等の 発生がありますので,ご承知くださし、」とし、う看板あり。 2 .3 調査対象者および配布・回収方法 調査対象者は,対象街路沿いおよびそのごく近傍の居住者約 200戸(ほぽ全戸),調査員投げ込みに より配布,訪問・郵送金併用して八広 28票,東四つ木 34票,計 62票を回収した。有効回収率は 23%程 となる。 2 .4 調査内容 主要な調査項目は下記の通りである。 ‑基礎的なフェイス項目: 年齢・性別・職業・居住年数・居住地区等 ‑自宅周辺の地域の評価:様々な観点の満足度,総合的な住み良さ,愛着等 ・調査対象街路の利用状況:利用頻度,利用目的等 ・調査対象街路に対する評価・意識:想い出すもの・事柄(自由記述人 15項目の SD法等 3 6 4

356.

本報では,対象街路に関する自由記述形式の設問;こっし、て主に扱久この設聞は,建築・都市分野で 地域イメージの形成要素抽出のために用いられてし、る「エレメント想起法:;,:!;Jと呼ばれる調査法会参考 i , こ 本調査の主旨および調査形態になじむようプレンジしたものである 質問丈のワーデ、イングは次の通り。 t 「この道に関して,あなたが想い出すもの,事柄 I ま何ですか。何でも結構ですので,囲みの中にご自由に お書きください。深〈考えずに,お気持ちのままお答えいただければ幸いです。」 回答の例をしてつカ、あ庁、ておくコ ・車会常用しているが,前方治、ら車が来るとすれ違うとき大変なのでいつも避けているコ ‑私の住宅は同一敷地内に二軒ありますコ親の家と次男の私, 60年あまり住んでし、ますのでとても親しみ がありますが,最近越してきた建売住宅の住人が,小学校の通学路となっていながら掃除を全くしませ んコ学校も外部には一向に構いません〉掃除会するのは常々旧住民のみ、不潔のみか子ども達にもあ まり良くないのではと私ども高齢者は不服に思っています〉どこも同じカ、な,最近は? .1.電柱,電信柱等,統合できなし治、? 2 .道路脇に置カ、れている物の除去,美観と交通傷害,近所ではな治、なヵ、言いにくい 3 ・狭い道にいつも車が止まってし、て,人も自転車も車も交通量が多い。道で/J 、さし、子を遊ばせていたりし ていることもある 工場もあるので大型車も通る。危ない道し ζ 6街がなく,道の左右とも個人経営の工場ぱ方、りであるに昔ヵ、らの ・年少の頃より歩いている道だが,商 1 品、にできた商 j 苫はみんな栄えず「元すり横丁 Jと言い伝わっている。でも住んで 人たちからは,この道 J しも人たちは,それ程移動がなく顔見知りがたくさんし去す〉 ‑道の端に車が止まってし、て困る。 ・日中は駐車してしも車が多い。わりあいまっすく、な道なので=自転車で走りペ Jすい υ ・車が止められなし、(短時間)、ゴミの集積場所に収集日以外の日でもゴミが出ている。 ‑駐車してし、る車が多すぎる υ 自転車;こ乗る人のマナーが悪い。大きな車(生コン車など)が多い。 3 .自由記述データの分析 3 . 1 分析方針 本報では,上記のような自由記述の内容が,居住地区によってとずのように異なるのか,その概略を把握 することを目的として,次のような方針の分析を行う。 ‑回答文中に何度も使われてし、る語句を抽出するコ ・語句の出現頻度を居住地区日J Iに集計し,語句×地区のクロス集計を作成する O ・語句×地区の度数行列;こ対して対応分析を実施し,布置の様子を考察する。 ここで I 地区」とし、うのは,八広,東四つ木の 2つの調査対象地域を,対象街路に沿って約 100m二 、 と に区切り,各 5個程度の小地区に分けたものであるコ同一街路沿いでも場所による違いがありそうなので 集計の区分を小さくとりたい一方で,統計的安定性の点カ、らは. 1地区あたりの回答者数があまりに少なく 地区あたり最低 5名程度の回答者を確保できるように配慮して,集計上 なるのは好ましくない。こごごは. 1 の地区の区分を決定した。一部,回答者数不足により分析対象外とせざるをえなかった地区も生じている υ 丹︑ phu えd

357.
[beta]
ことを附記する。
以下,ソフトの操作方法も含め, 1
)
聞を追って分析手順を解説する。

3
.2 茶箆による形態素データの作成
茶莞とは,奈良先端技術大により開発されたフリーのソフトウェアであり,日本語のテキストデータを形態
素(単語より少し短い言語の構成単位)に分解し,品調・基本形・活用などを出力してくれる。茶突の入力
画面を図 1に示す。結果出力を M
i
c
r
o
s
o
f
tE
x
c
e
!に読み込んだ様子を図 2に示す。茶尭の出力は,各形態、
素が行方向に並び,各形態素の基本形・読み・品詞等の情報がタブ等で区切られて列方向に並んだ形
式となっている。また,入力したテキストデータの改行は rEOS(
E
n
d OfS
e
n
t
e
n
c
eの意味と思われる)J
とい
うコードで表されるので,ある形態素がもとのテキストデータの第何行目にあったものかを調べるには,そ
の行より上に rEOSJがし、くつあるかを数えれ

量‘函値圏量溢“幽幽凶溢置組轟‘直也置圃圃圃圃圃園田園圃圃圃圃圃圃圃圃圃圃圃~

c
o
u
n
t
i
f
ばよい。ここでは, M
i
c
r
o
s
o
f
t Ex叫 の r

別ω で

関数」によりこの作業を行ってしも(2参照)。

旦塑空W~ィル引ラッ狩ると酬を実行L詩.

回答者ごとに改行した自由記述データを入

す正面EP基本形 F

~Jt~f1\ I !'j;記事押してかち文壱初 L てください

ヲ
マ
リ
ア

!

日,舌周

力しているので,これで回答者番号との対応
がつくことになる(無記入の回答者も改行だけ
0
は行う )

3.3 形態素 d
a
t
aと他の設聞の d
a
t
aの結合

ここに回答者ごとに改行した

次に,茶尭出力 d
a
t
aと,他の設問の回答を

自由記述データをペースト

入力した d
a
t
aを
, jMPソフトウェアの「結合
ゴ
パ
一

O
o
i
n
)J
機能を使って結合する(図 3
)。茶突
出力は行=形態素,他の設問の d
a
t
aは,行
対応する列の値
=回答者であるので, r

図1 茶尭の入力画面
A 列:もとの行番号

B‑H夢1
]
:茶突出力

で、結合」を選び,回答者番号の値を対応
させて結合する。
このような形式のデータテーブルを作成
しておけば,形態素と,他の様々な設問と
のクロス集計を容易に行うことが可能とな
地区(図 3で、は「街区」とし、
る。ここでは, r

~JJ-'ず

博曹獲思

改行コード(EndOtSen恒 n a1)
‑H

.~i{;

う変数名)Jとのクロス集計を行おうとして
いるわけである c

3.4 分析対象とする語句の較り込み
表層形(もとの文章中で使
茶突では, r
われている形そのままの形態素)J
だけで
なく,その語句の「基本形」も推定して出
力される。例えば, r
住んでいます」は,ま

図 2 茶尭の出力を M
i
c
r
o
s
o
f
tExcelで加工
3
6
6

358.

国世帯 Z 占:~ り や す 極官り 11ρ tt.~. 4 駅 月 エ い 3 3 " 5 s 1戸 : 士 内 ゐ )1;",,,,, ; i ; ; │他の設問の data t 、 = _?l!:..~: ~r. :il.~ ~ ~ FE v ¥ 〆 茶算出力(形態素 d a t a ) 他の設問の d ata ataと他の設問の dataを JMPで結合 ( J o i n ) 図 3 自由記述 d ず「住ん・で・い・ます」と分解されにれが表層形), さ らに「住む・で・いる・ます」としづ基本形が出力される e 当然,分析には基本形を用いた方が便利である。 また,この例でいえば分析対象として意味がある形 し、る」くらいであり, I で」や 態素はせいぜい「住む JI 「ます」は不要と思われる。さらに,あまりに出現頻度 の小さい語も分析対象から除外したい。 そこで,次のような手順で,分析対象とする語句の 絞り込みを行った。 1 ) 品詞による絞り込み j j i j : : 茶莞の出力には「品詞」の情報も含まれる。そこで, JMPソフトウェアの「品詞」のヒストグラムのウインドウ上 で,助詞,助動詞,記号等,分析対象とする意味が )。この段 ない品詞を選択し,分析から除外する(図 4 階で,基本形は 332語→268語に絞り込まれ,総、度 数は 1179→ 614となった。 2 ) 頻度等による絞り込み ここで「基本形」の「一変量の分布」を表示させると, 語句の一覧およびそれぞれの語句の出現度数が手 て ‑ f i i f i RV4F1lIBI‑‑9 Z. 1 i1.;i;・ . ). l '白:z.;.' ︐ ︒ NεI j"~ ノ に u ︑ qυ

359.

(こ入ることになる=そこで,次のような操作を行う。 ①「度数」の表示を,新たなデータテーフずルに出力し,不要な語(度数が少ない語,意味がない語)をチェ ックする(1列設けて,不要コードを入力)。 ②「基本形」同土を対応させてもとのデータテーブルに「結合(Jo i n )jするコ ③不要コードが入力されている行を選択し,これを分析から除外する 3 この段階で,基本形 72語,総度数は 3 9 2となった 3 3 .5 語句 x地区の対応分析 分析対象とする語がひとまず決定したので 1 基本形」と「地区」についての 12変量の分析」から「対応 分析」会実施するコ対応分析の結果である布置上で外れ値となる語句または地区は順次分析から除外し ていき(除外するカテゴリーの選択ばヒストグラムを使い,再分析は「スクリプト J →「分析のやり直し J: こ よ り 行う),最終的には 65語 X9地区,総度数 375となったυ 地区と語句の同時布置を図 5(こ示す。 地区のラベルは,大文字.A..' " ' ‑ ' Dが東四つ木地区,小文字 u ' " ' ‑ ' d,d '( dとd 'はごく隣接している)が八広 であるり見事に東四つ木と八広に分カ、れて布置されるとし、う結果が得られている ι これに対応する語句の布置をみると,東四つ木地区が布置されている図の上方には,職場・トラック・通 行・激しし、.ほこり・っぽい・車両・危険などの語句が布置されている。一方,八広地区が布置されている図 の下方には,住宅・住む・子ども・親しみ・通学・商百・ゴミなどの語句が布置されているっこのことヵ、ら,調 RMYRMY nunυ 100 首 1 90 首 U ︽ nununu 令 Juqdqι 80~量 70 時 60 首 ζτ 内 ー・マh n u Unυnu 内 1234567 ‑ ; ;0 J 沿い.住む通学路 明 住宅 一2 2 c2 図5 語句×地区の対応分析 ‑368一 子ども・達 親しみ

360.

査対象街路について想い出すもの・事柄の記述内容には,東四つ木地区(土産業に関する言葉,八広地 区は生活に関する言葉が多いとし、うことが分かる。東四つ木地区の方が工場の規模が大きいこと,八広 地区の方が,いわゆる下町的な地域であることなどが反映されたものと推察される、 さらに,八広および東四つ木の各地域内の,ノ j、地区の布置にも,若干,解釈できる部分がある v 八広地区の中でも,特に「子ども・通学・住む・親しみ」などに対応する位置には a地区が布置されてし、 るが,これは a地区には少し大きめの公園があること,通りより住宅数戸分を隔てて区立小学校があること, 居酒屋およびリヒ ングショッフ包があることなどが関係してし、るのではないカ、と思われる c また,八広地区の 中でも町工場が多く,最も規模の大きい町工場があるのがじ地区であるが,確カミに生活中心の語句が多 し、白地区とは離れた位置に布置されてし、る t 東四つ木地区の中では B地区が最も八広寄りに布置されているが,この地区には区立保育園があるこ , と 1街区隔てて区立小学校があることが関係しているのではないカ、と思われる乙一方,図の右上方に布 置されている A 地区と D 地区は,比較的最近になって転入してきた住民が多い地域とし、える、入地区:こ は新しし、工場アパートが建てられており,住宅も新日の戸建て住宅が混在してしも状況である【。地区に は,工場跡地に大規模マン、ンョンが建てられているコこれらの地区の回答者は工業地域の環境(こなじみ が少ない新住民が多く, ( 2 . 2 節で前述した「この地区 i こ新しく転入される皆様へ・・・」としづ看板が示すよ うに)不満やとまと九、の声が上がっているのかと思われたが,回答者の居住年数を調べてみると短くても 1 0 年以上であり, 20 年以上前ヵ、ら住んで、いる人が過半で、あったc 住み慣れているはずの人にとっても問 題の多い環境であるとも考えられるが,新住民の不満・とまどいの声がすでに表面化していることが,旧住 民の意識をも左右した可能性も否定できないにれは建築・環境分野で、は「寝た子会起こす J問題などとし、 われる), 4 .おわりに 本報では,住工混在地域の生活環境に関する研究の一環として,主要な生活道路について「想い出 すもの・事柄は何ですか ?Jとしづ非常に単純な自由記述形式の調査を行った結果について報告したり 分析方法も素朴なものだと思うが(果たして「テキストマイニンク1と呼ぶべきであろうか?),その結果は非 常に地域の特色がよく反映されたものとなった υ 今回はノ tイロットケースとして 2地域のみを調査対象とし て小規模な調査を実施したので、あったが,今後は,本報の調査・分析法による,より大規模な調査を計画 することも考えたい。 なお,今後,同様の方法で調査・分析を行う場合,今回作成した「不要語チェックリスト」が役立つものと 思われる。さらに,不要な語をチェックするだけで、なく,同一語とみなす範囲などを設定し,分析上の見出 し語会入力して辞書ファイルを作成し,充実させていくことも行し、たい。一旦,この辞書ファイルが作成さ れたならば, JMP ソフトウェアの「結合 uuin)J会使って形態素データに辞書を結合させ,見出し語による 分析,未登録語のチェックおよび 3 6 9ー

361.

注釈・参考文献 1)本報の調査は,建設省建築研究所(平成1O ~12 年度)および国土交通省国土技術政策総合研究 所(平成 1 3年度より)による「大都市市街地の環境形成に関する研究」の一環として行われたもので、 ある G 調査の実施は生活環境 NPOあくとが担当し,調査・分析法としては,国土交通省国土技術政 策総合研究所による「利用者ニーズを把握するためのコミュニケーション支援ツールの研究開発」お よび独立行政法人建築研究所による「ニーズ . c sを把握し活用するための技術」の研究成果を使用 していることを附記する。 2 ) 日本建築学会編:建築・都市計画のための空間学,井上書院, 1 9 9 0 9 9 2 3 ) 日本建築学会編:建築・都市計画のためのモデル分析の手法,井上書院, 1 ‑370

362.

日本 SASユーザー会 (SUGI-~) SASに よ る 疾 患 群 別 平 均 在 院 日 数 の 推 移 の 解 析 0楊学坤¥今井喜正¥大島純子..小島茂". ' ) l l l i天 堂 大 学 医 学 部 病 院 管 理 学 研 究 室 日 " ) l l l i天 堂 医 院 診 療 録 管 理 室 ) l l l i天 堂 大 学 医 学 部 中 央 電 算 機 室 ASTUDYONCHANGEOFAVERAGELENGTHOFSTAY OFTHEDlSEASEGROUPSBYSASSYSTEM OXuekunYang', Hisamasalmai', JunkoOshima", ShigeruKojima'" ホ Department 0' 1HospitalAdmi日 i s t r a t i o n,Junt巴ndoUniv巴 r s i t ySじhool 0' 1Mediじ!日 E ホホ ¥ホホ Medical Record Library,Juntcndo Univ巴r s i t y Hospital CentralComput巴 rOffice,Juntendo Univ巴r s i t ySchool ofMcdicinc 要旨 本 研 究 で は , SAS System を 用 い て , 一 大 学 病 院 に 焦 点 を 当 て , 最近 20 年 間 (1979 年~ 1998 年 ) に わ た る 全 入 院 患 者 ( 延 数 2 3 3,6 4 2i 牛)のデータから U NIVARIATEプ ロ シ ジ ャ , REGプ ロ シ ジャにより疾患群~Ij平均在院日数の推移を解析した。その結 果 , 以 下 2点 を 指 摘 で き た 。 ① 平 均 在 院 日 数 は , 各 疾 患 群 と も に減少傾向を示したが,疾患群の間で顕著な差はなかった。② 原発性悪性新生物は 病院全体の平均在院日数の短縮を妨げる 方向に作用していた c キーワード: 平均在院日数 ICD 病 院 SAS シ ス テ ム 解析 1.緒言 わが国の医療供給体制の基本法である医療法は昭和 2 3年 に 定 め ら れ た が , そ の 後 の高齢化に伴う疾病構造の変化,医療の高度化や専門化等に対応し,その都度改正 が行われてきた。第四次改正医療法は,平成 1 3年 3月 l日に施行され, I 一般病床」 と「療養病床」の区分を法制化することにより入院医療の効率的な提供が要請され ている。 平均在院日数は入院医療提供体制の重要な指標であり,わが国は近年徐々に短縮 しているが, 1 996年 の 時 点 で 33.5 日 ( 一 般 病 床 ) で , ア メ リ カ の 7.8 日 , イ ギ リ スの 9.8 日 , フ ラ ン ス の 11 .2日 , ドイツの 1 4.3 日 な ど と 比 較 す る と , い ま だ に 非 円 ︐ i つd よ ‑

363.

常 に 長 い 1)。 病 床 数 が 多 く 平 均 在 院 日 数 が 長 い と い う わ が 国 の 医 療 供 給 体 制 1) は早 晩変更を迫られている。医療資源としての病床の効率的な運用のあり方に関する議 論は活発化しているトヘ 本研究では, S A Sシ ス テ ム を 用 い て , 一 大 学 病 院 に 焦 点 を 当 て , 最 近 2 0年 間 に 渡 3万 件 あ ま り の 全 入 院 患 者 の デ ー タ か ら , 疾 患 群 別 平 均 在 院 日 数 の 推 移 と そ れ に る2 及ぼす要因を検討した。 2 . 方法 本 研 究 の 対 象 は 東 京 都 J大学病院の入院患者で, J大 学 病 院 の 診 療 録 管 理 室 の デ 9 7 9年 l月から 1 9 9 8年 1 2月までの 2 0年 間 に 渡 る 全 退 院 患 者 ( 延 ータに基づく。 1 書 士 )2 3 3,6 4 2である。 統計解析には, S A SSystem ( D i g i t a l UNIXProductionRelese 6 . 1 2T S 0 4 0 ) の動 作環境を用いた。入力データは,医事用大型コンピュータシステム上の集計を Microsoft‑Excel の CSV形式ファイルとして提供を受け, Windows98パ ソ コ ン 上 の FTPク ラ イ ア ン ト ソ フ ト に よ り S A S用 U N I Xサ ー バ ー に 転 送 し た 。 転 送 の 際 , 漢 字 コ UC漢字コードに変換した。 SAS上 で の デ ー タ 読 ー ド を シ フ ト ] IS漢 字 コ ー ド か ら E N F I L E文 の パ ラ メ ー タ に よ り み込みには, I 1,Jを区切り文字に設定し, SASデータ セットへの変換を行った。次に,以下の方法により疾患群別平均在院日数の推移を 算定・解析した。 2 .1 疾 患 群 別 の 選 定 ・ 区 分 と 平 均 在 院 日 数 の 算 定 本研究の対象疾患群は, I 原 発 性 悪 性 新 生 物 」 以 下 の 代 表 的 な 7疾 患 群 と , 一 般 病 床 と の 比 較 の 意 味 を 兼 ね て 精 神 病 床 に 入 院 し た 「 精 神 障 害 」 の 計 8種 を 選 ん だ 。 疾 患群別の患者の区分方法は, J大 学 病 院 の 診 療 録 管 理 室 に お け る 退 院 時 要 約 か ら , 1 9 7 9 年 l 月から 1 9 9 5年 1 2 月 ま で は 第 9 回 修 正 国 際 疾 病 分 類 (International C D ‑ 9 ) i)体系に基づき, 1 9 9 6年 l 月 Classification o f Diseases 9th Revision, I から 1 9 9 8年 1 2月 ま で は 第 1 0回 修 正 国 際 疾 病 分 類 ( IC D ‑ 1 0 ) S)体 系 に 基 づ き , 主 病 名の I C D番 号 (3桁)で選別した。在院日数の算定は, I 疾患別在院日数データブッ 9 )に従った。すなわち,入院日より起算し,退院日までの日数を在院日数とする。 クJ 勺 t 釘 つqtυ

364.
[beta]
入 院 の 即 日 退 院 の 場 合 に は 在 │ 淀 川 数 を l日 と す る 。 平 均 在 院 日 数 は 各 区 分 に 該 当 す
る患者の在院日数の i
1
:術 平 均 と し て 算 出 さ れ る 。

2
.
2 UNIVARIATEプ ロ シ ジ ャ に よ る 疾 患 群 別 在 院 日 数 の 詳 細 な 要 約 統 計 量 の 計 算
j大 学 病 院 の 診 療 録 管 理 室 に お け る 退 院 時 要 約 か ら , 各 退 院 患 者 の I
C
D (3桁)

i
!
l[定年ー月日を t
l
l
l出し. UNIVARIATEプ ロ シ ジ ャ に よ る 疾 患 群 別 在
番号,入院年月日. .
院日数の詳細な要約統計量を計算した。疾患昨別在院 1
I数 の 標 準 偏 差 と と も に 変 動
[
1
'
() を 求 め た 。 在 院 日 数 パ ー セ ン タ イ ル 値 の 算 定 に
係数(標準偏差を平均で除した 1

は , 疾 忠 群 別 に 患 者 の イ1
:
1
完L
1数 を 小 さ い 1
)
買に並べ,全体の 5 %、10%、25%、50%、

75%、 90%、 95%、 99%の 各 点 に 相 当 す る 忠 者 の 在 l
淀川数(ノ fー セ ン タ イ ル 値 ) を
表示した。

2
.
3 REQプ ロ シ ジ ャ に よ る 疾 忠 俳 別 平 均 在 院 日 数 の 年 次 i
f
t移 の 回 帰 分 析
同じく退院時要約から

各退院忠者の I
C
D (3桁)番日一

入院年月日と退院年 J

日を抽出し. R
EQ プ ロ シ ジ ャ に よ る 疾 患 群 別 平 均 在 院 日 数 の 年 次 推 移 の 回 帰 分 析 を
行い. 2
0年 間 疾 患 群 別 平 均 在 院 L
I数 の 年 次 推 移 の 回 帰 分 析 を 表 示 し , 疾 患 群 別 退 院
患者数と平均在院 I~ 数の年次 iW 移を作図した。

3
. 結果

3
.1 疾忠群別退院,t
U
,{í'数,平均 {E 院 II 数と在 I;J~ 円数パーセンタイル(日)

J大 学 病 院 の 1979{
I
=
'から 1
9
9
81
:
'
1までの 1
2
0年!i
J
Iの疾忠町二別退院 j
t者 数 , 平 均 在
院 日 数 と 在 院 日 数 パ ー セ ン タ イ ル (1
=)Jを忠、者数の多い )
1
1
(
[に 表 lに示す。平均在│淀

i長 が 精 神 障 害 (67.9 11) で , 次 に 長 い の が 忠 者 数 第 l位 の 原 発 性 悪 性 新 生
日数の b
物 (
4
8
.
2日 ) で あ る 。 平 均 在 院 日 数 の 最 短 の H
良疾患 (
1
3
.
91
:
1) が 患 者 数 の 第 2位 で
あった。在院日数の変動係数については. 2
0年 間 の 平 均 他 は 1 .8
4で , 大 部 分 が l
点台であったが,先天異常が 2
.65と 高 値 を 示 し た 。 疾 忠 群 別 退 院 患 者 の 5 %、10%、

25%、 50%、 75%、 90%、 95%、 99%の各点に相当する},E
、者の在院日数(ノ fー セ ン
タイル値)について表示した。平均在院日数は,病院全体(全疾患)と大部分の疾
患群が中央値 (
5
0パ ー セ ン タ イ ル ) と 第 3P
可分位数 (
7
5パ ー セ ン タ イ ル ) の [
H
Jで
,

u

︑
丹︑
qυ

365.

第 3四 分 位 数 に 近 い 値 ( 日 ) を 示 し た が , 平 均 在 院 日 数 の 長 い 原 発 性 悪 性 新 生 物 と 眼疾患と精神障害が中央値 ( 5 0パ ー セ ン タ イ ル ) と 第 3四 分 位 数 ( 7 5パ ー セ ン タ イ ル)の間で,中央値に近い伯(日)を示した。 表1 2 0年間の疾患群別患者数,平均在院日数と在│淀日数パーセタイル(日) 吋象疾患群の範国 疾患群区分 I C D ‑ 9 原発性悪性新生物 I C D ‑ I 0 1 4 0 ‑ 1 9 5 . 8 C O O ‑ C 7 5 .9 .C 9 7 在院日数ノ〈 在院日怠 哩者数 平均 標準偏差変動係数 セタイル{日) " 1 0 % 2 5 % 5 0 % 75% 90% 9 5 % 99% 2 9 . 1 0 9 4 8 . 2 51 .5 1 .0 7 5 1 0 2 1 3 7 6 1 9 5 1 2 4 2 1 6 ∞0‑∞9.9 限疾思 360‑379.9 HOO‑H59.9 21 .8 6 4 1 3 . 9 1 2 . 9 0 . 9 3 4 4 1 1 1 1 7 2 4 3 2 循環器系疾, : r 3 9 0 ‑ 4 2 9 . 9 1 0 0 ‑ 1 5 2 . 8 21 .064 2 3 . 7 3 9 . 6 1 .6 7 3 4 6 1 4 2 9 5 0 7 2 1 4 3 (脳血管疾患を除<) 440‑ 45 9 . 9 1 7 0 ‑ 1 9 9 先天異常 740‑759.9 ∞ O‑Q99.9 1 4 . 0 0 3 2 7 . 9 7 4 . 0 2 . 6 5 3 4 7 1 4 2 8 5 6 8 8 2 2 4 \~l! 腸疾思 5 2 0 ‑ 5 6 9 . 9 KOO‑K67.8 1 2 . 5 9 6 1 8 . 2 2 9 . 5 1 .62 4 5 7 1 2 2 1 3 6 5 2 1 0 2 (新生物を除<J 5 7 8 ‑ 5 7 9 . 9 K90‑K93.8 良性新生物 2 1 0 ‑ 2 2 9 . 9 D1 O‑D36.9 11 .8 0 1 2 0 . 6 37.3 1 .8 1 つ M 2 7 1 6 2 3 4 0 5 7 1 0 8 JJm 牌疾理 5 7 05 7 7 . 9 K 7 0 ‑ K 8 7 . 1 11 .0 2 7 3 4 . 6 3 8 . 6 1 .1 2 つ 5 1 3 2 4 43 7 3 1 0 1 2 9 0 ‑ 3 1 9 FOO‑F99 2 . 9 1 1 6 7 . 9 9 4 . 8 1 .4 0 6 1 0 2 1 4 9 8 8 1 3 7 1 8 1 319 233.642 2 6 . 9 4 9 . 5 1 .8 4 2 3 7 1 5 3 2 句 6 0 1 7 1 {新生物を除く) 精神!草書 全集・,~l 6 0 8 6 1 7 0 3 . 2 疾患群別平均在院日数の年次推移の回帰分析 1 2 0年 間 の 疾 患 群 別 平 均 在 院 日 数 の 年 次 推 移 の 回 帰 分 析 」 を 表 2に示す。この 2 0 年間で,病院全体の平均在院日数は 1 9 7 9年の 31 .5日から 1 9 9 8年 の 21 .3日へ, 33.4% 減 少 し た 。 平 均 在 院 日 数 の 年 次 推 移 を l次 関 数 で 近 似 す る と , 回 帰 直 線 y = ‑ O .6 0 x + 3 3 .2 6 (y:平均在院日数, x: 1 9 7 9年 か ら の 経 過 年 度 数 ), 寄 与 率 は 0 . 9 2 ( 平 均 在 院 日 数 と 経 過 年 数 と の 相 関 係 数 の 2乗 ) だ っ た 。 各 疾 患 群 の 平 均 在 院 日 数 の年次推移は,年毎に 0.26 日~ 1 .3 4日の間で減少していた。 ‑374 ←

366.

0年間の疾患群別平均在 I 完日数の年次推移の回帰分析 表2 2 疾忠群区分 山内i 分析 .H.~. 者数 [~I 帰式 寄与率 P 1 由 原発性悪性新生物 2 9 . 1 0 9 y = ‑ O .5 8 x + 5 3 .36 0.85 0 . 0 0 0 1 眼疾患 2 , 18 6 4 y = ‑ O .2 6 x + 1 6 .32 0.62 0 . 0 0 0 1 循環器系疾患(脳血管疾患を除く) 2 , 10 6 4 y = ‑ O .6 I x + 2 9 .32 0 . 7 2 0 . 0 0 0 1 先天異常 H.003 y = ‑ O .3 4 x + 2 7 .7 2 0.86 0 . 0 0 0 1 胃腸疾患(新生物を除く) 1 2 . 5 9 6 y = ‑ O .2 6 x + 2 0 .1 6 0 . 5 4 0 . 0 0 0 2 良性新生物 1 , 18 0 1 y = ‑ O .5 3 x + 2 5 .5 1 0.86 0 . 0 0 0 1 肝胆謄疾患(新生物を除く) 1 , 10 2 7 ドーI.I 0 x 叫4 .46 0.80 0 . 0 0 0 1 精神障害 2 . 9 1 1 .3 i x+ 73 .20 y = ‑l 0 . 5 1 0 . 0 0 0 4 全疾患 2 3 3 . 6 4 2 y = ‑ O .6 0 x + 3 3 .2 6 0 . 9 2 0 . 0 0 0 1 3 . 3 疾患群別退院患者数と平均在院日数の年次推移 「 疾 患 群 別 退 院 患 者 数 と 平 均 在 院 日 数 の 年 次 推 移 Jを図 1 (A~H) に示す。 20 年間の当該疾患群平均在院日数の回帰直線と病院全体の平均在院日数の年次推移を 加えた。 9 7 9年の 9 2 8人 か ら 直 「原発性悪性新生物 J患 者 を 図 1A に 示 す 。 退 院 患 者 数 は 1 9 9 8年 に は 2 . 1 0 4人となり, 2 0年 間 で 2 . 3f 音に増加した。平均在院 諌的に上昇し, 1 9 7 9年の 5 5 . 6日から徐々に下降し, 1 9 9 8年 に は 4 3日となり, 2 0年 間 で 1 2 . 6 日数は 1 日減少した。 4 4人 「良性新生物 J患 者 を 図 1B に 示 す 。 退 院 患 者 数 は 相 対 的 に 少 な く , 年 間 4 5 1人へ, 2 0年間で1.7f 音に増加した。平均在院日数は 1 9 7 9年の 2 6 . 1日から, から 7 1 9 8 3年の 3 0 . 2日をピークに,以後は下降傾向が続き, 1 9 9 8年 に は 1 4 .1日となり, 6 .1日減少した。 ピーク値より 1 [胃腸疾患患者(新生物を除く)Jを図 1Cに 示 す 。 退 院 患 者 数 は 年 間 7 4 3人から 7 5 8人へ, 2 0年間ほほ不変だが, 1 9 9 5年 以 降 増 加 し て い る 。 平 均 在 院 日 数 は 1 9 7 9 年の 2 1 .2日から, 1 9 8 2年 の 2 4 . 4日をピークに, 1 9 9 8年 に は 1 6 . 2日となり, . 2日減少した。 ク値より 8 375 ピー

367.
[beta]
八

原尭性悪性新生物

日

[l性新生物

~500

50

こ000

、
0
1500

一
︑1

︒
0

・
̲
.
‑‑
̲
‑‑
.
.
.
‑

,

盟 国 田 町 田 回 目 白 ‑ ‑

l
3
7ラ 80 Sl 82 f

9;

号~

cw
腸疾里

e
ち 87 e
e

ユ ち0 9

四

回

"2 93 9 噌o.~

園

田

'0

97 98

D 肝i
j
g持疾旦

「
一
一
一
ー
一
一
一
一
一
一
一
一
一
一
一
一
一
一
一
一
一
一
一
一
一
一
一
一
一

与はけ刊げ

・

2

7
!
子

508: Sご

,.

巴
."
..
..
..
.

2

83 e
.
;

~S

,.

.槽・・

8フ 88 e"}O

g

~OO

)00

s

。"

10

・.. . .
."
'
9: 日 討 巧 九

.
,
"

97 '
18

E 循環器系疾患

ド眼疾患

︑
問

83 8
.
;

~S

e
.
‑
, 87 S
号行

‑

ブ

0''
1 "2 ,
,
) ':'噌

H 摘神障害

t
.

)c

L

"
0

;00

~fJ

U .f 1~ll

3
噌

誕

1
1
l
M~M~U

[j~[I

[ll!l~m
毛
ど

11~II~rl

ク

言

・.

,
.
.
,
..
..
..
".
."
'
n 80 S! 8、 83
65 ε
e B; 88 89 90 91 九ご
~.,

t'"

I I

=コ旦院患者政

••

11'.'

•.•

L

叫

i
e
~1 l
:
l
I
M~1f
1
f
U
tt~ m
rw~nr ~1 l
H
i
tM H~ tI 1
i
'
:一
、ミ 一
TF 一
g

'

11

"

93'
,
.
; :
}
5

払

S1 ~2

I~
200

00

200

3

。
~O

500

"
0

0

宅

R

4

。
吋二

・
、 ,
占
・t . ー ..一 z

••

11
‑(
,
ヂ

]
f1
;
1h

日
U

︾

一

抗

t
ミ

. ー 一

;00

的H官

凶,

00

000

s
o
o

4
i

4AMU

ぃ出川凶一

MMMlUM

phH同H U

a

3jな祖辺司 寸ペ I M ‑ ‑ J晶 7
ず
︑
屯
一 44ψ 戸 ρ九
d
d

viJ

!;

{W同

q 同日
ユ

﹀
﹀
﹀

一
J
f
J
f
; iiι(︑一zjjiiEH
E ︑句i .︑J

F:
匂φ
ム 伊嗣.ツj
;
F
陀て
︑︾↑

3
S

=tpJべ・詞岱﹀ ErEth‑‑LE 引

一

7

3
8

MHHHMM阿MMMMMMHHHHUd3

ヲ

ユ 2ヒ
4
守1
111113Ji1t11

"

G 先天異常
今

初切協同町四炉

‑:︒

一

一

3

一︐︒円引刊

・
み

一

000000C
CDODO
20
コモ司こ

市F

900

,
.,
.10

,
. 97 98

一・ー当該疾患酔平均在院 U:
1

ベト病院全体の平均在院口敏

区i
1 疾忠群別退院忠者数と平均在院日数の年次推移

c.:

。寸~ ‑

phu

nγd

qJ

368.

「 肝 胆 梓 疾 患 ( 新 生 物 を 除 く )J患 者 を 図 1Dに 示 す 。 退 院 忠 者 数 は 年 間 5 4 6人 か 3 6人へ, 2 0年 間 で や や 減 少 し た 。 平 均 在 院 日 数 は 1 9 7 9年 の 38.4 日から 1 9 8 3 ら5 年の 4 7.8日 を ピ ー ク に , 以 後 は 下 降 傾 向 が 続 き , 1 9 9 8年 に は 2 7 .1日 と な り , ピ ー ク値より 2 0.7日減少した。 9 7 9 「 循 環 器 系 疾 患 ( 脳 血 管 疾 患 を 除 く )J患 者 を 図 1Eに 示 す 。 退 院 患 者 数 は 1 年の 7 3 0人から,徐々に上昇し, 1 9 9 8年には1, 3 2 5人となり, 2 0年間で1.8倍 に 明 加した。平均在院日数は 1 9 7 9年 の 2 9 . 6日から 1 9 9 8年 の 1 7 . 4 日へと,小波状を.h'l i き2 0年 間 で 1 2 . 2日減少した。 9 7 9年 の 9 2 7人 か ら 徐 々 に 上 外 , 「 眼 疾 患 」 患 者 を 図 1Fに 示 す 。 退 院 忠 者 数 は 1 1 9 9 8年には1, 2 6 7人となり, 2 0年間で1.4倍に W IJ J I Iし た 。 平 均 在 院 日 数 は 1 9 7 9t : j 三 の 1 7 .11 Iから, 1 9 9 8年 の 1 3 .1日へ 2 0年 I H Jで 4L I減少し, 2週 間 以 内 に 収 め ら れ た。 「 先 天 異 常 」 患 者 を 凶 1Gに示す。退院患者数は年11¥] 8 0 0前 後 で 横 ば い だ が , 干 均在院日数は 1 9 7 9年 の 31 .1日から 1 9 9 8年 の 2 0 . 9 1へ と , 波 状 を 描 き 2 0年 U J ¥で 1 0 . 2日減少した。 最後に, I 精干r j障 害 」 忠 者 を 区11 H に 示 す 。 退 院 ' : 1 ¥~-数は,本院では年 U日 172 人か ら2 1 8人へ, 2 0年I I ¥Jでやや増加 l した。平均在院 H数は 8 0年 代 末 は 7 0E If iで 1 9 9 8年 に は 4 61 Iとなり 1 9 8 0年 の 9 9 日をピークに, ピーク他より 5 3 日減少した。 3 . 考察 本 研 究 の 結 果 に よ り .J大 学 病 院 の 1 9 7 9年 か ら 1 9 9 8年 ま で の 2 0年間の平均千五│完 .5日から 21 .31へ , 33.4%短縮した。 厚 生 省 の 統 計 に よ る と , 全 い ! の [ i i J 日数は 31 時朋の平均在院 F I数 は 38.3F l 10)から 31 .5I J 111へ, 17.4%短縮した。 J大 学 病 院 の 0年 間 の 短 縮 率 も 平 均 在 院 日 数 は 全 │ 司 平 均 よ り 短 く , お よ そ 3分 の 2で あ り , こ の 2 約 2倍 で あ る 。 ま た , 谷 口 ら の 報 告 121 によると,ある地域基幹病院の 1 9 8 2年 か ら 1 9 9 5年 ま で 1 4年 I I Jの平均在院日数は, 31 .6日から 2 5 . 4日へと 20%短縮しており, J大 学 病 院 の 値 に 近 似 し て い る 。 疾患群別平均在院日数の年次推移は,病院全体の平均在院日数にどのような影響 を与えているか,は興味深い検討刈象である。今1 6 1は I C Dに 基 づ く 代 表 的 な 8疾 忠 J 巧 勺 ︑d

369.

群を抽出し, 表 2 と図 lに 示 し た 。 原 発 性 悪 性 新 生 物 と 精 神 障 害 の 平 均 在 院 日 数 は 病院全体の平均在院日数より長く 一貫して病院全体線より上で推移している ( 図 6Aと H )。良性新生物, 胃 腸 疾 患 , 眼 疾 患 の 平 均 在 院 日 数 は 病 院 全 体 の 平 均 在 院 日 数より短く, 一 貫 し て 病 院 全 体 線 よ り 下 で 推 移 し て い る ( 図 6B ,Cと F )。肝胆騨疾 患の平均在院日数は病院全体の平均在院日数よりやや長いが, 回帰直線の勾配が病 院全体線よりやや急である ( 図 6D )。 循 環 器 系 疾 患 の 平 均 在 院 日 数 は 病 院 全 体 の 平 均在院日数よりやや短く 病院全体線と接近・並行している ( )。 先 天 異 常 の 図 6E 平均在院日数は病院全体線と交差を繰り返しているが, 病 院 全 体 様 よ り 回 帰 直 娘 の 勾配が報い。 1 .8 0 1 .6 0 病院全体線 y = O .6 0xJ2 6 .9 1 .2 0 1 .0 0 V" ", 0/, 物 生 性 良性新生物 悪 循環三 0 . 6 0 刊新 ︒ 0 . 8 0 4 S ﹄ ・ 222Z22iz‑‑ 語=出一柑R H r (担工おき足 Z S葉樹幅七百 (b 1 .4 0 0 . 4 0 。先天異常 0 . 2 0 0 . 0 0 0 1 0 2 0 3 0 4 0 5 0 6 0 7 0 8 0 平均在院日数(日) 図2 2 0年間の疾患群別平均在院日数とその回帰直純の勾配との関係 各疾患群の平均在院日数は, すべて経年的に減少傾向にあるが, そ の 程 度 (回帰 直線の勾配)は疾患群により異なる。そこで, 2 0年 間 の 平 均 在 院 日 数 を 横 (x )軸 そ の 回 帰 直 線 の 勾 配 の 絶 対 値 を 縦 (y )刺lに取った図上に, 8疾 患 群 と 病 院 全 体 の 値 を プ ロ ッ ト し た も の が 図 2に示す。図の原点 ( 0,0 . 0 0 )と 病 院 全 体 の 点 ( 2 6 . 9, y = 0 . 6 0 x / 2 6 . 9 ) と各疾患群の点(白 0 . 6 0, 黒丸) を結ぶ直線を延長し, この直純 ( ‑378

370.

丸 ) の 位 置 関 係 を , こ の 械 と の 縦 (y )取h 距離を求めて定量化した。良性新生物, 循 環 器 系 疾 患 , 肝 胆 疾 患 ( 新 生 物 を 除 く ) は 病 院 全 体 線 よ り 上 に , !I良疾患,胃腸疾 患 ( 新 生 物 を 除 く ), 先 天 異 常 , 原 発 性 悪 性 新 生 物 , 精 神 障 害 は 病 院 全 体 線 よ り 下 に 0年 間 , 病 院 全 体 の 平 均 よ り も 下 降 推 移 に 貢 献 し た こ ある。上にあることは,この 2 と を 意 味 し , 下 に あ る こ と は , そ の 逆 を 意 味 す る 。 こ の 8疾 患 群 の 中 で , 患 者 数 が 最 も 多 く 平 均 在 院 日 数 が 病 院 全 体 の 2倍 近 く 長 い 原 発 性 悪 性 新 生 物 に お い て , こ の 直線から下向きの距離が最も長い ( s =. o49)。 す な わ ち , 原 発 性 悪 性 新 生 物 が 病 院 全体の平均在院日数の短縮を妨げる方向に作用していることが分かった。 今回の自験報告と同様な解析を試みた先行論文はほとんど見当たらなし、。若杉ら )によると,新潟市民病院の 1 9 7 9年から 1 9 8 9年 ま で の 1 1年 間 の ( 今 回 の 報 告 の 1 3 前半 1 0年 に 相 当 す る )ICO大 分 類 疾 患 群 別 平 均 在 院 日 数 の 推 移 は , 3型に分けられ, 新生物などで緩やかな短縮傾向,精神障害などで著しい短縮傾向が認められ,循環 器系・消化器系疾患・先天異常などでは明らかな短縮傾向が認められなかった,と , O E C OH e a lt hOata' 9 8と医掠施設調査より算出して, している。また,濃沼 1.1) は 1 9 8 0年から 1 9 9 6年 ま で の 1 7年 間 で , 本 邦 全 体 の 疾 忠 群 別 平 均 在 院 日 数 の 年 次 推 移 ECO平 均 と 比 較 し て い る 。 そ れ に よ る と , 本 邦 で は , 循 環 器 疾 患 の 平 均 在 院 日 を O = ‑l .0 2 x t 8 8 .4 6,先天異常のそれは y =ー 0 . 4 2 x t 3 2 . 3 1, 精 神 障 害 の そ れ 数の回帰式は y = 0 . 5 9 x t 3 1 8 . 4 6である。これらの回帰式と J大 学 病 院 の 対 応 す る 疾 患 群 の 回 帰 式 はy (表 2 を 参 照 ) と を 比 較 す る と , 先 天 異 常 を 除 き J大 学 病 院 の 回 帰 式 が 遥 か に 下 方 に存在することが分かるが 全[ J q平 均 と の 単 純 な 比l i 誌は慎重を要する。 疾患群別の平均在院日数の推移を分析すれば,入院医療のより効率的な提供に関 する具体的な問題点を明らかにすることができるが,疾忠の重症度,合併症の有無, 治療法の差異などの要因を識別して行うことが今後の研究課題となろう。 4 . 結論 大学病院の疾患群別平均在院日数について,過去 2 0年 間 の 推 移 実 態 を 具 体 的 に 記 載 し た 報 告 は 見 当 た ら な い 。 今 回 の 分 析 で , 以 下 の 2点 を 指 摘 で き た 。 ① J大 学 病 院の平均在院日数は 各疾患群ともに減少傾向を示したが 疾患群の間で顕著な差 はなかった。②原発性悪性新生物疾患が,病院全体の平均在院の短縮を妨げる方向 叫 fd 門 nJ ︑ qυ

371.

に作用していた。 参考文献 1) 伊 藤 雅 治 :2 1世 紀 の 医 療 制 度 と 医 療 行 政 を 展 望 す る , 病 院 59( 12 ) . 1080‑1089. 2 0 0 0 . 完日数に関する一考察, Bull.lnst . 2)橋本修ニ,藤田利治,福宮和夫:退院患者の平均在 l P u b li c H巴a l t h . 44(3). 363‑371, 1 9 9 5 . 3)大道 久:在院日数の短縮と j 旦院計画一病床の有効利用と在院日数の管理 ,病院 4 9(4). 556‑560, 1 9 9 0 . 4)侮里良正:日・米・伊の 3病院における疾患日!j在院日数の検討,第 1 3回 医 療 情 報 学 連 合大会 1 3th ]CM , I 515‑518, 1 9 9 3 .S h iL . :P a ti 巴n t and hospital charact巴rIStlCS Associat巴dwithav巴 r a g巴 l 巴n gtho fs t a y . H巴althcar巴 manage r e v .,2 1 ( 2 ),46‑61, 1 9 9 6 . . : Casemanagement o fchronicventilatorpatient. R巴duceaverag巴 5) Yaksic] R .e t al length o f stay and c o s tb yh a l f . nursing case management. 1( 1 ) . 2 ‑ 1 0 . 1 9 9 6 . 6) 厚 生 統 計 協 会 ( 編 ) : 死 亡 診 断 書 ・ 死 産 証 明 書 ・ 出 生 証 明 書 の 書 き 方 疾病,傷 害および死因統計分類の概要・分類表,東京,厚生統計協会. 1 979. 7) 厚 生 統 計 協 会 ( 編 ) : 死 亡 診 断 書 ・ 出 生 証 明 書 ・ 死 産 証 明 書 東京,厚生統計協会, 記入マニュアル, 1995. 8) 病 院 医 療 評 価 研 究 会 編 ( 代 表 : 大 道 久 ) : 疾 患 別 在 院 日 数 デ ー タ プ y ク.医学書院, 1 9 8 9 . 9) 厚 生 統 計 協 会 : 国 民 衛 生 の 動 向 , 厚 生 の 指 標 4 1( 9 ) .4 7 6 . 1 9 9 4 . 1 1) 厚 生 統 計 協 会 : 国 民 衛 生 の 動 向 1 2) 谷 口 和 夫 , 門 野 敬 三 , 中 村 厚生の指標 4 7( 9 ) . 1 9 3 .2 0 0 0 . 博,他:地域基幹病院における平均在│注目数の検討, ! I1 崎 医 療 福 祉 学 会 誌 7( 1 ) . 145‑158, 1 9 9 7 . 1 3 ) 若 杉 美 恵 子 , 高 橋 雅 代 , 三 村 智 子 , 他 : 1CO‑9 大 分 類 疾 患 群 別 お よ び 疾 患 別 平 均 在 院 日 数 変 動 の 長 期 観 察 と そ の 分 析 , 診 療 録 管 理 5( 1 ) , 35‑43, 1993. 1 4 ) 濃沼信夫:医療のグローパル・スタンダード.会社ミクス,東京. 2 0 0 0 . ‑380一

372.

日本 S A Sユーザー会 (SUG I-~) ロジスティック回帰分析を用いた言語習得特性の分析 玉} I [大学 安問一雄 Logisticregressionanalysisoflanguageacquisitioncharacteristics AMMAKazuo TamagawaU n i v e r s i t y 要旨 JMP のロジスティック回帰分析が出力するパラメーターを利用し!多次元 尺度法を用いて反応聞のクラスター構造を近似的に同定した.その結果,到達度の低 い言語学習者は特異な構文解析方目告を持つことが確認された. キーワード: L o g i s t i cr e g r e s s i o n, c o n t i n g e n c yt u b l e,c l u s t e r ,l u n g u u g eu C Q u i s i t i o n 1 研究の目的と背景 日本人大学生の英語 1 2件上の困難点を明らかにするために,低能力者(到達度の低い学習者)がど のような t i %った方略で術文解析をする傾向があるのかを研究した.従来の研究からも低能力者は高能 ぃ!の研究で、はこれを衷付ける形で,低能)]者ー 力者とは拠った次元の吉祈能力を示すとされている.今 l には認知的な制約が大きいことを示した. 2 方法論 古典的な項目分析ではな1 1 1の灘易度はi:E答採により表される.しかしこれでは被験者の能力との関 係はわからないので, } ) I Ji 会実施された ι l ; f t能力テストの};先制を独立変数とし, . q jI Jに対する正 i t i反 応 を従属変数としてロジスティック回帰分析を行う.これにより任意の能力点における正誤fI1 t率を近似 することができる. 3 8 1ー

373.

今回の実験では多j 政選択式の文法テストを行った.被験者は 3ないし 4個の選択肢の中から文脈に文 法的にあうものを選ぴ本文を完成させることを求められた例えば時E 形式は次のようになっている ( l C v 2 A )R o c k y s h o r e s l h a l ̲ 一一一一 b e a c h e sa r ee v e n t l l a l l yd e s l r o y e db yt h es e a . A .d on o t B . l a c k C .n o D . w i t h o l l l 延べ 1 4問53選択肢の中からここでは次の 6選択肢に対する反応を考察する.すなわちこれら選択肢を多 肢選択形式において選択したかどうかが問題となる. ( 3 )! ' v en e v e rf o u n dl h er i c hk i n ds il ol h ep O O I ( 6 )¥ V h 立t i sab a b yc a tl i k e ? "M i l k . " 乃 ( Fmt h eI l la nc r i e c lw a ss l l r p r i s i n g θ )Rockys h o r e sl h汎 n ob e a c h e sa r ee ¥ ' e n l l l a l l yd e s l r o y e db yl h es e a . ( 1 2 )Wew en Ll Ot h el a k el Os w i l l ll 1 li n g i l lc a m ed o w n s t a i r st os e el h eg i r l s . ( 16 )Whenl h eg i r l sa r r i v e c lB 通常 2項目の独立性の検定はカイ二乗による分割表分析を行う.例えば上記選択肢のうち ( 3 ) と ( 9 ) の関係は JMPのモザイクフロットにより図示される. 1 .0 0 0 . 7 う ヨ │0ぅ o d E ハU ハU ハU n Y 回 刷 20 これは被験者全体を対象にしているので,被験者の能力による 2項目の関連性への影響は不明である. 3 8 2

374.

つぎに 2項目を組み合わせ 4通りの正誤反応の確率をロジスティック回帰により求める. これにより能 力の低い学習者においては 2項目の関連性が高いことがわかる l .0 0 ハ U U 戸︑ノハ 71q ‑E‑‑ ‑‑EEE‑ I A[nn] E ・ 9 ) │ C h o i c e1 :( 3 ) ;C h o i c e2 :( 0 . 5 ー ‑‑li‑‑E ・E・‑‑E‑ ・ ・ 圃 ・・ E ‑‑E ・ u 日 nU n u . 1 .5 EE‑‑EEE EEEE E ノ 刊由UTUF‑UETH由U 5 5 ハ U 0 . 2う 。 lう フ 2 A b i l i t y Parameter Estimates StdError ζhiSquare Prob>ζhiSq 2 . 3 7 3 0 7 2 0 6 0 . 6 0 6 1 0 2 1 6 4 2 . 2 3 6 1 6ぅ 0 . 3 3 1 2 2 4 4 6 0 . 3 8 9 1 2 0 9 0 . 6 2 8 3 7 1う 0 . 3 9 0 4う0 6 0 . 6 3 1う6 7 9 4 9 6 3 8 0う1 0 . 8 3 3 4 2 0 9 3 7 . 1 9 0 . 9 3 3 2 . 8 0 0 . 2 8 < . 0 0 0 1 A b i l i t y I n l e r c e p l A b i l i l y I n t e r c e p t A b i l i t y 0 . 0 3 2 9 6 7 7う ー0 . 7 7 3 6 2 4 3 ハ U ハ U Estimate I n t e r c e p t ∞凶 Term . 3 3 4 8 0 < . 0 0 0 1 0ω00 0 . 9 4 9 0 3 0 . 3う3 a l l( 1 9 9 6 ) これにより能力点を独立変数としたときの 2項目の関連性を算出する必要が生ずる. この際 S s o , :I n t e r c叩 t ;s, , :A b i l i t y ) の教示による方程式を用いてパラメーターから確率値を計算する. ( c x p ( 凡 +βバ ) P i= 1+叫 ( s +β】ダ)+叫伊,, +β1F)++叫 ( s o . . ) ,+ β~,.,)x O l ( i=1 ,2, … ,r ‑ l ) こうして任意の能力点における 4通りの確率がわかるので, これらを頻度と見なして 2項目間の独立性 を検定する.サンプルサイズに依存しないように φ係数を用い, これを 2項目問の心理学的距離の指標 とする. o g i t 346人を被験者として行われた試行実験では,例文明と(り) (いずれも誤文) の φ 係数は .2.0~0.O l . 3 2 5からー0 . 0 0 5に落ちており,低能力集団ほどこれら 2 刺激を同様の方略で処理している可能性 の間で 0 が示唆される. 383‑

375.

response pa~r ‑2.0 ‑1.5 ‑1.0 0.0 ‑0.5 (9) 0.3251 0.2357 0.1255 0.0405 ‑0.0045 (3) ー (7) 0.1891 0.2092 0.2130 0.2021 0.1809 (3)ー (3)ー (6) 0.4700 0.4106 0.3367 0.2543 0.1700 (6) ー (12) 0.4290 0.4375 0.3690 0.2055 0.0239 (12) ー (16) 0.1566 0.2142 0.1494 ‑0.0472 ‑0.1246 0. 5000 0. 4000 0. 3000 0.2000 巳4 0.1000 n u n u n u n u n u ‑ 0 . 1 0 0 0 ‑ 0 . 2 0 0 0 n u n u 1 .2 ‑ 1 .0 ‑ 0 . 8‑ 0 . 6 ‑ 0. 4‑ 0 . 2 ‑ 2 . 0‑ 1 .8 1 .6 ‑ 1 .4 自 0 . 2 .0 . 8 1 0 . 6 0 A b i l i t y 一。一 ( 3 )ー( 6 ) ー ‑‑(3)(7) ー 一合一(ス)ー ( 9 ) i 没後に φ係数に適切な処理を施した値を距離指標として,多次元尺度法により能力点ごとの項目の クラスターを求める. クラスターを構成する項目の内容から, 能力の低い学習者には次の共通の特徴 があることが推測される. ( 1 ) 文全体を読まず,部分的に成り立つ釘jもしくは句があればそこで、読解を終了させる. θ ) 文の統語的情報ではなく,それを構成する請の意味による論理的関係により文全体の意味を理解す る. σ )単純な構造を好み,被全E iな桃文は回避する. 3 . 結論と考察 低能力者に対しては認知的f!l I J約(ワーキングメモリ一等) の大きい項目ほどクラスターが集結し, 文首jの長さや統語構造の按雑さが理解を困難にしていることが判明した. このことは認知容毘を噌加 させる訓練をすることにより言語発注が促進される可能性を1f ' ¥ t 示している. その一方,多次元尺度法の距離指標を求めるための合理的な変換方法をさらに検討する必要がある. ‑384

376.

日本 S A Sユ ー ザ ー 会 (SUG I‑J) 看護師募集のためのマーケテイング・リサーチ 学生が望む病院、学生に望まれるであろう病院 0田久浩志*、林俊克料、小島直矢*件、平野広隆材料 *中部学院大学、料株式会社資生堂リサーチセンター、 ***独立行政法人建築研究所、料料株式会社アーキテクト M a r k e t i n gR e s e a r c hf o rN u r s eR e c r u i t i n g TakyuH i r o s h i * .HayashiTo s h i k a t s u * * .KojimaTakaya***.HiranoHirotaka**** *ChubuG a k u i nU n i v e r s i t y .* * S h i s e i d oCompany.L im i t e d * * * B u i l d i n gResearchI n s t i t u t巴. * * * * A r c h i t e c tCompany.L i m i t e d 要 旨 医療費削減の流れの中、各病院で、は優秀な看護師の確保が死活問題となっている。しかし、 病院側が考える「学生が望む病院」と学生が考える「学生が望む病院」が同じとしづ保証はない c そこで、 看護学生と看護師に半自由記載のアンケート調査を行い、回答のテキストより意識の恭離を抽出した。 その結果、看護学生側は病院の設備、給与を重視すると考えるが、看護師側は職場環境の良さ、働き やすさ、教育体制の整備を重視することが明らかとなった。本報告では回答文章より意識の君離の抽出 を行う場合の JMPの有用性について報告する c キーワード: テキストマイニング、看護師募集、 j ¥ ! I P 4 . 0 . 5 j 1 .はじめに 高齢社会を迎え圃民医療費の増加、適切な医療サーヒ。スの提供は大きな問題となっている。しかし、 看護師養成所、専門学校、短期大学、大学を卒業して病院に入職する看護師が短期間で離職する例 もめだっ。病院側が考える看護学生の病院選択基準と、看護学生側のそれが異なれば優秀な看護師 の確保はできず、かつ看護師の早期離職につながる危険がある。そこで、自治体立病院の附属看護 学校の学生と、病棟看護師に半自由記載のアンケー卜調査を行い、就職に対する意識の君離の抽出 を試みた。 2 .対象と方法 対象としたのは自治体立病院(約 5 0 0床)の内科病棟 ( 4 0床)の看護師、および附属看護学校の卒業 年次学生である。看護学生には、就職先決定の有無と共に「理想の病院とは」、「実際に決めた病院と を調査し は」を、病棟看護師には、入職後の年数、「看護学生が就職するにあたり考慮する項目とは J なのでムムだから口口である、つまり、 A→ B→ C た。完全な自由文の回答の解析は困難なので、 0 0 と因果関係を明確にした自己記入式アンケートを用いて調査した。最終的に病棟看護師 25 人、看護 6人よりアンケー卜を回収した c 回答の一例を以下に示す。 学生 1 ‑ 3 8 : >ー

377.

看護学生が理想とする病院、あるいは将来働きたい病院とは 「スタッフが親切な」ので「コミュニケーションが良しリから「働きやすい」 学生 実際に自分が就職先として決めた病院とは 「実習先だった」ので「雰囲気を知っている」から「決めた」 看護師 看護学生が選ぶであろう(働きたいと思う)病院とは 「設備が新しい」ので「緒麗だ」から「働きたい」 テキストの解析手順を以下に示す。 前処理:し W 、加減な回答や無関係な回答を除去。おかしな日本語の言葉遣いを修正する。 . 2 . 7J1)を用いて、日本語文章を形態素(名詞、動詞、形容詞等)に 2 . 形態素解析システム「茶尭 2 x c e lに取り込み、助詞、助動詞などを除去し、カテゴリワードを抽出する。 分解する。結果を一度 E その後、各個人の回答ごとにカテゴリワードを横に結合する。 のでムムから口口である、つまり、 A→ B→ C の形式をとっているため、便宜的に 3 . 回答が、 00 A, BとB, C部分をあわせて「理由 jと「結果」のカテゴリワードを作成する。 M P 4 . 0 . 5 ]に「理由 jと「結果 jを取り込みパレート図と一変量のグ、ラフで‑ヵテゴ リワードの頻度と相 4 . ] 互関係を検討する。 3 .結果 今回は、就職先の病院を選んだかを調査しているので、看護師と学生の「理由 j部分のパレート図を 求めた。看護学生が決めた理由で、複数個存在したものは 9種類で あったのに、看護師の考えた理由 2種類あったo 学生側は収入の多さ、通勤の楽さを選ぶのに対して、看護師側は、職場環境が良い、 は1 働きやすい、教育環境の整備を選んでいた。 70 60 60 50 50 S 4 0 9 4 0 30 J 3 0 20 2 0 10 10 ム ‑ ' ‑ J pmL﹀ト A 即時蜘加減 町 A二 ωZQbMM酎同 信 使m w惇 命恥山 Lド山申出司t m w揮 町 A 二制点 二回出町佃叫 ニ初 lyヤmh A町 ﹄ PMmuh ム UR 同骨反 町 A二 JM似 PJA hHU 初 uh 山町且ぼ QY朴 艇 凶 定 限 叩母 uRV Mmuh 畑彰忠則昨 鑑定 一来山間}菰照 ρ立以 A町﹄い一語}﹀吋 出探知 Mm 二 回N m 煙)制幅臣認 二軒♀初量 密 保 r J宗 J 門V h A叩﹄叩 L ド山忠明副総蜘偲 T £E FJ EM師榊︐償問 岡山蓋搭朴 a 叩心止血州制 A 町 A 村剤耐 即 A 時コ υ]Z ド寄 而叫和司咽‑ FJ A叩﹄叩 L A叩 ﹄ 別 わ け ﹁ [ 也 余 回 時二﹂川開似川町昨‑ h 舵g q 一長岡千市岡ぱ 凶主祭 FJ 山mE 組側 rJ 眼目併刈哨 円U 図 2 看護師が考える「決めた理由」 図 1 看護学生が考える「決めた理由」 次に ]MPの一変量のグラフを用し、「結果」部分で 良い、働きやすい、選ぶ、決める、うれしい、頑張 る、楽しい"など病院を決定すると考えられるカテゴリワードを選択した。それによる「理由」部分のハイラ イトを参照し「理由」と「結果 jの関係を求めた(図 3,4)。 ‑386

378.

良い 特有疾患患者いる 羨ましがる 専門分野看護でぎ 専門的勉強できる 信頼ある 1 寺来安定しいる 収入安定しいる 親戚喜ぶ 社会サ果障しいる 実習慣れ 自分向上できる 守られいる 話料良い 休みとれる 気汚ちよく f l ! J j " る 嬉しい 癌看護勉強できる 慣れい 楽しみ 53 決めた 公蒋員 家通える 安定している 安心 一帯病病 知ついる 体が楽 日大‑大盲畜 一 一 がんl まる お金貯める NICUある わ力、りやすい なじみやすい uuu ボ 良 ︑ る 性 ほ 強 門 b あ まz‑ μ α 軍基ZM 2211芸量一i公覇 選んだ 1 品剛院で 引 円子ホ門門ちj出成頼来入会習習分交務的物務育料み搾有着患れ特道主主 一連篤棟 車 C rS H 4 働ぎ易い 通勤便利 朝できる てるる﹀る ‑mLF 守るるるる︑問マ 忽︽ 毛 て を ‑ ︑ ︑ ︑ 禽 和似て ‑L ‑気患院鴇限る 一宮一室︑利いるる属制繍 鋒れト痢襲劃甲山町よ病勉専属るめ抗一 一盟諸露骨慢しきパ病﹀的的制一韮霊友重荷向岱闘病絡体鉱山民主謀者い附一えい肝一 友達 病棟雰図気知って 図 3 看護学生の理由と結果 や N つ る pj る f m m m H H ; なでし厚相事内やみいいす慢来づら也教すし分霊的主連で集高的関感心い日間 3 8 7 いる和紙附い部ー乙 乱即時る す S るきや主図困容す気くる申きれ記育るや宮つ日実{疋あきまい成係妨す麗 錆話良理有勉勉勉福病病病猷紘臥臥飢倒通過長朝多車選選選幕投荷主生清成人人人入車親親心髄 麗しい想名強強強利擁院院きき︑︑︑産動動つ寝く後択択ぶ門繍神活古目黒長材気問問く近安強場 図4 看護師の理由と結果

379.

4 .考察 4 ‑1.看護師募集について 対象病院は自治体立病院で入職と同時に公務員となる c また、主に成人病を対象としているため、 専門的知識や最新の医療が学べるはずである。しかし、学生の就職先決定時には公務員関連:(公務 員、給料良い、公的病院)、通勤関係:(家近い、通勤便利、朝寝できる)、など極めて実利的理由で選 択をしていた。それに対して看護師側は、職場環境の良さ、働きやすさ、教育体制の整備などの点を 強調していた。看護師側の考えは中途採用者にはアピールできるであろうが、就業前の看護学生には 効果が薄いと考えられる。そのため、看護師募集活動には、宿舎を整備して通勤に便利な点を強調す る、入職すると公務員になれる、などを強調するのが効果があると言えよう。しかしながら、人間関係のト ラブルによる離職者を低減させるためにも、人間関係が如何に職場で重要であるかを学生に早期に理 解させる方策も必要である。そのため、入職直後の職員研修で新規採用者(元看護学生)に人間関係 論に重点をおいて研修する必要もあるであろう c 4‑2.JMPでテキストの解析を行う意義 優秀なマーケティングリサーチャーは、回収したアンケート用紙をみただけで、潜まれているデータの 傾向を読み取れるであろう。しかし、一般的には大量の自由回答文から回答者の考えの傾向を整理し て読むとるのは困難である。手作業でテキストを解析する K J法も、回答が大量になるとテキストを統一し た基準でまとめるのは困難であり莫大な手聞がかかる。また、カテゴリワードを求め Excelで頻度を求め ても、品詞聞の相互関係がわからない欠点がある c JMPは同じデータテープ、ルを表すすべてのグラフとプロットは互いにリンクし、対応するデータテーブ の関係をインタラクティブに解析でき、単なる集計作業 ルともリンクしている。そのため、「原因」と「結果 J 以上の情報を入手できる利点がある。しかし、カテゴリワードの上位概念、下位概念の解析まではでき D1 O N I S O S : : ‑5)などのテキストマイニング¥ンステムを用いる必 ない。そのような解析はより高度な VACAS, 要がある。 4 ‑ 3 .調査法について なのでムムだから口口である"の形式を用いた。しかし、看護学生に 今回のアンケート用紙は 0 0 自由に回答文を書かせると、質問と関係ない内容、指定した形式以外の文章を記述するものが続出し た。従って、今後このような調査をすすめるには「結果」の部分に最初から 病院を選んだ"、 働くのがう れしし♂、などの言葉を指定する必要がある。 4 ‑ 4 . 本研究の応用について 今回は、病院と附属看護学校の両者に調査を行ったが、附属養成施設をもたない病院では応用で きない c 類似の調査を行うには、新入職員と看護師を対象にすれば良い。その際に、勤務先に対する 意見も調査すれば一種の職務満足度の解析も可能となる。 5 .まとめ 看護師募集マーケティング1 こJMPと茶尭による簡便なテキストマイニングを用いる例を示し、病院の 看護師の認識と、看護学生の認識の違いを指摘した。予算の制約の多い医療現場では高度なテキスト マイニングを用いるのも困難なため、今回のような簡便なシステムでも、看護師募集マーケティング、、に有 用であることを示した。 参考資料 URしはすべて 2002/5/20アクセス 1 )形態素解析システム茶室, h t t p : / / c h a s e n . a i s t ‑ n a r a . a c . j p / i n d e x . h t m. lj a 2 )消費者ニーズ・トレンドの把握技術 顧客価値調査手法の開発・活用事例 h t tロ : // w w w . i o h o k i k o . c o . i o / s巴mdoc/0202cos/ AA020223.htm 3 ) 林俊克,ワインの顧客価値調査、魅力工学の実践朝野照彦編、 p 8ト 1 0 0, 2 0 0 1 4 )林俊克, VACAS・ DIONISOS(こよるテキストマイニング ファンデーションの開発事例 第 25回多変量解析 シンポジウム発表要旨集 5 )連続Webレクチャー VO L.3Jここまで進んでいる!テキストマイニング活用最前線~ h t t p : / / w w w . w e b d b m . I O / 388‑

380.

日本 SASユ ー ザ ー 会 (SUGI-~) 選好回帰による歯磨き粉の最適コンセプトの探索 0河 原 達 也 松 下 一 倍 、 大 津 留 彩 沼 田 宏 美 東京都立大学経済学部 Conceptg e n e r a t i o no ft o o t h p a s t ev i ap r e f e r e n c emapping AyaOhtsuru,HiromiNumata TatsuyaKawahara,KazunoriMatsusita, Facultyo fEconomics,TokyoMetropolitanU n i v e r s i t y 要旨 本研究では若年女性向けの歯磨き粉のコンセプト開発を目的にしてコレスポンデン ス分析、選好回帰、クラスター分析を行い、最適コンセフトの探索を試みた。さらに提 案製品のポジショニングと、そのターゲットを明らかにした。以下コンセプト開発に用 いたレパートリー・グリッド法の実施結果を報告し、選好回帰の方法とコレスポンデン ス分析のプログラムを紹介する。 キーワード: レパートリー・グリッド法、選好回帰、 SAS/IML、SAS/STAT 1 . レパートリー・グリッド法の結果 レパートリー・グリッド法とは K e l l y( 1 9 5 5 ) が開発した方法論で、人間の認知空間 内の対象を比較させながら認知構造を明らかにしようとする面接手法である。我々は学 生 8人を個別面接して既存の歯磨き粉を一対比較させ、似ているところと違っていると ころを聞いた。 e l a t i o nを明らかにするためにラ 次に、こうして得られた評価項目聞の means‑endr ダリングを行った。これは製品を識別する手がかりを製品属性から、ベネフィット、価 値へと遡っていくことによって、その製品を選ぶ潜在的理由を明らかにしようとする手 法である。 Gutman(1982)によれば、ブランドや商品の属性が何らかのベネフィットを 実現するための手段となり、それがさらに消費者の価値観を実現するための手段として 1 9 8 6 )の提唱による評価グリッド法 連鎖を持っているとされる。本研究では、讃井・乾 ( を用いた。この種のラダリングの諸手法に関しては丸岡 ( 1 9 9 8 )による展望がある。ま ー 389‑

381.

た、レパートリー・グリッド法の適用事例に関しては B e a i l ( 1 9 8 5 )による紹介がある。 今回の研究で得られたラダリングチャートを ReynoldsandGutman( 1 9 8 8 )の手法に 従って図 lに示す。図 lから既存品との差別化可能で、しかも消費者にとって重要な価 値観につながる効能を選択して表 1の質問文を作成した。 から取り入れられる いたくなる いい息持続 6 どこでも磨ける 1 0 図 1ラダリングチャート 注)図 1 の *a~*e は質問の新製品案に対応し、番号は同じ質問の効能変数 1~12 に 対応する。 ‑390‑

382.

表 l コレスポンデンス分析に用いた質問 0種類あげます。⑥から⑬は新製品のアイデアです。それぞれの歯磨き 問 歯磨き粉を 1 粉について、「効果がある」と思われる項目すべてに Oをつけてください。 2 3 4 D 6 7 8 9 10 1 1 便 タ 歩 1 良 分 秘 、 /f き 精 子 、 治 コ な 疲 勺 歯 虫 歯 歯 爽 L、 ダ を 歯 垢 周 快 、 し 白 ナ と : を 病 く 予 除 ナ ピ な カt ツ 効 の が 労 な す 防 去 予 る 持 ト 果 ヤ t っ が L、 る す す I 坊 あ t る る す す 効 あ カI } 鷲 れ 士 官 る る 果 る 手 存 き る 勺 、 治 と が な あ せ で L、 る る き イ } l O 三I 、エ t 上 [ e が る ① PCクリニカ ②デンターライオン ③クリアクリーン ④ガムデンタル ⑤W hite&W h i t eプライム ⑥ダイエット歯磨き粉 *a ⑦使在、解消歯磨き粉 *b ⑧ヤニ落とし歯磨き粉 *c ⑨使用中に固まる歯磨き粉 *d ⑩自に効く歯磨き粉 *e 3 9 1ー

383.

2 . 新製品コンセプトの開発調査 調査方法 調査実施期間:2001 年 11 月 ~2001 年 12 月 調査対象:都内と近郊に居住する 18~23 歳の未婚女性(1 31 サンプル) 調査方法:自記式質問紙を用いた個別調査(注 1 ) 調査項目:表 1の歯磨き粉に対する効能評価、表 1の各歯磨き粉への購入意向 (Mohn( 1 9 8 9 )のチップゲームによる)、歯磨き粉の利用頻度 分析計画: 1 ) 表 1 による頻度行列をコレスボンデンス分析にかけ新製品と既存製品 をプロダクトマップ上にプロット 2 ) 選好回帰によって消費者の選好ベクトルを推定 3 ) クラスター分析による有望なターゲットセグメントの発見 4 ) 新製品の市場性評価 3 . 分析結果 3.1 コレスポンデンス分析 S A S / I M L (注 2 )を用いて新製品と主要既存製品の製品スコアと効能スコアを導出し、 効能と製品をそれぞれ図 2,3の散布図にプロットした。 …一一附 一一一…一一一一寸 P 急 ダ 刊 生2 2 M L 也垢除去 i l i O0 ‑ a いい患が陽線する 多きたよがら曲が庖ける 自が自"よる 3 0 0 品輸ぎ;~!rなる弘一 .~ ~- lail • 自に効〈 l 一一一一一 一一一」 図 3製品スコアの散布図 図 2効能スコアの散布図 3.2 選好回帰 国 3の 10種類の製品の座標データを説明変数 X とし、各歯磨き粉の購入意向の頻 3 9 2

384.

度を基準変数 yとして C a r r o l l ( 1 9 7 2 )が提案した選好回帰を行った。iIIiJ[ 1( 1 9 9 7 )に従っ て線形期待値構造モデルを書き表せば下記の通り。 Yj=μj +Xb j j+E Y j 消費者 iのチップゲームの測定値 切片 μ E j :残差 0種類の製 I 日 は ら = 仇 1 Xkc) という平副上の点で表される。各消費 として考えると、 1 者の基準変数データはこの平岡上の原点から偏回帰係数久=仏 I, b t 2 )の方向を持ったベ クトルへの射影によって予測される。それを図示すれば図 4の通り。 選好回帰の計算例 Y=タ+Xbに 1人の回答結果を代入して計算してみよう。 X はコレスポンデンス分 析によって得られたサンプルスコア行列を平均偏差化したもの、 bは選好回帰によって 。 。 推定されたパラメータである。 0 . 2 5 8 ‑0 . 258 ‑0 . 0 1 3 ‑0 . 0 0 1 0 . 2 4 8 0 . 7 5 2 ‑0 . 0 1 3 ‑0 . 0 0 1 0 . 2 2 8 ‑0 . 2 2 8 ‑0 . 0 1 3 ‑0 . 0 0 1 0 . 2 9 2 0 . 7 0 8 ‑0 . 0 1 2 0 . 0 0 1 0 . 0 1 3 0 . 0 0 1 0 . 0 2 2 0 . 0 2 8 0 . 0 2 2 0 . 0 2 4 0 . 2 2 8 o Y= Y= I v= . 484 3 5 。 。 2 e= ‑0 . 2 2 8 1 . 51 6 X= ‑ 1 . 32 1 3 . 3 2 1 . 0 0 1 0 . 0 1 6 ‑0 0 . 0 6 3 0 . 0 6 3 [55147│ b= 4 5 . 0 4 8 1 . 143 1 ‑ 1 . 143 004 0. ‑0 . 0 0 1 0 . 7 3 4 l 0. 266 0 . 0 3 1 ‑0 . 0 4 4 この数値例での重相関係数は 0 . 8 3 5となった。 。 r; r2 . 0 4 0 X1 0 . 0 4 0 ‑ { ) ,0 20 ‑ { ) ,0 30 • ‑ < l ,040 。 忌 ‑ < > . 0 図 4選好回帰の図解 qtu qJ ny

385.

3.3 クラスター分析 選好回帰で求められた各対象者の選好ベクトルを対象者数 X2 次元の偏回帰係数行 列で表し、このデータ行列をクラスター分析した。まず、階層的方法で分析を行い、デ ンドログラム (dendrogram)を求めた。 datat r i a l ; i n f i l e' b e t a . d a t ' ; inputblb 2 ; r u n ; p r o cc l u s t e rd a t a = t r i a lmethod=average; varblb 2 ; p r o ct r e eh o r i z o n t a ls p a c e s = 2 ; r u n ; 得られたデンドログラムを視察して、クラスター数を 4つに決定した。その理由は 4 つにすることでクラスター聞の違いが明瞭に出来たからである。階層的方法では逐次分 割に従うため最適分割は保証されない。そこで次に非階層的方法で分析を行い、各サン プルを 4つのクラスターに分割した。 datasegment; i n f i l e' b e t a . d a t ワ inputblb2; r u n ; procp r i n t ; r u n ; p r o cf a s t c l u sdata=segmentmaxc=4maxiter=10o u t = c l u s ; varblb2; r u n ; p r o cp r i n td a t a = c l u s ; r u n ; ‑ー…ーん一一一一… . . 6 0 . . c , . ̲ ‑. 一 一一一一一一一一一一 6 0 ‑40 80 1 0 0 岨 111111L クラスター 3 図 5クラスターの位置関係 1 2 0 n︿d aAT QJ

386.

図 5は製品スコアのイメージマップ上に 4つのクラスターの位置関係を表したもので ある。ただし 各円は [ r C(]リクラスタ ‑gに属する対象者数 その半径をら =c cは任意の正の数)とすることで各クラスターのサイズを表している。 我々は第 2 クラスターが製 1 1 7 1マッフ上で既存品から遠く離れた位置にありながら規 模は全体の 12%を占めることから、このクラスターをターゲットに選んだ。このグル ープは「ダイエット」や「便秘解消」効果を求めている。主に歯磨き粉を「自分で選ん で買っている」という消配者特性を持つ。 3.4 市場性の予測 我々は若年女性向け歯謄き粉の新製品として、「ダイエット」と「便秘解消」の効果 がある歯磨き粉を提案することにした。 調査結果を用いて次の手続きで予測シェアを求めた。自分で選んで歯磨き粉を買って S S ) のデータに、 いる対象者集団 ( 1日に歯を磨く回数を掛けることによって個人別 に重みづけをし、さらに製品の選択確率を掛けることによって、ボリュームベースでの シェアを予測した。この選択確率はチッフゲームにより求めた。以上の予測には歯磨き 粉を「仙の人が選んで買ってくる人」と「全くこだわらない人」は含めていない。これ らのユーザーは歯磨き粉のシェアに対して与える影響力が少ないとみなしたためであ g J1の選択対象 10製品 る。シェアの計算式を具体的に示せば次の通り。消費者をし r に「その他の製品」を J J 1 1えた j , k二1, 2,…, 1 1 として ~Vi 尺 ト宮市;× 100 ・ ‑i ESS ( S e l fS e l e c t i o n )( i= 1 ,2 , 7 3 ) 但し、 S jは製 I T I T Ijのマーケット・シェア ~は消費者 i の l主tJ府き使用品ボリューム ~j は消費者 i が製 !?Ij を選択する確率 以上の計算から自分で、 l~~'r 燐き粉を選んで買う 18 歳から 23 歳の女性では「ダイエッ ト歯磨き粉」と「便秘解消樹脂ーき粉」を足し合わせれば約 16%のシェアが予測できる 8歳以ヒの女性の人口に占める比率が 1 0分の 1なので ことが分かる。この該当者が 1 市場全体でみたシェアは1.6%になる。 シェア計算の前提としている仮定は、次の 4点である。 1 ) ここでシェアといっているのは、ボリュームシェアであって金額シェアではない。 FD nud つd

387.

2 ) 1 8歳以上の女性が歯磨き粉のマーケット・シェアを決定する。 3) 我々の提案製品のユーザーは、 4 ) 18 歳 ~23 歳の女性に限られる。 r ダイエット」かつ「便秘解消」歯磨き粉の購入確率は、ダイエット歯磨きと便秘 解消歯磨きそれぞれの購入確率の和に等しい。 以上の仮定の中で、特に無理のある仮定は 2 ) であろう。もし男性も自分で歯磨き粉 を選択購買しているとしたら、新製品のシェアは1.6%よりも少なくなるとみなさなけ ) 以外の消費者も、提案製品を利用するとしたら、1.6%と ればならない。逆に、仮定 3 いう予測値は過少推定ということになる。即ち、我々の行った市場評価は、ニッチマー ケティング以上の言明は出来ない。 4. 討論 選好回帰を行う場合の入力データを予め平均偏差化することの影響と SAS/STATの r e g プロシジ、ャのオプションで定数項なし ( n o i n t ) を指定した場合の影響を簡単な数 値例で調べてみた。その結論として、 1 ) y もX も平均偏差化しておけば y切片のオプション指定の影響は受けない。 2 ) 原データ y を分析し定数項を出力した場合でも、それを Oとおいて無視すれ ば、全データを平均偏差化した場合の推定値に等しい。 本調査から得られた歯磨き粉市場における m a r k e t i n gi m p l i c a t i o nとして次の 2点を 指摘する。 ①歯磨き粉を「仙の人が選んで買っている人」と「自分で、選んで買っている人」との 選好には明確な違いがある。その違いは前者は既存の歯磨き粉で満足しているのに 対し、後者は既存品には満足しておらず新製品提案の余地がまだ残されていること にある。 ②コレスポンデンス分析から、既存品がそれぞれ異なる効能を持っているにも関わら ず、その違いが消費者には卜分識別されていないことが明らかになった。従って、 歯磨き粉の差別性を訴求するには、ネーミング、パッケージング、プロモーション 戦略も含めたマーケテイングミックスが必要であろう。 本研究の限界としては、 ①新製品を試用させていないため、l!It¥'入意向データは確定的な証拠とはいえない。 ②調査対象が 18~23 歳の未婚女性に限定されていたため、ニッチマーケット以外の 消費者層の反応については予測ができず、単なる推察にとどまった。 今後の研究課題として、 ①歯磨きの粉の製品化にあたって、 2 次的属性である味・泡立ち・色・匂い、及び価 ‑396‑

388.

格や容量、パッケージ・デザインなどの仕様設計をする必要がある。 ②若年女性から他のセグメントへの普及というダイナミックな過程を取り入れたシミ ュレーション研究を行う必要がある。 ③ 「便秘解消ダイエット歯磨き粉」を市場に出した場合の競合他社の反応行動や、長 W J的なシェア変動を分析できるような予測モデルを開発する必要がある。 注 1:本調査の実施は発表者 4名の{也、東京都立大学朝野ゼミナールの岩間由記、小笠 原昌彦、加藤賢、畑和之によって行われた。 注 2:以下にコレスポンデンス分析で用いた SAS/IMLプログラムを示す。特異値分解 9 8 3 ) を参考にした。 については、柳井・竹内(1 dataz ; inputi d$X1‑X12; cards; PC 9 51 79 61 55 39 1 DE 30 65 35 53 41 20 CL 54 50 69 29 73 49 GU 21 62 41 65 29 20 l 5 9 7 BE 5 9 4 YA 37 12 1 3 KA 9 0 1 1 1 ME 8 5 4 1 1 ワ 】 2 1 3 5 1 0 89 1 7 8 1 3 l 。 2 1 5 7 7 4 8 6 16 16 6 3 l 1 4 。。 。。 。。 。。 。。 。 。。 。。 。 。 。 。 。。。 100 i 【 3 5 7 W H 99 32 30 21 26 14 D I l 3 23 1 9 4 25 1 l 2 7 1 1 2 1 1 5 2 76 2 48 8 ; l 94 3 pl'OCp r i n t ; 1'un, p r o cim1; usez, reada 1 1var̲num̲i n t oz [co1name=v a r srowname=i d ]; l ' =diag(z[ , + ] ) ; c=diag(z[+, ] ) s=i n v (sq1't (r) ) ; c s=i n v (sq1't (c)) 1 ' x =1's Z c s 女 女 e s e tnoname; 1 ' ,v ,x) ; 1 s q=1##2; c a 1 1s v d (u,1 a=1's士 u d i a g (1); b=c s V 大 大 大 d i a g (1 ); ‑397

389.

p r i n t/l [f Ol'mat=1 0 . 3 colname="特異値,,] l s q [format=1 0 . 3 colnameニ"特異値の 2乗 ! ! ], r e s e tautoname : 3] ; a3=a[,2 p r i n t b3=b[,2 : 3]; a3[ colnameニ"サンプルスコア" format=1 0. 4 , ] b3[ colname="カテゴリースコア" format=1 0. 4 ] ; q u i t ; 引用文献 B e a i l, N.( 1 9 8 5 )R epertoryGrid距 c h n i ・ qu θ andR θ' r s o n a lC o n s t r u c t s ' ;CroomHelm. C a r r o l l, J . D . ( 1 9 7 2 )I n d i v i d u a ld i l l e r e n c θsa ndmu ] t idimθn s i o n a ls c a l i n , g InRoger ,N. Shepard, A . Kimball Romney , & Sara Beth Nerlove ( E d s . ) "MultidunensionalS c a l i n g ' ;Vol . 1 .NewY o r k :SeminarPress, 105・1 5 5 . Gutman, J( 1 9 8 2 ) A means‑end chain model based on consumer c a t e g ol'i z a t i o n ournal01 Marketin , g 46, 6 0 ‑ 7 2 . p r o c e s s e s,J K e l l y ,G. A .( 1 9 5 5 ) Thθ P sychology01 PersonalC o n s t r a c t s ' ;Vo1 .1&2 .W .W.Norton. 前川民一 ( 1 9 9 7 ) ISASによる多変量データ解析」東京大学出版会, 3 6 ‑ 4 6 . 丸岡吉人 ( 1 9 9 8 ) ラダリング法の現在:調査方法、分析手法、結果の活用と今後の課題.マ N o . 1・2, 40・ 61 . ーケテイング・サイエンスタ 7, Mohn, N . C . ( 1 9 8 9 ) Simulated Purchase ' c h i p 't e s t i n g. M a r k e t i n g and R e s e a r c h , 1 7, No4, 240・2 4 4 . Today Reynolds, T . J . and Gutman, J .( 1 9 8 8 ) Laddering theory ,method,a n a l y s i s,and t a i o n,J ournal01 A d v e r t i s i n gRθSθa r c h 、28,( 1 ) ,1 1 ‑ 31 . i n t e r pl'e 讃井純一郎・乾正雄 ( 1 9 8 6 )レパートリー・グリッド発展手法による住環境評価構造の 抽出:認知心理学に基づく住環境評価に関する研究 ( 1 ) 日本建築学会計画系論 文報告集, 367, 1 5・2 2 . 柳井晴夫・竹内啓 ( 1 9 8 3 )I 射影行列・一般逆行列・特異値分解」東京大学出版会. つJ o o q u

390.

日本 SASユ ー ザ ー 会 (SUG1‑0) 個人の購買履歴データを活用した顧客セグメンテーションの方法 0小 山 斉 へ 裡 弁 尚 子 ,渡辺美智子女 東洋大学大学院経済学研究科女 東京情報大学総合情報学部六六 AMethodo fCustomerSegmentationBasedonH i s t o r i c a lDatawith I n d i v i d u a lBuyingBehavior H i t o s h iKoyama*,NaokoS a k u r a i * *,M i c h i k oWatanabe* GraduateSchoolo fEconomics,TOYOUNIVERSITY* Departmento fE n v i r o n m e n t a lI n f o r m a t i o n,TOKYOJOHOUNIVERSITY** 要己 日個人の消費形態の多様化が進む市場では,従来の性別や所得階級別のような単純な属性データに基づく顧 客セグメント化の有効性が失われてきている cすなわち,購買行動特性に関して,それらの顧客セグメント内 での類似性が保証できないのである。この問題に対して本論文では,特定商品の個人の購入行動によって,顧 客全体を複数個の異質のセグメントに分割する新しい方法論を提唱し,企業の CRM活動の一環として顧客の 将来の購買パターンを予測するという観点から,提唱する手法によるセグメント化の有効性を論じる。具体的 D付 には, I p o sデータに基づくブランド日J I 特定商品群の購買履歴データに,潜在クラスモデ、ルを適用するが, その際,顧客セグメントに対応する各潜在クラスに対して,購買特性としてのブランドロイヤリティの強弱と 関連付ける特定の制約条件を課す。この制約付き潜在クラスモデルの推定手段として, NLINプロシジャを使 用する。ここでは, NLINプロシジャの活用法と顧客セグメント化の事例を解説する。 キーワード 1 0付 P O Sデータ,漕在クラスモデル, 顧客セグメンテーシヨン,購買置歴データ 1 .はじめに マス・マーケティングからターゲット・マーケティングの有効性が認識される現代,購買 行動特性に関して類似の顧客グループを一つのセグメントとし,顧客全体を複数個の異質の セグメントに分割する方法論が求められている。このために従来,性別・年齢・年収などの 顧客の属性データによるセグメンテーションが行われてきた。しかし,個人の消費形態の多 様化が進む現在では,このような単純な属性データによるセグメント化の意義は失われつつ ある。 そこで本論文では,将来の顧客の購買パターンとの関連性がもっとも強くなるようなセグ メンテーションが有効で、あるという視点の下で,現在、各企業で蓄積が進む ID付 POSデー タから個人の購買履歴データに基づく顧客のセグメンテーションの方法を提案する。 2 .潜在クラスモデルを適用したマーケットセグメンテーション 399

391.

ここでは,ターゲット・マーケテイングを行うために必要な「マーケットセグメンテーシ ョン Jの考え方を述べる。まず,ターゲット・マーケティングを行う際に重要なのは,以下 ・ ・ ・ の 3点である。 マーケットを同質のセグメントに分割する 各セグメントの構造とサイズを把握する 各セグメントに有効なターゲットプロモーションを展開する この際に必要なのは,セグメントに分劃することである。しかし,従来どおりの性別・年 齢・年収などの属性変数を用いたセグメントでは,理由を区別できなかった。例えば,商品 A を購入した理由を考えた場合, 1 . 絶対にこのブランドしか購入しない 2 . いつもは Bを購入するが、この日は Aが安かったため購入した 3 . 特にブランドは気にせず、毎回違うものを購入している など,さまざまなケースが想定できるため,理由を区別できない。よって, m 付 POSデー タの分析が必要になる。この分析を行うことで,将来の顧客の購買パターンと関連性が最も 高いセグメントに分割でき,ターゲット・マーケティングへと移行していくことができる。 この目的のために,ここでは,潜在クラスモデルを適用する c 潜在クラスモデルの主な特 ・ 徴は,以下の点である。 ・ ・ マーケットを構成する潜在クラスを決定できる 各顧客をクラスに分類できる クラス毎の更なる購買パターンの異質性が把握できる 第一 1 潜在クラスを決定できる J ということは,各クラスの構造が分かるということで あり,各クラスのサイズを推定できるということである。第二 1 各顧客をクラスに分類で きる Jということは,誤分類の確率も含めてどのセグメントに各顧客が属しているかの確率 提示ができるということである。第三 1 クラス毎の更なる購買パターンの異質性が把握で きる」ということは,導出したセグメントと他の商品の購買パターンとの関連性などを更に 分析によって精査できるということである。 このモデ ルを想定した出力例は、以下の表 1である c このモデルでは,特定の商品に関する競合ブランド数 = nとし, 2種類のセグメントを想 定している。 ~Brand R oyalSegmentJ l は 1このセグメント内の消費者は必ずそのブランド を購入する」セグメントで, ~Switching Segmen t J l は 1 あるセグメント内で複数のブラン ドを選択する可能性がある」という制約を付けたセグメントである。このようなセグメント 化を行うことで,選好確率の大きいブランドで特徴付けることができ, ブランド聞の競合関係の分析や,消費者のブランド噌好と購買属性との関連分析などが 可能になる。以下の表 2のような出力例を用いれば,各顧客セグメントにおけるブランドシ ェアをつかむ事が可能で、ある。 ‑400‑

392.

表 1 想定する顧客セグメント 8randR o y a lSegment 構成比 V l ブランド 1 8randS w i t c h i n gSegment 2 .. n n + 1 n+2 V2 Vn Wl W2 Wm 。 。 。 P l l P 1 2 Plm P 2 1 P 2 2 P n l P n 2 。 . .. .. 。。 ブランド 2 ブランド n . . .. n+町1 P2m Pnm 表 2 想定出力例 クラス ブランド名 2 A H B H 。 3 H H H D H E H H F 3 .分析 ここでは ID付 POSデータから得られる牛乳の個人購買履歴パターンの頻度データをもと に,顧客をセグメント化する例を述べる。 先ず,牛乳ブランドが次の 5つに分類されたと仮定する。 表 3 購入パターン構成商品群 No 商品グループ A ブランド A の牛乳(普通) ブランド A の牛乳(健康機能付き) [例]ダイエット, Ca 。 B 値引き対象ブランド牛乳 D 値引き対象ブランド牛乳(健康機能付き) E 高級ブランド牛乳 これをパターン別の度数で集計したものが表 4である。これにより,どの商品グループの 購買組み合わせが,どれだけ多く起こっているかを知ることが可能となる。この結果をさら に集計すると,各購入パターン構成商品群が, WBrand Royal Segmend と WSwitching Segment~ 内で、のマーケットシェアが推定可能となる。これは表 5 になる。 401‑

393.

表 4 パターン別集計伊j A 。 。 。。 。 。 。 。。 。 。 。 。 。 。 。 。 B 度数 E 1 2 5 6 1 254 3 5 8 3 一 」 ー L 一一 表 5 推定結果出力例 難合セグメント チランド ロイヤル タイプ1 タイプ2 9 . 5 2覧 4 5. 49% セグメント内マーケットシェア A 2 . 5 5 % 0 . 2 3 0 0 . 3 1 2 。 0 . 0 0 % 0 . 1 9 5 0 . 2 7 7 4 2 . 3 6 % 0 . 1 9 5 0 . 3 6 1 D 0 . 0 0 % 0 . 2 9 5 0 . 0 0 0 E 0 . 0 0 % 0 . 0 8 5 0 . 0 5 0 B ( ; ; j │ 5 [函説明 ︒ ︽ UranU RAVRU ︽ 1 . 9 0 0 1 . 8 0 0 1 . 7 0 0 A C SWl セグメント SW2 豆一眠りの刊鎌入金額+来日数王室空̲̲j 4 .潜在パラメーターの推定方法 ここでは,顧客の潜在セグメントの構造(サイズ及びセグメント内プランド別購入確率) の推定方法を提唱したモデ、ルに基づ、く最尤法で行う。その具体的な推定に, NLIN プロシジ ャを使用する。使用方法を当日,紹介する。 ‑402

394.

5 .まとめ 今回の分析に,潜在クラスモデルを用いた。その結果,顧客のプランドロイヤリティに関 する構造を把握できる。またこのモテ、ルを用いることで,各潜在クラスは,ブランド別特定 商品群に制約を課し,購買特性としてのブランドロイヤリティの強弱と関連付けることが可 能となる。そして,特定商品のブランドロイヤリティ特性と,一般の購買行動との関連を知 ることが可能となる。この結果,売れ筋や死に筋以外の商品展開戦略へとつながり,有効な ターゲット・マーケティングを展開できるのである。 403‑

395.

日本 SASユーザー会 (SUG I-~) rECサイトにおける顧客分析」 河本光香 鷲山丈博 株式会社 SASインスティチユートジャパン プロフエッショナルサービス第 2部 CustomerA n a l y s i sa tE l e c t r o n i cCommerce M i t s u k oKomoto,TomohiroWashiyama n s t i t u t eJapanL t d . P r o f e s s i o n a lS e r v i c eNo2Department,SASI 要旨 IECサイトにおける顧客分析 J をテーマとし、 ECサイトの特性を活かした顧客分析がどのよう に行えるのか、また、その後どのようなマーケティング応策が想定できるのかといった点に対し て、我々が行った分析事例をもとに考察してして。 キーワード EC(電子商取引)顧客分析 eマーケティングマ 1 . はじめに 現在インターネットを媒体とするビジネス形態、し、わゆる「電子商取引 J(以下 IECJと略記) が注目を浴びてし唱。 EC はなぜこれほど注目を浴び、るようになったのか。その理由として、商 品を購入する{則にとって、以下のような利点があることが挙げられる。 地理的な利便性 時間的な利便性 ' i l J減 商品探索コストの i 商品情報の豊富さ、比較険討の容易さ 一方、商品を売る側で‑ある企業にとっても多くの利点がある。 直接コスト、間接コストの軽減(居舗維持費、設備費等) 新規参入の容易さ ダイレクト・マーケティング守の容易さ(電子メールによる広告・カタログの配信等) 顧客の反応の得やすさ 405‑

396.

このように両者にとって利便性の高い ECが、今後ビジネスの一翼を担ってして可能性は非常 に高い。実際 ECサイト全体で見た利用者数や総売上金額はここ数年で大幅な伸びを見せて いる。 o8と、一般消費者向けの 8t oC に大別できるが、 一般的に事業形態は、対企業向けの 8t oC の ECJを前提として話を進める。 本稿では主に 18t 2 . ECの実際 冒頭で述べたように、現在 ECは様々な意味で脚光を浴び、利用者、総売上金額ともに着実 な伸びを示している。しかし、 ECを手掛ける企業すべてが売上を伸ばしているわけではない c EC 発展の影では、思ったように収益を伸ばすことができないまま撤退していったオンラインビ ジネスが数多くあるのだο 収益が上げられなかった理由はしてつか考えられる。 消費者の財布の紐が固い 自社の Webサイトに顧客を集められなかった 取り扱っている商品が ECに適していなし、(実物を見なしせ購入しにくし、商品等) 中には一企業では解決不可能な問題もある。しかし、企業の自助努力次第で改善可能な問 題もあるのだ。例えば、一般的だが重要な問題のーっとして、「消費者のニーズに的確に応え られなしリとしち問題が挙げられよう。 ここで注意したいのは、 EC サイトで取引をしない消費者の大部分はお金がなくて購入を控 えているわけではないという点だ。自分にとって本当に必要なものなら、多少値が張っても購 入するだろう。しかし、購入金額以上に購入プロセスの煩わしさが気になるようで、あれば、購入 を控えられてしまうカも知れない。また、 EC では商品・サービスを選択購入する際の判断基準 を取得することが容易である。つまり、代替商品・サービスの情報を入手し、比較検討を行うこ とが容易なので、より条件(質・値段・購入プロセス)の良しものを選択することが簡単にできる のだ。これにともない、消費者の目が更に厳しくなるであろうことは想像に難くない。 値段 J1 付加価値 J1 購入プロセス」の点からみて、消費者のお眼鏡に このように商品の「質 J1 かなう商品・サービスを提供で、きなかった ECサイトが今後も淘汰されてして可能性は極めて高 し 、 。 2‑1.顧客満足度 値段 J1 付加価値 J1 購入プロセス」といった点が消費者のニーズ、に合致してい 商品の「質 J1 れば、消費者がその商品を購入してくれる確率は高まる。また、そのようなバリューを提供し続 けることによって、一消費者が今後も通いつづけてくれる「顧客」となる可能性も高い。このよう な顧客とのリレーションシップを築き上げ、同時に顧客満足度を上げることが ECで成功するた めの秘訣といえる。 顧客のニーズにあった商品を提供する以外にも、 EC サイトで顧客満足度を上げる(維持す る)方法はいくつか議論され、そして実際に利用されてきた。そのーっとして ECの利点を活か ‑406

397.

した l eメール・マーケティング」が挙げられる。これは顧客が興味を持つで、あろう情報(商品・サ ービス・ニュースなど)を eメールで、配信することによって、顧客の購買行動を促す一種のプロ モーションで、ある。また、購買行動につながらないまでも、顧客にとって価値ある情報を提供す ることができれば、信頼や満足を通じて顧客とのリレーションシップ。はより深まる。 しかし、企業側はコスト面、効率面などの観点からこのアプローチを採用したがるが、その反 面で、望みもしない eメーノレの攻勢にさらされる顧客が増加するとしづ皮肉な現象が起きている。 このような一見些細に見える現象でも、それが積み重なれば最終的にはその企業の評価を下 げてしまし、かねない。例えば、日頃からこのような無意味なメール(ジヤンクメール)を送りつけ られている消費者は、 eメールの受信ボ、ックスに不必要な売り込みのメールが入っているのを 見るたびに腹を立てることになるだろう。 このような現象を受けてか、最近では「パーミッション・マーケティング」としづアプローチが主 流になりつつある。これは属性情報などが登録された顧客データベースの中から、 eメールの 送信を許可してくれた相手にのみメールを送るとしづアプローチである。積極的に受信を認め てくれた顧客に送信対象を絞ることで、企業は顧客に排除されることなく、様々な反応を受け 取ることができるのだ。 2‑2.顧客の求めるもの しかし、許可を得たといっても、顧客にとって本当に価値のある情報を提供しなければ、依 然として問題の本質的な改善には到らない。では「顧客にとって本当に価値のある情報」とは し、ったいどんなものであろうか。顧客が求めているものが何であるかを把握できれば、企業は その顧客にとって最善の策を講じることがで、きる。しかし、『過去の購買履歴や顧客とのやり取 りに基づいて「顧客分析」を行い、送信する情報を顧客ご、とにカスタマイズする』と主張すること はたやすいが、実際にこれを実行するとなるとその際には様々な指針が必要となってくる。 そこで IECサイトにおける顧客分析」をテーマに、 ECサイトの特性を活かして「どのような」顧 客分析が行えるのか、「どのように」顧客分析を行うのか、また、その結果に基づいてどのような マーケティング 施策が打ち立てられるのかといった点について、実際の分析事例をもとに述べ ていきたい。 3 .分析例 これまでの ECサイトの分析では単純に Webログを使ったアソシエーション分析や実際に購 入された履歴データを用いた顧客分析が中心に語られることが多かった o しかし、我々の考え るECサイトの分析は、単なる「自己満足の分析」に留まらないためにも、マーケティング施策の 「 し 、 つJI だれに JI 向を」を意識した上で実行する。 4 0 7ー

398.

[想定サイト] Web 上で服、インテリア、アウトドア用品などを販売する会員制のサイトで、主にメール配信によ り広告を行っている [データ項目] 属性データ:性別、年齢、職業、入会日からの経過月数 購買履歴データ:購入回数、カテゴリ別購入回数、購入金額、直近購入日 Webデータ(メール内の URしのクリック):アクセス回数、カテゴリ別ページビューの数、直 近アクセス目、アクセス時間帯 3‑1JいつJの明確化 EC サイトにおける顧客分析のーっとして、顧客の離反の兆しを事前に発見してその顧客に 離反防止のアクションを打つ例が挙げられる。その際には、離反防止のアク、ンョンを打つ「タイ ミング」が重要になってくる。例えば庖~J!j販売の場合、購入が無くなってしまった時点で、アクシ ヨンを実施し、顧客を呼び戻すことは至難の業である。また、 EC サイトで、も配信されるメールへ の反応 (URL へのクリック)やホームページへのアクセスがなくなった会員(つまりメールが来る とすぐ削除するか、または無視しているような会員)に情報を届けるのも難しい。しかし、顧客の 「関心」の情報を追うことで、顧客の関心が薄れたタイミング、で、アクションを実施することは可能 かもしれない。一般に新規顧客の獲得には、既存顧客維持の 5倍のコストがかかると言われて いる。企業にとっては既存顧客を維持し、顧客を育てることに注力したほうがコスト面で、の負担 は少ないのである 3 ではどのようにして顧客の離反の兆しを見つけるのか。上で想定した会員制 EC サイトの例 をとって具体的に述べていきたい。次ページのプロット図は、 EC サイトへの週毎の顧客のアク 2 0 週間分)を説明変数としてクラスター分析を行い、クラスター毎に顧客のアクセス数 セス数 ( の推移をプロットした図で、ある。顧客が EC サイトに入会した時点では比較的関心度が高いた 1)のセグメントで顕著なように、時 めか、 EC サイトへのアクセス数がそれなりに高い。しかし、 ( 間がたつにつれて EC サイトへのアクセス数は減ってして傾向にあることが分かる。他のセグメ ントにも、時期はそれぞれ異なるにせよアクセス数が落ちる時期が必ずあり、少なくともアクセス こなっているセグメントはない=このまま放って置けば、せっかく獲得した顧客 数が右肩上がり l がまったく無反応の ( 3 )のようなセグ.メントになってしまう可能性がある。このような顧客を発見し どのような(何を)J 対 たら、企業側としては何かしらの手を打たなければならない。「だれに JI 策をとるかとしづ解説は次章以降に譲るとして、「し、つ」としづタイミングであれば話は簡単であ る。例えばアクセス回数が極端に落ちてしまう時期が対策を実施するタイミングとなるであろう。 セグメント ( 1)であれば ( p r o 0 2 )か ( p r o 0 3 )、セグメント ( 6 )であれば ( p r o 0 7 )~ ( p r o 0 8 )、セグメン ‑408‑

399.

ト( 2 )であれば ( p r o 8 )~ ( p r o l O )あたりが妥当と考えられる。繰り返しになるが、アクセスが完全 に途絶えた顧客の関心を向上させることは困難を極める しかし、途絶えかけたとき、または途 3 絶える傾向が表れたタイミング、、で、効果的なキャンベーンを打つことがで、きれば、顧客の離反を 防ぎ、顧客の関心を再獲得することができるかも知れないのだご 1 5宅 1〈1 ) a t11 1 10~ J 三三三= 8 5 ' p r o日 p r o日2 p r o 0 3 p r o 0 4 p r o 0 5 p r o 0 6 p r o 0 7 p r o 0 8 p r o 0 9 p r o l 0 t i m e 3‑2:rだれに」の明確化 庖舗販売では顧客がその庖舗で販売されている商品に関心を持っているのかどうかを測る ことが難しい ο しかし、 EC サイトで、は仕組みさえ整っていれば、ホームページにアクセスしてい るか、送付した電子メールの情報に関心を示したかなどを容易に測ることができる。 といった実績の軸に このように EC サイトの特徴を活かすことで、従来からの「取引(購買)J としづ軸を加味した「だれに J を定義することができる。より 加え、「関心(サイトへのアクセス数)J ターゲ.ツトとすべき顧客層が明確になるとともに、顧客に対する理解を深めることができるであ ろう(次ページマトリックス参照)。 従来の顧客分析では取引実績の多いセグメント Bや D が守るべき顧客層(優良顧客)であ としづ軸を設けることで、「守るべき顧客層 J のみな った。しかし、「関心(サイトへのアクセス数)J らず「活性化すべき顧客層 J が見えてくる。例えばマトリックスを見た場合、セグメント C は能動 的に関心を示しているが、購買実績は低い顧客層と定義できる。一方、同じレベルの購買実 績で、あってもセグ戸メント A は関心の度合いが非常に低い、し、わゆる離反の兆しがある顧客層と して捉えることができる。また、購買実績の 1軸で見た場合にはセグメント BもDも同じグループ として見なされてしまうが、「関心の強さ J を加えることでセグメント BとD は明らかに異なる顧客 層として分類できる これにより購買実績を高めるためにまずフォローが必要なグルーフ。はど、 3 ちらのセグメントなのか明確にすることができよう。 また、この4つのセグメントによるマトリックスだけで、はなく、前章で述べた入会からの経過時 ‑409ー

400.

聞とアクセス数の変化をあわせれば、フォローすべきセグメントをより詳細に把握することが可 能となる。例えば、 3‑1のプロット図において ECサイトへのアクセス数が減少傾向にある顧客 を把握できたとする。その顧客がマトリックス上で、表した際に、セグメント Dからセグメント Bに落 ちたのか(落ちそうなのか)、またはセグメント D からセグ メントAに落ちたのかによって、フォロ P ーを行う重要度やフォローの仕方が全く異なってくるだ、ろう。この場合であれば、セグメント Dか らセグメント A へ転落したセグメントの方が、全体の売上に対するインパクトが高いはずである から、セグメント D からセグメントA:こ落ちた顧客ほどフォローの優先度が高く、またフォローの 内容も充実したものでなければならない。 このように ECサイトから取れる情報を活用することで、より詳細に顧客の分類ができ、かつア クションすべき顧客層はどこなのかを明確に見極めることができるのである。 マトリックス 実績の取引(購買行動) 扇 関心の強さ 局 異なる製品あるいは製品カテゴリ毎に顧客セゲルテーションを実施し9 ー ケ ヘyトを特定 3‑3:r何を」の明確化 前章では単純な 2指標で顧客を分類したが、次に「何をJ 顧客に提供するのかについて述 べる。従来の顧客分析で は調査データからしか顧客の噌好を測ることがで、きなかった。しかし、 ECサイトでは従来からの購買実績データに加え、顧客が閲覧した Webサイトをデータとして 持つことができる。このような動的なデータを使うことで、顧客がし、ったいどの情報に付加価値 を感じるのか、また関心を持っているのかとし、った点を把握することがで、きる c また、会員登録 時に定型フォームで登録された静的なデータを利用することもできる。もっとも、曙好の変化と ともに登録内容の変更を行う会員がそれほど多くないことを考えると、このような静的なデータ を参考にするべきかどうかは検討の余地があるだろう ο 動的な情報から「何を」を把握するために、今回は説明変数として各商品カテゴ.リのクリック ‑410

401.
[beta]
数を使用したクラスター分析を行った 3 共通の興味分野にしたがって顧客のセグメント分けを
行ったわけで、ある。下表が実際の分析に使用したデータである。

クラスター分析の結果、顧客が 7つのクラスターに分割された。クラスター 6が全体の約 75%
を占めているが、売上・関心ともに低いセグメントAの割合が高く、その他のクラスターは売上・
関心ともに高いセグメント Dの割合が高い。また、クラスター 6以外のクラスタで売上全体の約 7
割を占めていることから、クラスター 6以外のクラスターに、守るべき優良顧客が多いと考えられ
る
。
では、会員の噌好に合わせてどのようなマーケティング守の施策が可能で、あろうか クラスター
3

7を{
J
I
JI
ことって説明する o 右下の図を見ると、このクラスターは「ベビー・子供服 Ji
レディースイ
ンナー Ji
レディースアパレノレ」に関するクリックが多い。すなわちこれらのカテゴリに関して強し、
関心を示しているクラスターであることが分かる。全会員と同様の情報配信をするのではなく、
このようなクラスターに対しては「ベピー・子供服 Ji
レディースインナー Ji
レデ ィースアパレノレ」
に特化した情報を送付することで、クロスセル、アップセルを狙う。また、クラスターの特徴を活

‑
1章で、述べた離反防止キャンベーンの内容も立案で、きるで、あろう。
かすことで、 3
r
‑
'

ベ 干H
U
i
レディーλイ〉ナー
レディ】 ^YJ~ レ}~

韓首・,1
、
明.
n
叫ん

ミ. J

万ーデニンヲ・ペヲト
町

メ
ン 1 イ>
tー
冨具・イン刊?寸...
.
.
園
フード刊ン Q
;圃掴

=

ミ

1
‑
‑

メン1アバL-}~ ;
園
理

目白川

,.,,--..~.

化経品・叫レ^; . 圏 圃 ー + 一 一
フ4.
圃
十
スポーツ舟話台予勺ト F

一一…

ジュ工リ一時計 4層圏
キラテン馬品 4圃薗

o

02

04

06

N
O
T
r
r
抽 I
c
c
dMC.
!
ln

直里1

00

・

Tよ

・14i

402.

4 .まとめ インターネット上で、の商取引は、従来型の商取引とは異なる様々な特徴を内包している。そ れらの中には、従来企業が一方的に利益を享受してきた流れを逆転させるポテンシャルを持 つものもある。例えば、収集可能な情報量の飛躍的な増大は、その弊害を考慮、に入れても、 限られた情報しか甘受で、きなかった顧客に様々な恩恵を与えることが予想される。 しかし、顧客のニーズ を把握し、そのニーズにあった商品・サービスを提供することで、新規 顧客を獲得し、顧客満足を高め、顧客を維持するとしづ企業側のマーケティング、活動の基本 原則に何ら変化は生じていない。この点において、顧客のニーズに適した商品やサービスを 提供するとしづ行為は、むしろ方法論的な意味で変化に応じた変革が求められている。 EC サイトでは、一般的な業態以上に顧客に関する情報を収集しやすい。このような特徴が あればこそ、顧客ニーズをより的確に把握し、顧客ニーズに立脚したマーケティング、コンセプト を練るとしづ作業が効率化可能なのだ。また、顧客の属性や購買実績が反映されたデータを だれに Jr 何を」行うのかといったマーケティング、施策 様々な角度から分析することで、「し、つ Jr を立案する上での ヒント'も獲得できる。前章ではその具体的な例として、実際の顧客分析作 だれに Jr 何を」を明らかにする努力 業の流れを追ってみたが、このような分析作業は「し、つ Jr に他ならない。そしてこのような分析作業と、その結果得られた知見の蓄積は、企業が コンンューマーセントリソク 「消費者中心主義」時代のマーケティング、活動Jに新たな一歩を踏み出す手助けをしてくれる。 それは顧客の 顔"が一層見えにくくなる時代において、踏み出す一歩の大きさを決定する重 要な要素となるだろう。 '4 唱 SAY ︐ ︒

403.

口頭論文発表 品質・生産管理

404.

日本 SASユーザー会 (SUG1‑0) 半導体ウエハテストデータ自動解析システムの構築 0林 田 行 信 、 右 近 勇 製品技術部プロダクトエン、ジニアリンクマサポート課 ユー・エム・シー・ジャパン株式会社 C o n s t r u c t i o no ft h ea u t o m a t i cy i e l da n a l y s i ssystemf o rsemi‑conductor s a m uUkon OYukinobuH a y a s h i d a,I P r o d u c tE n g i n e e r i n gS u p p o r t i n gS e c t i o nP r o d u c tE n g i n e e r i n gDepartment,UMCJAPANL td, 要旨 半導体の前工程製造(ワェハテストの前まで、 Hこ特化したファワンド、日一(製造受託)サプライヤーで ある当社にとって、製品品質を向上維持する為には如何にしてリアルタイムにテストデータの収集・ 解析を行い、またそのフィード、パックを早急に行うかが極めて重要な課題で、ある。そこで、当社では SAS アプリケーションで開発したツールを基軸とするテストデータ自動解析システム (ATDAS: e s tQata企n a l y s i s2 y s t e m )の構築で、その課題克服を成し遂げることが出来た。 6dvanced工 本論文では、今回開発したシステムの構造及び機能について紹介する。 キーワード: 半導体ウェノ¥テスト、自動収集、面内分布解析、アラームメール、 ODE 1.はじめに 1 9 9 9年 l月に日本初の専業の半導体ファウンド、日ーサプライヤーとして事業を開始した UMCジャ パン (UMCJ)は、経営資源の投入を前工程生産に特化させる事で高い投資効率によるトータルコス トの低減を実現出来ている。また、製品テストを行う術を持たない為、製品品質の向上維持は製造工 程途中のサンプリング守モニターによるビ、ジュアル検査やノ fラメータテストの結果に基づ、いて行い、補 償する体制となっている。 昨今、半導体デ、パイスの微細化に伴い、ピジュアルにて検出で、きない異物や欠陥等の品質への 影響も認められており、今後さらに増えると予想される。こうした状況で、製品のテスト(電気試験)結 果を出来るだけ早く入手し、その解析と改善対策を早めることが重要とされ、その打開策が急がれ た 。 ‑415‑

405.

2 . 従来の問題点 当時、テストデータは製品担当技術者が各顧客から色々な手法で入手し、それを様々な形態で、マ ニュアル変換して公開しており、その為に次のような問題を抱えていた。 A.フォーマットが統一されていない為、解析ツールが使用で、きなかった。 B . サマリーのみで、全ての生テ ータが公開されず、解析が十分にで、きなかった。 e c .テストデータの公開まで、の時聞が長大化し、製造工程へのフィード、パックが遅延した。 D . マニュアル収集の為、公開テストデータの信頼性に欠けていた。 E . 技術者の時間を浪費していた。 F . 全てのデータを十分に解析しきれず、貴重なデータが埋もれ、有効利用されなかった。 従って、 テストデータの早急な入手及び解析に加え、上記問題点に対する対策を実現する為のシ ステム構築を行うこととなった。 3 . テストデータとウエハマップについて 顧客から送られてくるテストデータはアーカイブ・暗号化処理をされているが、それを展開・解読す るとウエハマップ情報が得られる。このファイルの中身はテスト時のウエハ処理方法、不良名を 1文字 のアスキー文字 ( B I N )で、マップ状に表したウエハマップ、 BINカテゴリーテーブルがある(図 1 )。 非D e vi c e Tv o e :A B C B E F G 草草草草草##件証書誌話器草草草詩草草###韓証書詩書提##器量露骨草草草書草草詩草草草総量総書総量詩書提草草草詩草器時器量 C O U N T Y1 E L Dも B I N 81Nカテゴリーテーブル 0も 0も 0も 1も 川 門 同 内 内 刊 6 3 刊 8 7 1 1 9 同 川 川 同 可 咽 内 内 ﹄ ‑年 守 司 宅 ・・・ 司 寸 句 旬 e 噌 噌 噌 内 内 曹 守 噌 唱 ﹄ 司 唱 噌 唱 噌 ﹄ ・ 唱し 守 ・ ・ ・・ ﹄ 咽 ぺ寸 ハ h u ‑ ‑ a 図 1 テストデータの中身 ウエハマップ ホ ホn u e ‑A ‑ e m n u n u n u n u n h v n h v n u n u ' l ' t ' l f 1 4 1 l 1 l n u n U T I ‑ ‑ 1 1 4 1 1 j t i ‑‑111 1 1 1 1 1 1 1 1 1 .ホ f i ‑ ‑ 1 I T S ‑ 1 1 t n u ' l ' t ' t ' l ' 1 1 1 11 11 11 11 11 1A 11 11 11 11 11 11 11 11 11 1 ・ 11111111111111111︐ A m 1 a 1 a t ︐ 唱 E ' l t t ' l t 唱T i ‑ ‑ f l ' I 4 1 4 1 4 l t t t 111 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1e 11 11 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1T 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 ︑1 g t I A m ‑ ‑1 l y ‑ ‑ l A m ‑ ‑ 1 l t i t i T l1 I 1 l T i r e T I T I ‑ ‑ 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 1T 1 1 1 01 1 1 1 t t a e l ι q l ' 唱 ﹄ ︐︐ ︐ 唱 ︐ ︐ . ︑ w 1e t i ‑ ‑ a ' E ' ' E ' ' E ' ' E ' ' E ' ' E t i ‑ ‑ ι q B s e ‑ f i I 唱 l ‑ ‑ l 唱 ・ ︐ 町1 市l t t l f l T l T i f l e t a T t t a ‑ ‑ 1 1 1 1 t i t i ' t ? S T i ‑ ‑ T l T I ‑ ‑ ホー 1 l ' l 1 1 咽l 唱1 唱1 唱 11 1 T 1 i 1 l T l τ i e l 咽1 ' l 咽l l 唱' l 1 ‑ e ︐ ホT i ‑ ‑ 1 ︐ ︐ ﹄ h t ' ' t t E t E ︐ ︐ t t B T I T I ‑ ‑ T I T ‑ ‑ ι 1 1 1 1 1 t 1 t ︐ ︐ i 1t 1 1 1 ' l e a ‑ ‑ e l﹄ 唱l i ・ l l l 唱‑ ・ l 唱' l l 唱'﹄ T I q ‑ ‑ l 唱l 唱 ' 1 1 A m1111111111111111111 11h11 l ' l ' 1 1 4 T I T i ‑ ‑ e l T I T I ‑ ‑ T } } e l ‑ ‑ ‑ l ' l ‑ 1 1 1 1 1 1 ホ守 l ' l ' l ﹄ 咽!守 l ' I t s ‑ l ' l ' t ? ' I T ‑ ‑ l τ B a ‑ ‑ e 1 ' l ‑ 11 I t ‑ ‑ ‑ ︐ ︐ ︐ ・ l t E t g τ t a T I T I ‑ ‑ 1 9 1 1 r a 1 ' 1 ︐ T I ‑ ‑ 1 1 1 a 1 ー︐ー︐ ' 11111 1 1︐ 1 11 11 1唱 1111111111111 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 l f i t i ‑ j A m ‑ ‑ 3 1 4 T I T I ' l l t i ‑ ‑ T ' T I 1 A 4 1 4 T i t s ‑ ‑ t l y t ' l τ l τ l T l p a t i ‑ ‑ t t t l 1 S苅 1 1 T l 唱T 唱1 唱I 咽4 l T I T i ‑ ‑ A m ‑ ‑ T I T I ‑ ‑ T I ‑ ‑ t l ' 1 1 1 1 ‑ T e ‑ 3 h T i ‑ ‑ T I T I T l T S ' aI A m f i ‑ ‑ 1 l S E t ‑ ‑ 1 i 1 l 1 l T l T i ‑ ‑ 1 1 1 1 ・ 1 1 ' 1 E 1 E 1 1 事 1 1 1 1 1 1 1 1 4 1 1 1 1 1 1 1 1 1 1 1 ︐ 1 1 1 1 t i t ‑ ‑ t ' s e 占 A n t ‑ ' l ' t t T1 T 4 T I T I ‑ ‑ 1 I 4 1 唱 ・ 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 1 τ l T l a u n 1 1 1 1 t i s ‑ ‑ 1 l T t 4 4 1 l T l ・e e ‑ ell ︐ ・ ホ T i ‑ ‑ 1 l 1 1 1 l 1 1 1 1 1 1 1 ' 1 E 1 1 I T I ‑‑1111111111 11 1 1 ホ‑ 1 t T i ‑ ‑ e l T i T t 4 T i t i ‑ ‑ ‑ 1 1 1 1 1 1 1 1 1 1 1 ・‑ e e e 1 1 1 1 1 1 1 1 事 ﹄I TT T I ‑ ‑ 1 b 事守 i f ‑ 1λ4 J 凋F 怜 h d0 ハ 7 ' n n u uNUNUNUNMMUNUNMM ‑ 4 J 凋F 怜 h d 0 ハ7 O Q u n u t ‑4﹄ J 凋F 怜 h d0 ハ7 o n w u n U 1 e ワt J凋怜 t Iu I l l 1 1 1 n υ n u n u n u n u n u n u n u n U 唱ーすーっ ι ワιワι ワιワι t 唱‑ 1 1 4 t t t l 咽t l ' l n K MI H u n N U n H U n k u n H u n k u n n u n z u n u n u n u n u n u n u n u n u n u n u n u n u n u n u n u n u n u n u n v n z u ︒ ︐ ︒ ︐ 2も 2 9 0 7 1 0 0も 2 8 0 9 9 7も 2 8 0 9 9 7唱 0 0唱 0 0唱 U N1 T ST E S T E D U N I T SP A S S E D N A T U R A LG O O D R E P A I R A B L E N O N ‑ R E P A1 R A B L E F U N C T I O NF A I L VBBF A1 L I C C F A I L L E A K A G EF A1 L O P E N / S H O R T ウエハ処理方法 #P o s tL a s e rR e o ai rW a f e rS o r tS u m m a r vR e o o r t 非 T e s t E n dD a t e 0 3 1 2 7 1 2 0 0 2 非 #ProiectCode U M C J D M S TestEndTime 1 7 : 1 1 : 4 2 # #P r o g r a mN a m e :X X X X X X X X W a f e rI D X X X X X 1 8 # #F o u n d r vL o tN o :X X X X X X X # 非P r o g r a mV e r . :X T e s t e rN o T X X X X ‑ X X ‑X# #I s s u eD a t e 0 1 / 2 5 1 2 0 0 2 P r o b e C a r dN o X X X X X # #W r i t t e nB v :L I NT I A N O o e r a t o rN o # 骨骨#########骨骨骨###骨骨量韓骨###骨骨##韓首##草韓##骨##韓韓祉相韓祉相#######韓##########

406.

4 . システム構成とその機能について 前記の課題や問題点を克服する為、今回開発したテストデータ自動解析システム (ATDAS: Q ̲ a t aAnalysisf u r s t e m )の概要及び機能について以下に記述する。 AdvancedTest̲ 1 . システム構成 ATDASはテストデータを保有する DataBase Server(DB)を基軸として、互いに異なるタスクを )。 担う 5つのアプリケーションサーバが常時起動し、 DB中のデータを処理している(図 2 ④ ③ DataP r o v i d e S e r v e r DataA n a l y s i s S e r v e r SAS/Base,VBA SAS/Base S h e l lp r o g r a m 図 2 ATDASのシステム構成 ① D' a t a Load, Sθ' r v 町 J 異なるフォーマットで存在するテストデータを S AS データセットの ATDAS専用フォーマット (ADF:ATDASF o r m a t )データに変換し、スクリーニング を行う。 P ② Da t aBaseS e r v θ' r :ADFデータや各サーバのアウトプットデータを格納する。また、システム 全体の正常稼動有無を監視するシステムウォッチャ一機能もあり、トラブルの際はアラーム をシステム管理者に発信する。 ③ D' a t aA n a ! y s I SS e r v . e r 新規に作成された ADFデータを用いて各種解析を行い、その結果、 異常と判断されたウエハまたはロットに対して、各ユーザー(製品担当者)へのアラームメー ル送信や自動レポート発行を行う。 ④ Da t a托 OVl・ deS e r v e r : :DataA n a l y s i sS e r v e rでアウトプットしたデータや製品毎にサマライズ した SASデータセットを用いて統計処理を行い、社内 WEBにて提供する為に、 ODE機 能 を用いてトレンドやテーブル、ウエハマップ等の作成を行う。 ⑤ B' aCk‑UDS e r γ' e r : , .DBのパックアップを行う。 ATDAS で処理されるテストデータは、上記① ④の各アプリケーションサーバーの働きにより ‑417

407.
[beta]
ADFデータ変換を行う Loader、ウエハゾーン解析を主とするデータ解析、 ODEのレポーティング

の順で処理され、ピ、ジュアル的に見やすく、またサマライズ、化されたアウトプットが各ユーザへと提
供される(図 3
)。

〈〈ウエハテープノ0 >
WAFER MAP
EQUIP TYPE: xx1
TEST N品I
E
: yy1
TEST TYPE: CP1
PRODUCT NO: abc123

1

















;不定型なフォー:
7 ットデータ

̲
1
.
.
. ̲ 11')っ

テストデータ
t
c
.
.
J
(テキスト、 EXCELe

I
‑AtinL1よ Fhυ1よ P

LOT ¥
¥
"
F
R TST X Y
CAT
abc123
abcl23
abc123
abcl23
abc123
abc123
abc123

1111122η

j

目

11111

:暗号化

11215 ・
ー ー..n
円
.IP1押3431・
ー ・
ー
1
1
1
1
.11112111211111
.
.
.UU
21111111111111111111
11111111P1110!111111
.211111311111121111.
111112Kl11
]1
11
.
.11111111111
..

n
ヨハ U1ょっ白 qdoon
ヨハ

E二
回
ー

Y
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=

Dznrnrnrnrnrnrn

一一:二

ι

2

X12345678901234567890

LOT ¥
¥
'
F
R TST EQP TSN
abc123 1 P xx1 yy1
abc123 2 P xx1 yy1
abc123 3 P xx1 yy1 ..
abc123 4 P xx1 yy1 .
..
abc123 5 P xx2 yy2 ・・
abc123 6 P xx2 yy2 


abc123 7
<<チップテープノ0 >
abc123 8

ADFデータ
(SASデータセット)

ζ三
道二三ウ山寸解析 DUT
(SAS/Email
)
ζ三
玉三〉 アラームメール
WEB (ODE様能)…

ζ三~
 3 ATDASの各サーバの役割と全体的なデータの流れ
I
I
. Loader

顧客から送られてくるテストデータを DataLoad S
e
r
v
e
rにより ADFデータに変換し、 DBに取り
込むまでの部分を Loader部としこの一連の作業を Loaderと定義する。 Loaderの機能の特徴とし
ては、どの様なフォーマットデータもチップテーブルとウエハテープ、ルを有する ADFデータに変換
することである。この ADFデータは解析に必要な全てのパラメータを含んだ定型のデータである。
顧客から送られてくるデータは非定型であるので、製品の数だけ Loaderプログ、ラムが必要となる。
送られてくるテストデータの中には不要なデータや解析に支障をきたす異常なデータが含まれて
いることがあり、 Loader はそれらをスクリーニング、の機能で、取り除く処理も行う。また、 ATDAS は安
定稼動を強く求められるシステムであり、テストデータ異常その他予期せぬトラブ、ルによるシステム
‑418‑

408.

ダウンを避けなければならない。そこでこれに対処する為に ATDASで、はシステムウォッチャーを追 加した。これは、システム聞の常時交信チェックを行い、交信が途絶えた時に異常を感知しアラー ムを発する機能プロク守ラムで、ある(図 4 ) c 図 4L o a d e r部のデータの流れ 1I1.データ解析(ゾーン解析) 人間の目で、ウエハの不良分布を見る従来の方法で、は正確性に欠け、定量的な面内分布解析が で、きなかった。これを打開する為に、 ATDASでは ADFデータのチップテーブルを用いて面内の特 徴付けをし、サークルゾーン、ブ、ロックゾーン、ショットゾーンとし、った 3つの面内分布解析を定量的 に行っている。この各々の解析結果から抽出された情報は、工程管理データと付き合わせることに より、装置コモナリティー等の解析が可能となる。更にウエハフェイルヒ守ツトマップデータ(メモリーの 不良アドレスを表記したデータ)や欠陥検査装置データと突き合わせることにより、 K i l lR a t i oが高い )。 欠陥の特定やそれを発生させている工程・装置の特定も可能である(図 5 ‑ サークルゾーン解析 ADFデータのチップテープソレを基にしてウエハ中心より同心円状に数エリアに分け、各エリアに おけるチップに位置番号を振り、エリア毎に定量化する。図 6はウエハ内保IJから外側にかけて lか z o n eに当てはめている。そして、解析プログラムにより変数名 c z o n e毎に歩留りを ら 4を変数名 c 計算し、歩留り平均との差が製品毎に決められたクライテリアを下回ると異常であると判断する。 ‑ ブロックゾーン解析 解析手順はサークル解析と同じであるが、ゾーンの区切り方が異なる。この解析はウエハ中心よ り放射状に 4分割し、それぞ、れのブ、ロック毎に定量化して解析を行う。 4 1 9ー

409.
[beta]
• ショットゾーン解析
この解析で、はこの※ショット内における位置依存'性を調べるのが目的である。図 7のウエハ、ンヨツ
トマップのように変数名 shot 内のチップに位置番号を付与させ、その番号毎に歩留りの計算を行
し、異常を検知する。
来ショット:ウエハ上に一括してパターンを転写するときの単位。

以上が不良原因を工程に素早くフィード、ノ〈ックさせる面内分布解析で、あるが、ショット解析と同じ
技法を使えば、電気テストが正常に行なわれたかどうかの有無も特定できる。通常電気テストは
DUT(Qevice日nder工
e
s
t
)と呼ばれるプローブ、針が一回の接地で、テストで、きる最大チップ数を単位

に順次テストしてしてので、この DUTも定量化することによりその依存性を調べることが可能である。
こ、正常な環境下で再測定を行い、テストによるオーバーキルをなくすことができる。
この結果を基 l

x
n
ea
n
a
l
i
z
e
dc
h
i
pt
b
l
>
>
t
# waf x yb
i
ns
h
o
tc
z
o
n
ed
u
tb
l
k
l
o
a
b
l
0
01
2 3 11 2
4 1 4
a
b
l
0
01
2 3 21 3
3 4 4

くくZo

‑
→
ー
一
̲
̲
̲
,
.
.
,
.
.
.

:6
12~ 4: i
f1
1
1
:
3
d
l
‑

⁝
事

、
,
、
、
、
、
、
一
、
、
、
、
、
、
、
,
、
X、

X

112~4~61

Y

,

5
1 1 3・51 Y

Y

D
e
j
i
n
i
t
i
o
n
C
i
r
c
u
l
ez
o
n
e

D
e
j
i
n
i
t
i
o
n
S
h
o
t
(
m
a
s
k
)

D
e
j
i
n
i
t
i
o
n
Blockzone

l
:
守
竺
ず.
,
1‑ーー
,
̲
I
、ーーー

Y
i
e
l
dl
t
句o
r
tbys
h
o
t
>
>

くく

L
o
t
# wafs
h
o
tb
i
n1b
i
n
2b
i
n
3b
i
n
4
a
b
l
0
0 1 1 95% 2.2%1
.
5
%0.3%"
a
b
l
0
0 1 2 94% 3.2%0.5%2.1%"
a
b
I
O
O 1 3 85% 5.8%2.5%2
.
3
%
"
a
b
l
0
0 1 4 97% 1
.6%0
.4%0.7%・

.
.
.
.
.
町
./ ‑h
ヘ
川
、V
、γアデ〆f

/ 一 一一~ごF白
F
戸
〆
.
〆
戸

一
i;
二
句
‑
ト
ト
二
‑
二
入
‑
…
…
.
.

.
.
.
.

λ

.
.
.
.
.
.
.
¥

Ittt~量溢錨 Photo I
s
s
ul
!
(

一一‑‑‑ 〉

一
ー一一一. ‑
Lj欝欝欝器製 =>Cò~円前lii砂
.
A.
‑

r

.
.
.
.
.
.
.
.
.
.
,y 司 . . /
¥

ー
入
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

1

‑r

工程管理データ
ウエハフェイ/レピットデータ
欠陥検査データ

図 5 テスト解析から不良原因特定までの流れ
4
2
0一

D
e
j
i
n
i
t
i
o
n
inDUT

410.
[beta]
キブロゲ、ラムネ
d
a
t
a̲
I
¥ULL̲;
'endニ EI
¥D;
s
e
t&L01
r
e
t
a
i
nXmin999Xmax1Ymin999Yrnax1
;
i
f
(
X<
X
r
n
i口
)thenXminニ X;
i
f
(
X>
Xmax)thenXma
x
=X;
Ymin)thenYmin=Y;
i
f
(
Y<
i
f
(
Y>
Ym出)thenYmax=Y;
i
f(
EI
¥D)thendo;
¥
"
,t
r
i
m(
left(put(Xmin,
Z
3
.
)
)
)
)
;
c
a
l
lsymput("XMII
c
a
l
lsymput("Xrv
t
r
i
m(
left(put(Xmax,
Z
3
.
)
)
)
)
;
c
a
l
lsymput("YMII
¥
"
,t
r
i
m(
le
f
t
(
p
u
t
(
Y
r
n
i
n,
Z
3
.
)
)
)
)
;
v
I
A
X
勺 rim(
le
f
l
(
p
u
t
(
Y
r
n
a
x,
Z
3
.
)
)
)
)
;
c
a
l
ls
y
r
n
p
u
t
(
"
Yt
c
a
l
lsymput("XC1
'Rぺ
t
r
i
m(
left(put(mean(Xmax,
Xmin),
Z
3
.
)
)
)
)
;
c
a
l
lsyrnput("YCTR",
t
吋m(
left(put(mean(Yrnax,
Ymin),
Z
3
.
)
)
)
)
;
t
r
i
m(
le
l
l
(put((Xrnax‑Xrnin)/8,
Z
3
.
)
)
)
)
;
c
a
l
lsymput("XRQDぺ
c
a
l
lsymput("YRQD",
t
r
i
m(
lefl(put((Ymax‑Yrni口)
/
8,
Z
3
.
)
)
)
)
;
e
n
d
;

l
A
X
ぺ

r
u
n
;
/本内 {
l
l
l
!
油
、
らCZOI
¥El→ CZOI
¥E4*/
d
a
t
a&LOT;
set&LOTendニEI
¥D;
i
f(
(
X‑&XCTR)**2/&XRQD**2+(Y‑&YCTI)**2/&YRQD**2く=1
)t
h
e
nCZOI
¥E=1
;
e
l
s
e
i
f
(
(
Xー&XCTR)本本 2/(&XRQD本 2
)
本本 2
+(Y‑&YCTR)本本 2/(&YRQD本 2)**2<=1)t
h
e
nCZOI
¥E=2;
e
l
s
e
i
f
(
(
Xー&XCTR)**2/(&XRQD*3)本*2+(Yー&YC1
'R)**2/(&YRQD本3
)件 2<三 1
)t
h
e
nCZOI
¥Eニ 3
;
e
l
s
eCZOI
¥E=4;

,

r
u
n
;

」

<
<
Y
i
e
l
dRepo
比 b
yshot>>
Lot# wafczone b
i
n1 b
i
n
2b
i
n
3b
i
n
4
.5略 0.3%
・
・
abl00 1
1 95% 2
.
2
%1
abl00 1 2 94% 3
.
2
%0
.
5
%2
.
1
%
"
・
・
abl00 1 3 85% 5
.
8
%2
.
5
%2
.
3
%
ab100 1 4 97% 1
.6也 0.
4
%0.7%
・
・

図 6 サークルゾーン解析のチップ定量化の方法とそのフ。ログ ラム
P

ショット (
s
h
o
t
)
2X2のチップを 1ショットとして順次 J¥
$
1ーン転
写が行なわれてい〈。ウエハ全部をパヲ ン転
写するのには 7
8ショット必要。

く
くY児 I
dR
e
p
o
r
tbys
h
o
t
>>

Lo
t
# w
a
fs
h
o
tb
i
n1 b
i
n
2b
i
n
3b
i
n
4
弘 0
.
5
也1.2
也0
.
2
帽
・
‑
a
b
l
O
O 1 1 96
a
b
l
O
O 1 2 97% 0
.
6
弛0
.
5
%1.1帽・‑
ablOO 1 3 83% 3
.
3
%2
.
2
%3.
4
%
・
a
b
l
O
O 1 4 9
6
也 0
.
2弛
1.0
:
品0
.
8
也
・
・

図 7 ショット解析における s
h
o
t内チップの位置番号付与方法

河川宝

nノ

11

411.
[beta]
I
V
.Y
i
e
l
dR
e
p
o
r
t
a
t
aP
r
o
v
i
d
eS
e
r
v
e
rで ODE機能を用い、データ解析の結果をレポートで自動発
ATDASでは、 D
行している。そのひとつが ATDASメインのホームページよりリンクを貼った ODEHTMLのアウトプ
ットで、ある。ユーザーは週間や月間毎に統計処理されたロット情報やトレンド、マップやサマリーと
)。
いったページにクリッカブ、ルに移動で、きる(図 8

また、図 9のように毎日新しく上がってきたテストデータのサマリーを作成したトータルレポートを
発行している。このレポートは、クライテリアを下回ったウエハの表記や各種解析結果を表示し、そ
の日のロット全体の情報や問題点の把握が容易にで、きるようになっている。

i
e
l
dR
e
p
o
r
tの一つである。先に述
アラームメールはユーザーにロットの異常を通知してくれる Y
べたゾーン解析を含む各種解析で、ひとつでも異常が確認されれば、ユーザーに公開している各
製品に対するアラームメール送信先及び適用解析方法やそのクライテリアを設定で、きるファイルを
0
)。
参照して、登録ユーザーに配信する(図 1

WEB公開例)
盃L

田園田園

7
r
l
・e̲10 f
t
i
i
岨"""'"砂.,..."'1>叫,..

~~雪i ←ATDAS メインホームページ

i 押凶岬 i 目酬d .,.~肉 g噛aメ""柑叫同
脚

"

n 4 .iJ ð-;:;--~ Iiil'一一一三二二葱ζごみ

忌

定型E
‑
a
r
a
:
=回 , 山 れ

↓ロットトレンド、

1

畜

.
!
l "-:.~民主主-,( a.. ユより.、

塑
邑
;
二

.

,.....園初陣刻g"回~,

血...回-~・

叩 旬 開 曲J

~.伽 n. ru.~ ,....Cl1tI"'II'I 醐

・四
.
.
.
.
.
"
"
周
回
・
"・
・
.
:
r
;
.
.
:
.
・
剛
・
・
剛
・
・
m U

"例言亀

~・

13PPAE:rt目!t~~"'''_.'

1

n!~ 1
B

z町

l
'

.
.
.‑
o
:

;
CU

I~

::"~同・"おξ0 蜘時.,

u

租
邑

f ,.,,"~. :
11
'2

.
w
凶山'"・刷輪開問、

1
:
'
I
t
o
:
!
¥

.
.
.
.,

園 田 思

陣

I' !:I~"‘お;

;羽削除

・
同・

居世醐酔薗盤【

同 岡 田 回 開 刷 叫 叫 岬

盟主ートギ芸人吋一 I
W

ウエハマップ←

~

0U同 , . 園 町f
I

F ・ 9通 信 t
I
:
.
.
i
IefJ .
.
i
田
・

E

ぷ麺醤

.
=
).
.
.
.
句~

'
‑
‑
'

ツ

よ

7
1刊 誌 刊WVAWML11mm§=
Ii
'
,
I
eI
1
I
,
I
1
/
'
(
t

七二 ~:=-:<~~~:i~\;

川

窃梅.
.

九箇

E
'
T
!
1
:
1
l
"
量

OI~~::l!:::::~OI

i
ド
ペ jど?と!
?
;
1

‑
!
1
1
1
!
?
;
;
!
!
1
1
1
1
!
!
i
u
!

1マ

J

H
'
l.
.!.
.
.‑
¥
"I
a
;
i S ~ ; : I : : : ~ ~ょ;;;;;:;;;??し
I
;;;:A‑JzjL;ls11;;;ijj
!
?
;
;
i
i
l
ii
i
i
i
l
i
i
i
:
t
j↓

;
;
仁
に
つ:
!
i
民?
一
一
一
一
一
一
寸
.
1
‑
'南 青τr
UJ13 ・ぃ

0

±
S
F

Q. ・ ..J:~ 鴎・
削

ウエハサマリグラフ→

図 8 ATDASホームページと ODEによるアウトプット例
422
412.
[beta]
トータルレポート例)
02/05/07DailyY
ie
l
dMeetingm
i
n
u
t
e
s
I
‑
'
r
o
d
. lype

f
国主旦 XYZ987

I
U
Z
/
U
b
/
U
"r
e
s
u
l
t

L N ~lHUL Nt
<l N :
>
H
1Pυ'Alt
.
FI25 UMCJ 9
7
.
5
4
4
0
0
4
4
/
/
0
0
6
5
/
/
0
0
2
F25 UMCJ 95.
4

MAKl¥

I~

H:80

n
o
t
e

5
:
4
5a
v
e
‑ 9
一 寸T 4
6
.
5
1
1
.5
2
.
1 PI25 UMCA 9
0
.
0
LOGICABC123 0/310ABC0767 19
4
4
0
0
3
3
/
/
0
2
8
7
/
/
0
0
2
0
.
3
H:80
m l ω o PI25 UMCA 9
ABC0769 18
9
.
8 PI25 UMCA
5
:
5
4
4
1
0
3
/
2
7
/
0
2
7
6
8
.
.
6
8
.3
a
v
e
. 9
0
.
6
σ1 1
P 25 UMCJ
25
DRAM DEF456
0/210
1
l
0
o
o
1
.
‑l
G
0
4
4
/
/
2
2
2
1
/
/
0
0
2
0
43
25 UMCJ
20
s
c
r
a
p#3(
4
8
.
7
)
H:89.6
ム DE
部6
4
2 ui
│
1旬
g
詑
U
Z
4
9 F
DEF
F
P
550
DE
F
0
6
4
4
2
5
1
0
2
.
5
2
5
1
6(79.
4
)
04/22/02 FP1
UMCJ
IF
a
v
e
. 9
2
.
7
1
.37
89
/OID
PI25
9
7
.
5 41 04/05/02
Gt
U
U
M
M
C
C
8
8
F
C
D
z
1
1
o
t
n
#
e
1
#
2
2
(
(
8
6
9
7
.
.
2
4
)
)
PI25
4
5
.
5 41 04/06/02
H:80
C
5
:
4
5
04/07/02
16
.
9
a
v
e
. 9
2
.
6
3
6
.
8
FI25 UMCD 9
7
.
5 4 04/05/02
5RAM J
くL
567
I
1
/
310
一 一 一 一
7
.
5 4
J
KL
9
9
9
2
*
H:80
J
阻
9
9
e
1
1
1
1
1
3
3
9
3
7
7
2
7
F
7
5
E FI24 UMCD 9
0
0
4
4
/
/
0
0
6
7
/
/
{
0
}
2一 一 一
× JKL9993
PI25 UMCD 9
5
:
4
5
7
.
5 4
卜一一一一一
a
v
e
. 7
0
.
0
5
.
8
σ
PI25 UMCJ 8
8
.
3 1
5 03/13/02
回
主OLMHN:1Eゆ07 0/410MNC苅01811888682..9
1
6
MN
仁治019*
PI25 UMCJ 81
.2 15 04/10/02
MN
仁均020*
P23 UMCJ 8
5
:
1
8
.
3 1
5 04/10/024 0
21 :8
2
.
0 PI25 UMCJ 8
3
.
5 1
5 04/10/02
a
v
e
. 8
σ3
.
4
3
.
6
4
.
9

。
組
∞
。

。

。
z
‑

。

。

。
。
。
。∞

図 9 トータルレポートのアウトブ ット例
p

アラームメール例)/一人一//ー IC
PS
U
M
M
A
R
Y ̲//ー I
̲
/
̲
I

l
e
s
tH
o
u
s
e
o
c
e
s
s
1
e
s
tドr
D
E
V1
C
tN
A
M
c
P
R
U
G
R
A
MN
A
M
t
L
U1N
U
1
e
s
tU
a
t
e

U
M
C
J
C
P
I
I
2
3
A日C
X
YL
4
b
t
i
a
b
1
2:
J4
U
3
M
A
Y
U
2
:0
2
:b
日

W
Aト
ヒR P
U
I
昨1
日LU
昨21.232
.
3
日
日 j
昨4
日目
H
昨b
昨l
t
i 日b
.
4
日
日 l
t
聾1
1
!
日l
日2
.1
R
e
t

日1. 1

日
日U
U

ーーヘッダ一部分
サマリー

〆

t
l
2
.
4
t
l
t
i
.
4
H
日3

R
t
P U
N
R C
U
N
I
,
J
: 6
1
I
.l
t U,U
2
.:
J
1
6
.
6
I
.
:
J
9I
U
.U
日日
1
2
.
0 22
1
b
.l
t t
l
.U
1
:
J
.U
b
.b
l
t
i
.:
J
1
.2
1
2
.
2 2
.1 U
.U

t
l
t
i
.
4

1:J日

t
l
/,l
t
t
l
4
.
62
.B
日
目 b
14.1

。
。
。
。
。
。
。
。

2
.1

U
.
2

不良チップ

1
C
C
2 L
t
A
K V
日
目
U
.l
t 日日
日 l
日目
O
.:
J
U
.
4 日日
U
.b
U
.b 日日
O
.b
b
.1
LU
2日
日目
U
.b U
.:
J
.1 U
U.I
U
.:
J
U
.l
t

。
。
。
。
。
。
。
。
U
.1

U
.l
t

M曹 131211
MU
H‑‑UUU

内

vnnununununu

a
ヒ
00000
1L

21621b
ρU
U98000
161

100010
N
u
uuuuu
ρU

62016
H
N 91 0 4
U13

nu"uフιTlRb
ur

口
uq4uouot'

ヒ
U2
2
H0
I2
lbl

r
e ̲/̲/̲/̲I̲'"ト ー ゾ ー ン 解 析 結 果
(Circle Zone)

UU1422
nu
U013H2

AunH
no

ez1234b

ub638
﹀U U 0 8 8 4
uynrauマududud
e
n
ee

un

nvρU

u
門

e

︑WH 神 仲 桝 件 " 仲 村 仲 村 仲
r
﹄
〆

bt
u
ト
AMHkuhuhuhuku

I̲/̲/̲/̲/ W
a
t
e
rM
a
pトe
山

ダイナミックリンク先のウエハマyプ

1
1
1
1
1
!I
I
&
1
1
1I
I
I1
1
1
1
1
1
1
1
1
1 2
1
1 1
1
11
1
1
1
1
1
1
1
1
1
1
1
1
1 1
1
11
1
11
1
11
1
1
1
1
1
1
11
1
1
1
1
1
1
11
1
11
1
1I
I
11
I
1
1
1
21
1
1
1
1
1
2 2
1
11
1
11
1
11
1
11
1
1
1
1
12
1
1
1!1
2
1
2
2
1
2
1
2 2
1
11
1
1
1
1
11
0
1
22
I
11
1
1
1
1
1
1
1
2 z
1
2 1
1
I
11
1
1
1
1
1
1
1
1
1
1
2
1
11
1
1
1
1
1
2
1
2
1
2
D
2
1
11
1
1
1
1
1
I
11
: D
1
2D
I
D
I2
I
D
I
D0
1
00
1
1
1
1
1
1
1
0
1
22
1
21
!1
2
1
2 2 2
0
1
22
1
11
1
1
1
1
1
1
1
1
11
1
21
1
2
1
2O
1
11
1
1
1
1
1
1
I
D
I
O0
1
0D
I
DI2. 1
1
1
11
I
1 11
0
1
22
1
2
2
1
21
1
11
1
1
1
1
1
1
1
1
11
I1
1
2
1
22
l
l1
1
2
1
2
F
I
2
1
2f
1
2
1I
I
I
12
1
1I1
I
1
1
1
0
1
2
1
2 2
1
11
1
1
1
1
1
1
11
1
1
1
1 !I
I
1
2
2
1
2
1
11
1
11
1
1
1
1
1I
II
1
11
1
1
1
1E
I
22
1
2
1
11
1
21
1
1
1
1
1
1
1
1
11
11I
t 1
1
11
1
1
1
11
1
2
1I
1
1
1
1
21
1
1
1
11
1
11
1
1
1
11
I
1
1
1
1
1
1
1
11
1
1 1
11
1
1
1
1
1
¥
/

ノ I̲
/̲
/̲
/W
a
f
e
rM
a
pN
a
vi
g
a
t
o
r̲
/̲
/̲/九 ーーウエハマップへのリンク
く1
e
x
tトo
r
m
a
t
)
ckevl c
p
t
e
st/c
p
t
e
st/U
M
C
J
/
t
e
xt/a
b
c
/
a
b
c
l2
:
J4
/
D
a
b
c1
2
:
J4
w
U
b
.t
x
t
h
t
t
p
:11m1
I
m
lc
k
e
y
/c
o
t
e
s
t
/
c
o
t
e
s
t
/
U
h
l
G
J
/
t
e
x
t
/
a
b
c
/
a
b
ct
2~4/Dabc 1
2
3
4
w
l5
̲t
x
t
h
t
t
D
:/
<
I
:x
c
e1t
o
r
m
a
t
>

1
mJc
k
e
v
/c
o
t
e
s
t
/
c
o
t
e
s
t
/
U
M
C
J
/
s
a
so
u
tm
a
o
/
a
b
c
/
a
b
c1
2
3
4
/
a
b
c1
2
3
4
0
0
b
c
a
t
̲x1
s
h
t
t
o
:/
c
k
e
v
l.
c
p
t
e
s
t
/
c
p
t
e
s
t
/
U
M
C
J
/
s
a
so
u
tm
a
p
/
a
b
c
/
a
b
c1
2
3
4
/
a
b
c1
2
3
4
D
1
6
c
a
t x1
s
h
t
t
p
:11mi

̲/̲/ー/ー/ー I I
n
f
o
r
m
a
t
i
o
n ̲/̲/̲/一人/
G
r
j
t
e
r
i
ao
fs
c
r
a
pa
n
dh
o
J
da
r
ed
i
s
t
i
n
g
u
i
s
h
e
di
nf
O
l
l
o
w
i
n
gf
jl
e
h
t
t
D/
1
m1
c
k
e
v
l‑
cotestlc
o
t
e
s
t
/
U
M
C
J
/
e
t
c
/
c
r
l
t
e
r
l
a
.
x
I
s

図 1
0 アラームメールの中身と異常ウエハマップの様子
‑423一

。
。
。。。
。。
。

413.

5 . まとめ 従来の方法では、テストからデータ解析まで最速でも 0 . 5日/ I o tかかっていたものが、 ATDAS導入 I o tで、行われるようになった。また、データスクリーニング 機能により公開テストデー によりわずか 5分/ P タの信頼性も高まり、工場へのフィード、パックも格段に早くなった。 今後は、生産のトータルコストを下げる為に、開発期間の短縮と複数のウエーハプロセスを安定し た品質で提供出来る生産ラインの構築を実現させる技術手段として、更なる ATDASのパワーアップ が必要であると考えている。具体的には、 1 ) パラメータテストデータや生産装置処理データとを組み合わせた解析方法・機能を追加し、 問題点特定の確度を高める。 2 ) S A S / l n t r N e tソフトウェアを用いたユーザーインターフェースの充実でユーザー数の拡大を 図る。 ことである。また、将来的には顧客に ATDASをインストールして、技術コミュニケーションの円滑化を 図るサービスの提供を検討している。 謝辞: 今回の投稿に際しまして、御助言およびご協力を頂きました下記の方々にこの場を借りて御礼申 し上げます。 (敬称略) UMCJ: 端 庸 児 、 山 本 賢 治 、 右 近 勇 参考文献: 1 . M.8anada , K .Uehira&E.Fuse D e f e c tMode1C l a s s i f i c a t i o ni nL o g i cL8IManufacturing ‑lO P r o c e s sUsingIDDQ'188M2000p 2 . T .W W i l l i a m s&K .P . P a r k e rD e s i g nf o rT e s t a b i l i t y ‑ A s u r v e y 'IEEE' 1 9 8 3Vo1 .7 1 u p p l i e rV i e w '8EMICONJAPAN2001 3 . 山本賢治 Foundry8 A斗 企 e4 つL

414.

日本 SASユ ー ザ ー 会 (SUG1‑0) JMPによる最適実験の計画と 多特性の最適化 芳賀敏郎 C o n s t r u c t i o no fOptimumDesignand Op timizationo fM u l t i p l cC h a r a c t c r i s t i c su s i n gJMP T o s h i r oHaga 要旨 日本の実験計画法は直交表が中心である. しカ、し,応答曲面から最適条件を求めるために必要 な 3水準の量的因子の実験では極めて大きな実験が必要となり,実行不可能である. J : ' v I Pの D 最 適計画を利用すると,効率の良い実験を計画を作成することができる. また,実験の目的は複数個の特性について総合的に最適化したい. nIPを用いるとグラフ上で 最適条件を探索することができる. このセッションの事例発表(葛谷和義,村上実)の理解を深めるための予備知識を示す. キーワード: J¥fP ,D‑最適計画,多特性の最適化, 1 最適計画 1 .1 非 置 交 計 画 の 必 要 性 日本における従来の実験計画法は,直交表を中心とするもので、あった. 実験の初期の段階で,沢山の要因から特性に影響を与える要因を見つける実験はスクリーニン ゲ実験と呼ばれる.スクリーニング実験では一般に 2水準の因子が取り上げられる.このような 実験では,直交表は効率のよい実験を構築することができる. しかし,最後の詰めとして,最適条件を求めるには 3水準の実験が必要となる. 3水準の量的因子を取り上げて, 3水準の直交表を使うと,実用性のある範囲の実験の大きさ では計画が不可能である.たとえぽ 1 4因子を L 2 7 ( 31 Iり付ける場合を考える. : 3つ : )直交表に害J の要因 A、 B .Cを ( 1 ),( 2 )、( 5 )列に害J Iり付ける.ここで, 2つの交互作用 A*Bと CDを考え, ホ 2つの交互作用が交絡しないように D を空いた列に害J Iり付けることは不可能である. 2つの交互 υ ‑﹁ fせ つ'︼

415.
[beta]
作用 A*B と A*Cは可能である.このように,割付けに強し、制約が入るのは,交E作用の自由度
が 4で
, 2つの列を必要とするためである. 2つの量的因子の交互作用は積に項で、表され,その
自由度は 1であるから,直交表では自由度 3が冗長である.
海外では,直交という制約を超えて,効率の良い実験(最適計画)を計画する手法が研究開発
された 1 SAS/QCでは OPTEXというプロシージャで、計画を作成することができる 2

nIPでもパージョン 3で D
‑最適の機能が追加され,比較的容易に利用することができるよう
になった.

1
.2 3水準 3因子の例
3水準 3因子の実験を L
g
(
3
'
1
)に害]
1り付けると,交互作用をまったく推定することはできない.

J
'
2
i
(
313) を使わざるを得ない.

すべての交互作用を含む 2次式

υ=bo+b1.Tl+b山

+
1
>
山

バ +b

+b112?+lJ2222+h

I
:1X2
12:

X2X:
+b1:IX1X:
1
1 +b
2
:
l

0個のパラメータを含む. したがって, 10+α 個の水準組合せについて実験すれば,モテずル式
は1
を推定できるはずである.
そこで,表示1.1左に示す 3水準の 3因子の 27個の組合せの中から十数個,たとえば, 14個
を選んで実験することにしたい.
表示1.1
: 3水準 3因子実験

どの 14個を選べば良いかを教えてくれるのが D一最適計画である.
1

x
p
e
r
i
m
e
n
t
a
lD
e
s
i
g
n
s
' OxfordC
A
.C
.A
t
k
i
n
s
o
n&A
.:
:
¥
.Donev,"OptimumE
n
i
v
.P
r
e
s
s(
1
9
9
2
)

'
2

)
;
:
f
'
I
敏
郎
, iSAS/QC による実験の,~!-i lhi

‑ }
h
l
'
[交1汁1
1
1の紺介

4
2
6

I
‑
J,p
p
.
6
1
‑
i
4(
1
9
9
2
)
.
J.第 1
1
1
"
1SじG

416.
[beta]
1
.3 JMPによる計画の作成
作成の手)1慣は次のとおりである.

。 IJ:.¥IPスターター」カ、ら「実験計画 (DOE)J,Iカスタム計画」を選択する.
o

I
因子の追加」で, 3個の連続尺度を追加する.

。 Iモデル」で, Xl.X2.X3i'選択後, RS:.¥I(ResponseSurface:.¥Iodel)を指定する.
以上を実行後の画面を表示1.2に示す.

:カスタム計画の指定画面
表示1.2
i: 実験計画~iJjJj

て

T信 回 霞

E

'ーこ皐孟主主計画一

'主主J

V 因子

国子同駒ーは笠」咽の因子部初白
一…若Jl;t"'"‑‑"‑‑一倍
ャー福一一
j
包 Xl
遠鏡変数
己

れ
と
い
↑ hL

r
‑̲

̲ 勺

包x2
巴 X3

己

連続変数

z

卜1

通~i'i変数

ー因子(1)割鈎を主義

!

'モデルーコ

:

ー
刊

に

2
埜 j 交 互 作 用 回1RSM ,_主主J ご主主~-=砲の苦1持 i
i
i
.
J
片
ぺ
F

f

時

X2
X3
'Xl事 Xl
;Xl俳 X2
X2事x2
Xl事 X3
x
2
事 X3
X3併 X3

I

'計画め生~
実験の回数:j

r !i童小一
P デフォルト
「妥協案

τ

「クリアドヘ
「ユーザ措定

計画め作成

1
6
1
10
16
16
27

i
,
.
̲

τ~"~'-.
~,市今〆._

ベ ; …

「計画の生成」で,最小が 1
0になっているが,これは前に述べたパラメータの個数である.デ
フォルトと妥協案が 1
6になっている.実験のコストなどの理由で実験の大きさを 1
4としたいので,
「実験の回数」を 1
4 とする.

4
2
7一

417.

「言十画の実行」を指示すると.計画が作成される. その結果を図で表したのが表示1.1の右である.すなわち. 8つの頂点と. 6つの面中心が選択 される. 最適計画の作成には乱数を用いて順次改善する方法が採用されているので,いつも同じ計画が 得られるとし、う保証はない. 1 .4 4因子の場合 S 1.lに説明したように, 1 ': l7 ( 31 ; l )直交表 A B で , 4個の 3水準因子, 2つの 2因子交互作 l I I l 用 A本 B と CキD を推定することはできない. つ 。。 。 。 。。 。 。 。 。。 。 。 。 。 。o 。 自由度は,主効果が 8,交互作用が 2であ 3 ‑1 4 l るから, 1 1十 αの実験で、パラメータを推定す 1 6 ‑ ることができる. J d 8 実験回数を 16とする D 最適計画を前の 例と同様の手1頂で作成することができる. 生成された計画を右に示す. 2乗や積の項を追加して計画行列を作成 し,相関係数行列を求めると表示1.3が得ら れる. 9 1 0 1 1 1 2 1 3 1 4 1 5 1 6 C D l l l 1 I ‑ I 1 I ‑ I l 1 I ‑ l l I 1 l ‑ l ‑1 1 l ‑ 表示1.3 :計画行列の相関係数行列 A B A 1 .0 0 . 0 .0 B 0 . 0 1 C 0 . 0 ‑ 0 . 1 D 0 . 1 0 . 0 0 . 1 0 . 0 AA ‑ . 1 0 . 0 BB 0 . 1 0 . 2 CC 0 0 . 1 0 . 0 DD ‑ 0 . 0 AB 0 . 1 CD 。 。 。 。 C D AA BB CC DD 0 . 1 0 0 . 1 0 . 0 0 . 1 ‑ . 1 0 . 1 ‑ ‑ ‑ 0. 1 0 . 0 0 . 0 0 . 0 0 . 2 0 . 0 ‑ 0. 1 0 ‑ 0. 2 0 . 0 ‑ ‑ 0. 2 1 .0 ‑ . 0 ‑ 0 . 1 0 ‑ ‑ 0. 1 1 .0 0 . 1 ‑ . 0 0 . 1 0 . 1 ‑ 0 . 1 ‑ ‑ 0. 2 .0 ‑ 0 . 0 0 . 1 1 ‑ 0. 1 ‑ ‑ 0. 1 ‑ ‑ 0. 2 ‑ ‑ 0. 1 1 .0 0 . 0 ‑ 0 . 1 0 . 2 0 . 0 0 . 0 ‑ . 0 1 .0 0 ‑ ‑ 0. 2 0 . 1 0 ‑ 0. 1 0 . 2 1 .0 . 2 ‑ 0 . 2 0 . 0 0 . 0 0 . 0 0 . 1 ‑ ‑ 0. 1 0 . 1 0 . 0 0 . 0 ‑ ‑ 0. 1 。 。。 。 AB CD 0 . 0 0 . 0 0 . 0 0 . 1 0 . 2 0 . 1 0 . 1 0 . 0 ‑ 0 . 0 0 . 1 0 . 0 0 . 0 0 . 0 0 . 1 0 . 0 ‑ 1 .0 0 . 0 0 . 0 1 .0 。 。 相関係数の絶対値は 0 . 2以下で,殆ど直交していることが分かる.このことから,非直交計画 ではなく,殆直交計画と呼ばれることがある. 428‑

418.

2 多特性の最適化 工場における最適条件の探索では,複数の特性を総合して最適性を評価する必要がある.たと えば,品質が規格を満たした上で、コストが低い,金属材料で、弾性があって強度が高い. 従来の実験計画法のテキストには,権数の特性の総合化のための道具は特に準備されておらず, 解析者がグラフを工夫し,試行錯誤を積み重ねるに止まっていた. また,田口氏の提案する「望目特性」では最適点が点ではなく,線や面となるので問題は更に 被雑となった. 2特性の場合. 2つの等高線を重ねる. 望大または望小特性の組合せ,望目特性と望大・望小特性の組合せ,望目特性と望目特性の組 合せについて,望ましい水準範囲を表示 2 . 1のグラフに示す. 表示 2 . 1 : 2特性の等高線 望大水望大 望大水望目 望自称望目 許容範囲が帯状になったり,複数の領域に分離される場合がある. このような問題に対して. J¥ I Pは強力な道具を提供してくれる1 : 2 . 1 例題 (3因子. 2特性) 表示 2 . 2のデータについての解析を試みる. υ 1は望大特性 (30<Yl)で,仰は望目特性 (12< 山 <18)である.条件を満たす水準組合せ を太字で示す.両方の条件を満たす水準組合せ(アンダーライン)が 2つあるが .Y 2は限界ぎり ぎりである. ,7 5 1 Y敏郎. I J: Y I Pによる多特性の最適化 J,第 1 6 1 " 1SじG I ‑ Jp p . 3 ‑ 1 6( 1 9 9 i ) ー 4 2 9

419.

表示 2 . 2 : 2特性のデータ A2 Al A3 C1 C2 C3 C1 C2 C3 C1 6 25 30 1 4 24 24 1 3 Bl 1 Y l 望大 B2 1 3 26 25 24 33 35 1 8 1 2 1 9 2 1 30 25 26 b 30<Yl B3 D 1 14 17 1 8 1 9 17 Bl Y 2 望日 B2 8 13 15 15 1 9 18 18 1 16 13 16 18 17 16 1 2<Y 2<1 8 B3 1 C2 C3 1 7 1 6 30 勺勺 31 1 7 20 2 1 23 22 つ つ つ つ 2.2 等高線の重ね合わせ 表示 2 . 2のデータを nlPで解析する r モデルの当てはめ」で : r l,X2,: r : l の応答曲面を X に , Uい 仰 を Y に指定して角科庁する. : / : 1,: r 2 平面の等高線図を描く.適当に目盛り線と条件範囲を指 . 3のグラフが得られる. 定すると,条件を満たさない部分が塗りつぶされ,表示 2 表示 2 . 3 : 等高線の重ね合わせ レ 一 一 ! イ 一 一 子 EE 同日一二窪 回‑直 筈干オ 田一汗 g r X l X3 仁亘亘豆 コ Eヨ ミ: ; : : ; : : E ヨE三通; 応答 等高主是 正晃在の y "限 ニ限 F 3 2 : ( 1 3次元空間の切断面刊の値を動かし, V l,V 2の特性値がバランスした領域を探索する. 表示 2 . 3ヵ 、 ら , : r l 二 0 . 5 6, : 1 :2=‑0.55, X : l=0 . 5 1のとき , V I =31 .7, Y2=1 5 . 5 となり,何れの ‑430一

420.

特性も十分に満足できる値が得られる. 2 . 3 満足度関数 各:1:と υの関係を表す「プロファイ/レ」で「満足度」を指定する.さらに,各 υについて満足 度を指定する.そこで, Xl,X2,X : J を変化させて総合満足度を最大にする水準組合せを求めるこ とができる.その結果を表示 2 . . !に示す. . . ! :プロファイルによる満足度の最大化 表示 2 │予潤フ口ファイル ? ‑ ‑ 雰了「ベj y J 7 爪i 34 I 3 20 22 s : ! 15.50191 s 戸i ト y 六¥ J子: 区 ; ;; 一戸とづー 戸七寸 s g 』 ー 一 一 一 一 ー ー ー ー ー ー 甑 出 ~ 0.94B091 。 I ‑ 0 . 5 8 4 1 ‑0. 4B94 0 . 5 3 X l X2 X3 F 口 満足度 プロファイノレからも,等高線で得られた最適条件が求められている. 2 . 4 特性によりモデルが異なる場合 それぞれの目的変数について,パラメータの F比を表示 2 . 5に示す. Y2は Xl*X3と X2*X3の F比が 2以下である. 「モデ ルのあてはめ」で複数個の Yを指定したとき. r モデル効果の構成」は共通でなけれ(まな らない. 性 ηぇ υ よ ‑A

421.
[beta]
表示 2
.
5
:J
ll,仰のパラメータの検定
]
}
2

J
J
I

立
:
'
<
11
.
:1

F
!
I
i
'
l

X1
X2
X3
X1*X1
X2*X1
X2*X2
X3*X1
X3*X2
X3*X3

2
.
1
0
7
2
0
.
2
1
0
1
.
13
8‑
1
2
2.
18
6
1
9
.
8‑
3‑
1.
7
i
i
2
0
1
‑
1.
3
9
0
8
1
i
i
.
H
i
i
3
l
2
.
i
i
3
0‑
1
6.
‑
16
8
8

pf
l
1
1
:
F
!
I
i
'
[
0
6
.
6
1
3
8
0
.
1
6
4
8 2
0
.
6
:
j
2
5 11
.3
683
‑
l7
33
i
i.
0
.
0
0
0
2 4
6
.
i
i
6
0
7
0
.
0
0
0
3
1
9
.
2
i
i
8‑
く .
0
0
0
1
1
3
.
7
8
9‑
0
.
0
0
1
i
i
0
.
0
0
1
1 0.0472
0
.
1
3
0
1 1.7005
2
.
1
3
4
6
0
.
0
0
0
8 1

p!
l
t
f

<.0001
0
.
0
0
3
6
く .
0
0
0
1

0
.
0
2
0
2
0
.
0
0
7
4
0
.
0
6
8
3
0
.
8
3
0
5
0
.
2
0
9
6
0
.
0
0
2
8

そのような場合は O
v
e
r
m
i
l
l
e
rの提案する巧妙な方法が用いられる 1
まず,特性毎にステップワイズで、モデルを決め,推定値を求めておく.
推定値を特性値として一緒に解析する.
川

*

*x3 とx2 ;
r
:
lを除いたモテールで 仰の推定値y2を求め, υ
l と:i
hを Y として解析する.

X3の水準を左端に設定した場合と,右端に設定した場合のプロファイルを表示 2
.
6に示す. :fい :
[
;
2

のプロファイルが, υ
lでは変化するが,加では変化しなし、(交互作用が含まれなし、).
表示 2
.
6
: 2つのプロファイル

1
予澗フロフ7イJ
レ

~

I
lI
iピ~ ホ‑
ー
六
六
iーペ

34 I

Z2マ037
p
=

主主

雪
Z

4
坦
E
入
!

i

m‑Ta
CK‑

1
:
、

ー

t
7
↓
ι
三ふ ι

-y-~-/←
~
/
:

1
4
9
5
2
9
:

寸

I

ヌi
'

J
0 ~ T

0

X
l

X2

T

‑
1 ~"I

0

X3

Xl

T

0
X2

1

1
.
0
1
X3

この方法で¥特性毎にモデルを設定して,多特性の最適条件を求めることができる .

•,
D
.
J
.
O
b
e
r
m
i
l
l
e
L"
:
Y
I
u
l
t
i
p
l
eR sponseO
p
t
i
m
i
z
a
t
i
o
nu
s
i
n
gJ
:
¥
IP
"
, S
じGI2
2
.p
p
.8‑
11
‑
8
4
7(
1
9
9
7
)
巴

‑432ー

422.

日本 SASユーザ一会 (SUG1‑0) JMPソフトウェアによる表面処理工程の最適化事例 0葛谷和義 村山実 株式会社デンソー 電機製造 1部 Ano p t i m i z a t i o no ft h es u r f a c et r e a tp r o c e s sbyJMPs o f t w a r e KazuyoshiKuzuya.MinoruMurayama .1• DENSOCORPORATION EngineE l e c t r i c a lMfg.Dept 要旨 表面処理(̲i!E鉛めっきのクロメート処理)工程は環境負荷物質低減のため,薬品メーカが開発した新処 理液へ切換ることになり新処理液による試験研究を進めた.試験研究の技術課題は,薬液管理・処理加 工と多くの条件を最適化して複数の加工品質を従来レベルに確保することであるが,新処理液のため既 存の技術的知見は役に立たない. そ こ で 品1P の実験計画(DOE)の I D '最適計画」による実験の計画と分析コンポーネント「生存時間 モデルのあてはめ(ステップワイズ法,標準最小 2乗法)J を活用した解析を進め,技術課題達成 分 析 JI の可能性を確認した. キーワード: JMP ソフトウェア,表面処理工程,工程の最適化 1 . はじめに 環境に配慮した経営が, 21 世紀の新しい企業スタイルの創造をもたらすと「デンソーエコヒずジョン 2005Jを掲げ,グ、ローパルな視点からデ、ンソークーループの総力をあげて環境マネージメントに取り組んで、 いる.その具体的行動計画の一つである環境負荷物質六価クロムの低減は, IEU廃車指令に対する自 動車メーカ対応 (2003年春モデルから)Jに適合するものでもある. 当事業所の六価クロム使用工程は,電気機器の鉄系部品の表面処理 亜鉛めっきのクロメート処理"で、 あり,六価クロムから三価クロメートへの切換で対応することとなり,薬品メーカが開発した新処理液の採 用が検討された.しかし,新処理液の組成設計,新処理液での加工条件と加工品質などは来知であり, また,新処理液のため今までの技術的知見は役に立たない.そこで,新処理液での加工技術の確立が 急務となった. 本報では,ラボにおける新処理液の試験研究において,品1P ソフトウェアの実験計画と信頼性手法・ 多変量解析法を活用し,当事業所の既設の表面処理装置と加工部品に応じた最適化な薬液組成の管 理値と処理条件を見出し,従来通りの加工品質を確保したので報告する. つd つd ・ ・ 4

423.
[beta]
2
̲実験の計画
2.1 工程・課題と解析の流れ
クロメート処理の前工程を含めた工程の流れは以下のようになっている.

匝~0 雪→匪璽事→i活性化処理」防ロメ}ト処理|
A

加熱処理は、処理されない加工部品もある.
この工程の流れの中で,新処理液による試験研究の技術課題と解析の流れおよび解析に用いた

JMPソフトウェアの分析手法([
J内)を以下に示す.

J多因子(処理液の組成,加工条件)の実験の効率化を図る.
[課題 1

↓<解析 1>実験の計画:[実験計画カスタム計画 (D髄 計 画 )J

↓
一
一
…
一
一
前
…
1

[課題 2
J加工品質の良い活性化処理液を選定する(現状は硝酸だが,硫酸の可能性を検討).

ぐ解析 II>耐久試験データの解析:[生存時間分析‑Kaplan‑Meier法]

Jクロメート処理の処理液の組成,加工条件を設定し,加工品質を最適化する.
[課題 3
:一品一レの作成[モデレのあてはめーステップワイズ法]
<解析 N >複数の加工品質の最適化:
[モデルのあてはめ

最小2乗法一予測プロファイルー満足度関数]

Jクロメート処理の工程管理の許容範囲を検討する.
[課題 4
<解析 V >要因のレベル変化による加工品質の応答解析:
[モデルのあてはめ一最小 2乗法

因子プロファイル一等高線プロファイル]

2
.2 前工程と実験の評価特性

前工程は次の4種類とし,その4種類の被加工物にてクロメート処理実験を行う.
前工程:加熱処理(有/無)②活性化処理液(硝酸/硫酸)
ここで,活性化の酸の濃度と処理時間は被加工物の活性度に影響するとが,本実験では固定した.
クロメート処理は耐食性を向上させるための加工であり,また,その加工物は電気機器の構造部品で
あるから皮膜の導電性も必要である.そこで実験の加工物の評価は次の 2点とした.

I,T2,"
'
, T7打切り))
①加工品質②:耐食性(塩水噴霧試験の白錆発生面積率%(観測時点、 T
②加工品質⑪:電気抵抗(0)→解析は LogCJとする
2
.3 取り上げる因子と実験の計画

新規開発の処理液での実験のため従来技術での判断は出来ず,そのため表 1 に示す多くの因子を
取り上げた.更に,モデル効果の構成は,主効果 (
1
5変数)に加え, 2次の効果 (
1
0変数),交互作用 (
8
変数)も考えられ,合わせて 33変数となった.
8
1(3~O) )による実験計画では大規模となり実施が非常に
このような多因子の実験は,直交表(例えば L

‑最適計画にて効率的な実験を計画した.D
‑最適計画では,この場合の実験回数はデフォ
困難なため D
)
.
ノレトで 64回,最小で 34回となるが,実験の期間,コストを考慮して実験回数 40回で計画した(表 2
この表 2に基づく 40回の実験を実施し,前述した前工程 4種類のクロメート処理を行った.
υ

44轟

︑
っ44

424.

表 1 実験の因子と水準とモデル効果の構成 因子 実験水準 主効果, 2次 交 E作用 X 1 pH 1 .6 ‑2.4 X 1, X 1 * X 1 X1*X2 X2 成分 2 2 . 5 ‑ 1 0 g / L X2, X2*X2 X1*X6 X3 成分 3 2 5 ‑ 7 5 % X3, X3*X3 X1*X9 X4 成分 4 0‑10g/L X4, X4*X4 XhX10 X5 成分 5 0‑100g/L X5, X5*X5 X2*X6 X6 成分 6 0‑10g/L X6, X6*X6 X2*X9 X 7 成分 7 0‑1g/L X 7, X7*X7 X2*X10 X8 成分 8 0‑0.5g/L X8 X9 浴温度 10‑60C X9, X10処理時間 15‑60秒 X 1 0, X10*X10 X 1 1 ;夜撹梓 なし/エア揖祥 X 1 1 X 1 2治具 SUS/樹脂 X 1 2 X 1 3乾燥方法 遠心/熱風循環 X 1 3 X14乾燥温度 40‑80C X14, X14*X14 X 1 5乾燥時間 5‑20分 X 1 5 0 0 X9*X10 X9*X9 表 2 D一最適計画 X2 X8 浴 温 度 処 時 間 ; 夜 揖 祥 治 具 乾 燥 法 乾 温 度 乾 時 間 1 .6 1 0 . 0 0 0 . 0 0 6 0 1 5 . 0 0 8 0 5 2 1 .6 1 0 . 0 0 0 . 0 2 1 0 1 5 . 0 0 4 0 2 0 3 2 . 0 2 . 5 0 0 . 0 2 1 0 6 0 . 0 0 8 0 2 0 4 1 .6 1 0 . 0 0 0 0 . 0 0 1 6 0 . 0 0 6 0 5 5 . 4 2 1 0 . 0 0 0 0 . 0 0 1 6 0 . 0 0 4 0 5 6 1 .6 2 . 5 0 0 . 0 2 1 0 1 5 . 0 0 8 0 2 0 4 0 2 . 0 2 . 5 0 0 . 0 0 3 5 3 7 . 5 0 8 0 2 0 No. pH 3 .耐久試験データの解析 クロメート処理の各実験 n=2個づっの試料について耐食性の耐久試験である塩水噴霧試験を行い,ク ロメート処理後の耐食性に優れた活性化処理の処理液を選定した.耐久試験データは,観測時点の白 錆発生面積率%である(その一部を図 lに示す).図 lにて,規格 ( T 3観測時点、白錆発生面積豆 10%) を充分満足する実験条件も見受けられる. 次に,白錆発生面積率が規格の 10%を超えた最初の観測時点をその試料の寿命とみなし,生存時間 分 析 (Kaplan aAUZ FhJ ︑ qυ

425.

一一一一!折れ操に曲線をあてはめ 眠時国制献事也 SMW 60 2 0 。 Tj T3 T7 図 1 耐久試験データの例ー加熱処理あり,活性化処理=硫酸ー 生存時間プロットを図 2に示すが,前工程のグループ聞の違いは有意であり,加熱処理有無共に活性 化処理液は硫酸が優れていたので以降の解析は硫酸で進める.加熱処理有無で差が見られたことは, 今回の実験で固定した活性化処理の条件を,加熱処理有無により調整すべきことを示唆する. また,各グループのプロットは交差していなし、(最初は良いが後半に悪化するようなことはなし、)ので, た データの打ち切りもなく規格の設定されている T 3観測点の白錆発生面積率%を耐食性の解析特性とし グループ聞での検定 1 : L i 監 │ 制 0 .4~ p値 ( P r o b > C h i S q ) カイ 2乗 自由度 検定 ログランク 4 4 . 1 3 1 2 3 く. 0 0 0 1 W i l c o x o n 3 3 . 0 2 8 5 3 く. 0 0 0 1 加熱処理なし硫酸 〆 L←一一一一一←一一一 加熱処理なし硝酸/ 加熱処理あり,硫酸 〆 1 : ; j 加熱処理あり,硝酸メ T 3 寿命 図 2 生存時間プロット ‑436 寸

426.
[beta]

3
.
6
7
4

‑0.
40
1
ここで

3

2
経験ロ、ジット ;
1=l
n
{
(
y
;+O
.
S
)
/
(
n‑y
;+O
.
S
)
}

.
.
.
.
.
.
モデルのあてはめは表 1のモデ、ル効果の構成とし,ステップワイ

トー


5
.
3
0
3
ズ法(変数増加 p値 =     p値 =0.2 の変数増減法)により変

40


5
.
3
0
3
数選択し,引き続き選択した変数をモデ、ル効果の構成として標準

11












一一一

L

一一

一一一

4ι/EE

z

 !F11園田11田園田岡田園}t一で  .   :  
E

圏一一回

す孟園田隈
留置画一
g1
冨︐回一一/
時︑一つ﹂開園

刀=醒



14 

!2 

一!値

﹁べ測


5

﹁間四

4

i

一4錆日
ii
 μm

.γMF‑

二一‑一一 

二一

一一仁一一ナ

J'

一一一︐一一錆河

二一.⁝一一

1

4Mm

7 4

i

h悶

414

   1 4 F A u n勺

1114 ﹃!十イホ

一躍一索隊孟咽5 

一寸
3210
引一要 


 4 実測値と予測値のプロット

  同1111111﹂﹃1111よ↓一範








El‑‑HAi﹂Nti

3


 二一


L 二一

二圏一一一
を一丁lilili‑‑l illit‑‑ームゴ一位


::l
‑‑‑
jo
ie
:!
;11Lq一で
1it
1ilii

1
1


浄二
7J

ル一同同

川一平
α
α      同ω
σ おお件︒ 1


一m
mmmmmmmM 川m
m
m 幻対応⁝Mm引  



山町二一制札一陣一一量

ι 一﹁jJIJLilli‑‑lil‑‑Tji‑‑{1til‑‑J3一の

i11

上よ鵡





ま一﹁﹂回目﹁│││﹂戸│‑lillit‑‑﹂!一続
ゆ一コ問問﹁│││時liillit‑‑

FF

げ一ドJ 醜聞

無二

理士一一の

m

  it‑‑!i;!l:!z:j:::!)2一因



晴岬吋一⁝刈⁝川⁝川⁝川⁝⁝川川川 9 8 7 叫泊川府り別M M山口



 11111

 1titil‑‑11111


個一週盤国園田l一一




d

竺一圃
   lE 圃・一一推 
別一﹁田園量豊富配置﹁田園 Eo 一点  ?      
l 
7

一一 2












ア一たいん ; ; X J J J h ' 刊 J J J J J J J 一を 一躍一供出 mt
窓 Z﹂惇
1111111L子
仔﹁
11111
;111111111ell﹂因

示すが,加熱処理あかなしで傾向は類似しているがその効果は異

一0
.
8
3
8

とした.

‑
1
.
9
5
7
の経験ロジット変換値)

最 小 2乗法にてモデ ルを作成した. 図 3に要因の効果のグラフを

0.
40
1
各 n=2個

Ln錆 % =(T~l 観測時点における白錆発生面積率%

X15 Ln錆 %
N
o
. X
1 ・
・
・

の耐食性のモテ.ルを作成した.

応答
実験条件
実験
応答変数を Ln錆%とし,表 3のデータで加熱処理有無それぞれ

‑
2
.
3
8
7

y
u錆面積(%) , n:100(%)
ここで、

表 3 データ(加熱処理なし)

4
.加工品質のモデル化

υ

U2

︑
門ペ

427.

表 4 モデルあてはめの分散分析とあてはめの悪さ(しOF) 要因 自由度 F値 平均平方 平方和 草 E モデル 24 3 9 9 . 2 9 5 1 6 . 6 3 7 3 く R 誤差 5 5 3 1 . 7 9 7 0 . 5 7 8 1 pi 直( P r o b > F ) 全体(修正済み) 7 9 431 .0 92 あてはまりの悪さ(しO F) 1 5 2 3 . 9 5 1 1 .5 967 純粋誤差 40 7 . 8 4 7 0 . 1 9 6 2 p値 ( P r o b > F ) 合計誤差 5 5 3 1 . 7 9 7 草 E モデル 2 5 8 1 7 . 0 3 5 3 2 . 6 8 1 4 ミ ヰ 誤差 誕 54 7 5 . 6 3 9 1 .4 007 Pl i 直( P r o b > F ) 全体(修正済み) 酎 義 E 主 あてはまりの悪さ(しOF) ( R 7 9 8 9 2 . 6 7 4 1 4 5 7 . 2 7 7 4 . 0 9 1 2 異 純粋誤差 40 1 8 . 3 6 2 0 . 4 5 9 0 p値 ( P r o b > F ) 合計誤差 54 7 5 . 6 3 9 J 拒 4 さ ミ ヰ 酎 E 主 ~ 異 ー : : ; 、 ~ 2 8 . 7 8 く. 0 0 0 1 8 . 1 4 く. 0 0 0 1 2 3 . 3 3 く. 0 0 0 1 8 . 9 1 く. 0 0 0 1 モデ、ルあてはめの分散分析とあてはめの悪さ ( LOF)を表 4に示すが,加熱処理有無共にモデルは 分散分析で有意であるが LOFも有意となった.これは,分散分析の誤差にはモデ、ルに含まれない交互 作用などの実験問誤差の存在が考えられるが, 40回の実験でモデルの自由度は既に 24"'25となって いるので、これ以上の説明変数の追加はせずこのモデ、ルを採用した. 5 .加工品質の最適化 表 5 加工品質の予測値 加 工 品 質 ⑧ 電 気 抵 抗 (~n についても前項同 様なモデル化を行い,これら作成したモデ、ルから予 実験 加熱処理なし N o . しn錆 % 測値を算出し表 5のデータを得た. 一0 . 5 5 2 6 この予測値を複数応答変数として,表 1 をモデ 2 1 ‑ 2 . 4 4 7 7 しogQ 加熱処理あり しn鏑 九 2 . 9 0 5 9 一2 . 3 6 8 5 LogQ 6 . 3 8 9 0 . 1 5 8 8 0 . 5 5 4 2 一0 5 . 9 9 9 3 ‑ ル効果の構成とし,満足度関数を使って 4特性の最 4 . 6 1 2 5 1 .0 765 ‑ 3 1 ‑ 0 . 7 9 3 9 3 . 0 8 1 9 適化を図った. 4 . 5 7 2 2 4 1 ‑ 0 . 3 7 2 7 ‑ 1 .0672 ‑ 0 . 8 8 5 8 満足度関数の満足度設定では, 4応答変数共に 5 1 ‑ 5 . 3 9 5 0 6 . 0 1 2 0 ‑ 1 . 71 1 4 2 . 9 7 8 7 ‑ 望小特性で、あるが,満足度の重みを主の加工品質 1 . 4 4 8 4 ‑ 0 . 3 4 5 8 ‑ 2 . 6 3 6 3 6 / ‑ 5 . 6 0 6 2 ‑ である Ln錆%は 0 . 3, 面IJの加工品質である LogQ 7 1 ‑ 4 . 7 3 0 4 5 . 2 0 3 0 0 . 1 1 5 6 1 . 2 2 8 5 は 0 . 2 とし,それぞれに満足度 0 . 5 および満足度 8 1 ‑ 4 . 1 1 0 4 3 . 5 5 6 4 0 . 9 0 1 5 3 . 0 1 6 6 9 1 ‑ 3 . 7 4 0 6 4 . 9 0 1 4 ‑ 3 . 5 7 8 6 2 . 3 9 2 6 1 .0 での応答の目標値を設定し満足度最大化を図 った.最大化の結果を基に,更に闇有技術面から . . .. 量産流動時を考慮して,文末の図 7の出力を得,そ 0 . 5 5 2 3 3 9 ‑ 1 . 4 5 7 5 1 . 9 1 4 8 2 . 0 7 3 3 れより表 6の最適化推定値を求めた. 5 . 7 2 6 2 40 ‑ 3 . 6 6 0 8 5 . 0 6 3 2 ‑ 2 . 9 7 7 7 ‑438ー

428.

この最適化推定値は 4つの加工品質のバラ 表 6 最適化推定値 ンスが良く,そして現状の六価クロムと同等の加 耐食性 工品質を確保している. 電気抵抗 Ln錆% 鏑面積% しogQ m Q また,各要因の最適水準私図 7から求め, 活性化 なし ‑ 6 . 5 9 0 . 1 4 ‑ 3 . 5 3 0 . 3 0 薬液管理・処理条件設定の候補とした.表 7に 処理 あり ‑ 7 . 9 7 0 . 0 3 ‑ 4 . 2 0 0 . 0 6 その最適水準の一部を示す. 表 7 最適水準(一部)と検討範囲 6 .工程管理の許容範囲検討 実工程での量産流動では,最適水準に固定で きない要因がある.表 7で X 1 .X a .X 5 .X Gの工程 管理の許容範囲を検討する モデリング範囲 最適水準 X 1 1 .6 ‑2.4 2 1 . 6 ‑ 2 . 4 X2 2.5‑10 5 ー ‑ 25‑75 X3 25‑75 3 8 4特性(望小)の上限値を満足する領域を 2要 X4 0‑10 5 因毎に示す等高線プロファイルの連関(これを応 X 5 0‑100 2 3 答連関図と名付けた,図 6 )から許容範囲の存在 X 6 0‑10 が確認でき,それぞれの許容範囲は量産流動時 X7 0‑1 。 。 0‑50 0‑10 。 ー ー ー に工程管理可能な範囲と判断した. 図 6 応答連関図(白抜きが満足領域,矢線が許容範囲を表す) pH E i J i ‑ ‑ ; : ; ; . j i E 併 す lX3jj ~ ‑S L ⁝ ‑439

429.
[beta]
7
.まとめ
品1
Pソフトウエアを活用し,表面処理工程の多くの条件で、かつ複数の加工品質の最適化をラボの試験研究

にて進めて来た.その結論を以下にまとめる.

① D.最適化計画により実験規模のミニマム化を図った.
②耐久試験データの解析により,活性化処理は現状の硝酸以外の適用が可能である.
③加工品質のそデ、ル化,多特性の最適化により,量産流動を想定した加工品質を確保した.
今後実機での試験流動にて N 増し確認をする.
図 7 予測プロファイルプロット
山山

rt‑

一
円
ー
ー
ー
戸
ー
ー
‑ ふィ‑‑‑‑‑

ーー~-ーーーヲ

、
,
‑
,
"
1
.
<
¥
1
'
.
.
'¥
1
~

,/

,‑ でー →.‑.‑:てー ‑̲̲,ザででで 一ーー‑r‑""'"ずでーー ーでち守斗一一一 ~品J 十ィイナー

.
,
.
‑
‑
‑
.
.
‑
.
‑
同r

h

υ7R

d
m

τ
.
.
.
:
.
̲
̲
"
.
.
‑
‑

‑
‑
‑
‑
‑
ノ

~竺

デ~守、~‘ーー

一

一

一

ふ~ーで下

ドイて

.
:
.
.
‑
.
‑
:
‑
‑
一
一 角
』
、
ー‑
.
.
.
̲
̲
、
、

9

叩パ

3M暢哩一E dp

︑
ae吻C﹂監事富山 dpa耳 E﹂帽︐︐山 dpcvoJEEgE
4c ・

•
出

,‑ 一ー~ 会‑ー‑‑‑一 ~よ~. ー『字、‑民占、 ¥三一‑‑

,‑
rl'.(,~, ~:-11

.~てア

一

一

~日、4

一~一司-ムニム

,
,

.0

x2

x3

、
ー

~ぞ.r-一ー-、

~戸イ

円一一一一

T

一

一
一
ー
ー
、
ー
ー
、
一
二

「一、比ムー

明
色

4<
一一¥ ←一一‑ー 一~ベ

~ 一ー 一
Jプ
イ
イー
̲
̲
/
一/ 戸ヶイ

円
‑
‑
‑
‑
‑
‑
一
、

ー
一
ー
守
、
一
一
一
、
‑

二~ぞケマナー

一

二ふ‑ー

・
‑
‑
‑
‑
‑
c
‑
ー
ナ

ム~でで一

九 ぷι;/'

一

一

一

一

¥
¥

¥Y

o

m
w

I
Z
.
・
ま

o
@

'
e
具

位

制局

園

活使婚"

‑
a
﹃週

06

︑
"

;~週膚

前‑

参考文献

06

。

'
ー
ー
ー
『
ー
ー
‑
一
目
{
占
、

トーーー{戸

マ
︒

九ベ;

一 ¥

一一
一

一 一

L

r 九刷

色"圏

0

・

7l
i
.
!
l
l

[
1
)

芳賀敏郎, I
品 1PV4による実験計画法入門ーハンスeオン・ワークショップ。配布資事ト」

[
2
)

庚野元久, I
品 1PV4による生存時間分析ーハンスeオン・ワークショップ。配布資料ー」

[
3
)

IJMP4.0統計およびグラフ機能ガイド J,20
0
1
4
4
0

。
。

X1

X6

一

J

ーム斗ふふ占-~

e

x5

、 一

3M

船一w

同

‑一一てー .
:
‑
‑
‑
‑
一
一
一

B 。

430.

日本 SASユーザー会 (SUG1‑0) 古典的実験計画手法と JMPのカスタム計画 岩崎学 成践大学工学部経営・情報工学科 C l a s s i c a lDesigno fExperimentsandCustomDesigno fJMP ManabuI w a s a k i Departmento fI n f o r m a t i o nSciencesandI n d u s t r i a lE n g i n e e r i n g,S e i k e iU n i v e r s i t y 要旨 コンビュータの発展により,データの解析のみならずデータ取得のための実験の計画もソフ トウェアとして提供されるようになって来たー本稿では,古典的な実験計画と JMPが提供する カスタム計画とを対峠させ,カスタム計画の基礎となる最適計画の理論を分かりゃすく解説す る キーワード: JMP,最適計画,応答曲面法,実験計画の自動生成 1 . はじめに 実験計画法は, 1920‑30 年代にイギリスの統計学者であり遺伝学者でもある R. A. F i s h e r( 1890‑1 962) によって創始された.当初の適用分野は農事試験などであったが, 次第に工業への応用が広まり,最近では医学の分野における発展が著しい.同じ実験計 画という言葉で語られてはいるが,その適用分野によってかなり異なる様相を示す.農 業では,作物の植え付けから収穫までの時間が長くかかるためデータを取るのが容易で はなく,ひとつの実験に多くの要因を絡ませる必要が出てくる.また,要因としては, 作物の品種,肥料の種類など質的 ( q u a l i t a t i v e ) なものが多い.それに対し工業において は,実験は比較的短時間のうちに実行でき,一度に少しの要因のみを絡ませたような実 験を逐次的に行なうという方策を取ることができる.要因としては,反応温度,反応時 間などのように量的 ( q u a n t i t a t iv e ) なものが比較的多い.また,医学では,対象が人間 であるため(あるいは最近では実験動物でも)倫理的な問題が絡み,本当に必要な実験 が実行不可能となることもあり,反応に対する個体差も無視できないほど大きいという 4 4 1

431.

難点がある. 昨今のコンビュータおよびソフトウェアの発展は実験計画の世界も変えつつある.現 在,データの解析をコンビュータなしで実行しようとする人はいないであろう.しかし, 実験の計画段階でのコンビュータの利用はまだこれからといえよう.余談であるが,筆 者が実験計画に興味を持ったきっかけは,ある外資系のソフトウェア会社(残念ながら SASではない)から実験計画作成ソフトの紹介を受け,そのメニューの中に T a g u c h iの 名を発見したことにある.海外のメーカーが作ったソフトに T a g u c h iというメニューが あることは当時の自分にとって驚きであった.その後,実験計画ソフトに注目しながら 現在に至っている. o p t i m a ld e s i g n ) の自動生成である.ここ 実験計画ソフトの最大の特徴は,最適計画 ( で,最適計画の歴史を少し振り返ってみる.最適計画の発展は 1 9 5 0年代の J .K i e f e rお よびその周辺による先駆的研究に始まったといっても過言ではないであろう(巻末の参 考文献参照).しかしながら,理論的に美しい成果は得られたものの,それを実行する 9 7 0年代に入ってコンビュータが 手立てにかけ,当時は実用にまでは至らなかった. 1 普及し始め,実際に最適計画を求めるアルゴリズムの研究が進んだ.中でも M i t c h巴1 ( 1 9 7 4 a,b ) の手法は実用性にも優れたものであった.とはいえ,まだコンビュータはメ インフレーム中心で実験現場の技術者が手軽につかえる環境は整っていなかった.その 後 1990年代に入り,パーソナルコンビュータの普及につれようやくコンビュータが身 近なものとなり,実験計画の作成がソフトウェアとして提供され始め現在に至っている. 今後はこのツールを使いこなすだけの力量と経験が必要となる.そのためにも最適計画 の理論の習得は不可欠である. 2 .実験計画の基 礎 多因子実験では水準の組み合わせの種類が多く現実に実行可能な限度を越えてしま う.また,因子と特性値との聞の関数関係が複雑になり,モデル化が一層難しくなる. 適切な計画に基づかない実験は,往々にして本来の研究目的を達成することなく終わる 可能性が高い. たとえば,実験は連続値を取る 2因子 X!, X2 に関するものとし,それぞれの因子の 設定値の範囲は共に[ーし 1 ] とする.表 2 . 1.および図 2 . 1 は 2 種類の実験計画を示し, 計画 A は適切な実験計画に基づかない因子の値(実験条件)の選択,計画 B はずー型要 因実験計画と呼ばれるよい計画のひとつである. 4 4 2

432.

表2 . 1 それぞれ 9個の実験点からなる 2種類の計画 実験番号 計画 A 2 4 3 5 6 7 8 ‑ 0 . 5 0 . 5 9 。。。 。。。。。。。 。 。。 。。 。 x l x2 一0 . 5 計画 B x l x2 0 . 5 1 1 5 註且A 宣亙旦 図2 . 1 それぞれ 9個の実験点からなる 2種類の計画 共に実験回数は 9回であるが,計画 A は計画 B に比べ次のような欠点がある. (1)平面(加法モデル) ( 2 . 1 ) の当てはめでは, β ] (同じく y=。 戸+ β ]X] +戸 内 ι )の最小二乗推定値の標準誤差は,計画 A では計画 B のおよそ1.55倍である. ( 2 ) 平面 ( 2 . 1)が当てはまらないとき,交互作用項を加えたモデル ( 2 . 2 ) yニ s o+β]X] +戸 内 +βlメ ]X2 の当てはめが,計画 B では可能であるが計画 A では不可能である.計画 A では係数 β ] 2 の推定ができない. ( 3 ) 計画 Aでは実験を行なわない範囲が広く,その部分に関する特性値の情報が得られ ず,予測の精度が悪くなる. このように,適切な計画に基づかない実験では,同じ実験回数であってもそこから引 き出される情報の量に差が出てくる計画 B は完全実施要因計画という古典的にょい とされている計画であり,この計画に基づ いた実験結果はその解析も解釈もきわめて容 易なものとなる.しかし,たとえば実験可能回数が 9回ではなく 8回あるいは 7回であ ‑443一

433.

ったらどうしたらよいだろう.古典的な計画理論はこのような現場の要請には答えてく れない.逆に 1 1回の実験が可能な場合には,計画 B に付け加える実験点として伺がよ いだろうかという状況もあり得る.これらの問いにある意味で答えるのが最適計画の理 論である. 実験データの解析法として分散分析を用いるのが古典的な解析法である.因子がカテ ゴリカルな場合にはそれでよいが,連続的な因子の場合には応答曲面のあてはめを考え るべきである.スクリーニング実験では,特性値を y とし各因子を λ:1,...,Xp とした とき , 1次式で表わされるモデル 。 ) ' ニβ+ β山+… ( 2 . 3 ) +s V ' I '+ε を当てはめ,係数 Aの大きさによってその因子の重要度を評価する. ( 2 . 3 ) は重回帰モ デルに他ならず,平面であって曲面ではないが平面は曲面の特殊な場合であるので応答 曲面といってもよい. 因子がある程度絞られた段階では,特性値への影響を詳しく見るために,たとえば 2 次以上の多項式で表わされるような応答曲面 ( r e s p o n s es u r f a c e ) の当てはめが実験の目 的となる 2次多項式であれば,実験範囲内で極値を取るような現象を表現することが でき,また多項式の次数を増やすと推定すべきパラメータの個数が膨大となることもあ って,通常は ( 2. 4 ) ニ ム + む y j~1 jXj + むjjX~ +乞 乞 j二 l j~1 sjkX/k +ε k~1 のような ρ 変量の 2次多項式で表わされるモデルが当てはめられることが多い. ( 2. 4 ) のすべての項を含めるのではなく現場の知見によりいくつかの項をあらかじめ削除す ることもできょう. l次式モデル ( 2 . 3 ) は分散分析でいうところの「主効果」モデルである.そして, ( 2. 4 ) で 2乗の項を含まないモデルは「交互作用」モデルである.このように考えれば,分散 分析も回帰分析も同じ「線型モデル」という数学の土俵の上で議論できる.もちろん非 線型なモデルを考えることも可能である. 3 .よい計画の条件と最適計画 特性値を y とし,実験に取り上げる因子を X] , . . . ,x p としたとき,実験計画の選択 とは ,Xl,.", xp の個々の値(水準)の具体的な値の設定を意味する.実験の目的のひ とつは,連続型因子 λ:} , . . . , xp と特性値 yとの関係式をモデル ( 3 . 1 ) ) ' i=h ( λ :I i , " ' , Xl'i )+民(i=I, . . . , / 1 ) によって近似することにある.ここで,特性値 y に何らかの変数変換 g(y) を施す場合 もあるが,変数変換が必要な場合には変換されたものを改めて y と置くことにより ( 3 . 1)の形に書かれたものとする.そして関数 h ( X I,.• ., x , ) としては l次あるいは 2次 1 といった低次の多項式が採用され,偶然変動 ι に関しては ( 3 . 2 ) ( 1 ) 平均値が 0, ( 2 ) 互いに独立, ( 3 ) 分散が一定, ‑444 ( 4 ) 正規分布

434.

の条件が仮定されることが多い. よい計画の条件としては (ア)関数 h(Xj,• .ぺいを規定する未知パラメータの推定が精度よく行なえる. (イ)興味の対象となる Xjぃ . . ,X" の範囲における特性値の予測の精度がよい. (ウ)仮定されたモデ ルの妥当性のチェックができる. (エ)モデルがうまく当てはまらない場合次に候補となるモデルが示唆できる. (オ)偶然変動の大きさを見積もることができる. (カ)外れ値の存在などの誤差の正規性からのズレに対して頑健である. (キ)追加実験が容易である. (ク)効果の推定などの解析における負担が少ない. (ケ)実験回数がそれほど多くない. (コ)分かりやすい. などが考えられる.これらの各条件は,それぞれに説得力を持つものであるが,互いに 相反する項目もある.モデル式の推定を精度よく行なうためには必然的に実験回数は増 えるであろうし,一度にモデルの推定ならび、にチェックなどの多くの事柄を行なおうと すれば実験は複雑で分かりにくいものになってしまう.したがって,これらの各条件を 考慮しながら現場の状況に合わせた計画を選択する必要がある. 前述のよい計画の条件のうち, (ア)のパラメータの推定精度を上げるという目的を 達成するのが最適計画 (optimumdesign) である.モデル ( 3 . 1)は,ベクトルと行列を用 いて y= Xs+e ( 3 . 3 ) と表わされる.ここで , X はモデルから導かれるデザイン行列 , sは推定すべき未知 パラメータである .β の最小二乗推定値 b は b=( X T X). j X T y ( 3. 4 ) で与えられる(ここで(うは行列あるいはベクトルの転置を表わす記号).そして ,b の 分散共分散行列は, e の分散を d として ( 3 . 5 ) T 一 V [b ]=d(Xめ i となる.これが「小さい」方が望ましいのであるが,( 3 . 5 ) は行列であるので,その小 ささを定めるのは困難である.実際, ( 3 . 5 ) の小ささをスカラー量で表わす方法は一通 T l 幻 一 りというわけではなく,これまでいくつかの指標が提案されている.その中でも ( X の行列式あるいはトレース(跡和) ( 3 . 6 ) I ( X T X γ │ ( 3 . 7 ) t r { ( X T X γ} の二つが用いられることが多い.そして, ( 3 . 6 ) あるいは ( 3 . 7 ) を最小にする計画をそれ ぞれ D‑最適計画 (D‑optima1 design),A‑最適計画 (A‑optima1 design) という . I ( X T X)・j lニ l / I X T X I であるので, ( 3 . 6 ) の最小化と ( 3 . 8 ) D =I X T X I A斗‑ A斗 盆 巳d

435.

を最大化は同等である. 最適計画は,大雑把には実験許容範囲の中で実験点をなるべく広く取る計画となる. 例えば, 1次関数(直線)をデータに当てはめる場合,最小限異なる 2点が必要である 最適計画はそれらの 2点をなるべく遠くに配置する計画となる.仮に 3回以上の が ,D‑ 実験が可能な場合でも,実験範囲の両端でのみ実験をすべきであるとされる.しかし, このようにすると,パラメータの推定精度は向上するものの,モデルが正しいかどうか のチェックはできない.すなわち,ここで述べた Dーあるいは A‑最適計画は,モデルの 選び方に依存し,そのモデルが正しいとしたときにのみ最適となる計画である. まとめて,モデル式における未知パラメータの推定値の標本分散を最小とする,すな わち推定精度を最もよくする計画は次のような性質を持つ. (1)仮定されたモデルが正しいとした場合に,そのモデルを規定する未知パラメータの 推定値の標準偏差(あるいは分散もしくは分散共分散行列の大きさを表わす何らかの 関数)を最小にする. ( 2 ) 実験点は,互いになるべく離れた点からなる.たとえば, 1 次式を当てはめる場合 には,実験を行なう範囲の端点のみからなり, 2次以上の多項式の場合には,端点とそ れらを等分する点が実験点となる. ( 3 ) モデル式を決定するために必要な最小限度の実験点でしか実験を行なわないため, そのモデルが正しいかどうかのチェックができない. ぃ .• ' ) ' . ' 1 と特性値 y との関係式 次に,実験を基に因子 X, ( 3 . 9 ) Y= j{ h ...,x p) が推定されたとき,実験を実際には行なわなかった値における特性値の予測を考える. この場合,その予測値の精度が高いことが望ましい.予測誤差分散の最大値(最も不利 な場合に相当)が極端に大きくならないような計画は,最悪な場合でもある程度の精度 ‑最適計画 (E‑optima1 を保つような計画であり,よい計画といえよう.この種の計画を E 1 9 8 2 )は d e s i g n ) という.このように,最適性はアルファベットで表わされるため, Box( a l p h a b e t i co p t i m a l i t yとよんでいる. 4 .最適計画の性質 ここでは JMPの出力を見ながら実験計画の作成手順と留意点を述べる.まず計画作 . 1が JMPの実験計画作成メニューで,ここから各種の計画を選ぶこ 成の手順から.図 4 とができる. ["スクリーニング計画 j, ["応答曲面計画 j, ["完全実施要因計画 j, ["タグチ 配列」がいわば古典的な計画であり(タグチは古典か! ?),ここでは「カスタム計画」 を選択する. 4 4 6

436.
[beta]
P(
l!sJlII一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一
フ
ァ
イM
[) 編集<Pf
実験計画〈∞ E
)
(
旦
) 分析{必 ザ
ラ7(Q)、表示ω ウインドウ O
f
!
.
Jへ
W1
.ゆ

伊 概ol
l
'
'
'
'
!
I
I
1占 十

;口口防総
,‑

ト
一
一
一
一
一
一
一
一

6
i
l
;
l
.
'
J
'
)
‑
ニ
ン
担
計
画
*応筈樹齢画

P I i[
0
'

"h

@完全実胞要因計画

王手知子配~'J
ム配合計画
@鉱集計画
匂標本サイズ/検出力

図4
.
1JMPの実験計画作成メニュー
最適計画の適用に際し必要な情報は以下のようである.
(1)応答:実験における特性値
(
2
) 因子の個数と特性(カテゴリカル,連続, .
..)

(
3
) 因子に関する制約条件(なくてもよい)

.
.
.)
(
4
) 想定するモデル(主効果,交互作用, RSM,
(
5
) 実験回数

これらは JMPの計画作成メニューに示されているので(図 4
.
2参照), ここで適宜設定
すればよい.

隊E
国主碕 E開 師 団...一
一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一 ‑
1ロI
x
l

二i
J

マニ友主主主孟量
、~.I(;答

ヱ笠型D...~L..~'旦」ヱ製;J
E害邑
目標
下両限界
ι

汁1
,回 y

最大化

よ(1
1
線再

I

重要度

T一一一一

;
.
ニ
'3

φ扇子

同 有 志o(!'l
力
テ
ゴ1
)力)
1
. ,1

7日
,
i
J

~旦JN園町因子~il.hD[J]

Ij
泌 リ … . . .i
画一い吋日一一

速G
!
:
J
ミ
度

空 I~ 主き

'
1 主民主五

山

と
t

い

持支量
配合
マ定蝕

ヱ 也 型U

守主工ι
一一一

三盟主j
三竺旦~~2:主j ぷ主主主J ~13笠笠一
‑.̲ . ・ ・ 一 面 画

極ÍÎ:~

~

E

j
X
l
jX2

・

X3
Xl Xl
lXl~X:2
iX2 X2
iX1・x3

・
i

ψ計画の生露

実唖町回数亡二‑‑三E
<
"
1
;
1
‑
)
、

0 デフ"I~ト

4

'
6

F 書簡票

"

Fヲ
'
)
'
:
,
1
'

21

こj
よJ!
!

図4
.
2JMPの計画作成画面
4
4
7
437.

因子数を 2 としそれらは連続,実験可能領域はどちらも [ ‑ 1,1 ] であるとして具体的 に計画を求めてみる.まず,想定するモデルを 2次多項式 XI X2 y=so+β I X I+戸内 +βlバ/+s が /+β 1 2 とする.実験回数 n=7.8.9.10 として JMPにより求めた実験点を図示すると図 4 . 3の ようである.次に, nニ 8 で固定し,モデルを ・主効果モデル: y=so+β I X I+s 山 ‑交互作用モデル: X2 y=so+β山 +s 山 + βlメ I .平方モデル: y=so+Atl+s 山 + βl内 2+sが 2 2 X2+β XI X2 ‑ X 2 2 を削除したモデル: y=sO+β山 +s 2 lバ/+β1 2 と変えた場合の計画を求め図 4.4に示す. これらから最適計画の特徴をいくつか読み取ることができる.まず,実験可能領域を . 3の n=9 での フルに使っている点が上げられる.しかも配置のバランスがよい.図 4 . 1 の計画 B (完全実施要因計画)に一致している.すなわち,古典的によい 結果は図 2 計画は最適計画の枠組みにおいても依然としてよい計画なのである.しかし, i 無駄な 点」での実験は行なわない.ここで, i 無駄」と書いたのは,想定したモデルの未知パ . 3の 11= 1 0で ラメータの推定以外に使われる実験点という意味である.たとえば,図 4 0番目の実験点は n=9 での Iつの実験点と重複している.さらに極 の配置では,第 1 端な配置は,図 4.4の主効果モデルおよび交互作用モデルの場合である.どちらも同じ 実験点で 2回ず、つ実験する計画になっている.実際上の観点からは無駄な気がするが, パラメータ推定の観点からはそれ以外の実験点こそが無駄なのである. ここから最適計画適用のためのストラテジーが導かれる.それは, i モデルとして多 少複雑なものを想定する必要がある」という点である.すなわち,交互作用モデルを当 てはめる場合であっても,そのモデルが正しいという確信がある場合は別にして,やや 複雑な 2次多項式モデル程度は想定しておく必要がある.モデ、ルのチェックをしなくて はならないからである. ‑448一

438.

1 0 5 戸{一一町一一一一ーを 5 ー ザ 「一 皿 ト ‑ ‑ ‑ ‑ ‑ ‑ 1 1 ‑15 ‑ 1 0 . 5 1 .5 1 ;5 0 . 5 ‑ 0 . 5 一1 0 . 5 」一一一一一一一一一一→,5 1ニ 8 nニ 7 2 ‑ 1 .5 一 口5 ト 一 一 一 一 一 ・ ; 5 0 . 5 1 ‑ 1 ‑ 0 . 5 ト 一 一 一 一 一 一 一 種 一 一一 一 ‑1 【 一 一 一 … 一 一 一 一 一 一 一 一 一 … 一 一105 1 1 = 9 η = 1 0 図4 . 3 2次多項式モデル当てはめのための最適計画仇ニ 7 . 8 . 9 . 1 0 ) 2 2 2 一 一 ・ 一 ー さ 」 0 . 5 0 . 5 2 1 ; 5 0 . 5 2 L 一 一 0 . 5 2 2 J ̲ . ‑ 日 白 山 主効果モデル 一 一 司 ‑ 1, 5 交互作用モデル 4 4 9ー 1 ;5

439.

fT‑1; ベ = 一 一 一 一 一 」 ‑ 1 . 5 ;~I 0 . 5 0 . 5 1 1 i5 ‑I ‑'‑‑‑.‑‑L5 平方モデル 主22 を削除したモデル 図 4. 4 nニ 8 と固定し,モデルを変化させた場合の計画 5 .おわりに 最適計画について,簡単ではあるがその特徴を述べてきた.ここでは最も簡単な 2次 多項式のみを扱ったが,それ以外の非線型モデルの想定の下での最適計画の理論もある. また,配合計画でも最適計画は重要な役割を果たす.計画作成の背後にある理論の理解 にはベクトルと行列の線型代数の知識を必要とする(もちろん統計の知識も). I 実験計 画の専門家」たるものは最低限この程度は身に着けておかねばならないだろう. 参考文献 ここには,本文中での言及の有無にかかわらず,筆者の所蔵する英文の文献のうち最 適計画と応答曲面法にかかわるものをあげておいた(単行本は実験計画一般のものを含 む).読者諸氏の参考になれば幸いである. 0 単行本 A t k i n s o n,A.C .andDonev ,A .N .( 1 9 9 2 )O p t i l l 1u l I lE ヰJ e r i l l l e n t a lD e s i g n s .OxfordU n i v e r s i t y O x f o r d . P r e s s, .E .P .,Hunter ,W. G . and Hunter ,J .S .( 19 7 8 )S t a t i s t i c sfor E x p e r i l l 1e l l t e l ・ s . An Box,G n a l y s i s,andModelBLli l d i n g .JolmWi1ey& Sons,New I n t r o d u c t i o nt oD e s i g n,DataA Y o r k . .E .P .andDraper ,N .R .( 1 9 8 7 )E m p i r i c a lModel品 11・ l d I n gandResponseSu , ̲ r 向c e s .J o h n Box,G o r k . Wiley& Sons,NewY .A.( 19 9 0 )E x p e r I l I le n t s¥ ¥ ' i r hM i x t l l r e s .D e s i g n s,Models,andr h eA n a l y s i sofM i x r l l r e Comell,J o r k . D a t a .JolmWiley& Sons,NewY .R .andReid,N .( 2 0 0 0 )TheTheoη ofr h eD e s I g nofE x p e r i m e n r s .Chapman& H a 1 1, Cox,D London. 4 5 0ー

440.

Hinkelmann,K .and Kel1lp t h o l l l e,O .( 19 9 4 )D esignandAnα! y s i so jε J : per i m e n ts .V o !u l I 1e1 : . λp e r i l l 1e n r a !D e s i g n .JohnWiley&50ns,NewY o r k . I n t r o d l l c t i o nt oE .1 .andC O l l l e l l,J .A .( 1 9 8 7 )Respol 1s eSlIIf a c e s .DesignandA n a ! y s e s .MarcelDekker , Khuri,A NewY o r k . .L . , Gunst,R .F .andHess,J .L .( 1989)S t a t i s t i c a !Design& A n a ! y s i s ・o fE x p e r i l l 1e n t s Mason,R i t hA p p ! i α7 t i o l lt oE n g i n e e r i n gandS c i e n c ・ e .JolmWiley& 50ns,NewY o r k . l I ' .( 1 9 8 8 )刀l eDesignofE x p e r ill1e n t s .S r a t i s t i c a !P r i l l c i p ! e s戸rP r a c t i c a !A p p ! i c a t i o l l . Mead,R CambridgeU n i v e r s i t yP r e s s,Cambridge. ,D.C .(1991)Designa l l dA n a ! y s i sofE x p e r i l l l e n t s .T h i r dE d i t i o n .JohnWiley& Montgomery NewY o r k . 50ns, Myers,R .H . and Montgomery ,D .C . (1995) ResponseS/ I ゆceMethodo!ogy. Processa l l d ごa t i o nU s i n gDesignedE x p e r i m e n t s .JohnWiley& 50ns,NewY o r k . P r o d l l c tOptimi .( I9 9 3 )O p t i l l l a !DesignofE x p e r i l l l e n r s .JohnWiley& 50ns,NewYork Pukelsheim,F 1 9 9 4 )P ! a n n i n gP l lOr l l l a c ell(i c a !C ! ul Ic a !T r i a ! s .J o l 1 l 1W iley & 50ns,New Wooding,W.M. ( Y o r k . 0 学術論文 Atkinson,A .C .( 1 9 9 1 )O p t il1lum d e s i g no fe x p e r i m e n t s .1 n Hinkley,D .V .e t al .( E d s ) S t a t i sl I c a !Theoryωl dM o d e l l i n g,I nH o n O l l r4S i rD αv i dCox ,F RS.ChapmanandH a l l, London,2 0 4 ‑ 2 3 1 . .E .P .( 1 9 5 2 )M u l t i ‑ f a c t o rd e s i g n so ff i r s to r d e. rBiometrika,39,49‑57. Box,G Box,G .E .P .( 1954) The e x p l o r a t i o n and e x p l o i t a t i o no fr e s p o n s es u r f a c e s : 50me g e n e r a l l e s .B i o m e t r i c s,10,1 6 ‑ 6 0 . c o n s i d e r a t i o n sandexal1lp .E .P .( I982)Choiceo fr e s p o n s es u r f a c ed e s i g nanda l p h a b e t i co p t il1la l i t y .U t i ! i t u sM a t h ., Box,G B,21,1 1 ‑ 5 5 . .E .P .andDraper ,N .R .( 1 9 5 9 )A b a s i sf o rt h es e l e c t i o no far e s p o n s es u r f a c ed e s i g n . Box,G J O l lli1a !oft h eAmericanS t a t i s t i c a !A s s o c i a t i o l l,54,622‑654. . and Draper ,N .R .( I9 7 1 )F a c t o r i a ld e s i g n s,t h eI X χ Icriterion,andsomerelated Box,M. J e c h l l ol/le t r i c s,13,731‑742. m a t t e r s .T Box,G .E .P .andWilson,K .B .( 1 9 5 1 )Ont h ee x p e r il1le n t a la t t a i n m e n to foptimumc o n d i t i o n s . J O l lli1a !oft h eRoy ピ I lS t a t i s t i c a !S o c i 仰 . , S e r i e sB,13,1 ‑ 4 5 .D.andNachtsheim,C .1 .( I9 8 0 )A comparisono fa l g o r i t h m sf o rc o n s t r u c t i n ge x a c t Cook,R e c l l l l o m e t r i c s,22,315‑324. D‑optimald e s i g n s .T Dykstra,0 .,J . r( υ 1 9 7 1 )百 Th 児 巴 a u g m e n t a t l ω o no fexpe 訂 叩 r 吋1 m 悶e 叩n 川 l t a ld a t at ω oma 出幻 X 山 1 1 口 I 巾 1 3,682‑688. E l f v i n g,G .( 1952) Optimum a l l o c a t i o ni nl i n e a rr e g r e s s i o nt h e o r y .A n l l a ! sofMathematica! S r a t i s t i c s,23,255‑262. ‑451

441.

Evans,J . W. ( 1 9 7 9 ) Computer a u g m e n t a t i o no fe x p e r i m e n t a ld e s i g n st o maximize I Xχ 1 . T e c h n o m e t r i c s,21,321‑330. . and K i e f e r ,J .( 19 7 7 ) Comparison o f Box‑Draper and D‑optimum d e s i g n sf o r G a l i l,Z e c h n o m e t r i c s,19,441‑444. e x p e r i m e n t sw i t hm i x t u r e s .T . andK i e f e r ,J .( 1 9 8 0 )Time‑ands p a c e ‑ s a v i n gcomputermethods,r e l a t e dt oM i t c h e l l ' s G a l i l,Z o rf i n d i n gD‑optimum.T e c h n ol1le t r i c s,22,301‑313. DETMAX,f .L .andMitchell,T .J .( 19 7 2 )" R e p a i r i n g "r e s p o n s es u r f a c ed e s i g n s .T e c h n ol1le t r i c s,1 4, Hebble,T 7 6 7 ‑ 7 7 9 . .andHunter ,W.G .( 19 6 6 )A r e v i e wo fr e s p o n s es u r f a c emethodology:al i t e r a t u r e H i l l,W.J e c h n ol1le t r i c s,8,571‑590. s u r v e y .T Johnson,M.E .andNachtsheim,C .J .( 19 8 3 )Someg u i d e l i n e sf o rc o n s t r u c t i n ge x a c tD ‑ o p t i m a l 7 1 ‑ 2 7 7 . d e s i g n sonconvexd e s i g ns p a c e s .Technometrics,25,2 . and E c c l e s t o n,J . A. ( 1 9 8 0 ) Exchange and i n t e r c h a n g ep r o c e d u r e st os e a r c hf o r Jones,B ft h eR o y a !S t a t i s t i c a !S o c i e t y ,S e r i e sB,42,238‑243. o p t i m a ld e s i g n s .Jouma!o ,J .( 1 9 5 8 ) On t h e nonrandomized o p t i m a l i t y and randomized n o n o p t i m a l i t yo f K i e f e r n n a ! so fMathel1la t i c a !S t a t i s t i c s,29,675‑699. s y m m e t r i c a ld e s i g n s .A K i e f e r ,J .( 1959)Optimume x p e r i m e n t a ld e s i g n s .J O l l r n a !o ft h eR o y a !S t a t i s t i c a !S o c i 的" S e r i e s B,21,2 7 2 ‑ 3 1 9 . .( 1961a ) Optimum d e s i g n si nr e g r e s s i o n problems,1 1 .A n n a ! so fMathe l 1 la t i c a l K i e f e r,J S t a t i s t i c s,32,298‑325. ,J .( 1961b ) Optimum e x p e r i m e n t a ld e s i g n s V,w i t ha p p l i c a t i o n st os y s t e m a t i c and K i e f e r r o c e e d i n g so f t h eF O l l r t hB e r k e ! e yS y m p o s i l l l l l,1,381‑405. r o t a t a b l ed e s i g n s .P ,J .( 1 9 6 2 ) Two more c r i t e r i ae q u i v a l e n tt oD ‑ o p t i m a l i t yo fd e s i g n s .A n n a ! so f K i e f e r M a t h e m a t i c a !S t a t i s t i c s,33,792‑796. K i e f e r ,J .( 1 9 7 4 )G e n e r a le q u i v a l e n c et h e o r yf o roptimumd e s i g n s( a p p r o x i m a t et h e o r y ) .A n n a ! s ,2 ,8 4 9 ‑ 8 7 9 . o fS t a t i s t iιs ,1 .( 19 7 5 ) Optimal d e s i g n :v a r i a t i o ni ns t r u c t u r e and performance u n d e r change o f K i e f e r i o m e t r i k a,62,277‑287. c r i t e r i o n .B ,J . and Wolfowitz,J .( 1 9 5 9 ) Optimum d e s i g n si nr e g r e s s i o np r o b l e m s .A n n a ! so f K i e f e r M a t h e m a t i c a !S t a t i s t i c s,30,271‑294. K i e f e r ,J . and Wolfowitz,J .( 19 6 0 ) Thee q u i v a l e n c eo ftwo extremum p r o b l e m s .C anadian J O l l m a !o fM a t h e m a t i c s,12,363‑366. Mead,R .( 1990)Then o n ‑ o r t h o g o n a ld e s i g no fe x p e r i m e n t s .J O l l/'lla !o ft h eR o y a !S t a t i s t i c a ! ,S e r i e sA,153,151‑201 . S o c i e t y Mead,R .andP i k e,D .J .( 1975)A r e v i e wo fr e s p o n s es u r f a c emethodologyfromab i o m e t r i c .B i o m e t r i c s,31,803‑851. viewpoint .J .( 1 9 7 4 a )Ana l g o r i t h mf o rt h ec o n s t r u c t i o no f" D ‑ o p t i m a l "e x p e r i m e n t a ld e s i g n s . M i t c h e l l,T 4 5 2ー

442.

T e c h n o l l l e t r i c 、 s ,1 6,2 0 3 ‑ 2 1 0 . M i t c h e 1 1,T .J .(1974b)Computerc o n s t r u c t i o no f" D ‑ o p t i m a l "f i r s t ‑ o r d e rd e s i g n s .T e c h n o l l l e t r i c s, 16,2 1 1 ‑ 2 2 0 . Myers,R . H. ( 1 9 9 9 ) Response s l l r f a c e methodo10gy ‑c u r r e n ts t a t u s and f u t u r ed i r e c t i o n s . J o u r n a !o fQ u a ! i ηT e c h n o ! o g y,31,3 0 ‑ 4 4 . . H.,Khuri,A. 1 . and C a r t e r ,W. H .,J r .( 19 8 9 ) Response s u r f a c e methodology: Myers,R 1 9 6 6 ‑ 1 9 8 8 .T e c h n o m e t r i c s,31,1 3 7 ‑ 1 5 7 . S i l v e y ,S .D .andT i t t e r i n g t o n,D .M.( 1 9 7 3 )A g e o m e t r i ca p p r o a c ht oo p t i m a ld e s i g nt h e o r y . B i o m e t r i k a,60,2 1 ‑ 3 2 . .J ohn,R .C . and Draper ,N .R .( 19 7 5 )D ‑ o p t i m a l i t yf o rr e g r e s s i o nd e s i g n s :ar e v i e w . St T e c h n o m e t r i c s,17,1 5 ‑ 2 3 . ,W. G .( 19 8 4 )E x p e r i m e n t a 1d e s i g n :r e v i e w and comment . S t e i n b e r g,D. M. and Hunter T e c h n o m e t r i c s,26,7 1 ‑ 1 3 0 . T i t t e r i n g t o n, D . M. ( 19 7 5 ) Optima1 d e s i g n : Some g e o m e t r i c a la s p e c t so fD ‑ o p t i m a l i t y . B i o m e t r i k a,62,313‑320. T i t t e r i n g t o n,D .恥 1 .(1980)Aspectsofo p t i m a ld e s i g ni ndynamics y s t e m s .T e c h υ F 刀 1 0 ω F η / 1 刀 1 l e t μ n κ 正 c . ム 22 , 2 8 7 ‑ 2 9 9 . Welch,W.J .( 19 8 2 )Branch‑and‑bounds e a r c hf o re x p e r i m e n t a 1d e s i g n sb a s e donD o p t i m a 1 i t y ando t h e rc r i t e r i a .T ec/lI1o l l l e t r i c s,24,4 1 ‑ 4 8 . . ( 19 8 4 ) Computer‑aided d e s i g no fe x p e r i m e n t sf o rr e s p o n s ee s t i m a t i o n . We1ch, W. J T e c h n o l l l e t r i c s,26,217‑224 .( 1 9 8 5 )ACED:A 1 g o r i t h m sf o rt h ec o n s t r u c t i o no fe x p e r i m e n t a ld e s i g n s .Americ C ln Welch,W.J S t a t i s t i c i a n,39,1 4 6 . Wynn,H.P .( 19 70)Thes e q u e n t i a lg e n e r a t i o no fD‑optimllme x p e r i m e n t a ld e s i g n s .Anl1( / ! so f Mathematic σ !S t a t i s t i c s,4 1,1 6 5 5 ‑ 1 6 6 4 . Wynn,H .P .( 1 9 7 2 )R e s u 1 t si nt h et h e o r yandc o n s t r u c t i o no fD‑optimumd e s i g n s .Jouli1a !o ft h e , メS e r i ι B, 34,1 3 3 ‑ 1 4 7 . Roya!S t a t i s t i c a !S o c i e t ︐ パ ヨ つJ に υ

443.

ポスターセッション 医薬品開発

444.

日本 S A Sユーザー会 (SUG I‑J) 症例一覧表作成ツール rCATSJによる 臨床試験データの読み合わせ用帳票の作成 0山 橋 愛 子 ぺ 安 藤 友 子 ぺ 山 内 み ず き ぺ 甘 手J I裕 邦 ぺ 大 橋 靖 雄 叫 川有限会社電助システムズ *2 NPO法人日本臨床研究支援ユニット り財団法人パフリックヘルスリサーチセンター乳がん臨床研究支援事業事務局 叫東京大学, NPO法人日本臨床研究支援ユニット Aboutt h ec r e a t i o no fl i s t sf o rc o l l a t i o no ft h ec l i n i c a lt 巴s td a t a byt h ecaset a b l ec r e a t i o nt o o l"CATS" A i k oY a m a h a s h i・ " TomokoAndou・ 2, M i z u k iY a m a u c h i・ 2, H i r o k u n iA m a r i・ 3, Y a s u oO h a s h i, P h . D .*4 , * DensukeSystemsC o . .Ltd .・ , 2J a p a nC l i n i c a lR e s e a r c hS u p p o r tU n i t ・ 3C o m p r e h e n s i v eS u p p o r tP r o j e c tf o rO n c o l o g i c a lr e s e a r c ho fB r e a s tC a n c e r ・ 4U n i v e r s i t yo fT o k y o,J a p a nC l i n i c a lR e s e a r c hS u p p o r tU n i t 要旨 NPO法人日本臨床研究支援ユニットにおいて、症例一覧表作成ツ ル iCATSJを使っ て 、 SASデータセットとして保存された臨床試験データを原帳票 (CRF)と同様の書式で出 力し、システムに入力されたデ タ値と原帳票のデータとの整合性を確認する作業(いわゆ る「読み合わせ J)に利用することを試みた。また、出力対象症例ならびに書式の選択と出 力を補助するための簡単なシステムも作成したので、紹介する。 キーワード: 症例一覧表作成ツール iCATSJ,臨床試験,読み合わせ, SAS データセット, M i c r o s o f tE x c e lへの出力, SAS/AFソフトウヱア 1.はじめに 研究者主導研究の支援を主な目的とした NPO法人日本臨床研究支援ユニット(代表:大 橋靖雄)では、現在、臨床試験データの入力・管理には「臨床データ入力・管理システム ~DEM.A.ND~J (有限会社電助システムズ製ご以下、 DE¥ t IAND)を採用しているじこの DEMAND は 、 S. . ¥ S システムのみで、構築されたシステムで、あり、データベースも SAS データ セットのみで 床 研 究 支 援 事 業 (Comprehensiv巴 Support P r o j e c tf o rO n c o l o g i c a l Research o fB r e a s t a t i o n a l Cancer (CSPOR‑BC))の 一 環 と し て 、 乳 が ん 術 後 補 助 療 法 研 究 グ ル ー プ (N S u r g i c a lAdjuvantStudyo fB r e a s tCancer (N‑SASBC))により実施されている「ホルモン療 4 5 7

445.

法低感受性、腕嵩リンパ節転移陽性乳がん症例を対象とした術後化学療法ランダム化比較 試 験J (以下、 N ‑ S A SBC0 2試験)についても、 DEMANDを使用することになったC その際、 データベース構造やコンピュータの出力にあまり思1[染みのないスタッフにも、今後、データマ ネジメント業務の一部を担当してもらうことも視野に入れて検討したところ、「読み合わせ」の 問題が浮かんできた。 DEMANDでは、通常、 1 つの臨床試験症例報告書(以下、 C R F )から得られる情報は、正 規化された複数の S A Sデータセットに分割して入力される C 入力データの確認の方法として は、ダブ、ルエントリされた入力データを比較して不一致を検出する機能のほか、サードエント リのモジュールも用意されているが、今回は、タ守ブ、ルエントリと読み合わせを併用して確認す EMANDでは"手を加えない状態でデータ内容を確認しなければ本当の ることになった。 D 確認にならない"としづコンセプトから、入力データは P R I N Tプロシジャと同様の形式で、出力 される。しかし、正規化されたデータは必ずしも原帳票とは一致していないので、そのままの 出力では、データベース構造やコンヒ。ュータの出力にあまり恩1[染みのない人にとって非常に わかりにくく、読み合わせは容易ではない。そこで今回は、電子データの出力をなるべく原 帳票に近い形で出力した「読み合わせ用帳票」を作成することにした。 読み合わせ用帳票の各種フォームのデザインおよび S A Sデータセットからの同フォームへ の出力には、「症例一覧表作成ツーノレ ~CATS~J (有限会社電助システムズ製。以下、 C A T S )を利用することにした。これは、 SASデータセットから M i c r o s o f tE x c e l(以下、 E x c el ) 上に作成された一定の書式への出力を比較的容易に行えるツールで、ある c また、出力対象 を指定するための簡単なシステムを S A S / A Fソフトウェアにより作成したので、以下、これら の概要について述べる。 2 .読み合わせ用帳票の作成 2‑1.CATSについて CATSは、「症例一覧表作成ツール」としづ名称のため、いわゆる症例一覧表しか作成で きない、と思われがちであるが、単に 1 1つの S A Sデータセットのデータ内容を、 1オブザ ベーションご、とに、 E x c e lシート上の予め指定されたセノレに変数単位で、書き出す J ための道 具なので、例えば、 S A Sシステムの統計解析用プロシ、ジャの実行結果を S A Sデータセットと x c e lシート上の決まった位置に出力してレポートを作成するな して取得し、得られた数値を E ど、工夫次第でいろいろなことに利用することができる。 C ATSを使えば、 E x c e l、ンートへの データ値の出力位置の指定がドラッグ・アンド・ド ロップで、簡単にで、き、 S A Sデータセットから の出力も簡単に実行できる。さらに、インターフェースを介してインタラクティブ、に実行するだ 4 5 8

446.

けでなく、 SASシステムのプログ ラム上から呼び、出してパッチ的に実行することもで、きるので、 他のシステムで出力エンジンとして使用することもできる c 2‑2.読 み 合 わ せ 用 帳 票 を 出 力 す る ま で の 手 順 以下に、読み合わせ用帳票を出力するまでの手順をまとめる。 ( 1 )読み合わせ用帳票のレイアウト(書式)を作成する E x c e l の機能で線をヲ│し、たり、枠で囲んだり、網掛けをしたり、固定の文字列を書き 込んだりして、好きなようにレイアウトを作成する。 CRFの書式を Excelで作成している 場合には、そのファイルをそのまま利用することも可能で、ある C ( 2 )出力元の SASデータセットを準備する 出力元の SASデータセットは、前項 ( 1 )で作成したレイアウトの 1ページ分の情報が 1つのオフ。ザベーションに格納される形で、なければならない c 今回は、レイアウトごとに デ?ータ加工フ。ロク、、ラムを作成し、それぞれの出力元 SASデータセットを作成した。 図 1に DEMANDデータベース内の SASデータセットの例を示す。図 2は、それを加 工して作成された読み合わせ用帳票出力元 SAS データセットの例で、ある。(次頁参 照) ( 3 )ユーザ 定義 SASフォーマットを作成する 今回作成した読み合わせ用帳票には、コード値を文字列に変換して出力したい箇 所があったので、ユーザ定義 SASフォーマットを作成した c DEMAND にはコード値と その内容の入力・管理が可能な「入力基準書作成」機能があり、このコード値に関する 情報も SAS データセットとして保存されている。今回はそのデータを利用して、 FORMATフ。ロシ、ジャの CNTLINオプションを使ってユーザ定義の SASフォーマットを 作成した c ( 4 )読み合わせ用帳票のレイアウト上に変数名の出力位置を指定する ( 1 )で作成した読み合わせ用帳票のレイアウト上の、データ内容を書き出したいセ ル内に、 CATSの仕様にしたがって ( 2 )の出力元 SASデータセットの変数名を配置す る 。 CATS では、最も単純な書き出しの場合、 I@+変数名+(フォーマット)Jとしづ文 字列を、データ内容を書き出したいセル内に記載することで出力位置を指定する。こ のとき、 CATS の「症例一覧表のレイアウトファイルを作る」の「変数リスト作成」機能を 利用すれば、書き出したい変数を選択し、書き出し位置(セル)にド ラッグ・アンド・ド ロップで、移動するだけで、出力位置を指定できるこ 4 5 9ー

447.

「経過報告(有害事象:調査項目 ) J 一周 一主 cI 一 1111 mmm山内山町山内山 一不 一※入 一ド記 一周一な ↑使コ的 一不用名体 一※使象具 一ド不号事の 一一※番名害名 一日コ名目日有目 一 状状項項載無項 d 一川 D 号 症 症 象 象 記 有 象 ル一 番 ・ ・ 事 事 F の e事 べ一日比復患患害害 R状刊害 ラ 一 臼 加 反 疾 疾 有 有 C 症戸川有 'Y 沼町一 式一 パ ‑FHUFHU ‑nHUUUARhluhHU H 内 U 1N 川 nunμUMA τEArlnupし U A日 nUR4BnUU円 nn え ‑ F L i whnunuIJvnpし vapUUA ‑ q u T i p a u内 ksDAFAFADADAFA 置一 O B 川 引 凶 m M M M 臼 印 ん人 米女 Af 力一 入一 i i 6 2 1 2 . 1 2 5 2 6 2 7 形一 0 3 0 0 1 0 3 0 0 2 0 3 0 0 3 0 3 0 0 . 1 0 3 0 0 5 03006 力一 00003 00003 00003 00003 00003 00003 式↑ 立一 3 0 3 1 3 2 3 3 一8 8 8 2 10 1 JC 一 18 10 18 8 8 0 長一 プ一 \IDR~O イ一値値値字字値字字値値字 タ一数数数文文数文文数数文 REPNO nυnunu ・3 ‑ 一 CASEI D 変一日山悶閃 = 一 123j5678901 O B S 回 ‑85 t ‑zz <データ構造> ベ <データ内容> 3~ 3 5 C R F K A ¥ I E \IDRY~ ・・ー 浮腫 感覚性神経障害 子宮内膜癌以外の二次性悪性腫揚 子宮内膜癌 左心室機能 心血管系(不整脈) ( 図1 ) DEMANDデータベース内 S A Sデータセットの例 <データ精造( 部抜粋)> ヰ変数名 タイプ長さ位置出力形式 1 C A S EI D 数値 1 1 1 N S T K A ¥ I E 文字 1 2 DEPT : iA ¥ I E 文字 1 3 DOCTOR 文字 1 7 AEOY¥ 数値 1 8 GROUP¥O 数値 1 9 GROUPi 1 1 ¥ 文字 2 8 C R F ¥ ¥ I I 文字 2 9 C R F ¥ ¥ 1 2 文字 ' i¥ 1 3 文字 3 0 C RF 3 1 C R F i 1 ¥ H 文字 3 2 C R F K ¥ 1 5 文字 3 3 C R F t i ¥ 1 6 文字 3 . 1 ¥ I D R Y K I 数値 数値 3 5 ¥ I D R Y K 2 数値 3 6 ¥ I D R Y ¥ 3 3 7 \IDRYK~ 数値 3 8 ¥ I D R Y ¥ 5 数値 3 9 ¥ I D R Y K 6 数値 8 1 0 2 0 2 0 8 8 1 0 1 0 1 0 1 0 1 0 1 0 1 0 8 8 8 8 8 8 0 Z 5 . 1 3 6 1 i 6 1 9 6 入力形式 ラベル 5 . C a s eC a r dI D 施設名 科名 責任医師または分担医師 有害事象:G rade2以上のその他有害事象有無 グループ番号(調査時期番号) グループ名(調査時期名) 22~ 2 3 2 2 . 1 0 3 1 1 3 8 1 1 2 1 ~6 1 5 0 1 5 1 1 5 8 . 1 5 9 2 6 0 0 6 0 8 6 1 6 6 2 1 i l 有害事象羽目名 r 入力データの CRFNA¥IEより (6オプザベーション分のデータ値) ノ ' ¥ I 有害事象項目ごとの症状の有無 ( 入力データの ¥ I D R Y Nより I (6 オプザベーション分のデータ i~i) ) ( 図2 ) 読み合わせ用帳票出力元 S A Sデータセット(プログラムによる加工後)の例 460

448.

@MDRYNl(MDRYNF.) 義 ザ iiiE 問所﹁ 町一一 旧万一 ( 図3 ) 読み合わせ用帳票のレイアウト (CATSレイアウトファイル)の例(一部) r ,亮み合わせ用] ,, 印刷日 : 2 0但 /sn201B 3 ホルモンm; !!~t会阻恵リンパ節伝If庖性 5しがん を対象とした衝 f 量化学麿まランヲム化比叡該霊安 . f (N.SAS'BC02) 程過 告書 '"ベジ フォーマット MDRYNFにより 変数 MDRYNlのデータ値 " 111 が文字列「無」として出力されて し 、 る V:有害事量 N~ 百日各 e 写1 1' "昼党性神経隠吉 鯉 " 鯉 子宮内限盤以外の二次世草色湿鑓 具体的に→ "左心室惚俄 ‑ " 塑 25 子宮内阪盛 心血管系〈不笠悦〕 期 圃 ( 図 4) 読み合わせ用帳票の出力例(一部) nhu 1i s斗

449.

図3に読み合わせ用帳票のレイアウト (CATSレイアウトファイノレ)の例を示す。(前頁 参照) ( 5 )CATSの「作成条件」ファイルを作成する CATS の「作成条件 J ファイルは、レイアウトファイル名、出力元の SAS データセット 名、出力ファイル名、 1ページ内に出力したいオブ ザベーション数など、出力に必要 なパラメータが記載されたテキストファイルで、ある。 CATS を起動して、「症例一覧表作 成」の画面で条件を指定し、「作成条件保存 J ボタンをクリックすれば簡単に作成で、き るc ここでは、 lページ内に lオブ、ザベーション分だけ出力されるよう指定することがポ イントになる。例えば、前項(は 4)で ば 、 1 6 4 Jを指定する。 ( 6 )CATSを使って読み合わせ用帳票を出力する 最も簡単に出力するには、下記のような SAS データステッププロクずラムを実行すれ ばよいc これは CATSのバッチ実行機能による指定方法で、ある c 4行目に a fとあるが、 実行するのに SAS/AFソフトウェアは必要なく、 Base SASのみでよい c SASデータセッ トの加工が必要な場合は、その加工ステップのあとに下記の行を付け加えれば、加工 から出力まで一気に実行できるc libname CATS̲SYS <CATSインストーノレデ、イレクトリ>'; filename CPMFILE • <CATS作成条件ファイル名>'; filename CONTFILE ・<出力先ファイル名>'; dm ・ af c=CATS̲SYS.CATS.CONTROL.SCL'; 図4 1こ読み合わせ用帳票の出力例を示す。(前頁参照) ‑462ー

450.

3 .読み合わせ用帳票出力システムの概要 今回対象とした試験では、症例のエントリを起点とした特定の時点に、予め決められた何 種類かの書式に調査データが記入されて順次送付されてくるようになっている c 調査票を入 手次第、データ入力を行い、適宜読み合わせを実施する場合、読み合わせ用帳票出力時 には、その都度、出力対象の症例/帳票の種類/調査時点を指定しなければならない c 今 回は、 S A Sシステムをまったく知らない人でも容易に読み合わせ用帳票を印刷できるように したかったので、出力対象を指定するためのインターフェースと C ATSをキックして読み合わ AS/AFソフトウェアによって作成した c S A Sシステムは せ用帳票を出力する仕組みを S W i n d o w s版ノ〈ージョン 8およびバージョン 6ともに使用で、きる環境で、あったが、 DEMANDは パージ、ヨン 6対応版のため、今回の読み合わせ用帳票出力システムもパージ、ヨン 6で作成し た 。 このシステムは、出力対象の症例/帳票の種類/調査時点が指定できるインターフェー スと、その指定にしたがって C ATSを実行するプログラムから成る。まず、 S A S ! . A Fソフトウェ アの F RAMEエントリで、①D E i v l A N Dに既に入力されている症例のリスト、②調査票の種類 のリスト、③調査対象時期のリスト、の 3つのリストボ、ツクスと、「印刷実行 Jr 終了 J の2つのプッ シュボタンを作成した。システム起動時のインターフェースを図 5 (こ示す。この例では、症例 01001の経過報告書 3/3 ページの 18ヶ月 CRFが選択されている。 一一 環欝遊撃ぶ与三急三 ュ担当 F﹄I F ﹄﹁ FFFFRFFFFF RRRRFRRRRRR R CC jEFir‑a1J1J1JIJlJiJケ ケ ケ ケ ケ ケ ケ ケ ケ ケ ケ ケ8 0 H戸ドド戸ドド戸ド日月月 η 例mmm ロ Mぬお佐川崎町川ω ユj̲J ~空里f_j ( 図5 ) 読み合わせ用帳票出力システムのインターフェース . ! J 終了 i つd a a A p o

451.
[beta]
次に帳票単位で SCL プログラムエントリを作成し、「印刷実行ボ タンがクリックされた時
点で① ③のリストボックスの選択値を取得してその値に応じて前項 2で作成したデータ
加 工 用 の SASデータステップフcログ.ラムと CATSパッチ実行プログラムが呼ひ出されるように
した SCLプロクザラムエントリからの CATSパッチ実行プロク手ラムの呼び出しは 22(6)で
示した D Mステートメントを使わずに CALL DISPLAYを使用したプロク守ラムの概要(流れ
の説明)を図 6
(こ示す

<FRA1
vI
Eエントりのプログラム m
a
i
n
.
s
c
l
>
do i=l to tablnum;
entrname='CRSU̲SYS.CRFOUT02.FGEN'I
[
substr(seltabl,(3*工ー 2) 3)[[,
.
SCL';
call display(trim(entrname),
selcase,seljiki,syspath,outpath,lidfile); ー+
end;

1

ca
1
ldisplayによる個々のプログテラム(例:FGEN313.SCL)の呼び出し

<個々のデータ加工および CATS実行プロクマラム FGENnnn.SCL>
工

nit:

与
!entry
パラメータの受け渡しド

叫

case $200 叫

j出

$200 sysp叫

$200

outpath $200 lidfile 8;

I/"submit continue;

データ加工用のデータペl

ステッププログラムを
1
1
data COIOIMl;
n
d
s
u
b
m
i
tの υ
U e tORGDT.COI0IM1(read='XXXXX');
s
u
b
m
i
tとe
日
!l
に組み込んでいる。4‑.
1
1
where CASEID in (&SELCASE);
ここで、症例番号の
川
選択値は&
s
e
l
c
a
s
eに け
反映される。
I
"endsubmit;

I ̲call display('CATS̲SYS.CATS.CONTROL.SCL');
CATSのパッチ実行

・
・

(
図6
)プログラムの概要

4
6
4
452.

4 .考察 読み合わせ用帳票出力システムを作成する際、 CATSを利用しなければ、 SASデータセッ トのデータ値を E x c e lシート上の好きな位置に出力するには、 SASフ。ログ、ラム上で、変数ご、とに 出力先の夢[J番号と行番号をひとつひとつ書かなければならず、改ページもプログラム上でコ ントロールしなければならない c また、出力先の帳票のデザインが変わると、その都度、プロ グラム中の出力位置や改ページ位置が書かれている箇所を変更しなければならない c しか し、今回は CATS の出力エンジンを利用したので、レイアウトファイルと作成条件ファイルを 準備するだけで、このような非常に面倒なプログラムは一切書かずにすんだっまた、レイアウ トファイルと作成条件ファイルも、 CATS の機能を利用することで比較的簡単に作成できた c つまり、 CATS を利用したことにより、システム作成の工数と作成に要する時間を格段に減ら すことができたので、今回のシステム作成に CATSは非常に有用で、あったといえる c ところで、今回紹介したような読み合わせ用帳票を出力するためには、何らかのデータ加 工が必要であり、また、帳票ごとに変数の出力位置を指定する必要が生じるのこれは、読み 合わせ用帳票を使用しないときよりもその分だけ誤りの入り込む危険性が増すことを意味す るc 誤りのない状態を目指し、実際の使用を開始する前に十分なテストを行って、正しく出力 されることを確認したとしても、「絶対に間違いはなし、」ことが保証されるわけではない c 万が 一、データ加工や出力位置の指定に誤りがあって、条件によって読み合わせ用帳票が正し く出力されないことがあれば、読み合わせの意味がまったくなくなってしまう。筆者は、読み 合わせ用帳票の利便性は認めるが、読み合わせの目的が電子データの格納状況の確認に あることを考えると、やはり、加工せずにそのままの状態で出力したものを使用すべきであろ うと,~,う。また、 1 つの試験について1O ~20 程度の異なる書式の読み合わせ用帳票を作成 する必要があることを考えると、作成からテスト、リリースまでにはそれなりの時間と手間を要 する c そのわりに、試験によっては 1つの帳票が使用される回数が数十回程度しかないとし、 う場合もあるので、読み合わせ作業と読み合わせ用帳票作成作業のバランスを考えることも 必要であろうごしかしながら、今回対象となった N~SAS BC0 2試験の場合は、合計 1 , 200例 の症例情報を集積する計画であることと、データベース構造やコンヒ ュータの出力にあまり O 思[ I 染みのない人が読み合わせを担当する場合も想定されることカも、読み合わせ用帳票の 採用は妥当で、あったと考えるご 5 .結び 今回紹介した読み合わせ用帳票出力システムにより、入力データの読み合わせはシステ ム導入前よりも格段に改善されたと考えられる c 今後とも本システムが有効に活用されること 4 6 5

453.

を期待する。 参考文献 1 )ISAS/AF ソフトウェア: FRAME エントリ使用法およびリファレンス V e r s i o n 6,F i r s t E d i t i o n J,(槻サスインスティチュートジャパン, 1995 2 )ISASスクリーンコントロール言語:リファレンス V e r s i o n6,SecondE d i t i o n J,同サスイン スティチュートジャパン, 1995 3)1症例一覧表作成ツール ICATSJ 使用のてびき J,同電助システムズ, 1999 ‑466一

454.

日本 S A Sユーザー会 (SUG 1‑J) 拡張最小化法による被験者割付 0高 市 教 司 西次男 医薬関連ビジネスユニット 株式会社ベルシステム 24 Thea l l o c a t i o no fp a t i e n t su s i n gt h eextendedm i n i m i z a t i o nmethod OAtsushiT a k a i c h i,T s u g i oN i s h i M e d i c a lSupport8 u s i n e s sU n i t, 8 e l l s y s t m 2 4,I n c . 要旨 無作為化群問比較試験を実施する際、評価項目に影響を及ぼすと考えられる予後要因は比較す 1 付において最ノト化法 る治療群間で均等に分布することが望ましい。そのため治療群への患者の害] などの動的割付が用いられるが、現行の最小化法でバランスを確保で、きる要因は、分類変数の予後 要因のみである。連続変数の予後要因について治療群聞の平均値および標準偏差を揃える害1付 方法を提案し、実施する上で、の条件を設定するための、ンミュレーションとその結果を紹介する。 キーワード:二重盲検群問比較試験、最小化法、連続変数の予後要因、拡張最小化法 1.はじめに 無作為化群問比較試験を実施する際に、評価項目に影響を及ぼすと考えられる予後要因は比較 する治療群問で均等に分布することが望ましい。均等な分布を得るため、治療群への患者の害] 1 付に おいて、最小化法などの動的害1付が用いられるが、現行の最小化法で、バランスを確保で、きる要因は、 分類変数の予後要因のみである。連続変数の場合はしてつかのカテゴ、リーに分類して、分類変数と 5歳未満と 6 5歳以上の 2つに して取り扱われている。たとえば、年齢は連続変数と考えられるが、 6 分類して、治療群間でそれぞれの分類における頻度のバランスがとれるように最小化法で割付けら れる。この場合、分類自体が高齢者とそれ以外とし、うような臨床的意義を持つ場合には分類すること に意味があるが、必ずしもすべての場合には当てはまらない。状況にもよるが、平均値が類似してい ることに意味がある場合も少なくない。その際は、平均値だけでなく標準偏差も類似することが望ま れる。本報告では連続変数の平均値および標準偏差が治療群問で類似するような動的割付法につ いて、実施する上で、の条件を設定するためのシミュレーションとその結果を紹介する。 ‑467

455.

2 . 方法 2 . 1 従来の分類変数の場合 多施設で分類変数の予後要因がある場合に、従来行われている典型的な割付のフローチャート を図 lに示す。 均衡 強制的にバランス去確保 図 l 従来の典型的な最小化法のフローチャート 2 . 2 単一の連続変数の場合 連続変数の取扱いを考えるために、始めに一つの連続変数の場合を取り上げる。平均値と標準 偏差が類似するとしづ制約だけでは、治療群聞の患者数の構成割合を制御できないので、各治療 ・ " , G とし、各治療群の患者数 群の患者数に関する制約も同時に入れる必要がある。治療群を g=l, r ( g )とする O 構成割合の設定値を P 最初の G 例は順番に l 群 ~G 群に害IJ 付ける。 G+l 例目以降の新しい患者を割付ける前の各治療 群の患者数を N ( g )、平均値を M(g)、標準偏差を S D ( g )とする。治療群を併合した 曹、者数、平均値、標 a :"N(g)、Mt=2 :" N ( g )・ M(g)/Nt、SDt=(2 :g(N(g)‑l)・ S D ( g )2/( N t‑G ) )山 準偏差はそれぞれ Nt=2 となる。新しし¥号、者の連続変数の値を Xと し 、 g群 l こ加えた場合の患者数、平均値および標準偏差を N'( g )、M'( g )および SD'( g )とし、新しい患者を加えた後の治療群を併合した患者数、平均値および ' t、SD't=(2 : " 標準偏差を N't 、M'tおよび SD'tとする。ここで N't=Nt+l、M't=(Nt.Mt+X)/N N ( g )・ SD'( g ) 2/N t )1 / 2とする。 新しい患者をどの治療群に割付けるべきかを考える指標として、平均値、標準偏差、患者数の 3 つのポイントがある。平均値に関しては、 M(g)とMtの差および M'( g )とM'tの差を考慮する。新しい I付けた後の絶対偏差 1 M '(g)‑M't lがど、のくら 患者を割付ける前の絶対偏差 IM(g)‑Mtllこ比べて、害J し、小さくなるかを指標とする。したがって、 DM=IM'(g)‑M'tl‑IM(g)‑Mtlを指標とする。標準偏差に S D '(g)‑SD't l一 ISD(g)‑SDtlを指標とする 患者数については、その構成 ついても同様に、 Ds D=I O N ( g ) / N t‑P r ( g ) 1を指標とする。これら 3つの指標 比率について同様に、 DN=IN'(g)/N't‑Pr(g)卜 I c ( g )を求める。 を総合するために、治療群ご、とに重み付き和 S SC(g)=W~1 ・ DM+wSD'DsD+wN'DN ‑468 ( 1 )

456.

S c ( g )のうち、最小の値を示す治療群が、新しい患者を加えることによって全体のバランスをもっとも改 1付ける。 町 、 WS 善する治療群と考えられるのしたがって、その治療群に新しい患者を害] D'WNはそれぞ れ平均値、標準偏差、患者数の指標の重みである。 2 . 3複数の連続変数の場合 単一の連続変数を L個の連続変数に拡張する。連続変数ごとにその平均値と標準偏差の指標 D~I(I), D SD( I ) '1 = 1, … , Lを求め、重み付き和 S c ( g )を次式により求め、その最小の値を示す治療群に患者 ' I( I ) お よ びW S [ ) ( I )は第 l 変数についての平均値および標準偏差の重みである。 を割付ける cW ニ エ I(w D" +wsD( DSD( ) I )+wN'DN S c ( g ) , 1 ( 1 ) ・ , ) ・ ( I ) ( 2 ) 2 . 4 単一の分類変数の場合 2 . 1で示した従来の方法では、連続変数との組合せができないので、以下の方法を採用する。 ・ " , G、各治療群の患者数構成割合の設 新しい患者の分類変数の分類を jとする。治療群を g=l, r ( g )とする。新しい患者を害] 1 付ける前の各治療群の分類変数の分類 j ( j = l, … ,J )に該当する 定値を P j ( g )、各治療群の合計の患者数を N ( g )とする。 各治療群の患者数を N 新しい患者をどの治療群に割付けるかの決定には、その患者の分類変数の分類 jにおける各治 j t= 2 :gN j ( g )とする。そ 療群の患者数、および各治療群の合計の患者数を用いる。分類 jの合計を N j ( g ) / N j tが期待値 P r ( g )に比べて小 の患者の分類変数の分類]については、各治療群の患者構成 N j=N j ( g ) / N j t‑P r ( g )を指 さい治療群に割付ける方が均一化するので、該当する分類 jにおける差 o r ( g )に比べて小さい治療群に割付ける方 標とする。また、各治療群の患者構成 N(g)/Ntが期待値 P r ( g )を指標とする。 が均一化するので、患者数については、 DN=N(g)/Nt‑P S c ( g ) Wj・ Dj+wN DN ・ 二 ( 3 ) S c ( g )のうち、最小の値を示す治療群が、新しい患者を加えることによって全体のバランスをもっとも改 c ( g )となる治 善する治療群と考えられる。したがって、その治療群に新しい患者を割付ける。同ーの S 療群が複数ある場合は、その中の一つをランダムに選択する。 Wjおよび、 W Nは分類変数およひ居、者 数の重みである。 2 . 5 複数の分類変数の場合 ( < ' ),c=l, " ' , Cとする。治療群を g=l , … , G、各治療群の患 新しい患者の C個の分類変数の分類を j 者数構成割合の設定値を P r ( g )とする O 新しい患者を割付ける前の各治療群の分類変数の分類 j ω ( j = l, … ,J )に該当する各治療群の患者数を N j ω ( g )、各治療群の合計の患者数を N ( g )とする。 1付けるかの決定には、その患者の分類変数の分類 j ( c )における各治 新しい患者をどの治療群に害] ω の合計を N j c ( ) t= 2 :gN j ( け( g )とする。 療群の患者数、および各治療群の合計の患者数を用いる。分類 j j ω ( g ) / N j ( c ) tが期待値 P r ( g )に比 その患者の分類変数の分類 JHについては、各治療群の患者構成 N ( c )における差 Djω=Nj ω ,( g ) / N j ( けt べて小さい治療群に割付ける方が均一化するので、該当する分類 J P r ( g )を指標とする。また、各治療群の患者構成 N(g)/Ntが期待値 P r ( g )に比べて小さい治療群に 1付ける方が均一化するので、患者数については、 D N=N(g)/Nt‑P r ( g )を指標とする。各 Dj ( c ) お よ 害] phu ︐ 4 ︒

457.

び DNの重み付き和 S c ( g )を求める。 Sc(g)=エ にw j ( c )・ D j ( c ) + w N . DN ( 4 ) S c ( g )のうち、最小の値を示す治療群が、新しい患者を加えることによって全体のバランスをもっとも改 善する治療群と考えられる。したがって、その治療群に新しい患者を割付ける。同ーの S c ( g )となる治 療群が複数ある場合は、その中の一つをランダムに選択する。 W j ( c ),c = l, ・ " , Cおよび WNは分類変数 および患者数の重みで、ある。 2 . 6 連続変数と分類変数が混在する場合 連続変数ごとに 2 . 2の手続きに従い、平均値と標準偏差の指標 DM , ) I (D s以 1 ) , 1 = 1, … , Lを求める。ま た、新しい患者の C個の分類変数の分類を j ( c ),c = l, " ' , Cを用いて、 2.4の手続きに従い、 D j ( c )= ω ,( g ) / N九)t‑P r ( g )を求める。総合指標 S c ( g )を次式で、求める。 N j [ ( I ) ・ Df.[( [ ) + w S D ・ ) I (D s以内)+Lcw j ( c )・D j ( c ) + w N . DN S c ( g )= L[ ( w, ( 5 ) S c ( g )のうち、最小の値を示す治療群が、新しい患者を加えることによって全体のバランスをもっとも改 善する治療群と考えられる。したがって、その治療群に新しい患者を割付ける。同ーの S c ( g )となる治 療群が複数ある場合は、その中の一つをランダムに選択する。 3 . シミュレーションによる重みとバランスの検討 今までで述べたように、(l) ~(5)式を用いて動的割付を行うためには、それぞれの指標の重みを決 める必要がある。重みの決め方は、基本的にどの要素を重点的に扱うかに依存するが、取り扱う変 数の分布にも依存する。具体的には、重みの大きさを変えてシミュレーションを行い、治療群聞にお ける予後要因の一様性を評価することで重みの大きさを検討することになる。 3 . 1 シミュレーションに用いるソフトウェア 現実に登録センターとして、最小化法なとoの、ンステムを構築する場合には、システムとしての軽さ やスピード、などの点で、ヒ、、ジュアルベーシック ( V B )などの言語が使われ、残念ながら SASは利用され ていない。しかし、シミュレーションを行うとなると、逆に VBなどはデータの持ち方などによる制約の ため扱いにくい。 SASは乱数を用いたデータの発生が簡便であり、種々の条件を変えた場合の結果 を容易にデータとして作成できる。また、統計計算のためのフ。ロシジャにデータを渡してすぐに結果 を得ることができる。種々の条件が結果に及ぼす影響をグラフイカルに表示することも SASでは容易 に実行できる。このような観点から、シミュレーションには SASを用いた。 3 . 2 バランスの検討 バランスの評価方法については、同一条件の下で、乱数を用いたシミュレーションを 1, 000回ずつ 行い、表 1に示す 3評価項目のp f rn:の分布からパ一セント点 ( 1 %点 、 5%点、および 1 0 %点)を求めた。 連続変数については NORMAL関数を用いて N ( 5 0, 1 02)からの正規乱数を、分類変数については 九 久NTBL関数より出現確率 P c i,i = l, ' ・ ' ,n c,c = l, … , Cを予め想定した上で一様乱数を用いてデータ を発生させた。 ‑470

458.

評価項目 平均値の一様性 割合の一様性 症例数の一様性 表 1 3つの評価項目およびp値の定義 p { 直の定義 治療群聞における連続変数の平均値の一様性は、一耳配置分散分析に { 直を用いる。 よる F値から得られる上側 p 治療群聞における分類変数の割合の一様性は、分割表 χ2検定(連続修 J l ) J p値を用いる。 正なし)による上 { 6 )を自由度 G‑1の ど 分 布 に 近 似 治療群聞の症例数の一様性は、次式( J p { 直を用いる。 した上保I ( 6 ) χ2= L :g ( ( N ( g )‑P r ( g ) 'Nt)2/( P r ( g )・ N t ) ) なお、この 3評価項目の p値については GLMプロシジャ、あるし、は FREQプロシジャで容易に算出 可能であるが、シミュレーションプロク、ラムの効率を考慮、し、データステップで不Ij用で、きる PROBF関 数および PROBCHI関数を使用した。 3 . 3 シミュレーションによる重みの検討 臨床試験における人口統計学的および他の基準値の特性について、治療群問の一様性を検討 する場合には有意水準 15~20%が用いられている。シミュレーションにおいて一様性が棄却される (p 値が 0 . 2以下となる)割合が 1% 以下で、あれば、実際に適用する上で容認して差し支えないと考え、 求めた p値の分布の中で 1 %点が 0 . 2を超えることを条件に重みの組合せの評価を行った。 以上の方法を用いて発表当日会場で、のデ、モンストレーションを実施する O 4 . まとめ 連続変数の予後要因について平均値と標準偏差のバランスをとる割付を提示し、必要なバランス を得るための重みに関する検討を行った。重みを評価する基準として、治療群聞の一様性検定の有 意水準として採用されている 20% を採用し、シミュレーションによる p値の分布の 1 %点が 0 . 2 0を超え ることが必要であるとした。シミュレーションを行うためには、 SASは便利なツールである。いくつかの 重みの組合せについて、乱数を用いて発生させたデータを用いて一様性検定を行い、検定結果の p値の分布から現実の運用に用いる重みの組合せを検討することができる。 臨床試験への本方法の適用に際しては、登録センターの利用が前提となる。登録センターで使わ れるシステムには、シミュレーションに求められる機能とは別の移植性や即時性なども重要で、あり、イ ンプリメンテーションは今後の課題で、ある。また、運用の前に、諸条件についての十分な検討と、そ れに基づく重みの選択のためのシミュレーションは必須である。 引用文献 ( 1 )西次男.平均値の治療群問バランスをとる害J I 付,日本計量生物学会シンポジウム 2 0 0 2 . ( 2 )iSASランゲージリファレンス V e r s i o n 6, F i r s tE d i t i o n JSASインスティチュートジャパン ( 3 )i SAS/ST ATS o f t w a r e: Changea n dEnhancementst h r o u g hR e l e a s e 6 . 1 2 JSASI n s t i t u t eI n c . ‑471ー

459.

日本 SASユーザー会 (SUG1‑0) 「薬らししリ物質の発見:データマイニングおを用いた QSARモデリング 片岡尚子 株式会社 SASインスティチュートジャパン プロフエツショナルサービスグループ Discoveryo fd r u g ‑ l i k e "molecules:QSARmodelingbyu s i n gDataMiningTechnique NaokoKataoka P r o f e s s i o n a lServiceGroup,SASI n s t i t u t eJapanL td . 要旨 新薬開発は、膨大な数の化学物質のなかから、薬になりそうな物質を探し当てることからはじまるニ その手法として、物質の分子構造 ( S t r u c t u r e )と活性 ( A c t i v i t y )の 関 連 を 計 量 化 す る QSAR ( Q u a n t i t a t i v cS t r u c t u r e ‑A c t i v i t yR e l a t i o n s h i p )がある 伝統的な QSARは、分子構造を表す変数の J 線形手口で活性を説明するモデノレで、あるが、近年、ここにデータマイニングの技術を適用して、ニュー ラノレネットワークやツリーを用いて物質の「薬らしさ J( " D r u g ‑ l i k e n c s s 刊)を予測する方法が注目されて しも 2 本論文では、 Ja n s s e nP h a r m a c c u t i c a 社の事例を紹介しながら、この分野での一述の研究を概 観する 3 キーワード: データマイニング、 QSAR、HTS 1 . はじめに 新薬開発の過程において、化学物質の「ふるいわけ」が近年大きな関心を呼んでいる 3 ここでの 「ふるいわけ」とは、膨大な化学物質データのなかから、~になりそうな物質を最初に絞り込み、有効 成分を効率よく発見しようとすることである ε その背景には、 1990 年代初頭からの HighThroughput S ( 江 田n i n g (HTS)と呼ばれる手法の発展がある。 HTS により、データベース内に蓄積される物質デ ータの数は飛躍的に増大したが、実際に調べられる成分数ははるかに少ないため、効率良く有効成 分を発見するにはデータの段階での「ふるいわけ」作業が不可欠になったからで、ある この状況は製 3 薬メーカーの自社データベース、外部ライブラリから得たデー夕、また(近年増えている)両者の組み 合わせにも共通して言えることである J υ 円︑ 円t γ

460.

2 . 伝統的な QSARモデルとデータマイニング 物質の生物学的活性を調べる方法として、物質の分子構造 ( S t r u c t u r e )と生物学的活性 ( A c t i v i t y ) の関連を計量化する QSAR( Q u a n t i t a t i v eS t r u c t u r e ‑A c t i v i t yR e l a t i o n s h i p )がある。伝統的な QSAR は、分子構造を表す変数(ディスクリプタ、 d e s c r i p t o r )の線形和で、活性を説明するモデ、ルで、以下の ように記述することができる。 A c t i v i t y = Const+ C1本P 1+C2*P2+・ ・ ・ +CN*PN ・ ・ ' , CNはディスクリプタで、分子の重さゃある種の結合の数とし、った連続量の場合も、ある構 C1, ‑ 0データの場合もある。 P 1, '. ・ , PN は推定されるパラメ 造が分子内に存在しているかどうかを示す 1 ータである。 ターゲ、ットとなる生物学的活性があり、またそれに関連する分子構造もわかっている場合、 QSAR モデ、ルを用いたふるいわけが有効であるのは言うまでもない。しかし、特定の活性をターゲ、ットとしな い場合にも、活性値の代わりに「薬らしさ ( d r u g ‑ l i k e n e s s )Jとしづ概念を定義し、その「薬らしさ」を説 明する QSARモデルを作成することがで‑きる このアプローチで、複数の論文が発表されているが、い 3 ずれもニューラルネットワークやツリーといったデータマイニングの学習アルゴ リズムを用いることで、 v a i l a b l eC h e m i c a l sD i r e c t o r y (ACD)のような大規模 「薬らしさ」としづ暖昧な概念にもかかわらず、 A な既存の外部データベースの正確なふるいわけが出来ると報告している ( A j a ye ta , . l1 9 9 8など)。各 論文の要約は表 lの通りである。 3 . HTSデータへのデータマイニングの適用 同様のアプローチは、外部データベースではなく、製薬会社が独自で、持っている HTSデータに対 しても行うことができる。 HTSデータセットに対して、データマイニングで QSARモデルを作成する際 に問題となるのは、ターゲ.ツトの正反応割合にこでは「薬らししリとされるデータの割合)である。前節 で述べた論文で用いられたデータは、ターゲ、ツトの正反応割合が比較的高いが、一般に HTSデータ セットのターゲ ットの正反応割合は 0.1% から 1% で非常に低い ( S p巳n c巴r 1 9 9 7 )。データマイニングに おいてはターゲ、ツトの正反応割合が少ないデータをそのまま用いると、「薬らしさ」を十分学習するこ とができず、良いふるいわけも出来ない(データマイニング、で、は一般に刊R a r巳 E v e n t s門の問題として扱 われている)。このようなデータを学習する際には何らかの工夫が必要である ( B r e i m a ne ta l . .1 9 8 4 )。 ‑474

461.

表 1 論文データの比較 刈aye ta . l( 1 9 9 8 ) CMC (ComprehensiveM e d i c i n a lChemistry) ACD Non‑Drug ( A v a i l a b l eChemicalsD i r e c t o町) MDDR ヲベ ス (MACCS‑JJDrugDataR e p o r t ) CMC+MDDR=80, 000 学習・検紐デ ‑$1Drug ァスト用外昔日デ ‑ = f ‑ $ 1数 D i s c r i p t o r s ソフト デ一台分割 1 D and2Dparameters 1 D :7d i s c r i p t o r s . l1 9 9 6 ) ( G i l l e te ta 2 D :166b i n a r y ( IS ISf i n g e r p r i n t ) BNNsoftware C4.5 500x1 Oset(学習、検証) 3, (Active=2, 000,57 也) SadowskiandK u b i n y i( 1 9 9 8 ) WagenerandvanGeerestein( 2 0 0 0 ) WDI ( W o r l dDrugI n d e x ) WDI ACD 3つの Organon社内デ ACD 41 6,ACD=1 6 9, 3 3 1 WDト38, 1 2 1 atomt y p e s (GhoseandCrippen, 1 9 8 9 ) SNNS ( S t u t t g a r tNewralNetwo内 S i m u l a t o rv 4 . 0 ) 10, 000x200回 ( A c t i v eコ5, 000,5 0 ' ) , C5.0 品叶印│ カの算出 予測l 1 0, 000x? ( A c t i v eニ5, 000, 50 九 ) 検包 =2, 0 0 0 ( A c t i v eコ1 0, 000) 7 .747(Active=23416) テストニ 17 予測力を待つモデルの作成 解析内容 モデリング方法 To p ‑ S e l l i n gDrugのスコア算出 モデルの解釈、図示 他の方法との整合性 3つの社内デーヲへースへの適用 誤分類デ ‑$1の検討(分子構造の図示) 誤分類デ ヲの検討 結果の安定住 頑健性 (入力デーヲの変化に対する) (特殊なヲイプの薬の識見J I 可能性) デ 習をランダマイズしたときの予測力 主成分分析 (CMCとACDのデーヲ構造の分析) Bayesiann e w r a lnetWQ出 (BNN) d e c i s i o nt r e e(C5, 0 ) Feedforwardn e w r a lnetwo内 ( 9 2x5x1 ) ノード最小サイズ、 p r u n i ng(枝メI Jり)指定 D e c i s i o nTree( C 4 . 5 ) Boostedt r e e、コスト関数の利用 TP90 、 九 FP10%(BNN) TP83 、 也 TN77' , FN8%,FP34% 結果※ M ( B D N D N R 、 の 隠Tれ Pが泰最子高 5個 80 首 、lD+2Dパラメヲ) BNNの方が Treeよりも正答率が品い スコアリングスキ 考聖書・適用領域 TanimotoS i m i l a l i t yC a l c u l a t i o nとBNNの 結果は類似しない i b r a r yを構成した場合に ランダムに DrugL i b r a刊肉のヒット率が 3 ‑ 4 ! 音上昇 比べ、 L ※ TP:TrueP o s i t i v e,FP:Fa l s ePos山 ve,TN:Tr u eN e g a t i v e,FP:Fa l s eNegative マの提供 CNS‑active(CentralNervousSystem) s e l e c t e dbyCMCandMDDR CNS‑inactive s e l e c t e dbyCMCandMDDR 文 献 記 載 の デ ヲ (275、Active=139) 73, 000( A c t i v eコ1 8, 000) 92atomtypes (GhoseandCrippen, 1 9 8 9 ) テスト学習、検註デーヲの残り 予i s ' Jカの比較 9ベース A iayeta. l( 1 9 9 9 ) Boostedt r e eやコスト関数の利用で Treeの正答率は上昇 Treeはふるいわけル ルの視覚化が 可能 化合物の購入の決定や c o m b i n a t i o r i a ll i b r a町 de引閉への適用 1 Dand2Dparameters 1 D :7d i s c r i p t o r s ( G i l l e te ta . l1 9 9 6 ) 2 D :166b i n a r y ( IS ISf i n g e中 川 t ) BNNs o f t w a r e 000x20set(学習、検 i 正 ) 9, (Active=4, 500,5 0 ' ,) テスト・学習、検証デ ‑$1の残り 11Subclass毎の予測 (Warterbeemde ta , . lF i s c h e re tal . ) L i n e a rNetwork(隠れ層なし)との比較 Bayesiann e w r a lnelwork ( L i n e a r、隠れ層 5 ) 、 , TN65・ 0 lDTP7 5 ' 2DTP83~ TN79弘 テストデーヲ TP92、 弘 TN7 1也 サイズド制限がある c o m b i n a t i o r i a l l i b r a r yを構成するときに有効

462.

4 . JanssenPharmaceutica社での事例 J a n s s e nP h a r m a c c u t i c at 土では、データマイニングツールとして E n l c r p r i s eM i n e r ソフトウェア ( v e r s i o n 3 . 0 )を用い、白社の HTSデータに対してターゲ、ットの正反応割合が低い場合の QSARモデ ルを作成したコ彼らは最初に外部データベースを用し、てさまざまな手法を検討した後、 HTS データ に適用するとしづ方法をとっているごここではその概略を E n g e l s . Kna p e na n dT o l l e n a e r e( 2 0 0 1 )から 紹介する 3 4 ‑1 .方法 データ a n l i ‑A1DSd a l as e l( N a l i o n a lC a n c c rI n s l i l u l e . 1 9 9 7 )の 3 1 . 9 1 8( c c l l ‑ b a s e da s s a y )の化合物のデータ を用いた o 3 つのカテゴリ:c o n f i r m e da C l i v e(CA). c o n f i r m e dm o d e r a l e l ya C l i v e(CM). c o n f i r m e d i n a c l i v e(cI)のうち、 CAのみを吋A C l i v e " (活性がある=薬らしい物質), CMと C Iを 門I n a c l i v e "(活性が A C l i v cである割合)は 0.7%( A C l i ve =2 2 8 )となったよ ない=薬らしくない物質)としたところ、正反応割合 ( 1999年に 1 0, 513個のデータが追加され、こちらの正反応割合は1.8%( A c l i v e = 1 9 2 )で、あった a ディスクリプタ ( D e s c r i p t o r s ) デ?ータマイニングの入力変数(説明変数)となるのがディスクリプタである。ディスクリプタには原子 構造と理化学的知見の双方を利用した。前者には Wildmana n dC r i p p e n ( 1 9 9 9 )の 72aloml y p c、後 者には L i p i n s k ie la . 1( 1 9 9 7 )に基づいた r u l e ‑ o f 、f i v e のパラメタ 4つ(分子量 ( m o l e c u l a rw e i g h l ),水 h ‑ b o n dd o n e r s ) .水 素 結 合 受 容 体 数 ( h ‑ b o n da c c c p l o r s ),l o g P( o c l a n o l ‑ w a l e r 素結合供与体数 ( p a n i l i o nc o e f f i c i e n l,オクタノーノレ・水分配係数)を用いた。 l o g Pの計算には S l o g Pプログラム (WildmanandC r i p p e n, 1 9 9 9 )、その他のデ イスクリプタの計算には D a y l i g h lT o o l k i lProgramを用し、た。 データ分割 データ分割とは、モデ、ルが一般性を失わないように、データを学習用と検証用に分割して学習を 行うことであるコ学習用データを用いて学習したモデルに、検証用のデータを当てはめて最適なモ 9 9 7年のデータは学習データ : 2 5 . 5 4 0(80%)検証データ:6. 446(20%)に分割し デルが選択されるご 1 0. 51 3個はテストデータ(モデ.ル作成に全く関係しない二次検証用のデータ)と た o 1999年のデータ 1 して用いた。 PHυ 円 ソt sq

463.
[beta]
43
. 結果

手法の検討
L
o
g
i
s
t
i
c回帰、ツリー、ニューラルネットワーク、 B
o
o
s
t
c
dt
r
c
c4手法の分類ノ fフォーマンスは図 1

の通りである。手法毎に、予測カテゴリ毎 (ACTlVE.INACTIVE)と両カテゴリを併せたもの (BOTH)
について、正確に分類された割合(%ACCURATE)を俸グラフで表示しているコ
ここで、の結果は検証データセットによるものである 3

1001

υ
υ
4
4

凶ト︽匡コ

75

5025

8
0
0
s
t
e
dT
r
e
e1 各モデルの正分類率

累積リフトチャートを用いて、モデ.ルを当てはめないとき (
B
a
s
e
l
i
n
c
)に比べて正分類率(予測力)が
どの程度改善しているかを見る a 横柄1は予測値の高い1
)
頃にデータを 1
0分割したときの累積%で、縦

制h
は対応する%内のデータで B
a
s
c
l
i
n
c より何倍ヒット率が向上しているかを示す。例えば、 B
o
o
s
tt
r
e
e のモデルを当てはめて予測慌の高い順に 10%とると、その中にはモデ ルを当てはめないときに
c
t
i
v
eな化合物が含まれているとし、うことである
比べて 8倍以上の A

3

B別 府 dTree
L
o
g
u
.
t
i
cR
(
'
g
l
で品 !
o
n‑
Ncur
.
.
t
!N~lwork 一
一

¥

aト
¥

自 勾 P

D町 内 011T
r
e
c
.
S
<
"
吋 l
i
n
e

¥

6

¥
¥
ト、 〉ヘ
¥
、
,
、
'
:
;
"
1
,
、
、

,
.
'
.
..
:
,
'
:
、
¥

同

υ
‑
r
コ
ョ
コ d‑w2υ} ︼=﹂

¥
¥

'
,
'
、
、
、
、

ミ
ナ
‑
‑
‑
‑

ーー

。
J
O

"
0

30

405
0

::-=司 2きで~で?了;-":"':ーーー;;;::"'-:-ミア.~町、目,、目

ーミスZ て.
.
.
‑.

副)

70

D
c
c
:
il
c2 モデルのリフトチャート

4
7
7

R
O

9
0

J
(
)
(

464.
[beta]
1での予測力だけを見ると t
r巴巴が良いが、全体的な予測力では B
o
o
s
t
e
dt
r
e
eが良いので、この手
法を用いて RareEventの比較を行った

G

RareEventの詳細な検討
RareEventを考慮する方法としては、 1
)分類の闇値(カットオフ値、予測値がこれ以上の値であれ

ば A
c
t
i
v巴と見なす値)を低くする方法と、 2
)サンプリング.によって学習データセット内のターゲ、ツトの
)R
i
p
p
e
rp
r
o
c
e
d
u
r
eの適用がある。また、各方法の評価には 4
)ふるい
正反応割合を調整する方法、 3

わけの効果によるモデ.ルの比較も行った。
ここでの結果は 1999年のテストデータによるものである。

1)分類の闇値の変更
A
c
t
i
v
eな化合物の割合の事前確率は非常に低いため、事後確率も低くなる (
B
a
y
e
sの定理)。この

ような場合、闇値を 50%(デフォノレト)とすると多くの A
c
t
i
v
eな化合物を逃してしまうため、闇値を下げ
ることが考えられる。これは A
c
t
i
v
eと分類される化合物の正分類率 (
T
r
u巴P
o
s
i
t
i
v巴)を上げるが、同時
に全体としての正分類率や I
n
a
c
t
i
v巴と分類される化合物の正分類率 (
T
r
u巴N
e
g
a
t
i
v
e
)にも影響するた
め、関値の決定には ROC(
R
e
c
e
i
v
e
rO
p
e
r
a
t
i
n
gC
h
a
r
a
c
t
e
r
i
s
t
i
c
s
)曲線を用いた。

0
.
8トi

o
.
b
k
.;
:
>
主

。
z

BOt')
(
.
!
e
dTn
:
c
b l 1! i唱 rkR~g l'\'!、、 lon

3
4
︾
︽

。
z

‑
一
一
一
一
.
.
.
..
.
.
.
.
.

k
N
C
l
l
r
n
l
N
t
'
l
w
(
}
I'
Dc
c
i
s
i
l
)
n
T
n
‑
c

0.
4

一一一一ム
l
U
i

0
.
'
"

I~ S
p
t
'
C出口町

図 3 ROC曲線

縦軸の S
e
n
s
i
t
i
v
i
t
y(感度)は、 A
c
t
i
v
eと分類された化合物の正確性(実際に A
c
t
i
v
eな化合物全体に
対し、正しく A
c
t
i
v
eと分類された割合)を示す。横軸の S
e
n
s
i
t
i
v
i
t
y(特異度)とは I
n
a
c
t
i
v巴と分類された
化合物の正確性を示し、 l
‑
S
e
n
s
i
t
i
v
i
t
yは闇値の目安となる。図 3から B
o
o
s
t
e
dt
r
c巴は 8%、その他は
2%を闇値にした。
c
t
i
v
e、右が I
n
a
c
t
i
v巴と予測されたものについての正分類率で、個々の棒グラフの左
図 4は左が A
n
a
c
t
i
v巴の正分類率の減少に比べ、 A
c
t
i
v
e
が闇値を下げたもの、右が闇値を 50%にしたものである。 I

の正分類率の増加が顕著であることがわかる。

‑478

465.

100 』 コ u 星回 " ' 505 752 2Eコωω ︽ポ 1α3 ω 百 75 25 」勾 i s l i c Dec i s旧 nTree Regr 田 S旧 n Neural Network B∞5 1 回 Tree L o g i s t i c DecisionTree R司 陪 s s ! o n Neura J Network 自由0 5 1 回 Tr 田 I n a c t i v e A c t i v e 図 4 闇値の変化における正答率の変化 2 )サンプリングによる調整 サンプリングずによって学習データセットの中のターゲ、ツトの正反応割合を等しく変更することを Over Samplingや Under‑Samplingと呼ぶ。 Over‑Samplingとは、少ない A c t i v eのデータに大きな重み付 けをすることで、 Under‑Samplingとは、 Activeのデータは固定とし、 I n a c t i v eのデータをそれと同じサ イズまで少なくする方法である。どちらも、 Activeと I n a c t i v eが同数の学習データセットが作成される ので、もとのデータセットとはターゲ、ットの正反応割合が異なる。 ここでは、 Under‑Samplingの方法を用いた。学習データセットには 180の Activeなデータがあっ たため、学習データセットは 360となった。このデータを用いて学習した BoostedTree(左)と、閲値の 調整を行った時の BoostedTree Ripperについて、モデールの正分類率の比較を行ったものが図 5で ある。左が Active、右が I n a c t i v eと分類されたものの正分類率である。比較のために、一番右に闇値 の調整をしなかったとき (Threshold=50%)の正分類率を記載した。 120 100 22コuqq4r 80 60 40 20 。 B o o s t e dT r e e B o o s t e dT r e e ( B a l a n c e dS a m p l e ) ( Th r e s h o l d=8%) R i p p e r B o o s t e dT r e e 打h r e s h o l d=1%) 打h r e s h o l d=50%) 図 5 Under‑Samplingの 影 響 リフトチャートを見ると、 Under‑Sampling による調整方法は閲値調整の方法と比べてもあまり遜色 のない方法であることがわかる。 門 Ja nHJ A斗 A

466.

目白 ) s t e uTrce 一 一 一 ー ‑ B叫 ) : ‑ ; t e uTrじじ ( h a l a nじ 出1日 mplc) 一 一 一 ー Ri~p'" B a s e l i n e 4 ¥ 0三 ‑吋 4 一 ヨ 戸 ZZU} ー n u i ハリ 2 0 40 30 60 50 70 。 目 90 10 正 DcciJ c 図 6 U nder‑Samplingのリフトチャート 3)Ripperprocedureの適用 R i p p e rプロク、、ラムは、 1999年のKn owledgeD i s c o v e r yi nD a t a b a s e s (KDD) c o n t e s tにヒントを得て 作成された R a r巴 E v e n tに対するアルゴリズムであり、 DMTOOL ( S A S / E n t e r p r i s eMinerのアドオンツ ール)で作成されたノード ( S A S / E n t e r p r i s eMiner分析用アイコン)である。 アルゴ.リズ、ムは Cohen( 1 9 9 5 )の RIPPERフ。ロク、、ラムと類似のもので、明らかに A c t i v eか I n a c t i v eで r i p p e do f f)、残りのものに関して別のモデルを当てはめるとしづノ¥イブリッ あるものを最初に取り除き ( ド(混合)モデルである。ここでは最初の r i p p i n gにおいて 1 0回ツリーを作成し、各ツリーで最も純度 の濃い葉を取り除いた。すると 25, 540の学習データのうち、 90%以上にあたる 2 3167の化合物が取り 除かれたので、残りの 2, 373の化合物についてニューラルネットワークを当てはめた。 ROC曲線から 闇値を 1%とすると、図 6のように B o o s t e dTre eと比肩する結果が得られた。 4)ふるいわけの効果 「良しリヒットリストを作成するとしづ観点から作成した QSARモデ ルの質を評価するために、その効 率を測る関数が E n g e l se ta . l( 2 0 0 0 )で紹介されている。この関数は、 E =RACTFOUND‑R SCREENED のように表すことができる。 R ACTFOUND=ヒットリスト内の A c t i v eな化合物の数/デ、ータセット内の A c t i v eな化合物の数全体で、 R SCREENED=ヒットリストの数/ふるいわけ前のデータ全体である。 R ACTFOUNDは大きく、 R SCREENEDは小さい方が望ましいコベンチマークとしては、上位 10% (R SCREENED)で 50%以上の捕捉率 (RACTFOUND)としづ状況を想定し ( C l a r k .2 ( 0 0 )、 E 0.4とした。 4つのモデ、ルについてこの値を計算したのが表 2であるニ 4 8 0

467.

513) 表 2 aSARのパフオ マンスパラメタ(テストデータセット、 N=10, N日注目 ~'E!.!'!,~,d ̲ ̲ l . : : i ̲ 1 ' t B o o s t c dT r e c,t h r e s h o l d=50% t h r e s h o l d=8% B o o s t e dT r e e, R ip p c r,t h r e s h o l d=1% a l a n c e ds a m p l e B o o s t e dT r e e,b 1 5 1 2 0 1 2 2 1 3 0 2 3 1 0 1 1 1 5 3 7 2 3 0 5 f } ̲ ̲ ‑ 1 ̲C ̲ TE ̲ 9l!IY.P.~_ ̲ ̲ ! ! : . ̲ s ̲ C ̲ f } ! i l } l y ̲ l i ̲ P ̲ ̲ ̲ ̲ ̲ ̲ ̲ ̲ ̲ . c 36 6 4 3 0 . 0 7 8 0 . 6 2 5 0 . 6 3 5 0 . 6 7 7 0 . 0 0 2 0 . 1 1 9 0 . 0 7 9 0 . 2 1 9 0 . 0 8 0 . 5 3 0. 49 0. 46 =ヒットリスト内の A c t i v eな化合物の数 Nscrecned=ヒットリストの大きさ L i f t=ヒットリスト内の A c t i v eな化合物の数/全データセット内の A c t i v eな化合物の数 Nactive 表 2、図 5から、 RareEventに対する補正を行うと、補正を行わない場合よりもパフォーマンスが良 くなることがわかる。しかし、コストを最ノj、に抑えて Active な化合物を発見したいような場合には、 BoostedTr田のような通常の方法を用いるのが良いであろう。 HTSデータへの適用 今までの結果を HTSデータセットに応用し、データ数は 100,000(そのうち正反応割合は 0.07%)、 データ分割は学習 66%、検証 34%で行った その結果が図 7である。 O BoostcdTn:c 一 一一一一 Logi叫1 じ Rcgre')~jO El 一 一 一 一 一 一 ト J cu r n lNetwork . . [ ) c c : i s i o nTn:c R叩 戸r B O O S l c dTrcc( b a l u n c c dsamplc) 一一一 三=一ヨロヨと ‑2J U ﹃ B&~c1 inc 4 r 災、:、 一 、 0 J O 20 ] 0 40 50 叫} 70 お り (~) 1 < ) ( De 山1 0 図 7 HTSデータにおけるリフトチャート R i p p e rが一番良く、続いて L o g i s t i c回帰となっているコニューラルネットワークやツリーよりも L o g i s t i c 回帰の方がパフォーマンスが良い 入力変数問の交互作用を扱うのに優れている前者 2 つのモデ 3 ルは、 Activ巴な化合物が多い場合にはよいモデ ルを構成するが、 RareEventの場合には、線形関数 による伝統的な QSARモデ.ルを近似している単純なモデルの方が頑健で、優れているとし、うことであ ろ う 。 ‑481

468.

5 . 考察 J a n s s e nt 土の事例から、 RareEventを考慮、したデータマイニングによる QSARモデリングは HTSデ ータのふるいわけにも有効であることが示された。目的に応じて、単純なふるいわけだけでなく、予測 確率によるライブラリ内の化合物の順位付けなども考えられる。 6 . 謝辞 論文中の図表を使用することを快諾くだ、さった JanssenResearchFoundationの D r .EngeIs,さまざ まな質問に答えていただいた SASBeIgiumの Koenぬlapenに深く感謝する。 7 . 引用文献 A j a j, W a l t e r s, W.P., Murcko, M.A.Ca/l 附 leam10d i s l i / lg u i s hb e品 目/1 d r u g ‑ l i k e "a/ld /l0/1d r u g ‑ l i k e" ど ,c u l e s ?J .Med.Chcm.1998 ,4 1,3 3 1 4 ‑ 3 3 2 4 . mol e ta l .D e s i g l l i / lgl i b r a r i e sw i l hCNSa C l i v i t y .J .Mcd.Chem.1 9 9 9, 42, 4 9 4 2 ‑ 4 9 51 . A j a j, Breiman, L .c ta l .C l a s s i f i c a t i o na l l dr c g r e s s i o l lt r e e s .Chapman& H a l l, 1 9 8 4 . , kR .p r e s e n t e dt h i sb c l l c h m a r ki nh i sp r c s c l l t a t i o nD a t a b a s es c r e e l l i n gbyf a s tt 1c x i b l ed o c k i ng "p a p e r59a t C l a r thACSN a t i o l l a lM e c t i l l gi nSanF r a l l c i s c o,2 0 0 0 . t h e2 19 a s le f f e c l i v er u l ei l l d l /c l i o l l .P r o c e e d i n g so ft h eT w c l f t hI n t e r u a t i o n a lC o n f e r e n c eo nM a c h i l l e Cohen,W.W.F Lea r u i n g,1 9 9 5, P1 1 5 ‑ 1 2 3 . E n g c l s, M.F.M.e ta . lC e r b e r u s :as y s l e ms l / p p o r l i l l gI h es e q u e l l l i a ls c r e e / li / lg p r o c e s s .J .ChemI n f .Comput .S c i . 2000, 40 , 2 4 1 ‑ 2 4 5 . EI l g e l s, M.F .M., Kna p e n, に ,T o l l c I l a e r eJ . P .Approachesf o rM i l l i / lgH igh‑Throl/ghpl/I S c r e e/li l l gDalaS e l s .I n p r o a c h e st oDrugD e s i伊, 2001P r o u sS c i e l l c e,4 9 6 ‑ 5 0 5 . R a t i o n a lAp c . A . ;1ρmbardo ,F . ;D o m i l l Y ,B .W.;F e e n e y , P .J . Experime/ll a la/ldC O I I ψl I Ia l i o / la lapproaches10 L i p i l l S k i, e s l i m a l es o l l /b i l i t ya l l dp e r m e a b i l i t yi / ld rugd i s c o ν ' e r ya l l ddevelopme / ll s e l l i / lg s . A dv.DrugD e l i v e r y 1 9 9 7, 2 3( 1 ‑ 3 ), 3 ‑ 2 5 . R c v ., Sadowski, J ,Kubinyi,H.A s c o r i l l gschemef o rd i s c r i m i l l a l i / l gb e t w e e/l d r u g sa l l dIlo/ld r u g s .J .Med.Chem.1 998 , 4 1,3 3 2 5 ‑ 3 3 2 9 . S p c n c e r, R.W.D i v e r s i砂 a/la l y s i si / lh i g hI h r ol/ghp l /I s c r e e l l u z g .J .Biomol .S c r e c n i n g .1 9 9 7, 2, 6 9 ‑ 7 0 . , M., v a nGee r e s t e i l l, V .P o l e l l l i a ld r u g s山 z d/lo/ld r u g s :P r e d i c l i o l landi d e l l l i f i c a l i o l lo fi m p o r l a l l l Wagcner l /C l l l r a lf e a l l /r e s .J .Chem.I l I f .Comput .S c i .2000 ,40 ,2 8 0 ‑ 2 9 2 . s l r Wildman, S.A, C r i p p c , I lG.M.P r e d i c l i o l lo f p h y s i c o c h e m i c a lparamel ど ,r sb ya l o m i ccO/z l r i b l /l i o m :1 .Chcm.I n. f Comput .S c i .1 9 9 9,39,8 6 8 ‑ 8 7 3 . 482‑

469.

ポスターセッシヨン 統計解析

470.
[beta]
日本 S A Sユーザー会 (SUG I‑J)
NLMIXEDプロシジャを用いた項目反応理論モデルのパラメータ推定
伊藤陽一

東京大学大学院医学系研究科生物統計学

ParameterEstimationi
nItemResponseModelsw
i
t
htheNLMIXEDProcedure.

Y
o
i
c
h
iI
t
o
fHealthSciencesandNursing,U
n
i
v
e
r
s
i
t
yo
fTokyo.
B
i
o
s
t
a
t
i
s
t
i
c
s,Schoolo

要旨
医学の分野において QOL 質問票の解析に項目反応理論を応用することが試みられてい
るが、モデルが非線型混合効果モデルとなるため、パラメータの推定が難しい。この問題に
対して、いくつかの専用のソフトウェアが開発されているが、使いやすさなどに問題が残る。
NLMIXED プロシジャは非線型混合効果モデルに対応したプロシジャであり、項目反応理論

のモデルのパラメータ推定に適していると思われる。本論文で 1
;
1
:
, NLMIXED プロシジャを用
いた項目反応理論モデルの解析例を示すとともに、解析に必要な項目数及び対象者数をシ
ミュレーシヨンによって検討する。

キーワード:

項目反応理論、 NLMIXEDプロシジャ

1.はじめに
近年、医療の質を評価する際に、述、背 "1 身の主観 I'J'J~r 1llli である Quality ofL
i
f
i
じ(
QOL)がJ
H

し、られることが多くなってきたの也 J
‑
.他
ー 2(01)0通常 QOLは質問:!?::二上って評 {
d
l
iされるため、
その質問票の信頼性と妥当性を確かめるために凶子分析等の f汁 -iIt 心 FI~学的な手法が i自JI1さ

れている さらに質問票に合まれる任項目に対して詳細な険討を }
J
[
]えるために、項目反応埋
J

論モデ ルが注目されつつある (Hayse
taL
.20()OL
項目反応理論モデ、ル!士 4
1
=線型混合効果モデルとなることがあるため、パラメータの i
f
じむが
難しく、専用のソフトウェアが開発されている』代表 {
J
'
J
t
d
,
ω としては、 AsscssmcntSvstcms.[
n
c

,
ベ BILOG、PARSCALE、XCALIBEfと

:
/
/
¥
¥
"
¥
¥
'
¥
¥
"
.
a
s
s
e
s
s
.
c
o
m
/
)が I
V
j売している MULTILOG
(
hロp

どまたは Winsteps.com (h即//¥¥引¥".winsteps.com)から提供されてし、る Winsreps やその Frec
版である Ministep などがあるが、し、ずれもデータの入I
t¥
jJベ
Jモデルぴ)桁定にクセがあり、習
熟するのに時間を要する

J

‑485‑

471.
[beta]
S
A
Sパージョン 8で、追加された NLMIXEDフ。口、ンジャは非線型混合効果モデ ルを扱う一
般的なフ。ロシジ、ヤであり、項目反応理論モテずルの当てはめにも利用可能であると思われる ま
v

た
、S
A
Sの入出力機能が利用できるため、入力データの加工や推定結果の再利用が可能と
しづ利点がある そこで本論文では N
LMIXEDプロシジャを用いた項目反応理論モデ.ルの解
U

析例を示すとともに、解析に必要な項目数及び対象者数を、ンミュレーションによって検討す

る
》

2
.項目反応理論モデル
項目反応理論モデルの特徴は対象者の質問項目に対する反応をモテずル化する際に、対象
者の能力を潜在変数として定義し、その値が与えられた下での質問項目に対する反応確率を
モデル化してし、ることである。基本となるモデルは 2値の反応:こ対するロジスティックモデルで
あるd たとえば、対象者 1 が質問項目/に正解する確率 ~j をとすると、

p
!
I

=
‑
‑
‑
‑
‑
‑
‑
;
'
!
日
l+expト
ヤθ
j,‑h
,
J
)

となる ここで θ
1は対象者 jの能力を潜在変数として表したものであり、この値が大きいほど質
J

問項目 .i~ こ正解する確率が高くなるようになっている ο この吹を対象者 I の特性 flli( と呼ぶU ま

た
、 a
}とh
}はそれぞれ質問項目 1
.の性質を表したノ fラメータてーある υ α jが大きい質問 J買日ほ
ど対象者の特性値の変化に対して正解率が変化しやすく、対象者の特性値がある値以上カュ
どうかをある質問項目に正解するかどうかで判断しようとしたときに、正しく判断できる割合が大

jは正解率が大きく変化する位置を表
きくなる このため α j は識別力と呼ばれている 一方、 h
d

d

しており、対象者の特性値が h)
α j のとき、質問項目/の正解率は 5
0
'
1
'
0と
なる"h
}が大きい
質問項目ほど、正解率引J
%となる特性値が大きくなるため、 h
}は困難度と呼ばれてしも この
d

モデルでは各質問項目に対して 2種類のパラメータを想定するため、 2パラメータロジスティッ
クモデルと呼ばれている ο なお一般的には 2 パラメータロジスティックモデルは上記のモデル

}を α
J
b
;と置き直したときの b
;を困難度と定義しているものが多いが、上記のモテごルと本
のb
質的に同等のモデルである。
推定に際しては特性値 θを変量効果と考える周辺最尤推定法が通常用いられる ο 上記 υ〕
モデルは固定効果である識別力 α jと変量効果である θ
Jが積となっており、非線型混合効果

u

モデルと呼ばれる。このモデルにおいて、 α
Jを こ固定したモデルを lパラメータロジスティッ
c
hモデルと呼ぶο このモデルの下では対象者 Iがあるテストを受けた際の
クモデルまたはRas

tの十分統計量となるため、困難度 h
}の推定に条件付最尤推定法を利
正解数 rが特性値 θ
用することができる)
患者の QOLを測定する質問票の質問項目では、痛みの強さなどしくつ刀、 ω順序カテゴリー

‑486一

472.

で回答する形式のものが多い υ このような質問項目に対するモテ、ルとして、以下(こ挙げるよう なモデ、ノレが提案されている d 2 . 1 RatingScaleModel Ra t i n gS c a l eModel(士Ra s c h( 1961)により提案され、And r i c h(1978)によって改良されたモデ ルで、ある ω このモデルでは、まず質問項目/の m 個の選択肢に対して、あら均、じめ、スコア W j,lV , . ・ ・, W耐を与える υ そして、対象者 lが質問項目 2 lの k番目の選択肢を選択する確率を 以下のようにモデル化する》 叫 ( 川 θ1‑hJ n t目仇θi‑bjlt) v 2 . 2GradedResponseModel GradedResponseModel(GRM)は Samejima(196り)(こよって提案されたモテツレで、識別力を 固定した場合には比例オッズモデル (McCullaghandNeld町 、 19R9)と同等となるモテずルである d Graded Response Modelでは、まず対象者 iが質問項目 lの h番目の選択肢より大きな選択 肢を選択する確率を以下のよう(こモテザル化する ~;' ( h ) 二 1+叫 d l ( h = I 、 ヘm ) ‑ l ~θ1 h J j Qj ‑ jh したがって、質問項目 lの k番目の選択肢を選択する確率ペ ( k )は以下のようになる u ペ い)=RJい ) ‑r , ; い +1 ) ここで尺 ( 1 )=1 かつ J~j(I11 +1)=O とするυ 2 . 3P a r t i a lC r e d i tModel a s t e r s( I9 X 2 ) 1こよって提案されたモデ、ルで、Ra s c bモデ、ルと P a r t i a lC r e d i tModel(PCM)は M 深い関係がある u 選択肢が 2つの場合のRas c hモデルは以下のようになる ペ 2 J exp(θIhJ P ' j l+ 九一 1+exp~θi-hi) ここで、 , Pjj とP ' j2はそれぞれ対象者 Iが質問項目/の l番目と 2番目の選択肢を選択する確 率である ο 対象者はどちらかの選択肢を選択することになるので、左辺の分母は l となり、先 に挙げたRa s c bモテルと一致する υ PCMで、はこのモデ、ルを拡張し、以下のようにモデル化する} ‑487‑

473.

I 7 1 A ー 叫( θ 1‑bjk) I ‑ ト ペ +~/k Pljk‑I 1 +e x p ( θ 1‑bjk) ,p と }A はそれぞれ対象者 Iが質問項目 jの k‑j 番目と k番目の選択肢を選択する篠 率であり、この隣り合う選択肢聞に Raschモデルを当てはめるのが P仁M である υ 対象者は任 質問項目のどれかの選択肢を選択するので、当然以下の等式が成り立つリ エ ペ =1 h 1 1 = 1 PCMは 3つのモデルの中で唯一、一般化線型混合効果モテ、ルの枠組みに入るモデールで あり、他の 2つよりは推定は容易であると思わわる 最も難しいのは固定効果と変量効果が的 v でモデ.ルに含まれる GRMである υ これらのモデルはモデ、ルによってパラメータの解釈が W J : , ってくるため、データの性質に則したモデ、ルを選択する必要がある d 3 .NLMIXEDプロシジャによるパラメータ推定 NLMIXED, フロ = 1 Jシジ、ヤ(は士非線型混合効果モテずルに対応応、したブロシジ、ベへヤ で 0 P ブ、ロシジγ ¥ ‑, で 、l は士、任意の非線型混合効果モデルを変量効果に関して精分することによって、 周辺尤度関数を求め、その周辺尤度関数を固定効果に関して最大化することによってパラメ n s t i t u t eI n c . 1 9 9 9 ) υ 周辺尤度関数の最大化を行うためには、 ータ推定を行なってし、る (SAS I その l階微分(最適化の方法によっては 2階微分まで)が必要となるが、 NLMIXEDではこれ を有限差分法によって計算している この方法は明示的な微分が存在しない関数について微 J 1 1 j 分を計算するニとがで、きる点がメリッ卜で、あるが、繰り返し計算が必要になるため、計算に時 1 がかかる点が問題である NLMIXEDでは非線型混合効果モデ J ルの周辺尤度関数を積分近 似することによって求めてし、るため、積分近似された関数の微分を求める一般的な方法とし、う ことで有限差分法が採用されているものと思われる ο ここで以下のデータに対して、 2パラメータロジスティ、ソクモデ.ルを当てはめた例を紹介する ρ この表はそれぞれの対象者が 2つの質問項目:こ対して解答し、正解なら l不正解なら()と記 述したものである υ 対象者質問項目 1質問項目 2 1 1 0 2 0 0 3 1 1 4 1 5 ‑488ー 0

474.

このデータに対するデータステ、ソブとプログラムを示す》 d a t at e s t ; i n p u ts u b j e c tj 1j 2y ; c a r d s ; 1101 10 10 2100 20 10 3 10 1 30 11 4 10 1 401 0 5 10 1 50 11 P R O CN L M I X E D ; B O U N D Sa 1 ‑ a 2 > O ; Z二 j 1 牢( a1 牢t h e t a ‑ b 1 ) t j 2牢( a 2牢t h e t a ‑ b 2 ); +e x p (一z ) ); p = 1 / (1 M O D E L y b i n o m i a l ( 1, p ) ; 1 ) R A N D O Mt h e t a‑n o r m a l ( O, s u b j e c t= s u b j e c t ; r u n ; テ、ータセ、ソトぴ〕変数としては、うが反応変数で、 j lと) 2ば質問項目に関するダミ一変数であ る また、 s u b j e c t !士個人を特定する変数である フログラムの説明として!士、 BOU 羽 DS ステー ν v トメントでパラメータの定義域全指定している o 2 ノ¥ラメータロジスティックモデルとは、定 j 主上 特性値 θの増加!とともに正解率が上がる必要があるので、識別 ) J(/1、叫が lEO)I!宣伝取るように 指定している υ モデ、ルばブロクーラムによって指定される v データセットに含まれなし、変数で等ュ七 h c t o0 10 2 . の右辺にのみ出現する変数が指定すべきパラメークとして記、識される ここでは t J b lb 2である》左辺に出現する変数はモテ・ルを指定する上での掛i t J } J 変数であり、任意の定数 司 士反応変数がどの上う 名が指定可能である ここでは zと p ておる MODELステートメントて1 v J f l ' i s)反応変数を想定しているため、 2J貞分布 b i n o m i o l な分布に従うかを指定する ここでは 2t U となり、その分布のパラメーク p をフログラムで指定するという形でモデル会記述している、 RANDOM ステートメントでは、どの変数が変量効果たの均、を指定しているー現時点では J E l i t 効果の分布は正規分布しル、仮定できない また、ここでは識別可能性 ω観点ヵ、ら平均()分散 J lに固定している ο 上記のプログ ラム(こ上るパラメータの推定結果は以下の上うになる A M Parameter Estimates Parameter a 1 a2 b 1 b 2 Estimate Standard Error Lower Upper 3.0130 2.9523 2.9923 0.8832 4.8949 5.1800 4.1128 2 .1565 10.5775 11.4297 ‑14.4113 5.1041 16.6035 17.3344 8.4266 6.8706 489ー

475.

このときの適合度統計量は以下のようになる。 F i t Statistics 2Log Likelihood AIC (smaller i s better) AICC (smaller i s better) BIC (smaller i s better) 1 0 . 7 1 8 . 7 2 6 . 7 1 7 . 2 対象者数が 5 人で、総反応数が 1 0しかないため、ハラメータの推定値の標準誤差が相当 大きくなってし、ることが分ヵ、る u 推定された識別力ノえラメータの解釈としては、特性値が l増加 するごとに、各質問項目でおよそ 3ロジット分だけ正解率が増加するとし、うことである また困 d 難度ノ fラメータについては、質問項目 lの方が質問項目 2よりも簡単な項目であり、同じ特性 . 9 ロジット分違うとい 値を持った対象者がこれらの質問項目に答えた場合、正解率がおよそ 3 o g ( p /( l‑ p ) )と変換したものである ロジ スティッ うことを意味している u このロジットとは確率 pを l U クモデルで、は、この変換したスケールの下でモデル化を行ってし、るため、対象者の特性値の 違いによる正解率の違いや、質問項目の違いによる正解率の違いはこのロジ、ソトで、表現した 方が便利であるυ ここで、 2 つの質問項目の識別力がほぼ等しいことに注目して、 2 つの質問項目が共通の 識別力 αを持つとして、プロク ラムを修正すると、以下のようになるじ 3 P R O CN L M I X E D ; B O U N D Sa > O ; z = j 1牢( a牢t h e t a ‑ b 1 ) + j 2本( a本t h e t a ‑ b 2 ) ; p = 1 / ( 1 + e x p ( ‑ z ) ) ; i n o m i a l ( 1, p ) ; M O D E L y‑ b 1 ) R A N D O Mt h e t a n o r m a l ( O, s u b j e c t=s u b j e c t ; r u n ; ‑490一

476.

この修正フ'ロクーラムに上る推定結果;'I以下山上うにたる u P a r a m e t e rE s t i m a t e s P a r a m e t e r E s t i m a t e S t a n d a r d E r r o r a b 1 b 2 2 . 9 8 5 0 ‑ 2 . 9 7 2 7 0 . 8 8 9 9 3 . 5 1 4 6 3 . 3 4 1 2 2 . 0 2 5 6 L o w e r Upper 6 . 7 7 3 0 ‑ 1 2 . 2 4 9 3 ‑ 4 . 7 3 4 0 1 2 . 7 4 3 0 6 . 3 0 3 9 6 . 5 1 3 9 困難度の推定値はほとんど変化せず、推定すべきハラメータ数が減ったこと:、こ,.tって推定 値の標準誤差が減少していることが分かる この場合の適合度統計量は以下のようになる J v F i tS t a t i s t i c s ‑ 2L o gL i k e l i h o o d A I C( s m a l l e ri sb e t t e r ) A I C C( s m a l l e ri sb e t t e r ) B I C( s m a l l e ri sb e t t e r ) 1 0 . 7 1 6 . 7 2 0 . 7 1 5 . 6 対数尤度はほとんど変化せず、 AIC が改善してし、ることが分かるつま旬、質問項目ごとに 異なる識別力を当てはめることは冗長であったということである質問項目に対して共通の識 別力 αを当てはめるということは、個々の対象者の特性値を定数倍することに等しい U)で、識 別力を lに固定し、特性値 θの分散を σ とするモデ ルと同開となるはずである このことを確 ψ かめるために、以下ぴ〕フ ロク ラムを実行してみる》 p P R O CN L M I X E D ; z = j 1ヰ( t h e t a ‑ b 1)+ j 2ヰ( t h e t a ‑ b 2 ); p = 1/ ( 1 + e x p( ‑ z) ) ; i n o m i a l ( 1, p ) ; M O D E L y b R A N D O Mt h e t a n o r m a l ( O,s 2 ) s u b j e c t=s u b j e c t ; r u n ; AAT q d よ ‑

477.

すると、以下のような結果が得られる P a r a m e t e rE s t i m a t e s P a r a m e t e r b 1 b 2 s 2 E s t i m a t e S t a n d a r d E r r o r L o w e r U p p e r 2 . 9 7 2 7 0 . 8 8 9 9 8 . 9 0 9 7 3 . 3 4 1 1 2 . 0 2 5 5 2 0 . 9 8 0 5 ‑ 1 2 . 2 4 9 2 4 . 7 3 3 9 ‑ 4 9 . 3 4 1 6 6 . 3 0 3 8 6 . 5 1 3 7 6 7 . 1 6 1 0 予想通り、特性 W ' (の分散 s 2士 ! 2.985C =8910に近い値となってしも u また、適合度統計量 は全く同じ値となった なお、このモデ ル{士推定すべきハラメータが積の形でモデルに含まれ d i 型混合効果モデ.ルで(士なく、一般化線型出合効果モデルとなって t , 、 る ていなし、ため、非移i ν 4 .シミュレーションによる検討 先の例題では、たかだかラ人の対象者治、つ 2つの質問項目で推定を行ったが、項目数や 対象者数が少ないと対象者の反応、のパターンによっては推定が不可能になることが上くあるリ したがって、ある邦:定 1 古一度を確保するために必要な対象者数と質問項、目数がどれくらし、である かを険討しておくことは有用であると考えられる ο 想定したモデルヵ、ら発生させたデータヵ、ら真値が推定できるヵ、どうかを調べるために、シミ ュレーションを行えシミュレーションを行うモデルとしては、 2 パラメータロジスティックモデ、ルを 想定する υ シミュレーションの設定として、質問項目のパラメータと対象者のパラメータを乱数 によって決定した 質問項目の識別力 α{土05から1.5の一様乱数、困難度 hは‑1.5ヵ、ら1.5 J の一様乱数を用い、対象者の特性値(士平均 0 分散 lの正規乱数を用いた 得られたパラメ J ータの下で対象者 Jが質問項目 j¥ こ正解する確率を求め、その確率をパラメータとするこ項 口 ! と し 、 乱数にしたがってシミュレーションデータを発生させた シミュレーションの回数は 300I J 項目数を 5、1 0、1 5、対象者数を 1 0 0、200、300 と変化させた 得られた推定値から識日 I J力と J 困難度それぞfしについて、推定値と真航との差(推定残差)の平均と標準偏差を求めた 以下 U にその結果を示すリ 4 9 2ー

478.

表識別力と困難度の推定残差の平均と標準偏差 i 能別力 項 目 数 対 象 者 数 平均 標準偏差 5 1 0 0 0 . 1 3 7 0 . 6 1 9 5 . 0 6 5 0 . 4 2 8 200 0 . 0 4 8 0 . 3 3 1 5 300 0 1 0 1 0 0 0 . 0 7 0 0. 47 9 1 0 . 0 3 2 0 . 3 0 4 200 0 1 0 300 0 . 0 2 0 0 . 2 4 3 1 5 1 0 0 0 . 0 5 3 0. 428 200 0 . 0 2 4 0 . 2 8 0 1 5 1 5 300 0 . 0 1 0 0 . 2 1 7 困難度 平均 標準偏差 0 . 3 4 0 0 . 0 1 2 ‑ 0 . 0 0 2 0 . 2 2 9 0 . 0 0 0 0 . 1 7 6 ‑ 0 . 0 0 3 0 . 3 1 0 0 . 2 0 1 0 . 0 0 8 0 . 1 6 1 0 . 0 0 7 0 . 0 0 6 0 . 3 0 1 0 . 0 0 4 0 . 2 0 0 0 . 1 5 8 0 . 0 0 6 時間の都合上.項目数 1 5i 土、ンミュレーション途中の結果であろ} に近く、偏り t tく推定できていることが分治、る 一方識別力 表より、困難度の平均は十分に o ν は項目数や対象者数が少ない設定において、正ぴ)偏りが見られた 標準偏差は識別力と困 v 難度のどちらにおいても、項目数および対象者数の増加に伴って減少する傾向があったけ一 方、識別力の標準偏差は困難度に比べて非常に大きかった J 5 .考察 標準偏差の大きさについては、たとえば 2つの質問項目の困難度の推定値について考え、 どちらの推定値もシミュレーションでj尋られた標準偏差 xを持ってし、たとすると、 2 つの推定値 ,信頼区聞は(信頼区聞の差)::!:: の差の標準偏差はふ'となる すると、推定値の差の 95% d 1 .9 6. J 2 sとなるので、これを質問項目 1 0項目対象者数 300人の標準偏差 0 . 1 6 1で計算する と(信頼区間の差 ) : : ! : : 0 . 4 4 6となる したがって、 2つの質問項目の真の困難度の差が 0.5くらい u あれば、点推定値での大小関係が真値での大小関係と逆になることは確率的に低いといえ る v 一方識別力で同様の検討を行うと、最も標準偏差の/トさい質問項目 1 5対象者数 300人で : : ! : : O6 0 1である υ2つの真の識別力の差が 0 . 6r J.、とあるとし、うことは、識別力 も(信頼区間の差 ) の定義域のほぼ両端に位置してし、るとし、うことであり、推定精度の観点からはこの項目数と対 象者数で、はまだ不十分であるといえる また、シミュレーションの設定を変更し、識別力の定義 M 域を大きくとった場合には結果が呉たるかもしれない 今後検討すべき課題である J U 項目数と対象者数の増加に関連して、推定時間の増大とし寸問題が挙げられる 今回のシ υ ミュレーションでは、項目数日対象者数 300まで検討したが、 CPUAMDAthlonl.4GHzRAM il11t:で平均 2時間くらし治、かる υNLMIXEDでは推 512MBとし、う環境で一回の推定(こ CPUT J l l士 ! 定過程において対象者ごとに周辺尤度関数の積分近似を計算しており、対象者数の増 j ‑493

479.

この近似計算に関する計算時間を増やしているものと思われる また、項目数の増加は単純 J に推定すべきパラメータの増加l につながるため、有限差分法で微分を評価すべきパラメータ が増加し、結果的に計算時聞が顕著に増加しているのだと考えられるο したがって、大量の質 問項目で 推定時間が非現実的なものとなる場合は、解析に f 刊し、る質問項目をしくつかに分け るなどの操作が必要となるカもしれない 実用上の問題点としては、解析を行う際にプログラム中にモデールを記述しなくとはならない という点が挙げられる ο 項目反応理論ぽ項目数や項目ごとのカテゴリー数に依存してパラメー タを数多く指定する必要があるため、解析のたびにフ ロク ラムを修正しなくてはならない した p U がって、モデルと質問項目数、反応カテゴ リー数を指定すれば、自動的にモデルを記述してく れるようなマクロが有用で・あると思われる そのようなマクロを現在開発中である U u 6 .参考文献 A n d r i c h,D .( 19 7 8 )A r a t i n gf o r m l l l a t i o nf o ro r d e r 己dr e s p o n s cc a t e g o r i e s .1 勺ι F, homC :l r i k a4 3 . 5 6 1・573 H a y s .R .D .M o r a l e s .L .S .AndR e i s eS .P .( 2 0 0 0 )I temr c s p o n s et h e o r yandh e a l t ho l l t c o m e 司 measurementi nt h e2 1 "C e n t u巧'凡1 : c d iαIf(三I r : c3 8 ( s u p p l e1 1 )I I ‑ 2 8 ‑ I I ‑ 4 2 池上直己福原俊一下妻晃二郎池田俊也編 ( 2 0 0 1 ) 臨床のための QOL評価ノ、ンドブ、ソ ク東京医学書院 McCul !a g h .P .a n dN e l d e r1 .A .( 19 g 9 )G e n e r a l i z e dL i n e a rM o d e l s .L o n d o n :Chapman&Hal ! R a s c h,G .( 19 6 1 )Ong e n e r a ll a w sa n dt h em e a n i n gofm己a s u r e m e n ti np s y c h o l o g y .Proι ' c : c :d i n : ; s ο l ( t h : cF O l l r t hB: c r k c : ! c : y,"'~vmpo.l' illm onM αt h : c m a t i c a !, " 1αl i s t iじ.¥' andP r o h a h i ! i t y( V o Lえ p p . 3 2 1 ‑ 3 3 3 ) .8 e r k e l e y :U n i v e r s i t yo f C a l i f o m i aP r e s s S a m e j i m a .F .( 1 9 6 9 )E s t i m a t i o no fa b i l i t yu s i n gar e s p o n s ep a 口em o fg r a d e ds c o r c s Psychom : c t r i k . αMonogmph、No, 1 7 SASI n s t i t l l t eI n c .( 1 9り9 )SAS/STATRU s e rsG l l i d e .V e r s i o nX .C a r 下 二 NC :SASI n s t i t u t eI n c . v a nd e rL i n d e n,W. J .a n dH a m b l e t o n,R .K .( 1 9り6 )Handbook o fModemI tcm R e s p o n s c The o r y .NewY o r k :S p r i n g e r ‑ V e r l a g . 494‑

480.

ポスターセッション システム

481.

日本 SASユ ー ザ ー 会 (SUG1‑0) SASアブoリケーションにおける数値表現誤差の扱い 羽田野実 株式会社 SASインスティチュートジャパン カスタマーサービス本部フoロフエツ、ンョブノレサーヒマスク、/レーフo 1 DealingwithNumericRepresentationE r r o ri nSASA p p l i c a t i o n s MakotoHatano e r v i c e sD i v i s i o n,SASI n s t i t u t eJapanL t d . P r o f e s s i o n a lS e r v i c egroup1,CustomerS 要旨 SASユ一ザザ、が直面するもつとも共通の問題のひとつに数値精度 (Nu 汀 m me 目n cp 戸r e 凹C 1 お S l ω o n ω )及 び 数 値 令 表 現 (N 山 u l 江me 白n お cr 閃 . 吃 e 戸 pr e s e n t 叫 at i 白 o n ω 分 1)がある。 SAS 、シンステムにおいて、数値は浮動ノぺ小 l ト、数点形式 ( F l o a t i n gp o i n tf o r m )で Numericr e p r e s e n t a t i o ne r r o r ) {こ注意を払わなければいけない、 ては、数値表現誤差 ( F l o a t i n gp o i n tr e p r e s e n t a t i o n )、 浮 動 小 数 点 表 現 誤 差 本論文では、浮動小数点表現( ( F l o a t i n gp o i n tr e p r e s e n t a t i o ne 1 ' 1 'o 1')及びその誤差の扱いについて記述するの キーワード: BASE、NUMERICREPRESENTATION、NUMERICPRECISION 1.はじめに 我々は、 1 0進数演算に慣れているが、計算機は有限精度の 2進数演算を使用している。そのた め、正確な 2進数表現ができない数値を扱う時、計算機はしばしば我々が期待しているものと異なる 結果を生成する。 例えば、 1 0進 数 値 0 . 1と 0 . 3は正確に 2進数表現できない。 10進演算では、 3x0 . 1は正確に 0 . 3であるが、 2進演算では正確に保持されない o SASシステムでこれらの値を表示すると、それら は同じように表示される。しカ、し、差分を計算すると、それらは実際には同じでないことに気付く。 4 9 7

482.

data a ; point three= 0.3; three t工mes point one= 3 0.1; 安 difference= point three ‑ three times point one; run; proc print noobs; run; three point times three point one 0.3 0.3 difference 1.3878E‑17 2 .浮動小数点表現 数値を保存する方法にはいくつかあるが、 SAS、ンステムは浮動小数点または実 2進 (Real binary)表現を使用して、すべての数値を保存する。 SAS、ンステムが浮動小数点を選択した 230)と高い精度(小数 大きな理由のひとつは計算速度で、あったの浮動小数点は非常に大きな数値 ( 点以下の析数)を可能にするためである。科学的記数法において数値は Oから 1の仮数 (Mantissa)と 1 0 のベキ乗で表現される。科学的記数法と浮動小数点表現の大きな違いは基数 (Base)の値で、ある G 、ほとんどのオペレーティングシステムでは、 1 0ではなく 2または 16であるつ以 下は科学的記数法で記述された数値を示している。 10進数値 987=.987吋 03 この場合の仮数 (Mantissa)は 、 .987である。 この場合の基数 (Base)は 、 1 0である。 この場合の指数 (Exponent)は 、 3である。 3 .精度と大きさ SASシステムは指定しない限り、 8バイトの領域に数値を保存する。値は 8桁に制限されていると いう意味ではなく、値を保存するために 8バイトが使用されるとしづ意味である。数値は仮数、仮数の 符号、指数と指数の符号からなる。たいてい実数は数値が表現される正確性と同じ精度で、保存で、き ない。整数の場合、精度は問題にならず、大きさが問題となる。変数を保存するのに使用されるバイ ト数により正確に表現できる最大整数が決定される。表 3 . 1に SAS変数の長さによる最大整数を記 述する。 ‑498‑

483.

表3 . 1SAS変数の長さによる最大整数 変数長(ノくイト数) 2 PC UNIX Mainframe 256 N/A N/A 3 536 65、 8, 192 8, 192 4 777, 216 1 6, 2, 097, 152 2, 097, 152 5 4, 294, 967, 296 536, 870, 912 536, 870, 912 6 1 , 099, 511, 627, 776 137, 438, 953, 472 137, 438, 953, 472 7 474, 946, 710, 656 281, 35, 184, 372, 088, 832 35, 184, 372, 088, 832 057, 594, 037, 927, 936 9, 007, 199, 254, 740, 992 9, 007, 199, 254, 740, 992 8 72, 表3 . 1において、最初に気付くことは、最大整数はフ。ラットフォームにより異なることで、ある o これは 2ま それそ、れのオペレーティングザシステムでイ吏用される浮動小数点表現の仕様のためで、ある c 基数 ( たは 1 6 )、仮数を表現するために使用されるビット数と指数を表現するために使用されるヒ)ト数は 精度に影響を与える c また、オペレーティング。システムが保存で、きない桁数を切り捨て、または丸め られるかどうかは、同様に表現誤差に影響を与える。 保存される情報に影響を与えるこれらの要因 により、実数は 8バイトの領域に保存されるべきである。テマイスク容量を節約、また整数を含む数値変 数の長さを短くしたい場合、 DATAステッフ。で、 LENGTHステートメン卜を使用して、値を保存するバ . 1で指定された長さによる最大整数以下であることを確認する必 イト数を変更できる。その値が表 3 要がある。 . 2に記述する。 浮動小数点表現はハード、ウェアにより異なる C 表 3 . 2 ハード、ウェアによる浮動小数点表現 表3 VAX 八市1S IBMMainframe IEEE 基数 1 6 2 2 指数ピット数 7 8 1 1 仮数ピット数 56 56 52 丸め/切り捨て 指数のバイアス 切り捨て 丸め 64 IEEEは OS/2,Windows,UNIXで使用されている。 499‑ 丸め 128 1023I

484.

基数が 16 の場合、数字 0~9 と文字 A~F( 1O ~15 を表現する)を使用する。 268, 435, 456 65, 536 4096 256 1 6 1 1 67 1 61 1 63 1 62 1 61 1 60 値 3000は BB8と表現される。 BB8=B士 ( 1 62)+B*(161)+8士 ( 1 60) =11 256+1 1士 1 6+8士 1 犬 =3000 基数が 2の場合、 0と 1が使用される。 128 1 6 8 4 2 1 2 2 ‑1 23 22 21 20 7 値 184は 10111000と表現される。 10111000=1 士( 27) +0士 ( 26) +1 士( 25) +1 犬( 2 " )+1 士( 23) +0士 ( 22) +0士 ( 21) +0士 ( 20) =128+0+32+1 6+8+0+0+0 =184 指数ピット数は指数を保存するピット数で、ある。保存できる数値の大きさを決定する。オベレーテイ ングシステムによって指数ピット数は異なる。 IEEEシステムは他の、ンステムより多くの指数ヒ、ット数を 使用しているため、より多くの数値を扱うことができる c 仮数ピット数は仮数を保存するビット数で、ある。保存する数値の精度を決定する。 IBMMainframeシステムの仮数ビット数が他のシステムよりものより大きいので、 PCと比較してより 大きな精度を期待できる。 丸め/切り捨ては、仮数が仮数桁数を越える場合の扱いである。 IBMMainframeシステムでは、 保存できる長さに値を切り捨てる。 VMSNAXとIEEEシステムでは、保存できない桁で僅が丸めら れる。どちらの方法も値を正確に表現できない。 指数のバイアスにより、符号ビットを設けず正負両方の指数の保存を可能になる。 IEEEフ。ラットフォームは浮動小数点表現の同じ仕様を使用しているが、ハードウェアの仕様によ りプラットフォーム間で、異なる結果を得ることがある。 IEEE標準は数値をどのように浮動ノ!、数点で保 存するかを決定しているが、それはすべての演算を同じ方法で実行することを意味していない。単 直は同じ方法で、正確に浮動ノト数点表現で=保存される にオペレーティング、システムに入力された同じf ことを意味する。 Windows プラットフォームにおいて、プロセッサは拡張実精度で、演算を行う。つまり、仮数部 53 ‑500一

485.

ビ苅ツ卜、指数部 1 1ビットの代わりに、仮数部 65ヒーッ卜、指数部 1 5ビットで、ある。数値は 80ビット(10 ノtイト)で、保存されない。なぜなら S AS、ンステムにおける数値の最大幅は 8バイトであるから。プロセ ッサは数値がメモリ ( 6 4 ビ'/卜)(こ戻される前、 80ヒV卜を使用して数値を表現していることを意味する。 Windowsにおいて、これは U NIXのようなオペレーティングザシステムで、使用される標準 I E E E浮動 E E E標準を使用しているオベレーテ 小数点形式より大きな数値の保存を可能にしている。これが、 I インクマシステムでわずかに異なる値を見る原因である。 浮動小数点表現コンポーネン卜が異なるオベレーティングシステムでわずカ hに異なる結果を得る ことは稀なことではない c それぞれのオペレーティング伊システムが加算、減算、乗算、除算などで使 用する基礎命令はわずかながら異なるため、し、くつかの数値精度の問題が発生する。すべてのオ ペレーテインクヘンステムは可能なかぎり正確に数値を計算しようとするため演算の標準方法はない。 4 . Windowsにおける浮動小数点表現 64ヒVト倍精度のバイトレイアウトを以下に記述する。 SEEEEEEE EEEEMMMM MMMMl ' v IMMM lI Ml ' v IMM MMM¥ ノ く イ ト 1 バイト 2 ノ く イ ト3 ノ く イ ト4 MMMMMl ' v IMM MMMM l ' v IMMM MMMMMMMM ノ 〈 イ ト5 バイト 7 バイト G E : 指数部 S : 符号 MMMMMMMM ノ く イ ト8 M: 仮数部 0進数値 255.75を浮動小数点表現に変換する処理を示す。 この例は 1 1 . 2進数で記述してみる。 255 1 2 8 6 4 3 2 1 6 8 4 2 1 1 1 2 1 1 4 1 1 8 2 ; 2 ( ; 25 21 2 :3 2~ 21 ワ0 ワl 2 ~ 2 ' 3 l 1 1 l 1 1 1 l 1 . 7 5 ・ 1 1 11 1 11 .1 1と表現される c 255.75は 2進数では、 1 2 . ノ j 、数点をその左 1 1 1 l jf こ1桁だけ残るまで移動する。この処理が値の正規化と呼ばれる。 この場合、 7つ移動するので指数は 7である(1.1 1 11 1 1 11 1 )。 nHV ﹁ ﹁d 1i

486.

3 . バイアスが 1023であるから、指数は 1030となるご 4 . 1030を 1 6進数表現に変換すると、 406となるごこの値が指数部になる ο 256 1 6 1 1 62 1 61 1 60 4 0 6 5 . 2進数値に変換する c 0100 0000 0110 4 0 6 変換する値が負の場合は、最初のビットを 1に設定して以下を得る。 1100 0000 0110 1 6進数では、以下となる。 C 。 6 6 . #2において、最初の桁と小数点を取り去ると、 1 1 1 1 1 1 1 1 1となる。 4ヒ'/トづつに分割すると、 1 1 1 11 1 1 11となる。最後の 4ビットを 0で補うと、 1 1 1 11 1 1 11000となる。 7 . それらを 1 6進数に変換すると、 FF8となり、これが仮数部である c 8 .2 5 5 . 7 5の浮動小数点表現は、 406FF80000000000である。 ‑ 2 5 5 . 7 5の浮動小数点表現は、 C06FF80000000000である c この例は、値が正確に表現される場合で、あったが、値の小数部がとーのように浮動小数点で、計算され るかを見ると、たくさんの値が簡単に計算されないことがわかる。 5 ̲ MVSにおける浮動小数点表現 MVS においてどのように浮動小数点表現が計算されるかを例示する。正確に表現できない値を ainframeオベレーテインクーシステム ( O S / 3 9 0,CMS)は以下の 8バイトの表現を 例に取る。 IBMM 使用する。 SEEEEEEE MMMMMMMM MMMMMMMM MMMMMMMM ノ ミ イ 卜 1 バイト 2 バイト 3 ノ え イ ト4 MMMMMMMM MMMMMMMM MMMMMMMM ノ 〈 イ 卜5 バイト 7 S :符 号 バイト 6 E :指数部 M: 仮数部 ‑502 MMMMMMMM / 王 イ ト8

487.

この例は 1 0進数値 5 1 2 . 1を浮動小数点表現に変換する処理を示す。 l.基数が 1 6であるため、最初に数値を 1 6進数に変換する。 2 . 整数部を変換する。 256 16 1 1 62 161 1 60 512= 2 0 二 。 200六 1 60 Iに移動して、移動した位置をカウン卜すると、それが指数である。 小数点を左倶J 512=.200六 1 63 3 . 小数部を変換する。 . 1=1 1 1 0=l .6/16 この分子は分数にはならない。そのため 1を保持して . 6を再び変換する。 . 6=6110=9.6/16 ふたたび、分子は分数にならず、 9を保持して . 6を変換する o . 6は 9 . 6の場合と同様に繰り返 1の近似値は . 1 9 9 9 9 9 . . . .1 60( 1 6進数)と表現される。 す。つまり 9を保持して、再変換する o . 大 4 .f 直の指数は 3である。保存される実際の指数はバイアスを加えて得られる。 3 +40 4 3 ( 1 6進 二 数)となる。決定すべき最後の位置は仮数の符号である。正の仮数の符号は 0であり、負の仮 数の符号は 1である。仮数の符号は 1バイト目の 1ヒ'/卜目に保存される。最初の位置に符号 ビットを追加する。保存される値は以下のようになる。 4 3 ( 1 6進数)=4*161+3 * 1 60 =6 7 ( 1 0進数) =01000003(2進数) . 5 1 2 . 1の浮動小数点表現は以下のようになる。 1 1 0 0 0 0 0 3 ( 2進数)=1 9 5 ( 1 0進数) 二 C3(16進数) 5 . 最終結果 5 1 2 . 1の浮動小数点表現は、 4320019999999999である。 . 5 1 2 . 1の浮動小数点表現は、 C320019999999999である。 この例は、 1 0進数で、正確に表現で、きる数値が浮動小数点の精度で 表現で、きないことを示している。 浮動ノト数点値が上記のように数値の繰り返しパターンは、この値は正確に表現できないとしウサイン 0進数で 1 1 3を表現しようとすることに似ている。近似値は 33333333(永久に 3の である。これは 1 繰り返し)である c υ ‑吋 ︿ qυ AU

488.

一 ﹂ 6 . 演算例 実数を含んだ算術演算の例を示す。 1 0進において 1 5 . 7‑1 1 .9は 3 . 8とし、うことを知っている。 a= QJ 14 14 i︾ ﹁/ 14 只 X その値を 3 . 8の区間値と比較してそれらが等しし、か判定できるはずである。 data a; x= 15.7 ‑ 11.9 ; if x = 3.8 then put 'equa1'; e1se put 'not equa1'; run; not equa1 SASログへの上記の出力は 等しくない円である。 PRINTフ。ロシジャで、 SASデータセットを出力して、 η . 8であることを確認してみる。 PRINTフ。ロシジャはその値が 3 . 8であることを示す。なぜなら 値が 3 PRINTプロシジャにより使用されるW.D出力形式(フォーマット)で、フアジング、 CFuzzing)が行われ、 そのためしてつかの値が保存されるものと異なって表示される場合があるためで、ある。出力形式を使 用して値を見てみる。 ‑504‑

489.

data a; x= 15.7 ‑ 11 .9 ; if x = 3.8 then put 'equa1'; e1se put 'not equa1'; put x= 10.8; put x= 18.16; run; not equaユ x= 3.80000000 x= 3.7999999999999900 1つ目の出力形式は 1 0 . 8が使用され、値は 3 . 8として表示された。しかし、より広い幅を使用して表 示すると、その値は 3 . 8より少レトさくなる。変数 Xが 3 . 8でないことを確認するもう 1つの方法は割 . 8と保存された値を HEX16. 出力形式で出力することである。これは浮動小数点 り当てられた値 3 表現を表示するために使用される特別の出力形式である。 data a; x= 15.7 ‑ 11.9; 1itera1ニ 3.8; put x= hex16. 1itera1= hex16.; run; x= 400E666666666664 1itera1= 400E666666666666 上記の例より、値が確かに異なることが確認できる。この例はフ。ロク、、ラマに注意を促し、計算機の出 力の完全性を確認させるかもしれない。精度がどのくらい有効かに関わらず、すべての数が正確に 0進数システムにおいて、分数 1 1 3は正確に表現 表現できるとし、うわけではないとしづ問題は残る。 1 できない。同様にたくさんの分数(例.. 1 ) が 2進数または 1 6進数システムでは正確に表現できない。 1 1 3を 3回加えるとどうなるだろうかワその値は正確に 1でしょうか?それは 1未満の . 9 9 9 9 9 . . .であ る。値が浮動小数点で、正確に表現できない場合、不正確な値の演算処理は結果の不正確さをいっ そう大きくするだろう。 MVSで発生するが、 PCでは発生しない数値精度の例を以下に示す。 υ ﹁吋 ︑ 戸ハυHυ

490.

data a; input gender $ height; cards; m 60 m 58 m 59 m 70 m 60 m 58 run; proc freq; tab1es gender/out= ne凶; runi SASデータセット NEWの PRINTプロシジャの出力は以下である。 IGender COUNT 5 m PERCENT 100 data fina1; set ne凶; if percent = 100 then put 'equa1'; e1s巴 put 'not equa1'; run; not equa1 FREQプロシジャは変数 PERCENTを含む出力 SASデータセットを作成した。 GENDERのすべ ての値が同じであるから、 PERCENTの値は 100であると思う。 PERCENTの値を確認するとログ は PERCENTが 100でないことを示す。 PERCENTを生成するために FREQプロシジャで使用 されるアルゴリズムは、算術演算を含んでいる。結果は 100にとても近いが一致しない。 I Fステート ‑506一

491.

メン卜で ROUND関数を使用すると、この問題を解決できる。 data fュ na1; set new; 工 f round(percent) = 100 th巴n put 'equa1'; 巴 ls巴 put 'not equa1'; run; equa1 7 . 留意点 実数を扱う上で留意すべき点は以下である。 データを理解する。 必要な有意水準を決める。 すべての数値が浮動小数点表現で、保存されていることを認識するの ROUND関数等を使用する。 数値精度問題を取り除くもっとも安全な方法は、整数を使用することである。 SASに取り込むデー タが整数以外の実数を含んでしも場合、不可能と思われるが、いくつかの関数を使用して整数を作 成できる c 例えば、金額量(ドノレ)を扱う場合、 2桁の小数位が気になるで、しよう c 小数点以下第 3位 (通常必要とする小数位より 1つ多く使用する)に ROUND 関数を使用して、その水準(この場合、 1 0 0 0 )を掛けて、そして小数を配除することを確信するため INT関数を使用する。 以下の例の場合、変数 Xの値は SASデータセットに実数として保存される それらを整数に変換 O するために、有意水準に ROUND関数を使用して、その水準を掛けて整数を得るために INT関 数を使用する。変数 NEWの総和を求めるため、変数 SUMを使用して加算し、最終オブザベーシ ョン時 (END ニオフ。ションで検出)(こ 1 000で害J Iるc data a; set b end= 1ast; new= int(round(x, .001)*1000); sum+n巴 w; if 1ast then sum= sum/1000; run; 507‑

492.

数値精度問題を例示するために使用した数式において、 ROUND 関数は値を同等に比較させる。 . 8 にとても近いためである。"とても近い"とは値を比較するのに十分とし、うことで これは、計算値が 3 はない。 data a ; x= 15.7 ‑ 11.9; ound(x,.01) = 3.8 then if r put 'equal'; else put 'not equal'; r u n ; equal オペレーティング システム間で、データを転送する場合は特 l ご注意する必要がある。表 3 . 2は、仮数と F 指数を保存するビット数がプラットフォーム問で異なることを示している。これは維持される大きさと精 e c h n i c a l Report P‑195: Tr ansporting SAS F i l e s 度に影響する。詳細については "SAS T BetweenHostSystems"を参照して下さい。 8 .まとめ 数値精度と数値表現の問題は計算機技術の始まり以来発生しているが、時々ユーザを驚かせる。 オペレーティングシステムの浮動小数点表現の有限制限により、無限の数は正確に表現で、きない。 デ、ータを知るのに時間がかかり、比較のための適切なツールを使用する必要がある。 SAS システム は大きな範囲と精度で数値を保存できるが、プログ、ラムが実数を使用する限り発生する問題に注意 しなければいけない。 9 .参考資料 本論文は以下の情報からのヲ l 用である。 TS‑230DealingwithNumericRepresentationErrori nSASA p p l i c a t i o n s ( h t t p : / / 氏p . s a s . c om/techsup/download/technote/ts230.html ) TS‑654NumericP r e c i s i o n101 ( h t t p : / / f t p . s a s . c om/techsup/download/t e c h n o t e / t s 6 5 4 . p df ) ‑508

493.

日本 SASユーザー会 (SUG1‑0) SPDS e r v e rソフトウェアの機能紹介 服部光利山本克巳 力スタマ サービス本部 株式会社 SASインステイチユ トジャパン IntroductionofSPDServerfunctions M i t s u t o s h iH a t t o r i K a t s u m iYamamoto C u s t o m e rS e r v i c e sD i v i s i o n .SASl n s t i t u t eJ a p a nL t d 要旨 本稿では、 Scalable Performance Data Server(以下 SPD Server と略す)ソフトウェアの機能 紹介について紹介する。 前半部分の機能紹介では、アクセス権と 1¥ ックアップ機能について紹介し、後半では SASシス テムバージョン 9での機能を紹介する。 キーワード: S c a l a b l ePerformanceDataS e r v e r、 ACL、Backup、SPDE 1 . はじめに SPD Server ソフトウェアは大規模なデータウェアハウス向けのエンジンとして、いままで、その抽出(検 索)機能について紹介されることが多く、アクセス権限についての Access Conlrol List(以下 ACL と略 す)やパックアップ機能についてはあまり触れられる機会が少なかった。本論文ではアクセス権限及び パックアップ権限について紹介した後、 SASシステムバージョン 9における機能について紹介してし、くこと にしたい 3 A H υ nuJ ' h υ

494.

2 .SPDServer ソフトウェアの機能 ACL SPD Se内 e r は BaseSASソフトウェアや SAS/EISソフトウェアとは別に、独自にアクセス権限として r のデー の ACLを設定することが可能である。このアクセス権限を設定することによって、 SPD Se内 e タに対するグループ単位、又はユーザー単位での権限を設定することが可能となる。また、グループ の割り当ては、ユーザーにつき 5つまで 設定が可能で あるので、柔軟な設定が可能である。 ACLは誰がどのレベルの権限で、アクセスが出来るかを定義することが出来、通常、 SPD S e r v e rの データ作成者はフルコントロールのアクセス権を与えられる。 この SPD Server の ACL では、 3つの異なった許可レベルをデータに対して設定をすることが出 来、また4つのアクセス権限を設定することが出来る。 先ずは、 3つの許可レベルから紹介する。 許可レベル ユーザーアクセス グループアクセス ユニバーサルアクセス 説明 ACL で、定義された特定のユーザーに与えられたアクセス権である。デ ータに対して特定のユーザーアクセス権が設定されていない場合、使 用するユーザーはグ ループアクセス、又はユニバーサルアクセスの許可 レベルが与えられる。 使用するデータに対して、使用者が所属するグループの ACL 権限が 設定されている場合は、そのグループアクセスの許可レベルが与えられ る 。 使用するデータが別の ACL グループで、定義されている場合は、使用 者はユニバーサルアクセスレベルの許可レベルが与えられる。 次に、 ACL のアクセス権を紹介する。使用するデータに対して次のアクセス権を設定することによ り、アクセスするユーザーに対して、「読み込みは出来るが変更や削除が出来なし、」等の設定を行うこ とが出来る。 アクセス権 READ WRITE ALTER CONTROL 説明 ァーフ、、ル内の読み取り及び照会が可能 ァーブル内の行の追加や更新が可能 ァーブ、ルの名前の変更。削除、置き換えが可能 ァーブ、ルに関する ACL情報そのものを定義または更新可能 また、 ACLそのものについても、次の 3つの種類がある。 種類 包括的 ACL LibnameACL 永久 ACL 説明 包括的 ACL は 、 i s a l eネ」などのように、接頭辞を使用して定義するもの である。 Libname ドメイン内で定義されるデータに対して定義される ACL であ る 。 特定のァーブルに対して定義した ACLは、ァーブルが削除された後も l ACLデータベースに情報として残る。 これまでに説明した ACLの権限を設定する手順は主に次のように行う。 5 1 0

495.

①先ず、 PSMGRユーティリティによって ACLユーザーとグ.ループを作成する。 ②次に、データに対する ACLの設定を iPROCSPDOJを使用して、必要に応じて設定を行う。 尚 、 SPD Serverの設定ファイルで ある、 libnames.parmファイルにおいても、ユーザーlDやグルー プの設定が出来るが、使用される方が特に限定されて決まってしも場合以外は、 PROC SPDO を使 用して変更がしやすいように設定されることをお勧めする c ACLを設定する際に使用する PSMGRユーティリティは、 SPD S e r v e r V3.0より評価仕様ではある が 、 Windows クライアントで使用する GUl 版のユーティリティも追加され、設定が容易に行えるように なっている。 PSMGR ユーティリティは、 SPD S e r v e r をインストールしたディレクトリ配下の s i t e ディレクトリにあ り、対話的なコマンド、形式のものになっている。本論文では誌面の都合で細かい設定方法について は割愛させていただく。 ここでは、 ACLの設定手順の 2番目である。 PROCSPDOの具体的な使用例を説明する。 先ずは、次のように工 ibnameステートメントにおいて、 SPDS エンジンを指定してドメインに対する 割り当てを行ったあと、 SPDOプ口、ンジャーを使用する 3 Libname spds sasspds 屯a pw"; password="tanaJ "tempdom" server=sasj.spdsname user="tanaJ 屯a " ハ jlibname宣言時は、ユーザーの指定をする o 合/ Proc spdo lib=spdsj 合 / lib=オプションで設定する libnameドメイン名を指定合/ ACLユーザーを定義するには次のように行う。 set acluserj1 *初期設定のユーザーを定義 * 1 set acluser tanaJ 屯a j 新規の ACL権限を追加するには次のように行う。 1 *ユニバーサル READとグループ WRITE権を設定 * 1 add acl/libname read groupwritej 1 * mydata データに対しユニパーサノレ READとWRITE権を設定 * 1 add acl mydate/read writej 1 *sales で始まるデ、ータに対してユニパーサノレ READ権を設定 * 1 add acl sales/generic read; 既存の ACL権限を更新するには次のように行う。 1 *libnameドメインに対して、 READとWRITE権を特定のユーザーに設定 * 1 modify acl/libname suzuki=(y, y, n, n ) y, n, n)j ito=(y, F 1i Tム ヘυ

496.

既存の ACL権限を表示するには次のように行う。 l i s t acl aD; 1 *全ACL情報を出力する方法 * 1 既存の ACLを削除するには次のように行う。 d e l e t eacl aD 1 *全 ACL情報を削除する方法 * 1 SPD S e r v e r で使用するデータの大きさは比較的大規模であり、かつ多数のユーザーが同時に使 用する場合が想定される。このような場合において、いかに社内で、のみ使用するデータで、あって も、アクセス権を設定しておくことは必要な場合があると思われる。そのような場合において、この ACL権限をうまく設定することにより、不必要なデータを見せない、あるいは誤った削除を防ぐ等の 利用に役立つと思われる。 パックアップとリストア 標準のファイル、ンステムが持つバックアップ機能、または在来のオベレーティング・システムによっ て提供される機能は、 SPD S e r v e r のテープ、ルに対しては一般的に不適切で、ある。理由として、 SPD S e r v e r のテープ、ルはギガバイト単位で、大きくなりうるからで、ある。理由のもうひとつとして、システムは テープツレへのレコード、への追加、削除、修正をテーブルに対するものと解釈しているからである。 標準のユーティリィティがフルパックアップの後に増分ノくックアップを実行する場合、それはテープ ル単位で、のバックアップによるファイル変更を意味する。テープ、ルが非常に大きい場合、パックアップ 時間は長くなり、さらに、処理は相当なマシン資源を消費する。これらの理由のために、管理者は頻 繁にリソースの負荷をかけて増分パックアップを行う必要があるのかとしづジレンマと戦うことになる。 SPD S e r v e r のパックアップとリストアのユーティリィティは、これらが SPD S e r v e r のデータを扱う為 に設計されているため、それらの問題を解決することが出来る。何故なら、パックアップユーティリィテ イは本当の意味で‑の増分パックアップが出来るからで、ある c すなわち、全テープ、ルをバックアップする 代わりに、ユーティリィティは、前の SPDS e r v e rのテーブルパックアップ期日の後に変わったレコード、 だけをバックアップ出来る。さらに、最後に行った部分のリストアが必要になった場合、リストアユーテ イリィティは、漸増的にその最後のパックアップ状態にテープ、/レを戻すことが出来る。 変更されたレコード、だ、けのバックアップによって、 SPD S e r v e r は価値のあるシステムリソースとして 保存できる。これは次の段階として、より頻繁なパックアップを促進することになる。頻度が増加するこ とによって、ユーティリィティは最終的なゴールを実現する。それは、いかなる理由であれ、 SPD S e r v e rテープツレの損失を最小限にすることである。さらに、周期的なフルパックアップに対する選択 を与えることにもなる。 SPDS e r v e rのパックアップとリストアのユーティリィティの構成要素は次のようになっている。 ユーァィリァィ名 s d s l s Spdsbkup S p d s r s t r υ 内ノ︼ ︑ ﹁ 説明 SPDS e r v e rドメインのァーブ、ルをすべてリストする。 SPD S e r v e rバックアップデータファイルに情報を格納して、増分あるいはフル パックアップを実行する。 e r v rパックアップデータ spdsbkupユーァィリイアイによって作成された SPD S ファイルを使用して、データをリストアする。

497.

以降では、パックアッフ。ユーティリティで、ある s p d s b k u p について、より詳しく説明する。構文は次の 通りである c 増分パックアップを行う構文は次の通りである c spdsbkup ‑inc ‑d <dom> ‑f <file> ‑h <host> [‑hash] [ ‑ s <serv>] ‑ p <passwd>][ 一七 < mm/dd/yy:hh:mm:ss>] [ ‑r <count>] [ ‑ u <use工>] [ [ ‑ a I‑aonly] [ ‑ q ] [‑nv6wa工n ] [Table ...] フルパックアップを行う構文は次の通りである。 spdsbkup ‑full ‑d <dom> ‑f <file> ‑h <host> [‑hash] [ ‑ s <serv>][‑u <user>] ‑ n ] [ ‑ q ] [‑nv6warn] [ ‑ p <passwd>] [ー工 <count>] [‑a I‑aonly] [ [Table ...] 上記の構文で使用されるオプションの説明は次の通りである。 a パックアップに ACLファイルを含める。 ‑ a o n l y パックアップに ACLファイルのみを含め、テープ、/レはパックアップしない。 ‑ c 1 SPDS e r v e rl i b n a m eドメインを指定する。 注ソくックアップを実行する、ンステムは、領域用の物理的なパスにローカルにあるいは ネットワーク接続を通じてアクセスすることができなければなりません。 I パックアップデータファイル用の接頭辞ファイル名。このファイル名は "̲BK̲ddmmmyyy̲hhmmss.O.O.O.spdsと連結される。名前はそれを SPD S e r v e rパック アップ・ファイルであることを示している。パックアップファイルがシステムのファイルサ イズの限界を超過する場合、 s p d s b k u pは、ユニークな SPD S e r v e rファイル名拡張子 (ファイル名の r O . O . O J部分は異なる)を備えた多数のバックアップファイルに分けて、 自動的にファイルを拡張する a ‑ f u l l SPD S e r v e rテーブツレのフルパックアップだけを実行する。オブ、ザベーションおよび属 、圧縮、ソートに関して)がすべてパックアップされ 性(インデックス、定義、分割サイズf るc 個々のフルテーフ。ルパックアップの後に、テーブルの最後のフルパックアップ日 nオプションを参照してくだ、さい。 をリセットします。依存性に関しては、 ‑ ‑ h パックアップに使用する SPDS e r v e rホスト名。 一h a s h 圧縮されてパックアップファイルに書かれている 256K のブ、ロックご、とに、標準出力へ のハッシュサイン(枠)を山力する。 h e l p s p d s b k u pユーティリィティ用のコマンドライン使用法、ンンタックスおよびオフ。ションスイ ッチリストを出力する。 一i n c SPDS巴r v巴rテープツレの増分ノくックアップを実行する。 n フルパックアップを実行する場合 SPD S e r v巴rテープ ル用にインデ、ツクス情報を保存 F する a テープ、ルがリストアされる時、リストアユーティリィティはインデ ックスを作成しな 5 1 3ー

498.

い。インデ ックスそれ自身ノえックアップされないことに注目してください c インデ ックスの 定義だけ保存される。 ‑nv6warn r v 6 データセットをバックアップすることがで、きなし、」としづ警告を抑制する。 Spdsbkup 3 . 0は SPDS e r v e r 3 . 0のデータのみをパックアップ出来る c もし‑nv6warnオプション e円 e rデータの初期のバージョンを試みる時 を使用しなければ、パックアップに SPDS には、警告メッセージが出力される 3 ‑p ユーザ・パスワード、を指定する。 ‑q バックアップオペレーション中にエラーメッセージと警告メッセージだけを出力する q u i e tモードである。 r spdsbkup が、テーブルが更新中で、あるためパックアップが出来ないとき、アクセスを . 0は 、 5秒休止 再試行するべき回の数を指定する。アクセス出来ない時、 Spdsbkup3 し、次にそれが前のアクセス試みに利用不可能だ、った場合、アクセスを再試行する。 デ.フォルト再試行回数は lであるこ ‑ s ネームサーバのポート番号。これが指定されない場合、デフォルト値は spdsname で ある。 一t パックアップされることになっているテーブ、/レ ( s )用の最後のフルシステムバックアップ p d s b k u p と共に使用される場合、テーブルが指定さ の日付/時問。一tオプションが s れた日付/時間の後に作成された場合のみ、ユーティリィティはフルバックアップを実 行する。そうでなければ、それは、指定された日/時間にテープ、/レの最後のフルパック アップ日をセットし、最後の十分なシステムパックアップ期日からの増分ノくックアップを i n cと共に使用される場合、それが指定された 実行する。 tオプションが spdsbkup‑ 日付/時間の後に作成されたテープ、ルに遭遇する場合、ユーティリィティは警告メッセ ージを出力する。メッセージは、テーブ、ルのフルバックアップが完成するまで、テーブル がパックアップされないと出力する。それが指定された日/時間(すなわち、最後のフ ルシステムパックアップ)の前に作成されたテープ、/レに遭遇する場合、その指定され た時間にテーブルの最後のフルバックアップ日をセットし、最後のフルシステムパック アップ期日からのテーブルの増分パックアップを実行する。一t オプションは s p d s b k u p ‑ f u l lと共に使用することができない。 ‑ u ユーザー名。 [テープ〉ル] パックアップに含められる領域のテーブノレ。テーブルが指定されない場合、領域内の テーブルがすべてパックアップされる。注:テープ、ルは指定された最後のオプションで、 ある必要がある。 e円 e r用に作られているだけあり、ファイル、ンステム このように、パックアップの機能としては、 SPDS や OS等が提供する機能よりも、より充実したものとなっている。データのサイズが大規模になればな るほど、このパックアップとリストアのユーティリティは使用する価値が生まれるものと思われる。 ‑514

499.

3 .SAS システムバージョン 9における新機能 3章においては、 SASシステムバージョン 9における、 SPD S e r v e rを含んだ S c a l a b i l i t yを実現する 為の新機能を中心に紹介する o SPD Server については、他の機能との比較の為に改めて記載して し 、 る 。 SPDEEngine BaseSASソフトウェアに搭載される新しいエンジンは、 S c a l a b l e Performance Data Engine(SPDEエ e r v e r製品から発展して出来た為、 SPD S e r v e rの特徴を ンジン)と呼ばれている。この製品は、 SPD S 引き継いでいる。これによるメリットとして、 SPDEエンジンおよび SPD Serverによって作られたデータ セットは交換可能で三あるとしづ特徴を持っている。 SPD Serverは、多数の SAS のセッションを要求す るクライアント/サーバ環境をサポートしており、 SPDE エンジンより多くの機能性を提供している。しか しながら、 BaseSAS ソフトウェアへはパーティションサイズ毎にデータの分割をサポートする機能とし e r v e rとは異なり、エンジンは、完全に他の SAS て 、 SPDEエンジン搭載することになる。それは SPDS のプロセス又はセツ、ンョンの中で 実行されなければならないためである。 SPDEエンジンは、 SAS シス i b n a m eステートメント中の SPDEのエンジン名 テムバージョン 9用のデフォルトのエンジンではなく、 l で指定しなければならない。 SPDEエンジンは、さらに Baseエンジンの特徴のすべてをサポートはし ていない。将来のリリースにおいて、 SPDEエンジンが Baseエンジンの機能をサポートするかもしれな いが、これらの 2つのエンジンによって作成されたデータセットは交換可能で、はないので、 Baseエン ジンはサポートされ続けると思われる。 SPDServerソフトウェア S c a l a b l ePerformanceDataServer(SPDS e r v e r )ソフトウェアは、クライアント/サーバタイプ型で、あり、 マルチユーザー型のデータサーバはストレージを最適化するように設計されており、大きな SASのデ e r v e rは 、 SPDEエンジンが作動するのと同じ方法で、多 ータセットの処理スピード、を高めている。 SPDS 数のデータのパーティ、ンョンに対して、 WHERE処理および lNDEX生成のような SAS 1/0機能の多 e r v e rは SPDEエンジンにはない GROUPBY処理およ くを行うことが可能となっている。また、 SPD S a s s t h r uを含んだ並列の処理能力を拡張している。 SPD S e r v e rは SMPのハード ウェアを要 び SQLp 求し、最大のスケーラピリティを達成するために、ハードウェアで利用可能な資源をすべて使用するこ とを目指している。次のものを備えたハード、ウェア上で、実行される場合、 SPD Server は最大のパフォ ーマンスが期待できる。 複 数 CPU 複数1/0 チャンネル 複数のディスク 大容量データ e r v e rは 1章で紹介した ACLファイルセキュリティを含むセキュリテ 並行処理能力に加えて、 SPD S イの機能を提供している。さらに、 SPD Server はパックアップとリストアの機能も提供している。これら の機能については、 SPDEエンジンには提供されていなし、ものである。 SPDServerを使用するために 'h4 F h υ ‑ l h d

500.

は、サーバマシン上において、 2 つのセッションを起動しなければならない。実際のデータサーバを 実行するためには、ネームサーバおよびデータサーバを実行するもので、ある クライアントが l i b n a m e O ステートメントの使用を通じて S P DS e r v e rに接続する場合、プロキシー S A Sのセッション ( s p d s b a s e )は クライアントリクエストをすべて処理するために自動的に開始がなされるようになっている。 S PD 、H P‑UX、S o l a r i s、A I X、コンパックの D i g i t a lU n i xおよびウインドウズ NT上のサーバセ S e r v e r 3 . 0は ッションをサポートしている。クライアントアプリケーションは、同じか異なるマシン上のセッションで、実 行することが可能となっている。 OLAPサーバソフトウェア O n l i n eA n a l y t i c a lP r o c e s s i n gS e r v e r(OLAPサーノく)ソフトウェアは、データはキューブとして格納 し、様々な視点あるいは次元から分析が出来ることを可能としている。多次元 ( MOLAP)あるいはハイ H O L A P )としてのデータとしても格納が可能で、ある。これらのデータベース ブ勺ッド、なコンビネーション ( に登録されるデータのボリュームや、サーバに絶え間なく接続するユーザの数は非常に大きくなりえ るので、データを伝達するために使用されるソフトウェアが最大限の性能を発揮することは重要なこと である。パージョン 9の OLAPサーバソフトウェアは、最大性能を提供するために多くの新しい特徴 を利用している。それは、キューブpの格納およびアクセスのために、 B a s e S A Sソフトウェアの SPDEエ ンジンによって使用されたのと同じストレージ技術を利用していることである。 OLAPサーバは、パー ティション毎に分割されたデータに対して並列の 1 / 0を提供するために、またデータの読み込みを並 列で処理するために、スレッド化されている。スレッド、の総数については、管理者ユーザインターフェ ースと同様にサーバ構成中のオプションによって、コントロールすることができる。これらの拡張によっ て、データのより速いアクセスおよび処理を提供する大規模な OLAPサーバとすることが可能であ る 。 5 .最後に 本論文では、 S PDS e r v e rについて、いままで、あまり紹介されなかったセキコーリティ関連の機能と、 パックアップ機能について紹介した後、今後の方向性について紹介してきた。最近はギガ単位クラス のデータベースも当たり前になり、またその利用も社内横断的に使用されるようになってきていること を考えると、検索機能だけではないこれらの機能も紹介する必要性を感じたからである。また、弊社の SAS製品も、データを分割して複数のスレッド、で、並列で、処理させる方法が、 B a s e S A Sソフトウェアや、 OLAPS e r v e rソフトウェアにも実装される方向性を考えると、 S P DS e r v e rソフトウェアそのものが大規 模なデータを扱うサーバ製品として意味を持っていることを紹介するべきと考えたからである。 今回紹介した機能が将来の何らかの役に立つことを願って止まない。 米国本社の W ebページにおいては、より詳しい内容が掲載されており、適宜アクセスしていただく ことを推奨する。 υ FhU 占 ﹁ 1ょ

501.

6 .参考資料 1 )C h e r y lD o n i n g e r著 、 rUpandO u t :WhereWe'reGoingw i t hS c a l a b i l i t yi nSASV e r s i o n9 J、SUG127 P a p e r ( h t t p : / / w w w 2 . s a s . c o m / p r o c e e d i n g s / s u g i 2 7Ip279‑27.pdfより入手可能) h 戸 d 行︐S Tよ

502.

ポスターセッション 経営・経済

503.

日本 SASユーザー会 (SUGI‑J) SAS j ETSソフトウェアを用いた天候デリバティブ価格評価 岸田則生、塩田雅之 株式会社 CRCソリューションズ 金融システム第 1部 P r i n c i n go fW e a t h e rD e l i v a t i v e sw i t hSAS /E TSS o f t w a r e N o r i oK i s h i d aandMasayukiS h i o d a CRCS o l u s i o n sC o r p . F i n a n c i a lS y s t e m sDevelopmentD e p t .N o . l 要旨 気温指数の一つである CDD( C o o l i n gD e g r e eD a y s )を原資産とするプットオプション価格を、 代表的な価格評価手法、すなわち、 ( 1 )BurnA n a l y s i s. i 去 、 ( 2 )確率分布適合法、 ( 3 )平均回帰過程 4 ) 自己回帰時系列モデル法で算出して、価格の比較を行った。これにより、価格算出 モデル法、 ( 手法の違いによりどの程度の差が生ずるかが明確になった。また、中長期の気温予報を気温予測モ デルに導入した場合の価格を算出し、気温予報が価格に与える影響を調べた。平均回帰過程および 自己回帰モデルに含まれる気温予測モデルのパラメーターの推定に SAS jETSソフトウェアを引用した。 キーワード: SAS jETSソフトウェア、天候デリバティブ、価格評価、 CDD、HDD、オプション、平均 回帰過程、確率微分方程式、時系列モデル、自己回帰モデル 1 . 緒言 気温、降水量、降雪量、風量などの気象要素の変動により、企業収益が大きく左右される業種が存在 する。例えば、衣料や飲料および、電力の出荷量は気温に、風力発電は風量に影響される。これらの企業 にとって、収益の安定化手段としての天候デリパティフの利用が近年注目されつつある。なかでも、気 温から導かれる気温指数を原資産とする気温デリパティブの利用が拡大している。これは、気温に影響 を受ける業種が多いこと、および過去データが良く蓄積され、価格評価計算の試みが最も多く発表され ていることの反映であると考えられる。ところが、利用が進んできたにもかかわらず、気温デリパティ ブの価格評価には、未だ標準的な手法が存在しない。そのため、デリパティブの買い手は提示価格が妥 当何ものであるか判断を下しにくく、天候デリパティブの利用が一般に普及しない原因のーつになって いると考えられる。そこで、本発表では気温指数の一つである CDDを原資産とするプットオプション n a l y s i s法 、 ( 2 )確率分 価格を、現在までに提案されている代表的な価格評価手法、すなわち、(1)BurnA 3 )平均回帰過程モデル法、 ( 4 )自己回帰時系列モデル法で算出して { r l l I格比較を行う。これに 布適合法、 ( より、価格算出手法の違いにより、どの程度の差が生ずるかが明確になる。また、長期予報の予測を気 : J2 1ー

504.

温モデルに導入した場合の価格を算出し、長期予報が価格に与える影響を調べる。平均回帰確率過程や 時系列回帰モデルに含まれる気温予測モデルのパラメーター推定に SAS(ETSソフトウェアを利用する。 2 . 気温指数 気温指数とは気温デリパティプの原資産である。気温デリパティプによるヘッジでは冷夏・暖冬等の ある程度の期間にわたる気温の中長期的な偏りが対象なので、気温指数には単純な積算温度や閥気温と の差の積算温度、および閥気温を超える日の積算日数等が良く採用される。本発表では、今までに一番 多くの研究実績がある閥気温との差の積算温度である CDDをデリパティプの原資産とした場合の価格 評価を行う。 CDDおよび HDDの定義式は閥気温を Tt h、ある日 (i)の気温を Tiとした場合 ICDDi=ImaxlTi‑Tth,O} l ︐ ︑︐ ( Tt Hn=IHDDi=I maxl h一T i, O } ( 2 ) a Cn= Z‑ υ ・ ‑ mt 一 一 Tt m 一 x‑ a‑ + 一 ヴ ZE T‑ ‑ t Tt 一 ‑ である。気温の定義もいろいろあるが、本発表では 1日の最大気温と最小気温の単純平均、すなわち ( 3 ) h を採用する。 3 . 気温モデル 気温デリパティプの価格評価において、 B u r nA n a l y s i s法と確率分布適合法は CDD算出期間中の気温 予測を必要としないが、平均回帰過程モデル法と自己回帰時系列モデル法は気温予測が必要である。本 章では後 2者の気温予測モデルについて述べる。 3 . 1 平均回帰過程気温モデル 気温変化には以下のようなのような特徴がある。 • 1年を周期とする季節変動があり、その変化は三角関数で良く近似できる。 ・地球温暖化や都市のヒートアイランド現象による、長期にわたる気温上昇トレンドが見られる。 ・日々の気温は長期間平均気温を中心とした確率変動をしている。 ・低温期の方が高温期より気温の日次変動が大きい。 D o r n i e rと Qu巴r u e lはこれらの特徴を織り込んだ確率過程モデルとして、確率微分方程式で表される平 均回帰気温モデルが気温変化を良く再現することを見いだした 1)。そこで、本発表でも以下の式で表さ れる彼らのモデルを採用する。 ( d T ' ! ' dT t=<でLー +α (T;〓 Ia t 1 ( 4 ) Tt)~dt+ σtdWt J m i n ( ωt+c Tt p ) =A+Bt+Cs ここで、 fが時間、 ( 5 ) f 2が平均気温、 α が平均回帰速度、 σ T ?が気温変化の分散、 dWtが標準 tが気温、 T W i n n e r過程、 Aが平均気温の中心レベル、 Bが気温の長期上昇速度、 Cが季節変動の振幅、 ωが季節変 5 2 2

505.
[beta]
t
Jの周期、 ψが季節変動の位相をそれぞれ表している。これらのパラメーターの推定法に関しては第 5
.
章で述べる。

3
.
2 自己回帰時系列モデル
現在までの研究から、気温変化は自己回帰時系列モデルでも再現可能なことが知られている。中で
も、日々の気温 (T
T
;
つの差 (Di= Ti‑ T
;
"
)は非常に精度良く低次の自己回帰モ
)と日々の平均気温 (
i
デル
Di= ~ akDi‑k+b
向

(
6
)

で記述される。 e
iはそれぞれ独立な標準正規分布である。回帰係数 (
a
k
)と分散パラメータ (
bi)の推定
法に関してはやはり第 5
.章で述べる。

4
. 天候デリバティブ価格評価モデル
天候デリパティプの原資産(気温、雨量等)は市場で取り引きされている資産ではないので、無裁定
ポートフォリオもしくはリスク中立化理論に基づく価格評価法を用いることができない。このような場
合は効用関数を用いた均衡価格理論による価格評価を行う必要がある。しかし、本発表は気温モデルの
違いから生ずるオプション価格の相互比較が主な目的なので、オプション価格はペイオフの期待値を
現在価値に割り引くことにより与えられるとする。すなわち、 CDD値 l単位当たりのヨーロピアン・
コール/プット価格は
の E[max{C"‑K,
=e‑r(lー
O
}
]

(
7
)

p
C
D
D
(
t
)= e一山一 I)E[max{K‑C
",
O
}
]

(
8
)

C
C
D
D
(
t
)

n

で算出されるとする。ここで、 rは無リスク金利、'"は行使期目、 Iは現時点、 K は行使 CDD、E は期
待値を取る演算記号を表す。実際に取り引きされる価格は、この期待値にリスクプレミアムと手数料を
上乗せしたものである。 HDDの価格は C"を H"に変えれば良い。

4
.
1 BurnA
n
a
l
y
s
i
s:
i
去
B
u
r
nA
n
a
l
y
s
i
s法では、期待値として過去の気温データから計算されるペイオフの期待値を価格計算
に使用する。このため、気温データの蓄積が長期間あることが求められる。短期間では気温指数の分散
が大きく、リスクプレミアムを大きめに見積もる必要がある。

4
.
2 確率分布適合法
確率分布適合法は過去データから計算される気温指数の度数分布を、何らかの確率分布関数に当ては
めたのち、その確率分布関数の期待値を解析的もしくは数値的に積分して価格を求める。この方法はど
のような関数形の分布関数を採用するのが適当なのか不明な点に問題があるが、よく使用されているの
は正規分布である。
正規分布の場合はオプション価格の解析式が求まるので以下に示す。平均 μ、分散 σ2を持つ正規分
布の確率密度分布関数を
υ

υ

今︑

﹁同

qノu

506.
[beta]
f(x‑J
1
)
"1
f(x
,
μ,σ)= ~ exp~一一丁寺ート
可L
l
f
σ l Lcr~)

(
9
)

標準正規分布の累積密度聞を
円

)U
l
(

φ(X)=‑LIrEXM‑4ds
v2πJ‑∞
l LJ
と記すと、 CDDオプション価絡は

(

)
‑
1

C
C
D
D
(
t
)=f
イ
戸
e
‑
イ
叶
ベ
r
吋
(
1
巾川
¥ σ /

互
ニ
互
い σ2f(K,μ,cr)、

pC
町t
)= e
‑
r
(
l
n
‑
I
)
(
Kー μ)φl

(
12
)

1 σ /

である。
リスクプレミアム見積もりの目安となる、オプション価格の分散は

いい叶
ド叶

2
(
c
r +印 刷

V
a
r
[
p
C
D
D
(
t

φ
(
午)+日)σ2川

平)+(K 川 ( 町 ) 門]
f (同

(
c
r2+(K μ)2)
φ
(

である。 HDDに関しては上記諸式で CDDを HDDに変えれば良い。

4
.
3 平均回帰過程気温モデル法
気温変動が (
4
)式の確率微分方程式に従うとき、時刻 fにおける気温の確率分布は正規分布をなす事
が知られている。この場合、ある種の近似の下ではオプション価格を解析的に求めることができる 2)。
しかし、気温が悶温度近傍で変動している状況では、近似の精度はあまり良くないので、本発表では

MonteC
a
r
l
o法によるオプション価格算出 j
去を採用する。
4
)式に従う気温の時系列データから計算される。そのためには、連続時間の確率微分方
気温指数は (
4
)式を離散時間の近似差分方程式に変換して、気温を計算することが必要である。微小な
程式である (
J
.t
、標準正規分布に従う乱数を E
:
u
l
e
r近似を採用すると、 (
4
)式から以下の差分式が
時間間隔を !
1 とし E

導かれる。
(dT~n

)

I dt

I

r‑

T1
+
,
81
‑T1= <マムー +
α(
T
;
"‑T1
)>
!
J
.t+σIY
!
J
.t
E
:1

(
15)

これより、気温に関する漸化式

T叫 1=T1+{
a
A+B+aBt+ωCcos(ωt+伊)+aCs
i
n
(
ωt+伊)‑a
T
1
1!
J
.t
+σ1yt
;
i
el

(
16
)

が得られ、パラメーターが推定できれば、時系列的な気温が計算できる。
オプション価格の算出は以下の手順で行う。ただし、オプション価格算出日は気温指数積算開始日よ
り前であるとする。
1.気温指数積算開始日 (
t
o
)の気温 (T
)を適当に定める。
o

2
. 時間間隔 (
!
J
.t
)を I日にとり、翌日の気温 (T,
)を(16
)式から求める。
3
. 気温指数を計算して積算気温指数を求める。

4
. ステップl.‑3
.を行使期日まで繰り返し、最終的な積算気温指数を求める。

5
.行使期日における積算気温指数から、オプション支払額をペイオフ曲線に従い算出する。
5
2
4

507.

6 . ステップ1.~ 5 .を多数回繰り返し、オプション支払額の平均値と分散を求める。繰り返し回数 はオプション価格の要求精度から決定する。 7 . オプション支払額の平均値を現在価値に割引いてオプション価格とする。 もし、オプション価格算出日が気温指数積算開始日以降ならば、観測気温を使ってオプション価格算出 日までの積算気温指数を求め、この積算気温指数を初期積算気温指数として、上記方法を適用すれば よい。 4 . 4 自己回帰時系列モデル法 気温を計算する式が ( 6 )式から導かれる Ti+1=咋 I + I仙 + bε ‑k ( 17 ) i に取って代わるだけで、オプション価格の算出法は、前節の方法と全く同じアルゴリズムを使用すれば よい 4 . 5 天候予報の刺用 中長期の精度良い天候予報が利用可能な場合は、天候デリパティブ価格算出に予報値を積極的に取り 込むのがよい。最大支払い額制限付きの契約でない場合、オプションの売り手は予報値の利用により思 わぬ損失を回避可能である。一例として月平均気温予報値の利用法を取り上げると、この場合は予報値 と過去の月平均気温との差を気温指数の計算のときに足し込むことが考えられる。 5 . パラメーター推定 本章では SAS jE TSソフトウェアを利用した平均回帰モデル ( 3 . 1節参照)と自己回帰モデル ( 3 . 2節参 照)のパラメータ推定法について述べる。 5 . 1 平均回帰過程気温モデル式 このモデルのパラメーターの推定には(1)まず ( 5 )式の平均気温関数のパラメータを推定して、次に 確率微分方程式の回帰速度と分散パラメータを推定する 2段階法と、 ( I I )漸化式(16 )のパラメーターを l回で推定する l段階法がある。 2段階法は温暖化などの影響がどの程度あるかを調べるためには有用 であるが、推定パラメータ一数も多くなるし、 2回の推定を必要とし計算量も多くなるので、本発表で は l段階法を採用する。この際、山=1とし、漸化式(16 )のパラメーターをまとめ直した +1 ヌT l 3+Ct+' [ )c o s ( ω t+i p )+ δsin(ω t+ip)+σ A Tr r+! ( 18 ) を推定用関数に用いる。また、 ω は閏年を考慮に入れて 2 π 3 6 5 . 2 5 ( 19 ) ω =一 一 一 とする。 ︼ d q/ 一 川 ‑に 3

508.

5 . 2 自己回帰時系列モデル式 Caoと Weiは多くの場合 AR(3)あるいは AR(4)の自己回帰モデルで十分に気温差を再現できること を見いだしためので、本発表でもそれを踏襲し AR(3)モデルを採用する。従って回帰式は I Dj = j ε akDj‑k+b ( 2 0 ) である。 5 . 3 不均一分散モデル式 . 2節で述べた、高温期の分散は小さく、低温 本発表の解析例に用いる予定の NewYorKの気温には 3 6 .章参照)。実際、均一分散かどうかの検定であるWhi t eテストと 期は大きいという傾向が見られる ( B r e u s c hPaganテストを行うと、均一分散の仮定は棄却される。このような分散を持つ関数形はいくつ 司 も考えられるが、本発表では Caoと Wei3)が採用した ト i n (千 + 府1 ) ( 2 1 ) σIσ0+σl を用いる。 5 . 4 SASプログラム 不均一分散モデルのパラメータ推定では最小自乗推定は適当ではなく最尤推定が好ましい。例として プログラム 1に、式(1旬、 ( 2 1 )のパラメーター推定に用いた SAS/ E TSプログラムを示す。ただし、気 温データ入力部分は省略した。 プロタ ラム:1最尤推定プログラム proc model data=dailyTemp; parms a b c d e ; pi = 3.14159265358979; f = 2*pi/365.25; Temp = a会 lag(Temp) + b + c士 T im巴 +d安sin(f女 T ime)+巴安 cos(f会 Tim巴); h .Temp = (sigma ‑ s1"abs(sin(f/2会 Tim巴+phi)))女勺; lag̲Temp = lag( Temp ) ; fit Temp start=(sigma=4 sl=2 phi=-~.2)/ fiml out=resid outresid; r u n ; 変数の意味は推定式と見比べれば、ほとんど明らかであろう。 SASシステムの利用により、最尤推定 プログラムをわずかこれだけのステップで記述可能になる。非線形最適化プログラムライブラリを利用 したとしても、尤度計算部分はユーザが明示的に書く必要があり、これほど簡潔にはならない。 SASシ ステムが開発能率を大幅にアップすることが分かる。 6 . 天候デリバティブ価格評価 本発表では 8月中の CDDを原資産とするプットオプション価格についての評価を行う。 5 2 6一

509.

BurnA n a l y s i s法で価格計算を行う場合は、なるべく長期にわたる過去データがあることが望ましい。 本発表では 1876年から 1997年までの気象データが入手可能な N巴wYorkC e n t r a lParkの気温データを n f o r m a t i o nA n a l y s i sCenter(CDIAC) 例として価格計算を行う。気温データの入手先は CarbonDioxideI の CDIACnumericd a t apackag巴 NDP‑042であるの。 天候デリパティブの価格評価において、どのくらいの期間の天候データを使用すべきかは、大きな問 題である。 D i s c h e lは 122年間の C e n t r a lP a r kの気温を解析した結果、直近 50年間程度のデータを使う のが適当であるとの結論を得た 5 )ので、本発表でも 1 948年から 1997年までの 50年間のデータを価格 評価計算に用いることにする。図 lに 50年間の日次気温変化を示す。 NewY o r kC e n t r a lP a r k 目次気温 40 30 20 ρ ・ z 両 10 ‑10 20 1 9 " 8 1 9 5 3 1 9 5 8 1 9 6 4 1 9 6 9 1 9 7 5 1 9 B O 1 9 0 6 1 9 9 1 1 9 9 7 日付 図1 :NewY o r kC e n t r a lP a r kの 1 9 4 8年から 5 0年間の気温変化。 5 )式を 50年間の全気 図 2に 50年間平均気温(細い実線)とその標準偏差(塗りつぶし部分)および ( 温データで最小自乗適合して求めた気温(太いなめらかな実線)を示す。日付の lが l月 1日に相当す る。この図から ( 5 )式の妥当性と低温期ほど分散が大きいことが分かる。 NewYork C e n t r a lPark 平均気温 35 30 25 20 ρ15 悩 開 E霊亙 1日 5 ‑5 ‑10 5 1 1 0 1 1 5 1 201 251 301 351 日付 図2 .細い実線が NewY o r kC e n t r a lP a r kの 5 0年平均気温を、塗りつぶし部分は標準偏差を表す。 太いなめらかな実線が ( 5 )式によるモデル気温である。日付の lが l月 l日に相当する。 nノu m h υ

510.

以後の CDD計算において(1)式の問温度 Tt 8 . 3度を用いる。図 3に 8月中の CDD{v 立を、図 4 hは 1 に CDD値の確率分布と、その分布から得られる平均と分散を持つ正規分布曲線を示す。 CDD値の確 . 3 3と‑ 0. 45であり、これを正規分布とするのは妥当ではないかもしれ 率分布の歪度と尖度はそれぞれ 0 ない。 8月 の 積 算CDD値 300 250 200 。 ロ 0 150 100 50 1 9 4 8 1 9 5 3 1 9 5 8 1 9 6 3 1 9 6 8 1 9 7 3 1 9 7 8 T 98J 1 9 8 8 1 9 9 3 年 一 戸 図3 :8月中の CDD値の経年変化。 CDD確率分布 0 . 1 5 0.14 0 . 1 2 0 . 1 昔 .u.uo 在 時 《 一 005 0.04 0.02 100 120 140 150 180 200 220 240 250 280 CDD 図4 :8月中の CDD値の確率分布。 次に、実際の価格計算に移る。以下の CDDプットオプションを評価する 。 ‑原資産:8月中の積算 CDD ・行使 CDD:1 5 0、 1 6 0、 1 7 0、 1 8 0、 1 9 0、2 0 0、2 1 0、2 2 0。 .安全利子率:ゼロ%。 ・ 支 払 額 :CDD値 l単位当たり l円 。 安全利子率がゼ口、つまり割引率が lなので、オプション価格は 8月以前なら価格算出日の影響を受け ない。 表 lと表 2に(1)BurnA n a 1 y s i s法 、 ( 2 )正規分布適合法、 ( 3)平均回帰モデル法、 ( 4 )自己回帰モデ ル法で計算した CDDオプション価格と標準偏差を示す。 M o n t eC a r l o法による価格算出では l万個の CDDからオプション価格を求めた。また、初期温度 ( T )は 8月 l日の平均気温を用いた。 o ‑ 5 2 8ー

511.

表1 :CDDプットオプション価格。 1 7 0 1 6 0 1 8 0 1 9 0 200 210 220 行使 CDD 1 5 0 BurnA n a l y s i s法 .2 1 5 . 2 9 3 2 . 8 0 41 3 . 0 8 1 8 . 5 9 2 2 . 2 5 4 . 7 0 8 . 3 3 1 正規分布適合法 .20 4 . 8 3 3 2 . 6 1 41 2 . 5 3 1 8 . 0 9 2 2 . 9 1 5 . 0 5 8 . 2 0 1 平均回帰モデル法 48 2 9 . 2 2 3 6 . 8 2 6 . 6 7 22. . 2 2 8 1 . 8 6 1 3 . 2 0 5 . 0 8 1 自己回帰モデル法 2 . 5 2 4 . 0 2 6 . 1 1 46 2 . 5 0 1 6 . 9 5 2 2 . 2 9 28. 8 . 9 0 1 表2 :CDDプットオプション価格の標準偏差。 1 7 0 1 8 0 1 9 0 200 220 I 210 行使 CDD 1 5 0 1 6 0 BurnA n a l y s i s法 5 . 5 4 2 . 8 5 1 6 . 6 8 2 0 . 5 4 2 3 . 8 4 2 6 . 7 3 2 9 . 1 0 1 8 . 8 5I 正規分布適合法 8 . 7 8 1 1 . 7 5 1 5 . 0 7 1 8 . 5 1 21 .83 2 4 . 7 9 2 7 . 2 1 2 9 . 0 4I 平均回帰モデル法 9 . 6 5 1 2 . 6 2 1 2 . 8 4 2 6 . 1 5 2 9 . 1 7 3 5 . 9 0 1 9 . 3 7 2 1万 │ 自己回帰モデル法 . 39 24.89 28.30 3 1 . 5 3 4 . 6 6 1 7 . 9 4 21 9 . 0 0 11 .66 1 表 lを見ると気温予測モデルを使わない前 2モデルと予測を使う後 2モデルとの問で、高 CDDにお いて明瞭な価格の違いが見られる。特に自己回帰モデル法の価格が低めに出ている。一方、標準偏差は 行使 CDD1 5 0を除けば、ほぽ同じ値とみてよい。過去データによる CDDの平均値である 1 8 0. 47 (表 3 参照)に近い行使 CDD1 8 0で比較すると、モデル問で最大 4円の開きがある。 CDD値 l単位当たり 1 0 0万円の契約ならば 400万円となるので、これは非常に大きな差である。 表 3に CDD値の平均と標準偏差を示す。これより価絡の大きな違いは、 CDDの平均値がモデル間 でかなり差を持つことから生じるのが分かる。 表 4に自己回帰気温モデルを使用して初期温度を変化させたときの価格変化を示す。価格間の差は極 めて大きく、気温モデルを用いて価格を算出するモデルの問題点を示唆している。 表3 :CDDの平均値と標準偏差。 BurnA n a l y s i sI 正規分布適合│平均回帰モデル│自己回帰モデル 1 8 0. 47 1 8 0. 47 1 8 7 . 5 1 2 0 2 . 7 5 3 1 . 9 8 31 .98 3 8 . 2 8 4 5 . 9 4 表4 :価格の初期温度感応度(自己回帰気温モデル使用)。 行使温度 1 5 0 1 6 0 1 7 0 1 8 0 1 9 0 200 210 220 初期温度 20 5 . 9 1 8 . 6 3 1 2 . 1 5 1 .67 2 7 . 6 8 3 6 . 5 0 21 4 . 5 1 4 2 . 0 6 初期温度 2 5 3 . 8 5 5 . 9 3 8 . 7 1 1 2 . 3 0 1 6 . 7 9 2 2 . 1 5 2 8 . 3 4 3 5 . 3 1 初期温度 30 2 . 6 0 4 . 1 2 6 . 2 5 9 . 0 9 1 2 . 6 7 1 7 . 0 6 2 2 . 2 8 2 8 . 3 2 n 日 つム ‑ υ ﹁

512.

表 5に自己回帰気温モデルを使用して月中平均気温を上下 l度すなわち毎日の気温を上下 l度ずつず らした場合の価格への影響を調べた。この効果は気温予報を取り入れたことに相当するが、その影響は 極めて大きい。しかし、積算 CDDの算出法よりこの影響は定性的に説明可能である。 表5 :気温予報の影響(平均回帰気温モデル使用)。 行 使 CDD 1 5 0 1 6 0 1 7 0 1 8 0 1 9 0 200 210 220 +1度 0 . 0 2 0 . 0 3 0 . 0 7 0. 14 0 . 2 9 0 . 5 7 1 .04 1 .8 3 標準 9 . 6 5 1 2 . 6 2 1 5 . 9 0 1 2 . 8 4 2 9 . 3 7 2 6 . 1 5 2 9 . 1 7 31 . 75 ‑ 1度 4 0 . 9 0 4 9 . 8 1 5 9 . 1 2 6 8 . 7 2 7 8 . 5 0 8 8 . 3 8 9 8 . 3 3 1 0 8 . 3 1 7 . 結言 天候デリパティブ、特に CDDプットオプション価格を 4種類の異なる方法で算出して比較した。そ の価格差は大きく天候デリパティプを実際に売買する際の障害になりうることを示した。また、気温モ デルによる CDD算出では、初期温度の影響が大きいことを明らかにした。さらに、気温予報を取り入 れると価格が劇的に変化することも示した。 SASシステムの利用が価格計算に如伺に有効であるかも 明らかになった。 参考文献 1 り )F .Dor τ m 口 百 l I 託 e r叩 dM.Qu 回e 印 e l じ : PowerR i s kManagement,p30,August2000R i s kM a g a z i n e . , 2 )P .A l a t o n,B .D j e h i c h ea n dD .S t i l l b e r g e r: OnM o d e l l i n gandP r i c i n g衿a t h e rD e r i v a t i v e s .ぺTob e a p p e a r e di nA p p l i e dM a t h e m a t i c a lF i n a n c e( 2 0 0 2 ) . , q u i l i b r i ulIl ゐl u a t i o no f~匂 ther D e r i v a t i v e sぺWorkingP a p e r ,May ,2000 3 ) M.CaoandJ .Wei: E ) . ( ht t p : j j q e d . e c o n . q u e e n s u . c a j p u b j f a c u lt y j c a o j w e a t h e r .pdf 4 )P .Y . Hughes,E .H .Mason,T .R .Ka , ! r a n dW.A .Brower: U n i t e dS t a t e sH i s t o r i c a lC l i m a ‑ , " ORNLjCDlAC‑50NDP‑042( 19 9 2 ) . t o l o g yNetworkD a i l yT e m p e r a t u r eandP r e c i p i t a t i o nData .g ov j より 1 9 9 7までのデータが入手可能). ( ht t p : j j c d i a c. e s d . o r nl 5 )B .D i s c h e l: TheF l e d g l i n g~旬 ther M a r k e tT a k e sOj J .P a r t2 : ・ 恥a t h e rDataf o rP r i c i l l gW e a t h e r p p l i e dD e r i v a t i v e sT r a d i n g,December1 9 9 8 . D e r i v a t i v e s . ",A ‑530

513.

ポスターセッション 調査・マーケティング

514.

日本 S A Sユーザー会 (SUG I‑J) 在 宅 人 工 呼 吸 療 法 関 連 6病 態 の 患 者 数 推 計 O~限 俊彦、豊島 裕子、中村晃土、西岡真樹子、佐野浩察、清水 英佑(東京慈恵会 医科大学・環境保健医学講座)、 佐 伯 圭一郎(大分看護科学大学・保健情報)、 稲 葉 裕 、 黒 沢 美智子(順天堂大医学部・衛生学)、 石原 英樹、木村 謙太郎 (大阪府立羽曳野病院・呼吸器科)、 栗山 喬之(千葉大学医学部・呼吸器内科) E s t i m a t e dp a t i e n tnumbersof6d i s c a s e sr e l a t巴dt o H M V (Hol11eMcchanicalV e n t i l a t i o n ) . AgataT,ToshimaY,Naka l 1 1u r aK,NishiokaM,SanoH,S h il11i z uH (DcptofP u b l i cH c a l t h& Environmcntal Mcdicinc,J i k e iU n i v . ),S a i k i K (Dcpt ofH c a l t hI n f o n l 1a t i o n,O h i t aU n i v . ofNursing & H e a l t hS c i c n c c s ), l n a b aY,KurosawaM (Dcp. tofEpidcmiology JuntcndoUniv.),l s h i h a r a H,K imuraK ( D i ¥ ' . ofR c s p i r a t O I ) ' D i s c a s e,OsakaHabikinoP r e f c c t u r a lHosp.),KuriyamaT(DcpLofR c s p i r a t o r yMcdicine,ChibaU n i v . ) ラ 要旨 在 宅 人 工 呼 吸 療 法 、 侵 襲 、 非 侵 襲 人 工 換 気 療 法 6病 態 の 患 者 数 推 計 を 行 っ た 会 対象診療科は、一般病院では内科(呼吸器担当)、神経内科とし、大学病院は内科、神経 4' Y o(674β298)で あ っ 内 科 、 呼 吸 器 内 科 ( 呼 吸 器 科 ) と し た 。 総 数 3 2 9 8で 、 回 収 率 は 20̲ た 。 診 療 科 を 15層 に 分 割 し 、 多 工 買 超 幾 何 分 布 を 想 定 し 、 返 答 ( 返 送 ) の な い 診 療 科 に も 同様に患者がし、ると考え、比例配分に基づき算出すると、 1. HOT 1 2. 4 万人、 入 院 O. 3 0 万人、 2. NCPAP 1. 2 4 万人、 5. TPPV 在 宅 O. 2 5 万人、 3. NPPV在 宅 O. 7 9万人、 4. NPPV 6. TPPV 入 院 O. 5 8 万 人 に な っ た 九 し か し 回 収 率 が 低 く 、 今 後 の 課 題 で あ る 合 こ の 結 果 は 2 0 0 2 年 1月 現 在 の 途 中 経 過 で あ るので今後データの集積具合により変化する可能性もある。 キーワード:在宅人工呼吸療法、非侵襲人工換気療法、多項超幾何分布、患者数推計 [目的] 呼吸、換気様式の歴史、発展をみると、1.終末呼気陽圧 ( p o s i t i v e c n d ‑ c x p i r a t o r y p r c s s u r c v c n t i l a t i o n PEEP)、 2 . 間欠的強制換気法 ( i n t c n l 1i t t e n tmandatory ¥ ' c n t i l a t i o n :IMV)、 3 . 持続気 o s i t i v c airway p r c s s u r c CPAP)、 4 . 高頻度換気 ( h i g h ‑ f r e q u c n c yv c n t i l a t i o n 道 陽 圧 (continuous p HFV)、5 . pressuresupportvcntilation (PSV)、6. proportionalassistcdvcntilation (PAV)、7. penmSSlVC h y p c r c a p n i a、 8 . 腹 臥 位 (proncp o s i t i o n ) による呼吸管理から、新しい呼吸管理法として、1. o s i t i v cp r e s s u r ev e n t i l a t i o n NPPV)、 2 . 液 体 換 気 療 法 (l i q u i d 非 侵 襲 的 陽 圧 換 気 法 (noninvasivcp v c n t i l a t i o n ) 、3 . 体外膜型肺 ( c x t r a c o r p o r c a l mcmb r a n c oxygcnation ECMO) 等が提唱、導入 されつつある。 近 年 わ が 国 で も 高 炭 酸 ガ ス 血 症 を 伴 な う 慢 性 呼 吸 不 全 に 対 す る H M V (Home Mcchanical V e n t i l a t i o n在 宅 人 工 呼 吸 療 法 ) と し て N P P V ( 非 侵 襲 的 陽 圧 換 気 療 法 : 鼻 マ ス ク 等 装 着 ) が導入され、普及、定着しつつある N P P Vの 多 く は 、 自 己 管 理 が 可 能 で あ り 、 介 護 面 で も 問 題 が 少 な く 、 H M Vの換気宇fIl助療法としては適している。実際、患者の Q 0 L (生 活の質), ADL ( A c t i v i t i e s of D a i l yL i v i n g s ) の改善や、再入院の回数、日数の減少などの 効果も報告されている。しかし、導入のテクニック、合併症、 N P P Vで 充 分 換 気 出 来 な υ 一円 つd つd

515.

くなった時の対処など多くの問題も潜在する。また、適応基準に関しても未だに一定のも のは無く、各施設でまちまちである一 19 9 8年調査では、 HMV症 例 数 2 8 0 0例 と 急 増 傾 向 を 認 め 、 特 に NPPV症 例 が 6 4パ ー セ ン ト を 占 め 、 TPPV ( T r a c h e a lI n t e r m i t t e n tP o s i t i v eP r e s s u r eV e n t i l a t i o n侵 襲 的 陽 圧 換 気 療 法 : 気 管 切 開 手 術 実 施 ) 症 例 数 を 凌 駕 し た ♂ しかし、 NPPV実 施 施 設 は 1 8パ ー I セントと限られた施設でしか行われていないとそして患者数の加速度的増加傾向に対して、 介護診療体制を始めとする支援体制の未整備が問題である 5 介 護 体 制 に 関 し て は NPPV 症例と TPPV症 例 で は 、 そ の 必 要 度 に お い て か な り 差 異 が あ っ た 。 人 工 呼 吸 器 の 稼 動 時 間 に も 、 介 護 の 必 要 性 も 、 介 護 体 制 に も 差 異 が 認 め ら れ た 白 診 療 体 制 に お い て は 、 NPP V症 例 の 場 合 、 基 本 的 に 外 来 受 診 が 可 能 な 症 例 が 多 く 、 こ の 点 も 差 異 が 認 め ら れ る z HMV患 者 数 の 急 増 が 予 想 さ れ 、 NPPV、 TPPVの 比 率 に も 変 化 が あ る こ と が 予 想 さ れ る ー ま た 、 NPPV実 施 施 設 も 変 化 が あ る と 予 測 が な さ れ て 1 9 9 8年調査以降、 いる 3 患 者 数 の 加 速 度 的 増 加 傾 向 に 対 し て 、 介 護 診 療 体 制 等 の 支 援 体 制 の 整 備 状 況 が 把 握 す る 必 要 が あ る σ こ れ ら の 問 題 を 整 備 し 、 NPPV適 応 基 準 に つ い て も 原 則 を 定 め る 必 要 がある。今回、全国調査を実施し、これらの基礎資料を得、患者数推計を行う事を目的と するヘ [方法] 調査方法、診療科抽出率などは、 1 9 9 8年 調 査 に 準 ず る 。 対 象 診 療 科 は 、 一 般 病 院 で は内科(呼吸器担当)、神経内科とし、大学病院は内科、神経内科、呼吸器内科(呼吸器 科 ) と す る ( 表 1), 表 1. 対 象 診 療 科 、 抽 出 率 、 実 数 規模 ‑ ‑ 9 9床 ‑ ‑ 1 9 9床 ‑ ‑ 2 9 9床 ‑ ‑ 3 9 9床 ‑ ‑ 4 9 9床 5 0 0床ー 大学 1 0 0 1 0 0 1 0 0 1 0 0 5 5 抽出率 5% 1 0 1 0 0 神経内科 57 57 218 1 7 3 1 0 3 1 4 2 内科 1 7 3 214 8 4 0 4 9 5 2 1 5 2 5 5 言 十 8 0 5 2192 (呼吸器担当) 大学.内科学 269 269 32 32 大学ー呼吸器科 o r呼 吸 器 内 科 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 3298 調 査 項 目 は 施 設 名 、 診 療 科 名 、 記 載 年 月 日 、 記 載 者 氏 名 、 過 去 1年 間 の 次 の 病 状 の 患 者 数、 1 . HOT (HomeOx y g e nT h e r a p y :総数、 HOTのみ、 HMV併用)、 2. NPPV在宅(総数、 .NPPV入院(総数、酸素併用)、 4.TPPV在宅(総数、酸素併用)、 5.TPPV 酸素併用)、 3 入 院 ( 総 数 、 酸 素 併 用 ) で あ る ο また、 1 . ‑5. の 内 訳 と し て の a . C O P D、 b . T B、 c .後 側 ‑534‑

516.

湾、 d神経筋、 e.SAS、川市胞低換気、 g .そ の 他 の 数 な ど で あ る 。 ほ か に 、 NCPAP( N a s a ! C o n t i n u o u sP o s i t i v eAinvay P r c s s u r c :鼻 マ ス ク 持 続 陽 圧 呼 吸 、 経 鼻 持 続 気 道 陽 圧 ) 、 急 性 期 NPPV (改善離脱、 IPPVせず死亡、 IPPVに移行)の実数、 NPPV死 亡 例 の 検 討 内 容 、 各 症 例 の 適 応要件などである c 調 査 は 2 0 0 1年 6月に実施した。 こ の う ち 、 過 去 1年 間 の 次 の 病 状 の 報 告 患 者 数 、 NCPAP、 3. NPPV 在宅、 4. NPPV 入院、 1. HOT (以下いずれも総数)、 5. TPPV在宅、 2. 6. TPPV 入 院 に 関 し て 、 回 収率をもとに患者数推計を行った 推計は患者の分布を考慮、し、多項超幾何分布を想定し、診療科、病床等区分により、 1 5層 に わ け ( 表 1) 、 推 計 患 者 数 、 分 散 を 求 め た 戸 な お 、 多 項 超 幾 何 分 布 の 場 合 、 患 者 推 計数、分散は下記のような式で求められる。 . L :i.N i 推計数 α1r 分散 s ' , . . ̲ , . . ・ , . . i / N ‑ ( i N . . , 1 / N ) .3 Z i '・N , , ̲ ̲ . ‑ . L : , ̲ ̲ . ‑ ) N ‑1/n n( l/ n ‑ 1 n 対象機関数 i :患者数 N :回収機関数 の回収機関数 N 1:患者数 i これを各層について合計すれば、全体の推計患者数、分散が求められる♂ [結果 1 2 0 0 2年 1月 現 在 の 途 中 経 過 を 報 告 す る 。 表 2に 規 模 別 対 象 数 、 発 送 数 、 返 送 数 、 回 9 8 )である 6 7 4/ 32 0. 収率等を示すの回収率は 2 4 %( 報 告 患 者 数 は 1. HOT 4 人、 1 8 2 5 0人、 4. NPPV入 院 4 3 8人、 I 2. NCPAP 2 8 3 1人、 5. TPPV在 宅 4 3 4人、 3. NPPV在 宅 1 3 3 6. TPPV 入 院 7 8 9人 で あ っ た 。 表 3に疾患別、推計患者数を示す。 6疾 患 の 患 者 数 は 、 返 答 ( 返 送 ) の な い 診 療 科 に も 同数の患者がいると考え、単純な比例配分に基づき、算出し、多項超幾何分布で推計する と 、 9 5 % 信 頼 区 間 1 0 . 5 ‑ 1 4 . 3万人)、 1. HOT 1 2. 4万 人 ( 9 5 % 信 頼 区 間 0 . 5 9 ‑ ‑ 1 . 9万人)、 4 万人 ( 区間 0 . 6 3 ‑ ‑ 0 . 9 5万人)、 2. NCPAP 1. 2 9 5%信頼 3. NPPV在 宅 O. 7 9万 人 ( 9 5 % 信 頼 区 間 O. 1 9一 4. NPPV 入 院 O. 3 0 万人 ( 9 5% 信 頼 区 間 0 . 1 9 ‑ ‑ 0 . 3 1 万人)、 一 O. 4 1万人)、 5. TPPV在 宅 O. 2 5万人 ( 9 5% 信 頼 区 間 0 . 4 3 ‑ ‑ 0 . 7 3万人)になった。 6. TPPV入 院 O. 5 8万人 ( υ 勺 ︑ にd R υ

517.

表 2. 調 査 の 回 収 状 況 、 回 収 率 発送数 全数 返送あり 大学内科学 269 269 8 5 56 大学呼吸器科 32 32 1 7 1 6 神 経 内 科‑ ‑ 9 9床 57 340 9 5 ‑ ‑ ‑ 1 9 9床 57 398 1 2 1 1 ‑ ‑ ‑ 2 9 9床 218 218 29 1 8 2 5 1 4 患者あり ‑ ‑ ‑ 3 9 9床 1 7 3 1 7 3 ‑ ‑ ‑ 4 9 9床 1 0 3 1 0 3 3 1 2 3 500床 ー 1 4 2 1 4 2 37 26 大学 5 5 コ コ 24 1 7 内科(呼)‑ ‑ 9 9床 1 7 3 3456 2 9 1 7 ‑ ‑ ‑ 1 9 9床 214 2173 3 1 2 5 1 2 9 ‑ ‑ ‑ 2 9 9床 8 4 0 8 4 0 1 4 9 ‑ ‑ ‑ 3 9 9床 495 495 94 8 4 ‑ ‑ ‑ 4 9 9床 215 2 1 5 4 8 47 500床 ー 255 255 54 48 3298 9165 674 536 NCPAP NPPV NPPV TPPV TPPV 在宅 入院 在宅 入院 言 十 回収率 20. 4% 表 3. 推 計 患 者 数 HOT 95%下 限 105000 5900 6300 1 9 0 0 1 9 0 0 4300 平均値 124000 1 2 4 0 0 7900 3000 2500 5800 95%上 限 143000 18900 9500 4100 3100 7300 [考察] 呼 吸 不 全 調 査 研 究 班 と の 研 究 は COPD 1) ‑6) な ど 、 数 多 く 行 わ れ 、 ま た 、 HMV に つ い て も 多 く の 研 究 が あ る 7) 刊 一 患 者 概 数 調 査 な の で 、 重 複 (10‑20%)を 考 慮 す る 必 要 が あ る 。 また、これら以外に、診療所で加療している症例を考慮する必要もある c これは、病院受 Fhu qJ ‑ ﹁ υ

518.

療者数よりは少ないと予想される。病院受診患者の 1 / 2以 下 で あ り 、 在 宅 酸 素 療 法 を う け ている症例数が、病院:診療所 1 0 : 1 を考えると、病院受診患者の1/ 5 から 1 / 10 と 考 え ら れる。このような増減を考慮すると病院診療所での受療患者は結局先の推定値程度と考え られる σ また、回収率の低さ ( 2 0.4%)も推定精度を下げる要因と考えられ、回収率を上げる努力、 方策が必要であるコ また、本調査以外に、現在、肺疾忠疫学研究を全国的に展開中なので、将来、この結果 も含め受療患者数を検討したい。 [結論] 在 宅 人 工 呼 吸 療 法 、 侵 襲 、 非 侵 襲 人 工 換 気 療 法 6疾 患 病 態 の 患 者 数 は 、 返 答 ( 返 送 ) の ない診療科にも同様に患者がし、ると考え、比例配分に基づき算出すると、 1. HOT 1 2. 4 万人、 入 院 O. 3 0万人、 2. NCPAP 1. 2 4 万人、 5. TPPV在 宅 O. 2 5 万人、 3. NPPV在 宅 O. 7 9万人、 4. NPPV 6. TPPV入 院 O. 5 8 万 人 に な る し か し 回 収 率 が 低 く 、 今 後 の 課 題 で あ る 。 こ の 結 果 は 2 0 0 2年 1月 現 在 の 途 中 経 過 で あ ' Jの 集 積 具 合 に よ り 変 化 す る 可 能 性 も あ る るので今後デ ‑ 文献 1 )巽 浩 一 郎 、 岡 田 修 、 栗 山 喬 之 、 他 日本における慢性肺気腫の実態、厚生省特定疾患呼 吸 不 全 調 査 研 究 班 平 成 9年 度 報 告 書 1 9 9 8 ; 2 3 ‑ 2 8 2 )巽 浩 一 郎 、 岡 田 修 、 栗 山 喬 之 、 他 : 呼 吸 不 全 6 疾 患 の 全 国 疫 学 調 査 一 我 が 固 に お け る 若 年性肺気腫の検討 9 98 ; 29 ・ 3 5 . 、 厚 生 省 特 定 疾 患 呼 吸 不 全 調 査 研 究 班 平 成 9年 度 報 告 書 1 3 )巽 浩 一 郎 、 岡 田 修 、 栗 山 喬 之 、 他 : 呼 吸 不 全 6疾 患 の 全 国 疫 学 調 査 好酸球性肉芽腫症の検討 我が圃における肺 、 厚 生 省 特 定 疾 患 呼 吸 不 全 調 査 研 究 班 平 成 9年 度 報 告 書 1 9 98 ; 36 ‑ 41 . 4 )橋 本 修 二 、 巽 浩 一 郎 、 栗 山 喬 之 、 他 : 呼 吸 不 全 6疾 患 の 全 国 疫 学 調 査 調査の回収状況 と 推 計 患 者 数 一 、 厚 生 省 特 定 疾 患 呼 吸 不 全 調 査 研 究 班 平 成 8年 度 報 告 書 1 9 9 7 ; 3 6・41 . 5 ) 将俊彦、清水英佑、玉腰暁子、他 COPD 全 圃 疫 学 調 査 進 捗 状 況 . 厚 生 省 特 定 疾 患 の 1年 度 研 究 業 績 6 8 ‑ 7 1. 2000 疫学に関する研究班平成 1 6 ) 将 俊 彦 、 豊 島 裕 子 、 清 水 英 佑 、 他 . COPD全 国 疫 学 調 査 1次 調 査 中 間 報 告 .厚生 省 特 定 疾 患 の 疫 学 に 関 す る 研 究 班 平 成 12年 度 研 究 業 績 2 001 :77・ 7 2 . 7 )香 取 美 知 子 、 石 原 英 樹 、 木 村 謙 太 郎 、 他 : NIPPV療 法 を 導 入 し た 慢 性 呼 吸 不 全 症 例 、 厚 生 省 特 定 疾 患 呼 吸 不 全 調 査 研 究 班 平 成 8年 度 報 告 書 1 9 9 7 ; 7 2・3 8 )石 原 英 樹 、 木 村 謙 太 郎 、 渡 辺 敏 、 他 : 本 邦 在 宅 人 工 呼 吸 療 法 の 現 状 と 課 題 ( 第 2 報) ‑ 1 9 9 7年 調 査 結 果 、 厚 生 省 特 定 疾 患 呼 吸 不 全 調 査 研 究 班 平 成 9年 度 報 告 書 1 9 9 8 ; 9 3 ‑ 5 . 9 )石 原 英 樹 、 木 村 謙 太 郎 、 長 谷 川 克 子 、 他 : 当 院 に お け る 非 侵 襲 換 気 療 法 の 現 状 、 厚 生 省 0 0 0 ; 8 4 ‑ 7 . 特 定 疾 患 呼 吸 不 全 調 査 研 究 班 平 成 1 1年 度 報 告 書 2 υ υ 勺合 ︑ 戸

519.

日本 SASユーザー会 (SUGI‑J) 大学生の自己評価 中村晃土・ 牛島定信・ 上別府圭子事事懸俊彦・・・ 事東京慈恵会医科大学精神医学講座 清水英佑事事事 事・東京大学大学院医学系研究科 志.傘東京慈恵会医科大学環境保健医学講座 S e l f e s t e e mo fJ a p a n e s ec o ll e g es t u d e n t s K o j iN a k a m u r a 'S a d a n o b uU s h i j i m a 'K i y o k oK a m i b e p p u " T o s h i h i k oA g a t a ' " H i d e s u k eS h i m i z u ' " i k e iU n i v e r s i t yS c h o o lo fM e d i c i n e " D e p a r t m e n to fP s y c h i a t r y,J u r s i n g " D e p a r t m e n to fF a m iI yN u r s i n gG r a d u a t eS c h o o lo fH e a l t hS c i e n c e s品 N h eU n i v e r s i t yo fT o k y o F a c u l t yo fM e d i c i n e, T ・ ・ ・D e p a r t m e n to fP u b li cH e a l t ha n dE n v i r o m e n t a l Medicin~ J i k e iU n i v e r s i t yS c h o o lo fM e d i c i n e 要旨 大学生の自己評価について,その背景にある完全主義傾向と自己愛傾向の影響について検討した.大 e l f ‑ e s t e e mS c a l e ) は , 完 全 主 義 傾 向 を 表 す MPS 学生の自己評価を表す RSS (Rosenberg's S 巴,ctionismS c a l e ) と,自己愛傾向を表す NPI ( N a r c i s s i s t i cP e r s o n a l i t y (Multidimensional Perf I n v e n t o r y ) で、有意水準 <0.0001で回帰できた. キーワード: 大学生,自己評価,完全主義,自己愛,重回帰分析 1.はじめに 大学生の自己評価が,その性格特性のうち,どのようなものにより影響を受けているのかを考え,性 格特性のうち,完全主義傾向と自己愛傾向に着目した.この 2 つの傾向が自己評価にどうつながる かを質問紙を用いて調査,解析を行ったので,その結果に若干の考察を加え報告したい. 2 . 対象と方法 首都圏近郊の大学に通う大学生 1 1 1名に対し質問紙による調査を行った.質問紙は,自己評価につ いては自尊感情評価尺度(以下, R 値),完全主義傾向は MPS (Multidimensional Perfectionism S c a l e ) (以下, M 値),自己愛傾向は自己愛人格目録(以下, N 値)を使用して評価した. ASソフトウェアを使用し,ステップワイズ法による重回帰分析を行った. なお統計学的分析には, S このときの取り込み基準は, 0.1500とした. 5 3 9

520.

3 . 結果 3 . 1 基本統計 データの記入ミスのあったものと精神科・心療内科の通院歴のあるものを除いた有効回答数(有効回 答率)は, 105名 (94.6%) で,男性 58名,女性 47名,平均年齢は男女合わせて 1 9 . 9 : : ! : :1 .1 (mean : : ! : : S D ) 歳であった. 3.2 結 果 男女別にみると, R値は男性 2 9 . 7 : : ! : : 7 . 3( m e a n : : ! : : S D ),女性 3 0 . 0 : : ! : : 7 . : 3,M 値は男性 8 9 . 7 : : ! : : 2 0 . : 3,女 9 . 7 : : ! : : 2 3 . 7, N 値は男性 1 0 8 . : 3 : : ! : : 2 2 . 8,女性 1 1 4 . 1: : ! : : 21 .4であり,図 1に示したとおりであった. 性8 それぞれ男女間で統計学的有意差は認められなかった. 円E SULT fI 4 0 N P I MEAN 1 0日 1 3 0 1 2 0 9 0 1 1 0 8 0 3 0 j~ m 対│ ! l i l l ! 応 対 │ 2 0 1尽 1 日 。 7 0 9 0 B日』府部調問問活 l 8 0 5 0 6 0 40]111 3 0 101..1 l 総量軍隊*11 2 0 1 0i~、、、、。齢、明! 5 0 3 日 1 0 。 闘 騒 f M F M F M 図 1 男女別 R S S,M P S,N P Iの結果 また男女合わせた全体のばらつきをみるために, 3 :次元プロットをしたのが,図 2である.概観して, M 値が高くなると R値が低くなり,やや分かりにくいが,同様に N値が高くなると R値が低くなる 傾向が見てとれる. ‑540

521.

Selfesteemo fJapaneseC o l l e g eStudents O nt h eMPSa n dN P I RSS 4 6 3 5 Z 4 l 三矢一‑'ア 43 J 1PS l 57150 RSS R o s e円b e r g ' sS e l f ‑ e s t e e mS c a l e N P IN a rClS S 1 S t l CP e r s o円a I l t ずI n v e n t o r y IP e r f e c t l O m S mS c a l e MPS M u l t i d i m e n s i o円ε 図 2 全体の RSS,MPS,N P Iの 3次元プロット そこで次に R値を M { i 直 , N{直でステップワイズ 法で、重回帰分析を行った.このとき,取り込み基準 は , 0.1500とした.その結果は,表 3に示すとおりであった. 表 3 MPS,N P Iによる R S Sの重回帰分析の結果 S t e p 2 V a r i a b l e P a r a m e t e r S t a n d a r d P a r t i a l M o d e l E n t e r e d E s t i m a t e E r r o r R ‑ S q u a r e R ‑ S q u a r e P r >F M P S ‑ 0 . 2 0 1 4 4 0 . 0 2 6 6 6 0 . 2 0 3 9 0 . 2 0 3 9 く. 0 0 0 1 N P I ‑ 0 . 1 6 3 0 5 0 . 0 2 6 0 5 0 . 2 2 0 9 0 . 4 2 4 8 く. 0 0 0 1 さらに MPSの下位分類 6項目, r ミスへの過度のとらわれ (Concernovermistakes)(以下, com)J . 「自身の高目標 (Personalstandards) (以下, p s )J . r 親からの高い期待 (Parent a lexpectat i o n ) (以下, p e )J ,r 親からの批判 (Parentalc r i t i c i s m )(以下, p c )J .r 自身の行動への疑い(Doubtsabout a c t i o n s ) (以下, daa), J r 整理整頓好き (Organization) (以下, o r )J に N 値を加えた 7項目でス テップワイズ、法で、重回帰分析を行った.このとき,取り込み基準は, 0.1500 とした.その結果は, 表 4に示すとおりであった. 5 4 1

522.

表4 M PSの下位分類および N P Iによる R S Sの重回帰分析の結果 V a r i a b l e P a r a m e t e r S t a n d a r d P a r t i a l M o d e l E n t e r e d E s t i m a t e E r r o r R ‑ S q u a r e R ‑ S q u a r e P r)F c o m ‑ 0 . 4 1 7 5 8 0 . 1 0 6 8 0 0 . 2 8 1 4 0 . 2 8 1 4 < . 0 0 0 1 2 N P I ‑ 0 . 1 0 1 8 6 0 . 0 3 0 0 5 0 . 1 5 7 4 0 . 4 3 8 8 く. 0 0 0 1 3 p c ‑ 0 . 5 9 3 8 8 0 . 0 4 4 3 0 . 4 8 3 1 0 . 0 0 4 0 4 d a a ‑ 0 . 3 4 1 6 4 . o19235 . o19278 0 . 0 1 3 1 0 . 4 9 6 2 0 . 1 0 9 6 5 p s 0 . 2 1 3 1 8 0 . 1 4 0 3 4 0 . 0 1 1 5 0 . 5 0 7 7 0 . 1 3 1 9 S t e p 4. 考 察 RSSを MPSと NPIの二つの変数で有意水準 0 . 0 0 0 1で回帰することができた.このことから,大学 生の自己評価を考える際,完全主義傾向と自己愛傾向の 2つを大きな軸として考えることができると 思われた.また,完全主義傾向の中でも, i ミスへの過度のとらわれ」と「自身の高目標 Jが自己評 価には大きく影響していることが分かつた. 大学生だけでなく,人が社会で自己実現をしながら生きていく上で,自己評価はその前提としてとて も重要なものであり,その自己評価を左右する要因として,完全主義傾向と自己愛傾向に着目した. 今まで自己評価を完全主義傾向と自己愛傾向という 2 つの軸で 評価しようとしづ試みは,文献的に も例がなく,意義深いものであると思われた. ‑542ー

523.

日本 SASユーザー会 (SUG1‑0) 需要予測における季節調整と X12プロシジャの利用例 高野江里子 力スタマーサービス本部プロフェッショナルサーピ、ス第 2部データアナリシスチーム 株式会社 SASインスティチユートジャパン ApplyingSeasonalAdjustmentt oDemandForecastusingX‑12‑ARIMA E r i k oTakano SASI n s t i t u t eJapanL t d. , CustomerS e r v i c e sD i v i s i o n, 要旨 時系列データの季節調整では、米国センサス局にて開発された X‑12‑ARIMAを使用するのが主 流となっている。 X‑12‑ARIMA は通常、経済や景気動向の比較や予測を行うために利用されるが、 製品の需要予測においてもその活用用途は広い。本稿ではまず、季節調整について簡単な説明を した後に、需要予測における季節調整の活用方法、 X‑12‑ARIMA の概要と SAS システムでの X‑12‑ARIMAの利用方法を紹介する。 キーワード: SAS/ETSソフトウェア 1 . 季節調整とは 時系列データには、 1年を周期とした繰り返しパターンが観測されることが多い。製品の売上実績 ・1 2月のボーナス時期によく売れる、ゴールデンウィーク・お盆・年末年 データでは、例えば毎年 6月 始の旅行者が多い、夏に清涼飲料水の売上が伸びるというパターンが観測される。このような 1年 以内を周期とした繰り返し観測されるパターンを季節性と呼ぶが、季節調整とは、実績データから 季節性を差し引いて全体を調整することを言う。季節調整の目的は、値の比較を容易にしたり、予 測精度を上げることにある。例えば、今年 7月の売上が 6月と比較して増加した製品について考察 する場合、好調と見るのが正しいのか、あるいは売上は伸びたものの、製品の特性上、毎年 7月に かけて売上が増加するのが通常で、むしろ例年に比べると増加幅は落ち込んでいるのか、実績値 を用いてそのまま比較するのは難しい。そこで、実績データから季節性を除去した季節調整済みデ ータを用いることにより、異なる時点の売上を同じ土台で比較することが可能になる。また一般に、 季節調整済みデータを用いることで予測精度は向上する。 季節調整の方法は、実績データ(原系列という)を 1トレンドーサイクル成分(全体傾向)、 2季節成 ‑ ; ) 4 3 ‑

524.

分 、 3 不規則成分(例えばイベント等の影響による不規則な動き)に分解する。季節調整済みデータ とは、原系列から季節成分を除去したデー夕、つまりトレンドーサイクル成分と不規則成分により構 成されるデータのことを言う。各成分への分解には、乗法型と加法型がある。通常は乗法型を利用 するが、原系列が不安定な場合や 0が含まれる場合には、加法型を使用するとよい。 乗法型による分解 O [ C [x S [xl[ 二 S A [= C (xl( 加法型による分解 (+S(+ I [ O [=C (+ I ( S A (= C ( O ( :原系列 C(:トレンド‑サイクル成分 S ( 季節成分 I ( 不規則成分 S A [ 季節調整済み系列) 2 .需要予測における季節調整の活用方法 季節調整は経済データの分析においてよく利用される方法だが、製品の需要予測においてもそ の活用用途は広い。この場合、季節詞整済みデータを用いて分析するというよりも、分解した各成 分を利用して分析することが主な目的となる。以下に、需要予測における季節調整法の活用例をい くつか紹介する。 E 傾向把握 需要予測では、製品のトレンドや季節性を把握することは重要だ。しかし、実績データには、例え ばイベント効果や競合製品の登場によるマーケットシェアの変化等、さまざまな効果が混在している ため、実績値から直接各効果を正確に把握することは難しい。そこで、トレンドーサイクル、季節性、 ‑544ー

525.

不規則変動の各成分に分解することにより、製品の傾向が明確にする。トレンドや季節性の有無、 不規則変化とその原因を的確に把握することで、予測に使用するモデルが絞り込まれる。まずは各 成分の特徴を把握することが予測に先立ち重要なステップだが、季節調整法はこのステップにおい て役立つ。 E 予測 トレンドと季節性は、製品売上を特徴づける重要な要素であり、この 2つにより予測されると言っ ても過言ではない。不規則な変動を含まないトレンドと季節性から予測をたて、イベント効果等の不 規則変動を他の説明要因として外挿することで、高精度の予測が可能になる製品も少なくない。 E 製品ライフサイクル分析 製品のライフサイクルを分析する場合には、トレンドーサイクル成分を利用するとよい。季節性や 不規則変動を含む実績データをそのまま使用すると分析は複雑になるので、簡単化するために、ト レンドーサイクル成分を利用してライフサイクル分析を行う。例えば、膨大な数の製品群からライフサ イクルの類似する製品をクラスタリングする際や、製品の寿命を見極めるために、トレンド・サイクル 成分を利用する方法がある。 3 . X‑12‑ARIMAの概要 季節調整を行うプログラムとして、米国センサス局にて開発された X‑12‑ARIMA が広く利用され ている。 X‑12‑ARIMAは、下図に示す流れで季節調整を行う。 C DRegA引 税Aによる 予測・逆予灘・事前調整 (出典 S 4 5 u . s .Bureau ofthe Census)

526.

① RegARIMAによる原系列(実績データ)の事前調整と予測・逆予測 ② RegARIMAモデルの診断 ③実績値の前後に予測値=逆予測値を加えた系列を使用し、改良 X‑ll 法による季節調整・ 各成分へ分解 ④分解結果の診断 X‑12‑ARIMAの最大の特長は、季節調整を行う系列に対し、事前に RegARIMAモデルを当ては めて予測・逆予測を行う点にある。 RegARIMA とは多変量時系列モデルの一種で、 1 変量のみによ る予測ではなく、他の説明要因を加えて回帰を実行し、残差系列に対して ARIMAモデルを当てはめ る 。 X‑ll 法では移動平均を使用して季節変動を除去するが、平滑化する期の前後のデータを利用 するため、系列の始めと終わりでは利用データが不足し、結果が不安定になる。この問題に対し、 系列前後のデータを RegARIMA モデルによる予測値を使用することで不足データを補うのが X‑12‑ARIMAの方法だ。 このプログラムにおける RegARIMA の特長は、外れ値を自動的に検出し、系列の急激な水準変 化が観測される場合に、インターペンションを適応して対応する。変化点の解析方法は、①1時点に おける異常値、②ある時点における水準の突然変化、③一定期間内の水準変化の大きく 3 つに分 類することができ、これに対応する RegARIMA を当てはめる。 1 つまり、例えばイベント効果による 突発的な売上の上昇、競合製品の登場や環境の変化によるマーケットシェアの変化等を検出し、こ れらの水準変化を補正(説明)する変数を自動的に組み込んだ RegARIMAモデルにより予測する。 また、複数の水準変化を同時に補正することも可能である。 その他、曜日効果、閏年の調整も加えて、加法型分解の場合に X‑12‑ARIMA では次のように表 される。 0, =T , +C, +S, +TD, +LP , +Clう+1, CO ,:原系列、~:トレンド成分、 C,: 循環成分、 S, :季節成分、 TD,:曜日効果、 LP,:閏年効果、 C尺:水準変化、 1, 不規則成分) 4 . X12プロシジャのプログラム例 SASシステムにて X‑12‑ARIMAによる季節調整を行うには、 X12プロシジャを使用する。以下に プログラム例を紹介する。 I 詳細は「季節調整法 X‑12‑ARIMAの特長と問題点」国友直人を参照のこと。 546‑

527.
[beta]
プログラム例

1
*利用データセットと時間変数の指定 *
1
1
*ARIMAモデルの同定(階差指定 )*
仔=
(
1)
;
1
i
d
e
n
t
i
f
yd
i
(
1,1
,
0
)
(
1,
0,
0
)
)
;
a
r
i
m
amodel (
R
I
M
I
Aモデルの指定 *
1
1
*A
e
s
t
i
m
a
t
e
;
1
1
*ARIMAモデルの推定 *
f
o
r
e
c
a
s
t
;
1
1
*ARIMAモデルによる予測値の出力 *
v
a
r̲
5
;
1
1
*時系列変数(実績データ)の指定 *
x
1
1
;
1
*改良 X
‑
1
1による各成分への分解 *
1
o
u
t
p
u
to
u
t
ニo
u
t
1
2b
1 d10d
1
1 d12d
1
3
; 1
1
*出力データと出力する成分の指定 *

p
r
o
cx
1
2d
a
t
a
=
s
u
g
U
.
p
r
o
d
u
c
t
sd
a
t
e
=
d
a
t
e
;

二

r
u
n
;

出力データ
・
.
.

i

..
:
.
迫
阪
羽E
・
]
11
1
:
ョ
.
;
照
宗
署
、
守
司

'J[ ::t~!Jf~l 副・s・:.l ::í.r

実 績 沼 市 1よ 季 節 底 分
i 季節i
間程痛みデ'‑:1>
1"1 0
1
1
0
1
1
9
8
3
4
7
1
.お お3
6
9
0臨 彼 奴5
4
1
7
.
0
6
5
印 8
2
4 8
9
1
0
2
0
8
4
1
.
0
4
0
3
締 罰7,
cー!一一位7
.‑.
2
o
i
高 γ一 3
5
4
.
6
8
9
0
羽田!一 切25527;
却
一一一一一一お229263 一 一 一
一 ω4.71関前
一
ω福 崎 即
一一一一二二一二-!__~7"": :':~'-____~_.':_'~_:~.=:..=~_-=-:"'J...ーー』ーー一ー
一ー一一 戸
一
ー
ー
ー
一
ー
ー
一
一
一
一
ー
、
'3‑'I 閃 /
0
1
1
9
8
3
9
7
.
4
7
1
2
5
5
5
5
1 9
旬1
4
お8
3
幻自 9
0
2
0
7
9
3
朗 5
回2
1
8
7
9
1
.
0
1
3
6
5
7
2
羽2
4 .1
1
4
25
.5
5
8
9
在一
鈎却明治
1
.
1
1
問 問7
こL斗 ̲q
5
/
0
1
/
9
8
330 日匂'!~L 里総有開741
一一一一一む笠鐙笠~_..._. __3~~I'_1l222.7一一一」盟?~~31~=
ι二主三よJ__06/01/型~L
月
?
5
.
0
8
0
8
3
8
91
0
.
8
6
3
7
6
6
8
6
0
6
3
7
1
包
i
?
2
5
2岨 8
3
8
1,0
7
5
叩7
担
0
,
9
8
7
6
0
5
3
9
8
9
‑'
‑
"
7
‑
'H
0
7
/
0
1
i
叩
3
3
7
.
9
5
3
4
9
9
6
4
0ぬ2
6
6
5
9
6
7
3
3
6
2
.
3
5
2
1
2
9羽
却1
.
0
1臼 白5
0
.
9
2
6
6
9
3
2
3
9
5
一
一
一
一
一
一
一
一一ー
←
←
一
一
一
一
一
一
一
…
"
'.
~8.
1 0
8
1
0
1
/
9
8
3
6
8,7
6
8
8
0
6
5
1
0
.
9
2
7
4
7
官剖 1
6
3
9
7印 6
1
3
0
8
5
4
0
8
.
7
∞日 7
1
7
6
ω728555445
.~. 9 .1ω 1
0
1
/
9
8,
̲̲
g)
.
J~.Q2~~
O~叩7l8~3~ ̲ ̲ ̲ ̲ ̲ ̲
4
3
6
.
46
9
7
2
4
8̲.
̲
̲
̲
̲ ̲ ̲
4
3
0
.
4
凶1
5
3
51
̲̲̲̲̲1.01391~日 9
7 イ1
日 1
' 1
0
/
0
1舟 8
4
8
6
.
0
1
2
6
6
1
4
5I
1
.
0
7
6
1
9
7
7
3
9
5
4
町 民1
6
3
7
5
.
2
4522ω40049
0
.
9
9
8
6
5
6
0
1
4
3
主主主旦,‑
.
J 11101i羽 1 512
.
3
4
8
0
9
4
1
3i
1
.
06ω212283
4
閃 2日0
8幻自 7
4
6
7
.
8
7
2
4
8
9
9
7
1
,
0
3
2苅 1
7
8
4
5
三笠主l____! 坦1/獲し_~型0877哩」一J笠宮亘4451 一一一一一 4控室学:1321旦一一 _.__~2~2569理一』盟主担旦j
13' 1 0
1
/
0
1/ 9 9 ! お3
.
4
2
9
9
6
8
7
7
0
8
3
2
沼2
9
8
2
5
4
伺6
4
1
2
8
7
5
2
4
7
0
.
5
9
2
98
4
0
,
9
7
8
8
5
3
0
剖4
一
一
一
一
一
.
1
.
1 一
日2
/
0
1
/99司 一
4
4
笠305一
8
随
一
0
.
9
2
お2
7
1
2
印 一 一 一
刷 腕
29m
‑599mD114
1045羽 7
4
7
6;
:
J
九

一
量
一 iζOATE"
三 1
‑

,
, ∞
刷。ユ亙亡二回均鵬ー
笠間制二二て
,

∞

τ

ι

ω

,
̲

一‑
∞

I

空!ピ~ア凶‘ハゆ I

出力データ [
O
U
T
1
2
]
8
1:実績値、

010:季節成分、

0
1
1:季節調整済成分、

012:トレンドーサイクル成分、

013:

不規則成分

5
.まとめ
季節調整は、経済データの分析のみではなく、需要予測においても活用される。需要予測では、
まずトレンドと季節変動、イベント等の効果を正確に把握することが重要だ。季節調整法を用いるこ
とで、これらの効果に対する値(成分)が利用可能になる。また、 X
‑
1
2
‑
A
R
I
M
Aでは外れ値を自動検

e
g
A
R
I
M
Aにより水準変化に応じて調節するため、分析者がイベント情報やマーケットの構造
出し、 R
変化を事前情報として入力、補正する必要がない。将来予測やトレンドーサイクル成分を抽出して分
析する場合にも便利で ある。 X
‑
1
2
‑
A
R
I
M
Aの活用範囲は多岐にわたる。

‑547‑

528.

[参考文献] '(NewC a p a b i / i t i e sandMethodso f t h eX‑f2‑AR!MAS e a s o n a /A c j j u s t m e n t J us .BureauoftheCensus .(季節謂整法 X‑f2‑AR!MAの特長と問題点j [経済統計研究 25‑fJ &.友直人 AU 噌 F ︑υ ︒ A

529.

日本 SASユーザー会 (SUG1‑0) ポジショニングのためのデータ解析 原島淳 株式会社 SASインスティチュートジャパン プロフェッショナルサービス第 2部 Dataanalysesf o rpositioning JunHarashima P r o f e s s i o n a lS e r v i c eNo.2Department, SASI n s t i t u t eJapan 要日 商品やサービスのポジショニングのための方法について SASシステムでの実行方法と合わせて 紹介します円 キ ー ワ ー ド : 知覚マップ、選好分析、 SAS/STATソフトウェア 1 はじめに 新商品開発のデザイン・プロセスにおいては、参入する市場で消費者に受容されそうな有望な 商品の開発方向を探りますョたとえば、 Jo hnson( 1 9 7 1 )では、シカゴ・ビール市場の各商品の強 みや類似度、そして現在の市場でどのような消費者の要望が満たされていないのかといった点を 調査し、ビールの売上げを最大にするための商品やそのイメージを検討しています、 商品の強みなどの特徴を捉えるためには、商品に対する消費者の心理的な印象を調査し、それ をもとに商品の知覚の位置関係を知覚マップと呼ばれる商品の地図で表します「次に、各商品に 対する消費者の選好を調査して、これを知覚マップ上に点などで位置付けますれ以上の結果、知 覚マップの既存の商品の隙間に多くの消費者の理想が見つかれば、言い換えると既存の商品が満 たしていない消費者の理想が見つかれば、そこに新商品を位置付けることができますれ ここでは、まず 2から 4章で、知覚マップを作る方法として因子分析、多次元尺度構成法(以下 MDSと書く)と対応分析を取り上げ、 SAS/STATソフトウェアによるその実行方法を交えてご紹 介しますの次に、 5章では知覚マップヒに消費者の理想、を位置付ける方法を簡単にご紹介しますの ‑549

530.

2 因子分析 サーストンは、複数の異なる種類の知能が存在するのか、それらはどんな性質のものか、といっ た問題に答えるため、 57項目からなる大学生のテストの成績を因子分析によって解析し、知能が 7つ存在することとその意味を示しました。ここでは、テストの代わりに商品の属性の評価を使 い、商品の知覚を規定している潜在的な因子を探ってみたいと思います。 分析の対象とするデータは、無作為に選んだ 5 0人から、 6個の洋服のブランドのいくつかに対し て 、 6個の属性、手ごろな価格(:eI)、気品を感じる(:e2 )、庶民的(:e3 )、伝統的(:e4 )、流行(:e5 、 ) デザインに凝った(:e6 )、についての 5件法の回答を得たもので、表 1に示すとおりです。ここで は、属性を間隔尺度として、片平 ( 1 9 8 7 ) を参考に分析をすすめます。 表1 :洋服の属性データ xl 2 2 5 1 1 x2 2 4 3 2 5 x3 3 2 4 2 2 x4 3 5 3 4 3 x5 2 2 3 2 1 x6 3 3 4 3 3 brand A B D F 且 因子分析ではデータの背後に潜む構造のモデルとして、個々の属性(変数)の値は、複数の属性 に共通する少数の因子と、個々の属性の独自の変動を表す特殊因子によって規定されると考えますの どちらの因子も実際には観測されない仮想的なものです。扱いやすくするために属性を連続的な確 率変数として(本質的な傾向がある程度わかればまあいいとして)、 j番目の属性 ( j=1,. . .,p) と因子の関係を 標準化した属性 j=入jl因子 1+入j2因子 2+・・・+入jq因子 q +特殊因子 j ( 1 ) という式で表します。この入 ik ( k二 1,. . .,q ) を因子負荷量、全ての j ,kについてこれをまとめ たものを因子パターンと呼びますのまた、因子と特殊因子はどちらも確率変数で平均 0、共分散行 列はそれぞれ@とを(をは対角行列)、因子と特殊因子聞に相聞はないものとしますn このとき、 ( 1 )式の右辺の共分散構造は、 A争 A '+"<T (=:E,と書く) ( 2 ) と表せます。最小二乗法では、 2 が基準化した属性の共分散行列、すなわち標本相関行列 Sに近 づくようにと、 t r a c e ( S‑:E?という目的関数を最小化することで未知の A とをを求めます l 。ま た、属性が正規分布に従うと仮定して最尤法を用いることもできます。最尤法でも E が Sに近づ くようにしますが、最小二乗法と目的関数が違うので同じ推定値になるとは限りません。最尤推 定値はモデルが正しければ漸近効率性、そうでなくても一致性があるという良さがあります。 ところで、このモデルでは因子の取り方が 1つに決まらないという性質があります。因子を f=[因子 1 ,. . .,因子 qJ'とベクトルで書いて、 fを Tfと変換します。このとき A を AT一l とし てしまえば、 ( 1 )式の右辺は Af+特殊因子のままで、また共分散構造も E のままです。 1( 1 )式のように属性は基準化されていないものとして、 Sを標本共分散行列とした分析もできますが、ここでは触 直が不変なので、 S を相関行列として分析 れないことにします。なお、最尤法の場合は属性の単位に対して目的関数の f しても共分散行列としても本質的には同じモデルが得られるという性質があります (KraneandMcDonald1 9 7 8 )。 ‑550‑

531.

そこで因子を一意に定めるための方法が必要になります。その際は、解釈しやすくなるように と、因子負荷量入りの値が 0に近いものはなるべく近く、そうでないものは Oから離れるようにす ることができますっこのための方法である Varimax法は、因子同士が直交という制約のもと、 A の列ごとの分散が最大になるように T を定めて、推定の際に得られた因子を Tfと回転しますっ他 に、因子同士が直交という制約をおかないものもあり、その一つには Promax回転がありますぺ さて、先ほどのデータからモデルを推定したいと思います。まずは因子の数を決めますヘこのた めの簡単な方法として、縦軸に固有値、横軸には大きい順にならベた固有値の順序をプロッ卜す るスクリープロット(図 1 ) があります。ここでは、 2番目の固有値までが崖のような部分に含ま れ、このことから因子は 2つ程度と考えます。さらに、 q二 2のモデルの残差 ( 5‑:E)は土 0.01 未満なので、このモデルがデータに適合すると考えて因子の数として 2を選択しました。 固有値 1 1 1 0 1T 目 B 8 7 8 5 4 + 3 2 + 0 司 令 + + 肱m出 r 図 1 : スクリープロット 因子を 2っとして最尤法で モテ、ルを推定した結果から、 Varimax回転後の因子負荷量を表 2に 示します。 : 因子パターン 表2 x1 x2 x3 x4 x5 x6 手ごろな価格 気品を感じる 庶民的 伝統的 流行の デザインに凝った Factor1 Factor2 0.04805 0.86768 ‑0.26078 ‑0.73393 ‑0.17379 0.84084 ‑0.94763 0.02825 0.92234 0.00546 0.81892 0.13793 これは入jkの推定値で、 ( 1 )式と同じ表現にすると、たとえば、 基準化した「手ごろな価絡 J の 評 価 =0.04805xFactor1+0.86768x Factor2+特殊因子 ということになります。 表 2を見ると、 Factor1は、伝統的(‑)、流行の、デザインに凝った、の大部分を説明するこ とがわかります。従って、これは「流行伝統 J の程度と解釈できますー同様に、 Factor2は「庶民 的ー高級品」です。消費者はこの二つの基準で洋服のブランドを大まかに把握していると考えますれ 次に、この二つの軸を縦と績にとり、その座標としてブランドを位置づけることで、知覚マップ を作ります。因子と属性の関係を表す因子分析のモデ、ルをもとに、実際には観測されない因子の 値(因子スコア)を各オブザベーションに対して求めることができますo Factor1 と Factor2の値 を得、それをブランド別に平均して知覚マップ上に位置づけたものを図 2に示します、この図か 551‑

532.

ら、たとえば、 Factorlの座標が大きなブランド B, D は流行を取り入れたもの、 Factor2が原点 付近の A は高級か庶民的かといった点で平均的なブランド、といったように知覚されていること がわかります。 ド ヨ F ~ j i H 本 E ホD * C 11 B i t s ‑ 図 2 :因子分析で作った知覚マップ この章の分析のプログラムは次のようになります。因子分析は FACTORプ口、ンジャで実行しま す。推定方法は method=で指定し、最尤法ならば ml、最小二乗法ならば ulsとなります。また、 因子の回転は rotate=で、指定し、 varimax、promaxなどを選ぶことができます。なお、ここで分 析したデータセット clothesの変数とデータは表 1に対応しています。 proc factor data=clothes out=out outstat=sta n=2 rotate=varimax scree residuals; var xl‑x6; run; 次に、マクロ %plotitを利用して知覚マップを書くために、因子分析の結果を加工します。統計 量の出力 ( s t a ) から因子パターンのみを抽出し、個々の属性に対する factorlと factor2の因子負 f a c t o r l Jr f a c t o r 2 J という変数、対応する属性の名前を rJabeLJ としづ変数にしてデー 荷量を r タセット t̲ staを作りますのまた、各オブザベーションに対して計算された因子スコア ( o u t )は 、 ブランド別に平均したものを r f a c t o r1 J r f a c t o r 2 J、対応するブランドを r JabeLJ としてデータ セット s̲outを作ります。仕上げに以上の二つをデータ・ステップにより合併します。その際に因 子スコアのデータと因子負荷量のデータを区別するための変数 r ̲ t y p e ̲ J を作成しておきますc proc transpose data=sta(where=(̲type̲="PATTERN")) out=t̲sta(drop=̲n回 e ̲ ); var xl‑x6; proc summary data=out; class brand; var factorl factor2; output out=s̲out(where=(brand ne '川) drop=̲type̲ Jreq̲) mean=; data map; set t̲sta(in=x) s ̲ o u t ; i f x=l then ̲type̲="variable"; else ̲type̲="brands"; run; マクロ %plotitを用いて知覚マップを書きます。座標を表す変数を plotvars=、そのラベルを labelvar=で指定します。ここでは変数 r ̲ t y p e ̲ J の値によって表示方法を変えることができます。 ここでは、因子負荷量Ctype̲=variable) は矢印、ブランドの座標Ctype̲=brands) は点で表示 するために、それぞれの表示方法を symtype="vector""symbol"と指定します。 %plotit(data=map,plotvars=factorl factor2,labelvar=̲label̲,href=O,vref=O, color=black,font=kanji,symtype="vector" "symbol"); υ F﹁ Fhd ηL

533.

3 多次元尺度構成法 MDSとは地図から都市聞の距離を測る問題の逆で、都市聞の距離をもとに地図を描くような方 法だ、とクルスカルとウイッ、ンュはいいました。ここでは、分析の対象は都市の距離ではなく、商 品と商品の心理的な距離から商品の地図を作りますハ ここでは商品としてくだものを考えますペくだもの聞の類似度を調査した 5件法のデータを間 隔尺度として、それを平均したものを扱います。このデータは表 3のとおりで、対角要素は司じ もの同士の非類似度で全て O、下半分が対応するくだもの問の非類似度でこの値が小さいほど似て いるということになりますの : くだものの非類似度 表 3 。 ichigo lernon budou rnelon kiwi nashi l . n g suika r 0.00 4.83 5.28 3.44 4.72 4.50 3.83 3.50 0.00 4.56 5.00 4.00 4.83 3.33 3.39 0.00 5.17 4.11 4.00 3.61 2.94 0.00 4.78 5.83 4.67 3.83 0.00 3.44 4.00 4.22 0.00 4.11 4.50 0.00 4.83 i d すいか りんご いちご レモン ぶどう メロン キウイ 0.00 なし くだもの(対象) iと i ' (i子生子=1, . . . , n) の非類似度データ(九,と書く)と、 MDSで作る 地図上でのくだもの iと F聞のユークリッド距離 ( d i i l と書く 2 )が、何らかの意味で近づくよう に q次元空間でのくだもの iの座標 X i二 [Xil'...,Xiq]を求めます 表 3のようにむ,が間隔尺度の場合、 f(di, i i, +bとして偏差平方和 )= αd r 5 二5 二 [ ん f (ル ) ) 2 ( 3 ) l i ' 1 が小さいほど良いと考えます。ただし、これは空間の回転や変換によって値が変わってしまうので ) と呼ばれるもので ( Kn 此 a landWish dL,で劃ります。この平方根はストレス(公式 1 z z z r 1 9 7 8 )、 、 二/LiLiルー f,(dii;YF l[ S t町 55 ( 4 ) i i Jd 2 2 二i 二i を最小にするように Xlぃ・・ , Xn が選ばれますAα とbは偏差平方和を最小にするよう適当に定め ます。 一般にはん,がIi贋序尺度で得られるようです。この場合、九,の偏差を考えても意味がなくなっ てしまいますハそこで、九1<5 1 )を満たす単調な関数 gを考えます 11'ならば叫んν )三叫ん 1 η そし て 、 ( 4 )式の分子を 2 : 乞 匝 (diil)‑ d♂ F i ( 5) i ' gはこれを最小にする単調関数としてストレスを定義します九クルスカルは、ストレス =20%:poor、 a i r、5%:good、2.5%:e 10%:f x c e l l e n t、0%:p e r f e c t と評価しました。 2 二つの点 ( . . ., X i q )と ( . .,X X i l, i ' q )の距隊は d i i, X i / l '. ::=l(Xik‑X示子です。 JL にd ︑ qυ =J

534.

さて、くだものの非類似度データ(表 3 ) について、次元の数を 2から 4 として解析します。 2 次元でもストレス(アウトプットでは b a d n e s s ‑ o f 日 二 tc r i t e r i o n )は 、 0 . 0 6となりました。また、適 合度を詳しく見るために、九,を縦軸にとり di , を横軸にとったグラフを書きました(図 3 )。これ i を見てもん,が大きいほど直線的に di が大きい、という関係がうまく表現できているようです。 i, 以上から 2次元を選びますn ・ " Qllfl!l!1 0 4 . ・ Di~ t Q t eC : :I:.I)冒 td froロ MDS ! . lohl 図3 :非類似度とユークリッド距離 MDSで得られた知覚マップは図 4のようになります。 、 cz 本りんご l *..I~どう 。 口 本いちご 己 ロ ホなし *すい宮 レモン (l) :‑ 1 Q 本キウイ 〉ドメロン D i m e n si o n1 図4 :MDSで、作った知覚マップ 「りんご」と「ぶどう」や、「メロン」と「キワイフルーツ」は比較的近くに布置されているの で、比較的似ていると認識されていると考えられます。大まかに見れば、原点からりんご方向に 引し、た線の上のほうは、その線の下のほうと比較して水分が少なく、また右に布置されたものの ほうが左よりも甘いくだものでしょうか。もしかすると消費者は水分と甘さで果物を判別してい るのかもしれません亡 MDSでは因子分析のように属性を限定しないので、回答者の知覚をより自然に汲み取るように 感じられます。その反面、マップに属性が表示されないために解釈は難しくなりますc 朝野・山中 ( 2 0 0 0 )は 、 IMDSは市場構造を解明するヒントになったり、問題発見には役立つが、開発のこの (ポジショニングの)時点で新製品の開発方向を決めるには使いずらしリと指摘しています。軸を r u s k a landWish( 1 9 7 8 ) は何らかの属性を目的変数、座標軸を説明変数とし 解釈するために、 K た回帰分析を行っています。これは、 5章の選好分析における選好を属性に置き換えることで実行 できますの Fu A 刈Y ︑ pD

535.

この章の分析のプログラムは次のようになります。 MDSは MDSプ口、ンジャで実行し、劃定の レベルは間隔尺度なら level=interval、他に比尺度なら ratio、1 ) 贋序尺度なら ordinalとします。な お、ここで分析したデータセット fruitsの変数とデータは表 3に対応しています。 proc mds data=fruits level=interval out=out outres=res dim=2 to 4 by=l pfinal; id id; run; %plotit(data=out(where=(̲dimens̲=2)),datatype=mds,color=black,font=k回 ji, labelvar=id); axis1 minor=none order=(l to 7 by 1 ) ; axis2 minor=none order=(l to 7 by 1 ) ; proc gplot data=res; plot data ホ distむ l c e =̲dimens̲ / vaxis=axis1 haxis=axis2 frame; run;quit; 4 対応分析 対応分析は、二元表の構造を明快に捉えるためにグラフイカルな表現を行います。ここでは、商 品の類似度や特徴を捉えるために、商品×属性の二元表を分析してみたいと思います。 ここで扱うデータを表 4に示します。 5個のビールのブランド A,B,C, D,Eについて、 8個の 属性、高級な ( X l)、女性向き ( X 2 )、外で飲む ( X 3 )、庶民的 ( X 4 )、家で飲む ( X 5 )、キレ ( X 6 )、 コク ( X 7 )、マイルド ( X 8 )、に当てはまるかどうかを質問した結果を集計したもので、当てはま ると答えた人の人数を示しています行 : ビール・ブランドと属性データ 表4 brand x1 A 37 B 33 c 17 D 1 2 E 1 4 x2 x3 57 46 48 52 1 7 32 22 1 7 13 9 x4 18 20 23 48 42 x5 17 21 8 42 28 x6 x7 5 14 32 27 21 27 23 19 26 17 x8 40 24 19 29 18 似ているブランド(行)同士、あるいは似ている属性(列)同士が近くになるような布置を考 えます。ブランド iと i '( iヲ . : ti 'ニ 1 ,. . ., n) が似ているかどうかは、カイ二乗距離 d~:I =寸土 (Pij ̲ Pi'j' )2 コ ;P+j ¥Pi+ Pi'+J ( 6 ) で表されます。ただし、ブランド iに属性 jを選んだ人の全体に対する割合が P i jで 、 Pi+ ‑ L~=lPij , p+j L~=lPij とします。このように距離を考えれば、条件付き頻度が同じ列を合併、 あるいはこのような列の分害1 [に対して距離が不変になります。属性についても同じ距離を考えます。 対応分析では、小さな次元 ( e . g . 2次元)の空間に布置されるブランド問および属性聞のユー クリッド距離は、先ほどのカイ二乗距離に対する一つの近似となります。行列 C を C i j=( p i j‑ Pi+p+j ) jJpi+P+jとしてこの特異値分解を C = U D V '、R = diag(pl+, . . ., Pn+)、C = diag(p+l' . . ., P + p )と書きます。ブランド iと属性 jの第 k軸の座標は、それぞれ A 二 R‑1/2U D, B = C ‑1/2V D ( 7 ) F F ヘυ RU ヘυ

536.

の k列として求められます。 般には kが小さいほうから少数の座標軸を選んで、フ。ロットするよ 7 )式の座標をグリーンエイカーは主座標 (principalcoordinates) と呼びました。この うです, ( 他に、 A.=R‑1/2U, B.=C‑1/2V ( 8 ) とし、う標準座標 (standardcoordinates) があります。 マニュアルにも書かれているように、主座標ではブランド問の距離および属性聞の距離を解釈 することができますが、プランドと属性の距離は解釈できません。一方、ブランドに主座標、属 性に標準座標を選んだ場合、 A=R‑1pB. α (ik 二 E1rZ?=lPijb 九)という関係があるので、プ ランド iは Pijが大きい属性 jの近くに布置されると考えられます (GowerandHand1 9 9 7 )。そ の反面、属性聞の距離に意味はなくなります、なお、ブランドに標準座標、属性に主座標を選ん だ場合は、ブランドと属性を入れ替えて全く同じことがし、えます P ここでは、ブランドの類似度とその属性の特徴に感心があるので、これらの特徴を表現できる よう、属性同士の類似度を見ることはあきらめて、ブランドに主座標、属性に標準座標を選びま す。表 4のデータについてこれらの座標を k=2まで求めると、結果は図 5のようになります。 且 *コク 円 ∞ l N N 淳キレ ホ タ │ で 1 1 : む 。1 日 京 ωロωE‑口 高騒な* t rc ホA 忠世性向垂字 " ' " u *庶民的 イルド 本軍でr..む n t D i c ,,:ioa 1(111m 図5 :対応分析 B, Cは「外で飲む J I 高級な J I 女性向き J という高級感があり、ブランド D と E ブランド A, は「庶民的 J I 家で飲む J としづお手頃イメージと知覚されているようです内味については、たと コク Jが多いブ えばブランド A は比較的「マイルド J と知覚されている方が多く、逆に「キレ J I ランドは Cでしょうかハここで明 1 夫になったデータの構造に関する大まかな傾向は、表 4を見る ことでより詳細に擁認できますコ この章の分析のプログラムは次のようになります。対応分析は CORRESPプ口、ンジャで実行し ます。デフォル卜ではブランドと属性の両方について主座標が選ばれます。ここでは、ブランドに 主座標、属性に標準座標を選んだので profile=rowを指定しました n また、 profile=columnを指 定すればブランドに標準座標、属性に主座標を選ぶことができます。なお、ここで分析したデー タセット beerの変数とデータは表 4に対応しています。 proc corresp data=beer outc=out profile=row; var xl‑x8; idbrand; r u n ; 日p lotit(data=out,datatype=corresp,font=kanji,color=black,href=O,vref=O); p n υ p h υ phd

537.

5 選好分析 ポジショニングのための分析の後半に進みたいと思います。前章まででは商品の類似度や特徴 を明快に捉えるための表現として知覚マップを作りました n ここでは、その知覚マップに消費者 の理想を位置づけるための分析を行います。この結果から、大きな売上げを期待できるように新 商品を位置付けるため、理想が集中している商品の隙聞を探すことができますのこのために、消 費者の理想と知覚マップの座標軸との関係を表すモデルを作りますの ここでは 2章で扱った洋服のフゃランドの選好に関するデータとして、それぞれに対する好き ( 5 )、 1 ) までの評価ですο ここでは、これを間隔尺度として扱います。 嫌い ( このデータを SASシステムで分析できる形としたものを表 5に示しますρFactor1と Factor2は 知覚マップ(図 2) における各ブランドの座標で、 res1,res2,…は各ブランドに対する一人一人 の回答者の選好を表しています。 :知覚マップでのブランドの座標とブランドの選好データ 表5 Factor1 Factor2 res1 res2 res3 res4 res5 res6 res7 3 1 2 3 3 4 2 0.18483 0.16812 5 5 5 2 5 5 2 B 1.36556 0.88935 5 5 2 3 2 2 2 C ‑2.15379 ー1.23180 4 3 3 5 1 1 .51455 0.07789 3 3 D 5 4 4 2 2 2 3 E 0.30445 1.13954 3 3 2 4 3 4 4 F 1.30508 ‑0.88390 . . LABEL 且 AakerandDay(1980) は、消費者の選好を表現するために次の二つの方法があるといっていま す。クッキーが甘いー甘くないような場合にスケールの中間に理想があると考える方法と、値段が 安い田高いのような場合に極点に理想があると考える方法ですn 前者については消費者が最も好む と考えられる点を推定するための理想点モデル、後者については消費者の好みの方向を推定する ベクトルモデルを考えることができます。 知覚マップについては全ての回答者をまとめて解析しましたが、選好については個人個人で違 いがあると考えて個別に解析します勺ベクトルモデルを作るためには、選好を目的変数、知覚マッ プの軸を説明変数とした線形回帰を行し、ます。回帰係数を知覚マップ上に矢印で表示すれば、選 好が大きくなる方向がわかります。また、理想、点モデ、ルを作る場合、回答者 hのくだもの iに対す i kは、理想点 i こ近いほど大きいと考えます。理想点と対象聞の知覚マッフ。上の距離をユー る選好 Y クリッド距離の二乗を d l kとして、 αk+ s k d l kが Y i kの良い近似になるように理想点の座標を求め ます。この理想点を知覚マップ上に示し、理想、の位置をつかみます。 ここではベクトルモデルを作りました。因子分析で作った知覚マップ(図 2 ) に、理想の方向と して回帰係数を付け足して図 6に示します。 2章では、 Factor1は流行ー伝統、 Factor2は高級品ー低 価俸の程度を表す因子でした。 この図からわかるように、流行伝統軸の原点付近で低価格のところは商品の隙間になっていま す。さらに、ベクトルの向きから低価倦ほど理想的な商品だという消費者も多く存在しているこ とがわかります。以上から、新商品の適切な位置はここでしょうか。なお、この場合にはブラン ドB と D が競合になるようです p この章の分析のプログラムは次のようになります。ベクトルモテ.ルと理想、点モデ ルは TRANSREG プロシジャによって作ることができます。ここで、は線形回帰だったので、 modelステートメン卜 で目的変数を選好 (res1から res50)、説明変数を factor1 と factor2、それぞれの変換は行わない J 巧 FD FD

538.

* F ~ . 0 ・ *B um吋仏 ホD ホC ! ︻ f a l F 、 一 ι 図6 :洋服ブランドと理想点の分布 d e n t i t yとする)モデルを指定します (変換を i η また、回帰係数を含むデータセットを出力するた utputステートメントで c o e f f i c i e n t sオプションを付けますn 一方、理想点モデ.ルの場合は めに、 o f a c t o r 1,f a c t o r 2 ) の変換を p o i n tにして、 outputステートメントでは理想点を出力 の説明変数 ( o o r d i n a t eオプションを付けます。(この場合、 c o e f f i c i e n t sオプションは必要ありませ するために c r e fの変数名とデータは表 5に対応しています。 ん。)なお、ここで分析したデータセット p p r o c tr訂 l s r e gd a t a = p r e f ; model i d e n t i t y ( r e s l ‑ r e s 5 0 ) =i d e n t i t y ( f a c t o r lf a c t o r 2 ) ; o u t p u to u t = o u tc o e f f i c i e n t sr e p l a c e ; i d ̲labeL; run; 次に % p l o t i tで湘覚マップを書きますの TRANSREGの出力データセット o u tでは、変数 r ̲ t y p e ̲ J によってフーランドの座標 Uype̲=SCORE) と回帰係数Ctype̲=MCOEFFI)が区別されている v e c t o r "としました。理想点 ので、前者は点、後者は矢印で表示するために、 symtype="symbol"" モデルの場合、ブランドの座標と理想点の両方が点の方がわかりやすいので、 symtypeニ "symbol" "symbol" とした方が良いでしょうか。 %plotit(data=out, plotvars=factorl factor2, s y m t y p e = " s y m b o l "" v e c t o r ", font=k回 ji ); 参考文献 [ 1 ] Aaker, D.A.andDay , Gふ ( 1 9 8 0 )Marketi 吋 R e s e a r c h, JohnWiley& S o n s . (石井淳蔵・野 1 9 9 4 )r マーケティング・リサーチ j 白桃書房.) 中郁次郎訳 ( [ 2 ] 朝野県彦・山中正彦 ( 2 0 0 0 ) r 新商品開発 j 朝倉書庖, 8 2 ‑ 8 9 . [ 3 ] Gower,J . C .andHand,Dよ ( 1 9 9 6 )B i p l o t s, Chapman& H a l l,1 8 0 ‑ 1 8 3 . [ 4 ] Johnson,R.M. ( 1 9 7 1 ),Markets e g m e n t a t i o n : as t r a t e g i c management too l . Journal o f M日r k e t i π9R e s e a r c h , 7, 1 4 ‑ 2 6 . [ 5 ] 片平秀貴 ( 1 9 8 7 )r マーケテイング・サイエンス」東京大学出版会, 1 2 4 ‑ 1 3 0 . [ 6 ] Krane, W.R.andMcDonald, R . P .( 1 9 7 8 )S c a l ei n v a r i a n c eandt h ef a c t o ra n a l y s i so fc o r r e ‑ B r i t i s hJourn日1o fM日t h e m a t i c a laπdS t a t i s t i c a lP s y c h o l o g y ,31,218‑228. l a t i o nm a t r i c e s, [ 7 ]K r u s k a l,J. B .andWish,M.( 1 9 7 8 )M u l t i d i m e n s i o n a lS c a l i πg ,Sage,35‑43. U Fべ 内 ︒Fhdu

539.

ポスターセッション 品質・生産管理

540.

日本 SASユーザー会 (SUG1‑0) 劣化データを用いた信頼性モデルのための新手法 尾高雅代(訳) 力スタマーサーピ、ス本部プロフエツショナルサービス第 2部 株式会社 SASインスティチュートジャパン NewMethodsf o rM o d e l i n gR e l i a b i l i t yU s i n gD e g r a d a t i o nD a t a ( J o s eG . R a m i r e z GordonJ o h n s t o n ) MasayoOdaka P r o f e s s i o n a lS e r v i c eNo2Department CustomerS e r v i c e sD i v i s i o n SASI n s t i t u t eJapanL t d . 要旨 製造材料の信頼性の解析において、従来の寿命試験(li f et e s t )と STATソフトウェアの NLMIXEDプロシジヤを用いた凹型劣化モデルを使った新手法の比較を行なう。 尚、本論文は J o s eG.Ramirez と GordonJohnston との共著である "NewMethods f o r ModelingR e l i a b i l i t yUsingDegradationData"(SUGI26)を翻訳したものである。 キーワード: SAS/QCソフトウェア RELIABILITYプロシジヤ SAS/STATソフトウェア NLMIXEDプロシジャ しはじめに 電子部晶に使われる絶縁体の保存寿命を調べるために、技術者チームが編成された。 時間と温度によりどのように劣化するのか、そして絶縁体の保存寿命を知ることで、信頼 性データに基づく内部実行の決定と顧客への推薦を可能にすることが目的であり、以下の 問題の答えを得ることが、チームのゴールだった。 1.材料の保存に適した温度は何度か。 2 . ある与えられた温度で材料はどれだけもつのか。 これらの質問の答えを出すべく、劣イ七データを使つての実験が計画されたが、これは 2章 で述べることにする。 3章では、伝統的な信頼性手法を用いてどのように劣化データが分析されるのか、そして 4章では、非線型混合モデルを使ってどのように劣化モデルを当てはめるのかを示す。そ phU 1i =J

541.

してそのモデルを使って故障時間分布の推定をしていく。 5章では、 2つのアプローチを比較することにする。 2 .実験計画 加速劣化実験 ( a c c e l e r a t e c lc l e g r a d a t i o nstudy:ADT)は、通常の保存時の状態用に冷蔵温度 (WC)と室温( 2 2C )、そして劣化過程を速めるために 40Cと 50Cの 4つの温度で行われた。 0 0 0 そして、低い温度に比べると高い温度の方で、より頻繁に標本抽出を行なった。 実験は一年間の予定だったが、その前に問題に答えるのに十分な情報が集まってしまった。 実験では、 3つのロットが使用された。 1ロットにつき、与えられた温度と時間間隔に対し それぞれ無作為に 6つのユニットを抽出した。また、抽出された標本は湿気を防ぐため、 マイラーパッグに密封した。 この実験は、時間と温度の作用による絶縁体の重要な反応を見つけるために計画されたも のである。しかし、この論文では絶縁体の強度特性を中心に述べていくことにする。 強度特性については、材料強度を測定するために以下のような内部試験を行なった。 強度試験: 材料強度は、ダブルスティックテープを使い、ジク.に沿って測定する。 ボール針は、標本と接触するまで下がっているが、接触すると針は標本を貫いてlOmm/sec で加速され、針が材料を裂くのに要した強度が記録される。 材料特性は温度によってかなり速く変化するので、材料の変わりやすさの調整のために標 本毎に初期強度が測られ、それをベースラインとして使う。 応答は、ベースラインからのパーセントでの強度損失の合計値となる。 、 4つの温度について時間による強度のパーセントでの減少を示している。 図 1は グラフは、 40Cと 50Cという高い温度において典型的な凹型劣化反応を示している。 0 0 PhU Fhd つL

542.

STRpct 0 . 2 ロ a圃圃岡国 ‑ ‑ ‑ ‑ ‑ ‑ E 明‑aa 豆日 . . . 関岨 ‑P自 R白 喧 m u 噌白日 +‑Lt+ 宇土伽事 圃 44門 ' 以内ヨ司令? 度3 ︐+ 巴畠園・田+ . ︒ ョ. ロロロ凶悶け白内凶 EEV・F・・++ ム T++十字・++字 L ・﹃ ‑ 0 . 8 ESu‑‑ 司副凶 0 . 7 患 utHEBE‑‑4ヰ + ‑ 0 . 6 国回目白凶民凶岨企何個・2+?++ ‑ 0 . 5 ︒‑自A 事 luli‑‑S﹃ !iiE1444 4EFhFa ︑ ム nunununu ﹁︑一一一一 01234 ロ 画自・明言 0 . 1 ‑ 0 . 9 0000 1 0020 0 5 0 Temp 1 0 0 1 2 0 070 ・ ‑09 1 5 0 1 7 0 Time 口町 2 2 ロロ 40 十 ↑ 5 0 図1 これは破壊試験なので、この試験の標本はロット内の同じ場所から集めたものである。ま たこの試験では、級内分散はわずかだとみなしている。 3.ADT( 加速劣化試験)データの故障時間分析 加速劣化データの伝統的な故障時間分析は、擬似故障時間を使って行なう。 ADTでは、材料や製品の劣化や性能を複数の時点で、調べるということに注意しなければな らない。言い換えると ADT研究では、実際の政障時間でなく、複数の時点での応答の値を 記録するということになる。擬似放障 i 時間の中から興味深い臨界劣化点を選ぶことで、陳 本がこの重要な点にいつ達するかを観測し計算できるようになる。 従って、擬似故障時間は、選んだ点に依存するということに注意すべきである。 つまり、劣イ七点、の選び方を変えれば、楳本の擬似故障時間も変わるということである。 ‑563

543.

どれが臨界劣イじ点かは、技術的な考察に基づいて決めることになる。 また、時間によって応答が増えているのか減っているのか等の劣佑過程の傾向も考慮すベ きである。 擬似故障時間を使って分析する場合、基本的に以下のステップを踏むことになる。 1.それぞれの標本毎に、選んだ劣イ七点、に達する擬似故障時間を計算する。 2 .それらの擬似故障時聞から故障分布 F ( t )を推測する。 SASマクロを使って、標本が臨界劣イじ水準以外である時の擬似故障時間を補間する。 また、このマクロにより劣化情報を持った SASデータセットと擬似故障時間における打ち 切り情報とを持った SASデータセットを作成するとともに、劣化点に達しそうな 2点聞の 線形補間も行なう。 図 2は、初期強度から 35%減少した臨界劣化点での擬似故障時間の結果である。 ( 3 0単位 時間) 図 2から、高温の 4 0 . Cと 5 0 . Cではプロット点が 30個より少なくなっているものの、 g . Cで は 35%減少した点がない、つまり応答が臨界劣化点以下になったものがないことに注目さ れたい。 ー 圃 ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ a PseudoFT 170 160 150 140 130 . 120 110 100 90 80 70 nununU 654 30 20 10 。。。 10 20 30 Temperature o c 図2 40 50 Fhu Fhd Aq

544.

擬似故障時間が計算されれば、 REL lABILITYプロシジヤを使って故障時間分布 F ( t )が推 測できるようになる。 まずは、どの分布が最もデータに適合しているのかを調べていく。 図 3は、それぞれの温度に関するワイフりレ確率紙上へのプロッ卜結果である。 それぞれの温度について見てみると、擬似故障時間は直線に沿っているとわかる。つまり、 全てのデータに対してワイプル分布は適しているということが示される。 これを基にパーセンタイル値での絶縁体の"寿命円を推測していくことになる。 Percent 99 95 90 80 70 60 50 40 30 20 10 5 2 。 100 10 1000 9 : ‑ <XX22( コ 口 口 40....50 Temp 十 マ + 0 図3 SASのパージョン 8からの機能である RELIABIL lTYプロシジャを使い、ワイブル分布と 時間と温度の間にアレニウスの関係が成り立つという仮定のもとで、各パーセンタイル値、 各組度での絶縁体の寿命を予測することができる。 このプロシジャを使って、材料がゲCで保存された時に、その材料のうちの 1%、95%が故 障する予測時聞を算出し、そして予測値の評価のために予測値の 95%信頼区間を計算して みよう。 υ F吋 A p h υ 戸 ﹁d

545.

実行結果を見てみると、ゲCで保存した場合は、絶縁体の材料の 1%が持ちこたえるのは 3 1 3 単位時間で 95%信頼区間は [ 2 6 2 ; 37:3]であり、一方材料の 95%が故障する予測時間は 7 4 2 単位時間で 95%信頼区間は [ 6 6 4 ; 8 3 0 ]だった。 また、アレニウスーワイブルモデルによるパラメータ推定値も出力されている。 M o d e lI n f o r m a t i o n I n p u tD a t aS e t W O R K . S U G I 2 6F T A n a l y s i sV a r i a b l e R e l a t i o n p s e u d o F T A r r h e n i u s( A c t i v a t i o nE n e r g y ) C e n s o rV a r i a b l e c e n s o r D i s t r i b u t i o n w e ib u1 1 A l g o r i t h mc o n v e r g e d . S u m m a r yo fF i t O b s e r v a t i o n sU s e d 7 1 U n c e n s o r e dV a l u e s 5 3 R i g h tC e n s o r e dV a l u e s 1 8 問i s s i n gO b s e r v a t i o n s 2 問a x i m u mL o g l i k e l i h o o d 1 6 . 8 4 6 2 6 W e i b u l lP a r a m e t e rE s t i m a t e s A s y m p t o t i cN o r m a l S t a n d a r d P a r a m e t e r I n t e r c e p t E s t i m a t e 一2 8 . 6 6 9 2 E r r o r 0 . 5 0 1 3 9 5 %C o n f i d e n c eL i m i t s U p p e r L o w e r 一2 9 . 6 5 1 6 一2 7 . 6 8 6 7 T e m p 0 . 8 5 3 7 0 . 0 1 3 4 0 . 8 2 7 5 0 . 8 7 9 9 E VS c a l e 0 . 1 5 1 9 0 . 0 1 6 2 0 . 1 2 3 3 0 . 1 8 7 1 W e i b u l lS h a p e 6 . 5 8 4 8 0 . 7 0 0 7 5 . 3 4 5 2 8 . 1 1 1 8 O b s e r v a t i o nS t a t i s t i c s e m p P s e u d o F T c e n s o r e t P C N T L S T D E R R L O W E R U P P E R 9 8 . 3 9 8 6 2 6 1 . 5 3 1 1 6 3 7 3 . 4 4 1 0 9 1 % 3 1 2 . 5 1 6 3 7 2 9 7 4 2 . 3 9 7 9 8 4 2 . 0 7 8 4 9 6 6 4 . 3 4 1 5 2 8 2 9 . 6 2 5 6 49 5 % モデルの当てはまりの評価と政障時間の予測に適した方法としては、関係プロット 566ー

546.

( N e l s o n ( 1 9 9 0 )の 3章を参照された l¥)がある。 図 3と同様、図 4に示されたこのプロットでも、ワイブル分布は適しているとわかる。 右側の図では、 9Cの縦方向の直線と、 1%、95%の各直線との交点、がみられる。 0 3 1 、 3 : 95%では 7 4 2という値が読み取 交点、を縦軸に投影すると、 1%が故障する予測時間は : れる。 1000 100 円U 1 。 1 2 5 102030 7090990 Percent 20 40 50 80 Temp P e r c e n t i l e s ‑ ‑1 ‑ ‑95 , ; x x 0 9 ロロロ 22 40十十1" 50 Temp ・ ・ 図4 アレニウスーワイブルモデルから得られたパラメータ推定値を使って、材料のうちの与えら れたパーセンタイル分が与えられた単位時間だけ持ちこたえるのに適した温度を推定でき る 。 80単位時間だけ持ちこたえさせるには何度が 例えば、絶縁材料のうちの 1%を少なくとも 2 適しているかを予測したいとする。 ここで再び、標本の強度が初期強度より : 3 5 %以上の減少をした状態を故障と定義する。 りたい時などに役に立ってくる。 この計算は、例えば製品に適した保存状態を長n あるパーセンタイル分がある単位時間だけ持ちこたえるのに適した温度は、 RELIABIL 1TY υ 戸 phu Jt ︑ 回

547.

プロシジャから得られる切片 ( ‑ 2 8, 6 6 9 2 )、傾き ( 0 ̲ 8 5 3 7 )、 ワ イ ブ ル 分 布 の 形 状 パ ラ メ タ ( 6 ̲ 5 8 4 8 )の値を使って簡単に計算できる。 /料T e m p e r e t u r ef o rA r r h e n i u s ‑ W e i b u l lF i tf o rag i v e np e r c e n t i l e料/ % l e tb O 二 一 % l e tb 1 ニ 2 8 . 6 6 9 2; 0 . 8 5 3 7; % l e tw s h a p e= 6 . 5 8 4 8 ; 引e tDt i m e=2 8 0 % l e tp c t 二 d a t a̲ n u l l ̲; b 1 / 1 o g ( & D ̲ T i m e / ( ‑ l o g ( 1 ‑ & p c t / 1 0 0 ) )牢牢 D ̲ T E M P = r o u n d ( 1 1 6 0 5牢& ( 1 / & w s h a p e ) ) ‑&bO)? 2 7 3 . 1 5 ,1 . 0 ); p u t D e s i g nT e m p e r a t u r ef o r& p c t %L i f ea t& D ̲ T i m eD a y s =" DT E M P"C " r u n, g i v i n gap r e d i c t e ds t o r a g et e m p e r a t u r eo f1 0oC. D e s i g nT e m p e r a t u r ef o r1 %L i f ea t2 8 0D a y s 1 0C 二 N O T E :D A T As t a t e m e n tu s e d : r e a lt i m e 0 . 0 5s e c o n d s c p ut i m e 0 . 0 0s e c o n d s 4 .凹型劣化モデルを使った ADTデータの分析 劣化データは伝統的な打ち切り故障データよりも多くの情報を持っている。 、 40Cと 50Cで漸近線または劣化限界に達するまでの、時間に伴う強度減少をパー 図 1は 0 0 セント値で示している。この、時間とともに劣化していく現象は、以下の凹型モデルで近 似的に表せる。 Degradαtion(t附~) = ̲es2X ~ ‑ e九 es, 漸近線 5 6 8ー

548.

es1 標準温度(今回は γC )での反応剖合 A F ( T c m p ): T e m p ( 今回与えられた γ C)におけるアレニウス加速度要因 s 3:活性イじエネルギー これについては以下の式が成り立つ ム│旦旦」型:̲‑ I ̲ AF(Tem ゆ=e 19+273.15 Temvt‑273.15JI J L7T":::"I.Jo l . .J J . Clflj / T" :::"IJ.l.̲.J ( 三 ) これまで、式 ( 1 )の非線形凹型モデルに当てはめる時には、 NLIN プロシジャが使われてき た。しかし、このタイプの実験では標本を同ーとみなすことができなし、。つまりこの場合、 パラメータ推定値の標準誤差の精度の高い推定値を求めるには、標本間のばらつきを考慮 に入れる必要がある。また、これらの非線形劣イじモデルは、異なったサンプルに対し複数 の時点で観測した非線形の成長曲線と類似している。そしてその場合でも、サンプル内分 散を考慮する必要がある。 SASパージョン 8 . 2からの機能の 1つとして、 NLMlXEDプロシジャがある。このプロシ ジャは、回定効果と変量効果が非線形的にデータに加えられるような場合に、非線形混合 モデルを当てはめる時に使用する。式 ( 1 )の強度のパーセント減少を示すパラメータは NLMlXEDプロシジャにより推定されている。 NLMlXEDプロシジャの出力では、 s l、 s 2、 β3の各パラメータ推定値が計算される。 全体の分散の推定値とともに、 β 1と / ‑ 32の分散、共分散も出力される。 結果を以下に示す。 P a r a m e t e rE a l u ePr>[ t [A o w e r s t i m a t eS t a n d a吋 DFtV l p h a L E r r o r m b 1 ~b1 m b 2 s b 2 c 2 1 b 3 s 2 e U p p e r G r a d i e n t 8 7 . 9 8、 ̲ 0 5 ‑ 0 0 0 1 0 7 .1 9 7 4 ‑ ‑ 7 . 0 3 7 8 0 6 ̲ 8 7 8 30 . 0 7 9 9 97 0‑ 0 2 0 1 9 6 ̲ 0 5‑ 0 ̲ 0 2 1 9 20 ̲ 0 1 8 1 77 ̲ 2 3 1 7 0 0 ̲ 0 1 4 3 20 ̲ 0 5 8 1 61 0 12 10 5 2 3 7 5 4 9 4 7K ̲ 0 5‑ ‑ 0 0 9 6 5 9 0 01 1 6 9‑ 0 ̲ 0 8 7 5 ̲ 0 1 0 27 0 0 0 1 0 0 0 7 6 2 5‑ 0 ‑ ̲ 1 80 ̲ 0 0 0 0 7 47 ̲ 8 5 4 6 0 ̲ 0 5‑ 0 ̲ 0 0 0 0 1 40 ̲ 0 0 0 1 6 1 3 0 ̲ 0 0 0 1 30 0 0 3 6 4 4 8 ̲ 9 7 E ‑ 0 67 0 0 0 1 0 0 ̲ 0 0 0 5 4 55 ̲ 0 50 ̲ 0 0 0 5 3 30 0 9 ̲ 0 0 0 5 5 7‑ 3 3 2 ̲ 3 1 9 1 4 1K 6 ̲ 9、 ̲ 0 0 0 1 0 ̲ 0 5 0 ̲ 0 1 9 2 77 ̲ 8 6 5 5 0 ̲ 9 4 2 4 ‑ 0 ̲ 0 9 6 5 0 9 0 3 9 0 0 4 0 0 0 1 0 ̲ 0 50 ̲ 0 0 4 3 8 70 0 ̲ 0 0 5 1 4 80 ̲ 0 0 0 3 8 17 ̲ 0 0 5 9 0 81 0 ̲ 9 7 5 1 0 1 3 5、 出力から、 -cxp(ー 0.096G)=-90 I1.,という強度減少と等しい漸近中J~eß, と活性化エネルギー β 、 ︒ υ ‑吋 phu

549.

の0 . 9 03 :9という推定値が得られた。 この推定値から、それぞれの温度での強度のパーセント減少の予測曲線を描くことができ る 。 図 5では、 NLMIXED プロシジャより得られた凹型減少混合モデルから予測される値を使 って当てはめた曲線を示している。ここでは強度が約 90%減少した漸近線近くの 50Cの曲 0 線に注目されたい。 STR̲pct 0 . 2 Predicted 0 . 0 0 . 1 ‑ 0 . 1 0 . 0 ‑0.2 ‑ 0 . 1 ‑0.3 0 . 2 ‑0.5 0 . 5 ‑ 0 . 6 ‑ 0 . 7 0 . 8 n u n u lqL n u ‑ n u ︐ nu nunu n u ‑1.0 050 080 100 Time 120 150 170 図5 故障時間分布 F ( ο の計算 式( 1 )の変形と MeekerandE s c o b a r ( 1 9 9 8 )の P .3 :28の 1 3 :. 1のアルゴリズムにより、擬似寿 f e t i m e )の故障時間分布 F ( ο を計算できる。また、 MeekerandE s c o b a r ( 1 9 9 8 )の 命時間(li P .332の Algorithm1 3 .:3に記述されている手順により、分布 F ( t )のブートストラップ法によ る信頼限界を得られる。 ‑570ー

550.

それは、以下のような手順で行なう。 l h iによる劣伯データのブートストラップ標本を多量に発生さ 1.実際の実験と同じ実験計 I せる。 2. NLMlXEDプロシジャを使って、それぞれの標本にモデル(1 )を当てはめ、 以前に示し た方法によりそれぞれの F ( t )を計算する。 3. それぞれの tについて F ( ο 分布の推定値を昇順にソートする。 4. 上側、下側のブートストラップ信頼限界は、ソートされた F ( t )の u番目、 l 番目の値に なる。 u、lについては MeekerandEscobar(1998)からの式で計算される。 F ( t )とブーストラップ信頼限界を計算するために、 DATA ステップ、 IML、 NLMlXED プ ASマクロプログラムを作成した。 ロシジャを使った S 図 6は 、 9Cにおける強度減少 :35%の切断点の 95%ブートストラップ信頼バンドに沿った 0 故障時間分布 F ( t )の推定結果である。推定故障時間の 1%パーセンタイル値は 95%信頼区 479]で 386単位時間であり、 95%パーセンタイル値は 95%信頼区間 [608, 796]で 714 間 [199, 単位時間である。 DegradationModelEstimateofPseudo‑lifelimeC DF Bootstrap951Confidence Limits Pro回 b i l i t y 1 . 0 0 . 9 0.8 0 . 7 0 . 6 0.5 0. 4 0.3 0 . 2 0 . 1 0 . 0 300 400 500 600 Time Samples i z e : 1373 Temperature:09 degrees 図6 700 800 900 円 p i 1i ヘυ

551.

5 . 擬似故障モデルか劣化モデルか? 図 5では、特に低い温度ほど多くの標本が、初期強度では強度減少:35 %の臨界劣化点に達 しないことを示している。従ってそれらのデータは、 3章で取り扱った擬似寿命時間の伝統 的な故障時間解析における打ち切りデータとされてきた。言い換えると、強度減少:35%の 臨界劣化点以下のデー夕、すなわち情報は、解析では使われていなかったのである。 しかし、 4章の劣化解析では、劣化過程を直接モデルにしているので、劣化データの全ての 情報を使っている。それは、劣化解析アプローチでは、特に臨界劣化点、を超えた外挿法を 確な結果を出す必要があるという理由からである。 使う時に、より正 i 1 )のモデルに当てはめ 一方、劣化解析アプローチは計算の負荷がかかる。最尤法により式 ( ることで、難しい最適化の問題の解が要求される。 NLMlXED プロシジャは、かなりの程 度まで推定の過程を自動化しているが、しかし当てはめたアルゴリズムが収束するような 良い初期パラメータ推定値を見つけることは依然として困難である。また、ブートストラ ップ信頼限界は、大量のシミュレーションデータセットへモデルを当てはめることを必要 とするので、時間がかかる。 以下の表は温度 9Cで保存した標本に対して 2つのアプローチ法をとった時の、 95%信頼区 0 聞の 1%と 95%の推定値を示している。 Percentile Lower 95%CI Estimate Upper 95%CI Pseudo‑Failures 1% 262 313 373 DegradationModel 1% 199 386 479 Pseudo‑Failures 95% 664 742 830 DegradationModel 95% 608 714 795 Method 標本毎の差異を含むため、劣化解析の信頼区間は、擬似劣化時間を使ったものより広いこ とに注意されたし、。これは特に、多くの打ち切りが存在する 1バーセンタイルをみると明 白である。 では、どちらのアプローチを使うべきか。 一般的な奨励としては以下の通りである。 Fhd nノ臼 ワt

552.

1)短時間で近似的な解析が望まれる、またはほとんど打ち切りデータを含んでいない時 は、擬似故障時閥解析 2)面倒な計算をしてでも劣佑データのより細かい解析を行ないたい時は、劣化解析アプ ローチ 劣化解析と比較した擬似故障時間解析の限界については、 Meekera n r lE s c o b a r ( 1 9 9 8 )の 1 3 . 8章を参照されたい。 参考文献 Meeker,W .Q .,andEscobar ,L . A ., ( 1 9 9 8 ),S t a t i s t i c a lM e t h o r l sf o rR e l i a b i l i t yData, New Y o r k :JohnWiley& S o n s . .( 1 9 9 0 )A c c e l e r a t e r lT e s t i n g :S t a t i s t i c a lModels,T c s tPlans,andDataA n a l y s i s, N e l s o n .W NewY o r k :JohnWiley& S o n s . SASI n s t i t u t BI n c . ( 2 0 0 0 ),SAS/QCU s e r ' sG u i r l e,V e r s i o n8,Carry ,NC :SASInstitua I n c p h υ ηi qd

553.

日本 SASユーザー会 (SUG1‑0) 品質管理におけるデ、ータウエアハウジングの利用 木下由香里 株式会社 SASインスティチユートジャパン マーケティング本部プロダクトマーケティング 部 E f f e c t i v ed i r e c t i o n so fDataWarehollsingi nQ u a l i t yManagement Y u k a r iK i n o s h i t a ProductM a r k e t i n gDepartment,M a r k e t i n gD i v i s i o n,SASI n s t i t u t eJapanL t d . 要旨 データウエアハウジングは企業の品質管理において重要な役割を果たすことができる r 本稿では SUGI26 で発表された論文をもとに、データウエアハウジングの品質管理分野での効 果的な利用法について事例を中心に紹介する。 u a l i t yManagement,SAS/WarehouseA d m i n i s t r a t o rソフトウエア キ ー ワ ー ド :DataWarehousing,Q 1.はじめに 製造業において品質管理は重要な業務の つであり、その機能をし、かにして向上させていくか とし、うことはこれまで幾度となく考えられてきた c 中国・上海にある Baoshan I r o n & S t e e lC o . (以下 B a o s t e el)もその例外ではなかった。毎年 1000 万トンを超える鉄鋼を生産し、 17000名以上の社員を抱える、中国鉄鋼最大手のこの企業でも品質 管理機能の向上は大きな目標の つだった。 u a l i t y Management Data この企業では現在、社内全ての OLTP データを集め、項目ごとに Q Warehouse(以下 QMDW)に格納してしも。これにより、今で、は品質管理エンジニアは製品の品質 を分析するためにデ ータウエアハウス内の関連があるデータを簡単に使うことがで、きるようになったC そして、導入後の状況から QMDWの導入がマネジメントと品質アナリスト双方の品質管理における より良い意思決定を支援するものであるとし、うことがわかった。 5 7 5

554.

2 .Q u a l i t yManagementD a t aWarehouse導入の利点 ここでは B a o s t e e lの導入理由をもとに、 QMDWを構築することでどうし、った問題を解決すること ができ、どのような利点があるのか考えてみたい。 B a o s t e e l にはいくつもの従来型情報管理システム(レガ.シーシステム)が存在する。これら OLTP システムは日々の仕事の運用にかかわっており、社内で重要な役割を果たしているむそして、ここ には膨大な量の運用データが蓄積されているつこのような価値あるデータも有効な管理ができてい なかったためにうまく使うことがで、きておらず、統計解析や評価に生かすこともで、きなかった♂すな わちデータを使える情報に変換することができていなかったのである。 また、次のような問題が発生していたことから、品質管理に関するプロセスが非効率的なものとなっ ており、重複したアプリケーション開発やその他の様々な問題を引き起こしていた。 0管理システムがそれぞれ分散しており、いわゆる勺 n f o r m a t i o nl s l a n d s "を形成していた。また、プ ロダクトデータがこれらのシステムによって散在し、他の部門のプロダクトアナリストはアクセスでき ないようになっていたσ O効果的な分析ツールが無かったため、多くの分析作業をビジネスユーザーで、はなく ITプロフエツ ショナルが行なわなければならなかった。 このような問題を解決し、品質管理をより良く効率的なものとすること、またエンジニアをデータア クセスの面などから支援することができること。それが QMDWを構築する主な利点である。 3 .B a o s t e e lQ u a l i t yManagementD a t aWarehouseの概要 B a o s t e e lQMDWは 、S ASのデータウエアテクノロジーを用いて構築した、 24のデータマー卜を持 ったデータウエアハウスで、ある。また、あわせて複数の分析・レポーテインク、、用アプリケーションも開 発・導入されている。 B a o s t e e lが QMDWを構築・導入したプロセスを簡単に説明すると、以下のようになる。 l . 社内の別々のプラントに散在していたプロダクトデータを全て収集。 同時に、生産のフェーズに関わるもの例えば製鋼、熱間圧延(材料を加熱して行なう圧延)、冷 問圧延(加熱しないで行なう圧延)等だけではなく、購入申し込み、材料、品質設計といったよ うな業務に関するデータも一緒に集めた。 2 . これらのデータを S A S / W a r e h o u s eA d m i n i s l r a l o rのデータマネジメントシステムに格納し、そ υ nhU ηi ︑ ﹁

555.

こでそれらのデータを整備、ロード、さらに項目ごとにまとめて管理した。 3 . 2で項目ごとにまとめられたデータに基づいて、複数のアプリケーションを開発した I 3 . 1 システムインフラストラクチャ B a o s t e e l QMDW は S i ¥S/Warehouse i ¥d m i n i s l r a t o r, S i ¥S / S T ! ¥T, S i ¥S/QC, Si ¥S / l n t r N e l ∞ ∞ を使用し、 RS60O0 / β S Pサ一パ一上で 詳細なシステム構成は以下の通りでで、ある。 ‑データウエアハウス環境: 4ノードの RS6000/SPサーバー内の 332Mhzシンノード 2つで、構成心このシンノードはそ れぞ、れ 332Mhzの PowerPC604eCPじと 1GBのメモリーを装備。また、シンノードの最大構 成は、 4CPU、3GBメモリーとなっている。そして、ノードには最大帯域幅 132Mhzを持つ 50 / 0パス lっと 2つの PCI1 /0スロットも含まれている。その 2つのノードを 300MB Mhzの 1 の双方向帯域幅を持つ高速フアプリックスイッチが接続している。ブートデバイス用の統合 SCSト 2F/Wコントローラーと 10Mbpsイーサネット・カードも装備したn . Si ¥Sストレージ用のファイルシステム構成: a i d OとR a i d 5のストライプセット (65Kbのスト ホストの1/0アタマプターとデ ィスクを積断する R ライフ。幅)で構成した。 また、このシステムはクライアント・サーバーシステムとして導入することがで、きる 以下の図がそ ρ の例であるが、この例では Si ¥S/Warehouse i ¥d m i n i s t r a l o r およひ、ウエアハウスメタデータは全てロ ーカルホストに、 OLTPデータはリモートホスト上に配置されている また、リモートホストの OLTPデ η ータをキャプチャーし、データウエアハウスを更新するジョブはローカルホスト上でサブミッ卜するよう に設定されている、 L日ご a lHost R e l l l o l eHost 図1 .B a o s t e e lQMDWの物理的構成(C!Sシステム利用の場合) F r o m D a t aW u r e h o u s i n gH e l p sI I r lp r o v eE n t e r p r i s eQ u a l i t yI ' v 1a n a g e r n e n l ", S U G I 2 6P a p e r,S A SI n s t i t u t eI n c . J' 門 ワt R υ

556.

3 . 2データベースデザイン B a o s t ω e 剖 e1QMDWは 口 llのサブジエクトで る D そのサブジェクトとは: .S t e e lMaking 製鋼 .HotR o l l i n g 熱問圧延 ・C oldR o l l i n g 冷問圧延 .Bloom ・W ire .ColorCoating ブルーム 1 ワイヤー カラーコーティング .E l e c t r i cG a l v a n i z a t i o n( Z n ) 電気めっき(亜鉛) .E l e c t r i cG a l v a n i z a t i o n( S n ) 電気めっき(錫) .Hot‑DipG a l v a n i z a t i o n 溶融めっき" .ElectromagneticS t e e l 電磁鋼 .F i n a lProduct 製品(ファイナルプロダクト) QMDWのコンポーネントは表 1のようになっており、この表ではそれぞれの列がサブジェクトを表 し、行がデ.イメンジョンを表している。 このデータウエアハウスのサブジェクトは、技術部門のマネジメント層のニーズ、に合った分析やレ ポート作成を支援するために使うことができるデータグループとなっている。また、このなかのいくつ かのサブ、ジェクトは、より大きなデータグループと組み合わせて、クロスサブジェクトのクエリーや分 析をするときに必要なプロダクトとプロセスクオリティデータのビューを作成することがで、きるようにし V /l ¥ .OVデータマイニングアプリ た。そのようなクロスサブ、ジェクト分析の例としては後に説明するl¥.I ケーションがある。 また、この QMDWはファクトテープ、ルとテマイメンションが一致するものの集合体となっている。 OAU 弓 ︐ a F h υ

557.
[beta]
E
E
E
E
主主 u二4 唱~ts

Sle~t"" 目恥jrtQ

HQ
1
. Rolling

:
亨
亘
当
軍

'
主

、
.
. .
Z士

.
、
.

・
掛
出
ニ
二・

'
、

ゼ
ー
ョ

E
主 三
ー
涙
星
占

. .
>
‑
、

C o l dA o
I
l
in g

B k:
.
.
:
:
>
m

,
••

か、

Eよolor'C‑=:.ali内 宮

を
ー

,
0
;
.
"
唱

言 畠
言
d
8

ビ
宣
ヨ

‑
@
兎

.

・
'

'
.

.

、

.
・

E k9c甘;..::'3.:;1,,]....白 niza
:tion(Zn)
E.ヨ同,~t,. ic < 当 日 I
.
.
.
.
.
.
.
n
i:
.
z
.
at b円 〈 さ 忌 n )

EkectrC.rTlE'lg n E
ヨ
.
.
.
.
.
:
: ~Ste e4
F i 円 早J P r o d u cf
.

、
J
.
、
、
、
v

Eゼ

.
'
炉
ー

'

P

,、
、
,、

表 L Q M D Wのコンポーネンツ(サブジェクト*テョイメンション)
From DataWarehousingHeJpsJmproveE
n
t
e
r
p
r
i
s
eQ
u
a
J
i
t
yManagement"
n
s
t
i
t
u
t
eJ
n
c
.
SUGJ26Paper,SASJ

3
.
3 データサブジェクトの例(熱間圧延)

熱問圧延サブジェク卜の目的は、全てのプロダクトの統合したビューを提供することと、熱問圧延
に関連するクオリテイデータを処理することにある。
熱問圧延工程はブルーム、ピレッ卜、スラブを主な投入材として開始され、これらの投入材を圧縮
したり、圧搾したりして目的の形にするとしづ作業から成り立つ。また、銅の化学構造に影響を与え
る製鋼とは違い、圧延は主に銅の機械的性質に影響を与える。これは"焼き戻し"として知られる工
程に共通することである。
少なくとも、熱問圧延サブジェクトのファクトテーブ、ルは、製品と熱間圧延フェーズ、のプロセスクオ
リティを分析する際に使用する重要な基準を全て含めて設計されるべきである。このファク卜テーブ
ルに入れる必要がある重要な基準には、例えば、冷却温度、焼き戻しの温度、焼き戻しのスピード、
張力、伸び、原料の影響力などがある戸またランタ ムテストの結果なども追加の基準としてファク卜テ
e

ーブ、ルに加えておくこととした。
論理的なデータモデルの概要は図 2に示す。

‑579

558.

M ateriaI Diwension Tirue D l1nension M aterial̲Key Hot Rolling Process Quality Facts M ateriaI Name Ma .teriol Descriptioll M ateriaI Type MoteTiallllternal Grade a.! Domestic Grage M o!e口 MllteT i a .IlnteTna .tiollul Grade Other M ateTIul Attributes M uteriul̲Keヲ Time̲key Proces9 lD Order N¥l m ber ing Temperuture Coo! Cooling Speed Rol Iing Temperut¥ lr e Rolling Speed e s M echunicul PropeTti Test M ea .sures "act Mea .sures Other l 図2 . 熱問圧延サブジェクト論理的デ Process Dimens凹 n Process ID Process N uDl e Process DescriptioIl Process Type P!unI̲ID PluIl tNume PlaIl tDeSCTiptioll P!ulltType .lor̲ID Plant Opera Plalll Shift Test lD Tesl Name Test̲Type Test̲Descrip1 i on Other Process Atlribllτ" タモデルとサンプルディメンション F r口口l D a t aW a r e h o u s i n gH e l p sl m p r o v eE n t e r p r i s eQ u a l i t yM a n a g e r n e n t " n s t i t u t el n c . S U G l 2 6P a p e r,SASl 論理的データモデルに基づいて、物理的データストア(ビューも含めて)が導入され、エンドユー ザーも使えるようにした。 必要なデータを含む物理データベースはビジネスアナリストがアド、ホックク エリーを実行したり、分析レポートを作成したりするときに使われている戸 a o s t e e lの技術部門のエンジニアたちは自ら分析ツールを使っ 現在では、 QMDWのおかげて、、 B て使える情報を作り出し、公式な製品品質レポートも数分の聞に作成で、きるようになった今これは、 エンド、ユーザーの IT担当者への依存を減らすことにも一役買っている。 以上のように、データウエアハウジング、はエンジニアが製品品質分析をより効果的に実行するこ とを可能にし、これまで必、要だ、ったレポート作成のための時聞を大幅に削減したので、ある c さらに、 レポートの質もかなり向上し、信頼で、きる品質傾向を予測で、きるものとなったの 4.QMDWのアプリケーション開発例 QMDW導入前は、品質管理のエンジニアがデータやレポートを必要だとしたら、彼らはまず、プ ログラムを作成した I T担当者に全ての要望を伝えねばならず、 I Tエンジニアは完成したらユーザ ーに送りかえさねばならなかった戸これで、はとても時間を消費してしまっていた。この時間のロスを 軽減しより効率的に業務を遂行できるように開発されたのが、次に紹介するものをはじめとするアプ リケーションで、あるん ‑580一

559.
[beta]
4
.
1 1580熱間圧延工程統計解析システム

• 1
5
門

!1
0
'

側1
1 " 園 咽I :
D
t O
I
Z .:l1IJ担>> 5 l I ! 刷 丘 宜 耳 障 剥 草 剤 掛 躍

岨
J
J
l
.
.
1
̲
1
百
百 世1
田岡0"胃ー『凶・同組
茸
,
.
,i

・防圃{出唱1.1US
I
.r
l
I
F
"
I
孟
眠
事

図 3 熱問圧延工程解析結果の一部

F
r
o
m D
a
t
aW
a
r
e
h
o
u
s
i
n
gH
e
l
p
sI
m
p
r
o
v
eE
n
t
e
r
p
r
i
s
eQ
u
a
l
i
t
yM
a
n
a
g
e
m
e
n
t
"
S
U
G
I
2
6P
a
p
e
r,SASI
n
s
t
i
t
u
t
eI
n
c
.

第 1
5
8
0熱問圧延プラントのマネジメントシステムには統計解析機能がなかった そこで、 SASプ
O

ロダクトを利用して QMDWに基づいた品質管理のためにいくつカミの統計分析ツールを開発した

p

これは品質管理の利益になるだ、けで はなくプラントのプロセスコントロールにも役立った c 今では、
プラントがプロダクトの精度を上げるために行なう、コントロールプロセス中の変数の変更に役立つ
分析レポートを毎月生産プラントに対して提出で、きるようになった。

4
.
2 KIV/KOV データマイニングアプリケーション

このアプリケーションは統合的なデータストアを提供して S
P
C
(
S
t
a
t
i
s
t
i
c
a
lP
r
o
c
e
s
sC
o
n
t
r
o
l
)をサポ
ートできるようにするものである。
具体的には、 QMDWは EMもしくは SAS/STATをf
吏って l
くI
V(KeyI
n
p
u
lV
a
r
i
a
b
l
e
s
)とl
くOV
(Iくり
OutputV
a
r
i
a
b
l
e
s
)の統計モテ、リンク冶サポートするためにプロダ、クトとプロセス両方のクオリティの統

合データを提供するとし、うことである。

I
<
:I
VとKOVはプロダクトとプロセスのクオリティデータから集められる c ほとんどのインプットが最
終工程に到達する前の保々な生産プロセスにかかわっているので、あるプロセスの i
くOVは次のプ
ロセスの KIVになりえる。
SPCとは、 i
くI
VとKOVの値を用いてエンジニアが品質管理のプロセスを最適化することを可能に

するものであるれ
KIVとi
くOVの関係のダイアグラムを図 4
(こ示す。

Fhd

ORU

‑

560.

4 A E S ‑ ‑ E EA ' j i z ︽ 守 M Tt E ﹃ m 二 一 7u . ‑ e ︑ ZE‑‑ ・? a a轟 ・ ' 望 jd 町 a a率2...昼盃冨...z . 曹 ︑ 唖墨書公量事 g j 子 " ? : b 2 ︑ λA ‑ S z a ‑ ‑ ‑ ‑ z ‑ ‑ 〒 ・ Z ・ ‑ ‑ e・ ・ ‑ ‑ ‑ 一 v 丸 ︑ λA? ︑‑ 守 日ドい . φ . ii ︐畑 ︑ : t 1l .w ‑ ‑ E S ‑ ‑ z s ‑ ‑ ‑ ‑ ‑ e s s e ‑ ‑ ‑ ‑婁 杭 抗 R W E 伶 . 胴 : : i 仇 図4 . KIV/KOV関係図 From Data仇l a r e h o u s i n gHelpsImproveE n t e r p r i s eQ u a l i t yManagement", SUGI26Paper,SASI n s t i t u t eI n c . 4 . 3イントラネット/オンライン分析システム 社内イントラネットのためにしてつか webアプリケーションも作成した。これはエンドユーザーによ るデータウエアハウスへの最新情報の格納とアクセスを支援するもので、ある円エンドユーザーは今 では web を通じてデータウエアハウス内の詳細情報にアクセスすることがで、き、 MDDB を使ってす ばやくレポートを作成することができる。また、ウェブを通じて演算機能も利用できる。 図 6はそのウ ェブアプリケーションからの画像であるれ 山 明 院 … 品、一一…、跡、山町炉、一、 書量主主喜劇際協意思恥主主義ょ明総^j~:L~.lt,ぃJ ' " 樹問守町 通 1 ; ¥叫 献 し き , . . ぷ一一一町一 図5 . M D D Bアプリケーション From DataWarehousingHelpsI r n p r o v eE n t e r p r i s eQ u a l i t yManagement", SUGI26Paper,SASI n s t i t u t eI n c . F nノu n x u ︑ υ

561.

この画像は MDDBを利用したレポート作成画面であるラこれにより今では、ユーザーは lつもしく は 2つのテョイメン、ンョンのレポートを webベースで作成できる。さらに、他の様々な種類のレポートも ピ ジネスユーザーのニーズにあわせた分析変数や方法別に作成で、きるようになった C 6 .まとめ B a o s t e e lはデータウエアハウジングテクノロジーを導入した中国で最初の冶金企業である n この QMDWの構築に際しては、トップマネジメントの強力なサポートのもとヒ。ジネスユーザーの 積極的な参加が求められた。そしてそれは、多くの業務上の問題解決に寄与した その参加により n 発案された、 QMDWのデータに関連性をもたせるとし、うことが、結果的にユーザーにとって多くの 利便性をもたらしたの例えば、 QMDW導入以前は 2つの別々のプロセスに分かれているため一人 のエン、ジニアが冷問圧延と製鋼工程の関係を知ることは難しかった。しかし、このデータウエアハウ スがあれば、簡単に知ることができるのである。またあわせて開発したアプリケーション群やクライア ント・サーバーシステムの導入などによって、ユーザーは簡単にデータウエアハウスにデータを格 納したりすでに格納されているデータにアクセスしたりできるようにもなった さらに彼らは今では n 様々な種類のレポートを彼らの必要に応じて簡単に作成できるのである。 このように、今回紹介した事例では品質管理を向上させるだけではなく、ユーザーによる効果的 なデータアクセス・分析を可能にした。また、ユーザーの時間を節約しただ、けではなく、正確で信頼 で、きる統計解析の結果を出すことにも役立った。さらに、マネジメントが製品の品質を正確に予測し、 そこからより良い意思決定をすることに役立った。 参考文献にしている論文 D a t aW a r e h o u s i n gH e l p sE n t e r p r i s eQ u a l i t yM a n a g e m e n t "の著者は I S A S / W a r e h o u s eA d m i n i s t r a t o rや他の SASプロダクトは高度なデータ分析能力を提供することが できるものであると思う。これらのプロダクト群はデータウエアハウステ、ザイン、構築とメンテナンス、 企業での複雑な分析作業の効果的な実施までの一連のプロセスの簡略化に役立つの Jと述べてい る。彼らが述べているようなSASプロダクトの強みを生かした QMDWの試みは、品質管理の強化を 目指している多くの製造業において十分応用できるものであると考えているの今後、 QMDWでの経 験が、何らかの形で日本の製造業の品質管理においても活用されることを期待している ‑583 r

562.

参考文献 •X i a oJ i . Shichun Zhou. Jay Cao. J i a n l iS h a o . Data Warehousing Helps E n t e r p r i s e Improve Q u a l i t yManagement(SUGI26P a p e r ) .SASI n s t i t u t eI n c . .2001 •L a r r yP .E n g l i s h .ImprovingDataWarehouseandBusinessI n f o r m a t i o nQ u a l i t y . JohnW i l e y&SonsI n c . .1999 ・ SASI n s t i t u t eWhiteP a p e r :TheQ u a l i t yDataWarehouse‑SAVINGTHEANALYTICALNEEDS OFTHEMANUFACTURINGENTERPRISE‑.SASI n s t i t u t eI n c . 脚注 製鋼、圧延工程の中間製品のひとつ。大型の鋼片。角形の断面をもつもの。 金属の車鉛などを高温(約 4200C) で溶かしためっき樽の中に前処理した鋼材を侵漬させ、 鉄表面金属の被膜形成させる防錆加工技術の一種。 1 2 ‑584

563.

ポスターセッション グラフィック

564.

日本 S A Sユーザー会 (SUG I-~) スピログラフを再現しよう ‑GIFANIMOeviceO r i v e rを用いたアニメーション図形の作成ー 長谷川要 キリンビール株式会社 医薬カンパ二一 開発本部開発推進部臨床データ統括担当 Replaythec y c i o i danimationbyusingGIFANIMDeviceD r i v e r KanameHasegawa C l i n i c a lDataManagement& B i o s t a t i s t i c sGroup t . DevelopmentCoordinationSection,DevelopmentDep PharmaceuticalD i v i s i o n,K i r i nBreweryCo.,L td . 要旨 スピログラフとは、歯車のついた固定定規と可動定規からなりたっている。可動定規にはペンを差し 込む穴があいており、ペンを可動円の穴に入れて回転させると棟々な幾何学模棟が描画される。これ らスピログラフは数学的にはサイクロイドという名称で知られている。本論文では、 SAS/GRAPHを利用 して、サイクロイド、図形をコンビュータ上で再現する方法について紹介する。 SAS/GRAPHには多種多様な G r a p h i c sD e v i c eD r i v e rが用意されている。今回対象とする図形のよう に、動的に表示したほうが図形が完成するまでの過程を見ることができて都合のいい場合がある。この ように、動的に表示させるための手段のーっとしてアニメーションによる表示が考えられる。 SAS/GRAPHにはアニメーション図形を作成するために、 GIFANIMDeviceD r i v e rが用意されている。 r i v e rを用いたアニメーション図形 本論文では、サイクロイド図形の原理の紹介と、 GIFANIM Device D の作図方法を紹介する。 キーワード: サイクロイド、アニメーション、 GIFANIM、GPLOTプロシジャ 1 . スピログラフの原理 スピログラフは、歯車のついた円形の穴の空いた固定 定規の内側に、ベンをさした円形の可動定規を回転させ ることにより、図 lに示すような幾何学模様を作成するため の道具として昔から知られている。原理は簡単であるが、 円形の可動定規の大きさや、ベンの差し込む位置を変え ることにより、様々な異なる幾何学模様が作成できる。 これらの図形の軌跡を数学的に表現するための一連の 計算式は、サイクロイド(内トロコイド)としづ呼び名で定義 された単純な計算式が知られている 1)。図 2に示すように、 半径 aの円 Aに沿ってその内側を、半径 bの円 Bが滑る ことなく回転する際に、半径 bの円の中心から C の距離に x, y )とすると、各々の座標 ある点 Pの描く軌跡の座標を ( 図 1.スピログラフの作図例 υ ︒内U ︑ ﹁

565.

の値は以下の式によって与えられる c ベ 千 円A x=α (一時o s ( θ ) + ー ベ 子 工 y= ( α ‑ b ) s i n ( θ ) 図2 .サイク口イド図形の定義に必要な模式図 θ ) θ ) 式.点 Pの軌跡座標の計算式 この数式用い、 α、b、c(こ定数を代入し、さらに回転角 θの値を少しずつ変化させることにより、軌跡 Pの座標を順次計算することができる。現実の世界では、 cの値は円 Bの内側にしか存在できないため、 cの取り得る値は c<bと制約されるが、コンピュータ上で、は C と bでも計算を行うことが可能であり、スピ ロク守ラフ作図用の定規で、は描画不可能な図形も作図可能となる。 なお、出発点から描画を開始し、元の出発点に戻るためには、条件により θに与える角度の範囲が異 なります。円 A、円 Bの半径 a、bの比を m= p/qとしたときに、 θに与える角度(ラジアン)は以下の通 りとなります。 m . 5θ: 5 /1lが整数の場合、 0: . /1lが有理数の場合、 0: 5θ: 52 q;r • mが無理数の場合、どんなに計算しても元の出発点に戻れません。 2 . スピログラフの作図 前述した計算式に従いスピログラフの作図を SASを用いて試みる。もともとスピログラフは、ベンを可動 円の穴に差し込み、ベンを回転させ軌跡を書きながら順じ現れてくる図形を見て楽しむ要素も含まれて いる。そのため今回 SASを用いたスヒ。ロク、、ラフの作図にあたっては、完成した図形を静止画として表示さ せるのではなく、出来上がる過程を楽しむために動画アニメーションで、表示することを試みた。幸い、 SAS のG r a p h i c sO e v i c eO r i v e rにはアニメーション図形の作成に適した GIFANIMO r i v e rが用意されており、 これを用いることにより GIFアニメーションファイルが容易に作成できることからこの機能を利用することと した。 C ;I FANIMD e v i c eO r i v e rの利用にあたっては、 GOPTIONSステー卜メントで指定を行うことに利用が可 e v i c eO r i v e rの利用方法についてその手I I 員以 Jを示す。画面上に表示させ 能であるu 表 lに GIFANIMO る場合の手順とは異なりゃや煩雑であるが、作図部分に用いるプロシジャなどは画面上に表示するもの 5 8 8ー

566.

を変更せずにそのまま用いることができる e 作図を行うプログラムは、描画に必要なノミラメー夕、すなわち円 Aの 半 径 a、円 B の 半 径 b、ベンの 位置 C 及 び Oの計算範囲とする角度 t(0壬 O壬 fπ)を指定するだけで作図できるようにマクロプログラム を作成した。グラフ作図にあたっては、 SAS/GRAPH ソフトウエアが提供する GPLOT プロシジャの A¥!NOTATEステートメントの機能を用いることとした。表 2に今回作成したプログラムを示す。プログpラム 中の %cycloidマクロのパラメータを変化させることにより様々なサイクロイド、図形の作成が可能となる。 表1 .GIFANIMDeviceD r i v e rの 利 用 手 順 GOPTIONSで GSFMODE=REPLACEを指定して、新規の . G I Fファイルを作 処理開始 成する指定を行う。既にファイルが存在する場合には上書きされる。 GPLOTプロシジャ等のグラフ作成プロシジャにより作 図処理を行う。 作図追加前処理 2枚目以降の作図を行う場合は、 GOPTIONSで GSFMODE=APPENDを指定する。 最後のフレームの作図を行う前に、 .GIF アニメーションファイルの終了コー ド( ' 3 B ' x ) を追加させるために、 GOPTIONSで GEPILOG='3B'xを指定する。 最後の作図 . サイク口イド図形作成のための SASプログラム 表 2 *‑‑ーーー GIFANIM ドライバーにより作成される .GIFファイルの出力先を設定; filename giffile 'd:¥gifanim.gif'; *任意のファイル名を指定する。; *ーーー‑‑作図前処理に用いるマクロ; もmacro initgif; goptions reset=all; goptions device=gifanim gsfname=giffile gsfmode=replace gcopies=O gwait=25; もmend; * P.‑ 司町四作図追加前処理に用いるマクロ; もmacro outgif; goptions gsfmode=append; nHd oO R υ

567.

主mend; 会ーーーーー作図終了時の処理に用いるマクロ; 主macro endgif; goptions gepilog='3B'x; 主mend; 会ーーーーーサイクロイド図形作成用マクロ; 会入力引数; 会 a: 外側の円の半径; * b: 内側の円の半径; * c: ペンの位置。内側の円の中心からの距離; * t: 計算範囲とする角度 (O~至。壬 tπ) *, . 主macro cycloid(a.b.c.t); 主工巴 t pi=3.1415926535; 主工 et pitch=lOO; * GIFアニメーションファイルのフレーム数; 主do loop=O 主to &pitch; *ー ーーサイクロイドの座標演算; data cycloid; a=&a; b=&b; c=&c; xsys='2'; ysys='2・; do th=O to &t*&pi/&pitch*&loop by &pi/&pitch; x=(a‑b)*cos(th)+c*cos((a‑b)*th/b); y=(a‑b)*sin(th)ー c*sin((a‑b)*th/b); if th=O then do; function='MOVE官; output; 巴 nd; else do; function='DRAW'; output; end; 巴 nd; run; *ーーーーーグラフ作成に用いる外枠の座標を含むダミーデータ; data flame; x=‑200; y=‑200; output; x=200; y=200; output; run; 5 9 0一

568.

*ーーーーー出力設定; もif &loop=O 者then もinitgif; もelse もoutgif; もif &loop=&pitch もthen もendgif; *ー・ーーー作図処理; proc gplot data=flame; plot y*x/annotate=cycloid haxis=axisl vaxis=axisl; axisl length=10cm; *軸の長さを設定; symboll v=none; *シンボルを無印にする; run; quit; 告e nd; もmend; *ーーーー‑作図処理; 主cycloid(100,40,55,4); 3 . 作図例 表 2に示したプログラムの実行により作成された GIFアニメーションファイル(牢 . g i f )は 、 GIFアニメーシ ョンファイルの表示が可能なソフト(例えば、 InternetExplorer等)で表示することができる。図 3(こ各種パ ラメータ設定により作成された作図例を示す。 . , . , 4 . おわりに 本論文で作成したサイクロイド図形はスピログラフと呼ばれる定規の再現を目指し、円 A の内側を円 Bが転がる際の軌跡を作図した。一方、円 Aの外側を円 Bが転がる際の軌跡に関しては外トロコイド、と 呼ばれており、今回の論文発表で、は例示しなかったが、内トロコイド、の数式を少し変形させるだけで、容易 phd q u よ ‑

569.

に計算できることが知られている。 今回の図形のように動画アニメーションを用いて表示したほうが都合のよい場合もあるが、 SAS では動 画アニメーションファイル作成用の GIFANIMDeviceD r i v e rが用意されており、容易に作成することが可 能である。今後、この機能を更に活用できる場面を検討したい。 5 . 参考文献 1 ) 関数グラフィックス.糸岐宣昭.森北出版株式会社 1 9 9 8 . 2 ) GIFANIMD e v i c eD r i v e r :A n i m a t i o nP r o c e s s .WebT e c h n o l o g i e s .SASI n s t i t u t eI n c . h t t p : / / w w w . s a s . c o m / r n d / w e b / i n t r n e t /d r i v e r/GIFANIM/process.html 3 ) GIFANIMD e v i c eD r i v e r :C o n t r o l s .SASHomepage.WebT e c h n o l o g i e s .SASI n s t i t u t eI n c . ' l ¥ v w . s a s . c o m / r n d / w e b / i n t r n e t / d r i v e r / G I FANIM/c o n t r o l s . h t m l h t t p : / h ベ PHリファレンスガイド、 R e l e a s e6 . 0 3E d i t i o n .SAS出版局 1 9 9 0 . 4 ) SAS/G九 u 叫d ︐ っnυ ︑ 戸

570.

日本 S A Sユーザー会 (SUG I‑J) SASANNOTATEMACROを用いたグ、ラフの作成 0竹 田 轟 w 佐藤智美* 株 式 会 社 CRCソリューシヨンズ /CRO業 務 部 統 計 解 析 チ ー ム *関西支社,付東京本社 TheGl'aphPl'ogl'ammingbySASANNOTATEMACRO MakotoTakeda TomoyoshiS a t o CRCS o l u t i o n sC o r p . CRODepartmentDataManagement& B i o s t a t i s t i c sS e c t i o n 要旨 市販の藷十算ソフトなどl こよるグラフの{間割問こ簡易で、机者でも容易に棚田る居、繍 な作り込みをしたい時などにはその為の充分な機能が提供されていないことが多い。その点、 S品IGR~H ソフトウェアです眉地れ刀、る ANNσrATE MACROはテーラーメイド自恰一晶モノのグ ラフを悦なければし、けなし、プログラマにとって非常に剖島、ツールであるc 今回はこの ANNσr A ' : 四 MACROを』咽吏したグラフの僧胡月こついて紹介する。 キーワード: SAS/GRAPHソフトウェア、 ANNOTATEMACRO 1.はじめに 当社は情報処理企業であるが、臨床試験に関わるデータマネージメントや統計解析処理、 モニタリングといった CRO( 開発業務受託機関)業務のサービスも提供している。 1 0年前、*ス卜コンヒ ュータで、作成していた症例一覧表やグラフも 1993年にマイクロソフト社 G よ り WindowsOSとO f f i c eアプリケーションが発売されて以来、その品質と作成効率はドラス ティックに向上した c 特に表計算ソフトにおけるグラフ機能の充実は著しく、プログ'ラミング の 知識を有しない担当者でも容易にグラフ作成が可能となった O しかしながら、これらのソフトは操作が簡易な分、拡張性に乏しく、クライアントからの細かい 品 GRAPHソフトウェアで提供されている 要望に応えるにはやや物足りない。その点 S ANNσrATE MACROはプログラマが自由自由こ「お樹齢」がt 映る非常に強力以ーノレである。 本稿ではこの ANN 白血'E MA , CROを,明吏したグラフの僧都X r こっして招介する。 2 .ANNOTATEMACRO(アノテートマクロ)について ANNOTATE 機能とは S地IGR~H ゾフトウェアから掴共されて九、るグラフに註芳荘内 tt:.VJ 、独自 nHu にd つd︐

571.

のグラフを生成する機旨である。 ANNσrATE機旨を{あことによりプロシジャでイ骨戎されるグラフ以内こ自 由にテキス!を表牙させたり、ラインを引くことが仕凍る。 ANNσE 姐'EMACROとはそのテキストを表示し たり、ラインをヲ│いたりする機昆マクロとして掴其してしももので去泊c 3 .ANNOTATEMACROの読み込み方法 ANNOTATEMACROを利用するには、あらかじめ ANNOMACMACROを実行してお く必要がある。このマクロは自動呼出しマクロライブラリに登録されているため、プログラムの 冒頭で以下のように指定するだけで実行される。 % A N N O M A C ; 4 .ANNOTATEMACROの種類 ANNOTATE MACROには以下の種類が提供されており、その詳細は % H E L P A N O(任意の ANNOTATE刷 CRO喜); を実行することでログ画面に表示される。 当社ではこのうち %DCLANNO, %SYSTEM, %LINE,%LABELの 4つを頻用している。 Annotateマクロ %BAR(xl , y1 , x2, y2,色,パータイプ,パターン); %CIRCLE(xl, yl,半径,色); %CNTL2TXT; %COMMENT( テキス卜); %DCLANNO; y l .色,ラインタイプ,線の太さ); %DRAW(xl, %DRAW2TXT( 色,ラインタイプ,線の太さ); %FRAME( 色,ラインタイプ,線の太さ,パターン); %LABEL(xl.yl.テキス卜,色,基線の角度,文字の回転角,高さ,フォント,位置); %LlNE(xl.yl.x2.y2.色,ラインタイプ,線の太さ); %MOVE(xl.yl); 角度,乗数); %PIEXY( %POLY(xl.yl.色,パターン,ラインタイプ); %POLYCONT(xl.yl, 色 ) ; %POP; %PUSH; %RECT(xl.yl.x2, y2,色,ラインタイプ,線の太さ); %SCALE( 変換したい x座標,変換したい y座標 . x O . y O . x l . y l,vx O .vy O .vx l .vy l ) ; %SEQUENCE( 時期); %SLICE(xl.yl.開始角度,回転角,半径,色,パターン,スライスタイプ); %SWAP; %SYSTEM(xs.ys.hs); %TXT2CNTL; 5 9 4一

572.
[beta]
5
.ANNOTATEデータセットの指定方法
ANNOTATEデータセットは以下のように指定する。
│
l
1SAS‑[PROGRAMEDITOR‑PGM01sas
回 ;
7
イル(E)編集(f̲) ピ
ュ
ー(
I
f
) ローカル江} 知哨つ~(g_) わちョン(QlウィY門 担

ヒI

瞳回隠│

ヘ
j
レア印

ニ且L
剖

こ]~旦足直i 呈凶川副団i 叶盛恒1 :
'
J
J
出回i

コマンド=>

0
0
0
0
1 *一一一一一一
一一
0
0
0
0
2*
S
U
G
I
‑
j 2002~命文掲載用プログラム
;
0
0
0
0
3*
0
0
0
0
4 P
r
o
g
r
a
mト
J
a
m
e
:P
G
M
O1.
S
A
S
0
0
0
0
5
0
0
0
0
6
'
0
2
/
0
5
/
1
8
0
0
0
0
7
M
.
T
A
K
E
D
A
0
0
0
0
8 *ー
0
0
0
0
9%
A
N
N
O
M
A
C
;
I
0
0
0
1
0
0
0
0
1
1D
A
T
AA
N
O
;
* ①ANNOTATE変数の長さ及びデータタイプの指定本/
0
0
0
1
2%
D
C
L
A
N
N
O
;1
0
0
0
1
3 %
S
Y
S
T
E
M
(仁 4
. 4)
;1
*②出力領域の指定本/
0
0
0
1
4 L
E
N
G
T
HT
E
X
T$
8
0
; 1
*③ TEXT出力の際の あ、まじない " *
1
0
0
0
1
5 %
L
A
B
EL
(7
0
.
0
.3
0
.
0
."
C
R
CS
o
l
u
ti
o
n
sC
o
r
p
.
".
B
L
A
C
K
.
0
.
0
.
5
.
0
.
S
W
I
S
S
BI
.5
)
;
0
0
0
1
6 1
*④TEXT"
C
R
CS
o
l
u
ti
o
n
sC
o
r
p
.
"
の表示を行う *
1
0
0
0
1
7 %
L
I
N
E(
2
0
.
0
.2
6
.
0
.1
2
0
.
0
.
2
6
.
0
.
B
L
A
C
K
.1
.
5
)
;1
*⑤アンダーライン (
1本目)を号 l
く *
1
0
0
0
1
8 %
L
I
N
E(
2
0
.
0
.2
5
.
0
.1
2
0
.
0
.
2
5
.
0
.
B
L
A
C
K
.1
.
5
)
;1
*⑤アンダーライン (
2本目)を号 l
く *
1
0
0
0
1
9R
U
N
;
0
0
0
2
0
;
R
U
N
;
O
U
I
T
; 1
*ANNOTATEr、
み
セ
ッ
ト:
A
N
Oを表示 *
1
0
0
0
2
1P
R
O
CG
S
L
I
D
EA
N
N
O
T
A
T
E
=州 O
0
0
0
2
2
0
0
0
2
3
0
0
0
2
4
0
0
0
2
5
0
0
0
2
6
0
0
0
2
7
0
0
0
2
8
0
0
0
2
9
f
)
f
)
f
)
守n

*
*
*
*

w

NOTEテキストを 2
1行保存しました.

①まず %DCLANNOで ANNOTATE変数の長さ及びデータタイプが指定される。
②次l
こ%SYSTEMでは表示するテキストやラインの座標系をそれぞれ X座標, Y座標、 Z
座標別に指定する。一般的にスクリーン領域の場合は "
4
",プ口、ンジャのデータ領域の場
合は "
2
"と覚えておけばよい。
③ %LABELでテキストを表示する時の"おまじない'二複数のテキストを表示させたい場合、
表示テキストの長さは、最初のオブ、ザベーションの長さに依存してしまう為、表示切れを
防ぐためにはこのようにあらかじめ長さを指定しておくとよい。 (
8
0以上も可 c )
④表示したい TEXTの内容と出力位置、フォントなどを指定する C
⑤、⑤「④」で指定した TEXTの下にアンダーラインを号│く。

以上の ANNOTATEデータセットを GSLIDEプ口、ンジャで、表示すると次の結果となる。

υ

ハwd

‑D

︑
‑

573.
[beta]
フH品
(
E
̲
)

*
賓 V t'3-世由-)).\.(lJ

日

四-^~也)

.
!
,
;
:
,
.

.
r
:
;,
'
:
"
1
Q1 '
lf/l‑勺""べ日哩
T

ヨ到w 到主温j~ 金i
̲!nIX

J

CRC5
0
/
1
ぱi
onsCorp.

J

.
.
図,.GSLIDEプロシジャによるデータセット ANO.sd2の出力
~,

6
.ANNOTATEMACROによるグラフ作成例
続いて SAS/GRAPHプロシジャの出力上に ANNOTATE MACROで情報を付加する例を
紹介する c 今、下記のような背景因子別の劃作用発現率とその正確な 95%信頼区聞が求め
られていたとする。この表の 95%信頼区間を図示するプログラムを以下に示すc
尚、統計量はあらかじめデ、ータセット :CRC.sd2に求められているものとする。
表 1 背棄因子別副作用発現率一覧
総症例数
'性別

男
女

年齢

6
4歳以下
6
5歳以上

入院・外来

入院
外来
入院特外来

合併症

鑑

有

併用薬

鉦

有

6
5
4
5
74
3
6
7
5
1
1
24
4
1
6
9
4
9
6
1

副作用発現例
症例数
発現率

1
2
5
7
1
0
1
1
2
4
4
1
3
5
1
2

~596

1
8
.
5
%
1
1
.
1
%
9
.
5
%
2
7
.
8
%
1
4
.
7
%
1
8
.
2
%
1
6
.
7
%
9
.
8
%
1
8
.
8
%
1
0
.
2
%
1
9
.
7出

正確な9
5
%
信頼区間
下限
上限

9
.
9
%
3
.
7
%
3
.
9
%
1
4
.
2
%
7
.
6
%
2
.
3
%
4
.
7
%
2
.
7
%
1
0.
4
%
3.
4
%
1
0
.
6
%

3
0
.
0
%
2
4
.
1
%
1
8
.
5
%
4
5
.
2
%
2
4
.
7九
5
1
.
8
%
4
%
3
7.
2
3
.
1
%
3
0
.
1
%
2
2
.
2
%
3
1
.
8
%

574.
[beta]
.
1ロZ
x
l
二盗j
王l

邑司a~[tllll耳目E山唱

ロ
フHル<D III民俗 t'" (0 問 ずが目 的.StsY(Q)今川勺喧 へ日・坦
1‑

B

2

ヨ三j ♀出国j 盆凶且 i 叫~同池辺J2出回j

.

統
コ
計
マ
量
ム
ノ
デ
ド
ー
,
)
ヲE
セ γ ト 口紅s&
I
T
8
1
1

使lS

3
2
4
5
8
7
8
g
1
0
1
1

2
2
3
3
3
4
4
5
5

品E
H

m舵

凶反L1

g
A
笠
庄
x
X

3
i
富 i
庄
I
J
J
T
A
H

倒
語
語

3
つ
4
5
8
7

凶反L2

1
2
盟
狂
易

s

9
1
0
1
1

有
富
呈

T
O
T
札
6
5
4
5
7
4
3
7
6
5
1
1
2
J
4
1
6
9
4
9
6
1

N

陀別

L
C
淵

H
I剖

1
2
5
7
1
0
1
1
2
4
4
1
3
5
1
2

1
8
.
5
1
1
.1
9
.
5
2
7
.
8
1
4
.
7
1
8
.
2
1
6
.
7
9
.
8
1
8
.
8
1
0
.
2
1
9
.
7

9
.
9
3
.
7
3
.
9
1
4
.
2
7
.
6
2
.
3
4
.
7
2
.
7
1
0
.
4
3
.
4
1
0
.
6

3
0
.
0
2
4
.
1
1
8
.
5
4
5
.
2
2
4
.
7
51
.8
1
.
4
3
2
3
.
1
3
0
.
1
2
2
.
2
31
.8

,.

.
1
-'D~5-ð$

統計量データセット :CRC.sd2の出力

‑グラフ作成プログラム例
LIBNAMESSD"D¥SUGI‑
J
2
0
0
2
"
;

,

オ
k

/
*ANNOTATEMACROの
I
l
、F
び出し打

%ANNOMAC;
DATACRC;SETSSD.CRC;RUN;〆統計量データセットの読み込みり
戸レイアウト作成大/

DATAANOl
:
LENGTHTEXT$
8
0
;
%DCLANNO;
;
%SYSTEM(444)
%BAR(1
01
53680,
YELLOW
,
3,
S
)
12870,
YELLOW
,
3,
S
)
%BAR(3680,
%レ¥BEL(1
0
.
08
2
.
0"表l.背景因子別面J
I作用発現率一覧", BLACK
,
002
.
0,
MINCHO,
6
)
;
%LABEL(4l
.07
5
.
0"総症例数" ,
BLACK,
002
.
0,
MINCHO,
5
)
;
%LABEL(5l
.07
2
.
5"症例数"
,
BLACK,
O,
O,
l
.8,
MINCHO,
5
)
;
%LABEL(6l
.07
2
.
5"発現率"
,
BLACK,
O,
O,
l
.8,
MINCHO,
5
)
;
6
.
07
7
.
5"副作用発現例", BLACK,
002
.
0,
MINCHO,
5
)
;
%LABEL(5
%LABEL(9
7
.
07
7
.
5"正確な 95%信頼区間", BLACK,
002
.
0,
MINCHO,
5
)
;
%LABEL(7
7
.
07
2
.
5"ド限
上限", BL
t
¥CK,
002
.
0,
MINCHO,
5
)
;
%LABEL(1
2
8
.
01
0
.
0"
(
%
)
",
BLACK,
002
.
0,
SWISS,
5
)
;
大ー

%LINE(10151281
5,
BLACK,
13
)
;
%LINE(108012880,
BLACK,
13
)
;
151080,
BLACK,
13
)
;
%LINE(1012880,
BLACK,
13
)
;
%LINE(12815,
女ー

5
9
i

575.

%LINE( 1 0, 25, 128, 25, BLACK, 1 , 3 ) ; %LINE( 1 0, 35, 128, 35, BLACK, 1 , 3 ) ; %LINE( 1 0, 50, 1 2 8, 50, BLAC, K1 , 3 ) ; %LINE( 1 0, 60, 128, 60, BLACK, 1 , 3 ) ; 70, 1 2 8, 70, BLACK, 1 , 3 ) ; %LINE( 1 0, 常ー %LINE( 2 2, 1 5, 22, 70, BLACK, 1 , 3 ) ; %LINE( 3 6, 1 5, 36, 80, BLACK, 1 , 3 ) ; %LINE( 4 6, 1 5, 46, 80, BLACK, 1 , 3 ) ; %LINE( 5 6, 1 5, 56, 75, BLACK, 1 , 3 ) ; %LINE( 6 6, 1 5, 66, 80, BLACK, 1 , 3 ) ; 常・ %LINE( 2 2, 20, 1 2 8, 20, BLACK, 1 , 1 ) ; 30, 1 2 8, 30, BLACK, 1 , 1 ) ; %LINE( 2 2, %LINE( 2 2, 40, 128, 40, BLACK, 1 , 1 ) ; %LINE( 2 2, 45, 1 2 8, 45, BLACK, 1 , 1 ) ; 55, 1 2 8, 55, BLACK, 1 , 1 ) ; %LINE( 2 2, %LINE( 2 2, 65, 1 2 8, 65, BLACK, 1 , 1 ) ; 常・ %LINE( 4 6, 75, 128, 75, BLACK, 1 , 3 ) ; 金・ %SYSTEM(2,2,4 ) ; 0 . 5, 20, 1 1 .5, GREEN, 1 , 3 ) ; %LINE( 2 0, 0 . 5, 40, 1 1 .5, GREEN, 1 , 3 ) ; %LINE( 4 0, 0 . 5, 60, 1 1 .5, GREEN, 1 , 3 ) ; %LINE( 6 0, %LINE( 8 0, 0 . 5, 80, 1 l. 5, GREEN, 1 , 3 ) ; 安・ %LINE( 1 0, 0 . 5, 1 0, 0. 4 , BLACK, 1 , 3 ) ; %LINE( 2 0, 0 . 5, 20, 0 . 3, BLAC, K 1, 3 ) ; %LINE( 3 0, 0 . 5, 30, 0. 4 , BLACK, 1 , 3 ) ; %LINE( 4 0, 0 . 5, 40, 0 . 3, BLAC, K1 , 3 ) ; %LINE( 5 0, 0 . 5, 50, 0. 4 , BLACK, 1 , 3 ) ; 0 . 5, 60, 0 . 3, BLAC , K1 , 3 ) ; %LINE( 6 0, %LINE( 7 0, 0 . 5, 70, 0. 4 , BLAC , K 1, 3 ) ; 0 . 5, 80, 0 . 3, BLAC, K1 , 3 ) ; %LINE( 8 0, 常・ %LABEL(20.0 ー,0 . 1, " 2 0 . 0 ", BLACK, 0, 0, 2 . 0, SWISS, 5 ) ; %LABEL(40.0 ー ,0 . 1, " 4 0 . 0 ", BLACK丸 0, 2 . 0, SWISS, 5 ) ; %LABEL(60.0 ・ ,0 . 1, " 6 0 . 0 ", BLACK, 0, 0, 2 . 0, SWISS, 5 ) ; %LABEL(80.0 ー,0 . 1, " 8 0 . 0 ヘBLACK, 0, 0, 2 . 0, SWISS, 5 ) ; %LABEL(90.0 ー ,0 . 1, " ( % ) ", BLACK, 0, 0, 2 . 0, SWISS, 5 ) ; 常・ RUN; 戸項目名出力り DATAAN02;SETCRG; KEEPLABEL1ITEM2; BYITEM1ITEM2; . ITEM1THENOUTPUT; IFFIRST RUN; , 女・ Fhd nMU q u

576.

DATAAN02;SETAN02; LENGTHTEXT$ 8 0 ; %DCLANNO; ; %SYSTEM(4,2,4) , ITEM2, LABEL1, BLACK, 0, 0, 2 . 0, MINCHO, 6 ) ; %LABEL(11 RUN; 戸データのtU力打 * . DATAAN03;SETCRC; LENGTHTEXT$ 8 0 ; * . , ARRAYIN1 TOTALN ; ARRAYOUT1$2TOTAL̲Nー ・ DOOVERIN1;OUT1=PUT( IN1, 2 . ) ; E N D ; 女 ・ ARRAYIN2 PCTN LO ¥ 司1 HIGH; 司 1 HIGH ; ARRAYOUT2$6PCTN̲LO¥ DOOVERIN2;OUT2=COMPRESS(PUT( IN2, 6 . 1 )I I "%");END; %DCLANNO; %SYSTEM(4,2,4 ) ; %LABEL(23, ITEM2, LABEL2, BLACK, 0, 0, 2 . 0, MINCHO, 6 ) ;〆カテゴリー名出力士/ %LABEL(41, ITEM2,TOTAL̲, BLACK, 0, 0, 2 . 0, SWISS, 5 ) ; 戸総症例数出力士/ %LABEL(51, ITEM2,N一 , BLAC , K0, 0, 2 . 0, SWISS, 5 ) ; 〆副作用発現例数出力 %LABEL(61 , ITEM2,PCTN̲, BL 主CK , 0, 0, 2 . 0, SWISS, 5 ) ; 〆副作用発現率出力り %LABEL(71, ITEM2,LOW̲ , BLACK, 0, 0, 2 . 0, SWISS, 5 ) ; /*信頼区!日J(下限)出力打 %LABE L( 77 , ITE1VI2 ,"~" , BLACK, 0, 0, 2 . 0, MINCHO, 5 ) ; 〆 I~J 出力~ %LABEL(83, ITEM2,HIGH̲, BLACK, 0, 0, 2 . 0, SWISS, 5 ) ; 〆信頼区間(上限)出力 女 %SYSTEM(2,2,4) ; ITEM2, HIGH, ITEM2 , BLACK,1 , 3 ) ; 〆 95%{ 言煩区間の図示 %LINE(LOW, %LINE(LOW, ITEM2‑.1, LOW, ITEM2+.1, BLAC , K1 , 3 ) ; ITEM2‑.1, HIGH, ITEM2+.1, BLACK,1 , 3 ) ; %LINE(HIGH, RUN; , * DATAANO;SETAN01AN02AN03;RUN; 女ーーーーーーーーーーーーー・・・ー・・・・・・ーー~ ̲.‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑ー・・・・・・ーーーー・ー・・・ーーーーーーー , FILENAMEGSASPRINTER;大 /C anonL i p sP r i n t e r用 設 定 GOPTIONSRESET=ALLDEVICE=WINTARGET=LIPS3A4GSFMODE=REPLACE 司 1 HI T E ; ROTATE=LANDSCAPECBACK=¥ . , PROCGPLOTDATA=CRCANNO=ANO; 〆点指定値のプロットり 女ー・ー・ー・ー・・・・・・・・・・ー・ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー PLOTITEM2 PCTN /NOLEGENDVAXIS=AXIS1HAXIS= A . ,' G S 2 ; . 0 C=BLACK I=NONE; SYMBOL1V=DOTHニ2 AXIS1LABEL=NONE OFFSET=(O, O )ORIGIN=(88, 1 5 ) MINOR=NONE MAJOR=NONE LENGTHニ60 C=BLACK 万IDTH=3 VALUE=NONE ORDER=(U.5TO・0 . 5BY‑ 1 ) ; l AXIS2LABEL=NONE OFFSET=(O, O )ORIGIN=(88,1 5 ) V IAJOR=(W=3H=l .O )LENGTH=40 MINOR=(W=3H=0.5N=l)l 司 lIDTH二 3 VALUE=(FONT=S¥ 司 l ISSH =2.0) ORDER=(OTO100BY2 0 ) ; 1 RUN; QUIT; 大 ‑599一

577.

表 1.背景因子別副作用発現率一覧 正確な 9 5 %信頼区間 副作用発現例 総症伊撤 性別 男 65 症伊撒 発現率 12 18.5% 20.0 上限 一 一 一 一 女 45 5 1 . 1 % 1 3.7% , 、 、 〆 6 4議以下 74 7 9.5% 3.9% , 、 、 〆 一 40.0 60.0 一 一 一 一 一 一 一 一 一 一 24.1% 18.5% 品()C│ 入院・外来 入院 36 10 27.8% 14.2% ' " " 45.2% 75 1 1 14.7% 7.6% , 、 、 〆 l 合併症 1 1 2 18.2% 2.3% 入院←→外来 24 4 16.7% 4.7% ' " " 37.4% 4 1 4 9.8% 2.7% , 、 、 〆 , 、 、 〆 無 一 併用薬 ‑ ー ' • 一 一 一 一 一 一 一 69 13 18.8% 10. 4% 無 49 5 10.2% 3. 4% ' " " 22.2% 19.7% , 、 、 〆 一 一 一 一 一 • 30.1% 1 ・ 一 10.6% 一 • 23.1% 一 12 一 • 一 6 1 ー 一 一 51.8% 有 有 一 • 24.7% 外来 一 ・ 一 , 、 、 〆 一 • 一 一 一 一 一 一 一 一 一 65 議!-~上 80.0( % ) • 9.9% ' " " 30.0% 凶 年齢 , 、 、 〆 下限 31.8% 0 . 0 一 一 • 20.0 40.0 60.0 80.0 1 0 0 . 0 ( % )

578.

7 . おわりに 以上のように ANNOTATEMACROを駆使すればグラフ上で自由自在な表現が可能となる。 今回例示したグラフ以外にも検査値の経時的変化を平均士標準偏差で示すグラフや 1枚に 複数図を掲載したグラフなど様々な作成が可能である。 ちなみに今回のグラフはモノクロ印刷を前提としたもので、あるにも関わらず、フ。ロク。ラム中で、カ , GREEN)指定を行っているのは、色の濃淡によるコントラストを出すためであ ラー (YELLOW る=このように工夫次第でより表現豊かなグラフ作成が可能であり、 ANNOTATEMACRO は プログ、ラマにその手段を提供してくれる誠に有り難いツールである c 参考文献 ISAS/GRAPHリファレンスカ守イド、 R巴i 巴a s巴 6 . 0 3 E d i t i o n J ISAS/GRAPHクイックリファレンス R巴l 巴a s巴 6 . 0 3 E d i t i o n J ‑601ー

579.

‑ 日 本 SASユーザー会世話人会 代表世話人 東京大学 大橋靖雄 副代表世話人 キリンビール株式会社 本川 l裕 世話人 株式会社ベルシステム 24 西次男 株式会社東京三菱銀行 青沼君明 成践大学 岩崎学 コンパックコンビュータ株式会社 坂原将生 神戸商科大学 周防節雄 持田製薬株式会社 舟喜光一 株式会社竹中工務庖 八木章 (2002年年次総会チェアマン) ‑ 日 本 SASユーザー会事務局 株 式 会 社 SASインスティチュートジャパン内 干1 0 4 ‑ 0 0 5 4東 京 都 中 央 区 勝 ど き ト 1 3 ‑ 1 イヌイビル・カチドキ 8F TEL:0 3 ‑ 3 5 3 3 ‑ 6 9 3 6 FAX:0 3 ‑ 3 5 3 3 ‑ 3 7 8 1 E ‑ m a i l :jpnsaswg@sas.com h t t p : / / w w w . s a s . c o m / j a p a n / 第2 1 回 日 本 SASユーザー会総会および研究発表会論文集 2002年 8月 1日 発行 初版第 1刷発行 日本 SASユーザー会 株式会社 SASインスティチュートジャパン