>100 Views
April 21, 25
スライド概要
医薬特別セッション:医薬品開発における統計解析の質評価と保証,解析結果の品質確保-総括 報告書・申請概要書の図表について- 植松弓美子
医薬特別セッション:医薬品開発における統計解析の質評価と保証,統計的原則における盲検下レヴューの経験-解析対象集団選定のプロセス - 堺伸也
医薬特別セッション:医薬品開発における統計解析の質評価と保証,臨床試験データの品質の計 量の試み 松葉尚子
バイアスを減少させるための傾向スコアを応用し た解析事例 長谷川要
社内マクロライブラリの構築について~SASプログ ラムバリデーションに対する試み~ 竹田眞
臨床試験におけるリスクマネジメント 竹内雅子
SASを用いた統計解析統合システムの構築 猪原辰也
SASプログラム情報管理ツール「SPITS」による SASプログラムの管理 梅山正登
大規模SASシステムの構築と運用 衛藤岳弘
IT Service Vision ソフトウェアを使用したパフォー マンス/キャパシティー管理システムの構築 白石哲夫
品質調整済住宅価格インデックス作成システムの 開発 清水干弘
SASによる履歴データ加工とレポーティングの例 題集 東一成
SAS/lntrNet ソフトウェアによる検索アプリケーション構築について 鬼頭拓郎
SAS/Warehouse Administrator ソフトウェァ バージョン2.2によるDWH構築 高橋麗
SAS ODS 出力のカスタマイズ 村山友子
非線型ランダム係数モデルの活用 高橋行雄
分散分析からカイ自乗への接近 新城明久
SAS/IMLによる累積カイ二乗法 原島淳
SAS V.8 における正確な推測とシミュレーションに よる近似法 浜田知久馬
SASによるモンテカルロ・シミュレーション 石塚直樹
SAS/STAT ソフトウェアによるノンパラメトリック回 帰の紹介 小野裕亮
継時測定データの時点毎の多重比較 岸本淳司
缶コーヒー(180ml)の消費特性について~JMPソフ トウェアを活用した分析例として~ 森田麻友美
SASによる平均在院日数の推移の解析 楊学坤
大学マーケティングへのパフモデルの適用 朝野煕彦
オルタナティブ(代替)投資のリスクコントロール- シナリオ相関を考慮したポートフォリオ構築- 西山昇
ハイブリッド・コンポーネントの構築-多数モデル による新しいマイニング- 小野潔
ウェブマイニング-競合優位性への道- "ラーマチャンドラン・スンダレー
サン"
データマイニングにおけるデータ加工 木下貴文
製品分類による顧客セグメンテーションの方法 中西由紀
SASおよびJMPによるハードディスク・ドライブの 生産性と品質の向上 朝日睦
[EXSAS] V6 とツリー型アルゴリズム 山本典子
SASバージョン 8e による非臨床統計解析システ ムの開発 佐々木和典
患者の満足度調査-入院期間の影響について- 田久浩志
東北地方の農村の10年にわたる健康調査より見た生活習慣病の risk factor 豊島裕子
SASシステムと連携したVBA利用によるレポーティング事例 二宮清高
SAS/lntrNetソフトウェアリリース8.2の機能紹介 吉岡厚治
SASデータステップによる Agresti 検定統計量の算出 斉藤佳世
要因配置実験の結果解析のための簡易な入力形 式 柴山忠雄
太陽と地球との関係 堀岡大輔
地方自治体への地理情報システム(GIS)の導入要因の分析-SASシステム及びJMPシステムを用い て- 小田真樹子
データマイニング技法による生活習慣病のリスク ファクター分析法の実際 翟国方
神戸商科大学におけるSASシステムを利用した統 計・情報処理教育の現状と展望 川向肇
SASと医学統計学の学生の評価と教員の評価の 関連性 縣俊彦
大型計算機センターにおける計算機の利用分析 久冨丈志
自然形態をCGで再現しよう-樹木作成- 長谷川要
SAS言語を中心として,解析業務担当者・プログラマなのコミュニティを活性化したいです
第 20回 日 本 SASユーザー会総会 および研究発表会 論文集 2001 年 7 月 26 日(木)~27 日(金)
SASは、株式会社 SASインスティチュートジャパンの登録商標です。 SASSystem、SASSystemを構成するプロダクト群は、 SASI n s t i t u t eI n c . の登録商標です。 その他、本論文集に記載されている会社名、製品名は、一般にそれぞれ各社の商標または登録商 標です。 本論文集の一部または全部を無断転載することは、著作権法上の例外を除き、禁止されています。 本論文集の内容を実際に運用した結果の影響については、責任を負いかねます。
目 次 表一 発一 文‑ A 品開‑ ‑ h ‑薬 一旦医 1. 医薬特別セッション:医薬品開発における統計解析の質評価と保証 解析結果の品質確保一総括報告書・申請概要書の図表について‑...・ ・ . . … 3 H 植 松 弓 美 子 (日本口シュ株式会社〕 高橋行雄 淡路直人 高 田 克 也 (住商情報システム株式会社〕 統計的原則における盲検下レヴューの経験……………………...・ ・..…… 1 1 ‑解析対象集団選定のプロセスー H I 界(申也 高橋行雄 片岡正彦 (イー・ピー・工ス株式会社〕 (日本口シュ株式会社〕 (富山化学工業株式会社〕 臨床試験データの品質の計量の試み……… ・ … . . . ・ ・‑……・……・・………・ 1 9 υ 松葉尚子 山本祐三 片岡正彦 高橋行雄 H (イー・ピー・工ス株式会社〕 (富山化学工業株式会社〕 (日本口シュ株式会社〕 バイアスを減少させるための傾向スコアを応用した解析事例・・・・・…・・・・・・…・…… 2 9 長谷川要 (キリンビール株式会社〕 社内マクロライブラリの構築について…ー・……………………一......……………・ 3 7 ‑SASプログaラムバリデーションに対する試み 竹 団 長 (株式会社 CRC総合研究所〕 佐藤智美 臨床試験におけるリスクマネジメントー・ー・……・・・……ー・……一‑一……・・・…....... 4 5 竹内雅子 肥田英明 田崎武信 (塩野義製薬株式会社〕 SASを用いた統計解析統合システムの構築………・・……・…一…………・…・・…. 5 5 1 吉原辰也 (大正製薬株式会社〕 松下勲 水井信夫
SASプログラム情報管理ツール r S P I T S Jによる SASプログラムの管理 … . . . ・ ・6 1 υ H (日本ケミファ株式会社〉 侮山正登 野村豊 @システム 大規模 S ASシステムの構築と運用...・ ・‑……………...・ ・ . . . . . ・ ・ . . . . ・ ・..……. 7 3 (サン・マイクロシステムズ株式会社〉 松下正之 H H H H 衛 藤 E弘 汀 S e r v i c eV i s i o nソフトウェアを使用した...・ ・ ・・‑………………...・ ・‑……… 8 1 パフォーマンス/キャパシティー管理システムの構築 白 石 哲 夫 (0 & 1情報システム株式会社〉 H H H H 品質調整済住宅価格インデックス作成システムの開発…...・ ・‑………………… 9 1 (株式会社リクルート〉 H 清水干弘 早川信也 篠津和夫 (住商曙報システム株式会社〉 SASによる雇歴データ加工とレポーティングの例題集・・……………...・ ・ ・ ・ . . .1 0 1 (株式会社 SASインスティチュートジャパン〉 H H H 東一成 S A S / l n t r N e tソフトウェアによる検索アプリケーション構築について……………… 1 1 1 (株式会社 SASインスティチュートジャパン〉 鬼頭拓郎 S A S / W a r e h o u s eA d m i n i s t r a t o rソフトウェア ー・・・…….......一・・・・・・・・・…一‑……・・・・ 1 2 1 パージョン 2 . 2による DWH構築 高 橋 麗 (株式会社 S ASインスティチユートジャパン〉 SASODS出力のカスタマイズ…一…...・ ・..………...・ ・‑……...・ ・‑…………. 1 3 1 (株式会社 SASインスティチュートジャパン〉 H H H 村山友子 @統計 非線型ランダム係数モデルの活用………...・ ・...…ー……………………………・ 1 4 3 (日本口シユ株式会社〉 s 高橋行雄 分散分析から力イ自乗への接近一………………...・ ・..…………………………・ 1 5 3 H 新城明久 (琉球大学〉 SAS 八M Lによる累積力イ二乗法…...・ ・‑…………・・……………………………・ 1 5 9 原 島 淳 (株式会社 S ASインスティチユートジャパツ〉 H 1 1
@統計(チュートリアル) SASV . 8における正確な推測とシミュレーションによる近似法…………………… 1 6 5 浜田知久馬 (京都大学〉 SAS によるモンテカルロ・シミュレーションー・・・ー・….........・一一....…・・・…一........ 1 8 9 (国立がんセンター研究所〉 石躍直樹 SAS/STATソフトウェアによるノンパラメトリック回帰の紹介……口………………・ 205 小 野 裕 亮 (株式会社 SASインスティチユートジャパン〉 小玉奈津子 泉水克之 継時測定データの時点毎の多重比較………...・ ・‑・……………………...・ ・ . . 219 岸 本 淳 司 (株式会社 SASインスティチュートジャパン〉 H H 小野裕亮 @調査・マーケティング 缶コーヒー(1 8 0 m l )の消費特性について・・………....・ ・..........…・……ー・…… 229 ‑JMPソフトウェアを活用した分析例として H 森田麻友美 (慶応義塾大学〉 SAS による平均在院日数の推移の解析...・ ・‑…………一……………・……… 239 H 楊 学I 申 ( j l買天堂大学〉 今井嘉正 大島純子 0 1 買天堂医院〉 小島茂 佐 藤 伸 一 (順天堂大学〉 江原義郎 大学マーケティングへのハフモデルの適用・・……....・ ・..………..,・ ・‑……… 2 4 7 H 朝野県彦 H (東京都立大学〉 4 砂金融 オルタナティブ (代替)投資のリスクコントロールー...・ ・ . . … 一 … . . . ・ ・...…………. 2 59 ーシナリオ相聞を考慮したポートフオリオ構築一 西 山 昇 (朝日ライフアセットマネジメント株式会社〉 H H J、 ィ ブ 、1 )ッド・コンポーネントの構築・・………………………………………………・ ‑多数モデルによる新しいマイニングー (株式会社三和銀行〉 小野潔 269 l l I
@データマイニング戸 ウェブ マイニングー競合優位性への道一……………...・ ・ . . . . . ・ ・ ‑ … … . . . ・ ・ . .2 7 7 H ラーマチャンドラン・スンタレーサン H H (サティヤムコンビュータサービス 1 )ミテッド〉 データマイニングにおけるデータ加工……………ー………...・ ・..………………. 2 8 7 H (抹式会社 SASインスティチコートジャパン〉 木下貴文 製品分類による顧客セグメンテーションの方法…...・ ・‑………………………… 2 9 7 H (株式会社 SASインスティチコートジャパン〉 中西由紀 @品質管理 SASおよび JMPによるハードディスク・ドライブの生産性と品質の向上………… 305 朝日睦 (日本アイ・ピー・工ム抹式会社〉 l ポスターセッション @医薬 [EXSAS] V6 とツリー型アルゴリズム……………………………...・ ・..……ー…. 317 H 山 本 典 子 (株式会社アーム〉 常吉華奈 呉本真荊 浜 田 知 久 馬 (京都太学〉 SASパージョン 8eによる非臨床統計解析システムの開発…………・・…………・ 325 佐々木和典 角元慶二 小原直樹 司美保 (太既製薬株式会社〉 患者の満足度調査一入院期間の影響についてー……………...・ ・‑………... 333 H 田久浩志 (中部学院太学〉 東北地方の農村の 10年にわたる健康調査より見たー……………………………. 335 生活習慣病の r i s kf a c t o r 豊島裕子 松尾一司 帰俊彦 清水英佑 (東京慈恵会医科太学〉 lV
@システム SASシステムと連携した VBA利用によるレポーテインゲ事例……・・……...・ ・ . . . 343 (株式会社シピルシステムデザイン〉 H 二宮清高 S A S / l n t r N e tソフトウェアリリース 8 . 2 の機能紹介……………ー………………・ 3 5 3 吉 岡 厚 治 (株式会社 S ASインスティチコートジャパン〉 山本克巳 @統計 SASデータステップによる A g r e s t i検定統計量の算出ー…………………………. 3 6 5 (株式会社 CRC総合研究所〉 斉藤佳世 要因配置実験の結果解析のための簡易な入力形式…一・……・・…………・ー…・ 373 柴山忠雄 @調査・マーケティング 太陽と地球との関係……… ………………………………………………………・ 383 ( 慶F 意義塾大学〉 υ 堀岡大輔 地方自治体への地理情報システム ( G I S )の導入要因の分析ー………….......… 395 ‑SASシステム及び JMPシステムを用いて一 J l¥田真樹子 (神戸商科大学〉 川向肇 有馬昌宏 @データマイニング データマイニング技法による生活習慣病のリスクファクタ一分析法の実際…ー…・ 407 霊 園 方 (夕、イナポット株式会社〉 飯沼一茂 @教育 神戸商科大学における SASシステムを利用した…………・・……………………・ 417 統計・情報処理教育の現状と展望 川 向 肇 (神戸商科大学〉 有馬昌宏 己隅弘樹 周防節雄 V
S A Sと医学統計学の学生の評価と教員の評価の関連性...・ ・..………………… 4 2 5 H 鯨 慢 彦 (東京慈恵会医科太学〉 清 水 英1 古 田峨尚子 裏田和夫 景山茂 鈴木院之 鈴木直樹 豊島裕子 ) 11村 昇 和田高士 松島雅人 尾立裕三 小松一祐 l グラフ川セッション 大型計算機センターにおける計算機の利用分析…………ー………...・ ・ . . . . . ・ ・ ‑ … ・ 4 3 7 H 久富丈志 H (京都太学〉 金j 華正憲 自然形態を CGで再現しよう一樹木作成‑ . . ・ ・..……………...・ ・"…………・・…. 4 4 5 H 長谷川要 (キリンビール株式会社〉 VI H
口頭論文発表 医薬
日本 SASユーザー会 (SUG1‑0) 解析結果の品質確保 一総括報告書・申請概要書の図表について 0植松弓美子牢・高橋行雄牢 E 淡路直人牢・高田克也料 牢日本口シュ株式会社医薬開発本部 ヰヰ住商情報システム株式会社ネットワーク・マネジメント事業部 EnsuringtheQ u a l i t yofAnalysisResult ForTables& FiguresofC l i n i c a lStudyReports/ExpertSummaryReports‑ 牢/KatsuyaTakada牢 YumikoUematsu牢/YukioTakahashi牢/NaotoAw可i 牢 PharmaDevelopmentNipponRocheK . K . ヰ NetworkManagementDept.SumishoComputerSystemsCorporation 要旨 総括報告書及び申請概要書の解析結果の責任は統計担当者にある。この解析結果である図表の品質 確保のため,作成の作業工程にミスが入る要因の減少かっ作業の効率化を考えた。そこで, SASシステム の TEXT出力を MS‑WORDのリンク機能を用いてこれら文書に直接貼り付け,試験進行中に文書ドラフト 版を作成した。文書最終版の図表はリンクの更新機能により,データ固定後の出力に差し替えることにより 作成した c なお,出力には, SAS 実行日時やファイル名の記録を表示し,貼り付けの確認はこれらの記録 より行った。この結果,総括報告書及び申請概要書の解析結果である図表作成の効率化とその品質確保 が可能となったと考える O キーワード: 品質確保,総括報告書,申請概要書, SASの TEXT出力, MS‑WORDのリンク機能 1 . はじめに 総括報告書および申請概要書は,新薬申請の際に提出する必須文書であり,審査センターではこれら 提出資料に基づいて新薬の審査が行われている。これらの文書作成の際に最も考慮すべきことは以下の 3つで、あると考える。 1.正確に(品質確保) 2 .わかりやすく(明示的) 3 .早く ところで,これまでーの SUGI‑Jでの発表などから,総括報告書の図表作成において, SASシステムによる TEXT 出力をそのまま使用せず, MS‑EXCEL による出力を試みている会社が非常に多いことがわかっ た。しかし,例えば DDE機能による MS‑EXCELへの出力を例にとると, TEXT出力に比べ見栄えはよいも のの,セルがひとつ追加になったた、けで、も,バリデーションも含めたプログラム改訂作業に工数が多くかか るとしづ難点がある。 3‑
一方,日本ロシュにおいても数年前には,メデ、イカルライターによって MS‑WORDの表で作り直す,ある A Sデータセットから MS‑EXCELに未加工で、出力したものをメディカルライターが整形す いは解析結果の S るなど,様々な手法により作成されていた。しかし,いずれの場合も,最終的な総括報告書に掲載された 図表の確認は,統計担当者が作成したオリジナルの S A Sシステムによる TEXT出力との読み合わせによ る方法にて行われていた。この方法では,確認の工数がかかるだけでなく,統計解析図表が統計担当者 の手を離れて自由に加工されることが可能であり,総括報告書や申請概要書における統計解析の責任 A Sシステムによる TEXT 者である統計担当者がその保証をし兼ねるとしづ最大の難点があった。そこで, S 出力をそのまま文書に貼り付けることを試みた。 2 .SASシステムの出力をそのまま使用せずメディカルライターが加工する場合 S A Sシステムによる出力をメディカルライターが MS‑WORDにて作り直す,あるいは MS‑EXCELの出力 から加工する場合の利点は,メディカルライターが自身で好みの図表にできるとし、うことであろう。 しかし,以下のような問題点がある。 ・手作業によるミスが発生する可能性がある 0 ・再現が容易でなし、(手作業の部分)。 ・ デFータ固定後 l こメディカルライターによる図表の加工が行われ,作業の前倒しができない 0 ・元の S A S出力との読み合わせによる整合性の確認作業が必要である。 また,これらの結果,データ固定後の作業時聞が多く必要となる。 3 .SASシステムによる TEXT出力をそのまま使用する場合 S A Sシステムによる TEXT出力をそのまま使用する場合の利点は,以下の点である。 ・図表作成の作業工程に手作業が入らない c ‑再現 ( S A Sフ。ロク、、ラムの再実行による)が容易である。 ・正しく貼り付けられているかの確認は,基本的に出力ファイル名と実行日時のみの確認でよい。 さらに,この結果,データ固定後の作業時間の短縮が可能となる。実際に医薬品機構による信頼性調 査でも,総括報告書と解析結果報告書の整合性の確認作業が省略された。 一方,メディカルライターが自身で好みの図表にできないとしづ難点がある。この対処として,プログラム 開発前段階で,使用する図表の具体的な体裁について打ち合わせを行い,最終図表についてメデイカ ルライターを含めた総括報告書,申請概要書作成に関与するメンバーの合意を得る必要がある。 4 .SASシステムによる TEXT出力をそのまま使用する場合の難点の対処について 前述したとおり, S A Sシステムによる TEXT出力をそのまま使用する場合には,フ。ログラム開発前に使用 する図表の具体的な体裁について打ち合わせしておく l必要があるため,試験開始段階より図表サンプル
あるいはテンプレートを添付した解析計画書をもとに,総括報告書や申請概要書に使用する図表につい て作成に関与するメンバーの合意のうえ確定することとした。解析計画書に定義したすべての解析結果 の出力形式を細部まで、完全に早期段階で、確定することは難しかったが,少なくとも総括報告書の本文や 申請概要書に使用する図表については,最も重要な図表であり,わかりやすくまとまっていることや見栄え のよさが求められるため,細部まで確定した。(ただし,それ以前に総括報告書や申請概要書の骨子が決 定していることが前提である。)これにより,早期に図表の形式が確定で、きたため,プログラム開発をバリデ ーションも含めて計画的に実施で、きたとしづ波及効果まで、生まれた。なお,試験途中で数回,総括報告書 や申請概要書のレビューを行う際に,使用する図表の確認を再度行った。 5 .MS‑WORDによるリンク貼り付け MS‑WORD によるリンク貼り付けの利点は,掲載図表に対応する SAS の出力ファイルを,一度 MS WORDのリンク機能により目占り付けておくことにより, SASの出力ファイルが更新された時にリンクの更新を 行うだ、けで、最新ファイルに差し替えることが可能なことである。 この機能を用いて,総括報告書や申請概要書に掲載する図表の貼り付け作業をデータ固定前に行っ たところ,データ固定後の作業を大幅に短縮できた。試験途中で文書をレビューする際にも,最新データ を表示できるなどリンク機能は非常に有用で、あった。 一方,実施上の難点として,メディカルライターの MS‑WORDスキルの問題があったが,事前に社内講 習会を実施する事で対応した。 なお,総括報告書などの文書の最終確定版では, MS‑WORDの機能によりリンクを解除した。 6 . 品質確保のために SAS出力に必要な情報 総括報告書・申請概要書に使用された図表の品質確保に必要な情報は,実行日時,ファイル名など の「記録」の表示である。そこで,これらの情報をすべての SAS出力に表示することにし,総括報告書,申 請概要書に SAS 出力を直接貼り付ける時にもそのまま保持することとした。実際,これらの記録が表示さ れていることにより,図表の確認・再現が容易であった。 すべての SAS出力に付加した情報(記録)は以下の項目とした。 ‑実行日時 ・実行ファイル名(プログラムのステータス*を示すディレクトリも表示) .出力ファイル名 ・図表タイトノレ ・解析対象集団 *ステータス:プログラム開発段階.QA段階.QA完了段階の 3つの状態 に U
また,必要に応じて検定方法や特殊処理に関する説明をフットノートへ記載した。さらに,最近では,以 下の情報もすべての出力に含めるようにしている。 ‑出力の全ページ数 .出力の該当ページ数 7 . 出力ファイルの例 我々が作成した SAS出力の例を表 1 ,図 1に示す。 表 1 有効性評価項目の統計量 000000000I (RoOO‑OO ) I jvOO I Phase3 TREATMENT 解 析 内 容 :000000000 期間 解析対象:I T T I PI acebo (時間) (a) N 平均 標準誤差 中央値 最小一最大 中央値の 95 首信頼区間 p値 (b) 中央値の差の信頼区間 N= 130 130 120.9 9 . 1 93.3 3 .1‑ 462.8 73.2 ‑ 106.2 NA Ro 00‑00 75mg bid N= 1 2 2 1 2 1 97.8 8 . 1 70.0 0.0 ‑ 4 6 3 .1 53.8 ‑ 85.9 0.0216 5 .1‑ 48.5 ( a )治験薬投与開始から 000000000 の時間 ( b )群間比較:一般化ウィルコクソン検定 NA 該当せず Program 実行日時 tti .sas / Output $PROD/cdp012881jv15823/neucb4111̲i 14JUN2000 1 2 :33 ‑ 6一 neucb4111 i tti .out
l 図タイトル女 解析対象 i 廿l E m d b ‑ ‑ v o b e t a P 6 P 1 1 1 u u u ~↑ . u 震u u u u u 時 U~ ~ C:C n a : r ; , ‑ ‑ 一 : 一 一 : 一 ? tM 1~ H 1 9 6 11~ I H1 6 81 9 11 1 6W 1 6 41 8 8J I 1J J 6 J6~ J 8 4m m m m 1~4 1 1 8 治療開始からの期間(時間) すべての症状が改善に至っていない症例の割合。 群問比較・ 般化ウィ J ν コ夕、ノン検定 p r o g r a o mOD/cdp~ l1& &iJYlí&1J/neucb4111_lll l.S as 実行日時: 1 mN1~DD 1 1 : 1 & /O u l p u l cbnl2Lscl~J 図 1Kaplan‑Meier曲線 安なお,図タイトノレは,最近では図の下に表示するようにしている。 8 . その他の工夫 メディカルライターが必要な図表を簡単に参照・検索で、きるようなファイルリストを作成した。なお, S A S の出力をリッチテキストフォーマット ( R T F )化したのは,これは TEXT, CGM形式のままであるより,操作が容 易であること, MS‑WORDの DOCファイノレに比べ頑健性があることなどの理由による。 タイトノレ・フットノートに記載する内容は,特殊データの取り扱いなどデータレビュー後に表現を改訂す ることがあるため,プログラムとは別に一元管理することにより,タイトノレ・フットノートの改訂を行し、やすくし た ハ 9 . 今後の課題 今回の報告は, U N I X上の S A Sパージョン 6 . 1 2によるものであるが今後は S A Sパージョン 8の ODS 機能を用いることも検討していきたい。 また,オブジェクト(図)の大きさは,貼り付け後にメデイカノレライターにより整形作業が行われていたた め,このような作業がゼロになるよう,どう改善していくカも検討していきたい。さらに,照会事項などにより 急j 阜申請概要書へ掲載することになった探索的な解析など、の図表については,短時間にフ。ログ、ラムの ‑ 7‑
みで出力をわかりやすくまとめることが難ししものがあった これについては,出力を整えるマクロを作成 C するなどして対応していきたい。 1 0 . 最後に 総括報告書や申請概要書の解析結果で、ある図表について, SASシステムの TEXT 出力をそのまま使 用することで図表作成に手作業が入らなくなり,ミスの入る要因を減らすことができた。また, MS‑WORD のリンクとその更新機能を用いることにより,総括報告書・申請概要書の図表作成作業を効率化できた。 実行日時,ファイル名などの記録の表示により,確認が容易となるだけでなく,解析結果の信頼性も高く なったと考える。これらを総合して,総括報告書や申請概要書の解析結果である図表の品質確保ができ たと考える。さらに,作業の効率化,特にデータ固定後の図表に関する作業時間の短縮により,メデ、イカル ライター,統計担当者ともに,内容そのもののレビューに集中することができ,結果的に総括報告書,申請 概要書の文書全体の品質向上にもつながった。 ただし,今回の試みを行ううえで,文書作成に関わるメンバー全員が試験開始時から総括報告書や申 請概要書を常に意識し取り組むことが,重要かっ必要で、あることを再認識した。今後もこれを推進してい きたい。 参考文献 1 )P h i l i pM.N o r t h,E n s u r i n gGoodS t a t i s t i c a lP r a c t i c ei nC l i n i c a lR e s e a r c h:G u i d e l i n e s f o rS t a n d a r dO p e r a t i n gP r o c e d u r e s( a nU p d a t e ),Drugl n f o r m a t i o nJ o u r n a l,3 2, 665‑682,1998 (柏木訳,薬理と治療, 2 7 ( 3 ),243‑258,1 9 9 9 ) 2 ) 日本製薬工業協会医薬品評価委員会臨床評価部会,統計解析の信頼性確保の検討 報告書 フ。ロジェクト ,平成 1 3年 4月 3 ) 佐々木徹也, 臨床データ解析における SAS プログ、ラミング、バリデーション, SUGI‑J2000 論文集, 149‑156, 2000 付録 解析計画書作成から総括報告書・申請概要書作成までの解析作業の流れ図を図 2に示した。 OD
UNIX Windows NT L̲ ー ーーーーー一一一一一一一 図 2 解析作業の流れ図 ‑ 9‑
日本 S A Sユーザー会 (SUG I‑J) 統計的原則における盲検下レヴューの経験 一解析対象集団選定のプロセスー 0堺 伸 也 * ・ 高 橋 行 雄 料 ・ 片 岡 正 彦 * 料 *イーピーエス株式会社臨床情報処理部門 料日本口シュ株式会社医薬開発本部 料*富山化学工業株式会社臨床開発部 TheExperienceofb l i n dreviewbasedons t a t i s t i c a lp r i n c i p a l s OShinyaSakai台、 YukioTakahashi**、MasahikoKataoka** 合 合 EPSCo., L td . * *PharmaDevelopmentNipponRocheK.K. H 合 ToyamaChemicalCo..L td. 要旨 最近、盲検下レヴューの実施に「統計的原則」に準拠した二重盲検比較試験の統計解析を経験し た。盲検下レヴ、ューで作成される問題症例一覧は、 SASと汎用アプリケーションを組み合わせて 作成されることが多く、開鍵後の結果との不整合を生ずる原因の一つで、あった。本試験において 一貫して SASを利用することにより、「正確さ J と「効率化」が計られ、さらに解析対象集団の 決定プロセスおよび妥当性について透明されたっ キーワード.百検下レヴュ一、症例検討会、 SASテキスト出力、解析用 SASデータセット 1.はじめに 1 9 9 8年に「臨床試験のための統計的原則 J1 が施行された。本原則は、臨床試験から得られる結果 の偏りを最小にし、精度を最大とすることを目指している。本原則の中では、最後の患者の最終観察日 からデータが蓄積され、その予備的検討が可能になった段階から割付を明らかにするまで、の間で、盲検 下レヴューを実施することは有用であると記されている。解析対象から除く被験者またはデータの取扱い、 変数変換の必要性の検討、外れ値の定義、共変量の特定とモデルへの取り込みなど、治験実施計画書 作成時に規定しきれなかった項目を、判断に偏りが生じ l こくし、盲検下で再検討できるとしている。一方、 統計解析計画書は、治験実施計画書に述べた解析に関する記述を補完するものとして作成し、盲検下 レヴューの結果を統計解析計画書に反映、必要に応じて改訂し、二重盲検比較試験では最終的に薬 剤害J I付が明らかにされる(開鍵)までに固定させるべきであるとしている。 1 ょ ーよ
また、本原則では、解析対象集団の定義について FAS( F u l lAna l y s i sS e t、最大の解析集団)、 PPS( P e rP r o t o c o lS e t、治験実施計画書に適合した集団)および安全性を評価する被験者集団につ いて明確に規定している。 最近、我々は、ある二重盲検比較試験において、上記の原則に即した盲検下レヴューを実施し、さら に原則に基づいた解析対象集団の選択を行った。我々は、盲検下レヴューは複数回開催すべきとの認 識に立ち、いわゆる「症例検討会」として 2回、「小検討会」を 3回、計 5回にわたって開催した。今回は、 その経験について報告する。 . 1 2である。 なお、本試験で利用した SASのバージョンは 6 2.盲検下レヴ、ユーの実施手順 盲検下レヴューの目的は、統計解析計画書の固定に向けた活動と解釈した。実施した主な事項を次 に示す。 ・統計解析計画書 V er1 .0の固定 ・症例の取扱いの検討および確定 ・解析対象集団の確定 ・合成変数、データ取扱い方法の確認、・評価 ・交互作用、共変量の評価・確定 e r 2 . 0の固定 ・統計解析計画書 V 解析計画書の「固定」は、規制当局への提出の可能性もある「公式」文書として作成した。「公式」とす るための要件については、日本製薬工業協会の「統計解析の信頼性確保の検討 lが参考になる。 SAS 標準テキスト出力を利用した盲検下レヴュー用資料の作成 一般的に、 SASシステムからのテキスト出力 (SASテキスト出力)は、見慣れていない人達には分かり づらく、また結果には罫線がなく、 MS‑EXCELなど他の汎用アプリケーションにより作成された帳票に 比べると「見栄えがしなしリと評価されてしまいがちである。そのため、 SAS システムによる解析結果を他 の汎用アプリケーションに出力し、そこで整形することがよく行われるつ しかし、盲検下レヴューで使用する資料に、「見栄え」が必要だろうか。一般的に、データ固定、症例 取り扱いの決定、開鍵のスケジュールはかなりタイトに計画されることがあり、本試験も例外で、はなかった。 そのような状況で、統計的原則に記述される盲検下レヴューの目的の達成、特に解析対象集団の検討 から確定までを短期間に再現性を確保しつつ行うことには大きな困難が予想された。 本質的に必要なことは、「見栄え」ではなく、「正確さ」であると我々は判断した。事前の検討を含めて、 「検討会」は複数回行う必要があり、しカもその度に、すばやく正確に検討用の資料を作成する必要があ 正確さ」の観点からみると、解析結果を手作業的に他のソフトウェアで整形することは、 ったためで、ある o I hi 守 つ白
大きな危険性を内包している。変数のカテゴリ数の増減に起因する不具合、外れ値的データの新たな出 現による不具合、出力範囲 ( r a n g e )の拡大に伴う不具合等がその一例である。 SASテキスト出力そのま まを資料として用いれば、そのような不具合が介在する余地はなく、解析結果の正確さが保たれる。我々 は、この点を重視し、盲検下レヴューに用いる資料は、 SASテキスト出力をそのまま使用することとした。 このことは、プロク守ラム作成時間の短縮にもつながった。 なお、 SASの「プログラム」ミスによる検討資料の不具合も起きるので、「小検討会」ではこれらのミスの 発見にも努めた。 3.問題症例の検討 本試験の盲検下レヴューで作成した資料は次の通りである。 ・ ・ ・ ・ 問題症例一覧 各変数の単純な集計結果 応用的な集計結果(主要評価変数の分布状況確認、共変量の同定のための資料) ダミーキーで、の解析結果のサンプル出力 このうち、問題症例一覧を中心に報告する。 我々は、盲検下レヴューは、解析対象集団の適切な決定に至る作業と位置づけた。各症例を有効性 評価において FASあるいは PPSに組み入れるかの判断基準は、原則的には全て治験実施計画書に 記載されていることが確認できた。その結果、基準を少しでも満たさない症例は「問題症例」として機械 的に抽出したっ選択基準、除外基準をはじめ、検査の実施スケジュール、検査の実施項目の確認、処方 状況、服薬状況などについて、治験実施計画書の記載を厳密に解釈し、データマネージメント担当者が 問題症例抽出の基準案を作成し、解析およびモニタリング担当者の検討を経て、 SASのパッチプログラ ムとしてスタックされ、「検討会」の都度、更新された出力を得た。 予め抽出結果から取り扱い基準を検討し、信頼性の高い問題症例抽出プロクーラムが準備で、きていた ことにより、解析対象集団の決定までの時間が短縮できた。一貫して SAS を利用することにより、 「正確さ」と「効率化」が計られ、さらに解析対象集団の決定プロセスおよび妥当性について透 明化された。 問題症例一覧の出力形式 問題症例一覧は、 A4用紙(縦)に、文字の大きさ 8ポイント、 l症例 l行の出力形式とした。基本的に PRINTプロシジャーを用いて出力を行った。ただし、長いコメントの出力については DATAステップで の PUTステートメントを利用した(表 l 、表 2、表 3 )。なお、読み込みはすべて解析用 SASデータセット (後述)から行った。 1IA q 喝U
問題症例の抽出結果はすべて、永久 S ASデータセットとして保存した。その後、このデータセットを取 り込み、各抽出項目の聞の関連、全体の抽出結果を概観する表を作成した(表 4 )。 永久 S ASデータセットとすることにより、必要なときに SASデータセットを CSVファイルに変換するこ とにより、臨床開発チームのメンバーが必要に応じて M S‑EXCEL等に取り込み、 SASテキスト出力に 裏付けられた整った表を作成することもで、きた。しかし、本試験においては、社内での「検討会」も、医師 の参加する社外での「検討会」でも S ASテキスト出力をオリジナル出力としてそのまま用いた。手作業に よる情報が一切介入しないことにより、信頼度の高い情報が最後まで利用された。加えて、問題症例一 覧作成にレポートライティング機能に優れた他の汎用アプリケーションを用いた場合と比較して、作成後 の作業効率の面で、損なわれる点はなかった。なお、 M S‑EXCELへの取り込みは各臨床開発メンバー それぞ、れのレピ、ュープロセスで、活用(ソート、抽出、色付け等)された。 なお、「検討会」資料の構成は、各々の検討項目に対応する取扱い案をまとめた MS‑WORDの資料 を本文とし、 S ASテキスト出力を添付資料とした。社外での「検討会」においても特に混乱のなかったこと を補足しておく。 表 1 先行治療の検討例 (プロジェク卜名) 問題症例の抽出 1 1: 00 Monday, May 1 4, 2 0 0 1 0109 選択基準「⑥6ヶ月以内に試験薬による治療を行っていない」に合致しない 抽出条件:6ヶ月 (180日)以内に試験薬の投与を行っている 1 )適格例 先行治療 先行治療試験薬先行治療試験薬該験薬投与 投与終了日 OBS 症例番号投与開始日 投与開始日 からの回数 2 3 011‑3 0 2 9 ‑ 1 105‑4 1996‑10‑10 1997‑05‑03 1997‑03‑25 1996‑08‑01 1997‑03‑26 1997‑02‑04 1996‑08‑11 1997‑04‑03 1997‑03‑05 (プロジェク卜名) CJC 0109.SAS 60 30 20 A斗 A 1ょ
表 2 脱落例の検討修1 1 1 1: 0 0M o n d a y, M a y1 4, 2 0 0 1 (プロジェクト名) 問題症例の抽出 3 ) 脱落例 0 3 0 1 B 試験を脱落した症例 中止・脱落理由=来院せず O B S 症例番号投与開始日 2 0 3 1 ‑ 3 0 3 5 ‑ 2 1 9 9 7 ‑ 1 0 ‑ 1 0 1 9 9 7一0 3 ‑ 0 5 投与終了日 1 9 9 7 ‑ 1 2 ‑ 0 1 1 9 9 7 ‑ 0 4 ‑ 1 6 中止・脱落の有無 あり あり 中止脱落田 中止・脱落までの回数 1 9 9 7 ‑ 1 2 ‑ 0 1 1 9 9 7 ‑ 0 4 ‑ 2 0 5 2 4 6 (プロジェクト名) C JC0301.S A S 1 1: 0 0M o n d a y, M a y1 4, 2 0 0 1 (プロジェクト名) 問題症例の抽出 3 ) 脱落例 0 3 0 1 B 試験を脱落した症例 2 0 3 1 ‑ 3 脱落理由説明:通院時の車を確保できないため コメント:患者が予約日に受診しないため、自宅に電話し、とくに変わりのない ことを確認した。通院時の車の運転をする家族の都合が悪く・. 0 3 5 ‑ 2 脱落理由説明:薬剤の効果がないため来院しない由電話で説明された。 コメント:・ (プロジェクト名) C J C0 3 0 1 .S A S ‑1 5 ← 2
表 3 併用治療の検討例 (プロジェクト名) 問題症例の抽出 4 ) 処置違反 ②併用薬、併用療法違反 併用禁止薬を使用している。 併用薬に併用禁止薬のコードがある OBS 2 OBS 症例番号投与開始日 031‑3 1997‑10‑10 035‑2 1996‑12‑20 併用薬 投与開始時期 3ヶ月以上前より 試験薬との 併用薬 併用薬併用薬 併用薬 投与終了日 併周期間薬剤(辞書名) 用量 単位単位その他 1997‑10‑30 4 mg 100 1997‑02‑14 1 4 mg 50 併用薬 投与開始日 1997‑02‑01 2 11:00 M o n d a y . May 1 4 .2 0 0 1 0407A 併用薬 併用薬 投与終了日 投与理由 1997‑10‑4 合併症のため 1997‑02‑14 有害事象のため 併用薬 投与理由その他 (プロジェクト名) CJC 0407A.SAS 表 4 問題症例マト 1 )ックス表示例 (プロジェクト名) 問題症例の抽出 抽出結果のリスト 症例番号 001‑1 001‑2 001‑3 001‑4 002‑1 002‑2 002‑3 002‑4 003‑1 003‑2 003‑3 003‑4 150‑4 11:00 M o n d a y . Mayl4. 2 0 0 1 0 1 0 1 0104 0104A 0104B 0105 0105A0106 0107 0109 0109a 0110 0 1 1 1 0112 小 計 合 計 2 2 。 2 4 0 5 0 0 (プロジェクト名 )̲CJC̲Pickuplist.SAS 2 2 1 0 6 2 2 3 ハhV よ 41
統計的原則に基づいた解析対象集団の選定 各抽出項目を統計的原則に基づいた形式に分類した(表 5 ) I 検討会」では、この分類に従って解析 0 対象集団の検討から最終的な選定を行った ここでは、「採用 JI 不採用 JI 適格 JI 不適格」などの l 日ガイ O ドラインの用語を意識的に排除し、 IFAS除外 JIPPS除外」とした。また、選定結果に分類情報を含めて 永久 SASデータセットイヒすることによって、総括報告書の添付資料の作成作業がスムーズに行われた。 表 5 問題症例の分類コード GCP不遵守 1 :GCP不遵守修J I FAS除外 2A 主要な畳録基準を満たしていない症例 2B:試験治療を一回もうけていない症例(未服薬) 2C:ランダム化後のデータがない被験者 PPS除外 3 A :最低限の試験治療規定を完了していない症例 3 B :主要な変数の測定値が手J I用可能でない症例 登録基準違反などの重大な治験実施計画書違反がないこと 3D:併用禁止菜、併用制限薬に関する違反症例 3 E :服薬の不道守症例 3 F :その他(投与中に悪性腫需の発見された症例) 4.解析用 SASデータセットの活用 盲検下レヴュー開始以降の資料作成は、すべて解析用 SASデータセットから行った。解析用 SAS デ、ータセットは入力用リレーショナルデータベースの情報をすべて含み、解析に必要な情報(合成変数、 変数の型の変換)の作成を行ったデータの集合で、ある。読み込みを解析用 SAS データセットに一本化 することは、資料聞の結果の不整合を防ぐためである。 解析業務の進行に伴って、解析用データセットの構造の変更が必要になる場合があるが、初期の作 成段階で、基本的な変数(文字型から数値型への変換、 SAS日付への変換、基準日からの経過日数の 算出など)は予め作成しておき、その変数を参照し問題症例一覧を作成することで対応した。 SASテキスト出力を盲検下レヴュー用の資料とすることを踏まえて、変数のラベルの設定は症例記載 用紙 (CRF)との対応に留意しつつ、検討メンバーに分かりゃすくした。 我々は、盲検下レヴ、ユーで、は、症例記録用紙 (CRF)に記載されているすべてのデータを視察した。 つまり、すべてのデータが 1回以上、 SASのグラフまたは SASの集計結果に出力され、目に触れるよう に配慮した。 SAS テキスト出力になじみのない人たちには、問題症例の発見に役立つ結果の読み方 (UNIVARIATEプ口、ンジャー、 FREQプロシジャー)を、 SASの一見したときは冗長であると思われる出 力の良さを説明した。 ワ1 1よ
ダミーの薬剤キーを入れた解析結果の出力も合せて行し" I 検討会」の資料とし、これを複数回実施 することで、解析プログラムの信頼性も向上した。 5 .まとめ ・資料聞の不整合を防ぐために、解析用 SASデータセットを活用した。 SASテキスト出力のため に、変数のラベルに症例記載用紙 ( C R F )との対応のわかりやすしものを予め設定した。 ・ 複数回開催した盲検下レヴューにおいて SASテキスト出力を一貫して利用したことは、正確さの 確保および効率化の観点から、有益で、あった。プログラム作成時間の短縮だけでなく、取り扱い 基準の事前検討の実施、および信頼度の高い問題症例抽出プログ、ラムの準備がで、き、解析対 象集団の決定までの時聞が短縮できた。 その他の汎用アプリケーションを利用したときと同程度に、 SASテキスト出力の検討資料は、「検 討会」において十分有効であった。社内外の「検討会」で利用することができ、検討のはじめから 終わりまで、信頼度の高い同ーの資料を利用することができた。 [参考文献 1 1 I 臨床試験のための統計的原則 J ( 1 9 9 8 )厚生省医薬品安全局 2 I 統計解析の信頼性確保の検討 J( 2 0 0 1 )日本製薬工業協会医薬品評価委員会臨床評価部会 ︒ 凸 1i
日本 SASユーザー会 (SUG1‑0) 臨床試験データの品質の計量の試み 0松 葉 尚 子 * 山 本 祐 三 * 片岡正彦** 高橋行雄*** *イーピーエス株式会社**富山化学工業株式会社***日本ロシュ株式会社 M e a s u r e m e n to fq u a l i t yo ft h ed a t ai nac l i n i c a lt r i a l MATSUBAHisakoヘYAMAMOTOYuzoヘKATAOKAMasahiko**, TAKAHASHIY u k i o * * * *EPSCo., L t d ., **ToyamaChemicalCo., L t d ., ***NipponRocheK . K . 要旨 我々は最近、ある二重盲検比較試験でデータの品質の計量を試みた。データクリーニングプロセ スの途上で発生する、マスターデータと比較用データのコンピューターによる照合結果を利用し、 マスターデータと症例報告書との不一致を特定し、計量した。その結果、全体のエラー率は 0.54%、 有効性評価項目に関わる数値および日付データのエラー率は、 0%であった。 データマネジメントから最終解析に供する際のデータの品質レベルについては、基準を持ってい る製薬会社があるが、その根拠については明確でない場合が多いようである。根拠のある基準を設 定するためには、品質に関する具体的なデータの蓄積が必要と考える。この経験をもとに、臨床試 験データの品質の基準について討論したい。 キーワード: データセット、データの品質 臨床データマネジメント、クリニカルデータベース、 SAS 1. はじめに 1 . 1 クリニカルデータベースと解析用 SASデータセット 臨床試験におけるデータ処理は、次のように行われることが多い(図 1 )。データマネジメ ント (DM) は、データマネジメントシステムによりクリニカルデータベース (DB)を準備す る。症例報告書に記載されたデータをクリニカノレ DB に入力、データクリーニングを行い、 最終解析に用いてもよいと判断した(データ固定)後、適切な手段でデータを SASデータセ ットに変換し、解析担当者に提供する。解析担当者は、受け取った SASデータセットを、必 要に応じて、更に解析用 SASデータセットに加工、それを読み込み、解析用 SASプログラ ムを走らせる。 SASシステムは多様な解析手法への対応が可能であること、また各解析手法 における計算プロセスおよび計算結果の信頼性の高さから解析段階で汎用されるが、逐次的 データ入力に不向きであること、また監査証跡機能がないことなどの理由により、 D M では データマネジメントシステムを利用する。 υ 1lA ︒
以上のようなデータ処理の流れを取った場合、 DMにおいては直接的に SASシステムは用 いないながらも、クリニカル DBを用いて電子化されたデータの品質は、 SASシステムを用 いたその後の解析業務の質に直結し、重要な意味を持つ。本発表は、この観点から、クリニ カル DBを用いて電子化されたデータの品質の計量に焦点を当てたものである。 図 1 クリニカルデータベース ( D B )とSASシステムの関係 =今 クリニカル DB データマネジメント SASプログラム ι 解析 1 . 2 治験の品質 G u i d e l i n ef o r Good C l i n i c a l 臨床試験(ここでは主に治験を指す)の品質について、 " P r a c t i c e1" (ICH‑GCP) に、治験依頼者の責任が次のように要求されており、治験全体の品質 の向上が不可欠になって来た。 5 . 治験依頼者 5 . 1 治験の品質保証及び品質管理 5 .1 .1 「治験依頼者は、治験の実施ならびにデータの作成、記録及び報告が、治験実施計画書、 GCP及び適用される規制要件を遵守して行われることを保証するために、標準業務手順書 に基づく品質保証及び品質管理システムを履行し、保持する責任を有する。」 5 .1 .3 「治験に関連するすべてのデータの信頼性とその適正な処理を保証するために、データ取り扱 いの各段階に品質管理を適用するものとする。」 ‑2 0一
1 .3 治験の品質の評価とデータの品質の評価 2 では、治験の品質とはどのように表現され、評価されるものであろうか。評価するために は、治験の品質も、工業製品における「不良率」、あるいは逆に「純度」などと同様に、数値 で表し、計量化する必要がある。計量化するには、分母と分子の定義が必要となる。治験全 体の質を評価しようとしても分母と分子の特定は非常に難しいが、 D M においては比較的、 分母と分子の定義が容易に行えると言える。 D Mにおける lつの重要な役割りは、症例報告 書に記載された内容を、一定の規則に従ってクリニカルデータベース中に電子データ化する ことである。ここで、入力されるすべてのデータの数を「検査対象 J (分母)とし、規則から はずれた入力データを「不良品 J (分子)と捉え、「エラー率(不良率)Jを表現することが可 能になる。 近年では、最終解析に供する際の、 D M担当部門で作成されたデータの品質について、基 準を設定している製薬会社もあるが、その根拠は明確でない場合が多いようである。根拠の ある基準を設定するためには、品質レベノレに関する具体的なデータの蓄積が必要と考えるが、 その報告は非常に少ない。そこで今回は、我々が最近経験した、ある二重盲検比較試験にお けるデータの品質の計量の試みについて報告する。 2 . 二重盲検比較試験での経験 2 . 1 試験の概要 本試験の対象症例数は、約 450例、症例報告書はいわゆる Book型であり、「患者背景JI 先 行治療 J I 併用薬および併用療法 J I 投与状況 J I 中止・脱落 J r 有効性評価 J I 臨床検査 J I 有 害事象 J I 担当医師判定」からなる 24ページのもので、あった。有効性評価は、投与開始前を 入れて 5回、臨床検査は投与開始時から 4回実施するスケジューノレで、あった。 2.2 D M手順の概略(図 2) D M手l j 債の概略は、次の通りである。 初期入力 症例報告書コピーに基づいて異なる 2名の入力担当者により入力(マスターデータおよ び 2次入力データ)した後、両入力データのコンビューターによる照合(コンベアー) を実施し、不一致箇所をリストアップした。症例報告書とマスターデータの不一致を確 認し、マスターデータの修正を行った。さらに、症例報告書コピーとマスターデータと を読み合わせで照合することにより、コンベアーで検出できなかったマスターデータの 不一致を検出し、修正。マスターデータに対して論理チェックを行い、症例報告書記載 内容の不整合箇所を検出した。 再調査 論理チェック結果を基に、再調査を実施した。 ‑2 1
図 2 D M手順の概略とエラー率算出のタイミング モニタリング担当 データマネジメント担当 ~コピー 11次入力(マスターデータ)1 1 2次入力 + 修 正 { コンベアー 修正 入力依頼 │ + + 1 読み合わせ │ 一次仮固定 │論理チェック 再調査 修正入力 修正依頼 │論理チェック! 二次仮固定 lCRF原本回収 マスターデータに おける不一致の確認 ‑所属 D Bテーブル ‑原因 3次入力 入力依頼 A ' " ‑ 1 コンペアー i一次仮固定データ修正 L論理チェック 修正指示 │ 仮固定 (正) 修正指示 症例検討会 ( 修正) 修正指示 固定 ! η︐白 η︐白
データ修正 再調査が終了した症例報告書のコピーを用いて、マスターデータを修正し、論理チェッ クにより、症例報告書記載内容の不整合箇所を検出した。 3次入力 これ以上の再調査が必要ないと判断された症例の症例報告書について、原本に基づいて 3次入力を行った。 3次入力データを比較用として、マスターデータとのコンベアーを 実施。不一致箇所をリストアップし、症例報告書とマスターデータの不一致を確認し、 マスターデータの修正を行った。論理チェックにより、症例報告書記載データの不整合 箇所がないことを確認した。 症例検討会 以上の過程を経た症例データについて症例検討会にて検討。 データ固定 症例検討会にて決まった症例取り扱い情報および、キー情報を付加し、マスターデータ 固定。 2 . 3 エラー率の許容限界(データの品質基準)の設定 エラー率算出の前に、あらかじめ許容されるエラー率を設定した。なお、エラー率はデー タクリーニングプロセスの途上で算出されることを考慮、し、全フィールドに対して、マスタ ーデータと症例報告書の不一致が 0.5%以下であれば許容できるとした(12.4エラー率の算 出」参照)。 2 .4 エラー率算出の方法 初期入力から再調査によるデータ修正を経たマスターデータと、再調査後の症例報告書原 本を基に入力した 3次入力データのコンベア一時に得られたコンベアー結果(不一致リスト) を使用した(図 2)。検査対象は、全症例の全フィールドとした。コンベアーリストに挙げら れた全不一致の内、マスターデータにおける症例報告書との不一致を特定し、それらを次の 2 つの観点、で分類し、集計した。 1)どのデータベーステーブルに属する変数の不一致で、あったか 2) どのような不一致で、あったか(不一致の原因) A . 数値の不一致 B . 日付の不一致 c . コメントデータの不一致 D. 未記載に対する入力処理上の問題(本試験に特異的な問題) E その他(以上に分類できなかったもの) 2 .5 結果 32, 8 6 3であった。これは、次の その結果の一部を表 1に示す。全検査対象フィールドは 2 ように算出した。 1症例 1レコードタイプのテープ、ルで、は、全症例数×フィールド数、 1症例 ハペU n J臼
で複数レコード発生するタイプのテーブルでは、発生している総レコード数×フィールド数 を算出し、両者を足しあわせた。 2 6 6件であり、従って、エラー率は 0.54%と算出 全マスターデータにおける不一致は、 1 された。 一方、不一致の原因別で見ると、コメントデータの不一致および未記載に対する入力処理 上の問題が 9 94件で、マスターデータにおける不一致の 78.5%を占めていた。直接的に有効 性および安全性評価に影響を及ぼすと考えられる数値および日付データの不一致は、合わせ て3 9件であった。 医師判定」におけるエ 個別のデータベーステーブ、ルで、の集計に注目すると、「有害事象 J I ラー率が 2%を超えていた。しかし、コメントデータの不一致および未記載に対する入力処理 上の問題を除くと、 0.3%程度のエラー率で、あった。 「有効性判定」は有効性評価に関わるデータが含まれるテーブソレで、ある。テーブ、ルごとの 集計では、 0.67%のエラー率で、あったが、直接、有効性評価に使用される数値データおよび 日付データでの不一致は認められなかった。 全体のエラー率は 0.54%と、あらかじめ設定した許容基準の 0.5%をわずかながら超えた ものの、有効性の主要評価項目に関連する「有効性判定」の数値データおよび日付データの 不一致が認められなかったことから、その後のデータクリーニング、プロセスでデータ修正を 行ったデータを症例検討会に供することができると判断した。 表 1 エラー率算出結果 マスターデータにおける不一致件数 テーブル名 有害事象 。 8 。 33 4 6 3 。 。 。 7 4 1 9 。 。 4 4 9 9 5 5 。 65 。 。 9 。 11 。 63 総計 6 3 1 患者背景 併用薬 有効性判定 臨床検査 医師判定 BLNK COM DATE 3 3 2 4 3 6 3 2 6 NUM 1 3 OTHER 1 7 5 総入力フィ ルド エフーー率 4 7 2 5 6 3 6 0 . 1 8 % 1 0 1 2 5 9 7 1 0 . 3 9 % 9 2 1 3 7 0 2 0 . 6 7 % 5 1 3 1 2 1 7 1 0 0 . 42 % 7 4 3 5 3 6 2 . 0 9 % 7 5 3 6 0 0 2 . 0 8 % 1 2 6 6 2 3 2 8 6 3 0 . 5 4 % 言 十 数 市 BLNK: 未記載に対する入力処理上の問題 COM: コメントデータの不一致 DATE: 日付の不一致 NUM 数値の不一致 OTHER その他 2 .6 考 察 以上の結果より、コメントデータおよび、未記載に対する入力処理の問題が全体のエラー率 を押し上げていたことが明らかとなった。コメントデータの不一致や未記載に対する処理の 問題は、有効性および安全性評価に直接影響を及ぼさないと思われる種類のエラーである。 ‑2 4
一方、数値、日付の不一致は、有効性および安全性評価に直接、間接的に影響を及すと思わ れる種類のエラーである。エラー率を算出する場合、有効性および安全性評価への影響も考 慮、した上で、エラーの原因や性質に基づいて分類し、データの品質を評価することが必要で あると考えられた。一般的には、エラー率が許容基準を超えた場合、 D M 作業をやり直した り、更に手順を加えることにより、品質基準をクリアーするデータを得る努力がなされる。 不一致の総数だけから算出したエラー率が許容基準を超えていたとしても、それは有効性お よび安全性評価に影響を及ぼさないエラーが多かったことに起因していたかもしれず、その 場合は、非常なリソースの無駄遣いになりかねない。 今回、エラー率は、 D Mから解析担当者に移管する最終データについて算出したものでは なく、データのクリーニングプロセスの途上で、行ったことが一つの特徴と言える。つまり、 初期入力から再調査によるデータ修正を終えた段階において、 0.54%のデータについて、症 例報告書の記載と何らかの不一致が存在していたことを示している。ところで、これらの不 一致は、データクリーニングプロセスの途上で、見つかった不一致であるので、この後のデー タクリーニングプロセスで、ほとんどのデータが修正されたと思われ、その後のプロセスで エラー率を算出していたとしたら、 0.54%よりも小さい値になることが期待された。その意 味で、 0.54%と言う数字は、本試験のデータの品質は、最悪の場合は 0.54%のエラーを含ん だものであったと言うことができる。ところで、 0.54%の不一致の内、約 80%はコメントデ ータおよび未記載の入力処理に関する問題で、あったことを差し引くと、有効性および安全性 評価に影響を及ぼす可能性のあるエラーは、この段階で 0.11%存在していたことになる。さ らに、有効性の主要評価に直接関わるデータに絞り込むと、エラーは、この段階で既に 0.00% 以下であったことになる。 さて、本試験において、最終的に解析担当者に移管された時点、で、のエラー率は測定しなか ったが、解析担当者より、開鍵後の解析中に見つかった 3点の不具合の報告を受けた。これ らの不具合は、有効性および安全性評価に大きく影響するものではないと判断され、データ ベースの入力データは修正しないと判断した。これが示していたことは、データクリーニン グの途上で、有効性および安全性評価に影響すると考えられるエラーが 0.11%存在していた が、その後のデータクリーニングプロセスにより、大きなデータ上の問題は解決されていた と考える。なお、 D M 業務を終了するに当たり、解析担当者から指摘された不具合は、最終 的なデータベース中に内在するエラーとして、 D M 業務終了報告書の中の一部として、報告 を行った。 2 . 6 結論 データの品質を評価する場合、エラーの原因や性質に基づいて分類、分析することが重 要であると考えられた。 データクリーニングフoロセスの途上におけるエラー率も、最終的なデータの品質レベル を示す指標となり得る。 ‑25‑
3 . 最後に 今回のエラー率の計量の経験では、コメントデータと未記載に対する入力処理上の問題が エラー率を引き上げていたことが明らかとなった。これら 2種類の、マスターデータにおけ る不一致を招いた原因について触れる。 症例報告書に手書きされたコメントは読みにくいものが多々含まれ、忠実に電子データ化 することが非常に難しいことは感覚的にはわかっていたが、実際に数値に表してみると、マ スターデータにおける全不一致の 28.7%を占めていたことになる。本試験で検出された、コ メントデータの不一致も修正が行われたが、この修正作業もかなり労力を要する作業であっ た。コメントデータの入力の品質も、他のデータと全く同列に考るべきか否かは、議論があ るところであろう。これは、最終的な有効性および安全性評価でコメントがどのように使用 されるかにも依存すると思われる。本来コメントは、補足的な情報記載の為に用意されてい るものであって、有効性および安全性評価に大きく影響するような本質的な情報を得るため に用意されるものではないと考える。従って、コメント欄が正しい目的に利用された試験で あれば、重要な情報はコメント以外から十分に得られるはずで、コメントに対して許容され るエラー率は少し緩く設定することも考えられるであろう。もし、コメントに本質的な情報 が記載されているようであれば、それは症例報告書の設計ミスと言わざるをえず、その際は、 多大なリソースを投入して、注意深く必要なデータを掘り起こしてくことが必要となろう。 一方、未記載に対する入力処理上の問題について言及する。本試験では、実施されなかっ た検査項目には、「未実施」の意味で斜線を引く規則になっていた。入力規則には、斜線が記 入されていた場合、 I V J を入力することが決められていた。それにも関わらず多数の不一致 が発生した原因を分析したところ、複数の並んだ項目が未実施で、斜線が引かれてきた場合、 斜線がどの項目までヲ│かれているのか判別が難しいものが多く存在していたことによると思 われた。現在の多くの臨床試験では、症例報告書の記載者とデータ入力者が異なっているた めに、それぞれに規則が決められていても記載者の意図した通りに電子データ化できない場 合がある、ということを示していると考えられた。本試験では、結果的に有効性および安全 性評価に影響することはなかったが、他の試験で、そこに影響するデータにおいて起きる可 能性は否定できない。これを防ぐためには、記載の規員J I、入力規則を注意深く設定するのは もちろんであるが、もっと本質的には、症例報告書を記載する医師、モニタ一、 D M 担当者 が、データの品質に対する共通の理解を持つ必要があると思われる。この共通の理解は、ひ いては臨床試験の質の向上にもつながっていくと考える。 近年では、最終解析に供する際の D Mで作成されたデータの品質について、基準を設定し ている製薬会社がある。 D Mで作成されたデータを一つの製品と考えることができ、製品の品 質を明確にすることは、生産者であるデータマネジャーの責任であろう。しかし、設定されて いる基準の根拠、妥当性については、明確でない場合が多いようである。厳しすぎる基準は、 OverQ u a l i t yで、過剰なコストがかかる原因になる一方、甘すぎる基準は、正しい薬剤の評価 の障害となる。品質基準の設定根拠が明確でない印象を受けるのは、 D Mにおけるデータの品 質に関する具体的報告が非常に少ないことに起因していると考える。今後、その具体的報告が ハhu nノω
可能な限りオープンに行われ、相互の経験の蓄積が行われることが待たれる。 [参考文献] 1 I n t e r n a t i o n a l Conference on Harmonization o f T e c h n i c a l Requirements f o r R e g i s t r a t i o nofPharmaceuticalsf o rHumanU s e . Guidelinef o rGoodC l i n i c a lP r a c t i c e, 1 9 9 6 . 2 椿 広計、他.臨床試験における外部品質保証.臨床評価.2 0 0 0 ;2 8 : 5 ‑ 9 6 . 々 l nノμ
日本 SASユーザー会 (SUG1‑0) バイアスを減少させるための傾向スコアを応用した解析事例 長谷川要 キリンビール株式会社 医薬カンパ二一 開発部 臨床データ統括担当 P r o p e n s i t yscoremethodsf o rb i a sr e d u c t i o nandi t sa p p l i c a t i o n KanameHasegawa r o d u c tDevelopmentDep t . C l i n i c a lDataManagementS e c t i o n,P PharmaceuticalD i v i s i o n,K i r i nBreweryCo.,L t d . 要旨 観察的な調査では、治療の割付をコントロールしないために、治療群間で共変量(患者背景因子な ど)に大きな差異が認められ交絡要因が存在する可能性があるため、交絡要因の影響を取り除いて効 果を推定する必要がある。これら交絡要因を調整する方法として傾向スコアを利用する方法がある。本 論文では傾向スコアの定義と、 SASによる計算プログラムを示し、合わせて応用例について紹介する。 キーワード: i 頃向スコア、マッチング、 LOGISTICプロシジャ、 EPO 1 . はじめに 無作為化臨床試験では、被験者に治療群と非治療群などとし、った治療を無作為に害杓付けて試験を 実施するために、均質な集団を得ることができる。つまり、各群の問で、交絡因子が偏って存在する確率 が小さくなり、交絡因子の影響を取り除いて仮説の検証(治療の効果の判定)を行うことができる。 一方観察的な研究では、治療の割付をコントロールしないために、治療群問で観察された共変量(患 者背景因子など)に大きな差異が認められることはしばしばであり、これらの違いは結果として効果の推 定にバイアスを導いてしまう。これら共変量の影響を調整する方法としては、例えばマッチング、により共変 量を治療群間でそろえる方法も考えられるが、多数の因子についてマッチングタを行ったり、きわめて厳密 な条件を定めてマッチングを行うと対となる対象の組み合わせの数が多くなりすぎて探せなかったりする ことがある。同様に、共変量を層別して行う解析も考えられるが、多数の層別因子により層別した場合、 各層に一定数のデータを得るためには、全体として極めて多くの対象が必要となり、多くの場合、層別解 析は不可能となる。 P r o p e n s i t yS c o r e )は}の利用が考えられる。 これらの問題を解決するための方法として、傾向スコア ( ‑2 9
傾向スコアは共変量によって与えられる治療を受ける連続確率値として定義される。傾向スコアが等しい 対象者間では偏りなく治療を比較することができることが知られている。 2 .1 頃向スコアとは 傾向スコアとは観察された共変量によって与えられる、治療を受ける連続確率値 (p)として定義され、 具体的には以下のロジスティックモデルによって与えられる。 ( ̲ ̲ ̲ E ̲ì_~ l o g i t ( p )= l o g l一 一 1 = , a.̲ ll~ p ) ~ ~_ exp(α+β) p=1+叫 (α+β) → ここで、 α および βはロジスティック回帰分析により推定されるパラメータでEあ り 、 xは共変量のベクト ルを表す。傾向スコアとなる pは確率値なので、 0"‑1の範囲の値を示す。 3.SASによる傾向スコアの算出方法 傾向スコアはロジスティックモデルにより計算されることから SAS/STATが提供する LOGISTICプロ シジャを用いて容易に計算することができる。 以下に傾向スコアの算出のためのサンプルプログラムを提示する。 PROC LOGIST工C DATA=SAMPLE; MODEL TREAT=AGE SEX HE工GHT WE工GHT; OUTPUT OUT=OUTDATA PROB=PR; RUN; 上記のプログラムでは、例えば薬剤の投与の有無を示す変数を TREAT(O:非治療群、 1 :治療群)、 共変量を AGE、SEX 、HEIGHT 、WEIGHTとした場合のロジスティック回帰モデ、ルの実行方法を示し た。これらのロジスティック回帰分析により計算された傾向スコアの値を OUTPUTステートメントによりデ ータセット OUTDATA中の PRに出力させることができる。このデータセット中には元のデータセット SAMPLEに付加された形で作成される。 ロジスティック回帰を行う際に共変量として指定する変数が年齢、身長、体重といったような連続的な 変数はそのまま用い、性別などの二値データについては、例えば男と女をそれぞれ 0と 1に置き換えた 変数を用い、血液型などの順序のない分類データについてはダミー変数を作成し用いるとよい。ダミー 変数はカテゴリー数から 1引いた数の変数により表現できる。 4 . 傾向スコアの応用方法 傾向スコアが閉じ値を示す患者は似通った共変量(背景因子)を示す性質があることが知られている。 この値を利用し「マッチング、」、「層別化」の因子および「共分散分析」などの共変量として用いることにより、 共変量の調整に用いることができる。 マッチングの場合には、例えば、治療群の傾向スコアと類似した値を示す症例を非治療群の中から抽 3 0
出を行い、治療群問で同じような傾向スコアの分布を示す患者群聞を構成することにより、偏りのない治 療の効果の比較を行うことができる。 層別解析を行う場合には、得られた傾向スコアを基にいくつかの層に分類することを考える。各層で は治療群問で共変量のバランスが取れるので、通常の層別解析と同様に実施することが可能となる。理 論的には 5つの層に分類することにより、共変量のバイアスを 90%以上減少させることができることが知 られている 1)。 5 . 傾向スコアを用いた解析事例 エリスロポエチン製剤(以下 EPO製剤)は慢性腎不全患者における腎性貧血の治療薬として世界中 で広く使われている。これら患者では高血圧症を合併する患者が多く、高血圧の治療のために ACE阻 害薬(アンジオテンシン変換酵素阻害薬)の併用が行われる。しかしながら ACE阻害薬には EPO製剤 . 8 )が多数ある。今回これら報告されている ACE阻害薬の EPO製剤に の薬効を減弱させるとしづ報告 4 )のデータを用い 対する薬効の影響を検討する目的で、 EPO製剤(エスポー注射液)の使用成績調査 9 て検討する試みをした。 解析にあたっては、使用成績調査で得られたデータを ACE阻害薬の併用の有無で、群分けを行った 上で薬効の比較を行うこととした。しかしながら、本方法では ACE阻害薬の併用の有無について無作為 に割付を行ったデータで、はないために、群聞の患者背景因子の分布は表 1に示す通り、多くの因子で 有意な差異が認められた。 これら群聞の患者背景の偏りを調整する目的で、傾向スコアを用いてマッチングを行うこととした。マッ チング後の患者背景を表 2に示す。全ての因子において同様の分布が示されており、交絡要因の影響 を取り除いて効果を推定することが可能な対象者の選択を行うことができた。 表 L マッチング、前の患者背景因子 ACE.I 変数 性別 年齢(歳) 分類 併用なし n=1 .884 l , 0 2 5 (5 4. 4 ) 男 女 平均 8 5 9 (4 5 . 6 ) 5 6 . 9 1 3 . 3 5 3 . 1 9 . 5 l , 0 0 6 (53. 4 ) 8 7 8 (4 6 . 6 ) 2 2 . 0 3 . 0 9 7 . 8 4 4 . 6 l , 0 6 5 (5 6 . 5 ) 8 1 9 (4 3 . 5 ) 6 9 . 0 3 7 . 2 l , 1 5 3 (61 .2 ) 4 2 2 (22. 4 ) 3 0 9 (1 6. 4 ) SD 体重 ( k g ) 平均 SD 透析歴 投与前日 t i 直(%) 1年未満 1年以上 平均 SD EPO投与量(IUlkg/week) 平均 SD 鉄弗l 併用 血清鉄濃度 ( μ g / d L ) なし あり 平均 SD 原疾患 慢性糸球体腎炎 糖尿病性腎症 その他 併用あり n=329 2 1 5 (6 5 . 3 ) 1 1 4 (3 4 . 7 ) 5 3 . 6 4 1 3. 5 5 . 0 1 0 . 1 1 5 6 (4 7. 4 ) 1 7 3 (5 2 . 6 ) 21 . 7 3 . 1 9 7 . 7 .6 41 2 0 9 (6 3 . 5 ) 1 2 0 (3 6 . 5 ) 6 7 . 8 3 4 . 6 1 7 5 (5 3 . 2 ) 1 0 2 (31 .0 ) 5 2 (1 5 . 8 ) 群問比較↑ P<O.OOl P<O.OOl P<O.OOl P=0.045 P=0.086 P=0.971 P=0.018 P=0.550 P=0.003 十分類データの群問比較にはカイ二乗検定を、連続データの群問比較にはスチューデントの t検定を用いた。 ‑3 1
表 2 . マッチンク、後の患者背景因子 ACE.j 変数 性別 年齢(歳) 分類 併用なし 併用あり n=329 2 1 8 (6 6 . 3 ) l l l (3 3 . 7 ) 5 4 . 1 1 2 . 9 5 5 . 0 9. 4 1 5 7 (4 7 . 7 ) 1 7 2 (5 2 . 3 ) 21 .5 3 . 2 98. 4 4 5 . 2 2 0 2 (61 .4 ) 1 2 7 (3 8 . 6 ) 6 9 . 3 3 5 . 8 1 6 9 (51 .4 ) 1 0 8 (3 2 . 8 ) 5 2 (1 5 . 8 ) n=329 2 1 5 (6 5 . 3 ) 1 1 4 (3 4 . 7 ) 5 3 . 6 4 1 3. 5 5 . 0 1 0 . 1 4 ) 156(47. 1 7 3 (5 2 . 6 ) .7 21 3 . 1 9 7 . 7 41 .6 2 0 9 (6 3 . 5 ) 1 2 0 (3 6 . 5 ) 6 7 . 8 3 4 . 6 1 7 5 (5 3 . 2 ) 1 0 2 (31 .0 ) 5 2 (1 5 . 8 ) 男 女 平均 SD 体重 ( k g ) 平均 SD 透析歴 投 与 前 Hd!直(%) 1年未満 1年以上 平均 SD EPO投与量 OUlkg/weekl 平均 SD 鉄剤併用 血清鉄濃度 ( μ宮I dL) なし あり 平均 SD 原疾患 慢性糸球体腎炎 糖尿病性腎症 その他 群問比較? P=0.805 P=0.629 P=0.963 P=0.938 468 P=0. P=0.842 P=0.573 P=0.570 P=0.871 十分類データの群問比較にはカイ二乗検定を、連続データの群問比較にはスチューデントの t検定を用いた。 6 . マッチング、を行うプログ、ラム事例 本論文の解析事例に用いた SASプログラムを紹介する。傾向スコアは、前述した通り LOGISTICプ ロシジャを用いることにより容易に算出することができる。これら算出した傾向スコアについてマッチング を行う機能は SASでは用意されていないため、マッチングを行うプロク守ラムを作成した。以下にプログラ ムを示す。 *ーーーーー傾向スコアの算出; proc logistic data=stat; model acei=age sexcd weight bwdose diacd preht fe irn discdl discd2; output out=score pred=pr; *変数 prに傾向スコアが算出される; runj *ーーーーー傾向スコアによるマッチング処理; data dat3; *ACE‑工非併用例のみのデータセット作成; set score; if acei eq 0 then output; run; data dat4; *ACE‑工併用例のみのデータセット作成; set score; if acei eq 1 then output; run; data ̲null̲; *ACE 工併用例の例数をマクロ変数 n に格納; set dat4; ー); call symput('n'.̲n ̲3 2̲
run; proc sort data=dat4; by pr; runi data dat7; *matchingにより抽出した症例を保管する空のデータセットを作成; set score; delete; run; *matching用マクロの定義; , * *ACE‑I併用例の中から 1仔J Iづっ症例を取り出し、 ACE‑I非併用例全仔J Iと傾向スコアーの; *差をとり、差の絶対値が最も小さい値を取る症例をピックアップする処理を行う。 告macro match; *, 告do i=l 告to & n; data ̲null̲; set dat4; if n eq &i then call symput('pr',pr); run; data dat5; set dat3; prob=abs(pr‑ιpr); run; proc sort data=dat5; by prob; run; data dat6; set dat5; if ̲n̲ eq 1 then do; call symput('no',no); output; *マッチングされた症例を取り出す; end; run; data dat7; set dat7 dat6; run; data dat3; set dat3; if no eq &no then delete; *マッチングで抽出された症例を削除; run; 告e nd; 告mend; 3 3
match; 告 data match; *マッチング を行ったデータを連結する(解析用データ作成); set dat4 dat7; run; P 7 . おわりに 今回市販後調査データを用いて傾向スコアを応用した解析を行う機会を得たが、簡便で非常に有用 な方法で、あることがわかった。しかしながら、傾向スコアを算出する際に共変量のいずれかに欠損データ が存在する場合にはロジスティック回帰分析に含めることがで、きなくなってしまうとしづ欠点も存在する。 特に今回用いた使用成績調査のデータでは多くの患者がこの理由で解析から除外された。今後の検討 課題としてはこの欠損データを有する症例の適切な対応方法を考える必要性を感じた。 傾向スコアを利用した解析事例は医学疫学研究分野で近年広くイ吏われてしも 10・13)。一方で、傾向ス コアはロジスティック回帰モデルを前提として算出するために 2群聞の比較に対してのみ利用可能な手 法であり、多群間比較での応用も期待する。多群比較に対する拡張については報告 14)がなされている ので今後の検討課題としたい。 8 . 参考文献 1 )D ' A g o s t i n oRB.P r o p e n s i t ys c o r emethodsf o1' b i a sr e d u c t i o ni nt h ecomparisono fa treatmentt o a non‑randomizedc o n t r o 1g1'o u p .S t a t i s t i c si nMedicine 1 9 9 8 ; 1 7 : 2 2 6 5 ・ 2281 . 2 ) RosenbaumPR,RubinDB.Thec e n t r a 1r o 1 eo ft h ep r o p e n s i t ys c o1'ei no b s e1'v a t i o n a 1 5 . s t u d i e sf o rc a u s a 1e f f e c t s .Biometrika1 9 8 3 ; 7 0 : 4 1・5 3 ) RubinDB,ThomasN.Matchingu s i n gestimatedp1'o p e n s i t ys c o r e s :r e 1 a t i n gt h e o r yt o p r a c t i c e .B i o m e t r i c s1 9 9 6 ; 5 2 : 2 4 9 ‑ 2 6 4 . t e i nG . DoACEi n h i b i t o r si n f l u e n c et h ed o s eo fhuman 4 ) Hess E,SpershneiderH,S τ ra nsp1ant1 9 9 6 ; 1 1 : 7 4 9・ recombinante r y t h r o p o i e t i ni nd i a 1 y s i sp a t i e n t s ?Nephro1D i a 1' 7 51 . 5 ) Matumura M, Nomura H,Komi 1 , Mabuchi H .A n g i o t e n s i n ‑ c o n v e r t i n g enzyme i n h i b i t o r s a r e a s s o c i a t e d with t h e need f o r i n c r e a s e d recombinant human e r y t h r o p o i e t i nmaintenanced o s e si nh e m o d i a 1 y s i sp a t i e n t s .Nephron.1 9 9 7 ; 7 7 : 1 6 41 6 8 . ・ 6 ) Alb i t a rS,GeninR,Fen‑ChongM,ServerauxM‑O,BourgeonB .Highd o s ee n a 1 a p r i 1 impairst h eresponset oe r y t h r o p o i e t i nt 1 'e atmenti nhaemodia1ysisp a t i e n t s .Nephro1 τ ra nsp1ant1 9 9 8 ;1 3 :12061 2 1 0 . D i a 1' ・ 7 ) ErturkS,Negizog1uG,AtesK,DumanN,E1'bayB,Karatan0,ErtugAE.Theimpacto f withdrawing ACE i n h i b i t o r s on e r y t h r o p o i e t i nr e s p o n s i b e n e s s and 1 e f tv e n t i c u 1 a r hypertrophyi nh a e m o d i a 1 y s i sp a t i e n t s .Neph1'o 1D i a 1τ ' ra nsp1ant1 9 9 9 ;1 4 :19121 9 1 6 . ・ ‑34‑
8 )S c h f f lH,LangSM.A n g i o t e n s i n ‑ c o n v e r t i n genzymei n h i b i t o r sbutn o ta n g i o t e n s i nI IAT 1r e c e p t o ra n t a g o n i s t sa f f e c te r y t h r o p o i e s i si np a t i e n t swithanemiao fe n d ‑ s t a g er e n a l d i s e a s e .Nephron1 9 9 9 ; 8 1 : 1 0 6 ‑ 1 0 8 . 9 ) 日本公定書協会編. SBR新 医 薬 品 再 審 査 概 要 NO.1 エポエチンアルファ.株式会社ミクス 1 9 9 7 . 1 0 )PerkinsSM,TuW,U n d e r h i l lM G,ZhouXH,MurrayMD.Theuseo fp r o p e n s i t ys c o r e s . i npharmacoepidemiologicr e s e a r c h .Pharmaco‑epidemiology2 0 0 0 ; 9 : 9 3 ‑ 1 01 ll)MitraN,SchnabelFR,NeugutAI,H e i t j a nDF.Estimatingt h ee f f e c to fani n t e n s i v e s u r v e i l l a n c e program on s t a g e o fb r e a s t carcinoma a t d i a g n o s i s . Cancer 1 : 1 7 0 9 ‑ 1 7 1 5 . 2001・9 a r r e t tE M,BukhariM,SilmanAJ,SymmonsDP ,DunnG .Reduced 1 2 )WilesNJ,LuntM,B o l y a1't h r i t i s .Ar t h r i t i s& d i s a b i l i t ya tf i v ey e a r swithe a r l ytreatmento finflammato1'Yp Rheumatism2001;44:10331 0 4 2 . ・ iC,GaoS,TierneyWM.Methodsf o1't e s t i n ge q u a l i t yo fmeanso fh e a l t hc a r e 1 3 )ZhouXH,L c o s t si nap a i r e dd e s i g ns t u d y .S t a t i s t i c si nMedicine2 0 0 1 ; 2 0 :1 7 0 3 ‑ 1 7 2 0 . 14)LeonAC,MuellerTI,SolomonDA,K e l l e rMB.A dynamica d a p t a t i o no ft h ep r o p e n s i t y s c o r eadjustmentf o re f f e c t i v e n e s sa n a l y s e so fo r d i n a ld o s e so ft r e a t m e n t .S t a t i s t i c si n 4 9 8 . Medicine2001;20:1487・1 1 5 )長谷川要.エスポー注射液の貧血改善効果に及ぼす ACE 阻害薬の影響の検討 回帰モデ、ル 及び傾向スコア ( P r o p e n s i t yScore) を用いた ACE-I 併用効果の推定の比較~東京大学生物 統計学/疫学・予防保健学抄読会資料 2 0 0 0 . . 1 6 )重松逸造,柳)1洋.新しい疫学.財団法人日本公衆衛生協会 1991 1 7 )佐藤俊哉.とってもたのしい医学統計公開講座資料.統計数理研究所 1 9 9 9 . ‑3 5
日本 SASユーザー会 (SUG1‑0) 社内マクロライブラリの構築について ~SAS プログラムバリデーションに対する試み~ 竹田真 佐藤智美 株 式 会 社 CRC総合研究所 /CRO業務部統計解析チーム 交関西支社,村東京本社 TheConstructionof In‑houseMacroLibrary ‑AnApproacht oSASProgramV a l i d ation‑ MakotoTakeda TomoyoshiS a t o CRCResearchI n s t i t u t e, I n c . i o s t a t i s t i c sS e c t i o n CRODepartmentDataManagement&B 要旨 師 事 蜘 DM ・紺糊こおいては、ロジカげエツクプログラム、横桧用倒防坊ム、結十 開 市ρログラムとしりた各誌験民各プロトコル旬こオーダ、ーメイドで作ちれるプロク、.ラムも少なくなく、しか も一坊主的こはこれらはハンドメイドで憎戎されるケースも夢、。これらのプログラムに対七、どのよう (:J~リデ ーション計一孔\信頼性を備正する州立 SAS プロクずラマにとって非常に大きf~悩みで、あるO そこで宇佐で こ良く使われる短E プログラムにつしてはマクロプログラムとして惰怯し、梅田沼首位 は、今後寸主的i れたそのマクロプログラムをサーノ〈ー上のライブ、ラリに登輝針うも¥各プログラマが親日・共用することによ るので、はと考えた。 材高で、はこの出村マクロライブラリにつ り、プログ、ラミングの努閉じと品質防止が計l しての概含士運用対長こつして報告するc キーワード: マクロライブラリ、 MAUTOSOURCE、SASパージョン 8、バリデーション 1.はじめに 各プロジェク噸こ(骨戎される SASプログラムにつして、と、、のよう (:Jくリデ?ーションを1 霜正するかは SAS プログラマが最〉習意するところで、あるつ SASプログラマはこの続毘こつして、臨れた日朝・条伸乃中で V ツ、ンャーは士曽すばかりである。プログラムに対すかくリ 一定の*拐を牙さねばならず、そのパックロク、とフ' デーンョンの者去としては、夕、、ブ、ルプログ宍ングそ〉テストデータによる検詔去等が講ずられるが,最鮒怜 信事貫生を更に直酌るには、可育Etょ隈フプログラムミスの覇Eを減らして五、く必要があると考えるc そこで宇符土では、今後一両効包こ良く使われる匁国主プロク、、ラムl こついてはマクロプログラムとして作成をし、 梅 田 端E されたそのマクロプログラムをサーバー上のライフヲリに登録を印¥各プログラマが参照・共 府することとした。全てのプログラムをlから憎女するのではなく、よく使われる耳墨田'EP)につしては、マ クロプログラムとして規格低市¥それらを開持関貯フρロシジャのようi こ車協合わせてプログラミング を市ことにより、モジュー/レ結合的ょプログ、ラミング、の出島高め、*鵠主として作業向芳南じとプログラムエ ラーの商 . f I 劇t できるものと蛸寺して五、る。 (乱、このライブラリ登録マクロは各プログラム中におし、て他のステップョに開拾与えなし、ことが必須であ ηバυ ワー
り、その為、マクロ名や菱激名などに一定のノトーノレを設けることが必要であるO また同様にライブ、ラリ登録マ クロのパージョン管理こっし、ても社体規定を設定しておく必要があるが、串、昨年リリースされた SASノく ージョン8からはマクロ名や衰数名、データセット名に対して従来の 8実字以内とし、う市1 Jl.艮がなくなり、各項目 に対する命名対齢聡Z が容易( : t tった 本稿で、はこのマクロライブラリの概念をその運用対却こつして報告する。 2 .経 緯 プログ ラミング、を如何に効率的、且つ正確に行うかはプロクマラマに課せられた永遠の課題で、 P ある。しかしながら人為的に作成されるものであるが故、プログラムエラー発生の完全な回避 は極めて困難でもある。通常、プログラム中の STEP数、或いはプログラムそのものの作成回 数が増えれば、プログラムエラ一発生頻度も比例して多くなるものと考えられる。それ故、夢符土 でも過去にイ惜した穿fJf.Joコプログラムや代々受け紛れてきたプログラムなど、の静岡とし、うのは、ごく一 岳、管理であるものも少なくなく、その為E疋・備制丸、くつも南宝した 樹切こ行ってしもが、個人レベルにi り、帯l 聞のために必昏諸機告や使用対抗どの説明が括討こ用意されてし、如、ものある。今町コマク ロライブラリ樽齢、このような個人レベノレでの管青島叫胸目し、集中的こ管理街γょうことによって、より効 閲することを弼崩こ考えた。 朝包こ帯l 3 .構築体制 弊社のマクロライブ ラリ構築は、「マクロライブ ラリ委員会」なるワーキンググずループにて運営 P されている。マクロプログラムは課員から申請が行われるが、その検証と運用はマクロライブラ リ委員会によって為される。現在、委員会は申請されたマクロプログラムを品質管理の立場か ら検証する者が 2名、品質保証の立場から監査を行うものが 1名、及びシステムに登録を行う システム管理者 1名とその仕様を課内イントラネット上でら公開する為の要員 1名 の 計 5名から 構成されている。 図 1:マクロライブラリ委員会 口 口 検証担当者 ( 2名) プログラムの内容を検証 'SAS経験 1 0年以上 ‑情報処理技術者 U 日 日 皇全主主主( 1名) システム管理者 ( 1名) Web主主主 ( 1名) ・システム監査技術者マクロプログラムを 登録マクロプログラ システムに登録 ムの仕様を Web上で 公開 ← 3 8‑
4 . マクロライブラリ登録申請から利用までの流れ マクロライブラリに登録されるマクロプロク。ラムは部内スタッフより広く公募される。申請の際に は所定の登録申請用紙にそのマクロフ。ロクーラムの機能説明やパラメータの指定方法、注意事 項などを記入し、その他マクロプログラム、サンプルデー夕、サンプル結果を併せて、マクロライ ブラリ委員会検証担当者まで提出するつ検証担当者は提出された書類に不備がないかを確認 した後、ウォークスルー、サンフ。ルデータで、の実行結果について検証を行なう c その後、テスト 計画を立案、実施し、結果を評価する c 検証の結果、問題があれば申請者に差し戻しを行ない、 問題がなければその検証結果を QA担当者へ提出する。 QA担当者は検証担当者から提出さ れた検証結果が社内 SOPの規定を満たしているか監査を行い、問題がなければシステム管理 者にマクロプロク守ラムのライフ手ラリ登録を、 Web担当者へマクロプログラムの仕様公開を依頼す る。ライブラリへの登録と仕様の公開が完了すれば、申請者はスタッフ全員を対象に新しく登録 されたマクロプロクぐラムの機能・使用方法について報告発表を行なう。この報告発表が完了した 時点より利用が開始される。 円ud nペU
図2 :マクロライブラリ登録申請から利用までの流れ │ ①登録申請│ ②審査 │ 提出 司哩, 口日 日 口 日 課員 QA 担当 検証担当 ‑登録申請フォーム ‑プログラム ‑サンプルデータ ‑サンプル結果 ‑ウォークスルー ‑テスト計画 ‑テスト実施 ‑結果検証 状況により差し戻し 1 ‑テスト計画 ‑テスト結果 状況により差し戻し ④ライブラリ登録 ⑤ Web更新 日 システム管理者 Web担当者 ⑥報告発表 ‑新規登録内容を報告発表 利用開始 ハ H u d ι τ
5 .マクロプログラム記述ルール マクロライブラリで、供給されるマクロプログラムは他ステップへ影響を与えないことが求めら れるごつまり他ステップで使用されているマクロ名、データセット名、変数名で記述されると、マ クロ実行後に何らかの結果が変わってしまう可能性もありえる。よってライブラリ登録マクロプ ロクーラムで、は独自の名称を規定する必要があり、且つその名称については通常のプログ、ラム まデータセット名、変 内で使用しないように定める必要がある。従来の SASパージョン 6まで1 数名等 8文字以内としづ制限があったが、パージョン 8よりこの制隈がなくなった為、命名が容 易になったO ‑ライブラリ登録マクロプログラムにおける記法 1.マクロ名 原則としてマクロライブラリ内におけるマクロ名は 20文字以内に収まるようにし、 fM̲macroname十連番」形式とする。先頭の"lVl_" はライブF ラ~登録マクロであることを示 し 、 "macroname'の部分はそのマクロ機能を表すのに相応しい任意の名称、とする。また最 後の"連番"部分はバージョン管理の為のもので 2桁の連番を用いる。連番を用いてパージョ ンを管理するのは過去のプログラムにおいても結果の再現性を保証する為で、新たな機能 等を追加した場合でLも元のマクロは書き換えを行わない。またプログラムを保存するファイル 名についてはマクロ名と同ーのものと用いることとする 例)年齢計算のマクロの場合 マクロ名 :M̲AGEOl,プログラムファイル名 :MAGEOl .SAS 2 .データセット名 ライブfラリ登録マクロプログ ラム内で使用されるデータセット名は、独自のものでなければ P ならない。他のステップでL使用されているデータセット名と同ーのものを記述すれば、そのデ ータセットを書き換えてしまうことになる。よってライブずラリ登録マクロプログラム内でー使用する デ?ータセット名は f M̲datasetnameJ形式とする。先頭の "M一"はライブラリ登録マクロであ ることを示し、 " d a t a s e tname'の部分は任意の名称とする。 3.Z 盆主 ライブラリ登録マクロプロク、、ラム内で、新たに作成される変数名も、既存の変数の結果を変 えてしまわぬよう独自のものでなければならない。よってライブラリ登録マクロプログ ラム内で、 使用する変数名は f M̲V81 泊b J θ ,n ameJ形式とする c 先頭の あることを示し、J , " ,V 悶a 刀 r i a b J 必 ' ,e n a m e 'の部分は任意の名称とする。 ‑4 1
4 .マクロ変数名 ライブ"ラリ登録マクロプログラムで使用するマクロ変数は定位置マクロ、キーワードマクロの し、ずれも可とするが、 %Let文が使用されていた場合に影響がでる可能性も考えられるので、 使用するマクロ変数名は iM 一m acrov a r i a b l enamej形式とする。先頭の "Mつまライブラリ 登録マクロであることを示し、 " macrov a r i a b l ename'の部分は任意の名称、とする。 5 .その他 その他配列名など、ライブ ラリ登録マクロプロク、、ラムで、新たに記述するものについては、他 ステップへの影響を考慮し、 "M̲"を接頭語として使用するものとし、今後ライブ、ラリマクロの 使用の如何に関わらず、通常のプロク守ラムにおいては "M 一"を接頭語とした記述を禁止す る 。 6 .ライブラリマクロ読み込み方法 SAS 内でのライブ ラリマクロを使用するには、 SAS から提供されている rANNOTATE AUTOEXEC.SAS'2j で起動時に自 MACRO'ljと同様に %INCで全体を読み込む方法。 r 動 的 に 読 み 込 む よ う に す る 方 法 。 マ ク ロ の 自 動 呼 び 出 し 機 能 iOPTIONS MAUTOSOURCE勺」を使い、自動実行するといった方法がある。 ・ ・S . ANNOTATEl V 1 A CRO'l ・ ASから提供されている GRAPH専用のマクロ集。 %LABEL, e t c )。 グラフ内で線を号│し、たり、文字を書くなどのマクロがある C%LINE, 通常はプログラムの官頭で、 %INC" d r i v e ¥SAS ¥CORE ¥SASMACRO ¥ANNOMAC.SAS"; と指定して使用する。 . AUTOEXEC.SAS勺 一' SASが起動する時に自動的に実行されるプログラム。 2000年問題対応の YEARCUTOFFなど、どのプログラムにおいても共通で、 必要とされるものを記載しておく。 d r i v e名:¥SAS ¥AUTOEXEC.SAS"として存在する c 通常は" 例 )AUTOEXEC.SASの中身 O P T I O NM I S S I N G = ' ,y e a r c u t o f fニ 1920; Aq 白 つ
.OPTIONSMAUTOSOURCE勺 SASの自動呼び出し機能を使うため以下の例のように記述しておく。 OPTIONS MRECALLJ ¥ i IAUTOSOURCE SASAUTOS= ( ' J j b r a σ.specification'); こうすることにより、実行するマクロが定義されていない場合、自動ライブラリ内に指定したメン バがあるかを検索し、検索後マクロをコンパイルし実行する。このときファイル名を「マクロ 名. S A S Jとするのが必須の条件となる c また読み込みに際してはマクロの定義フ。ロク。ラムのあ る す べ て の パ ス を SASAUTOS に 指 定 し な け れ ば い け な い が 、 OPTIONS MAUTOSOURCEにて最新のマクロフ。ロク、、ラムの状況を指定したファイルを一元管理し、そ のファイルを各自が AUTOEXEC.SASにて %INC文で呼び出す方法を用いれば、マクロラ イブラリが時間の経過と共に追加・更新されても、プログラマは意識することなく、フ。ロクーラミン グが出来るため、この読み込み方法をスタンダードとして採用した。 7 .参照方法 ライブラリに登録されたマクロの種別や機能や使用方法の参照については、部内イントラネ ットのホームページを利用し、スタッフが常に共有で、きる体制を準備している。 8 .ライブラリマクロの登録後の品質保証 ライブラリに登録されたマクロプログラムについては、事前にマクロライブ、ラリ委員において 充分な検証を行うことになっているが、複数マクロの結合など、様々な実行環境下においても、 その信頼性を確保する必要があると考えている c 例えば、弊社で、統計解析作業のバリデーションとしてダフマルプログ.ラミンク。を行う場合は、同じ 解析仕様を元に異なるフ。ログ、ラマがそれぞれ 2系統に分かれて独自にプログラミングを行し、 その結果の照合を行っているが、このようなケースにおいて、片方の系統で、はマクロライブ、ラり を使用するものとし、他方を不使用とすれば、各作業のバリデーションのみならず結果的にラ イブラリマクロの継続的な検証にもなりうるものと考えている。 ‑4 3一
9 .まとめ マクロライブラリ登録されたマクロを使用することで、プログ.ラムの全てのバリデーションが可能 になるとは考えていない。マクロライブラリはあくまでバリデーションの為の一手段にしかすぎな い。またこれはライブラリ登録マクロだ、けで、なく、プ口、ンジャや関数についても同様に言えること であるが、例え各機能が正しく作動しでもパラメータの与え方や変数の指定が間違っていれば、 正しい結果が得られない訳で、そういう意味で、はプログラマの継続的な教育やその機能、使用 方法が容易に参照できる環境の提供品、うのも重要と考える c 繰り返しになるがあるフ。ログラム が人為的に作成されるものである以上、 100%のプログ ラムエラーの回避は困難で、あるが、限り なく 100%に近づけてし、くためには可能な限りミスの発生要因を除去してして必要があると考え、 このマクロライフ守ラリを考案した。 参考文献 ( 1 )i ソフトウェア開発技術者完全教本」日高哲朗著,日本経済新聞社 (2)iSASランゲージ 1 )ファレンス V e r s i o n 6, F i r s tE d i t i o n J SASインスティチユートジャパン ‑44‑
日本 SASユーザー会 (SUG1‑0) 臨床試験におけるリスクマネジメント 竹内雅子,肥田英明,田崎武信 塩野義製薬株式会社 解析センター R i s kManagementi nC l i n i c a lTr i a l s MasakoTakeuchi,H i d e a k iHidaandTakenobuTasaki B i o s t a t i s t i c sD e p t .,Shionogi& Co.,L t d . 要 旨 医薬品の開発は試験の連鎖であり,個々の試験には科学性が求められる試験が科学的であ るためには,その試験で,比較対照,無作為化,盲検↑生,そして統計解析の 4大要素が十分に考察され ていなければならない.しかし科学的であることと,その試験が成功することとは別である.そもそも, 従来,成功か失敗か,は明確にされていなかった仮説を検証するための試験では帰無仮説を棄却で、き なければ失 F 主であるそのことへの認識が甘かったしかし,今後は経営的にも,医薬品の開発では試 験の計画時に成功基準を明確にしておく必要がある成功確率の低い試験は,よほどのハイリターンが 期待されなければ,計画時点、で、開発品からドロップさせるべきであろう.ここでは,臨床試験のリスクマネ ジメントに対する統計学の貢献を症例数の設計の側面から議論する.とくに,私らが症例数の感度分析 のために SASシステムそして S A S / P H ‑ C l i n i c a lシステムで、開発したソフトウエアを紹介する. キーワード SAS/PH‑Clinicalシステム,生存時間解析,症例数の設計,感度分析, 3角 分 布 1 . はじめに 医薬品の開発には,ありとあらゆるリスクがつきまとう.事前に予知できるときはそれらを排除し, あるいは最小限になるように工夫する.例えていえば,揮発性で有毒な有機溶媒を,狭いエレ ベイタに持って乗り込むといった類の明白なリスクは回避すべきである.この事例では,もし有 機溶媒の容器の密聞が不完全であれば,蒸発した有機溶媒が瞬時にエレベイタ内に充満し, 逃げ場のない乗客は有毒ガスに巻き込まれてひとたまりもないであろう.引火性を有していれ ば火災にもつながりかねない. 医薬品の開発における究極のリスクとは,本来は医薬品としての効果・効能を有していながら, 何らかの原因によってその効果・効能が認められないことである.その原因の一つに,医薬品 の開発に必要な臨床試験を,必要とされる症例数を下回って実施することがある.臨床試験 の中でも主要な仮説検証的試験では,必要とされる症例数を,誤って効果・効能があると判断 する確率 α ι 誤って効果・効能がないと判断する確率戸を一定以下に抑えるように決定する. h 戸 U 8斗 A
ふつう審査機関は安全性と αを,そして開発機関は有効性と戸を気にすることになる. 必要とされる症例数の算出法には,検定をベイスにしたものと推定をベイスにしたものがある. . 5に このうち,推定をベイスにしたものは,必要とされる症例数が少なくてよい代わりに,戸を 0 設定したことと等価であることを忘れやすくなるという欠点がある.そして,検定をベイスにした . 2または 0 . 1に設定することから,推定をベイスにしたものは誤って効果・ ものは,戸を通常は 0 効能がないと判断するリスクを余計に背負うことになる.したがって,必要とされる症例数は検 定をベイスとして算出すべきである. しかしながら,必要とされる症例数を検定ベイスで算出しただけでは,リスクを十分に回避し たとは言い難い.それは,必要とされる症例数の決定には,例えば有効率といった医薬品の 効果・効能に関するパラーメタの期待値を想定しなければならないからである.その期待値を たった l組しか想定せずに決定すると,不適切な期待値に基づいたときには悲劇が待ち受け ている.期待値の根拠として,多くの場合に過去の試験成績を利用するが,過去の試験を子 細に検討するとそれぞ、れ実施した状況が大なり小なり異なっている.それらの結果を無条件に 受け容れることは極めて危険である. このような状況では,一般的にシナリオ分析と呼ばれる方法論が適用される.つまり,ベスト シナリオ,ワーストシナリオ,そして最も起こりそうな状況であるリアリスティック、ンナリオといった 何通りかの状況を想定する.そして,それぞれの状況で必要とされる症例数を算出し,状況の 変化に伴う症例数の変化を考察して,想定の安定性を検討することになる.つまり,これは症 例数に関する感度分析である.私らは,シナリオ分析の発展形としてパラーメタに分布を想定 して,その分布に基づき必要とされる症例数の分布を算出するソフトワェアを,臨床試験にお けるし、くつかの状況について SASjSTATで開発した. Machine ta . l( 19 9 7 )では, αと戸を与えたときに臨床試験で必要とされる症例数の算出法と それらの算出法に基づく症例数の数表,併せて所与の症例数に対する検出力,つまり 1‑s の算出法が,臨床試験の場面に応じて l章を除く各章で紹介されている.Machine ta l .( 19 9 7 ) で扱われている場面を図 1に示す.私らが上記の発想、に基づいてすで、にソフトワェアを開発し ている場面を*で区別した. 本論文では,その生存時間分布を比較するという場面で新たに開発したプログラムを紹介す る.同時に,私らが臨床試験におけるリスクマネジメントをどのようにとらえているかについて述 H ‑ C l i n i c a lシステムへの展開を紹介する. べる.さらに,そのフ。ログ、ラムの P 4 6‑
e [@)LO~~u 独立な2標本 ( 3章) 検定 ( 1 0章) 信頼区間ホ ( 6章) 同等性 (5章) 生存時間応答11(嘩) 観察者一致性研究 ( 1 1章) 相関係数 (8章) 市販後調査 ( 7章) 図1.Machine ta l .( 1 9 9 7 ) の守備範囲(*:現在まで、にソフトウェアを開発済み) 2 . 事象追跡試験における症例数の設計 特定の事象,たとえば手術後の死亡をとりあげて,ある新しい治療法がその事象の生起をどの くらい遅延させるかを既存の治療法と比較したい,とする.この試験で比較したいのは,特定の 時点において事象が発生した患者さんの割合ではない.ひとりの患者さんについての単位時 間あたりの生起率に,患者さんの集団においてその事象が生起する患者さんの割合を重ねた 比率である.たとえば,人年あたりの比率である.このような試験では,その事象が生起するま での時間,それを生存時間とよべば,生存時間の分布を2つの治療法の聞で、比較することに なる.ところで,すべての患者さんで事象が生起するまで試験を行うことは普通むずかしく,実 際的でない.試験期間あるいは追跡期間を限定せざるをえないのが一般的である.追跡期間 を限定する場合はおそらく,その期間における初期の事象生起よりも,その期間における後期 の事象生起のほうがより重要である.このような考えかたから,ここではログランク検定を利用し て,事象生起まで、の時間の分布を2つの治療法の間で比較する試験に焦点をあてる. 2 . 1問題の単純化 実際のソフトウェアの開発にあたっては問題をかなり単純化した.事象を死亡とする.新しい治 療法を新薬による治療,既存の治療を対照薬による治療とする.新薬と対照薬のおのおのに ついて死亡までの時間は指数分布に従うと仮定する.指数分布はハザードが一定の分布とし て知られている.そのハザード を新薬についてん,対照薬についてんとする.これらの比を ‑4 7
。ニ λT I λcとする.新薬の意義は Oを1より小さくすること,そして試験の目的は Oく 1を証明 することである.ハザード比を規定することで,その試験に登録すべき患者さんの数を見積もる ことができる.いま,患者さんは新薬に 1,そして対照薬に ψの割合で無作為に割り付けられる s ‑ の検出力を与えるのに必要な全事象 とする.このとき,有意水準 αのログランク検定に 1 数は,近似的に r E一 ψ (e + 1 ) 2 ( z lα汁 Z I ̲ s 一 一 一 ψ( l ‑ e r で与えられる.ここに ,ZI α2' ZI‑sは標準正規分布のそれぞれ下側 1 0 0(1‑α/2)パ一セント s ) 点,下側 1 0 0 ( 1 ‑ パ一セント点である.ところで,。を直接規定することはむずかししゅもし れない.指数分布の場合,生存関数はハザード λを用いて S ( t )=e xp(‑ A l ) と書ける.したがって,生存率を通してハザード比 Oを規定することができる.実際,たとえば5 Tおよび πcで表せば, 年生存率を,新薬および対照薬についてそれぞれ π πT e x p ( ‑ 5 . ¥ ),πc=e x p (‑ 5 ¥ ‑ ),l n ( πT)I l n ( πc ) = . ¥ 1九 =e 二 である.本論文では,生存率を通してハザード比を規定するとしづアプローチを選択した.この とき,必要な患者さんの全数は,近似的に N一 = ( 1 + ψ) E 一( 1一πc ) +ψ ( 1 ‑ πT ) で与えられる.そして,新薬に割引寸けられる患者さんの数は m=N/(l+ψ ) で与えられる. 2 . 2留意点 ・一般に症例数の設計では,有意水準 αを固定すると,以下のような課題に直面する. s (1)検出力 1 ‑ と効果サイズ企を想定して,必要症例数 N を算出する. (2) 効果サイズ~と必要症例数 N を想定して,検出力 1- sを算出する. ( 3 )検出力 1 ‑ß と必要症例数 N を想定して,効果サイズ~を算出する. いまの場合で効果サイズ~は 0 に相当する.本論文では(1)の課題に専念する. ・事象追跡試験の実際のデザインでは,患者さんを試験に登録できる速度を考慮しなけれ ばならない.また,患者さんが試験途中で脱落する可能性にも注意しなければならない.し かし,本論文では問題を単純化するために,登録速度と脱落率を無視した. ‑4 8
3 . 条件規定のあいまいさに伴う症例数の不確実性 前節でハザード比 Oを規定すれば必要症例数を算定できることを述べた.さらに,この論文で は,そのハザード比 Oを生存率を通して規定するというアフ。ローチを選択することを述べた.と ころで,たとえば5年生存率を試験前に正確に規定することは不可能である.その規定にはど うしでもあいまし、さが伴う.たとえば,対照薬の生存率はこのくらいの範囲にあるであろうとしか 想定できないのが現実であろう. 3 . 1ハザード比の規定 生存率からハザード比 Oを規定するために以下の 3つのアプローチを考える. (1)新薬での生存率 πTおよび対照薬で、の生存率 πcからハザード比 θを規定する.この場合, 2つの生存率の想定値には相聞をもたせるほうが好ましし、かもしれない. ( 2 ) 対照薬での生存率 πcおよび新薬と対照薬での生存率の差 π T πcからハザード比 Oを 規定する. ( 3 ) 対照薬での生存率 πcおよび新薬と対照薬での生存率の比 πT /πcからハザード比 Oを 規定する. 3 . 2あいまいさを表現する分布 あいまいさを表現する確率分布として本論文ではシナリオ分析からの発展形として,密度関数 が3角形の分布を利用する.この分布をシナリオ分析にあえて対応させると,とりうる最小値が ワースト(あるいはベスト)シナリオ,ピークのところの値がリアリスティック、ンナリオ,とりうる最大 値がベスト(あるいはワースト)シナリオに類似する.この分布から乱数を生成するために利用 ASマクロを付録 1に与える.これは台形の分布に従う乱数を生成するために同僚の角 する S 谷伸ーさんと古川│雅史さんによって開発された.ここで、は台形を特定する4つのパラーメタのう ちの 2つを等しくすることで, 3角形の分布に従う乱数を生成する. 3 . 3必要症例数の不確実性 ノ¥ザード、比を規定するパラーメタのあいまいさに応じて必要症例数がどのように変化するかを 調べる.この手順を,対照薬で、の生存率 πcおよび新薬と対照薬で、の生存率の比 πT /1rCから ノ¥ザード、比 Oを規定する場合で例示すると以下のようになる. / πcのそれぞれの想定値 (1)対照薬で、の生存率 πcおよび新薬と対照薬で、の生存率の比 πT について,そのあいまいさを表現する 3角分布を指定する. T / ( 2 ) 指定した 3角分布から対照薬での生存率 π cおよび新薬と対照薬での生存率の比 π πc の各想定値をシミュレイトする. ( 3 )シミュレイ卜した対照薬での生存率 π cの想定値に,新薬と対照薬での生存率の比 πT /1fC ‑49‑
の想定値をかけて,新薬での生存率 π Tの想定値を計算する. ( 4 )前ステップで、求めた 2つの生存率の想定値からハザード比 Oの想定値を計算する. ( 5 )ハザード比 Oの想定値から必要事象数 Eおよび必要症例数 Nを計算する. ( 6 )ステップ。( 2 ) から ( 5 ) まで、を適当な回数だけ,たとえば 1 0 0 0回反復する. ( 7 ) 最後に,必要症例数の経験分布を図示する. この手順を実行するために開発した SASマクロを付録 2に示す. 3.4例示 新しい抗癌剤の開発において,生存時間分布をログ、ランク検定によって比較する臨床試験を 計画している.対照薬での 1年生存率 π cは 0 . 1 2 5を中心に, 0. 10から 0 . 2 0くらいの範囲にあ るだろうと想定した.さらに,新薬と対照薬での生存率の比 π r / π cは 2を中心に, 1 .8から 2 . 5 くらいの範囲にあるだろうと想定した.このようにあいまいな想定のもとで,何例の症例数を組 み入れるべきであろうか.検出力を 80%,片側検定サイズを 5%,そして患者さんに新薬と対照 : 1に設定して, 1 0 0 0回のシミュレイションを実行したときの必 薬を無作為に劃り付ける割合を 1 要症例数の経験分布を図 2に示す.なお,対照薬での 1年生存率 πe'新薬と対照薬での生 r /e C ,ハザード、比 存率の比 π 1 e,必要事象数 Eの経験分布を目で確認しておくのが安全で ある.それらのヒストグラムを図 3に示す. この事例について,ベストシナリオでの必要症例数は 60例,ワーストシナリオでの必要症例 数は 3 3 6例,リアリスティツクシナリオで、の必要症例数は 1 9 0例である.したがって,私らが提案 した方法は従来の方法を含みこみ,必要な症例数の分布を視覚的に表示する. 3 . 5PH‑Clinicalへの展開 P H ‑ C 1 i n i c a lには多数の機能がある.私たちはとくに,以下の 2つの機能に注目した. • SASフ 。ログpラム l こGUIをもたせる. .SASプログ、ラムをパラーメタのみで、管理する. これまで述べてきた必要症例数の不確実性を表現するためのプログラムを,私らはつぎに, P H ‑ C l i n i c a lに登録した.この P H ‑ C l i n i c a l上のフ。ログ、ラムで、は,まずハザード比をどのように規 定するかを選択させる.かりに,対照薬での生存率および新薬と対照薬での生存率の比から ハザード比を計算させるアプローチを選択した場合には,つぎに,対照薬での生存率および 新薬と対照薬で、の生存率の比のそれぞ、れをシミュレイトするための分布を規定する 3角分布の パラーメタを入力させる.この GUI フ内ログラムの操作画面のハードコヒ。ーを図 4~こ示す.なお, SASプログラムの P H ‑ C l i n i c a lへの登録では同僚の平野勝也さんから支援を受けた. 5 0
20 1 0 60 60 100 120 140 160 160 200 220 240 260 260 300 320 図2 .必要症例数 Nの経験分布 . " ' " OICY lZC ' " 1ω " ・ t " a " ・ 6 ・ 3 " " o 間∞初制河町品目的拘鈎向︒ T / πcの経験分布,左下 Oの経験分布,右下 :Eの経験分布, 図3 .左上 : πcの経験分布,右上 : π 4 . おわりに ここでは,シナリオ分析の発展形として必要症例数を決定するパラーメタに分布を想定して, そこから導かれる必要症例数の分布を考察することで臨床試験における必要症例数を判断す るために開発したソフトウェアを紹介した.数個のシナリオを想定して,それぞ、れに対応する必 5 1
要症例数から考察を進めるとし、うのが従来の方式である.この場合,必要症例数がいわば数 個の「点」でとらえられる.私らのソフトウェアで、は,必要症例数を分布とし、う「面」で捉える.これ /pH‑ C l i n i c a lシステム によって必要症例数の不確実性が明確になる.このソフトウェアは SAS 上に移植することで,操作性が格段に改良されている. 図4 .GUIプログラムの操作画面 生存時間分布の比較を目的とする臨床試験では,着目する事象の発現が少なかったり,事 象の発現までに長期間を要する場合が少なくない.例えば,高血圧治療の長期効果,つまり 脳心血管疾患の予防効果を得るために, 2種の高血圧治療法のいずれが好ましし、かを調査 する研究を考える.そこでは,脳心血管疾患の生起が 2 年間で 3~5%程度であると想定され るカもしれない.このような場合,各群で 2000例という多くの症例数が必要になる.とくに,この ような大規模臨床試験で私らが開発したソフトウェアは不適切な症例数による臨床試験の実 施としづリスク,ひいては社会的損失の回避に真価を発揮すると考えている. 今回は,必要症例数の決定としづ立場からソフトウェアを開発したが,稀少疾患や事象の生 起までに長期間を要するときは,やむなく必要症例数を所与とせざるを得ない状況にも遭遇 するであろう.このような状況では,一般的に αは固定して必要症例数の変化に伴う戸または 1‑s の挙動を検討することになる.しかしながら,社会的に必要な医薬品を開発しているの s で、あれば, を固定して αを必要に応じて変化させるとしづ発想もあってよいと考える. . 2が日本でもリリースされることが発表されている.そし 折りしも, SASシステムのバージョン 8 AS/PH ‑ C l i n i c a lシステム(現行はバージョン 2 . 1 3 )が,そのバージョン 8 . 2に対応すること て , S . 2には魅力的な機能が数多く追加されていることから,これを も発表されている.パージョン 8 機会に他の未開発の状況に対応した必要症例数を算出するソフトウェアとともに,必要症例数 ‑sの挙動を検討するためのソフトウェアを引き続いて を所与としたときの αおよび戸または 1 ‑5 2
開発していきたい. なお,想定するパラーメタの分布は,やはり過去の臨床試験の成績を参考にして規定するこ とになる.その際に問題となるのは,何らかの理由によって結果が公表されていない臨床試験 の存在によって,想定するパラーメタの分布が歪められることで、ある.この問題点に対しては, メタアナリシスを活用して,結果が公表されていない臨床試験の存在を点検し,それらの結果 が公表されていたときのパラーメタの分布を推測することで、解決を図りたい. 参考文献 1 .Machin, D.,CampbeII, M., Fay 巴r s, P .andP i n o l, A . P .Y . ( 1997). SampleSizeTablesf o rClinical 2nde d n .BlackwellScienc巴. S t u d i e s, 2 .角谷伸一,古川雅史 (2001). 歪んだ 3角形あるいは台形の密度関数をもっ乱数の生成. 塩野義製薬株式会社解析センター整理業務 S2001‑070. 付 録 1 SASプログラムリスト:台形の確率密度をもっ乱数を生成するマクロ 安/ ハ作成者:角谷伸一,古川雅史作成田:2001年 5月 15目 数の下限値*/ / 女 a ‑‑> 台形を規定する第 1パラ メタ:生成する苦L / 女 b ‑‑>台形を規定する第 2パラーメタ り /* c ー 〉 台形を規定する第 3パラーメタ */ / 女 d 一一〉 台形を規定する第 4パラーメタ:生成する苦L 数の上限値*/ /* n ‑‑> 生成する舌L 数の個数 */ /* x 一一〉 乱数に与える S A S変数名 */ ハ o dsn ‑‑> 生成した乱数を格納する S A Sデータセット名 */ 毛macro g̲tra(a, b, c, d, n, x, o̲dsn); data &0 dsn; keep &x; h = 2/(品d‑品a+品c一品 b); ェ ユmit1 ニ 0 ; limit2 = (&b一品 a )*h/2; ユimit3 = (2*晶 C 品a 品b)*h/2; ユimit4 1; ニ do i = 1 to &n; u = ranuni(999); if u >ニ limit1 and u く limit2 then do; 品x = 品 a + s qrt(2*u*(&b 品a )/h); end; if u >= ュ ユ mit2 and u <二 limit3 then do; &x = u/h + &a/2 + 品 b/2; end; ユ mit4 then do; if u > limit3 and u く = ュ 品X ニ 品 d ‑ s qrt(2*(l‑u)*(&d‑&c)/h); end; ηペU υ ι output;
︑ αr ︐ . nt e= f 一 一 a 一 q J 一 ︑ 一 α ; n一 一 rapo u m一 n e一 付 録 2 SASプログラムリスト:必要症例数を算出するマクロ ハ 作 成 者 : 竹 内 雅 子 作 成 日 :2001年 5月 22日 /*aユー〉 ひとつの想定値の 3角形を規定する第 1パラーメタ /*b1 ‑‑> ひとつの想定値の 3角形を規定する第 2パラーメタ ハ d1 ‑‑> ひとつの想定値の 3角形を規定する第 3パラーメタ ハ a2 一 一 〉 もうひとつの想定値の 3角形を規定する第 1パラーメタ ハ b2 ‑‑> もうひとつの想定値の 3角形を規定する第 2パラーメタ ハ d2 ー〉 もうひとつの想定値の 3角形を規定する第 3パラーメタ ハ n ー〉 生成する乱数の個数 ハ a1pha ‑‑>第 I種の過誤率,有意水準 ハ beta ‑‑>第 E種の過誤率 (l‑b) で検出力を規定する / 大 fai 一一〉新薬と対照薬を無作為に割り付ける割合, 1:fai / 大 case‑‑> ハザード比を規定する方法を選択するパラーメタ り ハ test ー〉片側検定ならば test=ユ 両側検定ならば test=2 り 大/ り り り げ り り */ 大/ り */ もmacro sim(a1, b1,d1,a2, b2,d2,n,alpha, beta,fai,case,test); も9 tra(&a1, 岳b1岳 , b1, 岳 d1,&n,ransu1,out01); も9̲tra(岳a2, 長 b2, 岳 b2, 岳 d2, 岳 n, 工 ansu2,out02); data ssOl; merge out01 out02; run; data ss02; set ssOl; powerニ ュ ー 岳 beta; fai=&fai; case=岳case; if case=l then do; pai1ニ ransu1; pai2=ransu2; end; if case=2 then do; pai1=ransu1; pai2=ransu2+工ansu1; end; if case=3 then do; pai1ニ ransu1; pai2=ransu2*ransu1; end; theta=log(pai2)/log(pai1); za=probit(l‑&alpha/岳test); zb=probit(l一 長 beta); E=(((fai*theta+1)**2)大 ( (za+zb)大 *2))/(fai*(1‑theta)**2); ー+fai)*E)/((1‑pai1)+fai大(1 paユ2)); N=( (1 ← runi 主mend sim; ハ 3.4節の例示に対応する実行例*/ もsim(0.10, 0.125,0.20, ユ .8,2,2.5,1000,0.05,0.20,1,3,ユ); Fhd Aq
日本 SASユーザー会 (SUG1‑0) SASを用いた統計解析統合システムの構築 0猪 原 辰 也 、 松 下 勲 、 水 井 信 夫 臨床開発部 大正製薬株式会社 ImplementationofS t a t i s t i c a la n a l y s i su n i f i e dsystemusingSASSystem OTatsuyaInohara、I s a oMatsushita、NobuoMizui td . C l i n i c a lResearchD i v i s i o n、TaishoPharmaceuticalCo. • L 要旨 統計解析業務で作成される解析プログラムと作業記録等のドキュメントを効率的に履歴管 理し、作成するフ。ロク、、ラムのバリデーションに対する一つの方策として、統計解析統合システ ムの構築を試みたので報告する c キーワード: バリデーション、履歴管理、標準化 1 . はじめに デ、ータマネジメン卜の分野で、は C l i n t r i a l、Oracle C l i n i c a lなど市販のデータ管理システムが提供 され、ここ数年のバージョンアップ。により機能も拡充され信頼性も高く使いやすいものとなり、多く の製薬企業が導入している c それに比較し、統計解析の分野でのシステム化は遅れており、各社 が独自に構築しているごしかし、このためデータマネジメント部門が症例記録データをクリーニング。 し、完壁な症例データベースを作成しても、統計解析の段階に問題があると、最終的な成果物で ある総括報告書の質が問われてしまうこととなる そこで、統計解析業務におけるブ。ロク、、ラム開発工程を試験ごとに繰り返すのではなく、プログラ ムの標準化と、バリデーション実施済みの工程の積み重ねによる工程管理システムを構築し、ま た、多くの統計解析担当者が悩まされていると思われる、作業記録、プログラム改訂履歴などをシ ステム上で自動的に行うことにより、本来、集中すべき試験計画段階における統計的仮説の設定、 解析計画書の作成および解析報告書作成段階における統計学的な解釈に取り組むことが可能 になるのではなし、かと考えた。 これらの考えを基に、解析結果の信頼性を確保し、確認作業の工程を合理化することを目的と した SASを用いた統計解析統合システムの構築を試たので報告する乙 巳U EU
2 . 解析業務 2 . 1解析プログラムの作成 弊社で、の通常の解析業務における解析ブ。ログラム作成の j 荒れを図 1(こ示す。 図1解析プログラム作成業務の流れ うの一⁝ i庁ム一⁝ 器全 成一一 作 一 ⁝ 一 一 47 劃理大同 必ベ嶋市 デ嬉一 この部分を含む解析 プログラムの作成を解 析計画書記載の集計 項目毎に行う必要が 解析計画書に準じた 集計解析の実施 ある 集計用プログラムの作成 必要に応じ 出力の結果整形を行う 良一グラムの作成 l DMから入手したデータを必要に応じ集計解析用の 2次データ加工を行い、その後目的とす る集計結果を得る為の SASプロシージャに解析用データを引き渡すとしウ過程を経て、最終的 な集計結果を作成している。 その為、データ整形フ。ログ、ラムと集計用プロク、、ラムを集計項目毎にゼ、ロから作成する場合が あり、作業効率の面からも再考すべき点で、あった。また、得られた集計結果を見栄え良くする為 に 、 Excel 等を用いた結果整形用のフ。ロクーラムが必要になる場合もあり、結果データファイルの 履歴管理等の作業が必要となり、個人ベースでのファイル管理で、は今後発生する膨大な量の ソースに対し、その管理が困難となる状況が想定された。 上記の作業を解析計画書記載の集計内容毎に行い、データ整形、集計用プログラムについ てはダブルプログラミングによる結果の突き合わせで、集計結果の信頼性を保証する方策を採っ ているじ 2 .2 ドキュメント管理 解析業務上発生するドキュメントとして、解析計画書、解析報告書等があるが、それらドキュ メン卜については、版管理等の履歴管理が求められる。また、今後はプログラムについてもその ノくリデーション等の記録が必要になると考えられるG それらのドキュメントと作成したプログラム、 結果との整合性をシステム的に管理する必要性があると思われた。 上記のように、解析業務を行う上で発生する膨大な量のフ。ロク、、ラム、ドキュメントを効率よく管 理し、資源の再利用を行うことで、解析業務の品質を確保し、生産性を高める事ができるので ハhu EU
はないかと考えたの 3 . 統計解析統合システムの概要 3 . 1 コンセプト 現在、フ。ログ、ラムを作成する際は夕、フ、ルフ。ロク。ラミンク、、で、プ。ロク、、ラムの作成を行い、結果の整 合性を取ることで、最終的な成果物である解析報告書の品質を保証している。この方法では業 務量は単純には 2倍になり、作成するプログラムの量も 2倍となる。また、それら作成した膨大 な数のフ ロクーラム管理は個人任せであり、その修正に関する記録等も個人に任せたままの状 c 態であった c 品質の確保としづ観点からも、現在統計解析業務の中で大きな比重を占めている ブログ、ラム作成工程の効率化を図り、履歴等の管理を省力化し一元化する必要があると思わ れた。 その為に、フ。ログ、ラムのモジュール化を図り、各モジュール毎 l こバリデーション(動作確認)を とり、モジュール毎に変更履歴を管理し、プログラム開発における工程管理を行う。それらパリ デ、ーションをとったモジュールを~:且み合わせる事で、最終的な実行プログ‘ラムのバリデーションが 保証できるのではなし、かと考えたc また、変更履歴等をシステム上で自動的に取れるように寸る ことで、工程管理の省力化と効率化が図れるのではなし、かと考えた。 3 .2システム概要 今回、構築したシステムの構成概要を図 2(こ示すc 国 2 システム構成 データベース/ファイルサ‑,.¥一側 データベースサ‑/¥ー WindowsNTServer4 . 0 ファイルサーバー ドキュメント、 プログラム、 データ 実行結果、ログ Oracle 8 . 0 . 6 クライアントil!J JWindowsNTWorkstation4 . 0 にd ー 月
・ 本システムの機能概略を以下に示す 0 テーマ・プロトコール管理 システムが管理するテーマとフロトコールを設定する ここで、設定したテーマ・プロトコール ι ・ 毎にデー夕、フ。ログ、ラム、ドキュメントの管理を行う。 ユーザー管理(システムへのアクセス管理) 登録されたユーザに権限(ローノレ)を与える。ユーザーはその権限内でのシステムの機能 ・ が利用できる。 ライブラリー管理 ① 検定手法等の標準ライブラリー化 一般的に使われる検定手法や集計方法を汎用フ。ログラム (SAS マクロ)としてシステ こする C ムにライブラリーとして登録し、テーマ・プロトコール横断的に使用で、きるよう l ② 解析業務のセット化(ノ fターンイヒ) 解析計画書で規定される集計の内、フ。ロトコールに依存しないものをパターン化し、 一つの集計ノミターン(セット)としてシステムに登録し、テーマ・プロトコール横断的に ・ 使用できるようにする c 解析業務に関連する全てのデータ・プログラム・結果の管理(履歴管理を含む) システムに登録したデー夕、プログラムを実行した際の結果(データセット、ログ、リスト)をシ ステムに登録し管理する c その際に実行したユーザ一等に関する情報を実行履歴として管 理する。 以下に、本システムにおける解析業務の手 ) I [ 貢を簡単に示す。ライブラリー、データ等の登録 作業は完了しているものとするつ ① 解析プログラム(モジューノレ)の登録 プロトコーノレ依存のフ。ログ、ラムについてバリデーションを取った後、システムに登録す る 。 ② 解析手 1 ) 買の作成 登録した解析プログラム、標準検定手法、解析セットを組み合わせて必要な解析手順を 作成する r ③ 解析手順の実行と結果の保存 作成した解析手順を実行し、正常終了してない場合はログを確認し、必要な修正作業 を行士正常終了後、結果(実行ログ、結果データセット、出力リスト)をシステムに登録 保存する。実行した解析手 ) I [ 頁のプログラム内容について記載した手順書を自動生成す る事が可能。 ④ (必要に応じ)結果整形を行う ここでの結果整形とは、 Excel帳票等への整形(転記)作業を指す。 ⑤ 各種ドキュメントの登録 解析報告書等、 SOP上必要な書類を作成しシステムに登録する c 今回フ ログ、ラム作成工程において見直しを行った、プログラムのモジュール化について、その c ‑5 8一
Z+ 概念を図 3に示す。 図3 集計プログラムのモジュール化 Eヨ 一ゐ f ごゐ f 二ゐ 一①=②=③一 一工=工=工一 一加=加二加一 一一一一一一一一一 一一ア二一ア二一ア一 円八﹀ 解析用 データ加工 直垂ヨ日 f モジュールの組み合 わせで頻繁に使用す る解析パターンを作 成する 一 円V l : 集計① │ 集計解析 l 1: :[ 検定① n ( 集計② ) :め(解析セット① 円V i l 検定② l モジュールと解析 セットを組み合わせ て一つの集計プログ ラムとしての解析手 Ii頂を作成する [結果整形①) (必要に応じ) 結果整形 G 哩 ? 竺 」 各モジュール毎に動 作確認を行い、バリ デーションをとり、その 後の修正履歴をとる 3 .3 今 後 の 検 討 課 題 現在までに本システムを用いて解析業務を行った結果、以下の点について更に検討が必要 と思われたに ・モジュール毎のバリデーションについて U ハ 川 υ ヘ ﹁
バリデーションを取る際、必要な手1 ) 慣、記録の残し方等 ・履歴情報の管理について 保存されている履歴情報の利用について(検索システム等の追加) フ。ログ、ラム変更履歴、実行ログ、結果データセット、各種ドキュメント等、システムで自動保存さ れる履歴情報と SOP上作成が必要とされる書類との整合性の管理 ‑操作性等のユーザーインターフェイスの改善 プログラムをモジュール化することにより、今までは Iつのプログラムで済んでいたものが複数 のプログラムに分かれる事になり、プログラムの本数の増加が生じる。それらプログラムを登 録・管理する際の煩雑さの解消 .SASV8、OS等のバージョンアップへの対応 4 . まとめ 今回、現在行っている解析業務の内かなりの比重を占める解析プログラムの作成と各種ドキ ュメン卜の管理について、その効率化を図る目的で SASを用いた統計解析統合システムの構 築を試みた。その結果、プログラム開発においては、モジュール化と検定手法等の標準ライブ ラジー化を図ることで作業の効率化が見込めることが示唆された c また、モジュール化等のプロ グラムの標準化を図ることで、今までの個人依存のプログラム管理から、システムを用いた集中 管理が行えると思われる。更に、プログラムについてモジュール毎に動作テストを行し、バリデー ションをとることで、モジュール毎のフ。ログFラムの品質を確保できるものと考える。これによりプロ グラム作成の際の工程管理と生産性の向上が期待できるもとの考えられる。また、システムによ る履歴管理を行うことで、各フ。ロク、、ラムの修正等に関する情報を一括管理で、き、社内監査にも 十分対応できるものと思われる。 今後、操作性の向上等システム見直しと、履歴に関する検索機能等の機能追加を行い、更 にシステムを改良してして予定である。 ‑6 0
日本 S A Sユ ー ザ 一 会 (SUG I-~) SASプログラム情報管理ツール i S P I T S Jによる SASプログラムの管理 0梅山正登 日本ケミファ株式会社 野村豊 臨床開発部 I n t r o d u c t i o no ft h e SPITS"f o rmanagemento fSASp r o g r a mi n f o r m a t i o n s. M a s a n o r iUmeyama Y u t a k aNomura C l i n i c a lR e s e a r c hDevelopmentD e p t .,N i p p o nChemipharC o .,LT D . 要旨 SASプログラム情報管理ツール rSPITSJは、ユーザーの作成した SASプログラムのバージョン管理、 実行履歴の管理を行う。ここでは、本ツールの概要および臨床試験における統計解析業務に使用し た例を紹介する。 キーワード SASプログラム、臨床試験、統計解析、パ 1 )デーション、 DMS はじめに ICH‑E61医薬品の臨床試験の実施の基準(新 GCP)J( l9 9 7年 ) 、 ICH‑E91臨床試験のための統計 ( l9 9 8年)なと。の施行に伴って、電子データおよびそれを取り扱うコンヒ。ュータシステムやソフ 的原則 J トウエアの信頼性の保証が、治験依頼者の責務となった。統計解析フ。ロク、ラムのバリデーションにつ いても、最近関心を集め、手法や手順についても議論されるようになってきた。 ( r e f . 1 )‑4 ) ) いずれに しても、たとえばプロク、、ラム・レビューによる点検やタ守ブ ル・プロク、ラミンク、手法による場合でも、統計 解析フ。ログ、ラムの完成までには計画→設計→作成(プログ、ラミング、コーデインク、、)→検証→修正とし、 う手順をとるであろう。そうした手順が定められた通り l こ実行されたとしづ記録を残して、バリデーショ ンが成立すると考えられる。作成した統計解析プロク、ラムを実際の臨床データに適用して得られた成 績の信頼性を検証する過程でも、同様に記録を残しておく必要があろう。具体的にあげれば、処理 に使用(実行)した統計解析フ。ログ ラムとデータセット、実行時のログ、アウトプットがあり、さらに、作成 6 1一
した帳票、図、解析計画書、フ。ロク、、ラム設計書、検証計画(手1慎)書などとあわせて保存しておくことが 必要であると考えられる。 A Sでは、実行ログ、アウトプット、 しかしながら、臨床試験の統計解析で一般的に用いられている S データセットとし、った S A S由来の記録に限っても、これらを系統的に保存・管理することは必ずしも容 易ではなく、煩雑な作業を必要としたc 今回、 S A Sフ。ログラム情報管理ツーノレ["S P I T S J ( (有)電助システムズ)を臨床試験の統計解析業務で、 使用する機会を得たので、本ツールの内容と利用方法について報告する。 1 . SPITSの概要 1)主な機能 SPITSは SASのディスプレイマネージャ上で、使用することがで、き、起動すると、まず以下のようなロ グイン画面が表示される。ここで、予め登録された正しいユーザ名および、パスワードを入力しないと SPITSを使用することができないようになっている。 当 酬 担 r ‑ ‑ ‑ 1 n 持 一 一 雪 一 7ft l!'<5~ 1 r 盟 I C't 図 1.ログイン画面 ユーザ認証が済むと、以下のようなメインニューが表示される o SPITSでの作業は、このメインメニ ューから必要な機能を選択することにより行う。 一一一一 ヲコテェクト 孟1 ス'71 jプログラム管理 三l ヲロンエクト登録 曹環境醍 1 1 s i 1 1 b 量 調 ユ咋理 l 謡ス伝説 │ 終了 C, 叩y r i g h t (C )2 000, DF . N SUKESYSTEMSC o ., L吋A11r i g h t srPHn;r d 図2 .メインメニュー画面 │ ハhu n F白
SPITSの主な機能には、次のようなものがある。
(
1
)フ。口、ジェクト、スタディ登録
SPITSでは、フ。ロジェクト毎、スタデ、ィ毎に SASフ。ロク。ラムの管理を行うようになっているので、業
務の対象となるフ。口、ジェクトおよび、スタデ、イを登録をする。なお、各フ。ロジェクトあるいはスタディで汎
用的に使用する SASフ。ロクマラムの管理も可能で、ある。
(2)SASフ。ログ、ラム管理
①プログラムバージョン管理
作成したフ。ロク守ラムを SPITSに登録し、 SPITSを通して修正、保存していくことにより、そのパージ
ョンや修正日時、修正者等が自動的に SPITSデータベースに保存されてして。また、修正前のプロ
グラムもすべてデータベースに保存されており、いつでも参照することができる。
間 取F
・
一7 ‑ :
Jる
J
I叩.":'."
u)e
!
μ,", .二三正, ‑>;̲:, '," .:'~:
~a8 悶
丞持金:u
~ニj
高石.i<
e一一一一一‑w.;:::蜘:却 0
:
5
7 九百孟 '
,
‑
.
,
.
O.
,_!~ ‑:
‑
:
戸 it
一一?で一一‑
アヲ"ル沿
重荷書記
エディ間申容認
F
l
u t
フ予何時
僧正血豆
一
三
宣
J
f
t
t
!1
ヰ
一一一
・
一 貫何
R 圃置
C
ど
お Zf i
':
, ~:,.' ,
:
i
:~ :
.
'
:
.
‑
, ‑ ι
::;;‑‑‑‑r;;;芯志士一一一一一一町支持官官万全宮古,長一
r'~'i'
,,:亡ノト l守 口
'
" '"仁村:.‑,‑'.'
ーと河
j
田牌韮
f父 、
主
‑
.
'
:
" :
'~ '..(1:吋ロ
「 量民緯
一会
一 IH一」
図3
.プログラム管理メイン画面
E二E三
コ
p
h
υ
ペ
ηu
②フ。ロクーラム実行履歴管理
SPITSに登録したプログラムを SPITSを通して実行することにより、実行されたプログラム、アウト
プット、ログ、および実行日時、実行者等の情報が自動的に保存される。さらに、プログラム中で使用
したデータセットや中間で、作成したデータセットさらに M
i
c
r
o
s
o
f
tE
x
c
e
lや HTMLファイルへの出
力等、あらゆる形式のファイルをフ。ロク、、ラムの実行単位で一括して保存・管理することができる c 保 存
されたファイルは、オリジナルのファイルが削除された後で、も任意に再現することがで、きる。
また、 SPITS には「フ。ログ、ラムロック」と呼ばれる機能があり、そのプログ.ラムの作成者(登録者)以
外が修正や実行をできなし、ようにすることもできるようになっている。さらに、 SPITSで保存されるす
べてのファイルは、 SPITSデータベースと呼ばれる SASデータセットに格納されてしもので、後から
修正等をすることも一切できない。
M ' V 河 ‑ " 初 回 初 、 , ." M
局、普喝
,,'119
ニJ~ 旦盗坦l 呈且I ..ill!国J"']量回Ll出塗UI -1民Ll'TII豆凶
凶
盟iiiiIiIII!Ð己主二一-^,"5 r"'3:~.I:ムニむこ万三こ三三三ここ二ι 三二二一三二ご二二二」二 4出l
ト
自!
VilliHAils
C可丈百E五r, ι;::;.
;
i
.
'
:
:
'
1
掴;",
断討さ2
E
J
3
4
5
'
p
r
z
;
l
J
L
A
T
E
H
R
tト ー . , 唱 で マ
」
廊。総中
明瞬間しますか:̲̲jか…11>0'906'".… 5=15
仁豆豆コ
.世主:̲jL
.
ι一一一一詰
6
7
8
¥
.
崎
.
,
.
崎e
吋,隅…民
p
.
忌.
.
.
.
正
.
鼠 {?応援聖誕芹齢描士~;;
ω
1 r
U
'
I
;
ρ回 SPIJS SI.凪(T OO21~テ∞ 16: 5:5 :58 fU/
図5
.プログラム実行時の登録確認画面
一
」
一 一 竺L
図6
.プログラム実行履歴画面
‑64‑
( 3 )ユーザ管理 S P I T Sでは、フ,00 、ジェクト毎、スタディ毎にそれぞ、れユーザを登録し、登録されたユーザごとに、 「すべての作業可」、「スタディ登録、フ。ロク ラム登録・実行可 JI プログラム登録・実行可」、「情報参照 o のみ可」のうちのいずれかの権限を付与することができる。 ( 4 )管理用書類印局J I M i c r o s o f tE x c e lを使用して以下のような管理用の書類を作成することができる。 ①登録プログラムリスト ②プログラム修正履歴 ③プログ ラム実行履歴 ④登録ユーザ情報一覧 2)稼動環境 現在、弊社では S P I T Sを以下のような環境で使用している。 S e r v巴r :COMPAQALPHASERVER M i c r o s o f tWindowsNT4 . 0 SPITSDatabase ー C l i e n t:FUJITSUFMV M i c r o s o f tWindows95/98 M i c r o s o f tE x c e l 図7 .S P I T S使用環境 ρhu 巳U
2 . 統計解析業務における SPITSの利用 1)統計解析業務のフロー 弊社では、統計解析業務の流れは次のようになっている。 これらの業務を実施した証跡として、さまざまな記録類が保存 されるが、それらは「統計解析管理記録」としてまとめられる。 そこには、たとえば統計解析計画書変更記録や統計解析フ。ロ グラムの作成・変更履歴、解析フ。ログラムの点検の記録などの文 書、解析対象のデー夕、解析プログラム、解析の過程で作成され たデータセット類、解析の結果を出力した帳票なと、の電子ファイ ルなどが含まれている c この一連の手続きを統計解析業務のバリデーションとするとき、 「統計解析管理記録」はこの手続きが定められた通りに行われた ことを保証するための記録としづ位置付けになる。 しかしながら、解析フ。ロク守ラムの作成・変更履歴やそのプログラ ムとともに実行ログ、アウトフ。ット、関連するデータセットなと。を保 存・管理するのは大変煩雑な作業で、必ずしも十分に実施されて いたとは言し、難し、状況で、あった O そこで、今回 SASフ。ログ、ラム情報管理ツーノレで、ある S P I T Sを導 入し、おもに解析フ。ログラムの作成・編集の過程に使用したc 2)プログラムの登録 S P I T S にプログラムを登録する方法は、①すでに保存されているフ。ロク、、ラムファイノレから行う、②プ ロク、、ラムエディタから行う、の 2通りある c ②の方法は、フ。ログラムエデ、イタで、フ。ログラムを作成した後、 すぐに S P I T S に登録できるので、プロク、、ラム作成時に便利で、ある c いったん登録すれば、あとは S P I T S が保存・管理してくれるので、保存先ディレクトリなどを気にする必要がない。ただし、プログ、ラ ムエディタから登録したプログラムは、 S P I T S上のファイル名表示はすべて同一名 干 (S P I T S干SPITSWORK 干T EMP̲)となる。このため、内容説明の欄に、フ。ロクーラム識別コード、を入力す るようにした。 ρhu pnv
間隔 。1 0 : 胃 ω1 ファイル名 πsVSpits 附 r k V j ε m p ̲・ 部 登録日時 ,山i 1 1 6 M A Y 0 1: 1 2 :5 8 :5 8. ! ! 主l ド I T O 問者背景集計:年齢体重 削 現在の.~ 「 マ 図8 .プログラム管理メイン画面(部分) 3)プログラムの実行履歴 フ。ログ、ラムを点検するときの実行履歴として保存する記録は、プロクずラム、点検用のサンフ。ル・デー タセット、実行ログ、アウトフ。ット、さらにプロク ラム中で、作成されるデータセット、結果としての帳票類 v P汀 S上で、フ。ログ、ラム などである c これらを一括して保存しておくことは従来大変手聞がかかったが、 S を実行すると、実行日時、実行者名とともに実行したフ。ロクーラムとその版(パージョン)、実行ログ、アウ トプットのいわゆる 3点セットは自動的に保存されるc そのほか、下のように、その他追加保存したい ファイルを指定する命令文をプロク ラム中に書いておくと、実行時にデータセットやその他の文書類 o も一括して保存することができる。本機能はプログラム点検時のみならず、中間解析、ブラインドレビ ュー、症例検討会、キーオープン時解析、最終解析など節目の解析作業について、実行履歴ととも にその時点のデータセット、各種帳票類や文書の一括保存に利用することが可能で、資料の整理に 役立つことが期待される c / 本 s p iI sa d d s e m i n a r .s e m i n a r 本/ ……点検用データセットを保存 / 本 s p i l sa d d k a i 1 m 2 本/ 本 / s p i l sa d d [ d :f !s p i l s半s e m i n a r半成績 1. X[ s J 本/ …… …… w o r kのデータセットの保存 成績表の保存 プログラム実行履歴といっしょにその他のファイルを保存する命令文の例 取一一実J~千白 E寺 │ 保存ファイル 努寸著 豆亙『ーす 1 2 3 M A Y 0 1 :1 1: 5 8 : 2 6l u m e y a r n a 竺J~rIC:YSιS¥S,Il.SWO限付T03811 Tl'kai1m2.s,ー豆旦Jl 豆主J i 寸 1 2 3 M A Y 0 1 :1 4: 2 5 : 0 1l U r 陀y a m a IC:¥s.~S'iS,1\S\",' mK'IIIT038117半~kai2m2.S1 ~主」 豆豆J i ー す1 2 4 M A Y O1 :1 4 :5 0 : 0 0l u m e y a r n a 豆亙J i ー す1 2 9 M A Y 0 1 :1 8 : 4 2 : 3 4l U 岡 山n 竺l I d : ¥S Pi t s V .s t 2 :r n i n ar'~景福 1.;ds ー亘主」 ゴ 図9 .実行履歴を表示した画面(部分):左側に実行したプログ、ラムのバージョン、実行日時、実行者名が 表示され、右側に保存されたファイルなどが表示されている。 ハ zhu 月 ' '
4 )プログラムの修正履歴 プログラム点検後やプログラム作成計画書が変更されたときは、プログラムの修正が必要となる。 SPITS 上で修正・登録を行うと修正理由とともに次の版として保管され、修正の履歴が一目でわか る 。 i C :干S T ' s Y s をm i n a r Y p r o g r a r o 4 . s a s 1 改 善 度 上 2集計令工クセ)I 騨読計解析計亘書解析用データせント セシトをいっしょ仁保存φ 阪 i~iEB碕 修正者 ' N O R f i,子ータ I j草正内宮・理由等 12 2 M A Y 0 1 : 1 5 : 0 6 : 5 4u m 卸 釘4 保存するエクセルファイル名を修正。 22 2 M A Y 0 1 : 1 5 : 4 6 : 1 2u m e y a 悶 32 2 M A Y 0 1 : 1 5 : 5 0 : 4 7u m e y a m a 42 3 M A Y 0 1 : 1 4 : 2 4 : 5 4u m e y a m a 寵忍係議辺誠藷系議会認さ土笠 図 10.プログラム修正履歴の画面(部分):左側にこれまでの修正履歴が表示され、右側に選択した修 正版の修正内容・理由などが表示される。 修正後、更新されたプロク、、ラムを S P I T S上で実行し、実行履歴を記録する。 5)%INCLUDEの使用 統計解析のメインプログラムは、サブルーチン(モジューノレ)、マクロなど他のフ。ログラムを呼び出し 汀 Sに登録されたプログラムは S ASデータセット形式に て実行するだけの構成であることが多い c SP 変換されているが、ユーティリティの使用によりオリジナル形式の SAS プログラムを必要とせずに、 SP汀 S{こ登録されているプログラムを%INCLUDEによって実行することがで、きる。 6 )文書の履歴管理 S P I T Sがあらゆる形式のファイルを保存で、きる機能を使って、統計解析計画書なと、の履歴管理を行 / * SPITS̲ADD:X X X X * / J形式の命令文により保存したいファイルを指定する うことができる c r だけのプログラムを作成・登録しておいて、統計解析計画書などが更新されたときこのプログラムを実 行すると、実行履歴の中に更新されたファイルが保存される。保存されたファイルはいつでも再現で きるので、オリジナノレは上書きで、更新していくことができ、常に最新のものとなっているため、誤って古 し、パージョンの文書を参照する心配がない。 nhu nD
3 . 考察 今後の信頼性保証にはバリデーションの概念が必須で、ある c 臨床データにおける統計解析はプロ トコールご、とにオーダーメイド的になる側面があり、ノザデーションをイメージすることが難しかった C し かし、フロロク、、ラムの信頼性を検証する手続き(もちろん、完全に保証するのは不可能としても)は常に 存在するはずであり、その手続きが計画されたものであり、その通りに実行されたとし、う記録があれば、 すなわちバリデーションとし、うことになろう c S A Sプログ ラム情報管理ツーノレ i S P f T S Jは、これまで保存・管理が容易で、なかった SASプロク、、ラム・ ログ・アウトフ。ット・データセットの一元管理を実現するばかりで、なく、その他のドキュメントファイルなど も同時に保存・管理することが容易に可能である c この機能を活用することによって、先に述べたパリ デ、ーションに必須となる記録を保存・管理することが可能となる。 P f T Sを使用しながら統計解析業務を実施することにより、古いバージョンのフ。ロク守ラムの さらに、 S 誤用、データセットの誤用、アウトプットの取り違えなとーの危険率が減少することも期待で きる c また、 S P f T Sは 、S AS のテ イスフ。レイマネージャシステム ( D y ! S )を使いながらプログラムを(無造作 c に箱の中に投げ入れる感覚で)保存し、修正・履歴を記録することができるため、プログラミング作業 に集中できる。これも、フ。ロク、 ラムの品質を高める方向に作用することが期待される c S P f T Sの仕様について、まだいくつか改善すべき点があるものの、現時点でも臨床試験の統計解 析業務の信頼性保証に非常に有用なツールで、あると評価したい。 参考文献: 1 ) 特別テーマ「統計解析ソフトウェアおよびコンヒ。ュータフ。ログ、ラムのウーァリデーション」、第 1 1 回日 本計算機統計学会シンポジウム論文集、 p p. 41 ‑ 7 2、1 9 9 7 . 4回シンポジウム論文 2 ) 特別セッション②「統計解析のバリデーション」、日本計算機統計学会第 1 集 、p p . 8 3 ‑ 1 0 1、2 0 0 0 . 3 ) 菅波秀規、益田隆史、タ守フマルフ。ロク、、ラミンク守による統計解析の品質管理、 S U G f ‑ j 2 0 0 0論文集、 5 7 ‑ 6 4、2 0 0 0 . 4 ) 佐々木徹也、臨床データ解析における S A Sプロク守ラミンクーバリデーション、 S U G f ‑ j 2 0 0 0論文集、 1 4 9 ‑ 1 5 6、2 0 0 0 . 6 9
口頭論文発表 システム
日本 SASユーザー会 (SUG1‑0) 大規模 SASシステムの構築と運用 0衛 藤 岳 弘 松下正之 サン・マイクロシステムズ株式会社 B u i l d i n gandManagingLargeSASSystem TakehiroEto MasayukiMatsushita SunMicrosystemsK . K . 要旨 株式会社 SAS インスティチュートジャパンとサン・マイクロシステムズ株式会社は これまでに数々の共同検証、ベンチマークを行ってきた。 今回はこれまで行ってきた検証項目から、 Sun のハードウェア上における大規模な SASシステム環境の梢築と,システムの運用におけるポイントを述べる。 キーワード MPCONNECT,Memory,vmstat,pmap 1.はじめに 株式会社 SAS インスティチュートジャパンとサン・マイクロシステムズ株式会社で はこれまでに数々の共同検討、ベンチマークを行ってきた。この論文ではこれまでの成 果を基にして、 SASシステム R8.1以降の新機能である MPCONNECT、またシステム構 o l a r i s 標準の測定ツールの中からメモリに関するツールにつ 築後の運用管理に有効な S いてポイントを当てて解説する。 2 . MPConnect SASシステム R6.12では、フログラムはシングルフロセス、シングルスレッドで動作 していたため、サンのエンターフライズサーバのような複数 CPU を搭載したマシンに おいて効率よく CPUのリソースを使用することが出来ませんでした。 SASシステム R8.1 以降では、 MPCONNECTを使川することにより 1つのフログラムから処理を同期/非同 期に控数実行することが可能になりました。この機能を使用することにより複数 CPU を搭載したサーバにおいても効率よく CPUを使用できます。 ‑7 3
検証プログラム プログラム 1 :従来のパターン プログラム 2 :MPCONNECT使用 O p t i o n sf u l l s t i m e r ; o p t i o n sf u l l s t i m e r ; l i b n a m ed a t a1 / d a t av o l l " o p t i o n sa u t o s i g n o n : = y e s ; .d a t a s e t1 ; d a t ad a t al r s u b m i tsascmdニ" / u s r / l o c a J / s a s 8 /s a s "p r o c e s s = d a t a1w a i t = n o ; a r r a y a ( 1 0 0 ) ; d a t a ̲ v o l l" ; l i b n a m ed a t a1 / doj = 1t o2000000; d a t ad a t al .d a t a s e t1 ; doi = 1t o1 0 0 ; a r r a ya (1 0 0 ) ; a ( i ) 弓 ¥ d oj 二1 t o2 0 0 0 0 0 0 ; e n d ; d oi = 1t o1 0 0 ; a (り= J ; o u t p ut ; end e n d ; d r o pi j ; t o u t p u: e n d ; r u n ; d r o pi j ; d a t ad a t al . d a t a s e t 2 ; a r r a ya ( 10 0 ) ; r u n ; e n d r s u b m i t ; doj =1t o2000000; r s u b m i tsascmd="/usr/local/sas8/sas"process=data2w a i t = n o ; a t a ̲v o l1" ; l i b n a m ed a t a 2 /d d a t ad a t a 2 . d a t a s e t 2 ; .d a t a s e t1 0 ; d a t ad a t al a r r a ya (1 0 0 ) ; a r r a ya ( 10 0 ) ; doj = 1t o2000000 doi = 1t o1 0 0 ; a ( i )二j; e n d ; ; o u t p ut e n d ; r s u b m i tsascmd="/ u s r / l o c a1 /s as8/sas"p r o c e s s = d a t a1 0w a i t = n o : d a t a ̲ v o l l" ; l i b n a m ed a t a1 0 / d a t ad a t a1 O . d a t a s et 10 ; a r r a ya ( 10 0 ) ; doj = 1t o2 0 0 0 0 0 0 ; d oi = 1t o1 0 0 ; d r o pi j ; a ( i) = j ; r u n : e n d ; ; o u t p ut e n d ; d r o pi j ; r u n ; : e n d r s u b m it w a i t f o r̲ a l l ̲d a t a1d a t a 2d a t a 3d a t a 4d a t a 5d a t a 6d a t a7d a t a 8d a t a 9 d a t a1 0 ; ‑74‑
使用ハードウェア
SunE
n
t
e
r
p
r
i
s
e4500(UltraSPARCI
l400MHzx1
0,5GBMemory)
SunS
t
o
r
E
d
g
eA5200(
9
.
1GB10000rpmFC‑ALD
i
s
kx2
2:SASデータセット格納用)
SunStorEdg巴 M
u
l
t
i
P
a
c
k(
9
.
1GB10000rpmx2:OSImage,
SASI
m
a
g
e
)
検証:所要時間の比較
プログラム 1とプログラム 2で作成するデータセットの数を増やしていきながら、作
成に要した時間を測定いたしました。データセットの格納場所は A5200のディスク 22
本をストライブ,o(
R
a
i
d
‑
O
)構成で作成した Rawデバイスに 40GBのファイルシステムを作
成しました。
作成した各データセットのサイズは約 1.6GBです。
[~[ 1 データセット格納場所が lつのボリューム仁での構成
100C
90C
800
700
~
600
怠
)
i‑+‑
ーシリア Jレ
ト4
MPCONNECT
ー
‑
.
吾 日D
剛
t
$ 400
300
_,,~._v.- ま;
200
I
D
O
ー一一一一一一一古川
一
一
一
一 戸 、μ
一山
一
ー
ト
一一一一 一
ぜ
λ
5
1
0
デ タ セ yト敏
グラフ 1 データセット作成における MPCONNECTの効果
従来のシ 1
)アル処 I
'
Hと比較して MPCONNECTを使用することにより全体の処理時間
が大幅に短縮出来ることが確認できました。今日の検証では比較的単純なプログラムを
1ています。 MP CONNECTを使用する場合は扱
使用したため、はっきりとした違いカ{/"
うデータ同士が非依存で、あり、データ処JlI!が非同期に出来る場合に限られますが、使用
i
可能な場合は複数 CPUを搭赦したサーバ上で使用することをお勧めいたします。
にU
ワI
先ほどのグラフ 1において MPCONNECTを使用した場合、データセットの同時作成 数が 5個までは処理の時間はほぼ一定に推移していたのですが、 5個以上の同時作成に おいて所要時間が増加していきました。データセット同時作成数 3個と 5個におけるデ ィスクの使用状況を見てみます。 100 90 8 0 70 > ‑ ~ 6 0 妥 産50 出 : d 40 0 30 2 0 1 0 。 時間(秒) グラフ 2 同時データセット作成時におけるディスクの使用状況 データセット同時作成数が 3個の場合では CPUの使用率は平均 40%ぐらいでありまし 1 阻の場合は平均 80%でした。この検証では先ほど述べましたが、 22本のテ会イスク たが、 5 に対してがJ40Gの Rawデバイスを Iつ作成し、そこにファイルシステムを作成していま した。この場合では同時 10の時では 10個の書き込みが 1つのファイルシステム (Rawデ バイス上)に同時に書き込まれているため競合が発生していると考えられます。 そこで 22本のディスクに対して 2Gの Rawデバイスを 10個作成し、そこにそれぞれフ ァイルシステムを作成いたしました。 1つのデータセットを作成する領域として 1つのファ イルシステム (Rawデバイス)を割り当てました。 / s a s d 1( d a t a s e t l格納用) / s a s d 2( d a t a s e t 2格納用) / s a s d 1 0( d a t a s e tlO格納用) 玄 │1 2 データセット格納場所が 10個の場合のボリューム防成 円 Ft ハhu
凶 2の構成において MPC ONNECTを使用して 1 0個のデータセットを作成した場合の 時間を前の構成の時間と比較しました。 ' 1 1 ¥ 1 ;] J X;変更前 274秒 七完成変更後 228秒 構成を変更することによって、約 20%の所盛時間の改善が見られました。このよう に競合となる部分の村む記を変更することによりパフォーマンスにかなりの影響が出る こともあります。大規模な SAS環境において、特に今後 MPCONNECTを使用して SAS システムを作成する場合にはストレージの選択とコンフィギュレーションに注意して いただきたいと思います。 3 . SASシステムの運用について SASシステムの運用においては、継続してシステムを監視し、障害を未然に防ぐ必要 o l a r i sには標準コマンドとしてシステムの様々なリソースの状況を測定す があります。 S るツールがあります。ここではそれらのコマンドの中からメモリに関するツールのご紹 介と使用する際のポイントについて解説します。 vmstatUusr/bin/vmstat) S o l a r i sの vmstatはシステム内のフリーメモリ、ページングカウン夕、ディスクアク セス、システムコールや CPU使用状況などのシステムの様々な動作状況を出力します。 usapol 1 ' ) { , v mstat1 p r o c s memory page d i s k f a u l t s cpu r e e remf p i pofrde s r s6s8s9s1 111 s rb¥V swap f y c s uss yi d 000525147242452880 2 1 1 1 0 0 0 0 0 01239 311 130 0 099 000524172842250640 8 0 0 0 0 0 0 0 0 01256 537 244 1 099 000524172842250640 0 0 0 0 0 0 0 0 0 01254 281 112 0 0100 1)最初の行 vmstat の最初の行はブート時点から現在までの平均値であることに注意してくだ さい。ワ│数として数値を与えると与えた時間単位で情報を採取し、 2行日以降に順次 ' 科目を採取しでも 1秒あたりの平均値が出力され 表示していきます。仮に 3秒間隔でh ることに注意してください。 2 ) フリーメモリ S o l a r i sではあいているメモリをファイルのバッファリングのために使用します。通 常f r e eの値が少なくなっていますが、アプリケーションに対して十分にメモリが足り ていることはよくありますので汀:怠が必盟です。 3 ) スワップ的域 vmstatは空いている swap間域の世を表示します。一般に /tmpは swap領域を使用 ;じて /tmpのサイズも変化します。空き するため、空いている swap傾城の大きさに},t swap領域のサイズを剥べる符易な手段として d f‑k/tmpを実行する方法があります。 77‑
ただし、 /tmpに大きなファイルを置いて一杯にしてしまいますと、システムの swap 領域の低下を招いてしまい、アプリケーションのパフォーマンスに重大な影響を及ぼ す可能性があるため、注意が必要です。 4 ) ページングカウンタ vmstatのページングカウンタは、仮想メモリシステムがどの程度忙しいか、またメ モリリソースに何らかの問題が無いかということを監視する手段を提供します。初め に scanrate(sr)を見てみます。この値が常に 0である場合は、ページアウトスキャナ が動作していないためメモリ不足は発生していません。ところが scan rateが 0でな い場合でも必ずしもメモリ不足であるとは限りません。ファイルに対するランダムな 1 / 0が発生している場合にはバッファキャッシュの大量消費を引き起こします。その )ーメモリを消費することになり、フリーメモリの量がある数値より低 F する 結果フ 1 とページアウトスキャナが起動し、 scanrateが 0でなくなります。 ではメモリ不足を見極める方法として 2つの方法をご紹介します。 ファイルシステムに対する1/0がほとんど無いようなシステムでは、ページカウン タを見て判断することが出来ます。メモリ不足のシステムでは page out(po)や scan r a t e ( s r )の値が極端に大きくなります。 / 0が多いシステムでは、ページングが多く起こり、 scan ファイルシステムに刻する 1 rate の値も大きくなることがありますのでこれだけでシステムのメモリ不足を見極 めることは困難です。そこでスワップデバイスの1/0 をモニタリングする必要があり ます。 iostat‑xnp コマンドにより各スライスごとの1/0 をモニタリングすることがで きます。ここで OSを普通にインストールしている場合には s l がスワップ領域です ので、このスライスの1/0 を監視します。 pmap( lusr/proc/bin/pmap) アプリケーションがどのくらいメモリを消費するかということを予想することは、今 後使用ユーザが培えたときにどのくらいメモリが必要になるかを想定するのに必要で す 。 Solaris2.6以降では pmap ‑x を使用することにより得ることができます。ここでは 例として MPCONNECTの時に使用したプログラムについて調べて見ましょう。 l Is apon#p s. e fI~rep s a s , 0 :1 8 lusrllocaVsas8/sas . DMR .SET SASCLIENTPORT 3 .SET 294G 2 ! J4 0 1 .1 5 :1 ; ; : 5 8p t s / l 0 ・1 8l u s r l l o c a V s a s 8 / s a s. D l v l R .SET SASCLIENTPORT G .SET s a s 8 2 2 9 . 1 3 2~)<I 0 1 .1 5 :1 5 : 5 ip t s l l 1 : ; :1 1.SETINH SASDAE恥WNPORT: S九お 8 2 v IONPORT3 5 5 1 1・SETINH SASDAEl ! J4 4 2! J4 0 41 5 : 1 5 : 5 ip t s / l s a s 8 2 2 0 ・ 2 0l u s r l l o c a V s a s 8 / s a s .DMR .SET SASCLIENTPORT < 1 ・ SET ' v IONPORT3 : ; 5 1 1.SETINH SASDAEl I ヴ nD
I I吋 lpon#pmap' x2 ! J . l: l ~D ー 1:1 I l l s r / l o c aIl抗日日I s a s' I lM R' S I と' lSλSCLIENTI 'OWr3 :・ SETS:¥SDAEMONPOln: 1 ; ' 5 1 1 : ¥ d d r e討お K b ¥ ' t e持 ] { c日dcntSharcdP r i v a t c ()000000000002000 8 8 0000000100000000 . 1 9 2 H : l O: 1 2 00000001005CEOOO 1 0 : 3 2 ()OOOOOOI00GDOOOO 120 Pcrmissions i l e M日ppcdF n .d r c [anon1 2800 232 r c a d / e x c c s . a s : 1 : I G liG r e a d / w r i t c f e x c c s a s 1 0 . 1 r e a d / ¥ ¥ ' r i t c / c x c c [heap1 8 1 0 . 1 FFFFFFFFi, ¥GOOOOO : 1 2 32 、 八r i t e / e x c c r e a d [anon1 ドFFFFFFFi , ¥iOOOOO 1 0 1 0 1 0 r e a d / ¥ ¥ ' r i t c / e x c c ドドド FFFFFi ょ ¥ / : lO OOOO H 持 H r i t e / e x e c r e a d八v [anon1 anon1 1 ドFFFFFFFi , ¥ ! Jooooo l K l H ドFFFFFFFiAAO.¥OOO H 日 1 0 H r e a d / e x c c s a s ¥ ¥ ' g p 日 / w r i t e / c x c c r c川 l s a s ¥ ¥ ' g p l 'ドFFFFFFiAsOOOOO ιOK . I O H 1 ・ c a d / c x c c s . asdsa FFFドド FFFi, ¥C9GOOO : 1 2 2,1 2 . 1 r e a d , 八' r i t c / e x e c sasdsa FFFFFFFFi, ¥DOOOOO , )( i 2; 200 200 r e a d / w r i t e 1 a l l o n1 ¥EOOOOO FFFFFFFFi, ] ( ; 1 ( ; 円 r c a d / e x c c sasds : I K . l 日 ド ド FFFFFFiFi1 EOOO K K 日 ' r i t c l e x c c r c a d八¥ l d . s o . 1 FFFFFFFFiFi20000 H K 目 ' r i t c / e x e c r e a d八¥ l d . s o . 1 FFFFFFFFiFFDGOOO WH I G H 1GB r c a d / w r i t e 1 s t a c k1 t o t a Il~b I : lG . I O K : 1 2 0 4! li G : 3 3, 1 ' 1 pmap‑x の出力は、 M PCONNECTを使川して実行されたある SAS のプロセスが実際に は8 3 2 0キロバイト (ResidenttotalK b )のメモリを使用していて、この中で 4 9 7 6キロバイ b )は仙のフロセスとの問で共有されているということを示しています。 ト(Sharedtotal K b )のプライ また pmap‑x コマンドは、 SASのプロセスは 3344キロバイト (PrivatetotalK ベートメモリを使用するということも示しています。この部分は他のプロセスと共有さ れないメモリであるため、仙の SASフロセスも 3344キロバイトを消費しているという ことを示しています。 4 . おわりに 今回は紙而の間合 1 :M PCONNECTの動作二に関する検証と、メモリに関した測定のポ イントをご紹介しましたが、株式会社 SAS インスティチュートジャパンとサン・マイ クロシステムズ株式会社では今後とも保々な検 ~IE やベンチマークを行い、情報を提供し て参りたいと思っております。 5 . 謝辞 本論文を完成させるに当たり、検証!日データの準備や保々なアドバイスをご教授いた だいた株式会社 SASインスティチュートジャパンの谷川 隆一氏、並びに社員の皆様、 またハードウェアの附成に関して技術的支援を民いた角間 厚志氏、末永 泰久氏、酒 ) 1 : 俊徳氏、その他大勢の皆保に深く感謝 r ! Jし l 二げます。 ‑79‑
6 . 参考文献 TheS o / a r i sMemorySystem‑ S i z i n , gT o o / sandA r c h i t e c t u r e一 ' r b ! . t . E ! J/ 史笠旦包 n .com/竺恒也E生h i r ̲ 9 ̲ : pa r t y/g l o b al /S A S / p c l f / v m s i z i n g . p d f T u r b oC h a r g i n gSASA p p / i c a t i o n si nS o / a r i sEnvironments:ManagingH i g h / yPerforming A p p / i c a t i o n si nLargeM u / t i ‑ U s e rEnvironment ,M aureenChew,や試旬 ω出 y・ 1 s t ' r h t t p : / / w w w . s a s . c o m / p a r t n巴r s /d i r e c t o r y/s u n / m g m t / i n d e x . h t m l M u / t i p r o c e s s i n gw i t hV e r s i o n8oftheSASSystem ,C h e r y lG a r n e τ y h立2_:_ι丘巴旦E主回全自 hs~'p'/ download/technote/ts632.pdf SAST e c h n i c a /NewsS p r i n g2001 8 0 ←
日本 S A Sユーザー会 (SUG 1‑0) I TServiceV i s i o nソフトウェアを使用した パフォーマンス/キャパシティー管理システムの構築 白石哲夫 D&I情 報 シ ス テ ム 株 式 会 社 運用業務部部長代理 B u i l d i n gPerformance&CapacityManagementSystemu s i n gI TS e r v i c eV i s i o nSoftware Te t s u oS h i r a i s h i D&II n f o r m a t i o nSystemsI n c . A c t i n gG e n e r a lManager ,S ystemsO p e r a t i o n&A d m i n i s t r a t i o n 要旨 本論文では、サービスレベル管理やノ《フォーマンス/キャパシティー管理の意義・重要性について簡記する と共に、自社ニーズ、実現のため、パッケージソフトを導入して自社開発した経緯・機能についても述べる。 開発目標としては、①ノ ξフォーマンス/キャパシティー管理の強化、②同管理の生産性向上、③同管理の一元 管理、④同管理のデータ共有化、⑤アプリケーション部分の限界値管理の集中化を挙げた。また、経営層から 実務担当者までの幅広いユーザーを対象とし、各立場に応じた多様な情報還元手段を目指した。 e r v i c eV i s i o nソフトウェアを使用し、日次自動運用を含め実現できた機能及び運用始後 開発ツールとして ITS の課題等も含めご紹介する。 キ ー ワ ー ド : サービスレベルパフォーマンスキャパシティー汀 S e r v i c eV i s i o nソフトウェア 1 .はじめに 金融情報システムのアウトソーシングを営む当社にとって、アウトソーシング契約におけるサービスレベルの維 持・管理は最重要項目である。仮にシステム障害が発生した場合、当社の信用ばかりでなくお客様の信用にも 大きく影響する。常日頃から事前保守やパックアップ管理はもちろんのこと回復管理や変更管理を十分におこ ない人的ミスは皆無にしなければならない。小さな障害であっても発生日時やタイミング、によってはサービスレベ ルへ大きな影響を及ぼすことがある。障害を小さなうちに摘み取ると共に再発防止につとめ、高品質のサービス 提供がサービスレベル管理の大きな目標である。 ・ ・ ・ ・ サービスレベル管理の管理手法は多岐にわたるが、大きく以下の 6つに集約される パフォーマンス管理 サービスレベルの維持管理・報告 キャパシティー管理 システムリソース管理、増強計画 問題管理 サービスレベルの問題解決・再発防止 回復管理 回復手順およひやフォールパック 8 1 0
‑ 変更管理 サービス環境に影響がある変更の監視・管理・保守・実行 ・ 構成管理 関連設備全体の構成に関する計画・変更・導入管理 どの項目もサービスレベルを維持/管理していくうえでは重要な項目であるが、特に専門性が要求されるパフォ e r v i c eV i s i o nソフトウェアを基盤開発ツールと位置づけ、自 ーマンス管理/キャパシティー管理について ITS 社開発をおこない、運用を開始した。 以下に当システム開発の経緯・構築および今後の課題について述べる。 2 .当システム開発の経緯 金融情報システムは金融機関同士の競争の最前線であると共に、公共性やお客様へ直接の影響度の大きい システムである。 例えば、システム障害により数十分システムが停止した場合、翌日の新聞には ~x銀行の ATM が数十分停止 した』と記事になる。これは、お客様へご迷惑をおかけするばかりでなく、お客様の信用(社会的評価)、さらには、 お客様のお客様(利用者)にも多大なご迷惑をおカ けすることになる。 h また、 ~X銀行の ATM は早いけれど、 Y銀行の ATM は遅し、』といった話を耳にすることがある。早い・遅し、とい っても数秒の違いであろうが、早し、と評価されればシステム担当者としてうれしし、ものであるが、逆に遅し、とし、ぅ 評価をうけると原因究明の必要性が発生する。 現在のシステム状況を正確に分析・評価し、最適なシステムリソース配置情報を提供するパフォーマンス/キ ャパシティー管理は重要になってくる。 2 . 1 パフォーマンス管理の重要性 ・ ・ ・ ・ パフォーマンス管理に求められるものは、 現在のシステム状況は? レスポンスは? システムリソース状況は? 処理のピーク日・時間はいつ? とし、う内容につきる。 つまり、システム状況を的確に把握・評価することが必要である。 2 .2 キャパシティー管理の重要性 サービス時間の延長やシステムの複雑化により、システム噌強計画の重要性は噌すばカ切である。システム担 当者はシステムリソースに余裕がほしし、と訴え経営層はシステムリソースが適正に配置されコスト削減されるこ とを望んでいる。 つまり、し、かに将来の傾向を予測し、適正なシステムリソース計画を立案するかが、システムの安定運用・コスト 許商等にとって最も重要になってくる。 2 .3 現状の問題点 現状では、それぞれの担当者がデータ収集から分析・評価までを基本ツールのみで実施していたため、以下 に示すような問題点があった。 (1)分析には専門知識と経験が必要である。 ( 2 )分析に要するワークロードが多大で日数を必要とする。 ( 3 )対象システムが多く複雑である(クライアント/サーパ系システムを除く) ‑8 2‑
( 4 )分析の対象が特定日の特定時間のみである。(経験によるピーク日/時間を設定) ( 5 )キャパ、ンティー管理で、は傾向や統計(予測)の分析に過去データの継続性を必要とするが、現状ではデータ を保持していない。 ( 6 )パフォーマンス管理/キャパ、ンティー管理の担当者は、比較的ノ¥イスキルな人材が多いため分析業務が属人 的になっている。 上記の問題点を解決すべく、以下に示す要件を満足する開発不要な市販パッケージの導入を前提に調査・ 検討を実施したが、単一のソフトで、ニース、を満たすものは存在しなかった そこで自社にてシステム開発を実施 G することとしたc [問題解決に対する要件] ( 1 ) 複数の対象システム情報を 元化した情報としての管理 ( 2 ) 属人的な経験・知識のシステム化 ( 3 ) 分析の対象日時を固定しない即時的な分析 ( 4 ) 日次・週次・月次・年次等の時系列での傾向分析の実現 ( 5 ) サービスレベル達成状況の共有化実現 ( 6 ) パフォーマンス/キャパシティー分析項目の拡大 ( 7 ) 統計手法によるキャパシティー予測の実現 ( 8 ) 各種帳票の自動作成と電子帳票化 3 .当システムの構築 問題解決に対する要件を満たすシステムをどのように構築していくべきか?当社ではこの間いに対して、開 発目標、管理運用サイクル、部門や立場に適合した情報還元方法の検討と合わせて開発ツールの選定を行っ た 。 3 . 1 当システムの開発目標 自社にてシステム開発を実施する上で、開発に対する目標を以下のように設定した。 ・ ( 1 ) パフォーマンス/キャパシティー管理の強化 ‑ 管理項目の拡充 精度の向上(日別・時間帯別の傾向と真のピーク日の把握) • 24時間 365日(フルタイム)の管理達成 ・ ・ ・ ( 2 ) パフォーマンス/キャパシティー管理の生産性向上 最新月の稼動分析状況をタイムリーに把握 ( 3 ) パフォーマンス/キャパシティー管理の一元管理 同じ尺度で異システムを見ることが可能 ( 4 ) パフォーマンス/キャパシティーデータの共有化 アウトソーサーとしての社内意識の向上推進 ( 5 ) アプリケーション部分の限界値管理の集中化 ‑8 3一
3 .2 管理運用サイクル パフォーマンス/キャパシティー管理を行う上で、実施項目、担当部署とその運用サイクルを PDCAとして定義 した。これにより円滑で効率的な運用の実現を目指した。(図 芯ます開 即時開銀糠 運 用 管 理 一週麟 J PLAN ベ│準 ルピ管 管ス理 現 〕窪田蝿F DO/ACTION SEE/CHECK ー * " i・未達成項目の問題追跡(二次レベル): : サービスレベ J レ(パッチ・オンライン・ プ ー ン ア ン 上 ‑対応策検討 フー : . 4i :対応策実施 中 L ‑. l ' ; : o̲ ニ, 1参照) : 1 3 i システムリソース)の達成/未達成項目 ~の評価と報告 γ Hu‑‑‑‑J i n n ‑ ‑ H E H・H ・ . . . 書 . . . . . . . ・H ・...…i i H H a n u ‑ ‑…・ キャパシティ予測、 トレンド表機能 .階層別ドリルダウン方式による 問題トレース機能 ‑分析項目の拡充 J I管理値超え機能 ‑階層}l ーレポート機能 開発容易性による鉱張性 ? ア ブ 片 こJ ヒみ心暗黒P J 湾料文字L雪7二 将 司 図‑ 1 ノfフォーマンス/キャパシティー管理運用サイクル 3 .3 開発指針 管理運用サイクルにのっとったシステムを実現するため、まず、各管理項目をサーヒcスレベル項目、重要管理 項目、要因分析項目の 3つに分類した。次にパフォーマンス/キャパシティー管理を日常業務として活用してい く全部門に対して、適切な情報配信ができることを目的として部署・役職の定義、情報配信方法・媒体を以下の ように定義した。 (1)マネジメント サービスレベル項目と重要管理項目の一部を表示対象とする。場所やアプリケーションを問わない表示方法 が好ましい。 ( 2 ) 運用管理部門 現在多大なワークロードをかけている月次稼動報告書に対して、作成の自動化によるワークロードの削減と即 時性のある報告内容を提供する。今後の展開として、情報のデータベース化等も考慮してして。一方、日常監 視項目についても警告値、限界値を設定したうえで、の容易な識別を可能にするアプリケーションを提供する。 ( 3 ) 分析業務部門 サービスレベル項目、重要管理項目、要因分析項目すべてについて、現状把握、傾向把握、限界値超えデ ータの閲覧、統計値算出等がビジュアルに行えるようなアプリケーションを提供する。 dA寸 n 口
3 .4 開発ツールの選定 TS e r v i c eV i s i o nソフトウェアを採用し 今回の開発にあたって最大の武器になったのは、開発ツールとして I たことである。 ITS e r v i c eV i s i o nソフトウェアは調査時点において日本での実績は存在しなかったが、欧米諸国におけるアウ トソーシング分野でのソフトとして評価は高かった。 [選定理由} (1)あらゆるプラットフォームおよびデータフォーマットからのデータ収集が可能で、ある。 SMF等システムデータ は、すぐに取り込み可能な機能が存在しており、またアプリケーションログも取り込み可能とし、った柔軟性が ある。つまり今後の対象システムの拡大にも対応可能である。 ( 2 )マクロ生成機能により、データ収集からレポート作成まで自動ノくッチ運用が可能で、ある。 ( 3 ) 縮約技術を取り込んだ、分析専用パフォーマンスデータウェアハウス (PDB)により長期間のデータ保存およ び照会のハイレスポンス化が可能である。 ( 4 ) クライアン卜/サーバー型アプリケーション構築による随時照会が可能であり、またレポートの Webファイル化 や CSV変換機能とし、った出力機能が充実しているため、一般ユーザーからノ fワーユーザーまで利用可能 である。 ( 5 )OLAP(ドリルダウン)機能による年次、月次、日次、時次の傾向分析が迅速に行える。 ( 6 )統計解析ソフトの分野でのリーダー的地位にあり、蓄積されたノウハウを保有している。 4 )が当社にとって有効で、あった。当社では管理対象のシステムが多くあり、データフォー この中では、特に(1)と ( マットも多種多様で、ある。 また、ユーザーの立場もいろいろで数も多く、柔軟性と拡張性が重要なポイントであるとともに、 SMFや IMSロ グデータを取りこめる機能に着目した。 これらの、 I TS e r v i c eV i s i o nソフトウェアが保有する機能が当システム開発に最も有効と判断した。 3 .5 開発時の留意点 システム性能の確保やメンテナンスの容易性、効率的な開発、容易なシステム運用を実施してし、くために留 意した点を以下に述べる。 ( 1 ) アプリケーション保守の容易'性を高めるため、管理対象システムの追加・変更時や上限値・下限値(限界 値)の設定変更日寺に、アプリケーションの保守が発生しない手法を用いた。これは特に、マシンアップグ、レ ードに伴う、 L PAR構成の変更時には非常に効果があった G ( 2 ) 類似した管理対象のシステムに関しては、プロトタイプ、ンステムの開発を優先して実施し、横展開を行う方 針とした。 ( 3 ) ホスト系、フロントエンド系といった異なるアーキテクチャに対しても、同一基準でシステムを評価できるよう に分析対象項目やデータ保持期間、明細テ ータのインターパル、日中/夜間の区分け時間の標準化を行 った。 ( 4 ) SASクライアン卜からの照会レスポンスが劣化しそうな処理については、事前集計やサマリーデータのパッ チ作成を行った。 ( 5 ) PDBへの取り込み処理については既存のシステムと連動させ、日次自動実行を行う仕組みを構築し、また、 併せて障害発生時のジョブ 再実行が極力容易になるようにすることも十分留意した この中で IMSオンラ C インログはデータ量が膨大で、かつ勘定系システムそのものが出力しているファイルで、あるため、勘定系シス テムに対して影響を最小限にするように考慮し、同時にログアーカイブ のタイミングで随時に取り込み処理 を行わなければならなかった。この対応として、従来機能と連動する仕組みを構築した。 ‑85‑
4 .当システムのご紹介 当システムは ITS e r v i c eV i s i o nソフトウェア標準機能と自社開発機能を融合させた形態で構成されている。 参照) ( 図 ‑2 o ' D r r s vクライアノト!こ 図‑ 2 システム構成図 AF , FSP, EIS, GRAPH , CONNECT, INSIGHT(ll¥ ンドル忌れる 当システムは大きく以下の 3点から構成されている。 ( 1 ) システムデータの取り込み パフォーマンスデータは ITS e r v i c eV i s i o nソフトウェア標準のコレクタ機能を利用し、 PDBへ取り込みを行 う。一部のパフォーマンスデータ及びユーザー作成デ、 タの取り込みについては、コレクタ機能を DATAス e r v i c eV i s i o nソフト テップにより自社開発することで実現した。その際、サマリー値を必要とするものは ITS enericC o l l e c t o r機能により PDB化を、詳細データのみで十分な場合は SASデータセットのま ウェアの G まとした。 ( 2 )縮約処理(リダクション) e r v i c eV i s i o n ソフトウェアの標準機能であり、 PDBの特化した情報保有処理である。 縮約処理は ITS PDBは詳細レベル ( D e t a il)の情報を取り込み後、日次 ( D a y )、週次 (Week)、月次 (Month)、年次 ( Y e a r ) の各レベルへ統計値算出を行い格納するc また、設定された保存期間(自由に設定可能)にもとづき、設定 期間越えのデータを自動削除(エージング、処理)し、運用の容易性およひeディスクスペースの節約を実現し ている。 ( 3 ) アプリケーション処理 IT S e r v i c eV i s i o n ソフトウェアはサーバーモジュールとクライアントモジュールで構成され、 SAS/CONNECTソフトウェア、 SAS/AFソフトウェア、 SAS/EISソフトウェアがバンドルされるため、クライア ント/サーバー形態によるアプリケーション構築が可能となっている。まず、クライアントパソコンよりホスト(メイ phu o 口
ンフレーム)へリモート接続し、クライアントからデータ処理要求を依頼する。次に、 PDBからの加工・編集後
のデータを、ホストからクライアントへ夕、、ウンロード、することにより結果を表示するのまた、 WEB
のレポート作
TS
e
r
v
i
c
eV
i
s
i
o
nソフトウェア標準機能により、出力対象のレポート(グラフ o
r表)から
成機能については、 I
HTMLソースと GIFファイルを自動生成している。
・
・
[特筆すべき点]
当システムにおいては、経営層から実務担当者までの幅広いユーザーを対象とすることを前提とし
TS
e
r
v
i
c
eV
i
s
i
o
nソフトウェアの標準対話型インターフェ
ているため、表示内容を定例化するために I
3、 4参照)
ースを使用せず、すべて自社開発した。(図
アプリケーションの特徴としては、階層特性構造と呼ばれるテーブル属性を定義することにより、スライス
アンドダイス(多面的分析手法)でのデータ検証を可能にした。
スライスアンドダイスとは、データ検証のアプローチ方法であり、具体的には下記の操作を意味してい
る
。
①データを任意のカテゴリで絞り込んだり(ドリルダウン)、詳細データヵ、ら上位レベルへ移動し(ロールア
ップ)大筋でのデータの特異性を把握する。
②同階層上にある他の情報を視点を変えながらデータを検証する。
③列を自由に選択したり、表の行列を入れ替えや統計量(最大値から平均値へ等)を変更してデータを
検証する
•
0
PDB の縮約処理には、パーセンタイル値算出が含まれていないため、オンライン応答時間に対して
UNIVARlA
TEプロシジャを使用し、縮約処理の後続ジョブ.ステップして実行されるようプログ、ラムを作成し
た。同じく異常トランサeクション明細データも基準応答時間を超えたものとして定義し、抽出する DATAステ
・
ップを作成した。
定型アプリケーションで、はないが、 I
TS
e
r
v
i
c
eV
i
s
i
o
nソフトウェアにバンド ルされる SAS/INSIGHTソフト
ウェアを使用して相関分析を行い、キャパ、ンティープランニング に役立てている。(図 ‑5
参照)
日L
孟
M
;
オンライン・トランザワション聾!r(lB
ハ
,
.'}オーマンスキャ,,'汗イ管理弘子ム
令官宇品活問
「一一品
ヲ
ぺ,
'
1
.
、
レ'Jレ
Q r."."
,
士
二
:
三
二
重要担問F貫目シ:ザムリ 7
‑
7
.1
l
F
i
開
同一目
E
軍 署 管 耳 珂R :
;
u
.
アγ
J
.
I
時 間 堪 民.
z
.
,
'
:
o
.
,r
'
"
τ 田卵呂単位
‑${'['ー」
一
一
、
,
.
;
阿
マ
,
‑1 仁 f
占 星.UL
I
~ゃ
i
三 三 昌 平E主主主三ZZLZ
ご::孟孟比山広之竺士号:ゴ
t
1
;h
.
,
刊
〉
・
ト
ラ
〉
守
れ
'
̲
'
,
世
わり ).1 うì'n泊~I'i
1
,
‑0
・
d
E
1
蝿
ヰヱ三三Zこ~
,
ザ
信
… … 山 切 !
υ叫
2主
ム r
.
<
̲
.
.
.
.
.
.
..~..
わライン
一
.
盆!J.,........"'(!回~ェ』
、
川
"M."":,
P:
主主上辺.......Hrl~l l1(J
図‑ 3 システム画面遷移例 (
1
)
‑8
7
..:.主主己主ヱム
ョ
ン
軍
ー」とー
ムlu
副
・
'
す1,
t
.
:
a
:
; 句哨ら制;; ..,'.'"~~ <:0守咋噂~^:
"
<
,
1
,1
・
u
..J 坐包j コ泣回i 盆』瓦 i出回ヒi 盤i旦旦且~
l
:
d
叶
笹倉竃超え
吋..",..,列11:
:
‑
;
τ
s
一
~#
巳
"'O
:
m
{
:
"
i
t
:コ
&
"
'
U
:
; 1 荷量4rU
;
: I φk
怠
:
:
1
(1
.
1
z
o
c
流
.
.
.
,
‑
主 民 日.
)
1 ~O 卜!,l';-O"'::
日刀'"川噌宅‑<"
;
>
l
t
('
‑
C:
'
i‑JIχ:
)
1
‑
I
¥
!
,
:‑
i
市XJ;."
‑
C.'i‑)は光:'Jl
‑
*
.
.
:イl:;
1
I
1
l
.
:‑
C;
i
‑
)
!
J
!‑(1ξ (
1
"
.
.
: d.( -ζ~- Jl3
3
1
‑
:
築
r
延長l
cp ua
uxGPLJ;使 用 卑X一 覧
.
:
c
2
曲
,
.
̲
(
ヨ
・
:
11 ZOl‑
G
r
:
‑
O
:
: 2iJケ〈子宮i ~'Ol ・6空ー必
汎1(‑ r.:t川河:
:
n l~ r
T
J 71誕 . r
.
:
'
l
o
:
V :1(コ 1 I~ H
ε
主
ヨ
W
τ元 1i::'-:
待叫対唱-z:r;_:.:""...
ア芯
<!ú,~.
吋且企/二比五L
長剥ム足屋と正単旦j
ム 旦 盗l
ト
吋
cP U (s()X CPUl使 間 早 明 細
膏告値主主え
,
n
o
‑
;
.
.
:
該当セルをダブルクリック
~“'品忌日系
一
…、
企τ*
ロ; 7M ll~ (長
一
一
,
,
"
,
I
i
¥
魚
・
I
l
.
:
!
.
l
噛‑ーー‑‑‑
可
蘭.:t~-~IJ;_~与問~一一 11 干泌… w ゐ一一一
時 醐 醐
問明百
¥
/.
.
.
.
.
.
; :
"
¥.
円、
・
ド
l
・r
、
パ¥
"
守
6
}
言
,
/
.
̲
‑
・.
冶
・
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
̲
~.~~.lχ .
~t
'
i
,
‑~
1
¥/
;
.
‑
̲
.
̲
a
p
¥ ̲:"・胃
、 命l
司
̲
o
'~:.t
Ir ,
c
‑
:
得官
r=
切
7
十寸
旬、
r
司
‑‑‑‑‑"‑r
一一司{
一一
三二吉弘「デ--,~-'
a).t‑ff
!
五五己主,,
̲ ̲ ̲
il 予~~一一一一一 .
1
l
.
!
:
:
!
:
:
!
詑
去
三
ニ
旦J
占盟主己主己主,‑.l:.l:と^'と土̲̲j
図 ‑4 システム画面遷移例 (
2
)
全 体 C P U使 用 率
図
5 相関分析例
8
8‑
・
.
,・・
E
5 .今後の課題 運用開始後、それぞれの責任者とのヒアリング結果やエンドユーザーへのアンケート結果からも、数多くの機 能追加や改善の意見が寄せられた。それらの意見を踏まえ、今後、二次フェース として機能追加や改善を実施 してしく考えである。 5 . 1 現状問題点の改善 今回のシステム開発作業において、運用における体制(人)の重要性を再認識させられた。し、かに自信をもっ て奨められるシステムであってもそれを使用するのは人であり、組織の中で、手足となって機能してこそ効果を発 揮する。運用体制の確立が早急な課題である。 今では体制も確立され少しづつであるが機能(効果)してきでいる。 また、機能の一部 (Web)において、ユーザーのニーズ、を整理不十分のまま取り入れたことにより、対象データ の表示方法を複雑化させ、逆に使い勝手を悪くしてしまった。 ただ、ユーザーニーズのままにシステムを構築し 情報を提供しでもユーザーには受け入れられない。 全体をバランスよくデザインし、ユーザーの操作性よしものに再構築する予定である。 5 .2 対象システムの拡大 当システムは現在運用開始後、数ヶ月が経過してしもが、当初の計画したシステムへの適用は完了した。 しかし、当社の保有する全てのシステムをカバーできているわけではない。(メインシステムのみを対象としてい る) 今後さらに定着化を推進すると共に対象システムの拡大を行い、全てのシステムを同じ尺度で一元管理するこ とを実現したい。 また、従来 1社だ、けで、あったお客様も拡大しており、現在は新しいお客様のシステムは稼働したばかりのため、 システムリソース的にも特に問題のない状態であるが、サービスレベルの観点からも早急に当システムの適用を 検討してしくつもりである。 6 .おわりに 当システムの開発にあたって、「従来できているのにいまさら何が必要なの」との声を聞くことがある。 しかし、これからはサービス時間の延長をふまえ、 24日寺間 365日の管理を必要とする時代であり、サービスレベ ル管理やノ〈フォーマンス管理/キャパシティー管理の重要性は増してして。 今回のシステム化において、ユーザー要件の達成と運用定着の難しさをあらためて認識した。 また、本件のようなコスト削減に直接影響のないシステムについては、経営層の理解とトップターウンで、の推進方針 が必要不可欠であると感じた。 あらためて、当システムの導入・構築にご理解し、ただいた経営層にお礼を申し上げたいっ アウトソーシングの成功の鍵は、運用部門における継続した BPRの実施と、運用←→開発両部門の緊張感の ある連携が必須である。システムで管理できる分野は極力システム化し、本来アウトソーサーとして実施すべき 提案や情報の提供等、人対人の業務により注力できる業務環境構築を目指したい。 当システムは、今後の対象システム拡大等にも柔軟に対応できるよう汎用性をもたせて構築してある。さらなる 機能追加と改善を実施し社内の管理ツールとして機能充実を図ることは勿論のこと、他企業にも自信をもって薦 められるようなシステムとしていきたい。 最後に当システムの開発担当者として感想を述べると、本文の選定理由にもあるように SASシステムは柔軟 性・拡張性・適用性の非常に高いシステムであると評価できる。 ‑89‑
今まで数多くのシステム開発にたずさわってきたが、仕様変更や機能追加にも柔軟な対応が可能で・あった。 今回は、パフォーマンス/キャパシティー管理システムの構築を行ったが、 SASシステムを知れば知る程、あら ゆる場面での利用が考えられる。これからは SASシステムのもつ機能をフルに活用し、あらゆる場面での利用を 進めていきたい。 本システムの構築に際しては、 SAS社のカスタマーサービス本部の方々に多大なご支援を頂きました、この場 をお借りしてお礼申し上げます。 ハud ハU
日本 SASユ ー ザ ー 会 (SUG1‑0) 品質調整済住宅価格インデックス作成システムの開発 0清水千弘.早川信也 牢刊リクル一ト住宅↑情青幸報日企画室,叫リクル一ト F r 汀r 口 2部 , 料率住商情報システムパッケージ・インテグレーション事業部 Development o f the Recruit Residential Price Index System nya Hayakawa* ,* Kazuo ShinozuH客 Chihir o Shimizu九 Shi 本 , ヰ ヰ Recruit C o .,Ltd, ヰ ヰ ヰ Sumishou Computer Systems C o .,Ltd 要旨 SAS S y s t巴m R巴l 巴a s巴6.12を用いて開発を行ったリクノレート住宅価格インデ ックス (RRPI :R e c r u i t R e s I d巴n t I a lP r I c巴 l n d巴x )の運用システムを紹介する.インテ、ツクスは,市場動向を適切に把握できる といった精度 ( a c c u r a c y )とともに,安定的なシステムで運用していくことが前提となるさらに,情報鮮 度,または運用の容易さとしりた観点からは効率的なシステムでなければならないこのような諸条 件を前提として,中・長期の視野にたったインデーックスの精度を追求し,システムの安定性と効率性 r u I tR巴s I d e n t I a lP r I c cI n d巴x )作成システムの構築をおこなった. を担保した RRPI(R巴c キーワード S A S / S t a t・ETS, HcdonicApI】r o a c h,Mar k c tScgmcntat i OIl,構造変化テスト 1.本システム開発の目的 不動産の証券化,さらには不動産投資信託法の改正に伴う不動産金融商品の開発競争が始ま り,不動産市場と金融市場との融合が本格化しつつある.しかし,わが国の不動産市場は,株式市場 に代表されるその他の金融市場と異なり不透明かっ非効率的な市場で、あると言われる.そのもっと も大きな原因のひとつとしてベンチマークインデ.ツクスの不在が指摘されている. インテ、ツクスに求められる諸条件として,情報の精度・データの網羅性などが挙げられるが(詳細 は清水 (2001)参照),最も重要な評価軸のひとつに「再現可能性」と「運用システムの安定性」が指 摘されるたとえば,インデ、ツクスの精度 ( a c c u r a c y )問題で、も,中・長期的な視野から精度の高さが求 められ,それはシステムの安定性にも大きな影響を受けるーまた,インデックスの作成者,システムの 運用者による恋意性や不安定性は排除されなければならない.さらに,系列数が多く,週次・月次 で、インデ.ックスを作成してし、くためには,効率的なシステムが必要とされる.そのような諸条件を満た すためには,開発言語の安定性と性能が大きな影響をもっそこで,リクルートでは, SAS System R巴l e a s巴6.12を選択し,持続的・安定的に運用可能なインデックス作成システムの構築を行った. ハud よ ‑
2,品質調整済住宅価格インデックス / T h e o r e t i c a lFramework 日々の取引のなかで収集される取引情報は,市場状態を適切に反映したものであるが,同質の 財が存在しないとしづ不動産市場の特性から,異時点聞で比較可能とするためには,品質を制御す ることが必要である具体的には,同ーの築後年数・同ーの最寄駅までの距離・同一規模といったま ったく同じ物件が定点で観測でさることが求められる.品質を制御して不動産指数を作成する方法と a l e s法・へド・ニック価格法がある(詳細は,中村(1996)).RRPIでは,再販売価格を用い しては,RepeatS たRepeatS a l e s法で、は,短期転売等の投機性が強い取引が含まれる可能性が高く,耐周年数が相 対的 l こ短く RepeatS a l e s件数が少ないとし、った日本市場の特性から,へド ニック価格法を採用した へド・ニック・アプローチとは,たとえば住宅価格(P)を,都心への通勤時間や周辺環境,床面積, 築後年数などの各指標 ( x )毎の束(ベクトル)で回帰し,市場参加者の個別の値付けを推計しようと するものである.たとえば住宅価格関数として次のような関数を推定した logLP~hil = σ0+工ajilogXj+" L . ( I2k'RDk+工 a 3 , ・ WD,+ 工 a~j1 (logXjXW/),)+2: a5",. 1 ' D + ε( 式1 ) j k jl , I I I I m い L I I: g 地域 hf 郵Jji タイプ I時点の住宅価格 ( g :主要地域別=首都圏 6,行政市区別,主要駅努圏別) ( h :1=中古1113/, 2ニ戸建て住宅, 3=土地,4ニ 賃料), ( i マンションであれば 1=ワンルーム, 2二ファミリータイフ, 3 高高及マンション ) , ( 1=1 9 8 9 . . . 2 0 0 1 ) Xj 主要説明変数 FS:専有面積 ( r r i ) BY 建築後年数 ST 最寄駅までの距離(分) ACC:都心までの接近性(分) BS:バルコニ一面積 ( r r i ) NU:総戸数 NR 部屋数 BC その他建物属性 RDk 沿線ダミー ( k= 0 , J ) WD 行政区ダミー ( / = O . . . . . . . K ) m川ー時間ダミー ( 1 1 1=0 ー ・ ..M) ここで推定される時間ダミー (1 ' D11II )は,築後年数や最寄駅までの距離としりた主要な価格形成要 因 Xjの影響を除去した純粋な時系列上の価格変化を示し品質調整済の価格指数となる このような統計モデノレとしてインデックスが推定されることから,透明性・再現性が高い指数である といえようまた,モデ.ルの構築方法といった手続きの透明性だけで、なくモデ ル全体の誤差とともに インデ ックスとして推定される各時間ダミーの誤差も同時に開示していくことから(たとえば標準誤 差 ),極めて透明度の高し、インデ ックスで、あるといえる. 3 .住宅価格インデックス作成システムの開発 3 .1 . イ ン デ ッ ク ス 作 成 シ ス テ ム の 概 要 インデックスは,地域別・種別・タイプ別で作成され,首都圏だけでも 1000系列を超えるため,統 円ud n︐白
計的な優位性とともに,効率的・かっ安定的なシステム運用が求められる.このような制約条件のも と,インデ、ックスの精度を最大限追求し,次のような、ンステム構築を行った ①分析データの作成 (データの選択) リクルート社の「週刊住宅情報」で、は,募集価格 ( A s k i n gP r i c e )を週単位で提供しているが,はじ めて情報誌を通じて市場に登場してから成約等により抹消されるまでの履歴情報を有している大き くは,市場に登場した際の掲載時価格情報,成約等により情報誌から抹消された時点での価格情 報,さらにサンフ。ル的に収集された取引価格の 3つの情報である 1) 利用する情報選択は,インデ.ツクスの性格に大きく影響を与えるため,慎重な吟味が必要である. まず,掲載時情報は,売り手の値付け動向の把握は可能だが,需要者の動向把握ができない.その ため,市場分析には,取引価格情報を用いたほうが良いことが指摘されている(肥田野(1992)) し かし,これは公示地価等の評価情報との比較であり,不動産取引は,最終的には相対取引となる ため,取引価格には売り手・買い手の個別事情が入ることが多い不動産鑑定評価実務では取引 価格情報を用いる場合には,事情補正済データを用いるが,取引に伴う事情を定量的に把握する ことは困難であり,同データの市場性が評価情報と比べて高いとはいいがたい.そこで,インデ、ツクス の開発にあたり,成約等により情報誌から抹消された「抹消価格情報」を用いることとした I 抹消価 格情報」は,逆オークション的に情報誌を通じて品質と価格に関する情報を発信し,買い手が登場 するまで価格を下げていく過程での最初のオファ一価格で、あり,買い手の付け値のなかでの上位 価格という性格ではある.しかし,相対的に取引価格情報と比して競争的な市場で形成された価格 であり,そのため取引に伴う個別事情が入らず,市場環境を適切に反映された指標である. (インデックス作成用データの作成と更新) 「住宅情報」の掲載情報から,インデ.ツクス作成用のデータベースに変換する.具体的には,新規 データの計算(日付関数による築後年数の計算:抹消日マイナス建築年月日),カテゴリーデータ に基づくダミー変数の作成(南向きダミー.開口部が南向きであれば 1,それ以外は 0等),他のデ ータのマージ(都心までの接近性・主要ターミナル駅まで、の平均移動時間/同データは住宅情報の ate 掲載されていないため他のデータベースからマージ)である.このようなデータの作成・更新を D S t e p を用いてリアルタイムに実施する.ここでは,データの重複を排除するため,同一データを探 索・削除できるようにしている ②.異常と予想されるデータの除去 上記で作成されたデータを分析する際,異常値等のデータを除去しなければならないそこで,築 後年数,最寄駅までの距離などの連続量に対して,パーセンタイル点を計算し ( u n i v a r i a t e ),特定点 ( 0 . 5パーセンタイル点および 99.5パーセンタイル点)で 1)2000年抹消日データは,東京・神奈川・千葉・埼玉で,中古マンション 50, 000件/年,戸建住宅 70, 000件/年,土地 30, 000件/年,賃貸マンション 1 9 0, 000件/年,賃貸アパート 90, 000件/年である ‑9 3
験的に異常値と予想される上限を設定した上で,自動的に排除できるようにした(たとえば,築後年 数4 0年,最寄駅までの時間 6 0分等)この過程で,欠損値も処理される. ③インデックスの作成と接続 このように作成されたデ ータセットを用いてインデ.ツクスの作成を行う (変数変換) インデ.ックスの推定にあたり,築後年数,最寄駅までの時間距離等と単位価格との関係が,線形関 0 0 0を超える系列に対して非線形回帰をシステム的に運用していくこ 係にあるとは限らないしかし 1 とは困難で、あることから,対数変換を一つの極限とする Box‑Cox変換(式 2 )を採用した yAー l y(λ)=ーす一 λ, " 0 y(λ)= logy λ=0 ( 式2 ) Box‑Cox 変換は,通常,被説明変数を対象として行われているが 2) インデ三ノクスの作成がクロスセ クション分析となることから複数の説明変数も変換可能とした変換の対象となる変数に対して λに ついて任意の区間を,任意の帽で繰り返し推定していくここでは, λ について(最大値・最ノト値・ 分割数)を指定し, AICによりモデ• Jレ選択を行う.ここで、は,グリッドサーチ的運用となる. (不均一分散の検定と推定法の選択) マンション関数を例にとるとワンノレームマンション,ファミリ一向けマン、ンョンル、わゆる億ションといわ れる高級マン、ンョン等によって,購入層が異なるーまた,価格が相対的に高い高級マンションになれば, 最寄駅までの距離や専有面積とし、った単純な変数だけで、決定されることはなく,多くの要素で、値付 e g m e n t a t i o nを行い, けが行われ,ぱらつきが大きくなるこのような場合には,後述するように MarketS インデックスを作成することが必要となる.しかし,全体のデータを用いて全体の動向把握可能なイン デックスを作成するためには,不均一分散(h e t e r o ‑ s c e d a s t i c i t y )を前提とした推定を行わなければな ら な い . 本 シ ス テ ム で は , OLS(Ordinary L e a s t Squar巴 ) , 重 み 付 き 最 小 二 乗 法 と と も e a s tS q u a r巴)で、推定可能とした .GLSは , SASにおいては,山1Lまたは mixed に , GLS(Generalized L p r o c e d u r巴で用意されているが,品1L では,分散共分散構造を明示的に扱わなければならず, mixed p r o c巴d u r巴では共分散構造のタイプを指定すればいい.そこで,本システムでは, mixed p r o c e d u r巴を用いて共分散構造を任意に指定できるようにした (構造変化への対応) 3) 時系列インデックスの作成にあたり最も注意が必要となるのが時間的な構造変化への対応であ る構造変化テストは,回帰係数 s ! .s2の相等性テストであり,テスト方法は,誤差項の分散について i y a (1 9 8 5 ) ) の仮定,つまりイ=イの場合と, σf#σ;の場合とで、異なってくる (Am巴m t p : / / w w w . s c i e n c e . gll1u . e d l l / ‑ a l a e m m e r / 9 m e t h o d s . h tll1. B o x ‑ C o x変換に関するマクロとしては, h 2) t h . y o r k l l . c a / S C S / s a s m a c / b o x c o x . h t m l, h t t p : / / h o t s p l l r . p s y c h . y o r k u . c a / p a v l o v / m a c r o s / b o x c o x . s a h t t p : / / w w w .ll1a sがある.これらは,被説明変数側等,単一の変数の変換にとどまるものである. 2 0 0 1 )を参照 3)詳細は,高辻 ( AAY υ 同 ハ
そのため,まず誤差項の分散 σ 7 3寸についての相等性テストを行わねばならない誤差項の分散 が等しい場合 (σf=イ)は, SAS/STATのREGフ。口、ンジャにおける t e s ts t a t e m e n tを使用して,線形制 約仮説の検定として,構造変化テストを統一的に扱うことができ,全ての回帰係数の相等性テストや, 一部の回帰係数の相等性テストを選択することができる 一方,誤差項の分散が等しくない場合 (σf#σnは,漸近特性に基づく尤度比検定 ( a s y m p t o t i c l i k e l i h o o dr a t i ot e s t )などを用いるつまり ‑2log( 尤度比 )~X2 を利用し,未知パラメータを収束計算 で求めなければならない。しかし, Amemiya(1 9 8 5 )に基づけば,分散比のウェイトをかけることで統一的 にテストを行うことができる.たとえば,データ群を 2群に分害J Iし,第 l 群データと第 2群データとの聞の V l/V2 = F )を求めるこの分散比のルートをとった s q r t ( F )を,第 2群のデータ全体にかけると, 分散比( 群の誤差分散と等しくなるため,このデータを用いて,誤差分散相等性を仮 第 2群の誤差分散は第 l 定したときと同じ線形制約テストを行うことができる具体的には次の手順に基づき計算を行う. (データ群の分割) 構造変化テストは, : PL11=X1PI+UI モデノレ 1 モデル 2 : P~2 = X s 2+u2 2 ・住宅価格変数の列ベクトノレ X1,X2 説明変数のデータ行列 s1,ん 回帰係数ベクトノレーベクトノレの先頭の要素は定数項. U1,1 12 確率誤差項 /2111t¥ ¥111111i ノ X /Illi‑‑¥ β'β' 一 一 L P キC と た と し ︒ PL! i , PL I 2 ) ( 式3 で計算を行うそこで,データ群の分割点をマクロ変数として,変化させていく.この場合, X1 および X2 のそれぞれのデータ群に対して,推定された誤差平方和 (SSE1 , SSE2),自由度 (EDFI, EDF2),誤差 V2),分散比 (F=VI/V2 ),Pを k巴巴 pし,第 2群のデータ群に対して, s q r t ( F )をかけておく. 分散 (VI, (構造変化テスト) t e s ts t a t巴mentを用いて,構造変化テストを行う.すべてのケースまたは各変数に対して,テストを行う 巴g フ。口、ンジャによる回帰のフ。ロク守ラムに,以下のコマンド、を付加すればよい. 場合は,(式3 )に対して, r 専有面積 ( F S ) 築後年数 ( B Y ) :t e s tXIFS ・X2FS =0 ; : t e s t X I B Y ‑X2BY = 0 ; 駅までの距離 ( S T ) :t e s tXI ST ‑X2ST =0 ; 都心までの接近性 ( A c c ) :t e s tXI A c c ‑X2Acc =0 ; 全変数 : t e s tXIFS‑X2FS=0 ,X IBY‑X2BYニ 0 ,X IST‑X2ST=0 、XI A c c ‑ X 2 A c c = 0 ; しかし,筆者たちが知る限りにおいては, t e s ts t a t e m巴n tで、計算された出力結果をデータセットに保 存することはできないためその結果を判定基準として,構造変化の有無を探索的に分析することが まAIC(A k a i k e ' sI n f o r m a t i o nC r i t e r i o n )基準に基づくモデノレ選択を同 できないそこで,本システムで1 F K U Qd
時に行えるようにした(式3
)に基づき,第2群のデータに s
q
r
t
(
F
)をかけた上で,単一の関数として回
AICは,データセットに保存できるため判定基準となりうる)ー
帰分析をした場合の AICに着目した (
r巴c
u
r
s
I
V巴 r
e
g
r巴s
s
i
o
n
)やローリング回帰 (
r
o
l
l
i
n
gr
巴g
r巴s
s
i
o
n
)などの手法
システムとしては,逐次回帰 (
とともに, AICの変化に着目し,次の方法を選択できるようにした.
η を選び,モデ /レ推定を
[方法 1
] .逐次回帰の応用として月次指数の場合,月単位で l
より大で、ある l
行 いA
I
C
(11l1を計算する.さらに, m+Iを選び A
I
C
(I1l+!)を求める .
A
I
C
(I
1
l
)
>AIC( I1l+!)であれば (m+2) へと~;迷
続
,A
I
C
(
I
l
l
lく A
I
C
(I1l+!)で・あれば,何らかの変化がありとみなし,データを分害I
j
‑
m
+
2から再度継続.
] .ローリング回帰の応用として,月次指数の場合,月をベースとして, 1
より大で、ある mを選
[方法 2
び
, mを基準として(式 3
)に従いデータセットを作成する.このデータセットに対して, mをマクロ変数とし
て,すべてのケースに対して計算を行い,時系列上で、の A
I
C
(I1l)の変化を観察
またん、ずれの場合においても, t
e
s
ts
t
a
t
e
m巴n
tによる検定忠同じデータセットから実施できることから,
検定結果を出力させることで,確認的に利用でき,システム的な運用が可能となる.
(構造変化回数が既知の場合)
上述の構造変化テストは,日々の運用に対してデ一夕が更新されていくことを前提としていた一
方
デ ツクスで、 l
は土/くフツ/ルレ期からその崩壊過程を対象としていることカか〉もら/くフ、七ツ 二ソノ,レ期.パブソレ崩壊期,収束
a
o
期と区分されることが予想されるそのような場合に対して,係数が変化することを前提とし,モデルを
)のように期間ダミーとのクロス項をつくり強制投入した上で,AICの変化からモデ〉レを選択する
(
式4
デ
J
o
gLP
00+ J
I
l
l
o
gYJ+FG2k・ RDk+
子031・ ml+5G41100gXJXWDl)
i
l=
[
.
a6f(
J
o
g
XjXSTDp
J
o
gXjKCTD
+'
)
+ε
[
.
o
S
m
'TDm+'
,
,
)+む /7j(
(
式4
)
;p壬 2
0
0
0
)
1
9
9
0<
CTDp バブル崩壊期ダミー (
)
STDq :収束期ダミー (q>p
ここでは,中古マンション・東京都区部を
Sv
5e
5‑
ーー︐
0su
ri
日 N'F35J
i‑2
ム︐
およびqを探索し (2000年第 3四半期ま
a
A
︐
︒
対象とし (n=147,
615),四半期を単位として ,
p
で
)
, 903とおりの関数を推定したその AICの
ρ
‑7J
﹁
変化を観察したものが,図 Iである.推定結果
から,パブ‘ル期が ~1990 年第4 四半期,パブ‘
/レ崩壊期を 1990年第 l四半期から 1994年の
第4四半期,収束期を 1995年以降と検出し,
AICが最小となった.モデ、/レの安定性・効率
性基準から,この組み合わせが最適となる.
図 1AICの 変 化 パ タ ー ン
nhu
Qd
( In d e xの更新・接続) ヘドニック・インデ ックスの有する構造的な問題としては,時間夕、ミーとして推定されるインデ、ツクス の推定値の不安定性である.この問題を解決するためには,確定値を決定してして運用原則を決め ることが必要となる本システムでは,連続的な構造変化テスト[方法 1 ]を行うことで,インデ ックスを確 定させる原則をつくったつまり,基本的には新しい構造変化点が検出されたことで,それ以前につ いては同一構造として確 定し,インデックスの確定 値とするしかし,インデッ クスの修 E は,利用上の 不安定性を除去するため に,最長で一年間とした 上で,接続係数を用いて, ← 一 一 ー 一 一 一 一 一 一 一 一 一 一 ー 一 一 更新・接続を行うこととし 一 一 一 ー 一 一 1 ‑ < たこのように作成された ︽A F ‑‑32N 円 一‑‑32円 門SC23向 c a u b n ‑ 門 ︒ ︒ 品 川 示 ︒ ‑ haH h 2おかか‑ 門Sトわか‑ 5 2トかわ‑ ぉ ︒ 門 ︻ か zqbb‑ 山 かか‑ 門 ZAM 門2 v ι ふれ戸 u a U n s ua 52‑7ふれ︻ 門huh‑ 門2 ‑7わか‑ 門E 円 ︒ ︒ ‑ ︒2 門2HRF 品目‑ a u ‑ ‑刊かか‑ 門=‑ひか‑ a u ‑ ‑ ‑かか‑ ‑ u ごかおか‑ 門EREba‑ hzzbn‑ 0 . 5 中古マンション系列例を 図 2として示す. 図 2 リクルート住宅情報インデックス(首都圏月次系列:198904~200 1 0 4 ) 3 . 2 . I n d c x開 発 に お け る 個 別 問 題 へ の 対 応 3 . 1 で紹介した処理手続きに基づき,週次インデ、ツクスで あれば毎週 1 次インデ.ツクスで、あれば, 毎月の作業として,自動的にインデ ックスが更新されていく.ただ.し,インデーックスの精度の安定性を担 保するためには,次の問題に対して,定期的にチェックで、きるメニューを用意した. ① Ma 灯r k c ω 凶 ω E t 凶S c 句g 引 叩mc インテ、ツクスの作成において,市場構造を適切に把握でで.きるように M a r k e tS e 匂g me 叩n t a 引 山 t J叩 o nを行うこと が必要となる.株式市場でで、は,大型株.中型株・小型株のように分類されるように,住宅市場において も,たとえばワンルームマン、ンョン,ファミリータイプ,高級マン、ンョンといったかたちで、分類されるべきで あるが,この区分も市場構造とともに変化するさらに,不動産市場においては,地理的な軸が存在し ているこの問題にも,運用上では統計的な手続きにより対応していくことが求められる.本システムで は,先の構造変化テストのプログラムを用いて,探索的にセグメント化を行うこととしたまずワンルーム 系,ファミリータイプ系,高級マンションと 3タイプに分類できるものとし. [構造変化回数が既知の場 合]の方法を用いて専有面積に着目し分類したさらに,地域分類などを実施しているー ② .SamplcS c l c c t i o nB i a s インデックスを作成するために用いる取引情報は,インデ、ツクスを作成する週または月によって取 ヲl 量が異なり,時間軸上でばらつきがあるこれには量および地域的なばらつきといった 2つのパイ アスが含まれる.このようなバイアスーサンフ。/レ・セレク、ンョン・バイアスと呼ばれるーが,インデックスの ‑9 7
%macrosmplng2(inDSN=, /ホ月毎に分割したデータセットホ/ outDSN= , /ホサンプリング出力データセット W /ネサンプリング数本/); smplNum=, /ネサンプリング基のオブザベーション数本/ d a t a n u l l s e t&inDSNnobs=I 1 l 日 11S; c a l lsymput("numD",compress(nums)); stop; run~ /*乱数と IDのデータセット作成本/ d a t awork.sampll ; %doi= 1%to&numD; i d=&i; v a r=r a n n o r ( O ); output; %end; run: /ホ乱数を昇順にソートキ/ procs o r td a t a=¥Vork.sampll o u t=work.sampI2(keep=i d );byvar;run; /ホ乱数と IDのデータセットより IDを読み込んで,そのオーブ ザ八一ション Noの データをサンプリング 数だけ抽出するり d a t a&outDSN r e t alIl nn; i f n = 1t h e nnn= 1 s e t¥Vork.sampI2; s e t&inDSNp o i n t=i d; uutput; nnニ nn+1 i fnn>=&ramNt h e ns t o p; run; %mendsmplng2; 50 精度に対して,どの程 度の影響を与えるの 4り かを検証しなければ i‑ ならないこの問題に 対しては,上記のプロ グラムまたは下記の , 、 手順に基づき,時間 ー1 0 単位での同じ数のサ ンプノレをランダムに ‑ 2 0 抽出し,推定を行う 守D‑CCN ﹃DECON E‑‑ccN c ﹃a aa‑ ‑‑aaa‑ ‑‑伺血血‑ A山 守己伺血血‑ a ‑ 守司ト A山 c ‑ト a ‑ O ︻甲 a a ‑ 山 守己甲 山 A 品‑ 山 c m Aa ‑ ﹃ o ‑ m Aa ‑ c ‑ ﹃a a ‑ A山 A ニ 守己守色品目 守己門 A山 門 ‑ ︒ a‑ 守D N品 A山 ‑ c‑HAA 山 山‑ o‑‑aa‑ 山色︻ o ﹃‑ aa‑ ‑‑DA ‑ J o‑ t r m m 乱数実験を行うこと で確認した. 図 3 .インデックスの分布の推移 (n=lOOOの場合) 手 1国1.インデ、ックス作成単位(週・月)で、の最小サンプル( n )の 確 認 .月次インテ、ツクスで、あれば,月単位にデータを分割 手 1目2 n H υ OD
手1 ) 慎 3各月単位のオブザベーションに対して乱数を発生 ) 直 4各月単位で n個のオブザベーションの抽出 手1 ) 直 5インテ ックスの作成・分布の確認、 手1 この手続きでインデ、ックスの精度を対前年同期変動率の分布(In d e x / n =1000)として確認したも のが図 3となり,バイアスの程度・サンプリングバイアスにともなう誤差の範囲が確認される特に問題 とされるのが変動のベクトノレのばらつきであるが,図 3から一定の精度を担保していることがわかる ③価格構造の再確認~) インデックス作成のための推定法としては,OLS, GLSを選択できるようにするとともに,変数変換法 としては対数変換を含む Box‑Cox変換ができるようなシステムとしている.しかし,し、ずれの関数にし ても,線形近似または連続的な変化を前提としている.そこで,価格構造と築後年数,最寄駅までの 距離や都心までの接近性などの主要変数と単位価格との聞にどのような非線形性があるのかを確 O otbO(τyp巴1と 認し近似的に対応できるようにした.まずは,非連続点の存在が明確な場合には ,r=e ) して推定されるのに対して,次の 2つの夕、ミ一・タイフョによって,調べることにした. )定数項に変化を与える (修正モデル 1 r=ピ山 οId, I+02出 2 +aJdIJ1b O (修正モデル 2 )係数そのものにも変化を与える rニ r μ 01b O + h J d t l吋 2d 山 b 3, 的 (Type2) (Type3) 中古マンション・インデックスにおける 1 . 1 「築後年数」を例にあげればヱつの非 連続点があることが指摘された.そこで. 修正モデル lまたは 2に対して下記の ように 3 つの区間を設定し,定数項ダミ ーまたは築後年数の変数に対する係 数ダミーとして対応した (Dllmmyl:2 <1,Dllmmy2 1 三m,Dllmmy3・m) 0 . 5 として,築後年数のデータの分布から 0 . 4 0 10 15 20 25 30 35 3 5年を最大値として設定すると, 1およ N l l l l l h e rolrt'(1r.~ afterC υ IIslnlCfIOIl(Yl'Ur) び m の組み合わせは, 527類型となる 図 4築後年数と単位価格との関係 そこで, 527 本の関数を推定し, AIC に 基づく最適なモデルの選択を行った しかし,この方法は,非連続点の存在を前提としたものであるが,非連続点が 2つであることの保証はな く,また非線形構造が存在していることも考えられるそこで,任意のレンジ(築後年数であれば l年等)で 連続的なダミー変数を作成し,構造推定を行った (Type4).このように推定された各種ノ号ラメータを用いて, 単位価格と築後年数との関係を確認したものが,図 4である 4 )詳細は,小野‑高辻・清水 (2001)を参照. ‑9 9一
4 .終わりにー安定的・効率的なシステム構築に向けてー 本稿では,リクルート住宅価格インデックス (RRPI:Recruit Residential Pric巴 Ind巴x)の作成、ンステ ムについて,紹介してきた経済市場においては,さまざまなインテ.ックスが提供されているが,イン ) )とともに,シス デ.ツクスに求められる条件としては,市場網羅性・透明性・再現可能性(清水 (2001 テムの安定性が,重要な要件となる.また,再現可能性やインデ、ツクスの中・長期的な精度もシステ ムに依存しているともいえる システム運用の安定性を確保するためにはシステムそのものの安定性とともにシステムのフレ ームとなる基礎言語の安定性が求められる.その意味で, SAS を用いたシステム開発を行うことで, 基礎言語の安定性は担保されたといえようまた,市場構造の変化を統計的なロジックを用いて検 出し,接続することが可能としたことで,長期的なインデ、ックスの精度を担保し,運用者の恋意性を 排除できたといえよう. 今後の課題としては,インデックスを作成する地域が拡大することに伴う効率性の追及となる.中・ 長期的な意味でのインデ.ックスの品質を担保しつつ,系列を増加させるためには,極めて高い効 率性が求められる今後,より安定的・効率的にインデックスが提供で・きるようにシステムの向上に努 めていきたい. [謝辞等] 本システムの開発にあたり,麗海大学小野宏哉教授・高辻秀興教授東京大学西村清彦教 授,浅見泰司教授に貴重なご示唆をいただきました.ここに記して御礼申し上げます. [参考文献] A l l巴nC .Goodman(1978), HcdonicP r i c e s, P r i c巴 I n d i c e s, andH O l l s i n g恥l a r k e t s, J O l l r n a lofUrban Econoll1i c s, Vo. I5, No.4, pp974‑988 Am巴 n i y a (1 9 8 5 ), AdvancedEC0l70ll1e l r i c s,HarvardU n i v e r s i t yP r e s s i l l i l a n dandJ a c q l l e sGordon(2000),TheRealE s t a t eRescarch E l a i n巴 Worzala,DavidG s, PREA( P e n s i o nReolι I "l a l eA s s o c i a l i o l , リf a l l, PP24‑27 NeedsofChiefInvestmentO f f i c巴r 胞団野登 (1992) r へドニツク・アフローチによる社会資本整備便益の計測とその展開」土木学会 論文集, No. 449/N‑1 7,pp37‑46 中村良平 (1996) r住宅市場におけるマンション価格形成と収益率に関する研究」財団法人 第一 住宅建設協会 N i s h i m l l r a, K.G Exp巴c t a t i o nH e t c r o g e n e i t yandExc巴s s i v eP r i c cS e n s i t i v i t yi nLandMarket" . J opanese Ecol1omicReview, 50, (1999) 小野宏哉・高辻秀興・清水千弘 (2001) r品質を考慮した中古マンションの価格モテソレの推定 J 麗津大学経済社会総合センター・ワーキングペーパー P e t e rC h i n l o y (1979), HedonicP r i c eandDeprec凶 i o nIndexesf o rR巴s i d巴n t i a lHousingAgain, . J o l l r n o lof 白 人 Vo I .6, No.2, pp272‑273 UrbonEconomic S .( 1974), HedonicP r i c e sandl m p l i c i tMarkets, ProductD i f f e r e n t i a t i o ni nPureCompetition, Rosen, J O l l r n o lofPo/ il i c o lEconoll1y, Vo. l82,pp34‑55 清水千弘 (2000) r不動産市場分析 J ,投資不動産評価研究会編著『投資不動産の分析と評価』第 2 章,東洋経済新報社, pp65‑102 清水千弘 (2001) r品質調整済住宅価格インデックスの開発」東洋経済統計月報 2001年 6月号 高辻秀興 (2001) rSASによる構造変化テストの方法について」麗海大学経済社会総合センター・ ワーキングペーパー Quiglcy, JohnM(1 9 9 5 ), A SimplcHyb刈 Modelf o rE s t i m a t i n gRcalE s t a t cP r i c巴 lndex巴s , . J o l lrl1o lof VoI .4, No.1, ppト 1 2 H O l l s i n gEconomics, ‑ 1 0 0
日本 SASユーザー会 (SUG1‑0) SASによる履歴データ加工とレポーティングの例題集 東一成 株式会社 SASインスティチュートジャパン 営業本部ソリユーションプランニングセンター M a n i p u l a t eandR e p o r tt h eh i s t o r i c a ld a t abySASSystem KazunariAzuma SolutionPlanningCenterlSASI n s t i t u t eJapanL t d . 要旨 本稿では SAS システムを利用し、企業内に大量に蓄積されている履歴データのデータ加工と、レ ポーテイング、顧客ランクの算出までの流れを、サンプルプログラムと共に紹介を行っていく。筆者 が今まで行ってきた顧客のサポートの中から、質問が多く、また、良く利用されるプログラムを記述 していくつもりである。特に新たに SASを利用し始めたユーザーにとって、参考になるものである とも考えている。データ加工はプログラムを分かりやすくするため、なるべく簡単な構文を利用する つもりである。 キーワード: BaseSASソフトウェア、データ加工、レポーティング、顧客分析 1 . はじめに SASシステムの特徴として、データ加工のための豊富な PROCステップやデータステップが用意 されており、より複雑な処理も比較的簡単な記述によって行える。しかもこれらの処理は非常に高速 で、近年ますます向上しているハードウェアスペックを利用すれば、非常に大量のデータ加工も高速 に処理する事が可能となった。データのサマライズ、加工、変数作成、集計表作成などを紹介する。 2 . データについて 今回のサンプルの中で利用するデータはクレジットカード会社を恕定し「履歴データ」と「顧客マ スターデータ」の二つのサンプルデータとする。また、データは SASデータセットになった状態か らスタートしている。 HU よ 41 ハ ‑ ‑
履歴データはライブラリ r SUGIJj 顧客マスターデータはライブラリ のデータセット名 rTRANj。変数は rSUGIJj の デ ー タ セ ッ ト 名 下記の通り。 rMASTER1 0変数は下記の通り。 C U S TI D 数値顧客番号 2 A G E 数値年齢 利用加盟底 3 G E N D E R 文字性別 文字 購入商品 4 B I R T H 数値誕生日 C A R D 文字 カード区分 5 K E I Y A K U 数値契約日 6 S I臥 R A I 数値 支払い回数 6 M A R R I A G E 文字婚姻状況 7 S A L E S 数値 売上 7 H O U S I N G 文字住居情報 C U S TI D 数値 顧客番号 2 D A T E 数値 買上目 3 H E H B E RS 数値 4 P R O D U C T 5 3 . データ加工・分析の流れについて 3 . 1 . SASシ ス テ ム の デ ー タ 加 工 と は ? SASシステムによるデータ加工は、どのようなアウトプットを出すのかによってデータの形が変わ ってくる。単なる集計であればデータ加工はそれほどせずに、履歴データならばトランザクションの 発生順に追加されるような形式でも構わない。ただ、データマイニングや統計解析を初めとするよう な顧客分析に使う場合は、顧客マスターと 1 : 1でマージができるように r1顧客 1オブザベーシヨン」 の形にしなければならない。履歴データを r1顧客 1オプザベーションのデータへ変更する」という データ加工をいかにして行うかが、その後の分析の結果を左右する要因ともなるのである。しかしな がらこの時に履歴データから単純にサマライズされた「顧客番号」と「売上金額合計」だけではどう しようもなし、。履歴データの中からいかにして多くの変数を作り出していくのかがポインとなのであ る。特にデータマイニングでは、業務知識や繰り返して行われた分析の経験から得られたアイディア を用いて追加された変数などが有効になる場合が多い。 SASシステムとは、分析のためのデータ加工を柔軟、かっ高速に行えるのが特徴となっている。こ の技術は DWH構築の際には非常に大きなアドバンテージとなっている。 3 . 2 . どのような分析を行うのか? 今回は、「解約フラグ」や「レスポンスフラグ」といったものは特に用意していない。顧客を購入 商品・カード・性別といった切り口でながめ、 RFM などの値を算出して特長を見ていく事を想定し ている。特徴を見極める方法としては、クロス集計や統計的手法、データマイニングなどの手段が考 えられる。 ‑102‑
4
. データ加工
4.1. 履 歴 デ ー タ の サ マ ラ イ ズ
現在、売上履歴のデータは下記のような形で蓄積されている。
i
幽型車問11m.園田園田園園田園蝿醐圃醐蹄盤機
噛
デタ r
s
u
g
i
j
.
t
r
a
n
J
ふ 療 開 ! 雪 j質上.
s
:
.
.
l事!駒嚇L::
.
J
喜入磁
'15; 1
1
6
:
1
7 'j
18 1
1
9 >1
己主主三1
2
1
;/22 /1
山
V
二?舟山
i
:
'
:
f
T
;
カ
明r
笹分 封 4
い母桜売上回
ゴールド
ゴールド
ゴ」ルド
ゴ』ルド
ゴールド
ゴサレド
ゴ叶レド
ゴールド
1
0
0
41
9
9
9
‑
01
‑
15
1
0
0
41
9
9
9
‑
0
1
‑
2
9
1
0
0
41
9
9
9
‑
0
2
‑
1
5
1
0
0
4,
1
9
9
9
‑
0
3
‑
2
7
1
0
0
41
9
9
9
‑
0
4
‑
2
7
1
0
0
41
9
9
9
‑
0
4
‑
2
9
1
0
0
41
9
9
9
‑
0
5
‑
0
7,
1
0
0
41
9
9
9
‑
0
6
‑
2
7
2
4
2 レストラン
2
2
5 通信費
1
3
6 レストうン
日レストうン
3
0
6 レストラン
3
4
8 通信費
3
1
6 通信費
1
1
4 通信費
1
日
日4 1
qqq‑日7
‑
日
自
民R t
, ) . ト 弓 、 ‑ r‑JI,
ド
1
~12.750
半1
0
.
0
0
0
~23.4 00
半3
5
.
0
0
0
半1
2.
00
0
~1 0
.
0
0
0
事1
1
.
0
0
0
¥1
0
.
0
0日
制?日円円
この場合、単純に顧客番号をキーとして売上金額をサマライズすればよいが、よく見ると購入商品、
カード区分、利用加盟屈なども存在する。これらの項目も上手く利用して「この顧客はどのような商
品を買っているのか ?J や、買上げ日などを利用すれば「どのような間隔で何回利用するのか ?J、
購入回数や金額の合計を利用すれば「平均利用金額はいくらなのか ?J といった項目を追加する事が
可能である。まず「購入商品別の金額合計」、「購入金額合計」、「初回購入から最終購入までの日数」
などを算出してみる。
SASシステムでは普通、サマライズを行う場合は、 SUMMARYプロシジヤ、 MEANSプロシジャ
などを利用すると簡単に行えるが、今回は上述しているようなデータ加工も必要となるので、 DATA
ステップや TRANSPOSEプロシジャなども組み合わせてデータ加工を行う。
4.1.1.
サンプル 1 iデータサマリー」
最初のサマライズとして顧客番号・購入商品で金額の合計を算出する。
,
データ r
w
o
r
k
.
s
u
m
l
J
温1
1
m国車環器蕗鰻蕊機織@1lC,;"]
/本サマリー処理 1 *
1
種審番豆えよ努&盗呈云乞ネ怠!;,九三
1
0
0
2力
ツJ
ン
引5
.
0∞
1
0
0
2キャフシン'
J
<7
.
8
∞
1
0
0
2 鞄ー靴
刷9
.
0
口
1
0
0
2I
'
t
o
.
o
'書籍
~1.5叩
1
0
0
2 自動車
~208.7日0
1
0
0
2;
羊1
6
1
~16.950
1
0
0
4レ
ス
ト
ラ
ン
~25日 500
1
0
0
4通信費
~52.0 叩
1
日0
5キャッシンヲ
¥1
3
.
5叩
1
0
0
5レ
ス
ト
ラ
ン
~33.7∞
1
0
0
5通信費
~31.0∞
1
ぬ 5洋服
~24.6日
処理結果
p
r
o
c summary data=sugij.tran n
w
a
y
;
class cust̲id p
r
o
d
u
c
t
;
var s
a
l
e
s
;
=
;
outputout=suml(keep=cust̲idproducts
a
l
e
s
)SUm
r
u
n
;
1
2
一
ー1~
叫
1mつ年刷、"、,"
"',;m
上記のように SUMMARYプロシジャを使えば簡単に顧客別・購入商品別に売上金額の集計は行え
る。しかしこれでは il顧客 lオブザベーション」にはなっていない。次にはデータの縦横変換を行
ってみたい。
4
.
1
.
2
. サンプル 2 i縦横変換(トランスポーズ)
J
データの縦横変換を行う場合、 SASシステムには TRANSPOSEプロシジャが有効である。ここで
注意が必要な点がひとつある。 TRANSPOSE プロシジヤで、は購入商品の変数に入っている値から変
8
.
1ではダブルバイト文字による変数名
数名を作る事が可能である。しかしながら、 SASシステム V
寸﹄ム
ハ川U
ηべU
の作成が評価版という位置付けである。よって変数名「キャッシング」などは避けたほうが良 1i。こ
の問題を避けるために、事前に商品名に応じたコードを自動的に生成するデータ加工を行う。こうす
ると、例えば商品名 rCD.音楽」には商品コード(変数名 r]
lr
o
c
l
i
d
j)
に rlj というデータを作成さ
れる。(普通は基幹系のデータは全てコードで入っているとは思われるが。)
/
本 TRANSPOSE用のデータ加工本/
p
r
o
d
i
d
)を作成したデータ
商品コード (
proc sort data=suml out=sum2;
ISUM2J
by product;
強
ι:
こここ3鑓場斗堕~蹴1 pro
i
!
笠i
一五
data sum2;
set sum2;if ̲n̲=l then prodid=O;
by product;retain;
巴_B~_L
l
1
2
5
7 i
卜一一一.1258 I
I
1
2
5
9 i
1
2
6
0 I
1261!
1262!
prodid=prodid;
i
f first.product then prodid=prodidtl;
コ
翠
コ
output;
1
ワR且
r
u
n
;
I
5
3
5
3
2
.CD・
音楽
5
3
5
4
0
.CD'音楽
5
3
6
2
2 CD・
音楽
5
3
6
2
3
'CD'音楽
1
日2ガ
ツ
リ
ン
日1
8ガ
ソ
リ
ン
1
ソ
リ
ン
1
0
2
3ガ
1
0
2
4ガ
ツ
リ
ン
1
n:.l河村'、 }
I
I
,
、
1
1
1
1
2
2
2
2
つ
半3
.
5
0
0
半6
.
5
0
0
半1
4
.
3
0
0
ね即日
半1
5
.
0
0
0
単1
3
.
8
0
0
半4
.
5
日
半1
9
.
6
日
引
っn
n
n
上記のデータ加工を受けて、購入商品の出現順に変数名 rpRODl,
PROD2・
・
・ PRODnj と命名し
ていき、ラベル名に「購入商品」の値を付けていく (PROCTRANSPOSEステートメントの PREFIX=
オプションと IDLABELステートメント、 IDステートメントを利用)。
データ 'sum3J
/
本 TRANSPOSE
処理本/
proc sort data s
u
m
2
;
二
by cust̲id;
proc transpose data
二s
um2
引3
日
:
5
out=sum3(drop=̲NAME̲̲LABEL̲)
!l.6~目
田4
0
0
prefix=prod;
1
2
{
6
5
G
1
1
3
.
:
0
0
1
1
2
,
9
叩
1
6
5
.
0
0
0
!
g
,
O
]
by cust̲id;
資J
.
6
5
0
旺0
i
.
6
0
i
d prodid;idlabel product;
お2
4
.
5
0
var sales;
o
f
,
̲
同
日
4
.
1
.
3
. サンプル 3r
欠損値穴埋めと合計・平均の算出」
「サンプル 2J により、顧客ごとにそれぞ白れの商品カテゴリ別の売上を表す変数を作成する事が出
来た。しかしながら、顧客によっては購入していない商品も存在するが、そこは欠損値となってしま
っている。この欠損伯を rOJ で穴埋めし、カ通つ顧客別の売上合計を算出する。
A 斗A
n
u
‑
‑
d a t as u m 4 ( d r o p寸 ) ; s e ts u m 3 ; a r r a yn v a r n u m e r 1 cー ; 同1 2 但 刷1 6 . 5 田 d oi = lt od i m ( n v a r ) ; ̲ 5 8 } 凹 車1 0 0 . : 0 0 w O f'3~6}日 ̲ 0 t '3 7 1 . E 同 事 7 2 .8 6 0 ' 1 1 2 4,5 1 0 切曜日,.由 時7 8 4 叩 資1 5 0 J 日E ' 0 理1 副 尚2 2 1日 国 1 3 1 . 21 0 初 判Q 4 2 0 5 1 9 6 7 日 初 切 ∞ 切 ; i fn v a r [ i J = .t h e nn v a r [ i J二 0 t o t a l = s u m ( o fp r o d l ‑ p r o d 1 6 ) ; 。 話 ;l a b e lt o t a l = '売上合計'; f o r m a tt o t a ly e n 1 50 ・ 日 望 引"脚 司軍1 目',3tQ ¥3502~O r u n ; 初回購入から直近購入までの日数算出」 4 . 1.4.サンプル 4 r 次に、麗歴データに存在するデータの中で、顧客ごとに初回購入日から最終購入日までの日数を算 出しデータセットに格納する。 データ r s u m 5 J /玄鶏翼活動期悶本/ p r o cs o r td a t a = s u g i j . t r a n ( k e e p = c u s t ̲ i dd a t e )o u t = s u m 5 ; b yc u s t ̲ i dd a t e ; 叫 山 u 山 H 町 耐 T d a t a凱 s s e ts u m 5 ;b yc u s t ̲ i d; r e t a i n ; 1016 1018 1021 1022 1023 1024 1026 1027 1028 1033 i ff i r s t . c u s ti dt h e nf s t ̲ d a t e = d a t e; i fl a s t . c u s t ̲ i dt h e nd o ; 1 s t ̲ d a t e = d a t e ; t i m e = l s t ̲ d a t e ‑ f s t ̲ d a t e ; u t p u t ; l a b e lt i m e = '購買活動期間, ,o e n d ; 244 288 210 89 270 229 185 185 260 353 337 127 168 琵 7 2 1 1 9 8 8 r u n ; 4 . 2 . RFM分析の為のデータ加工 4 . 2 . 1 . RFM分 析 と は ? RFM 分析とは、流通業などを中心に履歴データから取得できる項目を使い分析する手法である。 顧客を評価するための基準として、 R(Recency)、F(Frequency)、M(Monetary)の 3つを用いる。そ れぞれ R・・・最新購入目、 F...購入頻度、 M...購入金額となっている。算出されたそれぞれの RFM の値に経験則などから得られた数値により重み付けを行う。例えば Rが 1週間以内であれば 1 0ポイ ント、 Fが 1 0回であれば 5ポイント、 M が 1 0万円であれば 8ポイントなど。 今回ご紹介する方法は、ポイント付けの方法をもう少し工夫し、全体の中央値 (meclian)と比較し、 どのぐらいの位置にいるのかを算出する。この方法が顧客の評価方法として正しいかどうかは議論の 余地はあるが、少ない情報から顧客を数値的に評価するための方法として、簡単な指標になると考え られる。 4 . 2 . 2 . サンプル 5 r 雇歴データからの R値算出」 R値の算出は、履歴データを顧客番号と日付でソートしておき、同じ顧客番号の中で最後に発生し Fhu 14ム nHU
た日付が最新購入日となる。 / 本 RFM分析...R 算出*/ data r(keep=cust̲id r ) ; s e t sugii.tran(cust̲id d a t e ); b yC U S T ̲ I D ; r e n a m ed a t e = r ; i f last.cust̲id t h e no u t p u t ; r u n ; 4 . 2 . 3 . サンプル 6 i履歴データからの F値算出」 F値の算出は履歴データから単純に SUMMARYプロシジャなどでも算出できるが、注意点として は 1日に 5回買い物をした場合に、 Fの値を 5とするか 1とするかである。今回のサンプルでは 1日 に何度買い物をしても Fの値が i lJ になるようにしている。 データ iFJ / 本 R F問分析...f 算出 * 1 nカウント本/ /本ただし、問日!こ何問買い物をしても1[ロ data f(keep=cust̲id f ) ; s e t sugii.tran(keep=cust̲id d a t e ) ; b yc u s t ̲ i d ; 1 a g = d a t e ‑ la g l( d a t e ) ; 6 i f first.cust̲id = 1t h e nd o ; l a g = O ; f = l ; e n d ; 日 、 h e nf + l ; i f first.cust̲id = 0a n dl a g >0t i f last.cust̲id t h e no u t p u t ; i i h r u n ; 4 . 2.4.サンプル 7 i履歴データからの M 値算出」 M値の算出は普通に SUMMARYプロシジャで行えばよい。 本 / RfM分析... M算出*/ p r o cs u r m 旧r yd a t a = s u g ii .t r a n ( k e e p = c u s t ̲ i ds a l e s )n w a y ; class c u s t ̲ i d ; v a rs a l e s ; output out=m(keep=cust̲id m ) s u m = m ; r u n ; q u i t ; nHV ハ h u 1i
4
.
2
.
5
. サンプル 8r
算出した RFM値からポイントを算出」
続いて、顧客ごとにポイントを求める。 RFMそれぞれが、
全体の中央値(平均値、最頻値でも良いが)からどれくらい離
I/*R附それぞれ全体の中央伎を算出本/
れているのかを算出する。その際に RFMのそれぞれを中央
I
p
r
o
cu
n
iv
a
r
i山 由t
a
=
rn
o
p山 t
;
値で割る事により、日付、回数、金額といった異なる尺度の
I var r;
ものを、中央値からの距離という一つの尺度で表現する事が
I output叫 =m̲rmedian=m̲r;
可能となる。
Ipro
∞
cu
川r
右 記 の プ ロ グ ラ ム を 実 行 し た と こ ろ 、 rR 中 央 値 │
町
;
f
;
=1999
,別
.
1
ロ
2
.
含
2
却
剖
O、F中央値 =2
お5回
、 M 中央値=¥ 3
訪5
日
釦
1
.部
96
印
捌
OJ とな
│ out川 叫 =m
札
一
̲
fm
問e
附
d
i
a
n=
m
札
一
つた。それぞれの値を、デ一タセツト 1
m
一R
J'm一FJr
m̲MJ
Iproc univariね data=mnop山 t;
叫
炉門
に格納する。(変数名もデータセットと同じ名前にしている) I v
a
rm
;
o
u
t
p
u
to
u
t
=
m
̲
mm
e
d
i
a
n
=
m
̲
m
;
r
u
n
;
続いて、ここで算出した R、F、M のそれぞれの中央値で割り算を行う。今回は上記で算出した中
央値をマクロの CALLSYMPUTルーチンを使って保持し、割り算を行っている。また割り算を行い
M 値の相
ながらデータセットのマージを行い、一つのデータセットとしている。そして最終的にR.F,
乗平均を算出して、一つの RFMポイントとしている。
d
a
t
a̲
n
u
1
1
̲
;
/
本 R
f
Mポ イ ン ト デ ー タ の 作 成 本 /
s
e
tm
̲
r
;c
a1
1s
y
m
p
u
t
(
'm
̲
r
',
m
̲
r
)
;
d
a
t
aR
F
M
(
k
e
e
p
=
c
u
s
t
̲
i
dr
̲
p
o
i
n
tf
̲
p
o
i
n
tm
̲
p
o
i
n
tr
f
m
̲
pn
t
)
;
',
m
̲
f
)
;
s
e
tm
̲
f
;
c
a
1
1s
y
m
p
u
t
(
'm
̲f
m
e
r
g
e rfm
;
b
yc
u
s
t
̲
i
d
;
m
̲
m
)
;
s
e
tm
̲
m
;c
a1
1s
y
m
p
u
t
(
'm
̲
m
',
r
̲
p
o
i
n
t
=
r
/
&
m
̲
r
;
l
a
b
e
1r
̲
p
o
i
n
t
=
'
Rポイント';
f
̲
p
o
i
n
tニf
/
&
m
̲
f
;
l
a
b
e
1f
̲
p
o
i
n
tニ
, F
ポイント';
r
u
n
;
mp
o
i
n
tm
/
&
m
̲
m
;
l
a
b
e
1m
̲
p
o
i
n
t
=
'阿ポイント勺
三
r
f
m
̲
p
n
t
=
s
q
r
t
(
r
̲
p
o
i
n
t村 ̲
p
o
i
n
t
*
m
̲
p
o
i
n
t
)
;
1001
ロ989
0998
1000
n9yg
口9H4
(
)
!
.
1QQ
,
1
099[
099,
0997
1000
1[
)
(
)
2
1凹)
1
0994
0.999
0998
0999
0999
099:
3
0999
0000
山
0'8
0"'20
0440
0440
04>
1
(
J
日2
H
f
l
日4
(
J
[
)
04"0
0280
0240
oaoa
目的 40
1000
口
2
[
)
(
)
0000
2200
0200
円7
"0
05150
04RO
の前向f
、
I
)H4
f
)
,
!
J
I
J
H
r
02¥J包
Il、{2H
u:n7
I
lf
i
l
[
)
1
)42H
02g,
0326
口S97
o70a
102
0:
<
'
131
口コ 2
1
0414
1
073:
0302
omo
,597
03R2
J
>
f
i5
nr
(
l
3
f
,H
。
[J ~~Hll
:
n
:
i
0410
.
3
;
f
o
r
m
a
tr
̲
p
o
i
n
tf
̲
p
o
i
n
tm
̲
p
o
i
n
tr
f
m
̲
p
n
t8
r
u
n
;
【1
414
0358
0302
0376
0748
n.4口
1191
2
!
'
)
2
口102
12o円
0276
07n4
口940
。
門
データセット
'RFMJ
r
j
4
.
3
. データの統合
ここまでのデータ加工により、一つの屈服データから「商品別の購入金額と総合計」、「購買活動期
間
」
、
IRFMポイント」のそれぞれを表すデータセットを作成する事が出来た。当然、これらのデー
乃ta
n
u
u
タは i l顧客 1オブザベーション」で統ーされている。これらのデータに顧客属性データをつけるこ とで、分析を行うためのデータが完成するする。 タの統合 * 1 /本顧客デ d a t as u g i j . c u s t ̲ d w ; 4s u m 6r f m ; m e r g es u g ij. m a s t e rs um b ycust̲id; r u n ; C U S T1 0 数値顧客番号 1 6 p r o d 1 0 数値 2 A G E 数値年齢 1 7 p r o d 1 3 数値電気製品 3 G E N O E R 文字性別 1 8 p r o d 8 数値航空チケット 4 B 1 R T H 数値誕生日 1 9 p r o d 1 4 数値 5 K E 1 Y A K U 数値契約日 2 0 p r o d 1 5 数値保険 6 M A R R 1 A G E 文字婚姻状況 2 1 p r o d 5 数値 プロパイダー 2 2 p r o d 1 数値 C O.音楽 数値ネットショップ 7 H O U S 1 N G 文字住居情報 時計・貴金属 美容・健康 8 p r o d 2 数値ガソリン 2 3 p r o d 4 9 p r o d 3 数値 2 4 t o t a l 数値売上合計 1 0 p r o d 7 数値鞄・靴 2 5 t i m e 数値購買活動期間 1 1 p r o d 9 数値雑誌・書籍 2 6 r ̲ p o i n t 数値 Rポイント 1 2 p r o d 1 1 数値 2 7 f ̲ p o i n t 数値 Fポイント 1 3 p r o d 1 6 数値洋服 2 8 m ̲ p o i n t 数値 Hポイント 1 4 p r o d 6 数値 2 9 r f m ̲ p n t 数値 R F Mポイント 1 5 p r o d 1 2 数値通信費 キャッシング 自動車 レストラン 最終的に完成したデータセット iCUST̲DWHJ 5 . レポーティング 分析に必要なデータセットの作成が終わったので、後は S ASのレポート・集計・グラフ作成のプ AS/Insightソフトウェア、 SAS/EISソフトウェアなどを使えば動的 ロシジヤが利用できる。また、 S LAPによる分析をダイナミックに行う事が出来る。 に統計解析や O DSなどの機能を利用して HTMLによるアウトプツ 今回は簡単な集計表やグラフを作成するが、 O トの方法を紹介する。アウトプット問でリンクが可能な HTMLの作り方なども紹介する。 今回は紙面の関係上、 2つのサンプルプログラムの紹介にとどめる。 1 0 8
5
.
1
. サンプル 9 i単純なグループ別の集計」
最初は RFMポイントを性別・婚姻状態別で集計を行ってみる。アウトプットは HTML形式。
F一回一一一一一一一将戦線機嫌際機燃えよ、週~
/
x レ;j¥ート 1*
/
河刑判闘軍閥惜相肌匁皆制崎司外相
江←ご
尚、張主治I;)''U酔当相之‑
'
0i;liI!I i
u
'd ~・滋
i
W
明記河品川町一叩
o
d
sh
t
m
1p
a
t
h
=
'0
洋S
U
G
I半S
U
G
I
J
2
0
0
1半h
t
m
1
'(
U
R
LN
O
N
E
)
士
白 品 山
.
"
,
.
岨
フoP$l‑t‑
b
o
d
y
=
'r
e
p
o
r
t
1.
h
t
m
1
';
‑
I
三世叱0'/1
1
'
ニ1
p
r
o
cm
e
a
n
sd
a
t
a
=
s
u
g
i
j
.
c
u
s
t
̲
d
w
h
;
c
1
a
s
sg
e
n
d
e
rm
a
r
r
i
a
g
e
;
v
a
rr
f
m
̲
p
n
t
;
r
u
n
;
q
u
i
t
;
5
.
2
. サンプル 1
0iリンク付けされた HTMLレポート」
このサンプルでは HTML問でリンク付けを行い、擬似的にドリルダウンが行えるようにする。
/本レポート 2 *
/
/*リンク先を別ファイルへ*/
o
d
sh
t
m
1p
a
t
h
=
'
D
:半S
U
G
I半S
U
G
I
J
2
0
0
1半h
t
m
1
'(
u
r
1
=
n
o
n
e
)b
o
d
y
=
'r
e
p
o
r
t
2
0
.h
t
m
1
';
p
r
o
cm
e
a
n
sd
a
t
a
=
s
u
g
i
j
.
c
u
s
t
̲
d
w
h
;
c
1
a
s
s m
a
r
r
i
a
g
e
;
v
a
rr
f
m
̲
p
n
t
;
A
>
';
f
o
o
t
n
o
t
e
1'
<
Ah
r
e
f
:
"
r
e
p
o
r
t
2
1
.
h
t
m
1勺男性のデータへく /
A
>
',
f
o
o
t
n
o
t
e
2'
<
Ah
r
e
f
=
"
r
e
p
o
r
t
2
2
.
h
t
m
1
"
>女性のデータへく /
r
u
n
;
q
u
i
t
;
o
d
sh
t
m
1p
a
t
h
,
二D
:半S
U
G
I半S
U
G
I
J
2
0
0
1半h
t
ml
'(
u
r
1
=
n
o
n
e
) II
o
d
sh
t
m
1p
a
t
h
=
'D
:半S
U
G
I半S
U
G
I
J
2
0
0
1半h
t
m
1
'(
u
r
1
=
n
o
n
e
)
r
e
p
o
r
t
21
.h
t
m
1
'
;
b
o
d
y'
二
p
r
o
cm
e
a
n
sd
a
t
as
u
g
ij
.c
u
s
t
̲
d
w
h
;
二
t
it
1
e'男性レポート, ;
w
h
e
r
eg
e
n
d
e
r
=
'男性, ;
IIb
o
d
y
=
'r
e
p
o
r
t
2
2
.
h
t
r
川';
IIprocmeansdata=sugij
.c
u
s
t
̲
d
w
h
;
II t
it
1e'女性レポート';
II where gender三女性s;
II c1ass marriage;
II v
a
rr
f
m
̲
p
n
t
;
v
a
rr
f
m
̲
p
n
t
;
,
"r
e
p
o
r
t
2
0
.h
t
m1
"
>全体のデータへ II f
o
o
t
n
o
t
e'
<
Ah
r
e
r
,
,
"r
e
p
o
r
t
2
0
.h
t
m1
">全体のデータへ
f
o
o
t
n
o
t
e'
<
Ah
r
e
f
o
c
1
a
s
s m
a
r
r
i
a
g
e
;
<
/
A
>
';
1I<
/
A
>
';
r
u
n
;
IIr
u
n
;
円ud
ハ
ょ
1
υ
H
6 . まとめ この論文で紹介したサンプルプログラムを参考にしていただくことにより、 S ASシステムの初心者 の方でも履歴データを用いたデータ加工を行う事が可能であると思われる。 QLプロシジャなどを活用する事により、より多くのデー 当然、この他にもマクロプログラムや S タ加工を効率的に行う事も可能である。また BYステートメント等を利用する場合は、事前にソート 処理などが必要となるので、大容量データの場合はなるべくソート処理をしないようにコーデイング を行う方法や、インデックスを作成しておくなどの工夫が必要となる。 今回の論文ではスペースが残り少なくなってしまい、レポーテイング部分のサンプルプログラムを SASシステム V8からは ODSの機能が追加された事により、 TFや J a v a、A c t i v e X等の出力も可能 アウトプットの表現力も増している。 HTMLを初めとして、 R ORBAといったものに対しても対応をしている。よって となっている。また情報配信も DCOMや C / S聞の SASシステム同士だけではなく、 Webやその他の T h i n C l i e n tによる情報は 結果の配信も C それほど載せる事ができなかった。 威信の可能性が広がった。 今まで紹介してきたデータ加工のプログラムも、何を分析するのかを決めてから考えていくと分か ASシステムは非常にもったいない。 りやすい。ただ単に大容量のデータを蓄積するだけの用途では S やはり分析者の視点を持ち、エンドユーザーにとって利用しやすい形のデータウェアハウスの提供を 行う事が、多くのユーザーに便利に使われるデータウェアハウスの必須事項であろう。 ハHU 1よ 1よ
日本 SASユ ー ザ ー 会 (SUG1‑0) SASl In t r N e tソフトウェアによる検索アプリケーション構築について 鬼頭拓郎 株式会社 SASインスティチュートジャパン 営業本部ソリューションプランニングセンター D e v e l o p i n gt h eQueryA p p l i c a t i o nu s i n gSAS l In t r N e tS o f t w a r e TakuroK i t o S o l u t i onP lanningCenter/SASI n s t i t u t eJapanL t d . 要旨 パ ー ジ ョ ン 8における新機能及び拡張点のうち、ロングノくリューサポート機能を活かした SAS/lntrNet ソフトウェアにおけるアプリケーション開発について述べる。この機能により SASの エンジンを用いての文書中の文字検索が可能になった c 本稿では筆者がある企業に対してアプリケー ションを作成した際のノウハウのいくつかを紹介したいと思う。今後同プロダクトにてアプリケーシ ヨンを構築するユーザーの一助となれば幸いである。 キーワード: 1. BaseSASソフトウェア、 SASl IntrNetソフトウェア、アプリケーション構築 BASE/SASを 用 い て の ア プ リ ケ ー シ ョ ン 構 築 1‑1 簡単なアプリケーションの構築 n t r N e t上でのアプリケーション構築つ 検索条件が 2変数の場合のアプリケーションを題材にし、 I いて説明したいと思う。次のような HTMLファイルによって表示される画面から検索条件を入力す るとする。 くHEAD> くTITLE>I n t r N e t検索くtrITLE>く/HEAD>くBODY> くHTML> くHla l i g nプ c e n t e r う条件入力く/Hl> く Pa l i g n = " c e n t e r " > く FORM a c t i o n = ' ' h t t p : / / l o c a l h o s t / s c I ・ i p t s/br o k e r . e x e " > く INPUTtype=hiddenn a m e = " ̲ s e r v i c e "v a l u e = " d e f a u l t " > く INPUTtype=hiddenname="̲program"value="SUGI .samplel .s a s " > く BR> 変数 SHOPにく INPUT t y p eニ t e x tname="varl"s i z e = 2 5 > を含み、 く BR> ーよ ーよ
く
INPUTt
y
p
e
=
r
a
d
i
oname="andor"v
a
l
u
e
=
"
a
n
d
"checked> かっ
くINPUTt
y
p
e
=
r
a
d
i
oname="andor"v
a
l
u
e
=
"
o
r
"
> または
く
BR>
変 数 BENTOに く INPUT t
y
p
e
=
t
e
x
tnameニ"
v
a
・
'
l2
"s
i
z
e
=
2
5
> を含むもの。く BR>くBR>
く
INPUTt
y
p
eプ s
u
b
m
i
t
"v
a
l
u
e
=
"
表示
"
>
船田町戸町…一一一一議磯綴議議長.,.JP.L~:
̲Vi
隆示世勿罰"""包〉ヲー凡申ヘルフ智
掴E
・
彊
一心.
」云ョ j.
um王
:
.
i
J
l
$
F
.
I
:
.
入
。
¥
J
遍
!'
O
"
:
'
J云.才一
:フ?i 1~V
くIFORM>
くI
P>くIBODY>く/HTML>
.吟
同 瑚"
lE岨晶.L'IXlliJ$.耐 1M...!
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
:
J θ棚
}
条件入力
こ
γ一一一一一一ーを宮み
宜鼓 Sf
‑
OP
l
G
この HTMLファイルが実行されたときに
わ、つよ正たは
柏町内{こ「ー一一一一ーを吉む毛田.
宜E
呼び出されるプログラム 1
samplel
.s
a
s
Jの
内容は次のようなものだ。
̲
.‑
f
t
:
T
.
…
」
%ds2htm(data=SUGIDATA.bento,
where=shopc
o
n
t
a
i
n
s"&varl"&andorb
e
n
t
oc
o
n
t
a
i
n
s"&W
i
I
・2
",
h
t
m
l
f
r
e
f
=̲webout,
runmode=s);
また、 a
p
p
s
t
a
r
t
.
s
a
s(
1スター卜→プログラム→ TheSASSystem‑>I
n
t
r
N
e
t
→サービスディレクト
リ」を選択後、例えば 1
d
e
f
a
u
l
t
5
0
0
1
J フォルダの中にある。)プログラムに次の 2行を挿入する。
a
l
l
o
c
a
t
ef
i
l
eSUGI'
E
:¥SUGI‑J2001':
a
l
l
o
c
a
t
el
i
b
r
a
r
ySUGI̲DATA'
E
:¥SUGI‑J2001¥SAS̲DATA';
更に p
r
o
g
l
i
b
sステートメン卜に ISUGIJ を
、 d
a
t
a
l
i
b
sステートメン卜に ISUGI̲DATAJ をそれぞ
れ追加する。
n
t
r
N
e
t上
以上で簡単ではあるが 2変数で検索を行う際のアプリケーションが作成される。この様に I
でのアプリケーションは、 BASE/SAS言語と HTML言語の基礎さえ知っていれば簡単に作成するこ
とができる。始めてアプリケーションを作成される方は、上述の様な単純なものから始めて、徐々に
これらを応用していってもらいたい。
1‑2 ア プ リ ケ ー シ ョ ン の 運 用
1‑ 1のアプリケーションでひとまず Webブラウザから命令を投げて、結果が返ってくる仕組み
はできた。しかしながら実際にこのアプリケーションを運用するためには、解決しておかなければな
らない問題点がある。例えばどちらかのテキス卜入力ボックスが空白であったとしよう。するとその
空白であった方のマクロ変数が NULL値となってしまいエラーが発生する乙また SASの中での特殊
Jや l
'J など)が入力された際の制御や、数値変数の入力個所へ文字値が入力された際の制
文字(I;
御なども考慮する必要がある。さらに、社内全体やインターネットなど、広範囲で公開する場合には
セキュリティにも気を払う必要がある。この様に様々なケースを考えればきりがない。
アプリケーション作成の難しさの 1つは、起こり得る全てのケース(そして概してそれらは稀にし
avaや JavaScr
・
i
p
tを用いてブラウザ
か起こらないのだが)を考慮、しなくてはならない点だと思う。 J
1
1
2
‑
上で可能な限り制限をかけることにより、 S ASプログラム内でのこうした入力に対する処理を減らす ことができる。しかし本論文の主旨に反するため、ここでは触れないものとする c この辺りの問題点 をクリアし、更に例えば複数のデータセットの中から必要なデータセットを選択でき、そのデータセ ットの変数名が動的に表示されるような仕組みを加えれば、 1‑ 1で取り上げたアプリケーションで も十分業務に活かすことができるものとなるであろう。 2. 条件項目の追加 1章では、 2変数の場合の fAND条件、 OR条例こ」による文字検索アプリケーションを取り上げた c では更に複雑な条件を検索するためのアプリケーションを作成するにはどのようにしたら良いだろ カミ? ・・可 崎 J j)~ 母償雪R こ主J"四ι入り ぷ思箆ニえ~-...1 ;ÿ Flt~~l 托]m山岳皿,.山凶 html ; . 例えば「吉祥寺!苫または荻窪!苫でサンドイツチとおにぎり ~訓陥 を買った男性」という場合である。この様に予め条件の形式 条件入力 が分かっていれば、それに見合った分だけテキスト入力フィ !s 同 P二 声 高r 一 一 一 OR 沼市r一一一一 ールドを用意すれば良い。 しカミしながら条件の形式が決まっていない、つまりどんな ; 医 師 ニ灯毘「一一町田「一一 O 条件にも対応するようなアプリケーションを作成しようと G 男性 F すると、 IITMLだけでは限界が生じる。理由は以下の通り 女性 である。 に豆王コ Aまたは Bかっ C J を考えてみよう。この条 例えば条件 f 五 重 マ ィ コ ー 巴 → 極ぺ可蝿泊陪比一 件には 2つの解釈の仕方がある c 図1. f ( Aまたは B ) かっ C Jと f Aまたは ( Bかつ C )Jである。べ ン図で書いてみると違いは一目瞭然である。 Au但 包c) 仏uB)ハC C A A この様に、アプリケーションの構築の仕方によっては必ずしもユーザーが意図しない結果が出てし まう恐れがある。 ) のようなものを単純に変数を増やしただけでは全ての場合を網羅したことには 従って上記(図 1 なっていない。しかしながら実際のビジネスでのケースを考えると、おおよそ次のような形式を考慮 すれば十分ではなかろうか。 . . . .. ( A1orA2 orA3)and( B1orB2 01'B 3 ) αnd( C1orC2 01'C3)and. 1 1 3
これを実現するために、再帰的に呼び出せる画面構成を考えた c
品
ヤ酷ーし Jil~ ,
,
T
a
防
隣
国
.
.
.
.
.
'
"
.
.
=
:
t
>
・
唱
;)j:
l J牌ム同1l.:A'l.J田守 J
:
.
!・
1
…一一一一一一
.~盟主占 J 7d<造
"。
退
'
"
・
,
̲
温
白
"町
偲
留
孤
川
崎
刷
P.電"囲内湖町t
fOR条件入力』
沼~
r
;
;
マ
ミ
﹁'﹁ι1
一
旧
一S1一
何すで豆
,
長
何
f
:
i
ι ・
.
.
.
.
.
.
:
'
J
云t
'
‑
‑-.~J
キ
ー
ワ
ー
ド :
.
.
.
.
.
.
.
i
'
o
ì~
一一一一一一一「一一一一一一一一一一一一一一一
一一一一一一一「一一一一一一一一一一一一一ー
割印"と一
(
A
lorA2orA3)
j間企
fAND条件入力』
明日 3
帽唄句"‑
汗「コ
一 一 1r
一
一 一
・
'
" 一
.
.
.
.
.
.
.
.
.
.
!
四
句 "
項目~目 2
22一
百
一
「アーヨ
キーワード?百了一ー一一一一声一一一一一一一一 γ一一一一一一一ー
i
一
一
Eヨ
g
fAND条件入力』
~目 3
主主「古1
a u Rワ
.剖:
言 「 て1
市市福嶋"""品回向・・守岨町田崎
受講↑
マ
日
・e
レ毘・ 主.J~;41回忌皿,:À,>;3居世 ..
L
;
a
'
:
.
J
項一畑山一
. , 目 轟 " ,
r
;
;
;
1 1
同τ一
三
愛"名
画面 3
画面 2
画面 1
時}.lM';C,M
。
nd (
B
lorB2o
rB3)ω7
d (
C
lorC2orC3)
図2
.
以上によりユーザーが求める AND条件、 OR条件の結果を得るためのインターフェースが整った。
次章以降ではこのアプリケーションをより効率的に運用、構築するための方法について述べる
3
.
C
元データのサブセット化について
) により、実際に検索結果を得るためには次の 2つの方法が
前章で述べたアプリケーション(図 2
考えられる。検索の対象となるデータの量やサーバーのディスクの空き容量、使用用途等によって使
い分けてもらいたい。
3‑1 常に元データに対し検索を行う
NPUTタグの隠しフィー
すなわち、図 2の画面 1で入力した条件を画面 2に引き継がせる訳だo I
T
Y
P
E
=
h
i
d
d
e
n
) を用いて、画面毎に動的な HTMLプログラムを返すようにすれば、これが可
ルド (
能になる。
このやり方による長所は余分なデータセットが一切作られないことであろう。逆にデメリッ卜は毎
回元データから検索を行うため、検索時聞がかかってしまうことである。また、検索画面が先に進む
NPUTT
Y
P
E
=
h
i
d
d
e
n
>によって指定した条件の数が増えるため、サーバーに送る(あるい
につれくI
はサーバーから帰ってくる)情報量が大きくなってしまうのも気になる所である。
3‑2 1つ前の画面での検索結果をデータセットとして保存する
画面 1カミら画面 2に進むときに同時に条件にマッチしたデータをデータセットとして作っておく。
更に画面 3に進むときにはこのデータセットに対して検索を行う。これにより、検索画面が進めば進
むほどデータが/トさくなるので、検索スピードが上がる訳だ。逆にこの方法による欠点は検索結果に
よって得られるデータセットの分だけ、ディスクを必要とすることであろう。この欠点を最小限に押
さえるには、画面が進むたびに作られるサブセット化されたデータセットを、元のサブセット化され
たデータセットに対し上書きすることである。この様にすれば、アクセスしたユーザーの人数分しか
中間的なデータセットを作らないで済む。しかしながら、毎回上書きしたのでは、例えば後から入力
ミスに気付き、また一つ前の画面に戻って検索し直す場合に、前の画面までに検索して得られたデー
タセットが消えてしまっているので、また一番最初の画面から入力しなければならないと言う問題が
起こってくる。(1のやり方では、この問題は起こらないのだが。)ディスクに十分な空き容量がある
のであれば、毎回データセットを新規に作成する方の方法を選んでもらいたい。以下ではこの方法を
採用した際に、技術的にネックになるであろう問題点について述べる。
3‑2 サブセット化されたデータセットをどこに保存するか
3‑2‑1 WORK領域に保存する場合
d斗 A
1
ょ
1
ょ
最も簡単な方法はアプリケーションサーバーの WORK領域に保存することであろう。この様にす
ればアプリケーションサーバを落とした段階で、ユーザーが検索することにより作られる一時的なデ
ータセットが全て削除される。 WORK領域(一般的に同じライブラリ)に全てのユーザーがデータ
セットを作った場合には、どのデータセットがどのユーザーのものなのかを一意に定めるような工夫
をしなければならない。(そしてこの場合には何回目に検索したものなのかも認識させなければなら
) これにはクライアントの I
Pアドレスを用いる方法が考えられる c またユーザーが複数のブ、ラ
ない c
ウザを立ち上げ検索する場合も想定するなら、プログラムが実行された時の時間を用いれば同一ユー
Pアドレスは I̲RMTADDRJ
ザーのどの検索によるデータセットなのかを識別させることができる。 I
と言うマクロ変数により参照することができる。 V6 まで だ、ったらこれをそのまま使うにはデータセ
6進数に置き換えるなどの処置が必要であったが、 V8からデー
ット名の長さの制限に引っかかり、 1
2バイトになったのでこのまま利用することができる。
タセット名の長さが最大 3
Pアドレスが 1
1
7
2
.
2
6
.
2
0
.
1
1
5
Jでアクセス時聞が 1
1
3
1
1
寺05分 03秒 J(SAS時間値は 4
7103)
例えば I
であったら、そのときに作られるデータセットの名前として ID172262011547103J のようなものを
用いれば、ど、のユーザーのどのアクセスに対するデータセットなのかを一意に定めることができる。
D
J はデータセット名のネーミンクソレールに基づ、いて任意に付けたものである。また、 IP
頭文字の i
アドレスについては例えば社内等、限られた範囲で利用するなら、 4区分中下 2区分 1
2
0
.
1
1
5
J を用
6進数で表してデータセット名を ID14730B7FFJとすれば、
いれば十分であろう c これらの数字を 1
同様の内容を表すのに短くなるので、私は好んで利用している。
3‑2‑2 セ ッ シ ョ ン 管 理 機 能 の 利 用
V8eの I
n
t
r
N
e
tより新たに追加された機能にセッション管理がある。これはユーザーがアクセスし
た際の情報をサーバー側に保つことによって、再接続した際にそれら情報を利用できると言うものだ。
具体的には、 i
s
a
v
e
J と言う名前のライブラリ参照名でそのセッションに対するフォルダを作る、
1
s
a
v
e
̲
J で始まるマクロ変数が再接続した際にも保たれているというものだ。設定の一例を挙げて
おくので参考にしてもらいたい。
次のステートメントによりセッションが確立される。
%
l
e
trc=%sys[unc
(a
ppsrv
̲
s
e
s
s
i
o
n
(
c
r
e
a
t
e
)
);
次の情報をアプリケーションプログラムに追加する。これが再接続した際のセッションの認証に使わ
れる訳だ。
put'く INPUTtype=hiddennameプ s
e
r
v
e
r
"v
a
l
u
e
=
'
""& s
e
r
v
e
r
""
'
>
';
put'く INPUTtype=hiddenname二 "
̲
p
o
r
t
"v
a
l
u
e二 川 "
&
̲
p
o
r
t
""
'
>
';
put'く INPUTtype=hiddenname二 "
̲
s
e
s
s
i
o
n
i
d
"v
a
l
u
eニ'" "& s
e
s
s
i
o
n
i
d
"川>';
具体例を見てみよう。
~ルダ
d)nタトシブ
&
ω
<
:
)マイドキュメント
例 え ば 2人のユーザーがアクセスしたとしよう。
,,,;gマイコンビュ寸
ど戸三ヨローカルディスタ CC,
)
ミ
; h。 加a
.'己 Documenls;劃dSet
t四 S
この時それぞれのユーザーに対するフォルダが
‑
ー
.
J
I
n
e
!
p
I
,
l
t
:
・•.
.
:
J
,
lei)
(
'
=
一
、
、
』
忌υJ PS C1
F
ヤ 唱 団m F
l
I
国
パ
;..d哩胃官官言問N.!
ノ
町 田5
1つずつ作られる。
>A 証話相
s
a
v
e
J である。)
(ライブラリ参照名は共に 1
W Prc2
①はアプリケーションサーバの SASWORK領域である。
その中にそれぞれのユーザーに対するフオル夕、、②、③が
、
̲̲
一一 ~IjS
P
r
c
3
)
Cケ百二
O
O
O
咽 1‑‑‑‑:> 2
•..•
c"五 :._)SCX闘はl2~
ァ
、
、
ー
司
旬
・
‑
‑
‑
‑
岬
申
"
司
・
r・
‑
̲
̲
.̲
'
‑
'
‑
‑
‑
ニ
)W
:
.
.
.
.
ι
.
,
c
!
o
w
s
; U凶 d
t
es
e坤
・二J、切川 NT
f
:
t 三9 ローカルディスタ〈む会
EA
噌
RU
1ょ
議<-.,祖門ー利"干,交付(~:)
F山 s
作られる。 この機能を利用すれば、前節で議論したど のユーザーのどのリクエストに対するデータセットかを 一意に定めるようなネーミングを考慮する必要がなくなる。またセッションのタイムアウトの設定が でき、一定時聞が経っとそのセッションに対するライブラリが自動的に削除される。従ってデータセ ットが無制限に増えつづけるということは避けられる。今回次に述べる 3‑3節の理由により、セッ ション管理機能は用いなかったが、非常に有用な機能であるので、読者には是非使ってもらいたい。 3‑3 TIMEOUTの問題 例えば元データのボリュームが非常に大きく、検索に時間がかかったとしよう。このときユーザー には TIMEOUTのメッセージが返される可能性がある。 TIMEOUTになる原因としては次の 4つが 考えられる ① ブラウザの仕様 n t e r N e tE x p l o r e 5 . 0 1以降では、 6 0分間結果が返ってこなかったらタイムアウトとなっ 例えば I てしまう。 I n t r N e tB r o k e r( I n t r N e tでの CGI)の設定 ③ I a p p s t a rt .s a s J プログラム内での設定 ② ④ Webサーバーの設定 これらはし、ずれも変更でき(①についてはレジストリを編集するため、やむをえない場合以外は薦 められない。)、デフォル卜値でも通常利用する分には十分な時間が確保されている c しかしながら、 結果がなかなか返ってこないと言うのは、ユーザーにとって不安の一因ともなるし、どちらかと言え ば不快なものである。 そこで提案したいのが、検索の処理は続けながらも一旦クライアン卜との接続を切断してしまうと 言うものである。処理時間そのものが短くなる訳ではないが、ブラウザで終始処理中の表示がされた ままの状況と比べたら、ユーザーにとっての印象は良くなるのではなかろうか。具体的なアプリケー ションの解説をする前に、まず図でイメージを掴んでもらいたい。 ハhu ‑ ‑ 1i
SF四回一一~~町4物々議総滋j.'à;,_.~.:}. よ三一一一戸出
芳品々ヲ 盤率@ 褒日忘却俗世"'''' ラョル'" へ
J
円程.
‑
G臨・岬 J 五五 :~ø;;..jj点以ι411l!".ム,.:...1 三8 ・斗
一一
回、~~~,戸高~~_~弓同高持品主再?毛=五円」士山
fOR条件入力 1
1
項目 1
項目 2
実行
項目 3
田T ー
ヨ
日E一
ー
ヨ
宛デ吉
間名
①険索条件を入力後、
r
:
m
T
一
三
条件
ヲ「ーヨ
~ヨ
キーワードiiTf"す一一一一一一‑r;r一一一一一一一「一一一一一一一
f
すマす一ー一一一一‑,.‑一一一一一一一一一「一一一一一一一一一
「一一一一一一一一一一一一一一一 γ一一一一一一一一
.
.
.
.
,
.
.
.
.
̲
.
̲
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
‑
一一一~
画面1.
ド一
②
一一一日~.,.,,;~同和タ唆滋五泌'
i
、 加 担 @ 脚 肱 川 F岬 哨 却
検索実行中だが、ひとまずブラウ
ザにはその旨のメッセージを返すc
翻
;.;..=~・件 .
JJ~'ll恒三J~"'''' '
.
J
I
I
!
I U J:
:
;
l
・
とl
?ド凶<Ql,~!片f ‘e)_J:&.3_7会人"片品唯一2 抽_!J陣J配地.3_~闘に抽 '1抽_3 H:: ゴ θ楠
画面 3
.
ニ
i
ただいま処理中です。しばらくお待ちください,
,
.
.v
E 岨一
フバル.
t
V
5
一 , 田 町 轍 叫 由 記 輔 瞬 み 緩 話 線 総 務 主主づ主主
~隆司í)
aJtt:}̲'.l@ ラ 唱 。 哨 ヴ 句
'
"
"
"
・
ゅ J J o!....震よ ι
λ :
.
.
J
回 U'.
.
IJ'i
!
i
j酬
‘
3同町叩 h同日山町。.rWI~
‑
,
.
‑
目
。
,
.
,
̲
両面 2
.
YF戸"";~.~~:.':~一同 f 中,~也円三F .,1
I 正t3!!~iJ(#UI でまた L的ピ'1:"*5 ピt:!~tlo
③ 検索実行が終わった頃を見計 i
竃翠
f
'
J
.
.
.
.
:
1θ
時
更2
差:
.
t
.
金ι
らって、 ここをクリックして i
画面 4.
島 平 一 四
予 悼 篭3
ヨ
民
.
.
検索結果を見る。
一一--内民会建計主開明時勢総務滋話器 sh~ぷ':\.:~
漢字句
島組:Af)~チペ'""
岬
.
.
.
•. .~lc 別
・
!
l
I
I
I
1
J.jo
!i訪 町 ‑ " " 町 ふ り .
.
1
"
" 当 J 3・迫
点珊 1号iぷ長ぷ~:;~~!.~期目白.-,内向
ご
..臨 e り
A
まだ処理中のとき
プ三宅問
d
1
仰件カヒトし U
rAND条件入力』
Z
両 日 員 目 , 頁 日 ロ
変Z
阻.
院T!l
言17J ~
r;;;ナ七
間キfii'ーヨ
ヨ了一三
河τ
ー
ヨ
キーワード「一一一一一「一一一一一一一一一一一一一ー
…
… f
処理が完了したとき
まず画面 1で検索を行いたい条件を入力して実行する。アプリケーションサーパーはこの命令に基
ASセッションに処理させる。次
づき実行を開始する訳だが、ここで条件検索をするジョブは別な S
ASを新たに立ち上げ指定したフ。ログラムを実行させることができる。
のプログラムにより、 S
o
p
t
i
o
n
snoxwaitnoxsync;
X
IS九日
ご
'
¥
, SHl
(
:
:
¥pl
'o
gramexec.sas
‑13検索に必要なプログラム(検索の条件や値を指定)を、 putステートメン卜を用いて外部ファ
ASを起動させ実行させる訳だ
イル(上記例では c
:¥programexec.sas) に書き出し、これを新たに S
]
S
A
Sセッションと呼ぶ)。この処理が始まったと同時に、アプリケーションサーバでは画
(以後、l:l1
ASセッションの終了を待
面 2を書き出す処理が始まる o noxsyncシステムオプションにより、別 S
]
S
A
Sセッションではまず画面 2のリンク先として、画面 3の HTML
たずにこの処理が開始される。男 '
‑117‑
ファイルを作成する。次に上記の条件検索の実行を開始し、終わった段階で画面 3の HTMLファイ ルを画面 4の HTMLファイルで、上書きする訳だc これによりユーザーは処理の終了を知ることがで きる。 元データがそれほど大きくない場合には、このやり方は不向きである。なぜならば毎回画面 2に進 むので、そこに無駄があるからだ。しかしながら元データがある程度大きいときには有効になってく る。なぜならばそもそもの目的であるクライアン卜とサーバーの接続を切断で、きるのと、実際にはど の程度検索時間がかかるかは検索を実行したユーザーがある程度想像できることなので、その時聞を 見計らって終了を確認すれば、ユーザーが画面 2から画面 4へ進むことがさほど手聞にはならなし、か らだ。 4. 結果の配信 この章では 3章までで検索した結果を、どのようにしてユーザーに配信するかについて述べる C 4‑ 1 ̲weboutによる配信 検索結果がブラウザで聞ける程度のボリュームなら、そのままブラウザに表示させるのが良いであ ま%tab2htm、%ds2htm 、%out2htm と言う 3つのマクロを用いることによ ろう。 SAS システムで1 り、簡単に HTML形式で出力することができる c 例えば 3章で扱ったアプリケーションの様に検索 した結果のデータセットを出力させるには、 %ds2htmを用いればよい。これにより TABLEタグを 用いた形での結果が得られる。 4‑2 ファイノレとして書き出す 検索結果が大きくてブラウザでは聞けない、もしくは MS‑ACCESSファイルなどのブラウザでは 開けない形式のものを結果として得たかったとしよう。この場合には例えば MS‑ACCESS形式でデ ータを書き出し、あとはユーザーが FTP等を用いてファイルを取得すればよい。 4‑3 メールに添付ファイノレをつけての配信 SASシステムの中からメールを送信することが可能である。この機能を用いると、ユーザーは検索 条件を入力して実行するだけで、あとは結果が届くのを待つだけでよい。この間サーバとの接続も切 断されているので TIMEOUTの心配も一切いらない。またメールて、送信で きる容量と形式にさえ注 意すれば(これらはメールサーバの設定によるのだが)、 FTP等を利用せず様々な形式でのファイル を得ることができる。 SASシステムからメールにファイルを添付して送信する一例を挙げておく c 環境に応じて随時変更 してもらいたい。 ① 以下のシステムオプションをつけて SASシステムを起動する。 " C : ¥ProgramF i l e s ¥SASI n s t i t u t e¥SAS¥V8¥n l s¥J a¥s a s ̲ e x e " ‑CONFIG"C:¥ProgramF i l e s ¥SASI n s t i t u t e¥SAS¥V8 ¥n l s¥JA ¥SASV8.CFG" ‑ e m a i l s y sSMTP a s . c o m ‑ e m a i l h o s tm a i l h o s t命l.s ︒ 凸 1 ょ 1 ょ
② f i l e n a m eステートメントのテ パイスタイプとして I emailJを指定する。 c f i l e n a m emymailemail"SUGI ̲ ,J3001@jpn.sas.coll1" s u b j e c t = "ファイルが出来上がりました" a t t a c h = " c :¥dbl .m db"; data n u l l; f i l emymail; ' ; put'SASシステムをご利用いただきありがとうございます G p u t 'ご依頼いただきましたまTS'ACCESSファイルが出来上がりましたので、,. p u t '送らせていただきます。'; p u t 'ご利用ありがとうございましたむ'; put'SAS管理者, . run, このプログラムを実行することにより MS‑ACCESSファイルが添付されて、メールが送られてくる。 5 終わりに AS/IntrNet ソフトウェ 今回ノくージョン 8の新機能であるロングバリューサポート機能を用いた S アでのアプリケーション構築について述べた。この他にも ODS機能などの新機能を用いることによ り、これまで表示できなかった鮮やかなグラフ等を描くことができる。私がロンク守バリューサポート に着目したのはユーザーの方からのご要望があったからだ。 SASはユーザーの方のお蔭で発展してき た経緯があるので、今後も要望や意見を上げていただきたい。そして本論文をユーザーの方がアプリ ケーションを構築する際に役立てていただけたら幸いと思う。 ム 守i 守iA ハ同 υ
日本 SASユーザー会 (SUG1‑0) SAS/WarehouseAdministratorソフトウエアパージョン 2 . 2による D W H構 築 高橋麗 株式会社 SASインスティチュートジャパン 営業本部ソリユーションプランニングセンター BuildingaDataWa問 houseusingSAS/Wa問 houseAdministratorSoftwareVersion2 . 2 R e iT a k a h a s h i i s i o nS o I u t i o nP l a n n i n gC c n t c r S a l e sDiv . SASI n s t i t u t eJapanLtd 要旨 本 稿 で は SAS シ ス テ ム の MVA ,MEA ,そして加工能力を最大限に活用する ETL ツール、 SAS/Wa r c h o u s cA d m i n i s t r a t o r ソフトウエアによる DWH 構築について記述する。 SAS /W a r c h o u s c A d m i n i s t r a t o rは、データソースホスト・処理ホスト・データストレージ・スケジューラの登録、テー ブル IMDDB 定義、マッピングをポイント&クリックで行なえるインターフェースを提供し、そのメ タデータの一元官理を行なうのでメタデータ・レポジトリ・マネージャーとしても威力を発揮する。 キーワード : S A S / W a r e h o u s e A d m i n i s t r a t o rパージョン 2 . 2、 SASシステムパージョン 8 . 2、 DWH構築 1 . はじめに ハードウエア、ソフトウエア、ネットワークなど情報産業を支える技術が発達するにつれて、デー タの取得・蓄積が、金銭的・技術的にますます容易になっている。企業内では、それぞれの部署がデ ータに対してユニークな要望をもっているが、果たしてそれらの要望は満たされているのだろうか。 たとえ一度満たされたとしても、市場/組織の変化或いは戦略の変更によってまた新たな要望が生まれ てくる。それらの要望に応じてタイムリーで的確なデータ・マネジメントを行い、必要な時に必要な 人ヘデータを供給できる柔軟なデータウエアハウスが求められているのではないだろうか。 データウエアハウス構築とは、日々の業務で得られたデータが意味のある情報となって意思決定者或 いは意思決定支援ツールに供給されるためのプロセスだ。これは、ただデータが手に入るようになる といった単純なことではない。的確なデータウエアハウス構築とはエンドユーザーが効率的に情報へ アクセスできることに焦点を置かなければならない。そしてこの効率的という部分は、簡単に生まれ るものではないのだ。 tLi 1i n︐白
まず効率的で柔軟な DWHを構築するためには、最初にデータや意思決定支援アプリケーシヨンに対 するユーザーの期待を理解しなければならない。そして、その期待に応えるために、業務で集められ たデータを収集し、加工方法を決定、加工されたデータの適切なストレージ方法・場所を考えるのだ。 そのため、データウエアハウス構築に必要なツールには、業務で発生するデータの全てのデータタイ E x t r a c t )、それらのデータを決定したビジネスルールに当てはめるため加工し プに対応して抽出し ( ( T r a n s f o r m )、そして加工したデータをどのような DB(ウエアハウス)にでも蓄積する(Loa d )能力が求 x t r a c t, T r a n s f o r m, Loadのプロセスを支援するためのツールが、 ETLツールと呼ばれ められる。この E るものだ。 d m i n i s t r a t o rソフトウエアの特徴 2 . SAS/WarehouseA SAS/W a r e h o u s eA d m i n i s t r a t o rソフトウエア(以下 SAS/W a r e h o u s eA d m i n i s t r a t o r )は SASが提供する ETL ツールだ。 SAS/W a r e h o u s eA d m i n i s t r a t o rが行なう全ての E x t r a c t, Transform,Loadプロセスは、 SASシス r c h i t e c t u r e;マルチ・ベンダー・アーキテクチャー;多 テムが 25年間培ってきた MVA(MultiVendorA 様なベンダーのアーキテクチャーで SAS システムが動作することを意味する)と MEA(Multi Engine Ar c h i t e c t u r e;マルチ・エンジン・アーキテクチヤー;多様なデータベース・エンジンに SAS システ . 1E x t r a c t参照)、そして優れた加工エンジンから成り立つ ムが対応していることを意味する。詳細は 3 ものである。 2 .1 . ETLプロセスのビジュアル化 ME A,加工エンジンを全て把握 では、 MVA, し た 優 秀 な SAS プ ロ グ ラ マ ー が 、 図 1ETL をヴィジュアル化するプロセスウインドウ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 圃 圃 圃 圃 圃 ・ ・ ・ ・ ・ 圃 圃 圃 圃 圃 圃 ・ ・ ・ ・ ・ ・ ・ ・守 , . . . xu : . F b 担金ヲス6 . " : ' 豊 土 偶 般 千 " . 日 土 ム ム ヘシ〆 ヱi @ l ヨ SAS /W a r 巴h ouseA d m i n i s t r a t o rの果たす役割を 完t 同 制 叩" 全て担うことができるかというとそうでは ない。 SAS/Wa r 巴h ous巴A d m i n i s t r a t o rには、テ ーブルル1DDBを作成するための ETLプロセ 包 斗 工L : 図 1 スをビジュアライズする機能がある ( : 参照)。図 1は 、 O r a c l eにロードされている ~.;) F コ イ P タ タ 'vA 4‑F ずタ 何 J ‑ J ' bヶ ー ラ d' ‑Bh‑J dhz メ それぞれのコードをキーにして連結し、テー A . . ) : : : } " 子 コ , ) ‑ = ‑ 言 .白刃 ACCESS に持っているマスターテーブルを ‑ L 早コ a e t ︑‑ トランザクションテーブルと M i c r o s o f t ー νaマプコ'ー r 土 ブルを作成、そのテーブルを元にして MDDB を作成した例だ。元データや加工プロセスをユーザ ーがグラフイカルに参照することが出来るので、分析に利用しているテーブルのデータソースがビ ジュアルで認識できるようになっている。 2 . 2 . メタデータ菅理 r e h o u s巴 A d m i n i s t r a t o rが果たすデータウエアハウス構築に最も重要で、なくてはな そして、 SAS/Wa らない機能がある。それがメタデータ管理だ。メタデータとはデータのデータとも呼ばれている。 つまり、ウエアハウスに蓄積されたデータテーブルの①データの依存関係(元になったデータなど) ‑122一
②元になったデータのホスト③テープル定義(テーブル名、利用されている項目、項目の長さ、ラ
ベル、説明、保存ホストなど)④加工方法(マッピングなど)⑤変更・加工のタイムスタンプ⑥変
更・加工スケジュール⑦処理ホスト③テーブルの管理者/保有者などのデータのことを指す。優秀な
SAS プログラマーでもこういった情報や自分が加えた変更点に関していちいちメタデータ登録を
行なうというのは非常に面倒な作業だ。 SAS
/W
a
r
e
h
o
u
s
eAd
m
i
n
i
s
t
r
a
t
o
rでは、インターフエース上で
ポイント&クリックによる変更がプロセスに加わるたびに、メタデータの変更も自動で行なわれる
ようになっているのだ。これらのメタデータは、 HTMLファイルへの書き出し機能があるので、こ
れまでのように手書きで DWHの仕様書を作成す手聞が省け、その上、データの利用者にメタデー
タを公開することによってデータ説得力を高めることができる。(図 2参照)
h 冊目由民醐繍碩健闘部開沼::;::恕諮問再開:主主主同日刊立 三 府 竺
J
日
E 抗 日 … M
I
~"守、
回
叫
以-:"......,泊ヌヨ .u~::) ゐ寝入町.:~帽
=
>
y
;
.
;
)娘、̲‑'"
社主主E
恕思減税制~~:::::: :
:
:
:
:
;
:
:
:
‑
:
去
三
廃
"
隻来¢
が 餌 . ".~担
J
今
1
'
1
:
'
:
‑
>
二
万
〆 :
.
0
‑
'
:
'
:
:
芦
A
、
,
.
.
ー
‑
量毘彊
3 句会 a割以晴府七時庁臼併もJ
:'::~~ρ む ~lr...町田町"-山畑川町鳴り・}川町叩俗守1koo:r-w~ ...'訓示問出品 i
n;.~~.~)~二~U'ぉzzatttz==7T:ヰニ.......~.およ,.,・...-.c.(06,,:,:門小山元日:
i
一一ー一一三 3
テ ブ レ値再図画
φ.........
・
e
詰
抽臨時ぬお認諾抽ぬ己主唱
均一
︒圃キ刀
嶋一
日
割
歯
切
一
‑2
刻yu守
一持岨一叩一
時
一
一
か
一
一
一
一山手叫摂円一日
一
一
⁝
Mth一ー守山
開
間
一
一
一
⁝
⁝
村
山
⁝
一
一
⁝
⁝
⁝
⁝
一
⁝
一
一
園坤一リ﹄お宅
a'g
E
⁝
四
一
一
州
一
一
嗣
⁝
⁝
一
⁝
い
ん
⁝
⁝
⁝
山
町…白…‑……
'J
,
̲
丹
、
咽
哨
叫
,
.
,
.
̲
.
.
.
.
.
.
,
.
.
.
・
一
泊
告
白
・
』
・
・
可
"
一
一
一
四
.
.
.
.
叶J
i
qnロ凶作いに川悶にい山
h
mmm
‑Ed
い山一向何日
ff 叩叫山
MMMM
F.F一一一一一一江一一一一一一一⁝⁝⁝一⁝二
PIz‑‑FE‑‑:v'e
︹
v
山
江
一
一
⁝
"⁝
コ
一
一
一
⁝
一
山
町
・
一
一
一
駒
山
一
︐
︐
一
VF‑λ
一
山
H
市山山叫ん
郎副官
ι
凶
FJ 内 命 川 出 回 目 計 千 ゐ 誠
‑a
⁝山間
'刈式
内
‑M
#Ue:
dEE‑La'e
叩
四⁝軍刑肋叫
⁝⁝み
出Y 3
都立品目
一
榔 M M ‑知 山
e
t‑Lf
繍噌砂川 e a N N N X Y
ーに前・阿
瞬間町畑山⁝
恩剛︐︐
E
叫加島一同
朝町田中叩
4
⁝⁝⁝国間四笥山町 E 目 前 三 日 出 時 間 3
以
υ
ι竺 ⁝ ⁝ ⁝ 日 二 叫 一
醐
・ w
覇
︒
︐
吋
⁝ 1 割q
zFm
E山崎一・軒町出足おお釦町一 r u y ね
小川喜一一号
品同:::・釘恥出江
1
⁝
⁝
⁝
‑
⁝
ドニ邸中⁝山町一一 r⁝
一
た一・⁝︐
i重量売上観濁1.10082000
.~・,
・
マ Jピ ~ 1‑1
、
,
.
.
.
.
.
:
:
.
.
‑
:
'
1‑1
0."" 、
一
ー
.
ー
o,
'
.
.
,
.
̲
‑
.
>
o
:
l
"
‑
‑
:
‑
:
"
ザ
'
:
'
,
/
<
J
:;
'
‑
'
f
;
'
コンタクト
o ..::~~~玲二一・
‑
。
縄
、
.
.
,
・H
霊 プ コ ーh
"",;r~対峠'.#::.射~"山
h
""公団組隻盛~,
,_岬r.Q.'~~" 毎恒例位陣守 ~w..v
ー/:~i,:.~..,..
図2 メタデータの H
TML
ファイル ;MDDBのメタデータの HTML
配信例
テーブル依存関係では、依存しているテーブル名とそのメヲデ
依存しているテ
ヲHTML
ファイルに自動でリンクをはる仕組になっている。
ブルの依存関係にもリンクがはられるので、リンクをたどると元デ
ヲソ
スまでたどり着くことが可能だ。
メタデータこそ、データウエアハウス構築の成功の中枢を担う存在だ。メタデータは、 DWHのデ
ータの流れの理解、データへのナビゲーション、データの利用を促進するため、システム側面、ビ
ジネスユース側面、経営側面の 3つの側面でベネフィットが考えられる。
2ム1. システム側面
DWHの構築・管理を担当する者の観点がここである。システム側面のベネフィットは 2つある
といえるだろう。まず Iつ目は、運用面。 DWHに関連する全てのデータ構造をメタデータによ
って把握しておくことによって、最も効率のいいデータ検索が可能になる。さらに、完全なメタ
データ管理によって、データソースに変更が加わった場合にターゲットテーブルではどのような
影響があるのかを、変更を加える前に事前予測することが可能だ。(図 3参照)
ハペu
q
︐
〈径示H町):.:-ft-5l皆川刊昨川県沖~:三'?:-:~目安町四地町i
下
正
当
お:宍なす寄宅~~ミ:-:...:石川
:-:弘主診断語、、ぷ司rtfr:~~~;: .'~~~~~:足早川
で
.
.
.
.
.
.
.
竺
静
:::.::..̲..沙. :~九百包,"函 e
'
,
>
1
,
j
図3 インパクト分析アドイン画面サンプル
3
~r.
特定のデーゲノースが関係しているプロセスをビジュアル化。変更を加える項目を選択すると、その項目が各プロセス
で利用されているのかどうかをオブジェクトの表示を赤色にして伝える。図 l
立、左図でカテゴリ一項目を選択した場合
の影響を右図で表示。右図で表示が赤くなったオブジェクトを選択すると、選択されたプロセス上でどのようにカテゴリ
一項目が利用されているかの詳細を表示する。
そして 2つ目はメンテナンス面だ。メタデータがプロセス管理を行なうので、 DWHにおいて要
求されるデータに変化、多様化が起こったとしても、これまでの ETL プロセスフローを生かし
ながら、変更された個所だけを修正するなどといった形で、アンチ・スクラップ&ビルドの方法
論を展開できる。
2
.
2ム
ビジネスユース側面
エンドユーザーの視点がここだ。ビジネスユース側面でのベネフィットは、欲しいデータの取得
がメタデータによるナビゲーションによって、より迅速に行なえること。そしてデータの出所や
加工処理がオープンになるので、利用しているデータの確実性を実感できる。そうするとデータ
から創造するアイデアに自信がもて、業務をスムーズにこなすことができるのだ。確実なデータ
が欲しい時に手に入るデータウエアハウスは、利用頻度が高く、組織内で一貫したデータの共有
イじ/意識あわせに結びつくだろう。
2
ム3
. 経営側面
組織の潤滑なマネジメントを行なうための意思決定者の視点がここである。経営側面のベネフィ
ットは、正しいデータが正しいタイミングで手に入るため、意思決定の精度が向上する。そして
キャピタル・プランニングにおいても、 DWHの運用・メンテナンス作業が容易になるため、シ
ステム要員やその教育を軽減できる。その上、データに関わる社買(システム部、ビジネスユー
ザ)の作業効率が高まり、生産性が上がるのだ。これは、企業利益を 1%引きあがるという統計
も発表されている。(※参考文献#1)
SAS/Wa
r
e
h
o
u
s巳A
d
m
i
n
i
s
t
r
a
t
o
rは、データソース、ターゲツトテーブル、加工コーにスケジューリン
グ、テーブル依存関係などのメタデータをポイント&クリックで定義した ETLプロセスに応じて生
1
2
4
成、保存、管理を行なう。 SASI n s t i t u t eはデータウエアハウジングにおけるメタデータの重要性を認 ,M i n i n g ) との共有佑と管理機能を向上させ続けている。 識し、メタデータの他ツール (OLAP 3 . SAS/WarehouseAdministratorによる ETLプロセスの優位性 SAS/Wa r c h o u s eA d m i n i s t r a t o rは 、 DWH 構築のプロセスである ETL管理を支援するツールだ。 SAS/Wa r e h o u s eA d m i n i s t r a t o rでは、 DWHのデータホストや処理ホスト、データソース、ポイント&ク リックによる加工やユーザー定義コードの追加などの設定・定義を行なう。 ETLプロセスにおける登 /W a r e h o u s eA d m i n i s t r a t o rはそのプロセスに必要なコードをまとめあげ、自 録作業が完了した後、 SAS TLプロセスが走るのだ。 動生成する。そしてこの生成されたコードによって E 、 SASが提供する DWH構築からその利用にいたるまでの e n d ‑ t o ‑ e n dソリユーシヨンの概念、図 図 4は だ。図 4のように、複数のデータソースからデータを取得し、加工、そして DWHにロードするわけ だが、ロードして DWH構築が完結するかというとそうではない。 DWH構築とは、実際にその DWH に蓄積されたデータが意味のある形でエンドユーザに利用/応用されてこそ成功したと言える。そして 成功しつづける DWH構築は、時を経て変イじするエンドユーザの多岐に渡る要求に応えていかなけれ ばならない。 図4 DWH構築プロセス :~j~ ~ 還 1 さ;議案義援護委総会護送機愛護鱗ぎl~1~1~ j~ ~ ~il~ ilil~li~il 1i~i霊 : 祭!~ ~ l~iji~i~i1 ~i~j総1 務~::.ャ 顧客とのタッチポイント SAS/Wa r e h o u s eA d m i n i s t r a t o rによる DWH構築は、エンドユーザの多岐に渡る要求に柔軟に対応でき x t r a c t, T r a n s f o r m, るソリユーションであり、 ETLの各フェーズで強力なエンジンを提供する。下記に E L o a dのそれぞれのフェーズに置ける優位性を記す。 3 .1 . E x t r a c t データウエアハウス構築プロセスは、まず業務で発生するデータ収集から始まる。顧客へのタッチ ポイントやアプローチチャネルが増えると、業務で発生するデータが増えることになる。これらの phu n︐白 1ょ
データは収集されたあと、評価・クレンジング・正規化などを経て、ウエアハウスにロードされる。 業務で発生するデータ; CD‑ROMやネット上で供給(販売)されている住所や特定区域のデモグラフィクスデータ リレーショナル・データ・ベース(以下 RDB) や非 RDBなどに蓄積されたレガシーデータ フロント・オフィス・オートメーション(以下 F OA) システムによって収集、管理されてい るデータ。これらのシステムは、コールセンターなども含める。 ERPシステムで収集、官理されているデータ FOAデータや ERPデータは特有のデータ構造(ディクショナリ)をもち、複雑で、数え切れな いほどのテーブル数・項目数をもつため、 DWH管理者を困らせる。 DWH管理者はデータ構造を 理解しておかなければならないし、効率的にデータを取得するためにその複雑なデータ構造をス ムーズにナビゲー卜するメカニズムを構築しなければならない。 Extractのフェーズでは、 SASシステムのデータ読み込み機能や SAS/ACCESSソフトウエアエンジ ンが効果的に働く。 3 .1 . 1 . S ASシステムのデータ読み込み機能; SASシステムで入出力可能なデータ形式は表 1を参照いただきたい。 表1 1 数値形式 : 文字形式 i i 標準数値 1 6進数値 固 定d数点 ; 標準文字 ( A S C I I ) ! ! 正の、値ドイナ イナ J 値の整数化 2進整数 浮動 t数点値 l EBCDIC 1 j ビヮト取りト取り出し IEEE浮動寸数点 1BM37 0系 ( Jイ ナj 整数) l 1 6進表記 i i カンマ f 寸き 日寸、時間値 IBM370系(。ク 1 0進 l 8進表記 i E 醐表記 B進整数 IBM370荊 イナ j実数 : 可変長文字など! 正の単精度浮動 j、 数J 点 。 ク 1 [進(含む符号なし) IBM370系γ ( ー Y1[進など i l 表 1の形式を読み込む場合の入力形式(インフォーマット)と関数が S AS システムには装備さ れている。 MVS ,CMS ,VMS ,U NIX, O S / 2,Windowsなどのホスト上で動 コード 1 d a 1 as a l e s ; イ乍する S AS システム同士のファイ i n f i l es y s 2 ‑ 0 0 01 .d a t 'recfm=fI r e c l = 2 0 0 ; ル転送においては、ファイルの転送 i n p u t j *EBCDIC‑ >ASCII変 換 V @1 c o d e $ e b c d i c 5 . 時にコード変換が自動的に行なわ @6 name れる。ユーザー定義の外字コードの @18 s a l e s 1 s370fpd4. 2 j *ハ ヘyウ1 0進 本 / 転送も可能だ。 @22 s a l e s 2 s 3 7 0 f p d 4 . 2 j *ハ ヘyウ1 0進 @26 t o t a l 1 * γ ン10進 行 SAS システムがインストールされ ていなくてアーキテクチヤーが異 $12 s 3 7 0 f z d 8 . 2 ; * j name=kcvt(name, ' i b m ', 可i s ' ) ; j *f f i M漢 字 >S J I S漢字変換 * j r u n ; l 句 ム pnu ワ hu
なるホストのデータを読み込む場合にも、インフォーマットと関数を利用したプログラムによっ て読み込むことが可能だ。サンプル読み込みプログラムのコード lを参照し、ただきたい。コード lは 、 EBCDICから ASCIIへの変換、パック 1 0進、ゾーン 1 0進などの読み込みには、インフォ c v t関数を利用している例だ。このようなデータ読 ーマット機能を利用し、漢字コード変換には k x t r a c tプロセスが実現するのだ。 み込み機能によってデータソースを問わない E 3 .1 .2 . SAS/ACESSSソフトウエアエンジン SAS/ACCESSソフトウエアは、市販のさまざまなデータファイルに対するインターフェースとし て、これらのデータファイルに格納されたデータの ACCESSビューを提供することにより、 SAS システムからのダイナミックで透過的なアクセスを可能にする。 SAS/ACCESSソフトウエアが対応するデータ形式は、階層型データモデル、ネットワーク型デー タモデル、リレーショナル型データモデル、ゲートウェイや API、 PCベースの外部データファイ ル、そして ERPアプリケーションのデータストアがある。 V8.2でリリース予定の SAS/ACCESSソ フトウエアについては表2を参照し、ただきたい。 表2 i S.¥S!ACCESSソフトウエア !ACCESSADABAS 山 SAS!ACCESSBAAN SAS!ACCESSJNFORMJX SAS!ACCESSR ! 3 1 SAS!ACCESSCA‑Dalacoml DB SAS!ACCESSMSSQLSc円 c r SAS!ACCESSSYBASE ~ SAS/ACCESSCA‑IDMS SAS/ACCESSODBC SAS/ACCESSSyslem2000 l SAS/ACCESSCA‑OpenJngres SAS/ACCESSORACLE SAS/ACCESST e r a d a l a SAS/ACCESSDB2 SAS/ACCESSO r ac JeR db SAS/ACCESS10OLEDB SAS/ACCESSDB2VM SAS/ACCESSPCF i l cF o r m a l s V持 21)1 )ース F 定 !ACCESSP e o p J e S o f t 1 掛 川CCESSJMS.DL 凡 凶 、 I J J I U t。アルフアベテイカル。リリースに蛮史が加わることがあります。 ユ{灼 l' 手5 SASシステムが提唱する MEA(MultiE n g i n巴Ar c h i t e c t u r巴)は、ネイティブのアクセスエンジンによっ てファイル編成や形式などの構造上の違いを吸収し、元データからの独立を実現する。例えば、 MVS上の DB2データを UNIX上の O r a c l cデータのような異なるデータ形式をもっデータと連結し て読み込むことが可能なのだ。 SAS/ACCESSソフトウエアエンジンは、読み込み・書き込みの両 方をサポートするため、データソースからのデータの検索・取得だけではなく、 DWHの更新、 新規データロードも可能なのだ。 1 2 7 ‑
3
.
2
. Transform(
力日工)
データウエアハウス構築プロセスの Transformは
、
図5データ分析アドイン結果函面
収集されたデータをエンドユーザの欲する形に加工
.
.
.
.
.
,
日
昨w
。例ごr
i
I1
:
::Ii~
目
を加えることを指す。まず、加工の前に、データの
・
SI
1 t"..Iaa;‑:'̲
色 調 包i
:::"/G
・
・
I
l
f
"
"
.
.
>
!
'
I
I
I
U
ァ
.
'
.
.
‑
:
"
,
"
,:
:
:
:
:
:
:
'
:
:
1
組副司
...,“ al~':..W* i{01::.H::; l
ul.1
r創
Mt
銅山
3
~r).tl叫
1健三重ヲー F
i.iI鼠主義
i盆..
陥,..-:~:: rt!~~回
...一一一一一
"'"叫 IIr孟 企
一面⁝⁝⁝⁝⁝
p
カーディナリティや欠損値などの統計をとりたい。
・;~町叫田.i':.~.::...::.:::~一一ー一ー
SAS
/W
a
r
e
h
o
u
s
eA
d
m
i
n
i
s
t
r
a
t
o
rでは、そういったデータ
i
f
i
~~l~ ~::::::::::::::->:>:r: ~':::'::):)<:<.:<~};.;;~
の操作のための多様なアドインツール群がある。例
えば、データ分析アドイン(図 5参照)では、テー
ブルのカーディナリティや欠損値、テーブル名、生
成目、変更日、レコード数などの情報をテープルと
グラフで提供する。
ETLプロセスにおいてテーブルのマッピン
G
i
I
i
I
i
i
I
I
画
面
画
墨
田
グは欠かせないが、 SAS/Wa
r
e
h
o
u
s
e
A
d
m
i
n
i
s
t
r
a
t
o
rには柔軟なマッピングインタ
ブ口 ~'J卜コ-'1'
ーフェースがあり(図 6参照)、ポイント&
メ』力~:l-~
2竺
:
Z
:
:
r
T
クリックでマッピングを行二なう。マッピング
においては、単に項目をマッピングするだけ
ではなくて、「元データ項目に関数をあてて
新しい項目を作成したい」など、派生的なニ
•.
!
.
L
J
図7項目マッピングの派生定義ウインドウ
ーズにも対応する。図 7は SAS/Wa
r
e
h
o
u
s巳
A
d
m
i
n
i
s
t
r
a
t
o
r の派生マッピングインターフエースだ。 FE
clOlxl
置匙"",.盆
図 7で利用している関数は DATEPART関数。データ
ソースの日付項目は年月日時間までもっているが、
年月日までの値だけをターゲットテーブルの項目に
利用する場合に利用される。 SASシステムが装備し
ている 1
6
0以上にものぼる関数を呼び出せるこのイ
入力チーブル
白星.t!
1式
ンターフェースにはユーザー定義の関数、フォーマ
L 出力庖式
; il
!
!
l
I
D
.入力形式
ット(出力形式)、インフォーマット(入力形式)、
!
マ Pロ
:
マクロなども登録可能だ。
‘ーシン~勺レ
臼 抵1
昼
i
ーシンボル
SAS/W
a
r
c
h
o
u
s
eA
d
m
i
n
i
s
t
r
a
t
o
rは、テーブルだけではな
式
?ー出力開式
関畝
?一入力形式
叫ん
定義ウインドウだ。 MDDBの階層が MDDB定義ウ
叶H
く
、 MDDBの定義、生成も可能である。図 8は MDDB
泊二斗
インドウからポイント&クリックで定義できるため、
MDDBに新しい軸を追加したり、これまでの軸を変更したりといった作業が非常に簡単に実行できる。
n
口
η4
1よ
しかし、実際のデータウエアハウジン
ー・
応できないようなデータ加工が必ず
剣
でてくる。その場合は、 DATAステッ
プ
、
PROCステップといった SAS言
語を自由に利用したユーザ一定義コ
ードを作成する。
再1. 1隣諸スト .v.:-:-:~
!
γタ守よえ@・4客足繍 T
』純一一
'
.
.
.
‑
.
λ
・ 何 " 竺1
0
N
山
0
.
.
,
.
N
:~TNげ岨(<:
、 C;'TE~:: 町Y
C
c
:田町民凶岨, c
:
:
I
'
R
)
Cr
P問
.
.
N
.
.
レ 川υ.‑.
丞s!" :î j{ラ:A~T8:nJj間十四丞副注量 A
山
tn
・
'
"
目。U.ro::lIlI ~・"・wτ
自 決.
.
2
3
田 町 医 四 " 閣 H ・ 四 S町
~ """'~帥,._・
2D 回
ご羽,;m
臼.
.
.
.
壬
I ,~
1∞
‑
E ・皐晶
且w
2 D 目 的 ヲ
ro四
阿,
引 " 阻 " ! I
ヨ
回
̲̲Clln
:OIT
‑ 四 路 叫E
,
C
:
E
J
..
J
.‑b‑{;I陽子ヨヲー g
冒脳忌・・
;
;
!
:
j
o
‑.
.
~
~
/
o
.
!
DDBIこ追加したい項目を
コードと、ユーザー定義コードを織り
交ぜてデータウエアハウス構築が可
能なのだ。
DRL
蝉
"
.
:
:
.
.
‑
:
:
1
お ‑
1
:
'
'
'
'
占 叫 曲 ". 即 叩
S
A
S
/
W
a
r
e
h
o
u
s
e
A
d
m
i
n
i
s
t
r
a
t
o
rのユーザは、自動生成
富山
図8
MDDB定義ウインドウ
UIで対
グにおいては、こういった G
三ιι一~ぷi
.Al~
‑ ぷi
.A
L
t
i
SASシステムと SAS言語がもっ加工能力の特徴を次に列挙する;①入出力できるデータ形式を問
わない (
3
.1
.
1
.S
AS システムの読み込み機能参照)②入出力できるデータ量に制限がない。 2GB
越えの壁も U
IX,Windowsともに対応済みだ。③データ加工に必要な手続きが豊富で関数化、プロ
シジャ化されている。そのためソースコードが少量簡潔で、開発効率・保守性が極めて高い。④統
合佑開発環境を装備。作成、実行、結果確認のためのインターフエースがコンパクトにまとまって
表示されるため、トライ&エラーによる開発を促進する。⑤実行速度が速い。実行モードはコンパ
イル&ゴーのため大規模データのハンドリングが得意だ。近年では数十テラバイトのデータウエア
ハウジングも S
ASで行なわれるようになった。⑤他システムとの親和性が高い。豊富な多言語イ
ンターフェースを装備。階層構造 Ds
,H
.D
BMS.DLLコールなど A
P
Iが豊富。⑦並列処理、オンメ
モリ処理をサポート。 SMPのアドバンテージを継承したスループットの向上⑧SQL操作、インデ
ックス機能、圧縮機能を装備⑨業界標準の A
P
Iに準拠。他のオープンインターフェースソフトウエ
アとの親和性が高い。⑮ファイル構造がシンプル。ファイルサイズの少量佑と容易なパックアップ
に貢献。こういった加工能力は S
ASのデータウエアハウジング・ソリユーシヨンの根幹の一つで
ある。
3
.
3
. L
o
a
d
加工を終えたデータをデータウエアハウスにロードするフェーズだ。ここでも
SAS システムの
MVAと MEAにより、プラットフオームや DBエンジンを間わないデータローディイングを可能
にする。 S
AS/ACCESSソフトウエアが対応する Dsへのロードも可能で、 b
u
l
k
l
o
a
dオプションを
利用して各種 DBへの高速ローディングも実現している。
3.
4
. 利用
SAS/Wa
r
e
h
o
u
s
eA
d
m
i
n
i
s
t
r
a
t
o
rから生成したテープルや MDDBは
、S
ASシステム共通のメタデータ定
ASが提供する分析ツールや OLAPツールで利用することができる。
義体によって、加工なしで S
SASが提唱する c
n
d
‑
t
o
‑
e
n
dソリューションでは、エンタープライズワイドで、共通のテープル定義
を共有することができるのだ。図 9は
、 OLEDB対応のソフトウエアである M
i
c
r
o
s
o
f
tE
x
c
e
l2
0
0
0を
‑129
インターフェースにして
SAS
/W
a
r
e
h
o
u
s
e
図9 M
i
c
r
o
s
o
f
tE
x
c
e
l2
0
0
0から SASのMDDBのOlAP
A
d
m
i
n
i
s
t
r
a
t
o
rが生成した MDDBを OLAPしてい
る例だ。エンドユーザは PC にデフォルトで入っ
き
立
ぷ???Y
六;品抗日刊神
.
.
.
.
:
.
.
.
"
.
.
.
.
.
.
:
.
.
,
‑
交
,
争相当
:
.
.
:
.
.
.
t
s
λ ぷ
戸空墨色雇
OLAP が可能なのだ。 (Web ブ ラ ウ ザ を 介 す る
ているようなソフトウエアから SASの MDDBの
一一
弘ふ白骨慢 主剤
.
:
. .
,
守
魚
刊し一一一一一一」ニギー-'-三二~三三'--包二.i!..ti<.:更ふ
←
2亡二二二二二二=
OLAPも提供している。)
同
崎 t
時
..
.
.
'
.
.
.
. ~m
同
"
四
4
士清
他地ド捻M
目
叫
叫叫;.:>;.)0.
・
J
.
.
.
‑
三
つ
~~:
IN
.
#
t
J
I
I
~.叩
γ宮 崎a
ω
その他、 SAS
/W
a
r
e
h
o
u
s
eA
d
m
i
n
i
s
t
r
a
t
o
rには、スケジ
ユーリングすることよって定型 HTMLレポー卜を
n:
I
覗=
;
1
>
:
,
診
生成、ポータル或いはメールでの配信機能がある。
;,n よ問
!
?
:
,
主
〆
柳
、h F
以
画誕 Z司平副
白..柑冶
:<</γ
人
γ
.
.
1
‑
1
~晴朗"捨;", :~-,-~,"時\、 (.]'::Q a:.~.:t:"';-.止.1.'.~お普通。“
(
図1
0、 1
1参照)
図1
1 Eメール配信サンプルグラフ
仁三':.
ζ~.~~ ぷ押叩吋叩ザ招待出掛:抑制!ー二:泊予:::';
川温
i;~i~努皇室控室ど_,さ::'~.,三二二二三二二二二ここ辺三J戸
川 畑 叫 却 町 M c‑l
閲 10 サンプルゲ弓フ
:~四四四回一一寸野間宇田:::::::.:;:.:::::..::::...:..................._..
(弘
i混協泌芯弘弘ト;_;~:'投
ぷぷ.;~:込〆必必予何
μ
ぷ必ヂ#ぷ#手与与判
4
F早J符手符件手苧
凶U
叫芝湾私卒卒=苧苧以ミミ幻勾品Jz23j2=Jみ1 存与
ζ子話-切円円犯王
芝壬て王仁
h
:
ハ
│
・幽│
M」
λ竺
二
し
一
;
干
手
1
符
必
ぷ
ぶ寸バ g
h
:
し
産
主
富子~
0'<'1
1
.
図局..
J
このように SASは DWH利用においても多彩な手段でエンドユーザーの要望に応える。
4
. 終わりに
SAS
/W
a
r
e
h
o
u
s
eA
d
m
i
n
i
s
t
r
a
t
o
rによる DWH構築は、データウエアハウジングにおける必要事項である、
分散したデータソースへのアクセス、複雑な加工処理、柔軟で迅速なローデイングを実現する。
SAS/Wa
r
e
h
o
u
s
eA
d
m
i
n
i
s
t
r
a
t
o
rは
、 エンドユーザの時系列で変化する多岐にわたる要望にも迅速に対応
できる ETLツールなのだ。そして SAS
/W
a
r
e
h
o
u
s
eA
d
m
i
n
i
s
t
r
a
t
o
rによる DWH構築の成功は、 SASが 提
供するエンドユーザーが必要な時に必要な情報にアクセスできるためのツール群と一貫したメタデ
ータマネジメントによって約束されている。
参考文献;
e
w,S
c
p
t
c
m
b
c
r
,O
c
t
o
b
c
r
,Novcmbcr
,2000
DavidMetaD
a
t
aRIO3
‑
p
a
r
ts
e
r
i
e
s
. E且旦旦i
1
. Marco,
t
a
ra
n
dSnowtlakeSchemasi
nSAS,P
a
p
e
r1
2
3・26,2001
a
r
tH
e
i
n
s
u
i
s,QueryingS
2
. B
r巴h
o
u
s巴 A
d
m
i
n
i
s
t
r
a
t
o
rU
s
e
r
'
s Guide R
e
l
e
a
s
e
2
.
0,F
i
r
s
tE
d
i
t
i
o
n,SAS I
n
s
t
i
t
u
t
eI
n
c
. 1999.SAS
3 SAS/Wa
⑧. V
ersion8,Cary
,NC
:SASInstituteInc,・ 1999SASTechnical
I
n
s
t
i
t
u
t
eI
n
c
.,SASOnlineDoc
ReportJ‑121 日本語 IDBCS機能使用の手引き, Release6.08‑6,
1
1,1
m)G
‑130
日本 SASユ ー ザ ー 会 (SUG1‑0) SASODS出力のカスタマイズ 村山友子 株式会社 SASインスティチュートジャパン 営業本部ソリューションプランニングセンター TheC u s t o m i z a t i o no fSASODSOutput 1bmokoMurayama S o l u t i o n P l a n n i n g C e n t e r l S A SI n s t i t u t eJapanL t d . 要旨 V8からの OutputD e l i v e r ySytem (以下、 ODS) の機能が追加されたことにより、 SASシステ ムでの HTML出力は格段に強力、かつ柔軟になった。本稿では ODSの HTML出力に特化し、 a b u l a t e プロシジャとグラフ系プロシジャでの出力の 中でもレポーテイングによく利用される t カスタマイズについて、サンプルプログラムを交えて紹介する。 キーワード: OutputD e l i v e r ySystem、P r o ct a b u l a t e、SAS/GRAPHソフトウェア 1 はじめ!こ 現在多くの企業で経営層への報告書や社内情報共有のためのレポートなどは紙ベースから Webベ ースへとペーパーレス化が進んでおり、意思決定を支援すべきアプリケーションにとって分析結果そ のまま HTMLで出力する機能は欠かすことのできない機能になってきている。そのような環境の中、 SASのパージョン 8からの新機能として OutputD e l i v e r ySystem (以下、 ODS) が加わり、 HTML 出力に柔軟に対応できるようになった。 SASの出力をすべてプログラムベースでコントロールできる ので、データの抽出してくるところから必要な加工、集計を行い、最後に HTMLでのレポート生成 するといったところまでのすべて流れをパッチで行うことができる。 既に ODSの機能を利用し、 SASでの分析結果を HTMLで出力し、公開を始めているユーザも多 いかと思うが、実際 ODSを使って Webページを制作していくと、デフォルト出力だけでは不十分な 場面も多々でてくるのではないだろうか。そこで本稿では ODSを使い始めてはいるが、デフォルト a b u l a t e プロシジャと の出力ではもはや不十分と感じているユーザの方を対象に、ニーズの多い t SAS/GRAPHに的を絞って説明する。紙面の関係上、 HTMLのアウトプット画面は省いた部分も多 いので、是非一度サンプルプログラムを実際に試してアウトプットを確認していただきたい。また、 J D Sのサンプルプログラムも重複する部分は省略しているので、必要 同じ理由から長くなりがちな C 1 3 1
があればすべてのサンプルプログラムもメールでお送りしたいと思うので筆者 ( j p nt e m @ j p n . s a s . c o m ) までご連絡いただければと思う。 2O u t p u tD e l i v e r yS y s t e m ODSの機能を簡単に述べると、 SASのアウトプットをつかさどるまったく新しい方法ということが できる。これまでそれぞれのプロシジャの出力は、プロシジャごとに独自に決められていた。それに 対しパージョン 8からは、プロシジャはデータコンポーネントを出力し、それを ODSに送る。そこ で ODSがそのコンポーネントをどこに、どのようなかたちで出力するのかを決める。 どこに"とい うのは、出力先であり、出力先としては従来のようなテキスト形式のほか、 HTML ファイル、 RTF ファイルあるいは、パージョン 8 . 1では E xperiment a lとなっているが、 XMLや L a t e xなどがある。 出力先は ODSグローパルステートメントで指定する。 どのようなかたちで"出力されるかはテンプ レートコンポーネントによって決められる。ほとんどのプロシジャは生成されるアウトプットのため の、デフォルトのテンプレートを持っている。このテンプレートはテンプレートプロシジャでカスタ マイズすることが可能である。 ODSは、この二つのコンセプトから構成されている。 3T a b u l a t eプロシジャと O D S 3. 1 Tabulateプロシジャの利点 業務の中で、様々なデータの比較を行うためにデータのサマリーレポートを必要とする場合は多い。 SASでも SQLやデータステップを使ったデータのサマライズのほか、 p r o cmeans(summaryもほぼ 同じ機能を持つ)、 f r e q、r e p o r t 、t a b u l a t eといったサマリーレポートを作成する柔軟で、強力なプロ シジャを持っている。なかでも t a b u l a t eプロシジャは、コーデイングが直感的でわかりやすく、 SAS ビギナーも学習しやすい。また、 Webを使ってレポートを公開するとなると色やフォントの効果的な 使いわけや、他の関連レポートとのリンクづけなど、誰もが必要な情報を確実に得られるような、わ かりやすいテゃサ"インであることが求められるが、その点 t a b u l a t eプロシジャは pnnt 、r e p o r t、 f r e q プロシジャやグラフ系のプロシジャと共に独自に ODS対応しており、 s t y l eオプションや f o r m a tプ ロシジャと共に組み合わせて使用することにより、セル単位でのカスタマイズやリンク付けも行える 非常に有効なプロシジャである。サンプルプログラムを交えながら、 t a b u l a t eプロシジャの出力をカ スタマイズする。使用するデータ ( SUGI̲J.EC̲SITE)は、ある ECサイトにおける利用度調査結果 である。 T R A D E 文字 ーt " A E Cサ S E X 文字 性別 HOUR 文字 利用時間帯 A M O U N T 数値 平均購買金額 W E BS E C 数値 平均アクセス時間(秒) A CD A Y 数値 平均利用回数(/日) M A N Z O K U 数値 満足度(%) 132‑
3 . 2STYLEオプション 性別毎に ECサイトの満足度を比べる集計表を作成し、ここでは HTMLファイルに出力するため t a b u l a t eプ口、ンジャの詳 に 、 ODSステートメントで出力先 HTMLとそのファイル名を指定する。 ( ersion6F i r s tEcliton~ を参照) 細は WSASプロシジャリファレンス V 出力イメージを変える最も簡単な方法は、 s t y l eオプションを追加することである。 s t y l eオフ。ショ ンは色、フォントの種類やサイズといった属性の集まりなので、出力イメージの全体の外観を変える rick、Beige、Brown、D3D、Minialなど ことができる。 SASが予め用意している標準スタイルは、 B 14種類。 SASシステムを起動し、[ツール]→[オプション]→[プリファレンス]の結果タブで 確認できる。 HTMLファイルとして出力する際には、ユーザはこの中からスタイルを選び、スタイル t y l e =は 、 s=と省略が可能である。 名を ODSステートメントの中で指定するだけである。 s 1 * サンプルプログラム① S T Y L Eオプションザ 満足i 会〈締 o d sh t m l path='E:~SUGI-J洲T阻 'ωRL=NONE) 総合 iW b o d y ニ' t a b l e1 .h t m l '主 主d豆長; t i t l e' T a b u l a t eプロシジャ基本的なクロス集計, . p r o ct a b u l a t ed a t a = s u g i ̲ j . e c ̲ s i t e ; a n z o k u判n e a n ; t a b l e ss e x,m c l a s ss e x ; i B r i c kスタイル」 v a rm a n z o k u ; r u n ; 今度は、 t a b u l a t eプ口、ンジャで s t y l eオプションを指定してみる。先ほどはアウトプット全体のイ a b u l a t eプロ、ンジャと共に使うことで、テーブル内の特定部分のスタイルを変 メージを変更したが、 t えることができる。 t y l eオプションをサポートしているのか、 以下の表は、どのステートメントまたはオプションで s またそれがテーブルのどの部分に影響するのかを表したものであるの 影響する部分 ステートメント/オプション 分類変数 C L A S Sステートメント ・ ・ ・ ・ ・ キーワードセルのヘッダー • K E Y官O R Dオプション ボックスセル • B O X =オプション CLASSLEVステートメント クラスヘッダーレベル V A Rステートメント ‑ 分析変数 データセル • •. P R O CTABULAT Eステートメント ハ ペυ ハ ペυ 1i
これを参考すると、今回キーワード、セルヘッダーには mean、min、max、sumの 4つがあるわけ だが、ここの backgroundを薄い縁色にし、文字をイタリックにするには、 K E Y W O R Dステートメント の個所に必要なスタイルオプションを追加することになる。同じような要領で先ほどのサンプルプロ グラム①にステートメントは変更せず、様々な styleオプションを追加したものが②である。 /本サンプルプログラム②属性ごとにスタイルを指定率/ ods h t m l pat h='E:~SUG トJ洲TrlL'ωRL=NONE) body='table2.html'; title '属性毎にスタイルを変える, . proctabulatedata=sugi̲j.ec̲site format=commal0.; class trade / s={background=cxCCEEDD); 本( w e b ̲ s e cac̲day manzoku a m o u n t ),mean minmax sum tables trade サイト利用度. s=lbackground = 非9900ccforeground= white / box=llabel='EC font̲face = timesll; v a r web̲sec ac̲day manzoku a m o u n t ; ∞ ofont̲style=italicl; keywordmean minmax sum/ s=lbackground =c x E回 classlevtrade/ s=lbackgrωnd 司 x Mα潤); r u n ; ods h t m lc l o s e ; 3 . 3フォーマットの活用①項目の色分け formatプロシジャはユーザ独自の出力形式および入力形式を作成するプロシジャであるが、こ れを特定部分の色分けに使用する。この場合では、 classlevで指定している変数 trad巴の値ごと に色わけをし、 ECサービスの項目をわかりやすくする。 /本サンプルプログラム③フォーマットを使用して分類変数に色つけ本/ o d sh t m l path ニ , E :お UGトJ 判 T r l L ' (URL= NONE) body='table3.html'; title 'フォーマットを使用して classlevごとに色分け, . proc format v a1 ue$c1 assback 'コンビュータ関連̲評F c c c c ' '金融商品・情報, = '# Cccc f F ' .書籍̲非C a : F C C ' '旅行・チケット予約̲が汗F 9 9 '; r u n ; proctabulatedata=sugi̲j.ec̲site format=commal0.; (途中、略) classlevtrade/ s t y le =lbackground =$classback.); r u n ; ods h t m lc l o s e : 点件企 nぺU 1よ
3
. 4S
T
Y
L
Eの継承く P
A
R
E
NT>
変数 tradeにはコンビュータ関連、金融商品、情報、書籍、旅行・チケット予約の 4つの項目があ
り、それぞれを比べる指標として平均アクセス時間(秒)、平均利用回数(!日)、満足度(%)、平均
購買金額(!月)の 4つが var ステートメントに指定されている。今回特に平均購貿金額(!月)の指
標に注目したいとするコ varステートメントに styleオプションをつけて backgoundの色を変える必
要があるが、そのようにすると同じ varステートメントに指定されている他の指標にも色が反映され
てしまう。これを回避するために varステートメントを平均購買金額(!月)と他と二つにわけであげ
る必要がある。
var web̲sec ac̲day manzoku;
var amount;
このようなマルチ varステートメントはパージョン 8からの機能である一 varステートメントのほ
か classステートメント、 classlevステートメントで利用が可能である。
さて、 Amount'こ styleオプションをつけて色をつける際、ただ色を指定するのではなく、下記の
>
を
図のように上の階層である tradeから色を受け継ぐようにするために styleオプションにくparent
指定するつこうすることで、項目と対応する指標とが明確になる
受け継ぐ
υ
ここではデータセルもスタイルを
3
:T'.il:~]. ..~;.!際法
P~lfcnt
/ノ
ミ1・~~滋1ミーili綴{jm
Child図
書
/牟サンプルプログラム④マルチ varステートメントとくparent>の使用率/
ods h
t
m
l path=
'
E
:お UGI‑J開 T
阻,
(
U
RL
=
NONE) body='tabI
e
4
.html
':
>の使用, .
title 'マルチ varステートメントとく parent
proctabulate data=sugi̲j.ec̲site format=commal0.:
class trade/ s={background=cxCCEEDD}:
tables trade牟C
w
e
b
̲
s
e
cac̲day manzoku amoun
快 [
s
=
く
paren
t
>
}
)
, mean minmax sum
∞
サイト利用度, s={backgroun生非99 ccforeground=
white font̲face=
times}}
/ box={label='EC
var web̲sec ac̲day m
a
n
z
o
k
u
:
a
r
e
n
t
>
:
var amount / style=くp
keywordmeanminmax sum/ s={backgroundニcxCCEEDDfont̲style=italic}:
classlevtrade/ style={background=$classback.}:
r
u
n
:
ods h
t
m
lc
l
o
s
e
:
1
3
5
3
. 5フォーマットの活用② Traffic‑Lighting
日次、月次などの定期間隔で作られるレポートの目的の一つは、ある特定数値の観察である。
例えば庖舗の売上金額やサイトの訪問者数といった数値が目標範囲内に入っているのかどうか、
予想以上に高い、あるいは低いといったことはないのかなどである。
formatプロシジャを使うと、予め数値範囲ごとに色指定が行えるので、ある特定の範囲内であ
ればセルの色を変え、観察する側の注意を喚起することができる。数値範囲の指定には先ほども
紹介したフォーマットプロシジャを使う。このとき、レポート作成者が想定した数値範囲がどれ
くらいであるのか、なぜアラートがたっているのかといったことを第三者にわかりやすくするた
…
めにツールチップをあわせて指定している。ツールチップはよくホーム
一
一
ページで使われている、マウスをあてると小さなチップが出てくるとい
ったものである。(ツールチップは InternetExplorerの機能なので、
Navigetorで は チ ッ プ ー れ な いδ)
/
~ 1~:.,•玄T
I
r
a
f
f
i
c
‑
ι
i
g
h
t
i
n
g
*
1
/ホサンプルプログラム⑤ T
E
:平SUGI‑J洲 T
阻 'ωRL
=
N
四E
)b
o
d
y
=
'
t
a
b
l
e
5
.
h
t
m
l
'
:
o
d
sh
t
m
lp
a
th='
t
i
t
l
e
l'
T
r
a
f
f
i
c
‑
li
g
h
t
i
n
g
'
:
t
i
t
l
e
2'アラートのたっているセルにマウスをあててください。'
p
r
o
cf
o
r
m
a
t
:
/ホアラートの範囲指定本/
v
a
l
u
ew
e
b
̲
b
a
c
kl
o
w
‑
6
0
=
'l
i
p
k
'
1
8
αト1
0
0
0
0
0
=
'v
p
a
p
b
'
o
t
h
e
r
=
'
y
w
h
':
/
ホ
ア
ラ
v
a
l
u
ew
e
b
̲
f
l
y
ol
o
w
‑
6
0
ゴ1
分以下'
トの意味本/
∞∞
∞
0
=
'
3
0分以上'
1
8‑
1
o
t
h
e
r
=
'
r
u
n,
p
r
o
ct
a
b
u
l
a
t
ed
a
t
a
=
s
u
g
i
̲
j
.
e
c
̲
s
i
t
ef
o
r
m
a
t
=
c
o
m
m
a
l
0
.s
t
y
l
e
=
l
b
a
c
k
g
r
o
u
n
生y
w
h
]:
c
l
a
s
st
r
a
d
eIs
=
l
b
a
c
k
g
r
o
u
n
d
=
c
x
C
C
正E
D
D
]:
t
a
b
l
e
st
r
a
d
e
ホ(
w
e
b
̲
s
e
c
吋s
t
y
l
e
=
!
b
a
c
k
g
r
o
u
n
d
司 e
b
̲
b
a
c
k
.f
l
y
o
v
e
r=
we
b
̲
f
l
y
o
.
]
]
ホ!
s
=
(
p
a
r
e
nt
>
}
),
a
c
̲
d
a
ym
a
n
z
o
k
ua
m
o
u
n
t
(以下、略)
3
. 6フォーマットの活用③ HTMLタフの指定
フォーマットで指定できるのは、色や数値範囲だけではない。 HTML タグをそのままフォーマッ
トとして与えることが可能である。ここでは表側項目である tradeにリンクをはり、リンク先のペー
ジではそのカテゴリーにおける性別、利用時間帯別平均アクセス時間を比べるレポートを出力したい
.
.
.>タグを I‑ITMLの表記に}[IJってそのまま記述する一定義されたフォーマットの指定
ので、 <a href
ormat.ステートメントで行うに
は通常のi'
ハhu
nぺU
1i
/*サンプルプログラム⑥表側にリンクを生成本/
ods h
t
m
lp
a
t
h
=
'
E
:平S
U
G
I
‑
J
判T
r
.
t
.'ωRL=
N
O
N
E
) body='table6.html';
t
i
t
l
e
l '表側にリンクを生成, •
title2 'アラートのたっているセルにマウスをあててください。,
proc f
o
r
m
a
t
;
・∞mJter.html・〉コンビュータ関連く/a>"
value $traname 'コンビュータ関連‑くahref=
'金融商品・情報‑くahref='finance.html')金融商品・情報く/a)"
.書籍'よくah
ref
ニ
, b
o
o
k
s
.html
')書籍く/a)"
'旅行・チケット予約‑くah
r
e
f
=
'r
e
s
e
r
v
e
.html')旅行・チケット予約く/
a
)
"
;
r
u
n
;
proctabulatedata=sugi̲j.ec̲site format=commal0. stYle=!background=
y
w
h
)
;
任0
0
);
class trade/ s=!background=cxCC
tables trade
叫web s
e併 !style=!background
‑
‑
w
e
b
̲
b
a
c
k
.f
l
y
o
v
e
r=
web̲flyo.)) ac̲daymanzoku
a
r
e
n
t
)
)
),meanmin max sum
amount*!s=くp
サイト利用度, s=!backgrounc
F
ニ
非9900ccforeground=
whitefont̲face=
times))
/ box=!label='EC
var web̲sec ac̲day m
a
n
z
o
k
u
;
くp
a
r
e
n
t
)
;
var amount/ style=
keywordmean min max sum/ s=!background=cxCCEEOO font̲style=italic);
classlevtrade/ style=!background=$classback.);
formattrade $
tr
a
n
a
m
e
.;
r
u
n
:
ods h
t
m
lc
l
o
s
e
;
U
G
I
‑
J
判T
札 "b
ody="computer.html"
ods h
t
m
lp
a
t
h
=
"
E
:平S
リンク先のレポートは選択された ECサ ー ビ
=
Brick;
sty1
e
スごとの Tabulateプロシジャの集計結果で
proctabulatedataニsugi̲j.ec̲siteformat=commal0
ある。 EC サービスカテゴリーごとに HHIL
wheretrade="コンビュータ関連".
ファイルが必要になるので、実際にはこの
c1ass sex h
o
u
r
;
プログラムをマクロにすると便利ハ
tables sex,h
o
u
r*Web̲se
併 (
s
u
mm
e
a
n
):
var web s
e
c
;
担lIIIiiii縄臨函起草際立単調路醐輯
r
u
n
:
l
I
t
'
o
I
f
I
向
的 "
i
.'.~勺
i
:i:叫・ス
ì._~;6~畑表向刈欄紙引 o ヌ
"
1 "
反効お間開
I~
'
)
ods h
t
m
lc
l
o
s
e
:
ク
一
ン
一
J
L
﹃
f
l
l
I
G
l
2タイル tR
l
:
i
!
︐一
!
﹃
M
m
一/
川一/
‑一/
8ナゴ予‑ J;
,
t
:
:
ョ
ー1
l
1
!
,
.
〆
j
.
.
.
.
.
君事夜間山
%
l
:17!咽l'SiI
I
U
t
f
t
!
JI') .6~<<)
臼
糊 泌 さ " "
i
黄海
雨対空羽織彬;
宇均働省r~ 1Aは i}-H
13
別府
j
摘
…i
1
州側併に同
j
i
引
:
H
惜
0 日 , 蜘 町 民 同l
1 !K' I I < ' l & . 畑 町 ト
i
l~'. 剛 j
1禍
…
1~
~.9U!
i
刷
~.1bS 化刊リ九弘同子日~::U.、冊 t
叫
e<<:~.
i
i
説会桜:終日川畑
i
刊闘訓刊;
舛湖明断事}:'.
品 川
I,
!
:
.
i
l
I.! 脚
1&!!
州
i
j
1 U
J
.
X
Q
!
'
1
6
。 日 脚 H,油九四
最終アウトプットイメージ
i
月ta
n
ぺU
1i
4S A S / G r a p hとO D S 4 . 1S A S / G R A P Hの利点 ノくージョン 8から SAS/GRAPHはActiveXドライパと JAVAドライパの二つのドライパを新たに提供し、 SAS/GRAPHの結果を ActiveX や JAVAで、の出力することが可能になった。これらで出力した H T M L ファイル内には、 Javascriptコードが自動生成されるため、ブラウザなどのビューア上でインタラク ティブにグラフの形を変えたり、色を変えることができる。この特徴と H T M Lタグの部分を工夫する と従来からの静的なグラフイメージとは違った、動きのある Webページの作成が可能となる。 使用するデータ 今回 ( S U G I ̲ J. sALETRND)は、 1995年から 1998年までの家具の売上データである。 COUNTRY 文字 国 STATE 文字 4 ・ H ACTUAL 数値 実測値 PRODTYPE 文字 商品タイプ PRODUCT 文字 商品 QUARTER 数値 四半期 YEAR 数値 年 4 . 2単 純 な 棒 グ ラ フ の 出 力 まずは簡単な棒グラフの出力を行う。 ODSステートメントは tabulateプロシジャの場合と変わらな いが、 goptlOnsステートメント上で device=オプ、ンョンを使って H T M Lの中に表示するアウトプット タイプを指定する。 /ホサンプルプログラム①単純な犠グラフホ/ 年 ∞Shtm1path='E:平SUGI‑J平ACTIVEX'(ur1= ne) 明日 Ig95 body='totsales.html': 1 ; 195 goptionsdevice=JAVA title ' T o t a l Sales by Year': ト‑→ a! l1 w ork.saletrnd: proc gchart data= ・ " ' hbar3d year Idiscrete sumvar=actual: run:quit: ods h t m lc l o s e : 4 . 3 ドリルダウン 分析者にとって必要な情報は広範囲な情報だけではなく、詳細な情報も必要です。一般的に分析者 は、例えば全世界での商品売上などの広範なデータから分析を始め、特定の興味をひくポイン卜へと 分析を進めます。つまり、詳細なデータへと掘り下げていくデータのドリルダウンは、分析者にとっ て大切な機能である。 4IL ぺU n n N u
ODSでも HTML出力を行う際、チャート内の一つの棒グ ラフとその棒グラフをクリックした際のリ ンク先とを関連づけてあげることにより、あたかもデータのドリルダウンを行っているかのようなペ ージを作成することが可能である。この関連づけを行うには、 SAS データセット内にリンク先を表す 変数を新たに一つ作成する。 /本サンプルプログラム② HREFアドレスをもっ変数を追加率/ d a t as u g i ̲ j . s a l e t r n d : s e t sugi̲j.saletrnd:length P r i D r i l 1$ AL: J 〆F i f year=1995then p r i d r i1 1 = ' i f year=1996then p r i d r i l1 i f year=1998then p r i d r i l1 = ' f o r m a ta c t u a ld o l l a r 1 0 . 0 : を一切り Ju 下 m附 υ v L 出品をテ行 m 川 ιF 比川 HVE' フプ片山引耐力さスを ラレト辻 P出き m 定 グ力一を名ま大 m 指 るンげン数割の刺ズ サ U1 変この町ゲイ ン‑︑也︑た二百にサ ウは即ブし γ旺 め で ダに祉は成る九たト 作す灯るンる ルるの リす① M に定凶すメい ド成ムに規指釦定トて 作ラト新をる指一つ 'hH m + L eu‑‑ ause‑ u 気 ‑E' cuv' ・ +La dega 白山げ 下戸ド n u t ︑d f ︐=︐ 内 VA Aue・︑ ほ p a nH yu r nn u ︑+J LC H w. 引 廿 間 加剖竹 =HUHqq ︐ ︐ 提川端 干 ‑ ︐︑ t eon を ‑mm 弓 / U ldwe 山 S 数州はじ・同 EU ae 憶に ︼﹁ L 唖S V 零 巾 ゆ acu ゐ J ﹀ e‑e eb‑UT‑‑EJ ﹁ 一 C ︐ Eta‑‑ l︑nuuvMY‑‑'s Huaahueb‑‑ ‑mpaiJVUJU 合掌 吾 川 て河戸 しげE 以炉副旬﹁ ==・1cpaaae mmTA tHOE‑but 創出品引・引 a Jロ £芋 ea+L1t a同 p d t r d c uunbnuqan 品市 ノ ク川 ト gb+Lnvrnu JhHしード・levqh 白 / r n u w邑 ︑ u ﹁ ls p v t ll : nu αl nr s 本 Auoq uAU 凶 次にサンプルプログラム②で指定している SALES1995.HTMLなどのリンク先のページを生成する。以 下は 1995年の棒グラフをクリックすると、プロダクトごとに色分けされた四半期別売上レポートにリ ンクする HTMLファイルを作成するプログラムである。 HHILファイルは 1995年から 1998年まで必要なの で、実際には以下のプログラムをマクロ化した方が便利である。 /本サンプルプログラム②リンク先ページを年度別に作成本/ o d sh t m lp a t h = ' E :¥SUGI‑J¥J A V A '( u rI = n o n e )b o d y = 's a l e s 1 9 9 5 .h t m l ': title ' S a l e sf o r1 9 9 5b ya u a r t e r ' : proc gchart d a t a= wo r k .s a l e t r n d : v b a rq u a r t e r/s u m v a r = a c t u a l subgroup=product d i s c r e t e : where y e a r = 1 9 9 5 ; r u n : o d sh t m lc l o s e : 戸以下、同様にして 1998年度までの HTMLファイルを作成り 回半期 υ 円同 nペU 1ょ
4.
4アンカー
今度は同 ‑HTML
ページ内で、グラフをク
リックすると関連するクロス集計表へジャ
ンプするというものを、アンカーを使って作
成する。プログラムは先ほどと同じ要領だが、
i
fq
u
a
r
t
e
r
=
1t
h
e
ns
e
c
d
r
i1
1
=
'
H
R
E
F
=
"
#
s
a
l
e
s
ql
'
'
'
;
i
fq
u
a
r
t
e
rニ2t
h
e
ns
e
c
d
ri
1ニ'
H
R
E
F
=
"
#
s
a
l
e
s
q
2
'
";
非s
a1
e
s
q
3
'
";
i
fq
u
a
r
t
e
r
=
3t
h
e
ns
e
c
d
r
i
lI
=
'
H
R
E
F
=
"
h
e
ns
e
c
d
r
i1
1
ニ
, H
R
E
F
=
"
非s
a
le
s
q
4
'
";
i
fq
u
a
r
t
e
r=4t
ジャンプする先のページは別の HTMLフア
イルではなく、同一ページ内なので、ジャン
プする先を ODSステートメントに anchor=
オプションで指定してすればよい。
/*サンプルプログラム③アンカー*/
o
d
sh
t
m
lb
o
d
y
=
'
s
a
l
e
s
I
9
9
5
.
h
t
m
l
'
;
t
i
t
l
e'
S
a
l
e
sf
o
r1
9
9
5b
yQ
u
a
r
t
e
r
'
;
p
r
o
cg
c
h
a
r
td
a
t
a
=
s
u
g
i
̲
j
.
s
a
l
e
t
r
n
d
;
=
p
r
o
d
u
c
t
h
b
a
r
3
dq
u
a
r
t
e
r/s
u
m
v
a
r
=
a
c
t
u
a
ls
u
b
g
r
o
up
se
c
d
r
i1
1
;
d
i
s
c
r
e
t
eh
t
m
l=
w
h
e
r
ey
e
a
r
=
1
9
9
5
;
r
u
n
;
q
u
i
t
;
o
d
sh
t
m
lc
l
o
s
e
;
/*ジャンプ先を a
n
c
h
o
rオプションで指定*/
o
d
sh
t
m
l
.
a
n
c
h
o
r
=
'
s
a
l
e
s
q
l
'
;
ti
t1
e'
1s
tQ
u
a
r
t
e
r1
9
9
5S
a1
e
sb
yC
o
u
n
t
r
y
';
j
.s
a1
e
t
r
n
d
;
p
r
o
ct
a
b
u
l
a
t
ed
a
t
a
=
s
u
g
iー
w
h
e
r
ey
e
a
r
=
1
9
9
5a
n
dq
u
a
r
t
e
r
=
l
;
,
ー
、
/
,
、
、
,
.
・J
.
'
、
!
.
‑
>~.ノ〆~;X,ど,,:~.'f{,品,、哉、~~'''''.''.Ú; 併が
S
a
l
e
s
1
9
9
5
.
h
t
m
l
:1験雪g患
ι
可:. :.:e丸仏誕:竺:~:::::杭
.:や
E
慈
草
b
君
自
鑑
量
(以下、略)
/*以下同じ要領で s
a
l
e
q
4までアンカーを指定*/
て
で
や
《
仇
、o
5 おわりに
ODSである程度作りこんだページを作成しようとするとどうしてもプログラムが長くなりがちで
ある。しかし、プログラム自体は基本的なプロシジャの使い方を知っていれば難しいものではないの
こチャレンジするきっかけとなっ
で、まだODSを利用されてないユーザにとってもこの論文が ODS'
たら幸いである。
6
参考資料
S
U
G
I
2
6P
a
p
e
r
3
:
0
D
Sf
o
rP
R
I
N
T,R
E
P
O
R
T,a
n
dT
A
B
U
L
A
T
E
e
n
e
n
t
e
c
h,I
n
c
.,S
a
nF
r
a
n
c
i
s
c
o
L
a
u
r
e
nH
a
w
o
r
t
h,G
S
U
G
I
2
6P
a
p
e
r
5
9
:
0
D
Sf
o
rR
e
p
o
r
t
i
n
gw
i
t
hs
t
y
l
e
v
o
c
e
tS
o
l
u
t
i
o
n
s,D
a
v
i
s,C
A
S
u
s
a
n
]
.S
l
a
u
g
h
t
e
r,A
n
i
v
e
r
s
i
t
yo
fC
a
l
i
f
o
r
n
i
a,D
a
v
i
s
L
o
r
aD
.D
e
l
w
i
c
h
e,U
E
S
!O
d
i
o
u
s,N
O
!‑
A
nI
n
t
r
o
d
u
c
t
i
o
nt
ot
h
eS
A
SO
u
t
p
u
tD
e
l
i
v
e
r
yS
y
s
t
e
m
S
U
G
I
2
6P
a
p
e
r
I
5
6
:
0
D
S,Y
n
i
v
e
r
s
i
t
yo
fN
o
r
t
hC
a
r
o
l
i
n
aa
tC
h
a
p
e
lI
l
i
l
l,C
h
a
p
e
lH
i
l
l,N
C
L
a
r
aB
r
y
a
n
t,U
日i
v
e
r
s
i
t
yo
fN
o
r
t
hC
a
r
o
l
i
n
aa
tC
h
a
p
e
lH
i
l
,
lC
h
a
p
e
lH
i
l
,
lN
C
S
a
I
l
yM
u
l
l
e
r,U
R
a
yP
a
s
s
.
R
a
yP
a
s
sC
o
n
s
u
l
t
i
n
g
.
H
a
r
t
s
d
a
l
e,N
Y
‑140‑
口頭論文発表 統計
日本 SASユーザー会 (SUG1‑0) 非線型ランダム係数モデルの活用 高橋行雄 日本口シュ株式会社 医薬開発本部 Ana p p l i c a t i o nonNonlinearRandomC o e f f i c i e n tModel YukioTakahashi PharmaDevelopment/NipponRocheK . K . 要旨 患者を対象にした薬物波皮の i W J定 が 頻 繁 に 行 わ れ る よ う に な っ て き た こ と に 伴 い,非線型モデルを取り扱う必要が起きてきた.非*)~)F.~!モデルは,個別の学問分野に 密接に関係していて扱いにくいものであるが,実際の臨床試験からデータが発生する ようになってきでは 試 験 統l t l 一家としては避けて通れない課題となってきた.これ は,スパースな経!l寺的な薬物濃度データから被験者ごとの PK パ ラ メ ー タ を 推 定 す る I Jし、た非線形ランダム係数モデルによって実現 問題であり, NLMIXED プ ロ シ ジ ャ を J できる. 1 併ネ斤モデルの見通しをよくするために非線形共分散モデルとの対比をしなが lJ . : 1 : .1反応関係について応川例も示す. ら PKパラメータを推定し, J キーワード SAS川 LMIXED 、経 11守デー夕、非 ff~R]f:~混合モデル、薬物濃度, JMP lNo n l i n e a r 1.はじめに 臨j才ç~jtl換の場で、も,和属的に薬物投!立を測定し,薬物 j創立と安全性,薬物濃度と臨床効果,さ らに薬物濃度の変動に影型:をおよほす要因の探索などが行なわれるようになってきた.その際の 問題は,測定データが現実の実!投の坊におけるfl;1J約からスパースなデータにならざるを得ないこ とである. スパースなデータから, 附 防 例 俳 ↑l 人 こ ご ご 、 との最大 血 I 1 但 L l 中 l い 叫 1 託 波v 皮 支 C ι 1 J 川 e 推定し,体重あるいは力1齢に伴なう AUC の明力1 1があるか否かの検討が,探索的な解析の課題の o p u l a t i o nP h a r m a c o k i n e t i c s ガ イ ダ ン ス (1999) の X I節 U s i n g 一つである.これについては, P p o p u l a t i o nPKs t u d i e sa n da n a l y s i si nd r u gd c v e l o p m e n ta n ds u b m i s s i o nの例示が参考になる. 表 l は , 高 橋 (1 9 9 5 ) で)!Jし、られた反復毒性試験のトキシコキネティックス ( T K ) のデータ f l Lが物旦H 的に不可能なので個々の症例 である.対象とするのが小動物であることから,瀕同の採 I f [ ]は 3fI寺点分しかない. I CHの TKガイドライン(1996) では,各症例ごとの PKパラメー の採 j タの抗出を要求してはいないが,このようなスパースなデータであっても,夕、ミ一変数を活JfJし ‑143一
た非線型共分散モデル.あるいは非線型混合モデルを用いれば,個々の動物の ClIlll̲¥ や AUC を推
定することができる.個々の症例の P
Kパラメータが推定できれば,これを用いて,有害事象と
のI
]
,
¥
J
連,加齢に伴う変化があるかなどについて探索的な解析が可能となる.
表 1 ラットに X薬を単回投与した後の薬物濃度
用量
ID
DI
,
0
0
0
n
g
l
k
g
1
フ
3
4
5
6
7
8
D2
0
0
0
n
g
/
k
g
2,
I
I
1
2
1
3
1
4
1
5
1
6
1
7
1
8
l時間
0
.
6
2
9
0
.
5
7
2
0
.
3
6
6
0
.
7
1
8
2時間
4時間
2
.
0
3
8
43
1
2.
1
.
73
3
4
.
9
7
9
1
2時間
1
.
2
8
0
1
.346
1
.
3
8
6
3
.
6
1
1
8S
寺
H
¥J
24手
日I
H
J
1
.
37
7
1
.
7
8
6
1
.
0
8
8
2
.
7
8
6
1
.
2
0
7
0
.
6
3
9
0
.
6
7
5
0
.
8
6
1
0
.
6
5
7
0
.
8
7
5
0
.
6
1
4
0
.
9
0
2
0
.
1
1
2
0
.
2
8
8
0
.
2
7
7
0
.
2
6
9
6
.
0
1
2
4
.
1
2
5
6
.
2
5
7
5
.
3
5
6
2.
49
5
2
.
6
8
9
1
.
9
6
5
3
.
9
0
2
3
.
6
9
5
3
.
5
1
6
4
.
0
7
4
3
.
9
2
7
1
.
6
8
9
1
.
5
1
5
2
.
2
6
7
1
.
706
0
.
6
8
9
0
.
9
1
8
0
.
6
2
7
0
.
9
3
7
図 l に投与量ごとにプールしたデータの平均薬物濃度の推移を示す.この図から低用量群 Dl
の 8時間目が, 4時間目および 12時間目に比べて落ち込んでいることが観察される.これは
2,
8,24 時間目に測定が行われ
た 4匹の薬物濃度が
1
,4,
生データの平均
算術平均の対数表示
1
0‑
,
1
.
‑‑
12 時 間 目 の 測 定 群 に 比 べ て
相対的に薬物濃度が低いため
に起きた現象である.個体差
の影響を受ける単純平均によ
る薬物濃度の推移図は,
;
幻
L
1
J
京
;
j
:
'
.
:
'
:
:
l
:
'
i
4
f
¥
翼
jgi
‑
?と に ] 。
今
3
、~
H 唱ヨ茸区
吋
宅
是
J手
B
t
i
m
e(
h
r
)
.
‑
3
、
、
。
。
目1
ミス
リーデイングを誘発するので
込
、
、
1
2
1
6
t
i
m
e(
h
r
)
20
2
4
一目白ーー」
図 l 用量ごとの平均薬物波度, 0:DI群. x:D2群
適切な図とはいえない.
2
.非線型モデルの選択
図 lから薬物濃度曲線は, D1 群
, D2群ともに経口投与後の立ち上がり,ピークに達した後の
消失パターンが対数グラフから平行と見なせそうである.この場合に.ある時問。の血液中の薬
物濃度を Yj としたときに式!のように薬物動態モデルの一つである l コンパートメント l次
吸収モデルが当てはめられる.
Yj 二
β
I{(一口 p(β2(
1j ‑ s
4)+巴Xp(‑s
(
lj ‑ s
4)}+ej , j=l,2,3
3
(
1
)
ここで,りは投与後の測定時 I
¥
I
J
であり, β
lは血液の量と投与された薬物の量に関連するパラメー
(
l
lI
I
[1
'に移行する速度に関連するパラメータ(んまたはん 1
) , β3は
タ
, β2は薬物が消化管から 1
144‑
血液 q
lの薬物が腎!臓や!JH肱などから j
Ji
'I
Il:される速度に関連するパラメータ (
ke または k10) , β斗
(
ま
, i
'
i化官に投与された薬物が実際に吸収され始めるまでの時間差( t
1
a
g ) である.薬物動態モ
デルでは,薬物濃度 (
c
o
l
l
c
e
l
l
r
m
r
i
o
l
l) を c
jとして次の式を用いることもある.
正二
Dose.kα k ‑
,
,
"
{
(
一
巳x
p
(‑ka(
ti ‑ t
"
Clear
αI
lc
e・(
kα k
.
.
)
α j "叩
",
)
+叫 (‑k,
,
(
tj 川}+ej
(
2
)
ここで , Dose は投与した薬物の景,クリアランス (Clearance) は血液中から体外に排地される
単位時間当りの薬物量である
C
l
e
a
r
a
l
l
c
e でなく,体内血液量の推定値として肋 I
W
l
l
e を用いる
場合もある.
β D
o
s
e
.kα .
k,
I
Clearal
1c
e
.(
kα
Dose.kα
k,
,
) V
o
l
l
lll1e・(
kα
(
3
)
k,
)
ここで , V
o
l
l
l
m
eニ C
l
e
a
r
a
l
l
c
eIk
e であるので,推定したいパラメータんが肋 lumeに含まれており,
パラメータ問の相関が大きくなる.統計的にはパラメータ問の相関が小さいほうが安定して解を
I= Clearal1ιrとした式 2を用いた方が望ましい.
求めやすいので, β
3
. データをプールした場合の PKパラメータ
非線型ランダム係数モデルを適Jllするためには,ととのパラメータに個人差が存在するかを見極
める必要がある.そのために投与群ごとに,プールしたデータで非椋型モデルを用いてパラメー
町
山
川
D
タを推定しておくとよい.
02
NLIN プロシジャにより非 <<~R
型モデルを解くことができる
てくれる JMP が,探索的な
2
×
E
'
;
;
;
4‑
1
Z
×
>
‑
×
2‑
1
内
u
4
2
n
︐
ι
6
‑
}
r
(弘H
2e
1m
t
A
‑
y
nu
の結果を図 2に示す.
8
n
u
統計解析の効率がよいのでそ
4
び最終結果も散布凶上に示し
s
→←巣
。
{
﹂E¥凶E) ﹀
が,繰返し計算の過程,およ
8 1
2 1
6 2
0 2
4
t
i
m
e(
h
r
)
図 2 JMP/nonlin巴a
rによる薬物濃度山組
表 2に推定されたパラメー
タを示す.推定されたパラメ
ータを用量問で比較してみると, β
lは 1
4 と一定, βュは 02群が大きく, β
3および
Aは一定で
ある.一般的に用いられている PKパラメータは次の計算式によって求められる.式 l を微分し
てして最大値に到達する時!日J[ml1.l は,次式となり,
t
出s2Is,)̲ I
n
(
んIkι)
β,‑
β,
その時の濃度 CI
I
/
仰
は
,
(
4
)
kα k,
川 を 式 l に代入して得られ ,AUCは
[
1
1
凡‑凡
D0
.
¥
e
Dose
AUC=β
1一一一ーム‑‑‑‑‑‑‑
β2 β
3 Vοl川 l
e
.k
" Clearance
』
・
'
I
a
gから f
固まで積分して,
(
5
)
A斗
・
にU
1よ
,
となる.消失相の薬物の濃度が半分になる時間 t
l
l
2は
f
二出2)
(
6
)
2β3
1
/
となる.表 2に計算結果を示すが
tm
a
.
も4
.
5時間前後と安定してい
る. C
削 お よ び AUC は投
I
I
与量に比例して増加している.
このことから,投与景問で異
なる β
2 (
ka) をランダム効
果とするよりも,投与量が合
まれている βl をランダム効
表 2 投与群ごとのパラメータの推定
P
a
r
a
m
e
t
e
r
β
l・
I
h
:ka
A
F
4.
k
e
t
l
llP
tmax
CI1Ul.t
AUC
(
1
/
ウ
E
s
t
i
m
a
t
e
[
4
.
3
2
8
0
0
.
2
4
8
8
0
.
[
5
6
2
0
.
6
9
4
4
5
.
7
2
2.
43
3
4
.
1
4
4.
44
DI
ApproxSE
1
1
8
.
2
5
9
0
0
.
5
0
1
2
0
.
2
9
7
8
0.
43
69
D2
E
s
t
i
m
a
t
e
ApproxSE
[
4
.
2
7
7
7
[
4
.
6
2
3
9
0
.
1
7
9
4
0
.
3
5
5
6
0
.
[
4
0
8
0
.
0
6
5
5
0
.
[
4
2
0
0
.
8
7
1
9
5
.
1
9
5
.
6
5
6
2
.
7
4
4
.
9
2
果に含める方が望ましい.
4
.非線型・共分散モデルの適用
表 3 2症例の解析用データ
ニ5 の 2 症例を抜き出し
Dl 群の ID=1 と ID
症例
番号
I
n
d
i
c
a
t
o
r 変数
。
たのが表 3である.この 2症例にパラメータ
β
".β3.および β」を共通とし,パラメータ
β
lのみが異なるコンパートメントモデルを当
5
てはめてみる.これは,症例ごとに共通な傾
。
。
。
。
。
。
時間
ピI~
1
4
1
2
2
8
24
d翁 E
二
ti
耐 え
t
r
0
.
6
2
9
2
.
0
3
8
1
.
2
8
0
1
.
20
7
1
.
377
0
.
[1
2
きを持つ平行な直視を当てはめるような共分
散分析に相当する.なお,これらの JMP の
Nonlinear に よ る 解 析 手 順 に つ い て は , 高 橋
(2000) の「スパースな TK データの統計解
析」が参照になる.
l
h棋
低用量群についての 2症例の薬物濃度 [
表4 J
M
Pによる非線形共分散モデル
P
a
r
a
m
e
t
e
r
β1
.
1
β
1,
5
I
h
:ka
ん:ke
血三ι~
E
s
t
i
m
a
t
e
7.
45
65
5
.
8
4
4
1
0
.
3
2
1
3
0
.
1
4
5
3
42
46
0.
ApproxSE
[1
.
7
7
7
5
9
.
1
9
1
4
0
.
2
2
3
6
0
.
0
8
8
7
0
.
2
2
7
1
を同時に推定するために indicator変数 αlおよ
sを次式のように非線型モデルに含める.
びa
tリ
(
β1.1al
/
5){(一叫 (
‑
s
2
(
t
i
j‑s4)+叫(‑s3(
+β1.5(
Yリ =
β4)
}
+
円
(
7
)
表 4の結果から,次に示すように 2症例分の薬物濃度を同時に推定寸る非級型モデル式が得られ
る.
九=(7.4565α1+5.8441aJ'(
一巳ー
3
1
1
)
.
(
[
1
‑
0
.
4
2
4
6
)
‑
,
‑
.
! ‑
‑
0
.
4
2
7
6
)
0
.
1
4
5弓 (I'
ー(
J
+e
5
.全症例を用いた非線型共分散モデル
n
d
i
c
a
t
o
r変数を 16症例分用意し,式 8で
16症例全部を用いてパラメータを推定してみる. I
‑
1
4
6
生データの線グラフ
薬物動態モデルの当てはめ
也一
8
1
2
x
¥一
︑×一
2
0
AV
1
6
一
1
2
一 一 心 Xr
8
﹀引
l
!oili‑‑
×
アM
。
o
E)
x 。
、
14444J1J141Jilt‑t
一叩(﹂仁
。
t
6
2
0
24
t
i
m
e(
h
r
)
time(
h
r
)
匡I3 薬物濃度推定山線,
0 ・IDニ l、 X :11)=5
示す非線型共分散モデルを当てはめる.
Y
i
j= (β1.1 aI+βI.2{/2+…+ βI
.i(
/
i+
… + β1
.16α16)
(
8
)
{
(
‑
e
x
p
(
‑
s
2
(
I,
j‑
s4)+eXp(‑s3(lij‑s4)}+円
NLIN プロシジャおよび JMP/Nonlinear で得られた推定値 β
1
.
I
' CIlUL¥", お よ び AUCの計算結果を
m
a
xお よ び AUC と投与量の月 J
1i反応関係を図 4 に示す. 回帰直糠の 95%信頼区
表 5 に示す. C
問の範囲に原点が含まれ, 用量比例的とみなせる.
‑
m
f
uuu ι
メ川一沼 m
m辺り引汁川円乃一
川町一
引
一
勺 CMLι⁝
一
K
一一
一
P
一一
7
一の一16293794一則
一
‑‑Go
QO123456
一
o
i一
1i1l1I1I1I1it‑‑nu
J
﹂ハ u
li‑‑ドI}111}}}}}If}!Ill111IIIll111
r
一一弓
一怖陥 M W 尚 臼 引 万 一A
弓' 2 5 0 1 2 5 4
一
2 1 2 7 2 フ‑ 1 3一
一
JH
メf
一
果一群町一 M M M U M U M M
石
J一
43442‑233一=
油和一万
算一 l A
の一
A一
C‑
U一
シ
﹂
一
一
︐
c
一一
一一
凶o
5 一タ一一日
表一﹂ L 6 8 6 4 9 5 2 5一0
.
一J κ 一14946726一一一
LZ
一
ム
J
ι
一ユユトーしト
︐
句
一K
PA‑‑
i一日mu 咽O M H ヲ ゆ 6
の
ー
D
群 A E I 仁川tIUH1 引一
‑1712345678
AUC
7
3.
40
5
6
.
6
9
7
2
.
5
5
7
5
.
7
6
4
9
.
2
6
4
6
.
5
7
5
6
.
7
3
5
2
.
0
1
6
. 非線型混合モデルの活用
ランダム係数モデル
NLIN プロシジャには c
l
a
s
s ステートメントがないために, I
n
d
i
c
a
t
o
r変数を別途準備しなければ
ならないこと, その結果として model ステートメントの I
n
d
i
c
a
t
o
r変数の部分を症例数の増減によ
って変更する必要があり, プログラムを一骨文化することカ fできない.
MIXED プロシジャにより↑間休ごとに[J
l
i
帰直線を当てはめ, その同帰係数を主要変数とするよ
うなランダム係数モデルについては, 日情 (2000b) で述べられている. この考え方を非組型に
f
;ランダム係
拡張したのが, NLMIXED プロシジャによる非組型ランダム係数モデルである.線 ]
数モデルの場合には 2 つのパラメータに対して,
がランダム,傾きが一定,
(
3
) 切j
,
十
(
1
) 切j
;
Aが一定,傾きがランダム,
(
2
) 切片
1
頃き共にランダム, の 3 j
函りが考えられ,対象とする現
‑147
象により使い分ける必要がある.
~I: 線型の場合も,ランダム効
果とするパラメータの選択純
問が広がるので,予備解析の
結果を踏まえた段階的な進め
方が必要である.
各種の共変量の探索.例え
ば,投与量,体重,性,年齢,
/
i
j
l
j
f
O
D
/
i
J
J
J
J
/
〆
五""̲1.....‑
γ レて .~m/'
/
。
I
0
0
'
.{m&
lk
g
l
2
0
0
.
.{m&
lk
g
l
図 4 スパースなデータより推定した C側主と AUCの用量反応
民族などが, PKパラタメー
に与える影響を探索的に行うために,これらの解析を非総 )I~ ランダム係数モデルに含めることは,
そのパラメータの初期値の指定が必要となり,その設定いかんにより解が求めづらくなるリスク
が明大する.そのために,非線形ランダム係数モデルで求められた PK パラメータを目的変数と
して,共変量を説明変数とした REG プロシジャのような豊富な変数選択のオプションがある紘
形モデルを適用することが現実的な解決法である.
NLMIXEDプロシジャによる解析
非線型混合モデルのための NLM1XEDプロシジャは ,.
r
tい応用分野がある. NLM1XEDのマニ
ュ ア ル (1
9
9
9
) によれば,古くは, S
h
e
i
n
e
r らの開発した NONMEM, SAS のマクロライブラリ
GLIMM1X,および NLM1XED で用いられていた計算アルゴリズムによる推定値には,バイアス
が入ることの批判があり, NLM1XED プロシジャでは,適応ガウス求積法を採用した.この方法
は
, Vonesh ら (1997) の SAS マクロフログラム M1XNLIN でも適用されている.最適化のアル
ゴリズムは, SAS/OR の NLP プ ロ シ ジ ャ , ス テ ー ト メ ン ト の 記 述 は , 時 系 列 デ ー タ 解 析 の
SAS/ETSの MODELプロシジャにも準拠している.
NLM1XEDプロシジャの基本は,式 l
で示した非椋形モデルである.非親形共分散モデルは,
式 8 に示したように β
1 を1
n
d
i
c
a
t
o
r変数 a
j に変えて拡張したものである.非謀形ランダム係数
モデルは,固定効果。 l'α2' . . . ,01
6 の変わりに,この部分をランダム効果として定義し直す
ことにより得られる.
NLMIXED でのランダム効果は, random ステートメントで正規分布の平均値と分散の初期値
を与えなければならない.ランダム効果の平均値として β
l を加えることにより,平均値は 0 と
なり,分散の初期値を与えればよい.ランダ、ム効果の分散は,
表 2 の結果から初期値を 14 とし,
CV 換算で 20%から 100%ぐらいの範囲を指定しグリッドサーチを指定しておく. model ステー
トメントでは,正規分布のほかに二項分布,ポアソン分布などが指定できるが,ここでは.正規
分布が妥当である.
modelステートメントでは, j
f
f
:定誤差の分散を初期イf
!
lとして折定する必要がある.この分散は,
i
l
;
;
:大で、もデータをプールした場合の NLIN プロシジャから伴られた誤差分散 0
.
8 であるので,そ
‑148‑
の 1 / 10あたりからグリッドサーチを指定しておく.他の初期イ│立は,表 2の NLINプロシジャの結 果から β2= 0.3, β1 = 0.15, β.j = 0.75 とすると良いだろう(自信がなければ,グリッドサーチ を何回か繰り返して初期値を設定すれば良い) . s. j )+exp(‑s1C tυ‑s . j ) }十円, Yυ=(β1+b ; ){(一叫(丸 ( tυ ここで i= 1,2,• .• ,16 ( 9 ) S~jlhjn ) e ; j ‑ normal(O , これらのことを踏まえた NLMIXEDによる非組形ランダム係数モデルのプログラムは,次のよ うになる. random ステートメントに out オプションを付けることにより経験ベイズ推定量による ランダム効果の推定値が得られる. proc nlmixed data=dd.t k, 1 * ランダム係数,統計スタイル * 1 parms beta1=14 beta2=0.30 beta3=0.15 beta4=0.75 v1=10 to 190 by 20 v2=0.1 t o 0.8 by 0 . 1 1best=10 , pred = ( b e t a 1 +B ) * (‑exp(‑(beta2*(time‑beta4))) + exp(ー (beta3*(ti肥 ‑beta4))) model Y‑normal(pred,v2) , random B ‑ normal( 0 v 1 ) subject=ID out=dd.random , predict pred out=dd.pred , run ; NLMIXEDプロシジャの出力 NLMIXED プロシジャの出力の主要部分を示す.以下の出力は,デフォルトの仕様で,従属変 数およびランダム変数が正規分布に従い,テーュアル疑似ニユウトン法による最適化が行なわれ, )' J ドサーチの結果であり,負の対数 適応力ウス求積法による積分が行なわれている.次は,グ 1 尤度の小さい } I 買に並べられている.ランダム効果の分散としては 30が,誤差分散として 0.2が選 択されている.次は,反復計算の過程であり, GCONV収束基準 (arelative gradient) により解が 求まったとの脚注が出力されている. o u r c 一 υ 1 ・ 一 円 ﹂ 一 u A U一 S e n一 一 co Ol 一 r i p a 一 ‑ー 仁﹂千土 VAl‑ 仏 Tl c M e ‑ ‑LP 一 NS eU DD.TK Y Normal Data Set Dependent Variable Distribution f o r Dependent Variable Random Effects Distribution f o r Random Effects Subject Variable Optimization Technique Integration Method B Normal I D D u a l Ouasi‑Newton Adaptive Gaussian Ouadrature beta1 1 4 1 4 beta2 0.3 0.3 beta3 0.15 0.15 Parameters beta4 0.75 0.75 v 1 30 50 v2 0.2 0.2 1 1 e g L 0 9 9Like 53.4790702 53.7389493 1 4 0.3 0.15 0.75 90 0.3 56.1252744 Iteration History NegLogLike D if f 0.056202 53.4228682 53.3290721 0.093796 MaxGrad 23.39209 19.50808 一288.083 2 Ca1 1s 5 8 3 1 60 2 .27E‑7 0.005039 ‑ 3 .42E‑7 I t e r 52.8855338 NOTE: GCONV convergence criterion satisfied. Sl o p Be 179.251 A υ A斗 川 ハ 1ょ
さらに,パラメータの推定他と SE が次のように出力される. β~β4 は初期値と同様な結果が 何られている.また,ランダム効栄の分散 v lは , 77.8265 と初期値で与えた 30 に比べ増加して いるが,表 5で示した各症例のβJ.iの平均値が 2 6 . 1,分散は 1 4 3 . 7であることから,グリッドサー , チで選択された分散が他のパラメータとの関係で、小さくなったと解される.誤差分散 v2 は 0.2273 と初期値と同程度であった. Parameter Estimate b e t a 1 21.1622 beta2 0.2734 beta3 0.1713 beta4 0.7948 v 1 77.8265 v2 0.2273 StdErr 45.9808 0.1409 0.08820 0.07359 339.93 0.05679 Parameter Estimates OF tValue Pr> I t l 1 5 0.46 0.6519 1 5 1 . 9 4 0.0714 1 5 1 . 9 4 O .0 7 1 1 < .0 0 0 1 1 5 10.80 1 5 0.23 0.8220 1 5 4.00 0.0012 Alpha Lower 0.05 ‑76.8436 0.05 ‑0.02697 0.05 ‑0.01668 0.05 0.6380 0.05 ‑646.72 0.05 0.1062 U p p e r 119.17 0.5738 0.3593 0.9516 802.37 0.3483 Gradient 0.00005 0.000614 0.005039 ‑0.00056 5 .694E‑6 ‑0.00033 次は,ランダム効果 b のファイル出力の結果であり,それぞれの症例に対して, β lの推定値 21 .1622からの増減が Estimate欄に出力されている. 0 E s t i旦旦皇 Obs Effect 1 StdErr OF tValue P r o b t Alpha Lower U p p e r 1 B 1 ‑7.6417 1 6 . 4 2 9 1 1 5 ‑0.46513 0.64852 0.05 ‑42.6594 2 7 . 3 7 6 1 2 ‑5.8924 12.8129 1 5 ‑0.45988 0.65220 0.05 ‑33.2023 21.4176 2 B 1 6 B 1 8 2.6189 6.3330 1 5 0.41354 0.68507 0.05 ‑10.8795 16.1173 この Estimateは,式 9の biに相当するので, これを用いることにより各症例の PKパラメ / 。 。 竺 。 ータが計算できる. 勺~.. •. : ....~..~.. ;..~~ 予測値九は,ファイルに出力されているの l 2‑ 1 、 曲 ~・ 1J14? で,測定値 Y i jとの散布図を作成し,予測精度 。非主午ー「一 を検討してみる.図 5 に結果を示すが,測定 結果 yの全体を通じてバランスの良い推定結 果であることカ fわかる. 図 5 非線形ランダム係数モデルの予測精度 PKパラメータの算出 PKパラメータは,式 4,5,6によって求められる. NMLIXEDで計算した結果を外部ファイ ルに出力することもできるが,ここでは,結果の見通しをよくするために, β1~ s .の推定値を ASプログラムを次に示す. 再入力し,ファイルに出力されたランダム効果を用いる S data dd.PK NLMixed̲1. /本統計スタイル電 PKパラメ タの推定本/ s e t d d .random • beta1= 21.1622. beta2 = 0.2734. beta3= 0.1713. beta4 = 0.7948 • t m a x = log(beta2/beta3) / (beta2‑b e t a 3 )• Cmax = (Beta1+estimate) * (‑exp(‑beta2*(tmax‑beta4)) + exp(一beta3本 ( t m a x ‑ b e t a 4 ) )) ; AUC = ( b e t a 1 + Estimate) * (beta2 ‑b e t a 3 )/( b e t a 2 *b e t a 3 )• r u n• 次に,計算された PKパラメータを示す.図 6の散布図からも表 5の非線形共分散モデルと同掠 EU 1ょ ハU
の結*7'Jf j 与られていることが確認できる. b e t a 1 b e t a 2 b e t a 3 b e t a 4 b T m a x C m a x A U C 2 1 . 1 6 2 2 0 . 2 7 3 4 0 . 1 7 1 3 0 . 7 9 4 8 ‑ 7 . 6 4 1 7 4 . 5 7 9 0 4 2 . 2 6 6 0 5 2 9 . 4 7 5 6 2 22 1 . 1 6 2 2 0 . 2 7 3 4 0 . 1 7 1 3 0 . 7 9 4 8 ‑ 5 . 8 9 2 4 4 . 5 7 9 0 4 2 . 5 5 9 2 4 3 3 . 2 8 9 3 O b s 1 6 1 6 2 1 . 1 6 2 2 0 . 2 7 3 4 0 . 1 7 1 3 0 . 7 9 4 8 2 . 6 1 8 9 4 . 5 7 9 0 4 3 . 9 8 5 7 3 5 1 . 8 4 4 4 クリアランスをランダム効果とした場合 1も対数正規分 クリアランスの対数をランダム効果とした場合の解析事例を示す .β2および β 布に従うとし,分散の安定化をはかることにする.ランダム効果の分散の初期値は,対数変換を しているので, CV/I00で与えればよいことになる.経験的に CV を 30%と見詰もると,分散は 0 . 32 =0 . 0 9となるので,これを初期値にする.誤差分散は,生データでの予測であるので,これ . 2 2をそのまま使えばよい.プログラムと結果を次に示すが,図 6の までに求められている分散 0 散布図から,この方法でも個々の症例の PKパラメータが適切に得られたことが示されている. p r o cn l m i x e d d a t a = d d .t k , /*ランダム係数,薬物動態スタイル * / . 9 b e t a 4 = 0 . 8 v 1 = 0 . 0 9 v 2 = 0 . 2 2, p a r m s b e t a 1 = 3 . 4 b e t a 2 = ‑ 1 . 1 b e t a 3 =ー 1 c l = e x p ( b e t a 1 + b ) ; k a = e x p ( b e t a 2 ) ; k e = e x p ( b e t a 3 ) ; e * k a ) / ( c l * ( k a ‑ k e ) ) * ( ‑ e x p ( ‑ k日 ( t i m e ‑ b e t a 4 ) ) +e x p ( ‑ k e * ( t i m e ‑ b e t a 4 ) )) ; p r e d= ( d o s eげ k p r e d,v 2 ) ; m o d e l y ‑n o r m aI( 1 ) s u b j e c t = i d o u t = d d .r a n d o m, r a n d o m b ‑n o r m a l( 0v r u n, 雫 l p h a P a r a m e t e rE s t i m a t e E r r o r D F tV a l u e Pr> I t l A L o w e r U p p e r G r a d i e n t . 1 0 9 3 1 5 3 2 . 1 6 < . 0 0 0 1 0 b e t a 1 3 . 5 1 4 8 0 . 0 5 3 . 2 8 1 8 3 . 7 4 7 7 0 . 0 0 0 0 5 1 . 4 4 8 1 1 5 2 . 8 2 0 . 0 1 2 8 0 . 0 5 2 . 2 2 0 9 ‑ 0 . 3 1 0 7 0 . 0 0 0 0 4 7 b e t a 2 ‑ 1 . 2 6 5 8 0 . 4 4 7 1 1 5 4 . 0 1 0 . 0 0 1 1 0 . 0 5 ‑ 一 1 .7 9 1 6 0 2 . 7 4 4 6 ‑ 0 . 8 3 8 6 0 . 0 0 0 0 4 2 b e t a 3 0 . 7 9 8 2 0 . 0 7 2 2 7 1 5 1 1 . 0 4 く. 0 0 0 1 0 . 0 5 0 . 6 4 4 2 0 b e t a 4 . 9 5 2 3 ‑ 0 . 0 0 0 0 2 0 . 0 8 3 1 7 0 . 0 3 5 8 5 1 5 2 . 3 2 0 . 0 3 4 8 0 . 0 5 0 . 0 0 6 7 6 0 O .1 5 9 6 0 . 0 0 0 0 1 5 v 1 . 1 0 0 0 . 2 2 1 0 0 . 0 5 3 8 7 1 5 4 . 0 0 0 9 0 . 0 5 0 . 1 0 6 1 0 . 3 3 5 8 ‑ 0 . 0 0 0 0 8 v 2 Kパラメ タの推定*/ d a t a d d . P KN L M i x e d2 , /*薬物動態スタイル宅 P s e t d d .r a n d o m, i = ̲ n一 , d o s e = 1 0 0 0, i f i> =9t h e nd o s e = 2 0 0 0 1 .2 6 5, b e t a 3=‑ 1 .7 9 1,b e t a 4 =0 . 7 9 8, b e t a 1 =3 . 5 1 4 ; b e t a 2=‑ b = e s t i m a t e, c l = e x p ( b e t a 1 + b ) ; k a = e x p ( b e t a 2 ) ; k e = e x p ( b e t a 3 ) ; t m a x =l o g ( k a / k e ) / ( k a ‑ k e ), C m a x =( d o s e * k a * k e ) / ( c l * ( k a ‑ k e ) ) * ( ‑ e x p ( ‑ k a * ( t m a x ‑ b e t a 4 ) ) + e x p ( ‑ k e * ( t m a x ‑ b e t a 4 ) )) A U C =d o s e / c l d r o p E f f e c t‑ ‑u p p e rb e t a 1 ‑ b e t a 4, r u n; d o s e b c l k a k e T m a x C m a x A U C . 0 3 8 2 1 3 1 0 0 0 0 4 . 8 9 0 2 0 . 2 8 2 2 4 0 . 1 6 6 7 9 4 . 5 5 6 2 4 2 . 1 9 8 0 0 2 8 . 6 6 1 4 2 2 1 0 0 0 ‑ 0 . 0 6 1 2 7 3 1 . 5 8 6 6 0 . 2 8 2 2 4 0 . 1 6 6 7 9 4 . 5 5 6 2 4 2 . 4 2 7 8 8 3 1 . 6 5 8 9 O b s 1 6 1 6 2 0 0 0 0 . 1 0 9 6 0 3 7 . 4 7 2 3 0 . 2 8 2 2 4 0 . 1 6 6 7 9 4 . 5 5 6 2 4 4 . 0 9 3 0 8 5 3 . 3 7 2 8 7 .考 察 NLMIXED プロシジャのおもな応用分野は,スパースな薬物濃度データの解析であろう.こ れは,薬剤の治療対象となる患者での薬物濃度を計測し,薬物濃度におよぼす要因の探索を行う 場合に,多くの患者ーからの採血は必然的にスパースにならざるを得ない.ただし,スパースな生 データのままでは要因の探索がままにならないとの自家撞着が起きる. 1患者に数時点分の測定 FhU 1i 1i
でも. それらから要約統計量として PK パラメータを算出できれば,この自家撞若から逃れられ
るとは知りつつも SASの正式なプロシジャがないとの理由で特別な努力を避けてきた.
臨床試験の試験統計家が実施する統計解析は,規制当局の統計家の追試に耐えらなければなら
ない.実務で用いるためには,統計学の知識に裏付けられ,統計ソフトを適切に利
mできる技術
能力が不可欠である. スパースな薬物濃度データから PK パラメータを適切に算出するための切
り口として,非線形共分散モデルを導入し, それと対応する非組形ランダム係数モデルを適用す
ることによる自己検証手段を提示した. 図 6で 3種類の方法で求めた PKパラメータにバイアス
カf入っていないことカ f確かめられる.
NLlNVS.N
L
M
i
x
e
dI
C
NLlNVS.N
L
M
i
x
e
d2
AUC: N
L
I
NVS.N
L
M
i
x
e
dI
NLlNv丸 N
L
M
i
x
e
d2
7‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑
'
i
90
90
民
6‑
80l
7
0
80寸
70"
!
‑
‑ 〆
'
r
:
i,
目、‑
l
0
0
.
.
0
4
~,]~
士5で
:, 日
霊喝寸
岩
"
'
x
X
1x
〆
〆
戸
n
:‑1
o
必
J
"
'
l
寓 !
i
Z,
40‑:
0
コ3
0
"
'
:
<
内
。
J
:
i60‑
重 50‑
""
‑
d
2
‑ o
P
σ ; 占
.‑
1
z40.
.
<
X
"l
一ーー一一一
一 一一
一
」
J 4 5 ;
[
o
ι
一一一一一一
一一一ーーー」
o
3 4 5 6 1
。
」
ー
一一一一一一
0102030405060708090
CmlllNL
lN
Cm
温
・ NlIN
AUCNl
IN
o
〆
ii
!O
̲
'
gJoJ
'
"
0‑
1
0
‑
:
0‑
x
4
o
'
ρ
o
。
→
" 。
t
x
.
;
i
:60.
。
→
J
が
ー
一
一
一
一
一
← →
1
0 20 30 40 50 60 70 80 90
AUCNllN
閲 6 3種の方法により推定された PKパラメータの関連
薬物濃度に及ぼす要因の探索の問題は,
「非純形のランダム係数に与える共変誌の変数選択」
というような複雑なテーマであり, 2段階に分けたアプローチが望ましいと考える.すなわち,
)
j
t形のランダム係数によって PK パラメータを推定し, これを従属変数とする組 Jf~ モデルでの
非す:
変数選択モデルを適用する方法である.その例示として,投与量をマスクした式 9により PKパ
ラメータを推定し あらためて投与量と PK パラメータとの用量反応関係を佃々の症例の散布図
上で示した. こ の 考 え 方 を 拡 張 し 年 齢 , 肝 機 能 程 度 . クレアチニン・クリアランスなどとの関
連も同様に調べられる. 「非線形のランダム係数に与える共変量の変数選択」を行うにしても,
2段階法での解析結果を示しておくことが結果の透明性という観点から重要と考える.
なお.非紘形ランダム係数モデルは,薬物濃度データのみならず,様々な分子生物学で実験か
ら得られる多くの非椋形な実験データの解析にも応用できる. これらに付いては,紙面の制約も
あるので,日Ijの機会に発表したい.
文献
G
a
b
r
i
e
l
s
s
o
n,J
.a
n
d Weiner,D
.(
1
9
9
7
),PJwT/lw
c
o
k
i
l
l
e
r
i
c ωld P
h
a
r
l
l
l
(
/
c
o
d
mσ川 i
c Data A
l
l
a
l
y
s
i
s
.C
O
l
l
c
e
p
r
sa
l
l
d
A
p
p
l
i
c
a
r
i
o
l
l
s
.2
"
d
.E
d
.A
p
o
t
e
k
a
s
o
c
i
e
f
t
e
t
e
n
.
ICH (
1
9
9
6
) , トキシコキネティクス(毒性試験における全身的暴露の評価)に関するガイダンス,
h
甘
t
川
I
I
ψ
p
χ
フ
.
ゴ
//www.n
川i
泊
h
s
.
g
o
.
j
p
/
d
ω
i
ほ
i
凶
g
/
パ
/i
c
h
/
危
s
a
白f
e
創t
げ
y
/
s
3a
1
s
3
主
勾
a
.
h
t
J
削
T
NLMIXEDのマニユアル (
μ
1
9
9
引
9
),
SAS/βSTATUs
犯e
r
'sGuide,
V
e
r
s
i
o
n8
.(
2
4
1
9
‑
2
5
0
4
)
P
o
p
l
l
l
a
t
i
o
nP
h
a
r
m
a
c
o
k
i
n
e
t
i
c
sのガイダンス (
1
9
9
9
) ,Xl
百
i
' Usingp
o
p
u
l
a
t
i
o
nPKs
t
u
d
i
e
sanda
n
a
l
y
s
i
si
ndrug
developmentandsubmission,h
l
l
p
:
/
/
w
w
w.
f
d
a
.
g
o
v
/
c
d
e
r
/g
l
l
i
l
b
n
c
e
/
8
5
2
f
n.
lp
d
f
V
o
n
e
s
h,E
.F
.a
n
dC
h
i
n
c
h
i
l
l
i,V.M.(
1
9
9
7
),
L川 e
c
白
a
げr
r
ω
α
仰n
dN仰o
η
F
n
l
i
日川
n
l
e
叩α
C7
rMod
白e
l
sρ
戸J
rI
仇
heA
I
叩
α
ω
I
叫0
わ古s
i
sイ
ザ
グR
匂
匂
匂
E
ρ
叩
/
J
e
正山 dMe
印ω
α
t
1
.
1
'
川
NewY
o
r
k
:M
a
r
c
e
lD
e
k
k
e
r
.
1り
り5
) トキシコキネティックおける例数設計と統計解析,医薬安全性研究会報, 4
1,(31‑43)
;
I
'
H
si
T
b
J
i
l(
2
0
0
0
a
) ,スパースな TKデータの統計解析, h
l
l
p
:
/
/
w
w
w
.
y
u
k
r
l
l
5.
c
o
m
/
b
i
o
s
t
at
/
t:j if.~ 行雄 (
2
0
0
0
b
) 、投与前 1
i
uを共変誌とした線形混合モデル,第 1
9回 SASユーザ会論文集.
高{f~行雄 (
、
e
‑152‑
日本 SASユーザー会 (SUG I-~) 分散分析からカイ自乗への接近 新城明久 琉球大学 農学部 From ANOVA t o X2 A k i h i s aS h i n j o Faculty o fA g r i c u l t u r e U n i v e r s i t yo f the Ryukyus 要旨 沖縄肉用山羊の毛色は白色と有色の 2つのカテゴリーに分けられる。このデータについて 島問、性問、島と性との交互作用の分析は、 X '検定では不可能である。そのため白色を 1、 有色を Oとコード付することにより分散分析が可能になり、 F値が求められる。さらに島平方和 ( S S I )、性平方和 ( S S s )、島 x,性平方和 ( S S IXs )を全体平均平方 (MST)で除すとそれぞれの X '値 が求められる。 '値 キーワード: 山羊の毛色、カテゴリーデー夕、分散分析、 X 1.はじめに 賛 成 と 反 対 、 生 と 死 、 白 と 黒 な ど よ う な 2つ の カ テ ゴ リ ー に 分 け ら れ る デ ー タ に つ いて交互作用を含む多因子以上の分析を行う場合、従来の方法による X '検 定 で は 不 可 能である。そのためデータを 0 と 1 と 入 力 す る こ と に よ り 一 般 的 な 分 散 分 析 が 可 能 に なる。 有色で、小型の肉用在来山羊を大型化するため白色のザーネン種を長野県から移入し 交配し、作出されたのが沖縄肉用山羊である。毛色が島問と性問で異なるため、交互 作用を含む 2因子分散分析と X 2検定を行った。 毛 色 の 白 色 は 1、 有 色 は 0 と コ ー ド 付 け す る こ と に よ り 一 般 的 な 分 散 分 析 が 可 能 に な り 、 さ ら に 、 各 因 子 の 平 方 和 (SS)を 全 体 平 均 平 方 (MST)で 割 る こ と に よ り X2値が 求まり、各因子の影響の度合を明らかにすることができたので報告する。 2. データ分析法 沖縄肉用山羊の峰雄について石垣島,宮古島および沖縄島おける毛色を示したのが ﹁ ﹁U 内 ぺυ 1 ょ
表 1で あ る 。 こ の デ ー タ 基 づ き 島 、 性 、 毛 色 の 項 目 を コ ー ド 化 し デ ー タ フ ァ イ ル を 作 成 す る 。 こ の よ う な 2変 数 の カ テ ゴ リ カ ル デ ー タ に っ て 交 互 作 用 を 含 む 2因 子 分 散 分 析 に つ い て GLMプロシジャを用いて行う。 比 率 デ ー タ に つ い て は 割 合 を 用 い て 分 散 分 析 す る 法 や 逆 正 弦 変 換 法 (CATMODプロ シジャ)などがある。例数が似通っていれば問題はないが、例数が不揃いの場合は、 例 数 を 重 み 付 け す る 必 要 が あ る 。 そ の 場 合 は デ ー タ を o (有色)と 1 (白色)にコー ド付し、分散分析を行う方がょいと考えられる。その方法について述べる c 表 1 沖縄肉用山羊の白色と有色の各島における頭数と割合 垣 石 呂 ヰ ー . 島 r 古 島 沖 縄 i ロ L 島 毛色 雌 雄 言 十 雌 雄 言 十 雌 雄 計 白色 60 7 9 1 3 9 6 5 3 2 97 5 3 77 割合 6 1 2 . 42 9 . . 5 1 7 . 47 1 有色 8 0 1 3 0 7 3 3 9 5 6 9 . 3 3 6 . 7 2 4 . 6 1 8 . 1 1 6 254 5 0 割合 . 5 7 1 . 3 8 8 . 48 3 . 5 2 9 合計 1 4 0 269 1 3 8 表2 1 2 9 言 十 雌 雄 総計 1 3 0 1 7 8 1 8 8 3 6 6 . 2 7 6 . 3 8 2 . 43 1 . 6 6 4 . 5 4 4 . 444 48 0 . 5 2 1 . 1 0 9 2 2 3 1 7 3 . 45 6 . 5 5 6 . 47 9 . 5 2 0 1 1 6 239 4 0 1 3 6 1 7 6 2 8 4 1 5 7 7 0 1 2 3 3 9 6 分散分析表 F ) 平 均 平 方 (MS) 分 散 比 ( 因 自由度 (df ) 平方和 ( S S ) T ) 全体 ( 7 6 1 1 9 0 . 2 0 4 7 0 . 2 4 9 9 1 . 1230 1 .1 2 3 0 4 . 7 6* 4. 49 * 要 性 (S ) X 2値 島(I) 2 3 . 7 8 4 6 1 . 8 9 2 3 8 . 0 1* * 1 5 . 1 4 *ホ 性( S )x島(I) 2 6 . 7 8 4 2 3 . 3 9 2 1 1 4 . 3 7 *本 2 7 . 1 5 * * 7 5 6 1 7 8 . 5 1 2 9 0 . 2 3 6 1 誤差 ( E ) P < O . O I . * P < 0 . 0 5、 本 * 3. 平 方 和 (S S )の 計 算 法 3662 全体 =366 一 一 =3 66・ 1 7 5 . 7 9 5 3= 1 9 0 . 2 0 4 7 補正項 ( C ) =1 7 5 . 7 9 5 3 7 6 2 1 7 82 1 8 82 '性=一一一+一一一 4 0 1 C= 1 7 6 . 9 1 8 3‑1 7 5 . 7 9 5 3=1 .1 2 3 0 3 6 1 1 3 92 972 1 3 02 7 9 . 5 7 9 9‑1 7 5 . 7 9 5 3=3 . 7 8 4 6 島 = 一 一 + 一 一 + 一 一 ー C= 1 269 254 239 602 7 92 6 52 3 22 5 32 772 性 × 島 = 一 一 + 一 一 + 一 一 + 一 一 + 一 一 + 一 一 ー 性 ー 島 +C 1 4 0 1 2 9 1 3 8 1 1 6 1 2 3 1 1 6 48 7 1‑1 7 6 . 9 1 8 3‑1 7 9 . 5 7 9 9+ 1 7 5 . 7 9 5 3=6 . 7 8 4 2 =1 8 7. 誤 差 =1 9 0 . 2 0 4 7‑1 .1 2 3 0‑3 . 7 8 4 6‑6 . 7 8 4 2= 1 7 8 . 5 1 2 9 ‑154‑
1) x値 は 、 各 因 子 の 平 方 和 (SS)を全体平均平方 (MST)で除す 2 S S s 1 .1230 性 = 一 一 = 一一一=4. 4938 MST 0 . 2 4 9 9 SS, 3 . 7 8 4 6 島 = 一 二 一 一 =1 5 . 1 4 4 5 MST 0 . 2 4 9 9 S S sx, 6 . 7 8 4 2 性 x 島 = 一 一 一 一 = 一 一 一 =2 7 . 1 4 7 7 MST 0 . 2 4 9 9 2) 峰 雄 を 混 み に し た 白 色 率 の 島 間 比 較 島の F値 が 有 意 で あ る た め 、 ボ ン フ ロ ー ニ 法 に よ り 島 聞 の 平 均 値 を 比 較 す る と 表 3 のようになる。 表3 白色率の島間比較 島 平均値│沖縄 宮古 0 . 3 8 2 I0.162** 0.135** 石垣 0 . 5 1 7 I0.027 沖縄 0 . 5 4 4 石垣 * キP < O . OI . 3) 交 五 作 用 が あ る た め 島 内 性 問 、 性 内 島 聞 の 比 較 交互作用の F 値 が 有 意 で あ る た め 白 色 率 に つ い て 島 内 性 聞 を 表 4 、 雌 内 島 聞 を 表 5 お よ び 雄 内 島 聞 を 表 6にそれぞれ比較し示す。 . 表4 島内性問比較 島 │ 雌 ‑ 雄 差 石垣 0. 429‑0 . 6 1 2 ー0 . 1 8 3 * * 宮古 0. 47 1‑0 . 2 7 6 0 . 1 9 5 * * 沖縄 0. 43 1‑0 . 6 6 4 ‑ 0 . 2 3 3 * * * * P < O . O I . 表6 表 5 雌内島問比較 雄内島問比較 島 平均値 宮古 沖縄 島 平均値│沖縄 石垣 0. 429 0 . 0 4 2 0 . 0 0 2 宮古 0 . 2 7 6 沖縄 0. 43 1 0 . 0 4 0 石垣 0 . 6 1 2 I0 . 0 5 2 宮古 0. 47 1 沖縄 0 . 6 6 4 石垣 0 . 3 8 8 *キ 0 . 3 3 6 * * * * P < O . OI . 4. まとめ 有 色 と 白 色 の 2つ の カ テ ゴ リ ー に 分 け ら れ る な ら デ ー タ を 0、 1と 入 力 す る こ と に より、一般的な分散分析が可能になる。そのため交互作用を含む多因子分散分析がで きる。さらに、各因子の平方和 ( S S )を 全 体 平 均 平 方 (MST)で 除 す こ と に よ り X 2値が 求められる。 ‑155‑
5. 参 考 文 献 1) 新 城 明 久 (1995): PCSASに よ る 基 礎 統 計 学 入 門 、 東 海 大 学 出 版 会 、 東 京 . 2) 新 城 明 久 (1999) : 新 版 生物統計学入門、朝倉書底、東京. 6. SASプ ロ グ ラ ム 1) 表 1の デ ー タ の 作 成 法 : フ ァ イ ル 名 :YAGI .TXT SASプ ロ グ ラ ム の コ マ ン ド 領 域 で NUMberコマンドを入力し、 Enterを押すと 5桁 の 行 番 号 が 表 示 さ れ る 。 行 番 号 上 で R 59 と入力し、 Enterを押すと 59行反復される。 す で に 1行 は 入 力 さ れ て い る の で 反 復 行 は Iト l行となる。 下記のデータを作る→ 行番号領域 データ 60個 R 59 1M 1 80個 R 79 1M 0 79個 R 7 8 1F 1 R 49 1F 0 65個 R 64 2 M 1 2 M 0 島性毛色個体数 M M F F 2 M 2 M 2 F 2 F 3 M 3 M 3 F 3 F 1 SASの PROG画面でデータファイルを作成する。 。 。 。 。 。 。 5 0個 一ー一歩 7 3個 R 7 2 3 2個 R 3 1 2 F 1 8 4個 R 8 3 2 F 0 R 5 2 3 M 1 R 69 3 M 0 5 3個 一 一 ‑ 70個 7 7個 R 76 3 F 1 39個 R 3 8 3 F 0 2) SASプログラム DATADATA1; INFILE' A : ¥YAGI .TXT ' ;/キデータが多いため別ファイルにする打 lNPUTI SSEX$ X; キ /I S:ISLAND打 RUN; PROCGLMDATA=DATA1; CLASSI SSEX; MODELX=ISSEXI Sキ SEX; l p h a = O . O I ; MEANSI SSEXIBONa ・ S1・1 0 ; 戸島問比較打 CONTRAST' I S1VSI S 2I CONTRAST' I S 1VSI S3 'I S1 0‑ 1 ; CONTRAST' I S 2VSI S 3 'I S0 1‑ 1 ; ;門性問比較打 CONTRAST'SEXFVSSEXM'SEX1・1 川島内性問比較 F一 M I I F1 1 M1 2 F1 2 M1 3 F1 刑事/ CONTRAST'SEXINI S 1・ SEX1‑ 1I S事 SEX 1 ‑ 1 0 0 0 0 ; hi 守 nhU F h υ
CONTRAST'SEXINI S 2'SEX 1・1IS*SEX 0 0 1‑ 1 0 0 ; CONTRAST'SEXINI S 3'SEX1‑ 1 IS*SEX 0 0 0 0 1‑ 1 ; RUN PROCGLMDATA=DATA1; CLASS SEXI S ; /牢因子の順序に注意事/ MODELX=I SSEXIS*SEX; /率性内島問比較 1 1 1 2 1 3 F I IF I 2 FI 3M I IMJ2MI3・/ CONTRAST' I S1VSI S 2INSEXF'I S1・1 0 SEX吋 S 1‑ 1 0 0 0 0 ; ; CONTRAST' I S l VSI S 3INSEXF'I S 1 0‑ 1 SEX*IS 1 0・1 0 0 0 CONTRAST' I S 2VSI S 3INSEXF'I S0 1‑ 1 SEX*IS 0 1・1 0 0 0 ; 1 0 ; CONTRAST' I S1VSI S 2INSEXM'I S1・ 1 0 SEX吋S 0 0 0 1‑ ; CONTRAST' I S1VSI S 3INSEXM'I S1 0‑ 1 SEX吋 S 0 0 0 1 0・1 CONTRAST' I S 2VSI S 3INSEXM'I S0 1‑ 1 SEX吋 S 0 0 0 0 1・l ' RUN: SAS/STATソフトウェア、リリース 6.120 稼働環境 Windousお よ び UNIX。 目 的 : 2つ の カ テ ゴ リ ー 形 質 を 分 散 分 析 法 で 解 析 し 、 F 値と X 2値 を 得 る こ と が 目 的 である c 仕棋と利用方法:カテゴリカルデータについて交互作用を含む複数の因子について分 散分析を行い、さらに、 X 2値を求めることも可能である。 効果:因子が複数あり、交互作用を分析したい場合に有効である。 今 後 の 発 展 計 画 :2変 数 の カ テ ゴ リ カ ル デ ー タ に つ い て 複 数 因 子 解 析 に 適 用 す る 。 ‑ 1 5 7一
日本 SASユーザー会 (SUG1‑0) SAS/IMLによる累積力イ二乗法 原島 j 享 株式会社 SASインスティチュー卜ジャパン カスタマーサービス部データサイエンスク、ループ Cumulativechi‑squaret e s tusingSAS/IML JunHarashima CustomerS e r v i c e sD i v i s i o n,SASI n s t i t u t eJapan DataS c i e n c eGroup, 要旨 累積カイ二乗法は、分類に順序がある 2元表において、分類の独立性を調べる方法である。本論文では、 IMLプロシジャを使ってこのプログラムのマクロを作成し、その使い方を説明する。 キーワード 2元表、 1 ) 慎序分類 1 分類に順序がある 2元表の独立性の検定 薬効検定など多くの場において、水準に自然な順序がある 2元表を扱うことがある。この 2元表の例と して、表 lに、広津 ( 1 9 9 2,p . 1 0 7 ) の 2つの薬剤の改善度のデータを示す。二つの薬斉J I1 ,2の優劣に差が あるかどうかを調べる問題は、次のような仮説検定の問題として考えることができる。帰無仮説は、二つの 薬斉J Iの改善度に差がない、である。対立仮説 l 土、薬剤によって改善度が異なる、とし、う意味で、どちらかの Ii( i= 1, 2 ) の被験者からランダムに選んだ標本の改善 薬剤の方が相対的に改善度が良い、である。薬斉J 度が j( j= 1ぃ ・ ぺ 4 ) である確率を防j で表せば、これらの仮説を次のように表すことができる。 帰無仮説:Plj二 P2j, jニ 1 ,. . .,4, 対立仮説 :Pll/P21三 . . . 三 P14/P2もまたは , Pll/P21壬 . . . 三 P14/P24・ 表 1 :薬剤の改善度データ 159‑
この仮説検定は、次のように一般の axbの 2元表へ拡張できる。 P i jをランダムに選んだ標本が i行 j3 ' J I に分類される確率とする。前の仮説は、 Ho: P i jニ P k j, ( 1 ) H1 : P i j / P k j2 :P i什 t !P k, i +l , または , P i j/ p k j三P i, i + t !P k, j + l, ( 2 ) ii =k= 1,...,a;j= 1,...,b‑1 . さらに、列のみでなく行も順序分類の場合の対立仮説は次のように与えられる。 H2: P i j / p i + l, j三P i, i + t !P i + l, i + l , または , P i j/ p i + l, j壬P i, i + t !P i+ l , i +l ' ( 3 ) i=1 ,. . .,a‑ 1 ;j=1 ,' " ,b‑1 . これらの仮説に対する検定の方法として累積カイ二乗法(例えば、広津 ( 1 9 9 2 ))がある。本論文では、 IMLプ口、ンジャを用いて累積カイ二乗法のプログラムのマクロを作成し、その使用方法について説明する。 2 プログラム 2 . 1 使用方法 作成した累積カイ二乗法のプログラムは、次の U RLからダウンロードできる。 http://www.sas.com/japan/usergroups/sugijOl/appendix.htrnl これを実行すると、マクロ C u r n C h iを定義する。このマクロを実行するための構文は次の通り。 % C u r n C h i (data= SASデータセット名, order= 1または 2) ; data= 解析の対象となる SASデータセットを指定する。これは、表 1や 2のような 2元表の形式で、 2元表 の行と列は、それぞれ、データセットの行(オブザベーション)と列(変数)に対応する。このデー タセットの変数は、数値変数でさえあれば、名前やフォーマットは何でも良い。 order= 2元表における分類にどのような順序があるかを指定する。 2元表の列のみに順序がある場合は order=l、行と列の両方に順序がある場合は order=2とする。 このマクロを実行すると、自由度、累積カイ二乗値、 p 1 直(それぞれ、 NU、CUMCHISQ、P̲VALUE) が出力 される。これらの値は、 order=lとしたときは帰無仮説 Ho、対立仮説 Hlの検定、 order=2としたときは 帰無仮説 Ho、対立仮説 H2 の検定に対応するものである。 このマクロを使用した解析例を以下に示す。なお、これらの結果はそれぞれ本にあるものと一致してお り、このことからプログラムが妥当であると考えられる。 2 . 2 解析例 1 表 1のデータを解析する。まず、この 2元表を、 SASデータセット e x lとして次のように作成する。 data e x l ; input col1‑co14; cards; 3 8 30 22 8 9 29 11 1 6 0一
表 2 :期末試験成績データ マクロ CumChiで累積カイ三乗法による解析を行う。解析の対象となるデータと順序分類が列(改善度)の みということを、パラメータで指定する。 . i CumChi(data=ex1,order=1); 以とのプログラムを実行すると、次の結果が出力される。 NU CUMCHISQ P̲VALUE 2.2666518 9.3110513 0.0385576 対立仮説 Hlに対応する累積カイ二乗値が 9.311、p値が 0.039である。 p l 直が十分に 1、さいとみなして、薬 剤 lと 2は、改善度の点から違いがあると考えるの 2 . 3 解析例 2 次に、行とタ1の両方に順序がある 2元表の解析例を示す。このような 2元 表 の 例 と し て 、 広 津 (1982, p. 42 ) の期末試験成績データ(表 2 ) がある。これは、代数学と解析学の 2科目の期末試験の成績に基づく 某クラスの学生の分類で、行(代数の成績)、列(角平析の成績)ともに)1慎序が考えられる。このデータをも とに、一方の成績が良い学生は、もう一方の成績も良いかどうかを検討する。 前と同様に、この 2元表を SASデータセット ex2として作成し、マクロ C四 Chiを実行する。ここでは、 行と列の両方が順序分類なので、 order=2 とする。 . i CumChi(data=ex2,order=2); この実行結果は以下の通り。 NU CUMCHISQ P̲VALUE 2.4520124 0.3045118 0.9535758 対立仮説 H2I こ対応する p値が 0.954で ソj、さいものとは考えにくい。従って、帰無仮説 H口、代数学と解析 学の成績が独立であることを否定できない。 参考文献 広津千尋 (1982) 離散データ解析,教育出版 広津千尋 (1992) 実験データの解析,共立出版 hu ハ ‑ ‑
口頭論文発表 統計(チュー卜リアル)
日本 SASユーザー会 (SUG1‑0) S A S V .8 における正確な推測とシミュレーションによる近似法 0 浜田知久馬車 京都大学医学部薬剤疫学教室 車 Exacti n f e r e n c e andi t sapproximation usings i m u l a t i o n i n V.8 C h i k w n aH a . m a d a K y o t oU n i v e r s i t y S a k y o ‑ k u .K y o t o .6 0 6 ‑ 8 5 0 1 要旨 S A SV . 8 . 1における機能拡張によって,ロジスティック回帰 ( l o g i s t i cr e g r e s s i o n )を行うため E X A C T文が追加され正確な推測が可能になった.この方法は,あるパラ のL O G I S T I Cプロシジャに, メータについて推測を行う場合,残りのパラメータの十分統計量を与えた下での条件付並べ替え分 布に基づいて,パラメータの推定,検定,信頼区間の構成を行うものである. またカテゴリカルデータ解析を行う F R E Qプロシジャとノンパラメトリックな検定を行う N P A R 1 W A Y プロシジャに日Cオプションが加わり,正確な検定をモンテカルロシミュレーションによって近似す ることが可能になった.これらのプロシジャは V . 6でも正確な検定が可能であったが,少し大きな 標本になると現実的な時間では計算が困難となる問題があった.シミュレーションによる近似を行 うことによって,現実のデータ解析の場面で正確な方法が適用可能になった.医薬系のデータでは, しばしば,統計量の分布を正規分布,カイ 2乗分布等で近似すると精度が悪くなる場合がある.こ のようなケースでは,理論分布で近似しない,正確な方法を用いる必要がある. V . 8の機能を利用すれば,医薬研究でよく利用されるカイ 2乗検定 ( 2x2 以外の場合を含む), M c N 検定,並べ替え検定,ビアソン ( P e a r s o n )の相関係数,スペアマン ( S p e a r m a n )の相関係数 ,K e m a r (カッパ)係数,ウイルコクソン ( W i l c o x o n )検定,マンテル・へンツエル ( M a n t e l ‑ H a e n s z e l )検定, ヨンキー ( J o n c凶l e e r e )検定,コクラン・アミテージ、 ( C o c h r a n ‑ A r m i t a g e )検定等を正確法またはシミ ュレーションで近似した方法で行うことができる.また 2 値データについては L O G I S T I Cプロシジヤ のE X A C T文を利用すれば検定のみならず,並べ替え検定に基づいたオッズ比の正確な信頼区聞を構成 することもできる. 本稿では,チュートリアルとして,これらの機能を紹介するとともに,正確な推測の原理,プロ グラムの構文と結果の解釈,典型的な適用例について解説する. キーワード:L O G I S T I CF R E QN P A R 1 W A Y 町L T T E訂 正 確 法 ‑165 r e s a 皿p li n g
1.はじめに コンビュータハードウエアの高速化と低価格化および,統計ソフトウエアの整備により,これま で困難とされてきた種々の統計計算が近年可能になってきた.その代表的な l つの流れが,正確な確 率計算に基づく統計解析法の実用化である.本稿では並べ替え検定に基づいた推測を正確な方法と 呼ぶことにする.この計算のための専用統計ソフトウエアとしては, S t a t X a c tが有名で、ある. S A S ではリリース 6 . 0 7から,並べ替え検定や, C o c h r a n ‑ A r m i t a g e検定等の正確な計算を r e s a m p li n gによ って近似する町L T T E S Tプロシジャが加わった ( W e s t f a l la n dY o u n g ( 1 9 9 2 ),浜田(19 9 2 ) ) . また 6 . 1 2 からは,ノンパラ検定を行うための N P A R 1 W A Yプロシジャと,カテゴリカルデータに様々な検定を行 うF R E Qプロシジャに,正確な計算を行うための機能が加わり, S A Sでも多くの手法について,正確 な推測が可能になった ( S A S I n s t i t u t e I n c . ( 1 9 9 7 ) ) . ただし,これら 2つのプロシジヤでは,サ ンプルサイズが 1 0 0前後の規模のデータでも,計算が実用的な時間で不可能になる問題があった. リリース 8 . 0の拡張では, N P A R 1 W A YとF R E Qプロシジャに M Cオプションが加わり,正確な計算をモ ンテカルロシミュレーション ( r e s a m p l i n gと中身は同じ)によって近似することが可能になった ( S A S I n s t i t u t e I n c . ( 1 9 9 9 ) ) . この機能により,前述の計算不能の問題は解決される. またリリース 8 . 1ではロジスティック回帰を行う L O G I S T I Cプロシジヤで,十分統計量の条件付尤 度の並べ替え分布に基づいた推測が可能になった.この機能を利用することにより, C o c h r a n ‑ A r m i t a g e検定, M c N e m a r検定, M a n t e l ‑ H a e n s z e l検定について正確な検定,および効果の指標としてオツ ズ比の並べ替え検定ベースの信頼区間を計算することが可能になった.この方法では,最尤推定値 が存在しない場合でも,必ず検定を行うことができ,信頼区間を構成することができる. 医薬データでは,しばしば,稀な事象を対象とするため小標本となる場合,観察研究のため,プ ロファイルごとにサンプルサイズが大きく異なる場合等が生じる.このようなケースでは,理論分 布による近似の精度が悪くなり,正確な推測が必要になる. 本稿では,チュートリアルとして, N P A R 1 W A Y, F R E Q,L O G I S T I C, 町L T T E S Tを利用した,正確な推測 の原理,プログラムの構文と解釈,典型的な適用例について解説する. 2 . 漸近正規近似,正確な計算,シミュレーションによる近似 適合度のカイ 2 乗検定を例にとり,漸近正規近似,正確な計算,シミュレーションによる近似法 の計算原理,違いを説明する. メンデル ( M e n d e l )はエンドウの種子の形が丸 ( A A )としわ ( a a )の純系を作り出し,ヘテロ ( A a )同士 の吏配実験を行って次のデータを得た. 丸 :5 4 7 4 7 4 . 8 % しわ:1 8 5 0 2 5 . 2 % メンデルの立てた遺伝の法則(分離の法則)が正しければ,優性(丸)と劣性(しわ)の比率は 3:1 になる.この仮説を適合度のカイ 2乗検定を用いて検討してみる. S A Sでは一元分類データの 適合度の検定が F R E Qプロシジャでリリース 6 . 1 2から可能になった.プログラム例は表 lとなる. T A B L E S文の, T E S T P =オプションによって,帰無仮説の下での各カテゴリーの割合を記述する. 乗検定のプログラム 表 1 適合度のカイ 2 datar n e n d e 1 ; do type='+ ','ー ' ; i n p u tw @ @ ; o u t p u t ; e n d ; c a r d s ; 5 4 7 41 8 5 0 proc freq order=data d a t a = r n e n d e 1 ; tab1es type/testp=(O.75 O.25);weightw ; 1i FD FD
カイ 2 乗統計量は 0 . 2 6 2 9,p { 1 直は 0 . 6 0 8 1であり,優性と劣性の比率が 0 . 7 5:0 . 2 5という仮説は棄却 のプログラムに, e x a c t c h i s q ;を追加す されない.これに対し,正確な検定を行うためには,表 l る. S A Sの出力は示さないが,正確な検定の p値は 0 . 6 1 7 6となる.さてこれらの p値はどのようにし て計算されたのだろうか? 帰無仮説が正しいとき,しわの個数の分布は N 二7 3 2 4 ( 5 4 7 4 + 1 8 5 0 ),π=0.25の二項分布にしたがう. このとき,しわの個数の期待値は N.π=7324x0 . 2 5二 1 8 3 1となる.これに対し,しわの個数の実測値 は1 8 5 0であり,期待値から+19 ずれている.帰無仮説の下で,得られたデータ以上に期待値からずれた データが生じる確率が p値になる.両側検定の場合,一方向に 1 9以上ずれた事象(18 3ト 19=1 8 1 2以 下)も同程度に極端な事象であると考えて, 1 8 5 0以上 ( 0 . 3 0 8 2 )になる確率と 1 8 1 2以下になる確率 ( 0 . 3 0 9 4 )を足し合わせたものが p値になる ( p = 0 . 6 1 7 6 ) .S A Sでは,様々な確率分布の累積確率を計 算するための C D F関数を利用して,二項分布の累積確率を計算することができる.このためのプログ ラム例を表3に示す. 表 3 正確な二項確率の計算プログラム data e x a c t p i pu=1‑cdf('binominal',l B 4 9,O.25,7 3 2 4 ) i O.25, 7324)i pl= c d f (' b i n o m i n a l ',1812, p=pl+PUi d f (・ binominal',X,p,N)と指定することにより C D F関数ては c L :NC ;・ p(l‑p)N iOから Xまでの二項分布の累積確率を計算することができる . X = 1 8 1 2を指定することにより下側検 二 定の p値 ,X = 1 8 4 9を指定して l から引くことによって上側検定の p値を計算することができ,この 2 つ を足し合わせたものが両側検定の p値になる.プログラムの実行結果は次のようになる. O B S pu p1 p 1 0 . 3 0 8 2 2 0 . 3 0 9 4 1 0 . 6 1 7 6 2 両側検定の p値は 0 . 6 1 7 6 2となり,これは確かに F R E Qプロシジャの正確な検定結果と一致している ことがわかる.これに対して漸近近似検定は, Nが大きくなると,しわの個数の分布が次の期待値と分 散を持つ正規分布で近似できることに基づいている. 期待値 :Nπ =7324x0.25=1 8 3 1 :Nπ(1 π)=7 3 2 4x0 . 2 5x0 . 7 5二 1 3 7 3 . 2 5 =( 3 7 . 0 5 7 )2 (実測値一期待値 )/SDニ ( 1 8 5 0 ‑ 1 8 3 1 ) / 3 7 . 0 5 7ニ 0 . 5 1 2 7 分散 phU ワ l 1 ょ
となり,得られたデータは期待値から 0.5127・ S D離れた点にあった.標準正規分布で 0.5127以上外れ た値が生じる確率が p値となる.確率を計算するためのプログラムを表 4に示す. 表 4 正規分布で近似した確率の計算プログラム data norrnalp; n o r r n a l ', 0.5127); pu=l‑cdf(・ pl= cdf(' n o r r n a l 'ー ,0.5127); p=pl+pu; 結果は次のようになる. O B S pu p l 0 . 3 0 4 0 8 0 . 3 0 4 0 8 p 0 . 6 0 8 1 6 I 両側検定の p値は, F R E Qプロシジャのカイ 2乗検定と四捨五入の誤差の範囲で一致している.こ の例では,正規近似の検定の結果は正確な検定をよく近似しているが, N が小さく, pがO やl に近 いときは近似の精度が悪くなる. V.8から,正確な検定の p値を, MCオプション ( M o n t e Carlo シミュレーションの略) を指定す ることにより,シミュレーションによって近似することが可能になった.プログラムを表 5に示す. 表5 シミュレーションで近似した確率の計算プログラム proc freq order=data data=rnendel; tables type/testp=(O.75 0.25); exact chisq/rnc seed=1900;weight w; ニオプションによって指定する. EXACT文で,シミュレーションを行う際の乱数のシードを, seed ここではメンデルの遺伝の法則が再発見された年にちなんで, 1900を指定している. N=オプション によって,シミュレーション回数を指定することも可能であるが,デフォルトでは 10000回のシミ ュレーションを行う.町LTTESTのデフォルトの resampling回数 20000と異なっていることに注意さ れたい.実行結果は表6 のようになる. p値は 0.6205となる.この p値は,次のように計算されたものである. 1)帰無仮説の下で乱数を発生させる. (N=7324,π=0.25の二項乱数を発生させる) 2 ) 1 ) の乱数が実際のデータより極端な値であるかどうかを判定する. ( 1812'"1850の範囲から外れるかどうかを調べる) 3 )1 ), 2 ) のプロセスを数多く繰り返す. ( 10000回繰り返す) 4 ) 実際のデータより極端な値が出た回数(ト1)を,シミュレーション回数 ( N )で割って割合 C M j N )を 計算する.これが p値になる. ハhu n 口 ‑ ‑
( 1 0 0 0 0回中, 1 8 1 2 " ‑ '1 8 5 0の範囲から外れた割合を計算する) ()内はメンデルの例で,両側検定を行う場合の手順を述べた. このプロセスを D A T Aステップで プログラムイじすると表 7のようになる. 表7 シミュレーションによる近似計算の D A T A ステップでのプログラム化 data simi do i=l to 10000i y=ranbin(1900, 7324, O.25)i S=Oiif Y 1e 1812 or y ge 1850 then s=lioutputi endi proc freq data=simitab1es s i また表 6ではシミュレーションによる p値の両側 9 9 % 信頼区間も出力されている.信頼水準はデ フォルトは 99%であるが, a l p h a二オプションによって変更できる. a l p h a 二 Aを指定することにより, 1 0 0 ( 1 ‑ A )自の両側信頼区聞が出力される.例えば a l p h a = 0 . 0 5を指定することによって,両側 9 5見の信 頼区聞が出力される.この信頼区間 ( C I ( PM ) は,次のように計算されたものである. c) P = 日 / N M C V[ PM CJ =P M CX(1‑P M C )/( N‑ 1) C I (恥)= P M C : : ! : : Z α / ;. パF訂 ここで, Z α / 1は正規分布の上側 1 0 0( 1 α/2) 見点である.メンデルの例では, P 2 0 5 / 10 0 0 0二 M C=6 0 . 6 2 0 5であり,これから V [ P M C J=0.6205X( 1‑ 0 . 6 2 0 5 ) / (1 0 0 0 0 ‑ 1 )ニ 0 . 0 0 0 0 2 3 5=0 . 0 0 4 8 4 82 となる .99%の信頼区間の場合 α=0.01で,対応して Z O . 0 1 / 2 2 . 5 7 6であるので, 9 9見の信頼区聞は C I ( P M c ) = PM Z/1.J寸世訂 C士α 二 0 . 6 2 0 5 : : ! : : 2 . 5 7 6・0 . 0 0 4 8 4 8=0 . 6 2 0 5: : ! : : O .0 1 2 4 9=0 . 6 0 8 0 " ‑ ' 0 . 6 3 3 0 となる.ただし, P M C = Oまたは lになった場合,この計算方法では分散が Oになるため,信頼区間の 幅も Oとなってしまう.この場合には(1‑α)%水準の,信頼区間の計算は,二項確率に基づき, 二 次のように計算する. P~C 二 O のとき: 0 " ‑ ' 1 ‑ α 1/~: P = l のとき : α 1 / ; ; " ‑ ' 1 M c 例えば α 0 . 0 1とすると, N = 1 0 0 0 0のとき P = 0 :0 " ‑ ' 1 ‑ 0 . 0 1 1 / 1 0 0 0 0 0 " ‑ ' 0 . 0 0 0 4 6 ぅ M ニ P :0 . 0 1 1 / : 0 0 0 0 " ‑ ' 1 = 0 . 9 9 9 5 4 " ‑ ' 1 M e 1 二 二 となる. 1 万四のシミュレーションで, 1 度も実際のデータを越える値が出現しなくても,計算誤差 を考慮するならば, P 1 j 直の上限は 0 . 0 0 0 4 6となる.この場合, αを全て上側の方向に消費している ことに注意されたい.また P の場合は, αは全て下側方向に消費される. M C二 l 以上示したように,漸近近似では,近似を行わない正確な分布(この場合は二項分布)を正規分布で 近似するのに対して,シミュレーションでは二項乱数(一般には並べ替え分布)を発生させて近似計 カテゴリ一以上の場合でも,正確な適合度検定を S A Sでは行うことができるが,詳 算を行う.なお 3 細については R a d l o wa n dA l f ( 1 9 7 5 )を参照されたい. 3 .F R E Qプロシジャと N P A R 1 W A Yの正確な計算機能 F R E Qプロシジャの E X A C T文を用いると,表 8で示す統計量について正確な計算が可能である.ま たN P A R I W A Yプロシジャで可能な正確検定法を表 9に示した.それぞれ, E X A C T文のオプションで表 中のキーワードを指定することにより,実行することができる. υ ハhu 吋 ハ ‑ ‑
これらの統計量については, M Cオプションと組み合わせることによって,シミュレーションによ る近似計算を行うことができる. 表8 F R E Qプロシジャで正確な計算が可能な統計量とキーワード P A R 1 W A Yプロシジャで正確・な計算が可能な統計量とキーワード 表9 N いた検定 4.代表的な統計手法の正確な計算と r e s a m p l i n gによる近似 以下では, 2x2 分割表のカイ 2 乗検定 ( F i s h 訂正確検定),対応のある 2 値データの M c N e m a r 検定, k x1分割表のカイ 2 乗検定, i則合に対する傾向性を評価する C o c h r a n ‑ A r m i t a g e検定,複数の 2x2分 a n t e l ‑ H a e n s z e l検定, K r u s k a l ‑ W a l l i s 検定,ノンパラメトリックに傾向性 剖表の結果を併合する M o n c k h e e r 、 e 検定の S A Sでの正確な計算またはシミュレーションによる近似法のプログラ を評価する J 1 7 0一
ム例を示し,結果の読み方について解説する. 4. 1 2x2分割表 2x2分割表について,正確な手法の適用を F R E Q,L O G I S T I C,NPAR1WAYの3 つのプロシジャを用い 0のようになる. て行う.プログラム例は表 1 表1 0 2x2分割表についての解析プログラム data twobytwo; l ; do drug=O, do y=O to 1 ; input w @@;output;end;end; cards; 13 7 6 14 proc freq data=twobytwo; tables y脅 drug /norow nocol nopercent chisq;weight w; exact chisq or; proc logistic data=twobytwo descending; model y=drug; freq w; exact drug/estimate=both; proc multtest data=twobytwo;class drug; test ca(y/permutation=20);freq w; 2x2の分割表について周辺度数を固定した正確な検定としては F i s h e r正確検定がよく知られてい R E Qプロシジャでは, E X A C T文で C H I S Qまたは F I S H E Rオプションを指定することにより,この検 る. F 定を実行することができる.また E X A C T文で O Rを指定することにより,オツズ比の正確な信頼区間 を出力することもできる. 1 F R E Qプロシジャの出力 1 ( 2x2 分割表) 表1 O L O G I S T I Cプロシジヤのデフォルトでは,漸近正規近似による推測を行うが,リリース 8 . 1から追 X A C T文によって,条件付分布を用いた正確な推測が可能になった.指定方法は E X A C T文で 加された E r u g ) を指定するだけである.この機能を利用すれば,様々な 正確な推測を行う変数名(ここでは d ケースについて L O G I S T I Cプロシジヤでも正確な推測を行うことができる.町L T T E S Tプロシジヤでは, T E S T文で F I S H E Rオプションを指定することにより, F i s h e rの正確な検定法を行うことも可能である 1ム 寸 ヴI 1 ょ
が,ここでは C Aオプションで, C o c h r a n ‑ A r m i t a g e( 2群の場合は 2x2表のカイ 2 乗検定に一致)を行 うことを指定し,オプションて、 perrnutation=20を記述することで,セル度数が 20までは正催な 検定を行っている. 表1 1では, 1 行l 列のセル度数が 1 3となっている.両周辺和を固定した上で, 1 行l 列の可能な度数 は , 0‑1 9まである.帰無仮説の下で,それぞれのセル度数が得られる確率 ( p )は 2x2表のセル度 数を, a,b,c,dとすると, ( a + b )!( a + c )!( b + d )!( c + d )! p二 ( a + b + c + d )!a!b!c!d! 表1 1では,実際のセル度数 1 3, 7, 6,1 4が得られる確率が J '表の確率" (P13=0.0229)として出力 されている. 左側(下側)検定では,実際のデータ以下に a が小さくなる場合として, a が0‑1 3までの確率を足し 合わせる ( p rニ P o + P ! +・ ・ ・ +P 1 3二 0 . 9 9 4 8 ) ,右側(上側)検定では a以上になるパターンとして, a が1 p r P 1 3 + Pj 4 + ・ ・ ・ +Pl!=0.0281) .両側検定では,確率がP I J以下 3‑1 9までの確率を足し合わせる ( になるパターンの確率を足し合わせる.この例では, P 1 3二 P 6となるので,両側 p値は p rニ P l + P l + ・ ・ ・ +P 6 + P l l + P H +・ ・ ・ +Pl!=0.0562となる. 0のe x a c t c h i s qの指定によって,カイ 2 乗検定についても,正確な検定の結果が出力される 表1 ( 表1 2 ).これは,セル確率(p)の代わりに,カイ 2 乗統計量を指標にして,得られたデータより偏 ったパターンの確率を足し合わせたものである.漸近正規近似で、は p 値が 0 . 0 2 6 7と5 %水準で有意に なるが,正確な検定の結果は,有意とはならない. 2x2 表の場合,セル確率とカイ 2 乗統計量のど 二 ちらを指標としても,パターン間で極端さの順番が入れ替わることはないので,カイ 2 乗統計量の 正確な検定結果は F i s h e rの正確検定と一致するが, 2x2表以外では,一致しない場合が生じる. 表1 2 1よ ︐ no ηI
F R E Qプロシジャで, E X A C T文で O Rを指定した(表 1 0参照)ことにより,オッズ比の正確な信頼区聞 3 ) .F i s h e rの正確検定が 5 %水準で、は有意、となっていないにもかかわらず,漸近信 が出力される(表 1 頼限界(下限は1.1 5 0 4 )は lを含んでおらず,矛盾した結果になっている.これに対し正確な信頼限 . 9 6 9 4 )は , F i s h e rの正確検定に対応した信頼区間であり,このような矛盾は生じない. 界(下限は 0 4にL O G1 S T ICプロシジャの出力を示す.条件付ではない通常の最尤推定 ( M a x i m 四 L i k e l i h o o dE s 表1 t i r n a t e,以下 M L Eと略す)による解析結果が最初に示される.このモデ、ルでは説明変数 d r u gのみで、あ るので,総括的検定 ( T e s t i n gG l o b a lN u l lH y p o t h e s i s )の結果は変数 d r u gの有意 性検定と等価であ 種類の検定のうちスコア検定 ( s c o r e ) は,連続修正を行わないカイ 2乗検定に一致する ( P = o . る. 3 2参照) 0 2 6 7,表 1 J 4 . 9 1 2 3 1 1 4 6 θ 5 9 1 d 0 . 0 3 0 L O G1 S T ICプロシジャでは,パラメータ推定値を指数の肩に乗せたオツズ比とその信頼区聞が出力 される(表 1 5 ) . この結果は F R E Qプロシジャの漸近正規近似の結果と完全に一致する(表 1 3参照). 表1 5 L O G I S T I Cプロシジヤの出力 2(2x2分割表,也E )) これに対して,条件付確率を用いた正確な推測に基づいたオッズ比は表 1 6のようになる.点推定 値は 4 . 1 6 3,両側 9 5 %信頼区間は 0 . 9 6 9 " ‑ ' 2 0 . 1 8 6となる.点推定値は条件付最尤推定値(Agr e s t i( 19 9 R E Qプロシジャの出力しているの 0 )と呼ばれ,条件付確率が最大になるように推定したものであり, F ad/bc=4.333)なので,値は異なっているが,信頼区間は, F R E Qプロシジャ は非条件付最尤推定値 ( の正確な結果に一致する(表 1 3参照) .F R E Qプロシジャでは,説明変数が2 値データの場合にしか, O G I S T I Cプロシジャでは連続変数の場合にも, 1 単位変化したときの オッズ比が計算されないが, L オッズ比を出力することができる.また,複数の変数の影響を同時に調整したオツズ比の信頼区間 かを検定した結果(この例で、は p = O . 0 5 6 2 )が出力される を計算することも可能である.オッズ比が l i s h e rの正確検定の結果に一致する(表 1 1参照).より正確にいうと, F i s h e rの正確検 が,これは, F 倍にしたものであるが,この場合は両側検定の結果に等しくなる. 定の右側確率を 2 町L T T E S Tプロシジヤの結果を表 1 7に示す.この結果も F i s h e rの正確検定に一致している(表 1 1参 照) . ← 173‑
F R E Qと町L T T E S Tプロシジャでは,シミュレーションによって正確な計算を近似することも可能で あるが, 2x2 表の場合,正確な計算が容易であるので近似する必要はない. 4. 2 2xk表 反応変数が 2値データで,説明変数が薬剤の用量水準のような順序カテゴリカルデータであると する(表 1 9参照) .このとき,水準の上昇とともに反応が直線的に増加(減少)するかを調べる方 o c h r a n ‑ A r m i t a g e( C A ) 検定である.ここでは大動物を用いた急性毒性試験を想定して, C o c 法が C R E Q,L O G I S T I C,町L T T E S Tの3つのプロシジャで実行してみる.プログラ h r a n ‑ A r m i t a g e検定を, F 8にようになる.急性毒性試験は l 群N 二2 " " ' 5で実施されることが多く,このような小標本で ム例は表 1 は漸近近似の精度が心配になる. 8 2xk分割表についての解析プログラム 表1 data twobyk; do dose=O, 1, 2, 3, 4, 5; do y=O to 1 ; input w @@;output;end;end; cards; 303030302112 proc freq data=twobyk; weight w; tables y台 dose /norow nocol nopercent trend; exact trend; proc logistic descending data=twobyk; rnodel y=dose; freq w; exact dose/outdist=out estirnate=both; proc multtest data=twobyk;class dose; test ca(y/perrnutation=20);freq w; F R E Qプロシジャでは, T A B L E S文で T R E N Dオプシヨンを指定することにより, C o c h r a n ‑ A r m i t a g e検 X A C T文でも T R E N Dオプションを指定することにより,正確な検定結果も出力 定が実行できる.また E される.ただし F R E Qプロシジャでは 2x2表以外では,オッズ比は出力できない. L O G I S T I Cプロシジ 表と同様の指定を行う.ここでは死亡確率を p として,次のようなモデルを仮定したこ ヤでは 2x2 とになる. l o g ( p j( 1‑ p ) ) = β。 + β, d o s e M U L T T E S Tの場合デフォルトでは,対比の係数は用量が等間隔になるように配置される.実際の用 O N T R A S T文を用いて,明示的に用量間隔を指定する必要がある. 量が非等間隔である場合は, C F R E Qプロシジャの出力は表 1 9のようになる.両側検定と片側検定の結果が両方出力されるが,前 者の結果に注目すると,漸近検定 ( p = 0 . 0 1 6 1 )も,正確な検定 ( p = 0 . 0 2 4 5 )の結果も 5 %水準で有意にな る. L O GI S T IC プロシジャの出力は表2 0,2 1になる.条件付ではない通常の最尤法による解析結果が表 2 0である.このモデルでは説明変数が d o s eのみであるので,総括的な検定の結果は d o s eの効果が有 種類の検定のうちスコア検定 ( S c o r e:p = 0 . 0 1 6 1 )は , F R 意であるかを検討するのと等価である. 3 1 7 4‑
E Qプロシジヤの漸近的な両側 C A 検定の結果と等しくなる(表 1 9参照).スコア検定は 2x2分割表の場 合は,連続修正を行わないカイ 2 乗検定, 2 xk表の場合は C A 検定に等しくなる.ただし W a l d 検定の結 果は 5 目水準では有意とならない . 3種類の検定は,漸近的には等価であるが,このように結果が大き く食い違うのは,小標本のため近似の精度が悪いためである. 9F R E Qプロシジャの出力 ( 2xk分割表) 表1 0 表2 表2 1 L O G I S T I Cプロシジャの出力 1 ( 2 xk分割表,也E ) L O G I S T I Cプロシジャの出力 2 ( 2 xk分割表,正確法) 表2 2 町L T T E S Tプロシジャの出力 ( 2 xk分割表) にU 1i ηi
これに対し表2 1は正確な推測の結果である.オッズ比(薬剤が l 用量増加したときのオッズ比の変 化)の正確な推測結果が出力されており,点推定値が 6 . 0 4 9,9 5 % 信頼区聞がし 1 2 3 " ‑ ' 3 5 3 . 0 0 0となり, 用量の l 単位の増加とともに,オッズ比が 6 . 0 4 9 倍になることがわかる.また p値は 0 . 0 2 4 5となり, o c h r a n ‑ A r m i t a g e検定の結果と一致する(表 1 9参照).ただし並べ替え分布が非対称な場合 正確な C は,両側検定の定義がいくつか存在し,一致しない場合がでてくる. F R E Qプロシジャでは,得られ O G I S T I Cプロ たデータより極端な事象の確率を上側と下側の両方向で足し合わせる.これに対し, L 倍する. シジャのオッズ比では,上側検定と下側検定のうち,小さい方の p値を 2 別L T T E S Tプロシジャでも全く同じ検定結果が出力される(表2 2 ).より大きな標本で,正確な計算 が困難な場合は, F R E Qプロシジャで M Cオプションを指定することにより,シミュレーションによる 3に示す. 近似計算ができる.プログラム例を表2 32xk分割表についてのシミュレーションによる近似プログラム 表2 proc freq data=twobyk; tab1es y*dose /norow noco1 nopercent trend; weight w; exact trend/rnc seed=2001726; 結果は表2 4のようになる. 0 . 0 2 5 7 0 . 0 2 1 6 0 . 0 2 9 8 1 0 0 0 0 2001726 正確な両側 p値 0 . 0 2 4 5 (表 1 9参照)に対し,シミュレーションによる近似値は 0 . 0 2 5 7であり,近似 の精度が高いことが確認できる. 4 . 3 Lxk表 表2 5 Lxk分割表についての解析プログラム data baseba11; do city=・東京 'J大阪 ‑J広島・,・福陪・; do TEAM='CARP , ・ 'ORAGONS','G工ANTS','SWALLOWS'・ , T工GERS・ , ・ BAYSTARS・ ; input w @@; output;end;end; cards; 14 9 54 22 24 14 14 16 19 9 39 8 38 11 16 7 21 8 22 10 34 6 17 9 proc freq data=baseba11; tab1es city*tearn/chisq;weight w; exact fisher/rnc seed=2001726; 表2 5に示したデータセット b a s e b a l lは,市川等(19 9 2)に示されているもので,住んでいる地域 と好きなプロ野球チームの関連を集計したものである.地域が東京,大阪,広島,福岡の 4都市, 球団あるので,結果は 4x6の分割表の形式で集計される. チームがセリーグ6 ハ n ‑hu ょ ‑
0 . 0 0 0 0 0 . 0 0 0 0 4 . 6 0 4 E ‑ 0 4 1 0 0 0 0 ∞ 2 1 7 2 結果は示してないがカイ 2 乗検定を行うとカイ 2 乗統計量は 6 7 . 0 6 6 7で , p値は 0 . 0 0 0 1未満となる. 住んでいる地域によって,好きな球間の分布は大きく異なるといえる. F R E Qで 、 はM etha印 dP a t e l ( 1 9 8 3 )が提案したネットワークアルゴ 1 )ズムを用いて正確な検定の計算を効率的に行うが,それで N = 4 4 1 ) のデータに対して,実用的な時間内での計算は不可能である.そこで, もこのような規模 ( MCオプションによって,シミュレーションによって得られたデータより極端なパターンが生じる確 0 0 0 0回のシミュレーションの結果, 1 回も実際のデータより極端なパターンは生じ 率を計算する. 1 . 0 0 0 0になる.その 99%信頼上限は 4 . 6 0 4 E ‑ 0 4 ( 0 . 0 0 0 4 6 0 4 )であり,シミュレーションの ず , p値は 0 精度を考慮しても,明らかに有意な結果といえる. 4. 4 対応のある 2x2 表(1:1 マッチング) 疾患の改善の有無を反応変数として,標準薬と新薬でクロスオーバー試験を行い表2 7のようなデ ータを得たとする. (ここでは,時期効果が存在しないことを前提に,時期の違いを無視して集計 している. ) 値データについて 2 群で、反応率が異なるかを検定する標準的な方法が, M c このような対応のある 2 a r検定て、ある. McN巴m a r検定を行うには F R E Qプロシジャを利用するのが最も簡単であるが, N巴m M c N e m a r検定がM叩 t e l ‑ H a e n s z e l検定の特殊な場合で、あることを利用して, L O G I S T I C, 町L T T E S Tでも計 人の患者について,新薬と標準薬 算可能である.この場合, 54人の患者が試験に参加しているが, 1 0 8であり,それぞれについて,改善の有無を示し を投与したときの観測値があるので,観測数は 1 円 円 E4 唱 i i
たデータを作成する.プログラム例を表2 8に示す. F R E Qプロシジャの TABLES文で, AGR回オプションを指定することによって,漸近的な検定結果が X A C T文でも A G R E Eオプションを指定することにより,正確な検定結果も出力され 出力される.更に E 9 ) .この例では,漸近的な検定の結果は p = 0 . 0 3 3 9,正確な検定結果は 0 . 0 7 0 3となる.微妙 る(表 2 目水準で有意になるが,正確な検定は有意にならない.対応の なところであるが,漸近的な検定は 5 Cオプションを使う必要はない. ある 2x2表の場合,正確な計算が容易であり, M 8 対応のある 2x2分割表についての解析プログラム 表2 data pair2by2; do a=l, O; O; do b=l, input w @@;do i=l to w;output;end;end;end; cards; 25 7 1 21 proc freq data=pair2by2;tab1es a*b/agree norow noco1 nopercent; exact agree; data MHTYPE;set pair2by2;no= nー; x=l;y=a;output; x=O;y=b;output; proc logistic data=MHTYPE descending;class no;rnodel y=no x; exact x/estirnate=both; proc multtest data=MHTYPE;class x;test ca(y/perrnutation=20);strata no; 表2 9F R E Qプロシジャの出力(対応のある 2x2分割表) また L O G I S T I Cプロシジャでも個体と,群を表わす変数 xをモデルとしてとり込みようになって, c N e m a r 検定を実行することができる. (計量データの場合, G L Mプロシジャ 対応のある割合の差の M ODEL文で個体と群を指定すれば対応のある t検定を実施できる.)ただし, E X A C T文で で同様に, M xを指定しないと,条件付の解析を行わないので、偏った解析結果を与えることになる. L O G1 S T ICプロシジャの出力は表3 0のようになる.検定の結果自体は, F R E Qプロシジャの正確な検 定結果と一致しているが, L O G I S T I Cプロシジャはオッズ比の点推定値と並べ替え検定ベースの信頼 1 のぺアを層として, M a n t e l ‑ H a e n s z e l法によって求 区間も出力する.オッズ比の点推定値は, 1: めたものと一致し,この場合は表2 7の非対角成分の比をとって 7 / 1として計算される. 0L O G I S T I Cプロシジャの出力(対応のある 2x2分割表) 表3 噌}ム 00 ηi
出) jは示してないが, E X A C T文を指定しない通常の也Eの結果では,オッズ比は 4 9 . 0 0 0でその回目 u !側信頼区聞は 2 . 5 3 1" ' 9 4 8 . 0 0 0となる.この例のように,サンプルサイズ(10 8 )に比べて,パラメ ,, 5 5 )が多い場合は, M L Eによる推定は大きな偏りを持つ. 1:1 マッチングの場合,オッズ比 ータ故 ( 乗倍( 7 ' = 4 9)の偏りを持つことが知られている ( B r e s l o w a n d D a y ( 1 9 8 0 ) ) . また p値は 0 . 0 1 0 0 で2 で , 5 %水準で、有意となってしまう.町L T T E S Tプロシジャでも,ベアを S T R A T A文で指定することによ り,ト!cN e m a r検定を実行することができる. permutation=20を指定することにより, 1 層当たりの い。ント数が2 0までは並べ替え分布に基づいた正確な検定を実行できる.結果は表 3 1のようになる. R E Q,L O G I S T I Cプロシジャの正確なト!cN e m a r検定の結果と一致する.対応のある 2 検定の結果は, F 値データの解析は 2x2表の場合は F R E Qで可能であるが,より複雑な問題,例えば J期 3剤のクロスオ ーバ一試験のような場合は, L O G I S T I Cプロシジャを用いて解析する必要がある. 4. 5 複数の 2x2表の併合(ト! a n t e1 一H a e n s z e l法) a n t e l ‑ H a e n s z e l法が知られている . F R E Qプロシジャでは, C M H 複数の 2x2表の併合する方法としてト! オプションを指定することにより,漸近的なト! a n t el ‑ H a e n s z e1 法を行うことができるが,正確な方法 は ,L O G1 S T ICまたは町L T T E S Tを利用する必要がある. 表3 2のデータは, L o g X a c tのマニュアルに記載されていたものである ( M e t h aa n dP a t e l ( 1 9 9 3 ) ) . I V陽性か陰性かを判定した.免疫機能を 4 7人の 6ヶ月児についてクロスセクショナル研究を行い, H D 4,C D 8についても計測し, H I V陽性との関連を評価するのが解析の目的である.本来 C D 4, 表わす C C D 8は連続的な値をとるが,ここでは,ある値以上か未満で 2 値データとして扱っている. 2 層別した H I V陽性率 表3 38. 46 ∞ 1 . 0 0 1 0 . 0 0 3 3 . 3 3 表3 2では C D 4とC D 8で層別して陽性率を示しているが, 4 つのプロファイル聞で例数 ( N ) が3 " ' 2 6 と大きくばらついていることがわかる.また C D 4 t,C D 8のセルは陽性率が 0%,C D 4 ‑,C D 8 tのセルは陽 性率が 1 0 0見になっている.このデータについて,陽性の確率を p として次のロジステックモデルを立 てて解析してみる. l o g ( p j( 1‑ p ) ) = β。 +β¥CD4+βlCD8 C D 8 ‑:1 o g (p j( 1‑ p )) =β 。 C D 4 ‑, C D 4 t, C D 8 ‑ :l o g ( p j( 1‑ p ) ) = β。 +β 。 C D 4 t, C D 8 ‑ :l o g ( p j( 1‑ p ) ) = β 。 +βd C D 4 t, C D 8 t :l o g ( p j( 1‑ p ) )ニ β。 +β.+βJ ワ ー 刈 ハ d
ここで CD4, CD8は0, 1 のダミー変数である. EXACT文を指定しない MLEのプログラムは表 33のようになる. 表 33 H I Vデータに対するロジスティック回帰(也 E )のプログラム data hiv; input cd4 cd8 y w; do i=l to w;output;end; cards; o0 0 16 o 0 1 10 o 100 o1 1 3 1 0 0 15 10 10 1102 1111 proc logistic data=hiv descending; rnodel y=cd4 cd8; 結果は表 34のようになる. 表34 H I Vデータに対するロジスティック回帰 (MLE) の適用結果 1 9 4 . 1 9 4 . β!とβjの推定値はそれぞれ,ー 13.2759と13.0528とかなり大きな値となるが,標準誤差も 194.7と大 きく,どちらも有意とはならない.実はこのケースでは也E が存在せずモデルが破綻している . L O G阿 面には,次のような W A R N I N Gが出力される. W A R N I N G :T h e r ei sp o s s i b l yaq u a s i ‑ c o m p l e t es e p a r a t i o no fd a t a p o i n t s . T h em a x i m u ml i k e l i h o o de s t i m a t em a yn o te x i s t . W A R N I N G :T h eL O G I S T I Cp r o c e d u r ec o n t i n u e si ns p i t eo ft h ea b o v ew a r n i n g .R e s u l t ss h o w na r eb a s e do n t h el a s tm a x i m u ml i k e l i h o o di t e r a t i o n .V a l i d i t yo ft h em o d e lf i ti sq u e s t i o n a b l e . quasi‑complete separation(疑似完全分離)が起きている可能性があり, MLEが存在せず,推定結果 に問題があると警告している.ここで得られたパラメータ推定値の意味を考えると, β。の推定値 CD8‑群の陽性率は 10/26であり, β。はこのロジットをとった は ー 0.4700となっているが, CD4‑, log((10/26)/(1‑10/26))=‑0.47に一致する.また CD4+, CD8+群の陽性率は 1 / 3であり,このロジ ツトをとった log((1/3)/(1‑1/3))ー ニ 0.6932は , β。 +β +βiの推定値となる .β 。 =‑0.4700であるから β:+ 白 βiの推定値は ‑0.6932‑ (‑0.47) =‑0.2232となる. さて,このように, β。 =‑0.4700, β1+βJニ ー 0.2232と設定すれば,ー群と++群には完全な当ては めを行うことができる.残りの+ー群では陽性率は 0見 (0/15) であり, β1を負の方向で大きくしてい 1 8 0一
け ( ; i , pはOに近づく.逆に+群では陽性率は 1 0 0 %( 3 / 3 ) であり, βjを正の方向で大きくしていけ ば , pは l に近づく.したがって, β+β;ニ 0 . 2 2 3 1 5の関係を維持しながら, β!を負, β;を正の方 向で大きくしていけば,すべての水準で実測確率と予測確率を等しくすることができ, β:'βiのE Eは存在せず 1 つの値に定まらない.表 3 4の結果でも, βl'βjの推定値を足し合わせると, ‑ 1 3 . 2 7 5 9 + 1 3 . 0 5 2 8=‑ 0 .2 2 3 2となる. さて,これに対し, E X A C T文を指定すると,並べ替え分布に基づいた正確な推測を行うことができる. 5のようになる. プログラム例は表 3 5 H I Vデータに対するロジスティック回帰(正確法)のプログラム 表3 proc logistic data=hiv descending; r n o d e l y=cd4 c d 8 ; exact cd4 cd8/estirnate=both; 結果は表 3 6のようになる.表 3 6では, C o n d i t i o n a l E x a c t T e s t sとE x a c t O d d s R a t i o sの2つの テーブルが示されていて,検定の結果が異なっているが,前者で, p ‑ V a l u e E x a c tのカラムをみると C D 4 (p=0.0014)とC D 8 (p=0.0130) の両方が有意になる. 6 H I Vデータに対するロジスティック回帰(正修法)の適用結果 表3 N O T E :* i n d i c a t e sam e d i a nu n b i a s e de s t i m a t e さてこの p値はどのようにして計算されたのだろうか.表 3 4では M L Eが存在しないために推測が破 綻して,両方とも全く有意にならなかったことに注意いしてほしい.実は通常の M L Eが存在しないと a n t e l ‑ H a e n s z e l (阻)検定)に基づいて推測を きでも,正確な推測では層別の並べ替え検定(正確な M 行うことにより必ず検定を行うことができ,またオッズ比の信頼下限か上限を推定することが可能 O GI S T ICプロシジャの正確な解析の結果を説明する前に,旧L T T E S Tプロシジャを用いた正 である. L C D 4について検定を行うときは S T R A T A文で C D 8で層別,逆に 確な阻検定のプログラム例と結果を示す . C D 8について検定を行うときは C D 4で層別する.表 3 7に町L T T E S Tによる正確検定のプログラム例,表 3 8 にC D 8で層別した C D 4の阻検定の結果,表 3 9にC D 4でj 国別した C D 8の阻検定の結果を示す. 181‑
表3 7 町L T T E S Tによる聞検定のプログラム proc multtest data=hiv outperm=cd4jclass cd4j test ca(y/permutation=20) j strata cd8j proc multtest data=hiv outperm=cd8jclass cd8j test ca(y/permutation=20 )j strata cd4j 表3 8 表3 9 C D 4で層別した C D 8の阻検定の適用結果(町L T T E S T ) •C D 4で層別した C D 8の 阻 検 定 4 7人中 1 4人が H I V陽性であるが, C D 4で層別して並べ替えを行ったときの, C D 8 +群の陽性の人数 の分布を考える. 0 C D 4で層別したときの C D 8 +群と C D 8群の陽性数の分布 表4 C D 4 ‑ C D 8 1 3 / 2 6 1 2 / 2 6 1 3 / 2 6 1 1 / 2 6 1 2 / 2 6 1 0 / 2 6 1 1 / 2 6 1 0 / 2 6 C D 4 ‑ C D 8 + 0 / 3 1 / 3 0 / 3 1 / 3 3 / 3 2 / 3 C D 4 + C D 8 ‑ 1 / 3 0 / 3 1 / 3 0 / 3 1 / 3 0 / 3 0 / 3 C D 4 + C D 8 + 0 / 1 5 C D 8 ‑:1 4 CD8+:0 0 / 1 5 1 / 1 5 0 / 1 5 1 / 1 5 0 / 1 5 1 / 1 5 C D 8 ‑:1 3 CD8+:1 C D 8 ‑:1 3 CD8+:1 C D 8 ‑:1 2 CD8+:2 C D 8 ‑:1 2 CD8+:2 C D 8 ‑:1 1 C D 8 +:3 C D 8 ‑:1 1 C D 8 +:3 1 / 1 5 C D 8 ‑:1 0 CD8+:4 表4 0にC D 4で層別した場合の C D 8 ‑群と C D 8 +群の可能な陽性数の分布を示した. C D 4 ‑の層では C D 8 + 群の陽性数は 0 " ' 3,C D 4 +の層では C D 8 + 群の陽性数は 0,1 であり, 2つの層は独立なので, 4x2で計8 通りのパターンが生じる. 2つの層を合わせると C D 8 +群の陽性の人数は 0 " ' 4の範囲を分布する.実際 D 8 +群の陽性の人数は4人と,最も多いパターンになる(表 3 2参照).町L T T E S Tプロシジ のデータでは C ヤでは O U T P E R M =データセットオプションを指定することにより, C D 8 +群の陽性数の並べ替え分布を S A Sデータセットにおとすことができる(表 3 7 参照).プログラムではデータセツト C D 8を作成している 1参照) .厳密にいうと, MULTTESTプロシジャでは,各群の陽性の人数に対比の係数を掛け合わ ( 表4 a l u e一)の並べ替え分布を出力するが,このプログラム例では C O N T R A S T文を指定してな せた統計量(一v が与えられる.したがって C D 8 +群の陽性の人数が出力さ いので,デフォルトの対比の係数として 0,1 れる. ‑182一
表4 1 データセット C D 8 表4 1では,上側の累積確率が, u p p e r̲pとして出力される.実際の陽性の人数は 4人であるので,上 側検定の p値は 0 . 0 1 3 0 5である(表 3 9参照). 町L T T E S Tプロシジャはデフォルトでは両側検定の結果を u p p e r t a i l e d l o w e r t a i l e dオプションを指定することにより,それぞれ仁側検定,下 出力する. ( 側検定の結果を出力できる)両側検定の場合,得られたパタ ンより確率が小さいパターンを両方 1では, ̲ v a l u e ̲が4の確率が一番小さいので,結局,両側 p値も上側 p値 向に足し合わせるが,表 4 . 0 1 3 0 5になる. と等しく 0 L O G1 S T ICプロシジャの解析結果として,表 3 6では, C o n d i t i o n a l E x a c t T e s t sとE x a c t O d d s つのテーブルが出力されているが,前者の p値 0 . 0 1 3 0は,丸めの誤差の範囲内で町 L T T E S R a t i o sの2 Tプロシジャの両側 p値と一致する.後者のテーブルでは,正確な両側検定の p値が 0 . 0 2 6 1となっ ているが,これは両側検定の p値の定義の仕方が異なるためである.このテーブルでは,上側検定 倍( 0 . 0 1 3 0 5 x 2二 0 . 0 2 6 1 )したものが両側検定の p値として出力 と下側検定の p値のうち小さい方を 2 される. •C D 8で層別した C D 4の 阻 検 定 表3 8より町 L T T E S Tプロシジャの結果は 0 . 0 0 1 4であり,表 3 6の L O G I S T I Cプロシジャの c o n d i t i o n a l e x a c t t e s tの結果と一致したものとなる.このように町 L T T E S Tあるいは L O G1 S T IC を用いて正確な阻検定を行うことができるが, L O G I S T I Cでは検定のみならず,正確な検定ベース の信頼区間を構成することもできる.この点については 5節で述べる. 4. 6 K r u s k a l ‑ W a l li s 検定 2は一昔前の臨床試験のデータである . P (ブラセボ), L (低用量), H (高用量)の 3 群で, 5 段階から 表4 なる全般改善度を指標として評価したものである. 表4 2 全般改善度を指揮、とした臨床試験データ 群/反応 悪化 不変 P L 4 3 6 1 3 3 3 3 7 2 1 9 1 やや改善 改善 。 。 著名改善 2 1 1 0 6 8 9 2 0 6 9 1 6 H 6 7 2 2 3 4 6 6 5 3 2 0 9 計 群聞で改善度の分布が異なるか, K r u s k a l ‑ W a l l i s検定で、検討してみたいが,著名改善で Oセルが 3 存在するのが気になるところである.そこで正確な K r u s k a l ‑ W a l l i s検定を試みたが,現実的な時間内 では計算が不可能であった.ここでは,正確な検定をモンテカルロシミュレーシヨンによって近似し 1 8 3 ‑
てみる . F R E Qプロシジャでも, S C O R E = R 釧K オプションを指定することによって,漸近的な K r u s k a l ‑ W a P A R 1 W A Yプロシジャのプログラム例(表 4 3 ) を紹介する.N P A R 1 W A Yプ l l i s検定は可能だが,ここでは N X A C T文で W I L C O X O Nを指定すれば, W i l c o x o n 検定を多群に拡張した正確な K r u s k a l ‑ W a l li ロシジャで E s 検定を行うことができる. 3 K r u s k a l ‑ W a l l i s検定のシミュレーションによる近似プログラム 表4 data ct; 2, 3 ; do group=1, do y=l to 5; input w @@;output;end;end; cards; 4 33 21 10 0 3 37 9 20 0 6 21 16 23 6 proc nparlway data=ct wilcoxon;var y;class group; exact wilcoxon/rnc seed=2001726; freq w; 最初にカイ 2 乗近似の結果を表4 4に示す. 表4 4K r u s k a l ‑ W a l l i s検定のカイ 2 乗近似の結果 kn路kal-'司{alli~ T e s t 7 . 7 7 4 1 ウ p値は 0 . 0 1 9 8で,その 9 9 %の信頼区聞は 0 . 0 1 6 2 " ‑ ' 0 . 0 2 3 4であるから,シミュレーション誤差を考慮し ても切水準で有意に,改善度の分布は異なるといえる. 4. 7 J o n c k h e e r e検定 K r u s k a l ‑ W a l l i s検定の結果, 3 群聞で改善度の分布は有意に異なっていたので,次に用量相関的 に改善度が上昇しているかを J o n c k h e e r e検定によって調べる.正確な J o n c k h e e r e検定のプログラム 例は,表 46のようになる. J o n c k h e e r e検定は, FREQプロシジャで JTオプションを指定することに より実行できる.また EXACT文で JTオプションを指定することにより,正確な検定結果が追加さ れるが,やはりこのデータについては,現実的な時間では,正確な検定はできなカミったため, MC ‑ 1 8 4
オプションを指定して,シミュレーションによる近似を行う. 6J o n c k h 巴r 巴検定のシミュレーションによる近似フログラム 表4 proc freq data=ct;tables y*group/jt; exact j t / r n c seed=2001726; weightw; 正規近似の結果は表 4 7のようになる.両側検定の結果は p = 0 . 0 0 8 8であり, K r u s k a l ‑ W a l l i s 検定よ りも強い有意性が示されている. シミュレーシヨン法による検定結果は表 4 8のようになる.モンテカルロ近似の J o n c k h e巴r 巴検定の p 値は 0 . 0 0 8 5で,正規近似の結果にほぼ近くなっている. 5 . L O G I S T I Cプロシジャの正確な推測 L O G I S T I Cプロシジヤでは, E X A C T文で指定した変数については,残り全ての変数の十分統計量 (反応変数 Yとの積和)で条件付けた分布に基づいて推測を行う.こうすることにより,残りのパラ メータとは独立に興味あるパラメータについて推測を行うことができる ( C o x( 19 7 0 ) ).この方法は o c h r a n ‑ A r m i t a g e検定, M c N e m e r検定等の既存の方法を正確に行うのと等 単純な問題については, C 価である.また特に残りの説明変数が全てカテゴリカル変数の場合は,それらの変数で細かく層別 して調整を行った正確な阻検定に基づいた推測を行うことになる. 4 . 5節で示したように,層別 並べ替え分布によって,条件付分布を計算する. ﹁ h u n凸 1ょ
表4 9 統計手法とプロシジャの関連 検定手法名 推測原理 2x2の分割表 カイ 2 乗検定 ( F i s h e rの正確検定) 漸近法 2xkの分割表 C A 検定 正確 シミュレーション 漸近法 正確 シミュレーション Lxkの分割表 カイ 2 乗検定 ( F i s h e rの正確検定) 正確 対応のある 2x2 分割表 漸近法 M c N e m a r 検定 正確 複数の 2x2 表の併合 漸近法 M a n t e l ‑ H a e n s z e l法 正確 K r u s k a l ‑ W a l l i s検定 ( W i l c o x o n 検定) 漸近法 正確 J o n c k h e e r e 検定 漸近法 漸近法 シミュレーション シミュレーション 。 。 。 。 。 。 。 。 。 F R E Q N P A R 1 W A Y OV.8 OV.8 。 OV.8 OV.8 OV.8 OV.8 OV.8 正確 シミュレーション OV.8 シミュレーション L O G I S T I C OV.8 。。 。 。 。 。 シミュレーション 。 。 。 。 。 。 。 M U L T T E S T 。 。 。 。 。 。 点推定は条件付確率が最大になるように行うが,表4 0の例のように,実際の統計量が層別並べ替 え分布の最大値,または最小値になるときは,条件付確率を最大にするようなパラメータ推定値は 存在しない.すなわち,最尤推定値は存在しない.この場合L O G I S T I Cは条件付確率が 0 . 5になるよ うに推定したパラメータを am e d i a nu n b i a s e de s t i m a t eとして出力する.表 3 6ではこの方法で推定 を行い, C D 4ではオツズ比の点推定値は 0 . 0 6 2,C D 8では 1 1 .8 7 4となる.推定値の信頼区間について も,並べ替え検定に基づいて推測する.表3 6の検定では, C D 8のパラメータ βjが有意になった.こ o:β)=0が棄却され,信頼区聞は O を含まないことを意味する.このように検定と れはすなわち H 信頼区聞が表裏の関係にあるのを利用して,検定に基づいた信頼区聞を構成することができる.す なわち, Ho:β=bを bを動かして検定し,棄却されない範囲が βの信頼区間となる.より正確 にいうと,有意水準 α/2で上側検定と下側検定を行い,棄却されない範囲が信頼区間となる. C D 8 の例のように,実際の統計量が条件付分布の上端になる場合,下側 p値は常に lとなる,したがっ て , β をどんなに大きくしていっても棄却されることはなく,上限は存在しない.逆に, C D 4の場 合,統計量は可能な分布の下端にあり,このため下限は存在しない.表 3 6の出力をみると,信頼区 間については, C D 4は ( 0 " " 0 . 4 1 7 ), C D 8は ( 1 . 3 1 5 " " I n f i n i t y ) となっている . C D 4のオッズ比は高くて . 4 1 7 であるから, C D 4が高いと, H I V陽性率は劇的に低下することがわかる.また C D 8については,オ も0 ‑ 1 8 6
ツズ比は低くても1.3 1 5であり l を越えているので,有意に H I V陽性のリスクを上げることがわかる. による推測が破綻する場合でも(表 3 4参照),並べ替え分布に基づいて常に検定 このように通常の也E を行うことができ,信頼区間の下限または上限を求めることができるのが,正確な推測の大きな利点 L O G I S T I Cプロシジャの E X A C T 文の詳細については十分記述できなかったので文献を参照されたい(ト1 e h t aa n dP a t e l( 19 9 3 ), D e r r ( 2 0 0 0 ),浜田・岸本 ( 2 0 0 1 ) ) . である.本稿では,ロジスティック回帰における正確な推測の数理, 6 .終わりに 本稿では,医薬統計でよく用いられる統計手法について,正確法及びシミュレーションによる近似 法の S A Sでの実行方法を紹介した.表 4 9に各手法とプロシジャ聞の関連について,一覧できる形式で まとめた.表中で V . 8はパージョン 8 からの新機能であることを意味する.なお旧L T T E S Tプロシジャに よるシミュレーション法の計算例については,紙面の関係で割愛したので文献を参照されたい(浜 田・吉田 ( 1 9 9 2 ) ) . F R E Q, N P A R 1 W A Y, L O G I S T I C, 町L T T E S Tの各プロシジャにおいての正確な検定の実行 方法を示したが, 2 値データを反応変数とした場合, F R E Q, L O G I S T I C, M U L T T E S Tの3 つのプロシジヤで, 単純な問題に対しては,正確な検定の結果は本質的に一致する.各プロシジヤの利点は, F R E Q, N P A R 1 W A Yはカバーしている手法が多く,様々な問題について正維な検定が適用可能である. L O G I S T I Cでは, 検定のみならず,正確な検定ベースの信頼区間を構成することができ,また交互作用に対する正確な 検定等,より複雑な問題への拡張性もある.また M U L T T E S Tでは,シミュレーションによって,様々な 多重性の問題に対処することが可能であるし, S T R A T A文によって層を調整した解析も可能である. ただし L O G I S T I Cでは,プロファイル当たりの例数が大きくなると,正確な計算が不能になり,また, 連続変数を調整に用いると極端に効率が悪くなるという問題がある. 参考文献 W e s t f a l lP . H .a n dY o u n gS . S .( 1 9 9 2 ) . R e s a m p l i n g ‑ B a s e dM u l t i p l eT e s t i n g .J o h nW i l e y品 S o n s 浜田知久馬・吉田道弘(19 9 2)町L T T E S Tプロシジャの紹介. S U G I J 1 0論文集, 3 5 7 ‑ 3 7 0 S A SI n s t i t u t eI n c . ( 1 9 9 7 )S A S / S T A TS o f t w a r e : C h a n g e sa n dE n h a n c e m e n t sf o rR e l e a s e6 . 1 2 . S A SI n s t i t u t eI n c . V e r s i o n8 .S A SI n s t i t u t eI n c . S A SI n s t i t u t eI n c . ( 1 9 9 9 )S A SP r o c e d u r e sG u i d e, R a d l o w,R .a n dA l f,E .F .( 19 7 5 )加 A l t e r n a t eM u l t i n o m i a lA s s e s s m e n to ft h eA c c u r a c yo f t h eC h i ‑ S q u a r eT e s to fG o o d n e s so fF i t .J A S A,7 0,8 1ト8 1 3 . A g r e s t iA . ( 1 9 9 0 ) C a t e g o r i c a l D a t a A na l y s i s .J o h nW i l e y&S o n s 市川伸一他(19 9 3 ) .S A Sによるデータ解析入門.東大出版会 M e t h aC . R . a n dP a t e lN . R . ( 1 9 8 3 )AN e t w o r kA l g o r i t h mf o rP e r f o r m i n gF i s h e r ' sE x a c tT e s ti n 7 8, 4 2 7 ‑ 4 3 4 rXcC o n t i n g e n c yT a b l e s .J A S A, N . E .a n dD a y,N . E . ( 1 9 8 0 ) .S t a t i s t i c a lM e t h o d si nC a n c e rR e s e a r c hv o l u m eし B r e s l o w, I A R CS c i e n t i f i cP u b l i c a t i o n M e h t a, C . R .a n dP a t e l, N . ( 1 9 9 3 )L o g X a c t ‑ T u r b o . C y t e lS o f t w a r eC o r p o r a t i o n C o x, D . R .( 19 7 0 )加 a l y s i so fB i n a r yD a t a .C h a p m a na n dH a l l D e r rR . E .( 2 0 0 0 )P e r f o r m i n gE x a c tL o g i s t i cR e g r e s s i o nw i t ht h eS A SS y s t e m .S U G I '2 0 0 0 P r o c巴巴 d i n g s,P a p e r2 5 4 浜田知久馬 岸本淳司 ( 2 0 0 1 )S A S L O G I S T I Cを用いた条件付尤度によるロジスティック回帰の 正確な推測.計算機統計学 (投稿中) ウfi n k u
日本 SASユーザー会 (SUGI‑J) SASによるモンテカル口・シミュレーション 石塚直樹 国立がんセンタ一研究所 がん情報研究部 JCOGデータセンター MonteC a r l oSimulationbySAS NaokiI s h i z u k a NationalCancerCenterResearchI n s t i t u t e CancerInformationandEpidemiologyD i v i s i o nJCOGDataCenter 要旨 統計モデルの仮定に対するロバスト性の評価といった統計手法の特性を評価したり、サンプルサ イズを計算する上で統計量の計算が解析的に困難な場合に乱数を用いたモンテカルロ・シミュレ ーシヨンが頻繁に行われている。 SASでは MULTTESTプロシジャのように標本再抽出の理論に 基づいて乱数列が生成され P 値を計算するものがある。これなら、ユーザは舌L 数列に関してブラ ックボックスとして済ますことが出来る。しかし、多くのシミュレーションを必要とする状況で、は、 SASの特定のプロシジャを用いるだけで、は解決で、きず、 SAS/BASEの OATAステップで舌L 数手J Iを 生成することが必須である。そこで、本論文では、 SASの乱数関数をレビ、ユーし、 SASにおけるモ ンテカルロ・シミュレーションの適用例を示す。シミュレーション手 SASで、実行するためには、統計 パッケ ジの色彩の強いプロシジャと、計算機言語としての DATAスヲップに加えて、マクロを組 合せて活用することがキーになる。ただし、統計学の基礎が前提となる心 キーワード: RANsIN RANヒXP RANGAM RANNOR I ミANPO . IRANTsL、RANTR. IRANLJNI 司 1 . はじめに イカサマのないサイコロを想定してみよう。「サイコロにイカサマのないこと確かめる方法は ?Jと大学生 に質問すると、何回も振った場合にそれそ,れの目の出現回数が均等であることを答える学生が多い。こ れは r 1の目の出る確率二 2の目の出る確率二… =6の目の出る確率=1 / 6 Jであること想定しての答えの ようである。そこで、サイコロの出る目が l 3人 56 . 1 3人 5ム l ム 3, 4. 5, 6、…となっていても良いのかっと 質問を続けるとつ?っと答えに窮してしまう。イカサマが無いことの構成要素にランダム性、すなわち次に出 る目が予測不可能で、あることがあることに気がつかなかったためである。仮に 6の目の出る確率が 1 / 5で あったしても、ランダムで、あればサイコロを繰り返し振ることによりある確率分布に従った乱数列を生成す ることができる。写真で、しか見たことがないが、正 20面体のサイコロなら 0‑9までの数値が 2回ずつ裏J I ま れていて、 0‑9まで離散の乱数列を生成させることが可能である。 乱数列の生成方法を考えてみよう。ランダムな状態を表現するためにサイコロや物理乱数などの装置 も考案されているようだが、シミュレーションを行う際にはコンビュータ上で生成された疑似乱数伊I J )を用い ま全く同じ乱数列を再現することが可能である。これは一見するとランダ るのが一般的である。疑似乱数 1 ムという概念から対局に有る。すなわち、同じ乱数手J Iが再現できること自体が予測可能であり、疑似舌L 数 はある決まりで機械的に生成させるがランダムに見える数列である。ここで、「乱数」という言葉を「分布」 という言葉に置き換えて考えてみよう。統計の教科書で頻出する表現を用いて確率変数が同一の分布に 独立に従うことを考えると、生成された疑似乱数列は実現値に相当する。したがって、ある一桔「分布」に 数J とし、うことになる。様々な分布がある中で一様 従う確率変数をコンビュータ上で生成するのが一様「苦L 乱数を最初に取り上げたのは、後述するように他の分布に従う乱数を一様乱数から生成することが可能 ユ ユ 1 8 9
だからである。 一棟乱数列の生成として最も一般的なものとして線型合同法がある。これは漸化式 , X 二正 X,,̲I +C ( l 1 1o dM) I / ただし、 X",a>O c : : > : O を用いて数列を生成するものである。区間 [ 0、 I 1の乱数列が必要な場合には x " M と変形して X を用いればよい。 c=Oの時に乗算型合同法、 c: t :Oのときに混合型合同法と呼ばれている。 漸化式であるから初期値 X。が必要である。この X ( /がシード、 ( s e e d )で、種がないと何も生えないのである。 SASではバージョン 6と1¥ーション 8とともに乗算合同法 (0ニ 397204094 c = O,M=2J1‑ I )を用いている。した がって、周期は 21 4 7, 483、 647である。乱数の性質について、この 2 1憶という数字を聞けば誰もが大丈夫 のような気がしてしまうかもしれない。しかし、この乱数の生成方法は 1次の漸化式を用いている宿命から 高次元空間内の点要J I が平行な超平面上に並んで、しまう結晶構造を持つことが知られている。その超平面 の間隔が狭いほど、吉L 数として使うことに実用上問題にならない。 5 次元以上で一様性を必要とするよう なシミュレーションには不向きかもしれない。詳しくは疑似乱数の生成法に関連した教科書を参照して頂き たい。ところで、 90年代には M 系列に基づく乱数列の生成法に加えて、新しい生成法が提案されている。 それらが SASに採用されることを期待したい。 ところで、統計モデルの仮定に対する口バスト性の評価といった統計手法の特性を評価したり、サンプ ルサイズを計算するよで統計量の計算が解析的に困難な場合に乱数を用いたモンテカルロ・シミュレー ションが頻繁に用いられている。 SASでは MULTTESTプロシジャのように標本再抽出の理論に基づいて 乱数列が生成され P値を計算するものがある。これなら、ユーザは吉L 数夢J I に関してブラックボックスとして 済ますことが出来る。しかし、多くのシミュレーションを必要とする状況では、 SASの特定のプロシジャを用 いるだけでは解決できず、 SAS/BASEの DATAステップで乱数列を生成することが必須で ある。そこで、こ れら苦L 数夢J I を生成する関数と生成方法についてレビューし、 SAS でモンテカルロ・シミュレーションを実行 する方法を考える。 I I 司 2 . 1変量の乱数列の生成方法 SASでは、一棟吉L 数の生成方法として乗算合同法が用いられていることを述べた。さらに、一椋乱数列 から他の分布に従う苦L 数夢J Iへの変換を紹介する。そして、 SAS で用いることの可能な苦L 数関数のうち、 RANUNI,RANBIN,RANEXP RANGAM,RANNOR,RANPOI,RANTBL,RANTRIを簡単にレピ、ユーす る。加えて乱数ルーチンについても紹介し。シードの扱われ方を考える。 RANUNI 前述の乗算合同法による一棟吉L 数l まRANUNI関数と RANUNIルーチンで実行できる。基本的な指定 方法は、 x = RANUN工 (seed) と単純である。コーデイングの例として 1 0個の凱数を生成するプログラムを取り上げる。図表1.のようにシ ードを 4989(四苦八苦のシヤレ)を指定すると図表 2 .のように 1 0個の一棟分布 U[O1 ]に従う凱数夢JX I を得 る。この変数 x は 周 期 が 2、 1 4 7, 483, 647 の乱数夢J Iである。 U [ a, b ]に従う吉L 数夢J Iなら x=(b‑ a )吋 anuni(4989)+aとすればよい。 司 図表 l 一様乱数の SASプログラムの例 1 data uniform; do i = 1 to 10; x = ranuni(4989); output; end; run; proc print; run; d 1i 同 ハ n u
図表~一様苦L 数の結果 1 OBS x エ l l 0.77826 2 2 0.77260 3 3 0.72346 4 4 0.13984 5 5 0.87526 6 6 0.72470 .92309 7 7 自 自 0.61001 9 9 0.42240 10 10 0.10053 。 ここで、シ ド を 4989とした一様乱数夢J I の変数 : ‑ ; 1 に加えて、シードを 5 9 6 3 lこ苦労さんのシャレ!)とした 一様乱数列心を生成させてみる(図表 3.)0: ‑ ; 2のシードを他の数値に代えても図表 4 .と同じ結果になる。 この結果から同一の一棟乱数列が生成されるのではなく、図表 lの変数 xのうち、奇数番目のオブザベ ーションが変数 : ‑ ; 1、偶数番目のオフ、ザベーションが口になっていることがわかる。苦L 数の生成した[ j 頃番を 考えると、 : ‑ ; 1の l件目、 : ‑ ; 2の l件目、 x l の 2件目、 : ‑ ; 2の 2件目、ーとなり、 1つの乗算合同法の漸化式 が使われていることを示している。したがって、 : ‑ ; 2のシ ドは無視されていて、 : ‑ ; 1と心の周期は xの半分 しかない。 ε 図表 3 一棟乱数の SASプログラムの修I J 2 data uniform; do i = 1 to 10; x1 = ranuni(4989); x2 = ranuni(5963); output; end; run; proc print; runi 図表 4 一様乱数の結果 2 OBS l l 2 3 4 5 6 7 2 3 4 5 6 7 L 日 日 9 10 9 10 x1 0.77826 0.72346 .87526 0.92309 0.42240 0.58035 0.58422 0.59203 0.06022 0.07990 。 x2 0.77260 0.13984 0.72470 0.61001 0.10053 0.59003 0.18385 0.70069 0.05893 0.04601 それでは、異なるシードによる最大の周期が得られる 2つ一梯乱数列 : ‑ ; 1 と立はどのように求めることが 出来るのか?その力ギが RANUNIル チンにある。図表 5のようなコーディングをすれば、:‑;1!ま最初に 紹介した変数 x(図表 lおよび図表 2)と同じシ ドが 4989の一様乱数列になり、心はシードが刊 63で最 大の周期が得られる一徳乱数列になる。 l ミ 八N LJNIルーチンでは s c c dを変数として持たせることになるが I ミANlJNIルーチンが c a l lされるたひ1 二置き換えられる。 l章で乗算合同法の説明に用いた λ"に相当する。 それを示すために、日 c dを Mで割った簡を変数 xJとして図表 6の出力に含めた。ただし、変数 : ‑ ; 1 心と もに R八NlJNIルーチンを用いて乱数列を生成するこもできる(図表 7日図表 x.}。 ‑191
図表 5 一様乱数の SASプログラムの例 3 data uniform; seed = 5963; do i = 1 to 10; x1 = ranuni(4989); ca11 ranuni(seed, x2); x3 = seed/(2**31‑1); output; end; run; proc print; run; 図表 6 . 一様乱数の結果 4 OBS 工 2 3 4 5 6 7 日 9 10 seed 2001033528 工372266591 327141669 工705364825 1108470530 工719783441 工685365546 1025945650 工979503779 2010790291 コ L 工 2 3 4 5 6 7 日 9 10 。 x1 .77826 0.77260 0.72346 0.13984 0.87526 0.72470 0.92309 0.61001 0.42240 0.10053 x2 0.93180 0.63901 0.15234 0.79412 0.51617 0.80084 0.78481 0.47774 0.92178 0.93635 x3 0.93180 0.63901 0.15234 0.79412 0.51617 0.80084 0.78481 0.47774 0.92178 0.93635 図表 7 一様乱数の SASプログラムの例 3 data uniform; seed1 = 4989; seed2 = 5963; do i = 1 to 10; x1); ca11 ranuni(seed1, x2); ca11 ranuni(seed2, output; end; run; proc print; run; 図表 8 . 一様乱数の結果 4 OBS 工 2 3 4 5 6 7 日 9 10 seed1 工671302432 工659150984 工553625133 300307943 1879608626 工556276917 1982331079 工309976076 907090117 215877805 seed2 2001033528 工372266591 327141669 工705364825 1108470530 工719783441 工685365546 1025945650 工979503779 2010790291 エ 工 2 3 4 5 6 7 日 9 10 x1 0.77826 0.77260 0.72346 0.13984 0.87526 0.72470 0.92309 0.61001 0.42240 0.10053 x2 0.93180 0.63901 0.15234 0.79412 0.51617 0.80084 0.78481 0.47774 0.92178 0.93635 RANB工N つづいて、一様乱数から他の分布に従う乱数の生成法を考えてみよう。まず、コイントスを例に考えて みる。コインの表 λ (斗)、裏 (X=O)が出る確率がそれぞれ 0 . 5 のとき、コイントスを複数回繰り返して起きる 結果を乱数列として実現してみる。 R^NUINI関数およびル チンで生成される一様乱数 υは U [ O . I[ であ るから、 0 . 5より大きいか?、あるいは小さいか?の確率は 0 . 5になる。そこで、 (U>05 コ l二 l U: o ;0 . 5 コ Xニ O として、乱数 X を生成すれば、 0 と lがそれぞれ確率 0 . 5 で出現する乱数列が生成できる。 SAS では RANsIN 関数、ルーチンを用いると 様乱数を発生させることなく二項分布に従う乱数列を生成させるこ η ノμ Tよ Gd
とができる。基本的な指定方法は、 x = RANB工N(seed, n, p) でB e (Il,p)に従う乱数が生成で、きる。コイントスの例では 1 1 = 1、p = 0 . 5になる。 RANBINルーチンと一棟乱数 から誘導した結果と比べてみる。図表 8および図表 9中の変数 xl が一棟舌L 数の変数 uから誘導された コイントスの結果で、変数 x2が RANBINルーチンから生成されたコイントスの結果である 両者が一致し ているだけではなく、 seedの値が図表 6の RANLJNIルーチンから計算された結果とも一致していて、変数 x 2 も 様分布から誘導されたものであることがわかる。 1 1 > 5 0 の時には二項分布の正規近似から正規乱 数をもとに生成される。 O 図表 8 .二項乱数の SASプログラムの例 data bin; seed = 4989; 0; do i =ユ to ユ u = ranuni(4989); コ Lf u > 0.5 then x1 = 工 ; e1se x1 0; ca11 ranbin(seed, 1, 0.5, x2); output; end; run; = proc pr~nt; run; 図表 9 . 二項苦L 数の結果 OBS 1 2 3 4 5 6 7 自 9 10 seed 1671302432 ユ659ユ50984 1553625133 300307943 1879608626 1556276917 工9日2331079 工309976076 907090117 215日77805 コ L 1 2 3 4 5 6 7 日 9 10 u 0.77826 .77260 0.72346 0.13984 0.87526 0.72470 0.92309 0.61001 0.42240 0.10053 。 1 x2 1 1 1 1 1 1 1 1 1 1 x1 工 ユ 。 。 工 。。 。。 RANEXP 指数乱数は生存時間解析に関係したシミュレ ションを行う場合に瀕用される舌L 数で ある。この乱数も 'の分布関数が 二項乱数と同じように一様乱数から変換して生成することができる。確率変数 λ F(x)= P r { λ,~xl のとき、一棟乱数 Uから X=FI(U) で求められる。これは逆関数法と呼ばれている。指数分布では F(x)=]‑e 心 X>O F け 1 ( であるから、 λ 'ニ λlog(l‑(J) となる。 ( JがlJ1 0 . 11 であればい(,'も UIO1 1に従うので、指数乱数は 司 λ 一λlog(U) で得られる。 RANEXP 関数およびルーチンは単位指数分布(A.=1)に従う乱数列を生成する。基本的な 指定方法は、 x = RANEXP(seed) 193‑
であり、パラメータ λ(すなわち、平均が 1/λ)の指数分布なら 1 / λ 倍、メジアン MST の指数分布なら MST/1og2倍すれば良い。指数乱数 ( λニ1 )の生成を逆関数法で求めた変数 c 1と 、 RANEXPルーチンで 求めた変数 e2のコーディング例と結果を示す(図表 9 .、図表 1 0 . )。 0 指数百L 数の SASプログラムの例 図表 1 data expo; seed =4989; do i =1 to 10; u = ranuni(4989); e1 =‑log(u); e2); ca11 ranexp(seed, output; end; run; proc print; run; 図表 11.指数百L 数の結果 OBS 1 2 3 4 5 6 7 自 9 10 seed 1671302432 工659150984 1553625133 300307943 1879608626 工556276917 工982331079 工309976076 907090117 215877805 エ 1 2 3 4 5 6 7 日 9 10 u 0.77826 0.77260 0.72346 0.13984 0.87526 0.72470 0.92309 0.61001 0.42240 0.10053 e1 0.25069 0.25799 0.32371 1.96724 0.13323 0.32200 0.08002 0.49429 0.86181 2.29734 e2 0.25069 0.25799 0.32371 1.96724 0.13323 0.32200 0.08002 0.49429 0.86181 2.29734 RANGAルT ガンマ分布も一様分布から変換されるが棄却法で生成される。棄却法では、生成したい分布の確率密度 関 数 市) 1こ比較的近い単純な確率密度関数以 x )の分布に従う百L 数 X を生成させておく。ただし、 f ( x )三 c g ( けとなるような小さな数じを選ぶ。次いで、 U [ O . I ]の 様乱数 U が j(X)/cg(X)を下回れば X を j (けを生 成したい分布の乱数として採用する。 RANGAM関数およびルーチンは尺度パラメ タが lで 形状パラメ ータ a1pha(>0)のガンマ分布に従う乱数手1が生成される。指定方法は、 x =RANGAM(seed, alpha) とする。尺度パラメータ b c t aへの変換は x =beta RANGAM(seed,alpha) 合 で可能である。 RANNOR 正規乱数の生成法として最も単純なのは中心極限定理を応用して、 U[O1 Jの一様百L 数 U, を 1 2個足しあ わる方法である。すなわち、 今 x=U,+Uュ+ ・ ・ ・ +U" ‑6 とする。 E[X]=E[U, +U, + . . . + U " ‑6]=E[U, ]+E[U, ] +・+J : ' [ U, , ] ‑6 =1/2+112+ ・ ・ ・+112‑6=0 '[ U, +U, + . . . + l J'2 ‑6]=V [ lノ , ] +1 ' [ l J , ] +・+1'[[', , ] 1'[λ]=I ニ 1 / 12+1/ 12+ ・ ・ ・+1112=1 であるから X を標準正規分布に従う乱数と考える。ただし、これでは 1 2個の一様乱数から l個の正規乱 数しか生成できず効率的ではない。 SASでは Box‑Mu11er変換を用いて標準正規分布に従う百L 数を生成し ている。 いま、 X、 Yを互いに独立な標準正規分布に従う確率変数とすると、同時分布 l ま 守l d 口 同υ ー バ よ
マ
古
主
j
7
ア叫叫州叶 f
十
トマ
志
女
j
7目叫州似(十 州川
lw
川
の
ψ
か
Oす
ヰ
す
か
以
e叶
/
川
(
川
X
い
川
リ
川
y
川
づ
μ
州
附
)
附
引
正
品
k
州
市
仇
川
州
の
t
I
y
止=
y
刈
X
叩
削
p
判仲ヲ刈十(ト寸一 )x
t ti =
p
刈
X
叩
p
ヲ
。
=
=
。
0
'
。
ここで .¥=r'ω
c
川
0
s
(
) Vニ r'
s
I
n()と変換すると、ヤコビアン行手J
!
式は
司
λ
8
x
.
J II~I・ 0θ11
e
り
Y
i
l
8
r θ
r
から d
'
(
(
l
l
'= r
d(
)d
rとなる。したがって、 r
=
.
¥
"とおくと同時分布は
1
1 、
1
1 .~ d
.
¥
'
‑:‑cxp(ープー )
r
d&!r 二てー cxp(τ s) 正IO-~
4π.!.
.!..π.!..
.
!
.
となる。これは、 U[O.2πl、と平均 2の指数分布の同時密度になっている。したがって、一様乱数から U[O、
2π]に従う乱数 2 π x1
1
2、平均 2 の指数分布に従う乱数 ‑210巳
(
1
l1
)を用いれば標準正規分布に従う乱数を
生成することができる。これらは RANUN1関数と RANNORルーチンを使って確認で、きる。変数 1
1
1,
1
l2 が
同一の系列の一様乱数列 U[O 1
1で、変数 ;
.
;
1 が変数 11
.1
1
2 から生成された吉 L
数引で、ある。本来、 80x‑
M
l
l
l
1巴I変換は 2つの一様乱数から 2つの正規乱数を生成するものであるが、 5巴
巴 dを4
989とした RANNOR
コールで生成された変数 ;
.
;
2 は変数 ;
.
;
1 と等しい(図表 12 図表 1
3
.
)。平均 1
1
1
1
1、標準偏差 sigmaに従う正
規吉L
数は、
x
=m u + sigam*rannor(seed)
とすれば良い。
図表 1
2 正規乱数の SASプログラムの例
data nor
官1
;
seed =4989; pai =4合 atan(
1
);
do i = 1 to 10;
u1 =ranuni(4989);
u2 = ranuni(4989);
x1 = sqrt(ー2合 1og(u1)) 合 cos(2合 p"斗 合 u2);
ca11 rannor(seed,
x2);
output;
end;
run;
int;
proc pr.
run;
図表 1
3
. 正規乱数の結果
OBS
1
2
3
4
5
6
7
自
9
10
seed
1659150984
300307943
1556276917
1309976076
215877805
12670自3231
394822675
150471418日
126548426
98805778
pal.
3.14159
3.14159
3.14159
3.14159
3.14159
3.14159
3.14159
3.14159
3.14159
3.14159
l
.
1
2
3
4
5
6
7
自
9
10
u1
0.77826
0.72346
0.87526
0.92309
0.42240
0.58035
0.58422
0.59203
0.06022
0.07990
u2
0.77260
0.139自4
0.72470
0.61001
0.10053
0.59003
0.18385
0.70069
0.05893
0.04601
x2
x1
0.10022
0.10022
0.51350
0.51350
‑0.0自172
‑0.08172
‑0.30824
‑0.30824
1.05958
1.0595日
‑0.88069
‑0.8自069
0.41861
0.41861
‑0.31220
ー 0.31220
2.20993
2.20993
2.15482
2.154自2
RANPOI
ポアソン分布に従う乱数を生成する。平均 111のポアソン分布に従う乱数列の指定方法 l
ま
、
x =RANPO工 (seed,
m)
でよい。 SASでイまマニュアル中に生成方法の記述がないため生成方法は不明で、ある。
RANTsL
確率関数/小二) i
=1
,
.
.,.11 に従う舌L
数列を生成する。例として、サイコロの目を考えよう。すべての目が確率
‑195
1
/
6で出現するとすればjJ(1)
=
j
J
(2
.
)
=
… =jJ(
6
)
=
1
/
6である。これの確率を並べて、
x = rantbl(seed,
l/6,
l/6,
l/6,
l/6,
l/6,
l/6)
と指定する。 RANsIN 関数と同様に 様乱数からの変換が可能であり、次のコーデイング例により
RANTsL関数の一棟乱数からの変換方法が理解できる(図表 1
4
.、図表 1
5
.
)。ところで、確率関数である
から
LP(X
,
)=1
の制約が当然ある。しかし、 RANTBL関数および RAN
TsLルーチンでは p
(リ <
1であれば、
L
P
(
.
¥
",
)>1 あるいは工 p
(りく l
で、あってもエラーメッセージもなく乱数手[Jを生成するため注意が必要である。
例えば、
x = rantbl(seed,
l/6,
l/6,
5/6,
l/6,
l/6,
l/6)
とした場合には、
p(
l)=p(2)=1
I6
. p(3)=I‑{p(
l)+p(2)}=4/6. p(4)=p(5)=p(6)=0
として扱われ、 xは実現値として l
ム3の値しか生成しない。したがって、
x = rantbl(seed,
l/6,
l/6,
l/6,
l/6,
l/6,
l/6,
l/6,
l/6,
l/6,
l/6)
ユ
としても xは l 3人 56が等確率で出現する乱数列が生成される。
また、
x = rantbl(seed,
l/6,
l/6,
l/6,
l/6)
とした場合には、確率を 4つ指定していても、
p
(
l
) p(2)=p(3)=p(4) p(5)=I‑{p(
l)+p(2)+p(3)+p(4)}=2/6
二
ユ
として扱われ、 x は l 3人 5 の値を生成し、 x=5になる確率が他の数値の出現する確率の 2倍になる。
4
.任意の確率関数に従う百L
数の S八Sプログラムの例
図表 1
data tbl;
seed = 4989; P = 1/6;
do i = 1 to 10;
u = 6*ranuni(4989);
if u < 1 then x1 = 1;
e1se u < 2 then x1 = 2;
e1se u < 3 then x1 = 3;
e1se u < 4 then x1
4;
e1se u < 5 then x1 = 5;
e1se x1
6;
cal1 rantb1(seed,
p,
p,
p,
p,
p,
p,
x2);
output;
end;
run;
寸
proc print;
run;
図表 1
5
.任意の確率関数に従う乱数の結果
OBS
1
2
3
4
5
6
7
B
9
10
seed
1671302432
1659150984
1553625133
300307943
1879608626
1556276917
1982331079
1309976076
907090117
215877805
P
0.16667
0.16667
.16667
0.16667
0.16667
0.16667
0.16667
0.16667
0.16667
0.16667
。
~
1
2
3
4
5
6
7
B
9
10
‑196‑
u
4.66957
4.63561
4.34078
0.83905
5.25157
4.34819
5.53857
3.66003
2.53438
0.60316
x1
5
5
5
1
6
5
6
4
3
1
x2
5
5
5
1
6
5
6
4
3
1
RANTl U 確率変数が 0から lの範囲をとり、最瀕値を hとする三角分布に従う乱数列を生成するのが RANTRI関 数および、ルーチンである。基本的な指定方法は、 x = rantri(seed, h) とすればよい。マ二斗アルには生成の方法の記述がないが逆関数法が用いられているようで、ある。 3 . シミュレーションへの準備 1の分布に従 ここでは、複雑なシミニLレーションを行うための準備として、 2章で、紹介した関数を使って、見] う乱数への変換方法、相聞のある 2変量分布に従う乱数列の生成方法を紹介する。これらを通じて乱数 手J Iの変換の基本的な原理は確率変数の変数変換であることが理解できよう。 ベータ分布 Bcta(α s) 確率変数 C i ] .Ci,がそれぞれパラメータ α、3のガンマ分布に従う権率変数なら、 Xニ 一三」 C ; ]+C ;2 とすると確率変数 X はベータ分布に従うことを利用する。すなわち、 gl = rangam(seed, alpha) g2 rangam(seed, beta) x =gl/(gl+g2) とすれば良い。 自由度ゅの(中心)カイ二乗分布 形状パラメータ φ/2、尺度パラメータ 1 / 2 のガンマ分布が自由度 φの力イニ乗分布に一致することを利用 すれば、 G =2*gamma(seed, df/2) とすれば良い。ただし、 dfは自由度。 t分布 自由度ゅの(中心 ) Zが標準正規分布に従い、 γが自由度 φの力イ二乗分布に従い、 Zと yが独立なら " ¥= ‑ ‑ ‑ ‑ ; 0 乙 F 1 O とすると確率変数γ 4は自由度 φのt分布に従うことを利用する。すなわち、 z = rannor(seed) df/2) y = 2*rangam(seed, x = z/sqrt(y/df) とすればよい。 自由度仇、ゆ 2の(中心 )F分布 確率変数 X ]λ 1がぞれぞれ自由度 φ !、φ 2の力イ二乗分布に従うとき、 F= 以 / 件 、 とすると確率変数 Fは自由度 φぃ φ zの l分布に従うことを利用する。すなわち、 xl = rangam(seed, dfl/2) df2/2) x2 = rangam(seed, f = (xl/dfl)/(x2/df2) とすればよい。 1 9 7 ‑
パ一セント点を求める関散を使う方法
ここまで紹介したものは統計学の教科書に出てくる標本分布を誘導する式に基づいていた。正規分布
に従う確率変数を正規乱数として読み替えて使えば乱数列が生成できることを示した。ところで、 SAS に
は確率 pのパーセント点を求める関数が、
BETAINV(p,
a,
b)
ベータ分布 (a,
b
)
カイ二乗分布(自由度 d
f
、非心度IlC
)
F分布(自由度 n
d
f
,
d
d
f
、非心度 n
c
)
ガンマ分布(形状 1
¥ラメータ a
)
標準正規分布
1 分布(自由度 d
f
、非心度 n
c
)
df<,
nc>)
CINV(p,
FINV(p,
ndf,
ddf<,
nc>)
GAMINV(p,
a)
PROBIT(argument)
TINV(p,
df<,
nc>)
として用意されている。 U[O、
1
]に従う一様乱数を RANUNI関数あるいはルーチンから pとして生成すれば、
三れらの関数を逆関数として用いてベータ分布、力イ二乗分布、 F 分布、ガンマ分布、標準正規分布、 1分
布の乱数列を容易に生成することができる。
多次元正規分布
確率変数 xが標準正規分布 N(O,
I
)に従うとき、
y=μ+σ xX
とすると確率変数 r!ま平均 μ、分散がの正規分布に従う。同様に λレ..)("が互いに独立に標準正規分
布 N(O,
I
)に従うとすれば、
};=μ1+μ IIXXI
y
,= μ2+
(
/
2
1xX1+正122 XX2
y r
μ +(
/,xX,+α 、
×,.λ
+・・+(.
/
.
.
‑
.
.,
.
1 xX
J"
・1/
' "
'1/1 "
~..
J ' .
.
./}~
1
'
/
1
/ "
1
1
とするとき、確率変数には平均以、分散は
σ
1
1=O,
i十 (/'‑2十一・十(/,:
である。 r
,と];の共分散 (
i
>
j
)は
σ=(/'
,
(
/
,,
α
,
(/
ー+
..+
(
/(
/J/
1
.
.
.
.
1+
'
.
.'
1
.
.
.
.
,
2
'.
,
.
.
.
.
,
}
.
.
.
.
である。例として 2次元正規分布を考えてみる。
ii=λ1
,
'
)
=ρλI+~子λ:
なら、 )
'
1とじの期待値は
E
[
r
]
=E[Xトo
,
E
[
r
J
=〆[λ1]+[
1
三
九'
[
x
J
=
。
1
,
分散は、
r
[
}
;
]
=r
[
x
ト
,l
1
'
[r
二
]ρ21'['¥"1]+(1̲〆
t
)'[.¥'2]=1
r
2
C
0
1
‑
[
}
;
.r
ト
,E
[
(
}
;‑E
O
;)X}~ ーと(r2 ) )
]
二E
[
r
/
Jニ E
,
い+
.
J
i
て
子λX 卜ρ
2
1
'
I
2
となり、 Y1と九は相関 ρの標準正規分布となる。コーディング伊庇以下に示す。図表 1
6では ρ=0.8として
変数 z
l z2が正規乱数として生成されている。 ζ の数値例(図表 1
7
.
)ではピアソン相関係数が 0
.
8
2で、あっ
T
ニ
。
の
白
ハud
1ょ
図表 1
6
.2次元正規乱数の SASプログラムの例
data bェnorm;
rho = 0.8;
do ェ= 1 to 10;
zl = rannor(4989);
z2 = rho*zl + sqrt(1‑rho**2)*rannor(4989);
output;
邑n
d;
run;
proc prエnt;
run;
proc corr;
var zl z2;
run;
図表 1
7
.
2次元正規乱数の結果
OBS
RHO
工
1
2
3
4
5
6
7
0.8
0.8
0.8
0.8
0.8
0.8
0.8
0.8
0.8
1
2
3
4
5
6
7
日
9
自
9
Zl
0.10022
0.08172
1.05958
0.41861
2.20993
‑0.17909
‑0.52436
1.03183
‑0.45251
Z2
0.38828
‑0.25032
0.31925
0.14757
3.06084
0.42572
0.69010
0.44393
‑0.14701
相聞のある指数分布
がそれぞれ形状パラメータ αl'
正規分布と同様にガンマ分布も再生性がある。すなわち、確率変数 λbX,
αzのガンマ分布に従うとき、確率変数の和はパラメータ α1+α2のガンマ分布に従う。同様にふが形状パ
ラメータ α、X
"X}が形状パラメ タ 1
‑
α のガンマ分布に互いに独立に従うとき、
)
;
二 X +X
1
2
,
'
} =λy14X1
および、 ,
とすると確率変数 r
yはともに形状パラメータが l、すなわち単位指数分布に従う。そして、共分散
1
は
仁川
]=E[
{
y
;.
r
(
J
;‑IXY2-1)ト E[}~}~ ‑};‑}'2+1
トE[};Y2]‑1
2
ところで、
λ
{'"X,
トE[X,
Xc
]
‑E[X,
]
E
[
X,
トE
[
.
.
¥
:
",
X,
]
‑
a
(
1 α)
(
刈X"XJ=E[X,
X,
]
‑E[X,
]E[X
]
,=E[X,
X,
]
‑α(1 α)
(
川X"X]
, E[X,
XJ‑E[X
]
c
E[X
]
,=E[X,
XJ‑(
1 α)'
仁川
ー
ニ
ー
で
、 XぃX
"X}1
ま互いに独立だから Covlλ;λJ=Oより、
E[X,
XJ=E[X,
X]
,=α(1ー α), E[X
したがって、
ょ ]‑1=α(1+α)+α(1α)+α(1α)+(1α) 1=α
E
[
}山 ]‑1=Elλ1‑+.¥'λ2+
.
¥
"
,λ + X
ミ
ご
すなわち相関 αとなる。これを利用して、相聞が 0
.
8のともに単位指数分布に従う乱数列の生成のコ デ
インク。例を示す(図表..,..,、図表 2
3
.
)。図表 1
9では変数 x工心聞の相聞が高いように感じるかもしれないが、
.
2
( 1
‑1
'1
1
0
)であるため変数 :
¥
1 に比べて平均的に小さい値が出現しているためで
ともに形状パラメータが O
.
6
7で、あった。
ある。この数値例ではピアソン相関係数が 0
二
υ
41
同
ハ円同υ
ム
図表 1 S .2次元指数乱数の SASプログラムの例 data biexp; rho = 0.8; do i = 1 to 10; x1 = rangam(4989, rho); 1‑rho).' x2 = rangam(4989, 1‑rho); x3 = rangam(4989, y1 = x1 + x2; y2 = x1 + x3; output; end; run; proc print; run; proc corr; var y1 y2; run; 一 一 国表 19.2次元指数乱数の結果 OBS RHO 工 1 2 3 4 5 6 7 0.8 0.8 0.8 0.8 0.8 0.8 1 2 3 4 5 6 7 日 9 10 4 . O .日 0.8 0.8 0.8 日 9 10 X1 0.75799 0.25327 0.01065 1.30966 2.19670 0.07666 0.29268 0.05105 0.17157 0.07515 X2 0.25684 0.00011 0.05370 0.55218 0.94581 0.00000 1.05975 1.05811 0.07417 0.01156 X3 0.99429 0.00000 0.01551 0.34367 0.03025 0.00000 0.60913 0.01621 0.8日393 1.36日45 Y1 1.01483 0.25337 0.06435 1.86184 3.14251 0.07666 1.35243 1.10916 0.24573 0.08671 Y2 1.75228 0.25327 0.02616 1.65333 2.22695 0.07666 0.901日1 0.06726 1.05549 1.44360 シミュレーションの適応例 最後にシミュレーションの事例を紹介する o 取り上げるイ~IJl まがん臨床試験の第 E 相試験である。この臨 床試験は生存時間をヱンドポイン卜として標準治療と、新治療の比較を目的として実施される r 試験計画 の段階で、各群の予想される生存率(例えば 3年生存率)、あるいは標準治療の生存率と臨床的に検出し ・3 に加えて、症例集積の期間、登録終了後の追跡期間をもとに必要症 たい差 A、有意水準 α、検出力 1 例数、いわゆるサンプルサイズが算出される。 般的な計算では生存時間分布に指数分布を仮定し、症 修 J I は集積期間中のいす、れかの時点で 様に登録される( 様分布)と仮定する。したがって、これらの仮 定が変われば観察されるイベン卜数が増加あるいは減少することにより検出力に影響してしまう。そこで、 この仮定を変えたときの検出力をシミュレーションにより評価してみる。 シミュレーションの設定を次のようにした。標準治療群 l年生存率 15%、検出したい差は l年生存率で 15%の上乗せ。集積期間 2年、登録終了後の追跡期間 l年。通常の計算だと両側有意水準 5%、検出力 80%以上として│群あたり 8 3例が必要となる。対立仮説として想定する生存曲線を図表 20に示す。 勺 : 、 ; 』 皿二二二黙護保 A 1 0 ; ; 入 二 : 二 │ 開(年} 図表 2 0 . 対立仮説の下での生存曲線(指数分布) そこで、生存時間分布にワイフル分布を仮定し、形状パラメータが I(指数分布)から離れることによる影 ‑200一
響を定量的に詞べてみる。形状パラメータ 3、尺度パラメ
タαのつイブル分布の生存関数を示す。
竹
S(
I
)二 巳 x
p
l
‑(
1/
α)
通常の仮定では両群の形状パラメータ 3をともに]と仮定していることになる。そこで、標準治療群 1:
年
生
存率 15%、新治療 1:年生存率 30%の設定で、両群の形状パラメータを共通にして β Oム 2
.
0と変化させ
たときの生存曲線を図表 1
9に示す。 s<Iでは s>Iに比べて試験直後にハザ ドが高いことがわかる。
二
;ト¥'畑 三三三:鰭伊;
0
.
4
、
「ード己 ー
ω
z
蜘帽(年)
仇間{年}
図表 21.ワイブル分布の生存曲線(左:s=Oム 右 β=2.0)
任意に 3を変化させてシミュレーションを行うためには各患者の生存時間、各患者の登録時点を乱数
列として生成する必要がある。生存時間分布は、生存率に U[O,
l
]の一様乱数 U を用いれば、
w=α(
‑
I
o
g
u
fρ
としたとき、変数 1
1
1 がワイブル乱数になることを利用すればよい。個々の症例がどの時点で登録される
か?は u
[
0,
2
]に従う一椋乱数を生成させる。恰も一様分布から逆関数法で生成するので、二次元の一棟
乱数列を生成させることになる。疑似乱数の利点は乱数の再現性にある。同じ一棟乱数列に対して、パラ
メータ βと対立仮説の設定に基づ、いた αの組合せを適応させて乱数列を生成することができる。具体的
には最初に 2群合計して 1
6
4例について二次元の一様乱数を生成しておいて、パラメータ βと対立仮説
の設定に基づ、いた αの組合せを変えれば、シミュレーション毎の乱数列の生成結果の変動がなくなりパラ
メータ 3の影響を評価することができる。一棟乱数から変換されて生成されたワイブル乱数 w は、個々の
症例の追跡期間は登録終了後 1年間追跡されるので 棟乱数 U[U]に従う乱数 f
o
l
l
o
wと比較して、
w>I
o
l
l
o¥Vなら時点 f
o
l
l
o
wで打切り
\V~三 Îollo \Vなら時点 w でイベント
と扱う。この扱いで、生成されたデータで、観察された生存期間を t
J
ln
e、打切りを示す変数を CCI
lSOI として
L
1FETESTプロシジャによりログランク検定を実行して p値を得る。図表 20のプログラム例では l群 8
3
例の試験を 1
0、
000回繰り返している。シミュレーションを SASで実行するためには、統計パッケージの色
彩の強いプロシジャと、計算機言語としての DA1A ステップ、さらにマクロを組合せて活用することがキー
になることがわかる。図表 2
1の集計プログラムから s<Iでは打切り症例が増えるためイベント数が減り、
結果的に検出力が低下する (s=0.25のとき 76.1%)ことがわかる。
5
.
まとめ
SAS ではいくつかの分布に従う乱数関数が用意されている。それらを組合せることによって必要とする
乱数列を容易に生成することができる。さらに、 D八TA ステップやマクロを活用すれば相当に複雑なシミュ
レ ションでも効率的なフログラミングでシミュレーションを実行できる。ただし、乱数列の変換により様々
な分布に従う乱数列の生成をすることについては、確率変数の変数変換といった基本的な統計学の知識
が前提であることは言うまでもない。
参考文献
柴田義貞(
1
9
8
9
)i
正規分布特性と応用 :Uf'応用数学選書 3
J
. 東京大学出版会
伏見正則 (
1
9
8
9
)i
乱数 Uf'応用数学選書 1
2
J司東京大学出版会
Masl
Im
oto,M.andN
i
s
h
i
m
l
l
r
aT.(
1
9
9
X
) Mers巴IlIlC t
w
i
s
t
e
r
:a6
2
3
‑
d
i
m
c
n
s
i
o
l
l
a
l
l
yc
q
l
l
i
d
i
s
t
r
i
b
l
l
t
c
d1
I
1
li
f
o
n
n
Id
o
r
a
n
d
oI
l
lI
ll
l
m
b
e
rg
e
n
e
r
a
t
o
r
"
.AC!vj刀'(//1.1'. ()11 ん1od
ど
,/
i
l
1
gω
/
(
/C
O
l
l
l
p
l
l
f
e
rS
i
l
1
1
l
1/
U
f
i
ol
1V
o.
l8 N
o
.1
、
p
s
cl
201‑
J a n l l a r y3・3 0 . Mick,R .,Crowley ,J . J .a n dC a r r o l l,R. J .( 2 0 0 0 ) P h a s e1 c l i n i c a lt r i a ld e s i g nf o rn o n c y t o t o x i ca n t i c a n c e r O l l l r o l l e dC l i l l i c a l刀 ・i a l s a g e n t sf o r which t i m et od e s i e a s ep r o g r e s s i o ni st h ep r i m a r ye n d p o i n tぺC 2 1: 3 4 3 ‑ 3 5 9 . J o h n s o n,R . E .( 2 0 0 0 ) P s e l l d o ‑ r a n d o mn l l m b e r s :O l l to fl In i f o r m ",P r o c e e d i n g so ft h eT e n t y ‑ F i f t hA n n l l a l ・ sG r o l l pI n t e r n a t i o n a lC o n f e r e n c eP a p e r2 3 6 ‑ 2 5 :1 2 1 8 ‑ 1 2 2 0 . SASU s e l S c h o e n f e l d,D . A .a n dR i c h t e r,J . R .( 1 9 8 2 ) Nomograhsf o rc a l c l l l a t i n gt h en l l m b e ro fp a t i e n t sn e e d e df o ra . l '3 8 :1 6 3 ‑ 1 7 0 . c l i n i c a lt r i a lw i t hs l l r v i v a la sa ne n d p o i n t "B i o m e l r i c SASシステム V e l ・ s i o n8 . 1 オンラインヘルプ 図表 23 シミュレーション結果の集計プログラム proc format; va1ue sig 10w ‑ 0.05 = ' * ' 0.05 <ー h igh= 'NS'; run; proc freq data=test; tab1e beta*probchisq I noco1 norow nopercent out=out outpct; format probchisq s i g . beta 4 . 2 ; run; proc print data=out; where probchisq <= 0.05; var beta pct row; r1.ln; goptions reset=a1l target=winprtm rotate=landscape; proc gp10t data=out; where probchisq <= 0.05; p10t pct row*beta; symbo1 v=none i=join ユ= 1 ; run; quit; proc means data=cens; var censored pctcens ; class arm; by beta; run; ハHU n r白 臼 つ
図表 2 2 .シミュレ ションの SASプログラムの何J I proc datasets ki11; run; data random; do sim = 1 to 10000; do arm = 1 to 2; do i =工 to 83; uni = ranuni(4989); fo110w = 2*ranuni(4989) + 1; output; end; end; end; run; %macro weib; もdo i = 1 もto 5; data work; set random; beta = 2**(&i. ‑ 3); if arm = 1 then a1pha =工/(工og( 0.15))**(l/beta); e1se a1pha = 1/(‑10g(0.30))**(工/beta); w = a1pha*(‑log(uni))**(l/beta); if w > fo110w then do; time = fo1工Q W ; censor = 1; end; e1se do; time w; cenむ or = 0; end; run; ods output HomTests=wk test CensoredSummary=wk cens; ods 1isting c10se; proc l~fetest data=work notab1e; time time*censor(l) strata arm; by sim; run; ods output c10se; ods 1isting; data wk test; set wk test; beta = 2**(&エー 3 ); run; proc append data=wk test base=test; where test='Log‑Rank, ; run; data wk cens; set wk cens; beta = 2**(晶 i.‑3); run; proc append data=wk cens base=cens: run; %end; %mend; もweib ηべ υ n J白 ハ u
日本 SASユーザー会 (SUG1‑0) SASjSTATソフトウェアによる ノンパラメトリック回帰の紹介 小野裕亮小玉奈津子泉水克之 株式会社 SASインスティチュートジャパン テクニカルサポートグループ I n t r o d u c t i o nt oNo叩 a r a m e t r i cR e g r e s s i o nw i t hSAS/STATS o f t w a r e YusukeOno Na t s u k oKodama KatsuyukiIzumi T e c h n i c a lSupportGroup SASI n s t i t u t eJ apanL t d . 要旨 ノンパラメトリック回帰は、応答と説明変数との関係式を明示的に表すことなく、デー タからその予測値を導き出す分析の総称である。データマイニング分野における予測モデル ( p r e d i c t i v em o d e l )の橋築などでの応用が見込まれる。初めに従来の手法でもサポートされて o e s s回帰の実行例を示す。その後、パージョン 8より新しく追加された いた各手法を説明し、 l LOESS, TPSPLINE, GAMプロシジャの 3プロシジヤについて、その特長および文法を簡単に 紹介する。 LOESSプロシジヤ、 TPSPLINEプロシジヤ、 GAMプロシジヤ キーワード: 1 はじめに 1 .1 従来のプロシジャによる非線形関数の近似 通常の線形回帰分析では、応答変数 ( Y)を説明変数 (Xj, jニ 1 , 2 . 3 . . .n )の線形結合でモデル化するも のである。例えば、単回帰分析モデルは以下のような式で表現される。 Y =s o+s1X1+t ' 誤差(けが N( 0, ,,2 )の正規分布に従う場合、 β。(切片)と βJ(回帰係数)の値を最小 2乗法によって推定す ると、性質が良い推定値が得られる。非常に簡単で、計算も楽な方法であるが、線形関係しか描写できない という欠点、がある。 phu nω n u〆
線形関数に限らず、より一般的にその関数の部分を g ( x )として、その関数を近似することを考えてみる。 ち= g ( X j ) + f j ここで、 g ( X )は、滑らかな関数であるということを除き、その関数の型さえも未知であるとする。従来 の SASシステムの機能でも、次のような工夫により、 g ( X )の近似を求めることができる。 ・多項式回帰 ・区分多項式 ・ (予め、モデル式を明示的に指定した)非線形回帰 このなかで、 1番目の多項式回帰は、通常の線形回帰分析モデルと同様、次式のようにパラメータに関し て線形結合で表せる。 民 =s o+sjXj +s 2X;+ß3X~ + ・・・ +βnX~ +fj 多項式回帰は、次数を増やせば増やすほど、モデルの自由度が増加して、得られたデータに対する適合 度は増加する。通常の通常の回帰分析の枠組みで扱えるため、直感的にも理解しやすく、計算も楽である。 同様に、対数変換などの何らかの変数変換を行って、線形関係に近くした後に回帰分析を行うことも考えら れる。これらは、 SASjSTATソフトウェアの REGプロシジャや GLMプロシジヤ等を利用して実行する ことができる。 2番目の区分多項式モデルは、データをいくつかの区分に分割し、その区分ごとに多項式回帰モデルを あてはめていく方法である。 SASjSTATソフトウェアの TRANSREGプロシジャで行うことができる。 TRANSREGプロシジャで区分多項式を行う場合には、分割する区間を予め指定しておく必要がある。区 分多項式は、用いる多項式の次数を増やすだけでなく、区分数を増やすことによっても現データに対する適 合度は増加する。 最後の非線形回帰モデルは、 SASjSTATソフトウェアの NLINプロシジャで実行することができる。た だし、分析者は、 g ( X )、もしくは、それに近い関数を明示的に分析前に設定しておく必要がある。複雑な関 数を設定すればするほど、与えられたデータに対するあてはまり具合は良くなる。例えば、ニューラルネッ トワークモデルのように、非線形関数を幾つも合成させれることを考えれば、並列させる関数の数を増や n t e r p r i s eMiner せば増やすほど、現在のデータへのあてはまりは良くなる。ニューラルネットワークは、 E ソフトウェアで実行できる。 1 .2 追加されたプロシジャ g ( X )に対して滑らかさ以外は特に何も仮定せず(応答変数に対する分布や、適用する方法による依存す ( X )の近似値を求めることを強調した回帰分析は、 ノンパラメトリック回帰"とい る点は存在するが)、 g う総称で呼ばれることがある。 ノンパラメトリック回帰でも、導出される予測式の滑らかさの度合いは決める必要がある。滑らかさが足 りない場合には、データへのあてはまりが過度の状態になり、予測のばらつきが大きくなる。逆に、滑らか 過ぎる場合には、データへのあてはまりが悪くなり、また、予測に偏り(バイアス)が生じる。ノンパラメ トリック回帰を利用して予測モデルを作成するには、この 2つの関係のバランスを考慮、しながら、滑らかさ を決めなければいけない。 SASシステムリリース 6 . 1 2では、 SASjINSIGHTを利用して単回帰分析に対して一部のノンパラメト リック回帰を行うことができた(また、 SASjGRAPHの GPLOTプロシジャにも若干の機能がある)。パー ジョン 8以降では、 SASjSTATソフトウエアにおける下記のプロシジャを利用してノンパラメトリック回 帰を包括的に行うことが可能になった。これらのプロシジャを利用することにより、 2変数以上の説明変数 がある場合や、予測値の信頼区間、平滑化パラメータの選択なども行えるようになった。 追加されたプロシジヤは、下記の 3つである。 nhu ハHU n ノ
• LOESSプロシジャ ( I o e s s回帰) • TPSPLINEプロシジャ(薄板平滑化スプライン) • GA~I プロシジヤ(一般化加法モデル:リリース 8.1 では評価版?リリース 8.2 以降でプロダクト版) LOESSプロシジャおよび TPSPLINEプロシジヤは、観測値巧と g ( X j )の推定値との希離を、最小 2乗 o e s s 基準で判断する。基本的に、誤差が正規分布に従っているような状況で利用する(後に述べるように、 l には外れ値がある時や誤差分布の裾が重い時に対する工夫がある)。 一方、 GAMプロシジャ(一般化加法モデル)は、他 2つのプロシジヤと比べて、「力日法性の仮定」およ び「非正規分布への対応」という 2点で特長がある。説明変数の数が多くなると、上記 2つのモデルはそ の計算量が多くなるが、加法モデルというより単純な形にすることにより、計算量の増加を回避すること が期待できる。なお、従来の SASでも、 TRANSREGプロシジャにおいて、幾つかの加法モテ'ルを作成す ることはできる。非正規分布として、二項分布やポアソン分布といった指数分布族に属する分布を扱うこ とができる。指数分布族の応答をサポートしているという意味で、 GAMプロシジヤは、一般化線形モデル ( g e n e r a l i z e dl i n e rm o d e l s )を扱う GENMODプロシジヤのノンパラメトリック回帰版である。 1 .3 ノンパラメトリック回帰の例題一 l o e s s回 帰 の 例 一 ここで、幾つかのノンパラメトリック回帰の本や、 SAS;STATのマニュアルでも紹介されている、自動 車のエンジンから排出される排気ガスに含まれる窒素酸化物の濃度と、当量比(エンジンで燃焼させるガス の空気とエタノールの混合比率)の関係を表す、 Gasデータ "(Brinkman1 9 8 1 ) に対して、線形回帰、多 項式回帰、ノンパラメトリック回帰の手法の 1つである l o e s s回帰モデルをあてはめた例を紹介する。 務署売叉""寄 耳曹= . . 三 ー 三 二 ・ . ‑・ ・ . . . " 園 . , •• ・ ̲ . . , , , . . 互 , 五胃房事相理事 一 戸(、 / 夕 、 / J l N 図1:パラメトリック回帰 2 0 7 ‑ ・ .
︑︑. ︑ : ¥¥ ¥¥¥ i 一 ! ︑ ︑︑¥ i¥¥¥一 ¥ゃのふ J ; : i ︑山ふ¥ i ︑ ︑ 巴 λ口 一 ¥ 一 ; 一 / 一 iJ ︑ 一 hA弘 i ・ JX¥ f fi︐ 6/ ︑ j r ' : ' :・ ・ 一 '/ん ︒ーん γJ/ ノ ゲ ト /f /OJr ︐ . ︐ ゲμ M ' ' a ' ' A F ' ' ' ι ' /γ'ー'/ ・ 図 2 :l o e s s回帰 図 lの線形回帰モデルでは、データの分布をまったく捕らえきれていない。当量比と残差のプロットを みても明らかである。 3次の多項式回帰モデルは、あてはまりが良いと思われるが、残差と当量比の関連を しめす散布図では、当量比 ( E )が 0 . 8から1.0の閣で残差の値が山を描くような形になっており、モデルが データの分布を捕らえきれていないようである。また、当量比の大きさが大きくなるにつれて、信頼区聞が 広がってしまっている。 、 l o e s s回帰モデルを当てはめたグラフである。局所回帰式の次数として 2次を指定し、最小 2 図 2は 乗基準で行った結果の予測値をプロットしたものである。この図 2を見てみると、パラメトリックな場合 に比べて、データの分布を柔軟にとらえている様子がうかがえる。 l o e s s回帰の関数の滑らかさは、平滑化 パラメータとよばれる値に依存する。平滑化パラメータの値が大きくなれば、 l o e s s回帰の推定する関数は、 より滑らかとなる。今回は、平滑化パラメータの値を 0. 4. 0 . 6 . 0 . 8, 1と 4段階に変更している。平滑化パラ メータの値が 1のもの(図 2の右下)が 4つのなかで最も滑らかになっている。 l o e s s回帰の残差と当量比のプロット図をみると、図 Iの 3次の多項式回帰モデルのような残差と当量 比の傾向は、平滑化パラメータが 0. 4 、 0 . 6、0 . 8のものにはみられない。しかし、図 2の平滑化パラメータ o v e r ‑ f i t t i n gし が 0.4のものを見てみると、誤差によるバラツキにさえもモデルが順応しようとしている ( ている)。この例では、平滑化パラメータが 0 . 6、0 . 8あたりが適当と思われる。 この例では、 l o e s s回帰を行ったものが、他よりも良好な結果を示していると言えよう。非線形関係が 存在しており、かっ、その関係式が不明であるときには、ノンパラメトリック回帰は非常に強力な分析ツー ルとなる。 以下の節で、 S ASシステムでノンパラメトリック回帰を実行するプロシジャについて、 LOESS,TP円PLINE, そして GA, ¥Iプロシジャの順番で、その特長、プログラム方法について簡単に紹介していく。 ‑208
l
o
・
!
lS@.唱
百両‑
.
.
.
.
.
.
.
.
.
.
.
.
.
・
.
・
・
'
'
・
.
.
.
.
a
.
‑
.
.
4
.
ー
・
.
a
a
.
・
'
・
.
・
.
.
.
・
・
.
.
.
.
‑
4
4
ι
4
4
L白 祖 包 E恒E屠
L0<11>5
回河
図 3
:l
o
e
s
s回帰の残差と当量比のプロット
2 LOESSプロシジヤ
LOESSプロシジヤは、勺o
e
s
s
" を行うためのプロシジャである。
l
o
e
s
s
" は局所回帰()Q
c
a
lregr~主主ion) か
ら作成された語句である。
局所回帰は、データの各点、ごとに、距離に対応した重みを与えた多項式をあてはめていくことにより、全
体として滑らかな曲面(曲線)を作成する。重み付けの方法によって、結果として得られる曲面の滑らか
さが変わる。近い距離に対する重みを大きくし、遠いものの重みを小さくすると、滑らかさは失われるが、
現データへの適合度は高くなる。一方、重みを均等にすると、滑らかにはなるが適合度は低くなる。このよ
うな局所回帰は、時系列分析などで行われている移動平均や移動加重平均の回帰版と言える。
l
o
e
s
s
"は、分析名としてというよりも、 C
l
e
v
e
l
a
n
dら (
1
9
9
2
)による Cおよびフォートラン等のプログラ
ム名として有名であろう。そのプログラムでは、上記したような局所回帰の骨格に加えて、様々な点、で分析
者が必要に応じて選択できるよう工夫されている。
LOESSプロシジヤでも、この機能のほとんどを利用可能である(:V
IODELステートメントのオプション
指定によって選択する)。また、パージョン 8
.
2以降の LOESSプロシジヤでは、 SELECT二AICCもしく
は AICClといった修正 AICによる平滑化パラメータの選択も可能となっている。
以下に、 C
l
e
v
e
l
a
n
dら(1
9
9
2
)による l
o
e
s
s
"の主な特長と、 SASシステムの LOESSプロシジャにおける
オプション指定について列挙する。
• 1
)外れ値の存在や裾の重い誤差分布に対する工夫
最小 2乗基準の他に、 T
l
l
k
e
yの双加重関数 (
b
i
w
e
i
g
h
tf
l
l
l
l
c
t
i
o
n
)を基準とすることができる。 T
l
l
k
e
yの
双加重関数 (
b
i
w
e
i
g
h
.
tf
l
l
n
c
t
i
o
n
)は、頑健性のある回帰 (
r
ob
u
s
tr
e
g
r
e
s
s
i
o
n
) を行うときに登場する関
数である。 T
l
l
k
e
yの双加重関数 (
b
i
w
引g
h
tf
U
l
l
c
t
i
o
n
)の基準を最小にするような値を求めるには、反復
計算が必要となる。
LOESSプロシジャでは、 ITERATIONS二口において、その計算の最大反復回数を指定することがで
‑209‑
きるようになっている。 • 2 )大規模データに対する対処法 ‑ dt r e e法に基づき選択された幾つかのものに対して局 オプザベーションすべてに対してではなく、 k 所回帰を行い、その後、選択されなかったデータの予測値は補間で求めるという処理も選択できる。 LOESSプロシジヤでは、 MODELステートメントの BUCKET= オプションにて、パケットの大 きさを使用するかが決定される。説明変数が lつの場合は、選択されなかったデータに対しては、 線形補完もしくは 3次補完のいずれかによって予測値が求められる (INTERP=LINEARもしくは INTERP=CUBIC)。説明変数が 2つ以上の場合 l こは、線形補間しかできない。もし、すべてのデー タから l o e s s曲面を求める時には DIRECTオプションを明示的に指定する必要がある。 • 3 )多項式に対する選択 局所回帰の多項式としては、 l次もしくは 2次のいずれかを選択できる。また、局所回帰式として、 2 次の多項式を選択した時に、その 2乗となっている項を落とすことができる。 LOESSプロシジヤでは、 DEGREE=オプションにてその次数を選択できる。また、 2乗の項を落と す場合には、 DROPSQUARE=オプションにその変数名を指定する。 • 4 )パラメトリックモデルとの融合に対する工夫 説明変数の項すべてを局所回帰の対象とするのではなく、幾つかの項は、通常の回帰分析と同じく大 域的な効果として含めることができる。 残念ながら、パージョン 8 . 2の LOESSプロシジャにはこの機能はない。拡張が望まれる。 • 5 )データの標準化 局所回帰の重みは、オブザペーション聞のユークリッド距離によって決められる。説明変数が複数あ る場合、どのようなれ単位刊にするかによって結果が異なってくる。元データのまま扱うか、それとも、 標準化した後に分析をするかが選択できる。 LOESSプロシジヤでは、 SCALE=SD(p)オプシヨンによって、説明変数の標準化が行われる。標準 化には、 トリム化標準化偏差が使われる。 pの部分には、 トリムする割合を指定する。 • 6 )予測値(条件付き期待値)の信頼区間 ( X j )の信頼区間を計算する機能がある(ただし、 誤差自由度としてサタースウェイト近似値を用い、 g 誤差分布として正規分布を仮定)。 LOESSプロシジャでは、 CLMオプションによって信頼区間が計算される。 LOESSプロシジャでも、 Cおよび F o r t r a nプログラムと同様のオプシヨンを、 4 )を除いて選択できるよ l e v e l a n dら ( 1 9 9 2 )によると、勺 o e s s " という用語は、 l o c a lr e g r e s s i o n "の省 うになっている。ちなみに、 C 略にもなっていると同時に、地質学の用語で、川沿いなどで見られれる沈殿した地層(日本語では「レス J ) も指すことから選んだとのことである。 2 . 1 平滑化パラメータについて LOESSプロシジャでも、局所回帰を行う時に、 C l e v e l a n dら ( 1 9 9 2 )と同じく、 t r i c u b ef u n c t i o nによっ . 之 て重みを決定する。説明変数の行ベクトルを Xj(i = 1 、 n )、平滑化パラメータを s、z とねのユーク X )、zから Xj までの距自主で、小さい方から k番目の距離を d ( k ) ( X )とする。ある点、l.z:で局 リッド距離をめ ( 所回帰を行う時、データの点 Xi に対する重み Wi は 、 s<1の場合、次式で与えられる。 2 1 0一
ω;= f子l (( E f f j f 七)3)3 的)壬 l0 d(n, ) ( x )の時 d ; ( x ) >d ( n s ) ( x )の時 この関数は、近くに位置するものほど、重みが大きくなるようになっている。また、 s壬Iの場合、その値 を小さくするほど、重みとして 0が割り振られるオプザペーション Xi が増える o s>1の時には、 d ( n . , )xで はななく、 d(n)(x)Sl(pになる。 s>1の場合には、重み叫が Oとなる点はなく、すべてのデータが局所回 帰で利用される。 sを大きくしていくと、重み W j はすべての点に対して 1となるので、 l o e s s回帰は、通常 の回帰分析の結果に近付いていく。 LOESSプロシジヤでは、平滑化パラメータの値は、 MODELステートメントの SMOOTH=オプション に指定する。このオプションには複数の値を指定することも可能である。 2 . 2 1"自由度」および平滑化パラメータ選択について 通常の回帰分析と同じような枠組みの「自由度」があれば、予測値の信頼区間を計算する時や、 F検定を 構築する時、そして、モデル選択の指標を算出する時などに利用できるだろう。 また、通常の多項式回帰とノンパラメトリック回帰との比較を行うときにも「モデルの複雑さ」を表す値 があると都合がよい。同じ「自由度」のものであれば、それらを比較して残差 2乗和が小さいものを選択す ることができる。 l o e s s回帰を初めとするノンパラメトリック回帰には、通常の回帰分析のようには自由度は存在しないが、 幾つかの定義を考えることができる。 n行からなる応答の実現値引に対する予測値。は、射影行列 Lによる線形変換によって表すことができる。 y= Ly 計画行列を X とした通常の回帰分析では、 L=X(XX)一lXである。この場合、対称なべき等行列(射 影行列)となっているので、そのランクはトレース t r ( X ( XX)一l X ' )と等しい。なお、 loess回帰を初めと するノンパラメトリック回帰では、行列 Lは、計画行列 X だけではなく、平滑化パラメータ sによっても 変化する。また、ノンパラメトリック回帰における行列 L は、対称行列でも、べき等行列でもないが、こ の考えに沿ったモデルの「自由度」は、次のように定義される。 f l二 t r ( L ) モデルの「自由度 J d 他にも幾つかの通常の回帰分析に沿った「自由度」の定義が考えられる。回帰分析の場合には、列ベクト r ( L、 L )= t r ( L )であるので、 ル Y の各要素 Yiの分散を合計したものは、各要素の分散をポとしたとき、 t ~(V 日1'(忠)) = t r ( L ' L )σ2 = t r ( L )σ2 と表せた。これとの類推に沿った場合、モデルの「自由度」は、次式のように定義される。 モデルの「自由度 J d f 2二 t r ( L ' L ) この d f 2は 、 " e q u i v a l e n tnumbero fp a r a r n e . t e r "といった名前で呼ばれている。 )'(Y‑Y)=ピ ( 1‑L ) ' ( 1‑L ) tから定義する方法も考えられる。通常の回帰分 一方、残差平方和 (Y‑Y 析の場合、 I r[(1‑L)( 1‑L ) ]= n ‑ I r ( L ) となり、 u 残差自由度"と同じになる。この観点から定義された モデル自由度は、 1 ' 1 [ ( 1‑L)( I‑L ) ] =I r ( 2 L‑L ' L ) モデルの「自由度 J d j : 3 =η 1i n F臼 ーよ
である。なお、上式における残差の「自由度」に相当する t
r
[(
I‑L
)(
I‑L
)
]は
、 C
l
e
v
e
l
a
n
dら (
H
)
9
2
)な
e
l
t
a
1
"と表されている。
どで、んと記されている統計量である。 LOESSプロシジャの結果出力でも、"D
ノt
ージョン 8
.
2の LOESSプロシジャでは、これら 3種のモデル自由度のいずれかに近くなるように、平
滑化パラメータを自動的に選択してくれる機能がある。平滑化パラメータの選択を行う SELECT=オプ
ションの値として、 DFl
.DF2.DF3を指定することができる。自由度での指定のほうが、 SMOOTH=オプ
ションに平滑化パラメータを指定するよりも、直感的に分かりやすい。また、パラメトリックな回帰モデル
と、モデルの複雑さを比較するときには、この機能は有用だろう。
信頼区間および平滑化パラメータ選択統計量の 1つである AJC
C1 を計算する時には、残差自由度とし
o
o
k
u
pd
e
g
r
e
eo
ff
r
e
e
d
o
mと呼ばれている自由度も利用されている。この自由度は、残差平方和の分布
てl
ピ(
I L;1I L
}
ε を、サタースウェイト近似することによって得られる自由度である。 0
r(
)
'(
)
1二 t
1‑L
1‑L
0
)
)
2
]から、 P=012
r
[
((
)
'(
およびん =t
'
.
!
)によって計算される。
1‑L
1‑L
/
r
(
L
)はデフォルトで計算され、その値が出力さ
LOESSプロシジヤでは、上記した一連の自由度のうち、 t
れる。しかし、 d
f
2= t
r
(
L
'L
).
l
o
o
k
u
pd
e
g
r
e
eo
ff
r
e
e
d
o
mといった統計量は、 DFMETHOD=EXACT
0
1
.
0
2,
オプションを指定するか、もしくは、それらが計算に必要な統計量を出力する時にしか計算されない。 t
r
(
L
)
は計算量が少なくて済むが、それ以外の自由度計算には非常に時間がかかるためである(これらを近似で
求める方法が提案されているが、 LOESSプロシジヤでは実装するのを見送っている)。
SELECT=オプションには、上記したもの以外にも、平滑化パラメータの自動的な選択方法を指定するこ
とができる。特にパージョン 8
.
2では、上記したような自由度を指定する機能以外にも、 2つの修正 AICを用
いることもできるようになった。上記したような自由度の違いを考慮して求めた AICである AJC
H
u
r
v
i
s
h
C1(
9
9
8
)で選択したい場合には、 SELECT=AICC1を指定する。また、計算量が少なくて済む方法も選択で
ら1
きる。 AJC
cで選択したい場合には、 SELECT= A!CCと指定する(パー
C1 の近似値となっている AJC
ジョン 8
.
2では、この SELECT二 AICCがデフォルトとなっている)。
g
e
n
e
r
a
l
i
z
e
dc
r
o
s
sv
a
l
i
d
a
t
i
o
n
)に基づく方法を行いたい場合に
その他にも、一般化クロスバリデーシヨン (
は
、 SELECT=GCVを指定する。 GCVによる選択は、特に、データ数が少なく、誤差(ノイズ)が大きい
ようなデータに対しては、 o
n
d
e
rs
m
o
o
t
h
i
g
)する傾向がある。なお、通常のクロスバリデー
v
e
rf
i
t
t
i
n
g(=u
c
r
o
s
sv
a
l
i
d
a
t
i
o
n
)による選主尺は LOESSプロシジャでは行えない。
シヨン (
2
.
3 LOESSプロシジャの文法
LOESSプロシジャで用意されているステートメントは、以下の通りである。モデルを指定するための
Iデータセットから予測値をを求めるための SCOREステートメントが用意
MODELステートメントや、男J
されている。
また、既知の重みがある場合には、 WEIGHTステートメントに指定することができる。
PROCLOESSDATA=SAS‑data‑set:
p
t
i
o
n
s>
e
p
e
n
d
e
n
t
sニr
e
g
r
e
s
s
o
r
sく / o
MODELd
a
r
i
a
b
J
e
s;
IDv
a
r
i
a
b
J
e
s;
BYv
a
r
i
a
b
J
e
s・
WEIGHTv
v
a
r
i
a
b
l
el
i
s
t
)> く / o
p
t
i
o
n
s>
SCOREDATA=SAS‑data‑setく 1Dニ (
RUN、
!
Jゐ
匂
η〆臼
nL
3 TPSPLINEプロシジヤ TPSPLINEプロシジャは、ペナルティ(罰則)っき最小 2乗基準が最小となるような薄板平滑化スプ ライン(工h i n ‑ E l a . t esmoothingS p l i n e )を求める。 簿版平滑化スプラインは、 l変数の平滑化スプラインを多変数に拡張したものである。平滑化スプライン は、説明変数が l変数の場合によく知られている自然スプライン補聞を、誤差の存在を吸収できるように拡 張したものと言える。 3i 欠の平滑化スプラインを用いた時、先程の l o e s s回帰で局所回帰に l次式を用いた ときと同様、平滑化パラメータの値を増加させていくと u欠の回帰直線となる。平滑化パラメータの値を 小さくした場合、平滑化スプラインの曲線は、すべてのデータ点を通る 3次自然スプラインの曲線となる。 なお、 1変量の平滑化スプラインは、 TPSPLINEプロシジャ以外にも、次のような箇所でも利用できる。 • SASjGRAPHソフトウェア GPLOTプロシジャの PLOTステートメントで散布図を作成する際、 SYMBOLステートメントで INTERPOL二 SMnnと指定すると 3次の平滑化スプライン曲線がグラフ上に描かれる。 nnの部分に、 0から 99の値を指定することにより滑らかさを変更できる。 . (パージョン 8以降の SASjSTATソフトウエア) TRANSREGプロシジヤ 変換方法に SSPLINE を指定すると、 3 次の平滑化スプライン変換ができるようになった。 S~l= オ プションによって滑らかさが変更される。 なお、パージョン 8の SASjIMLソフトウェアにも、薄板平滑化スプラインを実行するための TPSPLINE および TPSPLNEVルーチンが追加されている。 3 . 1 ペナルティ付き最小 2乗法について LOESSプロシジヤでは実装されていないが、 TPSPLINEプロシジヤでは、通常の回帰分析と同じパラ メトリックな効果も指定することができる。 Xj ,Zi をそれぞれ d次元、 p次元共変量ベクトルとする。こ れらの組 Xj.Zj を観測するものし、次のセミパラメトリックなモデル、すなわちパラメトリックな部分 Ziβ とノンパラメトリックな部分 f ( x ; )で表されるモデルを考える。 i二 1, . . . ,n ) (1よ Y i= f ( xi )+ Ziβ+<j. ここで、 fは十分滑らかな未知の関数、けま独立で平均 0の誤差項、 βは p次元の未知なパラメータである。 ペナルティっき最小 2乗の基準では、次のお(!)を最小化することを考える。 ら(!)二 但し Jm (!)は ふ,(ト である。 (2) 式における~ i z ( U z一 川 ‑ λ :s)2+ J ( ! ) l : l : z t t 1 [ θ J ", ( 2 ) ( 3 ) L 7 = 1(y;‑f ( . T ; )‑, :s)2の項は残差平方和であり、一方 λJ川(!)はペナルティにあたる ! ) 項である。 λJm ( λの設定値によって、簿板平滑化スプラインにおける平滑化パラメータであり、大きな値を設定するほど 曲線もしくは曲面がより滑らかになる。 2 1 3
3 . 2 i自 由 度 」 、 平 滑 化 パ ラ メ ー タ の 選 択 . 2の TPSPLINEプロシジャでは、この λの自動選択方法として、一般化クロスバリデーショ パージョン 8 ン( G e n e r a l i z e dC r o s sV a r i d a t i o n )法しか実装されていない。この基準は、特に、データ数が少なく、誤差 v e rf i t t , i 時(=undersmoothig)する傾向がある。 A1Ccや (ノイズ)が大きいようなデータに対しては、 o A1C などによる選択基準は実装されていない。また、クロスバリデーシヨン法も実装されていない。 c, モデルの「自由度」の計算方法としては、じl f j=I r ( L )の結果しか出力されない。残差の「自由度」とし ても、 1 1 '( 1‑L )= n‑t r ( L ) ( nはオブザペーション数)といった簡便な方法しか選択できない。 MODEL ステートメントの DF=オプシヨンにて「自由度」の指定が行えるが、これは I r ( L )の値である ( t r ( L )の 値が、指定された値に近くなるように平滑化パラメータの値が決められる)。 また、予測値の信頼区間には、 LOESSプロシジヤ(t分布による近似)と異なり、正規近似を採用して いる。 3 . 3 その他の設定 l o e s s回帰と同じように、データ数が多くなると、薄板平滑化スプラインの計算も時聞がかかる。 TPSPLINE プロシジャでは、 MODELステートメントの DISTANCEニオプシヨンを指定することにより、幾つかの近 い距離にあるオブザペーションを同ーのものとして扱う。 DISTANCE=Oと指定すると、すべてのデータが 使われる。 エ I ニオプシヨンにより、ペナルティ項での偏微分の次数を設定できる。デフォルトは、間二間口 ( 2, 1 NT(dj2)+ 1 )となっている ( dは、平滑化を行う説明変数の数)。 3. 4 文法 o MODELステートメントにて、応答変数と説明変数を指定する。説明変数のうち平滑化を行う項は の の前に指定を行う。 なかに指定を行う。もし、パラメトリックな扱いをしたい説明変数がある場合は、 o OUTPUTステートメントにて、予測値や正規近似の信頼区間をデータセットに出力することが可能であ Iのデータセットに対して予測値を求めることができる。 る。また、 SCOREステートメントを用いると、思J PROCTPSPLINEDATA=SAS‑data‑set: MODELd e p e n d e n t s=く v a ri a b l e s>( v a r i a b l e s )く /options> SCOREdata=SAS‑data‑setout=SAS‑data‑set: OUTPUT く out=SAS‑data‑set>keywardく... keyword> BYv a r i a b l e s: FREQv a r i a b l e: a r i a b l e s;RUN: IDv ‑214
4 GAMプロシジャ 一般化加法モデル(旦e n e r a r i z e dA ̲ d d i t i v e~Iodels) を扱うプロシジャとして、パージョン 8.2 で GAM プ ロシジャが追加された。一般化加法モデルは、「加法性」および「非正規分布への対応」という 2点におい て特長がある。 4 . 1 特長 1:加法性 加法モデル ( a d d i t i v em o d e l )では、 Yを応答変数、 Xj町..., Xpを説明変数、変換後の値を s(x, ) l S(X2),・. , s ( xp) とするとき、次の関係が成立するように、何らかの手順に基づき変換を行う。 E[YIXj,・ぺ Xp ]二 S o+sI (xl )+S2(X2)+・ ・ +s p ( x p) ( 4 ) このような加法モデルとしては、数量化 I類が有名であろう。数量化 I類では、個体ごとの予測値が、カ テゴリースコアの和として求まるように、そのスコアが与えられていく。通常の回帰分析における枠組み で、最小 2乗法に基づいてスコアを求めるのが一般的である。 TRANSREGプロシジャを用いれば、名義 尺度のカテゴリ変数だけでなく、 A L S ( A l e t e r n a t i n gL e a s tS q u a r e s )法に基づいて、実に様々な変換を行う ことにより、加法モデルを作成することができる(変換方法としては、例えば、区分多項スプラインなどが 指定できる。また、パージョン 8 . 2より、 SSPLINEという指定により、平滑化スプライン変換も行えるよ うになった)。 GAMプロシジヤでは、前述の LOESSおよび TPSPLINEプロシジャでの平滑化法を変換方法として用 いることができる。つまり、 ( 4 )式における S i, i= 1 , . .'lPが何らかの平滑化関数となったモデルとなって いる。通常のノンパラメトリックモデルに対して、このような平滑化を伴う加法モデルがもっメリットは主 に 2つある。 ‑モデルが単純になっているので、計算 U !や計算に要するリソースを削減できる。 • r 主効果だけのモデル」なので、交互作用があるモデルよりも、その効果の意味が捉えやすくなって いる。 LOESSや TPSPLINEプロシジャの結果において、説明変数が 3変数以上になると、実際の説 iに対して 明変数がどのように影響しているかを可視的に見ることは難しい。「加法モデル」では、 X S ( X i )をプロットすることにより、他の効果をコントロールした場合のめの効果を理解することがで きる。 i ( X )を求めるアルコリズムとして、 GAMプロシジャでは、 H a s t i ea n dT i b s h i ‑ このような加法モデルの S r a n i (1 9 9 0 )の b a c k ‑ s h i f t i n ga l g o r i t h mを用いる。(正規分布を仮定した場合には、)このアルゴリズムによっ て、予測値と実測値との差の 2乗和(通常の残差 2采和)が極小となるような S i ( X )が算出される。 4 . 2 特長 2 :非正規分布への対応 一般化加法モデルは、一般化線形モデルのノンパラメトリック版と言うことができる。 一般化線形モデルは、指数分布族に属する分布の平均 μ と、説明変数の線形結合 η=β0+βjX ・ 1+・ ・ ・ +spX p ( )で表す。通常の回帰分析のほかに、ロジスティック回帰、対数線形モデルなども一 との関係を連結関数 g 般化線形モデルの lつである。例えば、一般化線形モデルに属するロジスティック回帰モデルでは、ベル a n o l i c a k ヌーイ分布の平均 μをロジツト関数によって結合する(ロジット関数はベルヌーイ分布に対する c l i n kf u n c . t i o nである)。 logh 士)二 7 1 =β0+βj. rl+ . . .+ ßp~'p ﹁ 1 ょ υ h 白 っ
一般化線形モデルに属するモデルは、重み付きの最小 2乗法を、その重みを更新しながら反復計算すれ ば、仇, β1.'・., s pの最尤推定値と同じ f 直を得ることができる。 SASjSTATソフトウェアでは、 GENMOD プロシジヤにおいて一般化線形モデルをあてはめることができる。 0+51 (X l )+句作 2 )+ このような一般化線形モデルに対して、一般化加法モデルは、 η =5 ー +5p(Xp) と 結合の部分が、説明変数を平滑化変換したものの和になっ したモデルである。パラメータと説明変数の手府5 ているところが特長である。 GAMプロシジャでは、応答 Y の分布として指数分布族に含まれるもののうち、正規分布、 2項分布(ベ ルヌーイ分布)、ガンマ分布、または、ポアソン分布を、 MODELステートメントの DIST=オプションに 指定できる。 H a s t i eandT i b s h i r a n i ( 1 9 9 0 )では、重み付き最小 2乗法の反復計算 ( I o c a l ‑ s c o r i n ga l g o r i . t hm) を、一般化加法モデルに拡張した方法が記載されている。 GA¥ i Iプロシジヤでも、このアルゴリズムを用い ている。 なお、一般化加法モデルにおいても、平滑化を行う部分(ノンパラメトリックな部分)と、パラメータと の線形結合の部分(パラメトリックな部分)とを組み合わせたモデルを設定することも可能である。この場 合 、 ηは次式のように表される。 η =5 0+5 1( xl )+52(X2)+・ ・ ・ +X (p+1)β1・ ・ ・ +x(p+q)sq 4 . 3 平滑化パラメータの選択など 一般化加法モデルでは、説明変数 Xi それぞれに対して、平滑化の方法、および、平滑化パラメータの値 を選択する必要がある。平滑化パラメータの値を自動的に決定する方法として、唯一選択できるのは、一般 化クロスバリデーシヨン法 (GCV)である。 他には、 DF=オプションに「自由度」を指定することにより、その滑らかさを設定することも可能であ r ( L ) る 。 GAMプロシジャでの自由度は、 t 4. 4 G A Mプロシジャの結果 加法モデルを直感的に理解するため、 LOESS、TPSPLINE、及び GAMプロシジャで 2つの説明変数を 用いた結果を示す。 GAMプロシジヤでは、正規分布を仮定している。 GAMプロシジヤの結果は、別の説 明変数の値を固定して切断したときの切り口が同じになっている。他の LOESSや TPSPLINEプロシジャ では、分散分析における交互作用があるモデルと同じようにその断面図は異なる。 4 . 5 文法 GAMプロシジヤでも、 MODELステートメントにてモデルを指定する。平滑化の方法としては、 SPLINE(1 変数の 3次平滑化曲線), SPLINE2 ( 2変数の簿版スプライン曲面)ー LOESS( Io e s s曲線)が指定可能である。 また、パラメトリックな効果は PARAMに指定することができる。 CLASSステートメントには名義尺度の 変数を指定することができる。 OUTPUTステートメントにて分析に用いたデータの予測値などを求めることができる。 SCOREステー トメントを用いることにより、別のデータセットに対して予測値を与えることもできる。 PROCGAMdata=SAS‑data‑set; CLASSv a r i a b l e s: MODELdepen白 川 ニ く PAR .AM(e汀e c t s )> smoothinge f f e c t sく / o p t i o n s> SCOREdata=SAS‑data‑set ,o l 1t = S A S ‑ d a t a ‑ s e t; OUTPUT <ol1t=SAS‑data‑set> keywardく・・・ keyword>く /option>; nhU 1i ︐ nG
山
河
川
一
ぐ
一
夜
一
川
一
一
や
叫
一
一
一
一
⁝
::
、
J
コ
弘
件
,
汽
斗ニ白J
r
♂
r
プ
イ
、
、
一
'
"
,
、
.
ノ/ i
可
y 、~.(..~ .
、、,、"、YI
i
._,一、\、\、、ヲ:-:.~!
ル
、 " . ト 、 、ft: f
、九 f
、 、
" 〆 プ ; :•.
二
ゐ
I.\t.~.._
.
.
.
. ".̲
・
.
.
.
./
/
.
, . r ー
/
ー… ・ 、...;/.‑
F
'POC GAM … t_cl~
、
,
r
、
.
L
.
.
.
.
.
.
.
.
.
̲
四
J、
、
、"¥
¥
' 夕
ー ア .‑ ~j
ρ
/..1"
..:~.. .
.
~;:~,::-.,.、/....ヘ~、 J
'
i
"
:
"
、
に.̲.叫‑./‑...̲.. 、子
.L.
、
ノ
'.、正".̲子、ケ J
f 、
、J
'.;札̲;'‑./守
、・ 下 、 、 ,
γ 、
'. l 、 . / 、 "•
.
.
'
'
:
'
̲ .¥.、i
..
.
. '
j
̲
,
/
、山」
,〆占、¥,' . : > " 、 ..
闘
,
へ"
f
J
札
、 . : " ♂ /1
.
1
.
守
"
ノ
ー
/
'̲'R'
・
"
・
・
同 刷
8
・....../
.1..
図4
:元データ(左上)及び TPSPLINE(右上) LOESS (左下) GA~I (右下)各プロシジャにより得られ
た回帰曲面
BY¥
'
a
r
i
a
b
l
e
s;
ID¥
'
a
r
i
a
b
l
e
s
FREQv
a
r
i
a
b
l
e;
RUN;
5 終わりに
ここで述べた 3プロシジャはいずれも、パージョン 8,
0以降に追加されたものである。パージョン 8,
0ま
でについての機能は、 SASOnlineO
o
c
l
l
r
n
e
n
tの SASjSTATプロダクトの箇所に記載されている。
パージョン 8
.
1および 8
.
2における拡張点は、下記の URLにおいて、 POF形式で然料公開されている。
http://www.s出 .
comjrndjappjd
o
c
.
h
t
l
l
l
l
6 参考
C
l
e
v
e
l
a
n
d,W
.
S
.
.G
r
o
s
s
e
.E
.,and i
¥l
i
n
g
‑
.
J
e
nS
h
y
l
l(
1
9
9
2
),"A Packageo
fC and F
o
r
t
r
a
nRoutinesf
o
r
t
.i
n
gL
o
c
a
lR
e
g
r
e
s
s
i
o
nl
¥l
o
d
e
l
s,
"t
l
n
p
t
l
b
l
i
s
h
e
dpaper
F
it
Ir
v
i
s
h,
C.M.
.
S
i
m
o
n
o
汀.J.
S
.
a
n
dT
s
a
i,
C,
L
.
(1
9
9
8
),"Smoothing Paral1le
.
t
e
rS
e
l
e
c
t
i
o
ni
n Nonparametric
Hl
i
o
nUsingan Improved Akaike [
n
f
o
r
r
n
a
ti
o
nC
r
i
t
e
r
i
o
n,
"J
.o
t
l
r
n
a
lo
ft
h
e RoyalS
t
a
t
i
s
.
t
i
c
a
lS
o
c
i
e
t
y
Regr出 s
2
i
l
‑
2
9
3
B
.
6
0,
.
t
i
e,T
.J
.andT
i
b
s
h
i
r
a
n
i,R,
J
.(
1
9
9
0
),G
e
n
e
r
a
l
i
z
e
dA
d
d
i
ti
v
e¥
I
o
d
e
l
s
.NewY
o
r
k
: ChaprnanandHal.
l
Has
217‑
日本 SASユ ー ザ ー 会 (SUG1‑0) 継時測定データの時点毎の多重比較 岸本淳司・小野裕亮 (SASインスティチュートジャパン) TimewiseM u l t i p l eComparisonsonL o n g i t u d i n a lData J u n j iKishimotoandYusukeOno SASI n s t i t u t eJapan e ‑ m a i laddress:jpnjak@jpn.sas.com 要旨 継時的に測定された 2群のデータについて、時点毎に群問の比較を行ったときに生じる検定の多重性を調 整する方法を考察した。多変量検定を実施すれば、そもそも多重性の問題は生じない。誤差の分散構造が複 合対科型の場合、岸本 ( 1 9 9 7 )が報告しているように、多変量 t分布の積分は簡単な計算で実行することが可 能であり、解析的に正確な解を得ることができる。誤差の分散構造が複合文棚、型でない場合、 H suの因子分 析型の近似法で多変量 t 分布の積分の近似値を得る方法が考えられる。また、標本再抽出法 (MULTTEST) で近似 p値を得ることもできる。 PROBMC MULTTEST, M u l t i p l eC o m p a r i s o n s,R e p e a t e dM e a s u r e s キ ー ワ ー ド : MIXED, ラ 1 反復測定データ 2群の個体を経時的に測定したデータを想定する ι 表 1経時的に測定した 2群のデータ 個 体1 υ 1 1 Yl2 .. tk .. Ylk 個体問 Yml Ym2 . . 平均 . J l ! l μ12 μIk 個体問 +1 νm+ll νm+12 νm+lk 時点 t 2 群1 Ymk 群2 個 体n νnl νn2 平均 μ21 μ22 . . νnk .. μ2k υ lム 句 円同 n F白
ただし、各測定値はすべて処置後のものとし、ベースラインの値は測定されていいないものとす る。次の例題は、遅効性薬剤の実薬群と溶媒群とを 4時点で測定したデータである。 ‑ 可 ︑ . ノ . ︐ v d ︑ J 4・ ey m 一 a‑4ム ・ tvd 也 司 ' s l ‑4 dd ・ ・ ‑E 白︑目 P J h y + L M ︑ ‑G ・ ・ v dd ; y p ‑ 1 up u1 4 o = ︐ ・‑ ' ro ry oe w 由 σbσ 一 一 一 一 4・u v d e p p f o i ml e 七 ee et yr g= k k m pe fu t rtr v d t i n t ABautly rp arno a ta‑‑d ︑ トJ output A; end; output B ; cards; C 01 3.25 3.55 3.44 1.78 C 02 2.59 2.80 4.18 2.63 C 03 3.09 3.29 2.05 1.28 C 04 2.66 2.86 2.27 1.82 C 05 2.84 2.43 2.36 2.30 C 06 2.01 2.86 1.84 2.50 C 07 3.22 3.36 2.80 2.26 C 08 3.16 3.85 3.42 1.93 C 09 2.07 1.58 1.84 2.06 A1 0 1.86 2.09 1.76 2.43 A1 1 2.84 2.13 1.62 1.62 A1 2 3.30 2.03 2.88 2.60 A1 3 1.73 1.67 1.15 1.21 A1 4 3.40 2.16 3.20 2.24 A1 5 2.79 1.82 2.38 1.29 A1 6 2.73 3.38 1.93 2.61 このような実験データは、通常次のような MIXEDプロシジャによる反復調J I定モデルを用いて 解析される。 proc mixed data=A; class group time i d ; 血o dely = group ti 皿 eg roup事 ti田e / ddfm=satterth; repeated time / subject=id(group) type=cs; ru 且; Effect Type 3 Tests of Fixed Effects Nu 皿 Den DF DF F Value group time groupホtime 1 3 3 14 42 42 ‑220一 2.76 5.22 1 .82 Pr > F 0.1189 0.0037 0.1581
2 多変量型の検定法 各時点を別々の変数と考えた多変量検定を GLMプロシジャを用いて実行することも考えられる。 proc gl血 data=B; class group; model y1‑y4 = group / nouni; mむlOvah=group; run; dExact F Statistics for MANOVA Test Criteria む l the Hypothesis of No Overall group Effect H = Type III SSCP Matrix for group E = Error SSCP Matrix M=l N=4.5 S=l Value 0.58758408 0.41241592 0.70188408 0.70188408 Statistic Wilks' Lambda Pillai's Trace Hotelling‑Lawley Trace Roy's Greatest Root F Value 1 .93 1 .93 1 .93 1 .93 皿 D F Nu 4 4 4 4 Den DF 1 1 1 1 1 1 1 1 Pr > F 0.1755 0.1755 0.1755 0.1755 上の解析とよく似ているが、 REPEATEDステートメントを使って希望する比較を実行させる には注意が必要である。 e +u n r ‑ ‑ ;ム p ゐ OVJ nt m/ ム ー . ︐F'+u n ー ︑ . DAe ud n v tuVJt Fー 4 ︑ ・ B=e ︐ . = ・'m a p 4 ・1 白 ao 一 σ vde 血 dr1d us‑ 抗 gse e 4P a ・ C 1 ム D e ‑ ‑︐ rn OC DAr ru Manova Test Criteria and Exact F Statistics for the Hypothesis of no ti血 e*group Effect H = Type III SSCP Matrix for ti血 e本group E = Error SSCP Matrix S=l M=l N=4.5 Statistic Value F Value Nu 皿 D F Den DF 0.58758408 且b da 1 .93 4 1 1 Wilks' La 0.41241592 Pillai's Trace 1 .93 4 1 1 Hotelling‑Lawley Trace 0.70188408 1 .93 4 1 1 Roy's Greatest Root 0.70188408 1 .93 4 1 1 ‑ ‑a 正準判別分析のプログラムを使っても計算できる。 十M RU ︐ . a p 4・ム cu; d ・ ' S04 AUσb‑ ゐ 1 ・ r y P r n asvd cs ar c ‑ム a o cv run; Pr > F 0.1755 0.1755 0.1755 0.1755 1i n F臼 n F臼
Multivariate Statistics and Exact F Statistics S=l M=l N=4.5 Value F Value 皿 DF Nu Den DF Pr > F Wilks' Lambda 0.58758408 1 .93 4 1 1 0.1755 Pillai' s Trace Hotelling‑Lawley Trace 0.41241592 0.70188408 0.70188408 1 .93 4 1 1 1 .93 4 4 1 1 1 1 0.1755 0.1755 0.1755 Statistic Roy's Greatest Root 1 .93 3 時点毎の比較 処置群聞の効果についてより詳細に検討するため、各時点毎に対応のない t検定 H0 HOk:μ1 kニ μ2 k 1 :μ11μ21・ H0 2:μ12=μ22ぃ・・ , ( 1 ) を反復して実施したいことがある。検定の多重性を無視するなら、この検定は MIXEDプロシジャ LSMEANSステートメントの SLICE=オプションあるいは CONTRASTステートメントを用いて 実行することができる。 proc mixed data=A; class group time id; 血 odel y = group time group*time / ddfm=satterth; repeated time / type=cs subject=idCgroup); lsmeans group*time / slice=time; ; contrast 'T=l' group 1 ‑1 time本group 1 0 0 0 ー 1 0 0 0 contrast 'T=2' group 1 ‑1 time*group 0 1 0 0 0 ‑1 0 0 ; contrast 'T=3' group 1 ‑1 time*group 0 0 1 0 0 0 ‑1 0 ; contrast 'T=4' group 1 ‑1 time*group 0 0 0 1 0 0 0 ‑1; run; Tests of Effect Slices Effect time group*time group本 time group*time group本 time Nu 皿 Den DF 1 DF .7 41 F Value 0.10 Pr > F 0.7506 2 .7 41 5.93 3 1 .7 41 3.10 0.0193 0.0855 4 1 41 .7 0.04 0.8451 Contrasts 皿 Nu Label T=l T=2 T=3 T=4 DF 1 Den DF .7 41 .7 41 .7 41 F Value 0.10 5.93 3.10 Pr > F 0.7506 0.0193 0.0855 .7 41 0.04 0.8451 これら 4本のコントラストについて、検定の多重性を調整する手段は MIXEDプロシジャでは提 供されていない。 白 つ 白 つ 白 つ
4 誤差に複合対称型が仮定できる場合 時点毎の群間比較について多重性を調整した検定を行うためには、各比較のコントラスト聞の 相聞をパラメタとして知る必要がある。現実に我々が知ることができるのは標本から計算された 推定値で、あって、真の相関の値はわからない G また、任意の相関構造をもっ多変量 t分布の数値積 分は困難である。時点聞の群間比較について多重性を調整することが流行らないのは、このよう な理論的困難が存在するからである。 時点聞の相関構造が複合対称型に限定された場合、群間比較コントラスト聞の相関構造も複合 対称型となり、その多変量 t分布の積分計算は容易である。しかも、 PROBMC関数の Dunnett型 比較のための機能を使って実際に計算させることができる(岸本 1 997a1 9 9 7 b )。 この計算法を確認するため、シミュレーションを行った c 時点数を 4、サンプルサイズは各群 3 例計 6例とし、公称有意水準を 1%, 2.5%, 5%の 3通り、母相聞を 0 . 1から 0 . 9まで 0 . 1刻みに設定し 0 0 0件作成し、所定の計算法で有意な差が認められた割合 た帰無仮説シミュレーションデータを 1 を調べた。 o げ( c o v+σ2)である。ここで、 c o vは同一被験者内の誤差聞の 各時点の平均聞の真の相聞は c 共分散であり、 σ2は誤差分散で、ある O 相聞を推定する際、 c o vとσ2の推定値を直接計算式のおむと O V推定 戸に代入した。おむが負の値になったときは、多変量 t分布の積分計算が難しくなるので、 C 時に下限をゼロに設定した。 シミュレーションの結果を表 1に示すc 帰無仮説が実際に棄却される確率が公称、有意水準より大 きい傾向があるようにも見受けられるが、一般に正確な結果が得られている。計算に利用したプ ログラムは付録に示す。 表1 : 多変量 t法による輪切検定のシミュレーション結果 母相関係数 α 0 . 1 0 . 2 0 . 3 0. 4 0 . 5 0 . 6 0 . 7 0 . 8 0 . 9 1 .0% 0 . 8 1 .0 1 .0 1 .3 1 .3 1 .7 1 .4 1 .3 1 .0 . 0 2 . 4 2 . 5 2 . 8 2 . 8 3 . 7 2 . 8 2. 4 2.5% 2 . 0 2 5.0% 5 . 4 5 . 7 5. 4 5 . 2 5 . 9 5 . 6 5 . 3 5 . 3 4 . 8 5 誤差に複合対称型が仮定できない場合 誤差に複合対称型が仮定できない場合は、その対処法を考慮しなければならない 1つの有力な 方法は、 Hsuの因子分析的近似法である。また、解析的な解を得ることをあきらめて、シミュレー ションで、 p値を計算することも考えられる。 MIXEDプロシジャを使って求めた最小二乗平均とそ の共分散を使ってシミュレーションで、近似 p値を求める方法が W e s t f a l le t . α. 1( 1 9 9 9 )の p p . 2 2 2 2 2 5に紹介されている。また、 MULTTESTプロ、ンジャを直接適用して、標本再抽出法により多重 性を調整した検定を実施することもできる c MULTTESTプロシジャによる標本再抽出法の能力を調べるため、シミュレーション研究を行っ たc 各種設定は多変量 t分布法のときと同じにした。結果を表 2に示す。 ‑223‑
表 2:MULTTESTプロシジャによる輪切検定のシミュレーション結果 母相関係数 α 0 . 1 0 . 2 0 . 3 0. 4 0 . 5 0 . 6 0 . 7 0 . 8 0 . 9 1 .0% 0 . 2 0 . 0 0 . 0 0 . 2 0 . 1 0 . 1 0 . 1 0 . 1 0 . 1 . 8 0 . 6 0 . 7 0 2.5% 1 .0 1 .0 0 . 9 0 . 7 0 . 8 0 . 7 5.0% 2 . 7 2 . 8 3 . 3 3 . 3 4 . 1 4 . 2 3 . 3 3 . 6 4 . 3I 明らかに有意になりにくい傾向が読み取れる c おわりに 6 反復測定データでの群問比較にはさまざまな方法がある。多変量検定のアプローチでは、一般 に検出力が低い。また、 GLMプロシジャの指定方法に注意しなければならない。 t検定の多重性 を調整する方法は、検定問の相聞を考慮する方法なら検出力も高い。 MULTTESTプロシジャを直 接利用する標本再抽出法は、汎用性は広いものの、検出力の点で多重性を調整した t検定に劣る。 参考文献 [ 1 ] Hsu, J . C . ( 1 9 9 2 ),TheF a c t o rA n a l y t i cApproacht oSimultaneousI n f e r e n c ei nt h 巴 G eneral o u r n a lo fC o m p u t a t i n a lS t a t i s t i c sandGmphics1.1 5 1 ‑ 1 6 8 . L i n e a rMode. lJ [ 2 ]W e s t f a l l, P . H .,Tobi田 ,R.D.,Rom, D .,W o l f i n g e r, R.D.andHochberg, Y.( 1 9 9 9 )M u l t i p l eCom‑ p a r i s o n sandM u l t i p l eT e s t sUsingt h eSASSystem, Cary ,NC:SASI n s t i t u t eI n c . [ 3 ]岸本淳司 ( 1 9 9 7 a )経時データにおける時点毎の比較の多重性調整法,日本統計学会第 6 G回大 会講演報告集. [ 4 ] 岸本淳司 ( 1 9 9 7 b )継時データの多重比較法.日本 SASユーザー会論文集. 付録 事事事事事事事事事事事事事事事事事事事事事事事事事事事事事事事事事事事事事事事事事事事事事; 事 p r o g r a mo f1 s tS i m u 1 a t i o n 事; 事事事事事事事事事事事事事事事事事事事事事事事事事事事事事事事事事事事事事事事事事事事事事; I o m a c r ot e s t ( b y = 1 0 0 0, r a n s t d = 1, n 1 = 3, n 2= 3, s e e d = 1 2 3 4 5 ) ; o p t i o n sn o n o t e sn o c e n t e rl s = 6 4p s = 3 0 ; d a t ad a t a 1 ; d r o pn 1n 2 ; 紅 白yn [ 2 ]( & : n1. & : n 2 . ) ; d ob y = 1t o& : b y ; d og r o u p = 1t o2 ; d oi d = 1t on { g r o u p } ; s =&:r阻 s t d事r a 皿 o r ( & : s e e d ) ; d ot = 1t o4 ; y =s + r a 且且 o r ( & : s e e d ) ; o u t p u t ; e n d ; e n d ; e n d ; e n d ; run; o d s1 i s t i n gc 1 o s e ; 2 2 4
Fit split‑plot model 字 率 字 率 字 率 字 率 字 率 字 率 事 字 率 字 率 字 率 字 率 字 率 字 率 字 率 字 率 字 率 字 率 事 字 率 事 字 率 字 率 ; Negative estimate of CS covari也 ce is fixed to zero * * 材 料 帥 件 ; proc mixed data=datal; by by; class t group id ; model y =group t group牟t / ddfm=satterth; 且d om id(group); ra 且sg roup 牟t / pdエf f ; lsmea make 'diffs' out=outl(where=(t=̲t)); make 'covpar皿s' out=out2; 且; ru ods listing; data out2; keep by rho esti皿 ate; set out2; lest=lag(estimate); if covpar皿='Residual' then do; rho=(lest)/(estimate+lest); output; 字率字率字率 材料** e 且d ; run; data result; KEEP BY T StdErr DF tValue Probt P RHO 0且 e check; 皿e rge outl out2; by by ; one=l; 字率事字率牟字率事牟事牟事牟事字率事字率字率事牟事牟事事字率事字率字率事字率字率字率事事牟事牟事字本字本字率字率事事事; Ll=SQRT(RHO); L2=SQRT(RHO); L3=SQRT(RH口); L4=SQRT(RHO); 事事事牟事牟事牟事事事事事事字率事事事事字率ホホホ牟事事字率字率事事牟事事字率字率事牟事事事事事事字率字率字率牟事事牟; 1F RHO‑=O T I lEN D口 ; 1F ABS(ROUND(tValue, O.Ol))<=O.Ol THEN P=l; ELSE P=1‑PROBMC("DUNNETT2", ABS(tValue), ., DF, 4, OF Ll‑L4); chec孟=0; END; /本事牟 I f rho=O then... 事 本 事 字 率 牟 / ELSE DO; P=l‑(l‑Probt)牟 * 4 ; / 牟 事 牟 DO Sidak Adjustment 字 率 事 牟 事 / check=l; END; ru 且; 字率牟事牟事本車事事事字率字率牟事字本車率事字率字率事字率本車率字率字率字率本車本車率事字率字率字本車率事字率字率本字本本車率事字率牟; proc format; 皿ultilabel) value pv ( 0.05<‑high='NonSig' low‑0.05 ='Under 5.0i . ' low‑0.025='Under 2.5i . ' low‑O.Ol ='Under 1.0i . ' ; 且; ru 牟事字率字率字本車事牟事字率牟事字率事本車率牟事字率事字率事字率字率事牟事字率字率本車事事牟事字率字率車率字率事字率字本字率牟事牟事牟; footnote "STD: &ra 且 s td. 事 事 牟 事 且 1:&n1. n2:&n2."; . parison Error J; title 'Per‑Co皿 proc 皿 ea 且sd ata=result n; class p /mlf; var one; format p pv.; 且; ru 事牟事字率事字率字率事字率事事事事事牟事字率事牟事事事事字率字率牟事事牟車率事牟事牟事牟事牟事字率字率事牟事事事本字率牟事牟事事事事牟; PRDC MEANS DATA=RESULT NOPR1NT ; BY BY; VAR P; 1D ONE check; OUTPUT OUT=OUTM1Nl M1N=M1NP; RUN; 血i lyWise Error ' ; title 'Fa proc 皿 ea 且sd ata=OUTM1Nl N ; class minp / mlf; var one; format 血inppv.; run; title; title2; footnote; Z田 nd test; 225~
口頭論文発表 調査・マーケテインク
日本 S A Sユーザー会 ( S U G 1‑0) 缶コーヒー (180ml)の消費特性について ‑JMPソフトウェアを活用した分析例として 森田麻友美 慶慮義塾大学総合政策学部 Consumption'sTendencyofCannedCoffee a l y s i sExamplebyusingJMPSo 仕ware‑ ‑AsanAn 吋旬 Mayumi Mo K e i oU n i v e r s i t y,F a c u l t yo fP o l i c yManagements 要旨 缶コーヒーの消費特性調査と製品に対する評価の調査を元に、消費者の立場からの分析を行なった。 J M Pソフトウェアによる主成分分析、重回帰分析、そしてクラスター分析を通して得られたことを発表した ILV ︒ . ︑ キーワード: JMP、ノフトウェア、主成分分析、重回帰分析、クラスタ一分析、缶コーヒー 1 . はじめに 本論文では、私が昨年受講した統計学の講座中に実施された缶コーヒーの特性調査、すなわち缶コ ーヒーについて日頃より感じていることと、缶コーヒー製品に対する評価を質問表形式で調査した元デー タから、あくまで、消費者の立場からの分析をjMPソフトウェアにより行なった O なお、調査方法は以下の通りである。まず、被験者に缶コーヒーとしづ商品群そのものに対する順序尺度 u まったくそう思う」から「まったくそう思わなし、 J までの4段階)による21個の質問で、ニーズ、の傾向を把握し た。そして次に市場に現在出回る缶コーヒーに中から 5アイテムを選び、それぞれに現物試飲の上、評点 をしてもらったo l 2 . 主成分分析 最初に、全体の傾向が掴むために主成分分析を行なった 次ページに「表 1 主成分分析の結果J を載せて O いるのでそちらを参照してもらいたい。この表を凡ると第 5主成分まででデータ全体;の 60%以上を説明してい ‑229
るここでは第 5主成分までを取りあげて分析する。
2
.1 そ れ ぞ れ の 主 成 分 の 意 昧 に つ い て
まず第 1:1::成分を見てみよう 寄与率(士約 1
7
'
1
0で、他の i
:
I
N分に比べ桝段に吊i
し、わけではないが、一
3
需多くのデータを説 l
リ
l
している一七成分である 3 ここで特に J
:成 分 H術f
tが:
r
れ、のには 01の「新しい食感
金制定iーしている J や02 の「おし、しくなければ飲まなし、」、 021 の「本格1切である」などがある心 i並に二j:~戊分 í{j_
:
j
y
1
立がl
!
i;いのは QJ1
1忙しし、ときに便利である」や QJ21市のデザインは気にするほうだ j
などである c 全体
j
:
,
rf
註の両し、ものはコーヒーの )
1
長の良さに閲する頃 Hが多く、主成分負
的に見て、この主成分で主成分負 1
4
:
f
i止の低し、ものには i床とは│基j
係、のない頃 I
1が多い そのようなことからこの第 1主成分は「味の質へのこ
3
だわり」を示す主成分だと考えられる。
次に沼 2主成分について考えたい。言i2J
ニj
点分では主成分 f
tí~f 量の(位の隔が大きいミここで I布し、 l~lll(:
分f
t(
.
;
f量を示しているのは QIRI賄額が豊 7
苛である」、 Q201
味‑は多彩である」、 0211本情的である」など
がある ここでも第 l主成分と同じく「味」に│到する項目が多いが、ここで違うのは「味の多保性」を重悦して
3
I
床の多様件ーへのこだわり」を
しも所である。つまりド│件ーあるおいしさを求めているのである。第 2主成分は 1
:
:
̲成分と肴える。
示寸 J
~31::_1/i(:分の ~1 :1/1(:分自前最が高しものには QI31
桁のデザインと中身は一致している」や QMCMのイメ
ージと飲んだ感じは一致している」があり、低し、ものには¥111主1
/1(:分や第 2主成分では値の r
"
ねるった Q2
「
お L、しくなけれぽ飲まなし、 JQI81
lにコーヒーを
床を切り r
椅顕が哩?主である」などがあるc つまりここでは l
汗
f
l
H
i
するので はなく、まず 1に飛び込んできたイメージがコーヒー全体のイメージとして強く影響し、その
3
印象をそのままコーヒーに求めるのである。よって第 3主成分(士「視覚的イメージを重視する度合 L、」を表
す ねJI(:分だと言うことがで=きる 3
;
T
I4主成分において 1
:
1
&分負荷量が出し、ものには QII新しい食!惑を創造してしも」、「環境問題に配庫、
している」、 QIOl広人ぺ〉忠人と一緒に飲みたしリなどがある。そして 010 は他の.l
f
it
lに比べ主成分自前
泣 0.
.
10と著しく高いο ここで示されてしものは「新しさを求める度合 Lリだと考えられる。見た 1
Iのファッショ
ン刊のことのみに臨まらず、飲んでいることがかっこ思いとか遅れていると思われないとし、う立味でユのおし
ゃれさのことである
3
そして最後に第 5J
:)JI(:分についても解釈したい 3 第 51
:1&分において主成分負術最が高いのは Q
:
31
好
1
年t
l
lに i
!って飲める」、 Q51訣品が楽しみである J、QIOI瓦人や恋人と・特に飲みたし、 J、QIJ1忙し
きな1
し、ときに 1
更手"である」などであるョまた 5 つの l
:
b
X:分の 1
l
tで017 の 1{fj‑コーヒーそ飲むのは大きな楽しみ
.
2
5 と、最 ι
m
iし、怖を示しているのも注 L
Iしたし、所である。こうした傾 Ii
I
7
)ら、第 5
だ jの主成分負術誌が 0
J
:)
J
I
(
:
分
(
土
「
手J
I便性と楽しさの度合し、」を長す1:iJX:分だと号えられる
w
次の去が第 5
J
:
:
̲
J
&分までの一主 b
l(:分分析の結巣であるーまた、 5つの主成分が炎すものと、それぞれの寄
与本を簡潔にまとめた六 2も作成した
3
nHU
ペU
n
nノμ
PnncipalComponents 44834 3.5833 2 . 8 5 5 5 2 . 6 8 8 1 Percent 1 7 . 2 4 4 0 1 3 .7821 1 0 . 9 8 2 8 10.3387 8.4057 CumP e悶 e n t 1 7 . 2 4 4 0 3 1 . 0お T 42.0088 52.3476 60.7533 0 . 0 7 9 7 1 EigenValue 2.1855 Eigenvecto国 0.07593 ‑028822 0 . 2 1凶 2 ‑ 0 . 0 2 0 6 3 HeaJen 0.29637 0 . 1 3 6 1 1 心 0 6481 0.18446 0 . 0 5 6 8 1 Emerald 0.18347 0.09352 08026 0.37105 Premium 0.25025 003795 0.31392 。 0.25288 20911 0.09965 Roots 0.16105 015817 心 2 9662 心 2 9599 0.22319 ‑017969 Cilel amode 。 01 0.28312 0.06950 心 0 5651 0.30699 02 0.24074 ‑ 0 . 0 9 4 7 8 心 2 9192 0.14573 0.25103 03 ‑ 015283 ‑010771 026681 015425 0.34295 Q4 ‑ 0 . 1 3 0 2 1 0.11106 心 1 2905 0.25452 0.04012 Q5 0.04446 ‑ 0 . 0 9 号 日 日 0.03366 ‑008298 0.37683 06 0.20257 ‑ 0 . 1 1 8 5日 0.37712 ‑ 0 . 0 5 0 9 2 0.04735 07 0.17549 ‑ 0 . 1 4 1 7 9 0.02588 0.18220 0.242 自4 08 Q9 0.23239 0.17513 ‑ 0 . 1 8 3 1 5 0.07254 心 1 1170 0.25397 0.27272 015914 0.22562 心 1 2484 010 0.13116 0.00623 0 . 0 2 5 6日 0. 40060 0.29039 011 ‑ 0 . 2 8 7 3 5 0.17578 0.22530 0.0383日 0 . 2 8 9 8 1 012 ‑ 0 . 2 5 6 3 0 0 . 2 0日52 0 . 0 8 5 3日 0.15516 0.00610 013 ‑017146 002612 0.40925 心 1 4760 ‑ 0 . 1 1 9 0 0 014 0.09513 ‑ 0 . 0 3 7 6 1 ‑ 0 . 3 1 8 0 5 ‑007631 0.17216 0 . 2 6 2 1 1 015 0.21010 0.07908 0.02599 心 1 6168 ‑ 0 . 0 7 5 5 3 016 0.25715 ‑ 0 . 0 5 2 9 2 0.29360 0.18627 017 0.10459 0.03066 0.11179 0.22778 0.25294 018 0.16827 037593 ‑ 0 . 1 6 7 0 2 心 1 6519 0.07578 019 ‑ 0 . 1 3 1 0 2 033288 017652 ‑ 0 . 0 2 4 3 2 ‑008431 020 0.21063 0 . 3 2 0 4 1 0.10230 ‑004782 0.05333 02句 0.27202 0 . 3 0 8 5 8 0.03185 0.17763 心 0 7811 <表 1 > 主成分分析の結果 主成分 示すもの 寄与率 第 1主成分 味の質へのこだわり 第 2主成分 味の多様性へのこだわり 17.2440% 13.7821% 第 3主成分 視覚的イメージを重視する度合い 10.9828% 第4主成分 新しさを求める度合い 10.3387% 第 5主成分 利便性と楽しさを表す度合い 8. 4057% <表 2 > それぞれの主成分が示すもの 2.2 主成分とコーヒー製品の関係 次にこの主成分分析の結果を生かして、それぞれのコーヒーの傾向について考えてみた。 まずカフェラモードだが、ここでは第 3主成分が高い。つまりカフェラモードを好む人には視覚的イメージ を重視する人が多いということである。カフェラモードのオーソドックスなデザインがコーヒーのイメージに ηべU nノμ
合っていて好感を持たれJやすいのだろう。またそのーんーで第 2主成分は低い値を示している。すなわちカ フェラモードには味の多傑性は求められていないとし、うことである。正統派の f f fコーヒーで、あるカフェラモ ード、はデザ、インにも味にもシンプノレさを求める人に釘まれるのだろう。 へブンは特に目立って高い芋 成分はない。むしろ第 l主成分が低し、ことの方が目立つa 第 l主成分は 味の質へのこだわりを示すものなので、へプンには味の質は特に求められてし、ないとし、うことになる。普通 のコーヒーと缶コーヒーは同じコーヒーで、も大分味が違う 缶コーヒーは大抵、普通に入れるコーヒーよりも 3 砂糖やミルクの割合がずっと高い。味の質を求める人は缶コーヒーにもその場で入れて飲む普通のコーヒ ーのような味を求めるだろう。しかしそれを求めないとし、うことは、逆にいわゆる缶コーヒー的な味が好きだ、 ということである。従ってへプ ンを好きな人は缶コーヒーには缶コーヒーらしい味を求めていると言えよう。 どこへ行っても販売機など、で・見かけ、恐らく日本人のかなり多くの割合の人が飲んで、いるであろうエメラ ルド プ、レンドについては疑問が多い。なぜならば、良く飲まれている商品であれば味は良いはずなのに第 1主成分との関係が低い その t、75年から発売されている古い商品であるのに、新しさを求める度合い 3 を去す第4主成分との関係は深い。さらに、いつでもどこでも飲める便利さを備えているのにもかかわらず、 利便性と楽しさの度合いを表す第 5主成分とは反発しあっている。エメラルドに関しては、このように謎ば かりなので、次平の重回帰分析のところで再びじっくりと考察したいと思う。 プレミアムはエメラルドと同じくコカコーラのジョージアと言うプ、ランド の商 I 5 3で、ある C 同じメーカーが違う種 矧と作る場合、商品の製品が明確に違わなしせ意味がない。そこでこの場合はどうかとし、うと、主成分だけ に注目した場合でもプレミアムは第 1主成分と第 3主成分が高いとしづ、エメラルド、とは全く違った傾向を見 せている。このエメラルドとプレミアムの差別化については、また後ほどクラスター分析のところで検討する。 とし、うはっきりとした特徴がある。そし まず第 l主成分が高い理由を考えたい。プレミアムの味には「苦し、 J て苦いとし、うことは大雑把に言うとへプンの所で述べたように、普通に入れて飲む本格的なコーヒーの l 床 に近いとし、うことであるc だから味の質を求める人に好まれるのであろう。次に第 3主成分が高し、ことにつ いても考えたい。第 3主成分が高いとし、うことは、視覚的イメージと内容のー致を求める人に好まれている ということである 3 プレミアムは苦いとし、うのを全面に出しており、缶のデザインにも苦そうなイメージが良く 表されているとし、うことであろう。 ノレーツは第 5主成分が高く第 3主成分と第4主成分は低い。つまり便利で、楽しめる飲み物だが視覚的イ メージは中身に合っておらず、また商品として新しい感じはしないとし、うことである。第 5主成分が高いこと については、ルーツはあちらこちらで、売っているといった意味で 便利で、気軽に楽しめるのだ、ろうだと容易 に想像がつく a 第 3主成分についてあ、ルーツはデ ザインも凝っており C Mもブ、ラッドヒ。ッド、を起用したりし て視覚的効果をかなり狙つてはいるが、それ!まかりを組し、すぎてコーヒー自体の実態が伴っていないとも 考えられる。しかし大変斬新なデザインの缶を持つにもかかわらず、第 4主成分が低いことは非常に解釈 し:こくし、ので、エメラルド、と一緒に再検討したいと忠弘 3 . 重回帰分析 232‑
3 .1 主 成 分 分 析 の 後 に 残 っ た 疑 問 点 主成分分析を行なったことにより、それぞれの製品がどうし、うことを求める人によって好まれるのかが大 体分カりた。しかし、エメラルドとルーツについては主成分分析のみでは良く分からない点があった a まずエメラルドの疑問点について述べたい。エメラルドは、一般に人気商品であり、今聞の調査でも 2位 以ドに大きく差をつけて高い得点をマークした。缶コーヒーが飲むとし、う行為を何よりの目的とした飲み物 であることを考えると、これだけの人気商品がおいしくないわけはない。だが、主成分得点を見てみると、 寄与率の高さからも最も重視すべき、味の質へのこだわりを示す第 1主成分の得点はプラスどころか大き くマイナスとなっているのである。また、エメラルドはコカコーラのマーケットシプーア率を象徴するかのように、 今幽のらつの商品中で一番どこにでも置いてあり、またC Mも盛んに行なわれている。どこでもエメラルド を見かけるとし、うことは、どんなときでも手に入れることのできる便利な商品であると言える c l‑かも C Mは背 から気取った所は全くなく、どららヵ、とし、うと安らぎ、楽しさなどを強調した庶民的なものである。したがって、 エメラルドは「便利」であり「楽しく飲める」高品であると思われる。少なくとも第 5主成分が低く、そのせいで エメラルドの得点がドげられるとし、うことは考えにくい。しかしそれにもかかわらず、利便性と楽しさの度合 いを表す第 5主成分は低い。 一方、ルーツについては第4主成分が低いのが疑問である。商 I 1 1 1として新しい感じはしなし、とし、うことで あるが、ルーツの缶を見るとそれは非常に納得しがたい。なぜなら、ルーツの缶は大変個性的だヵ、らであ る。シルエットに注白すると缶の下の方がくぼんでいるのである c これは熱効率を高めるための工夫らしい 3 缶のシルエットにデ?ザインがあるとし、うのは他に見ることのない斬新なアイデアであり、ルーツは実際商品 としても比較的新しく、デサ守インも、ンックでおしゃれな感じである。 5つのアイテムのt:flても新しさを感じさせ る要素の強し、商品だと考えられる。それなのに新しさを求める度合いを表す第4主成分は低いとし、うこと は理解しにくい。 3.2 相 関 関 係 に つ い て 主成分負荷量とは主成分と元の変量との相関係数である。ここで;問題となってしもエメラルドとルーツと、 5つの主成分得点だけを取り出して相関関係を確認しておきたい。 V冨 ia凶 e & r erad R : l c 1s p rinO : lr 甲 1 内 inQ : )r 甲 2 p rinO : lr 甲 3 P rin O : l 叩 4 p rinO : lr r p5 & r erad 1.0 ∞ 口 ‑0.53)1 ‑0.3885 O.lno .0.1356 0.6a3 ‑0.3乃 B R : l c ts .0.53 口 1 ∞ 口 1.0 0.3410 0.25 自4 .0.5012 .0.4853 0.33)0 内 inO : lr r p1 .0.3 包5 0.3410 1.0 ∞ 口 0.0 ∞ 口 0.0∞ 口 .0.0∞ 口 .0.0∞ 口 内 jnQ : )r 甲 2 O.lno 0.2鈎 4 0.0 ∞ 口 1.0 ∞ 口 0.0 ∞ 口 .0.0 ∞ 口 .0.0∞ 口 内 inO Jr 甲 3 心. 5012 0.0 ∞ 口 内 inO : lr r p5 .0.3乃 B 0.33 口 口 ー 口 一 日 ∞ 口 .0.0 ∞ 口 .0.0 ∞ 口 1.0 ∞ 口 .0.0 ∞ 口 .0.4853 0.0 ∞ 口 .0.0 ∞ 口 1.0 ∞ 口 内 inQ)r 甲 4 .0.1356 叩3 0.6 l O 口 氏l 1.0∞ 口 .0.0 ∞ 口 ー 口 口 ∞ 口 .0.0∞ 口 0.0∞ 口 <表 3 > 相関係数 やはりエメラルド、は第4主成分と k .の関係が強く、第 i主成分、第5主成分と負の関係が強し、ことができ 円ペ U ペU n n F臼
る。そしてルーツは第5主成分との正の関係が強く、第 3主成分、第4主成分と負の関係が強し、ことが確認
できる。
しかし強い相関関係があったからといって強し、因果関係があるとは限らない。この意外性のあるエメラル
ドの第 l主成分得点、第5主成分得点、そしてルーツの第4主成分得点は、商品の得点と実際因果関係
はあるのだろうか。エメラルドとルーツについては重回帰分析を行ない、詳しく調べてみたいと思う。
3.3 エメラルドの重回帰分析
エメラルドについての重回帰分析をしたところ、図 1のような結果になった。
声量申o
n
s
e
:
E
i
1
1
lra
d
[
:
i
J
咽r
y0
1 円t
1
{ W h oJ
e‑M凶 副 Test ]
岡 崎e
0
.
6
1
1a6
時
:
quaeA
:
l
j
0
.
5
4
34)
7
畑 地a
n9
;
ju
a
reE
rr
町
0
.
9
2
4
笥品
鳩町 0
1f
e
;p
o
r
s
e
2
.
7
2
8
5
7
1
2
同
(rarreto
:
rE
s
t
in
1
I
t
田)
To
:
rm
。
E
s
ti門世 e 3dE
rr
o
r tR
a
t
i
oP
to
b
>
l
t
l
.
2
.
3
1
0
1
9
9
1お畠3
7
2
1
.f
f
i
9
8
3
0
3
0
.
4
4
2
臼1
3
.
7
5 O
.0
0
1
6
F
守i
nc
b叩 T
‑Q3
6
9
3
8
0
.
1
0
2
回8
‑3
.
6
0 口氏
F
守i
nc
b叩 5
‑Q6
0
0
0
4 0
.
1
5
6
3
2
1
In
t
e
r
c
即t
D
‑
‑
ー
:
i
Jm'
l
'
@t
s
)
ヨ05=
③s
e
r
v
a
t1
α
1
S(
α
.
1
.
7
0 0
.
1
0
7
2
m
‑
1
‑
3
.
8
9 0
.
0
0
1
2
4
E
m
e
r
a
l
d P
r
e
d悶 !
e
d
{A
叫悶r
.
JV
a
r
i
a
n
c
e
S
o
u
r
c
e
M
o
d
e
l
E
r
r
o
r
C To回
<図
0F
3
1
7
2
0
fS
qua問 S
Suma
2
2
.
9
1
1
1
3
9
1
4
.
5
3
1
7
1
8
3
7
.
4
4
2
8
5
7
MeanS
q
u
a
r
e
7
.
6
3
7
0
5
0
.
8
5
4
8
1
FR
a
t
i
o
8
.
9
3
4
2
P
r
ob>f
0
.
0
0
0
9
1
>エメラルドの重回帰分析の結果
線形回帰式
エメラルドの得点= ‑
2.310199+ 1
.6
598303.QIO
(‑1.70
)
(
3
.
7
5
)
第 l主成分 ‑0.60804・
第 5主成分
‑0
.
3
6
9
3
8・
(
‑
3
.
6
5
)
A
d
jRsquare=0
.
5
4
3
4
0
7
(‑3.89)
S
.
E
.=0
.
9
2
4
5
5
8
自由度調整済決定係数 (RsquareA
d
j
)の値が 0
.
5
4と、こうした項目数の多いアンケートとしては許される
程度に 1に近い値が出ていることから、回帰平面はデータに一応当てはまっていることが分かる。従ってこ
れらのデータによって充分にエメラルド、の得点について説明することができる。
また E斤ect Test の Prob >F の値を見てみると QI0=0.0016、第 1主成分 =0.0022、第5主 成 分 =
‑234‑
0
.
0
0
1
2、となっているので、有意水準を 0
.
0
5とすると、これらはとーの変数もモデ!レを有意に説明していると
し、うことが分かる。
先程の主成分分析ではエメラルドは第 4主成分の主成分負荷量が高く、第 l主成分、第 5主成分の主
成分負荷量が低かった ここでは第 1主成分と第 5主成分はエメラルド にとって負の閃果関係を持つのか
O
どうかについて調べている。ここで回帰式を見てみると、エメラルドの得点は Q10、第 1主成分、第 5主成
分の 3つの説明変数によって説明されており、その同帰係数には、 Ql0は正、第 1主成分は一 O
.37と負、
そして第 5主成分は
0
.
6
0で、負となっている。つまり第 1主成分、第 5主成分は共にエメラルドにおいて少
なからず負の因果関係を持っているとし、うことになる。
ところで、ここで正の相聞の強かった第 4 主成分は説明変数として出てこないが、第 4 主成分の中で
Q10がかなり高い主成分負荷量を示していたことを考えると、 Q10とし、う形で第 4主成分も多少エメラルド
の得点と因果関係を持っていると言うことができるであろう。
3.4 ル ー ツ の 重 回 帰 分 析
/レーツの重回帰分析の結果は図 2のようになった。
~恥蜘del Test ]
陪l
ds
'
e
s
回引間
(釦四 r
y0
1 Rt
J
ぶ!
G
同
:
:
quare
同
;
quaef
<
l
j
0
.
8
0
1臼7
陪l
d 陥町匂Jelf
e8r
o
r
0
.
7
0
2
1
7
2
峰a
nd 向
ヨS岡 田e
1
.
6
3
3
3
3
3
5‑
0
.
7
3
5
1
1
6
ぷ三/
4
'
聞
2
α思 rvaU0
田 (
o
r SJm~s)
3
~開'ter 邑吋~
9
三コ
コ
邑t
i
r
喧 e
Term
SdE
rr
町
tR
l
t
i0 円。刷tI
;
f
;
2‑
(
∞
I
n
t
e
印刷
1臼3
3
3
3
3
0
.
1
5
3
2
2
6
1
0
.
6
6 <
.
0 1
円I
n白 叩 1
0
.
2
1
9
8
4
0
7
0
.
0
7
4栢2
2
.
9
6 0.Oa6
丹1
n白 叩 2
0
.
2
1
5
9
1
前
。叩 2
5
刷
Rin白 叩 3
‑0ω4
釦1
0
.
0
9
2
引5
Rln白 叩 4
‑0ω4ω3
0
.
0
9
5
1
5
5
∞
‑
4
.
2
2 0
.
0∞
7
Rin白 叩 5
0
.
3
0
4
缶9
0
.
1飴Jl7
2
.
8
7 0
.
0
1
1
7
2
.
6
0 O
.
OJ
lO
‑
4
.
3
6 0
.
06
‑101
1 1
2
Roots
(
B
'I回 T tJ
3
4
5
Predicted
田
SJmof 3
luares
lt
i0
FR
円o
o
>F
4.333ω79
8
.
7図6
0.oa6
1
3
.
3
4
0
9
1
3
6
6
.
7
1
5
1
lO
O
.
OJ
円1
n白 叩 3
1
9
.l
i
2
9
句1
1
8
.
9
田1
0
.
06
円1
n白 叩 4
1
8
.
7
7
6
1
6
1
2
1
7
.
7
9
1
9
0
.
07
円1
n白 叩 5
1
4
.缶 7
2
刃8
8
.
2
:
<
90
0
.
0
1
1
7
S
J
u
r
c
e
ト
I
J
a
rm
Rin白 叩 1
Rin白 叩 2
[F
∞
∞
(A
叫 s
i
sd Variance
Source
DF
Sumr
J Squares
MeanSquare
F Rat旧
Model
5
29.870993
5.97420
12.1169
0.49304
Prob>F
E
r
r
o
r
15
7.395674
CT
o
t
a
l
20
37.266667
く図 2
>ルーツの重回帰分析の結果
線形回帰式
ルーツの得点‑ 1
.6
333333+0
.
2
1
9
8
4
0
7・
第 i主成分 +0.2159106・
第 2主成分
(
1
0
.
6
6
)
(
2
.
6
)
(
2
.
6
)
<
.
0
0
0
1
Fhd
ぺ
n
u
nd
‑ 0. 40 4 9 0 1・ 第 3主成分 ‑0. 40 4 0 3 3・ 第4主成分 +0.304669・ 第 5主成分 ( ‑ 4 . 3 ) ( ‑ 4 . 2 ) A d jR s q u a r e=0 . 7 3 5 3 9 6 ( 2 . 8 ) : : .= 0 . 7 0 2 1 7 2 S .I 白由度調整済決定係数 ( R s q u a r eAd j)の値が 0 . 7 4と 、 1に近い値が出ていることから、回帰平面はデー タによく当てはまっていることが分かる。よって、これらのデ‑ータによってかなり十分にルーツの得点につい て説明することができる。 また E恥 c tT e s tの Prob>Fの怖を見てみると第 l主成分 =0.0096、第 2主成分 =0.0200、第 3主成分 =0.0006、第4主成分 =0.0007、第 5主成分 =0.0117 となっているので、有志水準を 0 . 0 5とすると、これ らは全てのエメラルドの得点を説明するのに必要な変量で、あるとし、うことが分かる。 先程の主成分分析で、はルーツは第 5主成分の主成分負荷量が高く、第3主成分と第 4主成分の主成分 負荷量が低かった。ここでは第 5主成分はエメラルド にとって負の因果関係を持つのかどうかについて調 べている。ここで回帰式を見てみると、ルーツの得点は第 1主成分から第 5主成分の 5つの説明変数によ って説明されており、その回帰係数には、第 l主成分は正、第 2主成分は正、第 3主成分は負、第 4主 .40で負、そして第 5主成分は正となっている。つまり第 4主成分はルーツにおいて少なから 成分は一 o ず負の因果関係を持ってしもとし、うことになる。 4 . クラスター分析 先程も述べたように、エメラルドとプレミアムはジョージアという同じブランドの商品である c 同じプランドで違う桶類を出す時は、件ー格の違いが明確でないと意味がない。主成分分析ではこ の 2極の製品は全く違う傾向を見せていた。では、ターゲットにおいてはやはり違いは見られる のだろうか。同じブランドで撞数の種類の商品を生産する場合、それぞれの商品でターゲットを 変えるのが普通でらある。そして全てのターゲットをどそのプランドの中のとやれかしらの種類でひ き付ける事が出来れば、そのプランドは成功したといえる。エメラル!ごとプレミアムの場合は果 たしてどうであろうか。クラスター分析には、 2つのクラスター聞の距離の決め方に様々な方法 があるが、ここではウェード法とコンプリートリンケージを取りあげたい。 まず、ウォード法によるクラスター‑分析を行Lなったところ、図 3のような結果となった。ウォ ード法は、サンプルを結合するときに失われる情報が最小となるように結合する方法で、明確に クラスターを作ることができ、分類感度が高いということから良く使われる手法である。ウォー ド法における 2つのクラスター聞の距離の決め方は以下の式で表される。 2 = l IxK i L lj ( 1 /NK +1 1NL ) DKL 一寸 但し DKL はクラスター K とクラスター Lの聞の距離、 NK NL はそれぞれのクラスターに含まれるオブザベーシヨンの数 を示す。 ‑236ー
PremiumB yEmerald 5 4 3 。 2 3 Eme回 I d 4 5 6 一 一 日i v a r i a ! eNormalE l l i p s eP= O . 旬 日 目 PC l u s ! er =1 一一 B i v a r i a ! eNormalE l l i p s eP=O. 割)QE&PC l u s ! er =2 ‑ 鈎o E&PC l u s ! er =3 B i v a r i a ! eNormalE l l i p s eP=O. ∞ 日i v a r i a ! eNormalE l l i p s eP =O.9 E&PClus!er =4 <図 3 >ウォード法によるクラスター分析の結果 図 3はウォード法によるエメラルドとプレミアムのクラスター分析の散布図と、 9 0 %の信頼 惰円である。クラスターは全部で 4つになった。この 4つのクラスターを順に解釈すると左から 時計回りに「プレミアムは好きだ、がエメラルドは嫌い」なクラスター、「どちらもまあまあ好き」 なクラスター、「エメラルドは好きだがプレミアムはあまり好きでなし、」クラスター、「エメラル ドは嫌いではないがプレミアムは嫌い」なクラスターという風に言える。ここで注目すべきはど ちらにも 2以ドの評点をつけた人はいないということである。つまりどちらも嫌いな人はいない のである c そう言った意味でジョージアは 2種の製品の差別化と、幅広い消費者の確保に成功し ていると考えられる。 しかし、ウォード法にも欠点がある。それは正規分布を前提としてT検定を行なうために一定量のサンプ ルが必要なところである。そこで、コンプリートリンケージによる分析も行なってみた。この手法は、少ないサ ンプル数から早く結果を出すことが出来るため、テストマーケテインク。などに最適で、ある。コンプリートリ ンケージにおける 2つのクラスター聞の距離の決め方は以下の式で表される。 D κL=r n a x iEC r n a x jECLd ( x i ' x j ) K 但し CK CLはクラスタ ‑Kとクラスター Lを表す。 CK に含まれるオプザベーションをお CL に含まれるオプザべー シヨンを Xj とし、 d(Xi,Xj) は両者の聞の距離を示す。 凶 4~まコンプリートリンケージによる、エメラルドとプレミアムのクラスター分析の散布凶と、 9 0 %の信頼楕円である。クラスターはこの場合も全部で 4つになり、結果は 1人だけ「どちら もまあまあ好き」なクラスターから「エメラルドは好きだがプレミアムはあまり好きでなし、」な クラスターに移っただけで、変化はほとんどない。従ってコンプリートリンケージからも同じこ とが言える。つまりウォード 法で、の分析で、問題はなかったということである。 ぺU n n︐白 ︐ ηf
5 4 ︒J 内J4 E E E止 一 コ 。 ~ 0 1 2 3 4 5 6 Emerald 一一一日i v a r i a t eNormalE l l i p s eP=O.9α)E&PComplete=1 ‑ 口駅)QE&PC omplet e=2 B i v a r i a t eNormalE l l i p s eP= 一一一日i v a r i a t eN。円引 a lE l l i p s eP= O.900E&PComplete=3 B i v a r i a t eNormalE l l i p s eP=O.900E&PComplet e=4 <図 4 >コンプ 1)ートリンケージによるクラスター分析の結果 5 .結 論 本論文では、まず主成分分析を行ない、主要な 5つの主成分についてその意味を解釈した。その後、 5 つの缶コーヒーと主成分を照らし合わせ、それぞ、れがどのような特徴・傾向を持っているのかについて調 べ、その理由についても考えてみた。しかしエメラルド、の第 1主成分と第 5主成分、それからルーツの第 4 主成分に関しては、評点に貢献するとし、う因果関係が疑わしかった。そこで、重回帰分析を行なった所、い ずれの場合も、これらを折り込むことで式の決定係数は上昇したので、どちらも少なからず商品の評点に 関わっているとし、うことが分かった。また、同じブ、ランドからエメラルド もプレミアムを山しているジョージアは、 2種の違いを明確にしており、ターゲ、ツトを変えることで、より多くの需要を得ることに成功していると解釈する ことができた。 6 . 謝辞 最後に、本稿執筆にあたり貴重な御時間を裂いて数々のアド、パイスを下さった陶山博太先生に、この場 をお借りして厚くお礼申し上げたい。 l この調査は、慶慮義塾大学湘南藤沢キャンパスの 2 000年秋学期の統計解析の授業で、履修者を被験 者として実施されたものである。なお、調査に使用した缶コーヒーは、カルピスのカフェ・ラ・モード、 ダイドーのへブ.ン、コカコーラのジョージアエメラルドプレンドとプレミアムブレンド、そしてルー ツである。 2 3 8
日本 S A Sユーザー会 (SUG I‑J) SASに よ る 平 均 在 院 日 数 の 推 移 の 解 析 0楊 学 坤 ¥ 今 井 書 正 ¥ 大 島 純 子 . . 小 島 茂 . . . 佐 藤 伸 一 … ¥ 江 原 義 郎 … ¥ ' } 1 1l!天堂大学医学部病院管理学研究室..順天堂医院診療録管理室 ...順天堂大学医学部中央電算機室....順天堂大学医学部中央電算機室研究部門 A STUDYONCHANGEOFAVERAGELENGTHOFSTAYBYSASSYSTEM … .ShinichiSaloh.....YoshiroEhara.... OXuckunY a n g ' .HisamasaI m a i ' .JunkoOshima".S h i g e r uKojima ホ DcparlmenlofHospilalAdmi日i S l r a l i o n .Junlendo Universily School ofMedicin巴 字率 本 本木本文 M巴d i c a lR巴じ ordL i b r a r y .Junl巴ndoUniversily Hospilal **CenlralCompulerO f f iじc .Junlcndo Universily School 0' 1Medicinc DivisionofCompulcrScience.Junl巴ndoUniversily School ofMedicine 要旨 入院患者の平均在院日数は,病院マネジメント変革のキーワードとなり つつある。本研究では, SAS System を用いて,一大学病院に焦点を当て, 最近 20 年間 (1979 年~ 1 9 9 8年 ) の 全 入 院 患 者 の デ ー タ か ら , R E G, U N I V A R I A T E, G L M, F R E Qな ど プ ロ シ ジ ャ に よ り 平 均 在 院 日 数 の 推 移 を 解 析 0年 間 の 在 院 日 数 は し た 。 そ の 結 果 , 以 下 の 3点 を 指 摘 で き た 。 ① こ の 2 着実に短縮推移している。②短期退院患者の増加が平均在院日数の短縮に 0年間の平均在院日数の短縮が顕著だった。 寄与した。③後半 1 キーワード: 平均在院日数 SASシステム 大学病院 統計解析 1.緒言 わ が 国 の 医 療 供 給 体 制 の 基 本 法 で あ る 医 療 法 は 昭 和 23年 に 定 め ら れ た が , そ の 後 の高齢化に伴う疾病構造の変化,医療の高度化や専門化等に対応し,その都度改正 が行われてきた。第四次改正医療法は,平成 1 3年 3月 l日に施行され, I 一般病床」 と「療養病床」の区分を法制化することにより入院医療の効率的な提供が要請され ている。 平均在院日数は入院医療提供体制の重要な指標であり,わが国は近年徐々に短縮 しているが, 1 9 9 6年 の 時 点 で 3 3 . 5日 ( 一 般 病 床 ) で , ア メ リ カ の 7 . 8日,イギリ スの 9 . 8日 , フ ラ ン ス の 1 1 .2日 , ドイツの 1 4 . 3日 な ど と 比 較 す る と , い ま だ に 非 υ ノ nペU 同 ハ η
常 に 長 い 1)。 病 床 数 が 多 く 平 均 在 院 日 数 が 長 い と い う わ が 国 の 医 療 供 給 体 制 1) は早 晩変更を迫られている。医療資源としての病床の効率的な運用のあり方に関する議 論 は 活 発 化 し て い る ト 6)。 A Sシ ス テ ム を 用 い て , 一 大 学 病 院 に 焦 点 を 当 て , 最 近 2 0年 間 に 渡 本研究では. S 3万 件 あ ま り の 全 入 院 忠 者 の デ ー タ か ら , 平 均 在 院 日 数 の 推 移 と , そ れ に 及 ぼ す る2 要因を検討した。 2 . 方法 本 研 究 の 対 象 は 東 京 都 J大 学 病 院 の 入 院 患 者 で . ] 大 学 病 院 の 診 療 録 管 理 室 の デ ータに基づく。 1 9 7 9年 l月から 1 9 9 8年 1 2月 ま で の 2 0年 間 に 渡 る 全 退 院 患 者 ( 延 安 土 )2 3 3 . 6 4 2である。 統計解析には, S A SS y s t e m( D i g i t a lU N I XP r o d u c t i o nR e l e s e6 . 1 2T S 0 4 0 ) の動 作環境を用いた。入力データは,医事用大型コンビュータシステム上の集計を M i c r o s o f t ‑ E x c e lの C S V形式ファイルとして提供を受け, Wi n d o w s 9 8パ ソ コ ン 上 の F T Pク ラ イ ア ン ト ソ フ ト に よ り S A S用 U N I Xサ ー バ ー に 転 送 し た 。 転 送 の 際 , 漢 字 コ U C漢字コードに変換した。 ー ド を シ フ ト ] IS漢 字 コ ー ド か ら E み込みには, S A S上 で の デ ー タ 読 I N F I L E文 の パ ラ メ ー タ に よ り I ,Jを区切り文字に設定し, S A Sデータ セットへの変換を行った。次に 以下の方法により平均在院日数の推移を算定・解 析した。 2 . 1 R E Qプ ロ シ ジ ャ に よ る 平 均 在 院 日 数 の 年 次 推 移 の 回 帰 分 析 J大 学 病 院 の 診 療 録 管 理 室 に お け る 退 院 時 要 約 か ら , 各 退 院 患 者 の 入 院 年 月 日 退院年月日を抽出し, R E Qプロシジャによる平均在院日数の年次推移の回帰分析を 行った。在院日数の算定は 「疾患別在院日数データブック Ji)に従った。すなわち, 入院日より起算し,退院日までの日数を在院日数とする。入院の即日退院の場合に は 在 院 日 数 を l日 と す る 。 平 均 在 院 日 数 は 各 区 分 に 該 当 す る 患 者 の 在 院 日 数 の 算 術 平均として算出される。 2 . 2 U N I V A R I A T Eプ ロ シ ジ ャ に よ る 在 院 日 数 の 詳 細 な 要 約 統 計 量 の 計 算 ‑240一
方法 2
.1の 在 院 日 数 の 算 定 に よ り . UNIVARIATEプ ロ シ ジ ャ に よ る 在 院 日 数 の 詳 細
な要約統計量を計算した。在院日数の標準偏差とともに変動係数(標準偏差を平均
で除した値)を求めた。在院日数パーセンタイル値の算定には,年度別に患者の在
院 日 数 を 小 さ い 順 に 並 べ , 全 体 の 5 %、 10%、25%、50%、75%、90%、95%、99%
の各点に相当する忠者の在院日数(パーセンタイル値)を表示した。
2.3 GLM1元 配 置 プ ロ シ ジ ャ に よ る 在 院 期 間 別 年 度 別 患 者 数 の % 算 定
方法 2
.1の 在 院 日 数 の 算 定 に よ り , 全 退 院 患 者 の 在 院 日 数 を . 1E
j~ 7日. 8 日
1
4 日. 15 日 ~30 日. 31 日 ~90jj. 9
1 日 以 上 に , 在 院 期 間 を 5 グループに分けて,
GLM1元 配 置 プ ロ シ ジ ャ に よ る 在 院 則 問 別 年 度 別 患 者 数 の % 表 示 を 作 図 し た 。
2.4 FREQプ ロ シ ジ ャ に よ る 在 院 日 数 の 度 数 表 の 作 成
1988年 を 境 に し て . 1988年 ま で の 前 卜 年 在 院 日 数 の 度 数 分 布 と 1988年 以 後 の 後
十 年 在 院 日 数 の 度 数 分 布 を 比 較 し た 。 具 体 的 に は . 1979年(最初の年). 1988年(中
間の年). 1998 年 ( 最 後 の 年 ) の 在 院 日 数 の デ ー タ を 抽 出 し , 全 退 院 患 者 の 在 院 日
数を 5 日間隔に分割し. FREQプ ロ シ ジ ャ に よ る こ の 3年 分 の 在 院 日 数 の 度 数 分 布 山
線を作成した。
1
8
0
0
0
3
5
1'-./、J
3
0十 一 ー
│
l
2
5ト
、
町
/
J)‑( 可
司
、
‑
.
.
1
.
.
工
予
.
/'‑'yi
、~-司同町、...J.._
t
b
困対直
t~y~-0.60X+33.26
凹
'ífl l!!:f"~.Y
ニ -U.bUλ+jj.
一
一
n 1
6
0
0
0
ー
一
・
-で事与同~
<
.
.
:
:
J
:
:
テ
『
ー
ー
̲
L
l
1
1
1
11
一ーにノイ ~.Il 門
1
4
0
0
0
1
2
0
0
0
2
0
1
0
0
0
0
"
n
r1
1
1
1n
1
1
1
8
0
0
0
6
0
0
0
1
0
4
0
0
0
5
2
0
0
0
。
0
i
98
08
18
28
38
48
58
68
i8
88
99
09
19
29
39
49
59
69
i9
8年
E二コ入院患者数
‑0一平均入院日数
図 1 20年 間 の 平 均 在 院 日 数 の 推 移
2
4
1一
3 .結果 3 . 1 平均在院日数の年次推移の回帰式 J大 学 病 院 の 1 9 7 9年から 1 9 9 8年までの 1 2 0年 間 の 平 均 在 院 日 数 の 推 移 」 を 図 I に示す。この 2 0年 間 で , 退 院 患 者 数 は 1 9 7 9年の 9,5 7 9から 1 9 9 8年の 1 6,1 6 0へ, 68.7%増加した。平均在院日数は 1 9 7 9年の 31 .5日から 1 9 9 8年の 21 .3日へ, 33.4% 短縮した。回帰直線が y =ー 0 . 6 0 x t 3 3 . 2 6 (y:平均在院日数, x :1 9 7 9年 か ら の 経 過 年 . 9 2だった。 度数人寄与率が 0 表 1 平均在院日数と在院日数パーセンタイル(日)の年次推移 在院日数 l : :W ;偏 差 変 動 系 政 ! 拝i f : . .li.~,者数 病床数 1 9 7 9 9 5 7 9 9 3 6 31 .5 5 2 . 7 1 6 7 . 2 1 9 8 0 9 8 0 6 9 3 6 31 .7 4 9 . 3 1 5 5 . 2 1 9 8 1 9 4 1 8 9 3 4 3 2 . 1 4 9 . 3 1 5 2 . 7 1 9 8 2 9 7 5 9 9 3 1 3 2 . 1 5 6 . 1 1 7 4 . 7 平均 5 % 在院日数パ センタイル ( [ 1) 1 0 % 2 5 % 5 0 % 7 5 % 9 0 % 9 5 % 9 9 % 1 8 3 7 6 8 9 5 1 9 8 1 0 1 9 3 7 6 9 9 6 1 9 6 1 9 3 9 7 2 1 0 1 1 9 2 1 9 3 8 7 0 9 9 1 9 3 1 0 1 9 8 3 1 0 1 1 2 9 3 8 31 .2 5 4 . 0 1 7 3 . 2 1 8 3 6 6 8 9 5 1 9 2 1 9 8 4 1 0 3 7 4 9 4 0 2 9 . 3 3 9 . 7 1 3 5 . 4 1 8 3 5 6 5 9 2 1 7 6 1 9 8 5 1 0 4 1 4 9 4 0 3 0 . 1 4 6 . 7 1 5 5 . 2 1 8 3 5 6 7 9 5 1 8 2 1 9 8 6 1 0 3 8 3 9 4 0 3 0 . 9 6 8 . 2 2 2 0 . 8 1 7 3 5 6 7 9 5 1 9 3 1 9 8 7 1 0 3 5 2 9 4 0 3 0 . 8 5 8 . 4 1 8 9 . 5 1 8 3 5 6 7 9 5 1 7 8 1 9 8 8 1 0 5 5 7 9 2 5 2 9 . 6 .6 53.8181 1 8 3 4 6 5 9 4 1 7 7 1 9 8 9 1 1 5 8 0 8 9 7 2 6 . 9 5 0 . 9 1 8 9 . 2 1 6 3 1 5 7 8 6 1 8 0 1 9 9 0 1 1 5 8 5 8 6 9 2 5 . 4 4 7 . 0 1 8 5 . 0 1 4 3 0 5 7 8 3 1 7 0 1 9 9 1 1 1 8 7 6 8 6 9 2 4 . 9 3 8 . 7 1 5 5 . 5 1 4 3 0 5 7 8 2 1 6 0 1 9 9 2 1 2 4 3 6 8 6 9 2 4 . 6 7 3 . 6 2 9 9 . 1 1 4 2 9 5 3 7 8 1 5 3 1 9 9 3 1 1 8 9 7 8 7 6 2 4 . 4 3 6 . 3 1 4 8 . 4 1 4 3 0 5 7 8 2 1 5 7 1 9 9 4 1 3 0 6 4 9 6 1 2 2 . 9 3 6 . 9 1 6 0 . 8 1 3 2 8 5 2 7 4 1 4 8 1 9 9 5 1 4 4 8 1 1 0 2 0 2 3 . 2 3 9 . 6 1 7 0 . 8 1 3 2 8 5 3 78 1 5 5 1 9 9 6 1 4 4 3 2 1 0 2 0 2 4 . 6 5 6 . 7 2 3 0 . 6 1 3 2 9 5 5 8 0 1 6 5 1 9 9 7 1 5 3 7 7 1 0 2 0 2 2 . 5 3 9 . 1 1 7 3 . 7 1 3 2 7 5 1 7 4 1 4 6 1 9 9 8 1 6 1 6 0 1 0 2 0 21 .3 3 0 . 5 1 4 2 . 9 1 2 2 6 4 9 7 1 1 4 2 ' 1 ' ) ; ) 1 1 6 8 2 9 3 9 2 6 . 9 4 9 . 5 1 8 3 . 6 1 5 3 2 6 0 8 6 1 7 0 3 . 2 平均在院日数と在院日数パーセンタイル 「 平 均 在 院 日 数 と 在 院 日 数 パ ー セ ン タ イ ル ( 日 ) の 年 次 推 移 」 を 表 lに 示 す 。 在 院日数の変動係数については, 2 0 0を超えたのは, 1 9 8 6年の 2 2 0 . 8,1 9 9 2年の 2 9 9 . 1, n dハ ︐ n ︐ T
1996年の 230.6で あ る 。 そ の 原 因 は 超 長 期 入 院 患 者 が 存 在 し た た め だ っ た 。 在 院 日
数パーセンタイル(日)は,
ルは 4 日から 2日へ
5パ ー セ ン タ イ ル が 3日から 2日へ, 1
0パ ー セ ン タ イ
25 パ ー セ ン タ イ ル は 9日から 5日へ
50 パ ー セ ン タ イ ル は
1
8日から 1
2日へ, 75パ ー セ ン タ イ ル は 37日から 26日へ, 90パ ー セ ン タ イ ル は 68
日から 49日へ, 95パ ー セ ン タ イ ル は 95日から 7
1 日へ, 99パ ー セ ン タ イ ル は 198
日から 142日 へ , そ れ ぞ れ l日
,
2日
,
4日
,
6日
, 1
1日
, 1
9日
, 24日
, 56日と
短 縮 を 示 し た 。 「 平 均 在 院 日 数 と パ ー セ ン タ イ ル 分 位 数 の 年 次 推 移 」 は , 図 2を示し
たように,平均在院日数は中間値 (50パ ー セ ン タ イ ル ) と 第 3四 分 位 数 (75パーセ
ン タ イ ル ) の 問 で , 中 間 値 よ り 第 3四 分 位 数 に 近 い 値 ( 日 ) で 推 移 し て い た 。
4
0 r 一一
3
5
2
5
2
0
1
5
ト
ー
.
̲
;
.
.
‑
)
t
(
̲
̲
̲
̲
w.:‑‑‑)t(.一一一一一一
ー'",
~~~~~~~~~-~-~-~-~-~
町、、'~-~-~~~
~ ~ ~ ~ ~ I
-....~-~-~_~_~_~I
。
7
98
08
1 8
28
38
4 8
58
68
78
88
99
0 9
1 9
2 9
3 9
4 9
5 9
6 9
79
8年
一・一平均在院日数
‑:!(ー第 1四分 i
立数
‑0ー中央値
一合一第 3四分位数
図 2 平均在院日数とパーセンタイル分位数の年次推移
3.3 在 院 期 間 別 患 者 数 の % 表 示 の 年 次 推 移
「在院期間別患者数の%表示の年次推移」を図 3 に示す。在院 l 日 ~7 日が, 1
979
年の 18.9%か ら 直 線 的 に 上 昇 し
~1
4 日が,
1998年には 36.5%となり
倍 増 し た 。 在 院 8日
1979年の 22.3%から 1998年の 20%へ
, 2.3 減少した。在院 15 日 ~30
日が, 1979 年の 28.5% から 1998 年の 22.5 へ, 6% 減少した。在院 31 日 ~90 日が,
n
ぺU
A 斗ゐ
つム
1 9 7 9年の 24.8%から 1 9 9 8年の 18.1%へ , 6 .7%減少した。 9 1日以上は, 1 9 7 9年の 5.6%から 1 9 9 8年の 2.9%へ , 半 減 し た 。 在 院 7日 以 内 の 割 合 の 倍 増 が 平 均 在 院 日 数の短縮に寄与したことが明らかである。 0 % 1 0 % 2 0 % 3 0 % 4 0 % 5 0 % 6 0 % 7 0 % 8 0 % 9 0 % 1 0 0 % 1 9 7 9 1 9 8 0 1 9 8 1 1 9 8 2 1 9 8 3 1 9 8 4 1 9 8 5 1 9 8 6 1 9 8 7 1 9 8 8 1 9 8 9 1 9 9 0 1 9 9 1 1 9 9 2 1 9 9 3 1 9 9 4 1 9 9 5 1 9 9 6 1 9 9 7 1 9 9 8 ロI‑I日 ロ8‑14日 .15‑30日 ロ31‑90日 ロ9 1日以上 図 3 在院期間別患者数の%表示の年次推移 3 . 4 在院日数の度数分布 f l i l線 f 1 9 7 9年 , 1 9 8 8年 , 1 9 9 8年 の 在 院 日 数 の 度 数 分 布 曲 線 」 を 図 4に示す。 1 9 7 9年 9 8 8年 の 度 数 分 布 山 線 は 近 似 に お り , 単 峰 性 右 裾 広 が り の 分 布 で , 峰 イ 直 は と 1 1 3 日 で 年 間 在 院 患 者 の 16%を 占 め , そ れ 以 上 で は 急 速 に 下 降 し て い る 。 右 の 方に著しく裾が延びており, 1 2 0 日 以 上 が 約 3%である。 1 9 9 8年 は , 対 数 正 規 分 布 で , 最 大 値 は 4 日 で , 年 間 在 院 患 者 の 25%を占め, 1 0 日の時点で, 1 9 7 9 年と 1 9 8 8年 の 度 数 分 布 曲 線 と 交 差 し て , f 走者のやや下で推移しており, 1 2 0 日以 kが1.6%である。 4 . 考察 本研究の結果により, J大 学 病 院 の 1 9 7 9年から 1 9 9 8年 ま で 2 0年 間 の 平 均 在 院 日 数は 3 1 .5日から 2 1 .3日へと, 3 3.4%短 縮 し た 。 厚 生 省 の 統 計 に よ る と , 全 国 の 同 2 4 4 ‑
時期の平均在院日数は 3 8 . 31 ‑ 1 8)から 3 1 .5日 9)へと 1 7.4%短縮した。 J大 学 病 院 の 平 均 在 院 日 数 は 全 国 平 均 よ り 短 く , お よ そ 3分の 2であり,この 2 0年 間 の 短 縮 率 も 約 2倍 で あ る 。 ま た , 谷 口 ら の 報 告 10) によると,ある地域基幹病院の 1 9 8 2年から 1 9 9 5年 ま で 1 4年 間 の 平 均 在 院 日 数 は 31 .6日から 2 5 . 4日へと 20%短縮しており, J大学病院の値に近似している。 ,. 12 10 2• o~ 0‑4 20‑24 4日‑44 6日 64 80‑8. 1日0‑10 ' : 三 " )=120d 図41 9 7 9年 , 1 9 8 8年 , 1 9 9 8年 の 在 院 日 数 の 度 数 分 布 曲 線 在院期間の患者数割合の年次推移を比較したものが凶 3 である。在院 15 日 ~30 日,在院 31 日 ~90 日,在院 91 日以上の 3 グループは,在院期間の長いほど平均在 院日数の短縮率が著明と窺われる。それと対照的に, 1 9 8 9年 を 契 期 に 7日 以 内 の 短 期入院患者数の割合が大幅に増加した。それが当然,平均在院日数の短縮に貢献し 9 8 8i l ミを分岐点として,前半の 1 0年 1 1 ¥jで在院日数の度数 た。図 4に示すように, 1 分布曲線はほとんど変化していないが,後半の 1 0年 間 で 4日 以 内 の 頻 度 の 上 昇 が 顕 ζυ ノ ηω 89
著になったことがわかる。 5 .結論 大学病院の平均在院日数について,過去 2 0年 間 の 推 移 実 態 を 具 体 的 に 記 載 し た 報 告 は 見 当 た ら な い 。 今 回 の 分 析 で , 以 下 の 3点 を 指 摘 で き た 。 ① J大 学 病 院 の 平 均 0年 間 で 着 実 に 下 降 推 移 し て い る 。 ② 7日 以 内 短 期 退 院 患 者 の 割 在院日数は,この 2 合の増加は,平均在院日数の短縮に寄与した。③前半 1 0年 間 よ り , 後 半 1 0年 間 の 平均在院日数の短縮が顕著だった。 参 考文献 1) 伊 藤 雅 治 : 2 1世 紀 の 医 療 制 度 と 医 療 行 政 を 展 望 す る , 病 院 5 9( 12 ),1080‑1089,2 0 0 0 . 2) 大 道 久:在院日数の短縮と退院計画一病床の有効利用と在院日数の管理 ,病院 4 9( 4 ), 556‑560, 1 9 9 0 . 3)橋本修ニ,藤田利治,福富和夫:退院患者の平均在院日数に関する一考察, Bull. Inst . Public Health, 4 4 ( 3 ), 363‑371, 1 9 9 5 . 4)梅里良正:日・米・伊の 3病 院 に お け る 疾 患 別 在 院 日 数 の 検 討 , 第 1 3回 医 療 情 報 学 連 合大会 1 3th ]CM , I 515‑518, 1 9 9 3 . 5) S h iL . : Patient andhospital charact巴 risticsAssociatedwith average length o f stay, Hea1t h car巴 manage r e v ., 2 1( 2 ), 46‑61, 1 9 9 6 . 6) Yaksic] R .e ta1 . : Casemanagemento fchronicventilatorpatient . R巴duceaverag巴 length o f stay and c o s tb y half, nursing case managem巴n t, 1( 1 ) , 2‑10, 1 9 9 6 . 7 ) 病 院 医 療 評 価 研 究 会 編 ( 代 表 : 大 道 久 ) :疾患別在院日数データプック.医学書院, 1 9 8 9 . 8) 財 団 法 人 厚 生 統 計 協 会 : 国 民 衛 生 の 動 向 , 厚 生 の 指 標 4 1( 9 ), 476, 1 9 9 4 . 9 3, 2 0 0 0 . 9) 財 団 法 人 厚 生 統 計 協 会 : 国 民 衛 生 の 動 向 , 厚 生 の 指 標 47(9), 1 1 0) 谷口和夫,門野敬三,中村 博,他:地域基幹病院における平均在院日数の検討, 川 崎 医 療 福 祉 学 会 誌 7( 1 ) , 1 45‑158, 1 9 9 7 . ノh F円 υ 凋η
日本 SASユーザー会 (SUG1‑0) 大学マーケティング、へのハフモデルの適用 朝野県彦 都立大学 Ana p p l i c a t i o no fHu f f 'smodelt om a r k e t i n gf o rU n i v e r s i t y H i r o h i k oAsano TokyoM e t r o p o l i t a nU n i v e r s i 旬 要旨 首都圏の某私立大学の受験者数を予測するために調査を行い、中西の対数中央化変換を用いて 拡張ハフモデルのパラメータを推定した シミュレーションの結果、当該大学に観光学科を新設し C 「明るし、」としづ校風イメージを向上させることが受験者増をもたらすとしづ予測結果を得た。本論文 で、は、シミュレーションの手続きを言己主し今後の研究課長言論する。 キ ー ワ ー ド : 拡張ハフモデ、ル、中西の対数中央化変換、大学受験シミュレータ 1 .研究課題の定式化 日本の 1 8歳人口は減少、をたどっており、 2009年には大学全入日寺代に入ると予想されている。現在 入試制度及び卒業判定の見直し等が多くの大学で議論されてしもが、中で、も私学にとっては多数の 受験生を確保することが、経営上の言親~H こなってしも(黒木 1999 、藤原 2000) 。 このような市場環境の中で、我々は首都圏の一私大 ( S大学)をケースにとりあげ、当該大学の受験 年内に実行可能であ 者数を増加させるためのプロモーション戦略を提案することにした。同大学が 3 ると想定されるマーケティング施策を実証的に評価する。大学への吸引力を強めると想定した施策 は以下の通り。 ① 2月に加えて 1 2月にも入学試験日を設ける。@決学内にマクドナルドと T S U τ' A YAを導入 する。@現在 S大学に設置されていない観光学科を新設する。④オーフ。ンキャンパスの増加。 ⑤その他、図書館の蔵書数・初年度納付金・教員 1人あたりの学生数・ PC1台あたりの学生数 A斗 A ウl ム つ
など教育環境の整備。 2 .調査と分析 2 . 1 調査計画 調査地域 東京・神奈川・埼玉 調査対象者 大学進学を希望する高校3年生または浪人生 サンプル数 3 0 0人 標本抽出 各地域の予備校前で街頭調査 ( 3地域均等割り当て) 調査方法 質問紙面接法 調査時期 平成 1 2年 7月 8日' " ' ‑ 2 4日 調査項目 ①首都圏の 9つの私大(図 1 )への受験希望 ②各大学のイメージ評価(明るい、親しみゃすい、規模が大きし、) ③対象者の最寄駅と最寄駅までのアクセス時間 「 図 1 私立大学入学志願者数 (平成 12年度文系一部のみ) 駒沢大学 青山学院大学 B百 7首 2 3. 43 9名 東海大学 4首 1 2 . 3 2 8名 早稲田大学 2 0目 7 2 . 8 8 9名 2 8 . 1 1 9名 立教大学 1 0百 3 3 . 0 8 8名 明治大学 1 4 % 5 0 . 2 1 9名 専修大学 1 0弛 3 4 . 8 4 1名 中央大学 1 3弛 4 3 . 6 7 0名 (資料出所)各大学のホームページ ‑248一 東洋大学 1 4 弛 4 8 . 0 2 2名
2 . 2予 備 的 分 析 <地 区 > 受 験 生 の 臨 地 に 従 っ て 、 対 象 者 全 体 を 22の地区に分割したいユ…ス)。 <主成分分析> つのイメージを集約して総合評価を求めるた 「明るし、」、「親しみゃすし、」、「規模が大きし、」とし、う 3 めに主成分分析を行った。分析には竹内他 ( 1 9 9 3 )に準拠して SAS/STATソフトウェアを用いた。 調査データ X ( 198x3)......各イメージに「該当する」比率を並べたデータ行列である。データ行 と地区数22 を組み合わせた数。 列の行数は大学数9 主成分スコア f=Xw を重回帰分析の説明変数の lつとして用いた。 wは主成分係数であり、 S AS では固有ベクトルとして出力される。 E i g e n v a l u e so ft h eC o r r e l a t i o nM a t r i x E i g e n v a l u e D i f f e r e n c e P r o p o r t i o n P R I N l P R I N 2 P R I N 3 1 . 14 7 9 6 1 .0 1 8 0 1 0 . 1 2 9 9 4 6 0 . 1 8 3 9 9 0 0 . 8 3 4 0 2 C u m u l a t i v e 0 . 3 8 2 6 5 4 0 . 3 3 9 3 3 8 0 . 2 7 8 0 0 8 E i g e n v e c t o r s P R I N l P R I N 2 AKARUI S I T A S I M I KIBO 0 . 7 1 8 9 9 0 0 . 1 2 9 5 2 3 0 . 6 8 2 8 4 5 0 . 1 4 1 5 6 6 0 . 9 3 4 5 9 3 一. 3 2 6 3 3 5 0 . 3 8 2 6 5 0 . 7 2 1 9 9 1 .0 0 0 0 0 P R I N 3 一. 6 8 0 4 5 1 0 . 3 3 1 2 9 9 0 . 6 5 3 6 2 7 2 . 3パラメータ推定 受験者数を推定するために、我々はハフモデ、/レを多変数に拡張した MCI( 積乗型競合相互作用) u f f( 19 6 4 )は小売屈の規模と旅行時間の 2要因モデルを提唱したのだが、これ モデ、ノレを用いた。 H を多要因拡張したハフモテ、/レが MCIモデルで、ある。我々は大学受験希望の回答比率データ及び 表lの説明変数データを中西(19 8 3 )の対数中央化変換にかけ、変換後のデータを重回帰分析に治、 けてパラメータを推定した。利用したソフトは SAS/STATソフトウェアで、ある。 表1 分析変数一覧 (0・・説明変数・..・基準変数) 変数 MAC TSUTA キャンパス内 i こTSUTAYA ZOUSHO OCAM 。 。 。 。 。 。 。 。 。 分析l 入学試験日 平均敷地面積 図書館の蔵書数 オープンキャンパスの開催数 キャンパス内にマック SHIKENBI SHIKICJ ‑ !I ‑249一 分析2
KANKOU 学科の中に観光学科 IME 主成分分析で得られた主成分スコア NOUFU 初年度納付金 KYOUIN 教員 l 人当たりの学生数 PC PCl台当たりの学生数 JlKAN 各地区から大学までの所要時間 受験確率 サンプルの各大学に対する受験希望 。 。 。 。 。 。 • 。 。 。 。 。 • 分析 1よりパラメータの推定値がマイナスになった O C A M、M A C、TSUTAYA、P Cの4変数を除 いて分析2を行った。 2.4拡張ハフモテ、ル 分析 2の結果を次に示す。ここでイメージ品四)は主成分スコアであるが 主成分分析によれば主 成分係数はいずれも正で・あったから、各イメージを高めることが大学選択にプラスに働くことが分 N O U F U ) や所要時間( J I K A N )については、値が大きくなる かった。パラメータが負になった納付金( ほど大学受験への抵抗が大きくなることを意味する。 THESASSYSTEM PARAMETERESTlMATES VARIAsLE DF KANKOU 0 . 0 1 6 3 2 1 2 8 0 . 0 6 9 0 5 6 5 8 0 . 1 0 6 4 4 4 6 9 0 . 2 0 0 2 1 4 7 6 0 . 0 7 8 4 2 5 8 5 0 . 6 6 1 9 8 9 6 4 0 . 1 1 3 2 3 9 8 1 0 . 1 3 2 1 2 5 1 5 0 . 1 4 6 1 3 1 9 8 白 jlKAN 5 . 6 2 8 1 3 2 E ‑ 1 0 ‑ 0 . 1 9 2 0 6 3 0 . 2 3 3 9 0 8 0 . 3 4 3 1 3 3 0 . 1 6 9 5 3 7 3 . 5 4 4 6 0 0 0 . 0 3 1 1 6 6 0 . 5 2 6 8 0 8 0 . 0 7 5 8 5 8 TFORHO: PARAMETER ニO ま NOUFU KYOUIN IME ERROR Fhu7405U I l L 7 a A当 η 4 4 ︑ ー ︐ 戸 74n PU‑inU SHIKICHI ZOUSHO STANDARD ESTlMATE ∞市 JYJ ぉ 295 ・・つ o f F‑M21ηノ ‑勺︼一ハUqυ ハU INTERCEP SHIKENsl PARAMETER PROB>! T ! 1 .0 0 0 0 0 . 0 0 5 9 0 . 0 2 9 0 0 . 0 8 7 9 0 . 0 3 1 7 0 . 0 0 0 1 0 . 7 8 3 4 0 . 0 0 0 1 0 . 6 0 4 2 U q = x i I x x b x x x t x z b x z b ( 1 ) Vj…地区 iの受験生が大学jにもつ効用値 の測定値(対数中刻ヒ変換) xjk‑‑J大学の変数k ・l地区で、のj 大学の変数k'こ関する測定値(対数中刻ヒ変換) IMEとJlKANがこれ Z;jk'・ に該当する bk…重回帰分析によって推定されたパラメータ ( 2 )式で求める。 地区別大学選択確率 P ; jを ‑250‑
告 P " ̲ . . . . . . . . . . . . . . . ( 2 ) 9大学における粗受験者数 Ejは次のように求めた。 Ej =~FiNiPij F,=1 色…一一一 (4) n . 向 N j : i地区における 18歳人口の進学若J 頼者数 F j : i地区で調査対象とした大学のいずれかを受験する確率 nj : i地区の回答者数 o t :リストにあげたどの大学も受験しなし吃答えた人数 2 . 5大学受験シミュレータ ( 3 )を用いて算出した各大学の粗受験者数日は図 2の通りであり、図 1の実受験者数とは偏りがあ るc その理由は第 1に、今回調査実担象にした大学はし、ずれも全国規模の私大であるが、我々が調査 を行ったのは首都圏の限られた地域で、あったため、実際のエリアとは偏りがあったの第 2 fこ、大学受 験においては 1人の受験生が複数の大学を併願することから、延べ受験者数は受験生数よりも多く 5 )式を用いて調整 なる。そこで、調査地域の偏り及び、複数受験の影響を補正するために下記の ( 項A jを求めた。さらに、今回のシナリオで想定した3年後の受験人口は現在よりも減少するとみられ ているため、 3 年後の市場規模の推定を行った 以上の c a l i b r a t i o nを加えて、最終的に ( 6 )式を用い O 年後の全国レベルの受験者数を予測したウ て3 図2 各 大 学 の 粗 受 験 者 数 ( 日 ) 圃専修 6 2 9 9 ロ青山学院 ロ東洋 1 1 2 7 8 1 1 6 4 4 … [ ‑251‑
表 2 各大学の調整項 A J z t 向 SJ=α AjEj…… ( 6 ) Sj:大笥の全国規模の総受験者数 α:3年後の市場規模の調整係数 一 一 一 一 一 * 平 成 12 年 8月の学校基本調査(文部省)における高等学校卒業者数の過去5 年間の平均減 少数から、 3年後の平成 1 5年の高等学校卒業者数を推定した結果、現在の 83%で、あった。 . 8 3とした。 従って α =0 2 . 6シミュレーション 表3 シナリオ一覧 内容 ベースライン( 3年後は現在の0 . 8 3倍に減少すると想定される 「観光学科」の新設 競合他校が「観光学科」を設置して対抗してきた場合 1 % 増やす シナリオ3 図書館の蔵書数の増加 卜3 紗習やす 5% 増やす 1 % 値下げする シナリオ4 初年度納付金の値下げ 卜 2% 値下げする 3% 値下げする 「明るし、」と感じる受験生を 5 %増やす シナリオ5 S大学のイメージアップ • ' " ' 10%増やす "'15%増やす 「親しみゃすし、」と感じる受験生を 5% 増やす "'10% 増やす " . 1 5 九増やす シナリオ6 [シナリオ1 ] + [シナリオ5]i明るしリ ( + 5 % ) ηJU Fhυ ηJU
図 3 シ ナ リ オ 5の 市 場 反 応 関 数 ( 明 る い ) 総受験者数 ( S j ) 一 : : ム 数 l 34000 33000 144 5 0 0 0 00 32000 3500 3000 31000 i ~~~~ 2000 30000 29000 ! 11500 28000 1000 500 27000 26000 ! 語蚕扇7昔数 15% 33273 4355 28918 ト←増加人数 <シナリオ 6> 我々が評価したシナリオの中で有望とみられたのは、「観光学科を新設し、 S大学の『明るし、』イメ アッフ。する」としづマーケテイング・ミックス戦略で、あり、このシナリオが実現すれば、 S大学 ージを 5% の受験者数は想定される受験者数(ベースライン)より 1 2929人 (45%)増加し41847人になること が予測された。 総受験者数 ( S j ) 50000 40000 30000 20000 10000 。 口総受験者数 臼増加人数 l l ベース 28918 ‑ ‑ ‑ ‑ ‑ r o 41847 1 2 9 2 9 ー よ 一 一 一 図4 シナリオ6における受験者数の変化 ‑253‑ 一一一一」
図 5 各大学の総受験者数 (Sj) 圃専修41847 口早稲田 58635 口東海 9917 口駒j 畢18853 口青山学院 22624 口東洋 38624 口中央 35131 3 .討論 我々は様々なシナリオの下での受験者数の変化を予測するために自主調査を行ってデータを分 析した。本研究から得られたマーケテインク守上の示唆は次の通りで、ある。 我々のシミュレーションで、は、「観光学科を新設」することによってS大学の受験者数は、 3年後の 受験生規模において、現状より 10803人 (37%)増加し 39721人になるとしづ予測結果を得た。し かし、競合他校も同じ学科を設置して対抗してくる可能性がある。そこで、、競合 3校も「観光学科」を 設置するとし、う、ンナリオのもとで、シミュレーションした結果、 S大学の受験者数は 35939人になった。 その他の施策では、「入学試験日の早期日程 (12月)を設ける」としウ施策については、受験生は早 期日程での受験を望んでいないため、この施策は受験生に歓迎されなし、ことが明らかになったO これまで一部の大学は学生に対して過剰なサービスを提供し、それによってキャンパスのレ、ジャ ーランド化が進んで、きたが、これが大学生の学力低下の一因ではなし、かと思われる。しかし、今回 の研究から受験生はキャンパス内に「マクドナルド」や ITSUTAYAJのようなレジャー施設を望ん ではいないことが明らかになった。大学は今後学生に提供するサービスを見直し、本来の学問教育 に専念することが必要であろう。本研究において我々の用いたアプローチは、他の私立大学の反応 分析にも適用できる。即ち競合校による新たな施策や施設面で、の改善を予測モデ、ルに投入すること によって、競合校の受験者数の変化が予測できる。 ‑254
最後に本研究の制約と今後の研骨諜E を指摘する。 ①今回の研究で、はマーケテインクa施策の費用対効果を評(面していなし、。 ②モデ、ル式から推定した受験者数と各大学の実受験者数に事離が生じた。その原因は全国の中 から東京、神奈川、埼玉の 3出或しか調査を行わなかったとし、う偏りが第 lであるの第 2の原因は、 その 3地域におけるサンフ。/レが無作為標本で、なかったことによる。第 3 (こは受験生 1人当たりの 受験校数の相違が偏りの原因である。しかし第 3の点については信頼の置ける予測値はまだ発 表されていないの ③今回の研究で、は調査が小規模で、あったためにサンプルの性別及び学年を区別しないで分析を 行ったが、受験生の属性別に分析すれば拡張ハフモテ、ルにおけるパラメータの推定値も変化 するであろう。 歳人口のみであり既卒者と社会 ④本論文で、受験者数の、ンミュレーションに用いた統計データは 18 人は含んで、いない。 ⑤ 仮 に 多 数 の 受 験 生 がS大学の観光学科を受験することになれば、当学科の倍率は極めて高くな り受験を見合わせる受験生が現れるであろう。従って他の受験生の受験情報に基づ、く態度変容 を組み入れた大学受験シミュレータを構築する必要がある。 本調査は専修大学商学部の学生が共同して行ったもので、ある。彼らの真撃な努力を高く評価しつ つ名前を挙げる c 田中大介・内山美乃里・山崎忠良J !・谷川孝ニ・中村邦子・上村薫・服部明修・成宮 佑介・大川絢子。 引用文献 藤原辰信 ( 2 0 0 0 )1 2 1世紀への大学改造計画」大学教育研究所 H u f f ,D a v i dL ( 19 6 4 )D e f i n i n ga n de s t i m a t i n gat r a d i n gむ e a .J O U F . 刀' a JofM i 1 F k e t i n , g2 8,J u l y,3 4 ‑ 3 8 . 黒木比呂史 ( 1 9 9 9 )1 迷走する大学」論語J ! 社 中西正雄(19 8 3 )1 小売吸引力の理論と測定」千倉書庖 9 3 )I S A Sによるデータ角執庁 竹内啓監修市川伸一・大橋靖雄・岸本淳司・浜田知久馬(19 入 門 第 2版」東京大学出版会 υ ﹁ 円 F h υ nノ臼
口頭論文発表 金融
日本 SASユーザー会 (SUG1‑0) オルタナティプ(代替)投資のリスクコントロール ーシナリオ相関を考慮したポートフォリオ構築ー 西山昇 投資戦略部 朝日ライフアセットマネジメント株式会社 AnI d e ao fRiskC o n t r o lMethodsf o rAlt e r n a t i v eInvestments o c a t i o nOptimizeru s i n gS c e n a r i oC o r r e l a t i o n ‑ ‑ S t r a t e g i cAll NoboruNishiyama t d . AsahiL i f eAssetManagementCO.,L 要旨 代替投資は金融技術を駆使した絶対収益を目指す手法であり、伝統的指標のみでは評価できない 潜在的リスクを保有する。本研究では複雑系の考え方をリスク管理に導入して低リスクで安定収益を獲 得する方法を検討する。 キーワード自己組織性、ゆらぎ、シナリオ相関、クリティカル・インディケータ ( CI ) 、 SAS/IMLソフトウェア , .はじめに オルタナティプ(代替)投資に注目する日本の投資家が増加している。オルタナティブ、(代替)投資と は、へッジファンド運用が中心となる。へッジファンド、とし、うと利益を求めて世界中を動き回り、マーケット を混乱させるマネー集団としてのイメージがある [ l J。しかし米国資本市場においてへッジ、ファンドが I T 業種の新興企業群に公的資金をリスクマネーとして循環させる役割を果たしたとの見方もある [ 2 J。へッ ジファンド、運用の特徴は大きく 2つあげられる。(1)ベンチマークとなるインデックスとの連動性が低し、こと、 ( 2 )経済等の外部環境の変化と無関係にプラスのパフォーマンスを目指すこと、である。個別のへッジフ アンド が公表する過去のトラッキング、レコードが示しているパフォーマンスは、低リスク、かつ、高リターン の魅力的な運用である。しかし、リスクに目を転じると、 1998年夏に発生した米国 LTCM(Long‑Term 3 J。 C a p i t a lM a n a g e m e n t )社の破綻に象徴される事例が良く知られている [ LTCM社の破綻において観察されたリスクは、なんの前触れもなく突然 C a t a s t r o p h i c " に表面化す x t r巴me"なリスクで、ある。 LTCM社の事例は、 る E E x t r巴me"なリスクに対して正規分布を前提とした伝 259‑
統的リスク管理手法で、ある VaR(Valuea tR i s k )のみで は対応で きない可能性を示唆している[4 J [ 5 J。 LTCMが般綻した一つの理由として、資本を大きく超過するレパレッジをかけていたことが指摘されて いる。一般的にヘッジファンド・の運用スタイルはある程度開示されてはいるものの、パフォーマンスの源 S k i l l BasedJであるため、各ヘッジファンド1ま必要最小限の運用情報以外は公開しない。さらに 泉が r 絶対リターンの追求を目的としてテVパティブ を駆使するため潜在的リスクを保有することになり、ヘッジ ファンド・によっては「スタイノレ」、「リスクエクスポージャー」が公表されたパフォーマンスから判断で、きない ケースもある。 しかし LTCM社のケースについては、レパレッジレベルは高いとされていたものの、意図的にレパレッ ジを上昇させたのではなく、ロシア危機を発端とした市場の急変が、それまで、のレパレッジレベルで 問題 とならなかったはずのポジ、ンョン解消の妨げになり、レパレッジが急上昇したとし、うのが実態のようである。 売りたくても売れない、買いたくても買えない、「流動性の枯渇」が瞬時に発生して LTCM社破綻につな がったとされている。 LTCM社はスワップ、オプ、ンョン等を含むオフバランスポ、ジ、ンョンで 最大時には l兆ドル超を保令.して Jと呼ばれる取引方法が中心で、ファンド、内資産をブ、ローカ一、銀行などカ いたとされている。「レポ取号 [ ウンターパーティーに売却、ローンとしてのキヤツ、ンュと交換して、将来時点に固定した価格で買戻す方 法だ、ったG 通常、ブローカーは保有資産の価値減少のバッファーとして担保掛率を設定しキャッシュを ある程度確保するのだが、 LTCM社は当時優良な借り手と評価されていたため相保掛率がほぼゼロで あった。ところが口、ンア危機をきっかけとしてカウンターパーティ自身の保有担保価値が急減したため、 担保資産の追加を LTCM社に迫ると同時に、カウンターパーティー自身の取引不能による損失拡大を 恐れてカウンターパーティの多くが保有資産を一斉に売却しはじめた。その結果、売手多数で買手が 存在しないとし、う「流動性の枯渇」状態が発生した [ 6 J。 急激な「流動性の枯渇」とし、う C a t a s t r o p h i c "なリスクを金融工学的観点、からリスク管理に導入すること は議論されるべき課題であり、「流動性」を直接観察してリスク管理に導入する方法も検討されている [ 7 J。 LTCM社の取ヲ l における流動性は、証券会社、銀行を直接取引相手とする相対取引が中心であること から、市場取引のように公表された取引量の数値を把握することは困難である。そこで、マーケットの流動 性も含めた微妙な変化をとらえるため、クラッ、ンュ時に資産間(銘柄間)の相関関係が変化することを利 用する。相関関係の変化はクラッ、ンュに対する先行性を完全に保証する指標とはならないが、必要条件 8 J[ 9 J。 として変化の兆候を示すと考えられる [ 本稿においては、「クリティカルインディケータ (CI )J の計測と「シナリオ相関 J を利用した最適化ポート フォリオの構築をおこなう。ここで、は個別のヘッジファンド・を組み合わせてファンド オブ、フアンズ (FOF)と してオーバーレイ運用することを想定している。 シミュレーション結果からは、シナリオ相聞による最適化ポートフォリオのパフォーマンスは、シナリオ 2 6 0一
相聞を利用しない最適化ポートフォリオのパフォーマンスに比べて、より高いリターンを示している。また クリティカルインディケータ (CI)を利用してリスクエクスポージャーの相対的レベルを調整することにより、 コスト無し)となった。 ド、ローダ、ウンリスクを回避した絶対リターン戦略を示すシミュレーション結果(取号 l 2 . 自己組織化臨界現象とクリティカルインディケータ 我々はクラァンュ時のポートフォリオへのマイナスの影響を最大限回避するためのアルゴ、リズ、ムを開発 するために、複雑系の「自己組織性」の視点からクラッ、ンュのメカニズ、ムを考察したっそれは誤差項の中 に押し込まれて消去されてきた「ノイズ」及び「撹乱項」をシステムの「ゆらぎ」の状態として明示的にとら え直すことで、あった [ 1 0 ]。 マーケットは平衡状態の近傍で形成維持される部分と非平衡状態で形成維持される部分の 2タイプ の構造をもっとする。平衡状態と非平衡状態の聞には「ゆらぎ」が存在しており、「ゆらぎ」を通じて双方 の秩序形成がなされるとの立場にたつ [ 1 1]。本稿ではシステム内の相関関係の変化が「ゆらぎ」に対し て影響をあたえると仮定する。 ここで伝統的リスク管理方法が通用する「平常時」を自己組織性でしづ平衡状態、伝統的リスク管理方 法が通用しなし、「異常時」を自己組織性でしづ非平衡状態ととらえる。平常時と異常時の間には「ゆら ぎ」の状態が存在する。「ゆらぎ」の状態を数値的に計測するツールが「クリティカル・インディケータ ( C I )J である。 「クリテイカルインディケータ ( CI )J 、「シナリオ相関」には、マーケットの崩嬢現象を自己組織化臨界現 象のひとつとして捉えるとしづ発想がある。「雪崩(なだれ)J、「砂山くずし」など自然界における崩壊現 象を「クラッ、ンュ」のようなマーケット崩嬢現象に適用してモデ.ル化することで、実務的に利用可能なレベ ルのツールを目指した。 自己組織化臨界現象 (Self‑Organized C r i t i c a l i t y )とは、自然界に発生する崩壊現象を説明した概念 であるつ 1987年にパック、タン、ヴィーゼ ンフェルトらが「砂山崩しのモデル」を提示した時初めて用いた 言葉で「自己組織化」と「臨界現象」が合体してつくられた言葉で、ある。 「自己組織化」とは、「カオス Jとともに複雑系の中でひとつの柱となっている分野であり、外部からのコ ントロールを受けることなく自発的に自然とそのシステムがある構造を形成し、秩序だ、った状態に発展し ていくとしづ意味である[1 2 ] 0 「臨界現象 Jとは、ぎりぎりの点、きわどい縁(臨界点)で発生する相転移現象を指している。相転移現 象とは、状態、が質的に変化する現象である。例えば0度とし、う臨界点において、水が氷になるのも相転 移現象である。また砂山に砂を落としてしてと、ある時点で砂山が突然崩れるのも広義の相転移現象で ある。 具体的に計算する方法は、相関係数行列を固有値分解して計算される固イ年値のグラフ形状から「異 261‑
常 時J の状態か「平常時 Jの状態かを判別する「闇値 J としての「自己組織化臨界点 Jを探る。 我々は相関係数がマーケットにおける非線型現象で・ある「ゆらぎ」に影響を与えていると仮定して臨界 点における固有値グラフ関数G ( r )を ( 2一 1 )式のように表現する。ここで A は係数、 rは要素聞の相関関 係により表現される距離、 η が自己組織化臨界点である。 G(r)=Ar‑TJ ( 2一 1 ) そして G ( r )の自然対数をとり (2‑2)式のように表現するc LnG (r )= ‑η Lnr LnA 十 ( 2 ‑ 2 ) 3 . FOF運用へのインプリケーション(シミュレーション) クラァンュを自己組織化臨界現象ととらえ、自己組織化臨界点を考慮するポートフォリオ構築にシナリ オ相関を活用したリスク管理方法を提示する。 ( 1 )シミュレーションデータ データはへッジファンドインデックスを含む合計 1 3系列の月次データである。 1 3系列の構成は総合へ ッジファンド・インデ、ックス 1 種類、スタイル別のサブ、インデ、ックス 9種類と SP500、ダウ 30種指数、ナスダック 指数の 3指数である。 1994年 l月から 2000年 8月までの月次リターンデータを C r e d i tS u i s s巴 F i r s t soston 'ss e r i e sのホームページから夕、ウンロード、して利用した[1 3 J。 Tremont1 ndexLLC ヘッジファンドインデックス(10 種類) n d e x ) ① HFI(TheCSFs/TremontHedgeFund l 9種類のサブ インデ ックス(② ⑨)を集計した総合へッジファンド‑インデックス ② CBA(ConvertibleA r b i t r a g e ) 個別の Csをロング、同銘柄株式を、ンョー卜する投資スタイル。 ③ DSB(DedicatedShorts i a s ) 主に株式とデリパティブPで、ショートポジ、ンョンをとる投資スタイル。 ④ EMK(EmergingMarlωts) イマージンクーマーケットの株式、債券をロング.する投資スタイノレ。 ⑤ EMN(EquityMark巴tN e u t r a l ) 株式ロングと株式、ンョートで、マーケットニュートラルポジ、ンョンをとる投資スタイル。 ⑥ EDV(Event‑d巾 e n ) 企業のイベントによる株価変動をとりにして投資スタイル。 EDV内の代表的な 4つのカテゴリ ρhu n ︐n ︐
r i s ka r b i t r a g e ‑M&A(こ関わる企業の株式をロング・ショート同時にポジ、ンョンをとる投資スタイノレ。 d i s t r e s s e ds e c u r i t i e s 倒産した企業の株式、債務を購入して再生させて売却する投資スタイル。 R e g u l a t i o nD プライベートキャヒ。タル市場で ミクロ、小型時価総額の企業をロングする投資スタイル。 HighY i e l dージヤンクボンド、低格付けの債券をロングする投資スタイル。 ⑦ FIA(FixedIncomeArbitrage) 複数の債券をアーピトラージ運用する投資スタイル。 ⑧ GMC( G l o b a lMacro) 世界主要資本市場、デリパティブ マーケットで、ロング・ショートポジ、ンョンをとる投資スタイル。 q u i t y ) ⑨ LSE(Long/ShortE マーケットニュートラルを目標とせず株式のロング¥ンョートを組み合わせて、運用する投資するスタイ / レ 。 ⑮ MGF(ManagedFutures) 世界中の金融・商品・為替先物で運用する投資スタイル。 ( 2 )シナリオ相聞による量適化 S h r i n k a g el e v e l )を測定してシナリオを考慮した相関係数行列を生成 固有値のグラフ形状から収縮度 ( する [ 1 4 J。 Q:最大リスクシナリオ相関 Q*:シナリオを考慮した相関係数行列 QOCα)= ( 1 ー α)Q+αI Q*(l)=1 一 一 一 歩 銘柄聞が無相関 Q*(O)=Q 一 一 一 歩 最大リスクシナリオと一致した相関 αはシナリオ相聞を計算するための係数。 λは相関係数行列から計算される固令ー値。 λ脳 x‑λ I ; ? : λ 2 ; ? : AミλNニ λMIN λ ( Q ) Max三 竿=1M <似品│ x O XX xx 二 MAX λ~l ; t ニ 1 ι(Q)=M in傘 =I M i nx ' QxJ x XX M1N A き1 ; tO ‑ . ¥ " . ¥ " = 1 ム(Q*)‑d刷(剣 =Maxx'Qox‑Minx'Q"x ハ ペu nhu ηノU
=Maxx'[(1‑α). Q+ α: I ] x‑Minx ' [ ( 1 ‑α). Q+ α! ] x 二 Max[( l ‑α) x ' l l i+似 ' I x ] ‑M i n [( 1 ‑α) x ' l l i +似 ' I x ] = [ ( 1 α)A{ a x x ' l l i+ 似 ' I x] ‑[(1‑α)Minx ' l l i +似 ' I x ] =(1‑α)[λ(. Q)‑λ(. Q ) ] よって [λ(. QO)̲λ( . QO ) ] (1‑α)=mMmm [λ(.Q)‑A シナリオを考慮した相関行列 Q本が現状の相関行列 00 で近似できると仮定して、比率 ( 1 α)を以下 の計算式で算出する。したがって比率 αが計算される。 [λ(. Qo )‑λ(. Qo ) ] (1α)= : a x m~n [λ(. Q)‑λ(. Q ) ] "l f '‑"‑' シナリオを考慮した新たな相関行列の計算式は以下のようになる。 [λ(. Qo)λ(. Qo ) ] [λ(. Q)‑λ(. Q ) ] 一 [λ(. Qo )‑λ(. Qo ) ] . Q ‑ = ‑ 2 ! ! a x m I ̲n̲̲̲.Q + . . ! 2 ! : ! x m m m a x ‑"‑‑I [λ(. Q)‑λ(. Q ) ] u [λ(. Q)‑λ(. Q ) ] n 要約すると αが1に近くなると、現状の相関関係が最大リスク相関関係からかい離するシナリオ相関。 →リスクエクスポージャーの高いポートフォリオ構築。 αが 0に近くなると、現状の相関関係が最大リスク相関関係に限りなく近いシナリオ相関。 →リスクエクスポージャーの低いポートフォリオ構築。 近年、リスク管理に分散共分散行列だけでなく相関行列を利用する方法に関しては、さまざまなアプ 1 5 J [ 1 6 J [ 1 7 J [ 1 8 J。 ローチについて議論がなされている [ シナリオ相関行列からシナリオ分散共分散行列を計算して、 2次計画法によるリスク最小化ポートフォ リオ構築をおこなう。 ( 3 )シミュレーシヨン結果 シナリオ相関を計算するためのボラティリティはヒストリカルデータを利用する。シミュレーション期間は、 ‑ 2 6 4一
1 9 9 5年 1月" ‑ ' 2 0 0 0年 8月の月次データ。相関行列は (13X13)。 ①へッジファンドインテ、ツクスの最適ウェイトの変化(図 3‑1 ) シナリオ相聞によるリスク最小化による最適化ポートフォリオの最適ウェイトの変化を時系列に示した グラフである。グラフの特徴を述べると以下のようになる。 1 9 9 8 年 8 月"‑'1 0 月のロシア危機をきっかけとして発生した LTCMの破綻時には、 CBA (Conv巴r t i b l巴A r b i t r 明日)のウェイトが急速に減少した。一方で、ロシア危機の後に EMN( E q u i t y ルl a r k e tN巴u t r a l )のウェイトが急速に増加している。 LTCM社の投資スタイルは、ここで採用している データのカテゴリーではFIA(FixedlncomeA r b i t r a g e )に分類されると考えられるが、 1 9 9 8年 l月か らウェイトが急速に減少している。直近 l年をみると EMN( E q u i t yM a r l ω tN e u t r a l )とFIA(Fixed lncom巴A r b i t r a g 巴 ) 、 CBA(Conv巴r t i b l eA r b i t r a g e )のウェイトが大きい。ソロスのへッジファンド に代表 される GMC(Global Macro)は、リスク最小化ポートフォリオにおいて、ほとんどすべての期間で ウェ イトが存在しない c ( 図 3‑1) ヘッジフアンドインデ、ックス最適ウェイトの変化 35QFECVNKBA JPDGSMMDMMSB DSNMLGFEEEDC 一口口口口口・口口口口口口 100 目 90 日 80 目 70九 60目 50 日 40 目 30 日 20 目 10 出 0% SORCE:CSFB/TreamontHedgeFundlndex,AsahiL i f eAssetManagementC a l c u l a t i o n s ②1 )スク最小化ポートフオリオシミュレーション 月次リターンを累積したパフォーマンスを示したグラフで、ある(図 3‑2)。グラフは4本あるつ へッジファンド、インデ ックス (HFI)、シナリオ相関行列から計算したシナリオ分散共分散行列による最適 化ポートフォリオ (OPTHFI(Sじe n a r i o ))、その時点ごとのヒストリカノレ分散共分散行列を利用した最適化 2 6 5
ポートフォリオ (OPTHFI( O r i g i n al))、リスクフリーレート (FF)である。(すべてのパフォーマンスはスタ ートを 1 0 0とした指数となっている)。 リスク最小化によりへッジファンド'インデ、ツクス (HFI)と比較してパフォーマンスのブ、レは少なくなり、 1 9 9 8年 8月の LTCMの破綻によるへッジファンド、インデ、ツクスの相場急落を回避で、きている。シナリオ分 散共分散とオリジナル分散共分散のパフォーマンスを比較するとシナリオ相関を利用した最適化ポート フォリオのパフォーマンスが高い。これはシナリオ相聞を利用することで、リスクエクスポージャーが相対的 に減少してポートフォリオリターンが高くなった結果と解釈で、きる。オリジナルの分散共分散によるリスク 最小化ポートフォリオ運用でも、リスクフリーレートで運用する場合と比較して、より高し、リターンとなって いる。 ただ、し、ンミユレ一シヨンは実際の運用コスト及び のパフオ一マンスとは異なることに注意が必必、要で、ある O 特にアロケーションの急激な変更は実際の運用 においては容易ではない。それは個別へッジファンド・との契約内容とも関連してくるからでらある c ( 図 3‑2) シナリオ相聞による最適へッジファンドポートフォリオシミュレーション 280 230 180 130 80 199501 199507 199601 199607 199701 199707 199801 199807 199901 199907 200001 200007 SOURCE:CSFB/ TremontHedgeFundI n d e x, AsahiL i f eAss e tManagementC a l c u l a t i o n s 4.結論と課題 本稿において「クリティカル・インディケータ ( cI )J の計測と「シナリオ相関」を利用したリスク最小化に よる最適化ポートフォリオの構築をおこなった O クリティカル・インディケータ (cI)によりマーケットの「ゆら ぎ、」をある程度数値的に判断することが可能となり、また「ゆらぎ」の状態をシナリオ相関行列に暗示的に 組み込むことで、マーケットクラッシュの影響を回避するためのポートフォリオ構築を実行した。同時に通 常の分散共分散を使った最適化ポートフォリオよりも高いパフォーマンスを実現した O 2 6 6
ただし実際の運用においては手数料及び個別運用契約を考慮する必要があるので、クリテイカル・イ ンディケータ (CI)により計測される情報から質的な判断も考慮した上で、リスクエクスポージャを段階的 に変更するマイルド・型のコントロールの方が実務的には対応が容易である。実務的にはクリアすべき課 題がいくつかあるが、これまで述べてきた理論的背景とシミュレーション結果により FOF 運用による「絶 対リターン戦略」の実現は可能であると考える。 以上 (謝辞及び備考) 1 h 0 0 0年 1 2月開催の T h e4 C o l u m b i a = J A F E EI n t e r n a t i o n a lC o n f e r e n c巴(コロンピア大学 =JAF 本稿は 2 EE 金融工学国際会議)における西山のプレゼ ンテーションをもとに作成しています。 SASのプ口、ンー AS/IMLソフトウェアを中心に、その他のプロシージャーとの間で、データのやり取りを行 ジャーとしては、 S なう方法で、データの期間を移動させながら、ンミュレーション計算しています。本稿をまとめるにあたり、吉 田靖氏より資料文献に関して協力していただきましたっ又、朝日ライフアセットマネシツントの地ヲ l 道夫氏より論 文のアイデア面でご協力いただきました。更に同社城下悦夫氏、山中徹氏、漬康彦氏カも原稿に関す る実務面からの有益なコメントをいただきました。感謝し、たします。しカ=しながら本稿の誤りはすべて西 山個人の責任です。 ‑267‑
[ l JS o r o s,George,1 9 9 4,TheALCHEMYo fFINANCE",J o h nW i l e y&S o n s,I n c . 1 9 9 9年 7月)、「ヘッジファンド で、拡大する私募年金市場ーオルタナティブ・アセット&スト [ 2 J 大井幸子 ( ラテジー」、東洋経済新報社 [ 3 JTheP r e s i d e n t ' sWorkingGroupo nF i n a n c i a lM a r k e t s,A p r i l1 9 9 9,HedgeFunds,L e v e r a g e,a n dt h e a s h i n g t o n,DC. L e s s o n so fLong‑TermC a p i t a lManagement",W [ 4 JR o c k a f e l l a r,U r γ a s e v : O p t i m i z a t i o no fc o n d i t i o n a lv a l u e ‑ a t ‑ r i s k ",J o u r n a lo fR i s k,Volume p r i n g2 0 0 0 . 2/Number3,s [ 5 J今 野 浩( 2 0 0 0年 5月)、「下方リスクモテ苧ル」、日本経済研究センター主催連続セミナー「金融工学 の理論と実践」配付資料 [ 6 JJ o r i o n,P h i l p p e, R i s kManagementL e s s o n s介omLong‑TermC a p i t a lManagement",SSRN( S o c i a l S c i e n c eR e s e a r c hN e t w o r k )J o u r n a l,S e p t e m b e r2,1 9 9 9 t e i n, FORECASTING CRASHES: TRADINGVOLUME,PAST RETUNRS AND [ 7 J Chen,Hong,S CONDITIONALSKEWNESSI NSTOCKPRICES",NBERWORKINGPAPERSERIES,May2 0 0 0 . [ 8 J西 山 昇 ( 1 9 9 9)、「主成分分析を利用した次元縮小によるリスクコントロールについての一考察 (I I)J、東京工業大学大学院社会理工学研究科価値システム専攻リサーチペーパーシリーズ No.5 [ 9 J西 山 昇 ( 2 0 0 0 )、「絶対リターン戦略のリスクマネジメント」、 JAFEE(日本金融・証券計量・工学学 4回夏期大会予稿集 会)第 1 日o J高安秀樹/高安美佐子、「経済・情報・生命の臨界ゆらぎ一複雑系科学で、近未来を読む」、ダイヤ モンド社 [ 11]今回高俊(19 8 6 )、『自己組織性 社会理論の復活一』、右J I 文社 日2 J 香取虞理(1 9 9 7年 1 1月)、「複雑系を解く確率モデ、/レーこんな秩序が自然を操る一」、講談社フ'ル ー ハ . ッ ク ス [ 1 3 JC r e d i tS u i s s eF i r s tB o s t o nTremontI n d e xLLC'ss e r i e s ホームページ h t t o : //www.hed用 i n d e x . c o m / [ 1 4 JBourgコi n,F r e d e r i c k, S 欽t r 同 巴s おs i n gC o r r 巴l a t i o n 市 5 ぶ 山 A na p p l i c a t i o nt oP o r t f o l i oル Ma 叩n a g巴m巴n 川t u n 叩 l p u 凶 bl i s h巴dp a p巴町rMay2 0 0 0 . a v i d X,: On D e f a u l tC o r r e l a t i o n :A C o p u l aF u n c t i o nA p p r o a c h ",R i s kM e t r i c s Group [ 1 5 JL i,D WorkingP a p e r9 9 ‑ 0 7,A p r i l2 0 0 0 . h r i s t p h e ra n dKim,Jongwoo,: A S t r e s sT e s tt oI n c o r p o r a t eC o r r e l a t i o nB r e a k d o w n ", [ 1 6 JF i n g e r,C R i s kM e t r i c sGroupWorkingP a p e r9 9 ‑ 0 8,A p r i l2 0 0 0 . 2 0 0 0年 3月)、「大規模金融機関における [ 1 7 J 国際決済銀行グローバル金融システム委員会 ( ストレステスト:ストレステストの現状とテスト結果の集計に関する論点 J、日本銀行仮訳 日8 JR i c h a r dS p u r g i n,G e o r g eM a r t i na n dThomasS c h n e e w巴i s, AMethodo fE s t i m a t i n gChangesi n a p e r C o r r e l a t i o nB e t w e e nA s s e t sa n di t ' sa p p l i c a t i o nt oHedgeFundI n v e s t m e n t ",CISDMWorkingP S e r i e s ‑268
日本 S A Sユーザー会 (SUG I‑J) ハイブリッド・コンポーネントの構築 多数モデルによる新しいデータマイニング 小野潔 三和銀行リテール業務部 金融エンジニアリング室 DevelopmentofHybridComponentsf o rDataMining Ki y o s h iOno F i n a c i a lE n g i n e e r i n gO f f i c eRe凶Ban凶gP r o m o t i o nDep a r t m e n t ,TheSanwaBank 要旨 ハイブリッド・コンポーネントは「ハイブリッド・モデル」と「アンサンプル・ モデル」を構築するための部品モジュールである。このコンポーネントを組合せれ ば精度の高いモデルが容易に開発できる。今回はハイブリッド・コンポーネントを 使って、マイニング・ツール(SAS/Ent e r p r i s e M i n e r )上に約 100種類の分析テンプレ ートを開発した。ハイブリッド・コンポーネントは専門家でなくとも、①適した分 類器 1の選択、②専門知識の共有化、③開発期間の短縮が実現できる。 また本報告では、ハイブリッド・コンポーネントの基礎になるハイブリッド・モ デルとアンサンプル・モデルを体系的にまとめた。 N L P ワ キ データマイニングマイニング・ツール S A S/En t e r p r i s eM i n e r ハイブリッド・モデル アンサンプル・モデル 1 . ハイブリッド・コンポーネントの目的 最近のマイニング・ツールの進歩は、専門家でなくとも簡単なデータマイニング.を可能したが、マイニング・ツ ーノレは KDDプロセスの意志決定機能が充分でないため、高い精度のモデ、ル開発にはデ、ータマイニング、の専門 知識が必要になる。金融業におけるモデ、ル開発者はデータマイニングの専門家で、ないことが多いので、単独の 分類器による分析まではできるが、ハイブリッド・モデ、/レ構築まで、は難しいケースが多い。今回開発したハイブリ ッド・コンポーネントは「多種類の分類掛 Ji ノ¥イブリッド・モデ、/レ Jr アンサンフ、/レ・モデ、/レ」を部品化したものであり、 その個々の部品に専門家のノウハウが含まれる。このコンポーネントを組合せることで、無数の複雑なモデルを 容易に作成可能である。従来のように、専門家がいなくとも高度なモデリングが実現できる。 さらにハイブ、リッド・コンポーネントを利用して、実務でよく使われる約 1 0 0 種類の分析テンプレート(モデ ノレ)をマイニング・ツール ( S A S / E n t e r p r i s巴 M i n e r,以後 SAS/EM)上に構築した。これにより、様々な分類器の 組合せによるハイブリッド・モテ守ルやアンサンプノレ・モデ、/レを同時に比較することがで、きる。また開発した分析 テンプレートは、 SAS/EMのクローン機能によりツールの分類器として GUI登録できるため、通常の分類器と 全く同じように操作できる 3 I 本報告書では分析手法を「分類 *~J と呼び、分類総を組み合せたものを「モデル J と 11手ぷ。 ハhv nノu Qd
特徴 判別不能データに新しし、分類岩を適用し、これを繰り返す。 決定木分析で分類したセグメントごとに、局J I 分類器を適用する。 CascadeModel 一度求めた推定値を説明変数に加えて、局J I 分類器を適用する。 R e v e r s eModel 連続数をすべて離散化した後に、ロジスアイツク回帰分析を適用する。 CategoryF l a gModel U n s e p r e v i s e dC l a s s i f i c a t i o n 教師なし学習モプ、ル(クフスタ分析、コホーネンネット)で、分類したセグメントご、と に、教師っき学習モデ、ルを適用する。 Model 名称 C a t a r a c tModel 表 l ハイブ リッド・モデ、ルのタイフ。 本報告では、ハイブリッド・モデルとアンサンフマル・モデ、ルの概念と方法のまとめたものを最初に紹介する。こ れをソフトに実装し、部品化したモジュールがハイブリッド・コンポーネントになる。 2 . ハイブリッド・モデル 単独の分類器ではその精度の向上に限度があるため、高い精度が要求される場合は、分類器を組合せるハ )。 イブリッド・モデルが採用される。ハイブリッド・モデルは様々なタイプがある(表 1 C a t a r a c t Model は、判別不能部分に新しい分類器を次々と適用し、判別不能部分を少なくする方法である。 一つの分類器は、対象データを判別可能と判別不能の部分に分けることができる。この判別不能部分に別の分 類器を適用すれば、同じように判別可能と判別不能の部分が発生する。最終結果は、判別可能部分を集計す れば、単独の分類器に比べて、トータルの精度は向上する。このモデルは単純で、わかりやすい方法であるが、 後にしてほど分類器の判別率が悪くなる欠点を有する。 Cascade Modelは、分類器を多段階に直列に組合せる。第 1段階では顧客を大きなセグメントに分類し、第 2 段階ではセグメントごとに別の分類器を適用する。実務では第 1 段階は決定木を用い、第 2段階はロジスティック 回帰分析やニューラルネットワークを適用するケースが多い。この方法はセグメントごとに最適な分類器を適用 するため、最初のセグメントを細かくするほど、トータルの精度を高めることができる。また実務運用中に精度が 低下した場合に、どのセグメントが劣化したかを突き止めることがたやすく、補正・修正をしやすい特徴をもっ。し かし第 1段階のセグメント数が多くすると分類器が多くなるため、開発・運用保守が面倒になるとしづ難点をもっ。 R e v e r s e Model は、最初に決定木分析やニューラルネットワークの分類器でー推定値を求め、その推定値を説 明変数に付加して、新たにロジスティック回帰分析、ニューラルネットワークを適用する。第 2段階の分析では一 度算出した推定値を使うために、説明変数が最初より 1個増えるところがミソである。第 2段階にロジスティック回 帰分析を用いるため、最終推定モデルが一つの式で、表すことがでーき、運用上の取り扱いが容易になる。第 2段 階の分類器の分析結果は、第 1段階の推定値の寄与度が高いため、第 1段階の分類器の選択が重要になる。 第 2段階の分類器は微調整を行う位置付けである。このモデルは、ロジスティック回帰分析から多くの統計値を 得られる点が魅力である。 l昭 Modelは 、 業務データの分析の難しさは、数値とカテゴリデータが混在したところにある。そこで CategoryF すべてのデータを離散化することで、分類器の判別力を高める。ただ連続数値の離散化は情報を多く含んだ変 動を失うため、情報量の劣化を招きかねない。そのため、情報量の劣化を最小限にする境値を選択する方法が 重要であり、分割基準値や AIC値に基づく分割方法が知られている 2。境値が決まれば、カテゴリ範囲をオンオ フするカテゴリのダミーフラグ(寸O , l } )を連続数値の代わりに説明変数とする。この作業をすべての連続数値に繰 り返し、最後にロジスティック回帰分析を適用する。 と「教師なし学習モテ手ル(クラスタ分析等)J に分けることがで 分類器は「教師あり学習モデノレ(一般の分類器)J l a s s i f i c a t i o nModel(教師なし学習モデル)を利用する方法は、最初に「教師なし学習」のク き る 。 UnsuoervisedC ラスタ分析やコホーネンネットを用いて顧客をセグメント化し、次にセグメントごとに「教師あり学習(通常の分類 を適用する。このモデルは Cascade Modelと同じであるが、「教師なし学習」は Cascade Modelと違ったセ 器)J グメントを生成する。例えばコホーネンネットは非ユークリッド距離を用いるため、決定木とは全く相違するクラス 分類が期待できる。コホーネンネットは、ニューラルネットワークの一種でLあり、欧米ではクラスタ分析と同様に、 利用されている。 では、連続値を等分割したカテゴリ値をカイ 2乗値で最適分割する機能から、境値を計算できる。 2 S ASIEM 2 7 0一
タイプ Type 1 Type I Committee Model 名称 Av巴r 巴g eMod巴l MinimunR i s kModel MaxinumR巴t u r nMod巴l M a j o r i t yModel B a g g i n gModel B o o s t i n gMod巴l 年 中 i 数 仮説集合の平均値を代表推定値にする。 仮説集合の最J I、値を代表推定値にする。 仮説集合の最大値を代表推定値にする。 基準推定値以上の分類器の数で判定する。 フンダム・サンプリング‑データへ同じ分類掛を適用する。 各分類器の重みは等しい。 判別不能データが多く含まれるようなサンプリング、をf 丁い、 同じ分類器を適用する。各分類器の重みは計算式による。 表 2 アンサンブ、ル・モデ ルのタイプ 3 . アンサンプル・モデル 9 7年頃から、米国ではアンサンブツレ・モデルC E n s e m b l eM o d e l )が注目を集めている。このモデルは、あまり精 度が高くない分類器の仮説集合(アンサンブル)に投票権を与えて、投票原理に基づいて判定する。アンサン ブデル・モデルには、異種の分類器に投票権を与えるタイプ Iと、同じ分類器に投票権を与えるタイプ Eに大きく 分けられる(表 2 ) c タイプ Iには、各分類器の推定値の平均値、最大値、最小値を代表推定値とするものと、基準値以上の推定 値の数で判定を決するものがある。タイプ Iではお互いを補強する仮説集合が望ましいため、類似の結果を得 られる分類器を仮説集合に含めても意味がない。注意することは所属する分類器が同じでも、アルゴリズムが違 うと相違した結果になることがある。分類器の非類似性は反応曲線と ROC曲線の比較から判断する。 C o m m i t l e eM o d e l )と呼ばれる。パギング" C B a g g i n g )、ブースティングド C B o o s t i n g )とい タイプ Eはコミィティ・モデル C う2種類の代表的なモデルが存在する。パギングは複数のランダム・サンプリング ・データに同じ分類器を適用し、 推定値の等ウエート合計を求める。それに対して、ブ、ースティングは判定不能データが多く出現するサンプリン グを行い、代表推定値はウエート付き合計で求める 30 ブースティングは 2値分類問題のみに有効であるが、最 近は多値分類問題や数値問題への拡張が研究され、多くのモデル式が報告されている。重要なことは単にコミ ィティ・モデルを採用すれば、必ず精度が向上するわけで=ない点である。パギングやブースティング1 ま「複雑す ぎる弱仮説」や「弱すぎる弱仮説」や「データ数が少ない場合」にうまくし、かないことが知られている。 P 4 . ハイブ、リッド・コンポーネントの構成 ノ¥イブリッド・コンポーネントは、基本分類器(表 3 )、教師なし学習分類器(表 4)、ハイブリッド・モデ、ルのテン プレート(表 1 )、アンサンブル・モデルのテンプレート(表 2 )、スコア加工集計ノード、その他 SAS/EMノードから 構成される。これらのコンポーネントを組合せることで、1!l~数のモテソレを構築で、きる。実際の開発は、基本分類器 をハイブリッド、とアンサンブ、ル・モデ、ルのテンプレートに含まれる分類器を変換するだけである。この作業は SAS/EMの GUI機能を用いるため、操作は容易である。 同じ分類器でも数種類のアルゴリズムが存在し、また評価関数が違うと分析結果が全く違うために、分類器は 無数に存在する。そこで、最小限必要と考えられる分類器 9種類と教師なし学習分類器 3種類を基本分類器とし た。しかし、 9種類の分類器をハイフ、リッド・テンプレート 5種類とアンサンフ、/レ・テンプレート 5種類に適用すると、 その組合せは数百種類にのぼる。そこで実務分析で使われそうな約 1 0 0種類の分析テンプレートに限定した。 実務分析で使われるモデルの特徴は、①日本ではブ、ラックボ、ックス型の分類器(ニューラルネットワ ̲::)14等) は避ける傾向が強い。コホーネンネットを除けば、ニューラルネットワークを第 1段階の分析に用いるケースが少 ない。②業務担当者が理解しやすい決定木や回帰分析が好まれるため、ハイブリッド・モデ、ルで、は両分析のど、 ちらかが含まれるケースが多い。③多数の分類器を組合せても精度の向上に限度がある。通常は 2段階の分類 器の組合せで充分な精度が得られる。④同種の分類器を組合せるケースは少ない。例えば典型的なハイブリッ ド・モデ、ルは、第 1分類器に決定木やクラスタリングやコホーネンネットを使って顧客を大きくセグpメント化し、第 2 分類器にロジスティック回帰やニューラルネットワークや決定木を適用する。 3 ブースティングの理論やウエートの計算方法は参考文献を参照。 4 ニューラルネットワークは決してブラックボックスではなく、感応度分析から係々な知見が得られる。しかし間違った イメージが知れ渡ったため、日本の金融業ではあまり利用されていない。米国の金融ではよく使われている。 2 7 1
分類器の種別 l 決定木 2 決定木 3 決定木 4 ニューフルネットワーク 5 ニューフルネットワーク 6 ニューフルネットワーク 7 ロジスアイツク回帰 8 ロジスティック回帰 9 ロジスティック回帰 名称 CART C 4 . 5 CHAID MLP RBFE q u a lW i d t h s RBFU n e q u a lW i d t h s SBC AIC P r o f i t / L o s s 説明 分割基準がギニー値 分割基準が情報エントロピー値 分割基準がカイ2乗 値 F 皆層型ネットワーク ラ シカ / レ ・ へ ーシス・ファンクション5 e e ラ シカ / レ ・ へ ーシス・ファンクション e e 評価基準が SBC、ステッフ.ワイス' 評価基準が AIC、 ス テ 、y プワイス' 評価基準が利益/不利益 表 3ハイブリッド・コンポーネントに採用した基本分類器 分類器の種別 クラスタ分析 クラスタ分析 3 Iニューラルネットワーク 名称 Ward k‑means CohonenN e t 説明 Ward法によるクラス分類 K means法によるクラス分類 コホーネンネットによるクラス分類 表 4 教師なし学習の基本分類器 ( U n s e p r e v i s e dC l a s s i f i c a t i o nM o d e lで使用する) t y p e1)では最初に 9種類の分類器をすべて適用し、その後 l こ精度や反応(補足)曲 アンサンブソレ・モデノレ ( 線 や ROC曲線等から相違した分類器をユーザーが選択する o アンサンブ /レ・モデ、/レ ( t y p eI I、コミィティモデ、ル) では仮説集団数と安定性が問題になる。通常は 1 0個程度で誤差が収束するケースが多いが、研究報告の中に は 1 0 0個の仮説集団を作成したケースもある。そこで最大 1 0 0個以内の複数個のシミュレーションを試みる。ま たモデ、ルの安定性はクロスバリデーションで検証する。 5 . モデル評価のチェックポイント 多数モデルの比較は複数の類似したモデ ルが発生するため、少数モデルより詳細な比較が必要になる。 ①テストデータによる評価 通常の少数モデ、ルの比較は検証データを用いるが、多数モデルの比較はさらにテストデータによる検 証が必要になる。この理由は、決定木のプルーニング(枝狩り)、ニューラルネットワークのユニット数の 決定、ロジスティック回帰分析で、は、学習データだけでなく検証データを併用してモデルを生成するた めである。モデ、ル数が多くなると、その中に検証データにオーバーフィッティングするモデ ルが含まれ ている可能性が否定できない。 ②クロスリフトチャートの活用 通常のリフトチャートは検証データを評価するた、けで、あるが、クロスリフトチャートは分類器の学習&検 証&テストデータの 3種類のリフトチャートを比較する。 3種類のリフトチャートを比較すれば、クロスパリ デ、ーションの正当性やモデルの安定性が検証できる。 ③反応(捕捉)割合チャートと ROC チャートの活用 これらのチャートはモデ、ルの選択に使われる標準的なチャートで、ある。多数モデ、ルで、注意する点は、 反応(捕捉)害IJ合チャートが最も良いモデルが ROC チャートで良いとは隈らなし、ことである。また多数 の分類器を比較すると、選択する顧客数によって、反応(的中)率の順位が入れ替わることがある。こ のような場合は複数の分類器を結合させることで安定的なモデルを生成できるが、忘れてはならない ことは金融商品や分析の目的に合わせたモデ、ル設計を行うことで、ある。 5 ラジカル・べーシス・ファンクションはニューラルネットワークから発達したものでないが、類似した概念をもつため、 ニューラルネットワークに分類した。ラジカル・ベーシス・ファンクションは階府型のニューラルネットワークより 高速に計算できるが、階層型と同じように極小値に陥る可能性がある。なお、極小値に陥るずらいネットワークには カオス・ニューラルネットワークがある。 ‑272一
④し、き値変動による評価 不安定な分類器は、いき値がわずかに変動するだけで判別率が大きく変化する。そのようなモデルは 採用しない方がよい。しかし、高い精度を有する不安定なモデルを採用せざるを得ない場合は、精度 を犠牲にして安定な分類器と組合せにする平均値型モデルを採用する。 ⑤実務運用への適合度合 複雑なモデ、ルの中には実務運用にあわないケースがある。例えばモデル開発に使用したデータが実 務運用時のデータと相違するような場合は、運用しながらモデ、ルを補正・修正する事態に直面する可 能性がある。そのような場合は、第 1分類器であまり細かいクラス分類をしたり、複雑なクラスタ分析を 行うと、モデルの改良が困難になる。 6 . 事例研究 開発した分析テンプレートを様々なデータに適用し、単独の分類器との比較を行った o 単独の分類器と精度 が変わらない場合もあるが、多くは単独より 5~15% の精度の向上がみられる。ここで、はモーゲージのデ‘フォル トデータ (HOME‑Equity Loan Scoring Data)に適用した結果を示す。データは SAS/EM のサンプルデータ (ファイル名 :DMAHMEQ)であり、 5960レコード、 1 2変数から構成される。図 1は SAS/EM上に構築した 7種類の 分類器を含むハイブ リッド・コンポーネント画面でEある o さらに多数モデ ルの比較も可能で、あるが、チャートが見 ずらくなるために数を制限している。 開発したモデルは左下のカスタマイズに登録されており(クローン機能)、 SAS/EMの標準の分類器と全く同じ ように取り扱うことができる。ハイブリッド・モデ、/レの構成例を図 2 'こ示す。図 2は決定木とニューラルネットワークを 組合せた Cascade Mod巴l である。第 1 分類器の決定木は顧客を4~6 個のセグメントにクラス分類し、さらに第 2 分類器ニューラルネットワークはセグ、メン卜ご、とに適用され精度を向上させる。 各分類器の比較は、反応補足割合(半J I別効率)チャート(図 3 )と ROC チャート(図 4 )で行う。反応補足割合は 確信度が高いI J 慎にソートし、累積の的中確率を表す。縦軸は累積不良債権率、横軸は顧客総数(累積セグメン 卜)の割合である。両国の曲線は、上位の方が判別力に優れており、直線はランダム抽出を表す。図 3の丸印 (横軸 50%、縦軸 70%)は、全顧客 50%を選択した場合に全目標顧客 70%を当てるモデルを意味する。 ROC曲線 は、予測を行うときのカットオフ値の感度と特異性を表し、モデ、ルの予測精度を示す。縦軸の感度は、真陽性 ( t r u ep o s i t i v巴)の度数を総陽性数で害J Iった値、横軸の特異性は、真陰性 ( t r u e n巴 g a t i v巴)の度数を総陰性数で 害J I った値で、ある。優秀なモデルの ROC曲線は、左側へ凸型になる。 7 . おわりに 本報告の意義は、①ノ、イブ、リッド・モデルとアンサンブ ノレ・モデ、ルの概念・方法論をまとめたこと、②先の理論 をマイニング・ツール上に実装したこと、③多数の分析テンプレートに基づく新しいデータマイニングPを模索した ことである。約 100 種類の分析テンプレートは、物量に物を言わせるような方法であるが、未だ分類器の自動選 択問題が解決されていない以上、実務では有効な手段である 60 多数のモデルの比較は最適モデルの選択基 準を明示し、同時に個々の分類器の特徴を捉えたことで複合モデルの設計が容易になる利点がある。また分析 テンプレートは、個人所有の開発ノウハウを他者と共有することができるため、データマイニング、の専門家が少な い企業にとって有意義で、ある O 現在、先行している企業では、既にマイニング・ツールを導入しているが、マイング・ツールを使いこなせずに いる。ユーザーがマイニング・ツールの機能を使いこなせれば、かなり複雑なモデ、ルを構築で、きるが、マイニン グ・ツールにそれを自動生成するまで、に至っておらず、ユーザーの能力にかかっている。そのため、マイニング・ ツールがまだ、まだ、使い物にならなし、としづ指摘もされているが、ハイブ、リッド・コンポーネントがその一つの解決策 になろう。組合せモデルは正確なチューニング、をしなくとも、第 1分類器が見逃した対象データを第 2分類器が 発見することができる。したがって多数の組合せモデ ルを比較すれば、その中にユーザーが求める精度の高い モデルが含まれるはずである。 なお、本報告書は個人的見解で書かれており、所属する三和銀行の意見をあらわすもので、はありません。 6 分類器の自動選択の研究も進んでいるが、まだ実用段階に至っていない。 t ウ η 喝U ηノμ
剛一一一…方一一一一へー
.;::-~一一一一一
ニl
i
i己 園 長 " ' !
.5‑ ~:
? 土ι
J
」込
r.弓戸手石Tr石聞で二了r干=手手苔r.石耳石口二=アでτ~コ ïrーででーァョー士逼三-r~-l~て一一,ーで::-Ti=ニ壱Zτーでご7一
E
mf̲
R
l
I
P
I
l
J
図 2CascadeModelの例(図 1の分類器ノードの内容)
図 3反応捕捉割合チャート
8
.
図 4ROCチャート
参考文献
‑丸岡章,滝本英二, オンライン予測"人工知能学会, v
ol
.
l4l
¥o
.
5,
pp763‑770,
1
9
9
9
.
・コアブ・フロインド,ロパート・シャピリ,訳:阿倍直樹, ブースティング入門"人工知能学会, vo1
.
l4No.5,
p
p
7
7
1ー780,
1999
・山口高平,
7 イニング.アプリケーションの自動構築への挑戦"人工知能学会研究会資料 S
IG‑j‑A004,
pp6ト 6
4,
2001
.
・小野潔, マイニング・ツール選択のポイン卜"日経情報ストラテジー, vo.
l7,p
p
.
5
6
‑
5
9,日経BP
社
,2
0
0
0
.
・小野潔, データマイニング、を利用した融資モデ、ルの現状と課題"人工知能学会研究会資料 SIG一
j‑A004,
pp49‑54,
2001
.
‑274‑
口頭論文発表 データマイニンク
日本 SASユーザー会 (SUG1‑0) ウェブ、マイニングー競合優位性への道 ラーマチャンドランスンダレーサン サティヤムコンビュータサービスリミテッド、 コンサルテイング WebM i n i n g‑ThePatht oC o m p e t i t i v eAdvantage RamachandranSundaresan C o n s u l t i n g,SatyamComputerS e r v i c e sL td . 要旨 情報が氾濫している一方、ビジネスインテリジェンスが不足しているため、データマイニングツ ール及び技術が早急に求められている c その中で、もロク守の解析を通してのウェフずマイニングの 重要性に焦点を当てて述べてして c キーワード: ウェフ、マイニング、 CRM、SEMMA、SASWebHound 1 . 序論 情報の激増とデータの氾濫に加え、ビジネスインテリジェンスニーズの高まりにより、データ マイニングツール及び技術に関する差し迫ったニーズ、がクローズ、アッフ されています。 E ‑ビジ Q ネスによる取引が拡大、将来膨大な規模となることが予測されており、大量且つ複雑なデータ の取り扱いがより緊急性を帯びてきました。また同様に、意思決定に活用してマーケットにおけ る競合優位性を得るため、隠れた情報を発掘するニーズも増加しています。これら 2つの要素 がデータマイニングをウェフ マイニング、に転換させる主な原因となっています c 他社との協業 c の重要性が高まり、データマイニングの分野で、より複雑なデータ解析にウェブ、を採用する推 進力となっています。 ‑コマースベンチャ一全社にとって最大のチャレ ウェフ守サイトのコンテンツ及びデ ザインは、 E ンジです c ほとんと。のウェフずサイトのコンテンツとデ、ザインは貧弱であり、既存客及び見込み客 のニーズを満たしていないとしづ、ほぽ一致した意見があります c 以下にあげた最近の調査結 nrf nrf nr臼
・ ・ ・ ・ ・ ・ 果がこの点を裏付けていますc ウェフaサイトで、買い物をする人の 3分の 2が、実際に買い物をする前に、ンョッヒcンクoカー卜 を放棄。 ウェブのビジターがカスタマーに転換する率は業界平均で、 1 .8%。 オンラインショッヒ。ングを試した人の 28%が失敗し、そのうち 28%がオンライン、ンョッヒ。ン グを中止 c 製品を探し始めて 5分後には、ンョッヒ。ングを諦め始める。 小売業者は、ウェブで消費者にものを売る際最も重要なことは「デザインが良く、使いや すいサイト」であると認めている。 ウェフ、、サイトデザインのやり直しにより、顧客転換率が 40‑140%増加 c E ‑ビジネスに対する投資が数百万ドルに達し、ウェブ、サイトへのビジターを引き付けていま すが、そのビジターを幸福なカスタマーに変えることが企業が成功する上で、非常に重要で、す c また同様に、既存客を保持し、その既存客に対する価値を増強することも重要です。最終的な 目的は、カスタマーの購買、ンェアを最大化することで、す C 現在、ウェフ、、マイニングは、この課題 を解決するための適格なツールとして認識されています。ウェブ、マイニングは、関連情報を見 つけ、既存の情報から新しいナレッジを創造し、情報を個人化し、消費者の個人的な好みや 選択を知る手助けをします。 2 . データマイニングからウェフ、マイニングへの移行 デrータマイニング は、ウェフずマイニング.の土台となります。データマイニングは大量のデータ から選択・検索・モデリングを行うことにより、未知のビジネスパターンを明らかにしますc データ マイニングは、既存データから新しいナレッジを意J Iり出し、より良い意思決定を可能にします c このプロセスには、企業の取引、顧客履歴、統計データの他、審査局などの外部情報といった 様々な情報源から収集したデータを基にした実務モデ、ルの構築を含み、このモデルは情報か Iり出し、意思決定をサポートします。 らビジネスパターンを意J ウェフーマイニングずはデータマイニングのテクニックをウェフ、データに応用したものです c これ はインタラクティブずなフ。ロセスで、ウェフ データに対して様々なオペレーションへの変換を行い f ますc 目的は二つあり、一つは隠されたパターンや傾向を明らカ冶にしてビジネスフ。ロセスへの 理解を深めることです。もう一つは過去のウェブ データを新しいデータセットに適用し、将来の 結果を予測、より適切な意志決定をするために、モデ、ルの構築または適合をサポートすること ですC データマイニングと同様、ウェフ♂マイニングのプロセスもインタラクティブずで、す C ウェフ、、マイニ ングのプロセスには、事業目的の分析、データ収集、データの確認及び修王、クローズ、ルーフ c からのモデリングや評価など数段階あります c SAS の専門用語で解説すると、データマイニン ‑278‑
グソウェフ宇マイニングのプロセスは SEMMA 方法論のフレームワークの中で行われます。 SEMMA は 、 Sampling(サンプリング )、 E x p l o r a t i o n(探索)、 M o d i f i c a t i o n(修正)、 Modeling (モデリング)、 Assessment(評価)の頭文字です c サンプリングは分析を目的とし、全データ ではなく、部分的なデータの選択をサポートします。ウェフずマイニングの場合、データソースは HTML 文書、イメージ、音声、画像、ハイパーリンク、ログ.ファイル、顧客情報です c 探索段階 では分布図、棒グラフ、その他の視覚化テクニックによりデータに予備的な洞察を与え、修正 段階では分析を容易にするため、データセットの名称、概要、役割等の属性を修正します。 ν モデリングの段階では修正・転換したデータを統計的アルゴ ズ、ムに適用します c ウェフーマイ ニングに使われるアルゴ、リズ ムはデータマイニングに使用されているものと類似しています。共 通のアルゴVズ、ムにはクリック・ストリーム分析、クラスター分析、関連付け、決定木、回帰分析、 ニューラルネットワークがありますっ最終的に評価段階では、統計アルゴリス、、ムのモデノレや予 測と比較するため、共通のフレームワークを提供します。ほぼ全てのモデリング及び予測ツー ルに共通した条件は、モテ守ルを利用して実施するフ。ロジェクトの利益で、す これらはクロスモデ C リング比較や評価を可能にする条件です c 全プロセスは数本のルーフ。を経て行われ、モデル I 練」されます。その結果、予測能力が増強されていきます。 が洗練または「司[ 図 1 ウェブ マイニング、プロセス 旬、?ゆ(盃孟(竺fn!l叫岳山長E10‑B仔…⑭ 3 . ウェフ、マイニングの力テゴ、リー ウェフ、マイニングーは、ウェフ、サイトのと、の部分がマイニング、されるかによって、ウェブコンテン ツマイニング、ウェフョ構造マイニング、ウェフ、ユーセージマイニングーに分類されますっウェフずコン テンツマイニングは、その名の通り、ウェフずサイトのページカも構造化されたデータと構造化さ れていないデータの両方治、ら情報を引き出してくることですっテキストマイニングはウェフ、コンテ 2 7 9一
ンツマイニングの一例で、テキストデータの集合から情報を抽出するフ ロセスで、す。ウェフ守コン o テンツマイニングの利用目的の一つは、ウェブサイトの中でビジターへの情報抽出をサポート する検索エンジンの効率性を最大限に高めることですc ウェブ.構造マイニング、はウェフ、、のリンク構造の基礎をなすモテツレを発見しようとします。この モデルは、ウェブページを分類するために利用され、異なるウェフ、サイトの共通性や関係なとや の情報作成に有効です。 Google はヒット率を高め、ブラウザーを簡単に使えるようにするため、 このテクニツクを有効に採用しています。基本的な考えでは、検索結果を条件関連性によりラ ンク付けするだけではなく、情報の信頼性概念を示すものでした。ここでの信頼性とは、特定 のウェブページが検索条件を満足させるとしづ意味です。この信頼性ファクターは、他のウェフ♂ ページからのリンクを通じてウェフマページの関連性を評価するページランクアルゴリズ、ムを使っ て計算されます。リンク元のページも同様に分析されますc その結果、全プロセスが反復し、ウ ェブページが検索の結果を表示する前にいくつか相 E作用を行います c グーグルは関連ペ ージのヒット率を 10%増加することができましたの 一方、ウェブFューセージマイニングはウェブーサーファーのセッションまたは行動から得られる データに意味を見出そうとします。コンテンツ及び構造マイニングはウェフーの一次データデー タを使用していますが、ユーセージマイニング、はユーザーとウェフマの相互作用から得られる二 次データを使用しています。ウェフマユーセージデータとは、ウェフ サーバーアクセスログ、ブラ c ウザーログ、フ。ロキ、ンーサーバーログ、ユーザープロフィール、登録デー夕、ユーザーセツ、ンョ ノクマークデー夕、マウスクリツ ン、ウェフ で、のトランザ、クション、クッキ一、ユーザークエリー、フヘJ a クやスクロ一ルで こ入った時点から出るまで、のビジターの つでで、す。クリックストリーム分析を使って、ウェフゃサイト l こ、ンョッフ。の中で、動き回っている 経路を追跡することができます c ウェフ、、ページをクリックする度 i ことになります。ショップオーナーはカスタマーの全ての動きを観察し、と の、ンェルフをどのくら o いの時間見ているか知りたしせ考えています。 例えばアマソ ンド ットコムは、ビジター向けにコ a ンテンツをパーソナライゼーションするためにクリックストリームを使っています。 図2 ウェブ、ユーセージマイニング インテリジェンス ー 、 " , ・ , ‑280
ウェフーューセージマイニングザはウェフ、サイトの最適化をサポートします。サイトに関しては、コ ンテンツの質の悪さまたは構造的な欠陥からひどいサイトになる可能性があります。構造的な 欠陥は不適切なウェフマページデ ザインから生じることがあります。クリックストリーム分析は、ビ ジターが何を見ているか、どのページにどのくらいの時間滞在しているのか、どのページをス キッフ。しているのかといった側面に見識を与えます ウェフ、ユーセージマイニングはオンライン C 広告の有効性の評価にも有用です。企業は各ノくナ一広告のクリック回数をトラッキンク、し、広 告が成功しているか失敗しているか評価します。このような広告の成功は二つの観点によって 決まります。一つは特定のパナーに対するクリックの回数で、あり、もう一つはクリックがビジネス に結びついたかどうかということです。言い換えると、パナーをクリックしたカスタマーの何人が、 実際に製品を購入したかとし、うことです。 4 . ウェブマイニングの複雑な側面 ウェブ、マイニングフoロセスの複雑性は、単純なサイトのモニタリンクーからウェフ企マイニング。のテ クニックの結果として開始するトランサ♂クションまで、要求が上昇することにより増加します。多く のオーク、ンョンサイトで採用されているダイナミックフcライ、ンングがその一例です c カスタマーの プロフィール及び購買習慣を基に、ダイナミックベースの競合的な見積もりを提供することが可 能です。ウェフ、、マイニング の初期段階で、は通常、トッフ。ページのヒット数、トッフ。エントリー及び、 エグジットページ、ブラウザーの種類、検索エンジンのタイフ。なとーウェブ の使用面に注意が払 われます c その後すぐに、有用性モニタリング、単純なトレンド分析へ、また更に単純なクロス 売買へと重点が移ります。例えばアマソ♂ンド、ットコムは、他のどの商品を購入したか、最初に特 定の商品を購入したのはいつかとしづデータの単純な度数表を作成しています。 複雑性のレベルは重点がカスタマーフ ロファイリング、セク、メンテーション、より高度なトレン e ド分析へと移行するに従い、第三段階で増加します。クラスタリング及び決定木分析は、この 段階で、最もよく使われるテクニックで、す。クレジットカードの不正使用や保険詐欺を発見する際 に使われるテクニックの一つで、す クラスタリンク、アルゴYズ、ムは特定の条件によりカスタマーを C ク、、ルーフ。分けします。このような分類により自動的に不正をする可能性のあるカスタマーを含 む特定のクラスターが形成されます。本体を離れたデータやクラスターから洩れたデータに関 しても調査が必要になります c ウェフママイニングにはユーセージクラスターとページクラスターと しづ 2種類の興味深いクラスターがあります。ユーザーの傾向をクラスタリンクすし、類似ノ fターン を持つユーザーク、ルーフ。を構築します。この種のナレッジは、ウェフ コンテンツをパーソナライ c ゼーションするためにユーザーの特徴を推測する際、特に有効です。またページのクラスタリ ングにより、関連性のあるコンテンツを持つページク ルーフつを発見することがで・きます C この情 報はインターネットの検索エンジンに有効ですc 決定木もまたデ、ータ分類のテクニックで、すの決定木は関連性によりデータベースを様々なカ ‑ 2 8 1一
テゴリーに分割後、決定ルールに変換します c 例えば、 20‑23 才で可処分所得が 15,000 ド ル以下のグ、ループはクレジットカードを不正使用する可能性が他のグルーフ。と比較して高いと いえます。 複雑性の第三段階で、はカスタマーセグメンテーションとプロファイリンクーを行いますが、チャ ーンマネージメン卜、不正の発見、キャンベーンマネージメント等、パーソナライゼーション及び CRM問題に直面します。ニューラルネットワークや回帰分析など、のテクニックがこのフ。ロセスを サポートします c 複雑性の最終レベルで、は、 CRMイニ、ンアティブ、は在庫管理、ダイナミックプιラ イシンクマ等のオヘレーシヲナルアスペクトに類似していきます、 5 . ウェブ、マイニングの利点 ウェブ、マイニングの本当の力は、ウェブトラフィックデータが SFAシステム、顧客情報システ ム、在庫管理システムなど他のデータベースと結合したときにのみ知ることができます。これら の豊富なデータソースを関連付けることにより、情報の島から実行可能な情報に変えることが 可能です c ウェブ、マイニンクョは以下に挙げたような複雑な質問に対する答えを引き出すことが ・ ・ ・ ・ ・ できます。 ウェブ サイトを訪問した人のうち何人が製品を購入したか? P どの広告キャンベーンがヒットの回数だ、けで、はなく、販売に最も寄与したか? 私のウェブ、のヒ、、ジターはあるプロフィールに適合するかっ これを自社のマーケットをセク、メン卜するために使えるか? サーファーのパスと行動を追跡することがで、きるか? ウェブ マイニングーの実際の応用は豊富にあり、このテクノロジーには限界がありません c ウェ P ブ、マイニングのツールはほとんどと。んな質問にも答えられるように拡張及びプログラミングが可 能ですc 下記は先端的アプリケーションの一部で、すe ・ ・ ・ ・ ・ オンライン広告と eメールキャンベーンの結果を評価する 経費節減の程度を評価する マーケットセクマメンテーションとフ。ロファイリンクマを増強する ユーザーパスの横断を緩和する 将来の購買パターンを予測する 6 . データマイニング/ウェブ、マイニングツールのシナリオ データ/ウェブマイニングのマーケットは現在、統合する方向で努力しているにもか かわらず、非常に細分化しています。製品は通常、データマイニングワークベンチ、ア ルゴリズム固有ツール、アプリケーション固有ツール、解析コンポーネン卜、組み込み 分析、一般分析、ビジネスインテリジェンスの一部としてのツールに分類されます。 n白 白 つ η ρ
データマイニングのワークベンチは多様なニーズに対応し、クラスタリング・回帰・ ニ ュ ー ラ ル ネ ッ ト ワ ー ク 分 析 、 決 定 木 等 の 統 計 テ ク ニ ッ ク を 提 供 し ま す 。 IBM の I n t e l l i g e n c eMiner、 SASの E n t e r p r i s eMiner及び SPSSの Clementineはワークベンチ の例ですc アルゴリズム固有ツールはクラスター分析、回帰分析等、一つの特定のアル ゴリズムに特化しています。アプリケーション固有ツールは、チャーンマネージメント、 マーケットバスケット分析、不正発見など特定のビジネスアプリケーションのニーズに 対応しています。アルゴリズム固有ツールに特化したベンダーには Angoss‑KnowledgeSeeker (決定木分析)、 I s o f t ‑ A l i c e (決定木)が、アプリケーション 固有製品ベンダーには SLPInfoware (チャーンマネージメント)や A l t aA n a l y t i c s( リ ンク分析)があります c 図 3 データ/ウェブ、マイニングツールのシナリオ Gartner 解析コンポーネントは特殊なビジネス環境に対応していますc 例えば、 F a i rI s s a cは クレジットスコアリングに特化しています。組み込み分析は、 ERPや E‑コマースシス テムといったソフトウェアプラットフォームの一部を形成しますc この分野のベンダー はV i g n e t t e、 BlueM a r t i n i、 B r o a d v i s i o n等ですr 一般的に解析ツールは、数学的なプロ グラミングをサポートするものであり、特定のデータマイニングのアプリケーションで はありません。 SASS、SASや Excelはこの分野での主要なアプリケーションです。統 合の重要性や完全なアプリケーションセットの必要性が高まり、ビジネスインテリジェ ンスがマーケットシェアを伸ばしていますc OracieExpress、BusinessObjects、Cognos 向けビジネスインテリジェンスには、データマイニングアプリケーションがパッケージ の一部として含まれています。 現状に変化がなければ、専門家やトレーニングを要することから純粋なウェブマイニ ングツールが I Tマネージャーの最終的な選択となりますc しかし E ‑ビジネスインテリ ジェンス製品の出現により、解析アプリケーションの一部としてのウェブマイニングツ ールやビジネスインテリジェンスが選択されるようになりましたじ協業や E‑ビジネス ペ ηu η〆白 n δ
の重要性が高まり、ウェブマイニングツール及び CRMアプリケーションの統合ニーズ が増加しています。現在、ウェフママイニングツールがデータベースの一部を形成し、 IBM とマイクロソフトが先駆者としてマーケットをリードしています。 上記とは別に、テキストマイニング及びウェブからの情報抽出の重要性が増加してい ます。 SAS、IBM、C l a r i t e c hなどこの分野に強し、ソフトウェアベンダーが多数あります。 x c a l i b u r、 L o t u s、V e r i t yや PCDoc/Fulcrumといったベンダーは、 その他 Autonomy、 E クラスタリングやテキストのカテゴリ一分類等、特定の機能にアクセスするアプリケー l e a r F o r e s t、Semio、 I n x i g h t、LexiOuest等は、リン ションを販売しています。また、 C ク分析、情報抽出、テキストのカテゴリ一分類等の機能を持つツールに特化したベンダ ーです。 7 . 事例 サティヤムコンピューターサービスが、現在インド最大のインターネットプロバイ ダーが提供する金融ポータルサイト向けに行っているプロジェクトの事例を述べます。 ・ プロジェクトの目的は下記の通りです。 ・ ・ ・ ウェブコンテンツの質を評価し、改善点を提案する。 ウェブ のユーセージレベルを分析、ユーザーの興味を識別し、改善する P 0 ウェブサイト構造を分析し、ビジターの使い勝手を良くする。 顧客プロフィールを作成し、ウェブサイトのパーソナライゼーションを進める。 プロジェクトの結果としてリピーターの数を増やしクロス売買などセールス機会 の増加につなげることが期待されています。 ツー jレ&テクニック フェーズ lでは SASWebHoundを採用、ファーストオーダー経路分析手法を使用し てウェブサイト最適化のために情報を収集しました。フェーズ日ではセカンドオーダー 経路分析手法を用いてユーザーのナピケーションパターンを分析する予定ですc サポー n t e r p r i s eMinerと ト値及び信頼値を基に 10名のユーザープロフィールを作成、 SASE SASWebHoundを駆使してポータルサイトのパーソナライゼーションを計画していま す。このプロジェクトでは経路分析、クラスター分析、決定木、回帰分析、ニューラル ネットワークといったデータマイニング手法を主に使用し、またデータのサンプリング、 評価、モデリング、修正、評価を行う SASの SEMMA方法論も採用予定です。 データ&テクニック データはウェブサーバーログと顧客データを使用していますc 下記の表は 1日のログ データ分析です (2000年 2月 23日) 0各ウェブサイトへのヒット回数を示しています。 G e t O u o t e s l i s . tasPJ ページが最もヒット回数が高くなっています c このレポートでは f ウェブコンテンツマイニングではヒット回数によってウェブページを分類し、ハイパー リンクで他の関連ページにつなぐことにより効率性を高めていきます c ‑284‑
表 1 ページ別ヒット回数 へーン ヒット へーン ヒット e t s/ lo okup.asp 746 /sathyamnew/mark 3, Resource l De f a u l t . a s p 3, 979 /sathyamnew/markets/quote.asp 92, 320 lHi s t o r y . a s p / S a t h y am/markets/GetQuotesLi 1 s athyamnew/ p o r t f o l i o 4 5, 632 / s t . a s p / d e f a u l t . h t m l /sathyamnew/NewsView.asp 1 3 9 2, 1 4, 652 / s a t h y a m n e w / p o r t f o l i o / a d d s c r i p . a s p 838 7, s a t h y a m n e w / p o r t f o l i o /hi s t o r y . a s p 3, 1 9 0 / 826 /sathyamnew/portfolio/ lo g i n . a s p /sathyamnewlbudget2000lbudge 1 4, 270 t . a s p , 346 1 /sathyamnew/default.html / l o g o u t . a s p , 674 /sathyamnew/portfolio 1 935 /sathyamnew/dglbrowse.asp / s athyamnew / po r t f o l i o / po r t h o m e .a s p 1 2, 034 865 ・ um.asp / s a t h y a m n e w / d g / e n t e r f o r / s a t h y a m n e w / p o r t f o l i o / r e c a l p o r t . a p 802 s /sathyamnew/dg/findforum.asp / s a t h y a m n e w / p o r t f o l i o / s h o w p o r t f o i ol .asp 950 l /sathyamnew/portfolio/summary . a s p , 227 1 1 6, 396 903 下記のグラフは同一ウェブサイトで最も使用頻度の高いソフトウェアブラウザーを示 しています。ここで、はマイクロソフトのインターネットエクスブローラーが最もよく使 われています c この情報はウェブサイトの再デザイン/再構築に非常に有効です。 グラフ l ブラウザ ソフトウェアの使用頻度 (2000年 2月 23日) U023636335200 田回 EEEUMM6 田 ZMM 刊 弘 弘 ahZL E 町田 B問 、 円 e r N;une M. i croso 但IntemelE可 ,1 0陀 r Ne t s . : : :olpe l l0 .2 J o l"C"o J . tNll MSP 四可 Lynx ^ = 担lX+P y+叫 田 + 吉田 'H認 117 , 田1ヲ1'e C XH+P 1 I I l k I Dwn s τ"OCKSPLUSSEK¥'ER2 , . 守 . 1 .1178 ら1 An . a . logX+町 田y+‑ 1. 01+ 43 . 2 , . 守 . 1 .11‑1 田 ,o 200 , 田000 . 1 60~ 田 O R e qu e s t s 田 0,0田 ~OO o,田 O Fhu n凸 n F臼
8 . 結論 ウェブマイニングは、カスタマイズ、パーソナライゼーションを目的とするオンライ ンウェブデータ分析の重要なテクニックのーっとなりつつありますっ E ‑ビジネスや協業 の伸びが解析テクニックとしてのウェブマイニングの普及を促進しています。これまで のデータマイニングは履歴データに基づくモデル開発に注力してきましたが、ウェブマ イニングはウェフーからのオンラインデータを動態的にこのモデ、ルに適用するものです。 しかし、プライパシーに関する問題が大きな障害になり、脅威とさえなっています。こ ういった状況の中、顧客フ。ロフィールの守秘義務が他の地域より更に重要視されている ヨーロッパが、強靭なリーダーシップを発揮しています。但し、この問題が解決される のは時間の問題です。日々の業務にウェブを利用する企業が増えるにつれ、ウェブマイ ニングの重要性が高まると同時にさらに難しい課題に直面するでしょう。 参考文献/サイト 1 . SASI n c 2 . WebM i n i n gResearch:A Survey‑SIGKDDE x p l o r a t i o n sJ u l y2000 3 . Google.com くd nuggets.com 4 . f 5 . TheR i g h tPathf o rc l i c k s t r e a ma n a l y s i s‑TheMetaGroup 6 . GartnerDataquest 7 . DataM i n i n gCookBookbyO l i v i aP a r rRudd l a x t o n 8 . DataM i n i n gS o l u t i o n sbyC h r i s t o p h e rWestphal&TeresaB 9 . 様々なデータマイニングツールベンダーのサイト ‑ 2 8 6一
日本 SASユ ー ザ ー 会 (SUG1‑0) データマイニングにおけるデータ加工 木下貴文 株式会社 SASインステイチユートジャパン 営業本部ソリューションプランニングセンター DataC l e a n i n gf o rDataMining TakafumiKinoshita SolutionPlanningCentcrlSASI n s t i t u t eJapanL t d . 要旨 本稿ではデータの分析作業、特にデータマイニングを行う際に必要不可欠なデータクレンジング作業 のテクニックについて、 BASE SASソフトウェアの機能を使って紹介する。また、処理の流れのロ ジックを説明するだけでなく、サンプルプログラムによってプログラムの流れについても述べていく。 これらのデータクリーング処理は、データマイニングを行う際以外にも、企業内のデータの統合、簡 単なレポーテイング処理を行う際にも利用は可能な為、参考にしていただきたい。 キーワード: BaseSASソフトウェア、データマイニング、データクリーニング はじめに 昨今、データベースマーケテイングの手法のーっとしてデータマイニングが、一般的な手法として定 着されてきた。また実際に業務レベルでデータマイニングを行う際に、分析手法、様々なアルゴリズ ムや手法を使いモデ、ル生成をおこなうのと並び、データクリーニングが重要視されている。本論文は このデータクリーニング、要するに、履歴データを分析できる状態のデータテーブルにするまでのデ ータ加工法を、 BASESASソフトウェアを使って説明する。 第 1章 履 歴 デ ー タ の 名 寄 せ 代表的なデータクリーニングとして、履歴データの名寄せ処理がある。例えば、同ーの IDが複数存 在するトランザクションデータ(例えば、商品ごとに複数同一人物のオブザベーションが存在する保 険商品データなど)では、同じ顧客の属性情報が異なったオブザベーションに存在する場合、データ での正確な傾向を捕らえることができないため、 IDがユニークになっているデータを作成する必要 臼 の 凸 ー ワ n F
がある。データ IDのユニーク化は、データマイニングだけでなく、 OLAPや他の分析処理を行う際 にも有効である。またこのようなデータに対して、名寄せ処理を行わずに分析を行う場合、精度の高 いモデルを作成することは難しくなる。原因としては、例えば、 1万件のデータ中に同じ IDのデー タが 2000件あり、残りの 8000件のユニークなデータの年齢の分布を見るとする。もし、重複して 2000件が 1個人の情報をあらわしていて、その個人の年齢が 80歳の場合、残りの 8000件のデータ 中に 80歳以上のデータが 1件もなくても、結局、全体顧客の中の 20%は 80歳以上という誤った結 果が出てしまう。 B ASESASソフトウェアのなかでは、このような事がないように、名寄せ処理を便 利に行う嫌々な関数、プロシジャを揃えている。この章では、名寄せ処理の幾つかの例を説明する。 第1 節 複数 IDが存在するデータについて 例えば、購買が行われた回数だけオプザベーションが追加される購買デー夕、何らかのアクションを 起こすたびに履歴が残るデータの場合、ユニークな ID、つまり重複行の削除を行う必要がある。(図 1参照) 図1. 2 0 0 0 0 7 7 7 i 0 0 0 0 7 7 7 0 0 0 0 7 7 9 0 0 0 0 7 8 0 0 0 0 0 7 8 1 0 0 0 0 7 8 1 o o c 旧7 8 2 7 円4 n n nn p r o d 3 3 0 即 日 南 地 区 男 商品 A 1 5 0 . 0 0 0 南 地 区 男 商品C 2 2 0 . 0叩 南 地 区 男 商品 B 3 0 0 即 日 中 地 区 女 商品 A 4 6 0 . 0 0 0 南 地 区 男 商品 A 3 2 0 . 0凹 南 地 区 男 商品 B 3 8 0 . 0 0 0 南 地 区 男 商品C 2 1 0 . 0 凹 北 地 区 男 商品 A ? f i nn n n 商 紳l 女 ‑ t r j 商忠A 12 1 内判明で k側 I:lT.ð'J 酬圃温畑恥凶~r,.'i臨機感総選選 !id jM 附 e eI c h i k uI 州 2 ~ 図 1のような場合、データを大きく 2パターンに分けて処理を行う。まず 1つが、 chiku、 s e xのよ o r tプロシジ うに重複しても同じ値しかとらないデータがある。このような同じ値しかない場合は、 s ヤの nodu]lオプションを使うと重複行の削除がおこなえる。また新規に作成した sample2には、変 数k e i y a k u ̲ f e e、 s e q、 prodは必要ないので削除処理も一緒に行う。 重複行削除プログラム: p r o cs o r td a t a 二w o r k . s a m p l e 1o u t = w o r k . s a m p l e 2 ( d r o p ニk e i y a k u ̲ f e es e qp r o d )n o d u p k e y ; b yi d ; r u n ; もう lつのパターンである、同じ IDで異なった値を持ち個々の情報が必要な場合、例えば契約料で ある k e i y a k u ̲ f e eの場合だと 2種類の処耳1方法が考えられる。単純に i dごとの合計契約金額として ‑288一
同じ意味を持つ新規の変数として作成するか、購入時間ごとに変数を作成して横持ちのデータを作る e i ) 叫{U̲ f e e かである。まず、合計金額を求めて新規の変数とする場合は、 summaryプロシジャでほと k の合計値との 2変数のデータセットを作成し、重複削除処理後のデータにマージを行えばよい。(結 果 1参照) サマリ処理プログラム例: p r o cs u m m a r yd a t aw o r k . s a m p l e 1n w a y ; 二 o u t p u to u t = w o r k . s u m m a r y ̲ d a t a( d r o p = ̲ t y p e ̲̲ f r e q ̲ )s u m = s u m ̲ k e i y a k u ; v a rk e i y a k u ̲ f e e ; c l a s si d ; r u n ; d a t aw o r k . m e r g e ̲ d a t a ; m e r g ew o r k . s a m p l e 2w o r k . s u m m a r y ̲ d a t a ; b yid ; r u n ; dがソートされていない場合、マージの前にソートが必要。 *2つのデータセットの変数 i 次に 1変数の中に、縦持ちされているものを時系列などの変数ごとに横持ちさせたい場合、 t r a n sj )o s e プロシジャを利用し、値を横もちにさせたデータセットと、重複削除処理後のデータセットをマージ させてテーブルを作成する。この処理によって、個人の時系列的な購買の推移や、購入商品の移り変 わりなどを見ることができる。(結果 2参照) また、今回は使用しなかったが変数 p r o dのようなデータの項目自体をカテゴリとして変数佑して、 例えば商晶 A を購入した顧客には変数「商品 AJの列に r1Jというフラグを立てて、購入しないと rOJにするという処理も t r a n s p o s eプロシジャで転置処理の後、データステップ中で i f文を利用す ると行える。この様に、 1変数内のトランザクションデータの状態だと、その変数内の組み合わせル ールとしてしか利用することができなかった、情報を時系列、またはカテゴリ別の項目としてマイニ ングに利用することで、他の属性情報との組み合わせを加えた形の分析が可能になる。例えば、 POS データの情報とその庖舗の属性を合わせた分析も可能になる。 転置処理プログラム例: p r o cp r a n s p o s ed a t a ニw o r k . s a m p l e 1o u t = w o r k . t r a n d a t a ; b yi d ; v a rk e i y a k u ̲ f e e ; i ds e q ; r u n ; 円ud nノμ nD
dataw o r k . m e r g e ̲ d a t a ; merge work.sample2 w o r k . t r a n ̲ d a t a ; b yid ; r u n ; *2つのデータセットの変数 i dがソートされていない場合、マージの前にソートが必要。 結果 1: ‑ 一 十 七 一 宇 一 summaryプロシジャの結果 T ' ra nsposeプロシジャの結果 臨欝畿齢、ミミ下斗語l ] S j Jm J c . e i y a k u, 出i k l . l 重加盟問調唱密航沼環I'il雪言穏笠懸蕊総際感機器詰 $ l ' ; ; ! D ! E a 出量司 I , I . :I J 軍司:a唖議書 南地区 南地区 中地区 南地区 南地区 北地区 南地区 4 8 0 . 0 0 0 2 2 0 . 0 0 0 3 0 0 . 0 0 0 4 6 0 . 0 0 0 7 0 0 . 0 0 0 2 1 0 . 0 0 0 2 5 0 . 0 0 _._.._..___I..__....ì~~φI~ils.刻 1 2 J 1 0 0 0 0 7 7 7 南 地 区 奥 田0 . 0 0 0• 1 5 0, 0 0 0 1 0 0 0 0 7 7 8 南地区 奥 2 2 0, 0 0 0 中地区 女 3 0 0,0 0 0 南地区 男 4 6 0, 0 0 0 南地区 男 3 2 00 0 0 .3 8叩 0 0 北地区 男 2 1 0,0 0 0 南地区 女 2 5 0, 0 0 0 目 。 第 2節.文字変数の処理 例えば履歴データを手入力している場合、データごとに 1オブザベーションに集約することが難しく なる。ゅではなく名称で、入力されている場合に i S A Sジャパン(株) Jと i ( 株) S A Sジャパン」が 同ーと判断することは難しい。また、 i S A S J と「ジャパン」の問にブランクが入っているだけでま ASジャパンができてしまう。このような篠々にパターン化されたデータのクリーニン た異なった S グに有効な関数が、 B ASESASソフトウェアの中では複数存在する。 ブランク処理の関数 変数データ中にブランクが入っている場合、そのブランクを認識してしまい、ブランクが入っていな い値とは違ったデータになってしまう為、ブランクを削除した形に統一する必要がある。 compress 関数を使うとセルの中にあるブランクを全て削除することができる。 そのため、入力によって値の前や聞にブランクが入っているものを統一させて集計、サマリをおこな い重複している列の発見を行うことができる。また、データの入力処理を行う際に、予想外のブラン クが入ってしまうことがある。そのブランクが値の前などに入っている場合、値を集計してみると、 ひと目で違いがわかるが、値の後(右側)にブランクが入力されている場合、違いを見つけることは難 しい。このような場合、 t r i m関数という関数を利用すると、文字列の後方のブランクを削除すること が可能になる。次に、文字列を右寄せに統ーしたい場合は、 r i g h t関数、文字列を左寄せにしたい場 合は l e f t関数を利用すればよい。またダブルバイトのブランクに対応するために、 kcompress関数、 ktrim関数、 k l e f t関数、 k r i g t h関数といったダブルバイト対応関数がある。また関数を組み合わせ ることで、ダブルバイトとシングルバイト両方のブランクを一度に削除させることも可能になる。 ‑290一
文字変数の集計結果の例 文字列前方にプランクを含むデータ p r o d 度数 商品 A 1 ¥一セント p r o d 1 1 .1 1 商品 A 4 4 . 4 4 商品 A 2 2 . 2 2 商品 B 2 2 . 2 2 商品 C 度数 1 ' ¥一セント 1 1 .1 1 a u守 内 ノ ﹄ 内 ノ ﹄ 商品 C ι っι 商晶 B 点値寸つ 商品 A 文字列後方にプランクを含むデータ 4 4 . 4 4 2 2 . 2 2 2 2 . 2 2 ブランク削除プログラムの例: data sample2; set samp1e1; prodニcompress(kcompress(prod)); rl nH ‑3 H u 文字項目のクリーニング 企業名をキ一変数にしてのデータのクリーニング処理などは、 B toBのデータを扱う場合に重要な処 理の 1つとなる。キ一変数の個々に対して、ユニークなコードを賑っている場合はよいが、例えば、 i ( 株) S A Sジャパン」や i S A Sジャパン(株) Jのように名前でデータが入っている場合、個々を特定す るのは難しくなる。このようなデータに対する処理の場合、 S ASの複数の関数を組み合わせると、か なりのパターンには対応が可能なる。 ( 株) S A Sジャパン」を i S A Sジャパン」という形で、前株だけでなく まず代表的な処理の例として、 i 後株になっていたり、「株式会社」と略さず入っている場合にも全て、企業名のみの形にして処理を 行う方法がある。この処理の場合、最初に取り除きたい文字列の表記パターンをまとめると処理が比 較的容易になる。今回は、「株式会社」、「かぶしきがいしゃ」、「カブシキガイシヤ」といった様々な ( 株) J に置換する、という処理を行う。そのため、データに入ってい 表記をされているものを全て、 i ると想定されるパターンを洗い出し、置換対象項目としてピックアップをして指定する必要がある。 パターンの洗い出しをするためには、データの入力仕様がどうなっているのかによって横々な為、業 務知識を基におこなう必要がある。また今回は株式会社という例で処尽を説明したが、これは有限会 社であっても処理ロジックは全く一緒になる。 株式会ネtJ を i ( 株) J に変換する場合): 置換処理プログラムの例( i data t e m p ; s e ti n d e x : '株式会社, '(株)') ; name2=tranwrd(name, r u n ; υ iム 守 η ノU 同 ハ
上記の処理によって、椋々な表記の「株式会社」は全て i ( 株) Jにまとまった。しかしこの状態だと、 ( 株) J をはずしたデータにすること 前株なのか後株なのかの判断ができない。そのため、まとめた i で個々の特定が可能になる。この様な場合にも、 tranwrd関数を使用して、指定した文字列を任意の 文字列に削除をすることで名前のみの変散を作成するので、この状態で今まで、まとめることができ なかった。(結果2を参照) 結果2 : (株)への処理結果 (株)をブランクへの置換結果 SASジャパン(株) ( 株)SASジャ)ン ¥ SAS ジャ)¥ン(株) SASジャパン 一新変数の作成 次に、今回紹介の処理には必要ないが、文字項目を(株)か(有)に置換処理を行った後、置換処理を行 ったデータは、株式会社か有限会社かを判断して、株式会社には「株」という文字を、有限会社には 「有」という文字が入っていて、株式会社か有限会社かを判別できるフラグ変数を作成したい場合、 kindexc関数と k s u b s t r関数が有効になる。 まず特定の文字列を検索して、何文字目かを検出する関数として、 i n d e x c関数がある。しかし、 i n d e x c 関数はシングルバイトの文字列に対して有効な為、今回の例のようにダブルバイトに対応させる場合 は 、 kindexc関数を利用する。 kindexc関数を使うと、データセット中に指定した文字が何バイト目 に最初に入っているかをカウントし、出現位置数をデータとして返すことができる。これによって、 名前の前後パラパラに入力されている(株)、(有)の出現位置情報を取得できるようになる。そして次 に例えば i ( 株) Jの場合、 i ( )の出現位置情報を取得し、その位置から 1を足した位置の文字を k s u b s t r 関数を使しリ文字の値を抽出して変数として返すという方法で新しい変数を作成することができる。 (結果 3参照) このように、情報をフラグイじすることにより、企業の名称、の中に付属する状態では分析に使えなかっ た情報も分析を行うための、説明変数の 1つに追加することができる。 フラグ変数作成プログラム例: d a t af 1 9 ̲ d a t a ; s e tt e m p ; i n d e x c ( n a m e, ,( ' ) ; i n d e x二 k n H υ 白 つ 白 つ
c o m p a n y ̲ f l g = k s u b s t r ( n a m 巴 ,i n d巴x + 1,1 ) ; r u n ; 結果:3:フラグ変数作成結果 z・温~I:I泊四:11謂~溜塁塁 ミ ミ お . . . : J 盟 主i 町e lc om p a n y ̲ fI g 企 1株 4有 1株 4株 4有 1有 4株 第 2章.有効なデータテープルの作成 前章でも若干紹介したが、マイニングを行うほとんどの場合に新変数作成の必要がある。これはマイ ニング用データテーブルの変数情報の多少に関わらず発生する作業である。例えば顧客履歴データや、 売上データなどは本来、マイニング等の顧客分析をおこなうために集められた情報ではなく顧客情報 や売上情報を履歴として保存しておくのが目的なためである。そのため、データテーブルは情報を官 理したり、業務に必要な情報を収集する為に過した形で情報が存在する。そのため、それらの生のデ ータから新たな変数を作成して、分析を行う必要がある。この章では、幾つかのパターンでの新変数 作成の例を提示する。 一日付値からの新変数作成 顧客属性データや売上データには、顧客の生年月日や売上日 H 寺などの様々な時間の情報が存在する。 それらの情報を日時値のまま、データとして持っている場合はそれ程、マイニングに有効な情報には ならない。また、流通業などでよく行われている分析である RFM分析の指標を分析データの項目の 1つに加えたい場合なども、顧客の直近購買日からの期間を求める必要がある。この様な場合には、 ASシステムの中では、日付を 複数の日付に閲する関数を使って、データ加工を行うことができる。 S SAS日付値という SAS特有の内部値として持たせることによって、高度な加工が可能になる。 AS日付値になっていない場合には SAS日付伯に変換を行う場合がある。変換を行 まずデータ形式がS うと、デフォルトで 1960年 1月 1日からのカウントされた内部日付値で値が出てくる為、フォー マットを使って扱いやすい形式に変換をします。 SAS日付値への変換例: d a t at m p l ; td a t巴̲ d a t a ; S巴 巴w ̲ d a t巴ニ i n p u t ( p u t ( o l d ̲ d a t巴, 1 0),y y m r n d d1 O .) ; n 門 ペu nud nノ臼
f o r m a tn e w ̲ d a t ey YmnKi d I O . ; r u n ; SAS日付値に変換をすると、その日から指定した日時までの期間を i n t c k関数を使って求めることが n t c k関数では間隔を求める単位を、年時、月時、日時と設定することができるため、分析 できる。 i に適した単位で値を算出することができる。この間隔を求める関数を使うと、今日から日付値までの 間隔を求めることで、年齢を算出することができる。また、今日の値は実際に日付を指定しでもいい o d a y関数を使うと今日の日付を求めることができる。 が 、 t 年齢の算出例: d a t ad a t e ̲ d a t a 1 ; d a t a ; s e td a t巴̲ O N T H ', n e w ̲ d a t e, t o d a y( ) ) ; b i r t h d a y = i n t c k (M r u n ; 一項目のグルーピング化 また、日付値から間隔を求めるだけでなく、例えば年齢を r20代 」 、 r30代」と年代であったり、 金額を r1000円台」というグループ化を行うという処理のようにユーザー側で指標を作りデータ を分割して、分析に利用することも可能である。この様に、項目のグルーピング化を行うというのは 日付値に特化した処理ではなく、様々な変数でも応用が可能である。またマイニング以外の使用目的 でも、 O LAPを行うときにも多々ニーズがある。 BASESASソフトウェアの機能の中には、幾つかの F文を使うものとフォーマットを使う方法を紹介する。 方法があるが、今回は代表的な方法として、 I 最も簡単な方法として、 l Fで条件を指定して新項目として追加する方法がある。これは単純に条件を 指定するだけで新しいカテゴリ伯を作成することができるが、一度データを書き換えてかつ、現在の 項目から新しい項目を作成する為に、大量のデータの場合には処理速度がかかつてしまうという問題 がある。(結果 4参照) プログラム例:項目のグルーピング化プログラム例 d a t an e w d a t a 2 ; s e tt m p 1 . n e w d a t a ; t h e nn e n d a i 1 0歳来満, i fa g e > I O i f1 0 <ニa g e < 2 0t h巴nn 巴n d a i = '1 0代f ; 二、 g巴< 3 0t h e nn e n d a i = '2 0代 , , i f2 0 <a 二 i f3 0 < = a g巴< 4 0t h e nn e n d a iゴ 3 0代 , , i f4 0 < = a g e < 5 0t h e nn 巴n d a i = ' 4 0イ 4 ど; i f5 0 <a g e 二 t h e nn e n d a i , ニ5 0歳以上, r u n ; 2 9 4 ‑
次にフォーマトプロシジャを使い、ユーザーの定義した出力形式でデータを表示する方法もある。こ のフォーマットの利点として、ユーザーでデータをカテゴリカルに分割させるだけでなく、元データ が数値のままでも表示される時だけはユーザーにわかるような形でアウトプットされるということ もあげられる。これによって、文字データとして格納するよりもデータの容量が小さい状態で、分析 用データを作成することが可能になる。 フォーマット作成プログラム例: proc format; 0歳未満 s value tmp 0‑9 = 1 1 ( ) ‑ 19 = '1 0 f 1 e ' 20‑29ニ , 2 0イ " t ' 3 ( ) ‑ 3 9ゴ 30代f " t ' 40‑49ゴ 40イ 50‑hight ゴ 5 0歳以上, r u n ; proc datasets library=work ; modify newdata; format age t r .p . ; r u n ; quit; 結果 4 :フォーマット処理の結果 処理後 処理前 明者報ぶムi 議 ド姐間間制覇機感ぶ11:;;...10'1 ゾ l [ ) 担 割t .1 <AQE iID I前 E 3 7 8 I0 0 0 7 6 94 0代 3 7 9 I0 0 0 7 7 02 0代 3 8 0 I0 0 0 7 7 33 0代 0 0 0 7 7 42 0代 0 0 0 7 7 62 0 ( ‑ l C 0 0 0 7 7 72 0代 0 0 0 7 8 62 0代 0 0 0 7 8 72 0代 0 0 0 7 8 95 0歳以上 0 0 0 7 9 13 0代 2 9 まとめ 今回の論文では B A S E S A Sソフトウェアでのデ タ加工、一般的に「泥臭い」と言われているデータ クリー二ングの基本的な機能を中心に紹介した。これらの処理は、地道な作業になるが初めてマイ二 ‑295‑
ングブロシ"ェク卜が開始される際に、多くのユーザーがつまずく個所でもある。実際、マイニングを 行う際には 8~9割方がデータクリー二ングの作業になるかと思われる。その際に SAS シムテムの大き な強みであるデ タ加工能力を使って、柔軟なデ タ加工を行っていただきたい。本文では、名寄せ 処理、新変数作成処理等をご紹介したが、これだけで処理が全て完了するわけではなく、これからは A S E S A Sソフトウェア 各データの特性により様々な処理が必要になってくる。それらの作業にも、 B の様々な関数、ステートメン卜が有効になると思われる。 今回の論文ではページの都合の為、顧客データを中心に説明を行い、他業種での利用方法の例を提示 することができなかった。しかし、それ以外の業種でも同じような加工ロジックでの問題は多々存在 するかと思われる。他のデータでのクリー二ングの場合はデータのほうの項目、レイアウトを使用す るデータに置き換えて考えていただきたい。 最後に、論文作成に使用したサンプルプログラムと、スペースの都合よ紹介できなかった幾つかの加 工処理(株価デ タのような、平日のトランザクシヨンデータのみのデータに土日、祝日の日付を計 算して追加させる、等)のサンプルプログラムを希望の方は、メ ルプログラムをご希望の方は、 jpntbk@jpn.sas.comまで。 ルでの配布を考えている。サンプ nHU nhu n︐白
日本 SASユーザー会 (SUG1‑0) 製品分類による顧客セグメンテーションの方法 中西由紀 株式会社 SASインスティチュートジャパン カスタマーサービス本部データサイエンスグループ CustomerS e g m e n t a t i o nU s i n gE x i s t i n gP r o d u c tCategorySchemes Y u k iN a k a n i s h i n s t i t u t eJapanL t d . D a t aS c i e n c eGroupCustomerS e r v i c eDepartment,SASI 要旨 One t o One マーケテイングの重要性が叫ばれている昨今であるが、企業が一人一人の 顧客の要望に対応していくことは現実的に難しい。そこで、企業で現存する商品を軸に、そ の製品特性ごとにデータを分割し、顧客をセグメント化する方法を、 SASシステムバージョ ン8 . 1を用いて説明する。 キーワード: 顧客セグメンテーション,クラスタリング, SASシステムバージョン 8 . 1 1 . はじめに 多くの流通業は,今まで MASSマーケットに対して製品を流通してきた。しかし顧客の晴好 が多様化する中、 MASSマーケティング戦略では、効率良く顧客を捕らえることができない。 そこで実際に販売している製品の特性をもとに顧客をセグメント化し、各セグメントの特徴、マ ーケット規模、期待収益を考慮し、ターゲットとするセグ、メントを識別することを目的とした。 2 .仮説的事例 今、ネット上!こ SAS家電"という電化製品量販庖があると仮定する。この庖は、全顧客に 対して D M、Eメー jレで、キャンペーンを行ってきたのだが、費用のわりには売上がなかなか上 がらなかった。そこで SAS家電は顧客をセグメント化し、購入パターンの類似したグループを 発見し、別々のキャンペーンを考案することにした。 SAS家電は、販売している製品を 3つの要素で分け、購買履歴のある顧客をクラスタリング することに決めた。その 1つ目の要素は、製品群の分類であり (1¥ードウエア、周辺機器、 AV/ ハHU nノ 円︐︐
家電機器)、 2つ目の要素はメーカー(ソニー、目立、東芝等)、 3つ目は製品の分類(ノート PC、プリンター等)である。実際の分類はより詳細なものになるが、今回はこの 3つの要素に よる分類とする。なお分析に使用したデータは以下である。 (TABLE1参照) Table1:SAS家電製品カテゴリー 要素 2 要素 1 要素 3 1¥ードウェア ( H ) キャノン (C) AV 機器 ( A ) AV/家電 ( K ) 富士通 (F) ずスクトップ PC(D) 周辺機器 (8) シャープ (8) ノート PC(N) 東芝(丁) │プリンター (P) ソ一一 ( y ) スキャナー (8) 電話 (T) ァレビ ( V ) Table1 のように、 3 つの要素で分類すると、例えば「東芝のテレビ」で、あったら、 rKTVJと分 類される。そしてこれをもとに、顧客の履歴データを加工して、データがこれらの製品要素の 組み合わせで表されるように変換する。 2 .データ加工 顧客の履歴データから Table1 で、行った要素の組み合わせに添って、 Table2のように顧客 I D、プロダクト I D、プロダクトカテゴリーの 3変数を作成し、データを加工する。 Table2:プロダクトカテゴリ一例 D PRODCAT CUSTI D PRODI 3 11SYS 3 1 0SYP 31SCS 4 41HTV 4 41HTV 3 51HYN 61HYD 2 61HYD 3 61HYD 4 71HST 21HFN 81HCN 91KYA 3 5 91KYA 1 1KFA 5 5 1 2KCA 続いて、プロダクト ID ごとにカテゴライズされたデータを、顧客 ID ごとに分解し、 Table3 のようなデータレイアウトにする。 ハuu nノ臼 n凸
T
a
b
l
e
3
:分解後のデータ
CUSTI
D C
lH
2
3
4
5
CUSTI
D C2C
2
3
4
5
CUSTID C3A
2
3
4
5
C
lK
4
2
2
。
C2F
。
。
。
。
。
C3D
3
。 。
。 。
~~1
。
。
。
。 。 。
。 。 。
。
。 。
。
。 。
。 。 。
。 。 。
ClS
2
3
C2S
C3N
C2T
C3P
2
C2Y
C3S
~~21
。
5
。 。
。 。 。
。 。<~~3 I
。 。 。
C3T
C3V
cm
仏町C¥A.
l
存釦I.IN
1
C
A
T
1;
D
A
T
A&
G
I
.D
A
T
A
̲
1
;
釘
I
附】
VMC
1
̲
HC
1
̲
KC
1
̲
S
;
C
L
L
S
T
E
R
;
C
A
T
1=
&
B
S
1
R
(
附
l
J
̲
C
A
T,
1
,
1
)
;
B
YO
J
:
i
T
̲I
D
;
2
=
錦
町
(
附
l
J
̲
(
以
,
1
,
2
,1
)
;
C
A
T
ωT
R
.
I
fClJT屯日 .
1
N
1
C
A
T
1S
.
件C
1
̲
HC
1
̲
KC
1
̲
S
;
3
=
&
B
S
1
R
(
附
l
J
̲
(
帆3
,
1
)
;
C
A
T
臥別;
C
X
l
.
.
t
I
T
=
1;
1
*こしそ渋江崎析。〉期ご対主植をゼロて手薄真しておく *
1
臥則;
D
A
T
AS
.
日
.
IN
1
C
消J
1
;
正T&
G
I
.
IN
1
C
A
T
1
;
附】C 溜~T C
¥
A
.
l
存釦I.D
A
T
A
̲
1C
l
J
T
:
:
:
:
(
A
T
1
;
M
R
A
Y1
N
1{
3
}C
1
̲
HC
1
̲
KC
1
̲
S
;
B
YO
J
:
i
T
̲
I
DC
A
T
1
;
∞1=1103;
限1
4
;
円n:m 仏R
YC
¥
A
.
l
たC
A
T
1s
.
.
M
;
1
F1
N1
{
I
}
=
.l
l
‑
E
N1
N1
{
I
}
=
u
;
VMC
X
l
.
.
t
I
T
;
印D,
B
YO
J
:
i
T
̲
IDC
A
T
1;
日脚 1
;
山TFIJf町屯βI
.
IN
1
C
A
T
1(旧詐:
̲
T
Y
A
̲̲F悶リ&舵N
T
;
臥則;
D
A
T
A&
G
I
.
IN
1
C
A
T
1
;
豆TS
.
日
.1
N
1
C
A
T
1
;
1
j
体
側T
;
1
FC
A
T
1ゴ同再日 C
K
=
C
N
T
;
E
L
S
E1
FC
A
T
1
=
'K
'再 割 引 ̲
T
;
E
L
S
E1
FC
A
T
1
=
'2f四H1討 N
臥則;
299‑
限1
4
;
プログラムはカテゴリー 1のみしか記載していないが、同様にカテゴリー 2、3と加工を施し、 最後に後続の分析のために欠損値を0で補填し、マージで横結合させる。 <データを読む> P r o cF a s t c l u s でクラスタリングを行う前に、作成されたデータを解釈しよう。カテゴリー 1での Cust ̲ id 1,2の顧客を見てみたい。 Cust ̲ ID1の顧客はベクトル ( 4, 0, 0 )、2 の顧客は ( 1, 0, 0 )とい )ッド空間でみると、一見大きな差があるように見えるが、実は両者 う購入をしている。ユーク 1 とも、購入している商品はすべてカテゴリー 1の H"にあてはまる。つまり、この 2人の顧客は 似通った購買パターンをしていると、解釈が可能となる。 <データのクラスタリング、> では実際にデータのクラスタリングを行い、顧客をセグメント化していきたいと思う伊 クラスタリングの方法には、階層的方法と非階層的方法がある。通常データマイニングの対 象となる履歴データ等は膨大であるため、非階層的方法の Procf a s t c l u s "の使用が好ましい。 一方、小規模のデータを対象とする場合は、より柔軟性のある、階層的方法一 Proc c l u s t e r "の方が良い。また大容量のデータでも、まず非階層的方法でクラスタを絞った後に、 階層的方法で再度クラスタを生成させることも一つの手段であろう。 次に、分析対象の顧客群を抽出する。これはデータに偏りのない、顧客群を抽出する必要 がある。その手法の 1っとして、過去のある 時期において、最初の購入行動を起こした顧 客を抽出し、その顧客の現在までの購買履歴を追う、というものがある。この方法は顧客のラ イフサイクルも考慮に入れることが可能だ。 また別の方法では、単純に全ての顧客を使用する、という方法もある。 PROC FASTCLUS を使用する場合には、クラスタ数を指定しなくてはならない。クラスタ数 の正解というものは無く、我々はクラスタ数を変えて何回かプロシジャを実行し、結果を検証 し、クラスタが把握しやすく、後にマーケティング戦略の立ち得る妥当なクラスタ数を見つけ出 さなくてはならない。その為には、最低でも 3回は分析を実行することが必要とされ、慣習的に クラスタ数が r2、4、8Jと選択されることもある。 以下、クラスタ生成のプログラムを記すことにする。 ‑300一
P R O CF A S T C L U SD A T A = S U G I . D A T A ̲ A L LM A X C 斗 M A X I丁目二 2 0O U T 二S U G I . C L U S 4M E A N = C L U S M E A N ; V A RC 1 HC 1 KC 1S C 2 CC 2 FC 2 SC 2 TC 2Y C 3 ̲ AC 3 ̲ DC 3 ̲ NC 3 ̲ PC 3 ̲ SC 3 ̲ TC 3 ̲ V ; R U N ; MAXCOPTION(MAXCLUSTERSOPTION) ー・クラスタ数の指定をする MAXITEROPTION...クラスタシードの再算出回数の指定をする OUT OPTION...オリジナルデータに加えて、クラスタ番号とユークリッド、の距離を示す変数を 出力する MEANOPTION...統計量を出力する <結果の検証> 実際、一般的には FASTCLUS によるクラスタ分析はロパストな方法ではないと言われてい る。これは、 FASTCLUSが、仮クラスタを生成する為の初期シード点(INITIALSEED)をランダ ムに決め、そのシード点をもとに仮クラスタを生成、変数聞の距離を測ることでクラスタの検 証をし、最終クラスタを決定する、というステップを踏む為、クラスタの結果が初期シード点に 大きく影響を受けるからである。従って、出力された結果は必ず 検証しなくてはならない。 そこで検証する為の方法を、いくつか紹介したい。一つは、全データを数個のグループに分 割し、それぞれのクラスタリング結果を比較。全ての結果が類似した場合、その出力結果を 妥当なものとみなす。他には、シード点を変えて数回クラスタリングを試みることも考えられ る 。 クラスタ数の決定に聞しては、マーケティング、担当者が実務的に見て、妥当な数を決断する のが望ましい。後のアクションに繋がらないクラスタを生成することこそナンセンスといえるで あろう。 <出力結果の理解・評価> さて、先程行った SAS家電のクラスタ分析の結果を理解・評価することにしよう。 SAS家電データを加工し、クラスタリングした結果、以下に示す 4つのクラスタに分割され た 。 クラスタ 1:CUSTID① クラスタ 2:CUST̲ ID② 、 CUSTI D④ クラスタ 3:CUSTID③ クラスタ 4:CUST̲ ID⑤ クラスタ 1の特徴は、ハードウエアに偏った購買パターンを示す顧客で、あった。次に、クラスタ 2 nぺU 1i n u
は、メーカーは遣うもののハード、ウェアと周辺機器を購入するセグメントとなり、クラスタ 3は 、 J¥ードウェア、周辺機器、家電製品とさまざまな商品を購入しているが、全てソニー製を購入 するセグメントで あった。そしてクラスタ 4 !ま 、 AV製品に購買パターンが偏っていた。 つまりクラスタリングとは、似通った購買パターンを集めてセグメント化する方法なのであり、 このようなセグメン卜を知ることで、企業は顧客ニーズ、に添ったサービスを提供することが可 能となる。例えば、今月の特販は、 ソニー製のテレビ"であった場合、全顧客を対象とするよ りも、ソニー製晴好の強い クラスタ 3"を対象とした方が、効率の良いキャンペーン実施する ことが出来るのである。 <ターゲ ットセグメン卜の選定(効果を計る)> では最後に収益的に見たセグメントの妥当性を検証したい。まず、抽出した顧客群をクラス タに分け、それぞれの度数と収益を計算する。 顧客比率 収益(単位 100万円 収益/顧客数 収益率 顧客数 クフスタ J¥ードウェア 4 % 3 9. 0 . 2 9 2 1 . 3 % 2, 090 600 J¥ードウェア&周辺機器 1 6 . 8 % 0 . 6 1 8 9 3 550 4 4 . 9 % 2 1 . 2 % 1 , 1 2 5 450 0. 4 2 9. 4 % ソ一一製品 1 , 200 2 2 . 6 % 0 . 0 6 8 0 4. AV機器 4 % 1 0 0 . 0 % 1 . 3 6 5, 308 1 , 680 1 0 0 . 0 % 合計 この結果から、ハード、ウェアと周辺機器を購入する顧客比率は全体の 1 6 . 8 %に留まっている が、収益率をみると全体の 4 4 . 9 %を占めている。一方、 AV機器を購入する傾向のあるクラスタ 2 . 6 %であるが、収益率になると 4.4%と落ち込む。よって SAS家電のターゲッ は、顧客比率は 2 卜としては、 AV機器よりも、 PCを始めとするハードウェア、その周辺機器に絞ったほうが価値 があるといえよう。 更に、購買パターンの判明したセグメン卜ごとに、そのニーズ、にあったキャンペーンを行えば、 全顧客一律で キャンペーンを実施するよりも、コストを削減しつつ利益を上げることが可能に なる。 <結論> 顧客セグメンテーションは、 CRMでは重要な概念である。流通業で、は、どの企業も製品が 存在するので、その現存する製品の特性を軸にデータを分割し、クラスタリングする ζ とは顧 客セグメンテーションを行う上での一つの有効な手段であろう。 <参考文献> .SUGI26論文 r AM e t h o d o l o g yf o rCustomerS e g m e n t a t i o nU s i n gE x i s t i n gP r o d u c tC a t e g o r ySchemesand TheSASSystemJ C h r i s t o p h e rS .Andrews,D i a L o g o s,I n c .,Boston,MA u i d eV e r s i o n 8 . SAS/STATU s e r '5 G nぺU ハHU n r白
口頭論文発表 晶質管理
日本 SASユーザー会 (SUG1‑0) SASおよび JMPによるハードディスク・ドライブの生産性と品質の向上 朝日睦 ストレジ開発製造ストレジ製品生産 日本アイ・ビー・エム株式会社 P r o d u c t i v i t ya n dQ u a l i t yi m p r o v e m e n to fH a r dD i s kD r i v e sb yu s i n gSASandJMP M u t s u m iASAHI HDDQ u a l i t y‑S e r v e r ,S t o r a g eS y s t e mD i v i s i o n,旧 MJ a p a n,L t d . 要旨 本論文では、 H DD(ハード、デ、イスク・ドライブ)の製造工程で得られる膨大な量のテストデータ ASシ や製造履歴、磁気ヘッド、やテ、イスクなと、のキー・コンポーネントの情報に対する解析を S ステムおよび JMP ソフトウェアを利用して行い、 HDDの生産性ならびに品質の向上を実現し ている事例について記述する。 キーワード: SASシステム、 S A S / l n t r n e tソフトウェア、 JMPソフトウェア 1.はじめに HDDの記憶容量の伸びはここ数年、 1 2ヶ月で2 倍としづ驚異的な早さで増加している。その 背景には GMRヘッド、 AFC( A n t i F e r r o m a g n e t i c a l l yC o u p l e d )とし、った新しいテクノロジーの 開発、製品への採用が貢献している。こうした開発競争が HDD産業の特徴でもあるのだが、 一方、価格競争が激しいのもまた HDD産業の特徴の一つにあげられる こうした厳しい環境 J のもとで優位に立つには、従来の製品には無い機能、容量を持った製品を市場に投入しなけ れ(まならず、これを実現するためには、開発から生産の初期の段階で得られるデータの解析、 開発部門などへの結果のフィード パック、製造フ ロセスへの反映などをし、かに早く実現できる 3 かにかかっている D I B Mストレジ生産事業部では、 HDDの製造工程で収集されるデータの解析をより効率的に ‑ 3 0 5
実現するため、 1999年に新たなプロジェクト QUEST"を発足し、データベースの整備に着手 し、同時にその膨大なデータ解析をサポートするために SAS の導入を行ったこ本論文では HDD の製造工程とそこで収集されるデー夕、およびデータベースについて述べるとともに、そ れらに対する SAS システム、 JMP ソフトウェアを用いた解析手法を紹介する。 2. HDDの製造工程とデータ HDD の製造工程は組み立て工程とテスト工程に分けられる。組み立て工程では文字通り HDD の構成部品を組み立てていくのであるが、主要な構成部品には以下のようなものがあ る 3 HSA(HeadStackAssembly) D i s k Card S p i n d l eMotor 組み立て工程を簡単に述べると、まず BASEに S p i n d l eMotorを組み付け、そこに Diskを乗 せて、更に HSAと呼ばれる Headの集合体(図 1参照)を組み付ける。 :HSA (HeadStackAssembly ) 図1 これらの作業をクリーンルーム内で、行った後、ふたをして最後に Cardを取り付ける(図 2参照)。 この組み立て工程の聞にしてつかのテストが行われデータが収集される。データはテスト工程 e s tP a r a m e t r i cD a t a )の他、 HDDL o g i s t i c sDataと呼ばれ で得られるテストデータ (HDDT る工程履歴情報もあわせてデータベースに蓄えられてして。工程履歴情報とは、製品がどの 製造ラインのどのロボッ卜とーのツールを使っていつ組まれたのか、どのテスターの何番のセル ‑306‑
一 J / J t 〆 J ¥ 〆 I E L ¥ T 1 / J U L担 E ¥¥ut 誌 0 . K ' " 図2 :HDDの組み立て 会使って測定されたのカ、などの情報である。 HDDは現在、クイ、ハンガリ一、シンガポールな ど各国で毎日数万台の生産が行われている。製品としウ形になるまでに HDDの製造工程で 0のテスト工程を桂て出荷され、約 1 0 0種類のデータ(変数)が毎日約 400,000レコード 約1 (オフごザベーション)生成されている。これらのデータから製造工程のどのツーノレ、どのパラメ ータが生産性の向上在実現するために効果があるのか、また逆に、品質の低下をもたらすよう な要因!訂可均、を見つけ出すような解析が要求されている。しかしながら、生産性の向上を妨げ る要因が HDDの製造工程内に必ずしも潜んでしもわけではないことがわかっている。例え:ま i s kなど、の部品の品質で、ある。 HDD T H e a dや D e s tP a r a m e t r i cD a t aとHDDL o g i s t i c sD a t a の2 つの情報に加え、我々のフーロジューークトでぽ K e yP a r t sD a t aと称し、 H e a d、D i s kの情報をも i s kに関して約 5 0の変数が、また Head(こ関しては 1 0 データ解析の対象とした。その結果、 D 0近い変数のデータが解析の対象に加わった。これら HDDの製造工程のデータや D i s k、 H e a dなどのデータが:土じめから解析に適した形で、保持されていたわけではなく、このフ ロジェ 3 ハ川U ηfl ハペυ
クトがスタートしたときに、 SAS での解析をど視野に入れたデ、ータベースの構築を行ったことをこ こで述べておく 3 3. 解 析 本章では構築されたデータベースに対して、と、のような解析を実際に行っているかの事例を 示し、その特徴を説明する 3 3 .1 J M P ソフトウェアによる解析 本節では、 JMP ソフトウェアによる解析事例として、 HDDT e s tP a r a m e t r i c Data と P a r t s Dataの相関を調べた実例を紹介する。 我々のフーロジェークトでは、データベースからデータを取得する方法としては SQL 言語を使う e t r i e v eS e r v i c eなるものと提供している。 他に WEBBaseで Dataを取得する環境、 WEBR これ辻、一般ユーザに SQL言語を書かせることなく、メニュー選択方式で必、要なデータを取得 できるツールである(図 3参照 L ParametricData Retrieve S p巴c i f yt h er e t r i e v ec o n d i t i o n s ,a n dt h e np u s h'Ret r i e v e 'b u t t o n . I L o c a t i o n :F U J I : : d Iー ヨ M/T : r .AII rLatest F r om :1 2 0 0 1 ‑ 0 5 ‑ 2 5( F r) i 斗 T o :1 2 0 0 1 ‑ 0 5 ‑ 2 5~rÐ ヨ ヨ ゴ 「一一「一一「一一「一一「一一 I 園田国圃 ー ‑ r HDD: ー HSA:r 図3 :WEBR e t r i e v eService ‑308 斗
これによりユーザ(士、複雑な SQL 式から解放され、世界中から解析に必要なデータを引っ張 R e t r i e v e )くることができるのであるコこのようにして得られた HDDT e s tParametricData って ( と Pasts Datai‑それぞれ JMP ソフトウェア;こ読み込み解析をする(図 4参照) 2つのデー 0 タセットは別々のテープ、ルで、読み込まれるのだが、 JMP ソフトウェアの機能である 曹 人 大 SLlDER 1HEAD ー 1 1 5 E C D 5 0 B 3 1 01 5 2 J 5 E C D 5 1 3 B 1 1 1 7 3 1 . 6 E 3 5 5 0 B 8 1 B2 4 1 6 E C 4 2 1 9 F 1 21 2 5 1 6 E E 6 9 0 2 2 1 0 A BAD 4 E Y L V 9 0 51 4 E Y L 6 9 4 71 0 4 E Y L B 6 4 1日 4 E Y L 9 2 1 21 0 主YLE421 1 1 HDDT e s tParametricData J o i n 3 1 6 E 3 5 5日間 1 B 4 1 6 E C 4 2 1 9 F 1 2 2 1 0 5 1 6 E E 6卯 2 6 1 6 E E E 6 J 5 F 2 7 1 ‑ 4 . 3 P a r t sData(HeadD a t a ) 図4 :HDDTestParametricDataと Pa此sDataの 2つのテープノレ ザ 九 六 HEAD S E R I A L BAD S L I D E R 1 1 5 E C D 5日B 3 1 05 4 E Y L V 9 0 51 2 1 5 E C D 5 1 3 B 1 1 1 7 4 E Y L 6 9 4 7日 3 1 6 E 3 5 5 0 8 8 1 82 4 E Y L 8 6 4 1日 4 E Y L 9 2 1 2日 4 f 6 E C 4 2 1 9 F 1 22 2 1 0 4 4 E Y L E 4 2 11 5 1 6 E E 6 9日2 F 2 7 4 E Y L 8 6 5 5日 6 1 6 E E E 6日5 PARM ‑ 9 . 6 ‑ 3 . 5 ‑ 5 . 3 ‑ 2 . 1 ‑ 8 . 8 ‑ 4 . 3 図 5:Joinされた 2つのテープノレ JMPソフトウェアの特徴のひとつは、こうしたデータ加工を始め解析に至るまで、 I n t e r a c t i v e な解析がサポー卜されている点である, SAS システムにも SAS/ lNSIGHT ソフトウェアという I n t e r a c t i v eA n a l y s i sのパッケージがあるが、それとほ(王同じ機能にデータ加工の機能が備わ った感のあるツールである したがって、データ加工ばかりでなく、図 6にあるようなグラフの描 p 画もまた簡単に行うことができる。描画されたグラフを JPGなどの画像データとしてだけでなく、 HTML形式、リッチテキスト形式などで、保存できるのも大きな特徴のひとつで、ある これら 2 つ D のグラブより、 PARMの値が小さくなるとそれにしたがって HDDのテスト工程で BADと判断さ れる比率が上がっているのがわヵ、るコこの結果カ、ら Head の仕様見直しが行われ品質の向上 が(まかられた 3 ぺU n ハ u u ハ U
日 7 ‑ 6 。 3 ‑ ‑ 4 ‑ 2 l u 1 0. 9 ーー 1 2 ︑ 戸 M pn A 1 1 門 HU nHU ・ ロS V 0 DH E‑‑ ・ a AU a ウ 陥‑ 1﹂1i1idl ﹄一円 L‑ 一 円 U F b n U E d tzd ワ乙 a ! 1U h一(ヌ )OEJ泣口︿凶工口︿∞ • PARM ! F r e q u e n c i e s cコ FhJU 門 HU υ o PARM 的 一X︿↑ nHUnHU nHunHU ﹁ ︐ ﹁ F h d 2 5 0 0 P r o b L e v e l C o u n t ‑ 1 2 1 1 ‑ 1 0 ‑ 9 ‑ 8 ‑ 7 6 ‑ 5 4 3 2 1 1 6 0 . 0 0 0 4 4 3 7 0 . 0 0 1 0 1 5 7 0 . 0 0 1 5 6 1 0 1 0 . 0 0 2 7 6 2 7 6 0 . 0 0 7 5 4 6 2 8 0 . 0 1 7 1 7 1 6 3 40 . 0 4 4 6 7 3 8 1 40 . 1 0 4 2 6 6 6 4 1 0 . 1 8 1 5 4 8 7 7 5 0 . 2 3 9 8 8 8 1 8 5 0 . 2 2 3 7 5 5 0 6 0 0 . 1 3 8 3 2 1 3 5 7 0 . 0 3 7 1 0 3 6 5 8 1 1 .0 0 0 0 0 o T o ↑ a l 図 6:JMPによるデータ解析 3 .2 SASシステムによる解析 我々(土 y i e l d(歩留まり)を SPC( S t a t i s t i c a l Process C o n t r o l )で管理してし唱。実現には SAS/QCソフトウェアの ProcShewhartを利用し、 P‑CHARTで管理している(図 7参照)。毎 週、パッチ・ブロクーラムで、起動された SASシステムがこうしたグラフを描画し、それをあらかじめ システムに登録されたエンジニアに登録されたグラフを自動送付しているご方法は SASシステ ムのバージョンによって若干違うのだが、ここではリリース 8 . 1についてその方法を説明する J 4li ぺU n ハU
3σLimits: 97.5 1‑‑‑‑1 「一一一‑, 97.0 ー P e r 一一一一戸 j 一一一ー J 96.91 」一一一寸 96.79 UCL 自6 . 6 c :96.5 t 日6 .: > 4 f 。 P~96.17 r y 96.0 E L 95.86 口 95.7 95.5 1‑‑ 1.一一一一 ー ‑ ‑ , 「 一 ‑ j LCL 一 │ 」一一一一一一」 95.0 2001~K13 2001~K14 2001~K15 2001~K16 2001~K17 2001~KIO 2001~K19 2001~K20 Subgroup Index (~EEK) Sub日roup Sizes: Min n=4143 Max n=9074 図7 :P‑CHARTによる歩留まり管理 まず、 SASコンフィギュレーション・ファイノレく SASV8.CFG>の中に次の 2行を書き加える。 emailsyssmtp ー fujisawa.ibm.com ‑emailhostxxxx. 一方 SASフ=ログ、ラムの中で、はクーラフの送付先とク占ラフのファイルなどを指定する C f i l e n a m emymaile m a i l to="asahi@jp.ibm.com" i e l d¥2001wk20¥pcha門 g i f a t t a c hゴe¥y a i lFromSASV8.1SMTP"; s u b j e c t = " Y i e l d2001week20• M d a t a n u l l f i l em y m a i l ; 門H U ﹁ f i l e n a m emymailc l e a r : また、描画されたグラフは同時に WEBサーバーにも送付されており、 SAS、ンステム(こより描 枚のチャートをすべて WEB上で、見ることも可能になっている 画される約 400 3 よ 41 内 ぺU 1 ょ
E D( J u s tE n o u g hD a t a b a s e ) による解析 3 .3 J 今まで見てきた J MPソフトウェアによる解析や SASシステムによるグラフの描画の目的は、 今、製造工程で、起こっていることを把握し、製造現場へフィード、パックすることで、利用するの は故障解析のエンジニアであったり、品質管理のエンジニアで、あったり、製造プロセスのエン ED( J u s tE n o u g hD a t a b a s e )もこうしたエンジニアへの情報を ジニアである。次に紹介する J 発信しているのだが、マネジメントへの情報、特に D e c i s i o nS u p p o r t "のための情報を提供す るシステムとし、う点に特徴がある。 MPソフトウェアや SASシステムを使ってクすラフを描画するのは、データを解析する 我々が J ことが目的であるが、真の目的は、その結果から何かを得て、それに対してアク、ンョンをとること . 1 節で、見たように、部品のスペックを厳しくすることにより、製品の歩留まりが である。例えば、 3 土がる場合を考えるコ部品のスペックを厳しくし、仮に 10%の部品を不良品とすることによって 製品の歩留まりが 10%増えるなら、不良品の価格と製品の価格を考えた場合、そうした変更 (土受け入れられるであろうが、逆に、歩留まりが 0.1%ほどしか上がらない場合、変更を受け 入れるのは難しいであろう 3 では一体、どのくらいの部品を捨てて、どのくらいの歩留まりが土 e c i s i o nS u p p o r tの機能を持ったシステ がればこうした変更は受け入れられるのか。こうした D EDである(図 8参照)。 ムが J HDDY ie l dGainvsCompo陪 n tY i e l d Lo詩 4明 e l 信 e n d i n g2 0 M ρi Y 21 ∞ ZEFFE﹄直)Z33﹀ロロエ 官邸 O.37~ O.32~ O.27~ o ‘ 22~ O .17~ O .1 2~ 0 . 0 7官 0.02~ O.03~) o . 0 8~) O .1 3~) O .1 8~) O.OO~ 10.00~ 2 0 . Q O % 30.00% 4 0 . 0 0 % 5 0 . 0 0 % Componenl Yield Loss i f Dislribulion i s Cul from Lefl o r Righl ・ 令噂ト.. PARM1̲R 4ト... PARM2 R . . . . . . . . PARM3̲R . . . . . ト 骨 PARM4 R . . . . . ト" 'PARM1 L PARM2 L ...PARM3 L ........PARM4 L 争唱ト 図8 :部品の仕様変更に対する期待される歩留まりの上昇 4li ぺU n つ白
図 8で PARM1̲R、PARM1ーしとあるのは、部品のパラメータ PARM1について、その値の分 R )、または左端(L)を意味する。また、 X軸の ComponentY i l e dLossとし、うのは、 布の右端 ( 何%部品を捨てるのかを意味する。つまり、部品のパラメータの分布(ほとんどの場合正規分 布)に対して、分布の右端、もしくは左端から何%のものを捨てると、製品の歩留まりがし、くら上 がるかを表している。このグラフで辻部品の 4つのパラメータに対して 8本の折れ操グラフが描 かれていて、例え(王、 PARM1 に対してその分布の右端 5%に含まれる部分を捨てると、製品 A S / l n t r n e tを用いて の歩留まりが 0.16%ほど上がるとしづ結果が得られる一 JEDのグラフは S 描かれており、クーラフはクリッカブ、ルで、 D r i l lDownA n a l y s i sを可能としている。 JEDについては SASI n s t i t u t eの Homepageに論文が掲載されているのでそちらを参考にされるとよい。 4. まとめ IBM藤沢事業所の SASの取り組みは 1999年に始まったばかりで、まだ手探り状態で解析 システムを構築しているところである o SAS のパワーをど考えればまだまだ、その性能を完全に引 き出して泣いないと思うが、社内の SASユーザと定期的に情報交換を持ち、ンステムをより高い 解析にできるものにしていきたいと考えている。また今回の論文はベージの都合上、その実現 方法会細かく説明で、きなかったが、機会があればそれらについて詳細な論文を次回以降の SUGJなどで発表していきたいと思三 本論文の著作権!土日本アイ・ビー・エム株式会社に帰属します。 用される場合法、必ず筆者にご連絡を下さるようお願いいた 本論文の全部、もしくは部分を号 l します d ηペ U よ 41 U ηペ
ポスターセッション 医薬
日本 SASユーザー会 (SUG1‑0) [EXSAS]V6とツリー型アルゴリズム 0山本典子市常吉華棄事呉本真新車浜田知久馬軸 事株式会社アームシステム企画部 帥京都大学医学部薬剤疫学教室 [EXSAS] V6&Treet y p ea l g o r i t h m N o r i k oYamamoto KanaT s u n e y o s h i M a r iKuremoto SystemP l a n n i n gD i v i s i o n .ArmC o r p o r a t i o n ChikumaHamada K y o t oU n i v e r s i t y 要 旨 生物実験データ統計解析システム [EXSAS]のバージョン 6は 、 SASのバージョン 8に完 全に対応するものである。また、新たな統計手法としては、両側 W i l l i a m s検定(パラとノンパラ)、 TypeJ、 Type Kの決定樹(ツリー型アルゴリズム)が追加される。本発表では、 ODS機能を利用した解析結果の 出力機能の概要について決定樹を中心!こ紹介する。 1 996)、Type H これまでの [EXSAS]1¥ージョン 5では、 Type O(山崎, 1994)、Type M (Menton, (Hamadae ta l, 1 9 9 S )の 3種類の決定樹の計算が可能であった。パージョン 6で は、榊 ( S a k a k ie ta l, 2 0 0 0 ) が提案した Type J、小林 ( K o b a y a s h ie ta l, 2 0 0 0 )が提案した Type Kなどを新たに追加する。これらの決 定樹の概要、実際のデータへの適用例を報告する。 ただし、本発表は特定の決定樹の利用を推奨するものではない。 キーワード EXSASV6、SASV8、ODS機能、決定樹、ツリー型アルゴリズム ‑ 3 1 7
1[EXSAS]V6の追加手法 [EXSAS]V6は 、 SAS パージョン8対応版として、開発が進んでいる。 50種を越える統計手法に関し ては、 SAS パージョン 8のODS( O u t p u tD e l i v e r γ S y s t e m )機能を利用したプログラムの組み替えを行って l 1i a m s検定(パラとノンパラ)、 Type いる。同時にしてつかの検定手法が追加されるが、具体的には両側 Wi J 、Type Kの決定樹(ツリー型アルゴ リズ、ム)などがある。本稿では、 [EXSAS]V6で解析可能な決定樹を 具体的なデータに使用した解析結果について、出力内容を中心に紹介する。 実際、薬理試験や安全性試験などの現場の実験者にとって、適切な統音同平析手法を個々の生物実験 モデ ルにあわせて選択するのは、困難な作業である。このため、統計解析の流れをフロー化した決定樹 が実験現場で長年用いられている。統計学と統計ソフトウェアの進歩にしたがって様々な決定樹の提案が なされ、標準的に利用される決定樹も変化してきている。このような背景を踏まえ、 [EXSAS]V6では、 6 つの決定樹を簡単に実行で、きるように、ンステムに組み入れた。これにより、各現場の実験者の選択肢を広 げるとともに、それらの決定樹を簡単かっ正確に実施できる。 2.6 種類の決定樹 [EXSAS]V6 で、実施できる 6種類の決定樹は、以下のとおりである。これらは、 1 つの対照1t'~と複数の 用量群からなる計量値データを取り扱うことを前提とした決定樹である。 ここに示す Type0、Typ巴 M、Type I‑Iなどの名称は、 [EXSAS]上で区別するための名称である。以 下にそれぞれの決定樹のアルゴリズムのフローを紹介する。それぞれの詳細に関しては、各文献を参照さ れたい。 @Type 0 <山崎(1994)> 対照群との比較 D u n n e t tt y p e多重比較 (5%) 対照群との比較 D u n n e t tt y p o多重比較 (5%) @Type F(2 群比較) ‑318‑
@Type M < M巴n t o n( l9 9 6 )> 1 9 9 8 )> @Type H <浜田 ( pく 0 . 0 1 非等分散 p~ 0 . 0 5 等分散 SR @Type J< 榊 (2000)> p> 0 . 0 2 5 有怠差なし W i l l i a m s検定 (α=0.025,2 ‑ s i d e d ) S t e e l検定 (α=0.025,2 ‑ s i d e d ) p~ 0 . 0 2 5 有意差あり 終了 @Type K <小林(2000)> 等分散性の評価 P三0 . 0 5 p > 0 . 0 5 等分散 非等分散 D u r m e t t検定 S t e e l検定 4hA nぺU ハHd
3 .データの紹介 今回使用したデータは、赤血球数、ヘモグロビン、血糖値、 GOT 、GPT 、アルカリフォスファターゼ、な ど2 1種のパラメータ値であり、その層別箱ヒゲ図を図 lに示した。群数は4群で、コントロール群 9例、薬 剤の低用量、中用量、高用量がそれぞれ 1 0例の計 3 9例のデータを使用した。パラメータによっては、欠 測値が存在する。前述の 6種類の決定樹のうち、 2群比較の Type Fを除いた5つの決定樹をこれらのデ ータに適応した。 1種類のパラメータの層別箱ヒゲ図 図1 2 〆臼 ハ 川 υ η ︑ ηυ
4 .出力結果の例 [EXSAS]では、 EXCEL 上で最大 2 5 6項目のデータを自動的に読込み、 SASでの解析を一括して 実施できる。その結果は、ツリー型アルゴ、リズ、ムの場合、[要約出力]と[詳細出力]の 2種類の段式を選択 して EXCEL上に帳票形式で出力 表1 [要約出力] できる。ここでは、 GOTのデータを G O T (時点 1[ 0 ],変換なし,そのまま, 1 ン ¥ 1 ・ Mリ ト' Y ?) それぞれの決定樹に適用した結果 を表 lと表 2に示す。 表 1の[要約出力]に関しては、 すべての決定樹について同一様式 で結果を出力し、表の右端にそれぞ G O T I 時点 1[0 J.変換なし l れの決定樹の最終検定結果を確認 l l 直などを設定した。 できるように p 表 2の[詳細出力]では、それぞ れの決定樹の詳細な流れに関する 情報や統計量を確認することができ る 。 0, ]L o g変 換 ) G O T (時点 1[ Type 0の解析では、ノンパラメト o i n t型 Dunnett検定)の解析 リック U を実施した結果が表示されている。 Type M では、低用量群で S t u d e n t t検定、中・高用量群で Welch‑t検 G O T (時点 1[ 0 ],変換なし) 定が適応されその結果が表示され、 Type H では、無変換データでの Dunnett検定の結果に加え、 C o n t r o l 群の行には、回帰分析の結果が示 では、 W i l l i a m s 検定 される。 TypeJ の結果が、中・高用量群において上 G O T (時点 1[ 0 ],変換なし,そのまま, 1 ' / 1 ¥ '河 川 刊 ) 側で有意であることが示され、 Type t e e l検定の結果が、表示さ kでは、 S れる。 4 f ム ﹃ ηυ qG
表 2 [詳細出力] G O l (時点 1( 0 1.藍換なt‑,そのまま ,J il ¥・日川刊 i ・ p値 マク 00000 1 1 パートレットの等分敵性検定 G O l (時点 110 1.藍換なし l パートレットの等分敵性検定 p価 00000 0, ]l 0 9査 換 } G O l (時点 1( パートレットの等舟敵性検定 田崎骨折 p価 そのまま 0 . 0 0 0 0 l 0 9 藍換 0 . 0 5 6 4 適合度 ( X l 何1 きの p値 8 9 . 5 適合性倹定 p値 0 . 0 0 0 0 0 . 0 0 6 6 G o r (時点 110 1.置換なし l G O l (時点 110 1.藍換なt‑,そのまま ,1 ' / ハ.日刊刊 i パ トレットの等分散性検定 p値 マク 00000 IU n︿リ η4 ηd
5
.解析結果の比較
表 32
1種類のパラメータについての 5種類の決定尉の解析結果
Type阿
Type H
Type J
Type K
に
、 6種類の決定樹のうち、 2群比
n.s
n.s
n̲
s
n.s
n.s.
n̲
~ミ
n.
5
n.s
n.s
n
.ミ
<
,
n
.s
n.5
n.5
n.5
較の Type Fを除いた 5つの決定
別
院
fl̲f
ミ
n.5
n.
5
n.5
n.5
n.5
n.5
n.5
n.5
n.
5
n.5
n
.s
n
.s
n.5
n.s
Type 0
Hb
コンロ
使用忌主主
中期畢群
志田需主主
J
コントロ
ル群
イ配用~君主
3 用 ~i詩
ー'
コントロ
ル辞
f
!t用ち:群
中用零群
王国詰量宝
WBC
コントロ
ル群
f
!t用示群
n
GOT
中用量群
富田畢君主
コンロ
{任用早君主
中用場群
車問桔貫主
コントロ
イ任用口君主
'
*
思
ヨ
n
.s
n
.s
n.5
n.s
*
*
n.
s
n.
5
n.
5
n.5
*
*
n.
5
コントロ
CPK
n.5
n
.s
n̲
~ミ
n
.s
n
.s
n
̲s
n
.s
n.5
n
.s
*
n.5
n.5
*
*
*
n.
5
n
.s
n
.s
n
.s
*
事
1
思
n.5
n.5
n.s
n
.s
n.5
n.5
n.
5
n.
5
n.
5
f
i
.
̲
S
J
レ
τ
τ
n
.s
n
.s
n.
5
n
.s
本
本
n.5
n.s
AG
K
C
l
G
L
U
)で、あった。 RBCでは、
糖値 (
n.5
n.5
n.5
n.5
n.5
n
.s
*
n.5
ns
ns
、
'
コンロ
低周:#群
2用 量 群
王国'会主主
n.
5
n.5
n只
n.5
n.5
T
守又
n.
5
n.5
n̲
S
n.5
n
.s
n̲s
n.5
n.
5
n
n.5
n.5
n只
,
│低用許群
│中用量翠
= m.L!
l
a
R
s
C
)と血
パラメータ、赤血球数 (
n.5
n.5
ル群
コントロ
E用 示 群
l
中用増群
車問害置主
コントロル群
f
!t用苦群
中用量群
車問・ 1君
主
コンロ
f
!t用示群
中用示群
高用量群
本
n.5
n.
5
n.
5
n
n.
5
n.
5
n.
5
n
n.5
n.
5
n.
5
n
n.5
n.5
n.5
1
陣
*
*
n.
5
n.
5
n只
n.5
n.5
n只
n.5
n.5
n̲
s
n.5
n
.s
n.
5
n.
5
n.
5
n.5
n.
5
n.
5
3
ミ
J
レ
n.5
n.
5
n.5
n
n.
s
n.5
n.5
n
n.5
n.5
n.
5
n.
5
TypcJ
のみ高用量群で、 GLUで
の高用量群
は
、 Type Hと Typ巴 J
n
.
n
.$
n
n.5
U
n.5
RBCでは、パラメトリック手法で、
*
*
を適
は有意にならないが Typ巴 J
n.5
n.5
n只
n.5
n.5
n
t巴巴 l検定で、高用
応した場合、 S
n.5
n.5
n.5
n.5
n.5
n.5
n
n.5
n.5
nヌ
n.5
n.5
n
̲s
.
n.5
n.5
n̲s
n.5
n.5
n
n.5
n.5
n ミ,
n.5
U
n.5
n.5
n.5
ns
n.5
n
.s
n只
n.5
n.5
n
n.5
n.5
n
̲s
n.5
n
.s
n
.s
n.5
n.5
n.5
本
n.5
n.5
n.
5
n
n.
5
n.
5
n.
5
、
$
食い違いがみられたのは、 2つの
n.s.
n
.s
巳
ヨ
)~辞
5種類の決定樹の解析結果で
*
n.
5
n.
5
3用 ‑ 群
富田 a主
主
主
ある。
n.5
n.5
コントロル群
イ晋用 m君
主
3用・ 4君
主
T
b
i1 コ ン ト ロ
*
n
.s
n.5
n.5
3用 T 群
王国目る主主
J
果で、 V は
、 S
t
e
c
l検定の結果で
1
陣
n
.s
n
.s
n.
5
n.5
nミ,
コンロ
'
U
'(上側)は、 W
i
l
l
i
a
m
s検定の結
n.5
n.5
*
n.
5
n.5
n.
5
n.5
n只
l
イ匠用場群
L'(下側)あるいは
古
車
寧
コンロル群
f
!t用与:群
l
中用量群
五回・ 3君
主
は、結果の
巳
ヨ
n.5
j〆群
n
.
s
. を表示している。 TypcJ
で
り
*
*
J
差がみられなかった場合は、
U
n.5
民用。(~草
差がみられた場合は 〆を、有意
寧
*
*
コンロ
樹を適応した結果を示す。有意
1
民
n.$
l
"
n
.s
*
Tcho コ ン ト ロ ル 群
{正用金許群
中用増群
三
E同 培主
u
1
臨
n.s
n.s
3用 J
主
主
主
=
m
.
!
.
.
.
.
!
A
lb
n'.
s
*
*
盤
孟
寸
す
且
量
羊主
量
主
C
r
t
n.
5
昨F {任用'"君草
│
出N
3
*
*
コンロ
*
'
n.
5
ル辞
n.5
n
.s
n.5
n
.s
n
.s
~ミ
n̲
中用単群
亘用'"主主
コントロ
(氏周詰群
中用主群
n.5
n
.s
*
ル群
コントロ ル 群
{
仔
用
‑
.
.
,
‑
君
主
2用‑l#
g
草
*
n.
5
n.5
n
f
!t用吊群
車用~君主
T
G
n
.s
'
t
巳
ル群
富岡~主主
ALP
*
n.
5
n.
5
n
臨
ヨ
I
G
P
T
*
n
.s
n.5
j
中用辛群
表 3には、 2
1種類のパラメータ
t
で有意差がみられた。
量群に有意差 (
p
=
0
.
0
1
7
0
)がみら
れた。
GLUでは、 Typ巴 Hを適応した
場合、対数変換後データの
D
u
n
n
e
t
l 検定で、高用量群に有
意差 (
pニ0
.
0
3
5
8
)が
、 TypeJ
を適
i
l
l
i
a
m
s検定(下側)
応した場合、 W
で、高用量群に有意差がみられ
た
。
u
ぺU
n
ぺU
n
︐
ヮ
6 .決定樹の選択とまとめ [EXSAS]で実施できる多群比較用の 5種類の決定樹問では、対照群と用量群の比較に関して、前章 の結果から示唆されるように、検出力に大きな違いはない。しかし、毒性試験の探索的側面を考えると、最 終的な結果のみならず、途中の分岐にも注意を払う必要があり、この意味で「詳細出力」の利用が薦めら れる。 また、決定樹の選択については、現在も活発な議論がなされている。外れ値の検出方法と取扱い、デ ータの正規化を目的としたデータの変換方法の選択、多群比較前の等分散性検定の是非、パラメトリック とノンパラメトリック手法の検出力の比較、用量相関性の検定方法、多重性など多くの問題があり、すべて の疑問に答えるオールマイティな決定樹が確立されることは難しい。今後も様々な研究、議論が進む中で、 多くの決定樹を比較検討するためのツールとして [EXSAS]が利用されることを期待したい。 (参考文献) 山崎直樹、浜田知久馬、和田武夫(19 9 4 ):生物統計解析システム (BSAS) の構築、武田研究所報第 5 3 巻 、 7 2・8 1 山本典子、浜田知久馬 (199η:SAS上での統計解占斤アプリケーシヨンの開発 [EXSAS] の開発を例 27 ・2 36 にとって一第 16回日本 SASユーザー会総会および研究発表会論文集、 2 Menωn(1996):DIAT h i r dAnn u a lB i o s t a t i s t i c sM巴巴 t i n gi nTokyo o s h i n o、I.Abe、KMatsumoto、M.NomuraandI .Yoshimura (199η:A s t u d yo nt h e C.Hamada、K.Y c o n s i s t e n c yb e t w e e ns t a t i s t i c a le v a l u a t i o n and t o x i c o l o g i c a lj u d g m e n t . Drug I n f o r m a t i o n Joumal 、3 1 ‑ 2、4 1 3 ‑ 4 2 1 o s h i n o 、 I .Abe 、KMatsumoto 、M.NomuraandLYoshimura( 1 9 9 8 ) :D巴t e c t i o no fano u t l i e r C.Hamada、K.Y a l u a . t i o no fi t si r u 1uencei nc h r o n i ct o x i c i t ys t u d i e s 、DrugI n f o r m a t i o nJoumal 、3 2 ・1 and 巴v 榊秀之ら ( 2 0 0 0 ):ラット反復投与毒性試験における計量値データ解析法、 TheJoumalo fT o x i c o l o g i c a l 巴n c巴s . V o . I2 5 . N o . 2, A p p . 7 1・8 1 S c i 小林ら ( 2 0 0 0 ):げっ歯類を用いた毒性試験から得られる定量値に対する新決定樹による統計処理の提案、産 業衛生学雑誌 A斗 A ぺ n υ nd
日本 SASユーザー会 (SUG1‑0) ージョン 8 eによる非臨床統計解析システムの開発 SASノt 0佐 々 木 和 典 角 元 慶 二 小 原 直 樹 岡 美 保 大塚製薬株式会社 研究管理部研究管理室 Reviseda p p l i c a t i o nf o rs t a t i s t i c a la n a l y s i so fn o n ‑ c l i n i c a ls t u d i e su s i n gSASv e r s i o n8e l くa z u n o r iS a s a k i,I くe u iKakumoto,NaokiOhara,MihoOka e p t .o fResearchManagement ResearchManagementO f f i c e,D t d . OtsukaPharmaceuticalC o .,L 要旨 社内の非臨床試験を対象とした、 SAS/AFとE x c e lによる統計解析システムを紹介する。今回、 V8へ の移行に伴い ODS機能を利用すべく現行システムを改良した。 ODSは非常に便利な機能であるが、 アプリケーションに組み込むには考慮すべき点もいくつか有ることが判った。それら、開発時の考慮点 等についても報告する。 キーワード SAS/AF、ノフトウェア、 ODS機能、非臨床試験、バリデーション 1 . はじめに 弊社では、研究員自らが SAS を使って正しくデータ解析がで、きるとし、うことを目的に、長年非臨床 統計解析システムの開発に取り組んできており、この SASユーザー会で、も、過去 2度にわたりシステム 紹介を行っている ( S U G I ‑ J' 9 2,S U G I ‑ J' 9 7 )。前回紹介した SAS/AFソフトウェアの利用とデータ入 力時における E x c e lの使用およびその後の改良により、解析時の操作性は著しく向上し、解析システ ムとしてある程度の完成域には達したと思われる。 しかし、統計に精通していない研究員(エンド ユーザー)にとっては、検定ご、とにヘルプを作成してい るにもかかわらず、 SASオリジナルの出力は詳細で、あるため、その膨大な出力結果に戸惑うこともあっ た 。 そこで今回、 V8の新機能である OutputDeliverySystem(ODS)を最大曜に利用し、研究員の求 める情報だけを簡潔に出力するよう、改良を行った。 ‑325一
2 .システムの特徴 本題である ODS利用を含むV8への移行について述べる前に、システムの全体像について簡単に SAS/AF 図 1システム概念図 SAS内部フラウザ 2 . 1利用形態 最新のファイル (SASカタログ等)は社内 LANのファイルサーバーにて一元管理されており、システ ム起動時に自動配信されるようになっている。そのため、変更作業を実施した場合でも、全ての PCに おいて最新ノ〈ージョンが利用で、きるようになっている。 2 . 2 SASOLEオートメーションサーバーの利用 Windows版 6 . 1 1で開発した当初は、 DDEを用いて E x c e l上のデータから SASデータセットを作 . 1 2への移行時に OLEオ 成していたが、必ずしも使い易いとはいえなかったO そこで、 Windows版 6 ートメーションへの変更を考え、 SASOLEオートメーションサーバーを採用したの SASをオートメーショ ンサーバーとした理由には、 l ] ( 1 ) データ入力中の E x c e 1 1 f t から SASへのデータ転送アク、ンョンを起こす方が操作性に優れる ( 2 )E x c e lのオフージェク卜を駆使するためには E x c e lでマクロを記述するほうが生産性・保守面で有利 x c c l へのデータ入力に誤りがあった場合や、他のワークブックのデータに切り 等がある。その結果、 E nhu n ぺU nノu
替えたい場合など、 E x c e l上のボ、タンをクリックするだけで、何時でも SASデータセットの作成(更新) が可能となっている c 2 . 3 カバーしている統計手法 本システムがカバーしている統計解析手法を図 2(こ示す。試験例数設計から群分け.各種の検定. PK解析と非臨床試験全体をカバーしている。特に、研究員からの要望が多い群分け l一次元,二次 元)と分散分析後の各要因内での比較にも対応している。 2 .4 ヘルプ機能 E x c e lワークシートへのデータ入力フォーマットおよび解析結果の見方について解説した、 HTML 形式のへノレフ を搭載している。オンライン形式であるため、プログラムと閉じく変更部分は全ての PCで Q x c e lの雛型ワークシ 直ちに参照可能になっている。その他、データ入力の負担を軽減させるため、 E ートを対話形式で自動発生させる機能も搭載している。 ‑対応のないt 検定 トレット検定 .対応のある t 検定 ./, { 'Wilcoxonの順位和検定 . 1元配置ー Tukey,Dunnett ' 1元配置相乗効果 .2群聞の検定 ' 2元配置ー Tukey,Dunnett ・分散分析法 . 3元配置ー Tukev .カテゴリ力 jレ ・ 舌L 塊法一 Tukey,Dunnett ョ用量依存性 ・枝分かれ型 .回帰と相関 sANOVA . RepeatedMeasul'e Tukey,Dunnetl ‑クロスオパ ・生存時間解析 ‑検出力と例数設計 ‑回帰分析 .その他 ・相関係数 .ラテン方格法 .Steel‑Dwass検 定 ‑プロピ、ツト i 去 .~草分け(ー,二次元) .傾きの差の検定 ・要約統計量 ・平行線検定 ‑時点ごとの検定 ‑安定性試験解析 j 去 . S t e e l検定 . Kl'u s k a l ‑ W a l l i s検 定 ‑直線回帰分析 型検定 ・最大t ・箱ひげ図 .1・ Compal'tmentl l l o d e l ‑ i . v I ・対応のない t検定(両,片側川 ・ 2・ Co抑 制mentl l l o d e lーi . v I ・ 2群の出現率検定 │ ・ヨンキー検定 )' Tukey検定 ¥最大力イ二乗検定 ・ウィリアムズ検定(パラ,ノンパラ) . 占 B 引 io巴q ・ Dose‑pl 'o pol't i o n a l 均 . Dunnett検定(商号片側) 図 2統計解析手法一覧 n4U ηu ノ ヴ ー
3 .ODSの利用 ODSは S U G I ‑ J 2 0 0 0でも詳しく紹介された SASパージョン 8の目玉機能である。これまで、 2次利 用が困難で、あった S ASプロ、ン、ジャの高度な出力に関し、その制御を可能にするものである c 本稿のシステムは、従来の W i n d o w s版 6 . 1 2では PRINTTOプ口、ンジャによりテキストファイルに出 力させていた。今回、この ODSを利用することにし、次の開発方針に沿って作業を行ったc ( 1 ) 出力結果をコンパクトで、見やすく統一の取れたものにする ( 2 ) 全ての検定結果に P値を出力させる ( 3 ) 出力文字は英語表記とする ( 4 ) テンプレート(スタイル定義は除く)の編集は行わず DATAステップを用いる ( 5 ) 出力形式はヘルプと同形式である HTMLとし SAS内部ブラウザで表示させる 以下は、変更手順の概要である。 ①既存システム内にある一つ一つの検定について、解析結果の出力様式を設計したc ② ODS TRACEステートメントを使用して出力を行い、各プロシジャにおける標準テンプレート名に 関する情報を、ログウインドウを参照して調べた。 ③解析結果出力にそのまま使用できる標準テンプレートの洗い出しを行った。 ④ ODS EXCLUDEステートメントを使用することによって、直接出力には使用しない標準テンプレ ートを出力から除外した。これによって、出力結果をコンパク卜にすることができた。 ⑤ DATAステップ。により解析結果テープ /レを作成する場合、 ODSOUTPUTステートメントを使用し て標準テンプレートの出力を S ASデータセットに書き出し、必要なパラメータについて編集し、使 用した。 図 3に 、2 元配置モデルを用いたThk e y検定の結果を示す。この検定では、分散分析結果とともに、 e y検定で行い、それぞれの P値が要約統 要因ごと(例は、要因 Aを示す)に、各水準聞の比較をThk 計量とともに出力されるようになっている。 4 .開発に際しての考慮点および問題点 4 . 1汎用性およびメンテナンスへの考慮、 HTML形式への変更に際し、出力結果のイメージを統一し、また、改ベージを抑制するため、オリジ ナルのテンプレート(スタイル定義)を作成した。しかし、これは将来アッフ。デー卜される可能性が高いも のである。この点を考慮し、 ODSステートメントを記述した。具体的には、 ODSHTMLp a t h = & O d s P a t hbody=&HtmlBo d ys t y l e = & H t m l S t y l巴 のように、各ノ fラメータ指定にグ ローパルマクロ変数を用いた これら、オリジナルテンプレートファイル η およびグローバルマクロ変数定義プロク、、ラムは、ファイルサーバーで一元管理するようにしたけ ‑328‑
4 .2移行作業における問題点 ( 1 )S A S内部プ、ラウザへの表示について 通常、 PROCステップで、出力が行われた場合、アウトプットウインドウに表示されると同時にそのウイン ド、ウがアクティブ守になる。これは S CLから ODSを利用して HTML形式で出力し、 SAS内部ブラウザ ISTINGCLOSEステートメントにより LISTING出力を で表示した場合も変わらないつだが、 ODSL AS内部フすラウザがアクティブcにならずに、 FRAMEがアクティブ。になってしまi これは 止めた場合、 S S A Sテクニカルサポートの回答)であり、 NEXTコマンド、で、回避したn しかし、本稿のシステムで 仕様 ( AS内部フ、ラウザ以外の全てのウインドウを不可視にしているため、解析実 は 、 FRAMEエントリーと S 行後アクティブごなウインドウが存在しない場合も発生した(当然、出力結果は表示されている)。抜本的 な解決策を望みたい。 ( 2 ) ODSOUTPUTステートメントの利用について ODSの利用の項で記載したように、システム変更では、標準テンプレートからの出力を SASデータ セットに書き出し、それを編集して使用することが多い この場合に注意すべき点がある例えば、多元 n 配置分散分析を行ったとき、要因間あるいは水準聞の平均値の比較を多重比較検定で行うと、その要 因の数や水準の数によって、用いられる標準テンプレートも変わることである。例えば、枝分かれ分散 分析を用いて、ある要因の水準問の比較を恒lkey検定で、行ったとする。水準が 2つの場合には、テン プレート:s t a t . G L M . L S M e a n s の中で、最小二乗平均値と P値が出力される。しかし水準が 3以上 となると、テンプレート:s t a t . G L M . P d i f fが追加され、最小二乗平均値と P値が別々のテンプレートと なるのである。知ってしまうとなるほど、と思うが、プログラム開発段階において、さまざまなデータでテスト してこそ知ることができるとしづのは気になる部分である。他の統計フ。ロシジャについても、データの形 式により、テンプレートが変わることはないのだろうか? (3) REGプロシジャについて ODS対応作業前に、既存フ。ロク守ラムについて V8環境下での動作確認を行ったが、 REGプロシジ ャ使用の一部業務についてはフ。ロク守ラムが正しく動作しなかった。 REGプ口、ンジャでーは、回帰分析の UTTESTオフ ションによってデータセットに落とすことが可能であるが、 SAS/STATソフ 解析結果を O Q トウェアのバージョンアップ。により、切片の変数名が I NTERCEPから INTERCEPTに変わっていた のが原因で、あった O ( 4 ) TABULATEプロシジャについて 以下に示したプログラムは、クロスオーバー法を行う場合の要約統計量を出力させる部分である。シ ステム変更前では、表 l に示したように、アウトプットウインド、ウを使って出力していた。ところが、 ODS を 形式で出力したところ、表 2 1こ示したように、余分な縦罫線が i dの横にヲ l かれるように 使用して HTML ‑ 3 2 9
なった。 S
AS
テクニカルサポートに問い合わせところ、スペックで、あるとの説明で、あり、現在のところ、罫
線が多い状態で使用している。
PROC TABULATE DATA=EXユ FORMAT=5.1 FORMCHAR='!ー
÷
ー +1+1+‑+';
CLASS group id JIKI YAKUZAI
VAR data ;
TABLE group * id 女 data ='
* F=3.
data す N
data す MEAN
安
F=6.2
data す STD
す
F=6.2
data
安
STDERR * F=6.2
, jiki yakuzai / RTS 19 ROW=FLOAT BOX= PAGE condense;
二
KEYLABEL sum='
std='S.D.' stderr='S.E.'
;
RUN;
く
<<Cr(}ss‑Overm
:sI!Jn))
>
>
Cross‑Over d
e
s
i
g
n
+
ー
ー
ー
ー
ー
ー
ー
ー
ー
一
一
一
一
一
ー
ー
ー
ー
ー
ー
ーーーーーーー+
1 J1
K1
[YAKUZA1 [
一一一一一一+
ー ‑
‑
[
[
[1 [2 [ 1 1 2 [
│一一一一一一
+一一一+一一一+一一一+ーー‑‑[
1
[
g
r
o
u
p
[
i
d
[
[ [
[
[
4
語
輔
[
3
[4
5
9
.0[5
8
0
.0[4
5
9
.0[5
8
0
.0[
[ 一一 t‑‑‑‑‑‑t一一一+一一一+一一ー l
[
4
13
9
9
.0[3
4
7
.0[3
9
9
.0[3
4
7
.0[
[ 一一ー←
+ ーー+一一一+一一 │
[
5
[4
0
0
.
0
[3
0
3
.
0
[4
0
0
.
0
[3
03
.0
[
3
1
8
.
0 3
1
8
.
0 3
1
9
.
0 3
1
9
.
0
3
4
5
9
.
0 5
8
0
.
0 459.
0 580.
0
[
[
[
‑
‑
‑
‑
‑
‑
‑
‑
←
ー
+ 一一+一一一+一一
1
[
[ 一一ー+ー
+ 一一+一一一+一一
1
[
[‑一一一一+一一一+一一→
[
[
3
[
"
2
[3
7
0
.
0
[3
2
5
.
0
[3
2
5
.
0
[3
7
0
.
0
[
t
‑
‑
‑
‑
‑
‑
[
[
5
[3
1
7
.
0
[3
0
2
.
0
[3
0
2
.
0
[3
1
7
.
0
[
[
N
1
0
[
1
0
[
1
0
[
1
0
1
t‑‑‑‑‑‑t一一一+一一 │
1
3
7
9
.
4
0
1
37
7
.2
0[
3
5
9
.
2
0[
3
9
7
.
4
0
1
│ー一一ー+ 一一ー+ーーー t
‑
‑
‑
‑
‑
‑
t一一ー+一一一 i
[
d
a
t
a
│一一ー
+ 一一ー+ーー
1
d
at
a
[
M
e
a
n
│一一一一+一一一一一+一一一+一一一 t
‑
‑
‑
‑
‑
‑
t ー│
[
d
a
t
a
[
S
.D
.
[
1
0
2
.
6
4
[8
9
.
9
5
[7
8
.
7
4
[
1
0
7
.7
9
[
I
‑
‑
‑
‑
‑
‑
‑
‑
tー
ー
ー
ー t‑‑‑‑‑‑tーー一一+一一一+一一 │
[
d
a
t
a
+
ー
ー
ー
ー ー
[
S
.
E
.
[32.46[ 2
8
.
4
5
[2
4
.
9
0
[3
4
.
0
9
[
一
一
ー
ー
ー
ー
ー
ー
ー
ー
ー
ー
ー
ー
ー
ー
一
一
一
一
も
ヲ
4
0
0
.
0 303.
0 400.0 303O
f
3
0
4
.
0 4
6
5
.
0 4
6
5
.
0 3
0
4
.
0
守
必句野
[5
8
8
.
0
[3
1
6
.
0
[3
1
6
.
0
[5
8
8
.
0
1
[
4
3
9
9
.
0 3
9
9
.
0 3
4
7
.
0
4
7
.
0 3
ぷ
1
1
[
2
Zをも
4
+一一ー+一一一+一一一+一一一│
1304.01465.O
[4
6
5
.
0
[3
0
4
.
0
1
一一ー+ー
+一一ー+一一一+一一 │
1
2
[428.01397.0[397.0[428.01
1
2
1
1
.
0 4
1
8
.
0 2
11
.
0 4
1
8
.
0
穆
[31
8
.0[3
19
.0[3
18
.0[3
19
.0[
一一+一一
2
百
1 ~ち 1
1
‑ 一一一+一一一 t
‑
‑
‑
‑
‑
‑
t一一ー+一一一 l
[
│
1
2
f
cr up id
│ ーt
‑
‑
‑
‑
‑
‑
‑
‑[ [
[
[
1
1
1
[2
11
.0[4
1
8
.0[21
1
.0[4
1
8
.0[
1
1
‑
‑
一一一+一一一+ーーー t‑‑‑‑‑‑t一一ー│
[
2
YAKU
ZA1
J
磁'
1
K
1
M
+
z
4
2
8
.
0 3
2
8
.
0
9
7
.
0 3
9
7
.
0 4
3•
588
.0 316.0 316.0 538.0
4
3
7
0
.
0 325
.
0 325.0 370.0
5
3
1
7
.
0 302.
0 302.0 317.0
10
10
10
daG
N
daG
Mearr 3
7
9
.
4
0:
3i
7
.20 359.20 397‑
40
daG
S
.D.
1
0
2
.
6
4 8
9
.
9
5 78.
74 107
.
79
daG
S.
E
.
32.
46 28
.
45 2
4
.
9
0 34.
09
10
表 20DSによる HTML形式
表 1テキスト形式
5
.システムのバリデーション
システムバリデーションの基本的な目的は、システムが目的どおり確実に機能しており、過去におい
てもそうであり、さらに、将来もそれを継続するであろうとしづ十分な証拠を示すことである。その目的を
達成する為には、開発時のバリデーションだけでは十分で、なく、システム運用時においてもパリデーシ
nU
nペU
n
u
ペ
ョン作業を実施してして必要があるの実際、医薬品機構の GLP適合調査におけるコンピュータ、ンステ ムの調査では、査察官より開発及び運用時のパリデーションについての説明及び文書の提出を求めら れることがある。当社では、 GLPのコンピュータ査察チェックリストを参考に、開発要員の規範となるシ ステム運用時における標準操作手順書 ( SOP)を定めた。具体的には、以下の項目についての手順を 定め、開発時にパリデー卜されたシステムを継続的に評価してして。 ( 1 )システム仕様変更(研究員からの依頼含む)、 SASパージ、ヨンアッフ。時等の、ンステム変更管理手 1[1買 ( 2 )障害発生時(プロク守ラムミス等含む)の対応手順 ( 3 )、ンステムの定期的バリデーションにより、ンステムの再評価 ( 3 )については、実験に使用する機器について定期点検を行うのと同様、システムが正しく動作してい ることを定期的(年 1回)にレビューする r 6 . おわりに 今回の改良により、 iODS を利川して出力を簡潔にする」という当初の l三1(jf~ は達成されたよ うに思う。開発にあたっては、株式会社 SASイ ン ス テ ィ チ ュ ー ト ジ ャ パ ン テ ク ニ カ ル サ ポ ー トの皆岐に大変お世話になった。この場を借りてお礼申し上げたい。 このシステムの本格的な運用はこれから開始されるので、研究員の意見を p I 日広く求め、研究 開発のスピードアップの一端を担うべく、さらなる改良に努めていきたい。 参考文献 1 ) 佐 々 木 和 典 他( 1 9 9 2 ) 1研究所データ解析における SASシステム活用手伊I J SUGI-'92 論文集 p155~ 1 G O 2 )} [ I [ 崎 美 保 他( 1 9 9 7 ) I S A S / A Fソフトウェアを用いた前臨床解析システムの紹介 J S U G I ‑ ' 9 7論文集 p 1 9 7 ~199 3 ) 木下貴文 ( 2 0 0 0 ) I S A SV8e による ODS の機能紹介、及びに便利な使い方 JSUGhJ2000 論文集 p351~ 3 5 8 2 0 0 0 ) 4 ) 株式会社 SASインスティチュートジャバンソリューション本部ソリューションサーヒ、ス部 ( I T h巴 ODSS o l u t i o nハンズ、オン・ワークショップJSUGI-J2000 ハンズオンセミナーテキスト p10~32 内︿U 内︿U 1i
園 田 由 回 閣 一 一 一 一 一 一 一 叫 判 明 開 酬 」
ゑ後忌i 戸:乙:.iヰi一一一一一一一一--~型~
!
m
l.9!ItI;Ao.
総溢叫
務 務
TheGLMP同
ed<Jr
e
1 e
Dep
回 J
entV.置i3lbl~.:.Nr w:町一r~ist." c: ø
w
『二二一一一日み-----ニニーー』中ー一一一一一一一一一一一一一戸日一一一一一一吉辰吉署長宅蚕議議語語通さ奇話<}.~i}i主主E
I
l
i
i
日
野ult:
sV
i
e", e
r‑
了、
・
〆
喝
i高
I
S.人関刺繍・鞠
i 翁正明日本
ヨビニフ民託子説℃五一一一一…‑
J‑E
耕輔場内山恥ムよ訓
‑3
主義静郷町議磯
柏町議
図 3解析結果出力例
‑332‑
.,コi
i
5
.
y
.
j
.
.
.
.
i
斗豆i
三j
廼冒頭覆怒叡窓殺l~:;釈
~目.ユむほ叩ー -τ市主E
融
一
日本 SASユーザー会 (SUG1‑0) 患者の満足度調査一入院期間の影響について‑ 田久浩志 中部学院大学人間福祉学部健康福祉学科 E f f e c to fl e n g t ho fs t a yt op a t i e n ts a t i s f a c t i o nr a t i n g TakyuH i r o s h i ChubuGakuinUniversity Takyu@chubu‑g.acjp 要 旨 入院患者の満足度を看護婦の対人患者サービと院内環境に限定して調査した c 入院後、 3 週間目に満足度が低下する現象がみられたが、入院期間による男女の満足度の差によることを指摘し た。今後、性別による最適な入院期間を検討する可能性まで言及した。 キーワード:患者満足度、性年代、入院期間、 JMPソフトウエア は じ め に 前 回 の SUGI‑2000 において、対人患者サービスと院内環境に関する患者満足度に影響 を与える要因を解析し、性年代が種々の満足度に影響を与えることを指摘した。今回、入院期間と入院 患者の満足度について解析を行い、対人患者サービスと院内環境に関する満足度の評価を試みたc 対 象 と 方 法 制 口 ! の 調 査 内 容 は SUGI‑2000 で取り上げたものの中で、入院患者に関するものであ る。質問は看護婦に関する質問!と院内環境に関する質問に限定し、医師や疾病に対する質問は扱わ なヵ、った。 調査は患者に対する調査票を作成して行った フェース項目として性別、年令、入院経験、入院目 的(内科的治療、外科的治療など)を、満足度の項目として看護婦の身なり・礼儀・態度、入院中の生 6項目を測定した c 活、症状・検査・治療・処置、など 3 アンケー卜調査の結果、入院患者 4 4 0名の調査票を回収した。フェース項目の欠如、誤記入等を除 外すると共に、当該病院の患者年齢層を考慮して、 20歳代から 70歳代までで本人回答のみの質問票 3 4枚となったC 解析は、 JMP V e r 4 .を用いた。 を解析対象とした。その結果、解析対象は入院 3 O 結 果 解 答 者 が 290 人以上で、かっ質問してし、る概念が異なる 7項目(礼儀正しさ、トイレ整頓、話し 声靴音、検査治療の説明、看護婦と気兼ねなく話せる、看護婦問の連絡、看護婦による不安感の理 解)を重点的に解析した 7種類の質問中、話し声靴音は常に満足度が低かった その他の 6種すべてにおいて、入院直後の 満足度に比較して、入院後 3週間に一度満足度が低下する現象が見られたc 入院後 3週間目は、当該 病院での平均的な在院日数にあたるため、退院時の満足度低下は問題である c そこでその原因を検 討 Lt こC 入院後 4週間までの性別、年代、入院経験のイ干無、入院目的には特に偏りは見られなかったc 昨年 度、性年代により満足度の分布に差が見られたことを参考にして、男女別で入院期間による満足度の 変化を調べた c その結果、[き1 1,2 1こ示すように男女別での入院期間による満足度の分布は極端に異 なっていた。男性は入院後 2週固までは満足度が上昇する傾向がみられるが、女性では入院直後から、 C ペU n qべU ηべU
変化がないか低下する傾向がみられた。 1 .0 。 .8 " a 劉 」 ' " 0.5 ‑ ' ‑ ヲ 。 何 0.3 0.0 4 5 4 入院回数 図 1 「トイレの整頓」と男女差 5 入院日数 右:男性 左女性 1 .0 1 .0 S T 0.8 T 0.8 、担 、祖 I ! ll l IUD 、/ Iv 話 l 認 容 0 .5 4,模 l 匝 平 手 0 .5 縦 l 属 。 o e 、 αD れJ J o 0.3 o 0.3 0.0 0.0 4 4 入院回数 6 入院回数 図 2 「入院気兼ねなく話す」と男女差 左:女性右:男性 これらの傾向の原因は、男性女性の性格に起因するか否かは定かでないが、病棟での看護業務に 重要な示唆を与えるものである。患者さんがより満足した状態で退院して頂くには、性別に最適な入院 期間を検討する必要もあると言えよう。 まとめ今回の解析により、外来患者での満足度解析と同様に、満足度の入院期間別の変化に性差 が存在することが明らかとなった。現場での現実的な満足度解析の桁導を行う場合、統計解析結果の 表示を行うだ、けで、は現場スタッフの理解をえることが難しいーしかし、 川 P のように探素的にデータを解 析でき、かっグラフ化が容易なツールを用いれば、効果的な満足度改善の活動が可能になったο 今回の結果を元に、性差を考慮して的確な看護サービスを提供できれば、患者の苦情を少なくでき、 その結果、当該施設に継続して受診する患者が増加してひいては病院経営に貢献できると考える c ハペ U ηべU Aq
日本 SASユーザー会 (SUG1‑0) 東北地方の農村の 1 0年にわたる健康調査より見た生活習慣病の r i s kf a c t o r 豊島裕子事松尾一可*ホ懸俊彦$清水英佑$ *東京慈恵会医科大学環境保健医学講座 **東京慈恵会医科大学医学部医学科 4年 R i s kf a c t o ro fthel i f e ‑ s t y l er e l a t e dd i s e a s e,l e dfromh e a t t hi n v e s t i g a t i o no ffarmeri nTheTohoku d i s t r i c tf o r10y e a r s . H i r o k oToshima* I k k aMatsuo** T o s h i h i k oAgata* HidesukeToshima* *Departmento fP u b l i cH e a l t handE n v i r o n m e n t a lM e d i c i n e,J i k e iU n i v e r s i t ySchoolo fMedicine i k e iU n i v e r s i t ySchoolo fMedicine **Thet h i r dgradeo fM e d i c a lcourse,J 要旨 東北地方の農村住人 4, 212人の 12年間の健康診断結果を重回帰分析した。高コレステロール血症 は 、 5年後から 10年後に収縮期高血圧症に、拡張期高血圧は 5年に収縮期高血圧となる事が疑わ れた。 キーワード: 生活習慣病、危険因子、重回帰分析、 REGプロシジャ 1 .はじめに 特定地域住民を対象とした健康調査は、久山町研究をはじめ、数多く試みられており、生活習慣病 の原因究明、地域における疾患傾向の研究等に役立てられている。今回、自然環境が寒冷で、、市街 地から比較的離れた山村である、福島県相馬郡飯館村において、 12 年間にわたり、継続的な健康調 査を行ったので、その結果に若干の考察を加え報告する。 2 .対象・方法 2 . 1 対象 福島県相馬郡飯館村在住で、 1988年より 1999年の 12年間に地域健康診断を受診した 4, 212人(男性 1, 912人、女性 2, 300人)を対象とした。 戸 hu ぺu n ぺU n
2 . 2 方法 健康診断項目の中から、 BMI 指数、収縮期血圧、拡張期血圧、総コレステロール、 HDL コレステロール、中性 脂肪, GPT、γ‑GTP、尿酸、空腹時血糖を選び、それぞれの検査結果について、経時的に比較検討し た 。 2 . 3 統計学的分析 SAS/STAT ソフトウェアを用い、重回帰分析は、 REGフ。ロシシ eャを用いて行った。 3 .結果 3 . 1 基本統計 3 . 1 . 1 年齢 1 9 8 3 . 1 . 2 健 康 診 断 受 診 者 数 8年、調査開始時の対象者の年齢構成を、表 1 1こ示す c 30代と 50代をピ ークとする、 2峰性の構成で、 40代の健康診断受診者が少なかった。 3 . 1 . 2 健康診断受診者数 1988年から 1999年の、各年の健康診断受診者数と、その年の健康診断受診者の平均年齢を表 2に 示す。受診者数は、調査開始の 1988年と翌 1989年は、 1 , 700人台で、あったが、 3年 自 の 1990年には 2, 000人台となり、 1996年まで、問機な状態で、あった c 1997年以降、受診者数は、急激に減少し、 1999年 にはし 400人台になっている。 0 . 7歳で、あったのが、 1999年には、 5 9 . 1歳と 1 2年 間 で 8. 4 健康診断受診者の平均年齢は、 1988年 に 5 歳上昇している。 3 . 1 . 3 健康診断受診回数 4, 212人の健康診断受診者それぞれの、 1988年から 1999年の聞の受診回数を表 3に示す。 1 2年間、 l 度も休まず受診したの者は 208人 。 9回以上の受診者は約 1, 000人で、 6回以上受診した者は約 1, 900 人であった。逆に、受診回数が3回以下の者も、約 2, 000人いた。 表 3 健康診断受診回数 回数 nぺ υ p o nぺ υ
表 2 健診受診時の年齢 1 9 8 8 1989 1990 1 9 9 1 1992 1993 1994 1995 1996 1997 1998 1999 年度(年) 22 24 2 9 1 5 1 6 最年少者(歳) 1 5 1 5 1 6 1 5 1 6 1 8 1 3 85 93 92 88 │最年長者(歳) 87 89 90 9 1 90 91 95 84 3 . 1 5 3 . 3 5 3 . 9 5 8 . 6 5 9 . 1 5 9 . 1 平均年齢(歳) 5 0 . 7 51 . 1 51 . 1 51 .5 5 2 . 0 5 2 . 8 5 2 . 6 1 2 . 2 .6 1 4 . 5 1 4 . 5 1 4 . 8 1 3 . 1 1 標準偏差 1 3 . 1 1 3 . 6 1 4 . 1 11 4 1 4. 4 1 3. .427 037 1, 610 1, 507 1 .7 27 2 . 0 5 8 2, 046 2, 057 2, 057 2 . 0 5 0 2, 受診人数(人) 1 . 7 4 2 1 . 1 6 9 2 ω ω J 可 表4 1 2年間の検査結果の推移 γ‑GTP 尿 酸 コレステロール 中性脂肪 GOT 空腹時血糖 収縮期血圧 拡張期血圧 総コレステロール HDL GPT 年 度 BMI 1 1 4 : : ! : : 9 52 8 . 8 : : ! : :1 2 . 3 1 7 . 9 : : ! : :1 0 . 9 4: : ! : : 3 . 1 1 3 1 : : ! : :20 7 7士 1 2 1 9 8士 62 1988 23. 1 1 7 : : ! : : 1 1 52 6 . 3 : : ! : :1 3 . 6 1 9 . 3 : : ! : :1 2 . 2 7 6 : : ! : : 9 1 9 6 : : ! : : 3 6 1989 23. 4: : ! : : 3 . 1 1 3 0 : : ! : : 1 9 5 . 5 : : ! : :11 .2 1 9 . 3 : : ! : :1 3 . 3 1 7. 4: : ! : : 2 6 . 3 9 2 . 8 : : ! : :1 3 . 9 5 7 . 9 : : ! : : 1 4 . 7 109士 76 2 3 . 3士 3 . 1 1 2 7 : : ! : : 1 9 7 7士 1 1 1 9 1 : : ! : :35 1990 2 9 . 2 : : ! : :1 3 . 2 1 95. 4 士1 5. 4 5 2 : : ! : :1 3 . 3 1 1 1 : : ! : : 8 32 5 . 2士 1 0 . 6 1 9 . 1 : : ! : : 2 8 . 8 3 . 2 : : ! : :3 . 1 1 2 8 : : ! : :1 9 7 6 : : ! : :1 1 190士 35 1 9 9 12 1 0 : : ! : : 8 2 2 8 . 1士 7. 4 2 4 . 1 : : ! : :11 .5 3 3 . 2士 3 3 . 9 96. 4 : : ! : :1 9 . 1 1 2 8 : : ! : :1 8 7 7 : : ! : :9 1 9 3 : : ! : : 3 3 56士 1 2 . 7 1 1992 2 3 . 6 : : ! : :3 . 6 0 7 : : ! : : 8 7 2 7 . 2 : : ! : :1 7 . 72 4 . 5士 1 7 . 53 4 . 1士 5 3 . 3 9 8 : : ! : : 1 7 . 2 7 7 : : ! : :1 1 1 9 2 : : ! : : 3 6 5 4 . 5士 1 4 . 6 1 1993 2 3 . 6 : : ! : : 3 . 2 127士 20 9 5 . 5 : : ! : :1 6 . 7 6 . 5 : : ! : :1 3 . 5 2 4 . 3士 1 9 31 . 1: : ! : : 4 5 . 9 1 8 9 : : ! : :3 5 5 2 . 1士 1 3 . 6 110士86 2 1994 23. 4 士3 . 2 1 2 8士 1 9 7 5 : : ! : :1 1 1 4 : : ! : :89 2 5 . 3 : : ! : :11 .4 2 4 . 3士 1 7 . 1 3 6 . 3 : : ! : : 5 8 . 34 . 9士1.4 9 6 . 9 : : ! : : 1 8 7 6 : : ! : :1 1 1 9 6 : : ! : : 3 6 5 4 . 6士 1 4 . 6 1 1995 2 3 . 8士 3 . 2 1 2 8 : : ! : :1 9 5 . 5 : : ! : :1 7 . 22 3 . 0士 1 6 . 7 3 3 : : ! : :6 6 . 64 . 9 : : ! : :1 .4 9 7 . 8 : : ! : : 1 7 . 9 3 . 5 : : ! : :3 . 2 7 6 : : ! : :1 2 192士 35 54士 1 4 . 6 1 1O : : ! : :94 2 1996 2 1 2 8 : : ! : :1 9 . 9 : : ! : :1 .4 9 8 . 9 : : ! : :21 .2 6 . 6士 11 .9 2 3 . 3 : : ! : :1 4 . 93 0 . 8 : : ! : :3 6 . 84 1 2 9 : : ! : : 1 8 7 8 : : ! : :1 1 195士 35 5 9 . 6 : : ! : :1 5 . 1 1 0 6 : : ! : : 8 1 2 1997 2 3 . 8 : : ! : :3 . 3 0 . 5 : : ! : :3 7. 44 4 士2 0 . 2 6 . 6士 1 0 . 82 3 . 0 : : ! : :1 4 . 23 . 9 : : ! : :1 .4 98. 4 . 0 : : ! : : 3. 4 1 3 0 : : ! : : 1 7 78士 1 0 196士 35 5 6 . 3 : : ! : :1 4 . 3 1 l0 : : ! : : 8 52 1998 2 . 8 : : ! : :1 .4 1 0 1 : : ! : : 2 4 5 8 . 1 : : ! : : 1 4 . 91 5 . 6 : : ! : :1 2 . 72 2 . 3 : : ! : :1 3 . 8 33. 4 : : ! : :9 4 . 34 3 . 8 : : ! : : 3 . 3 1 2 9 : : ! : : 1 8 79士 1 0 1 9 8 : : ! : :34 1 0 : : ! : :1 0 92 1999 2 表5 s t e p w i z e法で求めた、当ては :りの良い 重回帰式 説明変数と偏回帰係数とその p 1 1 直 目的変数(カッコ内重回帰式の p 1 i 直 0 . 2 9 0 31995BMI 0.2838 1991BMI 0 . 6 6 5 1 1993BMI 0 . 3 6 4 91997BMI 1999BMI ( p = O . O O O1 ) ( p = O . O o 01 ) ( p = 0 . 0 0 0 1 ) ( p = 0 . 0 0 0 1 ) ( p = 0 . 0 0 0 1 ) 9 9 1総コレステロール 0 . 2 4 1 81990拡張期血圧 0.2295 1 0 . 2 4 7 81995拡張期血圧 1999収縮期血圧 0. 43 031993収縮期血圧 ( p = 0 . 0 0 0 1 ) ( p = 0 . 0 0 0 1 ) ( p = 0 . 0 0 0 1 ) ( p = O . O O O1 ) ( p = 0 . 0 0 0 1 ) 9 9 1中性脂肪 0 . 2 8 41993収縮期血圧 0 . 2 1 5 51 1999拡張期血圧 0 . 2 9 1 51995コレステロール ( p = 0 . 0 0 0 1 ) ( p = 0 . 0 0 0 1 ) ( p = 0 . 0 0 0 1 ) ( p = O . O O O1 ) 0.27831993中性脂肪 0.27831 9 9 1中性脂肪 1999総コレステロール 0 . 3 9 1 2 1995中性脂肪 0 . 3 0 3 61997総コレステロール ( p = 0 . 0 0 0 1 ) ( p = 0 . 0 0 0 1 ) ( p = 0 . 0 0 0 1 ) ( p = O . O O O1 ) ( pニ0 . 0 0 01 ) 0.2468 1990γ‑GTP 0 . 2 4 81991γ‑GTP 0 . 3 2 9 7 1993中性脂肪 0 . 3 3 3 31995γ‑GTP 1999中性脂肪 ( p = 0 . 0 0 0 1 ) ( p = O . O O O1 ) ( pニ0 . 0 0 0 1 ) ( p = O . O O O1 ) ( p = O . O O Ol ) 0.27051991γ‑GTP 0.31681997γ‑GTP 1999γ‑GTP 0 . 5 3 41995血 糖 0. 48141993γ‑GTP ( pニ0 . 0 0 0 1 ) ( p = O . O O O1 ) ( p = 0 . 0 0 0 1 ) ( p = 0 . 0 0 0 1 ) ( p = 0 . 0 0 0 1 ) 0.23151990血 糖 0 . 2 7 0 71995血 糖 0 . 2 7 0 7 1996血 糖 0 . 5 9 8 1993血 糖 1999血 糖 ( p = 0 . 0 0 0 1 ) ( p = 0 . 0 0 0 1 ) ( p = 0 . 0 0 0 1 ) ( p = O . O O O1 ) ( p = O . O O O1 )
3 . 2 検査結果の 1 2年間の推移 GPT, γ‑GTP,空腹時血糖の緩やかな上昇と拡張期血圧のわずかな上昇を認めたが、いずれも、統 計学的有意差は認、めなかった(表 4 )。 3 . 3 過去の検査結果と、現在の検査結果の関係 9 9 0年から 1 9 9 9年の 1 0年間休まず継続的に健康診断を受診した334人に関し、 1 9 9 9年現 対象者中、 1 9 9 9年の検査 在の健康診断結果が、過去のどのような検査値と深い関係があるかを知ることを目的に、 1 t e p w i z e法で、重回帰分析を行った。 結果を、目的変数、過去 9年間の全ての検査値を説明変数として、 s 有意な重回帰式を、表 5に示す。 3 . 3 . 1B MI 1 9 9 9年の BMlは 1 9 9 3年 、 1 9 9 5年 、 1 9 9 7年の BMIと有意な相関を認めた。 3 . 3 . 2 収縮期血圧 1 9 9 9年の収縮期血圧は、 1 9 9 3年の収縮期血圧、 1 9 9 0年 、 1 9 9 5年の拡張期血圧、 1 9 9 1年の総コレステロ ールと有意な相関を有した。 3 . 3 . 3 拡張期血圧 1 9 9 9年の拡張期血圧は、 1 9 9 5年の総コレステロール値、 1 9 9 1年の中性脂肪と有意な相関を認めた。 3 . 3.4中性脂肪 1 9 9 9年の中性脂肪は、 1 9 9 0年 、 1 9 9 1年 、 1 9 9 5年の γ‑GTPと有意な相聞を示した。 3 . 3 . 5 y‑GTP 1 9 9 9年の γ‑GTPは 1 9 9 1年 、 1 9 9 3年 、 1 9 9 7年の γ‑GTPと有意な相関を示した。 3 . 3 . 6 空腹時血糖 1 9 9 9年の空腹時血糖は、 1 9 9 0年 、 1 9 9 3年 、 1 9 9 5年 、 1 9 9 6年、の血糖と有意な相聞を示した。 4 . 考察 飯館村は、人口約 7, 200人(男性 3, 603人、女性 3, 609人)、全戸数 1 , 783戸、うちし 1 5 9戸が農家 , 1 5 9戸中 1 , 0 9 3戸 ( 9 4 . 3 % )が兼業農家の、兼業農業地域である。主要作物は葉タハ で、さらに、農家 1 nxu n4u n4U
コ、トマトシ eユース用トマトと言った商品作物で、また県内有数の肉牛牧音業地域でもある。 自然環境は、生活基盤を標高 220~660m に持つ山村で、年間平均気温 10.3 度、夏は涼しく、冬季 0 には最低気温 2 1Cにもなる寒冷地域である。 4 . 1 基本統計 40代の健康診断受診者が少なく、受診者の年齢分布が2峰性を呈しているのは、 94.3%とし、う高い兼 業率のため、 40代人口の多くは、職域で健康診断を受けているものと考える(表 1 )c 平成 1 1年現在、人口の自然動態は、死亡数80で自然増加率 2 . 9、社会動態は、転入 1 5 1に対し転出 233で、社会増加率一 1l .4%である。このため、人口の構成人員は流動して入るが、 1 2年間で平均年齢 8.4歳の高齢化が認められた(表 2 )。 4 . 2 検査結果の 1 2年間の推移 GPT、γ‑GTP、空腹時血糖、拡張期血圧の測定値は、 1988年あるいは 1990年の測定値に比して、 1999年の測定値が増加している傾向を認めたが、その聞の 1 2年間に増減を認め、 1 2年間の有意な 傾向を捉えることは出来なかった。 4 . 3 過去の検査結果と、現在の検査結果の関係 4 . 3 . 1 8MI 現在の BMIを回帰する有意な説明変数は全て過去の BMIであり、現在の BMIのみから将来の BMlを推定す る事が可能と考えられた。従って、将来における肥満の予防は、現在の肥満の解消と現時点における肥満予 防が最も有効であると考えられる。 4 . 3 . 2 収縮期血圧 現在の収縮期血圧は、 5年以上以前の拡張期血圧、 8年前の総コレステロールと有意な相関を示した事よ り、現在の拡張期血圧より、 5年後の収縮期血圧の推定が可能と考えられた。また、現在の総コレステロー/レ 値から、 8年後の収縮期血圧を推定可能と考えた c 従って、現時点での拡張期血圧と総コレステロール値のコントロールが、来るべき収縮期高血圧の予防に有 用と考えられた。 4 . 3 . 3 拡張期血圧 現在の拡張期血圧は、 5年前の総コレステロール値、 8年前の中性脂肪と有意な相聞を示した事より、現在 の総コレステロール値、中性脂肪値より、将来の拡張期血圧の予測が可能と考えられた。従って、脂質代謝 改善が、拡張期血圧の正常化、つまり動脈硬化進展予防に有効と考えられた。 nud ηペυ η叫υ
4 . 3.4中性脂肪 値と中性脂肪値と有意な相関を示したことより、現在 現在の中性脂肪値は、 5年以上以前の γ‑GTP の γ‑GTP 値より、 5 年以上先の中性脂肪値が推測可能と考えられた。 γ‑GTP値は、過量な飲酒量を反映する検査であり、将来の高脂血症の予防には、現時点からの節 酒が重要と考えられた。 3 . 3 . 5 r‑GTP 現在の γ‑GTPは過去 8年間の γGTP 値のみと有意な相関を示した事より、将来の γ‑GTP 値は、過 去の γ‑GTP 値のみから推定されるものと考えられた。従って、過量の飲酒に伴う γGTPの上昇を、将 来において抑制できるのは、現時点からの節酒のみであると考えられた。 3 . 3 . 6 空腹時血糟 現在の空腫時血糖は、過去 10 年間の空腹時血糖値のみと有意な相聞を示したので、現在の空腹時 血糖から将来の空腹時血糖を推測する事が可能であると考えられた。耐糖能異常の早期発見は、経 時的な血糖検査が最も有効と考えられた。 4 . 結語 4 . 1 高齢人口比率の増加が、健康診断受診者の平均年齢の上昇からも、伺われた。 4 . 2 将来の肥満予防のためには、今すぐ体重減少・現状維持を心がける事が必要と考えられる。 4 . 3 総コレステロール・中性脂肪のコントロールが、将来の高血圧症予防に最も有効と考えられた。従って、心血 管疾患・脳血管障害等、動脈硬化性疾患の予防のためには、健常人に対する高脂血症予防の保 健指導を行うことも必要と考えられた。 4 .4過量の飲酒は、将来高脂血症を来たす可能性が示唆された。また、今後飲酒による健康障害を回 避したいと考えるのであれば、即、節酒に踏み切る事が重要と考えられた。 円 U A 川T n4U
ポスターセッション システム
日本 S A Sユーザー会 (SUG I-~) S A Sシステムと連携した V B A利用によるレポーティング事例 株式会社シビル システムデザイン 二宮 ?~j 高 Examp!eso fhowworkw i t hVBAi sui :e d r e p o r t i n gs y s . t em H J t I Uu ﹄ ηo り ハU mn ゆ f I UH N L月 ‑ z n i ν 0 は 山 m yy V 町S ハU 要旨 本稿では MVS土のサーバーに蓄積されたデータを定期的に SASで集計し、何られた結果を E x c e ! VBAを用いて定型篠式で作成する事例を紹介します。作成できる帳;?:は同一ページに捜数テーブル、 複数グラフを任意に組み合わせることが可能です。 具体には、クライアントから SASを起動し、サーバーのデータを品 I U U、集計、 J J I l工を指不、結果 を Down L oadする。クライアントでさらに条件判定を行い、着色、制掛け、フォント、サイズ等 の表示様式を指定したデータを P UT文で CSV形式で作成する。何られたデータを入力とし Exce! I Q ; 引t 綴の設定、変更は E x e e !で作成した帳;官僚式、 f J i l J 御データ VBAで帳票を作成する。その際、中I を参照し行います。そのため、 CSV形式のデータを用意すれば帳禁設計、稼動確認は E x c e I単独で 実施可能です。さらに、作成した帳票は任意の BOOK , S h e e t に保存でき、帳票管理も E x c e I で行えます。 1 . l i e n t/S e r v ( ' 、 Exeぃ1 VB八 、 CSV形式、定型様式 キーワード:C 、S A S I 灯 、 S A S / C O N N E C T はじめに P Uから、単一あるいは複 企業内データ管理におけるコンビュータ利用は多様化し、複数の C 数ディスクまたはインターネッ卜を含むネットワーク内のファイルシステムにアクセスする利 用方法は一般的になっています。こうした汗民のもと、利用されるデータの種類は大泣、多種 に渡り、さらにデータを加工し得られる情附も同様です。他方情報の配賦は迅速に、明確な内 容が要求されています。 本稿ではクライアン卜/サーバ環境において大容量データを集,1I及び分析し、プレゼンテー j法を提案します。 シヨン性の高い帳票を作成する一 J A Sの基本機能とクロス環境データアクセス ( C E D A ) 具体には、多種データの加工ついては S 機能、 S A S / C O N N E C Tの一部であるデータ転送サービスを使用しサーバーである肝Sに蓄えられ た大量、多種のデータをサーバで処理し、結果をクライアン卜である W i n d o w s N Tに転送しま す。情報の配叫、帳票作成については、加r̲データをクライアン卜の S A Sで、出力様式を付加し S V形式のデータを作成し、 E x c e l lVBAで帳票作成します。 たC 本稿では帳票作成について具体的ポ例を紹介します。 内六U A斗 A 内六u
2 . 帳票作成システムとしての S A S R O C T a b u l a t eという帳票作成機能が提供されています。 20年以上も!日に汎川機 S A Sには P 主を作成するという場合は現在でも 上で禄勤したこの機能は簡単なコーディングで、大量に帳 J i n d o w s環境では、罫線、着色、フォント指定など細かな表現、さら 有効な機能です。しかし W には出力結果に追加説明の記入などよりプレゼンテーション性の高いレポートを必要とする場 A S では以下のような肢術あるい 合の利用は難しいと考えています。こうした要求にたいし、 S は機能を用いレポート作成を行うことも可能です。 •D D E( D y n a m i cD a t aE x c h a n g e ) .OLE ( O b j e c tL i n k i n ga n dE m b e d d i n g ) オートメーション •D B L O A Dフ.ロシジヤ •O D B C( o p e n D at a b a s e C o m e c ti vi t y ) C問、 C O R B A V8では C側、 D •S A S / A C C E L S St oP C Fi 1 eF o r m at s ・アウトプットデリパリシステム ( O D S ) •T E M P L A T Eプロシジャ S U J I ‑ jにも帳票作成に関する多くの投稿が記載されています。 •D D Eを利用した報告の場合、事前に E x c e lを起動しておく必要がある。 •V Bを利用した場合 V Bのプログラミング技術を必要とし、 E x c e l単独では稼動できない。 しかし、こうした技術を利則する場合も、細かな部分を満足させるためには複雑なコーデイ ングを必要とするなどの検討課題が残ります。 3 . システムの特長 l l l概念を I ヌl ー 1 処理概念凶に示します。その特徴は以ドのとおりです。 本システムの処 J ‑ 1 作成できる帳票は [ c t l一ページに複数テーブル、複数グラフを任意に組み合わせることが可 能です。 ‑ 2 E x c e l 単独で帳票の開発、稼動確認ができます。 3 C S V データを所定の場所に用意すれば E x c e l単独で稼動できます。 ‑ 4 作成した帳票は任意の BOOK , Sheetに保存でき、管理も Excelで行えます。 共休の処理手順は、クライアントの S A S / A Fu l i而を起動し ①サーバー S A Sにデータ 1 1 1 11 I¥、加工を指示 ②クライアントに加工データをダウンロード A Sで条件判断し、表示書式を付加した C S V形式データを作成 ③クライアントの S ④ E x c e lで帳京作成及び 1 ¥ 1) ] 管J I J j の!回に処理されます。 帳票の作成は以下の 4つのファイルで行います。 S V形式データ データと文字サイズ、フォント ② 制 御 デ ー タ ① C ③ タイトル指定データ ④ ヘッダー&フッタ一等設定 1[1)]結果の事例として阿 ‑ 2 ' " ' ‑ ' 5 に代表的な事例を紹介します。 ‑ 3 4 4
区 ヨ ‑ lSASデ ‑‑ タセラト j 一‑. ‑‑‑ │ S A Sのロジックで 配賦先,配賦内容を コントロ / 1 作 しl [ l i ‑ ‑ i I 両日 ル / 定~パッチ処理 ! ! E M A I L( S M T P ) I ̲ l ̲ ./ (Se内 町/MVS '¥ 」 ー ̲ . . . . ̲././ 定型パッチ処理 ‑ 一 一 一 一 一 Base S A S SAS/Connect ノ E M A I L( S M T P ) ‑ 」長二二川 l 正; │ l l 日 ! トt云 ー 「 中 ト ベ 正J 「一一 │ B O O K N B O O K 2 図 ‑1 処 理 概 念 図 345‑ ' 今後の検討対象 j
4 . 帳票儀式コントロールファイルについて V B Aの P Gを保存した B O O Kに以下の内容を保存した s h e e tから構成されています。 ) 闘を参照してください。 具 体 に は 帳 票 作 成 子1 ① 制御データ l 表 、 グ ラ フ 制 御 デ ー タ 区 分 ‑ 2 保存先 b o o k名 ‑3 P G Mb o o ks h e e t名 4 保存先 s h e e tn a m e : 5 開始行 ‑ 6 開始列 ‑7 読込列数 ‑8 h e a d e rn 日 e 範同名 9f o o t e r n a m e 範阿 1 0 h e a d e rの行数" 1 1 f o o t e rの行 ‑ 1 2 データファイル名 ー ②タイトル指定データ ‑ 1 シート名称 ‑ 2範凶名祢 ‑ 3 表題 ③ ヘッダー&項目表題&フッタ一等設定データ 5 . 検討課題 T環境を 今回紹介した機能の利便性を高めるため、インターネット利!日を念頭にした I 意識し、以下の内容について検討中です。 ① データの配賦 S M T Pインターフェイスを使用して S A Sから電子メールを送信する。 D A T Aステップのロジックを使用し、 S A Sからプログラムで出力先を、処理結果ごとに設定し、 A Sを導入していない部署に対しでも情報を配信可能とな 電子メールで送信します。その結果 S S V形式のため情報責は少なく、さらに H 汚号化などセキュアーな環 ります。さらに送信内容は C M L形式の利 J Hについても検却を考えております。 境でも対応が容易と考えられます。 X ② 帳票儲式の設定 A Sデータセットの変数情報を E x c e lにリポジトリーとして取り込み 事前に作成された S 事前に用意された代表的な様式を選択することで制御データ作成をメニュードリブン形式で 対話的に行う。 ③ W e bサーバーとの述携 S A Sの O D S機能、あるいは E x c e lの機能を利用し、作成結果を W e b S e r v e rに登録、閲覧 A Sの電子メール送信機能と組み合わせることにより、容易に W e bサーバーとの述 する。先の S 携システムにできないか検討しております。 ‑参考文献 1r 簡易帳票作成システム " S A St oE x c e l症例一覧表モテ'ル "J 株式会社電通国際情報サービス S Iコ ン サ ル テ イ ン グ 部 藤 本 治 他 第 16回 SUGJ‑J論文集 2r V Bと S A S / S T A TをJ!Jいた臨床統計システム ‑SASスクリアトレス、 E x c e lへの結果出 )J ‑ J 株式会社アイ・エス・イ一内原健 山本昭一 第 1 8同 SUCJ‑ .J論文集JlJl1 8 5・ 1 9 5 n 連絡先 E ‑ m a i l : c s d @ k k . i i j 4 u . o r . j p ( T e l:0 6 ‑ 6 3 7 7 ‑ 2 1 4 0 F A X :0 6 ‑ 6 3 7 7 ‑ 6 1 4 0 ) ρhv A斗 A nペU
帳票作成手順一 1 ① c s v形式データ 大阪支庖,グループ 1 . 3 9 . 3 . 3 9 . 3 . 2 6. 4. 2 6. 4. 3日4 . 3 8. 4. 9 . 8 . 9 . 8 . 8 9 . 8 . 8 9 . 8 . 3 3 . 0 . 3 3 . 0 大阪支白グループ 2 . 3 5 . 8 . 2 4 . 8 . 2 4。 目4 0 . 2 . 4 0 . 2 . 8 . 0 . 8 . 0 . 9 4 . 3 . 9 4 . 3 . 2 9 . 0 . 2 9 . 0 大 阪 支 庖 グ ル ー プ3 . 5 5 . 5 . 5 55 . 1 3 . 0 . 1 3 . 0. 45 . 2. 45 . 2 . 8 . 5 . 8 . 5 . 6 1 . 3 . 6 13 . 3 2 . 6 . 3 2 . 6 大 阪 支 庖 グ ル ー プ4 . 5 6 . 2 . 5 6 . 2 . 2 3 . 3 . 2 3 . 3. 46 . 0. 46 . 0 . 1 4 . 6 . 1 4 . 6 . 6 0 . 0 . 6 0 . 0 . 2 5 . 1, 2 5 . 1 大阪支庖.グループ 5, 8 . 8, 日 目 。5 . 7, 5 . 7, 8 . 8, 8 . 8 . 3 . 5, 3 . 5, 9 . 2, 9 . 2 . 36, 3 . 6 名古屋支庖グループ1 . #網 9 2 . 5, # 網9 2 . 5 . 5 4 . 9 . 5 4 . 9, 8 0 . 9, 8 0 . 9, 3 5 . 8, 35, 日1 0 0 . 0, 1 0 0 . 0, 6 6 . 3, 6 6 . 3 名 古 屋 支 庖 グ ル ー プ 2. 44 . 9. 44 . 9. 4. 6. 4. 6, 6 3 . 2 . 6 3 . 2, 6 . 5, 6 . 5, 7日3 . 7 8 . 3, 3 5 . 0, 3 5 . 0 名 古 屋 支 庖 グ ル フ 3, 2 6 . 8, 26日. 1 0 . 5, 1 0 . 5, 33日3 3 . 8, 9 . 3, 9 . 3, 3 7 . 6, 3 7 . 6 . 1 0, 4 .1 0. 4 367, 3 6 . 7 . 1 2 . 2, 1 2 . 2, 2 5 . 5, 2 5 . 5, 5 . 3, 5 . 3, 1 5 . 0, 150, 5 . 3 . 5 . 3 名 古 屋 支 庖 ク " ル フ 4, 名 古 屋 支 庖 グ ル ー プ 5, 55日. 2 0 . 5, 2 0 . 5, 9 . 3 . 9 . 3, 3 . 7 . 37. 4 日 7. 4 日 7, 1 0 . 2, 102 名 古 屋 支 庖 グ ル ー プ 6, 6 6 . 5 . 3 2 . 7, 3 2 . 7 日 ,2 . 0 . 8 2 . 0 . 2 29 . 2 2 . 9, 1 0 0 . 0, 1 0 0 . 0 . 5 5 . 1, 5 5 . 1 目標ー 1 . . 8 0 . 0,8 0 . 0 . 7 0 . 0 . 7 0O .該当なし該当なし該当なし該当なし該当なし該当なし該当なし該当なし 目 標 ‑2 . , 1 0 0 . 0, 1 0 0 . 0 . 8 0 . 0 . 8 0 . 0, 1 0 0 . 0 . 1 0 0 . 0, 8 0 . 0, 8 0 . 0, 1 0 0 . 0, 1 000.80.0, 8 0 . 0 i ② NO 。 0 . t ‑ ‑ ‑ : ) ③ 制御データ 2 3 保存先 Gゲフフ book名 C . T表 S市 1 1 御デ‑';1 M復数表 表題 A叫。 1 1 S 表題 Auto 2 1 S BOOK‑1 3 1 T 日OOK‑1 4 1 T BOOK‑2 5 1 T 日OOK‑2 61G 日OOK‑2 T 71 81G 4 PGMbook s h e e t名 1 .SLA 1 .SLA SHEET1 SHEET1 SHEET2 SHEET2 SHEET2 内 5 相対値 マイナスは 絶対値 指定日 1 指定日 2 オンフイン 達成可能度 売上率 達成率 G 機材 1 達成率 G 、司 7 開始担l 同左 1 0 8 9 範囲名 立込 9 1 1数 範囲名 f o o t e r PGMd a t a h e a d e rname n a円1 e 6 2 1 6 1 h6 1 3 1 5 1 h6 1 4 1 4 1 h6N202 5時 1 7 1 h6N203 6時 5世 1 1 ← 1 1 1 1 1 2 h e a d e rの 行数 f6 1 3 f6 1 4 怖 f o o t e rの 行数 。 。 1 3 1 0 8 2 5 1 3 読み込みフアイ ル名 備考 o I f e nd a v . c s v 0 1F r p t i m e . c 5 v 9 1 6 1 3 . c 5 v 4 1 6 1 4 . c 5 v 0 1 6 N 2 0 2 . c 5 v 016N202G . C 5 V o 1 6 N 2 0 3 . c 5 v n1oN2031G . C 5 V タイトル指定データ 純1 m プロジェク卜名 名 称 表 題 一 l S‑2 A2 S‑2 基 準 化 売 上 状 況 S‑2 A29 S‑2 基 準 化 売 上 状 況 2 S‑2 S‑2 基 準 化 売 上 状 況 3 A49 S‑2 4 A99 S‑2 売 上 状 況 S‑2 5 A133 S‑2 処 塑 開 始 ・ 終 了 状 況 一 覧 表 S‑3 A2 S‑3 (統合情報)売上状況 S‑3 (統合情報)売上状況 2 A20 S‑3 3 A32 (統合情報)売上状況 S‑4 A2 売上状況 Aη、 , S‑4 2 o 6 保存先 s h e e tname 開始行 表 1 I i i‑ 2 M M M 表題‑:] 月分 月分 月分 表 題‑ 4 表 題 ‑5表 題 ‑ 6表 凶 ー 7 Y 年 M 月度( L M M M M M M 月分 月分 月分 月分 月分 月併 Y 年度 M月 k 日付 L 日付範囲 他は文字列 K 取引ロゲより)
帳票作成手順一 2 ④ ヘッダー&フッタ一等設定 作成目。 2 0 0 1年 5月 2 4日 し売上率 注 1: 注 2・ j 主3 : フッタ 1 フッタ‑ 2 デタ ノ 々 形デ││+ 式一 川川 出力結果 円︑J A ∞ ム ∞l ⑤ ρいい生巾 ② V 御1 ① ③ タイトル指定データ ↓ s ‑2 基準イじ売上状況 5月分 作成田 2 0 0 1年 5月 2 4日 し売上率 大手 支庖 l l i大 部署ー 今I J 大阪支庖 名古屋支后 ゲJ レ ブ1 グループ 2 グ ル ブ3 グ ル ブ4 グ ル ブ5 グ)~ブ 1 グ ル ブ2 グ ル ブ3 グ ル ブ4 グJ レ ブ5 グ ル ブ6 目標 ‑1 目標 2 フッター 1 フッタ‑ 2 3 9 . 3 3 5 . 8 5 5 . 5 5 6 . 2 8 . 8 9 Z : 5 4 4 . 9 2 6 . 8 3 6 . 7 5 5 . 8 6 6 . 5 8 0 1 0 0 ぅ u 3 9 . 3 3 5 . 8 5 5 . 5 5 6 . 2 8 . 8 韓: 5 4 4 . 9 2 6 . 8 3 6 . 7 5 5 . 8 6 6 . 5 8 0 1 0 0 I 主1 、 I ' ‑t e ] ‑ ' 71 2 6 . 4 2 4 . 8 1 3 2 3 . 3 5 . 7 5 4 . 9 4 . 6 1 0 . 5 1 2 . 2 2 0 . 5 3 2 . 7 7 0 8 0 i 也大 準大 f i 主2 、 l ι ι j i 』大 1 ¥ ' 小 主 ィ2 m 先! 川 I 主 1: i 王2 : A 先) J 先! 先I J 今n i 主3 4 ‑1J 0 ‑1J 2 6 . 4 3 8 . 4 3 8 . 4 9 . 8 9 . 8 8 9 . 8 8 9 . 8 3 3 3 3 B B 9 4 . 3 9 4 . 3 2 9 2 9 2 4 . 8 4 0 . 2 4 0 . 2 3 2 . 6 3 2 . 6 4 5 . 2 4 5 . 2 8 . 5 8 . 5 . 3 6 1 . 3 1 3 61 2 3 . 3 4 6 4 6 1 4 . 6 1 4 . 6 6 0 2 5 . 1 2 5 . 1 6 0 3 . 6 5 . 7 8 . 8 8 . 8 3 . 5 3 . 5 9 . 2 9 . 2 3 . 6 5 4 . 9 8 0 . 9 8 0 . 9 3 5 . 8 3 5 . 8 1 0 0 6 6 . 3 6 6 . 3 1 0 0 4 . 6 6 3 . 2 6 3 . 2 6 . 5 6 . 5 7 8 . 3 7 8 . 3 3 5 3 5 1 0 . 5 3 3 . 8 3 3 . 8 9 . 3 3 7 . 6 1 0 . 4 1 0 . 4 9 . 3 3 7 . 6 1 2 . 2 2 5 . 5 2 5 . 5 5 . 3 5 . 3 1 5 1 5 5 . 3 5 . 3 2 0 . 5 3 . 7 7 4 8 . 7 1 0 . 2 1 0 . 2 9 . 3 9 . 3 3 . 7 4 8. 3 2 . 7 8 2 8 2 2 2 . 9 2 2 . 9 1 0 0 1 0 0 5 5 . 1 5 5 . 1 査当なし E 査当なし E 査当なし Z 査当なし E 査当なし 自主当なし 2 査当なし E 査当なし 7 0 l a 8 0 1 0 0 1 0 0 8 0 8 0 1 0 0 1 0 0 8 0 8 0 先! 目
図 ‑2 出力事例ー 1 複 数 表
表示
売 上 目 標 達 成 報 告 書 (5
月度)
2
0
01
年度
作成田 2
0
0
1年 5月 2
4日
1
1際{直
コ
0
01
'1
三5
)
1
eOO1
{
j
'
.1)
J
磁'df
,
No
達成率
売上額
11001商 事
0
.
8
250,
000
2ス 阪 001
0
.
8
250,000
31A阪 002
0
.
8
300,000
4 ス 臥 003
0
.
8
000
350,
達成率
売上矧
。
。
0
.
8
0
200,
000
0
.
9
3
2
3
2,500
骨;~~
1
8
0,000
達成率
。
。
。
。
。
。
。
×
1
4
0,
000
×
5大 阪 004
0
.
8
000
400,
200,
000
司i
5
阜
×
E
ふ3
ム
6東 京 001
0
.
8
250,000
7東 京 001
0
.
8
250,
000
1
0東 京 001
0
.
9
300,
000
1
1 果 尽 001
0
.
5
000│該当正し
350,
1
9
5,
000
0
.
7
8
x
0
.
8
8
220,000
0
.
9
9
297,
000
。
。
,
J
.し
該 当r
0,84
000
210,
匹
、
手
175β00
x
0
.
8
6
258,
000
9
0,8
3
1
1,500
1
.
2
0
480,
000
1
.
1
0
2
7
5,
000
0
.
8
9
222,500
0,90
270,000
司Al
157500
x
ミ
工
〉
売ヒ額
1
月
こ0
0
1 o,
達成率
売上額
11001商 事
0
.
8
250,
000
2大 阪 001
0
.
8
250,000
3ス 阪 002
0
.
8
4
1大 阪 003
達成率
。
。
200,
000
0
.
9
3
232,500
300,000 九
や割、暗腔
1
8
0,000
0
.
8
000
350,
,}J) ,~車
5
1大 阪 004
0
.
8
000
400,
5
1東 京 001
0
.
8
250,
000
v
2001"
1
'
‑5月
売上額
0
.
8
0
達成率
。
。
。
。
。
。
。
0
.
8
4
然、~;1
×
x
割
、5
Q
x
0
.
7
8
。
。
1
4
0,
000
200,
000
1
9
5,
000
×
7果 尽 001
0
.
8
250,000
1
01
果 尽 001
0
.
9
300,
000
1
1
1果 泉 001
0
.
5
350,
000│該当立し │該当なし
フッヲー 1
豆亙三三
フッヲ‑ 3
0
.
8
8
220,000
0
.
9
9
297,000
e
O
O
I
'
F
l
i
)
1
達成率
ゼ
ヮ1
‑制
コ
0
0j
{
j
'
.I)
j
達成率
売上額
e
O
O
l'
J
'
.H
)
1
達成不
デ
己 1
:制
実 績1
匝 /o
i
'
i
而
目惇{直
顧客名
No
'.k h~fi((/ r
i
'
l
'
i
d
l
i
刊
J
売上額
210β00
1
7
5,
000
x
0
.
8
6
258,000
0
.
8
9
3
1
1,500
1
.20
480,
000
1
.1
0
000
2
7
5,
0
.
8
9
222,500
0
.
9
0
270,000
九九割採草
157500
x
日
月
コ
0
0
1ー
達成率
売 k額
~001 平 7 月
達成率
売上積
日)
1
:
:
0
0
1半
達成率
売上刻
コ日日 I'I'.~ 月
1主 f,主~i-l
売上額
e
O
O
Ix三9月
達成率
売上額
図 ‑3 出力事例一 2 複 数 表 2 0 01 年度 表示 売上目標達成報告書(5 月度) 作成日 : 2 0 0 1年 5月2 4日 。 N 日f 票 { 直 顧客名 達成率 売上額 11001商事 0 . 8 2 5 0, 000 2大 阪 001 0 . 8 000 2 5 0, 3大 阪 002 0 . 8 実 績1 直/評価 2 0 0 1年 4月 ~001 年5 月 達成率 。 。 売上額 0 . 8 0 2 0 0, 000 0 . 9 3 232, 5 0 0 × ー ω 4大 阪 003 0 . 8 1 4 0, 000 350, 000 印(︺ × 5大 阪 004 0 . 8 400, 000 2 0 0, 000 × 6東 JjW01 0 . 8 000 2 5 0, 1 9 5, 000 0 . 7 8 × 。 。 0 . 8 8 2 2 0, 000 0 . 9 9 2 9 7, 000 7東 示 001 0 . 8 2 5 0, 000 1 0東 尽 001 0 . 9 300, 000 1 1 東 尽 001 0 . 5 350, 000 該当なし 。 。 。 。 。 。 。 0 . 8 4 0 . 8 6 0 . 8 9 1 . 2 0 1 . 1 0 売上頒 2 1 0, 000 11001商事 0 . 8 2 5 0, 000 1 7 5, 000 2大 阪 001 0 . 8 2 5 0, 000 2 5 8, 000 3大 阪 002 達成半 。 。 売上'古員 0 . 8 0 2 0 0, 000 0 . 9 3 2 3 2, 5 0 0 000 0 . 8 3 0 0, 1 8 0, 000 × 3 1 1, 5 0 0 4大 阪 003 000 1 4 0, 0 . 8 3 5 0, 000 × 480, 000 5大 阪 004 0 . 8 4 0 0, 000 2 0 0, 000 × 000 2 7 5, 6東 ) ' J W01 0 . 8 2 5 0, 000 0 . 7 8 1 9 5, 000 × 。 。 2 2 2, 5 0 0 7東尽 001 0 . 8 2 5 0, 000 0 . 9 0 2 7 0, 000 1 0東 京 001 0 0, 000 0 . 9 3 1 5 7 5 0 0 1 1 東 京 001 000 該当なし 該当なし 0 . 5 3 5 0, 該当なし ~001 年5 月 達成率 。 。 。 。 。 。 。 売上額 000 0 . 8 4 210, 1 7 5, 000 × 0 . 8 9 × 1Z土3 フッター フッター フッター 達成率 売上額 実績f uV評 価 コ 0 0 1年 4月 顧客名 × 1 8 0, 000 300, 000 達成率 目標 1 直 No 0 . 8 8 2 000 2 0, 000 0 . 9 9 2 9 7, 0 . 8 6 2 5 8, 000 1 1, 500 0 . 8 9 3 000 1 . 2 0 480, 000 1 . 1 0 275, 0 . 8 9 222, 500 0 . 9 0 270, 000 157500 ×
図 ‑4 出力事例 ‑3 複数グラフ 売上状況 l 百万円 5月分 l百万円 A001 予実 4 0 3 5 3 0t 2 5i A002予実 60 5 0 4 0 2 0 ~-\-1 5 1 0 3 0 2 0 h 1 0 5I ω四 日 ! ー 0 0 0 1 / 3 / 1 2 0 0 1 / 4 / 1 2 0 0 1 /1/1 2 0 0 1 / 2 / 1 2 一一売上一一目標 ‑百万円 1 0 0 表示 0 2 0 01/5 / 1 2 0 0 1 / 1 / 1 2 0 0 1 / 2 / 1 2001/3/1 2001/4/1 一一売上一一目標 百万円 A003予実 / 1 2 0 01/5 A004予実 1 2 0 仁二二 1 0 0 8 0 60 60 4 0 40 2 0 2 0 0 0 2 0 0 1 / 1 / 1 2 0 0 1 / 2 / 1 2001/3/1 2 0 0 1 / 4 / 1 一一売上一一目標 2 0 0 1 / 5 / 1 2 0 0 1 / 1 / 1 200112/1 2001/3/1 2 0 0 1 / 4 / 1 一一売上一一目標 2 0 0 1 / 5 / 1
図 ‑5 出力事例 ‑4 グ ラ フ と 表
売上状況
表示
5
月分
目標達成率
件数
(%)
200
ーーーー大阪 1‑ .輸東京一 1~ー大阪 2 叫吋卦一東京 2
180
・大阪 3
1
6
0
1
2
0
i
! /日
∞
1
![!( ~へ
一 月 一
ノホトハ
8
0[
' / /""v
ι
ω 印一ω
。∞,
J 《 一
久
治
イ
ノ
守V
T
6
0 :日/.̲'
¥
.
"
i ,../
40 !
すよ
.~、,、.....
20 f
!ー一一ー大阪 1 側 冒 官 東 京 1 ‑‑‑i:'←ー大阪ー2 ‑唱ー東京ー2 一一一一大阪 3
ー
.
.
.
・
偽
ゐ
・
・ ~.".. .
.
.
ゐ
'~ヤ
よヱニよミ三
jJ(¥
ol
.
.
.
.
.
.
.
.
.
ー
・
閑
ー
・
'o~
,,\~
,.'ò~
,o,~
,<:;~
,.:.。ゃぐ与やイト針。ヂ
ダ ダ JJrr
r
¥
/ダ J
r♂ ♂ ♂ ♂r
'
¥
.
'
V
"
1
>
'
"
1
>
'
" c 勺 勺 勺 九 九 九 " 1 > '
"
c
"
"
c
"
"
c
"
c
f
ト '\~ ,.'ò~ ,.o,~ ,<:;~ ,
.
:
.
。 手 ぐ
令 '\,~ イ
ト "'~ LV,~
^'*~ ^
'
*
'ぷ^^
,
* ^
I
$
(
' 4'~ 4' 財
政 可v 可
i
<
‑
,,*~ ,
J
$
<
e
F
ぷ
ぷ
<
f
5
"
^
<
f
5
"
^
<
:
;
<
:
5
"
~<:;<:;、
d、~<:;<:;' ~<:;<:;、 d、
ν ν ν ν
令
サ'i>'
ν ν ν ν ν
V
J
B
日本 SASユ ー ザ ー 会 (SUG1‑0) SAS/lntrNetソフトウェアリリース 8 . 2の機能紹介 吉 岡 厚l 台 山本克己 カスタ 7 ーサービス本部テクニカルサポートグループ 株式会社 SASインスティチュートジャパン What'snewf u n c t i o ni nSASl IntrNe tR e l e a s e8 . 2 K o j iYoshioka I ¥a . t sumiYamamo . t o TechnicalSupportGroup, Cus . t omerServ 明 ( ' sD i v i s i o n,SASI n s t i t u . t eJapanLtd 要旨 本稿では、 SAS ! In t r N e tリリース 8 . 2で追加された新機能を中心に、以前の SAS! In t r N e tリ リ ースl.x以降に追加された機能も含めて紹介する。 S A S / l n t r N e tソフトウェアの各コンポーネン卜を使用したツール群 (MDDB表示機能や J a v a による接続機能)についても併せて紹介する キーワード: SAS! In t r N e tソフトウェア、アプリケーションディスパッチャ、 J a v a 1 .はじめに S A S / l n t r N e tソフトウェアは複数処理における高効率化を図ったリリース 8 . 0、運用面・開発面での使 . 1、そして今回出荷が開始されるリリース 8 . 2 と従来出荷されてきたリリ い勝手の向上を図ったリリース 8 A S / l n t r N e tリリース 8 . 2新機能の説明が目的で ースl.xに比べて多数の変更があったε 本稿は本来 S . 2だ、けに捕らわれずあまり触れられる機会が少なかったバージョン 8で追加された新 あるが、リリース 8 機能についても極力触れていくことにしたい。 2 アプリケーションディス Jもyチヤ ロードマネージャー S A S / l n t r N e tリリースl.xでは複数の S A Sアブ、リケーションサーバー(以後 i S A SAPサーバー J )を A SAPサーバー 起動することで、複数のリクエストに対する処理を行うことはで、きるものの、起動中の S ηべU ηべU RU
を効率良く利用して処理を行わせることはで、きなかった。これは処理振り分け用プログラム(以後「ブ ローカー CGlj)が処理を割り当てようとする SASAPサーバーをランダムに決定しているからである。 SAS/lntrNetリリース 8 . 1 では、新たに追加された「ロード、マネージャー」を使うことによって、この問題 を回避している。 ① SASAPサーバーは自分の状態を逐次ロード、マネージャーに通知する ②ロードマネージャーはそれぞ、れの SASAPサーバーの最新の処理状況を保存(管理)する ③ブローカー CGI は SASAP サーバーへの処理振り分けの際、ロード、マネージャーが決定した サーノくー(処理振り分け時に「待機中」のサーバー)へ処理依頼を行う 上記の流れで振り分け処理が行われている 3 プ‑)レサービス リリースl.xで利用できる SASAPサーバーの起動方法は次の 2つで、あった。 ソケットサービス:事前に必要数の SASAPサーバーを起動、サーバー数の増減なし 起動サービス :ブラウザ からの要求毎に SASAPサーバーを起動し、処理後サーバー終了 . 0ではこれらに加えて「プールサービス」が起動方式として追加された。これは「待機中の リリース 8 SAS APサーバーが不足した時点で、必要数の SASAP サーバーを新たに起動」するとし、う機能を提 供している。「起動する SASAPサーバーの最大数 jiSAS APサーバーが起動後待機する時間」を 指定しておけば、ロード マネージャーと組み合わせてより効率的なリソース使用を実現することが可能 である。 ファイアウオールが使用されている場合の対応 . 0までは iWebサーバー jiSAS APサーバー」聞にファイアウオールが設定されている場 リリース 8 合、ファイアウオールプロキシフ。ロクすラム等を利用しない限り、動作しないとしづ現象が発生した c 図で 示している形態が該当する。これは iWeb サーバー」上で稼働してしも「ブローカー CGljが SASAP サーノくーへの振り分け を行う際に使用する「ポ ート番号」と SASAP サ ーノミーから Webサーバ ーに結果を返す際に使 用する「ポート番号」が 異なるためである c Web サーバーへ結果を返す 時のポート番号は「ランダム」で決定されており、「ファイアウオール」を通過させるために「ポート番号」 を定義しても、それが活かされないためである 3 リリース 8 . 2ではこの Webサーバーへ結果を返す時のポート番号を、ブローカー CGIから振り分け られた際に使用している「ポート番号」に合わせる様になったため、「ファイアウオール」の通過が問題 なく行われる ε 事前作業として、ファイアウオールに iWebサーバー jiSAS APサーバー」開通信用の A牲 に u ぺU n
ポートを定義し(ソケットサーヒ スあるいはロード マネージャのポート)、フcローカ一環境設定ファイル F r .c f g J )のソケットサービス定義部分における IFullDuplex TrueJの設定を有効にす (以降 Ibrok巴 るのみであるご S t a t i s t i c sオプションによる統計情報取得 リリース 8 . 2 では SASAPサーバーが受け取ったりクエストの内容を、 SAS データセットとして出力 a p p s t a rt .s a s(導入時の設定によ する機能が新たに提供されている o SAS APサーバーを起動させる I ってフ ロクーラム名が異なる場合がある)Jに記述されている IAPPSIN プロシジャ」において、次の行を e 追加すれば、一定の情報を自動的に出力する。 proc a p p s r v . . .; *SASデータライブラリの指定 * 1 allocate library statlib • folder‑path' ;1 1 * 出力用 SASデータセットの指定 * 1 STATISTICS DATA=statlib.stats ; 出力される情報については以下の通りである 変数名 O b s t y p e Okay D u p l e x I ‑ Il t p P r o g r a r n P e e r a d d r I ‑ Io s t n a r n e U s e n a r n e 3 説明 変数名 説明 作成されたタイミング 実行が正しく f 丁われたヵ、 全重/半重 I ‑ ITTPリクエストカミど、うか プログラム名 (̲PROGRAM) リクエスト I Pアドレス ノード名 ユーザー名 (̲USERNAME) E n t r v S e s s i o n i d S e r v i c e エントリ名 lENTRY) セッション名 (̲SESSIONID) サービス名 実行開始時間 終了時間 ポート番号 入力バイト数 出力バイト数 S t a r t t i m e R u n t i m e P o r t B y t e s i n s y t e s o u t 利用プログ、ラム動向 JI アプリケーション実 上記情報群で SASAP サーバーに関する「利用状況 JI アプリケーションの停止等の状況」が把握できるため、環境の再構築について有力な情 稼働時間 JI 報となるであろう。 管理(運用)に関する操作の容易性 リリース 8 . 1までは SASAPサーバーの状態を確認する場合、または穣働中のソケットサービスやロ ード、マネージャーを停止する場合、ブラウザの UI~L に個々のアドレスを指定するとことでそれぞれの 希望する処理を行っていたご (SASAPサーバーの稼働状況を確認する例) h t t p : / / l o c a l h o s t/s c r i p t s / b r o k cr .cxe?̲service=default&̲program p i n g 二 リリース 8 . 2で、はフcラウザ 上の l i l1而よりこれらの操作を可能としているご h t t p : / / l o c a l h o s t /s c r i p t s / b r o k c r. e x巴 ? d巴bug=4 上記で表示される「アプリケーションデ、イスパッチャーサーヒ♂ス」阿而にて、「稼働確認 ( p i n g )JI 状況 s t a t u s )JI 停止 ( s t o p )Jなどの操作を容易に実現できる ο 但し broker .c f g より定義されている全 紹介 ( ‑355
サーヒ スの情報を読み込むので、その H 寺点の稼働の有無に関わらず表示が行われ、また同画面より P サービスの起動自体を行うことは残念ながらできないご A p p l i c a t i o nDispatcherServices • SocketServiced~fault 議 SocketServiadefuult‑ Reuseexistingsession 議 四 盟 国 主ιadmin同 臨 時 国 「 一 一 Pag 田5 r eferencet h i sgeneric田 町 erwhentheydon'tcarewhichserviceIS used. AdministratoγYourName,' : f ̲ oumarn8 申VOUr5l t e 師団「一一一 Loa:J凶「百 gerj p n k c y : 5 5 5 5 盟主主乙竺処 p a s s 警 Fu l lD u p l e x :Tr 国 De官同ds e刊 e目 ard四 円s ︐ UE t 刊誌♂¥汁 rj p n k c y .1 = 0門口∞2 .同 i . h t1(凹品主主主~g旦w • se内 e • se刊 erj p n k c y 四 円 5 1同 i . h t l (~註旦品呂旦Q) ∞ 上記は管理画面の例。ソケットサーヒ スの定義部分が表示されている状態。なお、リリース 8 . 2では P b r o k er .c f gで、最初から有効となっている定義はソケットサービスのみ。 3 .アプリケーション開発に係わるコンポーネント等 HTTPヘッダーの自動生成機能 リリース 8 . 0までは SASAPサーバーにて IHTMLファイノレ jの出力を行う場合、 IDATAステップの PUTステートメント」を使用して I C o n t e n t ‑ t y p e :t e x t / h t m l j等の出力を行う必要があった。リリース 8 . 1 よ りI C o n t e n t ‑ t y p e :t e x t / h t m l jを使用する場合、 PUTステートメントによる出力等を行わなくとも自動 APPSRV ̲I‑IEADERJ関数 的にヘッダーが生成されるごその他の任意のヘッダーを出力する場合、 I を使用することで IITTP の基準に沿ったフォーマットで書込みを行う。 ODS ステートメントを使用 J l . lL/GIF/JPEG/PDF/POSTSCRIPTについてヘッダ して HTMLファイルを出力する場合、 HT ーの自動生成が行われるので、更に指定不要な範囲が広がる。 HTMLフォーマッティンゲツール リリースl.xでは I . I T M Lフォーマッティング.ツールとして「弘DS2HTMjI O / OO UT2HTMjI O / OT AB2I ‑ 1TMj の 3つが利用できたが、リリース 8 . 2までに次のマクロが追加され、現在は 7つが利用できる c 追加さ れたマクロの概要は次の通りであるこ υ 門ぺ ρhu υ ι
マクロ名 %DS2GRAF %META2HTM %DS2CSF %DS2TREE 処理内容 SASデータセットを java3‑Dフインプロットクずフフ、円ク フフ、棒クマフフで、出力 SASデータセットを A c t i v e X形式のグラフで出力 SASのメタビューアプレットを使用して、メタビュー形式のグ フフを出力 SASのレンジビューアプレットを使用して、 CSFのクョフフを出力 SASのツリーヒ ューアプレットを使用して、階層(ツリー)形式のクずフフを出力 c r P HTML編集ツール ( S A SD e s i g n ‑ T i m eC o n t r o l s ) SAS D e s i g n ‑ T i m eC o n t r o I sは、利用している HTMLエディタにパックエンド、 SASの機能性を統合 する追加コンポーネントで、ある。ポイント&クリックのみで、 SASの内容を含んだウェブページを生成す るため、コード、自体を記述する作業はほぼ不要である。ほぼ Webページの構築を支援するページコ a v aS c r i p t s、j a v aアプレット、 A c t i v e Xコントロー ンポーネントウィザード の感覚で、利用でき、トITML、J ルおよび、 ASPを含む、 Webページコンテンツおよび j SPコードの多くの形式を生成できる o Webペ ージにコントロールを挿入するためには、 HTMLエテ、イタのインターフェースを使用する このリリース 3 で利用可能なコントロールは次の通りで、ある ο コントロール名 生成される Webページコンァンツ SASC S F ( c r i t i c a ls u c c e s sf a c t o r ) SASMDDB レポート SASストアード、プロクーフム SAS ァーブル SAST a b u l a t e レポート SASt h i nc l i e n tg r a p h i c s C r i t i c a IS u c c e s sF a c t o rj a v aA p p l e t HTML形式の多次冗データベースレポート S A S / l n t r N e tプロクずフムからの出力 卜I TMLァーブル TABULATEプロシジャからの HTML出力 j a v aアプレット・ A c t i v e Xコントロール形式のクーフ フ 階層的データを視覚化する j a v aアプレット SAST r e e V i e w e s i g n ‑Time なおブラウザを使って生成されたページを見る場合、そのユーザのマシンに SAS D C o n t r o l sは不要である。 4 .SAS/lntrNetコンポーネント群 (Java対応製品以外) X p l o r e r X p l o r eリリース 8 . 2は SASデータライブラリ及びカタログのリストをブラウザ 上に表示させるソフトウ ェアで、ある 3 アプリケーション開発を行うことなく、 SASシステムの各資産(データセット、グラフカタログ 等)を直接参照・表示させることができるため、場合によって非常に使い勝手の良いコンポーネントで ある。尚、このコンポーネントを起動するには、当然 S A S / l n t r N e t リリース 8 . 2のアプリケーションテ、イ スパッチャが必要となるミリリース 8 . 2 にて、新たに iCSSjiCSVji . ) S jiPDFji P S jiRTFjiVBSj iWMLjiXMLjiXSLjのカタログエントリタイア、の表示機能が追加された J 月 F h υ qJ f'
MDDBRepo同 Viewer SAS のセッションが稼働していなくても多次元データベースに格納されたデータを基にレポート・グ ¥e p o r tV i e w e rコンポーネン卜で、ある o MDDBの作成は SAS/EISソフ ラフの作成を行えるのが MDDsI トウェアや MDDB プロシジャ (SAS/MDDB サーバー・ SAS OLAP サーバー)等が必要となるが、 MDDBI ¥e p o r tV i e w e rの動作自体にはそれらのソフトウェアを必要としないご . 2では表示に関する使い勝手が向上した ε 分析変数毎の統計量表示、ページ単位の行 リリース 8 ¥T指定ができる変数数の拡大、各種オプ、ンョンによる HTMLファイル出力時のカスタマ 数指定、 SOI イズ化などが追加された新機能である ζ htmSQL htmSQLについてはリリース 2 . 0以降、新機能の追加がされていない。 htmSQLは SAS/SHAREサ ーバー上の SASデータライブラリに対して SQL文を投入し、その結果を Webサーバーにて表示す A S / l n l r N e t と同時に使用することで使い勝手の良いシステム会構築できる。トlTML る機能を持ち、 S とSQL文の知識さえあれば利用できる非常に使いやすしロンポーネントで、ある。 5 .S A S / l n t r N e tコンポーネント群 ( J a v a対応製品) SASjCONNECTD r i v e rf o rJava(リリース 2 . 5 ) このドライバは J a v aアプリケーション、アプレッ卜および s e r v l e t sの内部から SASシステムに処理を a v aのプログラム上で SAS/CONNECT のドライバを使 させることを実現するコンポーネントである o J S A Sのセッションを開始してそのセァンョンに接続、 ( 2 )デ?ータセットを作成又は既 用することにより、(1) 3 ) S A S内のデータを分析するプ口、ンジャを実行し、結 存の SASのデータセットへのアクセスを実行、 ( a v aアプリケーション又はアプレットを作成で、きると 果を検索するといった機能を持つ J a v a アプレットを使用してしも場合 図は、 J のコンポーネントと Webサーバー及び SAS サーノくーとの関連を示す o (1)ブラウザから Webサーバーに対して HTMLファイルを要 2 ) W e bサーバーは HTMLファイルを要 求 、( 3 )ブラウザはドキュメント 求に応えて返信、 ( 内にアプレット・タグを発見すると、それによ って使用される J a v aクラスを Webサーバー に要求、とし、う流れで処理が進む c 最 終 的 には J a v aクラスがクライアントマシンにダウン ロードされた後、アプレットが実行される 3 このドライバを使用するには指定されたバージョン1.1.6以上の JDK( ja v aD e v e l o p m e n tK i l )及びリ .12TS050以土の SASシステムが必要であり、 SAS/CONNECTソフトウェア及ひ、 S A S / l n l r N e l リース 6 ソフトウェアのライセンスも必要となる ε 戸 ︒ 凸 内 ペU υ h
SASjShareD
r
i
v
e
rf
o
rJDBC(リリース 2
.
5
)
c
a
品単踊由昌也幽 ι話孟亙猛逼温盃邑圃・・・・・・・̲.1¥
3
1
>
<
f
l
>t
,
或
l
:
i
r
.
w!
i
C
l .icd;~.<'\ i
l
o
l
白書
SAS/SHARE D
r
i
v
e
rf
o
r jDBC を用いることにより、
i
申
ISAS データセットの更新処理を実現できる。具体的に
一
一
一
一
言i
国旧制 tli!~;(dc!;w山"開山~~b:;"D吋~tJr.~,h
こi 一
垂直
平平副は j
a
v
aアプ川アプリケーションおよび s
e
r
仙か
。
V
"
' l
oOK
す
事
現揖H師 事 踊H
串防Kto$
7
置H
斜串同怯事鈎 H
f
m
何回制
司
監
悶
ら SAS/SHAI~E サーバーを経由して SAS データセット
t
1 へ、あるし、出AS/ACCESSソフトウェアを経由して他の
旬 駒 市
データベースへアクセスすることを、このドライバは可能
ー
で
一
一
一
ー
でJi
とする。
i
滋必!認識1
記長み誌記長記i
i
:
i
i
e
"
"… 一 一 回 す
アプレットは SAS/SHAREサーバーへの接続を確立
するために jDBC ドライパ・クラスを使用 3 接続確立後、ド ライパは SAS/SHARE サーバーへの
SQL(構造化照会言語)アクセスを提供する アフ'[/ツトはサーバーへ SQLステートメントを送り、それ
2
r
i
v
e
rf
o
rjDBCは
らのステートメントによって生成された結果を検索することがで、きる。 SAS/SトIARED
SQLステートメントにおける SELECT 文(データ取得用)及び CREATE文
・ UPDATE文
・ INSERT
文
・ DELETE文(データ更新用)をサポートしている。
Ja
v
aD
e
v
e
l
o
p
m
e
n
tK
i
t
)及び
このド、ライパを使用するには指定されたバージョン1.1.6以上の jDK(
ノtージョン 6以上の SASシステム、及び SAS/SHAREサーバーが必要となる。
Th
eTu
nnelFeature(リリース 8
.
2
)
先ず 2つの制限事項を確認してもらし、たい。
Web サーノくーからタゃウンロード される j
a
v
a アプレットは、タマウンロード されたマ、ンン以外にマシン
・
へのソケット接続を行うことが通常禁止されている c これはアプレットがタウンロードされた Web サー
ノtーと同一マシン上で、 SASのセッションが始められる必要があることを意味する。
・多くのファイアウオールは、ファイアウオールを超えたソケット接続の確立をアフ。レットに対して禁じ
ている。ただ HTTP プロトコルについてはファイアウオールの通過を許可しており、上記の制約も
HTTPプロトコルを使う限り可能となってしまうとしづ例外が発生する
3
現在構築される Webシステムの大半では、 j
a
v
aクライアントが接続できる範囲を j
a
v
aアフ。レットの
ダウンロード元の
磁
甑
畠
'
!
l
:
:
I
ヨ
苦
i
i
!
I
ヨ[
i
l
u
i
.
i
.
I
t
I
l
l
疋j
事務聾
Web サーバーに制
限している。すなわ
艮により
ちこの制 F
Web サーバーと同
一マ、ンンに SAS サ
ーバーがインストー
ルされる必要がある
ということになるが、
これは必ずしも最適
‑359‑
な構成ではない。 TheTunnelFeatureコンポーネントの利用で、この制限事項を回避することが可能で、 ある。 図はこのコンポーネントの処理の流れを示したものである。最初にクライアント上のブラウザは処理 を行うのに必要な Javaアプレットを Webサーバーより HTMLファイルと共にダウンロードする。 Java クラス (SAS/SHAREDriver f o rJDBC A p p l e tあるし、は SAS/CONNECTD r i v e rf o rJavaA p p l e t ) 'ま Webサーバーに対してトITTPプロトコルを使用して J a v aアプレットのリクエストを伝達する。リクエスト を受け取った Webサーバーは TheTunnelFeatureコンポーネントを構成するプログFラムの lつであ o u t e r ( s h r c g i )にそのリクエストを振り分け、 Message Routerは管理者が事前に設定を記 る Message R 述している TunnelFeature設定ファイルに基づき、一定の条件を満たしているかを判定する。その一 ・ ・ ・ 定の条件とは次の通りである。 許可されたクライアントからの要求であること 許可されたポート番号を使って許可された SASサーバーへのリクエストの受渡しを要求してい ること アクセス権限 (SAS/CONNECTD r i v e rf o rJ a v aA p p l e tのみ)を持った許可ユーザからの要求 であること ステートメントあるいはリクエストが受理可能と Message Router が判断すれば、 Session Agent ( s h r p r o c )と呼ばれる SASサーバー通信用の独立したプロセスの生成を MessageRouterは行弘アプ レットからのステートメントあるいはリクエストにより、 Session Agent は SAS サーバーマシンとの SAS/CONNECT のセッション開始か、 SAS/SHARE サーバーの接続確立のいずれかを行う。その 後 、 MessageRouterはステートメントあるいはリクエストを S e s s i o nAgentへ伝達、 S e s s i o nAgentはそ れを SAS/CONNECTセッションあるいは SAS/SHAREサーバーへ直接送られることになる。 SASサーバーがステートメントあるし、はリクエストを処理した後、 S e s s i o nAgentに処理結果(データ) を返信、 SessionAgentは処理結果(データ)を Message Routerに伝達して、最終的にはクライアント 上の Javaアプレットまで雲J I達する。 ConnectionWizard(パージョン 2 . 0評価版) ConnectionWizardは、遠隔マシンとの接続設定及び SASセツ、ンョン開始の支援を行い、それと同 時に接続設定とセッションの開始に関する情報を収集し、 SAS/WarehouseAdministrator のメタデー タとして保存を行う Javaアプリケーションで ある o MetaSpace Explorerはこの情報を利用し、遠隔マシ ンとの接続及び SAS/CONNECT のセッションを開始、サーバー上に存在するデータウェアハウスへ のアクセスを行主 3 6 0
MetaSpaceExplorer( 1¥ ージョン 2 . 0 ) M e t a S p a c eE x p l o r e r は、データウェアハウスに含まれで、いるビジネス情報を見つけ出すために使 用される J a v aアフ レットで、あ C る i t lf ‑H f . } 抑 制 一 日にいたのれウたでこツイる手 ω ア用れるさタしり例セフあ入 エをさす理弘︑一照たもタ一フン U ゥ報納力整いデ参した一ク乃は K ︑づ中 外情格出にててを索得デ ト/一こ t を 'qJ し っ 容 検 果 一 戸 AJ/ いいはの酎力調内を結尚一ン一刀参 sh介 士 を αさツも命出同の目の j をツス項索比レレ目 凶力レの 凶出プそくタレサ定検てププ項 m イアタな一プノ特︒︑ス︑て っ︑一はデアア︑るしクス j K L てデでたエりきっトッウ ¥ / エ ア ウ ノ タ 一 ア た丸 'h で まあ い明能 ホ可 能元 がる 可乙 大 ﹂ とす に索 引城 一不二 を ‑々ノ 正北?﹂ 表ぅ て でコ 決終 潟時主円 初転 書汁 は引 いじ 6 .最後に リリース 8 . 2 で提供されている S A S / l n l r N e tソフトウェアのコンポーネント群を簡単に紹介してきた が、細かな設定を行うことでかなりの要求に耐えうる機能を提供していることは確かである c それぞれ のコンポーネントについて詳しく紹介することは紙面の都合上不可能であるが、「何ができるかJにつ いてある程度伝われば本稿の目的は一応達成されたと考えている。ここに紹介されているコンポーネ ントについて、現在抱えている問題について何らかの解決となるものがあれば、より詳しく研究してい ただくか問し、合わせをしていただくことを希望して止まない c また今回出荷されているものだけではなく、米国本社の V v ' e b ページにおいてより機能が拡張され たコンポーネントが提供される場合もあるミ適宜アクセスしていただくことを推奨する ο 1ム 寸 ハ hu qべU
7 .参考資料 1 )h t t p : / / w w w . s a s . c o m / r n d / w e b / i n t r n e t / i n d e x . h t m l(米国本社 S A S / l n t r N e t ソフトウェア Web ベ ー ジ) 2 ) SASC l i e n t ‑ S i d eComponentsCD(リリース 8 . 2 ) 、 I Wha t ' sNewWithS A S / l n t r N e t8 . 2 J、SUGl26P a p e r 3 ) MarkT o r r著 in d e x . h t m l より入手可能) ( h t t p : / / w w w . s a s . c o m / u s e r g r o u p s /s u g i /s u g i 2 6 /p r e s e n t a t i o n s/ ハhu nぺU nノω
ポスターセッション 統計
日本 S A Sユ ー ザ ー 会 (SUG I-~) SASデータステップによるA g r e s t i検定統計量の算出 斉藤佳世 株式会社 CRC総合研究所 /CRO業務部統計解析チーム Macrof o rA g r e s t iTestbySASDataStep KayoS a i t o In c . CRCR e s e a r c hI n s t i t u t e, CRODepartmentDataManagement&B i o s t a t i s t i c sS e c t i o n 要旨 Ag r e s t i検定の統計量算出マクロを SASの DATAステップを用い,作成した. その機能と使用法についての紹介. キーワード A g r e s t i検定.1 I 国序カテゴリーデータ,対応のある 2標本の解析.DATAステップ 1 . はじめに 同一被験者における三つの条件 A とBのもとでの同ーの特性あるいは応答の観測結果 g r e s t i検定は SAS に基づいた AB聞の差の有無に関する検定方法のうちの一つで、ある A のプロシジャで提供されていない.しかしながら SASの DATAステップにおける DOルー プ等を上手く使うことにより,その統計量を計算できる.今回作成したマクロで、は,集計した g r e s t i検定統計量を算出する. いデータや変数等を指定することにより, A 2 .A g r e s t i検定の方法 n人に関する観測結果が R個の順序関係を有するカテゴリー尺度で与えられ,第 lカテゴ リーが最良の状態,第 Rカテゴリーが最も悪い状態を表すとし,条件 Aでの観測結果を X, 条件 Bでの観測結果を Y とする. phU ぺU n ハ hu
RXR分割表に対して, X=iかつ Y=jに対応する母集団の応答確率を町(=Pr
(X=i,
Y
=
j
)
)で
,
周辺確率を P
i
.(
=
P
r
(
X
=
i
)
),P
.
j(
=
P
r
(
Y
=
j
)
)で,周辺累積確率を q.
i二
(Pr(X豆i
)
),q
.
j(=Pr(Y豆j
)
)
で表す.また,観測頻度 n
i
j(
X
=
iかつ Y=jを与えた被験者数)が下記の多項分布に従うと仮
,Pi
.
,P
.j
,Q
i
j,Qi
.
'Q
.
jで表す.
定し,観測頻度より推定した比率を Pj
i
R R
nl
1
'
.
T
P
(
[
N
i
i
]
)=一一
一一日日 P~~lj
r
R R
日 日 Nij!1=iJ=i
i
=
lj
=
l
H.
宅 ・ 宅
A
g
r
e
s
t
i検定は下記の仮説 H。
の H1に対する検定である.
HH
q
i
.=q
.
i
i
=
l,
"
'
,R
I
q
i
.;
:
:
:q
.
i
i
=
l,
'
・
'
,R
i玉
:
; q
.
i
I
q.
i
=
l,
"
'
,R
かっ少なくとも一つの iで
かつ少なくとも一つの iで
qi
.J
または
q
i
.>
q
iく q
.
iJ
のいずれか一方が成り立つ
検定統計量 Zは以下の式で表される.
R
2
:(PjQi.‑Pi.Q司
)
n
)
1
1
9
・
日
︐
AωY
p
RZJ1
RZ寸
‑
H
M
P
AωY
‑
n
d
9
RZ 寸
RZJ1
{
z=
.
.
,R
ただし,中 j
i =(
Q
j
.+Q
j
'
l,
ー
)
‑(Qj+Q.,
I
'
l
) i=1,
…
, R j=1,
また, nが大きいとき, Z
"
'
‑
'
N
C
O,
l
)
3
.統計量算出手順
1.データの要約(頻度集計)
2
.観測頻度より推定した比率(応答確率,周辺確率,周辺累積確率)の算出
3
.周辺分布間の差を表す指標の推定値の算出
R
A =工(
P
.
i
Q
i
.‑Pi.Qρ
ρhu
ρhu
qぺ
U
4 .1 3 .Jの 指 標 の 分 散 の 推 定 値 の 算 出 R R R R s A ̲={L L帆 中♂ 町 P i i j‑(L L中 帆円 i 1 i=lj=l i=lj=l 5 .A g r e s t i検定統計量と p値 の 算 出 4 .マクロ仕様 1.稼動環境 使 用 SASプロダクト名: BaseSASソフトウェア リリース 6 . 1 2 WindowsNT ノ、‑:/ヨ斗/: オペレーティング?システム名: 2. 使 用 雛 形 %M̲agresti(M̲idsn 二①, M̲odsn= ② , M̲r= ③ , M̲c= ④ , M̲ct̲s= ⑤ , M̲ct̲e=⑥); 3. 引数説明(※引数の指定はすべて必須) 引数 No マクロ タイプ 内容 指定内容 詳細説明 マクロにより 作成される変数 変数名 ① Mi d s n SASァータ ② セット Mo d s n SASデータ セット ③ Mr SAS 変 数 (数値) 入カダータ セット 出力 T 'ータ セット 集計前のずータ カテゴリー 変数(行) 下記の変数名込5'f.で 指定 .' M ̲ 'で始まるもの • M̲a:分布問の差を 表す指標の推定値 .M̲sasa:指標の分散 の推定値 .M̲z:検定統計量 Z ̲ pv a l u e:p値 • M̲ .̲ f r eq ̲ . name •̲ t y p e ④ Mc SAS 変 数 (数値) カァゴリー 変数(列) 下記の変数名弘5'f.で 指定 "M'で始まるもの •̲ f r eq ̲ • name •̲ t y p e ⑤ Mc ts 数値定数 ⑥ Mc te 数値定数 カァゴリー 最小値 カァゴリー 最大値 整数 整数 l 巧 phu ぺ υ n
5 .プログラム /材料**柿***材料帥****材料*帥***材料*************帥********榊紳****帥****柿***紳 * 1 1 *プログラム名 [ M ̲ a g r e s t i . S A S l * 1 * 1 1 *作 成 者 K.SAITO 1 *作 成 田 : 2 0 0 1 / 0 4 / 0 2 * 1 * 1 1 * g r e s t i検定統計量、 p値の算出 1 *機 能 A * 1 * 1 1 * 入力データセット * 1 1 *M i d s n 1 *M ̲ o d s n 出力データセット * 1 行を表す変数 CM ̲ 'で始まるもの . ̲ f r e q ̲ . ̲ n a m e ̲ . ̲ t y p e ̲以外で指定 ) * 1 1 *M ̲ r 列を表す変数 C M.で始まるもの . ̲ f r e q ̲ . ̲ n a m e ̲ . ̲ t y p e 以外で指定 ) * 1 1 *Mc 力テゴリー最小値 1 *Mc ts * 1 カテゴリー最大値 1 *Mc t e. * 1 1 * 材料柿材料****柿*糾*材料柿*******柿****林*****林***特*柿****件***材料* * * * * * * * * * 1 加n a c r oM ̲ a g r e s t i( M ̲ i d s n = ,M ̲ o d s n = ,M 一r =,M ̲ c =. M ̲ c t ̲ s二.M̲ct̲e二): 1 * 一一簡単な引数チェック'一一* 1 内︽ .︐ ρ し ︾ n Jム e eu み ﹃L 7﹄マL n u H M川 ︑ )) み ﹃L み 一L L 令 み ﹃L み﹃目﹄ H u n U F Hu n u L 令 n H a u ︾ l n川 JZ 一 一 一 ‑ 一 一 ¥ ︾ 〆 ︑ ︑ / ︑ ︑ / ︑ ︑ 〆 ︐︑︐ ︐︑︐ ︐︑︐ ︐ ︑ 一 一 ︑︑ 一一一一 ︽ ノ・ n D n o n o n 6︑ n Jム n Jム ︽ nu ︽ J J J J'nu nHnH'' popopoor AUAU lorc+Lt cc umHmumum rkrkrkrkumum h u h u ﹂H h u r l f +L+L+L+L+L+L ︐ gbgbπzogbHUHu v'nHnHnHnHnuFnν v'ououρuounHnH eillit‑‑‑‑Il‑‑ ︾ c d n u pu um um H M川 r MIllili‑‑BIl‑‑ 一S S ; ' M m l円 u i円 UHM n H c d・'''' I円U H H H H nunHnHFOOU +L︐ . ︐ ︐ ︐ ︐ o u cd'''''' 一一一一‑一一一一一一一 一 一 円 ‑一一一一一一 'nHnHpoor v'nbnb + v'JUJU 一 L+L ρu‑tanuv'pupupu M川 MMmHMm H閉山 MMmHMmHM川 H 免U 免U 5 7 ・ 1 +L ・ l a J u cuHMmHM川 HMmHM川 MMmHM川 Iunιunιunιunιunιunιu ︐︐ ︐' 'v il ー : ' ' v'︐ ' 門川 'vhnuvEphvphvpu n‑ ‑ 一一一 一一一一一一一一一一一 ﹁ Hm 一 川 v ' nHnHPOOU OUL 一 一 t s s 一 π邑 A U I M 口 +L+L nH‑tanuv'pupunu 一一一一一一︐ ae +L1lumumHmumHmumn auHU ﹁ JU r u n : t i t l e 5 'e r r o r ヲ│数が不適当 p r o cp r i n t data=M e r r :r u n : t i t l e 5 : p r o cc o n t e n t sd a t a = M ̲ e r ro u t = M ̲ e r rn o p r i n t : r u n : d a t a n u1 1: s e tMe rr : o m p r e s s ( p u t ( N O B S,b e s t 1 2 .) ) ) : c a l l symput( ' M ̲ e r r ' ,c r u n : 1 *ー 引 数 チ ェ ッ ク が O Kなら agresti検 定 を 実 行 一* 1 もi f 品Me r r= 0目t h e n 弘d o : ぺU n n凸 nb
︐ r ' ' ' * ユ h ア ビ レ ギ' J/r * ti tI e 1 .A g r巴s t it e s t t i t l e 3 .̲d a t ar 巴VI巴w̲ p r o cf r巴qd a t a = & M ̲ i d s n : 宇 品 Mc : t a b l e s& Mr r u n . t i t l e 3 : t i t l巴 1 : /キーデータカタログの作成ー * 1 d a t a Mc a t : : f r e q 二0 & M ̲ r = .: & M ̲ c = .: ̲ t y p e ̲ = O : o u t p u t : o& Mc te : % d oM̲doi=& M ̲ c t ̲ s 首t ニ : & M ̲ c = & M ̲ d o i :̲ t y p e一= 1: o u t p u t : & Mr ーr = & Md o i: & Mc = . ̲ t y p e ̲ = 2 : o u t p u t : & M 相d oM ̲ d o j = & M ̲ c t ̲ s 首t o& Mc te : & Mr 二 品M ̲ d o i: & M ̲ c = & M ̲ d o j :̲ t y p e ̲ = 3 : o u t p u t : H 巴n d : 首 巴n d : r u n : p r o cs o r td a t a = M ̲ c a t : b y̲type̲& M ̲ r& M ̲ c : r u n : / キ 頻度集計 キ/ p r o cs u m m a r y data= 酬 i d s n : c l a s s& M r& Mc : o u t p u to u t = M ̲ f r q : r u n . /率一同時確率 ( Pi j ) 周辺確率 ( Pi . . P .i .Pj .. P .j ) 周辺累積確率 ( O i . . O .i . O j . . O .j )の算出 d a t aM ̲ f r q : m e r g巴 M ̲ c a t ( i n = i n )M ̲ f r q : b y̲type̲& M ̲ r& M ̲ c : i fi n : 「 巴t a i nMc u m Mn0 : 1t h e nM ̲ n = ̲ f r e q一' i f̲ n一= i f first.̲type̲t h e nM ̲ c u m = O : f r e q ̲ : M̲cum=M̲cum+ ̲ ̲ n : M ̲ q =M̲cum IM ̲ n : M ̲ p =̲freq̲ IM r u n . d a t aM ̲ p q : s e tM ̲ f r q : 1 : i fn( & M ̲ r .& M ̲ c )二 r u n : a t a ニM ̲ p qo u t = M ̲ p qp r e f i x二 Mc o1 : p r o ct r a n s p o s巴 d キ/ 円ud nhu ペ υ n
b y& M ̲ r& M ̲ c : v a rM ̲ pM ̲ q : r u n . d a t a M̲pq:set M ̲ p q : i f n( & M ーr )ニ1t h e n ̲name̲= c o m p r e s s( ̲ n a m e ̲ ) 1 1" & Mr ." : h e nd o :̲name̲ = c o m p r e s s( ̲ n a m e ̲ ) 1 1 "叫 c " 釧「二側一c : e n d : i f n( & M ̲ c )ニ1t r u n . p r o cs o r t data=M̲pq:by & M ̲ r : r u n : p r o c transpose data=M̲pq o u t = M ̲ a : b y& M ̲ r v a r Mc o l l : i d n a m e r u n . p r o cs o r t data=M̲frq:by & M ーr : r u n : d a t a M̲frq:merge M ̲ f r q ( i n = i n l ) e n a m e = ( M ̲ p ̲ & M ̲ c = M ̲ p ̲ & M ̲ r M̲q̲&M̲c=M̲q̲&M ーr ) ): b y& M ̲ r : M̲a(in=in2 d r o pニ name̲r drop ̲ t y p e ̲ : i fi n lニ1& i n 2 = 1 &̲ t y p e ̲ = 3 : r u n . p r o cs o r t data=M̲frq:by & M ̲ c : r u n : d a t a M̲frq:merge M ̲ f r q ( i n = i n l ) n 2d r o p ニ n a m e ̲r e n a m eニ ( & M ー「二品 M ̲ cM ̲ p & M ー「・ー=M ̲ p & M ̲ c .̲ M ̲ q & M ̲ r .̲= M ̲ q & M ̲ c .̲ ) ): M ̲ a( i n二i b y& M ̲ c : i fi n l = l&i n 2 = 1 : r u n . M ̲ r& M ̲ c : r u n : p r o cs o r td a t aニM̲frQ:by& / * 分布聞の差を表す指標の推定値指標の分散の推定値 Z統計量 p値の算出一本/ d a t a Ma : s e t Ma : r e t a i n M a0 : ̲ a+ M ̲ p ̲ & M ̲ c *M ̲ q & M ̲ r 一‑ M ̲ p & M ̲ rー * M ̲ q ̲ & M ̲ c : M ̲ aニM c a lIs y m p u t ( ' M ̲ a ' .c o m p r e s s ( p u t ( M ̲ a . b e s t 1 2 . ) ) ) : r u n . d a t a M̲frq:set M ̲ f r q : r e t a i n Ms a s a l Msasa20 : ) 一( 2 * M ̲ Q ̲ & M ̲ r‑M̲p̲&M 一r ): M ̲ p h i = ( 2 * M ̲ Q & M ̲ c .̲ ‑M ̲ p & M ̲ c .一 ) * M ̲ p : Ms a s a l二 M̲sasal+(M̲phi*本2 ̲ s a s a 2 + ( M ̲ p h i本M ̲ p ): Ms a s a 2二 M M ̲ s a s a l一( M ̲ s a s a 2 * * 2 ) ) / M ̲ n : Ms a s aニ ( c a lIsymputCM ̲ s a s a '. c o m p r e s s ( p u t ( M ̲ s a s a . b e s t 1 2 . ) ) ): r u n : d a t a& Mo d s n : 品Ma : Ma = M sasa=&M s a s a : ‑ 3 7 0
i f% s t r ( & M ̲ s a s a ) ^ = Qt h e nd o ; ニ釧 a / s Q r t( 酬̲ s a s a ); Mz M ̲ pv a l u巴二 ( 1 ‑ p r o b n o r m ( a b s ( M ̲ z ) ) ) * 2 ; e n d ; e l s ed o ; Mz = M ̲ p v aI u e = .; e n d ; r u n ; t i t l e l 'A g r e s t it e s t' p r o cp r i n tl a b e ln o o b s ; ̲ a = '分布聞の差を表す指標の推定値, Ms a s a = '指標の分散の推定値' l a b eIM M ̲ z = '検定統計量 Z 'M ̲ p v a l u e二 p値 r u n, ti t l e l ; 目 巴n d ; 怖m e n d ; 6 . おわりに マクロをご使用の際にはフ。ログラムをご、理解の上,ご使用いただければ幸いです. 臨床試験の解析業務にかかわる者として,今後も機会があればさらにこのようなプログラム を作成していきたし立考えております. 様々なプログラムがこのプログ、ラミンク。コンテストで、発表され,技術向上の場として発展してい くことを期待し,結びの言葉とし、たします. [参考文献] A g r e s t i , A . ( 1 9 8 3 b ) . T e s t i n g m a r g i n a l h o m o g e n e i t y v a r i a b l e s . B i o m e t r i 白 3 9, 5 0 5・5 1 0 . 宮原英夫,丹後俊郎 ( 1 9 9 5 ) .医学統計ハンド ブ ック.朝倉書庖. f o r o r d i n a l c a t e g o r i c a l ヴi ︑ nυ よ ‑
日本 S A Sユーザー会 (SUG I‑J) 要因配置実験の結果解析のための簡易な入力形式 0柴山忠雄 (前所属・名古屋市工業研究所) Simplei n p u tformatt obeemployedi nanalysisofr e s u l t s off a c t o r i a lexperimentation TadaoShibayama ( R e t i r e d : NagoyaM u n i c i p a l l n d u s t r i a lResearchI n s t i t u t e ) 要旨 各々の処理要因の水準値を実施処理の順に列挙して実験配置を定める.活動対比要素を与える処理要因の 水準値を列挙し,対比要素に作用する制約式の特性値を列挙して,応答構造・対比形式を定める.それぞれ J 1 をA S C I Iシーケンシャルファイルとして記録媒体に保存し,用意した F O R T R A N 7 7主プログラム列に の数{iO より主記憶装置に入力し応答対比換算配列および応答残差換算配列を生成させる.それぞれの配列を任意の 応答に作用させると制約式っき最小 2乗法による活動対比要素の推定値と推定残差とを試揮できる.揺!lV J 要 素を記号制に列挙し,試算対比および試算残差への流入を与える配列を生成させる.無効対比の分解(レゾ ) 国は,要因配置実験の結呆整理の科味旦みと具体的 リューション)を確認する配列の生成もできる.一連の手1 な計算手順とを同時に与え, S A S / S T A Tソフトウェア, S A S / Q Cソフトクエアなどを利用する基礎となる. キーワード S A S / S T A Tソフトウェア. S A S / Q Cソフトウェア,レゾリユーション,要因配置実験 ) 慎を F O R T R A N 7 7 形式の A S C I Iシーケンシャルファイル複 目的各種の実験配置の上での実験結果の解析手1 数個と同町R A N 7 7 主プログラム複数個とで書き表わし実算に利用できる形式を得る.不規則な配置の実験結 果の解析にも利用できる共通の形式とし,実験計画法の専門的な統計ソフトウェア利用の基礎とする. 方法つぎのづ車の手順 [ 2 J[ 2 a J をプログラム化する 1 )まず,要因配置実験の代数的形式を F i n r 町 K e . 叩t h o me.̲処理/対比記号積と D i r a c括弧記号とを用いて表わし, 2 )複数要因の直積線1 開蒋造の省略配置 の上での制約式っき最小 2乗法の規準方程式を導びき, 3 )そして,これを対角要素法で解く.このために, 3 J[ 4 J ) を用い,実際の計算を実行してみ 実験計画法の代表的な書物に示されている各種の例題(たとえば [ る.さまざまの不規則な配置の応答構造・対比形式を書き表わしてコンピュータに入力するのに便利な表現 方法として A S C I Iシーケンシャルテキストファイルの利用を想定し,標準化の方法を模索する.それに並行 して,これを主記憶装置に入力し処理を実行して最終の計算結果を得るまでのプログラムを作成する. 結果応答構造・対比形式を指定するファイル L D F N .T X Tを定め(表・ l ) [ I ] [ l a J,主記憶装置に入力し て応答対比換算配列 O N R T (表・ 3 )[ I J[ l a Jを得るまでの F O R T R A N 7 7主プログラム複数個(表・ 5, 5a, S L D F N S ‑ S O N R T S )[ 1J [ l a Jを作成した.また,応答残差換算配列 R L R Dを得るまでの F O R T R A N 7 7主プログラム 複数個(表・ 5,S R R N M S ‑ S R L R D S )[ 1J [ l a Jを作成した揺動要素を指定するファイル L V F N .T X Tの形式を定め )[ 1] [ 1a J,試算対比および荒賀残差への流入を与える配列を得るまでの F O R印 刷7 7主プログラム複 ( 表 ・ 2 373‑
L V F N .TXT 喝 ︐︐) n J ' ﹄ 内 ︽ リ v a n ‑ y qunud rトL ηLqJa4 n ︽ J v n 吋︾ =‑= =‑= ‑ ‑ ‑‑ ‑‑ ‑ ‑ ‑ ‑ ‑ ‑= ‑F ‑‑ ‑‑ ︾‑‑ 守 l a ‑ n J ' ﹄ 4 E a n J ' ﹄︐ a n J ' ﹄ q 4 u a n ﹃ 目 川刊山刊川町川町 ll﹄‑Ill‑円円 = qvnUTintTln円一一 ntqJqJqJVAli‑‑ TI‑‑ ‑ 一 ‑ UN川= ﹁ r'ニ nU ニ EL‑‑ 4lntqJAJI‑‑‑ 吋n nu udnudnudn︐ ι= ‑ 一 ‑ 一 ‑ 一 一 一 一 一 ︐︐frト﹂ 一‑ 一 一 勾 勾 一 一 一 一二 & t ‑ n H ニ ・11= 気 u= rwEO= &t‑nH‑‑ cu‑‑‑・= vlnHn川= ρunun川= ﹁hucu= emr= hu+L:ua:・= mnnr十‑= 唱 n川auTnun川n︐ι一一 HUFBnJLη u 円川qGeonJLnJιnH・11eoan守&t‑1leonJι一‑ rtqJιtlO十J斗 ca十AL二 n+LnnJL︽HU‑‑lsnHA守arBnnJι一‑ nveoaunJLFhu&t‑&t‑aunJιp+l&t‑aunJι= IlnHm川nr'‑44冒auqum川nJιcum川nJι= &t‑nuounJι噌EanuqGaun︐ι G n H O L v n ︐ ι ‑ 一 ac‑‑ηLnu‑‑r1into‑‑nt= n u ρ u n J L P n u w r ? ' & t ‑ O L V 4 E ' F 守 ' F U O L v n ︐ ι 一 一 ‑gianta4・fin‑‑onJι一一 F?'﹁トLnJLnJ'﹄&t‑nurトL4E'qG﹁トLn︐ι一一 ‑slnHElunJL︽HununUElU4EEPOElunJι一一 &t‑・114Ea﹃︐︐aun︐ι︐EEnHn︐ι一‑ nu‑‑PDAUWEontau‑nt一‑ OU&t‑‑4EanHU目自EnH‑4E'uv一n︐ι一‑ J門UP04Eapnu‑‑114EaouponJι一‑ ・ l a t iつdよlrqL1l+﹂nt一‑ ﹁11intoo‑JntS1Jnt‑‑ n H u n ︐ ι ‑ 一 Z I ' & t ‑ n u U 4 E a a n 守 t n u n u U 4 E ' r ? 'G onJrInti‑‑nHEd‑‑orEdnt‑一 ︒︐l︑nunvagbrtqL+﹂f︑nt‑一 ncvfnunoVIVEηLrnvfqL= ・Inu‑‑nurenυ‑teD1LqL一一 gballnuooenIt‑‑﹂UC11nt‑一 ・1lnupnZI‑‑amnt= r z l n U凋斗 n Z I ‑ ‑ u n n t 一 一 nU0・‑AUnt‑‑0・・4INHi‑‑‑nJι一‑ e︐anJ'﹄内︽ ω 一‑ ︐ffqdrE︐ffqJ︐ffq4u一‑ 什 nN= &t‑一一 ハ H V ハ H V ハ H V 4 E E F u n ︽ u n J ι ‑ ‑ nvnv1・nveqぺ V ‑ 1 ‑ 一 ︽ H U 4 E E ︽ H U ︽ H V 内 ︑ u n ︽ U ハ H V 一 一 ︐aハHVハHVAHvn︐ιnud‑‑ nunxunuvntnu‑‑ nvnxunuz‑‑nt7'一一 ︽ H U ハ H V ハ H V A H U F u n J ι p h u ‑ ‑ nunununUηLFhd= nUAunxu‑ntsa‑‑‑ nununVAUntqJ= ハ H V ハ H V ハ H V A H v n H n J L n ︐ ι 一 ‑ nvnunxUJ口nt1・= nvnxunvlntnU二 ハHVハHVハHVAHV・Eanud‑‑ A H V ハ H V ︽ H U ︽ H U & t ‑ 4 E a n M U ‑ ‑ nvnvnUハUD‑‑7'‑一 nvnvnunu‑‑'ipnv= nvnvnUAHvnν1ERu‑‑ ハ H V ハ H V ハ H v n H v ‑ 4 1 ' a a 冒 一 一 A H V ハ H V ハ H V A H V & t ‑ 4 E s n ︽ω nunxununH4lnt一一 一 nunxUAUρV‑1‑a一一 nununvnvm1λu= nununvnv十λunHニ ハunxunvaMAUnu= nunvnunveハU7'= nununuハυrBAUPD= nvnvnunUγlnURu‑‑ nvnvnUAUAUA官= ︽ H U A H V ︽ H u nυ︽HV内︽u‑‑ nvnxUハUnNHnvn/﹄一一 nunxunu‑‑ハNIl‑‑ Aハn口nu & t ‑ nUpo ‑‑nH 気 um川 v l 川 U 4 E ' n J ' ﹄ 内 ︽ U & L I l t eonu n川nunuU D‑‑ CHU ρ u 'h川 V A L‑‑nudn︐ιn︐ιn︐ι﹃︐︐︐ eonudn︐ι4E'nJ'﹄phu n u u " 凶n u J W 4 E ' n J ' ﹄ n J ' ﹄ F h u ‑‑lnvnwM41・41'nJ﹄aa冒 rqLnvη4ηLqJ Fbn︐ιnuJW4EEn︐ιn︐ι rB﹁E4lnudηLqLtl n u E l U 4 E E n u J W 4 E ' n J ' ﹄ ︽ H V &t‑n︐ιn︐ι︽U04EtnuJv nun︐ι4ElnuJW4EEnMU vv'qG一ezgn︐ιnud噌EB﹃︐︐ 気UF守a・4ZB4EtnuJW4E'phu rnudnUη441Fhiv ﹁日︑iJnynU41噌iaAマ 気u'h川nuun︐ιハHvnud4E'n︽U +L1ltlnunv マiqL &t‑'ハHvnudnJ'﹄噌E84E' n H F 守 ' n u u ハ H v n u J W 4 E ' 4 E ' A H U ‑‑invidnUηLnudnunud art︑nv1zqvnvno rSMHnudηLnunU﹃/ 十﹁14日川nWu‑‑nvnvp口 senuqLnudnunUFhu nHHVEE﹂4E'nudハHVハHvan‑y oenvnvqunvqJ FUtLnunudnununUηL B 守 ‑ ‑ n u d A H V ハ H V E l u ハ H VB nu ︐︐fq4ur L ド ‑ ‑ 5 9 6 0 6 1 6 2 6 3 6 4 6 5 6 6 9 9 : nn 1 4 : 00000000000000000000000000001000 00000000000000000000000000000100 00000000000000000000000000000010 00000000000000000000000000000001 10000000000000000000000000000000 01000000000000000000000000000000 00100000000000000000000000000000 00010000000000000000000000000000 9 9 : t i η 正咽tqJι41η441n411ηL‑Int・‑ηLtlηLtlη418ηL Pupupupununupupunupupununupupunu川刊川HWH川H 4 E ' n ︐ ι 4 E ' n J ' ﹄ 4 E 2 4 E ' n ︐ ι n J L 4 E ︐ 4 E ' n ︐ ι n ︐ ι 6 E a n ︐ ι 4 E a n J ' ﹄ 4 E E 4 E ' n ︐ ι n J ' ﹄ 4 I S 4 E a n J ' ﹄ n J ' ﹄ nunununun口nDnDRUn口n口nDRUpupunununDnDnDn口n口n口nDn口Il‑lil‑ h‑ ‑‑4Eln︐ι・ ﹄ E l n ︐ ι n ︐ ι 4 E 2 4 E E 4 E E e a a n ︐ ι n ︐ ι n ︐ ι n ︐ ι 4 E E n ︐ ι d E t 6 E B n ︐ ι n ︐ ι 4 E B 4 E 2 4 E E 4 E a n ︐ ι n ︐ ι n ︐ ι n ︐ ι aHaHn口n口n口n口aHaHaHaHaHaHaHaHaHAハnDn口n口n口AハaHAハAハAハAハaH A ハ 'lqL 嘗141 守lτit‑‑ES41 唱t'l'l'tTS'141qLηLqLqLη4ηLqLη4ηLqLqLη4η4ηL eonHHnHHnHHnHHRHRHnHHnHHnHHnHHnHHnHHnHHnHHnHHnHHnHHnHH門円円円nHHnHH門円nHH門円日川門円nHHnHHn円 n H m 川 4 2 g n ︐ ι 内 ︽ u a n 守 F h u p h u ﹃ ︐ ︐ ︐ n M u n u J W ︽ H u e E a n J L n ︽ u a n ﹃ 目 F h u p h u ﹃ ︐ ︐ ︐ n M u n u d A H V 4 ' t n ︐ ι 内 ︽ u a n 守 F h u p h u ﹃ ︐ ︐ n M u n u d ハ H V 4 2 a n ︐ ι 内 ︽ リ v a n ‑ T U41TI41411l414IT‑‑ マ n ︽ u n ︽ U 141qLntntqLη4η4ηLqLη4ηLqJqJ司u 1lHV n u E l u n u snU4lnununununununununununUAunUAUnu'141nunununununununununu‑‑nUハUハUAU +LMHnU噌lnUハUハUハUnununununununU︽U︽UAUハUtt'lnunununununununununU 胃 lnUハUnunu nfdnU噌lハunununununununununununUハunUAU4lnunU4lnunununununut‑nUAUnUAUハUハU eハU1λunvnvnvnvnvnunvnununuozunvnv1λunu‑‑nxunxununU4lnunvnunUAUAU mxnUTlハunUAununununununununUハUnunUAυfinununUTlnunununu‑‑nunUAυnunununu enutlハUハUnununununununununU︽ununU︽U4lnununu'lnunununU4lnununUAUnUAUnu ‑‑cunu‑‑nunUAununununununununUAUnunUハUfinu‑‑nunununununUAUnu‑‑ハUハunununu ewHAU1aハunxunxunvnvnunvnunV02ununv1λU1λunvnvnunvnunvハU1・nUAUnunvnU onu‑‑nunvAUnUAUAunvnunvnununvnUハU1EAU‑anvnvnvnvnvnV410vnUハunununuovnu よunvnvnvnvnvflnununununvnun‑u nrnU1λunU︽UnxunvnvnvnvnunvnvnUnu‑‑nu1 onU41ハUnununununununununununununu‑‑AUハUnu‑‑nunu‑‑nUハUハU︽UハUnUハUnunUハU ・1uHnu‑‑nunυnυnunununununυnunυハunυnvtlハUハunu‑‑nunu‑‑nunununυnvnυnununυハU +LllnUTlハUnunununununununununUハUnunu‑‑ハunununU14flnunUAυハυnunununUハununu aAU‑‑nununvnvnvnvnvnunununUハunvハU1・Aunvハunu‑‑1anxunvnxununvnunvnunv uハUTlnununυnυnunununununununUAUハU噌iハunu‑‑nununυnUTlAunununununυハununu +L‑nu‑‑nunununununununununununUハUハutInunuftハUハununu‑‑nunuハunuハUハununuハU cfinunu‑‑AUハUnu‑‑nunununununUハU11ハununununUAununununununUハUハunununUAU utlnunutlAUAUnU4lnunununununUAU4lnUAunUハUAUAUハUnunUハUnunUAununUAUハUAU !i︑l'tlnunU41﹄ハUstnununununununufiハUハUnunununUハUAununununununυハUハUnunUハUハU ﹁ru‑‑aハunu‑‑nv1λunvnvnunununu‑‑nvAUハunvnunuAUAUnvnvnUハununvnUAUnunxuAHU Ed l 曹n vAHvfiti‑nvnvAUAUnununu‑‑ハunvnvnUAununvAUnvnunxU︽UnunuovnvnunxunU S4lnunU4141nununununununuflnunUハUハUハUnUAUハUAunununununUAUnUAUハUハUnunU E‑RH l 曹n unU1λunv'lnvAUnunununUハU1・nvnunxunvnvnUAUnunvnUAUnUハunvnvnUハUハU V'Il噌lnunU4lnunU4lnununununununutlnUハυnUAununUAununununUハUnununUハUハUnunu a︐l︑tlnU4lnunununu'lnununu‑‑AunununununUハununUAununununununUハUnunununUハU rBM川4inu‑‑nunununutBnunυnUTtnvnununuハυハUハUAUハununυnununυハununununυハυηUAυ ﹁ρuflnU1 nunutlnunUAUf‑nUハunυハυハυnvAUAUハunυハununυnunUハUAUnunυnυnununυハυ av‑‑λu'IAUAU1λunvnv t 曹n UAunvnUAununvnvAUnunununzunvAunvnvnUAUAUOZUAU 1 3: J Q ー﹄1λU1λu'lnvnvnv1anunUハUAUnvnununvAUnununvnununvAUAUnvAUnununvnunU1︐ t1 01010001000000000000000000000oo‑‑o 勾 し ﹄ of‑nut‑nununutlnununu‑‑nυAunununUハUハUハUAUハunUAUnunUハUハυnunununUTinunu tL・‑tinU 叩lnununU4lnununU噌lnUAUAUハununUAUnUハυAUハUハUnununUAUAUハυハUtlnununu ー ︐ f r F h u )eir 1 2 : T E E r ﹁ L Mm a ハ nwH一一二‑‑ aハHnHUMN PPIli‑‑d ((((( 1 1・ (( '''') J N 唱 n ︐ ι ηu n ︽ U ﹃ ︐ ︐ ︐ ﹃ ︐ ︐ ︐ q4un︐ιn︐ι 1 6 nn===== AハHHHUHH﹁EHH nrti‑‑‑Mmadad ハ a n w H L Tl ト ﹁ rトL M M m ( I U 3 1 2 : 3 2 I H ( L D F N .TXT Number o f treatments a s plotted Number o f treatment factors T o t a ln ro ff l u n elements 2 + 4 + 8 )叶 6 本2 +32 2 + 2本 ( 1 1 H n 口 P U W H n 円 n 円 ‑ 円川 円 つJ V 守 / 守 l = a 町 一= n f ' ‑ nv Jl ﹄& =t t‑ ia ‑E ‑' E‑ J =n ‑u ‑n 一川 一 =& 一t ‑‑ 一G U F ‑ ‑ =c 一m =: 巴 一 ‑ ‑ 唱 U& t‑ 4Eg nJ'﹄η u ‑気 ‑ 一 一 一 inu‑ AハnDpu I '一G一m一川 一 ‑Z 一 ρv ‑一一 一c 一u H U 一 e o n H 一t 一r 一n 一n 一u n ‑ c u n一 H一 &一 t‑m川BEE‑ & t ‑ m 川 ‑一 FbLE ρ一 u一 u一 un川一 e A V H U 4 E E n ノ ﹄ 内 ︽ u 一一 q a s ‑ ‑ V'+LS 一m 一川 ‑l =n H ' ! l n u ‑ IllnHqa 一& 一t 一‑ 一n 一u n u ‑ ‑ ‑ ‑ ro 一a 一a ‑c =+L‑ & t ‑ n u n u u ヨ u&t‑ n川 ' J門uuv 一e 一e ‑q二 Lti‑‑qJιηLaっdηLqLno‑ l l Unt‑‑11‑lntcqJ l ρucu‑‑rBnH 曹 nL7'‑ OHU 一v 一l ‑H= t ﹁ 十 ‑ S + L O q L 一+ 一 ‑ iI 一l‑ η4ηL'lqJιη4・!っdnuηLGU‑ n u t t l Lよ &t‑nunuvlpGnu‑干 一 一 ‑ oq LηLtitiqLZlηLnvrBηLFhd‑ = auvA GV An J'﹄n︐ιn︐ιnJLnJ'﹄目tln︐ιnMuaun︽un︐ι‑ nv&t‑qanunHn︽unJ'﹄ 一 q 一 ‑ = IlC&L日本日本 qLη4η411qL+﹂η47'hu つJV11一 E n u u n J ' ﹄ n ︐ ι n ︐ ι n J ' ﹄ ﹃ ︐ ︐ 一 一A ‑u= '一 es nvapTCC︑l'VηL 一f一 =?TIntntntnH?戸口mqJnv‑ & t ‑ e o n J ' ﹄ n J ' ﹄ 4 1 t n J ' ﹄ p h u ‑w 干 1 0 a η L l + 一口 wη441ηLηLFhiv 一十‑ =η411ηLttηLeηLFhJVUηLnv‑ S L つd 一 一 一 気un ue s‑‑4E︐.E'nJLnJ'﹄﹄門un︐ιan守門川 EsauT一 よ1よi 本 + 一 一 n 川 n u n J ' ﹄ e ﹄ a 4 E E n J ' ﹄ S U T ll r‑‑ 守itltlqL・lnt つd ‑ EつJ ‑ ‑ I F ‑ ‑ E ' n J ' ﹄ n J ' ﹄ n J ' ﹄ 内 ︽ U S 十 ‑ 十 ‑ r o n t C B 本 一'一 ‑i= V 一 一 一U4 =EEn︐ι4EEn︐ιn︐ιn︐ιn︐ιn川4EEFhU一 nHnHnHρuwzo︐l︑気u︑l' 一 O UH Tlη41EηLnt V ﹂UHn41ηLtl十JBηLAUηLt104iFhu一 uee e ο H H H 噌 E ・ ・ 4 ' ' n J ' ﹄ n J ' ﹄ 4 E E ﹂U n r + q L つJV干1本 一 e ‑‑ rmmmle ‑a‑ =4lqLqLnqLηLeηLnul‑‑qL一 rBtdyI4ltlqLnu +L十‑u十包lhu本oqL lLtflqLqLe‑‑ηLt119ttEft‑ = 一 一 一 nun︐ιnHvnJ'﹄4EEnud ZI'qap+lqGnunum川︑tJ'''a︑ ‑ E E 4 E ' n J ' ﹄ m 川 n J ' ﹄ n J ' ﹄ & t ‑ 4 E a n M U q G 4 E Z ハ H V 一 = 一 二 &t‑nJ'﹄︽HU4EB4E'nMU nvenueauntr+ = 一 P U ‑ 4 E ' ︽ H u n J ' ﹄ 4 s t ﹃ ︐ ︐ ︐ 一噌一 一‑ I4lnLB4Into‑︐﹃lcnvqu‑ rrmrn+n つd = 一 一 一 41ntηLrBη44le‑‑4lcDlnunt‑ 内d ︐t︽HU4E14EEFhU F守a'AHvn︐ιnJ'﹄4EBFhu 1︐ ヮιnt川U1︐1anν1︐RUP+lハU1︐一 r + L ﹁ 十 ‑ u e q L 本 =v 一y一 ‑ ertem+Ll﹄rtIlqL =気 一 = u︑ iJ41'41'nJ﹄qunr'‑41'‑41'aa冒・ftハHV44冒‑ vy︑l'nvnrτ14la斗 つJV+Lnuつd‑ 内dnunuuハHV4EEn︐ι︐sn4JV 噌ltlηLat‑‑l十Jf h u h u ‑ ‑ n a + a + =r ‑n 一u‑ m川m川VABE&t‑q4U&t‑ Ea r11414141eη441n41ηLnnunu‑ r B仏日lInu‑‑4141ηL rB+L'qLηLnuti‑‑ uuuund内U内U =a ‑ = らlei‑‑m1︐n l 曹 e124lenv﹃l‑ UNMMN川MM川TEETEE n H H 4 E ' n J ' ﹄ 4 ι t n J ' ﹄ n U 4 E ' m 川 4 E ' ハ H V I 門 U ハ H v p h u ‑ qG門阿川nJ'﹄4EaハHV4EaハHV r T ' E l U 4 2 a n J ' ﹄ ︽ H V ︽ H u n u d & t ‑ ‑ E a d E a n ︐ ι 4 E ' I 門 U 4 E ︐ . ︐ t ・ 2 E & t ‑ ハ H v n吋 v ‑ a t ハ H V F h u ‑ t= qLη4ηLeη4+﹂11anUQυqLη4‑ +﹂Of︑fi‑‑nununo ‑n 一r ‑ =ρ ‑ u T ‑ I E n 一 J ﹄ n r ' ‑ n f ﹄ ・ 1 4 4 1 ' 気 U 噌 t E Q U ハ H V ﹃ ︐ ︐ ︐ n H n J ﹄ 4 1 ・ 一 cuMM山内HVハHvnJ﹄ハHV﹃︐︐ mnnqLflη4よlηLC1trnuauuqL8U寸一 qGCο門阿川内HVハHveEEハHvphu HHHUHH﹁EHn & t ‑ T E E n ︐ ι 4 t s n ︐ ι ・ 2 4 ・ E a ‑ ‑ 1 4 E ' T E E ハ H V F h u n w H n J ' ﹄ 内 ︽ u ‑ rBllpunuqLnunUFhJV FI‑‑umldld Lq ‑a 一l‑ =L1111rBqJι1111nU8U寸fino‑ &Lou‑‑﹄ハU1・nUハUsa・ ‑e 一n 一t‑ 1一 ・ぜlu‑‑nv1aAUqJ417'‑ n川UvnJ'﹄︽HVハHVハHvn︽リw =r ‑B‑ 一ηLti‑‑qJι 巴41n円nuqL川刊ηLnU一 oe‑anunv日川内Unt qL I‑ qL η441nr41n円tl i 一T 一 ‑‑‑ 一 ﹃n U4114finud一 nuiL‑‑nununuldnU41 n J ' 一 ‑ 一 一f 一i一 f‑ rn ﹄︐fr︐fr︐fr﹁rL︐fr﹁rL一 / r n t ︐ / ﹁ E 一︐ 一 一J一 1 5・ 1 0 1 0 : 表・ 2 想定揺ll!I J を指定するファイル入力の例 表. 1 実施処理・想定対比のファイル入力の例 d 斗 nペU ηl
114
噌
円
b
のF ' M ‑
ー
のF'M
唱
TA‑‑
ri‑‑
け
噌
﹄句
唱
﹄
﹄
曹
唱
句
唱
唱
唱
唱
噌
守
唱
噌
唱
唱
市
噌
官
噌
噌
唱
守
﹄
唱
旬
唱ー
ー
TITITITI‑‑1 ti‑‑ ttttETt tTlSEttT12E't 'T1τttta‑‑Ti‑‑4
一一一一一一一一一一一一
‑
︑
︐
内 υ TL一
f
ら
つ1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
21
u
一一一一一一一一一一一一一
吋
内1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
30
一一一一一一一一一一一一
ハU q u ‑
1 . Q J 1 1﹄
1 TI‑‑11﹄
1 111l
1 't't'ttSTI‑‑ l1ltlTITl tTIti‑‑'t I 1 J﹄
pEU つ 白 一 一 一 一 一 一 日 一 一 一 一 一 ‑
三 l
日 111111111111111111111111111
.
. っ
u
一一一一一一一一一一一一一
i i 1 1 T ﹄ Tt‑i‑111111J11111t4l''''Tl't'tTi‑‑ 41lτ1TITI‑‑TI‑‑
つ白一一一一一‑一一一一一一一
‑iTITIτlttt11a't'l lTITi‑‑1111TITle‑‑ι l ‑ l tegφ l ITi‑‑
つ民uら
一一一‑一一一一一一一一一
5
1一
1一
11
1一
1一
11
つ1
ら1
一1一1一
一1
一1
一1一
一1
一1 1 1 1 1 1 1 1 1 1 1
A‑1‑'lTl l ' l lytTtqi‑tTITI‑‑Tlτ11l'i i T I T I l 14l't'111
一
一
一
一
一一一一一‑一一
q U 1 1 lTITi‑‑4ly‑‑TITi‑B111tTITi‑‑Ti‑‑1ιTI‑‑Ti‑‑tt'z'11111
一
‑
一
一
一
一‑一一一一一一
︐
内
つ'MTITITI‑‑11111・
TITI‑‑TITI‑‑TITI‑‑TITi‑‑TITi‑‑ttSE'1111
一 ‑ ‑ 一1一
一一一‑一一一一
11111111
1一
1一
11
1一
111111111
2‑‑‑
一1
一1一
一1
一1
一1‑
'I'11
i ' 1 2 1 tTITi‑‑T1 111111lt11111 11l'''''ETt︐︐
1 ETL
﹄
一
一
一
一
一
一
一一一一一一一
r
.V J n υり
viQJ1l11‑111111
Ett ''I1lTIT‑‑tTt i l i 1 1 1 l 1 1 1 1 1 1111111I
一 '一
一一一一一一一一一
a8111111111111111111111111111
一一一一一一一一一一一
1 1 イ 1 イ イ 1 1 寸 寸 1 イ 11Jつ寸 1 1 イ イ 1 1 寸 1 イ 寸 1
︒
ヘイげ
・ ;
l
︑
ぱ
{
71J
﹄
sqU6
1 1 1一1一
1一
1一
11
1一
1一
11
一1
‑1
一1一
一1 1 1 1 1 1 1 1 1 1 1 1
.︐二 l
/︑
l
︑
に υ1111111J1ltE'ESETITI‑‑TSTAys‑l'i'i1I111111111 1eti‑‑‑‑
EVIl‑A‑
一一一一一一‑一一一一一
11j
I
J41111
1‑
1一
11
1一
1111111111
一1
一1一1一
一1
一1
一1
宇1一1一
︑一一[一一一一一一一一一一一一一
0l
'i
l
j
:3
111111111111111111111111111
f
‑Amd
a
t
3
噌
守
﹄
唱
唱
唱
﹄唱
﹄守﹄
咽
唱
つ‑ 1 3 1 1 1 1 1 1 1 1 1 1. ︑ltE1E1l111aTITi‑‑TI‑‑1111Tt111l11111111
1lJ1 一 一 ‑ 一 一 一 一 ‑ 一
一一一
ー
i l 1 1t1
1 1 1 1 1 1 1一
1一
1一
11
︐
一1
一1
‑1
‑1
一1
一1一1 1 1 1 1 1 1
i‑‑‑
一
丁
0 1 1 1 1 1 1 1一
1一
11
1一
1一
11
一1
一1
一1一1一
一1
一1 1 1 1 1 1 1 1
47 1
ゲL I ‑ ‑
当手つ﹄ 9 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
在民プ一一‑一一一一一一一一一一一一
換引 8 1 イ1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
1一
1一
11
1一
11111111
レU 1 4 7 1 1 1 1 1 1 1 1 1
‑1
‑1一
一1
↓1
一1一
ドシ 1h
1‑
1一
11
1‑
1一
11111111111111
斗・リ 二 5
一1
一1
一1‑1‑
一1
一1
一1一
ムゾハハ同
;
J5111111111111111111111111111
一口]一一一一一一一:一一‑‑
1︑
4ー
1一
1‑
1‑
1一
11
一1
一1
一1
一1
一1
一1
‑1一1一1 1 1 1 1 1 1 1 1 1 1 1 1
c ) 3 1 1 1一
1一
1‑
1一
11
1一
1‑
11111111111
一1
一1
一1
一1一1一1一
nk
T
Iっ
ょ
t
1
T
l
︑
a
'
'
e
'
I
g
‑
‑
Tl t t t キg t
I
T
‑
‑
4
司
t
'
t
t
T
11lτtTlT1T
' ‑'M一
‑
一
一
一
一
一
一
一
一
一
‑
旧 l 1 1 1 1 1 1 1一
11
1一
1一
11
一
一
‑
一1
‑1
﹃1一
一1 1 1 1 1 1 1 1 1 1 1
(ーl J ‑
quA1Runb
ワaQUQdnυ1Aつ‑qJVA1RU bmiQOQdnυTAつ‑qJVAせ にυ︑b n i
mら
illili‑‑122222222
つ
パ
‑f
t
yi 1 TA
表制
‑R
e
s
p
o
n
s
e
sa
r
ec
o
n
v
e
r
t
e
dt
ot
h
ef
i
t
t
e
dc
o
n
t
r
a
s
t
sbyo
p
e
r
a
t
i
o
no
ft
h
ea
打a
y
.
︑
u
....••••.....•••••••
川九
引
↓
sd
'M}
v
d
ahμ‑
也
hド
し
判
判
‑ ︺叶 川 引JJ 1 2 3 4 5 6 7 8 9 0 1 4 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2
illli‑‑112222222222333
表側 日
(
4 珂 lhhhhhhhhhhhhhhhhL14444ι1444ι1444444
一‑‑‑
hH ・
・・ . . . . . . . . . . . . . . . . . . . . . ・・いけい H
︑J ‑ ‑ h H一
一
nu
・・・・ h h ・ .......... ・・・・・・・ h h ‑ ..
リ
λ
8 5・92
一
一
Jzt︑︑︽川
U
O
O
﹂
川
L
H
・
‑
‑
‑
‑
‑
LHLH‑
一
2 一
一 7a ・・・・・・ ι
日
﹄
日
・ .......... ・・・・・・・ ι
︑1一
日﹄ H ‑
ワ
ruu
一
'i
n H ? ........ ・
・ lnHlnH・・・・・・・・・・ lnHlnH・‑‑
・
一
︐
︑
・ ‑‑‑‑‑‑‑‑‑‑‑hHhH‑‑hHhH‑‑‑‑‑‑‑‑‑‑‑
1i
HHN'ν
一一
︑
一
・・・・・・・・・・・ nHlnH・・・・・
・φ'EULAnA S ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ l n H l n H
り︼‑一
・
l
・・・・・・・・・・・・・・ hHhH・・いけい H・・・・・・・
cdqυ
一
一
02
日﹄日・・・・・・ ι
日﹄日・・いけいけ・・・・・・ ι
日﹄ H
nHr
勺﹄・・・・・・ ι
U‑J2
一一一︻
Ulinin‑‑‑‑‑‑hHn ・・・・・・・・・・ lnin‑‑‑‑‑‑‑nln
nuηM 一 ‑ ‑ ‑
c o ‑ ‑ ‑ ‑ h h ・・・・・・ h h ‑ ‑ h h ・・・・・・ h h ‑ ‑ ‑ ‑
岳一‑‑一
3J‑‑hHhH‑‑‑‑‑‑hHhH‑‑‑‑‑‑‑‑‑‑hHhH‑‑‑‑‑‑hHhH
一一一一
K[
' U B h h h h h h h h ・・・・・・・・・・・・・・・・ h h h h h h h h
f
︑
1& 一一一一一一一‑
・
l
H
lnH
nHlnH nH
nHlnHlnHlnHlnHlnHlnH
︑
pu
・n一
・一
t ・・・・・・・・
・
・nHlnHlnHlnH・・・・・・・・
一一・
一一
一
円i ‑
ρ﹂ 守 ︐
・ 4 4 ・・・・・・・・・・・・
R
日山・・・・・・・・・・・・・・ h h ・
hHhH・
・ ‑‑‑‑‑‑‑‑hHhH
R
υ ・・・・・・・・
一一 ・ ....... .
nH nH・
・ HEH・・・・・・・・・・・・・・
︑
︑
︐
︐
ノ
吋
A
・
・
・
・
・
・
・
・
・
・
・
・
・
・
・
E
一
一
nd1A
・ ‑‑‑‑‑‑‑‑‑hHhH‑‑‑‑‑‑‑‑‑‑hHhH
/t¥qu
一
一
nHUT‑‑
・・・・・・・・・いけ﹄日・・・
IllJ︿
q リワら.・・・・・﹄ H L H ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ "
F l l h h ‑ . . . . . . . . . . . . . . . . . . . . ‑‑‑‑‑hh‑‑
l‑‑
一7J
一
‑
一
一
才J
W o ‑ ‑ ‑ ‑ h h ‑ ・・・司・・・・・・・・・・・・・ h h
・.....
MI‑‑
‑JL
︑
﹁円M Y Q J
・
・ hHhH・・・・ .帽 ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ h H h H
5 ・・・・・・ h h ‑ ‑ ‑ ‑ ‑ ‑ h h ‑ ‑ h h ‑ ‑ ‑ ‑ ‑ ‑ h h ‑
いh u q
ん‑一一一
一
一
草
3 7 h h ‑ ‑ ‑ ‑ ‑ ‑ h h ︒ . . . . . ・・・・ h h ・・・・・・ h h
r
?六3
三は 1 A u ‑ ‑ ‑ ‑ L H L H
・・・・ " ‑ L H L H ‑ ‑ L H H L H・ ‑ ‑ ‑ ‑ ‑ L H L H ‑ ‑
....
ム よ れ 一に 一 一 ‑ 一 一
・ hh‑‑‑‑‑‑hh" ・
・ ‑‑‑‑‑‑‑hh‑‑‑‑‑‑hh
差問 5 ・
}一一一
vv
A
ヨ ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ h H h H h H h H h H h H h H h H h H h H h H h H h H h H h H h H・・・・・・・・
判ヂ山一‑‑一一‑一‑
HnHlnH‑‑‑‑‑‑a
1
・・・・・・・・・ lnH・nHlnHlnH・nHlnHlnHLHH
︑﹄
︐
︐
ハ ulnHlnH
・nHlnHlnH・n・
一一一一一一一
HU'‑
iTJ2hhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhh
rc'ti‑‑一一一一一一一一一一一‑‑‑
••
qべU
巳U
ウl
円 司 ﹁ ︽ ︽ 勺 勺 圃 ・ 14 ﹃・・・・・・・・・・・・ 叶c ・ w n u 一‑ p u n u守・・・・・・・ t ・・・・・・・・・・・・ n 44 一一 ・ 守 ら ﹂ ム に や仏‑‑‑ 日 1 勺 圃 圃 内 勺 ー 己廿且ザ 円 勺 ヴ ヴ 市 1? 'M 白内 ・ ﹃ ﹃・・・・・ tt ........ ‑‑‑‑‑‑punu 一﹃・一 ‑ u nu n 守 C‑‑n河内可・ n u . . . . . . . . . . ‑‑‑ ︑︑ノバ吐 6 ・ . . . . . . . . . . ‑ 一一一 CQU7 /¥一 5 . . ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ c q・‑qq‑‑‑‑‑‑ .... 一‑‑ 4U t PO4 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ qc ・・・ ‑‑‑‑‑‑‑qq・ . . . . . . . ﹃川一二 7 一一一 白︐︐ 1 33 ・ ・ ・ ・ ・ ・ ・ ‑ ‑ ‑ nunu ‑‑‑‑‑‑‑‑‑nu﹃ 門 吋 一一 一 丁 J れ一 ﹃ ι寸1 2 ・・・・・・・・ qc ・ ・・ ・ ・ ・ ・ ・ ・ ・ ・ qq‑‑‑‑‑‑‑‑‑‑ 同 7 一一一 υ凡 rrLP1 A‑‑‑‑‑‑‑‑punu﹃・・・・・・・・・・ ﹃ ﹃・・・ 14ムワム 7 一 一 一 u n. u n.. ‑‑n河内司・・・・ 'khqtUD‑‑‑‑‑‑ C‑ ............ }hu 一 小 ‑ 一 一 門q‑‑‑ .......... ・・・・・ q q ・・・. 1 9 . ・・・・・ 司 c 43 31 一一引一一一 F 5 c ・・・・・ . . . . . . . . . . ・・・ qq‑‑‑‑‑. ミ ロ I 8 ・・・・ q 4 4J 1J i6 一一一 ︐ E工 7 ・・・・ c q ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ q q・・・・・・ 6 ま芝 一 一 一 ・ qc‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑qq ι号へ 6 ・ 6 ‑ 一 ‑ 禿中心 ・ ・ c q ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ qq ︑ J 5 一一一 H vn b J lJA 宮 内 吋 nu‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑nu﹃ ﹃・‑ ︑Y c ' 6 一一‑ n 44AR3cq‑‑ .................... ・・・・ qu q・ ・ 4yi6 一 一 一 〆 ︑ t .DN12345678901234567890123456789012 ‑ ‑ ‑ f ' L ‑ A 1 A 1 A 1 A 1 A 1 4 1 4 ? & T A T ‑ ‑ η ムワ'﹄つ'﹄つ'﹄つ'﹄つ つ'﹄つ'﹄つ'﹄η J q u q u ・ 司 ZRR 冒 dm 一一一 HHQU L ・・・・・・・・・・・・ ・叶 nu‑‑‑‑‑‑‑‑‑‑‑‑‑‑ ・ I9 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ q q・ ・ cq‑‑‑‑‑‑‑ S t 一一一 戸町ヴ Rm ・ ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ 叶nu‑‑11 ・ ・ ・ ・ ・ ・ ・ 内 ・ ・ ・ ・ 門 引副 J Q O 2 ・・ q q ・・ . . . . . . . . . . . . . ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ qc ‑‑nu﹃ . . . . . . . . . . . . . . . . . . . . . . ‑‑‑nu﹃ C 一 一 にd b ‑ h u Q d ﹃ n・ il‑‑qq‑‑‑‑‑‑‑‑ ............... ‑‑cq ・ qu 7a3 ・ 一‑ b 一一q‑‑‑ 圃 ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ . . . . . . . . . . ‑‑‑cq 一 一 ‑ Q d o ‑ .................... ・・・・・ qc ハ 2 q q ・・・・・・ . . . . . . . . . . . . ・・・・・・・・ qc‑‑ U = ︽obq一q 一 = Qd 一 一 . l q q ・ . . . . . . . . . . . . . . . . . . . . ・・・・・ cqz Aワ .9qq‑‑‑‑ .......... Z‑‑‑‑‑‑‑‑‑‑‑cq‑ ヘヅ . LLFU‑‑ ︑ r Qd 一一 7 ︑ ( C 8 ・・・・・・ qq‑ .......... ‑‑‑‑‑‑‑qc ・ ・ /︐ ・ ・ ‑‑‑‑nu﹃ ﹃・・・・・・・・・・・・ ‑‑‑‑‑‑nu﹃ p u n υ pu 一一 一一 vd5 vd9 n dlRυt ・・・・・・ n wnw‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑punw‑‑‑‑ q・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ cq‑‑‑‑ ・・・・・・ qu a 一 一 r r9 loo ‑‑ H U 6 ・・・・ qq‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑qc‑‑‑‑‑‑ HUB‑ E 5 一 一 E B ‑ ‑‑ ‑ ‑ q q・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ qc‑‑‑‑‑‑ ・・・・ q q ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ cq‑‑‑‑‑‑ 日 一 ‑ M p b7 8 1 r ・ 5. ・ ・ ・ ・ ・ ・ ・ ・ ・ q q ・・・・・・・・・・ qc ・ . . . . . . . ・酌‑一一 ‑ u つ S﹄ 0 5 . . . . . . . ・ ・ ・ qq ・・・・・・・・・・ cq‑‑ 二以一一 O .. p h 4 ・・・・・・・・ q q‑‑‑‑‑ ・・・・・ qc ・・・ . . . . . 一一一 ‑Uq 3 ....... ‑q q‑‑‑‑‑‑‑ ・・・ cq‑‑‑‑‑ .. . Rυ 一 一 C2 oo ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ q q・ ・ qc ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ‑‑‑ ・ cq‑‑‑‑‑‑‑‑‑‑‑ 3ti‑‑‑‑‑‑‑‑‑‑‑‑‑‑qq・ 戸町 電 ﹃ ー 表問 ︽ 守・・ n w n u守・・・ υ........ ‑‑‑‑‑‑punu 4 一一一 ︑︑ノつ白 4 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ qc ・‑qq ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 一 ‑ b64‑ /¥一 3 ・ ・ ‑‑‑‑‑‑‑‑‑‑cq ・‑qq‑‑‑‑ . . 一一一 14 lJqd2 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ qc‑‑ ・・・・・・・・ qq・・・・ . . . . 訂 パ =4‑‑ 一 Aノ V v n u n u﹃・・・・・・・・・・ ﹃ ﹃ 一 丁 J 引一‑一 n ノ イI D ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ q c ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ qqu n ‑u ‑‑‑‑‑‑‑‑‑ 一一一 ︑σ I 1 L T FhH3 ・・・・・・・ c q・ ・ ・ ・ ・ ・ ・ ・ ・ ・ qq‑‑‑‑‑‑‑‑‑‑ 一 司 ユ ワL E ‑ ‑ ・・・ . . . . . . . . . . ‑‑‑‑qq‑‑. 叫川町一 u お . . ・・・・ 一一 ‑一 ‑‑ ιun‑‑7 ・‑‑‑‑‑cq一 .......... ‑‑‑‑‑qq‑‑ ョ 目 コ 一 一 Y 一 一 VJR6. ・・・ qc ・・・・・ . . . . . . . . . . ‑‑qq・・・・ 4イ J1 3 一一‑ ・・・・ cq‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑qq・・・・・・ 重工 5 ハふ‑一一 ・ ・ qc ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ q q 一 ﹂ 注 品 44 ι τ 昨 む 3 一‑一 ・ ・ c q ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ qq ︑ J 3 一一一 H v q u TJ2qc ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ qq‑‑ '︺v k ' 44R l c q ・・・ . . . . . . . . . . . . . . . . . . . . ・・・ q q ・ 7 1 qu 一一一 ( ‑DV つ ‑ q U 4 4 R υ b1 t o O Q d A U T A2 つ o Q d A U 1 A η3 ι q u A υ に bt I' J III l l 11 1 1 2 2 2 2吐2 22o 2 2 3 3 Rω ・ 1 ︒ ︑ U ︒llRυ9 日 5 ・・・・ q q ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ c q 到 pb5‑‑ ‑U ワム 4 ... ・・・・・・・ qq ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ qc b 小川崎・ p 一一一 S 0 3 ....... ・・・ q q ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ cq・ 0= 日一一 pu‑‑‑‑‑‑‑‑‑ 門 川 ド フ ︼ ・ ・ ・ ・ ・ ・ ・ ・ ﹃ ﹃・・・・・・・・・・ ﹃ 一 刊 It‑‑ n﹃ n u n ‑‑‑‑‑‑‑‑‑Fuu ' i n u ・・・・・・・・ u nu﹃・・・・・・・・・・ 一一 ・ 0 5 14 ﹃ n n co‑‑‑‑‑‑‑‑‑u ‑u ‑ ‑ ‑ ‑ q q ・ ・ qc ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 一一‑ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ q q・ ・ cq‑‑‑‑‑‑‑‑‑‑ ヨ‑一 EaA 出 川 刊 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 1 1 ・1c‑‑‑‑‑‑‑‑‑‑‑‑‑‑ ..........•••• ηペU 巧 n h uI
表. 5 結果処理のための F
O
R
T
貼N
77主プログラム
F
R
O
MT
H
EB
O
T
T
O
MO
FT
H
EL
E
F
TC
O
L
U
M
N
C
o
n
t
r
a
s
t
sc
a
l
c
u
l
a
t
i
o
n
M
A
I
NP
R
O
G
R
A
M
(
s
) ‑~ARAM~I~~(s) I
S
O
N
R
T
S‑J
HI
HII
R
N<
K
B
Da
sa
s
k
e
d
C
R
T
I
N
P
U
TA
R
R
A
Y(
s
) ‑P
A
R
A
M
E
T
E
R(
s
)a
si
n
v
o1
v
e
d
'1
T
E
R
A
TI
O
N
S
=
?・>
O
U
T
P
U
TA
R
R
A
Y
(
s
) ‑P
A
R
A
M
E
T
E
R
(
s
)a
si
n
v
o
l
v
e
d
IO
R
N
C‑J
HO
N
R
Sー J
HI
H
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
二
二
二
ニ
ニ
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
= O
N
R
T(
J
R,I
T
) ‑J
HI
HC
o
n
v
e
r
si
o
na
r
r
a
y
IY
R
(
I
R
)ー I
H O
b
s
e
r
v
e
dr
e
s
p
o
n
s
e
IO
N
R
S‑J
HI
HO
N
R
T
'‑J
HI
H
T)ー J
HI
H :
=O
N
R
S
‑
O
N
R
T
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
= O
N
R
U(
J
R,1
ー
一 T
r
e
a
t
m
e
n
t
sa
n
dc
o
n
t
r
a
s
t
s IL
D
F
Nd
e
f
i
n
e
d
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
ニ
‑
‑
ニ
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
S
L
D
F
N
S‑I
HI
UJ
H IL
D
F
N
‑
‑C
h
e
c
ko
ft
h
es
o
l
u
t
i
o
n
s
LT~ T( !R~ I~) ‑I
HI
UT
r
e
a
t
m
e
n
!
sm
a
t
r
i
x, l
e
v
e
l
a
g
a
i
n
s
tt
h
en
o
r
m
a
le
q
u
a
t
i
o
n
s
o
fI
O
!
hf
a
c
t
o
ri
n
v
o
l
v
e
di
nI
R
t
ht
r
e
a
t
m
e
n
t
S
R
R
N
M
S‑J
H IR
N
R
Mー J
H
0
)ー J
HI
UC
o
n
t
r
a
s
t
sm
a
t
r
i
x, l
e
v
e
l R
R
N
M
(
J
T,J
R
) ‑J
H :
=R
N
R
M
'
L
C
R
M(
J
R,1
o
f1
0
t
hf
a
c
t
o
ri
n
v
o
l
v
e
di
nJ
R
t
hc
o
n
t
r
a
s
t
S
R
N
R
U
Sー J
HI
H IR
R
N
M‑J
HO
N
R
Tー J
HI
H
S
L
D
F
Y
S‑J
E IL
D
F
N
R
N
R
UC
J
R,1
T
) ‑J
HI
H:
=R
N
R
M
*
O
N
R
T
I
C
Y(
J
O
)ー J
ET
h
el
o
w
e
s
t.
c
o
n
t
r
.o
fJ
O
t
hc
o
n
s
t
r
.S
R
N
R
D
S‑
'J
H
'I
H IR
N
R
S‑J
HI
HR
N
R
U‑J
HI
H
E I
n
t
e
r
v
a
lo
fn
e
i
g
h
b
o
u
r
i
n
g
R
N
R
D
(
JR
.I
T)ー J
HI
HR
e
s
i
d
u
e
s :
=R
N
R
S
‑
R
N
R
U
I
D
Y(
J
O
)ー J
c
o
n
t
r
a
s
t
so
f
.
ac
o
n
s
t
r
a
i
n
t
e
x
a
c
t
l
y0w
i
t
ht
h
er
e
s
p
o
n
s
eR
N
R
Ur
e
b
u
iI
t
I
L
Y(
J
O
)ー J
ET
o
t
a
ln
u
m
b
e
ro
fl
e
v
e
l
s
=
=
=
=
=
=
=
=
=
=
=
=
=
ニ
‑
‑
‑
‑
ニ
二
二
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
o
ft
h
er
u
n
ni
n
gf
a
c
t
o
r
‑
‑C
h
e
c
ko
ft
h
es
oI
u
ti
o
n
s
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
a
g
a
i
n
s
tt
h
er
e
s
p
o
n
s
ee
q
u
a
t
i
o
n
s
-~_~esponse equatio~s_
S
L
G
D
N
S‑J
HI
H I[
D
G
N‑I
HJ
H
S
L
R
T
T
S‑I
HI
U I LTRT ー~~~,I U
L
G
D
N(
J
R,1
T)ー J
HI
H:
=L
D
G
N
'
R
)ー I
UI
H :
=L
T
R
T
'
S
R
L
R
O
S‑
'I
H
L
R
T
T
(
I
O,I
SLRCMS ー I,~, J
H,
!
. , ~CRM ,
‑ ~~..,I U
R
L
R
OC
I
R
,I
T)ー I
H I
d
e
n
t
ym
a
t
r
i
x :
=F
L
O
A
T
C
L
R
S
N
)
L
R
C
M(
1
0,J
R
)ー I
UJ
H :
=L
C
R
M
'
S
R
L
R
U
S‑
'I~ J
H IL
G
D
N
:J
HI
HO
N
R
T‑J
HI
H
SLDG~~_ ‑I
H
.
.
IU
..
J
H̲
.
R
L
R
U1
(R
,I
T)ー I
H ニ L
D
G
N本O
N
R
T
IL
R
T
T‑I
UI
HL
R
C
M‑I
UJ
H
S
R
L
R
D
S‑I
HJ
H IR
L
R
O‑I
HR
L
R
U‑I
H
,J
T)ー I
HJ
HD
e
s
i
g
nm
a
t
ri
x
R
L
R
D
(
I
R,I
T)ー I
HR
e
s
i
d
u
e
sm
a
t
r
i
x :
=R
L
R
O
‑
R
L
R
U
L
D
G
NC
I
R
=
1i
fJ
T
t
hc
o
n
t
r
.i
si
n
v
o
l
v
e
di
nI
R
t
ht
r
e
a
t
m
. =
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
二
二
三
二
=
=
=
=
=
=
=
=
=
=
=
0i
ft
h
ec
o
n
t
r, n
o
ti
n
v
o
l
v
e
di
nt
h
et
r
e
a
t
m
. 一 T
r
u
er
e
s
p
o
n
s
ea
n
dt
r
u
ef
l
u
c
t
u
a
t
i
o
ns
a
m
p
l
e
s
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
ニ=I Y
Y(
I
R
) ‑I
HT
r
u
er
e
s
p
o
n
s
e(
m
o
c
k
u
p
)
ー‑ N
o
r
m
a
l.equati~~~. ̲,̲.
IC
C
(
J
R
)ー J
HT
r
u
ec
o
n
t
r
a
s
t(
m
o
c
k
u
p
)
T
) I
d
e
n
t
ym
a
t
r
i
x‑I
H jV
V
(
I
R
)ー I
HT
r
u
es
a
m
p
l
eo
ff
l
u
n(
m
o
c
k
u
p
)
S
L
R
S
N
S‑I
H :L
R
S
N
(
I
R,I
SL~~~~.: I.~. J
H.
( ~DGN ‑1
HJ
H ̲
̲
IE
E(
J
V
)ー J
NT
r
u
ef
l
u
ne
l
e
m
e
n
t
s町
(l
o
c
k
u
p
)
T
)ー J
HN
o
r
m
a
le
q
n
sc
o
e
f
f
t
sm
a
t
r
i
x =
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
二
‑
‑
ニ
ニ
L
N
R
M(
J
R,J
=c
o
e
f
f
to
fJ~th ~~~trast i
nJR!~..normal e
q
n ‑
‑F
i
t
t
e
dr
e
s
p
o
n
s
ea
n
df
i
t
t
e
df
l
u
ns
a
m
p
l
e
s
~DG~ ‑I
HJ
HL
R
S
N‑I
H
IY
VC
I
R
)ー I
HF
i
t
t
e
dr
e
s
p
o
n
s
e
(.
L
N
R
SC
J
R
.1
T)ー J
H ~H._Obsvd v
a
l
u
e
ss
u
m
m
nm
a
t
r
i
x jC
V
C
J
R
)ーJ
HF
i
t
t
e
dc
o
n
t
r
a
s
t
=c
o
e
f
f
i
c
i
e
n
to
fI
T
t
hr
e
s
p
o門戸
IV
Y(
I
R
)ー I
HF
i
t
t
e
ds
a
m
p
l
eo
ff
l
u
c
t
u
a
t
i
o
n
R
t
he
q
u
a
ti
o
n
jE
Y(
J
V
)ー J
NF
i
t
t
e
df
l
u
ne
l
e
m
e
n
t
s
i
n.~he sum..I~ J
N
R
M‑J
H
S
L
R
N
M
S‑J
H IL
H :
=L
N
R
M
'
IE
E(
J
V
)ー J
NS
u
p
p
o
s
e
df
l
u
c
t
u
a
t
i
o
ne
l
e
m
e
n
t
s
L
R
N
M(
J
T
.J
R
)ー J
S
L
R
N
H
S‑J
EJ
H
IL
R
N
M̲
‑~H I
C
Y‑J
E I
D
Y‑J
E 1
L
Y‑J
E
‑
‑FI
u
c
t
u
a
ti
o
n
s
I L
V
F
Nd
e
fi
n
e
d
L~~~5JT , J
R
)~ J
H
̲
.
.
R
o
w
w
i
s
er
e
d
u
c
e
dL
R
N
M
S
L
V
G
N
S‑I
HJ
N IL
V
F
N
SLNRHS‑JH/LRNH‑JH,: L V G N ( l
T
,J
V
)ー I
HJ
NF
o
r
m
a
t
i
o
nm
a
t
r
i
x
L
N
R
H(
J
R,J
T)一 J
H :
=L
R
N
H
'
S
O
R
N
T
S‑
'1
H
'J
H IO
N
R
T‑J
H1
H
~RNR~~..- I~..JH .
.
̲
.
.
.
̲
.
O
R
N
T
(
I
T
.J
R
)ー I
HJ
H ニO
N
RT
'
IL
N
R
M‑J
HL
N
R
H‑J
HL
N
R
Sー J
HI
H
S
O
D
G
N
S‑
'J
H
'IO
R
N
T‑I
HJ
HL
D
G
Nー I
HJ
H
T)ー J
H :
=EL9AI(L~~M)
O
D
G
N
(
J
R
.
J
T
)~ J
H :
=O
N
R
T本L
D
G
NC
o
n
t
r
sr
e
b
u
iI
t
R
N
R
M(
J
R,J
R
N
R
H(
J
R,J
T)ー J
H :
=F
L
O
A
T
(
L
N
R
H
)
SÕÿGNS-~' I
H
'J
HJ
N
R
N
R
S(
J
R,1
T)ー J
HI
H :
=F
L
O
A
T
(
L
N
R
S
)
IO
R
N
T‑I
HJ
HL
V
G
N‑I
HJ
N
二
二
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
= O
V
G
N
(
J
R,J
V
) ‑J
HJ
N :
=O
N
R
T
*
L
V
G
NF
l
u
c
t
u
a
t
i
o
n
s
一 D
i
a
g
o
n
a
le
l
e
m
e
n
t
ss
o
l
u
t
i
o
no
ft
h
ee
q
u
a
t
i
o
n
ニ
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
三
二
二
二
二
=
S~~~~~.: ~~, I .~NR~ ̲
.
:, ~H
̲
.
,
̲
.
.
‑‑ R
e
s
p
o
n
s
er
e
bI
ta
n
dr
e
si
d
u
aIfI
n
ss
e
p
ar
a
t
e
d
O
N
R
H(
J
R,J T)ー~~ O
f
f
d
i
a
g
l &norm~li!~~ R
N
R
H S
R
R
L
U
S~ I
H IR
L
R
U‑I
H
H
̲Di
a
g
o
n
a1e1
e
m
e
n
t
so
fR
N
R
H
R
R
L
U(IT.1
R
)ー I
H :
=R
L
R
U
'
R
R
D(
J
R
)ー J
HL
D
G
N‑I
HJ
H
S
O
N
R
C
S
‑
J
HJ
E
S
R
D
G
U
S
‑
l
HJH/RRLU一 I
,
J
R
)ー I
HJ
H
/ONRH‑JH│CY‑JElDY‑JE│LY J
E
R
D
G
U
(
lT
O
N
R
C(
J
R,J
T)ー J
HC
o
l
u
m
n
w
i
s
er
e
d
u
c
e
dO
N
R
H
=R
L
R
UL
D
G
NR
e
s
p
o
n
s
er
e
b
u
iI
t
sg~~g~ ,
:J~. I
H.
(.
~NR~ ‑J
H1H R
R
D‑J
H
S
R
V
G
U
S
‑
:
'
"I
HJ
N /R
R
L
Uー I
HL
V
G
N‑I
HJ
N
Q~~25JR , I
J
l,
:
‑
:J
HI
HN
o
r
m
aI
i
z
e
dR
N
R
S
R
V
G
U1
(T
.J
V
)ー I
HJ
N
ニ R
L
R
U本L
V
G
NC
o
n
f
o
u
n
d
e
df
l
u
c
t
u
a
t
i
o
n
s
S
O
N
R
S
S‑J
HI
H
/ONROJHi
HICY‑JE│DY‑JE│LY‑JE SRRLDS‑lH/RLRDー I
H
T)ー J~..!~ C
o
l
u
m
n
w
i
s
er
e
d
u
c
e
dO
N
R
O
R
R
L
D(
I
T
, I
R
) ‑I
H
‑~= R
L
R
D
'
O
N
R
S(
J
R,1
S
O
R
N
C
S‑J
H I ONRC ー~~^~
S
R
V
G
D
S‑I
H
'J
N IR
R
L
D
‑
‑I
HL
V
G
N‑I
HJ
N
O
R
N
C(
J
T,J
R
)ー J
H :
=O
N
R
C
'
R
V
G
D1
(R
.J
V
)ー I
HJ
NR
e
s
i
d
u
e
sc
o
m
p
o
s
i
t
i
o
na
r
r
a
y
‑
‑
‑
‑
‑
‑
‑
ニ
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
= :
=R
L
R
D
*
L
V
G
NR
e
s
i
d
u
e
sa
r
eb
u
iI
to
ft
r
u
ef
l
u
n
s
S
R
D
G
D
S‑I
HJ
H IR
R
L
D‑I
HL
D
G
N‑I
HJ
H
一 T
OT
H
ET
O
PO
FT
H
ER
I
G
H
TC
O
L
U
M
N一
R
D
G
D1
(R
,J
R
)ー I
HJ
H ニR
L
R
DL
D
G
Nニoa
sc
h
e
c
k
e
d
本
本
377‑
表・ 5a 応答対比換算行列 O N R Tを求めるための 主プログラム S O N R T S n u d nu ‑ )) nkTI tu‑‑ ・・'TEE ハ HvnHunwH ︐lu︐lu 申 fa︑︐t︑n u T ‑ nLVTEEnwH M川 口H + nwHUN川nwH nununk ‑一一一‑一 nLVTEEnwH nknHHnH n H H n w H ‑ 一 一 ) T E E rFL'守︐︐ HUnknU UN川Elue﹄E l( TIEHH︾︽HV MNHnHHTIE AHVUN川内Hv nunupu n u d nu ‑ ﹁ h u nU ‑ nU T E E nu n h u ) ‑ Hn l ﹁F﹄﹁F﹄nuu HUHU﹁ETt UN川UN同・4v BE''14TEETEE TEEnHVTEEBEE‑E' MNH=UNHrt︑‑‑ nHVTEEnHVFトETEE PU‑‑FUtil‑ ‑lanjι 1 11 1 nu 鈍 ・ ) T E E ︐ ( 唱﹄'nwH lu ︐ nι ' ' s ハU H U T‑RH nHUUN同 nhunHV J‑ Hn1 EluTEETEE ‑‑‑ ‑ ︑ 一 ︿J e 内u ︐ ︐ ‑‑ ) ) TEETEE ︑‑ nknK 1JJ1d Tlf︑︐t 'IRVHU 'nknk nnu川副川 ︐lunHunHu f a TIE‑‑ nn ・ M m同 nU ﹁﹁Lnuu''内唱U HU﹁EelnHHnHH1a um同・4vElu︐lu EE ftnknkf︑︐t︑ nUTIEdEdTIERunU =NHf︑=nknHHTl nwHnuv﹁トEnwHUN同UN川内HV lupu‑‑lunununu ‑ ‑ ‑ ‑ ︑ ) Tl 1' ( nunK 4Etalu ‑‑ ハU n b TlnH AUM川 nhunHV ︑︐﹄'= H 円︑ J EJUTIE ) ‑ ︐ n F h u ‑ ‑ n h u T ︐. n H u nU M川 pa ) nU ' E E M N 同 丁 目 n円 ‑ ‑ M川 nn l ‑ ︑ u m M m nU41 ﹁﹁Lrr﹄ムT HU ・ M川MMmDH 1lnk ﹃l TEE‑a'‑‑ UN‑‑ nU﹁﹁nn nLV2EaftE ‑ F n v nu 1 1 1 ) un ‑ 1 守 ︐ ︐ nU E J ︾ nU T E E nu pu ) un l rF﹄nuu HHU﹁F﹂EZ M川・+ llnknHH AHVTEBB‑u︐lu =UNHrt︑= nknU﹁﹁nk lunu‑‑lJV nU Tl nu nu ﹁Enu UFE‑‑ M川・+ ' E a T E E T E E nUTI‑‑El =uNrt= TlnUFETI PInup‑EB F n v nU 1 ー‑ T OT H ET O PO FT H ER I G H TC O L U M N‑ ‑ nU T E E nu︑i︐︑i' nhunwHTE目 ︑i'EluaE' H円H ' ' T I E HvnwH SJunHUハ ‑Elu︐lu 申干 ﹁F﹄nuurt︑ra︑nLvnMV HHurト﹂噌E‑nLUTEEnwHハ HV UNH・4vMN同nwH4V4as 't‑nHMAHvnHHUN川nHH TIEd‑dnunvnHHnU M同︐t︑====Tl nHV﹁F'AHvnLVTIEnHHnHv nLVEt‑‑JvnHHnHHnHHnhu n M U nu ‑ nununu 二 一 一二 一 一 ' = ︑ 一一・・ ︑J=tL' 守''一一晶 HTE.︐︑IJ P九︾・='aaVAH'' nHHnJ﹄一一γEETB‑RHUMNH M 川 4 1 = U H ・ ﹁ E 山n nU﹁﹁=ELPUT‑nU ︑i'n弓 =HUM川TlMH tnv=nunkaAνn 咽 nuνnWu‑‑‑rrL ハHVH閉山U N 川 n u n v = n b v 争 nnHU EU勺 ι︑ ! ' = ' ・ ・ n u ' ' r t E u = ・ = AHEB‑‑ ﹁huTEErt︑‑‑﹁hunυ・ ‑ ‑ nυ r・︑AMHEL=rteo==Hu nHUMMmp九v‑‑MNHrF﹄﹁F﹄MMmTIE ‑aHnHHnHv‑‑rF﹄nLVEI﹄nHH‑aH ﹁EnulL=nrnu‑‑nUTl ︑JAun‑‑ tnn︑i' 咽 唱E︐﹁﹁LnHU︑i' n H V T E EE a n j ι cuglnU41 ﹁F﹂・・﹁huzEE HU 本 rt'r・︑ 削川rtTB 本 TB EE‑rF﹄・aHrt︑・aH T ' ・ T E E H M 川 R H U H M 川 UN同'EEnwH・annwH nHvnHHnHvrF﹄︽Hv n L V山 WH﹁FEnHH﹁FE ﹁ h u ハU ‑ n L V • R R : = O . O c ﹁F﹄nuu'nJ﹄ HHurr﹄唱tanHHnHV UN川・ムTEJvet‑ SE'nwHnwHrt︑ AHVTEBB‑u︐luTEEnHU ‑‑NHf︑=nHHTl nkAUF‑nHHUNnU BJvnLVEESE‑unHVハ h u n U4EanHu nU4141 tnunU 咽 Fnv﹁hu nunununu c c nk﹁﹁nu=nUAA﹁﹁﹁rna ='''' ︐ nι n H U 1 c c O N R U( J R,I T ): = R R EZ= nHu= ニ n u ν ニ ﹁ h u nLvnLvnLV c R R = O . O J O = O 1 1 6C O N T I N U E F L N = F L O A T( 1R N ) = = = = = = = = = ニ ニ ニ ニ ニ ニ 二 ニ ‑ ‑ ‑ ‑ ‑ ‑ ‑ C = = = =ニ O P E N ( 6 A C C E S S = 'S E O U E N T I A L ', I L E = ' A :平O N R U .T XT ', ,F F O R M = 'F O R M AT T E D ' ,S T A T U S = 'U N K N O W N ') O N R U( J H,I H ) C > >A:半ONRU.TXT C W R I T E ( 6,6 0 0 1 ) O N R U,F L N 6 0 0 1F O R M A T ( 2 9 9 9 9 F I 2 . 7 ) C L O S E( 6 ) C =ニ ニ = ニ = ニ ‑ ‑ ‑ ニ = = = = = = = = = = = = = = = = = O P E N( 6, ,I T E R A TI O N S = ? ' A C C E S Sニ , S E O U E N TI A L ', > >CRT F I L E = 'A :半O N RT .T X T ', く K B D I R Nく F O R M = 'F O R M A T T E D ' ,S T A T U S = ' U N K N O W N ') I R M : = O H ) O N R T( J H,I C > >A:平ONRT .T X T C W R I T E ( 6,6 0 0 0 ) O N R T,F L N 6 0 0 0F O R M A T ( 2 9 9 9 9 F 1 2 .7 ) C L O S E( 6 ) = ニ ニ ニ = ニ ニ ニ ニ ニ = ニ ニ ニ = = = = = = = = = C = = = = =ニ C S T O P E N D I R M = O O N R S( J H,I H ) く く A :半O N R S .T X T ••••• S O N R T S .T X T P A R A M E T E R( ( I Hニ 3 2, ( J H = 2 7 ) C 一一ーーーーー一一一一一一ー一一一一ーーーー一一一ーーーー D I M E N S I O NO R N C ( J H,J H ) DI M E N SI O NO N R S( J H,I H ) DI M E N SI O NO N R U( J H,I H ) DI M E N SI O NO N R T( J H,I H ) C = = = = = = = = = = = = = = = = = = = = = = = = =ニ‑‑‑ O P E N( 5, C C E S S = 'S E O U E N TI A L ', ,A ,F I L E = ' A :¥O N R S .T XT ', F O R M = 'F O R M A T T E D ' ,S T A T U S = ' U N K N O W N ' ) c c c ニ ニ = ニ ニ = = = = = = = = = = = = = = = = = = = = = = ニ ニ I T = O 1 0 1C O N T I N U E I F ( I T . E O .I H ) G O T O1 0 3 I T = I T + l c H ) O R N C( J H,J く く A :平O R N C .T X T R E A D ( 5,5 0 0 2 ) O R N C 5 0 0 2F O R M AT (2 9 9 9 9 F I 2 .7 ) C L O S E( 5 ) c c 一 ‑FROM THE BOTTOM OF THE LEFT COLUMN ‑‑ C nぺU ヴ i ︒ 口
‑
)
+L
POP0
・+LI
eunHVA
nuρuou
n
u
m
川
lmJ
口
+LOn
HunU勺G
O ﹁ +L
SOll
ρV‑fi
r‑eoHU
ρ
u
l
n
u
F
+
1
1
}
4
nu‑‑lVI
S‑nu
LR
nu'・門u
oucuρν
﹂HHm川nH
nLV気u・11
YES‑
gbou
口
.OJ
cuvf
+Lnruy
cutnu
気uqd
vlau
+Lr
nIl
nu'ill勺G
n
u
︐
︒
し
︾
J
H
J門
uρ ν
Uuv
V1l
Il0
nυuv
uvnH
n
H
.
'
1
)
e
o
︐FJ'PO勾G
g
u
︑IJ︑IJcu
eoport︑
ftrtnk
nHHnHH﹁rL
rト﹂﹁ト﹂TEE
T
E
E
T
E
E
r
ト
﹂
﹁ト﹂﹁ト﹂MMm
M
M
m
M
M
m
a
a
H
AMHAAnk
nknKAH
AHAHnγ
n
v
E
n
v
E
一
‑
)
ーーーーーー一一
fEiyE
gunu
n
Hr
'
'
DAU
‑‑lnH
+La
﹄
e‑‑
'r
﹂HH
ロド
vA
Y
L
み
・11eo
v
f
門H
+LO
aC+L
JHUVAm川nH
﹂
Ha‑‑
n﹁・+L+LEa
Y
み LVlponνEnHvfVI
‑
I
l
S‑勺G+L勺Glu‑‑+Leonu
emn﹁﹁SIl+L
AUO+LPTunec
cunU門Hnununuuv勾G
ucesl
M川+L
﹁FEnH'lanu・LHHIll
HHwρし︾気urigb気ugb
lLmnh川+LIFTn
‑+Lnu+LnHρup+Inu‑‑t
qG?←戸︑unu門HnunH
//巴 +LluC﹁円
£
TECUQUHU
MNHr‑‑ft
E‑TIAun+LO+Lhur
eoHHUJnu‑‑leoeom川
t l L Aハ
: e l ﹄a u e
eoHHUFI出胃勺GVInHtn川
Y
L
勾dyltnunuuv Y
みL
み
﹁//HU+LM川ll﹁円11
+LHnItC﹁reoaZI
n‑‑aHue+LC+Lo
nu﹁FE﹁FEF+tEI﹄LHHnHnu
FUEJU一EJUTEE‑‑gTEE
﹃
︽
一
‑
R
V
G
D(
1H,J
N
)
>
>A:半RVGD.TXT
q
u・
‑
5+L
ふ
LS
H円HUN川‑‑eouN川門H・勺GHHH
EJUEJuqdElunuvl︐JU
﹁・lt
HUHS﹁rtuHtF‑nnH
Au‑‑‑‑nlun‑‑‑lsldoo‑‑
ρununueo門H‑Tinu
+L一‑eluHC‑ouuH+L‑
a+LlIDalli‑‑l11AU
F‑MN川UN川qdtttuN川m川F+leoqduN川ρu
apupuu‑apuo‑onpULMH
D‑nυ+LUV+Lnuvce0・onuc
ouEE﹂T41EE﹂nuuN川nuEE﹂HUUN川m川・1BEE﹂ρしv
s・‑UPU‑srpuO+LhH
U11HU+Le+LHUC・lc
cu・H円H
nuH円HF+tnHHta‑‑H円HHunHHJHUH円H
し
ou‑‑1・eBIAU‑‑aJnu
£
IeoJUBE‑e
何 J n u n H U a ' n u o u q G I n u
HUHHUFf‑
U
JUHnnHH‑‑eHHaHn日H一S川HHU‑
1111LEAulti‑‑Le+L11AYTo
snnHUSHUnAunnnunnil‑‑onu+L
e‑‑﹄nl﹄U一e‑ELl‑SEL
r=DHO
口H O A u =
口H u e + L
口H S
HURHHnpbHUNFTHUnnu・日HUN川LununHHIll日HHHHa
AunRIds‑unlLunnidILl‑u
門HEE﹂oununHHnuEE﹂eonwHHU
annHnf/け円nnf/け門戸UnnF‑zlnnHnf/Hnannr﹁huf/HnnU
11111lluni‑‑lull
ニ
+LOS
‑﹀/一UH‑M川M川一M川//UHPUPJ一M川一M川f/UHauH一M川
いUlUPUlupu‑‑lunu‑‑lunu
ρ切︑J︑Jnυ︑JHV︑J︑IJHV︑j'nυ
﹁UHnnuHnnlLUHUVELUH一制問UHDHUHHvlLPト・‑M川UHDHIL
Ili‑‑tlu*Illu*lunu‑‑fi‑‑lu*lunu‑‑‑u*
e''HU・UU1JHU''nυ︑JHU'nυ
s‑TIE‑丁目日H一TaRHHnqunk‑TIE‑RHRH川HHqunHH一nnnn
n 1 1 1 1 I L l ‑ a L I l ﹃U 率
11lBILI‑‑u*111L
oqυrtquft日Hquf︑RH・Hucurlょ︑uf︑nHH'nz︑uftnn
0・HUHUHUHUHHWNW‑7In円nunununu一日HnHHnunu
SILlLPUPUニ pupu=IlLlLlLPupu=1ilLPUG‑‑
ennnnnunu‑‑HVHV:nbrtnnnnnnHVHV‑‑pof︑nnnunu‑
RHRHRHRHRHRHRHHUHU日HnHHnHHnHHnunU日Hnn
cucutupunu=cutupupu=tu
‑ElllMUU‑‑1lUMYeli
‑‑‑111111IRHRHIll‑‑日H日HIll
HMMP︑υHH戸︑UH
c
c
W
R
I
T
E
(
6,6
0
0
0
)
R
V
G
D
6
0
0
0F
O
R
M
A
T
(
2
9
9
9
9
F
I
2
.7
)
C
L
O
S
E(
6
)
C
=ニ
‑
‑
‑
ニ
ニ
二
二
三
ニ
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
S
T
O
P
E
N
D
+L=
il‑‑
JHunHU‑‑=
ρUEJUHu‑‑
JULU‑‑
n一NMFEe‑‑Hn
UPU‑u﹁=fi
nurトEHHU‑‑
よlEE﹂EE﹂HHHeo‑‑‑
nil‑‑﹁=
DAu‑‑+L=Hux
nuρu‑n川=nHH1i
n H u n u n u ニ EE﹂FI
eldUHnMHC=nn+L
hUAu‑‑‑PU ニ
a
一ρuTIEHH︾一一m川
nuvtH円HnHHnHHM旧日一一H円H
+LEI‑uM川pu=115
nuenUHU‑‑e
e0・E'eo‑HHHnHH一一一Hu
a‑‑=ld*=AU
WTIE‑‑TIE‑‑nUl
cun円UWHnHH川HHnHH‑一nHHCU
+LluOM川llM川=lLe
cunHHnuvH円Hnuv‑一nHHFI
見
u一EJM‑一一
VI‑‑‑
一
+LEIEI//UHTI‑‑‑一//UH
nnulu‑‑M川=11
011nn=
nUH円HH円H‑nuvH円H=H円H‑
11lulu=ld
1lEI︑J=︑J
U﹁FEEJu‑‑HHHnHH︐r''一‑‑HHHTIE
見
nJul‑‑u=l'El
ouH︑J・︑J='
・11川HHIlln︑u‑TEE川HH戸︑u‑‑‑nHH
+LIlid‑‑ldid‑‑Il
‑‑‑一'戸︑uft︑'一‑戸︑uft︑
Ju‑TITITI‑RH一一nunU
AUUN‑‑MHUH‑u=nnnn
A
ハpopurl︑nnnnparl︑一一︒LIL
削川HUM川nunUMHMN=nnnn
‑nhuaE﹂nhun︑unhunhu=戸︑u
‑HHUHHUHHUHHU=
RRlloo‑‑ll
qu//Hqu一一H
n
H
H
nn
)
V
):
=
R
R
R
V
G
D(
1R,J
7
0
0C
O
N
T
I
N
U
E
C
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=二
ニ
ニ
=
=
=
=
=
=
=
=
=
=
=
O
P
E
N(
6,
,A
C
C
E
S
S
ニ
, S
E
O
U
E
N
T1
A
L
',
,F
I
L
E
=
'
A
:半R
V
G
D
.T
XT
',
F
O
R
M二, FORMAT
T
E
D
'
,S
T
A
T
U
S
=
'
U
N
K
N
O
W
N
'
)
VAm川・
;t+Lm
ra+L
+LρV気u
qdvI U
m川+L﹁
+L
n
Hn
しH
gb+Le
.
f
L
n
H
H
L
n
川
sljt
a
u
HHU‑‑tnunHnH
I‑‑‑‑
TI‑‑1l
HnRHHUaJUJU
‑lTI‑‑‑nee
'E﹂MMm﹁トEnuuvuv
x‑F・nRId‑fifti‑‑
is=ldHU+LOO
FfTEE‑‑EE﹂HHU‑‑luvuv
+Lnk‑BlJunn
aTl=Ju‑‑
moLHnMm‑一Aun
‑‑nnS+L
nHHHUHM川‑tlnu
g匂ffHUILPト・HU﹁rn
・11EEBEJunHHEJU・
cu't﹄YE‑
eHU‑/rHU﹁rHn+Lr
AUBIIllu‑‑n+L
︑IJH円Hnun川
IlHnnn﹁﹁一HU‑‑一CO
勺G'﹄a
a
E
Z
E
J
U
tanu
n︐︑IJHU︑Jh川
o‑nuHUCUUH‑‑cu+Le
‑‑l'laE1ιEJu'SEElun︑uin川
+LPort︑'‑'lJU+L
・ItTIETIE‑nuu一nHH
tnuTEETEE‑EETEEBEEr?EF+l
Junnnnparl︑POTlrl︑.‑E・I
‑aH't﹄'t﹄Mm川MM川UN川nHHUNM
paHUHUPUOLPU 噌inU
一nHHnwHHHUHHU‑‑一一
‑1111﹄l﹄l﹄l﹄
Hququ//
﹁
HUnnnU
HV
E
l
u
‑
一
F
L・
‑
t
a
M
N
M
a
E
E
n
J
﹄
│
(
T
I
E
n
H
u
n
u
v
M
N
M
n
h
u
T
E
E
n
u
v
H
U
'
n
u
v
nunnpu
n
J
ι
nu
qu
nunu
C
11HU︑J‑+L//
aIlnunun
口n
口 n
口
門HEEE︑j'EEEEEUEEUEEu
nvHHH'nuun円以
・ l l口H I L T ‑ u ‑ ‑ ‑
+LIl'o
‑一ft︑cu一︑IJ︑J︑J
JnuTEEEJu‑‑lnvEnVERVE
AuqunHHft︑eqυJMJMEd
A内NM丁目MmvvIftJt︑ft︑
FEELRHeFEFEFE﹁r
‑HHUHHU‑‑4HHunLvnHuaE﹂
一lLILILI‑‑111
pallnb
η'﹄
n
u
v
qU1l
nu
nuqJ
T
E
E
nuunuv
pu︑IJTl
︑JUvnu
HHHEJunhu
│')
R
R
:
=
R
)
R
R
+
R
R
L
D(
1
0,1
G
O
T
O3
0
1
T
E
E
V瓦ハしn H t n 川
Tl+LAU+LEL
11・門U門Hinu‑‑EJU
UN川出胃勺G勾G勺G出nnHU
﹁reeJM一
HU+L+L+L
TIT‑‑Lus's‑︑J
VAVA
Dnnnu
し
TEETEEnH・11・︐︑E'
E
J
U
・・・iHUHUnrf︑
M川M川T111111dvI
﹁﹁﹁rJUVAHUHUrt︑1L
nυVVETI‑‑UH‑‑ELEI ﹃l
't﹄EI﹄nu・EJMEJM't﹄
‑tluN川﹁トERHUEEE'
・・干t﹁rid‑‑u‑︑J
F+tp+1ρunHU'nuu
し nulL一︑ー'‑︑J︑IJlu
nun
nununrrt
︑IJEl︑IJs‑‑dvI
onu'nu'rtnu
+Llinky‑nu﹁﹁11
H円HUN川﹁トE'EJu'EJunHU
tdJUJurqurl︑nrf︑l・'
気UEJMMm川EJMMN川︑IJ
E E n口 1lrtnnf︑nk'nu
lulu‑‑umnUM川nu︑Jld
mnnoLnnoLnrrt
﹁rL・11HHUHHUEJUUVE
MmSOLILf︑nu
﹁rIl
X
HUρν;tuynu
11lira‑i
‑11+LFIF+l
Hnsl勾Grlnu
'ilv
︽ m川gucu
AHluyuyAU
戸︑uvIOU勺GOU勺G勺G
nn+Lh川﹁い川re
ELTla+L﹁+L﹁+L
TEEVλHm川勾G勾deo
rトLTIEF+lF+l門H
HM川・0unuounuaU1﹄
aanuN川tn川tn川tn川
nn﹁﹁+L+L+L
AHHU
nriL
‑
nu
q
4
u
nu
R
R
=
R
R
+
R
R
L
D(
1
0,1
R
)
V
)
L
:=
LV
G
N(
1
0,J
>301
L
=
O>
c
c
‑nuvnuv
﹁Enu'I
HU﹁E 噌irtnu
MH・+NM﹁E
Ilnunupu
TlalaiHVOL
M川rl︑一一't﹄ft︑
nu﹁rnu=Fト‑
n
し 11111LIt
R
R
:
=
O
.
O
1
0ニO
R
R
=
O
.
O
︑l︐︑l'pb
qucurl︑
ft︑ft︑VE
M
M
川
U
V
E
a
a
H
ハ
A ハ
A nk
nknknk
n
h
u
n
w
H
a
a
n
nuaA
nHHTIE
n
v
E
T
E
E
H
H
U
H
H
u
n
v
E
U
N
川
n
v
'
T
I
E
s‑MHHU
AHEt‑nU
Mm
・
一‑''
I
R
=
O
2
0
1C
O
N
T
I
N
U
E
I
F
(
I
R
.
E
O
.
I
H
)
G
O
T
O1
0
1
I
R
=
I
R
+
l
c
=
一
‑
=
一
一一 ‑ ・
c
R
E
A
D
(
5,5
0
0
1
)
L
V
G
N
5
0
0
1F
O
R
M
A
T
(
2
9
9
9
9
1
1
)
C
L
O
S
E(
5
)
C
=
=
=
=
=
ニ
ニ
ニ
=
=
=
=
=
=
=
=
=
=
ニ
ニ
=
=
=
=
=
=
=
=
=
J
Vニ0
1
0
1C
O
N
T
I
N
U
E
I
F
(
J
V
.E
O
.J
N
)
G
O
T
O7
0
0
J
V
=
J
V
+
l
c
i
n
u
t
n
u
H
A
u
n
r
l
︑
︑
lL
ニ
J
﹃ ︐ I = A ハT l ︐ ︑ J
nu・=11VA‑‑
01﹄nJι=TIETIEnHUUN川
nR41=M川‑F﹂凶n
nHH﹁FE‑‑rトLUN川TIEnuv
︑IJnud‑‑HHWFhuTIEMNM
n u n 日 = n U H V Anvn
nuvnuu=﹁F﹄'t﹄Mm川MNM
nvqd=quりやnHHHU
RuηL︑J=・・・nu'
'rl︑Ru‑‑'=AMH﹁﹁一一
﹁huTEErtι︑=﹁hun︑u・'戸︑u
rl︑A品円﹁Eニ f︑qυ=一‑HU
nHUMm川戸︑u 二 UN川﹁F﹄﹁F﹄Mm川TIE
A
ハnnnu=﹁EPUILnRA
ハ
﹁ト﹂nHVEE﹂=nvznLV・︐aanuvTEE
nnFEnLv=nvaaHFE﹁rnb
‑一︐︐︐.
nHu‑‑
nu=
nu=
Ed=
n
L
V
c
c
L
V
G
N
(
I
H,J
N
)
<
<A:半LVGN.TXT
c
H
)
R
R
L
D
(
I
H,I
<
<A:半RRLD.TXT
D
I
M
E
N
S
I
O
NR
V
G
D
(
I
H,J
N
)
N
)
D
I
M
E
N
S
I
O
NL
V
G
N
(
I
H,J
D
I
M
E
N
S
I
O
NR
R
L
D
(
I
H,I
H
)
C
=
=
=
=
=
=二
二
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
O
P
E
N(
5,
A
C
C
E
S
S
=
'S
E
O
U
E
N
T
I
A
L
'
F
I
L
E
=
'A
:半R
R
L
D
.T
XT
',
F
O
R
M
=
'
F
O
R
M
A
T
T
E
D
',
,S
T
A
T
U
Sニ'
U
N
K
N
O
W
N
')
••
C
‑
‑
‑ S
R
V
G
D
S
.T
X
T
P
A
R
A
M
E
T
E
R(
(
1H
=
3
2,
(
J
N
=
9
4
)
C
‑ーーーーーー一一一ーーーーー一一ー
表 .6 f
丹生を想定していなかった対比のあ絡
表・ 5b 残差揺弱点由樹子炉JRVGDを求めるための
主プログラム SRVGDS
nペU
η
t
a
ハu
d
数個(表・ 5 .5b. S L V G N S ‑ S R D G D S )[ l J[ l a Jを作成し,試算残詣島支配列 RVGD ( 表 ・ 4a .b.c) [ l ] [ l a Jを 実算した.入/出力ファイルは具体的で見ゃれ¥一連の F O R T R A N 7 7主プログラムは各々の P A R A M E T E R文の 数値のみで課題ごとに調節される樹戒計算用のプログラムであるが解析手順の表示でもあり,無効対比の分 解(レゾリューション)を確認する配列の生成にも応用できる(表・ 6,S L U F N S ‑ S R U G D S ; また, [ 7 a J ) . c ht r e a t m e n tofana r r a n g e m e n ti si d e n t i f i e db yt h eF i n l 1ey‑Kempthomes y m b o l i ct r e a t m el 1tp r o d u c t ResumeEa i c t i o n a r yo r d e rw h e r e a sa na c t i v ec o n t r a s ti si d e n t i f i e db yt h eFinney‑Kempthomes y r n b o l i c andl i s t e di n出ed o n t r a s t sa r egovemedby出ec o n s回1I1t S . c o n t r a s tp r o d u c tandl i s t e di nt h egenωlogyo r d e r[ 2 ] [ 2 a ] . 百四 c l lASCIIs e q u e n t i a lt e x t s ̲ T a b l e1[ 1 ]( o fa n Thel i s t sw i t ht h ei n d i c e st h a tc h a r a c t e r i z et h ec o n s t r a i n t s,a e x a m p l e [ 3 ] ), 釘et a k e ni n t ot h emainI l l e l l l o r ybyFORTRAN77mail 1programs̲Table5andp r o c e s s e d ̲ T a b l e5 a e s p o n s e s ‑ c o n t r a s t s ‑ c o n v e r s i o na r r a y̲T a b l e3[ 1a ]a st ob eo p e r a t e dona n ymeasuredr e s p o n s e s t og e n e r a t e出er g i v i n gt h e伽 e dcon 岡山 a s恥 s o l u t i o l 1o f t h en o r m a le q u a t i o n so f t h ec o n s t r a i n e dl e a s ts q u a r e[ 2 ] [ 2 a ] . b o l i ωl I ys u p p o s e do f v a r i o u sp a r t i a landg e n e r a lf l u c t u a t i ol 1sa r el i s t e d ̲ T a b l e2[ 1 ]( o f al 1 T r u es a m p l e sぉ 可m e x a m p l e [ 3 ] )andp r o c e s s e d ̲ T a b l e5bt og e n e r a t et h ef i t t e d ‑ r e s i d u e s ‑ c o m p o s i t i ol 1a r r a y ̲ T a b l e s4 a, bandc[ l a ] . 1 n e r tC O l 1t r a s t s,t h a tmaya f f e c tt h ef i t t e d∞n t r a s t sa l 1dt h ef i t t e dr e s i d u e sj u s tI ik et r u es a m p l e so ff l u c t u a t i o n, a r el i s t e d ,i f a n y , a n dp r ∞esseds . i m i l a r l y ̲ T a b l e6a st ob eac h e c ko f r e s o l u t i o n[ 6 ] .百 i sf o r m u l a t i o ni sa p p l i c a b l e t oa n ya 汀a nge l l 1e n tt h o u g ht h ei d e aofr e s o l u t i o nwaso r i g i n a l l yf o u n do fap r i m epowera r r a n g e m e n t[ 6 a ] [6 b ] Themainl i s t sof甘e a t r n e n t s,con 甘a s t sandc o n s t r a i n t si nT a b l e sIand2o rt h a to f t h ei l 1e 口c Ol 1t r a s t smayb e a d a p t e d巴a s i l yt oo t h e ra 汀a ngemel 1t s( e . g .,of [4 ] )andp r o c e s s e dbyl l l a il 1p r o g r al l 1si nT a b l e s5,5 a,5ba l 1d6t h a t mayb ea d a p t e do n 1 ybyt h ev a l u e so f t h ep a r a l l l e t e r so f t h ePARAMETERs t a t e m e n ta st ob em o d i f i e d . Th emainl i s t sp r o v i d eag e n e r a ld e s c r i p t i o l 1o f t h es t r u c t u r eo f t h er e s p o n s ea l 1dt h e企包neworko ft h ec o n t r a s t s w h e r e a st h emainp r o g r a m sp r o v i d en o to n l yad e t a i l e dd e s c n p t i o no ft h ep r o c e d u r e so ft h ea n a l y s i sb u ta l s ot h e a c t i v er o u t i n 白血a t紅 巳 i . m m e d i a t e l ye l l l p l o y a b l ea st oworki l 1e x e c u t i ol 1o f n e c e s s a r yl 1u m e r i c a lc o m p u t a t i o l 1 . 百 四 r e s u l t so f t h ec o m p u t a t i o na r eo b t a i n e da sASCIIs e q u e l 1t i a lt e x tf i l e st h a tl l l a yb ee d i t e da r b i t r a r i l y . Finney‑Kempthomes y m b o l i ct r e a t m e n to rc o n t r a s tp r o d u c t sh a v i n gb e c no r i g i n a l l yi n v e n t e dont h eb a s i so f t h e o r yo fG a l o i sf i e l dt od e s c r i b et h es 仕u cωrea l 1d合ameworkofap r i l l l epowero rp o w e r e d ‑ p r i m epower a 汀a ngement[ 5 ] [ 5 a ] [ 5 b ] [ 6 ] [ 6 a ] [ 6 b ]s od i t f e r el 1t l yf r ol l 1t h a to f t h el l l u l t i f a c t o r i a la 汀a l 1gemel 1t[ 2 ] [ 2 a ]a sw o r k il 1g , ]b u tt h ef o m l e rI l la yb cr e i n t e r p r e t e di na合a l l l e w o r koft h el al t e ron t ob et h eb a s i so f t h ed e s c r i p t i o nh c r e[ 1 ] [ l a t h eb a s i so fc Y C l O t O l l l i cb a s ev e c t o r s[ 7 ][ 8 ]o rr e d e f m e dont h eb a s i so fc O l l l b i n a t o r i a lo r t h o g ol 1a l i t y[ 7 a ] . 汀a ngementi se l e g a n ti nt h ea r c h i t e c t u r eandn a t u r ea sd e p i c t e ds o Ap r i m epowero rp o w e r e d ‑ p r i m epowera . nc il 1g l yi . nSASQCRSofiwareR e f e r el 1 c e[ 6 ] [ 6 a ] [ 6 b ] . 百l ea r r a n g e m e n th a sa t f e c t e dd e s i g no f r e a d a b l yandconvi v a r i o u sa 汀a n g e m e n t sanda n a l y s i so f r e s u t I so fe x p e r i m e n t[ 9 ] .I tIllaybercviewed[ 7 a ]ont h eb a s i so fg e n e r a l I I I 叫出a c t o r i a la r r a n g e m e n t s,s ot oc l a r i f シanddell1y s t i f Yafewprinciplesofthea口astohelpus.::rsofawidecirclc t oemploya p p r o p n a t e l yt h es o 丘w a r e so fp r o f e s s i o n a lu s es u c ha sSAS/ST ATs o f t w a r e,SAS/QCs o f h v a r ee t c 参考文献 川 柴 山 忠 雄( 2 0 0 1 ) :要因配置実験の結果解析のための FOR:百AN77 表示, (社)日本品質背理学会第6回研 究発表会 5 ‑ 9,要旨集 p . 1 9 3・ 1 9 6 ; [ I a ]S h i b a y a l l l a, T .( 2 0 0 1 )・Theh a1 l d o u tf o rt h ep r e s e n t a t i o n . 2 0 0 0 ) :任意の省略配置の上での応答成分の推定, [ 2 ]柴山忠雄( 7,要旨集 p . 1 8 5・ 1 8 8 ; 会 6・ [ 3 ]: 谷 津 (社)日本品質管理学会第 6 4回研究発表 [ 2 a ]S h i b a y a l l l a, T . ( 2 0 0 0 ) :Theh a n d o u tf o rt h ep r e s e n t a t i o n 進(19 9 1 )・実験の計画と解析,応用編p. l56ス7節 [ 1 2 ]反復 . . 2方分割, (財)日本規格協会. [ 4 ]田口玄ー(19 7 6 ) :実験計画法 3版,上p . 2 3 9 ・ 242,9章分割法, 9 . 8節 2方分害U 法,丸善. [ 5 ]Bamard, M.M.( 19 3 6 ) :Ane n u m e r a t i o no f t h ec o n f o u n d e da r r a n g el l 1c n t si nt h e2x2X . . .f a c t o r i a ld e s i g n s, J .R o y . S t a t i s t lS o c .,Suppt I3, 1 9 5・ 2 0 2 ; [ 5 a ]Bose, R . C .andK i s h e , 1 lK .( l9 4 0 )・Ont h eproblemo fc o n f o ul 1d i n g ホh y a5( 1 ) ,2 1 ‑ 3 6 ; i nt h eg e n e r a ls y n u n e t r i c a lf a c t o r i a ld e s i g n,Sm [ 5 b ]Bose, R . C . ( 1 9 47 ) :MathematiωIt h e o r yo f t h es y n l l l l e 出c a lf a c l o r i a ld e s i g n,SaJ氷h y a8 ( 2 ), 1 0 7 ‑ 1 6 6 . l 1s t i t u t e,I nc .( 1 9 8 9 ) :SASQCRS o f t w a r e :R e f e r e n c c,v n6,1 s tc d n,SASI n s t i t u t e . [ 6 ]SAS1 8 9 ) :SAS/QCソフトウェアの SASFACTEXプロシジャの紹介, [ 6 a ]柴山忠雄(19 SUGI‑ J '8 9論文集 p . 1 3 7・ 1 4 4 ; 日本SAS ユ」ヰ会 [ 6 b ]S h i b a y a l l l a, T .( 1 9 8 9 ) :百l ep r e s e n t a t i o na i df o rSUGI‑J' 8 9 [7]柴山忠雄( 1 9 9 1 ) :応答の分類成分と応答の分解成分との関係, (社)日本品質管理学会第 2 1回年次大 会4・ 5,要旨集 p . 1 0 3・ 1 0 6 ; [ 7 a ]Shibayama, T .( 2 0 01 )・Handoutf o rt h i sp r c s e n l a t i o na tSUGI‑J2001 . [ 8 ]B a i l e y , R. A .( 1 9 8 2 ) :百l ed ∞01llpositionoftreatmentdegreesoffi'ccdolllinqllanlitativefactorialcxpCrilllenlS, J .R o y . S t a t i s t lS o c .B44( 1 ) ,6 3 ‑ 7 0 . [ 9 ]Wll, C . ‑ F . JandHamada, M . ( 2 0 0 0 ) :E x p c r i m e n t s,W i l c y ‑ I n l e r s c i c n c c . ‑380‑
ポスターセッション 調査・マーケテインク
日本 SASユーザー会 (SUGI‑J) 太陽と地球との関係 堀田大輔 慶慮義塾大学総合政策学部 T h e Relationship b e t w e e nt h eS u na n dt h eE a r t h D a i s u k eH o r i o k a oU n i v e r s i t y, F a c u l t yo fP o l i c yM a n a g巴m e n t K巴i 要旨 宇宙は昔から人々が興味をもっており、今も長期的なブームとなっているテーマで ある υ その壮大なテーマの中で、地球にもっとも影響を与えておりわれわれ生命の源 である太陽と、経済活動を主体とした人間の営みとの関係を調べてみた。この調査に は JMPINソフトウェアを用いた。 キーワード: JMPIN ソフトウェア、太陽、地球、時系列分析 1.はじめに 人間の技術の発達により、多くの宇宙のなぞが解明されてきた。現在も宇宙地図、ダーク マタ一、ブラックホールなど多くの研究が続けられている。ハッブ、ル望遠鏡をはじめ、日本 の国立天文台がハワイ島に建設した「すばる望遠鏡」が多くの注目を浴びた話題は記憶に新 しい。その壮大な宇宙の中でも、太陽はわれわれ人類にとってはもっとも重要である。地球 上の生命の源でもあり、われわれ人類にとっても必要不可欠な存在である。太陽が適度な地 球の温度を保ち、植物の光合成を促し、生命の営みを可能としている。この太陽の研究は古 くから行われており、現在では常時太陽の監視をし、研究を行っている。 一方、われわれ人聞は驚くほど急速な経済発展を遂げてきた。この経済発展はわれわれの 知能の発達とともに技術を発達させてきたと言える。この技術の発展で、現在われわれは、 天候等にほとんど影響を受けることなく農作物を大量に生産できるようになった。こうして 人聞はあまり自然に関係なく経済活動を行っている。 ‑383
人間の経済活動を考える際、われわれ人聞は天候なら農作物に多少なりともの影響がある ために関連付けることがある。しかし、太陽の活動を人間の経済活動と関連させては考えな い η これは、太陽は確かに人聞にとって大切なものではあるが、天候と太陽の活動とのはっ きりした関係が現在でもわからないなど自然でさえも不明な点も多く、人間の経済活動との 関連性がないと考えられているからである。 夜 、 は 、 2000年度あたりに太陽の活動が活発になるために、衛星の機能の停止や誤作動が起 こる可能性があるという話を耳にした。実際にある衛星では機能が停止した 1)。この話をふ まえ、以下のような疑問を持った。 本当に人間と太陽の活動には関連がないのであろうか? 確かに衛星は地球外の話ではある。しかし、太陽と人間の活動は地球上では無関係なので あろうか? 2 .目的 太陽と地球の活動は関連があるのか、という疑問からこの調査では太陽と地球の各種のデ ータからそれぞれを比較し、なんらかの隠された関連性を見つけ出す。 3 .方法 太陽と人間の活動のそれぞれのデータを比較することで関連性を分析してし、く。 太陽の活動データとして、太陽の黒点数を利用する。これを基準として、人間の活動に関 するデータや地球上の自然に関するデータとを比較、調査することでそれぞれの関係性を見 ていく。 人間の活動のデータとしては、日本の物価指数・アメリカの農業生産指数・アメリカの工 業生産指数・日経平均株価を用いる。また、地球上の自然に関するデータとしてはオーロラ 出現数・東京の気温・ベルリンの気温・地球の温度変化を用いた。 以上のようなデータを集めたが、太陽の黒点数データの期間を 1700 年 ~2000 年までとし たため、その他の各種データを全期間に渡って集められなかった。また、年代の重ならない 各種データがあり比較できないものもある。 この調査では、 JMPINソフトウェアを利用してデータを分析した。 まず、太陽の黒点数について調査した。ヒストグラムを利用して、中央値や平均値、確立 分布をみることで黒点数からみた太陽の状態を考察する。また、 x軸に年代を、 y軸に黒点数 A 斗企 n 口 つd
をおいてグラフを表示させることで、太陽の黒点活動の時系列的周期性を調べる。これらの 特徴を基準として、その他の様々なデータと比較していく。 次に、太陽黒点数と各データとの相関関係を分析した。すべてのデータをグラフの縦軸と 横軸にとって散布図を描いてみた。それぞれの相関係数をみて関連性の強さを探るとともに 強し、相関係数があった場合には、それぞれで因果関係があるかも分析する。 最後に、時系列分析で分析する。年代を横軸にとり、縦軸に太陽黒点数と他の各種データ とを 2つ、又はそれ以上でそれぞれ比較してし、く。この分析にあたっては、各種データの単 位が違い、数値が大きく異なるため、分析しやすくするためにデータを修正したものもある 。 以上の分析を通して、太陽の活動と人聞の活動の関連性を探すことにする。 4 .結果 4 .1 .1 太 陽 黒 点 数 に つ い て の 分 析 太陽の黒点数(f1are) を、ヒストグラムを用いて分析した。データの期間は 1700 年 ~2000 年である。 区11 .1を見てみると、最大値が 1 9 0ぐらいであるが、平均値が 4 9 . 5と低い。太陽の活動が 00近くになるときもあり普段の 4倍も黒点数が増える ο だが、普段は、黒点 活発になると 2 0 0以下であることがほとんどである。このことから太陽の活動は普段はおとな 数は少なく 1 しいが、突発的に活動が活発になると莫大なエネルギーが放出されていることがよくわかる。 , , 一 一 ¥ ー 一 ー 、 : iQ u a n t i J e s 川 !ma 長) 「一一一 200 1 8 7 . 5口 153∞ 口 口 9口口% 1 口6 . 1口 qua 円i l e 75口% 69. 4 口 median 50.0% 4 0 . 0 0 qua円i l e 25.0% 16.00 minimum 100 9 ω 9 . 5 % 9 好7.5% L一 (c Momen!s 、 Mean 10.0% 6.80 2.5% 2 . 2 5 0.5% 0.00 0.0% 0.00 I 一 J 49. 4512 40.3296 2.3323 54.0411 。 44.8612 299.0000 SumWeigh!s ¥ 一 一 図1.1 299.0000 ̲J ペU n Fhu n凸
4 .1 .1太 陽 の 活 動 の 推 移 太陽の黒点数の推移は以下の図のようになる。 「 手 園 ' "調官 l ? 竺2i j ヌ国 企こ竺竺".竺竺 J 図1.2 ιι . : > . 明 1醐 一 一 一 一 [主主主面三F J; 4 ,,.三 │ ・ 同 町 0 5 a同 E回 l , . . .~柚』咽,臼曲n 世彊'" '((;主主主孟吾プ三寸 壁 二 ご 2‑d 図1.3 3 8 6
太陽の黒点数は図1.2のように変化してみる。一般的には 55年周期で太陽の黒点数が変化 していると言われている。しかし、図1.2ではわかりにくいので図1.3 のように密度処理を 施してみた。 55年とまではわからないが 50年くらいで変化している様子がわかる。例をと ってみると 1700 年 ~1725 年まで、にノト規模の活動の周期が訪れ、その後の 25 年の聞に大き な活動の周期がある。この約 50 年の周期を繰り返しているように見えるが、ここ最近、 50 年ほどは太陽の活動が非常に活発で、わヵ、りにくくなっている。この最近の活発な活動が、近 年起こった衛星の機能の停止や誤作動の原因であると考えられる。 4 . 2太 陽 の 黒 点 数 と 各 デ ー タ と の 相 関 関 係 次にそれぞれのデータに相関関係があるかどうか分析してみたり 太陽黒点数:flare オーロラ出現数 aurorae 東京の気温:Tokyo Temparature 地球の温度変化:N .J ‑ le r m .Norm 日本の物価指数:Wholescale Prince I l l d e x ベルリンの気温 TempBerline 日経平均株価:stok( Ja p a n ) アメリカの農業生産指数:agriculture product( U S )( w h e a t ) アメリカの工業生産指数 邑竺'O"~J industrial product(USA)a=1997 ‑‑ ‑ ‑ l 5E?? 。;-..~) l E J 訓 1凹 ' ‑ . t . ' ι‑ . . , : . , :. て 三 、 , ド .~. 0 I ゴ "0 AUforae ; 2 0 1 凹 80 6 : : 20 . ー に ー ・ : : . : . : ./ ..:;(:_:'""λ..~' ",; . 100 200 010 30 50 70 90 110 13C し一一一 図 2.1 η 喝U ηl n 口
。 山 圃 . @ 咽2 開。"関 G 宅医四 。 = . 電 醐 図2 .2 図2 . 1では、太陽の黒点数とオーロラの出現数O の散布図を描いてみた。相関係数は 1に近 . 5 7 4と中程度の性の相関しか見られなかった。 づくほど相関関係が強いが、この場合では 0 この分析だけでは、何らかの関連があるとは判断できない。 . 2では、太陽の黒点数とオーロラ出現数を除くすべてのデータとの散布図を描い 次の図 2 た。特に相関関係の強し、ものをあげてみると、日本の物価指数とアメリカの工業生産指数が . 7 6 1 3で強い Eの相聞が見られた。また、日経平均株価とアメリカの工業生産 ある。これは 0 . 9 1 0 8とし寸非常に強い Eの相聞が見られた。日経平均株価が非常にアメリカ経済 指数にも 0 に影響されているのはテレビで見ていると感じる。最近ではアメリカの好景気が足踏みした 4 0 0 0円を割っている。この相関係数の数値からもこの強い ことで、日経平均株価が低迷し 1 相互影響が見て取れる。 . 9 6 4 0、日経平均株価は その他には、太陽の黒点数との問ではアメリカの農業生産指数がー 0 ‑ 0 . 8 4 4 4とそれぞれ強し、負の相聞が見られた。このことから、太陽の活動が活発になることで 農業や経済状態に悪影響を与えていることがわかる。また、地球の温度変化を除くすべての データに対して負の相聞がみられる。太陽の活発な活動により、なんらかの原因により農業 や工業に悪影響を与え、それが経済全体にも悪い影響を与えていると考えられる。一般に直 接関係がない 2つの変数は、仮に相関関係があったとしても、疑似相聞として棄却されるこ とが多い。しかしながら、これだけ強い相聞があることは、両者の聞には無視できない関係 があると考えなければならない。原因を特定することは現段階ではできないが、さらなる追 求が必要であると感じる。 ぺU n n 口 n 口
4 . 3太 陽 の 黒 点 数 と オ ー ロ ラ ここで、時系列分析によって太陽の活動と各種のデータとの比較を進めてし、く。 s 図3 . 1 図 3 . 1では、太陽の黒点数とオーロラの出現数とを比較した。この 2つのデータの周期は 0年を周期として増減を繰り返しているの増減する幅が違うときも 非常にいる。 2っとも約 1 あるが、 1700年代後半や、 1850年周辺は増減する幅までほとんど同じ動きをしている。オ ーロラの出現する理由として太陽からの帯電粒子が地球の磁力にひきつけられるためである ことから出現数は太陽の活動に大きな影響を受けていることがわかる 3 )。太陽の活動が活発 になることで、帯電粒子が大量に発生しオーロラの出現回数が増えるのではないだろうか。 また、地球の温度変化や各地の気温とも比較したが、はっきりとした周期や幅の関連性は 見受けられなかった。この結果からも、天候と太陽の活動との関連がし、まだにわかっていな し、現状を浮き彫りにしており、こうした関連の調査を続ける必要を感じる c 叫 υ n o 凶 ハ nυ
4 . 4太 陽 活 動 と 経 済 活 動 最後に太陽黒点数と経済活動について考えてみた。比較対象として、日本の物価指数・日 経平均株価とアメリカの農業・工業生産指数を利用した。日本の物価指数は 1946 年 ~1950 年までは、第二次世界大戦の影響によって非常に物価が高騰しておりはずれ値として除去し た 。 r e 太陽の各年度の黒点数 日a WP(Japan)勺 0: 日本の物価指数を 1 0倍に補正 a p / 2 0 0:アメリカの農業生産指数を 2 0 0分の 1に補正 I P 吃:アメリカの工業生産指数を 2倍に補正 s t o k / 1 0 0:日系平均株価を 1 0 0分の 1に補正 " " 咽 1 叩 判 明 卵姐 図 4 . 1 1 闇 ¥9;0 醐 1 醐 澗 ! 円ud nぺU ハ U
J 嗣訓惜 , 刷 れ ¥八 れ 八v ¥ v ¥ ¥ ハ仇v 副 岡 I 1 醐 刷 醐 岨 咽 刷 酬 明 刷 柑 柑 明 輔 帽 圃 . , 情 ‑ I . . . . 幽曽川同・ Hl剛 l 欄 l i J I 員制.... 勧 ・ . . . . 司 " 回 申 I~・M 何日惜 } M 明 川トJレJ 関 ・ 1 レヘ 咽 1 . , ' │ 酬 ‑ 明 咽 咽 刷 咽 附 惜 刷 珂 闘 / ' ‑ ‑ ‑ ‑ ‑ 柑 刷 咽 咽 圃 酬 咽 圃 削 I . . . . 幽曽川同・ I I(同一一 勧 ・ . . . . 司 , , ‑ 守 咽 ハ 」ハ¥ い)ー ,~ノ }│ J 町lIi l l . . [ ‑ 同 雌 勾1 向..,..惜 ノ レ 釧 " 釧 " μ J~ 釧 " トJ l い.r ν ¥ " ・ " . ~ 剛 ‑ 副首嗣 il~4"""司Hl.... ノ ド一一 酬 明 . . . . 幽曽川同・ ~ 咽 咽 刷 刷 柑 刷 惜 阿 賀 柑 刷 咽 I 糾 明H I t t 揖咽 国4 . 2 太陽黒点数:f l a r e 日本の物価指数:W P(Japan) アメリカの工業生産指数:I P アメリカの農業生産指数:a p 日経平均株価:s t o c k 太陽活動との比較の結果は図 4 . 1のようになった。工業生産指数は技術革新により生産が 上がりつづけているために、太陽活動との関係は認められなヵ、った。また、日経平均株価も 1 9 9 0年頃にパフツレで、株価が高騰しその後低迷しており、太陽の活動とは無関係の動きを示し ている。 図 4 . 2を見てみるとWho l e S c a l eP r i n c e1 n d e x (日本の物価指数)が 1 9 1 0年代と 1 9 4 0年代 1 1:界大戦のためと思われ、 1 9 4 0年代以降の約 1 0年間は、物 に非常に増加しているのこれは ! 価が停滞していることが分かるの υ 円叫 υ 内ぺ 14
一方、アメリカの農業生産指数と日本の物価指数については、周期が似通っている。アメ リカの農業生産指数の場合では、生産技術により大量生産が可能になったため、指数は全体 . 2でみると、太陽黒点数と同様の周期で動いていることがわ では右上がりではあるが、図 4 0年の周期で増減を繰り返している。 かる。どちらも約 1 また、日本の物価指数の場合では、第 1・2次世界大戦の起こった 1915年あたりと 1945 年あたりと戦後の低迷が続いた 1960年代では大きく幅が違い、周期の違いもでてきている。 0年を周期として増減を繰り返している。 しかし、アメリカの農業生産指数と同様に約 1 この 2つから、原因はわからないが太陽の活動が経済活動に影響を与えていると言える。 5 .分析を通して 太陽がどれほど地球に影響を与えるのか、その関連性に興味を持ち、今回の分析を行って きた。オーロラが太陽の活動を与えていることが明白である一方、地球の温度変化や各地域 の気温が無関係で、あるということで、自然現象が必ずしも太陽に影響されているとは言えず 地球の温度などをなにが左右しているのかとしづ疑問が残った。地球内部の構造によるもの なのであろうか?さらなる調査の必要性を感じた。 われわれ人聞が技術革新を続けており、自然に影響されることが少なくなったとも言える。 しかし、分析の結果から、一見太陽の活動などとは無関係に思われている農業生産指数や物 価指数が太陽活動の周期と同じように動いているということは驚きで、あった。今回の分析で、 太陽は人間の生命を育むとともに、われわれの行動をもなんらかの影響を与えているという ことが言える。また、今後もわれわれはそういう影響を受ける可能性は否定できない。 しかしながら、今回の調査では太陽が人間の行動に関してどれほどの影響を与えるのかと しづ直接的な原因を導きだ、せなかった ο というのは確かに動きは似通っているように見える が、これが確かに影響を与えているのかとしづ数値によるデータが表せなかったからである。 経済的な動きには様々な要因が関わっているが、どれほど太陽の動きが影響を与えているの かを他の要因とも照らし合わせて、データとして表していくことが今後の研究に必要なので はないかと考える。 6 .引用・参考文献 太陽黒点数 (1700~ 1 9 9 8 ) 理科年表 オーロラ出現数 (1700~ 1 9 0 0 ) NOAAWebS i t e 地球の温度変化 (1700~ 2 000) NOAAWebS i t e 東京の気温 ( 1 9 6 1~1998) 日本統計資料 υ 円同 nぺU nノμ
ベルリンの気温 (1769~ 1 9 7 5 ) マクミラン世界歴史統計 アメリカの農業生産指数 (1866~1975) マクミラン世界歴史統計 アメリカの工業生産指数 (1939~1985) アメリカ経済白書 日本の物価指数 (1888~1998) 日本統計資料 日経平均株価 (1970~2000) PersonalWebS i t e 1 ) ISAS(文部科学庁宇宙科学研究所)、ニュースから,あすか事情, 2000年 9月 29日 h t t o : / /www . is a s . a c . i o / d o c s / ISASnews/No .2 3 4 / i s a s .html#asca 2 ) たとえば、アメリカの農業生産指数のデータを 200分の lに処理している 3 ) 名古屋大学太陽地球環境研究所電磁気圏環境部門 第 I部門研究紹介より h t t o : / / s t d b 2 . s t e l a b .nagova‑ u . a c .i o / d i v 2 / o r o i e c t .html 7 .謝辞 本研究を進めるにあたり、あらゆる面にわたってご指導下さった、(有)企業行動デザイン 研究所 代表取締役/主任研究員・慶謄義塾大学総合政策学部講師 陶山博太氏に心から感謝 申し上げます。 n︿U υ ︑ ηu 同 ハ
日本 S A Sユーザー会 (SUG I-~) 地方自治体への地理情報システム (GIS)の導入要因の分析 ""'SASシステム及び JMPシステムを用いて 小田真樹子 t ) 11向 肇 村 有 馬 昌 宏 竹 f 神戸商科大学大学院経営学研究科経営情報科学専攻博士後期課程 什神戸商科大学商経学部管理科学科 Ana n a l y s i so ff a c t o r st h a ts p e c i f yt h ei n t r o d u c t i o no fG I St ol o c a lg o v e m m e n t si nJ a p a n b yu s i n gSASs y s t e ma n dJMPs y s t e m 問a k i k oO da t H a j i r aK a w a r n u k a i 什Mas a h i r oA r i m a什 tG r a d u a t eS c h o o lo fB u s i n e s sA d m i n i s t r a t i o n 什Dep a r t r a n to fM an a g e 鴨川 S c i e n c e K o b eU n i v e r s i t yo fC o m m e r c e 要旨 1 9 9 9年度に兵庫県、大阪府、徳島県、岡山県、鳥取県の全 2 9 9市町村を対象とする G I Sの導入実態 A Sシステムを用し、て、 GISの導入レベルの相違を規定する要因を探 に関するアンケート調査を行い、 S A Sシステムの TAsULATEプロシジ るべく定量的な分析を行った a 本稿では、それらの分析の中から、 S ャを用いる多重クロス集計分析と REG ブ、ロシジャを応用する線形判 5J[11期数分析を適用した分析の手)IJj~ と分析結果を紹介する a また、分析に J MPシステムを利用すると、グラフなども含めて HTML形式のレポ M Pシ ートを容易に作成することができ、 Web上で、の分析結果の迅速な公開が可能となった。これらの J MPシステムの特徴もあわせて紹介する。 ステムによる分析手順の概要と J G I S )、TAI 3ULATEプロシジャ、 REGプロシジャ、 キーワード:アンケート調査、地理的報システム ( JMPシステム 1.はじめに 近年、地方自治体の情報化推進の一環として、多くの自治体で地理情報システム ( G I S )が導入され I S J~J 体が高額なシステムであることに ) J I Iえ 、 G I Sおよびその利用法に刻する社会 始めている。しかし、 G lIの程度にかなりの差が生じている また、 G I S適用可 的な認識の低さもあり、自治体問でその導入や利 J 能業務は多岐にわたるため、自治体の保々な業務への G I S導入の試みが模索されている a 我々は、 G I Sがどのような自治体のどのような業務で導入されているか、あるいは導入が検討されてい I Sの導入への取り組み状況を促進する要因と肌?与する要因を探ることを目 的とし るのかを明らかにし、 G 9 9 9年度に兵庫県、大阪府、徳品県、岡山県、鳥取県の全 2 9 9市町村を対象に、 G I S導入状況に て 、 1 関するアンケート調査を行った 3 このアンケート調査で得られたデータを S A SシステムとJMドシステムを I Sの導入や G I Sをベースとする自治体'情報システムへの取り組みにおける自治体問 用し、て分析し、 G の差異に影響を与える要因を探った。 3 2 . GISへの取り組み状況 自治体における G I S利用状況に出して、国土庁(1 9 97)による先行調在などと比較することを念頭に置 ‑395‑
き、業務を国土庁調査にならって 1 8 業務に分類 lし 、G I Sの導入状況を問う調査を郵送法で" ( Tった 2 0 0 0年 3月 2 1日に調査対象となる 2 9 9自治体に質問紙を発送し、同年同月 3 1 日までに 1 6 4市町村 4 . 8 % )を得た。 からの回答(有効回答率 5 I Sの導入状況は表 1に示すとおりとなり、 1 9 9 7年の国土庁調査と比較して、 G I Sの導入 その結果、 G 8業務のいずれか 自治体が着実に増加していることが判明したミなお、表 lの①「導入済自治体 Jとは、 1 J I Sが「すでに導入済み Jと回答した自治体であり、②「整備中自治体」とは、「導入済自治体」以外で、 でG I Sを「整備中」と回答した自治体である。以下同様に、③「調査中自治体 J、④「検 いずれかの業務で G 討中自治体」と分類し、 1 8業務のいずれにも「未検討」であるか無回答の市町村を⑤「非取組自治体」と した。 I S導入状況 表 1G 度数 累積度数 累積百分率 百分率 5 6 2 1 2 2 3 7 1 ①導入済 ②整備中 ③詞査中 ④検討中 ⑤非取組 3 4 . 1与 も 1 .2 与 も 7.3% 5 6 5 8 7 0 9 3 1 6 4 14.0~も 4 3 . 3号 色 3 4 . 1与 も 3 5.4与も 4 2 . 7号 も 5 6 . 7号 も 1 0 0 . 0号 も 3 . GISへの取り組み状況についてのクロス集計分析 G I Sの導入・整備に積極的に取り組んでしも自治体とそうでない自治体があるが、この差をもたらす要 因を探るべく、表 1 の①から④までの 9 3自治体を i G I S取組自治体」、⑤の 7 1 自治体を i G I S非取組自 )市と町村の別、 2 )人口の規模別、 3 )財政力指数のランク別、の観点から取 治体」と再分類した上で、 1 り組み状況に違いがあるかどうかを検討した。 表 2 3次元クロス集計表(取組自治体と非取組自治体の状況) 町村 人口 ~1 万人 財政力指数 ~1.0 ~2 万人 ~0 , 5 ~1.0 ~5 万人 ~0.5 ~1.0 縦計 市 人口 ~5 万人 財政力指数 取組 8 4 1 0 6 3 3 9 3 1.0~ ~1.0 1.0~ 縦計 総計 横計 。 4 3 1 2 2 7 9 2 2 4 6 2 7 1 2 0 。 3 6 0 非取組 ~0.5 0 , 5~1.0 1 0万 人 非取組 2 2 ~0.5 ~1.0 ~10 万人 取組 3 6 2 1 2 4 2 4 6 0 ~0.5 横計 。 。 。 4 4 2 1 1 7 1 3 6 1 2 6 4 4 4 4 4 1 6 4 11 8業務とは次の通りである。①悶定資産税、②住民登録、③管財、④地籍、⑤消防・防災、⑥環境管理、⑦医療・福祉、⑧清掃 事業、⑨農林政、⑩商工・観光、⑪教育、⑫郁市計画、⑬建築確認、⑭道路管理、⑮河川管理、⑮上水道、⑫下水道、⑬その他。 ハh υ nぺU ハud
まず、 FREQプロ、ンジャで、 2次兄クロス集計表を作成し、さらに T/¥BUI.ATEプ口、ンジャを用いて前ペ ージの表 2に示した市と町村の別、人 11m模別、財政力指数のランク別の取り組み状況についての 3次 元クロス集計表を作成した 3 なお、この 3次元クロス集計表を作成するためのプロク守ラム例をプロク、、ラムリ ス ト 1として、付録に示している。 GISの取り組み状況は、表 2に示すように、 i ↑ f と町村の別、人口規模別、財政力指数のランク別よって 差が存在することがうかがえる。また、 2次元クロス集計分析から、以下の 3つの傾向を指摘することがで、 き る ニ (1) 市部と町村部に関係なく、人 r~1 規模が大きくなれば「取組自治体」の比率が高まる 3 ( 2 )同様に市部と町村部に関係なく、財政力指数が高ければ「取組自治体」の比率が高まる。 ( 3 )市部の方が町村部に比べて「取組円治体」の比率が高い。 4 . GISへの取り組み要因についての判別関数分析 クロス集計分析の結果から、財政的に余裕がある自治体から GISの導入が進められている傾向がうか がえるο そこで、この仮説を検証するために、以下の手順で I~EG プロシジャを用し、た線形判別関数分析 を行うことにしたと 判別に用いる外的基準は、 ( a ) G I Sを導入済(表 Iの①導入済自治体)であるか、未導入(表 lの②から⑤までの自治体)かの別 ( b ) G I Sが調査済(表 Iの①導入済自治体と②整備中自治体)であるか、未調査かの別 ( c ) G I Sが検討済(表 Iの①導入済自治体 ③調査中自治体)であるか、未検討かの別 ( d ) G I Sに取組済(表 2の①から④までの自治体)であるか、非取組であるかの別 a )から ( d )まで、の各外的基準について、 1(導入済、調査済、検討済、取組済の場 である まず最初に、 ( J 合)と O( 未導入、未調査、未検討、非 I&*nの場合)の値を持つ O~] 型変数を生成したと 次に、線形判別関数分析を重回帰分析に帰着させるための変数変換を行い、重回帰分析を応用した 綿形判別関数分析を行った。すなわち、元の O~l 型変数を外的基準として用いるのではなく、例えば 外的基準が ( a )の場合には、導入済自治体と未導入自治体の比率を計算し、それらの値を外的規準の 値として使用したο 具体的な手続きとしては、 ) (1)外的規準の値が 1(導入済など)の場合、新しい外的規準の値を nz/(nj+nz ( 2 )外的規準の値が O (未導入など)の場合、新しい外的規準の値を ‑nj/ (nj+nz) に変換した上で、 SAS システムの I~EG プロシジャを利用し、通常の重回帰分析を適用した。なお、 n j は 元の外的規準の値が 1の自治体の数、 n : !は元の外的規準の値が Oの自治体の数であり、変数変換の結 果、新しい外的規準の総平均は Oとなり、重回帰分析の結果として得られる新外的規準の予測値が O以 j lの予 i f l l H r 立が O未満で、あれば未導入自治体に判別されることにな 上であれば導入済自治体、新外的対!i' る13 」方、説明変数として用し、たのは、対数変換した人口、財政力指数、市・町村ダミー(市は l、町村 )である九 は0 表 3に解析結果を示し、付録のプログラムリスト 2に表 3 ( a )の分析を行うプロク守ラムを例として記載して いる ο なお、表 3に示すケース 1からケース 6までについては、それぞれの説明変数として、ケース lは対 数変換した人口のみ、ケース 2は財政力指数のみ、ケース 3は市・町村ダミーのみ、ケース 4は対数変 l i・町村ダミー、ケース 6は対数変換した人口と 換した人口と市・町村ダミー、ケース 5は財政力指数と i し、ている。 財政力指数と市・町村ダミーを月1 以との判別関数分析の結果として、説明変数が l変数の場合(ケース lからケース 3まで)は、符号 条件は満たされており、市と町村の別、人口規模、および財政力指数とし、った自主財源の確保の容易さ 2 このような分析を行なうのは、大学の教育プログラムにおいて ' f (回帰分析と線形判)jI Jl沼教分析との1日の関係を説明するための事例として用 i I!凹州係数の有意性の検討が線形判 jリ l 則数分析においても応用可能となるからである。 しるとし、う目的に加えて、重回帰分析の変数選択やl 3 これらの外的基準を使用すれば、 D ISCRIMプロンジャをJljo、る通常の線形判別問数分析が適用できる。 "詳細については、固 ) [ 1 0 9 8 8 )のp p .55‑59を参照されたい。 5 人口の民大は、 615 , 757 人、最 'J、は、 711 人、平均i土、 'I~ , !)O;; 人、財政力栴数の最大は、l. :l8 、 h~ 小は、 0.07 、平均は、 0.436 である。 ‑397‑
表 3 'I~J別関数分析の結果 ( a ) r 持入済」と「未導入」を判別 ケース 1 対数変換 した人口 ケース 2 決定係数 F値 ケース 4 ( 2 . 6 9 7圃圃) 0 . 0 9 4 0 . 1 2 0 z ケース 5 ( 2 . 6 3 1・ つ 0 . 2 1 7 ( ‑ 0 . 6 9 4 ) 0 . 0 9 9 ケース 6 ( 1 .3 1 3 ) ( 2. 46 1・ つ ( 3 . 6 4 4・ つ 44 5 0. 財政力指数 市・町村 ダミー 自由度調整済 ケース 3 ( 3 . 7 4 5・ 0. 44 5 ( 0 . 0 0 0 ) 2 . 6 3 0 E‑Q3 0 . 0 8 5 ( 0 . 7 4 6 ) 0 . 1 9 5 ( ‑ 0 . 7 1 5 ) ‑ 0 . 1 0 2 0 . 0 7 4 0 . 0 7 0 0 . 0 3 5 0 . 0 7 1 0 . 0 6 4 0 . 0 6 9 14.03" 1 3 . 2 8 "" 6 . 2 9 3 "" 7 . 2 3 1欄 ・ 6 . 5 9 8"剛 4 . 9 9 3 "" ケース 1 ケース 2 ケース 5 ケース 6 0 . 0 8 3 ( 0 . 6 9 0 ) 0 . 1 8 3 ) 1 ( ‑ 0 . 7 51 ‑ 0 . 1 0 8 ( b ) r 調査済」と「未調査」を判別 対数変換 した人口 0 . 0 8 9 0 . 1 1 6 ( 3 . 3 8 3・ ( 1 .2 7 1 ) 0 . 2 0 0 ( ‑ 0 . 7 3 2 ) 0 . 1 0 5 ( 2 . 3 3 6・ つ 0. 42 8 ( ‑ 0 . 0 7 0 ) ‑ 0 . 0 0 8 41 8 0. ( 2. 40 1梅市) 市・町村 ダミー 決定係数 F値 ケース 4 ( 2 . 5 7 7 "" ) z 財政力指数 自由度調整済 ケース 3 ( 3. 47 9・ 0 . 0 6 4 0 . 0 6 0 0 . 0 2 8 0 . 0 6 1 0 . 0 5 4 0 . 0 5 8 12.10" 1 1. 45 "" 5 . 7 6 3" 6 . 3 0 2圃 胃 5 . 6 9 0 "" 4 . 3 4 6 "" ケ ス1 ケース 2 ケース 5 ケース 6 ( C ) r 検討済」と「未検討」を判別 対数変換 した人口 ( 0 . 8 6 0 ) 0 . 1 4 1 0 . 0 9 5 ( 2 . 2 3 6・ つ 0 . 1 9 3 ( ‑ 1 .2 0 4 ) ‑ 0 . 1 7 9 ( 3. 41 4・ つ 0 . 6 3 6 ( ‑ 0 . 9 4 7 ) 0 . 1 1 7 ( 4 . 0 1 2・ つ 0 . 5 0 7 市・町村 ダミー 決定係数 F値 ケース 4 ( 3 . 0 4 8・ ・ ) z 財政力指数 自由度調整済 ケース 3 ( 3 . 6 1 4・ 0 . 0 5 7 ( 1 . 72 5 ) 46 7 0. ー (1 . 2 6 2 ) 0 . 1 8 6 0 . 0 6 9 0 . 0 8 5 0 . 0 2 4 0 . 0 7 2 0 . 0 8 4 0 . 0 8 3 1 3 . 0 6 "" 16.01" 5 . 0 0 1" " 7 . 2 7 2・ " 8. 49 3・ 5 . 8 9 9 "" ケース 1 ケース 2 ケース 5 ケース 6 R ( D ) r 取組」と「非取組」を判別 対数変換 した人口 ( 3 . 7 4 4・ 決定係数 F値 ケス4 ( 2 . 2 8 7・ ) ( 4 . 3 2 0 "" ) 0 . 5 4 3 ( 2 . 9 1 9" ・ ) 0 . 2 5 0 0 . 0 7 4 14.02" ( 0 . 0 9 4 ) 0 . 1 0 6 0 . 0 9 9 財政力指数 市・町村 ダミー 自由度調整済 ケ ス3 ( ‑ 0 . 2 01 ) ‑ 0 . 0 3 0 ( 3 . 1 0 6・ つ 0 . 5 7 7 ( ‑ 0 . 2 5 4 ) 0 . 0 0 6 ( 2 . 0 6 3・ ) 0 . 5 5 9 ( ‑ 0 . 2 6 4 ) 0 . 0 3 1 0 . 0 3 9 0 . 0 9 8 0 . 0 4 4 0 . 0 6 8 0 . 0 9 3 0 . 0 8 7 1 8 . 67"" 8 . 5 2 2 6 . 9 8 8 "" 9 . 3 1 2 "" 6.172" 軍 事 (注)定数項の記載は省略した。括弧内はt1 直 1、勺土 5%、日は 1 ' 1 0水準で、有志:であることを示す。 nペU ハud nD
を表す指標が G I Sの取り組みに影粋を与える要因として大きく影響していることが確認された a ところで、各変数問の相関係数行列を検討した結果、対数変換した人口と財政力指数との聞の相関 0 . 8 8 4 )は高く、また対数変換した人口および財政力指数と市・町村ダミーとの聞にも、①市部では 係数 ( ;、さく財政力指数も低い、としづ関係、が 人口規模が大きく財政力指数も高い、②町村部では人口規模が J 見られる。このため、説明変数として 2つ以上の変数を用いる重回帰モデ、/レで、は多重共線性が発生して いることが考えられる。実際に、ケース 4からケース 6では、いずれかの変数の偏回帰係数が符号条件を I S の導入コストは自治体の 満たさないか、あるいは偏回帰係数自体が極めてノトさな値を取っている。 G 面積にも大きく影響を受けることから、今後は、自治体の面積や人口密度などの変数も説明変数として 取り込んだ、分析を行ってして必要があるであろう。 5 .JMPによる結果処理 SAS システムに代表されるようなメインフレームの時代から存在する伝統的な統計パッケージの場合、 解析を行うための作業も統計解析結果の出力も基本的には文字ベースで、あった。 80 年代後半からその 表現能力は若干向上してきたとはいえ、 80 年代以降の表計算ソフトウェアを中心とする汎用ソフトウェア のグラフィカル表現能力と比べ、その向上の程度は大きな聞きがあった。このため、統計解析は SASシス テムを用い、報告書などで公表するためには、表計算ソフトウェアなどを利用して加工する作業が必要と された 6 ところで、 2000年春にリリースされた JMPシステム 4 . 0は、これらの点で従来の SASシステムに見られ なかった以下の 5つの特徴を持っている。まず、第 lにキャラクタベースのオペレーションとキャラクタベ ースの出力からユーザを解放したことで あり、第 2 にデータとそのデータから表現されたグラフとが密接 に結びつき、データマイニング 的な発想、による分析が極めて容易に行えること、第 3に通常利用されるほ ぽ全ての手法を網羅していること、第 4に HTML形式でのレポート出力機能が用意されていること、第 5 に分析ごとに分析に対応するコマンドを探すとし、う作業からユーザを解放し、ある程度まで分析作業を 自動化で、きる点で、ある。 例えば、本稿の第 3節で丹]し、た多重クロス表を作成するとしよう。 JMPシステム 4 . 0では、ターゲ、ツトと したい町村のグループを取り出すために、市と町村を分けた棒グラフを描き、目的外のレコードにこでは )。そ 市部)を排除するため、障グ、ラフの市部の部分をクリックした上で、これらのレコード を排除する(図 1 うすると、市部のレコードの見出しに禁止マークが付き、これらの市部のレコードが以後の分析から排除 A n a l y s i sぺ F i tY されることが示される。市部のレコードを分析から排除した状態で、メニューパーから " b yx "(:選択し、タγアログウインドウ(図 2 )で、 Y .Response"に「財政力指数コード」を、 X .F a c t o了 " に 「町村人口コード」を割り当て、 by"に「取組・非取組」を割り当てる。このように、用いる変数とグループ 分けする変数をそれぞ、れクリックし、適切なボックスに割り当てた後、 OK"ボタンをクリックするた、けで、分 )が現れる。 析結果のウインド、ウ(図 3 同様に、市部についての分析を実施する場合には、一旦市部に関するレコードの排除状態を解除し、 の俸グラフにおける町村部をクリックし、 1 f 1 T 村部のレコードを分析から排除した上で、クロス表を作成 図1 するための作業を実施すればよい また、 JMPシステムでは、以上に示したようなグラフを含めた分析結果を HTML形式で保存できるため、 保存されたファイルに分析結果に関してのコメントを書き加えて公開することで、極めて効率的な結果の 公聞が可能で、あった。 ! ¥ Sシステムで作成する場合には、付録のプログラムリスト 1に なお、これらの多重クロス集計表作成を S 示すような T!¥BULATE プロシジャを用し、て、 TABLEステートメントで細かな指示を設定するとともに結 果の見栄えをよくするための工夫を凝らすなどの複雑で面倒な手続きが必要となり、初心者にとっては 必要な多重クロス集計表を得るまでにかなりの回数の試行錯誤が必要となることが多い。 P d 6 ~際、本稿においても、 SAS システムの出力結果を表計算ソフトウェア上で加工して体裁を整えたものを表 1 および表 2 として示している。 円同︐u nぺU n同︐u
図 1 棒グラフを用いて市部のレコードを分析から排除した岡面 回国民健康保険 回建物火災出火 i 牛 白交通事故発生件 巴刑法犯認知件数 回入口 2000年 5月 白l 人口増加平 ロ103事業所増加: 田市/町村別 四冨富覇軍冨臨 E 覇 回市部入口コード 図市・町村 日財政力指数コ」ド 図財政力指数変換 巴半 I j j j l j関数デ」担 回判日j I 関数デー担 区J2 多重クロス表変数選択タ矛イアロク、、 ‑400‑
図 3 クロス分析結果(町村部で G I S関係自治体の特性のクロス分析表) 6 . おわりに 本稿では、地方自治体における G I Sの導入実態に関するアンケート調査結果に対して、 S A Sシステム の TABじLATEプロシジャを用し、る多重クロス集計一分析と REGプロ、ンジャを応用する線形判別関数分析 を適用した分析の手順と分析結果を示した また.Jt v l lコシステム 4 . 0の利Jjjにより、グラフイカルなイン ターフェースを利用しながら容易に探索的なデータ解析が実行でき、グラフや解析結果などのレポー トがほぼ自動的に HTML形式で生成可能である機能を利用することで、調査対象者に対して分析結 果を Web上で迅速に公開することが可能であることを示した。 J 謝辞 本研究は、 1 9 9 9年度兵庫県特別研究「人 1リサイズのまちづくり支援と地理情報、ンステムの活用 jの研 究活動の一環として行ったもので、ある。アンケート調査に回答をいただいた市 r n ]村の担当者各位に感謝 いたします a 参考文献 1 )有馬昌宏、「パソコン版 S A Sシステムによる大規模統計調査データの解析J,日本 S A Sユーザー会 論文集, p p . 2 9 7 ‑ 3 1: ! , l9 9 2 . A 斗A ハHU
2 ) 有馬昌宏、「大学生の演奏・舞台芸術鑑賞の実態とその構造‑ P CS A Sによる分析 J,日本 S A Sユー ザー会論文集, p p . 5 5 ‑ 6 4, 1 9 9 3 . 3 ) 有馬昌宏、「無制限複数回答形式のアンケート調査データの入力と処理方法 J,日本 S A Sユーザー 会論文集, p p . 2 7 7 ‑ 2 8 4, 1 9 9 8 . 4) 園川隆夫、『多変量のデータ解析 j,朝倉書庖, 1 9 8 8 . 5 ) 国土庁計画・調整局国土情報整備室、「地理情報システム情報システム整備に関するアンケート集 計結果概要 J ,h t t p : / / w w w . n l a . g o . j p / k e i s ei /g i s / k a i gi /i n d e x ‑ j . h t ml .1 9 9 7 . 6 ) 自治大臣官房情報政策室、「地方公共団体業務に係る各種地理情報システム ( G I S )の相互利用に 関する調査研究 J,h t t p : / / w w w. la s c l e c n i p p o n ‑ n e t n e . j p / g i s / g i s . h t m. l1 9 9 9 . 7) 竹内啓監修、 ~SAS による回帰分析 1 東京大学出版会, 1996. 8 ) 辻新六・有馬昌宏、『アンケート調査の方法j,朝倉書庖, 1 9 8 7 . 9 ) 西岡(小田)真樹子・有馬目宏・川向肇、「地方分権下におけるまちづくりへの G I S活用の可能性 J, G I S学会講演論文集, vol9,pp341‑pp345, 2 0 0 0 . A Sシステム利用の手引き編 J,神戸 1 0 ) 古隅弘樹・有馬昌宏、「情報処理教育センター計算機システム S 商科大学情報処理教育センター, 1999. ‑402‑
付録 プログラムリスト 1 占a 由 v Tt司4 1 W A T ψATψAT IJJ1// ψaTiaψaT *'h* *‑フ* 申aTAV‑ψAT ψAThd 〆一申 a T 由 A T e ‑ 由 W W A T I 台 小 一 ‑ψAT ψaTP¥lψaT ψaT ψaT ψAT44U 一也争 ﹁ ノ *ト' e * ψ争 当 ポ19ψaT *一‑に一本 率引率 * 刈i* ψaTEE‑‑ ψAT 一 本 一 ‑rロ * 由 I W A T *トト* ︑* *飼牙 ︑ 占 aT' v ψaT1J 古今 *‑/本 申aTA''ψAT *﹁﹄* *7* ψATnr ψ争 *一 ‑7 E* * * ︑ 率 V人一本 争︑ ψ a'ψAT 占 ︑ ー 由 WAT v a T︐ ψATψATψAT r f ' r f ' r f ' f i 1 e n a m ei n 1" c :半r e s e a r c h半g i s . c s v " ; d a t at a b 1 e ; i n f i 1 ei n 1f i r s t o b s = 2m i s s o v e rd s d ; 斗叶 d '4AI 市町 4llnHU 一一‑一 nH O+IM Hu m よl し ︾ e+IMlhν 円V O rl 2UHu ︐ . mk よl H U d 戸し内 nν ー nvvv rI nH rl Hu ‑s 1 l * f i r s t o b s = 2でタイトル行を無視して読み込むことを指定 * * 1 1 *ファイルが csv形式て あるため dsdを指定 i n p u tj i n k o uz a i s e ik u b u n k i j u n 1 ‑ k i j u n 4 ; ニ1 t h e n d 1 = 1 ; l * k i j u n 4 = 1であれば取組自治体、 k i j u n 4 = 0であれば非取組自治体 * 1 i fk i j u n 4 e 1 s e d 2 = 1 ; 1 *取組自治体であればd1=1に、非取組自治体であればd2ニ1に * 1 v a 1 u ez a i f m t 1 0 wーO .5 = '~O. 5 ' 0 . 5 ‑ 1 . 0 = '0.5~1.0' 1 . O ‑ h ig h = '1. O~' ; v a 1 u ej i n k o u f m t 1ow-10000='~1 万人' 10000-20000='~2 万人 3 20000-50000='~5万人 3 50000-100000 ゴ ~10 万人 2 nH rl Hu ‑p 1 O O O O O ‑ h ig h = '1 0万人 '; p r o ct a b u 1 a t ed a t a = t a b 1 ef o r m a tニc o m m a 6 .; c 1 a s sk u b u nj i n k o uz a i s e i ; v a rd 1 ‑ d 2 ; t a b 1 e (kubun="" * ( j i n k o u = "人ロリ z a i s e i = "財 政 力 指 数 " a 1 1 = "縦計")) a1 1二"総計" ( d 1 = "取組、 s u mη" d 2 = "非取組、 s u m = "" ) a 1 1 = "横計" * n = "" / R T S = 2 5 ; f o r m a t k u b u nk u b u n f m t . . z a is e iz a if mt j i n k o uj i n k o u f m t . ; 二 rl ‑F nH Hu プログラムリスト 2 * 1 1 * 半Ij別関数プログラム * 1 1 1 * (導入済と未導入についての判別関数分析 ) * / 料 材 料 材 料 材 料 材 料 料 材 料 材 料 材 料 材 料 材 料* 1 /料材料材料材料材料材料料材料材料材料材料 f i 1 e n a m ei n 1" c :半r e s e a r c h半g i s . c s v " ; d a t ad i s c r i m 1 ; i n f i 1 ei n 1f i r s t o b s = 2m i s s o v e rd s d ; nH rl ‑3 Hu i n p u t j i n k o uz a i s e ik u b u n k i j u n 1 ‑ k i j u n 4 ; l * k i j u n 1から k i j u n 4は0 ‑ 1型変数で、外的基準 ( a )から ( d )までに相当 * 1 1 o g p = l o g ( j i n k o u ) ; p r o cs o r td a t a = d i s c r i m 1 ; b yk ij u n 1 ; r u n ; l * k i j u n 1をキーとしてオブザベ ‑403 ション(1 6 4自治体)を昇[ J 債でソ ト* 1
‑3 ・3 円U 一 一 一 一 11 ﹁ + a1s w n JG nH411 0vnH m1ハ UB 11hH ﹁1E+し 1i;n E3 11 可l n H 二 ︽ ノι F v し nH し mS41 Au‑‑41l crsI+a n +LU ー ・ ‑νn いMOV‑‑J 1a 向 AUSr 円 l a tf a ‑‑ u i fo w a r i = 1t h e nd o ; /*最終オブザベーシヨンであれば o w a r i = 1に設定 / 州1 にk i j u n 1の値が 1のオブザベ * / ションの数をカウン卜*/ nH ︽ノム )‑ 3 14n1H nH fJf ‑ ( 1 1 +し +L nH1lHU UHunド 1Jnb+ν ー 1lovHu lνnrl ハ U ・3 一 nu= ニ 41・3 n 2 = n ‑n 1 ; /*データセッ卜の最終行まできたら、①n 2 = n ‑ n 1を計算、 * / /*② r e s u l t 1に変数変換された新外的基準値(比率)を代入*/ k i j u n 1 = 1 ; u l t 1 = n 2 / ( n 1 t n 2 ) ; / *③ o u t p u tで k i j u n 1と r e s u l t 1;を保存変数とし、 k i j u n 1ニ1* / 巴 「s o u t p u t ; /*の場合と k i j u n 1 = 0の場合に対応する 2オブザベ ション*/ i s c r i m 2を作成 本 / /*から構成される新データセット d n d ; ‑p nH Hu rl 巴 / * k i j u n 1をキーとして昇順で d i s c r i m 2をソート*/ 川 ‑3 ︽ m ι J ‑ rI JU 川 C C J V ・ 1 ‑ m 1 3rl ・ 司c・ u mS11 3 ︑ 門 1 ・﹁l n H v し cuov. 1 円 l lu 川 rl 4lqfk uvJ amρb +lw nH a Hu rl u ︑ .rF‑‑U・H1UJ ‑3 nH Hu rl p r o cs o r td a t a = d i s c r i m 2 ; b yk i j u n 1 ; ‑p / * k i j u n 1をB Y変数として d i s c r i m 1とd i s c r i m 2をマッチマージ*/ /*この結果、新しく作成されるデータセット d i s c i r m 3では り / * k i j u n 1 = 1であれば「巴 s u l t 1 = n 2 / ( n 1 t n 2 ) * / / * k i j u n 1 = 0であれば「巴 s u l t 1 = ‑ n 1 / ( n 1 t n 2 )となる。*/ / * R E Gプロシジャを使った判別関数分析*/ ψATψATψATψATψATψAT fJfrf'rf'rf'fJffJf ‑‑︽正司 U A斗Ednb 一一一一一一 スススススス 本本木本木本 rf'fJfrf'rf'fJfrf' ‑404‑ ケケケケケケ p r o cr 巴9d a t a = d i s c r i m 3 ; m o d e lr 巴s ul t1=1 o g p ; m o d e1r e s ul t1二 z a i s e i ; m o d e lr 巴s u l t 1 =k u b u n ; m o d e1r e s u1 t1ニ l o g pk u b u n ; m o d e lr 巴s u l t 1 =z a i s e ik u b u n ; m o d e1r e s u1 t1二 l o g pz a i s e ik u b u n ; r u n ;
ポスターセッション データマイニング
日本 SASユ ー ザ ー 会 (SUG1‑0) データマイニング技法による生活習慣病のリスクファクタ一分析法の実際 窪田方飯沼一茂 ダイナポット株式会社総合研究所学術部 Riskf a c f o ra n a l y s i so fI if e ‑ s t y l er e l a t e dd i s e a s e su s i n gd a t aminingt e c h n i q u e GuofangZhai, PhD & KazushigeIinuma, PhD R&D, DainabotC o .LTD. S c i e n t i f i cA f f a i r s, 要旨 本稿では、健常者と、日ご、ろのライフスタイノレと密接に関わる生活習慣病の患者からなる 臨床データベースを分析対象として、 IT 進歩に伴って開発された、金融業や流通業などに 広く採用されつつあるデータマイニング技法を用し、た生活習慣病におけるリスクファクタ一 分析法が有効でかつ効率的であることについて示唆することを目的とする。 キーワード: 1 . データマイニング、生活習慣病、リスクファクター、ロジスティックモデル、 SAS/STAT はじめに 従来成人病と云われてきた、がん、高血圧、糖尿病などは必ずしも成人になってから起こるもので、は なくて、子どもの時からの生活習慣の積み重ねと、その人の持ってしも遺伝的因子、さらに環境の要 因が重なり合って起こってくる疾患で、ある。これらの病気を予防するためには、子どもの時から健康を 守るための生活習慣を身につけておくことが必要であるということで、生活習慣病とし、う名称、が打ち出 されたわけである c 平成 8年 1 2月、公衆衛生審議会成人病難病対策部会でとりまとめられた意見具 ( (旧)厚生省厚生審議会ホームページ 申「生活習慣に着目した疾病対策の基本的方向性について J を参照されたし、)が小泉厚生大臣に提出された。従来の加齢に注目した「成人病 J(こ代わって、生活 習l 貫に着目した「生活習 s貫病」としづ概念を新たに導入しようとし、うのが、その狙いのようである。 「生活習慣病 J ( L i f e ‑ s t y l er e l a t e dd i s e a s e s )の定義は、「食習慣、運動習慣、休養、喫煙、飲酒等の生 活習慣が、その発症・進行に関与する疾患群 Jと規定され、インスリン非依存性糖尿病(成人型糖尿 病)、肥満、高脂血症(家族性を除く)、高尿酸血症、循環器疾患(先天性を除く)、大腸癌(家族性を ‑407‑
除く)、高血圧症、肺肩平上皮癌、慢性気管支炎、肺気腫、アルコール性肝障害、歯周病などが含ま れるとされている。 因みに、生活習慣病を起こす要因を分析するときに、従来の生理学検査(血圧・身長・体重など)や、 血液学検査(赤血球数・白血球数など)や、血液生化学検査(総コレステロール・ HDLコレステロール など)のほかに、生活習慣に関わる情報を加えなければならないことになっているので、膨大なデータ を処理する場合が多くなっている。生活習慣病のリスクファクタ一分析において、統計的解析手法(重 回帰分析や、ロジスティク分析など)がよく利用されているが、数学的な一括処理でデータを集約させ ているにすぎず、データの質や、モデ、ルの選択/評価や、解析の結果を次の解析に活用することなど については、あまり言及されていない。しかし、町進歩に伴って開発されたデータマイニング、技法は、 大規模データに対応可能な処理技術として確立され、金融業や流通業などに広く採用されつつある が、臨床データ分析への応用研究はまだないようである。そこで、データマイニング技法(主にその考 え方)をもちいた、生活習慣病のリスクファクター解析への応用がよい結果を出したので、その分析方 法、手順及び注意事項を報告する。 本稿では、健常者 586 名と患者 (11 種類疾患の症例数がそれぞ、れ 11~247 名)、 50 変数からなる 臨床データベースを分析対象として、データマイニング『技法を用いた生活習1 ' 貫病におけるリスクフアク タ一分析法が有効でかつ効率的であることについて示唆することを目的とする。 本稿は4節に分けて述べてして。最初の第 1節ははじめにで、研究の背景や目的や構成を述べる。 第 2節はデータマイニング 技法の精粋及び従来法との差異を簡潔に紹介する。第 3節はデータマイ ニング技法を用いて生活習慣病のリスクファクター分析への応用方法を具体的に示す。第 4 節は研 究の結果や課題などをまとめる。 2 . データマイニング技法 2 . 1 データマイニング技法の概念 データマイニング、とは、大規模のデータから相関関係にあるパターンやルールを見つけるために自 B e r r ya n dL i n o釘 1 9 9 7 )。通常に、変数多(多いとき百以 動・半自動方法を使った探索と分析で、ある ( Knowledged i s c o v e r y )+Top‑Down( H y p o t h e s i st e s t i n g ) 上)、データ規模大(ギガ単位)、 Bottom‑Up( 的考え方などとしづ特徴があると言われている。一般的に、(1)問題同定 ( I d e n t i f y i n gt h ep r o b l e m ) ; ( 2 )データ分析(Ana l y z i n gd a t a ) : 狭義のデ、ータマイニングはデ?ータ分析を言う。 ( 3 )得た情報に基づ いた行動 ( T a k i n ga c t i o n ) ;( 4 )結果評価( M e a s u r i n gt h eo u t c o m e )の4つのステージからなるサイクルで、 ある(図 1 )。データマイニング、の最大の特徴は、めちゃくちゃのように見えるデータからデータクレンジ ング、モデル構築、情報取得・評価などのプロセスを通じて、意味ある生産的な意識決定を導くことで あると認識されている。また、その処理結果が次の解析にも活用されている。 ‑408一
データ データ前処理 + + モデル構築 情報取得 情報↓の評価 問題同定 とデータ分析 行動 惨結果評価 図 1 データマイニング、のフoロセス及び、その内容 2 .2 生活習慣病のリスクファクタ一分析における従来法との比較 従来のデータ処理法は、計算機などの技術的な制約のため、通常は、研究目的に合った仮説に基 づいて有限なデータを収集し、仮説を検証する方法で、あった。データマイニングは、計算機を代表と した情報技術の目覚しい進歩により、データの収集方法、データの定性/定量の質及び規模、解析 手法、モデ ル評価など、の点においては、従来法とかなり異なっている(表 1 )。例えば、従来法のデー タ規模は、大体 100以下単位で、多くても数百であった。それ以上になると、データ処理にかなりの手 聞が掛かつてしまう c しかし、新型の計算機で、数万単位のデータ処理を安価で、数秒ですることが可 能になった。 3 . 生活習慣病のリスクファクタ一分析の実際 デ「ータマイニング技法を用いて、実際に生活習慣病のリスクファクターを分析するときに、どうしづ データベースを使うか、どうしづ手順に従うか、各段階にどうしウ問題が起こりうるか、どうし、うふうに 問題を解決するか、得られた結果をと。うし、うふうに解釈するか、などについて、本節で詳細に議論 していく。 3 . 1 データベース 生活習慣病の発症・進行は、文字通りで、食習慣、運動習慣、休養、喫煙、飲酒等の生活習慣に関 与するので、生活習慣病を起こす要因を分析するときに、従来の生理学検査(血圧・身長・体重など) 4 0 9
や、血液学検査(赤血球数・白血球数など)や、血液生化学検査(総コレステロール・ HDLコレステロ ーノレなど)のほかに、生活習慣に関わる情報を加えなければならない。計 50項目。今回、分析対象と 1 種類である。そ なる疾患は高血圧、糖尿病、心筋梗塞、狭心症、虚血性心疾患、高脂血症など計 1 のデータベースの構成は表 2に示されている。 表 1 データマイニングと従来法との比較 目標設定 データ 解析 項目 従来法 プ、ータ収集との順 目標ー>データ収 番 集 プ、ータ収集目的 明確(解析すること を前提に) プ、ータの質 比較的良い データの規模 小(通常 1 0 0以下) プ ータの形式 量的デー夕、質的 データ プ、ータクレンジング 基本的に行わない 目的 基本スタイル モデル選択 仮説検証 Top‑down 手法 統計手法 解析結果の再処理 しない 目的による プ、ータマイニング、 拘らない 拘らない /"フノ、フ 大規模(数百以上) 量的デー夕、質的デー 夕、量質混在データ 行う 仮説検 ~iEJ知識発見 p Top‑downと Bottomべl モプ、ル聞の比較による評 価による 統計手法、ニューフルネ ットワーク、人工知能、テ キストマイニング、 OLAP など する 表 2 データベースの構成 種類 生理学検査 血液生化学検査 治療経過 生活習慣 その他 項目 年齢・性別・身長・体重・ BMI ・血圧 など 尿酸値、血糖値、トリグリセフイド、ク レアチニン、総コレステロール、 HDL ーコレステロールなど、 疾患名、投薬名など 喫煙歴、飲酒歴、運動歴、疾患家族 歴など 病院名、患者 I D、外来日付など 備考(項目数) 6 1 3 5 23 3 3 . 2 分析手順 分析手順は図 1に示したように 4つのプロセスに大まかに分けられるが、各々のプロセスの内容 については、下記のように細分化される。 ‑410
‑ 問題設定: 問題設定は、疾患要因を確定するのか、疾患と疾患要因との相関関係を求めるのか、薬 の効果(リスク)を評価するのか、などなどある。問題設定(目的)により、データマイニング は、方法や結果が大きく変わるので、問題設定に十二分の注意を払う必要がある。 ‑ データクレンジング(前処理): データマイニングに使用されるデータはいろいろなソースからなので、使用できるデータ になるまでにはデータクレンジングが欠かせない。例えば、 り頁目について、全ての項目が分析に必要かつ削除できる項目があるか?削除基準が f 可か? *欠損値について、欠損値が存在しているか?存在すれば、埋まるか破棄するか、どう処 理するか? リ賓目聞の共直線性 ( c ol Ii n巳a r i t y )について、存在しているかつ存在していれば、どう扱う 7 J > ? *モデ.ルに使用されるデータの形式について、生データのままか、 Log 変換か、ベキ変 換などの変換を取るか?これは、下記のモデルの構築や評価にも関連しているが、デー タクレンジング時にも気を使わなければならない。 ‑ モデル構築(選択): モデルは理論であると良く言われている。どうしウモテ、ルを使うのかは、研究者の学術の 立場を表している。モデ、ルの構築とは、システム学的視点から、研究対象をシステム化した モデ、ルを新たに構築することで、モデルの選択とは、既存のモデ、ルから、研究対象の現実 に合うと思われるモデ、/レを選び出すことで、ある したがって、モデ、ルの構築あるいは選択の O 時に、下記の点を重要視しなければならない。 *モデ、ルの先行研究は何だ、ったか?それらのメリット・デメリットは何だ、ったか? *モテールの構築・選択の理由は何だ、ったかっ *候補リスクファクターの聞に高い相闘が存在しているか?モデ、ルの安定性に影響を与 えるか? *それらの数理的モデ ルはどう記述されるか?解けられるか?安定性はどうなるか? ‑ 情報としてのモデル係数の算出 モデル係数の算出は、データが膨大なため、通常計算機にしか頼らないが、サンプル数 が十分か(例えば、統計モテ、ルの自由度の問題)、解が安定しているか、などの問題に対 しての解釈には十分な数理的知識などが必要である。 ‑111
‑ 現実との照合によるモデル評価 算出した係数などの統計量に基づいて、実際の水準との適合度を評価する。適合度が 良くなければ、問題同定のステージに戻り、問題再同定、モデル再構築(モデル・変数選 定など)、再計算、再評価となる。 3 .3 分析例:疾患 A 説明してきた方法を実際にどうしづ風に使うかについて、疾患 A を例としてここで SASを用いて 分析してして。 今回の分析目的は主に疾患 A を及ぼす主要なリスクファクターを割り出すので、ある。データベー スは表 2{こ示したような 50項目、患者 202症例、健常者 586例 、 計 788例である。 データクレンジングにおいて、まず、治療経過、検査方法などの疾患Aに影響を与えなし吃考えられ る36項目を除去する。そして、年齢、性別、トリグリセライド、クレアチニン、総コレステロールなどの疾 患を引きし得るその他の 14項目聞の共直線性を分析し、高い共直線性をもっ4項目を除去する。重 要と考えられる項目(例えば、喫煙)の欠損値が平均値で埋まることにする。 分析用モデルは疾患リスクファクター分析に大いに使用される多項ロジスティックモデ、/レを使うことに する。ロジスティックモデルは 1948年にアメリカのフラミンガムで開始された冠状動脈疾患に関する研 ta I1 9 5 1 )に遡る。この研究は医学の新しい概念「多重リスクファクター ( m u l t i p l er i s k 究 (Dawbere を作り上げたのである。それ以来、疫学研究で、特に癌や高血圧などの生活習慣病の疫学研 f a c t o r )J 9 9 9 )。 究で広く利用されている(丹後他 1 ロジスティックモデ ルとは、疾患の発症率がp(X)、r個の説明変数(健康リスク要因)が連続変数ベクト ル X=(Xj, X ; ; . .. x , ) ' であれば、 logitp(X)=β。 + よ β; X i I o g i t p ( 幻 =!ogJ ( ロ( X ) /( 1‑ p(X))) と表現するモデルである(AlIis o n1 9 9 9 ) 0I o g i tp ( . 幻の値 (Oddsr a t i o )により、おのおの要因の疾患へ の影響を評価する。 欠損値のある症例がロジスティック処理する前に削られてしまう SAS6.12の作業が、モデ、/レに使わ t e p w i s e など の手順で、モデルか れた変数(項目)の状況により、分析結果に若干影響を与えるため、 s ら一回外された変数(項目)を次の分析モデルに入れないことにする。また、説明変数の生データを 他の形式(Lo g変換、ベキ変換等等)に変換してデータベースに保存し、種々のモデ、ルに使用される。 最後にモデルを AIC及び現実との照合度で評価し、モデ、ルを選定する。疾患 A においては、最終 ‑412一
モデルに入った項目は年齢 (AGE)、トリグリセライド (TRIG)及び LDL ・コレステロール (LDL)で、そのデ ータ形式は生データのままで、 SAS(付録を参照されたし、)による最終結果は下記である。 Analysis o f Maximum Likelihood Eslimales P a r a m e ! e r S ! a n d a r d W a l d P r) S!andardized O d d s Es!ima!e E r r o r C h i ‑ S q u a r e Chi‑Square E s !i m a ! e R a !i 0 ‑ 1 5 . 9 7 0 9 2 . 0 0 6 7 6 3 . 3 4 2 7 0 . 0 0 0 1 A G E 0 . 2 0 7 2 0 . 0 3 0 0 4 7 . 6 5 9 6 0 . 0 0 0 1 1 .7 1 2 5 6 9 1 .2 3 0 T R I G 0 . 0 0 8 1 1 0 . 0 0 2 6 5 9 . 3 7 6 6 0 . 0 0 2 2 0 . 3 1 1 9 4 3 1 .0 0 8 L D L 0 . 0 3 4 8 0 . 0 0 7 6 1 2 0 . 9 6 5 5 0 . 0 0 0 1 O .6 1 1 9 3 1 1 .0 3 5 V a r i a b l e D F I N T E R C P T 因みに疾患Aの発生確率Pは 二 ・ ( e . l s . n 0 9 + 0 . Z 0 n ' A G E +制 刷 1 T R I G + O制 札 口L )/ ( 1+e‑ls.no9+o・却n'AGE+帥 となる。 年齢、トリグリセライド及び LDL‑コレステロールの疾患 A (こ対しての Odds Ratio( 9 5% confidenc巴 i n t巴r v a l )はそれぞれ1. 2 3(1.1 6~ 1.3 05) 、1.008 (1. 003~ 1 .0 1 3 )及び1.035( 1 .02~ 1 .0 5 1 )で、あった。年 齢と LDL‑コレステロールとトリグリセライド、は疾患Aのリスクファクターで、あることが、先行研究結果にも 一致している。 4 終わりに 疾患 A を例として、生活習慣病のリスクファクター分析にデータマイニングずを適用した結果、生 活習慣病のリスクファクター分析に有効で、あることが示唆された。因みに、データマイニング、技法 の生活習慣病への導入で、研究の問題設定がより明確し、データ前処理がより理論化し、モデ ル構築・評価がより客観化し、疾患に関わる要因がすべてモデ.ルで 評価され、除去/保留されるこ とにより、モデルの質を一段高めることがで、きる。 しかし、各施設のデータは施設そのものの個性を持って、データの施設聞の交換性問題が今 後の課題としてまだ残されている。 あとがき 本報告書は個人的な見解で書かれており、所属するダイナボット株式会社の意見を表すもの ではありません。 ‑413
参考文献 (旧)厚生省厚生審議会ホームページ http://www1.mhlw.go伊 /shingi/1217.html 丹後俊郎・山岡和枝・高木春良(1999) ロジステォック回帰分析 :SASを利用した統計解析の実際. 朝倉書庖 DawberTRe ta l( 1 9 5 1 )E p i d e m i o l o g i c a la p p r o a c h e st oh e a r td i s e a s e :t h eFraminghams t u d y .AmJ PubH e a l t h41:279. GlennA .Walker(1997)CommonS t a t i s t i c a lMethodsf o rC l i l l i c a lR e s e a r c h ,SASI n s t i t u t eI n c . .BerryGordonLinoff(1997)DataM i n i n gT e c h n i q u e s ,WileyComputerPublishing. MichaelJ P a u lD.A ll i s o n( 1 9 9 9 )L o g i s t i cR e g l 百 s i o nU s i n gt h eSASS y s t e m :T h e o r yandA p p l i c a t i o n . SAS I n s t i t u t eI n c . SASI n s t i t u t eI n c .( 1 9 9 4 )SAS/STATU s e r ' sG u i d e,Version6FourthEdition,Cary,N C,SASI n s t i t u t e I n c . 付録:ロジスティックモデルの SASプログラム (GeneralModel) DATA M̲CORON ; INFILE 'E:sasdataVApril̲12dataVHoM̲coron.prn ' ; INPUT Diease Age Sex BMI Smoke Homo Chole Trig HDL LDL Gluco Crean; run; DATA NORMAL; INFILE 'E:sasdataVApril̲12dataVHoM̲normal.prn ' ; INPUT Diease Age Sex BMI Smoke Homo Chole Trig HDL LDL Gluco Crean; runi proc append base=M̲CORON data=NORMAL; run; proc logistic data=M̲CORON DESCENDING; model Diease=Age Sex BMI Smoke Homo Chole Trig HDL LDL Gluco Crean / RISKLIMITS selection=stepwise; title 'Logistic regression analysis for M̲CORON ' ; run; quit; 4 1 4
ポスターセッション 教育
日本 SASユーザー会 (SUG1‑0) 神戸商科大学における S A Sシステムを利用した統計・情報処理教育の現状と展望 川向肇↑ 有馬昌宏 T 古隅弘樹キ 周防節雄キ ?商経学部管理科学科 キ情報処理教育センター 神戸商科大学 E d u c a t i o no nS t a t i s t i c sa n dI n f o r m a t i o nP r o c e s s i n g b yU s i n gSASa tKobeU n i v e r s i t yo fCommerce H a j i m eKAWAMUKAI ↑ , M a s a h i r oARIMA . ↑ ↑ H i r o k iFURUZUMI キ , S e t s u oSUOHキ F a c u l t yo fE c o n o m i c sa n dB u s i n e s sA d m i n i s t r a t i o n,D e p a r t m e n to fManagementS c i e n c e キI n f o r m a t i o nS y s t e m sC e n t r e KobeU n i v e r s i t yo fCommerce 要旨 筆者らは神戸商科大学において SASシステムおよび JMPシステムを用いた実習講義を学部生 および、大学院生に対して行っており、またこれらのシステムが初学者にとってより使い易しものになるよう 取り組んできた。その一環として学生がこれらのシステムを利用し易いように、それぞれの「利用の手引き」 を作成しており、講義において活用しているだけでなく、学内の利用者には無料で配布している。講義で は統計教育の導入として、学生にとって周Ii染みのある Windows環境で JMPシステムを用い、その使い易さ を体感してもらい、実際に集計・分析を行ってレポートを作成させるとしち実習を行っている。さらに上級者 向けとして、データハンド、リンク、、技法や様々な多変量解析法について SASシステムの利用を通じて理解を 深めるような講義を提供している。学生には講義を通じて、さらに広く兵庫県民の方々には公開講座や I T 講習会を通じて、実社会において応用できる統計解析に馴染めるよう、より一層の利用面で、の充実を図っ ていきたしせ考えている。 キーワード: SAS教育 JMPシステム 統計教育 1 はじめに 神戸商科大学では 15年以上前から SAS を導入し研究・教育に活用してきた。これまではごく一部の教 員が自分の研究で使ったり、ゼ、ミで、教えたりするのに留まっていたのだが、最近、学部および大学院にお いて SASを本格的に講義で、教育・活用するようになってきた。本稿では SASシステムおよび JMPシステム の教育の方針および神戸商大における現状を紹介する。 2 データ解析と SAS教育 一昨年までは商経学部管理科学科3回生を対象とした周防ゼミで、後期に半年 UNIX版 SASを教えてき た。昨年からは週 1回「データ解析特論 J(担当者周防)とし、う通年科目で主に 3・ 4回生を対象に SAS教育 を始めた。学生達は 1年生から UNIX上で P a s c a !や Cなどのプログラミンク。教育を受けており、プログ ラミン グには既に慣れているので、プログ、ラミンクマが何たるかは教える必要はない。統計解析を専門にしたい学 生はまずいないので、 SAS によるデータ加工技法と最小限の統計分析手法に内容を絞っている。卒論作 成時などにデータ解析の必要性に迫られた時になってあわてなくても済むようにしたいとの願し、が込めら れている。統計解析用の各種プロシジャは、その時になってから必要なプロシジャについて勉強すればい し立考えている。 一方、大学院における SAS 教育に関しては、経営学研究科の経営情報科学専攻の修土・博土課程そ ‑ 4 1 7
れぞれで「統計解析研究 J(担当者周防)の講義を行っているが、統計理論そのものについては別の教員 による講義があるので、講義内容は、 SASを使ってデータ処理を含む実際の統計分析技法に絞っている。 扱うデータとしては、研究科の性機上、実験データではなく、官庁統計を始めとする経済統計や経営デー 夕、自前で実査するアンケート調査のデータである場合がほとんどである。従って、ファイノレ処理の技法が 不可欠となる。ただ、修士、博士を問わずほとんどの院生が SAS の未経験者なので、最初の半年は SAS の基礎的教育に追われるのが現状である。修士で筆者の講義を履修した院生は、博士課程では教官が 実際に実施したアンケート調査データや官庁統計データを、 SASを使って分析する作業に進むことがで、き る。もっとも、修士、博士ともに履修生は数人程度なので、学生のレベルや将来 SASを利用する分野に応 じて講義内容や演習問題は柔軟に対応している。 2 .1 SASの基礎的教育 学部、大学院を問わず SAS の基礎的教育に関してはほぼ同じ内容である。日本語で書かれた初心者 向けの適切な市販の教科書は残念ながら見あたらないのが現状である。カリキュラムに盛り込む内容は、 講義時間数および学生が SASを利用する分野を考慮して、かなり絞り込んでしも。以下に主な内容を列挙 する。 。 SASの操作環境のカスタマイズ化デフォルトの SASの操作環境の不便な点を改善して s a s u s e rのフォ ルダにある p r o f i l eのファイル ( 4節参照)を以下のように書き換えている。この設定ファイルは神戸商大周防 研究室のホームページからダウンロードできる。 ①プログラムエデ、イタ画面、ロク、、画面、アウトプット画面をそれぞ、れブルー(シアン色)、黄色、ピンクに して、タイトルパーを見なくても三つの画面がすぐに識別で、きるようにしている。初心者がよくやる間 違いに、ログ画面のプログラムを保存してしまうことがあるが、プログFラムが1?~にブルーの画面にあれ ば、間違いが起きにくい。 s u b m i t Jボタンに I r e c a l l J命令も組み込んでおき、プロクoラム実行終了後自由j ②デフォノレト環境にある I 的にプログラムエディタ画面にソースプロク守ラムが戻るようにしている。さらに、このボタンには I l o g ; t o p ;o u t p u t ;t o p J命令も組み込んで、あり、実行終了後のロクーとアウトプット画面には、先頭部が常に 表示されるように設定している。 ③初心者のよくするもうひとつの間違いは、プロクeラム実行後、ログ画面やアウトプット画面に表示され た情報をそのままにして、次のプログ、ラムの実行をして、ログ、情報がどんどん溜まってし、くため、最新 s u b m i t Jボタンの の実行結果を探しながら見ていることがよくある。この点をすっきりさせるために、 I トi l i面の両方を一度にクリアする I c l e a rJ ボタンを作っている。 I s u b m i t Jボタン 右に、ログとアウトフoッ を押す前にまずこのボタンを押すことで、常に最新の実行結果が表示される。 。 SASプログ、ラムの基本的構造 d a t aステップと p r o cステップの役割を解説して、この 2種類のステップを a t aステップで、は、外部にあるテキ いろいろ組み合わせて SASプロク苧ラムが構成されることを理解させる。 d ストファイノレを mput文を使って読み込み、まず SASデータセットを作る。この SASデータセットを p r o cステ ップで、使うことで、種々の統計解析処理ができること、また、更にそのデータセットを別の d a t aステップで加 工することもできることを理解させる。 。 d a t aステップで、使う命令文 • i n p u t文原則としてリスト入力だけで済むようにしている。文字型変数で、デ、フォルトの 8バイトを超え る場合は、 l e n g t h 文であらかじめ定義するように指導している。フォーマット入力はどうしても必要な ときに必要なものだけその都度教えることにしている。官庁統計データのように、ファイノレのフォーマ ットが決められていてカラム入力でなし吃読めない場合に限り、カラム入力方法を教えているが、初 心者コースで、はこの種のデータファイルはまずない。 • i n f i l e文 i n f i l e 文では、ファイル名を指定しないで、ファイル参照名を使う。オプションとしては、 日r s t o b s =、d s d、m i s s o v e rはまず教えておく。必要になったときに e n d = や凶作などを教える。 118‑
• • 日l e文 f i l e文では、ファイル名を指定しないで、ファイル参照名を使う。オプションとしては、 p r i n tだ i n e s i z e =I (s= 、 )l r e c l =、p a g e s i z e = ( p s =)などを教える。 け教えておく。必要になったときに l その他の命令文と用語や概念 i f文、サブナセット i f文 、 select‑when文 、s e t文 、 merge文 、 do‑end文、反復 do‑end文 、 keep文 、 drop 文 、 retam文 、 output文 、d e l e t e文 、p u t文 、 [ a r r a y文 、 by文 、 l i n k文 、r 巴t u r n文 、 got o文、「巴 name文 、s t o p文 J [注]かっこ内は上級レベル向き 数値型変数と文字型変数、算術代入文、算術演算子と論理演算子、関数、テンポラリ SASデータセ ット、ノミーマネント SASデータセット 。 procステップで、使うプロシジャ名 p r i n t、 仕eq、c h a r t、means、p l o t、r a n k、[ t a b u l a t e、u n i v a r i a t e、summary、c o r r J a t a s e t s、[ f o r m a t、t r a n s p o s e J s o r t、d [注]かっこ内は中級レベル向き SAS/STATシステムに含まれるプロ、ンジャは必要に応じて教える。 ・ マA マ Av‑‑AマA 。どこででも使える命令 f i l e n a m e文 原 則 的 に は c a r d s文は使わないで、プロクマラムとデータは分離する。入力ファイルと出 力ファイルは、全て各フ。ログ ラムの先頭部でダ[J記するようにしておく。そうすれば、そこを見るだけで そのプログラムで何をしているか分かりゃすい。特に、上級レベルのプログラムになると、多数の入 力ファイルを一つのフoロクーラムで、読み込むことも多いので、この方式が便利である。 l i b n a m e文フ。ロク、、ラムの先頭部にまとめて列挙する。 o p t i o n s文 [ n o] ce n t e r、[ n o J d a t e、[noJnumber、l i n e s i z e =I (s= 、 )p a g e s i z e = ( p s = ) コメント文*コメン卜; 1 * コメント * 1 t i t l e文 run文 d a t a文と p r o c文には必ずそれそれに対応する run文を付けるように指導している。 [x文 、% i n c l u d e文 J [注]かっこ内は上級レベル向き 。基本的な SASマクロ言語(上級レベル向き) i n g l eq u o t a t i o nはすべて d o u b l eq u o t a t i o nにするように指導 。その他注意事項 SASプロク、、ラム中で使う s i n g l eq u o t a t i o nで固まれた部 している。理由は、上級レベルになってマクロ言語を使うようになったときに、 s 分にあるマクロ変数はシステム側で認識してくれなし、からである。 2 .2 大学における SAS教育の問題点 第 1の問題点は、 SAS は毎年レンタル料を支払って使えるソフトで、あるために、導入時に二の足を踏む 大学があるのは事実である。ただ, SAS が必須のツールだ、と認識してしも教員のいる大学では、それがな しせ研究・教育に支障が出るのでいずれは導入することになる。 第 2の問題点は、コストの関係で、 SASを学生自身のパソコンにインストールで、きないために、 SASプログ ラムの実行が自宅でできないこと。この点が、競合する他社のソフトと比較したときにもっとも不利になる。 相当以前から筆者が SAS社の方々にはお話ししていることなのだが、 jMPに対する jMP‑INのように、教 育用機能限定版でいし、から廉価で買い取りの SASがあればし W 、と願っている。このことにより学生の SAS 人口が急激に増える可能性があり、ひいては近い将来、産業界でも SASが使える人口の増加につながり、 SASの新規契約も増大すると思われる。 第 3の点は、最近の SAS社が多大の人的資源を使って開発しているフ。ロタずクトの多くが、大学や教育機 関の SASユーザーには、コストの関係で、無縁になってしも事実がある。確かに、教育機関デ、イスカウント の制度があるのだが、それでも SASを使うことから直接の利益を産むわけではない教育機関にとっては高 すぎる出費である。コストの点で、もう一つ指摘すると、 SAS/GRAPHがここ 10何年ほとんど進化していない にもかかわらず、 1 { 固のプロダ、クトとしてレンタル料がかかってくることは、ユーザー歴 1 6年以上の筆者とし 4H)‑
ては、納得がし、かない。筆者はもうそろそろ SAS/STATの中に含めてしまうくらいの英断を望んでしも。理 由は、 E x c e lなどの最近のソフトでは、グラフはオブジェクトとして扱えるために、論文や報告書に自由に張 り付けることができるが、 SAS/G九 久 PHではそうでないために、不便きわまりなし、からである。 10数年前には SAS/GRAPH のカラーの出力には大いに感激したのだが。計算処理は SAS でやるが、グラフ化の際は E x c e lを使うとしづユーザーはおそらく極めて多し吃想像する。特に、昨年、 JMPシステムの V e r s i o n 4 . 0が出 てからは、 SAS/G九叩 H は筆者にはほとんど、要らなくなった。従って、計算処理までもが別のソフトでもでき るユーザーなら結局 SASがなくても済むことになってしまう。この悪循環を断ち切る手だてを積極的に考え Tの世界で、はあっとしづ聞に後れをとってしまうので、はなし、かと危↑具している。長年 ないと、競争の激しい I のユーザーとしてここは一つ SAS社に頑張って欲しい気持ちで敢えて率直な見解を述べた。 ( 2節文責:周防) 3 大学院修士課程「経営情報科学基礎実習」における SAS実習教育 経営システム、経営情報、情報科学、経営科学、応用統計解析、確率モデルの6専門分野からなる経営 情報科学としづ新しい総合的学問体系の確立を目指して、 1994年 4月に神戸商科大学大学院経営学研 究科の中に経営情報科学専攻が設置された。この専攻では、情報社会において必須となるデータ処理技 術と計量的な分析のセンスを持つとともに、データ処理や計量的分析の対象となる企業や自治体に関す る経営管理の知識も併せ持つ人材の育成を目的としている。本節では、この新しい専攻の一つの特色で ある「経営情報科学基礎実習」において行われている SASシステムを用いた実習教育を紹介する。 「経営情報科学基礎実習」は、修士課程(博士前期課程)1年次の学生に必修科目として割り当てられて いる2単位の実習科目である。前述のように、経営情報科学専攻では、教育面では、 6つの専門分野を基 礎に幅広い識見と計量的分析能力を有する人材の育成を目的としてしも。しかし、入学してくる学生のパ ックグラウンドは多様で、学部ではコンピュータや数理科学について学ぶ機会のなかった学生に対して、 経営情報科学の基礎知識や基本技能・技術を多面的に学習させる必要が生じる。こうした主旨の基に設 けられているのが「経営 e青報科学基礎実習」である。 1994 年の専攻の新設以来、「経営情報科学基礎実習 J は 、 6つの専門分野の担当教員がリレー形式で 実習・講義を担当する形で行なわれてきた。このリレー形式の実習は、幅広く経営情報科学に関連する技 能・技骨肉知識を学べる一方で、各担当教員が4回程度のコマ(週 1回 90分)しか担当できないために十 分な基礎知識や技術を体得させることが難しいとしづ問題が生じていた。そこで、 2000年度は、修士課程 l 年次の学生6名と特別に受講を希望した博士後期課程 l年次の学生2名、計8名の学生を対象 l 、 こ 2人の 教員で前期と後期をそれぞれ担当する形で行われた。筆者は前期を担当し、次のような内容の教育を試 行的に行った。 ①モデル・ビルディング モデルやシミュレーションの意味を理解するとともに、 P C上で表計算ソフトを利用して簡単なモデル の構築とシミュレーションを行う。 ②盆註盤宜 重回帰分析や主成分分析など,統計解析で代表的なしてつかの手法について、 U N I X環境で動作 する SASシステムを用いて、その現実問題への応用方法について、実際のデータを使ってデータ 入力から分析までを体験する。 この実習の中で、 SASシステムは②の統計解析を主題とするパートて沫Jj用し、 2000年度はこのパートに 8週間を害j I し、た。その内容は次のようであった。 第l 週:U N I Xマシンと P C間で、ファイル転送がで、きるように、まず U N I X環境に慣れることを目指して、ワ ークステーションの操作方法を習得した後、ワークステーションならびに P Cからメールの送受信を 千 丁 つ 。 第2 週:メールの添付ファイルやネットワーク環境で、 t e l n e tや f t pを利用してファイル転送やファイル処理 を行う。 第 3週 :4節で説明してしも ~SAS システム利用の手引き』を使用して、データ入力から SAS データセット ‑420
の作成、簡単な重回帰分析までの一連の作業を実際に行う。 第4 週:総務庁(現総務省)統計局統計センターのウェフ、サイトから受講生が手分けをして社会・人口統 7都道府県別データをダウンロードし、指定されたサーバのデ、イレクトリへ転送するo 併 計体系の 4 せて、表計算ソフトを利用して、 2000年 6月 2 5 日に実施された総選挙の都道府県別データを入力 し 、 CSV形式で、同じく指定されたサーバのディレクトリへ転送する。 週:政党の都道府県別得票率と社会・人口統計体系データを使つての各種多変量解析手法の意味 第5 と応用についての解説。 第6 週:学生を4ク、、ループ(各ク、、ループ 2名)に分け、政党の都道府県別得票率の変動を説明する要因 について仮説を立てさせる。ク、、ループで、 1つの多変量解析手法を選択し、転送したデータと SASを 用いて仮説の検証を行うことをレポート課題として課す。 第7 週:選択した多変量解析手法や SASによるデータ解析手続きに関しての質疑応答。 第8 週:各ク守ループによるレポート課題の途中経過の報告と質疑応答。 この実習において、学生が選択した多変量解析手法は、重回帰分析、クラスター分析、主成分分析、正 準相関分析で、あった。第 8週目からさらに 2週間の時間的余裕を与えてレポートを提出させたが、 UNIX環 境下での計算機操作が初めてである学生や多変量解析に初めて取り組む学生でも、我々が用意した WSASシステム利用の手引き』や SASを利用して多変量解析手法の説明を試みている各種の関連書籍や SASのマニュアルを参考にして、 SASによる実習を通じて統計解析の過程を体得できたように思われる。 今後は、 2節でも紹介されている「統計解析研究」など本学大学院で開講されている関連講義科目との 連携をさらに深めつつ、学生が実社会で、役に立つべく統計解析学に恩1[染みやすくするように、学生からの レポートなどを SAS による解析事例集としてまとめるなどして、学習面で、の環境の整備・充実を図っていき ( 3節文責:有馬) た し 、 。 一 4 WSAS利用の手引き』の刊行 神戸商科大学における SASシステムは S u nワークステーション( S o l a r i s/SPARC)に導入されており、 SAS を利用するためには UNIX コマンド、 X‑Window、ネットワークに関する基本的な知識が要求される。 Windowsを代表とする PC環境をベースとする学生にとってこの利用環境は利便性が良し立は言い難く、 そのために SAS システムに対する認知度も学生の問では高し、とは言えない状況で、あった。この現状を打 破すべく、昨年度、『情報処理教育センター計算機システム SAS システム利用の手引き編』を古隅・有馬 の共著で刊行し、 SAS を利用する講義を中心にこの手引きを配布した。なお、この「手引き」は当センター より学内利用者には無料で配布されている。 4 .1i 手引き」の目的と概要 。学内のシステム環境に即した利用者マニュアルの作成 リモートの X 端末や PC端末から WSサーバ上の SASを利用するとしづ特殊な利用環境であるため、学 内のシステム環境に即した利用者マニュアルの作成が求められていた。このような特殊な環境は市販の SAS 関連書籍では対応しきれず、また記載されている操作方法や表記と学内の利用環境におけるそれら との相違が読者に混乱を与える可能性があるため、このようなマニュアルは欠かせない。ただし、今回はあ くまで利用の手引きにとどめ、手引き書の位置づけとしては学内のシステム環境での SASの利用を手助け することを第ーとし、数あるプロシジャやステートメント(文)の書式、解析手法に関する理論や計算結果など、 詳細に関しては市販の書籍や SASのリファレンスマニュアルに譲ることにした。 。 SASのイントロダクション もっとも基本となる SASシステムの起動から終了までの方法について説明している。この手配きでは経済 データやアンケート調査データなどの具体的なデータとプログラムを用いて説明を行っており、実際のプロ ク。ラムを通じてその文法、 DATAステップや PROCステップとし、ったプロク守ラミンク、、の構造を理解し、更にプ ロクザラムエディタなど、の各ウインド、ウ、メニュー、ツールパーなど、の基本操作も説明している。 -~21
。 PCとws 間でのデータの転送および連携 x c e lでデータを入力し、学内 LANを通じて WSサーバへ入力デ、ータを 連携の例として、 PC端末にて E x c e lを用いて編 転送し、 X一端末上で SASを用いて解析結果を得て、その結果を PC端末上で Wordや E 集し、レポートを作成するとしづ例を取り上げている。実際には、 E x c e lで入力したファイルの CSV形式での 保存、 FTPによる PCとWS聞のファイル転送、 SASプログラムでの CSVファイルの読み込み、 SASの計算 x c e lへの取り込みなど、作業の具体的な操作手順を挙げながら説明している。また、ファイル、ンス 結果の E テム、テキストデータにおける文字コードおよび行末コードとし、った PCとWSで注意すべき違いを説明し、 その変換方法についても説明している。 。 SASの操作環境のカスタマイズ化 実行後に自動的にプロク守ラムをエディタ画面にリコールしてくれるサブ ミットボタンや、ログ およびアウト プット画面を同時にクリアするボタンなどの便利な機能を備えたツールパーを用意しており、各画面に関し ても背景色を色分けして見やすくなるよう配置している。これらの設定を保持しているプロファイルは FTP サーパやホームページよりタ万ンロードで、きるようになっており、利用者にも使いやすい操作環境を提供し ている。 P 。 SASプロシジャの紹介 BASESASおよび SAS/STATに含まれるプロシジャの紹介を一覧表にして掲載し、さらに分析の目的や データの性質から分析手法が選択できる決定木をプロシジャと対応させて載せている。これにより、統計理 論に疎い社会科学系の学生にもある程度の分析支援ができる。 。トラブ.ルシューテイング、 実習を伴う講義では、とりわけ導入部において、初期設定や端末操作に関する説明やトラブ?ルに多くの 時間と労力を費やすことがしばしばであり、また利用者が自習する際にも同様のことがし、える。 SASシステ ムの環境設定、プロク守ラミング、画面操作など、システム利用時に予想される様々な状況下で、のトラブルに ついてその原因やそれに対応する解決策・注意事項をまとめており、利用者の労力を軽減できる。 。パッチモード、による SAS利用法 マルチウインドウモード、で、の利用だけで、なく、パッチモードで、コマンド、による利用方法についても紹介し ている。パッチモード、を利用すれば、 X‑Windowを利用で、きない PC端末や自宅からのタ事イヤルアップ接続 による利用時でも SASを用いて計算結果を得ることが可能であるし、あらかじめ用意しておいたデータや プロク守ラムをネットワークで、転送して利用で、きることから、 H 寺問や計算機資源、や有効利用にもつながる。 4 .2 今後の課題 。新しし、計算機環境への対応 き続き UNIX版で、の契約となってしもが、学内のコンピュータシステム環境がこの 4 本学では SASはヲ l 月より X一端末から W indows2000に変わったため、 X‑Windowエミュレーションソフトを用いた利用方法や、 Pシステムとの連携など、新しい環境に対応すべくマ ネットワークド、ライブ、を用いたファイルの転送方法、九1 ニュアルの改訂が必要となっている。 。 SASによる例題集の「手引き」作成 今回の『利用の手引き』で、は紙幅の関係で詳しく紹介で、きなかった様々な解析手法を含んだ例題集を 発行したし、と考えている。 (4節文責:古隅) 5 神戸商科大学における JMPシステムを使った教育 本節では、本学における JMPの利用のあり方と利用にまつわる諸問題について触れる。これまで述べて 4 2 2 ‑
きたとおり本学では長年に亘り SASシステムは研究面ではもちろんのこと、教育の場でも用いられてきた。 しかしながら、メインフレームから UNIX環境に変わってユーザーインターフェースがある程度改善してきた とし、うものの、優れた GUIを持つ各種ソフトウェアが市場でL大量に流通する時代において、 SASシステムの インターフェースは依然としてメインフレーム時代のインターフェースをそのまま踏襲しているとしづ意味で、 初学者にはそれだけで抵抗になる可能性を含んでいる。さらには、 SASシステムで用いられる命令や出力 結果にしても、ある程度英語の文献を読みこなせる大学院や学部専門課程の在籍者にはある程度推測可 能であるとはし、うものの、初学者にはかなり無理があり、その理解の困難性や表現の乏しさなどが初学者 の利用動機を大きく損なう可能性を秘めている。 ところで、 2001年 3月本学情報処理教育センターの機器更新に伴い、大半の応用アプリケーションソフ トウェアが UNIXベースのワークステーションから PCに移行されてきた。その中で、初学者用の統計ノミッケ ージとして JMPソフトウェア Version4.0が全ての PCに導入された。それに合わせて、 2001年 3月に初学 者の利用の便宜を図るためにマニュアル作成を行い、学内の希望者に無料配布を始めた。 まず手始めに、まだ十分なリテラシー教育を受けていない学生層を多く含む学部管理科学科 l回生 80 名以上に対し、 4 月下旬と 5 月上旬の 2 回にわたって、川 l 向による ~JMP4.0 利用の手引き』を配布した上で、 JMPを利用する講習を行った。この段階では、大半の受講生は、マウスで、クリックやド、ラッグ、をする程度のリ テラシー教育しか施していない状態で作業をさせた。 本学の計算機環境の制限もあり、一室で 80人以上の学生が同時に PCを利用して講義するための環境 がないため、 l回目の講習では、 JMPシステムを使って度数分布表を作成する手法について約1.5人/台 で、全員に対して同時に講義を行った。 2回目は、クロス分析表を作成する手法について、 2グループに分 けて行った。その結果、データ解析手法に関する理解が卜分ではなし、ものの、おおむね JMP 自体を使う 日程見られたが、し、ずれも PC の利用経験の浅い学生に多か のが難しし叱答えた学生は、全体の中で、 3 った(表 1及び図 l参 照 ) 0PCの利用経験年数が l年を超えたものでは 20弘以下である。 Count Row% 1年以下 年以上 1 計 非常に 簡単 どちらとも 簡単 。 0 . 0 0 いえ t Jい 5 1 6 1 2 . 2 0 3 9 . 0 2 難しし 1 非常に 難しし 1 1 3 7 3 1 . 7 1 1 7 . 0 7 3 3 23 5 2 8 . 3 3 8 . 3 3 6 3 . 8 9 1 3 . 8 9 5 . 5 6 3 8 3 9 1 8 9 計 表 1 PC利用経験年数見 IJの JMPの使いやすさに関する評価 1 .00 ハ U R J V ハ U ト毛剤握村一丘三勺 0 . 7 5 0 . 2 5 0 . 0 0 1年以下 2年以上 PC経 験 1年未満 図 1 PC経験年数別の JMPの使いやすさに関する評価 ← ~2 :ì 4 1 36 7 7
このような結果が得られたことは、 SASシステムなど、のコマンドベースから利用する環境を当然と受け取る UIベースのソフトウェアしか利用したことのない学生にとっては 筆者にとってはやや意外で、あったが、 G JMP程度のインターフェースは当たり前で、特に驚きを感じなし、ということの反映なのカもしれない。 JMPのどこを改善してほしし、か」、との自由筆記で回答させる項目に対しては、「今 アンケートの中で、 i 回 2回だけの利用で、あったために、 JMPシステム自体が解らないので何とも回答のしょうがなし、」としづ回 8 名)が最も多かった。今回、操作法とク苧ラフの見方だ、けに説明を絞ったため、「英語ばかりで何が書い 答( 4 名)としづ意見もあった。昨年から何度も話題に上りつつ実 であるのかわからない、日本語化してほししリ ( 現化しない JMPシステムの日本語版が待たれるところである。少なくともメニューだけに関しては、早期の 日本語版のリリースが待ちどおしい。また、「この種のソフトは買えるのか、買ったらし、くらぐらいするのか」 の問い合わせも 1 0人前後の学生からあったが、「アカデ、ミックデ、イスカウントで、 4万8千円」と言うと、学生に とってはその程度の投資は大きいらしく、残念そうな表情をするものが多く見られた。 ところで、、この 2回の講義に対する課題として、 l回目の講義で、行った自分たちのアンケートの結果から 作成した JMPデータファイルを利用して、回答に対する度数分布グラフとクロス分析表を JMPシステムで 作成させた。その結果、ほぼ全員の学生が友達に助けられたり、マニュアルを読んだ、りしながら利用して、 一定水準のレポートにまとめている。なお、この段階では、これらの学生は情報リテラシー教育の受講回数 は 3回であり、 Wordの利用法が教えられてし、るだけの学生でも十分利用可能であることが判明した。従っ て、この 2回の講義(実質 1 2 0分程度)で 通常のウインドウベースの GUIを持つ計算機環境に何度か触った 程度であっても、 JMPソフトウェアは容易に利用できるものと思われる。 なお、今年度は社会人向けの公開講座(兵庫県民を対象)においても、 JMPシステムを利用したアンケ ート調査の解析と結果の取りまとめ手法について実施する予定である。これまで本学の公開講座では、家 庭および職場での PC普及率が極めて低くかったこともあり、計算機リテラシーに重点をおいた計算機関連 の公開講座が行われてきた。近年の PCの普及にともない、より高度な分析需要を持った公開講座の受講 者が増加していることを勘案し、より高度な情報リテラ、ンーを持った社会人へのリカレント教育の端緒として、 i E x c e lを利用した、ンミュレーション J ( 9 9年 ) 、 i E x c e lを利用した統計のグ.ラフィック処理J ( 2 0 0 0年)をテーマと して公開講座を実施した。 本年度( 2 0 0 1年)は、 i E x c e lとJMPシステムを利用したアンケート調査法と調査結果の統計処理」を実施 する予定である。具体的には、第 1回目に、アンケート調査の仮説構築、質問紙作成などを説明し、アンケ ート調査を行う上で鍵を握る仮説構築に触れ、質問紙を作成する。このアンケート調査を、身近な人を対 象に実施させて、 1週間後の第 2回目でアンケート調査のデータ入力を行う。アンケート調査結果を E x c e l で入力し、そのデータファイルを E x c e lのヒ。ボ、ツトテープ、ル機能や度数分布の関数などを利用することで、 クロス分析の実際やデータクリーニングなどに触れてもらう。第 3週目は、 JMPシステムの利用法を説明し た後、度数分布グラフやクロス表の作成、 JMPの機能を使って HTML形式で保存し、調査結果をインター ネット上で、公開することについて実習をする予定である。 ( 5節文責:川向) 参考文献 1 ) 古隅弘樹・有馬昌宏、『情報処理教育センター計算機システム SASシステム利用の手引き』、神戸商科大学情 報処理教育センター、 1 9 9 9年 2月 2) 川|向肇、 ~JMP4.0 利用の手引き JMP を利用しての統計処理ガイドJ 、神戸商科大学情報処理教育センター、 2 0 0 1年 3月 ‑421‑
日本 SASユ ー ザ 一 会 (SUG1‑0) SAS と 医 学 統 計 学 の 学 生 の 評 価 と 教 員 の 評 価 の 関 連 性 昭俊彦、清水英佑、田嶋尚子、裏田和夫、景山茂、鈴木院之、鈴木直樹、豊島裕子、 川村昇、和田高士、松島雅人、尾立裕三、小松一祐(東京慈恵会医科大学) AS t u d yo fe v a l u a t i o nb e t w e e nf a c u l t ya n ds t u d e n t sf o rSASa n dm e d i c a ls t a t i s t i c s . AgataT,ShimizuH, TajimaN,U r a t aK KageyamaS,S u z u k iH,SuzukiN, ToshimaY, K a ¥ ¥ ' a m u r aN, WadaT MatsushimaM.OdateYandKomatuK . i k e iU n i v c r s i t vS c h o o 1ofMcdicin巳. Th巳 J 要 旨 東 京 慈 恵 会 医 科 大 学 で は 1 9 9 8年 よ り 、 臨 床 疫 学 (EBM)教 育 の コ ー ス を 2, 3. I、 4 年 生 を 対 象 に 実 施 し て い る 。 こ の プ ロ グ ラ ム の 中 で の SAS、 医 学 統 計 学 の 役 害J 位置づけに関し、学生の評価と教員の評価の関連性などを検討し、次の結果を得た 1. 難 度 に 関 し て は 1)臨床疫学の概念、は l非 常 に 難 し い 2難 し い で 84%、 2 )医 学 統 計 学 は 90.1%、 3 )S A S は 72%、 4 )総 括 的 評 価 は 81%で 、 2. 理 解 度 に 関 し て は 、 1)臨 床疫学の概念は 1.理解できた 2 .ほ ぽ 理 解 で き た で 17%、 2 )医 学 統 計 学 全 般 は 16%、 3 ) S A S全 般 は 13%と 、 学 生 か ら は 厳 し い 評 価 と な っ た ー 教 員 側 の 評 価 で は 、 試 験 成 績 が 平 4 . 7、 総 合 成 績 が 平 均 6 8 . 8、 標 準 偏 差 1 0 . 2、 で あ り 、 教 員 側 も 厳 し い 評 価 均 63、 標 準 備 差 1 をしていることがわかる一相関係、数から見ると学生の理解度と教員の評価は相聞が高く、 学生と教員の認識の 致が確認された手重回帰分析、ロジスティック回帰分析の結果から は理解度は比較的単純な構造であることが推測されたー キーワード E B M (Evidencc‑Bas巴dMedicine)、 SAS、 医 学 統 計 学 、 評 価 [はじめに I E ¥'idence‑Bascd M巳d i c i n e (EB M ) は 、 直 感 ゃ あ や ふ や な 経 験 に 頼 ら ず 、 科 学 的 な エ ヴ ィ デ ン ス ( 根 拠 ) に 基 づ い て 、 最 適 な 診 断 、 治 療 を 実 践 す る た め の 方 法 論 と し て 1991 年 カ ナ ダ の マ ク マ ス タ ー 大 学 五 idcnce‑Based Medicine Working G r oupの 活 動 に 始 ま り 発 展 し て き た c・ 日 本 で も 1996年 に 内 科 学 会 で 黒 川 会 頭 が 講 演 に 用 い 俄 然 注 目 を 浴 び る よ う に な っ た E B Mと は 学 問 研 究 に 重 点 を 置 い た 臨 床 疫 学 を 個 々 の 患 者 の 臨 床 場 面 で の 問 題 を 解 決 す る 'ロ ク ー 手 法 と し て 再 構 成 し た 概 念 、 と 考 え ら れ る 。 日 本 医 学 教 育 学 会 で も 、 E B Mの 仮 想 教 育 7 7ム が 公 表 さ れ 、 自 治 医 大 、 産 業 医 大 、 慈 恵 医 大 な ど で は E B M教 育 が 始 ま っ て い る ご 慈 恵 ムが公 医 大 で も 1年 間 の コ ン ピ ュ ー タ ー リ テ ラ シ ー 教 育 と 、 3年 間 の 臨 床 疫 学 教 育 7。付。 7 表 ・ 実 施 さ れ て い る 。 こ の プ ロ グ ラ ム の 中 で の SAS、 医 学 統 計 学 の 役 割 、 位 置 づ け 、 学 生 の評価と教員の評価の関連性を考え、検討したので報告するつ P [方法] SAS、 医 学 統 計 学 に つ い て 1. 難 度 ( 1非 常 に 難 し い 2 .難 し い 3普 通 4ーやややさ 3 .普 通 4 .あ ま り 理 しい 5やさしし、)、 2. 理 解 度 (1理 解 で き た 2ほ ぽ 理 解 で き た 解できず 5 .理解できず)、 3. 興 味 の 程 度 (1.非常に興味がある 2興 味 が あ る 3 .普 通 4 .あ ま り 興 味 が な い 5 .興味がない)、 4. 教 員 の 授 業 の 進 め 方 (1非 常 に う ま い 2う .普 通 4 .あ ま り う ま く な い 5 .う ま く な し つ な ど を 学 生 に 評 価 し て も ら っ た 。 まい 3 l理 解 で き た 2ほ ぼ 理 解 で き た 3 .普 特に、理解度に関しては、医学統計学全般を 425
通 4 .あ ま り 理 解 で き ず 5 .理 解 で き ず で判断してもらうほか、 ④仮説検定 ①標準偏差 ②正規分布 ③相関係数 ⑤帰無仮説 ⑥有意水準 ⑦両側検定 ③適合度検定 ⑨ Fisherの 直 接 確 率 法 ⑮¥!cNemarテ ス ト ⑪ 2項 検 定 ⑫中央値検定 についても、同様に判断してもらった ①p r o g r a r n editor ② log ③ output ④ infile また、 S A S全 般 ⑤ data ⑥ input ⑦ proc ③ univariate ⑨ corr ⑩ reg も同様に判断してもらった 他にも、 3. 興 味 の 程 度 ( 1 )臨床疫学の概念 2 )医 学 統 計 学 3 )S A S) を 1.非常に 興味がある 2 .興味がある 3 .普通 4 .あまり興味がない 5 .興 味 が な い の 5段階評価で、 4. 教員(+チュータ)の授業の進め方( 1 )臨 床 疫 学 の 概 念 2 )医 学 統 計 学 3 )S A S )の 3 項 目 を 1.非常にうまい 2 .うまい 3 .普通 4 .あまりうまくない 5 .うまくない の 5段 階 評価で、 5. その他として、 1 )レポートの頻度 1.多すぎる 2 .や や 多 す ぎ る 3 .普 通 4 .や や .少なすぎる、 2 )総 括 的 評 価 1.厳しすぎる 2 .や や 厳 し す ぎ る 3 .普通 4 . 少なすぎる 5 やや甘すぎる 5 .甘すぎる は 5段階評価で、 3 )評 価 項 目 ( 試 験 レポート 実習態度) 1.評価すべき 2 .どちらでも良い 3 .評 価 す べ きでない を 3段階評価で判定してもらった: また、教員側は試験、レポート等で学生を評価することにより、互いの認識のズレ、一致度 とそれに関連する要因及び、教育の役割、位置づけ検討したご 試験成績とは、試験による成績を示し、総合成績とは試験、レポート、実習態度の総合成績 6 0点未満)に、総合合否とは総合成績を合 で あ る ー 試 験 合 否 と は 試 験 成 績 を 合 (60点以上)、否 ( ( 6 0点以上)、否 ( 6 0点未満)に分類したものである:この試験成績、総合成績を 2. 理 解 度 の 2 5変 数 を 用 い 、 重 回 帰 分 析 し た : ま た 、 試 験 合 否 、 総 合 合 否 を 同 様 の 変 数 で 、 ロ ジ ス テ ィ ッ ク モ デ ル に よ り 解 析 し た 。 い ず れ も ス テ ッ プ ワ イ ズ 法 を 用 い た 統 計 解 析 に は SASv8を用いたと [結果] 結 果 に つ い て は 、 表 1に 試 験 成 績 、 総 合 試 験 成 績 の 特 徴 、 表 2に 難 度 の 頻 度 分 布 、 表 3に理 解 度 の 頻 度 分 布 、 表 4に興味の程度の頻度分布、表 5に教員(+チュータ)の授業の進め方の頻度 分 布 、 表 6にその他の頻度分布、表 7に試験成績、総合成績と難度、理解度との相関係数(上 段)と有意性(下段)、表 8に 試 験 成 績 、 総 合 成 積 の 重 回 帰 分 析 の 結 果 ( ス テ ッ プ ワ イ ズ 法 ) 、 表 9に 試 験 合 否 、 総 合 合 否 の ロ ジ ス テ ィ ッ ク 回 帰 分 析 の 結 果 ( ス テ ッ プ ワ イ ズ 法 ) を 示 す 。 各 表 に示すごとく、多くの興味ある結果を得た: [考察とまとめ] SAS,医学統計の役割は EBM・臨床疫学を推進する上では重要であるが、学生、教員の認識とも、 理解度は低く、学生の認識では難度は高いものであった。要するに短期間での習得は困難であ り、学部学生への教育は、あくまでも動機付けと考え、大学院、医局単位での教育も重要であ ろうごまた、教育の方法論もより改善して行く必要があろう [文献] 1 ) 将俊彦編. E BM:臨床医学研究の方法論.東京 中外医学社. 1 9 9 8 . 2 ) 賂俊彦編, 基本医学統計学・ E B M、医学研究への応用,中外医学社, 1 9 9 9 . 3) 将俊彦編 EB~! のための新 GCP と臨床研究,中外医学社, 1 9 9 9 . 4 ) 豚俊彦編. E BM:臨床研究・診療のの方法論.東京:中外医学社. 2 0 0 0 . 5 ) 将俊彦.臨床医学研究の方法論・ SASの概要、臨床医 2000:26:9:2118‑23. 6 ) 将俊彦.臨床医学研究の方法論.SAS‑DATAステップ、臨床医 2000:26:10:2274‑8. 7 ) 牒俊彦.臨床医学研究の方法論.SAS‑PROCステップ、臨床医 2000:26:11:2430‑3. 表 1.試験成績、総合試験成績の特徴 変数 試験成績 総合成績 N 平均値 標準偏差 最小値 最大値 1 0 1 1 0 1 63.0000000 68.8003850 14.6737862 1 0 . 1 6 9 9 2 4 1 1 1 .0000000 3 5 .0388889 9 4 .0000000 90.377777月 ‑426
表 2 .I J 1 f E度 の 頻 度 分 布 1 )臨 床 疫 学 の 概 念 1.非常に難しい 2 .難 し い 3 .普 通 4 .や や や さ し い ;).やさしい 2 )医 学 統 計 学 し非常に難しい 2 .英在しし、 3 .普通 4 .や や や さ し い ;).やさしい 3 )SA S l非常に難しい 2 .難 し い 3 普通 4 .や や や さ し い ;:,.やさしい 4 )総 括 的 評 価 度数 1 6 59 I S 度数 25 66 1 0 度数 23 SO 25 2 度数 J Z 累布! ノミ一セント ノミーセント 累積 度数 IS.8 6 8 .3 14.9 1 6 8S 1 0 0 1 S .8 84.2 9 9 .0 1 .0 1 0 1 100.0 ノミーセント 累積 度数 累積 ノミ一セント 2 4 .8 6 S .3 9 .9 25 9 1 1 0 1 2 4 .8 9 0 .1 100.0 ノfー セ ン ト 累積 度数 累積 ノミ一セント 22.8 4 9 .S 24.8 2 .0 1 .0 23 73 98 1 0 0 1 0 1 22.8 72.3 97.0 9 9 .0 100.0 ノミーセント 累積 度数 累積 ノミ一セント 一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一ー一一一一一一一一一一一一一一一一ーー一一一一一一一一一一一一一一一一一一一 し非常に難しい 2 難しし、 3 普通 4 .や や や さ し い ;).やさしい 1 7 5S 1 8 15.8 5 4 .4 17.8 1 .0 1 7 82 1 0 0 1 0 1 16.8 .2 81 9 9 .0 100.0 ノf一 セ ン ト 累積 度数 累積 パーセント 3 1 4 72 99 1 0 0 : 3 . 0 14.0 7 2 .0 99.0 100.0 累積 度数 累積 ノミ一セント 表 3. 理 解 度 の 頻 度 分 布 1 )臨 床 疫 学 の 概 念 l理 解 で き た 2 . I Iぽ 理 解 で き た 3 .普 通 4 .あ ま り 理 解 で き ず 5理解できず 2 )医 学 統 計 学 全 般 し理解できた 2 .ほ ぽ 理 解 で き た 3 .普通 4 .あ ま り 理 解 で き ず ;).理解できず 度数 3 I I 58 27 3 .0 11 .0 5 8 .0 27.0 1 .0 欠損値の度数=1 度数 1 5 48 3 1 ノミ一セント 15.8 5 0 .5 32.6 1 .1 427 1 5 63 94 95 15.8 6 6 .3 : 9 8 .9 100.0
欠損値の度数= 6 ①標準偏差 度数 ノf一セント 累積 度数 累積 ノ号ーセン 一一一一一一一一一一一一一一一一一一一ー一ー‑ー一一一一一一一一一一一一一一一一一一一一一一一ーーー 1.理解できた 2 .ほ ぽ 理 解 で き た 3 .普 通 4 .あ ま り 理 解 で き ず 5 .理 解 で き ず 1 6 27 38 20 度数 ②正規分布 15.8 2 6 .7 37.6 19.8 1 6 43 8 1 1 0 1 15.8 4 2 .6 8 0 .2 100.0 ノf一セント 累積 度数 累積 ノ4ーセン 一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一ー一一ーーーー一一一一一一一一一一一一一一一一一一一一一一一一 1.理解できた 2 .ほぽ理解できた 3 .普通 4 .あ ま り 理 解 で き ず 5 .理 解 で き ず ③相関係数 1 9 34 34 1 4 度数 18.8 3 3 .7 3 3 .7 1 3 . 9 1 9 53 87 1 0 1 1 8 .8 52.5 8 6 .1 100.0 ノf一セント 累積 度数 累積 ノ4ーセン ーーー一一一一一ー一一一一一ー一一一一一一一一一一一一ー一一一一一一一一ーーーーー一一一一一一一一一一一一一一一一一一一一一一一一一一一 1.理解できた 2 .ほ ぽ 理 解 で き た 3 .普通 4 .あ ま り 理 解 で き ず 5 .理 解 で き ず ④仮説検定 8 23 38 3 1 度数 7.9 22.8 37.6 3 0 .7 1 .0 8 3 1 69 100 1 0 1 7.9 3 0 .7 6 8 .3 9 9 .0 100.0 ノf一セント 累積 度数 累積 ノfーセン 一一一一一一一一一一一一一一一一一一ーーーー一一ー一一一ーーー一一一一一一一一一一一一一一一一一一一ー一ーーーー一一一一一一一一一 1.理解できた 2 .ほ ぽ 理 解 で き た 3 .普通 4 .あ ま り 理 解 で き ず 5 .理 解 で き ず ⑤帰無仮説 6 27 38 27 3 度数 5.9 2 6 .7 37.6 2 6 .7 3 .0 6 33 7 1 98 1 0 1 5 .9 3 2 .7 7 0 .3 97.0 100.0 ノf一セント 累積 度数 累積 ノfーセン 一一一一一一一一一一一一一一一一一一一一一一一ーーーーーーー一一一一一一一一一一一一一一一一一一一一一 1.理解できた 2 .(まぼ理解できた 3 .普通 4 .あ ま り 理 解 で き ず 5 .理 解 で き ず ⑤有意水準 1 7 37 3 1 1 5 度数 16.8 36.6 3 0 .7 14.9 1 .0 1 7 54 85 100 1 0 1 16.8 5 3 .5 8 4 .2 9 9 .0 100.0 ノミーセント 累積 度数 累積 ノミーセン 一一一一一一一一一一一一一一一一一一一一一一一一ー一一一ーーー一一ー一一一一一一一一一一一一一一一一一 し理解できた 2 .ほぼ理解できた 3 .普通 4 .あ ま り 理 解 で き ず 5 .理 解 で き ず ⑦両側検定 1 5 36 34 1 4 2 度数 14.9 35.6 3 3 .7 13.9 2 .0 1 5 5 1 85 99 1 0 1 14.9 5 0 .6 8 4 .2 9 8 .0 100.0 ノf一セント 累積 度数 累積 ノミーセン 一一一一一一一一一一一一一一ーーーー一一一一一一一一一一一一一一一一一一一一一一一一一一ー一一一一 ‑428‑
1.理解できた 2 .(まぽ理解できた 3 普通 4 .あ ま り 理 解 で き ず O. 理 解 で き ず ③適合度検定 8 36 : 3 5 22 度数 7.9 3 5 .6 3 4 .7 21 .8 8 44 79 1 0 1 7.9 4 3 .6 7 8 .2 100.0 ノ4ー セ ン ト 累積 度数 ノミーセン 累積 一一一一一ーー一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一ーーー一一ー一一一一一一 1.理解できた (l ま理解できた 2 .ま 3 .普通 4 .あ ま り 理 解 で き ず C J .理 解 で き ず 2 8 32 44 1 4 2 2 .0 8 .0 1 0 3 2 .0 42 44.0 86 14.0 100 欠損値の度数二 l ⑨ Fisherの 直接確率法 度数 累積 度数 ノミ一セント 2 .0 10.0 4 2 .0 8 6 .0 100.0 累積 ノミーセン 一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一ーー一一一一一ーー一一一一一一一一一一 1.理解できた 2 .ほ ぽ 理 解 で き た 3 普通 4 .あ ま り 理 解 で き ず ふ理解できず ⑬~Ic "emar テス卜 2 1 4 59 25 度数 1 .0 2 .0 13.9 58.4 24.8 3 1 7 76 1 0 1 1 .0 3 .0 16.8 75.2 100.0 ノモ一セント 累積 度数 ノfー セ ン 累積 一一一一一一一一一一一一一一一一ーー一一一一一一一一ーーー一一一一一一一ー一一一一一一一一一一一一一一一一一一一一一一一一一一一一一ー‑ l理解できた 2 .(まぼ理解できた 3 普通 4 .あ ま り 理 解 で き ず 5 .理 解 で き ず ⑬ 2項 検 定 l 理解できた 2 .(まぽ理解できた 3 .普 通 4 .あ ま り 理 解 で き ず 5 .理 解 で き ず ⑫中央値検定 3 1 1 41 44 度数 7 23 46 23 度数 3.0 11 .1 41 .4 44.4 欠損値の度数= 2 ノf一 セ ン ト 7 .1 23.2 4 6 .5 23.2 欠損値の度数=2 ノξ一 セ ン ト 3 1 4 55 99 3 .0 14.1 5 5 .6 100.0 累積 度数 ノミーセン 7 30 76 99 7 .1 3 0 .3 7 6 .8 100.0 累積 度数 ノfー セ ン 累積 累積 一一一一一一一一一一一‑ーーー一一一一一一一一ーー一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一ーー一一一一一一一一一一一 1.理解できた 2 .ほ ほ 理 解 で き た 3 .普 通 4 .あ ま り 理 解 で き ず C J .理 解 で き ず 3 )S A S全 般 l理 解 で き た 3 1 5 38 38 6 度数 3 .0 3 15.0 1 8 38.0 56 38.0 94 6.0 100 欠損値の度数= 1 ノf一 セ ン ト 1 .2 429‑ 累積 度数 3 .0 18.0 5 6 .0 9 4 .0 100.0 累積 ノf一 セ ン ト 1 .2
2 .ほ ぽ 理 解 で き た 3 .普通 4 .あ ま り 理 解 で き ず 己理解できず 1 0 38 33 3 11 .8 1 1 4 4 .7 49 38.8 82 3 .5 85 欠損値の度数= 1 6 ① program editor 度数 ノf一 セ ン ト 累積 度数 12.9 57.6 9 6 .5 100.0 累積 ノfー セ ン 一一一一一一一一一一一一一一一一一一一一一ー一一ーー一一一一一一一一一一一一一一一一一一一一一一一一一一 l理 解 で き た 2 .ほ ほ 理 解 で き た 3 普通 4 .あ ま り 理 解 で き ず O. 理 解 で き ず ② log 6 1 7 38 33 6 度数 6 .0 6 17.0 23 3 8 .0 6 1 33.0 94 6 .0 100 欠損値の度数= 1 累積 度数 ノミ一セント 6 .0 2 3 .0 61 .0 9 4 .0 100.0 累積 ノミーセン 一一一一一一ーー←一一一一一一一一一一一一一ー一一ーー一一一一一一一一一一一一 7 1 9 36 32 6 し理解できた 2 .ほ ぼ 理 解 で き た 3 .普通 4 .あ ま り 理 角 で き ず O. 理 解 で き ず ③ output 度数 7.0 7 19.0 26 36.0 62 32.0 94 6 .0 1 0 0 欠損値の度数= 1 累積 度数 ノf一 セ ン ト 7.0 2 6 .0 6 2 .0 9 4 .0 100.0 累積 ノミーセン 一一一一一一一一一一一一一一一一一一一 l理 解 で き た 2 .ほ ぼ 理 解 で き た 3 普通 4 あまり理解できず 5 .理 解 で き ず ④ infile 9 28 39 22 3 度数 8 .9 2 7 .7 3 8 .6 21 .8 3 .0 9 37 76 98 1 0 1 8 .9 3 6 .6 7 5 .2 97.0 100.0 ノf一 セ ン ト 累積 度数 ノミーセン 累積 一一一一一一ーー一一ー一一一一一一一一一一一一一一一一一一一一 8 27 41 20 3 1.理解できた 2 .ほ ぽ 理 解 で き た 3 .普通 4 .あ ま り 理 解 で き ず 5 .理 解 で き ず ⑤ data 度数 8 . 1 27.3 41 .4 2 0 .2 3 .0 欠損値の度数= 2 35 76 96 99 8 .1 3 5 .4 7 6 .8 97.0 100.0 ノf一 セ ン ト 累積 度数 ノfー セ ン 11 .9 3 5 .6 37.6 11 .9 3.0 1 2 48 86 98 1 0 1 11 .9 47.5 日5 .1 97.0 100.0 ノf一 セ ン ト 累積 度数 ノミーセン 日 累積 ー一一一一ーー一一一一一ー一一一一一一一一一一一一一一一一一 1.理解できた 2 .ほ ぽ 理 解 で き た 3 .普通 4 あまり理解できず 5理解できず ⑥ lnput 1 2 36 38 1 2 3 度数 累積 一一一一一一一一一一一一一一一一一一一一一一一一ー一一一一一一一一一一一一一一一一一一一一一一一一一一一 l理 解 で き た 2 .I 王ぼ理解できた 1 2 37 11 .9 3 6 .6 ‑430一 1 2 49 11 .9 4 8 .5
3 .普通 4あまり理解できず 己理解できず ⑦ proc 3 " 1 " 2 度数 3 4 .7 1 4 . 9 2 .0 8 4 9 9 1 0 1 8 3 .2 9 8 .0 1 0 0 .0 ノミーセント 累積 度数 ノミーセン 累積 一一一一一一一一一一一一一一一一一ー一一一一一一一一一一ーーー一一一一一一一一一ー一一一一一一一一一一一一一一一一一一一一ー一一一一一一 l.理解できた 2 .(まぽ理解できた 3 .普通 4 .あ ま り 理 解 で き ず :J.理解できず ③ univariate 1 2 3 6 3 6 1 5 2 度数 Il .9 35.6 3".6 1 4 . 9 2 .0 1 2 4 8 8 4 9 9 1 0 1 Il .9 47.5 8 3 .2 9 8 .0 100.0 ノミーセント 累積 度数 ノミーセン 累積 一一一一一一一一一一一一一一一一一一一一一一一一一一一一ー一一一一一一一一一一ー一一一一一一一一一一一一一一一一一一一一一一一一一一一一 l.理解できた 2 .ほ ぽ 理 解 で き た 3 .普通 4 .あまり理解できず、 5理 解 で き ず ⑨ corr 6 1 4 3 2 3 6 1 3 度数 5 . 9 1 3 . 9 3l .I 3 5 .6 1 2 . 9 ノミ一セント 6 2 0 5 2 88 1 0 1 5 .9 1 9 . 8 .5 5l 8 7 .I 1 0 0 . 0 累積 度数 ノミーセン 累積 一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一ー一一一一ーー一一一一一一一一 し理解できた 2 .(ま{ま理解できた 3普通 4 あまり理解できず 5理 解 で き ず 5 8 34 3 8 1 5 5 .0 8.0 34.0 38.0 1 5 . 0 5 1 3 4 7 8 5 1 0 0 5 .0 1 3 . 0 47.0 8 5 .0 1 0 0 .0 累積 度数 ノミーセン 欠損値の度数= 1 • ⑩ reg 度数 ノミ一セント 累積 一一一一一一一一一一一一ーー一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一ー一一一一一一一一一一ーーー‑ー‑ l 理解できた 2 ほぽ理解できた 3 .普通 4 .あ ま り 理 解 で き ず :J.理解できず 4 7 3 2 3 9 1 8 4 .0 7 . 0 3 2 .0 3 9 .0 1 8 . 0 4 I I 4 3 8 2 1 0 0 4 .0 .0 Il 4 3 .0 8 2 .0 1 0 0 .0 ノfー セ ン 欠損値の度数= I 表 4. 興 味 の 程 度 の 頻 度 分 布 度数 ノミーセント 累積 度数 l.非常に興味がある D 2 .興味がある 3 .普 通 4 .あ ま り 興 味 が な い 5興 味 が な い 3 4 5 1 I I ".0 3 3 .I 5 0 .5 1 0 . 9 3 9 9 0 1 0 1 5 .0 3 8 .6 8 9 .1 1 0 0 . 0 ノミーセント 累積 度数 ノミ一セント 1 )臨 床 疫 学 の 概 念 2 )医 学 統 計 学 l非 常 に 興 味 が あ る 度数 6 5 .0 ‑431 D 6 累積 累積 5 .0
2 .興 味 が あ る 3 .普 通 4 .あ ま り 興 味 が な い 5 .興 味 が な い 39 44 1 1 45 89 1 0 0 4 5 .0 89.0 100.0 累積 度数 累積 ノf一セント 3 9 .0 4 4 .0 11 .0 欠損値の度数= 1 3 )S A S 度数 ノミ一セント 一一一一ー一一一一一一一一一一一一一一一ー一ー一一一一一一一一一一一一一一ーー一一一一一一一一一一一一一一一一一一一一ー一一一一一ー一一 し非常に興味がある 2 .興味がある 3 .普 通 4 .あ ま り 興 味 が な い 5 .興 味 が な い 表 5. 教員 3 39 45 1 2 3 .0 3 3 9 .0 42 87 45.0 99 12.0 1 0 0 1 .0 欠損値の度数= 1 3 .0 42.0 87.0 9 9 .0 100.0 (+f, d ) の授業の進め方の頻度分布 1 )臨 床 疫 学 の 概 念 ノミ一セント 度数 累積 度数 累積 ノミ一セント 一一一一一一一一一一一一一ーーー一一一一一一一一一一一一一一一一一一ー一一一一一一一一一一一一一一一ー‑ーー一一一一一一一一一一一一一一 1.非常にうまい 2 . うまい 3 .普通 4 .あ ま り う ま く な い 5 . うまくない 2 )医 学 統 計 学 20 7 1 9 度数 19.8 70.3 8 .9 1 .0 20 9 1 100 1 0 1 19.8 9 0 .1 9 9 .0 100.0 ノミ一セント 累積 度数 累積 ノミーセン ーーーー一一一一一一一一一一一一一一ーーー一一ー一一一一一一一一一一一一一一一一一ー一一一一一一一一一一一一一一一一一一一一一一ーーーー 1.非常にうまい 2 . うまい 3 .普 通 4 .あ ま り う ま く な い 5 うまくない 3 )SA S 1 9 74 6 2 度数 18.8 73.3 5 .9 2 .0 1 9 93 99 1 0 1 18.8 9 2 .1 9 8 .0 100.0 ノミ一セント 累積 度数 累積 ノfー セ ン 一一一一一一一一ー一一一一一一一一一一一一一一ー一一一一一一一一一一一一一一一一ーーー一一一一一一一一一一一ーー‑一一一一一一一一一一一 1.非常にうまい 2 . うまい 3 普通 4 .あ ま り う ま く な い ;:J.うまくない 3 3 1 58 8 3.0 3 0 .7 57.4 7.9 1 .0 3 34 92 100 1 0 1 3 .0 3 3 .7 91 .1 9 9 .0 100.0 表 6. そ の 他 の 頻 度 分 布 1 )レポートの頻度 1.多すぎる 2 やや多 す ぎ る 3 .普通 4 .や や 少 な す ぎ る 5 .少なすぎる 度数 2 28 7 1 ノf一セント 累積 度数 累積 パーセント 2.0 27.7 7 0 .3 2 30 1 0 1 2 .0 2 9 .7 100.0 432一
累積 累積 ノミーセント 2 )総 括 的 評 価 パーセント 度数 度数 一一一一一一一一一一一一ー一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一 6 6 .2 6 6 .2 し厳しすぎる 40 4l .2 2 やや厳しすぎる 46 47.4 ,,0 96 3 .普通 99.0 " l .i l .0 97 100.0 4 .やや甘すぎる 0. 甘すぎる 欠損値の度数=, 1 累積 累積 ノミ一セント ノミ一セント 3 )評 価 価 項 目 ; 試 験 度数 度数 一一一一一一一一一一一ー一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一 4 4 .0 44 l.評価すべき 44 4 4 .0 48 4 8 .0 2 .どちらでも良い 92 92.0 8 8 .0 1 0 0 100.0 3 .評 価 す べ き で な い 欠損値の度数= 1 4 )評価項目;レポート 度数 l 評価すべき 2 どちらでも良い 3 評価すべきでない 74 2己 五)評価項目:実習態度 し評価すべき 2 .どちらでも良い 3 .評 価 す べ き で な い 度数 56 39 U ノミ一セント 累積 度数 累積 ノf一 セ ン ト 74.0 74 25.0 99 1 .0 1 0 0 欠損値の度数= 1 ノ号一セント 累積 度数 74.0 99.0 100.0 累積 ノミ一セント 5 6 .0 56 3 9 .0 95 5.0 1 0 0 欠煩値の度数= 1 5 6 .0 9 5 .0 100.0 表 7. 試験成績、総合成績と難度、理解度との相関係数(上段)と有意性(下段) <.0001 ) 難度一 1 臨床疫学 o .28030 o .0045 難度 2 ) 医学統計 0.31308 0.0014 0.20073 0.0441 難度 ‑ 4 ) 総括評価 o .30372 o .0020 理解 1 ) 臨床疫学 0.12552 0.2134 0.96880 く. 0001 1 .00000 o .28261 0.0042 0.28701 o .0036 0.21568 o .0303 0.31681 0.0012 ‑0.14011 o .1644 理解‑ 2 ) 医学統計 ‑0.34530 o .0006 ①標準偏差 ②正規分布 ③相関係数 ④仮説検定 ⑤帰無仮説⑥有意水準 ‑0.25743 0.0094 o .34564 o .0004 ‑0.29151 0.0031 0.32102 0.00I I 0.23826 0.0164 ‑0.31502 0.0013 ‑0.36048 0.0003 ‑ 0 .24350 0.0141 ‑ 0 .34660 o .0004 ‑0.27865 0.0048 ‑0.33489 0.0006 0.27910 0.0047 o .0005 ⑦両側検定 ③適合検定 ⑨ Fisher ⑩ McNemar ⑪ 2項 検 定 ⑫ 中 央 値 検 定 理 解 ‑3) ‑0.38067 o .26073 o .11035 o .15981 試験成績 試験成績 総合成績 試験成績 総合成績 試験成績 1 .00000 総合成績 o .96880 ‑433‑ 難度 3 ) SAS o .10565 ‑ 0 .28244 0.33998 SAS全 般 0.27800
く. 0001 O .0088 0.2720 O .1 1 4 1 O .2980 0.0044 0.0100 ‑0.39036 く. 0001 ‑ 0 .26558 O .0076 ‑ 0 .09934 O .3230 O .17673 0.0801 O .1 1 2 ( j 7 0.2668 ‑0.30094 O .0023 ‑0.32003 O .0028 ① p‑editor ② log ③ output ④ infile ⑤ data @input ⑦ proc 試験成績 ‑0.16193 O .107S 0.31241 0.0016 ‑ 0 .27228 O .0059 ‑0.2る1 8 4 0.0119 ‑ 0 .26己00 O.OOH ‑0.31872 0.0012 0.37997 く. 0001 総合成績 ‑ 0 .17806 O .0763 一O .32949 0.0008 ‑ 0 .30488 0.0019 ‑0.26る37 0.0079 ‑0.26944 O .0064 0.31379 0.0014 @uni¥'31'. ⑨ corr ⑩ reg 試験成績 ‑0.22165 0.02S9 ‑ 0 . 18655 0.0631 ‑ 0 . 17884 O .07S0 興味一 1 ) 臨床疫学 ‑0.02777 O .7828 興味 ‑2) 医学統計 O .05609 O .5794 興味 3 ) SAS ‑ 0 .15630 O .1204 授業 1 ) 臨床疫学 ‑ 0 .14532 O .1 4 7 1 総合成績 ‑0.21990 0.0271 O . 19105 O .OS69 ‑ 0 . 17937 0.0741 ‑0.02143 0.831S O .06802 0.5013 O .14689 O .1447 O .11590 O .2484 授 業‑ 2 ) 医学統計 ‑ 0 .10329 O .3040 授業‑ 3 ) SAS ‑0.06507 0.5180 その他 1 ) レポート O .00268 O .9788 その他 2 ) 総括評価 O .11483 0.2627 その他 3 ) 試験 ‑0.0227S 0.8222 その他 4 ) レポート 0.01812 0.8580 そ の 他‑ 5 ) 実習態度 O .04S04 O .6S64 ‑0.07379 0.4634 O .08SS0 O .39S3 O .03429 O .7335 0.1208S O .2384 ‑0.036五l 0.7184 ‑ 0 .0424S 0.6750 0.0217S 0.8299 偏相関係数 の 2乗 決定係数 総合成績 試験成績 総合成績 ー 0.36874 0.0001 表 8. 試 験 成 績 、 総 合 成 績 の 重 回 帰 分 析 の 結 果 ( ス テ ッ プ ワ イ ズ 法 ) 目的変数 試験成績 総合成績 切片と 説明変数 標準化偏 回帰係数など 標準誤差 F 1 ] 直 切片 ⑦ proc ⑦ 両1 J !J検 定 87.46566 4.78330 ‑ 4 .69786 S.35874 1 .70911 1 .90602 266.41 <.0001 7.83 O .0066 6.07 0.Ol61 O .2000 0.0615 O .2000 0.2614 切片 ② log ⑦両倶IJ検 定 8 8 .63328 ‑ : l .69365 ‑:l.23l59 3 .76682 1 .07026 1.20363 5 5 3 .66 < .0001 11 .9 1 O .0009 7.21 O .0090 0.2378 O .0685 O .2378 O .3063 P値 表 9. 試 験 合 否 、 総 合 合 否 の ロ ジ ス テ ィ ッ ク 回 帰 分 析 の 結 果 ( ス テ ッ プ ワ イ ズ 法 ) 目的変数 試験合否 総合合否 切片と 説明変数 係数の 推定値 標準誤差 オッズ比 切片 ⑦両側検定 ⑦ proc ‑4.3る60 0.6781 O .7759 1 .1725 0.3310 0.3l81 1 .970 2 .1 7 3 1 .030 1 .1 6 S 4 .053 切片 ⑦ proc ‑4.3144 1 .0582 1 .1187 0.3471 2.881 1 .459 5 .689 推定値 ‑434一 95明信頼区間
ク ラフィックセッション
日本 SASユーザー会 (SUG1‑0) 大型計算機センターにおける計算機の利用分析 0 久冨丈志 金津正憲 京都大学大型計算機センター Analysisofcomputeru t i l i z a t i o nDataProcessingCenter TakeshiHisatomi MasanoriKanazawa KyotoUniversity DataProcessingCenter, 要旨 京都大学大型計算機センターでは、京都大学の教官、大学院生を中心に多数の大学の研究者が多 憾な目的でコンビュータを利用しているため、計算機の利用状況もあらゆる面から分析する必要があ る。そのため、利用状況の分析結果をグラフ化する場合も SASjGRAPHソフトウェアの基本機能の みでは作成できないグラフもあり、この場合は ANNOTATE機能を問 L、るなどの工夫が必要になる。 本論文では、スーパーコンヒ。ュータの利用データを基にした分析グラフ ( 3次元グラフと円グラフ)の 作成について紹介する。 キーワード SAS/GRAPHソフトウェア、 GCONTOURプロシジャ 1 はじめに 京都大学大型計算機センターは、全国の大学、高等専門学校などの研究者が、学術研究にともなう 計算および情報の処理を行うために利用する全国共同利用施設であり、京都大学の教官、大学院生を 中心に多数の大学の利用者から利用されている。 本センターでの計算機の利用目的は、多織であり、研究分野も盟系、文系を問わず広範囲に利用さ れている。そのため、計算機の利用状況もあらゆる面から迅速に分析する必要がある。 計算機の利用データのような大量データは、 SASシステムを用いると比較的簡単に処理が行え、 グラフの作成も容易である。但し、標準的な処理以外のグラフを作成しようとすれば、データ作成の 工夫したり、 ANNOTATE機能を用いる必要がある。本論文では、本センターのスーパーコンビュー タの利用データを用いて SASjGRAPHソフトウェアでの分析例を紹介する。 SASシステムは、本センターで j i l i則しているメインフレーム版リリース 6 . 0 8のものを用いた。 437‑
2 3次元グラフの作成 2 . 1 標準的な利用 スー 1¥ーコンビュータの利用状況を以下の 条件で並列化率、 VU率、 CPU時間の関係 を GCONTOURフ.ロシジャの PATTERN オプションを利用してグラフ表示することを AS 考える。標準処理では、図 1のような S GDPTIDNS DEVICE=GSP6683 ; PRDC SUMMRY DATA=SPDATA NWAY ; CLASS VU PA ; VAR CPU ; OUTPUT DUT=SUMDATA SUM= ; RUN ; PRDC PRINT ; VAR VU PA CPU ; RUN ; TITLE H=l F=NDNE ,2000年度 スーパーコンビュータ利用状況 3 PATTERN1 C=WHITE V=E ; PATTERN2 C=WHITE V=M2N45 ; プログラムが考えられる。 (略) 【条件】 ASデータセット (SPDATA) ・入力 S は、並列化率 ( P A )、 VU率 ( V U )、 CPU時間 (CPU)の 3変数とする 0 ・並列化率、 VU率は、共に 5%から 100%まで 5%刻みの値を持つ。 ・パターン表示される CPU時聞は、 5区分に分けて処理する。 以下の 1 O s,5m,30m,1 h,1 0 h,2 4 h,1 0 0 h, 5 0 0 h,1 0 0 0 h,2 5 0 0 h,5 0 0 0 h,7 5 0 0 h, 1 0 0 0 0 h, 2 0 0 0 0 h, 3 0 0 0 0 h PATTERN14 C=RED V=S ; PATTERN15 C=BLUE V=S ; AXIS1 DRDER=O TD 100 BY 10 LENGTH=38.9 MINDR=(N=l) LABEL=(' VU率') ; AXIS2 DRDER= 0 TD 100 BY 10 MINDR=(N=l) LABEL=('並列化率, ) LEGEND1 FRAME ACRDSS=l POSITIDN=(MIDDLE RIGHT) MDDE=RESERVE LABEL=(PDSITIDN=(TDP CENTER) 'CPU時間') ; PRDC GCDNTDUR ; PLDT PA*VU=CPU / LEGEND=LEGEND1 HAXIS=AXIS1 VAXIS=AXIS2 PATTERN JDIN LEVELS=O 300 1800 3600 36000 86400 360000 1800000 360000 9000000 18000000 27000000 36000000 72000000 108000000 ; RUN ; 図 1P r o g r a m 1 SASシステム DBS VU PA CPU 1 2 3 4 5 6 7 5 5 5 5 5 5 5 5 10 15 20 25 30 35 184427 228 284 944 2641 3226 10658 100 5 75 80 90 95 100 22920053 309240 11678 58003 2288786 2688770 74968997 〔略) 290 291 292 293 294 295 296 95 100 100 100 100 100 100 図 2P r o g r a m 1の処理結果 l 図 3P r o g r a m 1の処理結果 2 P r o g r a m 1では、図 2と図 3の処理結果を比較しでも分かるように図 2のデータがそのままグラフ 化されてない。これは、 GCONTOURプロシジャの処理で表示されるパターンは、その 4つの頂点 の平均で決定されるためである。 ‑ 4 3 8
2 . 2 データの加工 GCONTOURプロシジャで入力データをそのまま表示させるため、次の手順で操作を行った。 【手順 1】 パターン毎にデータ区分する LEVELオプションで指定した値は 中央値となり、今回のような間隔が 一定でないデータでは正確な表示が 出来ないため、該当するデータ値が ないグリッドには、 0を設定した後、 各グリッドのパターン値を設定する (図的。また、データ変容を行って いるためグラフを見易くするには、 図 5のようなフォーマットが必要で ある。 】 グリッドの再設定 【手順 2 表示させるパターンの値と 4つの頂 点のグリッドの平均値が一致するよ うに各グリッドのデータ値を再設定 させる(図的。 DATA WIND ; RETAIN Zl‑Z10201 0 ; KEEP X Y Z ; 101) Zl‑Z10201 ; ARRAY ZZ(101, SET SIND ; XC1=XT!XS ; YC1=YT!YS ; XC2=XC1+1 ; YC2=YC1+1 ; Z=ZT ; IF YT=YMIN THEN DO ; X=XT ; Y=YT‑YS ; ZZ(XC2, YC1)=Z ; OUTPUT ; 1F XT=XM1N THEN 00 ; X=XT‑XS ; ZZ(XC1, YC1)=Z ; OUTPUT ; ENO ; ENO ; Y=YT ; IF XT=XM1N THEN 00 ; X=XT‑XS ; ZZ(XC1, YC2)=Z ; OUTPUT ; ENO ; X=XT : Z=Z本 4ムZZ(XC1, YC1)‑ZZ(XC1, YC2) ‑ZZ(XC2, YC1) ; ZZ(XC2, YC2)=Z ; OUTPUT ; RUN ; PROC SUMMRY OATA=SPOATA NWAY ; CLASS VU PA ; VAR CPU ; OUTPUT OUT=SUMDATA SUM= ; RUN ; OATA NULL ; 00 PA= 5 TO 100 BY 5 ; 00 VU= 5 TO 100 BY 5 ; OUTPUT ; ENO ; END ; RUN ; DATA 1ND ; KEEP XT YT ZT XS YS XM1N XMAX YM1N YMAX ; MERGE SUMDATA(1N=FLG1) NULL(1N=FLG2) ; BY PA VU ; 1F FLG1=0 THEN CPU=O ; SELECT ; WHEN(CPU=O) ZT= 1 ; WHEN( O<CPU<= 300) ZT= 2 ; WHEN( 300<CPU<= 1800) ZT= 3 ; WHEN( 1800<CPU<= 3600) ZT= 4 ; WHEN( 3600<CPU<= 36000) ZT= 5 ; WHEN( 36000<CPU<= 86400) ZT= 6 ; WHEN( 86400<CPU<= 360000) ZT= 7 ; WHEN( 360000<CPU<= 1800000) ZT= 8 ; WHEN( 1800000<CPU<= 3600000) ZT= 9 ; WHEN( 3600000<CPU<= 9000000) ZT=10 ; WHEN( 9000000<CPU<=18000000) ZT=ll ; WHEN(18000000<CPU<=27000000) ZT=12 ; WHEN(27000000<CPU<=36000000) ZT=13 ; WHEN(36000000<CPU<=72000000) ZT=14 ; WHEN(72000000<CPU) ZT=15 ; OTHERWISE ZT=99 ; END ; XT=VU ; YT=PA ; XS=5 ; YS=5 ; XMIN=5 ; XMAX=100 ; YMIN=5 ; YMAX=100 ; RUN ; 図 4P rogram2 PROC FORMAT ; VALUE T1 1=' 0:00:00' 2=' 0:05:00' 3=' 0:30:00' 4=' 1:00:00' 5=' 10:00:00' 6=' 24:00:00' 7=' 100:00:00' 8=' 500:00: 00' 9=' 1000:00:00' 10=' 2500:00:00' 11=' 5000:00:00' 12=' 7500:00:00' 13='10000:00:00' 14='20000:00:00' 15='30000:00:00' RUN ; 図 5P rogram3 図 6P rogram4 ‑ 4 3 9一
【手順 3 】 グラフを作成する Program4(図 6 )で作成した SASデー タセット WINDを用いてグラフの作 成を行う。 Program2(図 4 )でデータ 変容を行っているためパターンレベル を変更して処型させる。 GOPTIONS DEVICE=GSP6683 ; TITLE H=l F=NONE ,2000年度 スーパーコンヒ・ュータ利用状況 P PROC GCONTOUR ; PLOT Xホy=cz / LEGEND=LEGENDl HAXIS=AXISl VAXIS=AXIS2 PATTERN JOIN LEVELS=l TO 5 ; FORMAT Z TI. ; RUN ; 図 7 Program5 図 8 Program5の処理結果 4 4 0一
3 円グラフの作成 3 . 1 処理の概要 SASjGRAPHソフトウェア(リリース 6 . 0 8 )で円グラフ内にもう一つ円グラフを作成する場合、 GCHARTプロシジャでは簡単には作成できないため、今回、 ANNOTATE機能を用いた円グラフ の作成フ.ログラムを作成したので紹介する。 今回作成したフ.ログラムの機能は以下のとおりである。 ・プログラム (NEWPIE)は %INCステートメン卜で実行する。 ・入力用の SASデータセットは以下の 3っとする。 一分析用データ (INDATA) *分類変数は 1変数 (LCODE) *応答変数は 2変数 (IND1、 IND2) 一応答変数用ラベルデータ (INVAR) *2変数 (IND1L、 IND2L) 一分類変数用フォーマットデータ (LDATA) *分類変数 (LCODE) *フォーマット用変数 (LNAME) ・データの分析基準は、 1つ目の応答変数を基にする。 一処理データは、百分率のデータを使用する。 ‑1%以上のデータのみを表示する(最大 1 5 )。 .表示内容 一円グラフ 一結果リスト 3 . 2 実行例 スー/¥ーコンビュータの分野別の CPU DATA INDATA(KEEP=LCODE INDl IND2) INVAR(KEEP=IND1L IND2L) SET SPDATA ; LCODE = BUNYA ; INDl = ALLCPU ; IND2 = CPU : IND1L = '合計 p , IND2L = '最大 p , RUN ; cu cu 時間のデータを基に実行例を紹介する。 図 9P rogram6 【手順 l】 分析データの作成 Program6(図 9 )のように分析データ (INDATA)とラベルデータ (INVAR) を作成する。主となる応答変数は、 必ず変数 IND1を使う。 DATA LDATA(KEEP=LCODE LNAME) INFILE FIELDF ; INPUT 唖4 LCODE $CHAR3. 唖9 LNAME $CHAR22. RUN ; 図1 0 Pr9gram7 【手順 2 】 フォーマットデータの作成 Program7(図 1 0 )のようにフォーマ ットデータ (LDATA)を作成する。 【手順 3】 グラフの作成 GOPTIONS DEVICE=GSP6683 ; TITLE F=NONE H=l ,2000年度 3 3 スーパーコンヒ.ュータの研究分野別利用状況' %INC SASIN(NEWPIE1) ; Program8(図 1 1 )のようにしてフーロ 図1 1 Program8 グラム NEWPIEを実行させる。 ‑441一
図1 2P r o g r a m 8の処理結果 図1 2は、 GSLIDEプロシジャと ANNOTATE機能を用いたグラフである。 4 おわリに SASシステムもパージョン 8になると SAS/GRAPHソフトウェアも多数の新機能が導入されて おり、よりハリエーションにとんだグラフが簡単に作成できることを期待する。 4 4 2一
443‑
匂ト寸.刊 HHφ 刊 寸U . H ‑ ‑ ‑ ‑ ‑ ‑ ‑ g Nm φ 刊 一 一 一 一 円¥ H 0∞+守 朴一H間 LY‑‑K.‑UU 一 一 弘 ︑ 蕊弘一一組)垣紘緋延暦腎 制・川辛抱一寸│詔一 F砕い骨一一回 千台山町 刊 事 l朴H朴 記 ︑ 幹H u 本山知九 朴リ門細川サ制緩 朴 一 一 一hk 議 i 朴一円ホ・慕葉桜川村 佃朴一・一い耕作一臨﹂・・川庁指燃 朴H議 朴以千割奪 ‑ 一 一山一U︐ Jh 刊寸 φ J h ︒ φ ω c m一寸.円 匂也 φ ・ 内 匂白 の円+の に'一広 Nm+ 内 一 M ﹁戸内同 国 両盟 ‑ E d . 4 園田・・・ E E‑ ・ a ‑ ‑ ' 田 園 E ιE 胃 E目 ・ 祁 ・A Uお q 己 ︽ 剛 一 )νホ噌 ‑‑‑ E L闘! 444‑ O寸.0 . 門 寸 . ∞ 匂凶 .H 一 川 一 令 HH 4・ ~ 日﹄ aロ 合通・ 議i 朴 劇 套 朴⁝H 哀﹂ハレサ医師仙・川げ州開 側 目 トト.︹一刊 隠 . 19 一川一寸.寸 陸1 1 p ・ ・ 0 0 ・川翠套記)川忠套 立E I!a ω +ベ‑N 度 目 ミ ギ 目 VT 魁・摺零封 跡持一・川和紙 度目 .m 一 A匂 並 区 目 崎E ••••••••• 刊 寸 ∞ . ∞N ∞ ∞寸ト.刊の 一 . 4 、 青 . ••••••••• 1 1 1 昼 司 E E 。 l 咽
日本 SASユーザー会 (SUG1‑0) 自然形態を CG で再現しよう一樹木作成一 長谷川要 キリ ンビール株式会社 医薬カンパ二一 開発部臨床データ統括担当 Replayt h egeometrico fn a t u r ebyCG.‑TreeS i m u l a t i o n‑ KanameHasegawa C l i n i c a lDataManagementS e c t i o n,ProductDevelopmentDep . t PharmaceuticalD i v i s i o n,K i r i nBreweryC o .,L t d . 要旨 自然界には様々な形が存在する。一見無秩序な形態に見えても実は様々な法則や規則性を持って いることがある。ここでは自然界の形態を数理的に捉える試みとして、樹木の成長を再帰を使ったフラ クタル図形の例として SAS/GRAPHソフトウエアを用いて表現することとした。 キーワード: 再帰、樹木、 SAS/GRAPHソフトウエア、 GPLOTプロシジャ 1 . はじめに 一般に樹木の分枝形態はある一定の法則に則っていると考えられている。つまり、枝の長さや、分枝 角度などとし、った樹木の成長過程に関わるルールを定義することにより、コンピュータ上で架空の樹木 成長のシミュレーションを行うことが可能となる。 樹木の成長要素としては以下のものが挙げられる 0 .枝問の角度 分枝させる時の枝と枝がなす角度 .成長率 分枝後の枝の長さの成長率 .分枝回数 枝分かれさせる回数 前述した要素は樹木の作成にあたって必要最小限と思われる要素のみを列挙したが、より実際の樹 木に近づけるためにたくさんの要素が考えられる。 ‑4t J5
2 . 樹木パターンデータの生成&作図 前述した成長アルゴリズムに従い、樹木データの生成&作図を試みる。樹木生成に必要なパラメータ を指定するだけで樹木データを生成&作図できるように以下のマクロを作成した。 再帰アルゴリズムとは、プロク守ラム中のサブ、ルーチンや関数の中で、自分自身のサブずルーチンや関数を 呼び出すことをいい、今回の樹木データの作成に適した手法として広く使われています。しかしながら、 SASデータステップで、は自分自身のデータステップを呼び出す機能(再帰機能)がないので、再帰アノレ ゴリズムの代用として配列を用いて実現させました。 AS/GRAPHソフトウエアが提供する GPLOTプロ、ンジャの ANNOTATE また、作図にあたっては、 S ステートメントの機能を用いました。 *=====樹木データを生成し作図するマクロ; , * . *入力パラメータ., * branch: ひとつの枝から何本の枝を分枝させるかを指定します; * n: 成長過程の枝分かれを何回繰り返すかを指定します; * length: 最初の幹の長さを指定します; * degree: branchで指定した分枝させる枝の枝問の角度を指定します; * degreeO: 最初の幹の角度を指定します(垂直にするには 90を指定する); * x ratio: X軸方向の枝の成長率; * y̲ratio: Y軸方向の枝の成長率; * . , もmacro tree(branch, n, length, degree, degreeO, x̲ratio, y̲ratio); *ーー【ー一樹木データの生成; data tree; * ‑‑‑‑‑ Annotate用変数定義 z length function 平8 x Y 8 xsys ysys 平1; keep function x y xsys ysys; *ーーーーー計算処理用変数定義; array xx{告eval(&n+2)}; array yy{告eval(&n+2)}; array b{告eval(&n+2)}; *ーーーーー初期化; xsys='2'; ysys='2'; do i=l to &n+1; b{i}=O; end; rad=3.14159265358979/180; tO=°reeO*rad; t1=°ree/2*rad; t2=°ree/(&branch‑1)*rad; *ーーーーー種を撒く位置; xx{l}=O; yy{l}=O; , * . ‑446‑
function='MOVE';
x=xx{l};
y=yy{l};
output;
*ー
ー最初の幹;
xx{2}=&length*cos{tO)+xx{1};
yy{2}=品length*sin{tO)+yy{l};
*,
.
function='DRAW';
x=xx{2};
y=yy{2};
output;
*
分枝する枝の計算処理;
i=O;
*,
.
labell:
i=i+l;
if i>品n then goto labe13;
th=tl;
,
*
.
labe12:
xxx={xx{i+l}‑xx{工})*&x̲ratio;
yyy={yy{i+l}‑yy{工})*品 y̲ratio;
xx{i+2}=xxx*cos{th)‑yyy*sin{th)+xx{工+1};
yy{i+2}=xxx*s工n{th)+yyy*cos{th)+yy{工+1};
*,
.
function='DRAW';
x=xx{i+2};
y=yy{i+2};
output;
b{土+l}=b{i+l}+l;
goto labell;
*,
.
labe13:
b{土+l}=O;
i=i‑l;
if i<l then gqto exit;
if b{i+l}>=&branch then goto labe13;
,
*
.
function='MOVE';
x=xx{i+l};
y=yy{i+l};
output;
*,
.
th=tl‑t2*b{土+1};
goto labe12;
*,
.
exit:;
stop;
‑
4
4
7
run; *ーーーーー樹木の作図; data screen; * GPLOTプ ロ シ ジ ャ 用 の ダ ミ デ タ ; x=O; y=O; run; proc gplot data=screen; axis1 length=18cm order=O to 400 by 100; * y軸方向の座標の指定; axis2 length=18cm order=ー 200 to 200 by 100; * X勃方向の座標の指定; symbo11 i=none v=none; plot y*x/annotate=tree vaxis=axis1 haxis=axis2; run; quit; もmend tree; *=====樹木データの作成&作図; もtree(2.8.55.40.90.0.8.0.9); 3 . 作図例 前述したプログラムの実行により以下のような樹木が作図される。 %treeマクロのパラメータを変化させ ることにより様々な樹木の作成が可能となる。 Y 4 0 0 3 0 0 2 0 0 1 0 0 2 0 0 1 0 0 1 0 0 ー X ‑448一 2 0 0
4 . おわりに 今回作成した樹木は平面 ( 2 D )の樹木であり、実際の樹木とは異なっている。また、すべての枝にお いて同じルールに基づ、き成長するアルゴYズ ムが採用されており、自然界には存在し得ない形態となっ ている。実際の樹木により近づけるために、例えば乱数を発生させることにより枝の成長を変化させるな どの方法が考えられる。また、幹の太さも先端に行くほど細くなるようにする工夫も考えられる。さらに、 G3Dプロシジャを用いることにより、立体的な樹木の作成も可能と考えられるので今後の検討課題とした し 、 。 5 . 参考文献 1 ) 淵上季代絵. CG・かたち・フラクタル.サイエンス社 1 9 9 2 . 2 ) SASSAMPLELIBRAR Y .AnnotateExamplet oDrawPeanoC u r v e . h t t p : / / f t p . s a s . c o m l t e c h s u p / d o w n l o adJsample/samp̲lib/graphsampAnnotate̲example̲to DrawPeano C.html 3 ) SAS/GRAPHリファレンスガイド Release6 . 0 3E d i t i o n .SAS出版局 1 9 9 0 . ‑449
日 ( ∞ ・ N}ωωHHV 申 8n 罷 [! ( . . ・ o‑ o 、 。 α コ 、 . ・ 。. 0 o 0 α2 ト . ) ( " ' ) . +J H 日 ( ︒ .0.∞・ 0 ︒ 小 ︑ ︒u ︒ ∞ト .N}ωωHHV申 450一 毘 車 ∞ ・ 0 ︒小︑︒的︑︒︒同︑︒同 0︑ g‑a 毘 ト 書 毘 車 ' 量 ω ω 毘 、 。 o‑ 毘 品 川 。 炉 冨 一一一一一一一一一一一一戸ーーィ豊 富 毘 雪 。 車 怪 童 毘 毘 呈 向 ( ︒ .0∞ ・ 0 ︒︒ 的ト ︒︒同︑的 司 )ωωHHV申 炉 型 却
‑ 日 本 SASユーザー会世話人会 代表世話人 東京大学 大橋靖雄 副代表世話人 キリンビール株式会社 本川裕 世話人 株式会社東京三菱銀行 青沼君明 成践大学 岩崎学 コンパックコンビュータ株式会社 坂原将生 神戸商科大学 周防節雄 4 株式会社ベルシステム 2 西次男 持田製薬株式会社 舟喜光一 株式会社竹中工務庖 八木章 ( 2 0 0 1年年次総会チェアマン) ‑ 日 本 SASユーザー会事務局 株 式 会 社 SASインスティチュートジャパン内 干1 0 4 ‑ 0 0 5 4東 京 都 中 央 区 勝 ど き ト 1 3 ‑ 1 イヌイビル・カチドキ 8F TEL:0 3 ‑ 3 5 3 3 ‑ 6 9 3 6 FAX:0 3 ‑ 3 5 3 3 ‑ 1 6 1 3 E ‑ m a i l :saswg@jpn.sas.com h t t p : / / w w w . s a s . c o m / j a p a n / 第 20回 日 本 SASユーザー会総会および研究発表会論文集 2 0 0 1年 7月 2 6日 初 版 第 1刷 発 行 発行 日本 SASユーザー会 株式会社 SASインスティチュートジャパン