SASユーザー総会論文集 2019年

182 Views

April 21, 25

スライド概要

SASによる区間打ち切りデータを伴う生存関数の推定 魚住龍史
中間事象が臨床試験の検出力に与える影響のシミュレー ションによる検討 三上毅
カブトガニのサテライト数の観察データに関する探索的ポアソン回帰 高橋行雄
CAUSALMEDプロシジャによる媒介分析 矢田真城
CAUSALGRAPHプロシジャによる因果効果の識別 矢田真城
SGPLOTにおける軸及び凡例の体裁調整に関するTips (臨床試験における事例を中心に) 大山秀輔
Beyond CDISC ~ FDA申請時 BIMO査察にまつわるエト セトラ~ 片山雅仁
CDISC SENDデータのチェック項目一覧とSASを利用したチェックツールの紹介~SENDデータの適切かつ効率的な 品質確保の提案~ 佐膝耕一
薬物動態解析の実務-いまさら聞けない臨床薬理の基礎のキソ- 逆井佑来
薬剤費構造を考慮したフォーミユラリーの分析 武藤猛
POWERプロシジャを用いた生存時間データのサンプルサ イス設計~数値計算アルゴリズムをひも解く~ 今泉敦
SASによるベイズ流単群第II験における症例数設計 張方紅
Stepped Wedge Cluster Randomized Trial の検出力計算 とサンプルサイス設計SASによる実装 小山田隼佑
CDISCのスタイルシートを改変して視覚化ニーズを満たす ~読みやすい定義書を目指して~ 関根暁史
小規模地域における疾患割合の推定について 仕子優樹
様々な付加情報を加えたKaplan Meier Plotの作成事例 川原田貴広
Cure modelにおける2種類の生存関数のシミュレーション 川原田貴広
SAS OnDemand for Academics 生物統計解析ハンズオン セミナー 臨床評価研究会
FCMPのSTATIC statement, HASH object, DICTIONARY object それぞれによるLAG関数機能の定義 森岡裕
SAS によるWeb APIの利用方法と注意点: Google Distance Matrix APIを例として- 筒井杏奈
SASからPythonを操る 関根暁史
クオート処理及びスコープへの理解を深める 木本早紀
ODS EXCEL 入門 松沢享
PROC FCMPとDOSUBL関数でユーザー定義関数を自由 かつ平易に作成する方法 田中真史
JSONという奇妙な拡張子とSAS 浅井友紀
FedSQLプロシジャの特性およびSQLプロシジャの挙動と の比較 山野辺浩己
SASのログを効率的にチェックするマクロの紹介 斉藤敏貴
WINDOWステートメントを用いたユーザー入力画面を使って何かできないか考える 伊住寿雄
Waterfall plus Swimmer's plot 仲子晶也
SAS Graph (ODS Graphics)出力データの再利用に関する 検討 小澤義人
SAS Programming Tips: #BYLINE の活用 松沢享
ICLIFETESTプロシジャをTEMPLATEプロシジャで機能拡 張! 区間打ち切りデータはKMプロット化できるのか? 堀田真一
解析帳票出力用データセットのコンペアに拡張属性を利用する方法 森岡裕
転移学習無双~データ不足をSAS Viyaで超える~ 藤田智紀
臨床試験における機械学習手法による欠測データ解析 竹村俊男
SAS Viyaを利用したリアルワールドデータマイニング2.0 昧澤嘉和
機械学習を用いた統計解析ソフト間での言語トランスレー タの開発に関する考察 横井章泰
高次元遺伝子解析の呪いからの解放 新村秀一
Proc PHREGによる時間依存性共変量を含むCox比例ハ ザードモデルの解析 稲葉洋介
SAS Viyaにおける機械学習モデル評価入門 ~ASSESSプ ロシジャ~ 三宅正晃
SAS/JMPを用いた全国消費実態調査の擬似ミクロデータによる教育プログラムの開発 古隅弘樹
SAS Global Forum 2019 レポート -日本のSAS プログラ マーのプレゼンス向上を目指して- 森岡裕
公演データから見る宝塚歌劇団演出家のライフサイクル 坂部裕美子
NICE TSD Evidence Synthesisシリーズの紹介:ネットワー クメタアナリシスを中心として 日本製薬工業協会
ADaMデータ作成のための効率化SASツール 藤原由
企業間でのADaMデータの多犠性に関する考察 白石友太朗
企業間で共通化できる解析帳票と使用するADaMデータ 日本製薬工業協会
欠測のあるデータを解析した際の電子データ提出方法の 日本製薬工業協会
SAS ユーザー総会2019における「Let's データ分析コンテ スト」の規定課題の模範解答SASプログラムを解説 周防節雄
就職氷河期世代ワーキングプアの特徴~全国消費実態 調査の疑似ミクロデータを用いた年長世代との比較~ 鳥居優子
老後の生活を楽しみ安定して送るためのデータ分析 滝上睦子
親と同居する未婚者世帯の消費傾向分析~新疑似ミクロ データを活用して~ 太田葉月
Communicating Risk and Uncertainty(リスクと不確実性の コミュニケーション論) "David Spiegelhalter(デビッド・
シュピーゲルハルター)"

profile-image

SAS言語を中心として,解析業務担当者・プログラマなのコミュニティを活性化したいです

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

論文集

2.

SAS 、 SAS を構成するプロダクト群は、 SAS lnsti 削除 Inc. の登録商標です。 その他、 本論文集に記載されている会社名、 製晶名は、 一般にそれぞれ各社の商標または登録商標です。 本論文集の 一部または全部を無断転載することは、 著作権法上の例外を除き、 禁止されています。 本論文集の内容を実際に運用した結果の影響については、 責任を負いかねます。

3.

目次 : 三 一 ぷ ι 引 ;::;: よLi生物統計・医薬関連三 ; : 二;;i:; :::::;| SAS による区間打ち切りデ ー タを伴う生存関数の推定 3 魚住龍史{京都大学大学院) 中川雄貴{中外製薬株式会社/東京理科大学)、 矢田真城(工イツ ー ヘルスケア株式会社) 中間事象が臨床試験の検出力に与える影響のシミュレ ー ションによる検討 18 三上毅{株式会社インテリム) カブトガニのサテライト数の観察デ ー タに関する探索的ポアソン回帰 19 高橋行雄(BioStat研究所株式会社) CAUSALM ED プロシジャによる媒介分析 29 ー 矢田真城(工イツ ヘルスケア株式会社) 魚住龍史{京都大学大学院) CAUSAL G RAPH プロシジャによる因果効果の識別 51 矢田真城(工イツ ー ヘルスケア株式会社) 魚住龍史(京都大学大学院} SGPLOTにおける軸及び凡例の体裁調整に関する Tips (臨床試験における事例を中心に) 一一 73 大山秀輔(小野菜晶工業株式会社) 土井裕貴(日本メディア株式会社} Beyond CDISC ~ FDA 申請時 BIMO査察にまつわるエトセトラ~ 74 片山雅仁{塩野義製薬株式会社) 小林千鶴、 吉田祐樹、 北西由武(塩野義製薬株式会社) CDISCSENDデ ー タのチェック項目 一覧とSAS を利用したチェックツ ー ルの紹介 ~ SENDデ ー タの適切かつ効率的な品質確保の提案~ 佐膝耕 一 {株式会社タクミインフォメ ー ションテクノロジ ー 75 ) 薬物動態解析の実務 ーいまさら聞けない臨床薬理の基磁のキソー 76 逆井佑来{工イツ ー ヘルスケア株式会社) 新城博子(工イツ ー ヘルスケア株式会社) 薬剤費構造を考慮したフォ ー ミユラリ ー の分析 武蕗猛(MarkeTech Consulting) 77 POWER プロシジャを用いた生存時間デー タのサンプルサイス宮計 ~ 数値計算アルゴリズムをひも解く~ 87 今泉敦(東京理科大学大学院) 魚住龍史(京都大学大学院) SAS によるベイズ流単群第 H 相試験における症例数設計 強方紅 υ パルティスファ マ株式会社) 98 ー Stepped Wedge Cluster Randomized Trial の検出力計算と サンプルサイス習計のSAS による実装 小山田隼佑(東北大学大学院) 山口拓洋(東北大学大学院) 99

4.

CDISC のスタイルシートを改変して視覚化ニーズを満たす 100 ~読みやすい定義書を目指して~ 隠根暁史(藤本製薬株式会社) 101 小規模地域における疾患割合の推定について 仕子優樹(千葉大学医学部附属病院) 大東智洋(筑波大学つくば臨床医学研究開発機構/筑波大学大学院)、 稲葉洋介、 小津義人、 川崎洋平(千葉大学医学部附属病院) 様々な付加情報を加えた Kaplan Meier Plot の作成事例 102 川原田貴広(FMD K&L Japan) Cure model における 2 種類の生存関数のシミュレーション比較 103 川原田貴広(FMD K&L Japan) | 日生物統計・医薬関連チュ ー トリアル _J ヘ SAS OnDemand for Academics 生物統計解析ハンズオンセミナー 107 江森健人(臨床評価研究会/EAファ ー マ株式会社) 小川直之(臨床評価研究会/株式会社三和化学研究所)、 渡辺裕治(臨床評価研究会/株式会社タクミインフォメ ー ションテクノロジー )、 浅野圭吾(臨床評価研究会/株式会社デー タフォ ー シ ー ズ)、 土屋裕章(臨床評価研究会/ヤン 、 センファ ー マ株式会社)、 鈴木博之(臨床評価研究会/株式会社工スア ー ルエル・メテ ィサー チ) 引 L 円 SA.sシステム ? FCMP の STATIC statement, HASH object, DICTIONARY object それぞれによる LAG 関数機能の定義 森岡裕(イ ー ? : 弓 ー| 111 ピ 工ス株式会社) ー SAS による WebAPI の利用方法と注意点: Google Distance Matrix API を例として - 119 筒井杏奈(大阪大学大学院) 大野ゅう子(大阪大学大学院) SAS から Python を操る 130 関根暁史(援本製薬株式会社) クオ ー ト処理及びスコープへの理解を深める 木本早紀(イ ー ピー エス株式会社) 141 ODS EXCEL 入門 松沢享(株式会社インタ ー サイ工ンティフイツクリサー チ) 151 PROC FCMP と DOSUBL 関数でユーザー定義関数を自由かつ平易に作成する方法 一一一 152 田中真史(イ ー ピエス株式会社) JSON という奇妙な拡張子と SAS 浅井友紀(工イツ ー 162 ヘルスケア株式会社) 、 FedSQL プロシジ ャの特性忍び SQL プロシジャの挙動との比較 山野辺浩己(イー ピー 工ス株式会社) 163

5.

SAS のログを効率的にチェックするマクロの紹介 174 斉藤敏貴(ソ ー パル株式会社) WINDOW ステ ー トメントを用いたユ ー ザ ー 入力画面を使って何かできないか考える 一一 175 伊住寿雄(ソ ー パル株式会社) ’ Waterfall plus Swimmer s plot 176 仲子晶也仏/\SD株式会社) 吉田秀幸、 村山 一穂(株式会社タクミインフォメ ー シヨンテクノロジー )、 高橋健一、 鈴木正人(MSD株式会社) SAS Graph (ODS Graphics)出力デ ー タの再利用に関する検討 177 小津義人(千葉大学医学部附属病院) 稲葉洋介、 仕子優樹、 川崎洋平(千葉大学医学部附属病院) SAS Programming Tips : #BYLINE の活用 178 松沢享(株式会社インタ ー サイエンティフイツクリサ ー チ) : 生物統計千医薬関連/ .SA.S システム ; つ ♂ | ICLIFETEST プロシジャを TEMPLATE プロシジャで機能拡彊! 区間打ち切りデー タ lctKM プロット化できるのか? 181 堀田真一 (ファイザー R&D合同会社) 182 解析帳票出力用デー タセットのコンペアに拡張属性を利用する方法 森岡裕{イ ー ピ ーエス株式会社) J 人工知能· Al 転移学習無双 ~ デ ー タ不足を SAS Viya で超える ~ 193 藤田智紀(趨野義製薬株式会社) 吉田祐樹、 平野勝也、 木口亮、 北西由武(塩野義製薬株式会社) I y j生物統計?医薬関連χλ工知能 ・ Al .; I ··· · 207 臨床試験における機械学習手法による欠測デ ー タ解析 竹村俊男{株式会社分析屋) 新谷彩夏、 久保公二、 古手渉、 上回篤志(株式会社分析屋) = S.A.S シス fj�/人工知能 ・ Al SAS Viya を利用したリアルワ ー ルドデー タマイニング2.0 .• . •... .•. I .• 211 昧津嘉和(塩野義製薬株式会社) 平野勝也、 北西由武(塩野義製薬株式会社) 機械学習を用いた統計解析ソフト聞での言語トランスレ ー タの開発に関する考察 一一一一一 224 横井章泰(ヤンセンファ ー マ株式会社)

6.
[beta]
i . ....

.'i

;iiJt· .))統計理論t. i

�;三

I. .:.

. .i

'I
227

高次元遺伝子解析の呪いからの解放
新村秀一 (成践大学)

|

:

統計理論戸生物統計・医薬関連

:|

‘

257

Proc PHREG による時間依存性共変量を含む Cox 比例ハザ ー ドモデ ルの解析
稲葉洋介(千葉大学医学部附属病院)
川崎洋平、 仕子優樹、 小津義人(千葉大学医学部附属病院)、 宮岡悦良(東京理科大学)

I

i

γ

統計理論/SASシステ ム/ 人工知能・AF \

ペニ

.>

、

SAS Viya における機械学習モデル評価入門 ~ ASSESS プロシジ ヤ ~

j
269

三宅正晃(株式会社タクミインフォメ ー ションテクノロジー)

|

ι;

心い寸 ) ♂三

川川 オー:プンデJプタ

ι

;

長;

};,j

ii!AI

SAS/JMP を用いた全国消費実態調査の髄似ミクロデータによる教育プログラムの開発 - 273
古賜弘樹(兵庫県立大学)
有馬昌宏、 川向摩(兵庫県立大学)、 周防節雄(公益財団法人統計情報研究開発センタ ー)、
高橋行雄(BioStat研究所株式会社)、 宮内亨(独立行政法人統計センタ ー)

|日

;

;

ん

く その他関連ガ野

ぞ

竺

弓1

SAS Global Forum 2019 レポー ト
一日本の SAS プログラマ ー のプレゼンス向上を目指して ー

. u.i1
279

森岡裕(イ ー ピー 工ス株式会社)
公演デ ータから見る宝塚歌劇団演出家のライフサイクル

280

坂部裕美子(公益財団法人統計情報研究開発センタ ー)

企画セッション
(NICE TSO Evidence Synthesis シリ ー ズの紹介:ネットワ ー クメタアナリシスを中心として〉一一 283
セッション1:「メタアナリシス及びネットワ ー クメタアナリシスに対する
一

般化線型モデルのフレ ー ムワ ー ク ~ NICE TSD2 の紹介 ~J

セッション2:「試験聞の異質性:サブグル ー プ解析, メタ回帰, 及び偏りの調整
~

セッション 3:

NICE TSD3 の紹介~j

r工ビ デンスネットワ クの不 致性
、

ー

一

~

NICE TSD4 の紹介~j

町田光陽(日本製薬工業協会/塩野義製薬株式会社)、 石渡量太(日本製薬工業協会/サノフィ株式会社)
渥美淳(日本製薬工業協会/東レ株式会社)、 奥山ことば(日本製薬工業協会/MSD株式会社)

7.

(CDISC) ADaM デ ー タ作成のための効率化 SAS ツ ール 藤原白(株式会社タクミインフォメ ションテクノロジ ー ー 331 ) 340 企業閣での ADaM デ ー タの多犠性に関する考察 白石友太朗(工イツ ー ヘルスケア株式会社) 企業闘で共通化できる解析帳票と使用する ADaM デ ー タ 348 坂上拓(日本製薬工業協会/中外製薬株式会社) 淡路直人(日本製薬工業協会/中外製薬株式会社)、 浅見由美子(日本製薬工業協会/第 一三共株式会社)、 月田あづさ、 小泉慶一 (日本製薬工業協会/サノフィ株式会社)、 三沢秀敏(日本製薬工業協会/ファイザー 株式会社) 355 欠測のあるデー タを解析した際の電子デ ー タ提出方法の検討 山崎広徳(日本製薬工業協会/大正製薬株式会社) 大内喜海(日本製薬工業協会/協和キリン株式会社)、 栗矢芳之(日本製薬工業協会/大鵬薬品工業株式会社)、 仲家諒(日本製薬工業協会/武田薬品工業株式会社)、村田優紀(日本製薬工業協会/富士フィルム富山化学株式会社) s • • •• ’ Let データ分析 < ... I ’ SAS ユ ー ザー 総会 2019 における f Let s デー タ分析コンテストjの 規定課題の模範解答 SAS プログラムを解説 379 周防節雄(兵庫県立大学) 宮内亨(独立行政法人統計センタ ー )、 高橋行雄(BioStat研究所株式会社) |カテゴリ ー B :SAS/JMP使用歴3年未満| 鳥居優子(コ二力ミノルタ株式会社) 就職氷河期世代ワ ー キングプアの特徴 ~全国消費実態調査の疑似ミクロデー タを用いた年長世代との比較~ 391 398 付録 滝上睦子(コニカミノルタ株式会社) 老後の生活を楽しみ安定して送るためのデー タ分析 403 410 付録 こ ー な ー :太田葉月、 中山貴公(株式会社浜銀総合研究所) 親と同居する未婚者世帯の消費傾向分析~新疑似ミクロデー タを活用して~ 415 422 付録 I ·. " i たけ:ゃれ 特別講演ヲ '< ....日 ?: 巧 マ?ト•· :c;· ] ヘ Communicating Risk and Uncertainty リスクと不確実性のコミュニケ ー ション論 David Spiegelhalter s 、 、 、 テ ビ ツド・シュピー ゲルハルタ ー (ケンブ リッジ 大学教授/前英国王立統計協会会長) 429

9.

SASによる区間打ち切りデ ー タを伴う生存関数の推定 0魚住龍史 l 中川雄貴 2, 3 矢田真城 4 l京都大学大学院医学研究科医学統計生物情報学 2中外製薬株式会社臨床開発情報部 3東京理科大学工学研究科経営工学専攻 4ェイツ ー ヘルスケア株式会社デ ー タサイエンス本部生物統計第1部 Estimating survival distribution with interval censored data using SAS R戸1ji Uozumi 1 , Yuki Nakagawa2 · 3 , and Shinjo Yada4 1Depar加ent of BiomedicalStαtistics αnd Bioinformαtics, Kyoto University Graduate School of Medicine 2Clinical Information & Intelligence Dept., Chugai Phαrmaceutical Co., Ltd 3Depαrtment of Management Science, GraduateSchool of Engineering, Tokyo University ofScience 4Biostαtistics Depαrtment I, DatαScience Division, A2 Heαlthcαre Co叩oration 要旨 区間打ち切りを伴う生存時間デ ー タは, 正確なイベント発生時点を特定できず, イベント発生区間に対して 解析が実施される. このようなデ ー タに対する解析手法として, SAS/STAT では, ICLIFETEST プロシジャ および ICPHREG プロシジャが利用可能で、 ある. 本稿では, ICLIFETEST プロシジャの機能に着目し, 区間 打ち切りデ ー タとして得られるイベント発生区聞から Turnbull 区間の構成方法を解説する. さらに, ノンパ ラメトリックな生存関数の推定がどのように行われているか報告する. キ ー ワ ー ド:生存時間解析 ICLIFETEST 1 右側打ち切り Turnbull 区間 LIFEREG 左側打ち切り 右側境界 区間打ち切り 左側境界 一 イベント発生区間 般化ログランク検定 NPMLE 白い巨塔 はじめに 小説『白い巨塔』は, 医学界の腐敗を鋭く追及した社会派小説として有名である(山崎,2002). 昭和の田 宮二郎主演および平成の唐沢寿明主演のテレビドラマは連続ドラマの歴史に名を残しており, いずれも高視 聴率を記録している そして令和元年5月, テレビ朝日系列のテレビドラマスペシャルとして『白い巨塔』 のリメイク版が放送された. テレビドラマにおいては, 時代に即して対象疾患が変わっており, 過去のドラ 、 マで、 は胃癌, 肺癌をそれぞ れ扱っていたが, 令和に放送された物語では目撃臓癌を取り扱ったストー リー とし て描写されている.『白い巨熔』の主人公である外科医の財前五郎は, 3 「 ネ申の手」と称賛されるほどの手術の

10.

腕前であったが, 皮肉にも自身が癌患者となり死亡してしまう. 昭和に放送されたテレビドラ マ では, 財前 五郎の肺癌は, 当初は CT 検査によりステー ジ!と診断されたが, 手術時にがんの増悪が判明し, 既に手遅 れの状態で、 あった. 『白い巨塔』の財前五郎の死亡のように, 医学分野では, 研究被験者のイベント発生までの時間に対して 統計解析がよく実施される. このような分析手法の総称は生存時間解析と呼ばれ, SAS/STAT では, LIFETEST プロシジャや PHREG プロシジャが該当する. 著者らは, SAS/STAT の新たな機能拡張のたび に, 生存時間解析に関連した SAS/STAT の活用報告を行ってきた(大橋ら, 2016 ;魚住ら, 2017,2018 ;魚住 ・ 浜田, 2018 ;浜田 ・ 魚住, 2016a,2016b ;矢田 ・ 魚住, 2017;今泉ら, 2018 ). 本稿執筆時の最新ノく ー ジョンは SAS/STAT 15.1 (SAS Institute Inc.,20I8 )であり, SAS ユ ー ザ ー 総会においても, SAS/STAT 15.1 (SAS 9.4 TSIM6)を活用した報告が行われている(矢田 ・ 魚住, 2019). 財前五郎の死亡で考えると, 死亡時点は明らかである 一方, がんの増悪が判明した時点は手術日といえる だろう. すなわち, がんの腫蕩の増悪した時点を明確に知ることはできず, ある時点からある時点までの時 間幅に増悪したという情報しか得られない. このようなデ ー タは区間打ち切りデ ー タ (interval censored data) と呼ばれる(Bog節目s et al.,2017). 多くの生存時間解析手法は, 右側打ち切りデ ー タを前提としているた め, LIFETEST プロシジャや PHREG プロシジャでは, 推定結果にバイアスが入ることが知られている. 財前五郎のがんの増懇が手術日に判明したように, 多くの場合, 区間打ち切りデ ー タに対して, 右側代入 法(right-point imputation)による生存時聞が採用されている. 例えば, 進行がんを対象とした臨床試験でよ く用いられる無憎悪生存期間(progression-free survival,PFS)に対しては, 真の増悪日の直後の診断日をイベ ント発生時点として, LIFETEST プロシジャや PHREG プロシジャを用いた生存時間解析が行われている. しかし, 観測された生存時間は真の生存時間に比べて正のバイアスが入っているため, 右側代入法で推定し た生存時間は過大評価されている. 区間打ち切りデ ー タに対する取り扱いとして, 他にも中点代入法(mid­ point imputation )が挙げられる. 中点代入法では, 真の増悪日の直後 ・ 直前の診断日の中点に相当する日付 をイベント発生時点と取り扱う. しかし, 右側代入法および中点代入法はいずれも妥当な推測にならないこ とが指摘されている(Law and Brookmeyer, I992; Panageas et al.,2007). すなわち, 右側代入法や中点、代入法 は簡便であるが, 妥当に評価するために, より複雑な解析手法の実用化が求められている. 近年, SAS/STAT 13.1 (SAS 9.4 T 引 Ml )から ICLIFETEST プロシジャ, SAS/STAT 13.2 (SAS 9.4 TSIM2)か ら ICPHREG プロシジャが追加され, 区間打ち切りデ ー タに対して, より複雑な解析が可能となった(大橋 ら, 2016 ;浜田 ・魚住, 2016a). ICLIFETEST プロシジャは, ノンパラメトリックな最尤推定量(nonparametric maximum likelihood estimator,NPMLE)を生存関数の推定量とし, ノンパラメトリックな群間比較も可能であ る . NPMLE は, EMICM (expected-maximization iterative convex minorant )アルゴリズムに基づき, 推定が行 われている. ICLIFETEST プロシジャが利用可能になる前は, マ クロ “ %EMICM” が公開されており(So et al., 2010), 第四相臨床試験の主要評価項目に対しでもしばしば応用されている( e.g., Dantal et al., 2018). SAS ユ ー ザ ー 総会においても, EMICM アルゴリズムの有用性が示されており(中川ら, 2014), ICLIFETEST プロシジヤの実行方法について言及されている(西中 ・ 伊藤, 2014). 本稿では, ICLIFETEST プロシジャの出力結果として, 入力デ ー タセットに含まれるイベント発生区聞か ら Turnbull 区聞をどのように構成するか解説し, ノンパラメトリックな生存関数がどのように推定されてい るか報告する. 本稿の構成は次の通りである . 2 節では, 打ち切りデ ー タが右側打ち切りのみの場合を考え, LIFETEST プロシジャによる実行結果との比較を行う . 3節では, 打ち切りデ ー タが左側打ち切りのみの場合を考え, 4

11.

LIFEREG プロシジャによる実行結果との比較を行い, Turnbull 区間の構成方法やノンパラメトリックな生存 関数の数理に関しても解説する. 4 節では, 打ち切りデ ー タが右側打ち切り ・ 左側打ち切りに加えて, 区間 打ち切りも含む場合を考え, 出力結果の解釈について解説する. 最後に, 5 節では, 本稿のまとめを示す. 2 ICLIFETESTプロシジャによる右側打ち切りデ ー タの解析 生存時間解析では, 右側打ち切りデ ー タを扱うことが多い. 右側打ち切りを含む生存時間デ ー タの場合, Kaplan-Meier 法による生存関数のノンパラメトリック推定とログランク検定によるノンパラメトリックな群 間比較は常套手段として適用される(魚住 ・ 森田, 2015 ;魚住, 2017 ). 多くの場合, LIFETEST プロシジャに よって, これらの解析結果を得ることになるが, ICLIFETEST プロシジャでも代替可能である. 表 I :サンプルデ ー タ l LIFETEST プロシジャ実行用 ICLIFETEST プロシジャ実行用 被験者番号 観察時間 群 イベント/打ち切り 被験者番号 観察期間幅 群 ID Time Group Censor ID [!Time, rTime] Group 4 4 。 2 5 5 3 9 。 4 6 5 10 6 11 4 2 5 3 9 4 6 2 5 10 2 6 11 2 6 2 2 11 2 LIFETEST プロシジャ実行プログラム I ICLIFETESTプロシジャ実行プログラム I data ICWorkl; data Workl; input Group Time Censor @@; I input Group lTir ca工ds; 14 4 19 . 141 190 151 2 10 0 2 6 1 2 11 1 時 rTime @@; cards; 15 5 2 10 . 2 6 6 2 11 11 run; proc iclifetest data = ICWorkl impute(seed = 1234); run; 七工me (lTime, rTime); strata Group; proc lifetest data =Workl; time Time*Censor(O); run; proc iclifetest data = ICWorkl impute(seed= l234); strata Group; time (lT工me, rTime); test Group; run; 。 run; 図 l :サンフ ルデ ー タ l の作成および生存関数の推定プログラム 表lは, 右側打ち切りデ ー タの解析を説明するための簡便なサンプルデ ー タであり, 各群3名の2群 (Group = I を試験群, Group = 2 を対照群とし, Censor = I をイベント, Censor = 0 を打ち切りとする)で構 成される. 表 l のように, LIFETEST プロシジャと ICLIFETEST プロシジャで, 右側打ち切りデ ー タの入力 5

12.

方法を変える必要が ある. ICLIFETESTプロシジャでは, イベント の発生した時間幅を変数 とする. 例え ば, がんの腫蕩の 増悪をイベントとする場合, 正確なイベント発生時点 は特定できないが, ある時間幅で増 悪したと いう情報は得られる ため, イベント発生前の最後に診断した時点を変数!Time, イベント発生後 の 最初に診断した時点を変数rTimeとして利用することができる. 表 l の場合, 右側打ち切りデ ー タ(ID=3, 5)に対して, LIFETESTプロシジャでは変数Censorで識別し ている 一 方, ICLIFETESTプロシジャでは変数rTimeを欠測としている. なお, イベント発生時点が明確な デ ー タ(ID= I, 2, 4, 6)に対して, ICLIFETESTプロシジャでは!Time= rTimeとして入力している. 図lは, サンプルデ ー タlに対して, 各プロシジャで実行するプログラムを示している. LIFETESTプロ シジャ同様, ICLIFETESTプロシジャでもSTRATA文で群を表す変数Groupを指定している. ただし, ノン パラメトリック検定 による 群間比較を行 う場合, STRATA文 の代わりに, TEST文で変数Groupを指定する 必要がある. 表2:打ち切りデ ー タの要約 打ち切りと非打ち切り値の数 層 Group 打ち切りの種類 合計 ID 2 左 非打ち切り 右 問隔 試験群 3 0 (0.0%) 0 (0.0%) I (33.3%) 2 (66.7%) 対照群 3 0 (0.0%) 0 (0.0%) I (33.3%) 2 (66.7%) 6 0 (0.0%) 0 (0.0%) 2 (33.3%) 4 (66.7%) Total 表3:試験群におけるノンパラメトリック生存関数の推定結果 LIFETEST Time 生存率 。 1.0000 4 5 9 死亡率 。 ICLIFETEST 生存率の 標準誤差 。 。 時間間隔 4 確率評価 死亡 。 死亡 1.0000 補完 標準誤差 。 0.6667 0.3333 0.2722 4 5 0.3333 0.6667 0.2722 0.3333 0.6667 0.2722 5 9 0.6667 0.3333 0.2722 NOTE: The estimation algorithm converged. 判ド ー *:打ち切りデ タ 表4:対照群におけるノンパラメトリック生存関数の推定結果 ICLIFETEST LIFETEST Time 生存率 死亡率 。 1.0000 。 6 0.6667 0.3333 10 * 。 11 *:打ち切りデ ー 生存率の 標準誤差 。 。 0.2722 待問間隔 確率評価 死亡 生存 6 。 1.0000 6 11 0.3333 0.6667 11 Inf 1.0000 。 補完 標準誤差 。 0.2722 。 NOTE: The estimation algorithm converged. 1.0000 タ 6

13.

図 l の実行結果として, ICLIFETEST プロシジャでは,表 2 のような打ち切りデ れる.表lのサンプルデ ー 各群ともに右側打ち切りデ ー タlでは,左側打ち切りデ ー タや区間打ち切りデ ー ー タの要約結果が出力さ タが含まれていないことと, タがl例ずつ含まれていることを確認できる. 表3および表4は,各群における生存関数および累積分布関数の推定結果を示している.さらに,図2 は,各プロシジャにより作成した生存関数のグラフである. LIFETEST プロシジャと ICLIFETEST プロシジ ヤの出力結果は 一 致していることがわかる.ただし,図2より,ICLIFETEST プロシジャでは,LIFETEST 、 “ ” プロシジャのような打ち切り記号 + が出力されない.また, ICLIFETEST プ口 ンジャによる補完標準誤 差( imputation standard e 汀or)は,多重代入(multiple imputation)法に基づき算出しているため,再現性のあ る補完標準誤差が得られるように, IMPUTE オプションで乱数のシー ドを指定している.このため, ICLIFETEST プロシジャによる補完標準誤差は, Greenwood の公式に基づく LIFETEST プロシジャの標準誤 差とは 一 般に 一 致しない. ICLIFETEST LIFETEST Estimated Survival Function Produc←Limit Survival Estim抗:es 1.0 一一一一〒 一 寸 En室四|| 1.0 0.8 I I I o.a . ee nu l 主 L 一一一一一一一 0.6 -� 0.4 aa守 nHW 崎製 枕 釧 1一 一 一一一 → 一|| 一一 寸 易 且2 0.2 0.0 0.0 0 2 4 6 8 10 0.0 Time I G岡崎血 一一一一蹴験群 一一一 ・対照群 l 2.5 I Grouo 5.0 7.5 一一一一鼠験群 一一一・対照群 l 図2:各プロシジャにより作成した生存関数のグラフ 表5:累積発生関数の四分位点の推定結果 ICLIFETEST LIFETEST 群 Group 75 5 25 4 75 11 50 11 25 6 | 試験群 7 点推定値 ro 50 パ ー セント点 ζJ 凋品守 対照群 Group εJ nu zJ ZJ nu εJ 勺F ζJ 吋,a 『f zJ 内4 試験群 ノ号一セント点 10.0 Time 12.5

14.

次に,表5は,各群におけるイベント発生時間の四分位点 の推定結果を示している.生存時間の四分位点 で考える場合, 「 1 ー パー セント」に相当する推定結果を確認すればよい.例えば, 75%生存時間を確認した い場合には,表5の2 5%点を参照すればよい.ここで,LIFETESTプロシジャと ICLIFETESTプロシジャの 出力結果を比較すると,対照群では 一 致していないことがわかる . LIFETESTプロシジャでは,対照群にお ける生存時間中央値が 11と推定されている 一方,ICLIFETESTプロシジャでは推定不能となっている. LIFETESTプロシジャでは,時点11で生存関数が0.67から0に下降していれば,その後の情報がなくて も,時点11が生存時間中央値となる. 一 方,ICLIFETESTプロシジャでは,時点11で生存関数が0.67から 0.50以下に下降しても,時点11以降の情報がないと,時点11を推定値として採用できない.このため, ICLIFETESTプロシジャでは,対照群における生存時間中央値が推定不能となっている. ・ ノンパラメトリック検定 LIFETESTプロシジャおよびICLIFETESTプロシジャによるノンパラメトリック検定を考える.簡便に, LIFETESTプロシジャによるノンパラメトリック検定として,重みlで実行するログランク検定で考える と,表Iのサンプルデ ー タlから得られるスコア統計量は U T = (0.85, ー0.85),ログランク検定統計量の分 散共分散行列は V = [ 0.6775 -0.6775 ー0.6775 0.6775 ] ー となるため,Vの 一 般化逆行列 V を用いて,ログランク検定統計量は UT V-u = 1.0664,ログランク検定 によるp値は0.30 2 となる.右側打ち切りデ ー タのみを含んだICLIFETESTプロシジャの出力において, TEST文で変数 Groupを指定すれば,Sun (1996) による 一 般化ログランク検定統計量の結果が 1.0664と出力 され,ログランク検定の結果と 一 致する. なお,ICLIFETESTプロシジャで重み付き 一 般化ログランク検定を実行したい場合には,大橋ら(2016) で解説されているような,LIFETESTプロシジャで指定可能な重みを,区間打ち切りデ ー タに拡張した方法 が指定可能である. 以上,右側打ち切りデ ー タを取り扱う場合,LIFETESTプロシジャと ICLIFETESTプロシジャの出力結果 の推定に関しては,一致しないことに留意しな は 一 致する(大橋ら,2016). しかし,表5に示した四分位点 ければならない.この点 からも,右側打ち切りデ ー タのみが含まれた生存時間デ ー タに対しては, LIFETESTプロシジャを用いた方がよいだろう.なお,ICLIFETESTプロシジャによって,ノンパラメトリ ック生存関数がどのように推定されるかについては,3節で説明することとする. 左側打ち切りデ ー タへの拡張 3 2節では,右側打ち切りデ ー タを扱う場合,LIFETESTプロシジャによる生存関数の推定を行えばよいこ とを述べた.左側打ち切りデ ー タの場合はどのように生存関数を推定すればよいだろうか.表6は,左側打 ち切りデ ー タの解析を説明するための簡便なサンプルデ ー タである (n = 6).左側打ち切りデ ー タの場合, イベント発生前に確認できた時点 の情報がないため,変数!Timeを0あるいは欠測として入力すればよい. 図3 は,サンプルデ ー タ2 に対して,各プロシジャで実行するプログラムを示している.左側打ち切りデ ー ‘ タに対して,LIFETESTプロシジャでは解析できないが,LIFEREGプロシジャによる加速モデ ルで対応可 8

15.

能で ある(大橋・浜田,1995). ただし, LIFEREGプロシジャの場合, 変数]Timeを欠測として入力する必要 がある. なお, SAS/QCの利用環境があれば, RELIABILITYプロシジャを活用しでもよいだろう. 図3の実行結果として, ICLIFETESTプロシジャでは, 表7のような打ち切りデ ー タの要約結果が出力さ れる. 右側l打ち切りデ ー タや区間打ち切りデ ー タが含まれていないことと, 左側打ち切りデ ー タが2例含ま れていることを確認できる. 表6:サンプルデ ー タ2 観察期間幅 被験者番号 [!Time, rTime] ID 。 3 2 4 4 3 6 6 4 。 5 data ICWork2; input lTime rTime @@; cards; 6 6 8 8 . 10 12 I ICLIFETESTプロシジャ実行プログラム LIFEREGプロシジャ実行プログラム data Work2; 4 4 1 0 12 6 . 3 8 8 input lTime rTime @@; cards; 12 0 3 12 4 4 6 6 8 8 0 10 12 12 run; run; proc iclifetest data = ICWork2 proc lifereg data=Work2; plots=(survival(strata= ove工lay nodash)) model (lTime, rTime) = ; impute(seed= 1234) showti; probplot / ppout itprintem printprobs; run; time (lTime, rTime); run; 図3:サンプルデ ー タ2の作成および生存関数の推定プログラム 表7:打ち切りデ ー タの要約 打ち切りと非打ち切り値の数 打ち切りの種類 合計 6 左 2 (33.3%) 間隔 0(0.0%) 非打ち切り 右 0(0.0%) 4 (66.7%) 表8は, 生存関数および累積分布関数の推定 結果を示している . LIFEREGプロシジャとICLIFETESTプ ロシジャの生存関数および累積分布関数は 一 致していることがわかる. ただし, ICLIFETESTプロシジャに よる補完標準誤差は, 多重代入法に基づき算出しているため, LIFEREGプロシジャによる標準誤差とは 一 般に 一 致しない. 9

16.

さらに, 図4 は, ICLIFETEST プロシジャにより作成した生存関数のグラフである. 図3 では, PROC ICLIFETEST 文の PLOTS オプションで NODASH を指定しているため, 図4の右側のように出力される. デ フォルト出力は図4の左側であり, 左側打ち切りデ ー タの影響で, 時間幅(0, 3)の生存関数が定義できない ため, 斜めの点線として出力されている. 生存関数を定義できない点から斜めの点線でも出力したくない場 合は, 図4の右側のように示せばよく, 時点0における生存割合lが点でプロットされた後, 時点3におけ る生存割合 0.7917までを 線でつなげずに出力されている. すなわち, ICLIFETEST プ口 、ンジャによるノンパ ラメトリック推定では, 生存関数の推定値がジャンプする. 表8:生存関数のノンパラメトリック推定結果 LIFEREG 生存時間 ICLIFETEST 累積確率 標準誤差 確率評価 時間間隔 補完 死亡 生存 3 4 0.2083 0.1844 3 4 0.2083 0.7917 0.1811 4 6 0.4167 0.2218 4 6 0.4167 0.5833 0.2179 6 8 0.6250 0.2135 6 8 0.6250 0.3750 0.2099 8 12 0.8333 0.1521 8 12 0.8333 0.1667 0.1521 12 Inf 1.0000 [下側,上側] 12 。 1.0000 Turnbull algorithm converged. 標準誤差 。 。 NOTE: The estimation algorithm converged. ICLIFETEST :- DASH ICLIFETEST - NODASH J, au -E 10-< ・ J ae nu 0.8 1 1 cil Estimated Survival Function 0.8 0.4 0.2 0.2 。。 0.0 0.0 2.5 5.0 7.5 Time 10.0 0.0 12.5 2.5 5.0 7.5 Time 10.0 12.5 図4 : ICLIFETEST プロシジャによる生存関数のグラフ ここで, 図4 において, 時間幅(0, 3)の生存関数はなぜ定義できないのだろう か. 図 3 のように, PROC ICLIFETEST 文で SHOWTI オプションを追加すれば, 表 9 のような Turnbull 区間(Turnbull intervals )が出力 10

17.

される(Turnbull,1976). Turnbull区間は, 被験者iのイベント発生区間[L i , U; ]から構成され, 複数のイベ ント発生区聞が重複する区間では, NPMLEが 一 定になる特徴を活用している. 例えば, 表7に示したように, イベント例である 4例(ID = 2,3,4,6)に関しては, イベント発生時点が 明確であるため, Turnbull区間としては(4, 4],(6, 6],(8, 8],(12, 12]となる. ただし,( )は開区間,[]は 閉区間を表す. しかし, 左側打ち切りデ ー タである 2例(ID = I,5)に関しては, [L i , U1 ] = [O, 3], [Ls, Us ] = [0, 10]となっている. このとき,[L i , U1 ]と[Ls, Us ]の重複区間は[O,3] であり, これがTurnbull区間とな る. したがって, 表9のように, Turnbull区間は(O, 3],(4, 4],(6, 6],(8, 8],(12, 12]となる. これらの Turnbull区間は重複することがないため, Turnbull区間は非重複区間(nonoverlapping intervals)とも呼ばれ る. 図5は, イベント発生区間[L i , U; ]から構成される Turnbull区間(pj, qj]を分かりやすく示している. 付録Aに図5を出力するためのプログラムの詳細を示している. 表9 : Turnbull区間の右側境界の推測値 Turnbull間隔 右側境界の確率 補完 死亡 生存 標準誤差 3 0.2083 0.7917 0.1811 4 4 0.4167 0.5833 0.2179 6 6 0.6250 0.3750 0.2099 8 8 0.8333 0.1667 0.1521 12 12 1.0000 (pj,qj] 。 。 。 * 唱骨 * 唱除 6 nme 10 12 図5:サンプルデ ー タ2の時間幅と Turnbull区間の構成 (女:イベント発生時点, 一:イベント発生時間幅 一 般に, 被験者i = 1,2,…,nのイベント発生区間[L;, U; ]から構成される(pj, qj]を j= 1,2,…,m番目 のTurnbull区間として, Piを左側境界(leftboundary), qiを右側境界(rightboundary)とすると, 尤度 L = 自(会サ 11

18.

を最大化させるように推定した 令 がjに対する累積分布関数のTurnbull推定量を表し, S(t)を時点tにお ける生存関数とすると,巧= s(pi 一 )- S(qj+)をみたす. ただし,αりは,(pj, qj]が[L;, U; ]内であれば l , それ以外であれば 0 をとる関数である. なお,令は LIFE阻G プロシジャの反復計算によって出力させ ることが可能で, PROBPLOT 文の ITPRINTEM オプションを追加すればよく, PR刑TPROBS オプションも 追加すれば反復計算の初期値を用いた際の確率も出力される. , に対して,s1 = 0.2083, s2 = 0.2083, s3 = 表9における各Turnbull区間の生存関数は, j=1,2,3,45 0.2083,む= 0.2083, s5 = 0.1667と推定されることを用いて, s(t) = L k:t<qk sk と推定できる. 4 区間打ち切りデ ー タへの拡張 図5では,6 f71J中4例はイベント発生時点が明確に女印で示され, 左側打ち切りデ ー タの2例から構成さ れるTurnbull区聞が網掛けで示された. 4節では, 明確なイベント発生時点が分からないが, イベント発生 区間の左側と右側がともに得られている区間打ち切りデ ー タへの拡張を行う. 表10:サンプルデ ー タ3 被験者番号 観察期間幅 ID [!Time, rTime] 10 2 。 3 6 5 3 4 5 2 5 6 4 7 data ICWork3; 工nput lTime rTime @@; cards; 10 . 0 5 6 . 1 3 2 5 4 7 run; proc iclifetest data= ICWork3 plots= (survival(strata = overlay nodash)) impute(seed= 1234) showti; time (lTime, rTime); run; 図6:サンプルデ ー タ3の作成および生存関数の推定プログラム 12

19.

表IOは, 区間打ち切りデ ー タの解析を説明するための簡便なサンプルデ ー タであるい= 6). ただし, 右 側打ち切りデ ー タおよび左側打ち切りデ ー タも含まれているデ ー タである(ID= l, 3 :右側打ち切り, ID = 2:左側打ち切り). 図 6 は, サンプルデータ 3 に対して, ICLJFETEST プロシジャで実行するプログラムを示している. 表 l 1 は, サンプルデ ー タ3における打ち切りデ ー タの要約を示し, イベント時点が明確になっているデ ー タはO 例であり, 6例中3例が区間打ち切りデー タであることを示している. 表ll:打ち切りデ ー タの要約 打ち切りと非打ち切り値の数 6 非打ち切り 打ち切りの種類 合計 左 間隔 右 1 (16.7%) 3 (50.0%) 2 (33.3%) 0 (0.0%) 表12:生存関数のノンパラメトリック推定結果 確率評価 時間間隔 補完 勺F 2 4 6 叩 戸、d ハリ 句、d 死亡 生存 標準誤差 0.0000 1.0000 0.0000 0.3333 0.6667 0.2271 0.6667 0.3333 0.1925 0.6667 0.3333 0.1924 NOTE: The estimation algorithm converged. ICLIFETEST- NODASH ICLIFETEST - DASH 1.0 i 主 一 0.8 .‘ Estimated Survival Function Estimated Survival Function 1.0 ‘ ‘ ‘ ‘‘ ‘‘ f 0.8 ‘’ e ‘ 1 ‘ ‘ ‘ 0.4 。 10 図 7 : ICLIFETEST プロシジャによる生存関数のグラフ 13 T’ 6 Time e m 4 0.4 一一 ‘ 6 。 0.6 10

20.

表12 は生存関数および累積分布関数の推定結果を示し, 図7はICLIFETEST プロシジャにより作成した 生存関数のグラフである. 図4のグラフと同様に, 生存関数を定義できないイベント発生区聞があるため, 左側には斜めの点線として 出力し, 右側には斜めの点線を出力せずに示している. ここで, 図7では, 生存割合50%に相当する生存時聞が4から5の間であるように見える. このとき, 生 存時間中央値はどのようになるだろうか. 表13は, イベント発生時間の四分位点の推定結果であり, 生存 時間中央値は5と得られている. すなわち, 時間幅(4,5)は生存関数が定義されていないため, 生存者l合 0.5の直後の時点で生存割合が0.333と 定義された, 左側境界である時点5が生存時間中央値となる. 表13:累積発生関数の四分位点の推定結果 パーセント点 点推定値 75 50 5 25 3 表14 : Turnbull区間の右側境界の推測値 右側境界の確率 Turnbull間隔 (pj, qj] 。 補完 死亡 生存 標準誤差 2 3 0.3333 0.6667 0.2 2 71 4 5 0.6667 0.3333 0.1925 6 7 0.6667 0.3333 0.192 4 10 In丘y 1.0000 8 10 2 。 。 11 Time 図8:サンプルデ ー タ3の時間幅とTurnbull区間の構成(:イベント発生時間幅 ) 図6では, PROCICLIFETEST文でSHOWTIオプションを追加しているので, 表14のようなTurnbull区 聞が出力される. 図8は, イベント発生区間[L;, U;]から構成されるTurnbull区間(pj, qj]を特定するため 14

21.

に, L ; の大きさに並び替えて図示している 付録Bに図8を出力するためのプログラムの詳細を示してい る. 図8は, 打ち切りデー タが左側打ち切りのみで‘あった図5よりも複雑になっているが, 同様の考え方で Turnbull区間を考えることが可能である. 各イベント発生区間[L;,U ; ]の右側境界U ; を用いて考えるのが ポイントである. [L 4 ,U 4 ] = [l,3]では, 右側境界U 4 = 3 であり,[L 2 ,U 2 ] = [O, SJと重複しているため, Turnbull区間は(P1 ,q 1 ] = (1,3]となりそうである. しかし,[Ls,Us] = [2, 5]とも重複しているため, Turnbull区間は(P1 ,q 1 ] = (2,3]となる. 次に,[Ls,Us] = [2, 5]の右側境界Us = 5 を考えると,(pi,q 1 ] = (2,3]と重複しない区間で, Turnbull区間は(P2 ,q 2 ] = (3, 5]となりそうである. しかし,[L 6 ,U 6 ] = [4, 7] とも重複しているため, Turnbull区間は(P2 ,q 2 ] = (4, SJとなる. 同様の考え方で, 残りの Turnbull区間は (p3,q3] = (6, 7]. (p 4 ,q 4 ] = (1 0, oo ]となる. 4 まとめ 多くの場合, 生存時間解析では, 右側打ち切りデー タのみを取り扱っている. しかし, 近年は生物統計学 の領域で, 区間打ち切りデー タを伴う生存時間解析手法が多く開発されており, 今後は医学研究への応用も 増加することが考えられる. そこで, 本稿では, 区間打ち切りデー タを伴う生存時間解析として, 簡便なサ ンプルデータを用いて, ICLIFETESTプロシジャによるノンパラメトリックな生存関数の推定がどのように 行われているかひも解いた. さらに, 図を活用して, 区間打ち切りデー タとして入力されたイベント発生区 聞から, Turnbull区聞がどのように構成されるかひも角科、た. NPMLEは, LIFEREGプロシジャで出力可能 な累積分布関数のTurnbull推定量から得られる. また, 簡便な右側打ち切りデー タであれば, ICLIFETEST プロシジャによる多くの結果は, LIFETESTプロシジャによる出力結果と 一 致する. 近年, 医学雑誌においても, SASやRで実行可能な区間打ち切りデー タに対する解析手法が解説されて いるのugue et al., 2016). したがって, 今後, 区間打ち切りデー タを考慮した生存時間解析として, 右側代 入法や中点代入法に加えて, ICLIFETESTプロシジャで得られる解析手法も選択肢になるだろう. 生存時間 解析に従事する国内外の多くの実務家にとって, 本稿の報告内容がお役に立てれば幸いである. なお, 本稿で取りあげたすべての出力結果は, 本稿に示した SASプログラムで再現可能である. Turnbull 区間の構成方法を解説するために示した図5および図8に関しでも, SGPLOTプロシジャによる作成プログ ラムを付録Aおよび付録Bとして示している . SGPLOTプロシジャに関しては, 魚住・浜田(2011, 2012), 大橋ら(2016) を参照されたい. 参考文献 [l] Bogaerts K, Komarek A, Lesaffre E. Survival Analysis with Interval-Censored Data: A Practical Approach with Examples in R, SAS, and BUGS. Chapman & Hall/CRC: Boca Raton, FL, 2017. [2] Dantal J, Morelon E, Rostaing L, Goffin E, BrocardA, Tromme I, Broede凶、I, Del Marmol V, Chatelet V, Dompmartin A, Kessler M, Serra A, Hofbauer GFL, Kamar N, Pouteil-Noble C, Kanitakis J, Roux A, Decullier E, Euvrard S; TUMORAPA Study Group. Sirolimus for Secondary Prevention of Skin Cancer in Kidney Transplant Recipients:5・ Year Results. Journal of Clinical Oncology. 36: 2612-2620, 2018. [3 ] Dugue AE, Pulido M, Chabaud S, Belin L, Gal J. How to deal with interval-censored data practically while assessing the progression- 仕ee survival: a step-by-step guide using SAS and R software. Clinical Cancer Research. 22:56295635, 2016. 15

22.

[4] Law CG, Brockmeyer R. E能cts of mid-point imputation on the analysis of doubly censored data. Statistics in Medicine.15:1569 1578, 1992. [5] Panageas KS, Ben-Porat L, Dickler MN, Chapman PB, Schrag D. When you look matters: the effect of assessment schedule on progression-ii民e survival. Journal of the National Cancer Institute. 99:428-432, 2007. [6] SASInstituteInc. SASISTAT(R) I 5. I User 注 Guide. SASInstituteInc., Cary,NC, 2018. [7] So Y, Johnston G, Kim SH. A nalyzing Interval・CensoredSurvival Data with SAS( R) So食ware. Proceedings of the SAS Global Forum. SAS Institute Inc., Cary, NC, 2010. A vailable at httos://suooort.sas.com/resources/oaoers/oroceedine:s I 0/257-2010.odf. [8] Sun J. A non-parame甘ic test for interval-censored failure time data with application to AIDS studies. Statistics 的 Medicine. 15:1387 1395, 1996. [9] Turnbull BW. The empirical distribution function with arbitrarily grouped, censored and truncated data. Journal ofthe American Statistical Association. 38: [ l OJ 今泉敦.魚住龍史.浜回知久馬. 競合リスクが存在する下での生存時間分布の検定法の性能評価.SAS ユ ー ザ ー 総会論文集 2018, 91-104. [11]今泉敦・魚住龍史. 競合リスクが存在する下での生存時間分布の検定法の性能評価. SAS ユ ー ザ ー 総会 論文集 2019. [12]魚住龍史・浜田知久馬. SG (Statistical Graphics) Proced町es による Kaplan-M eier プロットの作成 .SAS ユ ー ザ ー 総会論文集 2011, 185-199. [13] 魚 住 龍 史 ・ 浜 田 知 久 馬 . がん臨床試験 に お け る腫湯縮小効 果 の 検討に有用なグラフの 作 成 -SGPLOT プロシジャの最新機能を活用 .SAS ユ ー ザ ー 総会論文集 2012, 151 165. [14]魚住龍史・森悶智視. 生存時間解析における三種の神器. 呼吸, 34: 1083-1089, 2015. [15]魚住龍史. 有名論文から統計の基礎を学ぶ: COU RA GE. 試験における生存時間解析の側面. Coronaヴ Intervention, 13: 38-43, 2017. [16]魚住龍史・矢田真城・浜田知久馬.PHREG プロシジャにおける共変量調整解析に関連したオプション機 能.SAS ユ ー ザ ー 総会論文集 2017, 237-248. [17]魚住龍史・浜田知久馬. SAS による競合リスクを伴う生存時間解析の理解 . SAS ユ ー ザ ー 総会論文集 2018, 75 90. [18]魚住龍史・矢田真城・篠崎智大・ ) , ,口淳・浜田知久馬.SAS による時間依存性 ROC 曲線と C 統計量 .SAS ユ ー ザ ー 総会論文集 2018, 6-24. [19]大橋靖雄・浜田知久馬. 生存時間解析-SAS による生物統計. 東京大学出版会, 1995. [20]大橋靖雄・浜田知久馬・魚住龍史. 生存時間解析応用編-SAS による生物統計. 東京大学出版会, 2016. [21]中川雄貴・若林将史・浜田知久馬.SAS を用いた E MICM アルゴリズムによる MST 推定の性能評価.SAS ユ ー ザ ー 総会論文集 2014, 781-830. [22]西中尚樹・伊藤陽 一 . ICLIFE TEST プロシジャを用いた区間打切りデ ー タの解析と既存プロシジャによる 結果との比較 .SAS ユ ー ザ ー 総会論文集 2014, 781-830. [23]浜田知久馬・魚住龍史 .SAS による生存時間解析の拡張機能. SAS Learning Session 2016a. 配付資料. [24]浜田知久馬・魚住龍史.SAS による生存時間分布の予測「 DeathNote の統計学」 .SAS ユ ー ザ ー 総会 論文 集 2016b, 297. 、 [25]矢田真城・魚住龍史・浜閏知久馬. 区分指数モデル及びフレイルティモデ ルに対するベイズ流生存時間 解析.SAS ユ ー ザ ー 総会論文集 2017, 249-260. [26]矢田真城・魚住龍史. CA USA LGRAPH プロシジャによる因果効果の識別 .SAS ユ ー ザ ー 総会論文集 2019. [27]山崎豊子. 白い巨塔. 新潮社, 2002. 連絡先 E-mail : uozumi(a)kuhv.kvoto-u.ac.iv 16

23.

。 付録A:サンフ ルデータ2から図5の作成プログラム *--ーーーーー自由ーー一一ーーーーーー一一一一ー一ー一一 , 女 区間打ち切りデータの校側j境界・右側境界の)I僚に並び称え; proc sort data= ICWork2 out= ICWork2F5; by lTime rTime; run; 安 m ー一一ー一一“ーーー一一一ーーーーー一一ーーー一一ーー , 女 イベントヲ量生時点がl狗総な被験者に女印を付加; data ICWork2FS;set ICWork2F5; id= n ; if rTime= lTime then do; highcap= ” Star ” ; Time= lTime; end; ymax= 6; run; *一ーー--一一ーー---一一一---ーー一一一一目白ーーーーーーーーーーー一一一ーーーーー一一一ーーーー一一一一 ・ , w区間打ち切りデ ー タの時間中高からTurnbull I玄関の構成; ods html imag巴 dpi = 400 style= journal; ods graphics/ reset noborder noscale width = 600px height= 400px; proc sgp1ot data= ICWork2F5 noautolegend; highlow y= id low= lTime high= rTime / highcap=highcap; scatter x= Time y = id / markerattrs= (symbol= starfilled); band y = ymax lower= O upper= 3 / transparency =0.8 fillatt工s= (color = black); xaxis values= (O to 12 by 2) grid label= ” Time ” ; yaxis display= (novalues nolabel noticks); run; ods graphics off; ods html close; 付録B:サンプノレデ ー タ3から図8の作成プログラム *-一一一一一一ー一一一一一一一一一一一一一ー一一一一一一 , * 区間打ち切りデ ー タの在側境界・::{:;側境界のII隈に並び鯵え; proc sort data= 工CWork3 out= ICWork3F8; *一一一一一一 一一一ーー 一一ーーーー一 一--ーー by lTime rTime; run; 一一一ーー一一 一ーーーーーー ーーーーー一一 - 脅;{:jf員lj打ち切りの被験者の右側境界に布矢印を付加; data 工CWork3F8;set ICWork3F8; id= n ; if rTime= . then do; rTエme=ll; highcap= ” Arrow ” J end; ymax= 6; run; *一一一ー一一一一一一一一一一一一一一一一一一一一一一一一一一一一ーーーー一一一一---ーーー一一一一一一ーー一一 * 区間打ち切りデ ー タの時間幅からTu工nbul1[1rnnの構成; ods html image dpi= 400 style= journal; ods graphics/ reset noborder noscale width = 600px height= 400px; proc sgp1ot data = ICWork3F8 noautolegend; highlow y =id low= lTime high=rTime/ h工ghcap= highcap; band y = ymax lower =2 upper = 3 / transpa 主 ency =0.8 fillattrs= (color = black); band y =ymax lower= 4 upper= 5 / transparency =0.8 fillattrs= (colo工=black); band y =ymax lower= 6 upper= ?/ transparency=0.8 fillattrs= (color = black); band y =ymax lower =lO upper= ll/ transparency =0.8 fillattrs= (color = black); xaxis values= (O to 11 by 1) grid label= ” Time"; yaxis display = (novalues nolabel noticks); run; ods graphェcs off; ods html close; 17

24.

中間事象が臨床試験の検出力に与える影響のシミュレ ー ションによる検討 Simulation study on the influence of Intercurrent event on the power of clinical trial 0三上 毅l ( 1 株式会社インテリム) ・背景 Nati ona I Research Counc i I (NRG)が 2010 年に公表されて以降「推定したい治療効果」を、 estimand という概念を用いてより詳細に記述できるようになった。その 一 方で医薬品の開発をするにあたり、ス ポンサ ー が設定した estimand と規制当局側が設定した estimand が異なり、追加解析を実施する事例が あった。また、規制当局側はレスキュー 治療開始などの中間事象が生じなかった仮想的な状況ではなく 中間事象の発現まで考慮した実臨床での効果を反映した解析結果を求めるようになった。その為、中間 事象の発現状況に応じてどの程度臨床試験の検出力に影響が表れるかについてシミ ュレー ションを行 い検討した。 ・検討方法 2型糖原病の実薬対照第E相比較試験を想定し、 効果不十分/有害事象発現の場合に中間事象(レス キュ ー薬治療への移行)が発生するデ ー タをシミュレーションにより作成した。中間事象の発生割合は O目、 10施、 2側、 30旬、 40旬、 50切で設定を行った。 欠測値の割合は 15犯とし MCAR、 MAR、 MNAR の仮定に基 づきデー タを生成した。 ・結果と考察 中間事象(レスキュー薬治療への移行) の発生割合が 0%, 10弘 20旬、 30句、 40弘、 50犯と増えるにつれ て臨床試験の検出力が下がる傾向があった。 通常第E相臨床試験の例数設計を実施する場合は前相(第E相試験など)の情報を基に薬剤の効果を 想定するが、 ほとんどが、 中間事象が発生しない状況での解析結果である。 第E相臨床試験では第I E相試験に比べ症例数が多く、観察期間も長期になる傾向がある。その為、中間事象の影響を考慮した 解析を行う場合、想定される中間事象、中間事象の発生を少なくする運営方法等について臨床のメンバ ー を含めた検討をする必要があると考える。 より詳細な結果および考察の詳細については当日発表する。なお、 中間事象の取り扱いに関して は、I CH E9 (Rl)が本発表時点で検討中であり、 今後方針が変更になる可能があることをご留意頂き たい。 ・参考文献 松岡伸篤(2018),Estimandが医薬品開発に与えるインパクト 土居正明(2018),連続量経時デ ー タに対するEstimand を考慮した臨床試験のデザインとシミュレ ー ユ/ヨレ/ 横山雄 一 (2016),シミュレ ー ションデー タ発生方法 土居正明(2014),欠測のあるデー タに対する総合的な感度分析と主解析の選択 Juan P Frias, (2016), Exenatide once weekly plus dapagliflozin once daily versus exenatide or dapagliflozin alone in patients with type 2 diabetes inadequately controlled with metformin monotherapy (DURATION-8): a 28 week, multicentre, double-blind, phase 3, randomised controlled trial FDA,PMDA審査報告書, Dapagliflozin 18

25.

カブトガニのサテライト数の観察デー タに関する探索的ポアソン回帰 高橋行雄 BioStat研究所(株) Exploratory Poisson regression on observation data of the number of satellites in horseshoe crabs Yukio Takahashi BioStat Research Co.,Ltd. 要旨: 観察デ ー タとして得られたカウント ・ デ ー タに対し,ポアソン回帰による探索的な解析を試みようと したときに(恒等リンクor対数リンク ),(オフセットの有りor無し ),(過分散の調整orガンマ ・ ポアソン 分布orゼロ過剰ポアソン分布 )などの選択が迫られる.閉じ回帰分析なのに,なれ親しんできた正規分 布を仮定した回帰分析とは,全く異次元の世界のごとくである.そこで,成書で取り上げられている 「 カブト 、 ガ ニのサテライト数の観察デ ー タ(付録A) Jに対する探索的な解析方法を示すことにより,ポアソン回帰に ついて理解の向上を図りたい.このデ ー タは,173 匹のカブトガニについて説明変数として順序尺度デ ー タ(甲羅の色,後体部の椋の状態)の 2変数,連続尺度(甲羅の幅,体重)の 2変数,応答変数としてサテ ライト数が含まれている.全体としてはゼ‘ロ過剰ガンマ ・ ポアソン分布のあてはめがよいが,探索的な解析 での分布としては疑問が残る.また,2 つの順序尺度聞の交互作用解析は,セル度数の分布が均 一 で、 は ないとしづ問題がある.さらに,2つの連続変数に高い相闘があり,選択の問題もある.これらの探索的な解 析に伴う種々の問題に対し,JMPIこは 「 一般化線形モデルJにプロファイル機能が備わり,交E作用の検 、、 討などに威力を発揮する.また, 「 グラフ ・ ヒ ルダ ー 」に散布図行列中に回帰直線と95%信頼区間を上書き できる機能があり,これまで、 十分とは思えなかったサテライト数におよぼす探索的解析を行なったので、結果 を示す. キ ー ワ ー ド: ポア ソ ン回帰, 最尤法, 過分散, 一般化線形モデル, JMP, 1. はじめに 。 SAS/GENMOD 、 SASの GENMODフ ロ 、ンジャにより 一般化線形モデ ルが使えるようになった時に,最初に注目したのは, 従来からあるLOGISTICプロシジャとの使い分けで、 あった.その詳細は,高橋(2002)に示したが,ポアソン 回帰については,全く扱っていなかった.その後,高橋(2004)で,細胞毒性デ ー タについて,GENMOD プ口 、ン、ジャを用いたポアソン回帰による勾配比検定についての検討結果を示した. 久保(2012)は, 「 何でもかんでも正規分布と考えるのはおかしいだろう」としづコンセプトで正規分布では 、 なくポアソン分布を全面的に取り上げて論じている.さらに,植物の種子数を主体した「 一 般化線形モデ ル (GLM) ポアソン回帰 」を展開し,これまでの正規分布を前提とした統計解析とは異なる切り口を提示し た.これに刺激を受け,高橋(2004)をベ ー スにし, 「 最尤法によるポアソン回帰入門Jと題して大幅な改訂 作業を行っている. 、 守 その 一 環として,アク レスティ著,渡遁 ・ 菅波・吉田ら訳(2003)に示されている雌のカブ トガニに連結する 雄のサテライト数(Satellite数 )の例を取り上げる.このデ ー タには,付表Aに示すように,173匹のカブトガ 19

26.
[beta]
ニについて,説明変数として順序尺度デ ー タ(甲羅の色,後体部の赫の状態)の2変数,連続尺度(甲羅
の幅,体重)の2変数,応答変数としてサテライト数が含まれている.文献では,甲羅の幅をX軸,サテライ
ト数をY軸とした散布図と共に,対数リンクによるポアソン回帰の結果が示されている.しかし,その 後の解
、

析では甲羅の幅を8区分とし区分内のカブ トガニの数とサテライト数の合計を算出し,カブトガニの数をオ
フセットとした解析を主体にしている.探索的な解析では,サテライト数が(0, 1以上)の2値デ ー タとして,
ロジスティック化回帰を主体にした解析方法が提示されている.
2.ポアソン分布のあてはめ
表lに示すように,JMPの「一変量の分布」によりサテライト数の平均は 2.9191,分散は 9.9120 であり,
その比は3.40と過分散になっている.ポアソン分布をあてはめ,棒グラフ上に上書きした結果を見ても,誤
差分布にポアソン分布を仮定することは絶望的とも思われる.もちろん,適合度の検定でもど= 584.0436,
p く 0.0001 でポアソン分布があてはまるとは言えない.このような全デ ー タで過分散となる場合では,何ら
かの条件によりサテライト数の平均が大きく異なる部分集団の集まりが複数存在する可能性も考えられる.
表I

サテ ラ イ ト 数へのポア ソ ン分布の あてはめ

・ 一変量の分布
.cl '"') ザテライト数

EごE二ト一一一一一ーイ

・・

.cl"';要総統計量

喧Z

! 60
so

羽
ト:

:: 車

0

2

4

6

.c1 , ...

2.9191
平均
3.1483
標拳偏差
0.2394
平均の標準誤差
3.3915
平均の上側95%
2.4466
平均の下iIJ宮5%
N
173.0000
9.9120
分散
1704.8671
修正平方和

.cl

,Pois田n分布のあてはめ

}�ラメータ推定値
種綴パラメータ
尺度λ
指鎮
(-2)本対数尤度
AICc
BIC

雛定健
2.9191

988.0893
990.1127
993.2426

4遊合度検定
Pearsonの力イ2乗
Prob>X2
X2
<.00円1 ・
584.0436

8 10 12 14 16

3.過分散を調整したポアソン回帰
甲羅の幅を説明変数とし,サテライト数を応答変数とした場合に,次式の対数リンク(両辺に対数を取っ
た時に線形となる)によるポアソン回帰
Satellite; = exp(β。 + β0 ・ width ;)+&; ’向 ~ Poisson

の結果を表 2 に示す. Pearson の適合度のカイ 2 乗値は 544.1570 と自由度の 171 に対して 3.1822 倍と過
表2 甲羅の幅についての対数リンク の過分散調整なしのポアソン回帰
適合度続tt量
t,イ2暴自由度p錨( Prob>ChiSq)
Pearson

544.1570

171

<.0001 *

デピアシス

567.8786

171

<.0001 ヰ

二二二コ
�二二::
型き三位向一
p個
事雲港誤差3危度民カイ2乗
纏怠健
戸

讃 ご?

切片

甲羅の幅

~

-3.3048

0.5422

36.8670

<.0001 *

0.1640

0.0200

64.9131

<.0001 ド

2
20

27.

分散となってしも.図lに示す よ う に, ポア ソ ン回帰から得られた尤度比カ イ 2乗値を自由度で除し た た 過分散ノfラメ ー タ をψ= 3.1822と し, 得られた共分散行列にψ倍し て標準誤差を調整す る方法 が知られていて,JMPのポア ソ ン回帰で もサポー トされて い る . [通極地二ヨ 円一…一一一…一一一一「 手法: 分布: リンク関数 図過分散に基づく検定と信頼区間 口 Fi巾バイアス調整推定値 図l 過分散の調整法オプション 過分散を調整したポアソン回帰の結果を ’ 表3に示す.表2に示した甲羅の幅の標準誤差は, SE= 0.0200であった ので,調整後の SE は, 2 SE'=Jおら お.1822X 0.0200 = 0.0356 と大きくなり,尤度比カイ2乗値は,64.9131から 20.3988と激減する. 過分散の係数を用いた方法は,過分散となるカウント・デ ー タに対する万能の方法とも思われるカもしれ ないが,表 l に示したヒストグラムに 重ね書きしたポアソン分布から,このデ ー タにポアソン分布を仮定する ことは全くできない.もちろん甲羅の幅に対するポアソン回帰で過分散が解消するのであれば嬉しいので あるが,実際にどのような分布になるのか示すことができない.単に SE を割り増ししているだけである. 環 切片 甲羅の幅 表3 過分散調整済みのポア ソ ン回帰 推定値 槙準誤差尤度誌カイ2乗 p鑑 ・3.3048 11.5854 0.0007* 0.9673 本 0.1640 0.0356 20.3988 く .0001 4. ポアソン回帰の個別デ ー タの9同信頼区間 ポアソン回帰を行っても過分散が解消していないことを視覚化するために散布図 に個別デ ー タの95%信 頼区間(予測区間)を重ね書きしてみると,図2左に示すように上側に多数の点がはみ出ているのでポアソ ン回帰(指数曲線)のあてはめには無理があることを実感できる.図 2右に示すように予測値に対する Pearson残差をプロットすることにより,Pearson残差が 3以上の飛び離れデ ー タが多数存在することからも, ポアソン分布を誤差分布とする回帰分析について否定的な結果となっている. 〉 20 22 24 26 28 width 30 32 34 0 1 2 3 4 5 6 7 8 9 Y予測値 図2 ポア ソ ン回帰に対す る 95%信頼区間および予測値に対するPearson残差 3 21

28.

他の変数 を加え てポアソン回帰を行って も過分散が解消されないので、 あれば,ポアソン回帰を行う前提 、 がないことに なる. 主な原因は,173個体に対してサテライト数ゼ ロが62匹と全体の35.8%なので,サテラ イト数を(0, I)反応とする解析が望ましいとも考えられる.また ,サテライト数が3 と4 あたりに分布の山があ ること から, あるいは,3区分程度の順序デ ー タとする解析を行うことが望ましし、かも知れない. 5. ガンマ ・ ポアソン分布のあてはめ JMPには,過分散を考慮した負の二項分布から導出されたガンマ ・ポアソン分布を あてはめ る機能があ るので,表4に結果 を示す.結果は,位置λ=2 .9191,過分散σ=4.8522 と なる.表lに示したポアソン分 布のあてはめでは,サテライト数がゼロの場合について大きな事離があった が,過分散を考慮、したガンマ ・ ポアソン分布では,まずまず のあてはめが行われて いるように思われる. 表4 サテ ラ イ ト 数へのガンマ ・ ポア ソ ン分布の あてはめ iヲテライト数 ::::=·三三1 同ふT員n雨戸: i パラメータ推定鏑 ,2 種頬パラメータ 童話 倒 30 (-2)*対数尤度 AICc BIC 20 2 4 6 2.4136 3.6559 767.4092 771.4798 777.7158 重量辰二一一一一 … 2 Pearson 10 0 議定温下倒95%CL 土倒95%CL 2.9191 4.8522 位置 λ 過分徴。 指偲 の力イ 乗 8 10 12 14 16 X2 Prob>X2 120.3656 0.9990 注: Ho = 刀ンマPoisson分布からのデー タ' 一一刀ンマPoisson(2.91908,4.85225) l;l:Ho を棄却. 3.5571 6.6859 一 p値が小さい場合 6. 層別解析 付録Aに示したデ ー タには,説明変数 として順序尺度(甲羅の色,後体 部の臓の状態)の2 変数がある のでJMPの「二変量の関係」で作成したサテライト数に対する層別分布を図3に示す. ヨ師同予坦�恒一元面面貌. 二二二二コ南向型切目 。 。 14 ·+ 的空時坦コ 0 ω ゼ =ω一戸市 凶 盟 司2・ ..:訟 f咽 守 rl tP> 『 i ν 包 P吋 戸、 智 .., 後体部の練 甲羅の色 図3 甲羅の色および後体部の臓の状態とサテラ イ ト 数 の関連 4 22

29.

雌の甲羅の色については,暗くなるに従いゼロ ・ カウントが増えサテライト数の平均値が減少傾向である ことが読み取れる.雌の後体部の椋の状態については,正常の場合には,サテライト数の5匹に山があり, 雄が連結する割合が多いようであるが,サテライト数の平均値は同程度である. 表5に甲羅の色と後体部の臓の状態を組み合わせた場合のサテライト数N,サテライト数の平均と分散 を示す. 甲羅の色が暗くなるにつれて後体部の練は,正常から破損へ移行するが,ある程度のサテライト 数がある場合の分散/平均の比は,2以上あり過分散が解消する様子はない. 表 5 甲羅の色別後体部の椋別のサテ ラ イ ト 数の分散/平均の比 N 分散分散/平均 平均 線の状態 甲羅の色 4.44 10.53 2.37 9 1 :やや明るい l :正常 4.50 1.00 4.50 2 2 : 一 方破損 0.00 3 :両方破損 守 3.29 12.13 24 2 :中く らい l :正常 3.68 2 : 一 方破損 1.75 6.21 3.55 8 3.49 10.03 63 3 :両方破損 2.87 5.33 10.33 3 1.94 l :正常 3 :やや暗い 1.75 4 2.43 4.25 2 : 一 方破損 6.25 37 2.03 3.08 3 :両方破損 4 :日音し、 l :正常 0.00 2 : 一 方破損 0.00 2.25 20 3 :両方破損 13.99 6.22 2.92 173 9.91 3.40 全体 7. 甲羅の幅か体重か 過分散を承知で,対数リンクによる2変数のポアソン回帰を行い,幅か体重か,どちらがサテライト数との 関連が高し、か検討する.表 6 に示すように,甲羅の幅の推定値は,0.0461 ,体重の推定値は,0.4470 であ り,尤度比検定の結果は,体重のみが有意な差で、あった. 現 表 6 対数リ ン ク に よ るポア ソ ン 2 変量回帰 標準誤差尤度訪カイ2乗 推定値 p値 切片 -1.2952 0.8989 2.0691 0.1503 甲羅の幅 体重 0.0461 0.0467 0.9658 0.3257 0.4470 0.1586 7.9780 0.0047 図4は,JMPによる対数リンクでの2変量ポアソン回帰に引き続き「予測プロファイノレjの機能を用い,体 重を(2, 3, 4 kg)と変化させた場合の甲羅の幅がサテライト数に及ぼす影響を図示したものである. 甲羅の 幅は体重の増加に伴いサテライト数も増加しているが, 95%信頼区間の表示から,傾きがマイナスになる可 能性があることが読み取れ,このことが表6のp値が大きいことに対応する. さて,甲羅の色が暗くなる日本語つれて牒の破損が多くなり,サテライト数が減ることを表5で示した. で は,甲羅の色と体重を組み合わせた場合に,何らかの関連が見出されるのであろうか.この様な関連を,ポ アソン回帰で見い出すためには,甲羅の色について何らかの数値を与えてデザイン行列化し,体重との交 、 互作用を含めたポアソン回帰を行う必要がある. JMPの 一 般化線形モデ ルでは,名義尺度に対しては対 、 比型のデザイン行列を自動生成するので, 「 モデ /レ効果の構成」で( 甲羅の色,体重,甲羅の色*体重)を 設定すればよい. 23

30.
[beta]
i

i

iz
J

ii

一
叫グ ァ
:
2

i
l J

一
一一け げ主 人
一

州

3 健

五 幅

-1
)つJ
ぺ
li-
-~5 U 齢

二つ
…/
…
\

f
ょぷl

十 ; 仁川 い 」
ト i
-
ll j il t
i
一

一
,
a
lla
-

「
j il l

41 霊

五
一
一
一…
縦 一一

0.6574

0.1456

0.1967

0.1870
0.3820

甲羅の帽

〆 r 一gj ; 体
〆

円
七一
ーぺ
一
11
1
J
一/ ー
一
一J 5
一
-
5
…
二

一

0.0404 キ
4.2010
・0.0646

di d

P

0ι1 2

5
4

ヲ/
一2

一

一
{ノ〆 …
1Illit--! … J
t

一

J

J

は,体重 が増えればサテライト数も増大する.後体部の椋の状態は,甲羅の色によって破損が進行するこ

吋

s

J

-

叶

〆

J

J

J 市山

J

J

市町

U

同

zJ
W邑 頚
イ 一 23 留 日守
…
一円 明 似 |
v
n
v
智n
J
守 …’
一
…1
一本
同 や 田植
3 ν任一
ゃ甲
…
大
3忠世皐nvH
19 :::U1
刊む

\

--~

・・

q4nu
nvooζun--
ζun--q’ι

山
…

…

叫

日

一

イ
…
メ 一2
一
-
フ
i ーは 《 1
l!17
e
i
i
i;!i
i
-ム
: j i-
…
JA一 ’智 叶
いE テ
;
je
s t
密易会日間 噌 制 サ
口同 判 唱 と
守
、一 一 3ωνR
τト 一 一 3
S E H 3t 重
一
一ハパバハ
バパペパ九 一一一い寸
一
一
川口けい
一
一一
体
の
…5
…
ti川ソー作/
z
つlii
一
jF
li p 一 一 4
5重 合
2体 曇 朝
-「3
-
Ldril
a
ia
il
-
-
-
a
l
l
lla
a
-
-
一a i
一
少
グヴ2
一
一
こ
lil
i
lli
M!日 ?;
制
一
斗 一ー
:S占
山色 さ
一一 一 二姪&全両 日 の ヒ
4e
- aO
B
I
-
- j s mν昏H
N恥 珊 町
h
H2 1 を一
nv
nv
Ez
仁 , J凶叩
J
」J J jリ;i
14
;;1
一
m
5
v i
} 一 \a
一
J ト;
一
…
r
//
,
J
r\
\
\
一日
日唾 曜
:R
:;
12 a : ;
r2
〆v
i1114% \
…
14
1
守
-
a
l
--a
i
e

JFF

:
aA一切a 寸 ’ 曲目日守
i
守 一’盤$♀日間 恥 川町
内川 閣官
一 一 ’ ν笹山
ート … 一 32E nv
H
H 同連
-
2
ー
J
I
-
関
4
J
l
t
一
1
4
-
;
:
一
;
ーー
i
…
J
J
J
f
li
-
-
一
…
…
5
の一
-
吋li
t
e
川河 辺 江仏
… 十4
5重 佐

2.5
体重

f

!

:
γ い
一
~

0.0131 *

16.0804

· kl I

ll !

ιua『今4nuau氏un守弓dnu

mumわ
綴ム」、

24

く.0001*

0.1344

一一一一

1 一山T
rーマ γ 叩- ,山一 門 山 γ
25 30
li345
27

I�

F

y- f;
f /

.
-, . :-, :
!
,,··:〆/
i

b
um
4vmm

0.2010

6.1530
0.5463

0.3050

0.5959
6.0352

体重

6

0.0140*

0.2812

0.7978

2.2221

甲羅の色[ 1 :やや明石5い1
甲羅の色[ 2 :中ぐらい I .,
甲織の色[3 :やや暗い1

-0.7518

甲羅の色[ 1 :やや明否い]毛体重
甲羅の色[ 2 :中ぐらい]*体重
甲羅の色[ 3 :やや暗い]*{奪還

0.0061 掌

7.5086

0.3797

0.4865

・1.1855

p値
0.6530

0.3450

J

i

才
-1 〆;
1,
20

0.4191

億港譲豊富治鹿島力イ2j麗
p

縫定健

-0.2778
J

••,
川 J
町

"

、

'

l2ふペヂ
〆ノ斗 i I

l

.

叫

J '~ l j
十 辛子r/

制酬

表7甲羅の色 と体重の交互作用を含めた対数リンクでのポアソン重回帰
現
切片

マ

·1
7…一一ーで:- -·-っ …ー -n

図4 体重を変化させた場合の甲羅の幅と サテ ラ イ ト 数 との関連

パラメ ー タの推定結果を表 7 に示すが,このままでは,結果の解釈は困難を極めるので, 「 予測プロファ

イル」の機能を用いて図5に示すように甲羅の色ごとの体重の増加による サテライト数との関連を概観する.

予測プロファイルから,甲羅の色が 「 やや明るいj場合は,体重とサテライト数 の関連は,マイナスの傾き

も起こりえる信頼区間となっており,関連はみいだせないことが他の色と明らかに異なる. 「 中ぐらい」以上で

31.

とを表5で明らかにした.甲羅の色が「中くらしリの場合には,後部の臓が「正常」と「両方破損jに分かれて いるので,サテライト数との関連を甲羅の色が「中くらいjに限定して関連を調べた結果を図6に示す. 16 14 14 12 12 10 10 2 6 ω 冨 。 8 8 ノ IP' 令 ぷ争 やぷ ’ や や / - ’々 u 、 - 1正常 6 6 ' 。 体重 ,. ’b � 次’b 点 2.556 2・一 方自症療 2 3 4 ・J Y 掛 • 1 2 3 体重 2.556 4 品島凶φ1 2 ’I,・ 勺 ・ 体重 3 :両方被領 3 4 2.556 図6 甲羅の色が「中 ぐ ら し、」 での後部の臓の状態別の体重 と サテ ラ イ ト 数の関連 図 6 から甲羅の色が「中ぐらし、」で後体部の練が「正常Jの場合に体重が増えればサテライト数も微増す る「一方破損」および「両方破損jで、は,体重が増えた場合にサテライト数が急増する.表 5 から,甲羅の 色が「やや明るし、」場合には,後体部の臓は 12 匹中9匹が「正常jで,図5から体重が増えてもサテライト 数は増えない.甲羅の色が「中ぐらし、」に変化すると,体重が増加するとサテライト数も大幅に増える.更に 色が「やや暗い,暗し、」場合には,更に体重が増えるにつれて,サテライト数が増えるとも言えるが,体重が 小さい場合には,サテライト数が減少することが読み取れる. 8. グラフ ・ ビルダ ー による散布図行列における回帰の9同信頼区間 交五作用が疑われるような探索的な解析を行うためには,各種のグラフ表示が欠かせない.これまでも 品,i:pの多彩なグラフ表示を活用し,カブトカニの各種の変数とサテライト数の関連を浮き彫りにしてきたが, 満足できるもので、はなかった.全体を傭轍できるように結果をl枚のグラフで表わすことは,可能なのだろう か. JMPの新しい作図機能である「グラフ ・ ピルダ ー 」を用いた結果を図7に示す. この図から,これまでの探索的解析の結果がより鮮明に浮彫される.サテライト数は,甲羅の色が暗くな るにつて後体部の臓の破損が進み,それに伴い,体重の軽い雌ほど連結する雄のサテライト数が減少する ことが読み取れる.甲羅の色が暗くなり,後体部の椋の状態が悪くなる加齢現象により,体重の軽い雌ほど 連結する雄のサテライト数が減少すると解される.そのため,ゼロ ・ カウントが多い過分散となったと推測さ れる 9. 考察 一般化線形モデルで、 定式化されているポアソン回帰については,ドブソン著,田中 ・ 森川・山中ら訳 (2008 )に丁寧な解説があり必読の書である.反復重み付き回帰による最尤法によるポアソン回帰について, 人工デー タを用いた丁寧な導入があり,これに基づき高橋(2019 )で Excel を用いたポアソン回帰による勾 配比検定を行うことができた. 通常の回帰分析に対応したポアソン回帰は,恒等リンクとした場合であるが,各種の応用例で散見する 7 25

32.

X:体重,Y:サテライト数 14 12 10 '}r0 1 2 3 4 51 2 3 4 51 2 3 4 51 2 3 4 5 体重 図7 甲羅の色 ・ 練の状態に よ る層別散布図での回帰の95%信頼区間の表示 のは,対数リンクでオフセットがあり,あるいは過分散を考慮する場合など多彩である. JMPの 一 般化線形 、 モデル,SASのGENMODプロシジャでポアソン回帰がで きるようになっているが,適当な参考文献は見当 たらない.ドブソンの訳本でも,ポアソン回帰の例示は,対数リンクでオフセットがあり,2乗項もあり,さらに 交互作用も含めた事例が示されている.もちろん統計ソフトを使う前提で,追試も容易にできるのだが,そ の結果の解釈は難解である. 、 アグ レスティの訳本で例示されているカプトガニのサテライト数の事例は,通常の回帰分析と対比しやす いので探索的なポアソン回帰の例示として取り上げた.全デ ー タに対するサテライト数の分布について,ゼ 、 ロ過剰ポアソン分布よりも,さらにゼ ロ過剰ガンマ ・ ポアソン分布のあてはめが良好であったが,それらの分 布を用いた回帰分析には難点がある.これは,図2にも示したように,甲羅の幅が大きい時にはサテライト 数のゼロが存在しなくなるので,ゼロ過剰ガンマ ・ ポアソン分布を仮定して回帰分析を行うと,体重が重い 場合にも過剰なゼロが存在を仮定することになり,現実のデ ー タとの章離を無視できなくなるためである. 対数リンクによるポアソン回帰は,元デー タには指数曲線のあてはめ,両辺に対数を取るモデルであり, ゼロ ・ デ ー タに対しては対数変換が行われないように調整する仕組みになっている.この仕組みは,一般 、 化線形モデ ルで分布を正規とし,対数リンクとした場合でも適用され,ゼロを含むようなデ ー タに対し指数 曲線をあてはめることが可能となる.なお,ポアソン回帰を行っても過分散が解消されないような場合に,正 ‘ 規分布を仮定し,対数リンクによる指数曲線をあてはめる場合にも,ゼ ロ ・ デ ー タに対する調整が行われる. 8 26

33.

探索的ポアソン回帰は, 表lでも示したように過剰なゼロ が,どのような状況で発生する かを念頭にし, 「 「甲羅の色J , 後体部の糠」とサテライト数の関係から,甲羅の色 が暗くなる 、 につれゼロ・ カウントが増 加す るが,後体部の椋については,関連 が見いだされなかった.さらに ,甲羅の色 と後体部の練を組み合わせ ても過分散は解消しなかった. 甲羅の幅と体重の 2変数聞 に は0.89 と高い相闘があり,2変数のポアソン回帰に引き続き,図4 に示し たように体重を段階的に変化させた場合の甲羅の幅の推定曲線と 95%信頼区間のプロファイル から,甲羅 の幅をポアソン回帰の説明変数に 加える必要がないことが,視覚的に 見いだされた.もちろん,2 変数のポ アソン回帰の尤度比検定で,甲羅の幅のp値は 0.3257 と有意ではないこと からも推測される こと ではある が,JMP のプロファイル機能は,視覚的に変数相Eの関連を 見出し,より具体的な相互関係の理解する た めに有益である. このプロファイル機能に より,図 5 に示したように 4水準の甲羅の色と体重の 2変数に 交互作用を加えた が増えてもサテライト数 ポアソン回帰で,甲羅の色が「やや 明 る いJ場合に ,体重 が増えないことが図示され, 甲羅の色 が「中ぐらい,やや 暗い, 暗し、J場合と は,全く異なる プロファイルで、 ある ことが明示された.他方, 、 図 6 に示すように後体部の練と体重の関連に は,交互作用を示唆する ような兆候は見いだ せなかった. 甲羅の色と後体部の臓に体重,さらにそれらの交E作用を含めたポアソン回帰は,観察デ ー タなので, が不均 一であり,解を得る ことができなかった.これらの変数とサテライト数の関連を 見出 すために は, デー タ .最初に体重とサテライト数の散布図 を描き,回帰直 図 7に示 すように則Pのグラフ ・ ピルダ ーが役に立つ 線と95%信頼区間を上書きする.ここまでならば,JMPの伝統的な二変量の関係での 対応と同じであるが, これに 4水準の甲羅の色,3水準の後体部を組み合わせた4×3 の場合についてタイル 状に体重とサテラ 、 、 イト数の回帰直線と 95%信頼区間を並べて表示 できた.グラフ ・ ピルダ ーで対数リンクのポアソン回帰 が実 施できれば申し分ないのであるが,残念な がら現在のバ ー ジョン 1 4 では対応していない . 伝統的な回帰分析であっても,名義尺度の水準ごと の散布図行列上に 回帰直線の95%信頼区聞が表 示される だけでも ,結果を総合的に術敵する ために有益である.これに類似する 機能 が S プラスに あり,以 前は愛用 していたのであるが,JMPグラフ ・ ピルダ ー は,Sプラスの機能を大幅に凌駕する探索的な統計 解 析を支援するツ ール として優れている. 参考文献 、 1 )高橋行雄(2002), GENMODプロンジャに よる 計数デ ー タの解析 ,SASユ ー ザ ー総会論文集:193・202. 2)高 橋行雄 ( 2004 ) , ポ ア ソ ン 回 帰 分 析 入 門 一 細胞数 を カ ウ ン ト し た デ ー タ の 解 析 一 , httos://www川lkms.com/biostat/takahasi/rec/017.htm 2019年7月19 日アクセス. 3)久保拓弥(201 2),デ ー タ解析の ための 統計モデ リング入門 一 般化線形モデル ・ 階層ベイズモデル ・ MCMC,岩波書店:39・65. 4)アグレスティ著,渡遺裕之 ・ 菅波秀樹 ・ 吉田光弘ら訳(2003),カ テゴリカルデ ー解析入門サイエン ティス ト社:1 IO ・127, 168 ・17 9. ・ 5)ドブソン著, 田中豊 森川義彦 ・ 山中竹春 ・ 富田誠訳(2008 ),一般化線形モデル入門 ,原著第2版, 共立出版:67 ・80,1 8 6・1 89. 6)高橋行雄(2019),ポアソン回帰を用いた勾配比検定,2019年度日本計量生物学会講予稿集;65・7 0. 9 27

34.

付録A 雌のカブトガニに連結する雄のサテライト数 col spi wid h weight ell or ne t sa col spi coli spi wid h weight wid h weight r ne ell ell r ne 。 。 t t t 2 3 28.3 3.050 8 3 I 28.5 3.250 9 4 3 23.5 1.900 3 3 22.5 1.550 0 3 3 28.9 2.800 4 2 2 24.0 1.700 I I 26.0 2.300 9 2 3 28.2 2.600 6 2 I 29.7 3.850 3 3 24.8 2.100' 0 2 3 25.0 2.100 4 2 I 26.8 2.550 3 3 26.0 2.600 4 2 3 28.5 3.000 3 4 3 26.7 2.450 2 3 23.8 2.100 0 2 I 30.3 3.600 3, 2 I 28.7 3.200 I I 26.5 2.350 0 4 3 24.7 2.100 5 3 3 23.1 1.550 3 2 24.7. 1.900 0 2 3 27.7 2.900 5 2 I 29.0 2.800. 2 I 23.7 1.950 0 I 27.4 2.700 6 3 3 25.5 2.250 3 3 25.6 2.150 0 2 3 22.9 1.600 4 3 3 26.5 1.967 。 。 。 。 。 。 。 5 I col spL wid h weiI!h or ne t t 】 sa ell t 2 I 28.0 2.900 4 3 25.8 2.250 IO 4 2 3 27.9 3.050 7 2 3 24.9 2.200 0 2 I 28.4 3.100 5 3 3 27.2 2.400 5 2 2 25.0 2.250 6 6 2 3 27.5 2 I 33.5 5.200 2.625 7 2 3 30.5 3.325 3 3 3 24.3 2.150 0 2 I 25.7 2.000 5 3 3 24.5 2.200 3 3 29.0 2.925 3 2 3 25.8 2.650 0 2 3 28.3 3.000 15 3 3 28.5 3.000 2 I 24.3 2.000 0 2 3 28.2 3.050 II 2 3 27.2 2.700 3 2 3 28.2 2.867 2 3 25.8 2.400 0 4 2 21.0 1.850 0 3 3. 26.2 2.300 3 2 3 24.5. 1.600 4 3 25.0 8 2 I 26.0 2.300 14 2 I 27.8 2.750 2 3 27.5 2 I 31.7 3.725 4 I I 27.1 2.950' 8 4 3• 25.5 2.250 2 2 24.7 2.550 2 3 29.5 3.025 4 。 。 。 I 2.550 4 2.100, 2 3 25.2 2.000 I 3 3 27.1 2.550 2 I 25.2· 2.000 I 3 3 · 24.0 1.900 IO 2 3 29.0 3.000 I 3 3 24.5 2.050 5 3 3 27.3 2.900 I 2 3 30.0 3.000 4 3 24.7 2.200 0 3 I 27.0 2.450 3 2 3 26.3 2.400 2 3 27.6 2.850 4 2 3 27.4 2.700 5 2 3 26.0 2.150 5 2 3 29.0 3.100 2 3 26.2 2.300 0 2 2 23.2 1.950 4 2 3 28.0 2.800 I 2 3 25.3 1.900 2 2 I 23.1 2.000 0 I 2 25.0 2.300 3 2 3 30.0 3.050 8 2 3 26.5 2.300 4 2 I 22.9 1.600 0 2 I 22.5 1.600 I 2 3 29.0 3.200 IO 2 3 27.8 3.250 3 4 3 24.5 1.900 0 3 3 26.7 2.600 2 2 3 26.2 2.400 2 3 27.0 2.500 6 2 3 24.7 1.950 4 4 3 25.8 2.000 3 2 I 26.5 1.300 0 3 3 25.7 2.100 2 3 28.3 3.200 0 4 3 2 3• 26.2 2.400 3 2 3 25.0 2.100 2 2 3 23.9 1.850 2 2 3 26.2 1.3 i 0 �� 28.7 3.1 3 3 3· 25.6 2.800 7 2 3 31.9 3.325 2 3 3 23.8 1.800 0 2 I 26.8 2.700 5 3 3 23.0 1.650 I 3 23.7 1.800 3 2 29.8 3.500 4 4 3 27.5 2.600 0 3 3 23.0 1.800 4 3 29.3 3.225 2 3 26.5 2.350 4 2 3 24.9 2.100 0 2 3 25.4 2.250 3 3 22.0 1.400 2 3 26.0 2.275 3 I I 29.3 3.200 4 3 3 24.2. 1.900 2 3 25.0 2.400 5 2 3 28.2 3.050, 8 I 3 25.8 2.600 0 2 2· 22.9 1.600 3 3 27.0 2.500 6 4 3 25.7 2.150 0 2 2 25.7 2.000 0 3 2 26.0 2.200 。 。 。 4 3 3 23.8 1.800 6 2 3 26.5 2.750 7 I 25.7 2.000 8 2 3 25.4 2.250 4 I I 30.2 3.275 2 3 25.8 2.200 0 I 26.7 2.700 5 3 3 25.7 1.200 3 3 26.2 2.225 3 3 24.1 1.800 0 4 3 23.7 1.850 0 2 3 25.1 2.100 2 3 24.2 1.650 。 2 2 2 3 3 26.2 2.175 2 2 3 26.8 2.650, 0 3 2· 24.5 2.250 2 3 27.4 2.900 3 3 26.1 3 3 27.5 3.150 6 4 3 27.5 2.900 2 2 25.4 2.300 3 3 29.0 3.275 4 3 23.1 1.650 3 3 28.4 3.200 。 3 2 。 。 。 3 2 I 28.0 2.625 0 4 3 22.5 1.475 4 4 3 27.0 2.625 0 2 3 26.2 2.025 2 2 2 24.5 0 2 I 24.9 2.300 6 I 2 24.5 1.950 6 2 3 25.1 1.800 4 3 23.4 1.900 0 3 2 3 27.9 2.800 6 3 I 25.9 2.550 3 3 27.5 3.100 3 2 3 25.8 2.300 I I 26.1 2.800 5 4 3. 27.0 2.250 I I 27.7 2.500 6 2 3• 28.5 3.050 2 I 30.0 3.300 5 4 I 25.5 2.750 。 6 5 。 。 。 。 4 3 。 。 。 12 3 9 2.750 2.000 。 注釈: color=色(I=やや明るい,2=中くらい,3=やや暗い,4=暗い); Spine=後体部の練の状態(I=いずれも正常,2=一 方が摩耗または破損している,3=いずれも摩耗または破損している); width=甲羅の幅(cm); weight =重さ(kg); 出典:http: //lib.stat.cmu.edu/datasets/agresti. satell=サテライト数. 2019年7月24日アクセス. 10 28

35.

CAUSALMEDプロシジャによる媒介分析 0矢田真城 l l 魚住龍史 2 ェイツ ー ヘルスケア株式会社デ ー タサイエンス本部生物統計第l部 2 京都大学大学院医学研究科医学統計生物情報学 Causal mediation analysis using CAUSALMED procedure 1 Shinio Yada and Ryuji Uozumi 2 1 Biost,α'fistics Depar・tment I, Dαtα Science Division, A2 Heαlthcare Corpor,αtion 2 Department ofBiomedical St,αtistics and Bioinformatics, Kyoto University Graduate School of Medicine 要旨 処理変数と反応変数との聞に因果関係が示唆されたとき, その因果メカニズムを検討するために, 処理変数 が,中間変数を経由したときと経由しないときそれぞれでの反応変数に及ぼす効果を推定したいことがある. 処理変数が中間変数を経由して反応変数に及ぼす効果のことを間接効果といい, 処理変数が中間変数を経由 しないで反応変数に及ぼす効果を直接効果という. SAS/STAT 14.3から新たに追加された CAUSALMED プロ シジャにより, 直後効果, 間接効果の推定が可能となった. 本稿では, 潜在反応モデルのフレ ー ムワ ー クに 基づく直接効果,間接効果の推定方法についてまとめ,CAUSALMED プロシジャを用いた適用例を報告する. キ ー ワ ー ド:潜在反応モデル, 直接効果, 間接効果, 効果の分解, CAUSALMED, DECOMP 1. はじめに 近年の SAS/STAT では, 統計的因果推論に関連したプロシジャが多く提供され始めている. 統計的因果推 論は, ある事柄(原因) が効果(結果) にどの程度影響を及ぼしているかを, 統計データを通して定量的に 評価する方法論である(岩崎,2015). 反応変数に影響を及ぼす可能性のある変数のうち, 原因を示す変数を処理変数とよぶ . ランダム化するこ とができる処理変数を治療変数,研究者がコントロ ー ルで、 きない処理変数を曝露変数とよぶ(宮川,2004)が, 本稿では処理変数で統 一 する. 反応変数と処浬変数の聞に交絡が生じている場合の対処法として, ひとつに は, 試験デザインを設計する段階で交絡をおこす因子と反応変数との関係を断ち切るための工夫をとること が考えられる. ランダム化はその代表例であり, ランダム化されていれば, 処理変数と反応変数は独立とな るため, 処理群と対照群との反応変数の平均値の差を, 因果効果ととらえることができる. ランダム化が不可能な観察研究において, 近年では解析する段階での対処法として, 傾向スコアを用いた 解析がよく用いられる. 傾向スコアは, 個体の背景因子をlつの変数に集約した値であり, 背景因子所与の 29

36.

もとで処理群へ割り当てられる確率と定義され(Rosenbaum and Rubin, 1983 ), 一 般的にはロジスティック回帰 モデ、ルやプロピット回帰モデルをあてはめて, 得られたデー タから推定される. 傾向スコアを用いて因果効 冒 果を推定する方法のひとつが傾向スコア マ ッチング で‘ある. 傾向スコア マ ッチングでは, 処置群と対照群と で傾向スコアが等しい個体をベアにして, その差を因果効果の推定値とする. 傾向スコアは連続デ ー タであ るため, 2つの群で完全に傾向スコアが等しい個体のベアを用意することは難しい. このため, 傾向スコア 問の差異を測る尺度として, 傾向スコア自体の差や傾向スコアのロジット変換値の差を用い, 処置群の個体 に対して最小の距離となるような対照群の個体をぺアとする, 最近傍 マ ッチングが用いられることが多し、(山 本 ・ 森田, 2015). SAS では, PSMATCH プロシジャにより傾向スコア マ ッチングによる因果効果の推定が可 能となり, 同プロシジャを用いた活用方法について SAS ユ ー ザ ー 総会においても紹介されている(魚住ら, 2017 ;馬場ら, 2017). 傾向スコアを用いた解析として,他にIPW(inverse probability of weight )推定量が挙げられる .IPW 推定量は, 処理変数で条件付けしない反応変数の期待値(以下, 周辺期待値と表記する)を未知パラメ ー タとし, 周辺 期待値及び傾向スコアから構成される推定方程式の解と考えることができる(星野, 2009). IPW 推定量は, 、 傾向スコアマ ッチング における問題点(周辺期待値が推定できない, マ ッチングさせるときの基準が悲意的 である, マ ッチングさせてベアを用意する際に個体数が多い群のデー タは解析に用いられないなど)を解決 する 一 方, 因果効果を推定するときに群の違いは考慮されず同じ傾向スコアが用いられている, 傾向スコア を推定するモデルが正しくないときには誤った結果となる可能性がある,といった問題点が指摘されている. 二重頑健推定量(doubly robust estimator)は, 周辺期待値, 傾向スコア, 反応変数の予測値から構成される推定 方程式の解と考えることができ, IPW 推定量のもつ問題点を克服する. 傾向スコアを推定するためにあては 、 めるモデル, 反応変数を予測するためにあてはめるモデ ル, このどちらかのモデルが正しければ, 因果効果 の 一 致推定量を得ることができ, その点で “ ” 二重にロバストな 推定量といえる. SAS では, CAUSALTRT プロシジャにより! PW 推定量や二重頑健推定量を求めることができ,これまでの SAS ユ ー ザ ー 総会において 紹介されている(小林, 2018 ;回栗, 2017 ;中尾, 2018). 本稿でとりあげるプロシジャは, CAUSALMED プロシジャである. CAUSALMED プロシジャは SAS/STAT 14.3 にて新しく追加されたプロシジャであり, 潜在反応モデルに基づいて因果効果を直接効果と間接効果に 分解し推定することができる. 伝統的な潜在反応モデ、ルに基づく因果推論の特徴は, 「 各個体で, もし興味の ある処理を受けたときの反応と, その処理を受けなかったときの反応を観測できるのであれば, それらを比 較することで個体レベルでの因果効果を推定できる」という点にある(黒木 2017). しかし実際には, 同 ー の個体に対して, 全く同じ条件である処理を受けたときと受けなかったときの反応を観測することはできな い. そこで, 個体レベルで、 因果効果を推定することはあきらめ, 個体が属する集団レベルで‘の因果効果を推 、 定することを目標とする. 潜在反応モデ ルに基づくル ー ビン流の因果推論(Rubin, 1974, 2005 )では, 個体ごと に, ある処理を受けたあるいは受けなかったとき, どちらか 一 方観測されなかった反応変数を欠測デ ー タと みなし, 欠測デ ー タの解析方法を利用して因果効果を推定することが試みられている. 個体に対して処理が 割り当てられた後かっ反応変数が観察される前に観測され,処理変数に影響を与える変数を中間変数とよぶ. 因果効果を推定しその因果メカニズムを検討するにあたり, 興味のある中間変数をとりあげ, 中間変数を経 由して反応変数に影響を与えているのがどの程度で, 中間変数を経由しないで反応変数に影響を与えている のがどの程度かを明らかにしたいことがある. 中間変数を経由した反応変数への影響の大きさを間接効果と よび, 中間変数を経由しない反応変数への影響の大きさを直接効果とよぶ. 以降では, 潜在反応モデルに基 づいた直接効果,間接効果の推定方法についてまとめ,CAUSALMED プロシジャを用いた適用例を報告する. 30

37.

2. 因果効果の推定 2.1. 直接効果と間接効果 因果効果を評価する際にしばしば用いられる因果グラフ(因果ダイアグラムともよばれる)は, 因果関係 を視覚的に明示できる点で有用である. ここでいうグラフとは, 変数を表すいくつかの頂点とそれらを結ぶ 辺がなす構造のことであり, なかでも頂点、を結ぶ全ての辺が矢線で表現された有向グラフである. 因果グラ フにおいて, 矢線で結ぼれる変数には直接的な因果関係が存在する可能性を表しており, 隣接する頂点を結 ぶ線, あるいはいくつかの頂点を結ぶ辺はパスとよばれ, 矢印の向きにそって進むパスは有向パスとよばれ る. 図 l は, 反応変数 Y, 処理変数 d , 中間変数 M, 共変量 C の関係を図示した因果グラフの例である. 図 l(a)の場合, 処理変数が反応変数に与える影響, 即ち d から Y への有向パスは, d → Y と d → M → Y の 2 つ存 在する. このうち, 有向パスd→Yの因果関係の強さが直接効果, 有向ノfスd→M→Yの因果関係の強さが間 接効果であり, AからYへ向かう全ての有向パスの因果関係の強さを足し合わせたものを総合効果とよぶ. .(a)共変量なし m A 、 M /ノ Y M 亡三 <:J 図l:反応変数Y, 処理変数ム中間変数M, 共変量Cの因果グラフ 反応変数, 処理変数, 中間変数を除き, 個体へ処理が割り当てられる前に個体が有している特性を共変量 とよぶ. 実際には, 図 l(b)に示すように, 反応変数Y, 処理変数ム中間変数Mに関連する共変量が存在し, 交絡をおこしていることが多い 図 l(b)において, 共変量C2は中間変数 M と反応変数 Y との聞の交絡因子 を, 共変量C1は処理変数dと反応変数Yとの聞の交絡因子, 処理変数dと中間変数Mとの聞の交絡因子を 表す. このように, dとYとの聞の交絡因子, AとM との聞の交絡因子, MとYとの聞の交絡因子が存在す る場合, 交絡により生じるバイアスを防ぐために, これらの交絡因子で調整した解析が必要となる. 反応変数をY, 処理変数をA, 中間変数をM, 共変量をCとし, 処理 A = a を受けたときに観測されたであ ろう潜在的な反応変数を Y(a) , 処理 A = a を受けたときに観測されたであろう潜在的な中間変数を M(a), 処 理 A = a,M = m を受けたときに観測されたであろう潜在的な反応変数を Y(a, m)と表す. ル ー ビン流の因果推 論では, 「 個体が有する, ある処理を割り当てられたときの潜在的な反応」を定義するにあたり, 介入に関し て SUTVA (stable unit treatment value assumption)とよばれる仮定を想定する. SUTVA には, 一 致性(consistency) と構成性(composition)とし、う 2 つの仮定が含まれている. とであり, 「 処理 A = a を受けた個体の反応変数Yの値は, ができる(田栗,2014). 構成性とは, M = 一 致性とはは = a ならば Y(a) = Y が成り立つjこ 潜在的な反応変数 Y(a)に 一 致する」とみなすこと 「 M(a) = m ならば Y(a, m) = Y(a) が成り立つ」ことである. 介入によって m としたときに観察されるであろう潜在的な反応変数 Y(a, m)は, 処置変数のみに介入によって A = a と したときに観察されるであろう潜在的な反応変数 Y(α)に 一 致することを意味する. 以下, 総合効果を因果リスク差として定義する場合をとりあげる. 2つの処理レベル A = ぷと処理 A = a を 31

38.
[beta]
1
(

比較するとき, 処理dの総合効果(total e能ct; Tiめは
TE= 均)-Y(a*) = Y(a,M(a))- Y(a·, M(a'))

と定義される. 自然な直接効果(natural direct effect; NDE)は
NDE = Y(a, M(a ))-Y(a , M(a ))

(2)

と定義される.これは, 中間変数を同じ条件にしたときに, 処理を A = a から A = a に変化させたときの効果
となる.中間変数が M(a*)であったときにおのずと生じるであろう状態を維持しているという点で,自然な直
接効果とよばれている (黒木,201 7).また,(I)において中間変数を M(a)としたときの自然な直接効果Y(a,M(a))
汽a *,M(a))を総合直接効果(total direct effect; TDめ とよぶ. その際, TDE と区別するために, ( I)を 純粋な直

一

接効果(pure direct e能ct;PDめ とよぶことがある. これに対して
CDE(m’): = 汽 a,m')一汽a',m')

(3)

は制御された直接効果(controlled direct effect; CDめとよばれる. CDE は, 何らかの介入により中間変数を m*
に制御 (固定) したときに, 処理を A = a から A = a に変化させたときの効果となる. 自然な間接効果(natural
indirect e貸出;川町は
(4)

NIE=汽a,Mい)) -Y(a, M(a'))

と定義される. 処理が同じとしたときに, A
A=

=

a であったときにおのずと生じるであろう中間変数の状態と,

a であったときにおのずと生じるであろう中間変数の状態とを比較したものとなる.また, 比較の基準と

なる処理レベルa 二 0 での自然な間接効果Y(a',M(a)) 一 汽a',M(a・ ))を,純粋な間接効果(pure indirect e能ct; PIE)
とよぶ.
2ユ効果の分解
VanderWeele(2014)は, 任意の中間変数レベル M = m に対して, 総合効果を以下に示す4つの要素に分解で
きることを示した.
Y(a)

汽a ) = Y(a,m')-}い·, m')
+{ ( Y(a,Mぱ ))一汽a·,M(a')) ) 一 (抑, m·)-Y(a',m·) )}
+{ Y(a, M(a)) Y(a', M(a))- Y(a,M(a')) + Y(a*, M(ぷ))}

+Y(a', M(σ))- Y(a',M(a'))

(6)

l 番目の要素 Y(a,m')- Y(a',m’)は制御された直接効果 CDE であり,4番目の要素Y(a',M(a))

一

Y(ぷ, M(グ))は

・

純粋な間接効果 PIE である. 2番目の要素は Lml(M(a ) = m) = I であることを用いて
(取, M(a ))- Y(a', Mザ)) )

(Y(a,m')-Y(a',m ) )

= Lm{Y(a,m)一 Y(a' ,m)一 Y(a,m ワ+ Y (ゲ,m )} I(M(a*) = m)
’

( 7)

と表すことができる. ここに/(・)は, カッコの中の等式が成立すれば1 を, それ以外は全てOをとる指示関
数である. VanderWeele(2014)は,(7)によって表される,(6)式右辺の2番目の要素を reference interaction (INTre1)
とよび, (6)式右辺の3番目の要素
Y(a,M(a))-Y(a , M(a)) 一 汽a,M(a》+Y(a', M(a ))

= Lm{Y (α,m)ー Y(aヘ m)}{I(M(a) = m)ー l(M(a ) = m)}
・

( 8)

をmediated interaction (INTmed)とよんでいる. 3番目の要素(8)は
Lm{Y(a,m) - Y (α•,m)ー Y (α,m ) + Y (ゲ,m ' )}{I(M(a) = m)一 I(M (αつ=m)}
・

と表すこともできる.以下, 本稿では, re ぬrence interaction (/NTref)を参照交互作用 (/RF) , mediated interaction
(/NTmed) を中間的交互作用 (/MD)と表記する.!RF と !MD はいずれも交E作用効果であり,これら 2つの和 /RF

32

39.
[beta]
+!MD を交互作用効果(portion attributable to interaction; PA ηとして定義する.

以上の各効果を用いた総合効果

の分解方法は, 表l のようにまとめることができる.
表l:総合効果 TE の分解
構成数

分解方法

2

TE=NDE+NIE
TE= TDE+PIE

3

TE=NDE+I品卸+PIE

4

TE = CDE+ !RF+!MD+PIE

TE= CDE+ PAl+PIE

いくつかの仮定をおくことで, 上記に定義した各効果を構成する要素を, 個体が属する集団レベルでの平
均的な効果として推定することができる. 得られたデー タからこれらの効果を識別するための十分条件とし
て,以下i)からiv)までの4つの条件:i) 'v' a, m に対して Y(a, m) 」LAIC, ii)'v' a, m に対して汽a, m) 」上M]{A,C}, iii)
Va lこ対して M(a)

」lAIC, iv) 'v' a ,ぶ, mに対して Y(a, m)JlM(a')ICが必要となる(Pearl,2009; VanderWeele and

Vansteelandt,2009).条件i) は共変量所与のもとで処理変数と反応変数との聞に未測定の交絡因子がないこと,
条件ii)は処理変数と共変量所与のもとで中間変数と反応変数との聞に未測定の交絡因子がないこと,条件iii)
は共変量所与のもとで処理変数と中間変数との聞に未測定の交絡因子がないこと, 条件iv)は処理変数の影響
を受け,かっ中間変数と反応変数と交絡をおこす因子が存在しないこと,をそれぞれ意味する (田栗,2014).
総合効果を直接効果と間接効果に分解した上で, 間接効果が総合効果に対してどの程度影響を与えている
かを測るための指標として,proportion mediated (PM)
PM=NJE I TE= (TE-ND£)/ TE

及びpropo此ion eliminated (P町
PE= (TE - CDE(m 》 /TE

が用いられることが多い. PM は, 中間変数を経由して反応変数に与える影響がどの程度重要で、 あるかを表
す尺度であり, PE は, 介入によって中間変数レベルをmに制御した場合に, 総合効果のうちどの程度除去
できるかを表す尺度といえる. PM.PE いずれも算出された値がOからl の聞に収まるとは限らず, なんの仮
定もおくことなくこれらの指標を用いて総合効果のうちどの程度が中間変数を介した影響なのかを判断する
ことは難しい (田栗,2014;黒木,2017).
、

2.3. 回帰モデ ルによる平均的な効果の推定

、

VanderWeele and Vansteelandt(2009)は, 交互作用項を含めた 以下の回帰モデ ルを提案した.
E[YIA = a, M= m, C = c] = 80 + θ 1a + 82m + 83am + 9/c

(9)

E[MIA =a, C =c] =Po+ β1a +匹/c

(JO)
、

T

, 4p) T' Pz = <P2 1, P22 , …,
, ,Cp) はp個の共変量を成分とするベクトルで あり,94 = (θ41, 842,…e
ここで,C =(C1,C2 …
T
P2p) である. yとMに対し(9), (10)の回帰モデルが成り立つ場合,i)からiv)までの仮定のもとで,個体が属す

る集団全体での, 平均的な制御された直接効果 CDE(m ) , 自然な直接効果 NDE, 自然な間接効果 NIE, 総合
直接効果 TDE, 純粋な間接効果 PIE , 中間的交互作用 !MD , 参照交互作用 IRF(m ')は, それぞれ次のように与

33

40.
[beta]
えられる(VanderWeele and Vansteelandt, 2009; VanderWeele, 2014).

E[CDE(m )le]=£[汽仏 m)

,

Y(a , Mい )) le] = (0, + OJ/lo+ 03p,a·+ 03 p/c)(a-a·)

,

E[TDEc] = E[Y(a, M(a))-Y(a*, M(a))lc] = (O, + 03Po + 03p 針。3 pzTC)(a-a·)

E [P!Elc] = E[Y(a , M(a))

l
(

E[N!Elc] = E[Y(a, M(a))- Y(a, M(a )) le] = (Oi/J1 + 03p,a)(a ー の

,
,.
.、
、
l

E[NDElc] = E[Y(a, M(a ))

Y(a , m) le] = (θ + 03m)(a - ぷ)

a')

Y(a , M(a*))lc] = (OifJ, + 03p,a*)(a

£[/MDlc] £[汽a, M(a)) - Y(a, M(a*))- Y(a ·, M(a)) + Y(a ·, M(a ヲ)I c] = 03P 1 (a - a')(a-a')
=

,

£[/RF(m')lc] = E[NDElc]-E[CDE(ぷ)le] = 03 (Po+β a· + p/c - m)(a ー ぶ)

処理変数と中間変数の交E作用が存在しない ((9)式に登場する am を最初から考えなし、)のであれば,03 = 0 な
ので, E[CDE(m*)lc] = E[NDElc] = 0 1 (a-a*), E[N!Elc] = Oif], (a-a * )となる.

個人レベルで、観察されたデー タに回帰モデル(9), (IO)をあてはめて得られる 9 =(Oo,θ I , 02, 03 , 04 1 ,…, 04p)r, P

=仇 β " P2,,…, Pzp) の推定量樋=(高,
T

o.;, e;,高,広,.川B;,,) , p = (高, Pi,広,…,ι ?と表すとき, 各効果の
T

推定量は geJ(OI c)で与えられる. ここに関数 ge/(91 c)は上記で与えられる各効果の期待値である. VanderWeele

and Vansteelandt(2009)は,各効果の推定量の標準誤差を算出するにあたり,デルタ法あるいはブ ー トストラッ
プ法の適用を提案しており, デルタ法を用いた算出方法について詳しく記載している.
ブ ー トストラップ法とは, 観測されたデー タからリサンプリングすることにより生成された擬似的なデ ー
タを用いて, パラメ ー タ推定量の統計的誤差や統計量の分布を推定する方法のことである. Efron (1981)は,

ブ ートストラップ法に基づく 100(1 2α)%信頼区間として, パー センタイル法に基づく信頼区間 (以下, パー
センタイル信頼区間と表記する) を提案した.

パー センタイル信頼区間は, 解析的なアプロ ー チが困難な場

合であっても近似的な信頼区間を求めることができる反面,推定量のバイアスや推定量の分布の歪みの大き
さを考慮していないため, 近似精度の問題が指摘されている. Efron (1987)は, パー センタイル信頼区間にお
ける近似精度の問題を改善するため, bias-corrected and accelerated con白 dence interval (バイアス修正加速化信

頼区間;以下, BC0 信頼区間と表記する) とよばれる信頼区間構成法を提案した. BCa 信頼区間の加速定数を

0 としたときの信頼区間は bias-corrected confidence interval (以下,BC 信頼区間と表記する)とよばれている.
なおブー トストラップ法に基づく信頼区間についての詳細は, 小西(2008), ¥:王 ・ 桜井(2011)などの成書を参照
して頂きたい

2.4. 因果リスク比の分解と推定
、
VanderWeele (2014)は, 2 つの処理レベル A = ぷと処理 A=a をリスク比(相対リスク) のスケ ー ルで比較す

るにあたり, 共変量 C = c を与えたもとでの個体が属する集団全体での平均的な総合効果

E[Y(a)lc]
’ι = 一一一一一一一
RR.,.,,
E[Y(α つ le]
が仮定iv)のもとで以下のように分解されることを示した.

RRTE -I= K[RRCRE(m勺 ー I]+ KRR/RF(が) + KRR/MD+ RRPIE_I
ここで,

RRCDE(m ') =

E[Y(a,m つ le]
E[Y(a', m つ le]

RRIRF(m l = I. m RERI (が, mつ P(M(が) = mlc)
・

RR/MD= L m RERJ (α 七 mつ {P(M(a) = mlc) - P(M(a ・ ) = mlc)}

34

(14)

41.
[beta]
0,., E[Y (が,M (α))le]
RR,..,e
=
E[Y(a*,M ( αつ〕le]
K=

・

E[Y (α·.m ))le]
E[Y(a*)lc]

であり, RERJ(a*, m*)Iま交互作用に起因する相対過剰リスク(relative excess risk due to int怠raction)
'

,m)lc] 一 E[Y (α,m勺le]
RERI (α七m・ )= E[Y(a, m)le] 一 E[Y (α ’
+1
E[Y (ゲ,mつ le] E[Y (ゲ,m )le] E[Y(a•, m つ le]
である(VanderWeele,20日).
リスク比(相対リスク) RR からlを引いた相対的効果は 過剰相対リスク(excess r官 lative risk; ERR )とよばれ
*

る. (14)は, 過剰相対リスクスケ ー ルでの総合効果ERR TE =RR TE ー1が, 制御された直接効果RR αE(m ) ,参照相
互作用RR 1聞が),中間的相互作用RR/MD,純粋な間接効果RR PIEを用いて,4つの要素 :K[RR CRE(げ) J], KRR I RF(m*l,
KRR IMD , RR P/E-I に分解できることを表している. 仮定i), ii), iii)のもとで
E(Y(a)lc) = E(YIα,c)
E[Y(α,m)lc] = E m E[Y (α,m)lc] P(mlα,c〕
P(M (α) = mjc) = P(M = mlα,c)
と表現でき, 更に仮定iv)のもとでは
て可 E[Y (α' ,m)lc]
RR PIE - 1 = K )
{P(M ( α) = mlc) - P(M(aワ= mlc)}
ムmE[Y(a*,m*)lc]
と書き直すことができる. 上記の右辺に潜在的な反応変数は含まれておらず, よって過剰相対リスクスケ ー
ルでの総合効果を構成する 4つの要素は, 実際に観測された反応変数の値を用いて推定可能である.
表2に, 過剰相対リスクスケ ー ルでの総合効果ERR 花 の分解方法を, 表lと対比させる形式でまとめた.
総合効果を因果リスク比として定義した場合にも,効果をいくつかの要素に分解することができる.ただし,
それはリスク比ではなく過剰相対リスクスケ ー ルでの総合効果の分解であり, 構成要素は過剰相対リスクス
ケ ー ルでの効果である.
表2:過剰相対リスクスケ ー ルでの総合効果ERR π の分解
構成数

分解方法

2

ERR TE =ERR NDE + ERR 川E
ERR TE = ERR TDE +ERR P/E

3

ERR TE =ERR NDE +ERR/MD + ERR PIE
ERR TE = ERRCDE + ERR PA I + ERR PIE

4

ERRTE = ERR CDE + ERR/RF + ERR/MD + ERR P/£

'
ERR TE =即 TE_l,ERRCDE = K[RRCR E(m )ーI], ERR/RF= K RR IRF(m*), ERR 1凶= KRR I MD, ERRP/£ =四円仁I,
ERR 同 I=ERR/RF+ ERR/MD= KRR/RF(m*) + KRR I MD,

ERR NDE =ERR CDE + ERR/RF' ERR TDE =ERR CD + ERR 同1 ,ERR N/£ = ERR/MD+ E RR P/£

35

42.

総合効果を直接効果と間接効果に分解した上で, 間接効果が総合効果に対してどの程度影響を与えている かを測るための指標としてPMを, 中間変数に介入することによって, 処理変数が反応変数を与える影響を どの程度制御できるのかを測る指標としてPEを,それぞれ定義した.過剰相対リスクスケ ー ルでのPM及び PE(以下, 総合効果を因果リスク差として定義したときと区別するため,ERRPM, ERRPE と表記する)は I)} / (RR TE ー 1) ERRPM = ERRNIE IERR TE =(ERR TE -ERRNDE) IERR TE= {(RR TE - I)一(RR NDE ERRPE =(ERR TE -ERR印吾川)) / ERRTE = [(RRTE _l)一{刈RR C問州一!)} ] /(RR TE _l ) と定義される. 例えば,反応変数 Y と中間変数Mがともに 2 値デー タの場合, i)から iv)までの仮定のもとで, Y とMに対 して以下のロジスティック回帰モデル logit{P(Y = I IA= a,M= m, C = c )} = Bo+ 8,a + 82m + 83am + 8/c logit{P(M= 11 A = a, C = c)} =ん+β1a + p/c が成り立っとき,過剰j相対リスク比スケ ー ルでの因果効果は以下のように与えられる(VanderWeele, 2014). 町 田p( 1α ){ 1 +田P(/3o ERR 'ι = 田p( 1α つ{1 + exp(/30 8 + 8 ERRCDE(m・) = + ’ exp{ 1 (α - a ) 8 1 + exp (戸。 +fl1 a· 四p{ i(α ERR即(が)= 8 ー /31 グ+同c)}{l + exp (ん+ /31α +同C +8 2 + 83 α )} /31 a+同 c)}{l +四p 伊。 +fl1 a + Pic +8 + 83 a ・ )} + exp(β0 ・ +8 + 2 m* Pic + 83 αm*} +8 2 + _ exp( 2 m* 8 + 83αm つ{l 1+田p(/Jo 83 グ) が)}{1 + exp (ん+{J〆+J_Ic 1 exp 伊。 +fl1 a· +同 c) +8 + 3 )} _ 2 +8 α 8 ー が) +8 1 2 fl1 a• +同 c m' + 8 3 am } {1+田p (戸 。 + /J1α + Pic)} + exp(/J0 ’ T {11 a +時 c) ホ + + +8 ’ ・ -l ・ /J1α +同c)} 2 + 83 α つ 1 + exp{ 1 (α 2 e況p{( 1 8 + ・ 83 m )(α ー α つ} 四p( θ2 m' +e〆m ) { 1 exp(/Jo {11 α + Pic)} + ' 1 exp 印。+/J1 a + 同 C 2 + 83 α つ + +8 + ’ MU = ERR /Mn 回p( 1 (α 8 が)){1 +田p(/Jo fl1 a+同c 2 {1 +田p 〔Po + β1 α +同c)}{l +回PC/3o ー {1十四p(/J1。 + /J1α +叫C {1 expCf3o fl1 a' +同 c +8 + + 2 + +8 +8 + + ー 2 +8 + 3a')}{l ' + +8 + +8 + 2 PI C + + 3a)}{l /J1 a' 83が)}{1+四p(/Jo 回p{ 1 (a が)} { 1 exp(/Jo {11 α 市 1 exp 伊。 + β1α ・ +同c 8 事 + + + fl1 a' ・ 2 + + 83 a ) +8 + + +8 2 + 83 a)} Pic)} 83 α )} +1 2 PIE 一{1 +四P(/Jo /J1α 十回 c)}{l +田p (戸。+/J1 a+同c ERR 円ι {1 +回p 〔Po + fl1 a+同c)}{l +回p(/Jo /J1 a' +同 c+ θ 2 ー e却 (Po + 仇が+同c)} exp(/30 + βia+同 c)} +8 事 + PJc + + 8〆)} 一 1 1‘ ' 83 a )} 過剰相対リスクスケ ー ルでの総合効果とこれを分解したときの各効果の標準誤差及び信頼区間は, デルタ法 またはブ ー トストラップ法により求められる. 3. CAUSALMED プロシジャの適用例 本節では, 具体的なデ ー タセット(SAS デ ー タセット名: Cognitive, Birthwgt)を用いて, CAUSALMED プ ロシジャの文法および実行結果を解説する. デ ー タセットは, SAS/STAT CAUSALMED プロシジャのマニュ アルから入手可能である(SAS Institute Inc., 2018) 36

43.

3.1. 家庭環境が子供の認知能力にもたらす影響(デ ー タセット: Cognitive) ー タにつ いてとりあげる. 干 Maりoribanks (1974による家庭環境が子供の認知能力にもたらす影響を示すデ ) の研究の目的は,両親によってもたらされる家庭環境が子供の認知能力に与える影響を検討するこ とにあり, 家庭環境に左右される子供の学習意欲がどれだけ本人の認知能力に影響を与えるかが議論の焦点であった. 3.1.1. デ ー タ概要 、 7 )が議論した教育モデ ルのデ ー タセットである. デ ー タセッ デ ー タセットCognitive は, Marjoribanks (194 トCo伊itiveには,対象者を特定する変数StudentID 以外に,子供の認知度テストスコア(変数名:CogPerform) 子供 への親からのサポ ート (変数名:Encourage),家族数 (変数名: FamSize ) , 子供の学習意欲スコア (変 数名: Motivation), 社会的身分(変数名: SocStatus)をもっ300名のデ ー タが含まれている. 子供 への親か らのサポ ートはアンケ ート票への回答結果からレ ーティングされたスコアであり(以下「親のサポ ートスコ ア」とよぶ), 社会的身分は, 親の収入, 職業, 教育水準から スコア化されたものである(以下「社会的身分 スコア」とよぶ). 子供 への親からのサポ ート→ 子供の学習意欲→ 子供の認知能力 というメカニズムを考えたとき , 親からの サポ ートが子供の認知能力 へ 及ぼす本来の因果 効果 は,Encourageから CogPerform への有向パスの因果関係 の強さであり,それは有向パスEncourage →CogPerformの因果関係の強さと, 有向パスEncourage →Motivation →CogPerformの因果関係の強さ の和となる. 3.1.2. SASプログラムと実行結果 反応変数, 中間変数, 処理変数が全て連続デ ー タであり, 統合効果を因果リスク差として定義した解析を 考える. SASプログラムl は, 反応変数Yを認知度テストスコア, 処理変数dを親のサポ ートスコア, 中間 変数Mを子供の学習意欲スコア, 共変量 c,を家族数, 共変量C2を親の社会的身分スコアとして, E[YI バ = a, M= m, C =c] =80 + 81a + 82m + 83am + 9/c (15) E[MIA =a, C =c] =Po +β 1 a+匹/c (16) をあてはめて解析を行うときの プログラム コー ドの一 例である. こ こに84=(841, 842) T, �2= <P21, P22?である SASプログラム 1 :デ ー タセットCognitiveに対する実行プログラム proc causalmed data = Cognitive decomp pmedmod poutcomemod; model CogPerform =Encourage I Motivation; mediator Motivation =Encourage; covar FamSize SocStatus; 4989; bootstrap bootcii(bc) nsamples = 1000seed= run; • PROC CAUSALMED ステートメン ト DECOMPオプションを指定すると, 表lに示した効果の分解が行われる. DECOMP=2と指定すると, 総 合効果を2つの要素 で分解した結果 が出力される. DECOMPのみ指定すると, 総合効果を2つの要素に分解 した場合,3つの要素に分解した場合と!|頃に結果 が出力され, 最後にFour-Wayとラベルされた行から4つの 要素に分解した結果 (制御された直接効果 CDE , 参照相互作用 !RF , 中間的交互作用 !MD , 純粋な間接効果 37

44.

PIE) が出力される. POUTCOMEMODオプションを指定すると, 回帰モデル(9)をあてはめたときの回帰係 数Oの最尤推定値,標準誤差,100 1 ( -a)%信頼区間,個々の パラメー タがOかどうかのワルド型の検定結果が 出力される.PMEDMODオプションを指定すれば,回帰モデル(10)をあてはめたときの 回帰係数p について, 同様の統計量が出力される. オプション ALPHA = により信頼区間の有意水準を指定することができ , デフ ォノレト は0.05 で95%信頼区間を与える. • MODELステ ートメント 左辺に反応変数Yを,右辺に処理変数 Aと中間変数 Mを指定する. 回帰モデル(9)のとおり, 処理変数と 、 中間変数の交互作用を回帰モデルに含める 場合には,MODELステ ートメントの右辺をA M A 申 Mと指定する か, あるいはAIMと指定する必要がある. 右辺にA*M あるいはAIMと指定しない場合, 処理変数と中間変 数の交E作用 は評価されない. • MEDIATORステ ートメント 左辺に中間変数を,右辺に処理変数を指定する. 当然,MODELステ ートメントとMEDIATORステ ートメ ント で指定する各変数は 一 致していなければならない. • COVARステ ートメント 共変量を指定する. 2 つの共変量 ClとC2 , 及びClとC2の交互作用をモテ守ルに含めたい場合には,Cl C2 Cl*C2と指定するか, あるいはCIIC2と指定する. •BOOTSTRAPステ ートメント 総合効果をはじめとする各因果効果の標準偏差及びその信頼区聞をブ ートストラップ法に基づいて算出す る. 信頼区間の 算出方法はオプションBOOTCI で指定する. BOOTCI ( PERC)と指定するとパ ーセン タイル信 頼区聞が,オプションBOOTCI BC) ( と指定するとBC 信頼区間が, それぞれ 出力される. BOOTSTRAPステ ートメントのオプションNBOOT=により,反復生成させるブ ートストラップ標本の組数Bを指定する.なお , CAUSALMEDプロシジャでは,生成されるブ ートストラップ標本の大き さが小さい, あるいは反復生成され るブ ートストラップ標本の組数が少ないと, 信頼区間 は出力されない. BOOTSTRAPステ ートメントを指定 しない場合,因果効果の標準誤差はデルタ法で算出され ,ワルド型 信頼区聞が出力される. 、 ( 出力結果 l , 出力結果 2 は, SASプログラムlを実行して得られる 出力結果の うち, 回帰モデル(15), 16) T をあてはめたときの モデルパラメー タ8 = ( Bo. 81. 82. 83 841θ42?, P = (/Jo, Pi, P21, P22) の推定結果をまとめた もの である. PROC CAUSALMEDステ ートメント にて, オプション POUTCOMEMOD, PMEDMODを指定したた め , モデルパラメー タの最尤推定値,標準誤差,95%信頼区間 ,ワルド型のカイ二乗検定量と対応 するp値 が出力される(SAS OUTPUT函面には, モデルパラメー タa,pの推定結果以外に, 反応変数の標準偏差σの 、 推定結果がパラメー タscal eとのラベルにて出力される). なおこれらの解析 は,一般線型 モデル(general linear . model) による解析のた めの GLMプロシジャ, 一般化線型回帰モデ /レ (generalizedlinear model) による解析のた めの GENMODプロシジャでも行うことができるほか, 反応変数が2 値デ ー タ であればLOGISTICプロシジ ヤを使っても 実行可能である. ただし ,各プロシジャで、モデルパラメー タの推定方法が異なるた め , 出力結 果が一 致しないことはありえる. 例えば, デ ー タセット Cognitive に対してGLMプロシジャを用いた場合, 38

45.

モデルパラメ ー タの検定及び信頼区間の算出にはt分布が用いられるため, 標準誤差, 95%信頼区間, p値は GENMODプロシジャやCA USALMEDプロシジャのそれとは若干異なる. 出力結果l 認知度テストスコアへの回帰モデルによる解析結果 カイ二乗値 Pr> Chisq -85.9165 890.0082 <.0001 0.7679 1.1681 89.8917 <.0001 0.0893 0.8223 1.1725 124.6085 <.0001 0.0835 0.0023 0.0790 0.0879 1346.308 <.0001 家族数 -0.0247 0.0126 -0.0494 0.0000 3.8345 0.0502 社会的身分 0.0121 0.0176 ー0.0224 0.0467 0.4725 0.4918 95%信頼区間 パラメ ー タ 推定値 標準誤差 切片項 ・91.9579 3.0824 -97.9994 親のサポ ー ト 0.9680 0.1021 子供の学習意欲 0.9974 親のサポ ー ト×子供の学習意欲 出力結果2:子供の学習意欲スコアへの回帰モデルによる解析結果 ー タ 親のサポ ー パラメ 推定値 95%信頼区間 標準誤差 カイ二乗値 Pr> Chisq 11.2993 0.8412 9.6506 12.9480 180.4392 <.0001 0.6879 0.0360 0.6172 0.7585 364.3009 く 家族数 -0.1104 0.0129 -0.1357 -0.0850 72.7097 く 社会的身分 0.1562 0.0180 0.1208 0.1916 74.9112 <.0001 切片項 ト .0001 .0001 出力結果3は, SASプログラムlを実行して得られる出力結果のうち, 因果効果に関する推定結果をまと めたものである. BOOTSTRAPステー トメントにてBOOTCI (B C)と指定したため, 因果効果の最尤推定値, デルタ法を用いた標準誤差, ワノレド型95%信頼区間に加え, ブ ー トストラップ法に基づく標準誤差, 95%BC 信頼区聞があわせて出力される. SAS OU TPUT画面では, PM×100の値がPercentage mediatedとラベルされ た行に, PE ×100の値がPercentage eliminatedとラベルされた行に, それぞれ出力される. Percentage due to interactionには,総合効果 TE に対する処理変数と中間変数の交互作用効果 PAI の割合(PAI/TE ×100)が出力さ れる. 出力結果3:デー タセットCognitiveにおける因果効果の推定結果 デルタ法 ワルド型 95%信頼区間 ブ ー トストラップ法 標準誤差 95%BC 信頼区間 効果 推定値 標準誤差 総合効果(T.め 6.8421 0.1430 6.5618 7.1224 0.2311 6.3603 7.2954 制御された直接効果(CDめ 4.1797 0.047 4.0876 4.2717 0.0554 4.0847 4.3119 自然な直接効果(NDE) 4.1509 0.0471 4.0587 4.2432 0.0554 4.0527 4.2820 自然な間接効果(NIE) 2.6912 0.1453 2.4065 2.9759 0.2375 2.2219 3.1670 Percentage mediated 36.6465 42.0184 2.2153 34.9090 43.7548 39.3325 1.3704 Percentage due to interaction 0.4197 0.0237 0.3733 0.4661 0.0239 0.3655 0.4606 Percentage eliminated 38.9128 1.3574 36.2524 41.5733 2.1855 34.5645 43 2465 39 目

46.

総合効果は 6.8421, 95%BC 信頼区間(6.3603, 7.2954)と推定された. 総合効果は,反応変数と処理変数以外の 変数を全て 一 定の値で固定したもとで, 外的操作により処理変数を l 単位変化させたときの, 反応変数の変 化量の期待値のことである(黒木,2017). 出力結果 3 より, 認知度テストスコア, 親からのサポ ー トスコア 以外の変数を全て 一 定の値で固定したときに, 子供の学習意欲スコアが l 単位増えると認知度テストスコア は平均的に 6.8421 増加することが読みとれる. 自然な直接効果の推定値及び 95%BC 信頼区間は 4.1509 (95%BC CI: 4.0527, 4.2820),自然な間接効果の推定値及び 95%BC 信頼区間は 2.6912 (95%BC CI: 2.2219, 3.1670) であった. Percentage mediated の推定値及び 95%BC 信頼区間は 39.3325 (95%BCCI: 34.9090, 43.7548 )であり, 親のサポ ー トから認知度テストスコアへの総合効果のうち, およそ 40%は子供の学習意欲を通した間接効果 で‘あったと考えられる. 、 出力結果 3 に出力された因果効果の推定値は, 回帰モデル(15), (16 )をあてはめて得られるモデ ルパラメ ー タの推定値を(11)に代入して求めることもできる. 因果効果の推定値を算出する際, CAUSALMED プロシジ ヤでは特に指定しない限り, 中間変数 M にはデ ー タから求まる平均値涜, 共変量 C にはデー タから求まる平 均値C, 比較する処理変数レベル a,ぶには a = a + 0 ムぷ= a -0.5 が用いられる(ここにaはデ ー タから求ま る処理変数の平均値である).仮想デ ー タでは侃= 34.4700, a =34.4167, c1 =3.8033,ゐ= 25.0733 であるから, 出力結果 l , 出力結果 2 のモデルパラメ ー タ推定値を用いると, 例えば, 制御された直接効果 CDE, 自然な 直接効果 NDE の推定値は CD£= (百;+高市)((a+ o.s )一 ca- 0.5)) =(0.9680+0.0835 × 34.4 700)((34.4167+0.5)一(34.4167-0.5)) =4.1797 Nl5F: = (有+高高+高瓦(a- o.s) +広(広1C1 + ιι )) =(0.9680+0.0835 × l 1.2983+0.0835 × 0.6879 ×(34.4167-0.5)+ 0.0835(ー0 .1104 × 3.8033+0.1562 × 25.0733)) =4.1509 となり, 出力結果3に出力された CDE NDE の推定値に 一 致する. 出力結果 4 :デ ー タセット Cognitive における総合効果の分解及び推定結果 要素 デノレタ法 ワルド型 95%信頼区間 ブ ー トストラップ法 95%BC 信頼区間 数 効果 推定値 標準誤差 2 自然な直接効果 (NDめ 4.1509 0.0471 4.0587 4.2432 0.0554 4.0527 4.2820 自然な間接効果 (NIE) 2.6912 0.1453 2.4065 2.9759 0.2375 2.2219 3.1670 総合直接効果(TD勾 4.2084 0.0470 4.1163 4.3004 0.0552 4.1155 4.3404 純粋な間接効果 (PIE) 2.6338 0.1423 2.3548 2.9127 0.2325 2.1740 3.0993 自然な直接効果 (NDE) 4.1509 0.0471 4.0587 4.2432 0.0554 4.0527 4.2820 純粋な間接効果 (Plめ 2.6338 0.1423 2.3548 2.9127 0.2325 2.1740 3.0993 中間的交互作用 (!MD) 0.0574 0.0034 0.0508 0.0641 0.0054 0.0462 0.0677 制御された自然効果 (CDめ 4.1797 0.0470 4.0876 4.2717 0.0554 4.0847 4.3119 純粋な間接効果 (PIE) 2.6338 0.1423 2.3548 2.9127 0.2325 2.1740 3.0993 交互作用効果 (PA乃 0.0287 0.0020 0.0248 0.0326 0.0023 0.0234 0.0328 制御された自然効果 (CDE) 4.1797 0.0470 4.0876 4.2717 0.0554 4.0847 4.3119 2 3 3 4 40 標準誤差

47.
[beta]
要素
数

デルタ法

ワルド型
95%信頼区間

効果

推定値

標準誤差

参照交互作用 (/RFヲ

・0.0287

0.0020

中間的交互作用 (/MD)

0.0574

純粋な間接効果 (PIE)
総合効果 ( TE)

ブ ー トストラップ法
標準誤差

95%BC 信頼区間

0.0326

-0.0248

0.0034

-0.0353

-0.0222

0.0034

0.0508

0.0641

0.0054

0.0462

0.0677

2.6338

0.1423

2.3548

2.9127

0.2325

2.1740

3.0993

6.8421

0.1430

6.5618

7.1224

0.2311

6.3603

7.2954

噂

出力結果4は, 親のサポ ートから認知度テストスコアへの総合効果を表lに示した要素 で分解し, 推定し
た結果をまとめたものである.総合効果 TE を4つの要素に 分解したとき,制御された直接効果 CDEは4.1797
(95%BC CI: 4.0847,4.3119), 参照交互作用 !RFはー0.0287 (95%BC CI: 一0.0353,一0.0222), 中間的交E作用 !MD

は0.0574 (95%BC CI: 0.0462, 0.0677), 純粋な間接効果 PIEは2.6338 (95%BC CI: 2.1740, 3.0993)と推定された.
処理変数と中間変数の交互作用効果 PAIは0.0287 (95%BC CI: 0.0234, 0.0328)と推定された.
• EVALUATEステ ートメント
出力結果3,出力結果4は,中間変数,共変量をデ ー タの平均値 としたときの推定結果であった.実際には,
中間変数をある値に 制御したときの因果効果や, ある特定の集団に限定したときの因果関係を知りたいこと
もありえるだろう. このような要望に対処するために , CAUSALMEDプロシジャにはEVALUATEステ ート
メント が用意されている. EVALUATEステ ートメントには, 中間変数及び共変量(ただし連続デ ー タに限ら
れている)を指定することができ,かっ 一 度に複数指定することができるため, 出力時に区別するラベルが
必要となる. ラベルを引用符(『 )でくくり, その後に条件を記述する. SASプログラム2はその一 例である.
1つ目のEVALUATEステ ートメントは, 子供の学習意欲 が比較的高い集団 での因果効果を推定するための記
載例である. ’ High-motivation group ’ とラベルし, 子供の学習意欲が比較的高い状態として子供の学習意欲ス
コアを [デ ー タ平均値 ]+ 1.5×[デ ー タの標準偏差](以下「平均の上I.5SDJと表記する)と設定した.
SASプログラム2: EVALUATEステ ートメント を用いた因果効果の推定
proc causalmed data = Cognitive;
model CogPerform = Encourage I Motivation;
mediator Motivation = Encourage; covar FamSize SocStatus;
bootstrap bootci(bc) nsamples = I000 seed = 4989;
evaluate ’High-motivation group ’ Motivation = I.5(SD);
evaluate ‘Favorable environment' FamSize =ー0.5(SD) SocStatus = !(SD);
run;
出力結果5には,SASプログラム2において,l つ目のEVALUATEステ ートメントにより出力される解析
結果をまとめたものである. 中間変数である子供の学習意欲スコアを( デ ー タ平均値 )+1.5× (デ ー タの標準偏
差)= 38.4700+1.5×I.9239 = 4I.3559 と指定したことにより, 制御された直後効果の推定値は
窃E =(百+石市)((亙+0 .5)一 (a - O.S))
= (0.9680+0.0835×41.3559)((34.4167+0.5)ー(34.4I67-0.5))

41

48.

=4.4206 となる. 制御された直接効果は, 子供の学習意欲スコアが平均値のときには4.1797 (95%BCCI: 4.0847,4.3119) だったものが, 子供の学習意欲が高い 集団では4.4206 (95%BC CI: 4.3278,4.5540)とやや高くなって おり, 総 合効果に対する処理変数と中間変数の交互作用効果の割合が0.4% からう.1% になっていることがわかる. 出力結果5:子供の学習意欲が高い集団での因果効果の推定結果 ブ ー トストラップ法 デルタ法 ワルド型 推定値 標準誤差 95%信頼区間 総合効果(T.め 6.8421 0.1430 6.5618 7.1224 0.2311 6.3603 7.2954 制御された直接効果( CDE) 4.4206 0.0470 4.3285 4.5127 0.0561 4.3278 4.5540 自然な直接効果(NDE) 4.1509 0.0471 4.0587 4.2432 0.0554 4.0527 4.2820 自然な間接効果(NLめ 2.6912 0.1453 2.4065 2.9759 0.2375 2.2219 3.1670 Percentage Mediate 39.3325 1.3704 36.6465 42.0184 2.2153 34.9090 43.7548 Percentage Due to Inter冨ction -3.1016 0.1220 ・3.3407 -2.8625 0.1583 ・3.4182 -2.8097 Percentage Eliminated 35.3916 1.4217 32.6050 38.1781 2.2902 30.8853 39.9757 効果 標準誤差 95%BC 信頼区間 2つ目のEVALUATEステ ー トメントは,家族数が平均の下0.5SDでかつ社会的身分スコアが平均の上ISO の集団を「望まれる家庭環境Jと定義し , この集団における 因果効果を推定するための記載例である. 結果6 がその実行結果をサマリ 及び社会的身分スコアをデ ー ー 出力 したものであり, 総合効果は6.8969 (95%BC CI: 6.4380,7.3308)と, 家族数 タ平均値とした ときの結果(出力結果3,4) と比べると, わずかだ が高くなっ ている. 総合効果は4つの要素に分解でき, 純粋な間接効果 PIE は2.6338 (95%BC CI: 2.1740,3.0993), 中間 的交互作用 / MD は0.0574 (95%BC CI: 0.0462,0.0677),参照交互作用 /RF は0.0260 (95%BC CI: 0.0002,0.0528), 制御された直接効果 CDE は4.1797 (95%BC CI: 4.0847,4.3119)であった. (95%BCCI: 0.91%,1.55%)であり, 子供の学習意欲と親のサポ ー 交互作用 PAI の寄与割合は1.21% トとの交互作用 は非常に小さ かった. 出力結 果6 では, 自然な間接効果 NIE の寄与割合併)がPercentage mediated(PM)の推定値及び 95%BC 信頼区間に該 当する. PM は39.02%(95%BCCI: 34.52%, 43.56%)と推定され, 親のサポ ー トの子供の認知能力に対する効果 の40%近くが, 子供の学習意欲を通して のものであった. PIE,IMD には共変量及び中間変数は含まれないた め, 出力結果3,4 と同値である. また 中間変数はデフォルトのデ ー タ平均値を用いているため, CDE も出力 結果3,4 と同値になる. 出力結果6:望まれる家庭環境での因果効果の推定結果 寄与割合{%) 因果リスク差 要素 推定値 95%BC 信頼区間 推定値 95%BC 信頼区間 数 効果 Total 総合効果( TE) 6.8969 6.4380 7.3308 100.00 自然な直接効果(NDめ 4.2057 4.1001 4.3374 60.98 56.44 65.48 自然な間接効果(NIE) 2.6912 2.2219 3.1670 39.02 34.52 43.56 制御された直接効果( CDめ 4.1797 4.0847 4.3119 60.60 56.45 64.70 交互作用効果(PA 乃 0.0835 0.0663 0.1004 1.21 0.91 1.55 2 3 42

49.

因果リスク差 要素 数 4 推定値 効果 寄与割合(%) 95%BC 信頼区間 推定値 95%BC 信頼区間 純粋な間接効果(PIE) 2.6338 2.1740 3.0993 38.19 33.79 42.62 制御された直接効果(CDめ 4.1797 4.0847 4.3119 60.60 56.45 64.70 参照交互作用 (/RF) 0.0260 0.0002 0.0528 0.38 0.00 0.82 中間的交互作用 (!MD) 0.0574 0.0462 0.0677 0.83 0.72 0.94 純粋な間接効果(Plめ 2.6338 2.1740 3.0993 38.19 33.79 42.62 3.2.母親の喫煙が乳児死亡にもたらす影響(データセット:Birthwgt) アメリカ保健福祉省(United StatesDepartment Health and human Services)の機関である国立衛生統計センタ 一 (National Center for Health Statistics; NCHS)の統計的調査レポ ートに含まれているデ ー タをとりあげる.乳児 死亡(生後1年未満の死亡)の有無以外に,生まれてきた子供の体重に関する情報,母親の情報 として 喫煙 の有無,出産時年齢,人種,妊娠中の飲酒有無,配偶者の有無,教育歴が含まれている.母親の喫煙の乳児 死亡への因果関係を調べるにあたり,母親の情報を共変量,子供の低出生体重を中間変数 として設定し,中 間変数を経由した 因果関係の大きさを除いた,母親の喫煙 から乳児死亡への直接的な因果関係の大きさを検 討する. 3.2.1.デ ー タ概要 デ ー タセットBirthwgtは,NCHSの統計的調査レポ ートからからランダムに抽出した,2003年の乳児死亡 に関する100,000件のデ ー タである.デ ー タセットBirthwgtに含まれる変数を表3に示した.解析にあたっ ては,文字型変数Death,Smoking,Drinking, LowBirthWgt, Married, SomeC冶liegeを数値化した変数Death2, Smoking2,Drinking2, LowBirthWgt2, Married2, SomeCollege2をもっデ ー タセットBirthwgt2を用意した. 表3:デ ー タセットBirthwgtに含まれる変数の概要 変数名 内容:':�努 Death |乳児死亡の有無 Yes,Noをとる文字型変数 Smoking |母親の喫煙 有無 Ye民Noをとる文字型変数 Drinking |妊娠中の飲酒有無 Yes,Noをとる文字型変数 LowBirthWgt れ吋|変畿内 �;/( ':f'. ""' . I 子供の出生体重 2,500グラム未満ならYes, 2,500グラム以上ならNoをとる 文字型変数 Married |配偶者の有無 Ye民Noをとる文字型変数 SomeColl中 |母親の教育暦 12年以上ならYes,12年未満ならNoをとる文字型変数 AgeGroup |出産時の母親の年齢 20歳未満ならI, 20歳以上 35歳未満なら 2, 35歳以上なら 3をとる数値型変数 3.2ユ SASプログラムと実行結果 反応変数,中間変数,処理変数全てありなしの 2値デ ー タで,総合効果を因果リスク比として定義した解 析を考える.母親の喫煙の乳児死亡への因果効果のうち,どの程度が 子供の低出生体重を介した間接効果で 43

50.

説明できるのかを検討するため, 乳児死亡の有無を反応変数 Y, 母親の喫煙有無を処理変数ム子供の低出生 体重を中間変数 M とし, 妊娠中の飲酒有無 C1 , 配偶者の有無 C2, 母親の教育歴 C3 , 出産時年齢 C4 を共変量 C として, 以下のロジスティック回帰モデルを想定する. logit{P(Y = 1 I A = a, M = m, C = c )} = 80 + 81a + 82m + 83am+84c1+85c2+86c3+871d1+872d2 (17) logit{P(M = 11 A = a, C = c)} =ん+β1a+P 2c1+必C2+んの+Ps1d1+Ps2d2 (18) 出産時年齢は3 カテゴリあるため, 2 つのダミ ー 変数di ,d2 を用意し, 20 歳未満ならぬ = 0,d2= 0, 20 歳以上 35 歳未満ならd1 = l,d2 = 0,35 歳以上ならめ = 0,d2= 1 と定義した. 母親の喫煙有無と子供の低出生体重の交 互作用は, 母親の喫煙有無と子供の低出生体重いずれも 2 値デ ー タであるため, 交互作用の積は I×1=1個 となる. SAS プログラム3 :デ ー タセット Birthwgt に対する実行プログラム data birthwgt2; set bir仕1wgt; ifDeath =’Yes’ then Death2 = 1 ; else if Death = 'No’ then Death2 = 0; ifDrinking = 'Yes’ then Drinking2 = 1; else ifDrinking = 'No・ 曲en Drinking2 = 0; ifSmoking =’Yes' then Smoking2 = 1; else ifSmoking = 'No' then Smoking2 = 0; if SomeCollege = Yes' then SomeCollege2 = I; else ifSomeCollege = 'No, 白en SomeCollege2 = 0; ’ ifLowBirthWgt = Yes then LowBi抽Wgt2 = 1; else ifLowBi巾Wgt='No・ then LowBirthWgt2 = 0; ’ ’ ifMarried = Yes' then Married2 = 1; else ifMarried = 'No’ then Maπied2 = O; ’ run; proc causalmed data=birthwgt2 decomp pmedmod poutcomemod; class LowBirthWgt2 Smoking2 Dea白2 AgeGroup Maηied2 Drinking2 SomeCollege2 / order = formatted ref= first; model Death2 = LowBirthWgt2 I Smoking2; mediator LowBirthWgt2 = Smoking2; COY釘AgeGroup Married2 Drinking2 SomeCollege2; bootstrap bootci(bc) nsamples = 1000 seed = 4989; run; SAS プログラム3 は, デ ー タセット Birthwgt にロジスティック回帰モデル (17), (18)をあてはめ, 因果効果 を推定するためのプログラム例である. デ ー タセット Birthwgt の文字型変数を数値化した変数をもっデ ー タ セット Birthwgt2 を用意した上で, CAUSALMED プロシジャを適用した. CAUSALMED プロシジャは, 反応 変数が 2 値デ ー タで中間変数が連続デ ー タの場合, 反応変数と中間変数ともに 2 値デ ー タの場合にも対応し ている. • CLASS ステ ートメント 反応変数と中間変数がともに 2 値デ ー タの場合,反応変数と中間変数を指定する.乳児死亡の有無 Dea出2, 子供の出生体重 LowBirthWgt2 に加え, 母親の喫煙有無 Smoking2,妊娠中の飲酒有無 Dri此ing2, 配偶者の有 無 Married2, 母親の教育歴 SomeCollege2, すべてカテゴリカルデ ー タであるため, CLASS ステー トメントに てこれらの変数を指定する .ORDER オプションが変数の水準に対する順序を指定するためのオプションであ 44

51.
[beta]
り, REF オプションがどの水準を対照とするかを指定するためのオプションである (大橋ら, 2016). ORDER =
FORM AT TED

REF =FIRST と指定すると, フォー マットがあたった状態で変数ごとにソ ー トしたときの最

初の水準を対照とするため, 0 あるいは l をとる数値型変数であれば ORDER = FORMA'甘ED により 0, I の
順番となり, REF = FIRST により 0 を対照とすることになる. よって, SAS プログラム 3 では,乳児死亡が発
生する確率, 子供が低出生体重となる確率に対してモデル化され, 各モデルパラメ ー タの最尤推定値, 標準
誤差, 信頼区間, 個々のパラメ ー タが O かどうかのワルド型の検定結果が出力される.
ロジスティック回帰モデル( 17), (18)による解析結果を出力結果 7, 出力結果 8 に示した. なお, 反応変数と
中間変数を CL ASS ステ ー トメントには指定せず, MODEL ステー トメント及び MEDIATOR ステー トメント
にてオプション DIST = BIN と指定しでも閉じ結果が得られる.

DIST=BIN と指定するとデフォルトでロジ

ット関数がリンク関数として設定されるため, リンク関数を指定する LINK オプションは不要である.
出力結果 7 :乳児死亡へのロジスティック回帰モデルの結果
パラメ ー タ

推定値

標準誤差

切片項

・6.3365

0.1653

・6.6605

母親の喫煙有無

0.6811

0.1846

子供の低出生体重

3.2859

母親の喫煙有無×子供の低出生体重

95%信頼区間

カイ二乗値

Pr>Chisq

-6.0125

1469.294

<.0001

0.3194

1.0428

13.6184

<.0001

0.1129

3.0648

3.5071

847.8090

<.0001

・0.5603

0.2058

-0.9636

-0.1570

7.4137

0.0065

妊娠中の飲酒有無

-0.3879

0.1693

・0.7198

・0.0561

5.2495

0.0220

配偶者の有無

0.3085

0.0997

0.1130

0.5040

9.5637

0.0020

母親の教育歴

ー0.2144

0.1023

・0.4150

・0.0139

4.3919

0.0361

出産時年齢 20歳以上35歳未満

・0.0339

0.1354

・0.2993

0.2314

0.0628

0.8021

出産時年齢 35歳以上

0.0535

0.1787

・0.2967

0.4037

0.0897

0.7646

出力結果 8 :子供の低出生体重へのロジスティック回帰モデルの結果
パラメ ー タ

推定値

標準誤差

切片項

-2.5678

0.0419

95%信頼区間
-2.6500

カイ二乗値

Pr>Chisq

-2.4855

3747.758

<.0001

母親の喫煙有無

0.3738

0.0372

0.3008

0.4467

100.8877

<.0001

妊娠中の飲酒有無

・0.5019

0.0479

・0.5958

・0.4080

109.7179

<.0001

配偶者の有無

0.4022

0.0275

0.3483

0.4562

213.4873

<.0001

母親の教育歴

・0.0680

0.0272

・0.1214

-0.0147

6.2579

0.0124

出産時年齢 20歳以上35歳未満

・0.0591

0.0395

・0.1365

0.0182

2.2468

0.1339

出産時年齢 35歳以上

0.2572

0.0499

0.1595

0.3550

26.5866

<.0001

出力結果 9 は, 総合効果, 制御された直接効果, 自然な直接効果, 自然な間接効果をオッズ比のスケ ー ル
で評価したときの解析結果である. 母親の喫煙無に対する喫煙有の総合効果はオッズ比のスケ ー ルで 1.6922
(95%BC CI: 1.2460, 2.1233 )と推定された. 制御された直接効果はオッズ比のスケ ー ルで 1.9760 (95%BC CI:
1.2316, 2.7818 )と推定された. SAS プログラム 3 では, LowBiはhWgt2 = 0 (子供の出生時体重が 2,500 グラム

45

52.

以上のとき) , Smoking= 0 (母親の喫煙無) を対照としているため, 制御された直接効果は, 子供の出生体 重が正常なとき(LowBirthWgt2= 0)のときの, 母親の喫煙無( Smoking=0)に対する喫煙有( Smoking= I )の比較 となる. また, 自然な直接効果は, 子供の出生体重が正常なとき( LowBirthWgt2= 0)の母親の喫煙無( Smoking =O)に対する喫煙有( Smoking = I)の比較であり, 自然な間接効果は, 母親の喫煙有( Smoking= I)に固定したも とで,子供の出生体重が正常なとき( LowBirthWgt2= 0)に対する低出生体重のとき( LowBirthWgt2= 0)の比較で ある.オッズ比のスケ ー ルでの自然な直接効果の推定値は 1.4016 (95%BC CI: 1.0289,1.7474),オッズ比のスケ ー ルでの自然な間後効果の推定値は 1.2074 (95%BC CI: 1.1544,1.2795) ,オッズ比のスケ ー ルでの制御された 直接効果の推定値は 1.9760 (95%BC CI: 1.2612,2.690初であった. オッズ比のスケ ー ルで、 の自然な直接効果の 推定値 1.4016 ×オッズ比のスケ ー ルでの自然な間接効果の推定値 1.2074=オッズ比のスケ ー ルでの総合効果 1.6922 であり, オッズ比のスケ ールでの総合効果は, オッズ比のスケ ー ルでの自然な直接効果と, オッズ比 のスケ ー ルでの自然な間接効果との積で表されることが確認できる. 出力結果 9 ・オッズ比のスケ ールでの因果効果の要約 デルタ法 ブ ー トストラップ法 95%信 頼区間 オッズ比 推定値 総合効果 1.6922 0.2120 1.2767 2.1077 0.2223 1.2460 2.1233 制御された直接効果 1.9760 0.3647 1.2612 2.6908 0.4037 1.2316 2.7818 自然な直接効果 1.4016 0.1751 1.0584 1.7448 0.1855 1.0289 1.7474 自然な間接効果 1.2074 0.0299 1.1488 1.2660 0.0312 1.1544 1.2795 標準誤差 標準誤差 95%BC 信頼区間 オッズ比のスケ ー ルでの因果効果の推定値は, VanderWeele and Vansteelandt(2009)に従い, ロジスティック 回帰モデルをあてはめて得られるモテ’ルパラメ ー タの推定値 (出力結果8,出力結果的を使って算出するこ とができる. 稀な疾患ではオッズ比が相対リスク比を近似することから, オッズ比のスケ ー ルでの総合効果 OR TE の推定値は,RR TE にモデルパラメ ー タの推定値を代入して得られる値として算出される. 今回とりあげ たデ ー タでは a = I ,ぷ=0,m = I,m' = 0 であるから, 反応変数 Y と中間変数 M に対してロジスティック回帰 モデル(17),(18)が成り立っとき, i)から iv)の仮定のもとで RRTE,.,exp(81){I+exp(P,。 +P2c1+んc2+んc3+Ps1d1+Ps2ゐ) }/{I+ exp(P0 +β1 +P2c1+んの+んC3+PsI d1+Ps2d2)} ×{ I+ exp(Po+pけん引 +p3c2+んc3+Ps1d1+Ps2ゐ+82+83)}/{ l+ exp(Po+P2c1+んc2+ムc3+Ps1d1+Ps2じ色+82)} (19) TE と近似的に与えられる. よって, OR の推定値は, ロジスティック回帰モデル(17),(18)をあてはめて得られ Po,Pi,Pi, 広広, 広, ι を(19)に代入して得ることができる. 共変量C 、 るモデ ルパラメ ー タの推定値高, 高,高, は(3.2. でみたとおり連続デ ー タの場合にはデ ー タの平均値を代入するが),カテゴリカルデ ー タの場合には, 解析対象となるデ ー タにおいて各カテゴリが占める割合が用いられる. 出力結果 10 :過剰相対リスクスケ ー ルでの因果効果の要約 デルタ法 ブ ー トストラップ法 95% 信頼区間 95%BC 信頼区間 推定値 標準誤差 総合効果 0.6922 0.2120 0.2767 1.1077 0.2223 0.2460 1.1233 制御された直接効果 0.3393 0.1182 0.1077 0.5709 0.1285 0.0933 0.5975 過剰相対リスク 46 標準誤差

53.

ブートストラップ法 デルタ法 95%信頼区間 標準誤差 95%BC 信頼区間 過剰相対リスク 推定値 標準誤差 自然な直接効果 0.4016 0.1751 0.0584 0.7448 0.1855 0.0289 0.7474 自然な間接効果 0.2907 0.0531 0.1866 0.3947 0.0544 0.1972 0.4102 Percentage Mediate 41.9869 8.6189 25.0942 58.8796 21.1500 29.5779 86.1345 Percentage Due to Interaction 12.6572 18.3491 -23.3064 48.6209 38.0302 -45.1271 41.1751 Percentage Eliminated 50.9847 11.9349 27.5927 74.3767 14.8377 18.8777 76.2496 、 出力結果 10は, 過剰相対リスクのスケ ー ルでの総合効果 ERR N E 接効果ERR D ,自然な間接効果 ERR NIE TE , 制御された直接効果ERR CDE ' 自然な直 , PM,総合効果に対する処理変数 と中間変数の交互作用効果の割合 , 、 PEの推定結果である. Percentage MediateにはERRpM (過剰相対リスクスケ ー ルでのPM)×100の推定結果を, Percentage Due to InteractionにはERR I ERR PAI×100の推定結果を, Percentage EliminatedにはERRPE (過剰相 TE 、 対リスクスケ ー ルでのPめ×100の推定結果を, それぞれ示した. 母親の喫煙無に比べて喫煙有の乳児死亡のリスクは69.2% (95%BC CI:24.60, 1.1233)高かった. 子供の出生 体重が正常なとき, 母親の喫煙無に対して喫煙有の乳児死亡のリスクは33.93% (95%BC CI:9.33, 59.75)高かっ た. 子供の出生体重が正常なとき , 母親の喫煙無に対して喫煙有乳児死亡のリスクは40.16% (95%BC CI:2.89, 74.74) %高かった. 母親の喫煙有に固定したもとで ,子供の出生体重が正常なときに対して低出生体重の とき の乳児死亡のリスクは29.07% (95%BC CI: 19.72, 41.02) %高かった. Percentage Mediate(%)の推定値は41.9869 であり , 乳児死亡に与える母親の喫煙有無の影響は, 子供の低出生体重を介した間接効果がかなりの部分を 占めていることが示唆された. ただし, いずれ の指標も 95%信頼区聞がかなり広く, 推定精度の点で問題が あるといえる. 出力結果II:デ ー タセットBirthwgtにおける過剰相対リスクスケ ー ルでの効果の分解 因果リスク差 要素 数 Total 2 過剰相対リスク TE 推定値 0.6922 0.2460 0.4016 NE ) 0.2907 DE ) 自然な直接効果(E� 0.4016 中間的交互作用(ERR/MLう 自然な直接効果(ERR 自然な間接効果(ERR I 3 純粋な間後効果(ERR 3 PIE ) 制御された直接効果(ERR 交互作用効果(ERR PAI CDE) ) PIE ) 純粋な間接効果(ERR 4 95%BC 信頼区間 NDE ) 総合効果(ERR ) 制御された直接効果(ERR 参照交互作用(ERR町 1u. 中間的交互作用(ERR 勺 純粋な間接効果(ERR PIE ) CDE ) 寄与割合(%) 推定値 1.1233 100.00 0.0289 0.7474 58.01 0.1972 0.4102 0.0289 0.7474 0.0253 ー0.0477 0.1202 0.2653 0.2049 0.3393 95%BC 信頼区間 13.87 70.42 41.99 29.58 86.13 58.01 13.87 70.42 3.66 ー12.03 12.04 0.3374 38.33 22.98 98.22 0.0933 0.5975 49.02 23.75 81.12 0.0876 -0.1685 0.4130 12.66 -45.13 41.18 0.2653 0.2049 0.3374 38.33 22.98 98.22 0.3393 0.0933 0.5975 49.02 23.75 81.12 0.0623 -0.1222 0.2978 9.00 -32.41 29.35 0.0253 ー0.0477 0.1202 3.66 -12.03 12.04 0.2653 0.2049 0.3374 38.33 22.98 98.22 47

54.
[beta]
ERRTE = RRTE_ I' ERRCDE =κ[RRCRE _I],ERR/RF= KRRIRF,ERR/MD= KRRl皿,ERRPIE = RRPIEー l
ERR"DE = ERRCDE + ERR/RF,ERR"IE= E�MD + ERR円'E,ERR即  E�RF + ERR/MD , ERRTDE= ERRCDE + EWA[

SAS プログラム 3 においてオプション DECOMP を指定したため,総合効果を分解した結果が出力される.
TE

ただしそれは過剰相対リスクスケ ールでの総合効果ERR を分解した結果となる. 出力結果 II l こ, SAS プロ
グラム3により求まる推定結果を, 表2に対応させてまとめた. 参照交互作用官邸内と中間的交互作用
(£Jm1MD)の和が交互作用効果(ERRPAI)であり, 交互作用効果(E畑
. 町の寄与割合(%)は出力結果 IO  Percentage

Due to Interaction(%)に  致する.

4. おわりに
本稿では, CAUSALMED プロシジャを用いて直接効果, 間接効果を推定する方法について報告した. これ

まで SAS を用いて実行するためには, Valeri and VanderWeele (20I3)が提供した SAS マクロを利用する必要が
あった. しかし, SAS/STAT 14.3 より利用可能となった CAUSALMED プロシジャにより, 反応変数が連続デ


タ,2値デ  タ, 計数デ  タの場合, 処理変数及び中間変数が連続デ  タ,2値デ  タの場合, 共変量が連

続デ  タ, カテゴリカルデ  タの場合, いずれの組み合わせにも対応した解析を行うことが可能となった.
生存時間デ  タが反応変数であるときの因果効果の分解と推定方法についても, これまでにいくつか提案
されている( Lange and Hansen, 20I l ; VanderWeele, 20 l l ). 更に近年では, 現実に直面する状況として, 時間に依

存して変化する共変量(時間依存性共変量) が, 中間変数と反応変数の交絡因子であり, かつ処理変数の影

響を受ける状況に対し,総合効果を直接効果と間接効果に分解し推定する方法が提案されている( VanderWeele

et al.,2014; Taguri and Chiba, 2015). その他, 興味のある中間変数が複数考えられる場合に, 中間変数を介さな

い効果と中間変数を介した効果に分解し推定する方法が提案されている( Daniel et al., 2015; Vansteelandt and

Daniel, 2017; Taguri et al., 2018). 残念ながら, CAUSALMED プロシジャではまだこういった状況には対応で
きていない. しかし3節で示したように, 既存のプロシジャにより得られるモテツレパラメ  タの推定値を用
いることで, 各因果効果の推定値及びその信頼区間を算出することは可能である. もし本稿が, 中間変数を
媒介した悶果推論を行う際の手引書としてお使え頂けたのなら, それは著者らにとって望外の幸せである.

参考文献
[I] Daniel, R., M., De Stavola B., L., Cousens, S.N., and Vansteelandt, S. (20I5). Causal mediation analysis with
multiple mediators. Biometrics, 71, 1-14.
[2] Efron, B. (1981). Nonparame住ic standard errors and confidence intervals. The Canadian journal ofStatistics, 9,
139-172.

[3] E企on, B. ( 1987). Better Bootstrap confidence intervals. Journal of the American Statistical Association, 82, 171185.
[4] Lange, T. and Hansen, Jぷ(2011). Direct and indirect e民cts in a survival context. Epidemiology, 22, 575-581.
[5] M吋oriba出s, K. (1974). Environments for Learning. London: National Foundation for Educational Research
Publications.

[6] Pe訂l, J. Causality: Models, Reasoninι and Inference. The 2nd Edition. Cambridge University Press, 2009 (統計的

48

55.

因果推論ーモデル ・ 推論・ 推測-. 黒木学訳,共立出版,2009). [7] Rosenbaum PR,Rubin DB. (1983). The central role of the propensity sco陀 in observational studies for causal effects. Biometrika, 70, 41 55. [8] Rubin, D., B. (1974).Estimating causal effects of treatments in randomized and nonrandomized studies. Journal of Educational Psychology, 66, 688 701. [9] Rubin, D., B. (2005). Causal inference using potential outcomes: design, modeling, decisions. Journal of 伽 American Statistics Association, 100, 322 331. [ I OJ SAS Institute Inc. (2018). SASISTAT(R) 15.1 User's Guide. SAS Institute Inc., Cary, NC. [11] Taguri, M, and Chiba, Y. (2015). A principle stratification approach for evaluating natural direct and indirect effects in the presence of treatment-induced mtermediate confounding. Statistics in Medicine, 34, 131-144. [12] Taguri,M., Featherstone, J., and Cheng, J. (2018). Causal mediation analysis with multiple causally non-ordered mediators. Statistical Methods in Medical Resea陀h, 27, 3-19. [13] Valeri, L., and VanderWeele, T. J. (20日). Mediation A nalysis A llowing forExposure-Mediator Interactions and Causal Interpretation: Theoretical A ssumptions and Implementation with SAS andSPSS Macros. Psychological Methods, 18, 137-150. [14] VanderWeele, T. J., and Vansteelandt,S. (2009). Conceptual issues concerning mediation, interventions and compositions. Statistics and Its lnteゆce, 2, 457-468. [15] VanderWeele, T. J., and Vansteelandt, S. (20 I 0). Odds ratios for mediation analysis for a dichotomous outcome. American Journal ofEpidemiology. 172, 1339-1348. [16] VanderWeele, T. J., Vansteelandt, S., andRobins, J.M. (2014).E町ect decomposition in the presence of an exposure-induced mediatior[17] VanderWeele, T. J. (2011). Causal mediation analysis with survival data. Epidemiology, 22, 582-585. [18] VanderWeele, T. J. (20日). A three-way decomposition of a total effect into direct, indirect, and interactive effects. Epidemiology, 24, 224ー232. [19] VanderWeele, T. J. (2014). A unification of mediation and interaction: a 4・way decomposition. Epidemiology, 5, 749-761. [20] Vansteelandt, S. and Danile,R., M. (2017). lnterventional effects for mediation analysis with multiple mediators. Epidemiology, 28, 258 265. [21]岩崎学(2015).統計的因果推論. 朝倉書店. [22]魚住龍史・矢田真城 ・ 山本倫生・}||口淳(2017).SASによる傾向スコアマッチング.SASユ ー ザ ー 総会論 文集,263-281. [23]大橋靖雄 ・ 浜田知久馬 ・ 魚住龍史(2016). 生存時間解析応用編-SASによる生物統計. 東京大学出版会. [24]黒木学(2017). 構造的因果モデルの基礎.共立出版. [25]小西貞則(2008). ブ ー トストラップ.シリ ーズ5統計科学の方法 ム ・ MCMC- . 朝倉書店. ブ ー トストラップ·EMアルゴリズ [26]小林虞弘(2018). CAUSALTRTプロシジャによる因果効果の推定:企業の労働生産性に対する人材活用 施策の効果.SASユ ー ザ ー 総会論文集,337. [27]田栗正隆(2014). 直接効果 ・ 間接効果の推定および未測定の交絡に対する感度解析.統計数理,62, 59-75. [28]回栗正隆(2017). SASによる因果推論:CAUSALTRTプロシジャ の紹介SASユ ー ザ ー 総会. 49

56.

https・://www.sas.com/content/dam/SAS/jajp/doc/event/sas-user-groups/usergroups20 l 7-a-04.pdf [29]中尾治子(2018). CAUSALTRTプロシジャを用いた傾向スコア解析について.SASユ ー ザ ー 総会論文集, 289-296. [30]馬場崇充 ・ 藤原正和 ・ 北西由武(2017). PSMATCH P rocedurexニュ ー ラルネットワ ー クの奇跡のマッチン グ~Real World Dataの利用可能性を付度する~.SASユ ー ザ ー 総会論文集,394. [31]星野崇宏(2009). 調査観察デ ー タの統計科学一因果推論 ・ 選択バイアス ・ デー タ融合,岩波書店. [32]宮川雅巳(2004). 統計的因果推論一回帰分析の新しい枠組みー. 朝倉書店. [33]山本倫生・森田智視(2015). 傾向スコアによる調整解析. 呼吸,34, 1187-1193. [34]証金芳,桜井裕仁(2011). ブ ー トストラップ入門. 共立出版. 連絡先 らmail: yada-s@α2healthcare.com 50

57.

CAUSALGRAPHプロシジャによる因果効果の識別 0矢田真城 l ェイツ ー l 魚住龍史 2 ヘルスケア株式会社デ ー タサイエンス本部生物統計第l部 2 京都大学大学院医学研究科医学統計生物情報学 Identifシing causal effects using CAUSALGRAPH procedure Shi吋o Yada I and Ryuji Uozumi 2 1 Biost,αtistics Department/, Data Science Division, A2 Healthcαre Corporation 2 Department ofBiomedical Statistics and Bioinformαtics, Kyoto University Graduαte School of Medicine 要旨 統計的因果推論における主要課題のひとつとして, 因果効果の識別可能性問題がある. SAS では, SAS/STAT 15.1 l こて追加された CAUSALGRAPH プロシジャにより, 変数聞の因果関係を記述することで, 興味のある 因果効果を識別し, 推定するために必要となる変数集合を導出することが可能となった. 本稿では, 有向グ ラフを用いた因果効果の識別可能性条件についてまとめ, CAUSALGRAPH プロシジャを用いた適用例を報告 する. キ ー ワ ー ド: CAUSALGRAPH 構造的因果モデル, 因果効果の識別可能条件, パ ックドア基準, 操作変数 1. はじめに 因果関係と相関関係は異なる. 2つの変数の問に, 一方の変数の値が大きいときに他方の変数の値も大き くなる(あるいは小さくなる)という直線的な関係があるとき,2つの変数の聞には相関関係があるという. これに対して, 一方の変数の値を変化させたときに他方の変数の値も変化するときに, 2つの変数の聞に因 果関係があるという (立森, 2016). 以下, 一方の変数の値を変化させることを外的操作(intervention)とよぶ. 清水(2016)は, Messerli(2012 )のレポ ー トを例にあげ, 相関関係と因果関係の違いを説明している. ある2つの要因 X,Y に対し, XとYとの聞に相関関係が認められた場合, 「XがYを引き起こす」, rr がX を引き起こす」という2つの可能性が存在する. 「XがYに影響を与え,かっYがXの原因になることはなし、」 ことを 「X→YJと符号化するとき, この2つの因果関係は, X→ y (X がYを引き起こす), X<← y (Y がXを 引き起こす)と表現できる. 更に3つ目の可能性として, rx とYとの聞に因果関係はないが, XとY双方に 影響を与える潜在的な要因が存在し, この潜在的な要因のためにXとYに相闘がみられた」 ことが考えられ る. このように, 得られたデ ー タから相関関係がみられたとしてもそれは必ずしも因果関係を意味するとは 限らない. ある要因聞に相関関係がみられた場合に, その要因聞の関係は因果関係であるのか, その要因間 51

58.

に影響を与えるまた別の要因が存在し, この要因によってもたらされた関係であるのか, これらを検討しな いまま行った解析結果は, 誤った推論に基づく無益な対策を導きかねない. 要因問の関係が因果関係によって生じたものかを定めることは難しい. 因果関係か否かを評価するための 基準を最初に提唱したのは, 1964 年の米国公衆衛生局総監による喫煙と肺がんに関するレポ ー トである. Hill(1965 )が提案した因果性の基準は, このレポ ー トを改変したものであり, 関連性の高い変数聞に因果関係 があると判断 する前に考慮 すべき側面として, 強固性, 一致性, 特異性, 時間性, 生物学的用量関係, 説得 性, 整合性, 実験的証拠, 類似性の 9 項目を挙げた. Rothman(2012 )は, これら 9 つの基準のうち, 因果関係 であるかどうかを判断できる基準は「原因は結果に先行 する」という時間性のみであり, これ以外の基準は 不明確であるか多くの場合あてはまらないこと, 因果の推論においては, 因果性の基準を用いたチェックリ ス ト法は避け, 推測と反証などの方法を考慮したほうがよいと述べている. 、 統計学的に因果の推論を行う方法は,Rubin の因果モデ ル( Rubin, 1974, 2005 )と構造的因果モデノレ( Pearl, 1995, ‘ 2009 )という 2 つの因果モデ ルを中心に発展してきた. SAS では, 特にここ数年の聞に, 統計的因果推論の方 法を用いるためのプロシジャが提供されている. SAS ユ ー ザ ー 総会においても, PSMATCH プロシジャを用 いた傾向ス コアマッチングの適用例の紹介(魚住ら , 2017 ;馬場ら , 2017), CAUSALTRT プロシジャを用いた 因果効果の適用例の紹介(小林, 2018 ;田栗, 2017 中 , 尾, 2018), CAUSALMED プロシジャを用いた効果の分解 に関する適用例の紹介( 矢田ら , 2019 ) が行われてきた. 本稿でとりあげるプロシジャは, CAUSALGRAPH プロシジャである. このプロシジャは SAS/STAT 15.1 に て新しく追加されたプロシジャであり, 変数聞の因果関係から, 興味のある因果効果を識別し推定 するため に必要となる変数の集合を導出するプロシジャである. 因果効果の識別可能性問題は, 統計的因果推論にお ける主要課題のひとつであり,これまでにも数多くの因果効果の識別可能条件が提案されてきた.本稿では, 有向グラフを用いた因果効果の識別可能条件として,代表的な基準を解説し, CAUSALGRAPH プロシジャを 用いた適用例を紹介する. 2. 有向グラフを用いた因果効果の識別可能条件 本稿でとりあげるグラフとは,頂点集合Yと頂点を結ぶ辺集合Eにより G=(V, めとして表現される図のこ とである. 異なる2つの頂点、α,βε V (α#β)に対し, (α, P )と似α)は同ー として,αとβを辺で結ぶことによっ て得られる線のことを, α とβを結ぶパス ( path )とよぶ. パス は道と表記されることもあるが,本稿では パス で統 一 する. αとβを結ぶノ〈 ス にα→ ·P,,α←→·P,P←αの少なくともいずれかひとつを割り当てたとき, グラフの 全ての辺は向きをもった矢線のみとなり, これを有向グラフという. ただし, ひとつの辺に対して, 同じ向 きをもっ矢線を複数割り当てることはしない. またひとつの頂点に対して自分自身に向かう矢線は考えない ものと する. 2つの頂点α,β(α=t=p)に対してαからβ へ 矢線が向かっているとき(即ちα→βのとき),αはβ の親であるといい,βはαの子であるという. 異なる頂点の列αo,αI,…,αn に対し, 全てのi = 1, 2 ., 吋n について(α仙向)と(α,,a;.1)は同ー として,α。とαn を 、 結ぶパス のうち,α。から矢線の順にたど っていくとαn に到達するとき, これをα。 からαn への有向 パス とい い,α。とαn をこの パス の端点という. 有向パス 以外の パス は総称して非有向 パス とよばれる. 有向 パス を因 果 パス ( causal path ), 非有向パス を非因果ノ号 ス ( non-causal path )とよぶこともあるが, 本稿ではそれぞれ有向 パ ス , 非有向 パス で統 一 する. αからp への有向パ ス が存在 するとき,αはβの先祖であるといい,βはαの子 孫であるという. αは F の先祖であることを,αはβの上流にあるといい, F はαの子孫であることを,βは 52

59.

αの下流にあるということもある. α。からαnへ の有向パスでα。=α”となるもの,つまり矢線の順にたどっていくと始点のα。に戻ってくるもの を巡回閉路という.有向グラフのうち,巡回閉路が存在するグラフを巡回的有向グラフといい,巡回閉路が 存在しないグラフを非巡回的有向グラフ(directed acyclic graph; DAG)という. 構造方程式モデルは,変数聞の従属関係を表現した線型あるいは非線型の方程式である.有向グラフを用 、 いた因果推論では,デー タ生成過程を記述した定常的で自律的な構造方程式モデ ルを用いる.このデー タ生 事 成過程を記述した自律的な構造方程式モデルが,Pearl の提案した構造的因果モテ ル(structural causal model)で ‘ あり,Pearl 流の因果推論では,この因果モテ ルを用いて因果関係が記述される.有向グラフは,変数聞の因 e 果関係を抽象的に取り扱うために有用なことから,構造的因果モテ ルを用いて因果関係を記述する際には用 いられることが多い.以下では,構造的因果モデルに ついて簡単にまとめた上で,因果効果の識別可能条件 として, パ ックドア基準,フロントドア基準,操作変数を紹介する. 、 2.1. 構造的因果モデ ル 解析対象となるp個の変数X1,X2,…,XP の集合をV = {X1,X2, … ,Xp}とし,これら変数閑の因果関係を表し ) l 、 . . . ,、 , , た因果ダイアグラムGに対して,因果モデルを記述する関数関係を xj =五(pα(弔),今) (j =I, 2, … , p) によって規定する. pa()0)は再の親全体からなる変数集合であり,J時の直接原因(direct cause)とよばれる.錯 乱項Ej は,)0の挙動に影響を与えるが G には登場しない変数をひとまとめにした変数を表す.錯乱項の分布 及び関数万の型は特に規定していない.また(1)では,錯乱項E1 , E2 , … , Ep がEいに独立であることを仮定して いるが,必ずしもその仮定が満たされなくてもかまわない.例えば, 図!(a)のグラフでは4つの錯乱項E1 , Ez, E3 , E4 ,は全て互いに独立であるが,図 l(b)のグラフではE1 とE4 との聞に従属関係が成立している. Pearl 流の因 果推論では,因果ダイアグラムに錯乱項を描かないことが慣習となっているため (黒木・小林, 2012),本稿 でもそれに倣い,特に必要性のない限り錯乱項を表示させないものとする.以降では,非巡回的有向グラフ に限定する また,X1,X ふ …, L は全て離散型確率変数である場合を想定している.連続型確率変数の場合に は,確率変数の定義を考慮しながら加法表現を積分表現に置き換えて頂きたい. (ゆ錯乱項が互いに独立である場合 (b)錯乱項に従属関係がある場合 eI \/ 、x\ I � \ 〈 〈 C:3 図I : 4つの変数X1, Xi, Xi, X4の関係を示した有向グラフ 53 C:3

60.

図2は, 図I(a)のグラフから錯乱項を非表示にした因果ダイアグラムである. この因果ダイアグラムに対す e る構造方程式モテ ルは (日(t:1) X2 =ん(X1,E2) X3 =ん(X2,E3) X4 = f4(X1 ,X2,X3,e4) (2) となる. 構造方程式は,それぞれが客観的な知識に基づく普遍的なデ ー タの生成過程を記述し,左辺の変数 は右辺の変数の原因とはならないこと,右辺の変数によって左辺の変数が生成されその逆は起こらないこと を意味する. また,構造方程式はそれぞれ独立したメカニズムを表しており,ある構造方程式に対して外的 操作を行ってもそれ以外の構造方程式はそのまま利用することができる. X4 = f,.(X1 ,X2, X3,e4)を例にとると, 現在のふの値がどうであろうと,X4以外の構造方程式にどのような変化が起こったとしても,X 1=x1,必=x2, X3 = X3,e4 = e4という値をとるときには, X4は必ず関数 /t. によって規定される値f,. (x 1 ,x2,XJ. e4)をとることを表 している. ノ·� �x/ 図2:4つの変数 X 1 ,X2,あ,Aの因果ダイアグラム . Xp = 構造方程式モデル(I)により変数聞の関係を規定するとき, X1,X2, …,XPの同時分布p( X, = Xi,X2 = X2,.., Xp ) = p(X1,X2, …,Xp )は (3) ..,xp ) = m=1 P(巧IPα(巧)) p(x 1 ,X2 , . と逐次的に分解することができる(Pearl, 2009).ここにp句Jpa(ろ) )はpa(弔) =pa(ろ)を与えたときのJ号の条件っ き分布であり,pa(弔) が空集合のときには弔の周辺分布p(引を意味するU =I,2,…,,p )・(3)は,ベイジアンネッ トワ ー ク(Gi e ge reta/.,1990;Pearl, 1988)を表現する逐次的因数分解と同じ形式であり,例えば(2)に対応する同 時分布の逐次的因数分解は p( xi ,x 2 ,x3 ,x 4) = p(x4 Jx 1 ,x 2 ,x3)p( x3 Jx 2)p(x 2 Jx 1 )p(x1) ( 4) となる. このように変数聞の関係を関数化することで,外的操作を行ったときの効果を対応する分布の変化 として捉えることができる. 最も簡単な外的操作は,ある単 一 の変数を定数に固定することである. 自律性 の仮定により,変数xk を定数X k に固定することは,Lに対応する構造方程式を定数関数 Xk =xkに置き換え, 他の変数に対する構造方程式のぬをX k とおくことを意味する( k=Iム…,,p ). このような介入は原子的(atomic) とよばれ(Pa e rl, 1995,2009),記号”do ”を用いてdo(必=xk )と表記,あるいは記号、et”を用いてset(Xk =xk )と表 記される. 本稿では,原子的外的操作を記号”do”を用いた表記で統 一する. 、 外的操作曲(あ=xk )により,構造方程式モデ ル(I)は ド=伽仙) U = l. 2, ,p;j=t-k) xk = xk (5) に変わり, 同時分布p(x1,X2, …,Xp )は 54

61.

(6) p(x 1 ,X2 ,... , xp ldo(Xk = xk )) = m=l;j 吋 p(xj lPα(巧)) に変わる. (6)の左辺は, 構造方程式モデル(I)において,Lに対応する構造方程式を定数関数に置き換えたと きの集合Yとれ={Xk}との差集合 V\れ の同時分布を意味する. (6)の右辺は, 同時分布逐次的因数分解(3)に おいてp(xk Ipa(xk))をlに置き換えたものと同じであり, ん=xk に固定するという外的操作を実際に行うと確 実に定数Xk をとると仮定していることを意味する (黒木・小林,2012). 因果ダイアグラムに関していえば, 外的操作do(芯=xk)によって得られる構造方程式モデルに対応するグラフは,Lへ向かう全ての矢線を取り除 いたグラフである(Spirtes et al., 1993). 例えば, 図2の因果ダイアグラムにおいて, 外的操作為=x2 が行われ ると, 構造方程式モデルは =f,(,) X2 = Xz r X3 =ん(Xz,E3 ) X4 =ん(Xi ,x 2 ,X3 , t:4 〕 (8) 同時分布は p(xi ,x 3 ,x4 jdo(X2 = x2 )) = p(x4 lx1 ,x2 ,x 3 )p(x3 jx2 )p(x 1 ) (9) となり,これは図2において,Aに向かつてくる矢線(X1 → お)を取り除いて得られる因果ダイアグラムに対応 していることがわかる(図3).以下では,グラフGにおいてXへ向かう全ての矢線を取り除いたグラフをGx ,X から出る全ての矢線を取り除いたグラフをGx と表記する. · 例外的操作do(X2 =x2)後 例外的操作品偽 = x2)前 /\\ X2 X2 X」 � X4 �x/ノ �x/ノ 図3:図2において外的操作品(お=x2)を表現したグラフ. (a)は図2の再掲, (b)が外的操作do(X2=x2)を行っ た状況に対応するグラフである. 2ユ 代表的な因果効果の識別可能条件 (6)をp(xk Ipa(xk))で‘割った p(xi,x2,~Xp ldo(Xk = xk )) = p(x1 ,x 2,…,xp ) /p(xk jpa( xk )) に対し p(x 1 ,x 2 ,...,xp ) = p(x i ,x 2,…,X p lx k ,pa( xk ))p(xk ,pα(xk )) p(xk lpa(xk )) = p(xk ,Pα( xk ))fp(pα(xk )) を代入すると p(x1,X2,~ xp ldo(Xk = xk )) = p(x1 ,x 2,…,Xp l xk ,pa(xk ))p(pa( xk ) ). p(yjdo(Xk = x k )) = L p a(xk) p(yl xk,Pα( xk )) p(pa( xk)) 、‘.,F l l ( Y={XkUpa(る)}とおき,YUXk を除く全ての変数について(I 0)の和をとることにより (1 0) を得る. この確率分布をおから Yへの因果効果と定義する( Pearl, 20 09). (11)は,変数xkに対してp叫ん)が全て観測されたのであれば,外的操作品(あ=xk)を行う前の分布から外的 55

62.

操作品(必=xk)を行った後の分布を推測できることを意味する. 実際には,pa(あ)のいくつかの要素が観測で きないような状況のもとで因果効果を評価することが多く, 従って, 因果効果を適切に推定するために必要 となる変数集合を認識することが重要となる. によって 一 「 因果効果が識別可能」とは, 因果効果が観測変数の同時分布 意に記述できることを意味し, 観測されたデ ー タとこれら観測デ ー タの因果関係を規定した因果 ダイアグラムとから,外的操作X=x を行ったときのXから Y への因果効果が推測できることを保証する( Pearl, 2009). 以降では, 有向分離( d・ separation)の定義を示した上で, 因果効果の識別可能条件として, パ ックドア 基準, フロントドア基準, 条件付き操作変数について説明する. I) 有向分離の定義 XとYを結ぶ全てのパスそれぞれについて, {XUηと排反な変数集合Zが以下の2つの条件のいずれかを 満たすとき,ZはXとYを有向分離する(あるいはブロックする)という. ·X とYを結ぶパス上に非合流点で, z に含まれるものがある. ·X とYを結ぶパス上に合流点で, その合流点とその子孫がZに含まれないものがある. 特にXとYを結ぶパスが存在しないとき, 空集合がXとYを有向分離するという. 有向分離基準と条件付き 独立性との関係には次の定理が成り立つことが知られている. -非巡回的有向グラフGにおいて,ZがXとYを有向分離するならば,Gと整合する全ての確率変数に おいて,Zを与えたときにXとYは独立する. ・非巡回的有向グラフGにおいて,ZがXとYを有向分離しないならば,Gと整合する確率変数のうち 少なくともlつについて,Zを与えたときにXとYは従属する. 例えば図4では,XとYを結ぶパスはX→Z1 →る←る←Yのみであるから, このl本のパスについて, 興味 のある変数集合Zが上の2つの条件のいずれかを満たしていれば,ZはXとYを有向分離することになる. 非合流点Z1 ,Z3 を含む変数集合{Zi}, {Z3}, {Z1 , Z2}, {Z1 ,Z3}, {み,Z3}, {Z1,Z2,Z3 }は,非合流点、であるZ1あるいは みを含んでいることから, 2 つ目の条件を満たす/満たさないに関わらず, 全て X と Y を有向分離することが わかる. 空集合は非合流点Z1,るである含まないので, 1つ自の条件を満たさない. しかし, 合流点である Z2 を含まないので,2つ目の条件を満たすことになり, 空集合はXとYを有向分離することがわかる. {Z2} を考えた場合, この集合には非合流点、Z1 ,Z3 が含まれないので,lつ目の条件を満たさない . x とYを結ぶパ スには, 合流点はZ2のみしかなく,かつ石は子孫をもたないため,2つ目の条件を満たさない. よって, Z = {石}はXとYを有向分離しないことがわかる. (\/( X y 図 4 :有向分離を説明するためのグラフ. Z = {Z2}は X と Y を有向分離しない. 56

63.

2) パ ックドア基準 Pearl(I993)が示した パ ックドア基準は, 変数集合 zc;;;;v がXからYへの因果効果p(y I do (幻=x))を識別可能 とするために十分で、 あるかどうかをグラフイカルに検出する基準である. 非巡回有向グラフGにおいて,XはYの非子孫、であるとする. このとき, 以下2 つの条件を満たす変数集 合Zは(Xη , について パ ックドア基準を満たすという. (i) z はXの子孫ではない (ii)グラフGx において,ZがXとYを有向分離する 林・黒木(2016)は, 因果ダイアグラムにおける頂点を人工池に, 矢線を水路に,XからYへの因果効果を人為 的操作により人工池Xの水位を変動させたときの人工池Yの水位の変動に例え, パ ックドア基準をわかりや すく説明している. その例えに従うと, 条件(i)ははの下流にある変数はZに含まれなし、」, 条件(ii)は「Xか ら出る矢線を全て除いたグラフにおいて,Xへの有向パスとYへの有向パスの両方をもっ変数から,XとY の両方に影響を与える流れをブロックするJという意味になる. 変数集合Zが (X. ,ηについてパ ックドア基準 を満たし,乙 X,Yいずれも観測されているのであれば,XからYへの因果効果は識別可能で、 あり, (12) p(y!do(X = x)) = L z P(ylx,z)p(z) で与えられる. (X. η , について パ ックドア基準を満たす集合Zは,Rosenbaum and Rubin (1983)が因果効果の推 定に対して与えた概念である条件っき無視可能(conditional ignorability)を満たすことが知られている. (b)グラフGx (a)因果ダイアグラムG x, \/\ \//\\/ 一一→ -→ X x6 •X2 X1 こ X2 Y X / ん 一一→ Y 図5: パ ックドア基準を説明するためのグラフ 、 例えば,図5(a)において,(X.,ηについて パ ックド ア基準を満たす最小の変数集合は,Z= {X3,X4 }, {ん,Xs }, {X1,X4 }, {X ふ ん}である . x からYへの有I古]パス上lこ存在する変数はんであり, よって条件(i)からんはZに は含まれない.図5(a)にてXから出る矢線を全て除いたグラフGx (図5(b))を眺めると,Z= {X ふ ん} , {X4,Xs }, {Xi, X4}, {X2, X4}が,XとYとを結ぶパスをブロックする最小の変数集合で、 あることがわかる. このように, パ ックドア基準を適用することによって,XからYへの因果効果を推定するにあたり必要となる変数をグラ フイカルに絞り込むことができる. なお,図5(a)においては, 条件(i), (ii)を満たす変数集合は表Iのとおり合 計15組存者Eし, その中で上記4組が最小の変数集合となる. 57

64.

表1 :図5において パ ックドア基準を満たす変数集合のリスト X の Y への因果効果 変数集合 要素数 2 {Xi,X4}, {X2,X4}, {X3,X4}, {X4,Xs} 3 {X i ,X2,X4}, {X1,X3,X4}, {X i ,X4,Xs}, {X2,X3,X4}, {X ふ ん,Xs}, {X ふ ん,Xs} 4 {X1,X2,X ふ ん} , {X1,X2,X4,Xs}, {X1,X3,X4,Xs}, {X2,X3,X4,Xs} 5 {X1,X2,X3,X4,Xs} 3) フロントドア基準 更にPearl(l995, 2009)は,フロントドア基準とよばれる,変数集合 z三 v がXからYへの因果効果p(y I do(X =x))を識別するために十分かどうかを検証する基準を示した. 非巡回有向グラフGにおいて,XはYの非子孫であるとする. このとき, 以下3つの条件を満たす変数集 合Zは (X, ηについてフロントア基準を満たすという. (a)XからYへの任意の有向パス上にZの要素が存在する (b)グラフGxにおいて, 空集合がXとZの任意の要素を有向分離する (c)グラフGzにおいて,XはZの任意の要素とYを有向分離する 変数集合Zが(X, ηについてフロントドア基準を満たし, Z,X,Y いずれも観測されているの であれば,Xから Yへの因果効果は識別可能であり, ’ ’ (13) p(yldo(X = x)) = Lz P(zlx) L,p(ylx ,z)p(x ) で与えられる. ここにどは Xのとり得る値を表す. なお,Zに含まれる頂点がlつだけの場合,(b)と(c)はそ れぞれ (b ’ )グラフ G において, 空集合が(X,Z)について パ ックドア基準を満たす ‘ (c’ )グ ラフ G において, Xは(乙ηについてパ ックドア基準を満たす と書き直すことができる. フロントドア基準は, パ ックド、ア基準の条件(i)を満たさない変数集合, 即ちXか らの影響を受ける変数を, どのように使えば XからYへの因果効果を識別することができるのかを示した墓 準といえる. 例えば図6 では Z= {X2}が(X,ηについてフロントドア基準を満たす. x, //\\ X一一→為一一→Y 図 6 :フロントドア基準を説明するためのグラフ ところで, 図6 では Z= {Xi}が(X,ηについて パ ックドア基準を満たす. この例が示すとおり, 適用する基 準によって検出される変数集合が異なることがおこりうる. このため, 実地においては, どの基準を用いて 因果効果を識別する変数集合を検出すればよいのかが問題となる 図6において,XとYとの聞に直接的な 因果関係がある場合, つまり XからYへの有向パスとしてX→ X2→Y以外に X→Yを想定する場合, (λcηに ついてフロントドア基準を満たすZ={ん}を用いて(13)により因果効果を推定すると,一般にバイアスが生じ 58

65.

る. 一方, (X,ηについてパ ックドア基準を満たすZ = {Xi }を用いて(12)により因果効果を推定しでもバイア スは生じない . x とYとの聞に矢線を号|かないということは,XとYとの聞に直接的な因果関係はないとい う強し、主張を意味することを考えると, フロントドア基準よりも パ ックドア基準を用いたほうがよいという ことになる(黒木, 2017). 4) 条件付き操作変数 因果効果が識別不能となるケ ー スのひとつとして,XからYへの矢線がありXとY双方に向けての矢線を もっ変数が未観測変数である場合があげられる. 図 7 にその一 例を示した. 図 7(a)において, (X,ηについて 、 パ ックド ア基準を満たす最小の変数集合は {Xi , X3,X5 }, {Xi ,X4,X5 }であるが, 図 7(b)に示したようにXi , X5 が 未観測であるならば, パ ックドア基準を利用してXからYへの因果効果を識別することはできない. また, XからYへの有向 パ ス上に変数が存在しないため, フロントドア基準を利用してXからYへの因果効果を識 別することもできない. しかし, 条件付き操作変数を用いると, このような場合で、 あってもXからYへの因 果効果が識別可能となる. 非巡回有向グラフ G において, 以下の Al,A2 を満たす変数集合 Z を, 変数集合 W を与えたときの(X,ηに 対する条件付き操作変数であるという. (Al) Z とWに含まれる任意の頂点はX及びYの子孫ではない (A2)グラフGx において,WはZとYを有向分離するが,ZとXを有向分離しない (砂金ての変数が観測変数の場合 (b)Xi,Xsが未観視tl変数の場合 (c)Xから出る矢線を除いたグラフ � 1てr� L4グ i:�じ I4プ 1て r プ 図7:条件付き操作変数を説明するためのグラフ. (b}, (c)では未観測変数に破線の枠をつけた. 図 7(b)では, Z ={あ}がW= {X ふ ん}を与えたときの(X, ηに対する条件付き操作変数となる. 図 7(a)におい て,ZとWに含まれる{X2,X3,X4}はX及びYの上流にあるため, 条件(Al }を満たす . x から出る矢線を全て 除いたグラフ(図 7(c))において,WはZとYを結ぶ パ スをブロックするが,ZとXを結ぶ パ スはブロック しないため,条件(A2)を満たす. 以上により,図 7(b)においては,(X, ηに対する条件付き操作変数は Z ={お} であり, 条件付ける変数集合は{X2,X4}であることがわかる. 3. CAUSALGRAPHプロシジャの適用例 本節でとりあげる事例は, パ ーフルオロアルキル化合物(perfluoroalkyl substances; PFAS )への母親の曝露 が母乳期間に与える影響である. 母乳の開始と期間は, 主に本人の意思と社会的要因に依存すると考えられ てきたが, 近年の研究にでかなりの割合の母親が望まない早期離乳を経験したことが示されている. 早期離 59

66.

乳を誘導する要因のひとつとして母乳不足があげられており,環境化学物質が母乳不足の原因である内分泌 撹乱物質となる可能性が指摘されている. PFAS は,数多くの商品で使用されている化学物質であり,人体への影響が懸念される. Fei et al.(2010)は, 母親の血清中 PFAS 濃度の増加に伴い母乳期間が短くなってしまうという結果を得た. ただしこの結果は, 多産婦のみを対象として得られたものであり,それまでの母乳育児経験が交絡を起こしている可能性がある. そこで Timmermann et a/.(2017 )は,初産婦及び多産婦を対象に,母親への PFAS 曝露と母乳期間の因果関係を 明らかにするために,フェロー 諸島での出生コホ ートデ ー タを用いた解析を行った. 以下,まず CAUSALGRAPH プロシジャの文法について簡単に説明する. その後,CAUSALGRAPH プロシ ジャの適用例として Timmermann et al.(2017 )を参考にした因果モデルをとりあげ,出力結果の解説を行う. 3.1. CAUSALGRAPHプロシジャの文法 本節では,CAUSALGRAPH プロシジャで指定可能な 5 つのステ ー トメントについて,簡単に説明する. 詳 細は,SAS のマニュアル(SAS Institute Inc., 2018 )を参照されたい. I) PROC CAUSALGRAPH ステ ー トメント • METHOD =オプション 変数聞の因果関係を示した有向グラフに適用する,因果効果の識別条件を指定する. 変数聞の因果関係は 後述する MODEL ステ ー トメントにて規定する. METHOD = BACK.DOOR と指定すればパ ックドア基準が, METHOD = IV と指定すれば条件付き操作変数が, それぞれ用いられる. デフォルトの設定は METHOD = ADJUSTMENT である. この指定は,Shpister et a/.(2010)が提案した調整基 準( adjustment criterion)を適用するためのオプションであり,van derZander et al.(2014)が提案した constructive パ ックドア基準( constructive back-door criterion)と同 一 であることが知られている. Shpister et a/.(2010)は,頂点 集合Vと辺集合Eから構成される非巡回的有向グラフ G=(V. め , において,変数集合 ZEV が以下の条件を満 たすとき,Zを(X,ηに対する調整基準と定義した. (Bl) Z は,グラフGx におけるXからYへの有向パス上にある変数の子孫を含まない (B2)Z は,グラフ G における全てのXからYへの非有向パスをブロックする 調整基準は,パ ックドア基準を一 般化し (14) p(yldo(X = x)) = Lz P(ylx,z)p(z) を満たす全てのかっ唯 一 の変数集合を与える基準である. 変数集合Zが(X,ηについて パ ックドア基準を満た すならば,Zは(X,,ηについて調整基準を満たす. しかし その逆は必ずしも成り立たない. 例えば図 8(a)では, Z= {Zi } はXの子孫であるため,(14)を満たす Z であるにも関わらずパ ックドア基準を満たさない. しかし, Z= {Zi } は調整基準を満たす変数となる. 図 8(b)では,グラフからXへ向かう矢線全てを除いたグラフにて, XからYへの有向パスはX→ Z2→Yであり,( Bl )より Z2 は調整基準を満たさない. 図 8(b)のグラフにて,Xか , , らYへの非有向パスはX←z →Yであり,z はこのパスをブ ロックする. よって図 8(b)では Z= {Zi } が調整基 P 準を満たす変数となる. 図 8(b)では Z= {Zi } はパ ックドア基準の条件(i), (ii)を満たし,よって Z= {Zi } は パ ッ クドア基準も満たす変数となる. このように,調整基準は,構造的因果モデルにおいて,(14)を満たし Z を 条件付けたもとでXからYへの因果効果を識別する全てのかっ唯 一 の変数集合を検出する基準であり, その 意味で完全なグラフイカル基準であるといえる. 60

67.

(a)調整基準とパックドア基準で異なる (b)調整基準とパックドア基準が同一 Z1 / X y X Z1 Z2 y 図 8 :調整基準とパックドア基準との違いを説明するためのグラフ. (X,ηについて, (a)ではパックドア基準 を満たす変数は存在しないが, Z1 は調整基準を満たす(b)ではZ1が調整基準を満たす変数でありパックドア 基準を満たす変数でもある. ・ 臥11P = オプション ある確率分布 p(x)において規定される全ての条件付き独立性が, あるグラフにおいて満たされるとき, そ のグラフをその分布に対する独立性マップ( independence map)とし、う. MODEL ステ ー トメントにおいて規定 される変数問の因果関係を示した有向グラフに対して, IMP = GLOBAL と指定すると大域的マルコフ性が, IMP = LOCAL と指定すると局所的マルコフ性が, それぞれ満たされる. デフォルトの設定は IMP = LOCAL である. 無向グラフgが互いに重なりをもたない3つの部分グラフ9 1 , 92, 93から構成されるとする. 93の頂点と全 ての辺をgから取り除いたとき,9 1 とのが連結していない 2つのグラフに分離される性質のことを大域的マル コフ性とよぶ. 局所的マルコフ性とは, 無向グラフgにおいて, 任意の頂点x,に対して, 近傍の頂点、jE三pa(x;) の全ての確率変数を固定さえすれば, x;の確率分布は残り全ての頂点に対応する確率変数と独立となる性質 のことである(瀧,20I 7). 大域的マルコフ性をもつならば局所的マルコフ性をもち, p(x) > 0ならば大域的マ ルコフ性と局所的マルコフ性は等価であることが知られている. 本稿でとりあげている非巡回的有向グラフGが大域的マルコフ性を満たすことは, 変数集合ZがXとYを有向分離するならば XliYIZ (P) が成り立つことを意味する. また, 非巡回的有向グラフ G が局所的マルコフ性を満たすことは XJl(nd(均\pa(幻) lpa(劫 ( Q) が成り立つことを意味する.ここに nd(めはXの非子孫全体の集合であり,nd(め\pa(めが空集合のときには( Q) は XJlnd(X)を表す. IMP = LOCAL と指定することは, 因果ダイアグラム G によって規定されるデー タ生成 過程に対応する同時分布が, Gに従って逐次的に分解できることを意味する. 2)M0DEL ステ ー トメント 、 ユニ ークな因果モデル名を引用符(’あるいは”)でくくった後, 当該因果モデ ルに存在する変数聞の因果関 係を, ひと組ずつカンマ(,)で区切って指定する. MODEL ステ ートメントでは, 変数聞の因果関係を矢印 で表現するため, もし因果ダイアグラムがあれば, 因果ダイアグラムの矢線に対応させて記述することがで きる. 例えば, 因果ダイアグラムで X →Y と表現された変数聞の因果関係は, X ==>Y あるいは Y <ー X と 記述する. CAUSALGRAPH プロシジャで使用できる矢印は, ==〉以外にも〉,ー〉,ー〉,=〉,==〉が使用できるが, 本稿では=〉を使用する. CAUSALGRAPH プロシジャでは, 2 つ以上の MODEL ステ ー トメントを同時に記述できる. この機能は, 守 複数の因果モテ ルを比較したいときに有用である. 例えば, 「 変数Xは変数Yの直接的原因ではなく, 変数 61

68.

Xは変数M を媒介して変数Yに因果的な影響を与える」という因果的仮定と, 「 変数Xは変数Yの直接的原 因であり, かっ変数Xは変数M を媒介して変数Yに因果的な影響を与える」という因果的仮定とが考えら れるとする. この場合,MODELステ ー トメントを 2つ用意し, 一方のMODELステ ー トメントには ’model l ’ としてXー>M,M =>Yと記述し, もう一方のMODELステ ー トメントには ’model 2’ としてX==>MY,M ==>Yと記述する. これらの記述により,model lについて興味のある因果効果を識別するために必要となる 変数集合ZIのリストが 「CovariateAdjustment Setsfor model l」とタイトルされた表に, model 2について興 味のある因果効果を識別するために必要となる変数集合22のリストが「CovariateAdjustmentSetsfor model 2J とタイトルされた表に, それぞれ出力される. ここで, PROC CAUSALGRAPHステ ー トメントのオプション COMMON を指定すると, 「CovariateAdjustment SetsCommo n to A l l Models」とタイトルされた表に, 変数集 Y)と指定すると, 変数集合ZIのリスト及び変数集合22 合ZlnZ2のリストが出力される. COMMON(ONL のリストは出力されず, 変数集合ZlnZ2のリストのみ出力される. なお,CAUSALGRAPHプロシジャは非巡回的有向グラフを対象としている. もし,MODELステ ー トメン トでの記述により描かれるグラフが巡回的有向グラフである場合, 巡回閉路が存在することを示すERROR メッセ ー ジがSAS実行ログに表示され,実行ステップは打ち切られる. 3)IDENTIFYステ ー トメント 興味のある因果効果を指定する. 処理変数Xと反応変数Yの因果効果を識別したいのであれば, X→Yで わりあてられる因果的構造をもっ左考えて, IDENTIFYXー> Y;と記述する. IDENTIFYステ ー トメントには複数の変数を指定することもできる. 処理変数を複数指定すると, 同時因 果効果を識別するために必要な変数集合が検出される.非巡回的有向グラフG = {X1,X2,…,Xp }UYUZ( ここに X; はXi+tの非子孫となるように並べ替えたものとする ;i = Iム…, p-1 )において, X = {X1,X2,…,Xp }のYへの同 時因果効果は (15) 的|白(X = x)) = Lznf=i ::;;;何)) と定義される. IDENTIFYステ ー トメントにおいて処理変数を複数指定すると,(15)によって定義される同時 因果効果を識別するために必要な変数集合が検出される. 例えば, ”IDENTIFYXIX2==> Y” と記述すると, 変数X1,X2 に対して外的操作品(X, =x1)と外的操作do(あ=x2)を同時に行ったときの因果効果を識別するため に必要な変数集合が検出される. 因果ダイアグラムに関していえば,X1 へ向かう矢線とあへ向かう矢線の全 てを取り除いたグラフにおいて, X1= x1かつお=ぬと固定したときのYの分布となる. 処理変数を複数指定 する状況としては, 複数の処理変数が存在する以外に, 単 一 の処理変数が繰り返し観測される状況(即ち, 処理変数が時間依存性処理変数である状況)が考えられるが,CAUSALGRAPHプロシジャでは, 後者の時間 依存性処理変数への対応はできていない. 反応変数を複数指定した場合, 反応変数は別々に取り扱われる. 例えば,IDENTIFYX==>YIY2;と記述す ると,XのYIへの因果効果を識別するために必要な変数集合と,XのY2への因果効果を識別するために必 要な変数集合が検出される. 4) UNMEASURED ステ ー トメント ‘ 未観測変数を指定する. グラフイカルモデ ルを用いた因果効果の推定では, 未観測変数と観測変数を区別 することは重要である. 2節に示したとおり,XからYへの因果効果を識別するにあたっては,Xの直接原因 62

69.

pa (めが全て観測されている必要はない. また, 適用する基準を変えると因果効果を識別可能とする変数集合 が異なることがおこりうる. そこで, 直接観測できない変数であっても, 想定する因果モデルに組み込んだ 上で, 因果効果の識別可能条件を検討したほうが望ましい. 更に, 実際に得られたデ ー タでは未観測で、 あっ た場合や,デ ー タはあるもののそれを使って推定するには不十分と考えられる場合がありえる.このように, 未観測変数と観測変数を区別して取り扱う状況では, MODEL ステ ートメントに未観測変数も含めて変数聞 の因果関係を記述した上で, UNMEASURED ステ ー トメントに未観測変数を指定する. 5) TESTID ステ ー トメント ある変数集合が, PROC CAUSALGRAPH ステ ー トメントのオプション METHOD =で指定した基準を満た すかどうか調べたいときに用いる. テスト名を引用符( 官あるいは””)でくくった後, 調べたい変数を記述す ることで, 「 Covariate Adjustment Test ;くテスト名〉」とタイトルされた表に結果が出力される(テスト名を指定 しなかった場合には Test !として表示される)•TESTID ステ ー トメントで指定した変数集合により,IDENTIFY ステ ートメントで指定した因果効果が識別可能であれば 「 有効jとラベルされたカラムに”Yes" ,識別するた めには不十分な集合で、あれば”No” と出力される. PATHS =オプションを用いれば, TESTID ステ ートメント で指定した変数集合に対してオプション指定した種類に応じたパスを出力させることができる. 3ユ SASプログラムと実行結果 図 9 は, 母親の PFAS への曝露と母乳期間との因果関係を表現した因果ダイアグラムである. Timmermann et al.(2017 )を参考に作成した. ここでの目的は, 母親の PFAS への曝露を処理変数, 母乳期間を反応変数とし て,処理変数の目的変数への因果効果を識別し推定するために必要な変数集合を検出することである.なお, Timmermann et al.(2017 )は, 妊娠中の血清中 PFAS 濃度及び母乳期間に対する予後因子として, 図 9 に示した 因子以外にも妊娠中のアルコ ー ル摂取有無, 妊娠中のBM!を含めて検討していたが, 本稿では簡略化のため 割愛した. 図 9 :母親の PFAS への曝露と母乳期間との因果関係を表現した因果ダイアグラムの 一 例. Timmermann et a/.(2017 )を参考に作成した. • PFAS···母親の PFAS への曝露. 妊娠中に測定したベルフルオロヘキサンスルホン酸( PFHxS), ベ ルフル オロオクタンスルホン酸( PFOS), ベルフルオロオクタン酸( PFOA), ベルフルオロノナン酸( PFNA), ベ ルフルオロデカン酸(PFDA)の血清中濃度. • Duration···母乳期間. 離乳食期間も含める. 63

70.

• PreBF … 過去の母乳期間. • Parity· 一出産経験の有無. • Age···母体年齢. 母親の生年月日と乳児の出生日より算出. • Education···母親の学歴. 初等以上の教育を受けたかどうか. • Employment···母親の就業状況. 出産休暇中も含めた就業の有無. • Smoking··· 妊娠中の喫煙の有無. SAS プログラム l は, 処理変数及び反応変数を除く 6 つの変数全て用いた共変量調整を行うことが妥当か を検討するための SAS プログラムの 一 例である. MODEL ステ ー トメントにて処理変数と反応変数を含めた 計 8 つの変数聞の因果関係を矢線(=〉)で記述し, IDENTIFY ステ ー トメントにて処理変数と反応変数を指定 する. TESTID ステ ー トメントに変数を指定することで, これらの変数を用いた共変量調整が妥当かどうか の検討が行われる. SAS プログラム l :図 9 における共変量調整の妥当性確認、 proc causalgraph method = adjustment; model ” Figure 9 ” PFAS=>Duration, PreBF ==>PFAS Duration, Parity=>PreBF D山富討on PFAS, Age =>Parity PFAS Education, Education =>PFAS Duration Smoking Employment, Employment ==>PFAS Duration Smoking, Smoking ==>Duration identiぢPFAS ==>Duration; testid ” All covariate ” PreBF Parity Age Education Employment Smoking; run; CAUSALGRAPH プロシジャを実行すると, 最初に MODEL ステ ー トメントにより規定された因果モデル に関する情報が出力される. 出力結果Iは, そのうちグラフに関する出力を抜粋したものである. 「 モデルJ とラベルされたカラムに MODEL ステ ー トメントにて指定したユニ ー クなモデル名が出力され, このモデル に含まれる頂点数が「ノ ー ドJに, 辺数が 「 エッジjに, 処理変数の個数が「処置」に, 反応変数の個数が 「結果」に, 観測変数の個数が「測定済み」に, 来観測変数の個数が「未測定」に, それぞれ出力される. 出力結果l:図9における因果モデルの要約 グラブイカルモデルの要約 モデル ノ}ド Figure 9 8 エッジ処置結果 17 I 64 I 測定済み 米測定 8 0

71.

出力結果 2 は, SAS プログラム l を実行して得られる結果のうち,共変量調整の検討結果に関する出力を 抜粋したものである. CAUSALGRAPH プロシジャでは,因果関係を識別するために必要 となる変数は,該当 する変数名にアスタリスク( * )が表示される. 「 有効Jとラベルされたカラムに Yes と出力されていることから, TESTID ステ ー トメントにて指定した6つの変数全てを用いた共変量調整は妥当であることがわかる. ただ し, 「 最小Jとラベルされたカラムは No となっており, これは 6 つの変数が因果効果を識別し推定するため の最小の変数集合で、はないことを表す. 因果効果を識別し推定するための最小の変数集合を知るためには, SAS プログラム l にて, TESTID ステ ー トメントを削除し, PROC CAUSALGRAPH ステ ー トメントにてオプ ション MINIMAL を指定すればよい. 出力結果2:図9における共変量調整の妥当性確認結果 共変量調整のテスト: All covariate PFAS の因巣効果(Duration) モデル サイズ Figure 9 6 有効 Yes 最小 No 共変量: Age Education Employment Parity P陀BF Smoking * * * * 判ド * 出力結果 3 は, SAS プログラム 2 (SAS プログラム l において, TESTID ステ ー トメントを削除し, PROC CAUSALGRAPH ステ ー トメントにてオプションMINIMAL を指定した SAS プログラム)によって得られる 出力結果からの抜粋である. 出力結果3より, 興味のある因果効果を識別し推定するために最低限必要な変 数は, Education, Employment, Parity, PreBF の 4 変数であることがわかる. SAS プログラム 2 :図 9 における調整基準を満たす最小の変数集合の検出 proc causalgraph method = adjustment minimal ; model ”Figure 9 ” PFAS ==> Duration, PreBF ==> PFAS Duration, Parity => PreBF Duration PFAS, Age ==> Parity PFAS Education, Education ==> PFAS Duration Smoking Employment, Employment => PFAS Duration Smoking, Smoking = => Duration identiかPFAS ==> Duration; run; 65

72.
[beta]
出力結果3:図9における調整基準を満たす最小の変数集合
Cov釘耐s Adjustment Se土s for Figure 9
PFA;Sの悶果効巣ゆ附録on)
‘

サイズ

最小

σ共変量

Age
4

Yes

Education

Eniplゆ炉問凶

*

Parity

PreBF

*

判ド

Smo対ng

SAS プログラムI, SAS プログラム 2 では, 因果効果の識別可能性問題を考えるにあたり,デフォルトの

設定である調整基準(constructive パ ックドア基準と同 ー の結果を与える)を用いた.調整基準はパ ックドア
基準を一 般化したものであり,パ ックドア基準を満たす変数集合は,調整基準を満たす変数集合に含まれる.
実際, 出力結果2で検出された変数集合は, パ ックド‘ア基準を満たす最小の変数集合になっている.

(サ関ニ9の因果ダイアぎ雪ム(再掲}

ヶゆ,)(a)を抽象化しだ因果タ守イアグラム三宮

肉、

↓〆十クミ
ルノ
4 "'-

I

6

図 10 :図9の因果ダイアグラムを抽象化したグラフ. (a)は図9の再掲であり,(b)では X1 : PreBF, Xミ: Parity,X3 :
Age,X4: Education,X5: Employment, X6: Smoking, X: PFAS, Y: Duration と表記した

図 IO(b)は, PreBF を X1, Parity をお, Age をお, Education をふ, Employment をお, Smoking を X6, PFAS を X,
Duration をYとおき, 図 IO(a)(図9を再掲した)で表現される変数聞の因果関係を抽象化した因果ダイアグ

ラムである . x とYのパス上に変数は存在しないので, パ ックドア基準の条件(ii)を満たす変数が パ ックドア

基準を満たす変数となる 図IO(b)のグラフからXから出る矢線を全て取り除いたグラフGx において,XとY
苧

を結ぶノfスをフ ロックする最小の変数集合は{Xi ,X ふ ん,Xs }で、ある.よって図IO(b)において, (X, ηについて
パ ックド、ア基準を満たす最小の変数集合は PreBF, Parity, Education, Employment であり,CAUSALGRAPH プロ

シジャの出力結果2と 一 致することが確認できる.
もうひとつの例として, constructive パックドア基準を満たす変数集合が存在しない場合をとりあげる. 図
I l は, Timmermann et al.(2017)を参考に, 母親の PFAS への曝露と母乳期間との因果関係を表現した因果ダイ

アグラムである.図 9 とは異なり,潜在的な交絡因子として個人の健康管理活動(Health Behavior)を追加し
ている.また,過去の母乳期間(PreBF )は,解析する上で情報が不十分であると判断し,未観測変数として
取り扱う.

66

73.

図 l l :母親の PFAS への曝露と母乳期間との因果関係、を表現した因果ダイアグラムの 一 例. Timmermann et al.(2017 )を参考に作成. 変数 PreBF と変数 Health Behavior は未観測変数とする. 、 SAS プログラム 3 は, 図 11 に示した因果モデ ルに対して, 因果効果を識別するための SAS プログラムの 一例である. MODEL ステ ー トメン卜で未観測変数として取り扱う Health Behavior と PreBF も含めた変数聞 での因果関係を記述し, UNMEASURED ステ ー トメントにてこれら未観測変数を指定する. SAS プログラム 3 図 11 における因果効果の識別 proc causalgraph method= adjustment; model ” Figure 1 l ” PFAS=>Duration, PreBF => PFAS Duration, Parity=> PreBF Duration PFAS, Age => Parity PFAS Education, Education ==> PFAS Duration HealthBehavior Employment, HealthBehavior ==>PFAS Duration Smoking, Employment ==>Duration Smoking, Smoking ==>Duration identify PFAS==>Duration; unmeasured PreBF HealthBehavior; run; 出力結果 4 は, SAS プログラム 3 を実行して出力される結果のうち, グラフに関する出力を抜粋したもの である. ここから, MODEL ステ ー トメントにより規定された有向グラフは 9 つの頂点と 19 個の辺から成り 立っており, 処理変数は l 変数で反応変数は l 変数あること, 観測変数は 7 変数で未観測変数が 2 変数ある ことがわかる. 67

74.

出力結果4: 図11における因果モデルの要約 グラフイカルモデルの要約 モデル ノ ー Figure 11 ド エッジ 9 19 処置結果 測定済み~未測定 7 2 SASプログラム3を 実行すると, あてはめた基準を満たす変数集合に関する検出結果は出力されず, 代わ ” りに ” NOTE: There a陀 no adjustment sets satisfシmg the specified criteria for Figure 11 とのメッセ ー ジが表示され ‘ る. これは,図llで示した因果モデ ルでは, 因果効果を識別するために必要な変数集合が存在しないことを 意味している. なぜこのような状況に陥るのか, パックドア基準に照らし合わせてみると, 次のように考え ることができる. (a)閤11の因果ダイアグラム(再掲) (b) (a)を抽象化した因果ダイアグラム 図12:図llの因果ダイアグラムを抽象化したグラフ. (a)は図llの再掲であり,PreBFと HealthBehavior が : reBF,X1 Parity, : X2 : A ge,X3 : Education,X4 : Employment,広:Smoking, 未観測変数.(b)ではU1 P ι :HealthBehavior, X:PFAS, Y: Durationと表記した. , 図12(b)は, PreBFをUi,Parityを x,,Age をあ,Educationをお,EmploymentをX4SmokingをX 5 , Health Behavior ( llを再掲した)で表現される変数聞の因果関係を抽象 , をX, Durationを Yとおいて,図12(a) 図 をU2PFAS 化した因果ダイアグラムである.図12(b)においてXとYのパス上に変数は存在しないため, パ ックドア基準 の条件(ii)を満たす変数が パ ックドア基準を満たす変数となる . x から出 る矢線全てを取り除いたグラフにお いて, XとYとを結ぶパスをブロックする最小の変数集合は{Ui,Xi , X3, U2}であることがわかる. よって,図 ,・ 12(b)において, (X.,ηについてパックド ア基準を満たす最小の変数集合は{U1,X1 ,あ,U2 }となる. しかし, u 、 PreBFとU2 : Health Behavior が未観測変数であるため,XからYへの因果効果を識別する変数集合は存在しな いということになる. 2節で, 因果効果を識別するための変数集合が存在しない場合への対応として, 条件付き操作変数を紹介 した. CAUSALG札<\PHプロシジャにて条件付き操作変数を用いるためには,PROC CAUSALGRAPHステ ー 、 トメントにてオプションMETHOD=IVと指定すればよい. SASプログラム4は,図llの因果モデ ルに対し 条件付き操作変数を用いるためのプログラム例であり, 出力結果5がその実行結果からの抜粋である. 68

75.
[beta]
SAS プログラム4:条件付き操作変数を用いた因果効果の識別
proc causalgraph method = IV;
model ” Figure I l ”
PFAS ==>Duration,
PreBF =>PFAS Duration,
Parity ==>PreBF Duration PFAS,
Age ==>Parity PFAS Education,
Education ==> PFAS Duration HealthBehavior Employment,
HealthBehavior ==>PFAS Duration Smoking,
Employment ==> Duration Smoking,
Smoking =>Duration

identify PFAS ==>Duration;
unmeasured PreBF HealthBehavior;
run;

出力結果5より,図 11 の因果ダイアグラムに対して条件付き操作変数を用いると,Education, Employment,
Z ={お},W= {X1 ,
Parity を与えたときの条件付き操作変数として Age が存在することがわかる.図 l l をみると,

X ふ ん}として,{Xi , X2,X3, X4 }はX: PFAS とY: Duration の子孫ではないため,条件( Al )を満たす. 図 ll(b)より
X から出る矢線全てを取り除いたグラフにおいて,W= {X1 ,X ふ ん}は Z と Y を有向分離する. 図 l l(b )より X

から出る矢線全てを取り除いたグラフにおいて,WはZとXを有向分離しない. よって条件( A2 )を満たし,
Z = {X2}はW= {X1 ,X ふ ん}を与えたときの(えηに対する条件付き操作変数であることがわかる.

出力結果 5 :図 II における条件付き操作変数
インストノレメント変数: Figure 11
PFAS の因果効果(D四tion)

インストルメント

Age
I

Age

J条件付きム

)

Education
ホ

Employment P紅ity
場与

Smoking

*

ところで,図 12(b )をあらためてみると,Z = {X2}に対して条件( Al),(A2 )を満たす変数集合としては{X1,X3 }
もあることに気づく. CAUSALGRAPH プロシジャでは,PROC CAUSALGRAPH ステ ー トメントの METHOD
=IV と TESTID ステ ー トメントの CONDITIONAL = オプションを組み合わせることで,任意の条件付き操作

変数と条件付け変数を確認することができる. SAS プログラム 5 は,条件付け変数を Parity と Education とし
て,Age が条件付き操作変数となり得るかを確認するためのプログラム例である. 出力結果 4 にその実行結
果からの抜粋を示した. 「 有効jとラベルされたカラムに Yes と出力されており,Parity と Education を与えた
もとでも Age は条件付き操作変数となることが確認できる.

69

76.

SAS プログラム 5 :図l l における条件付き操作変数と条件付き変数の確認 proc causalgraph method = IV ; model ” Figure I l ” PFAS =>Duration, PreBF => PFAS Duration, Parity==> PreBF Duration PFAS, Age => Parity PFAS Education, Education => PFAS Duration HealthBehavior Employment, HealthBehavior ==> PFASDuration Smoking, Emplo戸田nt =>Duration Smoking, Smoking ==>Duration identifシPFAS ==>Duration; unmeasured PreBF HealthBehavior ; n m testid “conditioning variable" Age I conditional = (Parity Education) ; 出力結果5:図11における条件付き操作変数と条件付け変数の確認結果 インストルメシト変数のテスト: conditioning variable PFAS の因果効果.(Duration) J モデルコ Figure 11 インストルメント Age 有効 Yes Age : 条件付き E白cation Employment * Parity. Smoking * 4. おわりに 本稿では,統計的因果推論において主要課題のひとつである因果効果の識別可能性問題について,有向グ ラフを用いた因果効果の識別可能条件について簡単にまとめた.その上で,因果効果を識別し推定するため に必要となる変数集合を検出するためのツ ー ルとして,CAUSALGRAPH プロシジャについて紹介した.変数 聞の因果関係を記述することで,未観測変数が存在する場合も含めて,興味のある因果効果を識別し推定す るために必要となる変数を容易に検出することが可能となった. 有向グラフを用いた因果推論の問題点として,個体レベルでの因果的仮定をグラフで表現することが難し いことがあげられる.ある治療を受けたにも関わらず症状が進行する患者もいれば,治療を受けなかったに も関わらず症状は進行しなかった患者も存在しうる.しかし,変数間の因果関係を示した有向グラフでは, このような個体レベルでの因果的仮定をグラフに表現することは難しい.また,有向グラフそのものに疑義 が投げかけられることもある.有向グラフを構成する変数に過不足はないのか,矢線は適切に因果関係を記 述しているのかといった指摘を受ける. こういった問題点を鑑み,有向グラフを用いることに消極的になるかもしれない.しかし,有向グラフを 用いた因果推論の最大の利点は,この可視化にあると考えている.有向グラフは変数聞の因果関係を表現す 70

77.

るための優れた手段である. 有向グラフを用いることによって,複雑な因果的構造を視覚的に表現でき,様々 な観点、からの議論が可能となる. 描かれた有向グラフの頂点を確率変数に対応させることで因果関係を確率 的言語で表現でき, 外的操作を行うとどのような影響があるのか, 興味のある因果効果を適切に推定するた めにはどの要因で調整すればよいのかといった閉し 、 かけに対するひとつの解を得ることができる. もし本稿 が, 有向グラフを用いた因果推論を行うにあたりライトな手引書としてお役にたてるのであれば, 著者らに とって無上の喜びである. 参考文献 [!] Fei, C., McLaughlin, J., K., Lipworth, L., and Olsen, J. (2010). Maternal concen廿ations of perfluorooctanesulfonate (PFOS) and perfluorooctanoate (PFOA) and duration of breastfeeding. Scand J Work Environ Health, 36, 413--421. [2] Geiger, D., Verma, T.,S., and Pearl, J. (1990). Identifying independence in Bayesian networks. Networks 20: 507534. [3] Hill, A., B. (1965). The environment and disease: association or causation? Proceedings of 伽 Royal Society of Medicine, 58, 295-300. [4] Messerli, F., H. (2012). Chocolate consumption, cognitive function, and Nobel laureates. New England Journal Medicine, 267, 1562-1564. [5] Pearl, J. (1988). Probabilistic 陀asoning in intelligent systems: Networお ofplausible iηルrence, Morgan Kaufmann. [6] Pearl, J. (1993). Comment: Graphical models, causality, and intervention. Statistics Science, 8, 266---269 [7] Pearl, J. (1995). Causal diagrams for empirical research. Biometrika, 82, 669-710. [8] Pearl, J. (2009). Causal 砂· Models, Reasoning, and Inference. The 2nd Edition. Cambridge University Press (黒木 学訳.(2009). 統計的因果推論ーモデル ・ 推論 ・ 推測ー. 共立出版). [9] Rothman, K.J. (2012). Epidemiology: An Introduction. The 2nd Edition. Oxford University Press (ロスマンの疫学 一科学的思考への誘い第 2 版. 矢野栄二 ・ 橋本英樹 ・ 大脇和浩訳,篠原出版新社,2013 ) [10] Rubin, D., B. (1974). Estimating causal effects of treatments in randomized and nonrandomized studies. Journal of Educational Psychology, 66, 688-701. [11] Rubin, D., B. (2005). Causal inference using potential outcomes: design, modeling, decisions. Journal of 伽 American Statistics Association, 100, 322-331. [12] Rosenbaum, P., R and Rubin, D., B. (1983). The central role of the propensity score in observational studies for causal effects. Biometrika, 70, 41-55. [13] SAS Institute Inc. (2018). SASIS日 T(R) 15.1 Users Guide. SAS Institute Inc., Cary, NC. [14] Spirtes, P., Glymour, C., and Scheines, R. (1993). Causation, Prediction, and Search. Springer-Verlag, New York.U.S. [15] Department of Health, Education and Welfare. Smoking and health: Report of the advisory committee to the Surgeon General of the public health service. Public Health Survive Publication No. 1103. Washington, DC: Government Printing Office, 1964. [16] Shpitser, I., VanderWeele, T., and Robins, J ., M. (20 l 0).“On the Validity of Covariate Adjustment for Estimating Causal E能cts”. In Proceedings of the Tw,聞 か Sixth Conference on Uncertainty in Artificial Intelligence, 527 536. Corvallis, OR: AUAI Press. 71

78.

[17] Timmermann, C., A ., G., Budtz-fargensen, E., Petersen, M., S., Weihe, P., Steuerwald, U ., Nielsen, F., Jensen, T. K., and Grandjean, P. (2017). Shorter duration of breastfeeding at elevated exposures to perfluoroalkyl substances. Reproductive Toxicology, 68,164-170. ’ [18] Van der Zander, B., Li skiewicz, M., and Textor, J. (2014).“ConstructingSeparators and A djustmentSets in A ncestral Graphs.” In Proceedings of the Thirtieth Conference on Causal Inference: Learning and Prediction, 11- 24. Corvallis, OR: AU AI Press. [19]魚住龍史 ・ 矢田真城 ・ 山本倫生 ・ ) , ,口淳(2017). SASによる傾向スコアマッチング.SASユ ー ザ ー 総会論 文集,263 281 [20]クリストファ ー・ M. ビ ショップ(2012 ). パ タ ー ン認識と機械学習下. 元田浩 ・ 栗田多喜夫 ・ 樋口知之 ・ 松本裕治 ・ 村田昇監訳,丸善出版. [21]黒木学(2016). グラフイカルモデルを用いた因果的効果の識別可能性問題. 確率的グラフイカルモデル, 103-121,共立出版. [22]黒木学(2017). 構造的因果モデルの基礎. 共立出版. [23]黒木学・小林史明(2012). 構造的因果モデルについて.計量生物学,32,119-144. [24]小林良弘(2018). CAUSALTRTプロシジャによる因果効果の推定:企業の労働生産性に対する人材活用 施策の効果 .SASユ ー ザ ー 総会論文集,337. [25 ]清水昌平(2016). 構造方程式モデルによる因果関係と非ガウス性. 確率的グラフイカルモデ‘ル,71-102, 共立出版. [26]瀧雅人(2017). これならわかる深層学習入門. 講談社サイエンティフック. [27]回栗正隆(2017). SASによる因果推論:CAUSALTRTプロシジャの紹介.SASユ ー ザ ー 総会. [28]立森久照(2016) . 因果推論ことはじめ. 岩波デー タサイエンス 3,7-25,岩波書店. [29]馬場崇充 ・ 藤原正和 ・ 北西由武(2017). PSMATCH Procedure×ニュ ー ラルネットワ ークの奇跡のマッチ ング ~Real World Dataの利用可能性を付度する~.SASユ ー ザ ー 総会論文集,394. [30]中尾治子(2018). CAUSALTRTプロシジャを用いた傾向スコア解析について .SASユ ー ザ ー 総会論文集, 289-296. [31]林岳彦 ・ 黒木学(2016 ). 相関と因果と丸と矢印のはなし はじめてのパックドア基準. 岩波デー タサイ エンス 3,28-48,岩波書店. [32 ]矢田真城・魚住龍史(2019). CAUSALMEDプロシジャによる媒介分析 .SASユ } ザ ー 総会. 連絡先 E-mail: yada-s@a2healthcare.com 72

79.

SGPLOTにおける軸及び凡例の体裁調整に関するTips (臨床試験における事例を中心に) 0大山秀輔 l 、 土井裕貴 2 ( I 小野薬品工業株式会社、 2 日本メディア株式会社) SAS ver9. 4より、 SGPLOTにおいて、 より多様かっ柔軟なグラフ作成が可能となり、 グラフ本体は容 易に作成できるようになった。一方で、軸や凡例の体裁調整については、Xaxis、Yaxis、Xaxistable、 Yaxistable、 Keylegendステ ー トメントの単純な指定でできることは限られており、 体裁の調整に 時間を要することが多い。 本発表では、 臨床試験の事例を中心に、 X 軸、 y軸、 凡例において、 有用 と思われる体裁の調整方法を紹介する。 なお、 可能な限り簡便なプログラムで対応することに主眼 を置き、 Annotationの使用は必要最小限に留めている。 1) X 軸関連の体裁調整 Unicode文字を用いた改行、 FitPolicyを用いた体裁調整、 Xaxistableを用いた体裁調整等、 X 軸周 りの体裁調整方法を紹介する。 サイクルとDay の双方を軸目盛に使用したい場合等、 臨床試験の幾 つかの事例を交えて、 体裁調整の方法を紹介する。 2) y軸関連の体裁調整 X軸関連の体裁調整と同様の内容に加え、 Y軸特有の体裁調整事例を紹介する。 例えば、 Xaxistable をlocation=outsideで、 使用した場合、 Yaxisのlabel位置はXaxistableのlabel位置に依存して決定 される。 このような状況に対応するためのマクロ等を紹介する。 また、 y軸ラベルを縦書きにする 方法等も紹介する。 3)凡例の体裁調整 カプランマイヤ ー 曲線において、打ち切り及び曲線の凡例について体裁を調整するための幾つかの 方法を紹介する。 例えば、 打ち切りと曲線の凡例を別々ではなく、 lつの凡例として統合して出力 したい場合には、Keylegendステ ー トメントだけでは調整することは難しい。 このような場合には、 、 Legneditemにより個々の凡例を定義した上で、 Keylegendにおいて個々のLegenditemを呼ひ 出すと、 lつに統合して出力することが可能である。 Legenditemを使用した幾つかの体裁調整方法を紹介す る。 73

80.

Beyond CDISC ~ FDA 申請時 BIMO 査察にまつわるエトセトラ ~ 0片山雅仁 1 、 小林千鶴 l 、 吉田祐樹 l 、 北西由武 1 ( 1 塩野義製薬解析センタ ー) アメリカ医薬品食品局( FDA)へ新薬の承認申請( NDA)をする際に, SDTMなどの電子データ を提出することは既によく知られているが, FDA ORA (Office of Regulatory Affairs) のBioresearch Monitoring (BIMO) Program のために施設レベルのリスティングやデ ー タセットを提出する必要が あることはあまり知られていない. ORAiま治験を実施した施設に対して査察を行う部署であり, 提 出するリスティングは査察で訪問する施設の選定に利用されている. これまでは, CDER (Center for Drug Evaluation)のO伍ce of Scientific Investigation (OSI) からOSI Requestとして施設レベルのリスティングの提出を求められていたが, 2018年にBIMO査察のために 施 設 レ ベ ル の リ スティングと デ ー タセットを作成するた め のガイダ ン ス と BIMO Technical Conformance Guideが発行された. これに伴い, 要求事項に関していくつか変更が生じたため, 弊社 ではこれを機に作成プロセスの刷新を検討している. 施設レベルのリスティングは, 1 つのPDF ファイル内に, 施設ごとに各リスティングをしおり (Bookn町k)を用いてコントロ ー ルできるように作成する必要があるが, これまでは, 手作業でし おり( Boo畑町k)を設定しており, 多くの作業時間を要していた. そこで, SASの機能である, ODS DOCUMENTとPROC DOCUMENTを利用することで, リスティングを施設, あるいはリスティング 単位で並べ替え, ラベルを再編集し, ODSPDFを用いて出力することで, しおり ( Bookmark)付き の1つのPDF ファイルに統合するプロセスを検討した. また, ガイダンスの発行により, 施設レベルのデ ータセットの提供を要求が追加された. 施設レ ベルのデ ー タセットの大部分はSDTMやADaMのa情報を用いて作成可能だが, 治験責任医師のメ ー ルアドレス, 住所, 利益相反の情報のようなSDTMやADaMには含まれない情報も含める必要があ る.そのため,これらの情報は臨床開発から入手する必要がある. 7·台験責任医師のメ ー ルアドレス, 住所, 利益相反などの施設レベルのs情報は, 既存の社内のシステムに存在する情報とCRA から収集 される情報に大別される. これら必要なデ ータを社内統合デ ー タベ ー スに収集, 管理することで, デ ー タの作成プロセスを効率化することができると考え, 現在その整備を進めている. さらに, 提出を要求されているデー タセットは, 社内での利用価値が高いとも感じている. 例え ば, SAS Viya Visual Anal戸icsを用いて, プロトコル逸脱の多い施設などを可視化し, FDAと同じ回 線で査察に入りそうな施設を事前に目星をつける等, 有効活用することも可能だと考えられる. [参考資料] [l] Standardized Format for Electronic Submission of NDA and BLA Content for Planning of Bioresearch Monitoring (B刷0) Inspections for CDER Submissions Guidance for Industry (DRAFT Guidance), February 2018, FDA CDER [2] BIORESEARCH MONITORING TECI町ICAL CONFORMANCE GUIDE, February 2018, FDA CDER STUDY DATA TECHNICAL CONFORMANCE GUIDE, 2018 October, FDA CDER CBER [3] Sponsor Considerations for Building a Reviewer ’ s Guide to Facilitate BI BIMO Review, Paper SS・240, PharmaSUG 2019 [4] See All, Know All: Using PROC DOCUMENT to Produce Integrated Data Set Documentation, NESUG 2010 74

81.

CDISC SENDデ ー タのチェック項目 一 覧とSASを利用したチェックツ ー ルの紹介 ~SENDデ ー タの適切かつ効率的な品質確保の提案~ 0佐藤耕 一 (株式会社タクミインフォメ ー ションテクノロジ ー ) 1. SENDデ ー タチェック項目 一 覧及びチェックツ ー ル作成の背景 米国における新薬開発申請時の 一 部の非臨床毒性試験デ ー タについて、 CDISC標準であるSEND に準拠した電子デ ー タの提出が義務化された。 SENDデ ー タの作成には、 FDA発出文書及びこれら に引用されているCDISC発出文書を順守した品質確保が求められる。しかし、順守すべきル ー ルは、 先述した多数の文書に、 多様な形式(ル ー ル、 デ ー タ定義、 文章等)にて記述されている。 また、 品質確保の手段として標準的に使用されているパリデ ー タは、全てのルー ルを網羅したチェックを 実装していない。 このため、 全てのル ー ルを完全に理解するSEND担当者の養成は困難であり、 チ ェック方法や粒度がチェック担当者の知識 レ ベルに依存してしまうリスクがある。 そこでCJUGSENDチームは、 SENDデ ー タの適切かっ効率的な品質確保を目的に、 CDISCやFDA が発出した文書からチェック項目 一 覧を作成し、 そのチェック項目のル ー ルに従い、 自動的かっ簡 易にチェック処理を実行するチェックツ ー ルを構築し、 公開することを目指している。 本発表では、 チェック項目 一 覧の内容と利用方法、 さらにツ ー ルの機能と実行方法を紹介する。 2.SENDデ ー タチェック項目 一 覧 チェック項目 一 覧は、SENDIGv3.0またはv3.l に従し、SENDデ ー タを作成する際に順守すべきノレ ー ルを関連文書より網羅的に洗い出し、担当者の レ ベルに依存しないチェックを実現するためのチェ ック項目として集約した。 CJUGSENDチームは、 SENDデ ー タの品質確保の観点からチェックル ー ルを5段階の レ ベルに分類し( レ ベルI : CDISC構造チェック、 レ ベル2:本質的要件チェック、 レ ベル3:組織横断チェック、 レ ベル4:試験横断チェック、 レ ベル5:試験独自チェック)、 レ ベルl ~3をCJUGSENDチームのチェック項目作成範囲とし、 レベル4と5は必要に応じてユ ー ザ ー が追加 可能な枠組みとした。 チェック項目には、 SENDデ ー タと最終報告書との整合性などの観点から、 格納値の適切性について目視確認を促す項目や、 メンパ ー のチェック経験に基づきCJUG SENDチ ー ムとして推奨するチェック項目も加え、3,000以上のチェック項目を設定した。また試験横断的な SENDデ ー タの二次利用を念頭に置き、統制用語が適応されない変数についてもSEND対応施設問共 通で利用可能な用語集としてCJUGSEND辞書を作成した。 3.SENDデ ー タチェックツ ー ル チェックツ ー ルは、SAS環境で動作するSASプログラムを利用して、SENDデ ー タのチェックを簡 易に実施できる専用ツ ー ルとして構築した。 チェック項目 一 覧(CSVファイル)のチェック項目を SASブoログラムから参照し、 チェック項目のル ールに従って自動的にSENDデ ー タ(XPTファイル) のチェックを実施し、 チェックの正異判定結果とメッセ ー ジ、 または目視確認用チェックリストの 2種類の結果(CSVファイノレ)を出力する。 またCDISC SEND Terminology (CSVファイノレ)、 CJUG SEND辞書(CSVファイル)をツ ー ルから読み込み、 チェックのための参照情報として利用してい る。 このような構成とすることで、 新規に追加されるチェック項目にも柔軟に対応でき、 チェック 担当者の知識レベルに依存しないチェックが実現できると考えている。 75

82.

薬物動態解析の実務 一 いまさら聞けない臨床薬理の基礎のキソ ー 0逆井佑来、 新城博子 ー タサイエンス本部 ヘルスケア株式会社デ (エイツ 、 生物統計第l部東京第2グ /レ ー プ) ー 臨床試験における薬物動態情報(吸収 ・ 分布 ・ 代謝 ・ 排世)に関する特徴の検出は、 特にPhaseI 試験における重要な目的のlつである。 薬物動態の評価には、 SASやWinNonlin等より 算出される薬 物動態パラメ ー タ(PKパラメ ー タ) が広く用いられている。 PKパラメ ー タ算出の実務は、 臨床薬 ‘ 理部門や研究所の薬物動態グ ル ー プ、 または外資系であれば海外の薬物動態部門等 一 局で集中して 行われる場面も多いと思われる。このため、 統計解析担当者が統計解析の延長で薬物動態解析(PK 解析)を行うことを要求された場合、 担当者が必ずしも臨床薬理に精通しているわけではないこと が少なくなく、 またPK解析担当者の固定化(属人化)によりノウハウが組織全体に蓄積されにくい 等の事情もあり、PK解析を行う際に各ステップで戸惑ったりミスをしたりするケ ー スがあるのでは なし、かと思われる。 主にPhaseI試験において、 PK解析を行うためには、 以下のような知識 ・ 経験が求められる。 一 ・ 般的な統計解析の知識 臨床薬理の知識 電子デ ー タ申請関連(CDISC) の知識 本発表では、 主lこPhaseI試験におけるPK解析を行う上でのデ ー タの流れ・考え方・留意すべき こと等を紹介する。臨床薬理にあまり精通していないにもかかわらず、 必要に迫られPKパラメ ー タ 算出を含むPK解析を求められた解析担当者に参考にしていただき、今後の実業務に活かしていただ ければ幸いである。 76

83.

薬剤費構造を考慮したフォ ー ミュラリ ー の分析 武藤 猛 (Mark巴Tech Consulting) Analysis of Formulary with Consideration to Drug Expense Structure Takeshi Muto President, MarkeTech Consulting 要旨 近年、 「エ ビデンスと経済性に基づいた薬剤選択方針」であるフォ ー ミュラリ ー (Formulary) かの病院や地域で制定・運用されている。 フォ でなく、 ポリファ ー マシ ー ー がいくつ ー ミュラリ は、 薬物療法の標準化や薬剤費適正化だけ や残薬問題に対しても効果が期待されている。 本論文では、 NDB オ ー プンデ ー タを活用した薬剤費の構造分析を参考にしながら、 現在までに具体的な薬剤名が公表されているフォ ー ミュラリ ー を横断分析し、 その特徴を明らかにする。 まず、 公開されているフォ ー ミュラリ ー のデー タを一 覧表にまとめ、 薬効領域別の件数やフォ ー ミュラリ ー を特徴付ける指標を算出する。 次に NOB オ ー プンデ ー タ(2018 年公表版) を用いてフォ ー ミュラリ ー 化を推進する要因の分析を行う。 このため、 薬効領域別のフォ ー ミュラリ ー 件数を目的変数に、 各薬効領域の指標を説明変数として重回帰分析を行 う。 最後に、 同じくNDBオ ー プンデー タから薬価を横軸、 処方数量を縦軸とする「薬剤費構造マトリッ クス」を構成し、 各フォ ー ミュラリ ー をそのセグメントに位置付け、 公表されているフォ ー ミュラリ ー を薬剤費構造の視点から考察する。 キ ー ワ ー ド:続けてキ ー ワ ー ドを記載 フォ ー ミュラリ ー 、 叩B オ ー プンデ ー 夕、 薬剤費構造マトリックス、 製薬企業へのインパクト 1. はじめに 近年、 「エ ビデンスと経済性に基づいた薬剤選択方針Jであるフォ ー ミュラリ ー がいくつかの病院や 地域で制定・運用されている。 フォ ー ミュラリ ーとは、 病院や地域で使用可能な採用医薬品リストであ るが、 医薬品の選択基準や投与方針をも含んだ、 標準化された処方医薬品集である (l ) 。 病院や地域で制 定・運用されるフォ ー ミュラリー を、 各々院内および地域フォ ー ミュラリ ー と呼ぶ。 厚生労働省の資料 によれば、 2017 年時点で、 フォ ー ミュラリ ー を制定・運用中の病院は、 調査対象の 321 病院中の 3.4% (1 l 病院)、 検討中の病院は 7.同(24 病院) であり (2) 、 まだ少数である。 フォ ー ミュラリ ー が話題となり、 2020 年診療報酬改定でも議論 (3) されている背景には、 高齢化社会の 進展に伴い増大する医療費の問題がある。 2017 年度の国民医療費は 42.2 兆円に達し(内、 薬剤費は約 77

84.

22犯と推定される)、 今後も増大し続ける見込みである。 かねてから後発品使用促進施策が取られている が、 2020 年 9 月の後発医薬品の数量シェア目標 80先達成以降の施策も求められている。 後発品の数量シ ェアが順調に伸びている割には、 金額、ンェアがそれほど伸びていない理由に、 薬剤選択に関する厚生労 働省の指摘 (4) がある。 その指摘とは、 例えば学会ガイドラインによれば、 降圧剤の第 一 選択薬は、 Ca 措 抗薬、 ARB/ACE 阻害薬、手u尿薬の中から選択できることになっているのに、 レセプト中の 38協が(薬価 が高し、) ARB が処方され、(薬価が安し、) ACEや利尿剤の処方が少ない、 というものである。 薬効領域毎 に定められるフォ ー ミュラリ ー は、 「エ ピデンスが同等であれば経済性が高い薬剤を選択する」仕組み であり、 薬剤費の適正化に貢献しうると考えられている。 さらに、 フォ ー ミュラリ ー は、 近年問題とな っているポリファ ー マシー (多剤投与)や残薬問題にも効果が期待されている は) 。 本論文では、 以上の背景を踏まえながら、 現在までに公開されているフォ ー ミュラリ ー を集約して横 断分析を行い、 さらに NDB オ ー プンデー タに基づく薬剤費構造の視点も加えた分析を行う。 この分析を 踏まえて、 現行のフォ ー ミュラリ ー が持つ意味と、 今後の予想されるインパクトについて考察する。 2. フォ ー ミュラリ ー 事例とその横断的分析 2. 公開されているフォ ー ミュラリ ー の構成分析 1 フォ ー ミュラリ ー は病院または地域で、 詳細薬効領域(作用機序または適応症レベル)毎に制定され、 通 常は第一 選択薬の他に第二選択薬が定められ、 各々2、 3 種類の薬剤名が指定される。 2018 年までにフォ ー ミュラリ ー を検討または運用していると発表した病院や地域の事例を図表1に示す。 フォ ー ミュラリ ー 内容 まで含めて公開しているのは 6 病院・ 2 地域であり、 フォ ー ミュラリ ー 件数は合計 54 件である。 以下の分析 はこれら 54 件のフォ ー ミュラリ ー が対象である。 図表 2 はフォ ー ミュラリ ー のサンプル(2 件分)である。 図表1 . フオ ー ミュラリ ー の事例 一 覧 暗躍分顛 翁院・地織名 | 院内 | 盟マリアンナ匝科大学摘院 | 特定機能病院 フオーミ斗ラ リ一件数 | {公関分自み) 病床融 [または合計) 出奥 1,208 フォーミュヲJ-1111白書同会組『フォーミユラリ 』〔譲事白線社. 2017) ー 9 I 院向 車車女子医科大学病院 畠性期宿院 1,379 木村�l祭文学街院におけるフォーミュラリー の作成と実践 SSKセミナー『医1111警の削減に必要なrフォーミュラリ ー』の作成 と実盟』(2018年Bil羽田) I 院向 昭和大学揖院 特定檀能痛院 815 昭和大学翁院HP 9 I 院内 横揺市立大学附属鋳院 特定機能続続 612 横浜市立大学附周病院凹News No.78~BO (2018) 5 I 院内 車北医科聾科大学描院 地培医療主鰻翁説 466 ウェブサイト『車+臨』(2018年6月18日付記事) 2 ! 院向 ! 匡暗法人社団青草会 新座串院 回世期揖院 128 金井紀仁中小病院におけるフオーミュヲJー の作成と実鶴. SSKセミナーfl!!I!!置の剛認に必要なrフ才一ミュラリ ー』の作成 と実圃』(2018年B月30日} | 地培 |地幡揖控齢人『尾山会J CBI!!僚迭人) 1.065 ミクスOaliao (2018年10月5日) 18 (9法人) 1,134 ミクスOalmo (2018年11月2日) 2 I 地培 | 地培1111!!醐推進法人 「目本湾ヘルスケアネットJ ロォーミユラリー件融合計}| 78 曲宥 54 1�:.. ..λ幽叫糊 眼

85.

図表2. フォ ー ミュラリ ー のサンプル | 譲効領様 曹1選択薬 簡2選択薬 |ォメプテノ- ,は周川円四叫 同唱糊} 師|タケプロン服用30mg ’フアモテジシD飽fEM日JlO・20m• 後鍵 芳三チジン健『マイラシJ1S0m• e量発 院内フォ ー ミュラリ ー の場合は、 薬剤部が主導して薬学的な検討を行い、 原案を薬事委員会に提案して検 討の上、 承認されたら運用開始される。 医師への周知徹底 は、 病棟薬剤師を通じて行われる場合が多い。 フ ォ ー ミュラリ ー は運用開始後にどこまで徹底されるかで成果が決まる。 その決め手は「医師への強制力」 の 強弱である。 フォ ー ミュラリ ー 制定プロセスに医師も参画しているかどうか、 および電子カルテに組込まれ ているかどうか(フォ ー ミュラリー 以外の薬剤使用には制限が課される) 、 などから総合的に判定される。 一方、 地域フォ ー ミュラリ ー の場合は、 多様な組織の集合体であるので、 院内に較べると制定・ 運用 とも にハ ー ドルが高い。 制定については中核病院や薬剤師会 が主導する場合が多い。 運用については電子カルテ が病院 ・ 診療所別々であるので、 一般に「医師への強制力」は高くない。 地域医療ネットワ ー クがICT化さ れ電子カルテ が共有されている場合を除いて、 「推奨薬剤リスト」に留まる場合も見られる。 図表3に詳細薬効領域 (作用機序レベル)別フォ ー ミュラリ 一 件数を示す。 また図表4に、 詳細薬効領域 (作用機序レベル)の上位分類レベルで、ある、 薬効領域(小・中 ・ 大分類)別フォ ー ミュラリ ー 件数を示す。 これらの図表によれば、 フォ ー ミュラリ ー は一部の薬効領域に集中している傾向が読み取れる。 図表3.詳細薬効領域(作用機序)別フォ ーミユラリ ー 件数 詳細薬効領績(作用縫序) 詳細薬効領域(作用機序) ピスホスホネー ト製剤(走射剤) ブロスタゲランジンEl盟嗣 国炎・田君福治療剤 紐下剤 広随園経口抗菌製剤 抗アレルギー車 杭血小揖剤 持続性アンジオテンシン置控醇畢阻冨嗣 盛担当=盟 制酸・緩下剤 組連効型インス')ン注射剤 簡蝿 ・ 抗斑症 ・ 解黙剤 滴剤型緩下剤・大閥横査前島田用下剤 不眠症治壇韮 家桐性神軽障害諸根剖 (フォーミュラリー件数合計) (詳細串効領増融合計) 豆皇室笠涯一一 史ヒ主盟宜韮 巴蓋堕歪準監豆 i NSAIO(非ステロイド性翫炎症車) PPI(経口剤)_Hピロリ薗除去用 SGLT2 アルッ,、イマ ー型盟問症j台閣剤 E 'l.'l三 量豊皇室重 フォーミュラ リ一件数 1 、 ’ 1 1 1 1 1 1 ’ 1 率翠翠2 主主主と皇型一一一 セフェム某抗生鞠買 パンテモシ型塑 図表4.薬効領域(小・中園大分類)別フオ ー ミュラリ ー 件数 (a)薬効領域(小分類) (b)薬効領域(中分類) 79 (c)薬効領域(大分類)

86.

図表5にフォ ー ミュラリ ー における後発品と先発品の構成比を示す。 第I選択薬は後発品がほんとんであ るものの、 第2選択薬には先発品の方が多く、 フォ ー ミュラリ ー 導入におけるある種の「緩衝斉IJ J的な役割 を果たしていることがわかる。 第lおよび第2選択薬中の先発品23品中、 後発品のある先発品(=長期収載 品)は 9品(39話)を占めている。 フォ ー ミュラリ ー に先発品( 後発品のない先発品または後発品のある先発 品)を残した理由の1位 ・ 2位は、①他剤との相E作用が少ない、 ②治療上の特殊な理由(疾患 ・ 診療科限 定)、 である。 図表5. フオ ー ミュラリ ーの構成:後発品と先発晶の構成比 第1+2選択薬の構成 第2選択薬の構成 第1選択薬の構成 後発品 数~ 暗7 ... 14 16%. 後発品 数 59. 85% 749唱 、ヘ に フォーミュラリ ー件数=54 薬剤数合計=69 業剤散合計=21 フォーミユラリ ー件数=54 薬剤散合計=90 も由)=17 [連]ここでいう『先昆晶JI志、 r 1金宛晶のない先鎗晶』および「量発品のある先宛晶=畠期収瞳晶Jである 図表6に各フォ ー ミュラリ ー の主要指標を示す。 フォ ー ミュラリ ー 当り薬剤数や先発品比率など定量的に 算出可能な指標の他に、 フォ ー ミュラリ ー が成果を達成するために重要と考えられる3つの定性的指標も示 している。①医師への強制力の有無、②先発品の有無、③後発品メ ー カ指定の有無、 である。①については、 医師への強制力を担保するには、 診療側との事前交渉で医師の納得を得ることと電子カルテへの組み込みが 不可欠である。 ②については、 一部先発品を残すのは薬剤部と診療側との妥協の産物で、 フォ ー ミュラリ ー 実施を優先している。 ③については、 後発品メ ー カ指定なしでは薬局内在庫削減やコスト削減効果が限定的 である。 これら3つの定性的指標を組み合わせることで、 フォ ー ミュラリ ー の有効性、 つまり薬剤費削減に 対する効果と標準的な薬物療法の実現可能性とを総合したもの、 についてフォ ー ミュラリ ー をタイプ分けす ることができる。 図表7にフォ ー ミュラリ ー のタイプ分け(試案)を示す。 図表6.各フォ ー ミュラリ ー の主要指標 フォ No. 、 ーミ ユ ラリー 病院・地域名 区分 フォー フオー 第1 ・ 2選 第1 ・ 2選 h 医師へ ミ ー 択薬業 択量It�先 ミュラ ユヲ 先発品 リー 当り の リー 比率 剤数総 発品数 平均 強制力 合計 総合計 件数 薬剤数 後発品 先発品 メーカ指 の有無 定の有 無 院内 聖マリアンナ医科大学 病院 9 27 10 3.0 37拓 2 院内 東京女子医科大学 病院 6 6 。 1.0 0% 3 院内 昭和大学病院 自 14 4 1.6 29% 弱い 有り 無し 4 院内 横浜市立大学附属病院 5 10 4 2.0 40見 弱い 有り 議主主、 5 院内 東北医科薬科大学病院 2 6 3 3.0 50% 院内 医療法入社団青葉会 新座病院 3 4 2 1.3 50% 7 地域 地域医療推進法人 「尾山会』 18 18 1.0 m 弱い 娠し 8 地繊 地犠医療推進法人「日本 海へルスケアネット」 2 5 。 。 2.5 。也 弱い 録し (合計または平均) 54 90 23 1.7 26唱 1 6 80 ‘ 強い 有り 監L無し 強じ:�;ド 強ii�� 有り 有り 脊りー 無し 無し 無し 言葉海旬、: 革まり

87.

図表7. フォ ー ミュラリ ーのタイプ分け(試案) 有効性・実l①医師への|②先発品の|③後発品メー|フォ ーミュラリ ーの 現性順位| 強制力 | 有無 |力指定の有無| 告イブ(仮称) 事例 原目lj追求型 2 2. 2 無し 強い 無し |後発晶 一 般名処方型 東京女子医科大学病院 聖マリアンナ医科大学病院 3 強い 有り 有り 先発品現状追認& ! 後発品絞り込み型 4 強い 有り 無し 先発品現状追認型 東北医科薬科大学病院 医療法入社団音楽会新座病院 5 弱い |勺書Ill, 0;8!f 宥り 推奨医薬品リスト型 地域医療推進法人「尾山会」 『日本海へルスケアネット」 6 弱い 鎌し 無し 推奨医薬品リスト型 7 弱い 有り 有り 推奨医薬品リスト型 横浜市立大学附属病院 推奨医薬品リスト型 昭和大学病院 フォ ー ミュラリ ー 化の推進要因分析 次に、 NDB オ ー プンデ ー タ(2018 年公開版)と組み合わせて、 上述した図表 4 (a) の薬効領域(小分類) 別フォ ー ミュラリ ー 件数がどのような要因で推進されているかの分析を行った。 NDB オ ー プンデ ー タとは、 レセプト情報 ・ 特定健診等情報デ ー タベ ー ス(NDB)の公開版集計表であり、 2016 年に公開されて以来、 2018 年で 3 回目のデ ー タが公開されている。 以下の分析では薬剤デ ー タ(薬剤種類数= 9798)を 用いる。 NDB オ ー プンデ ー タに薬効領域コ ー ド(名称)を付与したり、 先発品 ・ 長期収載品 ・ 後発品のフラグを取得する方 法については、 以前に発表した通りである (5) 。 図表8にフォ ー ミュラリ ー 化の推進要因分析のための変数を示す。目的変数は、上述 の薬効領域(小分類) 別フォ ー ミュラリ ー 件数、 説明変数は NOB オ ー プンデ ー タを薬効領域 (小分類)別に集計して算出したもの で、 各説明変数 の計算方法は図表中に記した通りである。 図表 9 はこうして作成されたフォ ー ミュラリ ー 化 推進要因分析用デ ー タである。 図表10は、 ステップワイズ重回帰分析の結果を示す。 図表8. フオ ー ミュラリ ー 化の推進要因分析のための変数 区分 変数名 目的変数 フオーミュラリ ー件数 規模�薬品数{穏類) 定義 薬効領繊(小分類)別フォーミュラリ ー件数 デ一書;源 本資料 薬効領域{小分類)の医薬品数(種顛) 規複数量{億件) 薬効領域{小分類)の数量{億件) 規俊金額(億円) 薬効領域(小分類)の金額(億円) 後発晶シェアー医袈品数 医薬品数(後発)÷医薬品数(先発+長期収載+後発) 説明変数 後発品シェア激震 数量(後発)÷数量(先発+長期取脇+後発) 後発品シェア司金額 金額(後発)÷金額〈先発+長期収織+後発) 後発晶代替事,Jlii.薬品数 医薬品数{後先}÷箆薬品数t長期収総+後発} 後発品代替E良敏最(*} 数量{後発}÷数録 f長期収富島ザト後発) 後発晶代替It&.:金額 金額 t後発)÷金額{長期収量軍手後鎗) 件)耳生労働省の後発品纏進事象における定護 81 NDBオ ープンデーヲ 2018年公開版を用い て‘薬効領域(小分 類)買I]に集計・算出

88.

図表 9.フォ ー ミュラリ ー 化の推進要因分析用デ ー タ 車効分盟 {’l、分顕) 112 114 119 131 214 218 219 232 234 235 249 313 339 396 399 催曜血飾剤抗不曹剖 38 670 0.556 0.411 0.185 0.699 0.445 0.242 240 51 1.408 0.693 0.461 0.143 0.797 0.722 0.535 159 18 2.921 0.679 0.129 0.110 0.864 0.577 0.335 150 13 2.892 0.500 0256 0.078 0.703 0.490 0.282 4 168 59 4.736 0.506 0.220 0.088 a田7 0.286 0.128 3 121 51 3239 0.727 0.411 0.189 OB曲 0.450 0.257 214 21 1.381 0.655 0.457 0.156 0.779 18 176 87 2.947 0.735 0.578 0.261 0.772 0.647 0.452 89 42 218 1.000 1.000 1.000 1.000 1.000 1.0曲 127 22 352 0.981 145 5 0.243 0.498 125 29 2.485 139 44 2.441 0.712 0.684 《).531 0.259 0.053 0.683 0.413 0.467 0.414 0154 0.066 0.683 0.505 0.177 その他の中程神経系用車 ill科用剖 血圧降下剤 高歯血症用剤 その他の循車器官周車 消化世盟ill用剤 制菌剤 2 下剤,誼揖剖 その他のホル毛シ剤(銑ホルモン剖を含む.} ビタミンB剤〈ビタミン81珊を橡〈.) 2 その他の血波 ・ 体液用車 3 Ill属病周期 他に分類されない代聞性医薬品 449 その他のアレルギー周車 主としてグラム繭世田に作用するもの 613 15B 3 解望書館翁沼炎剖 811 後発晶 後発品 後発晶代 後,E品 後発晶代 後発晶代 徒 規 数量 韓民金額 ン エ アー Ill シェアー数 シェアー金 世ll!.111串 ""'·数量 容車一金額 {由円} {健件〉 車品 数 品,a 量 額 フ才一ミュ 規 良 廃車 敏 ラリー件倣 晶 {橿 顕 車効分期名称川、分額) {針) 0.999 0.296 0.322 0.973 0.914 0.822 0.047 0.688 o.sae 0 820 0.999 0.211 0.309 0.825 0.704 0.991 0.991 0.374 5 131 81 3.635 6 257 22 5.625 174 42 2.663 0.640 0.363 0.199 0.711 0.506 0.264 109 0.852 0.790 0.516 0.912 0.820 0.721 0.605 0.439 0.352 0.697 2 主としてグラム臨色 ・ 陰性固に作用するもの 0.986 331 0.845 0.624 。 87 I 271 10 1212 54 2.931 613 39245 。.467 0.409 図 表 10.フオ ー ミュラリ ー 化の推進要因分析(重回帰分析) ①ステップワイズ重回帰分析 ー モデル[フォーミユラリ ー 件数対薬効領域(小分類)各種指標] p SSE I 口FE I 剛SE I R2乗 |自帥冊目鍵 Co I 114.63 I 16 I 2.611 I o.474 I o.4413 I -2.1s I 2 ②ステップワイズ重回帰分析 ー 最終推定値[フォーミュラリ ー 件数対薬効領積(’Iψま類)各種指標] p値(P.ob>F) パラメ-1' F値 推定値 自由度 平方和 -0.71 1 切片 1 5.09 0.70 0.42 規俊医薬品数(種類) i 議滋雛軍{猷 i 規模金額(億円) 後発品シヱアー医薬品数 後発晶シェア数量 後発品シェアE金額 後発晶代替率ー医薬品数 後発晶代替率数量 後発晶代替率金額 。 。 。 。 。 。 。 。 。 H.告 ま缶 7 。 綴毅鍾通直 援3霊:\11{{4証 !Eifj:忍績面通 7 15 1.36 0.48 1.89 0.54 0.60 0.12 目 1 1 1 1 1 1.00 0.18 0.06 0.25 0.07 0.08 0.02 0.33 0.68 0.81 0.62 0.79 0.78 0.90 図表 10 によれば、 変数「規模数量(億件)J のみが有意な変数として残された。 つまりフォ ー ミュラリ ー 件数は規模(処方数量)で決まる、 ということになる。 医療現場を想定すれば、 このことは近似的に、患 者数(処方件数)で決まると考えても良い。 つまり、 生活習慣病など患者数の多い疾患用薬剤lからフォ ー ミ ュラリ ー 化が進んでいることになる。 3. 薬剤費構造を考慮したフォ ー ミュラリ ー の分析 3. 1 フォ ー 薬剤費構造マトリックスの構成 ミュラリ ー と薬剤費構造との関係を検討するために、横軸が薬価、縦軸が(処方)数量から成る「薬 剤費構造マトリックス」を定義する。 個別の薬剤の合計薬剤費は、 「薬価×(処方)数量 J で算出できる。 薬価と数量はいずれもNDBオ ー プンデ ー タから取得できる。 薬剤費構造マトリックスを構成することで、 薬 剤費の局在の構造(「薬価は安くとも数量の多い薬剤」、あるいは「数量は少ないが薬価の高い薬剤」によ る薬剤費全体の中での位置付け)が明らかになる。 図表11は、薬価と数量の分布、および薬剤費構造マトリックスとその構成のための区分値を示す。 デ ー タ の揃っている 9415 種類の薬剤が対象である。 薬価と数量は、いずれも桁数の幅が巨大であるが、対数化する ことで近似的に正規分布とみなすことができる。 区分値をどうするかが問題であるが、 3 ・ 4 ・ 5 区分の 3 種 82

89.
[beta]
類を検討した結果、 薬剤費の局在の構造を表わすには4区分が適していることが分かつた。 図表l
lにはその
区分値を示す。 マトリックス内の位置は、 例えば薬価区分値 2 ・ 数量区分値 3 は、 「セグメント 23 」のよう

に表わす。

図表11.薬価と数量の分布と薬剤費構造マトリックスの区分値
(bl薬剤費構造マトリックスと区分値

(a )薬価と数量の分布(対数)
ー霊

lila>舟帽

骨事
錨

屠

U措ー露盤

敏量蕗分21
数量区分31

""但 ,

数晶区分41

骨盤車

·α初当b
..ヨ誕路
月号島 田芳包点2.74429
。央銀L7日咽
京拘‘
25司も 笛曾偲点1.01703
l
。%
昼4崎重

出陣 li!1<@ to.肝!6
75% 厨分位点6田崎7
同%
中央傍,..底調5
"拘置分
4.田511
制屯
坦小型'·"語38

m.•.

1踊河坦2
早均
21636' 5
沼盆信表
2均句橿趨鼠E 0.0119931
写勾のよ僑措偽 $周14312
E均の下鶴田崎 l.�344132
9415

”

醤鈎韓剖包
写珂

-翠

21

31

41

12

22

32

42

13

23

33

43

14

24

34

44

l 譲価区分s

581

555

S.81-40793
1.3231588

鞠の""""軍0.013広田
事均のよ骨婦問5鴇 S.8S<旭国7
"'均の下働時% 5.7嘗乃縄9
’‘15
N

図表 12 に品目別の薬剤費構造マトリックス、 図表 13 に薬効領域(小分類)別の薬剤費構造マトリックス
を示す。 いずれも(a)には、 薬剤費の局在の状況を比率で示し、

(b)には、 各セグメントの薬剤費比率が

10%以上について、それぞれのセグメントにおける薬剤費の上位 4 位までの品目または薬効領域を示す。なお、

薬効領域(小分類)別薬剤費構造マトリックスは、 薬効領域(小分類)に含まれる薬剤の薬価と数量の対数
値を平均し、 該当するセグメントを当て飯めて作成した。 図表 12 および 13 によれば、 セグメント 14 とセグ
メント 41 を結ぶ対角線上またはそのすぐ下のセグメントに薬剤費比率の高いセグメントが局在している。狙

い通り、 「薬価は安くとも数量の多い薬剤lのセグメント」、 あるいは「数量は少ないが薬価の高い薬剤!によ
る薬剤費のセグメントjが明確になり、 現在のところ前者のセグメントの方が薬剤費に占める比率が高いこ
とが分かる。

図表12.薬剤費構造マトリックス(品目別)
(b)薬剤費上位セグメントの薬剤の例

(a)薬剤費比率

敏量E分2

0%

。対

数量区分4

0%

1%

5%

14%

部

151臨

微量巨分3

〈合計》

100唱

区分4
|数量

1

プ
ル
ヒ ドライスドテソヲ ト鎗膏
「
,チョパール健
ロキソニンテープ

品目数合計= 9415 ;薬剤費合計(円) =8,760,722,715,732

83

90.

図表13.薬剤費構造マトリックス(薬効領域別) (b)薬剤費上位セグメントの薬効領域の例 (a)薬剤費比率 [注]薬効領模別薬剤費構造マトリッヲスは、薬効領嫌に吉まれる譲剤の譲価と敵量の対数値を平均して、骸当するセゲメントを定めて作成した 薬効領域(小分類)数=135;薬剤費合計(円) =8,760,722,715,732 3. 2 薬剤費構造マトリックスにおけるフォ ー ミュラリ ー 件数の分布 各フォ ー ミュラリ ーの属する薬効領域(小分類)は図表4 (a )に示した通りである。 一方薬効領域(小分 類) 別の薬剤費構造マトリックスは図表13の 通りであるので 、これらから薬効領域(小分類) 別の薬剤費構 造マトリックスに おいて各フォ ー ミュラリ ー を位置付けること ができる。 図表14 (a )は薬効領域別フォ ー ミ ュラリ ー件数(比率 )(全デ ー タ 54件のうち、NDBオ ー プンデ ー タの指標が計算できなか った 2件を除く)、 (b)はフォ ー ミュラリ ー件数が複数の薬効領域の位置付け を具体名で示した(括弧内は件数 ) 。 図表14か ら明らかなように 、現在公開されているフォ ー ミュラリ ーは、薬剤費構造マトリックス上では、図表12およ び 13の品目別 ・ 薬効領域別マトリックス以上に局在化している。 具体的には件数 比率が 10百以上のセグメン ト は (括弧内は薬効領域コ ー ド ・ 薬効領域名とフォ ー ミュラリ ー件数 ) 、セグメント23 (232一消化性潰蕩用 剤(15)、214_血圧降下剤(4)、114_解熱鎮痛消炎剤(3)) 、セグメント24 (396一糖尿病用剤(4)、218一高脂血 症用剤(3)) 、およびセグメント32 (399_他に分類されない代謝性医薬品(6)) 、となっている。 これら3つ のセグメントを合せると全体のフォ ー ミュラリ ー件数の74%を占めている。 図表14.薬剤費構造マトリックスにおけるフオ ー ミュラリ ー 件数分布 (a)薬効領域別フォ ー ミュラリ ー 件数 (比率) (b)フオ ー ミュラリ 一件数が複数の薬効領域の 位置付け(括弧内は件数) フォ ー ミュラリ ー件数合計=52 {全デ-$154件のうち、NDBオープンデー 舎の指標が計算できなかった2件を除〈) 以上から、現在公開されているフォ ー ミュラリ ーの対象薬効領域(小分類)は、中 薬価(区分値2 ・ 3) か っ中ないし高数量(区分値2 ・ 3 ・ 4)に集中していることがわかる。 「2. 2 フォ ー ミュラリ ー 化の推進要 因分析」の結論と、図表14の薬剤費構造マトリックスにおけるフォ ー ミュラリ ー件数の分布とは結果がほぼ 84

91.

対応しており、 生活習慣病など患者数の多い疾患用薬剤からフォ ー ミュラリ ー 化を進めるという、 医療現場 ならではの問題意識がフォ ー ミュラリー 化を推進していると推測できる。 4. 結論 4. 1 フォ ー ミュラリ ー 化の背景と現状 フォ ー ミュラリー 化の背景としては、 必ずしも合理的でない薬剤使用の実態(厚生労働省の指摘)や、 国 民医療の持続性に関して意識の高い医療機関や地域の危機感がある。 また、 フォ ー ミュラリー 化の考え方は 後発品推進事業の延長上にあるという解釈も可能である。 現状と特徴は次の3点にまとめられる: ( 1)フォ ー ミュラリ ー 化の現状については、 フォ ー ミュラリ ー 化を実践している病院や地域はまだ少数 である。 現在フォ ー ミュラリ ー 化を実践している病院や地域はモデルケ ー スとして今後の手本となる。 (2)フォ ー ミュラリー 化の対象領域は、 処方数量の多い薬効領域である。 対象疾患は、 患者数が多い生 活習慣病などである。 (3)フォ ー ミュラリ ー の特徴は、 「医師への強制力の強弱J 、 「先発品の有無」、 「後発品のメ ー カ 一 指定有無Jでタイプ分けされ、 実効性がタイプによって異なる。 フォ ー ミュラリ ー 化の今後について、 当分は、 フォ ー ミュラリー 化は漸増程度と見られる。 2020 年 9 月に 後発品推進事業の目標達成(置換率 80弘)時期が区切りとなり、 その後の後発品推進事業の展開による。 ま た、 2020 年診療報酬改定などに何らかの形で病院や地域のフォ ー ミュラリー 化推進の努力が反映されること になれば普及が進む可能性が残されている。 4. 2 フォ ー ミュラリ ー 化推進の課題と薬剤費へのインパクト 院内フォ ー ミュラリ ー は、 比較的実現しやすいが薬剤費へのインパクトは限定的である。 一方地域フォ ー ミュラリー は、 院内よりインパクトは大きいが実現への調整が難しい。 また全国の何千もの病院や地域で、 同 一 薬効領域のフォ ー ミュラリ ー 化検討作業が行われることになれば、 その重複する労力の無駄が膨大とな り、 非現実的である。 このためある調剤薬局(日本調剤)主導でオ ー プンソ ー ス化を前提とした「標準フォ ー ミュラリ ー」を検討する動き (6) もある。 本来このような標準フォ ー ミュラリ ー は、 公的機関が推進し全国 に普及させるのが望ましいが、 日本ではまだそのような動きは見られない。 イギリスで古くから作成 ・ 運用 されているような「ナショナル ・ フォ ー ミュラリ ー」 (7) があれば、 病院や地域が個別にフォ ー ミュラリー を 作成するという労力の無駄はなくなる。 ただし、 標準フォ ー ミュラリー やナショナル ・ フォ ー ミュラリー が あったとしても、 単に薬効領域別の選択薬をリストアップするだけではポリファ ー マシ ー や残薬問題の解決 には役立たない。 そこで、 薬効領域横断的、 言い換えると学会横断的なアプロ ー チが重要となる。 このよう なアプロ ー チですでに実績のある「高齢者の医薬品適正使用の指針」 (8) や「高齢者の安全な薬物療法ガイド ライン」 叫 にフォ ー ミュラリ ー 的な要素を加味する、 という考えも成り立つ。 患者の受療行動全体を把握し た上で、 安全かっ薬剤数を抑えた薬物療法が普及(インセンティブを含め)することで、 医療の質と医療費 へのインパクトが高まると期待される。 4. 3 フォ ー ミュラリ ー 化進展が製薬企業に及ぼすインパクト 85

92.

今後、 フォ ー ミュラリ ー 化が全国的に進展すれば製薬企業へのインパクトは大きい。 自社製品がフォ ー ミ ュラリ ー へ採用されるかどうかですべてが決まってしまうために、従来の販促中心の医薬品マ ー ケティング は意味を失う。 またフォ ー ミュラリ ー 化は、従来から存在している製薬業界変革への動きを後押しする。 具 体的には、①「先発品と後発品への二極化Jを加速する、②先発品事業は画期的な新薬を継続的に上市する 必要性に迫られる、 ③長期収載品事業はコモディティ事業化する、④後発品事業は市場拡大と参入企業増大 の中で「集中と選択」戦略が重要となる、などである。 また、マ ー ケティング活動や MR 活動へのインパクトも大きい。①販促活動の比重は小さくなり、安全性情 報伝達 ・ 収集活動が重要となる。 ②そのような環境での MR生産性の維持 ・ 向上が製薬企業の死活的経営課題 となる、③フォ ー ミュラリ ー 化の動向を含む地域差を考慮、した MR 活動が重要となる( 本社からの 一 方的な指 示は有効でなくなる)、④従来以上にインタ ー ネットへの投資と活用が不可欠となる、⑤MR 活動とインタ ー ネットとの協働が重要となる (生産性向上と質向上の両立の唯 一 の解決策であり、かっ安全性情報の迅速・ 確実な伝達に貢献する)、@医療者満足への貢献の重要性がこれまで以上に高まる(例えば、 地域医療ニ ー ズの分析と活動の実践、薬剤部のこれまで以上の重要性、地域医療ネットワ ークの推進サポ ー タ 一 役)、な どである。 参考文献 (I)フォ ー ミュラリ ー 編集委員会編 : フォ ー ミュラリ ー 、薬事 日報社 (2017年) (2)厚生労働省:外来医療(その3)、 中医協総会(2017年 11月l日) (3)厚生労働省:医薬品の効率的かっ有効・安全な使用について、中医協総会(2019年6月26 日) ( 4)厚生労働省:年代別・世代別の課題(その2)、中医協総会(2019年 4月24 日) ( 5)武藤 猛:公開医療ビッグデ ー タを活用した医薬品マ ー ケティングの可能性、SASユ ー ザ総会(2017年) (6)ミクスOnline : 日本調剤標準フォ ー ミュラリをオ ー プンソ ー ス化 (2019年6月25 日) ( 7) Joint Formulary Committee: BNF 77 British National Formulary March2019 (8)厚生労働省:高齢者の医薬品適正使用の指針(総論編および各論編) ( 9)日本老年医学会:高齢者の安全な薬物療法ガイドライン2015 86

93.

POWERプロシジャを用いた生存時間デ ー タのサンプルサイズ設計 、 ~数値計算アルゴ リズムをひも解く~ 0今泉敦 l l 2 魚住龍史 2 東京理科大学大学院工学研究科経営工学専攻 京都大学大学院医学研究科医学統計生物情報学 Sample size calculation for survival data using the POWER procedure: Understanding of numerical computation algorithm Atsushi Imaizumi 1 and Ryuji Uozumi2 ID句artment of Management Science, Graduαte School of Engineeri時, Tokyo Universi砂of Science 2Depαrtment of Biomedicαl Statistics and Bioinformα'tics, Kyoto UniversiザGraduate School of Medicine 要旨 SAS ユ ー ザ ー 総会で、 は, 生存時間デ ー タが評価項目である臨床試験のサンプルサイズ設計に関して, 予 れまで多くの 報 告 が 行 わ れて い る . SAS/STAT で サポ ー ト され て い る POWER プ ロ シ ジ ャ の 。 TWOSAMPLESURVIVAL ステ ー トメントを用いれば,2群比較の生存時間解析を想定したサンフ ルサイ ズの計算が可能であり, 計算結果の性能が優れていることが報告されている. しかし, POWER プロシ ジャでサンプルサイズ設計を行う場合, 複雑な数値計算が行われているのにも関わらず, 内部のアルゴ リズムはブラックボックスになっており, SAS ユ ー ザ ー 総会でも報告が行われていない. そこで, 本稿 では, POWER プロシジャの TWOSAMPLESURVIVAL ステ ー トメントで実行される数値計算をひも解く ために, DATA ステップを用いて実装した SAS プログラムを報告する. キ ー ワ ー ド:生存時間解析 POWER プロシジャ 1 サンプルサイズ設計 Freedman の方法 TWOSAMPLESURVIVAL ステ ー トメント Schoenfeld の方法 DATA ステップ Lakatos の方法 区分指数分布 小区間数 はじめに 医薬品開発の分野では, 新規治療法の有効性や安全性について検討するために臨床試験が行われ, 一 般に試験に参加する対象者数(以下, サンプルサイズ)を科学的・倫理的な観点のもと, 必要最小限に決 定する必要がある. SAS/STAT の POWER プロシジャを用いれば, サンプルサイズの計算が容易に実行 できる. 特に, ある目的のイベントが起こるまでの時聞を評価項目にする場合には, 生存時間解析が適 87

94.

用される. 生存時間解析を用いて 2 群比較を行う場合, POWER プロ 、ンジャの TWOSAMPLESURVIV.札 ステ ー トメントを用いれば, サンプルサイズの計算が可能で、ある. これまでの SAS ユ ー ザ ー 総会で3は, 生存時間解析のサンプルサイズ設計に関する報告が多く行われ ている. 浜田・藤井( 2003 )は, Freedman の方法(Freedman,1982)と Schoenfeld の方法( Schoenfeld,1981) 1 こ関 して解説している. これらの方法は, SAS/STAT のプロ 、ンジャではサポ ー トされていなかったが, 計算 式の簡便さから, DATA ステップで容易に実装可能である. 魚住ら(2016)は, SEQDESIGN プロ、ンジャを 活用することで, Schoenfeld の方法に基づくサンプルサイズを計算する方法を解説している. そして, 浜岡・安藤( 2005 )の報告で,POWER プロ 、ンジャによるサンプルサイズ設計の利用方法について解説が行 わ れた . POWER プ ロ シ ジ ャ の TWOSAMPLESURVIVAL ス テ ー ト メ ン ト で は , Lakatos の 方 法 (Lakatos,1988)が用いられており,水津・浜田(2008)は,検出力の観点から,Freedman の方法と Schoenfeld の方法に比べて, Lakatos の方法が優れていることを示している. さらに,魚住ら(2009)は, 比例ハザ ー ド性が成り立たないような場合でも, Lakatos の方法が優れていることを示している. 中西ら( 2006)はサ ンプルサイズ計算ソフトウエアである nQuery と POWER プロ 、ンジャの違いについて数理的な背景から 比較検討している. 以上より,これまでの SAS ユ ー ザ ー 総会では,Freedman の方法と Schoenfeld の方法に比べて,Lakatos の方法を用いてサンプルサイズ設計を行うことが推奨されている. しかし,Lakatos の方法は POWER プ ロシジャで計算することが 一 般的であり, POWER プロ 、ンジャでサンプルサイズ設計に必要な情報を入 力すれ ば即座に計算可能であるという便利な側面がある一 方で, 内部のアルゴリズムはブラックボック スになってしまう. これまでの SAS ユ ー ザ ー 総会(水津・浜田, 2008 ;魚住ら, 2009)においても, 「 Lakatos の方法は区分直線モテ子ルに基づき計算J 「 Lakatos の方法は区分指数分布を想定J といったキ ー ワ ー ドが数式とともに示されている程度で, 実際にどのようなアルゴリズムで実行されて いるかに関しては, SAS ユ ー ザ ー 総会で、も報告されていない状況であり, ブラックボックスのままであ る. 結果, Lakatos の方法でサンプルサイズ設計を行う場合は, POWER プロシジャに頼りがちとなっ て しまい,応用上限界があるといえる. そこで,本稿では, POWER プロ 、ンジャで採用されている Lakatos の方法を DATA ステップに基づく SAS プログラムを用いてひも解く. 2 生存時間解析におけるサンプルサイズ設計の考え方 本稿では, 対照群(C)と試験群(E)の 2 群で構成される並行群間比較試験を想定し, 解析手法としてロ グランク検定を適用する場合を考える. 生存時間解析における情報量はイベン卜数であるため, サンプ ルサイズは必要イベント数を計算し,2群を併せたイベントの割合で除することによって求めることが できる(大橋ら, 2016). 対照群(C)の最終生存割合をπc,試験群( E )の最終生存割合をπ E ,割付比を対照群: 試験群=1:wとすると,2群を併せたイベントの発生割合は次のようになる. 2群を併せたイベントの割合= (1 一 πc) + w(l 一 πE) 浜田・藤井(2003 )による報告以降, SAS ユ ー ザ ー 総会では, Freedman の方法と Schoenfeld の方法がよく 取りあげられ ており(水津・浜田, 2008 ;魚住ら, 2009 ;張・寺尾, 2010), いずれの方法においても, 必要 イベント数で2群を併せたイベントの割合を除してサンプルサイズの計算を行っている. これらの方法 88

95.
[beta]
でサンプルサイズを計算するためには, いずれの計算式も容易で、あるため, DATA ステップで、計算プロ
グラムを作成すればよい.なお,Schoenfeld の方法に関しては,SEQDESIGN プ口 、ンジャを活用すれば,
サンプルサイズの計算が可能である(魚住ら,2016).
2.1

Freedman の方法

対照群(C)の母 ハ ザ ー ドをλc ,試験群( E)の母 ハ ザ ー ド、をλE とすると, Freedman の方法における帰無仮
説H 。と対立仮説H 1 は次のようになる.
H 。: λc= λE, H 1 : A c * λE

また, Freedman の方法で計算する 2 群を併せた必要イベント数をDp , 標準正規分布上側*点をZ制

ハザ

ード比をHR,害1]付比を対照群:試験群=1:wとする. そのとき,2群を併せた必要イベント数Dp は
(1 2 +z13)\wHR + 1)
DF w(HR-1〕 Z

2

、

となる. よって, Freedman の方法によって計算されるサンプルサイズ Np は次のようになる.
2
DF
ー (1+w)(za; 2 +zp)\wHR + 1)
-
N
2
ー
ー
ー
p 2群を併せたイベントの割合 w(HR 1) {(1 πc)+w(l πE )}

2.2

Schoenfeld の方法

Schoenfeld の方法の特徴として, ハ ザ ー ドに対数変換を施し, 正規近似の精度の向上を図る点が挙げ

られる. 帰無仮説と対立仮説は本質的に Freedman の方法と同様なものとなり, 対照群( C)の母 ハ ザ ー ド
をA c,試験群( E)の母 ハ ザ ー ドをλE とすると帰無仮説Ho および対立仮説H 1 は次のように表せる.
H 。: logλc = Jog.λE ¢:::}HR=l
H 1 : logλC =I= Jog,1, E 骨 HR =I= 1

また, Schoenfeld の方法で計算する 2 群を併せた必要イベント数をDs, 標準正規分布上側本点をz 引
ー

ハザ

ド比をHR,筈1]付比を対照群:試験群=1:wとする. そのとき,2群を併せた必要イベント数Ds は
品
"

一(1+w) (zα;2+zp)
2

2

w{Iog(HR)}2

となる. よって, Schoenfeld の方法によって計算されるサンプルサイズNs は次のようになる.

一., 一
川

3

Ds

s-2群を併せたイベントの割合

ー

一

2

(1+w) 3 (zα/ 2 +zp)
w{log(HR)} 2 {(1 ー πc)+w(l ー πE )}

。

Lakatosの方法によるサンフ ルサイズ設計

3.1 概説

SAS/STAT の POWER プロシジャでは, Lakatos の方法が採用されている.浜田 ・ 安藤(2005)による

POWER プ口 、ンジャのチュ ー トリアル以降, POWER プ口 、ンジャで採用されている Lakatos の方法と,
Freedman の方法および Schoenfeld の方法を比較した報告が SAS ユ ー ザ ー 総会で多く行われており (水

津・浜田,2008;魚住ら,2009), 書籍としてもまとめられている(大橋ら,2016).
Lakatos の方法は観察期間をいくつかの等間隔の区間に分割し, それぞれの区間ごとにリスク集合な

どのサンプルサイズの計算に必要な情報を決定する. Lakatos の方法は, Freedman の方法, Schoenfeld

89

96.
[beta]
の方法に比べて拡張性が高いことが知られているが,これには観察期間を等分割する点が大きく関与
している. Freedmanの方法,Scho印刷dの方法は従う生存時間分布に指数分布を想定するが,Lakatos
、

の方法は,特定の区聞から ハ ザ ー ドが異なるようなモデルで ある区分指数分布や区分直線モデノレ(折れ
線 ハ ザ ー ドモデル)を想定することも可能である. これらの柔軟な分布を想定できることから,Lakatos
の方法は比例 ハ ザ ー ド性の仮定は必ずしも必要ではなく,比例ハザ ー ド性が保たれないことが想定さ
れる状況下においてもサンプルサイズ設計を行うことが可能である. 浜田(2017)は,比例 ハ ザ ー ド性が
成り立たないと近年議論されている,免疫チェックポイント阻害剤の開発において,区分直線モデル
を活用した報告を行っている. また,検定に関しでもFreedmanの方法,Schoenfel dの方法はログラン
ク検定に基づいたサンプルサイズ設計を行うが,Lakatosの方法ではログランク検定に加えて, 一般化
Wilcoxon検定やTarone・Ware検定に基づいたサンプルサイズ設計を行うことも可能である. これらを実
行したい場合,POWERプロシジャではTWOSAMPLESURVIVALステ ー トメントのオプションで
TEST =GEHAN ( 一般化Wilcoxon検定),TEST=TARONEWARE(Tarone-Ware検定)を指定すればよい.

3.2

数理

Lakatosの方法は「分割した任意の区間において2 群のハ ザ ー ドに差はなし、」という帰無仮説を設定
する. 対照群(C)の母 ハ ザ ー ドをλc,試験 群(E)の母 ハ ザ ー ドをλE ,区間i(i = 0,1,…, M -

υ時点、での時

刻をむとしたとき,帰無仮説Hoおよび対立仮説H1 を定式化すると以下のようになる.
H。:λc (ta =λE(ta, H 1 :λc (ti ) *λE(ta ';I ti
登録期間をA,登録期間後のフォロ ー アップ期聞をFとおく. そのとき,総観察期間Tは
T=A+F
となる. なお,登録期聞が O のときの総観察期間はフォロ ー アップ期間と同等である. また, NL を
Lakatosの方法によって計算される2群を併せたサンフ。ルサイズ,割付比を対照群:試験群=1:wとし
たとき,群gにおける最初の区間のリスク集合の大きさ叫(0)は

.!!!:_,
w

N心8 (0) = NL - Nc (O)

Nc (O) = l+
」

ん

匂

となる. hg (ti )を時点ti における群gのハ ザ ー ド,bを小区間数( b = M/T)とすると,群gにおける最初の
区聞を除いた第i区間のリスク集合の大きさN9 (i)は
/
んCta\
N9 (i + 1) = N9 (i) ( 1 ー」γ

(F :?: ti のとき)

I ha Ct;) r 1 \ \
+ 1) = N90(i) 11 ー」一一一 ト一一一 l I
N0(i
9

(F く ti のとき)

)

b

\

\b(T - t;)J J

と求めることができる. そして,区間iでのリスク集合の大きさの比φi, ハ ザ ー ド比HRi ,期待イベン
、

ト数Di はそれぞ れ次のようになる.

ふ‘ ー

φi=生Q2
Nc (i)

(1)

hE(i〕
HR,=一二一-
i
hc (i)

(2)

んCtDNc (i) + hE(tDNE(i)
b

90

(3)

97.

このとき, 統計量Uを次のように表すことができる. それを ここで, のように分離すると,U は次のように表せる. 準 事 L己o Dt U = 1 (-rf犠R;-1*示) (4) 」等 LM 守 同(1 +ゆ;)2 ー1 このとき, N;(OおよびD;* はそれぞれ次のようになる. 1 N事(O) =ァァー - (5) Ne(O)=1 - Nc(O) (6) l十W / N;(i +1) = N;(i) ( 1 - ~ (t;)\ �) I / ~ (t;) I 1 \ +1) =叫 (i) 11 一一一一一 i 一一一一 l I N;(i g \b(T - t ;)J J b 9 \ Di 率一 (F 三t;のとき) (7) (F < t;のとき) (8) hc(tJNc(i) + hE(t;)N;(i) b (9) この統計量Uを N(U, 1)として扱い, 標準正規分布上側*点をみとすると, U=JN;_U = zαρ+匂 傘 となる. これをNL について解くことによって, Lakatos の方法によって計算されるサンブ';レサイズ = 肌 (包許 可 を得る. Lakatos の方法による必要イベン卜数は, 期待イベント割合に割付比で重み付けしたものを Lakatos の 方法によって計算された2群を併せたサンプルサイズと乗ずることによって計算することができる.群 gの期待イベン卜割合を弓としたとき, Lakatos の方法による 2 群を併せた必要イベント数DL は次のよう になる. Pr+ wP,, D, =N, __::_一一ーニ l+w 白 む このとき,群gの期待イベント割合弓は生存時間分布に指数分布を想定した場合,次のように表される. Pg = 1 一 exp (一 λg F) (A = 0のとき) 弓 = 1 一 右同 、、 Lakatosσ〉方法によるAど、要イベント数を求める DATA ステツプでの SAS プロク ラムは魚住ら(2016)を参 照、されたい. 91

98.

3.3 POWER プロシジャでの実行例 SAS/STAT の POWER プロシジャで生存時間解析の 2 群比較のサンプルサイズ設計を実行する場合に は, TWOSAMPLESURVIVAL ステー トメントを指定すればよい. 本節では, POWER プ口 、ンジャを用 いた実行例として, 各群のk時点生存割合を指定し, 生存時間分布に区分指数分布を想定 したサンプル サイズ設計を行うことを考え, フォロ ー アップ期間等の条件を以下のように設定する. ・ 5年生存割合:対照群(C) 0.20, 試験群(E) 0.30 ・ フォロ ー アップ期間:5年 ・ 割付比:l:l ・ 受録期間:l年 ・ 検出力:80% このとき, POWER プロシジャによるサンプノレサイズ設計のプログラム はプログラムlのようになる. プログラムl POWER プロ 、ンジャでのサンプルサイズ設計 SAS プログラム 各オプションの説明 proc power; twosamplesurvival test=logrank 検定方法を指定 curve( C )=( 5): (0.20) k 時点生存割合を指定 ” ” ” ” curve( E )=( 5): (0.30) ” ” groupsurvival= C | E ” k 時点生存割合を指定 ” 2 群の生存曲線のラベルを指定 groupweights=(l 1) 割付比wを指定 accrualtime= 1 登録期間dを指定 followuptime=S フォロ ー アップ期間Fを指定 ntotal=. サンプルサイズの出力を指定 nfractional 小数点以下を切り上げる前の出力を指定 power=0.80; 検出力の指定 run; 次節の DATA ステップによる Lakatos の方法と計算結果を比較するため, NFRACTIONAL を指定し, 小数点以下を切り上げる前の出力をしている. プログラムlでは CURVE= オプションでk 時点の生存割 合を指定しているが, その場合, 計算の過程でハザ ー ドに変換し計算を行っているため,2群のハザ ー ド(またはl群のハザ ー ドとハザ ー ド比)を直接指定しでも計算結果は同等となる. また, 登録期間は一 様分布に従い登録されることを仮定している. 出力結果にある「実際の検出力」の計算においては次式 をもとに行われている. 検出力=φ〔- ,/Nu•+ zαρ)+φ〔,/NU*+ Za/2 〕 92

99.

なお, φ(・)は標準正規分布における累積分布関数の値である. プログラムlを実行すると, 結果は表l のように出力される. 表l 計算結果 計算された 上限の総標本サイズ 小数点の総標本サイズ 実際の検出力 上限の総標本サイズ 472.234171 0.801 473 以上のように,Lakatosの方法によるサンプルサイズ設計は,POWERプ口 、ンジャを用いることによ って, プログラム l のような簡便なプログラムで実行可能である. そのため, 実際にどのような数値 計算が行われているかはブラックボックスであり, SASユ ーザ ー 総会でも充分な報告が行われていな 、 い. そこで, 次節ではDATAステップを活用して,Lakatosの方法のアルゴ リズムについて報告する. 3.4 DATAステップによるLakatosの方法の実行 Lakatosの方法のアルゴリズムについてひも解くため,DATAステップを用いてLakatosの方法を再現 したプログラムを以下に示す.なお,サンプルサイズ設計においての各設定条件は3.3節と同等である. まず始めに, プログラム l のPOWERプロシジャでの実行と同様に, k時点生存割合やフォロ ー アッ プ期間などの事前設定事項を指定する. Step1. 事前に設定する事項を指定する %let Alpha=0.05; *有意水準; %let Power=0.8; *検出力; %let Beta= 0/osysevalf(1-&Power); %let za= O/osysfunc(probit(&Alpha/2)); %let zb= 0/osysfunc(probit(&Beta)); %let Weight = 1; *割付比C:E=l:Weight; %let Smallsection = 12; *小区間数; %let Followuptime=5; * フォロ ー アップ期間; %let Accrualtime= 1; *登録期間; * k時点の生存割合; %let k =5; *時点; %let Survival_C =0.20; *対照群(C)のk時点生存割合; %let Survival_E =0.30; *試験群(E)のk時点生存割合; 続いて, 小区間数と総観察期間を乗じて区間総数を求め, 区間iごとに群gのハザ ー ド:'hg (i), 群gのリ スク集合の大きさN;COおよびその比φi, 期待イベント数Dtを計算し, それらの情報から統計量 u· を構 成するための下準備を行う. 93

100.

Step2. 区間ごとに必要な情報を計算する data calc; w=&Weight; A=&Accrualtime; F=&Followuptime; b=&Smallsection; he= -log(&Survival_C)/&k; * C群のハザ ー ド; he=ーlog(&Survival_E)/&k; * E群のハザ ー ド; HR= he/he; * J �ザー ド比; M = floor((A+F)*b); * 区間総数; do i=O to (M-1); * 区間ごとに計算する; if i= 0 then do; * 最初の区間はリスク集合の大きさの計算方法が異なる; t=O; * 経過時間; Ne= 1/(l+w); * 式(5)に該当; Ne= 1-Nc; * 式(6)に該当; Phi= Ne/Ne; * 式(1)に該当; D= (Nc*hc+Ne*he)/b; * 式(9)に該当; Num= D*((Phi*HR/(l+Phi*HR))ー(Phi/(l+Phi))); * 式(4) U * の分子の計算; Den2= D*(Phi/(1+Phi)**2); * 式(4) U * の分母の2乗の計算; output; end; else do; if t > F then do; * 経過時聞がフォロ ー アップ期聞を超えた場合; Ne= Nc*(l-hc/b-1/(b*(A+F-t))); * 式(8)に該当; Ne= Ne*(l-he/b-1/(b*(A+F-t))); * 式(8)に該当;end; else do; * 経過時聞がフォロ ー アップ期聞を超えていない場合; Ne= Nc*(l-hc/b); * 式(7)に該当; Ne= Ne*(l-he/b); * 式(7)に該当;end; t= (A+F)/M*i; * 経過時間の計算; Phi= Ne/Ne; * 式(1)に該当; D= (Nc*hc+Ne*he)/b; * 式(9)に該当; Num= Num+D*((Phi*HR/(l+Phi*HR))ー(Phi/(l+Phi))); * 式(4) U * の分子の計算; Den2= Den2+D*(Phi/(1+Phi ) * 勺); * 式(4) U * の分母の 2乗の計算; output; end; end; run; 94

101.

Step2. を実行して作成されたデ ー タセット ”Cale”より得られた区間ごとの情報を 一 部抜粋すると, 表 2 のようになった. 表2 計算された区間ごとの情報( 一 部抜粋) HR i Nc(i) Ni(i) φi D7 0.7481 0.5000 0.5000 1.0000 0.0234 0.7481 0.4866 0.4900 1.0070 0.0229 2 0.7481 0.4735 0.4801 1.0139 0.0223 3 0.7481 0.4608 0.4705 1.0210 0.0218 4 0.7481 0.4485 0.4611 1.0281 0.0213 0.7481 0.0278 0.0448 1.6134 0.0016 0.7481 0.0201 0.0327 1.6285 0.0012 0.7481 0.0128 0.0211 1.6457 0.0008 0.7481 0.0061 0.0101 1.6692 0.0004 区間番号 。 ぶり ぶり 司f 勺f oonynu’ー 区間番号が大きくなるほど,リスク集合の大きさN;(i)が小さくなっており,ハ ザ ー ドが高い群ほどその 減少幅が大きくなっている. そして,各群のハ ザ ー ドに影響されたリスク集合の大きさN;(i)の群聞の事 離に伴い, リスク集合の大きさの比φiが大きくなっていることがわかる. 今回の実行例では, 特定の時 、 点からのハザ ー ドが変化することを想定したサンプルサイズ 設計を行っていないため, ハ ザ ー ド、比HR i が区間によって変化していないが,ある区聞からハザ ー ドが変化する(例えば,区分直線モデルを想定す るような)場合には特定の区聞からハザ ー ド比HR i が変化する. 最後に,Step2. から得られた区間ごとの情報をもとに統計量Uヘサンプルサイズ,検出力を計算する. Step3. 統計量u· およびサンプルサイズ, 検出力を計算する data result; set calc; Den= sq比(Den2); U= Num/Den; * U * の構成; Ntotal= (((&za+&zb)/U)料2); * サンフルサイズの計算; Ne= (Ntotal/(1+w)); *対照群(C)のサンフルサイズの計算; Ne= Ntotal-Nc; * 試験群(E)のサンフルサイズの計算; Power= probnorm( -sq代(Ntotal)*U+&za)+p「obnorm(sq代(Ntotal)*U+&za); * 検出力の計算; run; data lakatos; set result; ’ where (i+1)= M; * 最終的な計算結果をデ ー タセット勺akatoダ に格納; run; 95

102.

Step3. を実行して作成されたデー タセット”Lakatos”より,本プログラムで計算されたサンプルサイズは 472.2353281となった. POWERプロシジャから計算された結果とは小数点第3位以下で誤差が生じる ものの, 近似値を計算することができた. 3.5 小区間数の設定における検討 Lakatosの方法では, 区間総数をM, 総観察期間をTとしたとき, M=bTとして小区間数bを定義し, 区間ごとのリスク集合の大きさ, 期待イベント数を計算している. POWERプ口 、ンジャで、 は小区間数は 12がデフォルトの値として設定されているが,この小区間数を増減させるとサンプルサイズにどのよう な影響があるのだろうか. 各設定条件を以下のように設定し, 小区間数を Iから増加させていったとき のサンプルサイズとの対応を表3に示す. なお,POWERプロ 、ンジャのTWOSAMPLESURVIVALステ ー トメントにおいて小区間数bを特定の値に設定する場合には, NSUBINTERVAL=bを指定すればよい. ・ 5年生存割合:対照群(C) 0.20, 試験群(E) 0.30 ・ フォロ ー アップ期間:5年 ・ 割付比:I: I ・ 登録期間:0年(簡便に考えるために 0 と設定) ・ 検出力:80% 表3では, 得られたサンプルサイズに対して小数点以下を切り上げ, 試行回数100,000 回のモンテカ ルロシミュレ ー ションを行い, 検出力を評価している. 目標とする検出力を 80%に設定し, 有意となっ た割合を検出力としている. 表3より, 小区間数を増加させるに連れてサンプルサイズは大きくなることがわかった. ただし, 小 区間数が増加していくに連れてサンプルサイズの増加量は小さくなる傾向にあった. また, 小区間数を 12と設定したときに得られたサンプルサイズの検出力が,目標とする検出力に最も近づいていることが わかる. よって, 今回のシミュレ ー ションの条件においては, 小区間数はデフォルトの値である 12 が 最も良い結果を示したといえる. したがって, 今回の結果からは, 小区間数をデフォルトの値から増減 させる必要性は感じられなかった. 96

103.

4 まとめ 生存時間 解析におけるサンフ。ルサイズ設計法として, SAS ユ ー ザ ー 総会で、 は Freedman の方法, Schoenfeld の方法, Lakatos の方法を活用した報告が多く行われている. その中でも Freedman の方法, Schoenfeld の方法は数理の 複雑さもなく, DATA ステップで容易に実行することができる. 一方で, Lakatos の方法は区間の分割等から計算式が複雑になり,理解しづらい面があると考えられた. そこで本 稿では, POWER プロシジャにおけるサンプルサイズ設計の内部アルゴリズムをひも解くため, TWOSAMPLESURVIVAL ステ ー トメントに採用されている Lakatos の方法の数理を復習し, DATA ステ 、 ップによって TWOSAMPLESURVIVAL ステ ー トメントの内部アルゴ リズムをひも解し、た SAS プログラ ムを報告した. プロシジャの代わりに, DATA ステップで実装した SAS プログラムを学習することで, 応用の幅が広がることを期待している. 生存時間デ ー タのサンプルサイズ設計に従事する SAS ユ ー ザ ー にとって, 本稿の内容が少しでも参考になり, 助けとなれば幸いである. 参考文献 I. Freedman LS.Tables of the number of patients required in clinical trials using the log-rank test.Statistics in Medicine, 1982;1:121・129. 2. Lakatos E. Sample size based on log-rank statistic in complex trials using the log-rank test. Biometrics, 1988; 44: 229 241. 司 3. SAS lnstitute Inc. SAS/STAT(R) 15.1 User ’s Guide The POWER Procedure. SAS Institute Inc., Cary,NC , 2018. 4. Schoenfeld D. The asymptotic properties of nonparametric tests for comparing survival distributions. Biometrika, 1981; 68:316-319. 5. 魚住龍史 ・水津純基・浜田知久馬. 生存時間解析における Lakatos の症例数設計法の有用性の評価. SAS ユ ー ザ ー 総会論文集, 2009.143・152. 6. 魚住龍史・矢田真城・浜田知久馬.SAS プロシジャを用いた生存時間デ ー タに対する例数設計の変革 .SAS ユ ー ザ ー 総会論文集, 2016.250・267. 7. 大橋靖雄・浜田知久馬・魚住龍史 . 生存時間解析応用編 - SAS による生物統計. 東京大学出版会, 2016. 8. 張方紅・寺尾工. 非劣性試験の例数設計方法の紹介ー生存時間デー タの場合・.SAS ユ ー ザ ー 総会論文集, 2010. 87-100. 9. 中西豊支・五所正彦・菅波秀規 .POWER プロシジャを用いた生存時間解析における症例数設定方法の統 計学的 一 考察. SAS Forum ユ ー ザ ー 会論文集, 2006.19・28. 10. 浜田知久馬・藤井陽介. 生存時間解析における症例数設計. 11. 浜田知久馬・安藤英 一 . 日本 SAS ユ ー ザ ー 会論文集, 2003. 73・98. POWER プロシジャによる症例数設計. SAS Forum ユ ー ザ ー 会論文集, 2005. 127-151. 12. 浜田知久馬. 生存時間解析の実務的課題の SAS での解決.競合リスク, 非 PH モデルの被験者数設計, 最適被験者数配分 .SAS ユ ー ザ ー 総会論文集, 2017.427. 13. 水津純基・浜田知久馬. 生存時間解析における症例数設計方法の性能比較. SAS ユ ー ザ ー 総会論文集, 2008. 19-28. 97

104.

SAS によるベイズ流単群第 II相試験における症例数設計 0張 方紅 (ノパルティスファ ー マ株式会社) ベ イズ流デザインは, コ ンセプトを実証するための第 II相 POC 試験( proof of concept s仰の) におい ベ イズ流枠組みでは, 本来理論的に事前に症例数を決定する必要がなく, てよく利用されている. 意思決定に十分な情報が得られたと判断した時点で試験を終了すればょして手良向,2008).しかし, ベ イズ流デザインを利用している試験においても, リソ ースの確保や試験期間の見積もりなどの実 際的な理由により試験開始前に症例数を決定する必要がある . 2値変数を主要評価項目とするPOC 試験に適用可能なベ イズ流症例数設計法は数多く存在するが,これらの方法は異なる コ ンセプトに 基づいて提案され, 臨床や統計の雑誌に散在している。 手良向 (2008)は, 精度に基づく方法と Whitehead et al. (2008)の事後分布に基づく方法について解説を与えている. 事後分布に基づく方法 は, Whitehead et al. (2008)以外も複数存在する. しかし, それらの手法に対する性能などを比較検 討した研究はなく, 実務者にとってどれを利用すべきか判断に難しい. そこで, 本発表は, 理解し やすく計算も簡単と思われる4 つの方法,(1) Whitehead et. al. (2008), (2) Fisch et. al. (2014), (3) Zaslavsky (2012)及び(4) Tan and Machin (2002) を取り上げる. ベ イズ流枠組みは, pを確 と対立仮説H1:P>P 奏効率をpと表し, 帰無仮説的:p =po o を設定する. 率変数とみなし, 事前情報を事前分布として解析に取り入れる. 症例数nlこおいて反応例数X =xと なるデー タがあるとする. デー タを与えた上での事後確率がある事前に決められた闘値確率1 αよ - り大きい, すなわち, P(p 芝 Po ln, x) � 1 α(*) の場合, 治験薬は「有効」と判断する. 事後確 率はデー タ(n, x)の関数で、あり, 有効性判定基準(牢)を満たすのため, 事前情報にどのくらいの量の デ ー タを追加すればよいかは, 事後分布に基づく症例数設計の本質である. 同じ事前分布に対して も, 有効性判定基準(*)を満たすnとxの組み合わせが無数に存在するので, 症例数を決めるため, n とがこ対して制約条件を課す必要がある. 方法(1)はnを固定してxを動かすのに対して,方法(2)はx を固定してn動かしている. 方法(4)では制約条件n ホ (po + t:) ー = Xを課している. 一方,方法 (3) は 頻度論の手法に対応している. 本発表は,まず, 統 なデザインパラメ ー タを利用して4つの方法 の コ ンセプトの違いを明らかにし, 仮想の臨床試験において, なるべく同じようにデザインパラメ ー タの値を設定し, 4つの方法を用いて症例数を算出する. それから, 事前分布やデザインパラメ ー タを変化させたときの症例数の計算結果を比べる.また,各デザインの動作特性を比較検討する. さらに, 実務者のため症例数を計算するSASプログラミングを提供する. [参考文献】 Fisch R, Jones I, Jones J, Kerman J, Rosenkranz GK, and Schmidli H (2014): Bayesian Design of Proof-of-Concept Trials. Therapeutic Innovation & Regulatory Science, 1-8. Tan S-B and Machin D (2002). Bayesian two-stage designs for phase II clinical trials. Statist. Med; 21: 1991-2012 Whitehead, J., Valdes-Marquez, E., Johnson, P. and Graham, G. (2008). Bayesian sample size for exploratory clinical仕ials incorporating historical data. Statistics in Medicine, 27, 2307-2327. Zaslavsky, B.G. (2012),“Bayesian Sample Size Estimates for One Sample Test in Clinical Trials with Dichotomous and Countable Outcomes ,” Statistics in Biopharmaceutical Research, 4, 76--85. 手良向聡(2008)二値エンドポイントの単群臨床試験におけるベイズ流デザイン;計量生物学 Vol. 29, No. 2, 111-124 98

105.

Stepped Wedge Cluster Randomized Trialの 検出力計算とサンプルサイズ設計の SAS による実装 0小山田隼佑 l 、 山口拓洋 l ( I東北大学大学院医学系研究科医学統計学分野) Stepped Wedge Cluster Randomized Trial (Stepped Wedge CRT)は、 クラスタ ー レベルで介入時期 をランダム化し、 順番に観察期から介入期に移行(介入の導入時期をずらして順次適用)する試験 デザインである。最終的に全てのクラスタ ー に介入が導入されることからステ ー クホルダ ーに受け 入れられやすい点、 介入開始の準備が複雑な際に経済性や効率に優れている点などが注目され、 近 年海外では本試験デザインを利用した研究が急増している。しかし、日本での認知度は極めて低い。 Stepped Wedge CRTの統計的方法論はここ数年で目覚ましい発展を遂げており、 その多くが出発 点として引用している文献(Hussey MA & Hughes JP, 2007)では、 Cross-sectional data(測定時期ご とに、 クラスタ ー 内の対象者が全て入れ替わる)を想定し、 正規分布に従う連続量をresponseとし た混合効果モデル(固定効果:介入効果・時期効果、 変量効果:クラスタ ー 間分散)に基づき、 治 療効果の推定量の分散を算出し、 検出力の計算に導入している。 この検出力計算は、 Rにおける 、 swCRTdesignとし、うノfッケ ー ジのswPwr 関数で 再現可能で、あるが、 SASのプロシジャには実装されて いない。 また、 この治療効果の推定量の分散を利用し、 総step数/総クラスタ ー 動各時期・各クラス タ ー のサイズの概念を導入することで、 Stepped Wedge CRTのDesign effectを導出、 サンプルサイズ 設計の枠組みを提供している文献(Hemming K & Taljaard M, 2016)も存在する。 プレゼンテ ー ションでは、 Stepped Wedge CRTの概要および文献に基づく検出力計算・サンプル サイズ設計の基礎、 作成したSASプログラムについて紹介した上で、 実際の臨床試験に対して実装 し、 Rのパッケ ー ジであるswCRTdesignによる結果との比較を行う。 R swPwr(design, distn, n ,間u0 , 間ul, tau, sigma, alpha=0.05) 旬 t, 12 13 t, ts 5日 協綴機織線機線級機織機線機関 度目機織繍畿繍織機麟繍機織機綴 巴百機織問機機織機問機糊 �際機機騒機鱗機機麟鱗麟機灘 騒璽翠鵬期 露翠霊童介入期 SAS Ng=m句作1)’ k; var_theta_i=4・剖gma2tot/Ng; DEsw=(t叶)禽((1+rho*(t'm÷m・1))/( 1+rho・(t'm/2今 m・1)))句(ゲ(1・巾口))/(2*(1ぺit))); var_theta sw=var_theta_i*DEsw, power=probnorm(abs(theta )/sqrt(var_theta_sw)・z_alpha); 必 99

106.
[beta]
、

CDISC のスタイノレシ ー トを改変して視覚化ニ ー ズ を満たす
~

読みやすい定義書を目指して ~
0関根

暁史

(藤本製薬株式会社)

既存のCDISC define.xml用のスタイルシー トは コメント類の改行・字下げ表示ができなかった。そ
こでSASデ ー タステップを用いて既存のスタイルシー トの コ ー ド内容を書き換えることにより、 コ
メン卜類のWeb表示体裁を読みやすく修正することとした。
SASを使用することにより コ ー ド修正履歴を記録できるだけでなく、 Stylesheet VersionをSAS プログ

ラム実行日に書き換えることも可能である。
[Commentの改行・字下げ表示]

|新しいスタイルトトでの表示|

|今までのスタイルシートでの表示|

Assigned:

”

百LB.LBCATg"U悶NALYSIS 目、en do;
・

If LB.LBCATg"URINALYSIS 出en do; if LB.LBORRESg•-"

町LB.LBORRESa f甘酬AV札制1;
"
If LB.LBORRESa + - •出en AVALa2;

AVALglnput【LB.LBORRES,b田.t.); end;

AVAL=3;
end;

"

then AVAL=l; If LB.LBORRESg"+-· then AVAL•屯;町
・
LB.LBOR畏ESg"l+ ther、AVALa3; end; else do;

"

百LB.LBORRESa"l+ 出en

else d。;

AVAL=lnput(LB.LBORRES,b田t.);
end;

【 ItemGroupCommentの改行・字下げ表示]

i 新しいスタイルシ トでの表示 l

|今までのスタイルシ ートでの表示|

ー

Datasets

Datasets

υ

銘柄に使用しないためスク ー
ニンク観怠倒は本データセット

震析に使用しないためスクリ ー
2:USU且JID I=シク鋭諮傍は本データセ\)Iト

か告除外じた. 喜平じくはデー夕
方イドψ『由$,自をご多!理下さ
b

t,喝除外した.

、.

詳しくはデ四 タガイドV吐ーラ
目をご@喪下さい.

Analysis Data Reviewer's
Guide [皐19]

Analysis Data Reviewer's
Gulde I亘19]

根本的にdefine.xml 自体の コ ー ド修正は不要であり、スタイルシー トの差し替えのみで改行や字下げ
等の表示体裁変更は達成可能となる。もちろん SDTM/ADaMの区別は間わない。
コメントの可読性が良くなることでValueLevelメタデ ー タでの運用を多用せずに、 Variableメタデ ー
タでの運用にシフトできるメリットも期待される。

100

107.

小規模地域における疾患割合の推定について 仕子優樹 l 、 大東智洋口、 稲葉洋介 l 、 小津義人 l 、 川崎洋平 l ( 1 千葉大学医学部附属病院臨床試験部生物統計室、 2 筑波大学つくば臨床医学研究開発機構、 3 筑波大学大学院人間総合科学研究科) 空間疫学では, 疾病の分布を地図に反映させる ことで, 地域ごとの死亡や擢患などの状況を把握し やすくする。疾病地図では, 年齢調整した死亡率(SMR)や擢患率(SIR)が多く用いられている。しか し, 期待度数が小さい地域では, これらの指標のばらつきは大きく, 値を解釈しづらいという問題 がある l 。この問題を解決するために,ベ イズ流の解析法が用いられている。ベ イズ流の解析法には, 、 経験ベ イズ法や, 地域聞の相聞を考慮、した条件付き自己回帰モデ ル(Conditional Autoregressive 、 model: CARモデ /レ)2による方法がある。 これらの解析法の実例として, フリ ー ソフトの WinBUGSを用 いた例があるが, SAS を用いた例は少ない3 5。そこで本発表では, まれで、ない疾患における 寵患者 、 数の割合の推定に対して, ベー タ一 二項モデ ル を想定し,経験ベイズ法,CARモデル による方法をSAS で実装した結果を報告する。どちらの方法を用いても, 情報量の少ない小規模地域における割合の 推定値は, 全体平均の方向に近づいた(近づき, その程度は(経験ベ イズ法 or CARモデルによる 方法) の方が大きかった。) r 参考文献 1. Lawson AB, Biggeri AB, Boehning D, et al. Disease mapping models: an empirical evaluation. Disease Mapping Collaborative Group. Stat Med.2000; 19(17 18) :2217 41. 2. Besag JE, York JC , Mollie A. Bayesian image restoration, with two applications in spatial statistics. Ann Inst Stat Math.1991;43(1) :1-20. 3. GeoBUGS User Manual. https://www. mrc-bsu.cam.ac.uk/wp-content/uploads/geobugs12manual.pdf(2019 年7 月 25 日 アクセス可能) 4. WinBUGS を使った生態学デー タのベ イズ統計解析. ~ http://hosho.ees.hokudai.ac. jp/ kubo/r/show/2009/keisantoukei/kubo2009cs.pdf(2019 年 7 月 25 日アクセス可能) 5. The MCMC Procedure. Spatial Prior. https://documentation.sas.com/?docsetld=statug&docsetTarget= statug_mcmc_details61.h tm&docsetVersion=14.2&locale=en (2019年 7 月 25 日アクセス可能) 101

108.
[beta]
様々な付加情報を加えた Kaplan Meier Plot の作成事例
貴広 l

o 川原田

(1FMD K&L Japan)

医薬品開発における解析では、さまざまなグラフが作成され、 本ユ ー ザ ー 会でも多くのユ ー ザ ー
がそれらの有用性について発表を行っている。今回は、昨年“SGPLOT プロシジャによる抗がん剤領
域で用いるグラフ作成の事例 ”で紹介をした、STYLEATTRS ステ ー トメン卜及びRick(2012)が紹介し
ているRGBマクロに加え、 BAND ステ ー トメント、 DROPLINE ステ ー トメント、 別 SET ステ ー トメ
ントを用いて、 様々な付加情報を加えたKaplan Meier Plot の作成例を紹介する。
BAND ステ ー トメントは、 信頼区間の帯を作成するために用いる。 信頼上限と信頼下限をそれぞ

れupper=、 lower=に指定することで、 容易に描写できる。 また、今回はKaplan Meier Plot ということ
で、 type=stepを指定している。 BAND ステ ー トメントは、 昨今話題になっている境界内平均生存時
間( Restricted mean survival time )を図中に示す際にも有用であると考えられる。
DROPLINE ステ ー トメントは、 中央生存期間を図中に示すために用いる。 X座標とy座標を指定す
るだけで、 参照線を引くことができる。 他にも、 年次生存割合を図中で強調したい場合にも、
DROPLINE ステ ー トメントは有用であると考えられる。
これらを用いて、 今回作成するKaplan Meier Plotの作図の目標を以下とした。
①群ごとにKaplan Meier Plotを描写
②生存割合の 95% 信頼区間の帯を描写
③ Log-rank検定のP 値及びHazard 比( 95%信頼区間)の表示
④中央生存期間の参照線の描写
⑤ At risk数の表示
それぞれ、 ①は STEP ステ ー トメント、 ②はBAND ステ ー トメント、 ③は別SET ステ ー トメント、
④は DROPL別E ステ ー トメント、⑤はXAXISTABLE ステ ー トメントを使用し、作成することが出来
た。 完成図は以下である。
Kaplan-i\to;or Plot for OS

一一一
Active(n 250)
ーーーーc。n廿ol(n 250)
=

1.0

=

口
口

0.9

·f

コ
凹

l

!

且
�
』
�

。

.895也Cl(Ac出,e)
95もCl(Control)

、、令
官私ち

0.71

。

’、
ミも‘、'«
)

.6

,

‘、:Q�e�i舗n;!!,6(5,7:::M)

0.5

‘�"6旬ι

0.4

‘�)~

、・・品

旬、

0.3

、‘ぞ争土、こ入

0.2

てa..

0.1

、4・ーー曜、
司-s僧炉、-

Logrank Test:pく0.0001
0.0--1 Hazaγd Ratio(95也Cll:0.48(0.39ぞ0.59)

。

Active(n=250)
Control(n= 250)

No. at Risk
250
250

12

3

15

h

’”、-0)

18

21

24

85
23

71
15

11

Overall Survival (Mon出s)
208
180

178
119

158
88

129
65

102

106
43

52

109.

Cure model における2種類の生存関数のシミュレ ー ション比較 o川原田 貴広 l (1FMD K&L Japan) オンコロジ ー 領域において、 免疫チェックポイント阻害剤及びがんワクチンの特性として、 効果 発現までに 一 定の時間を要すること、効果が長期的に持続することがあげられる。 本発表ではこの 特性を考慮、した2つの生存関数 (区分関数)を仮定し、 シミュレ ー ションを行うことで比較する。 今回仮定のベ ー スとなる生存関数は以下の2つで、ある。 At) ① S( の= 8(λ ② S(t) = p + (1 - p) X e ト の それぞれS(t) :生存関数、 t :生存時間 (カ月)、 λ : ハ ザ ー ド、 p : Cure 率で、ある。 シミュレ ー ションのポイントとしては、対照群と実薬群の生存曲線が重なったまま推移する遅発 性効果と、 長期生存( Cure)を考慮することである。 今回のシミュレ ー ションでは、 実薬群が遅れ て効果を発揮する時点を3カ月、また、5年以上生存している被験者を Cureの扱いとし、5年で、 の Cure 率を実薬群で50%、 対照群で35%とした。 被験者数は450例で1 : 1割り付けの二群比較、解析時点を 5年、 追跡期間をすべての被験者で5年、 シミュレ ー ション回数を10000回とした。 今回は①と②の生存関数を区分間数とし、O=く t =く3、3く t =く60、 60く tの区間で3式に分け、 Time to eventの変数を作成する。 I. 0=< t =<3 : Active群と Control群のλは同じである。 60カ月でS(t) =0.35を通るように(②の 生存曲線では厳密には0.35を通らないので、 0.351とした)λを算出する。 II. 3< t =く 60 : Control 群はIと同様である。 Active 群は60カ月でS(t) =0.5を通るように (②の生存曲線では厳密には0.5 を通らないので、 0.501とした)λを算出する。 ID. 60< t :限りなく小さな値でλを指定する(例え ば・0.000001など)。 デ ー タ発生後は、 LIFETEST及び PHREGなどにより、 Log-rank検定の P値、 RMST、 ハ ザ ー ド比、 イ ベント数を算出し、 検出力や平均を計算した。 結果は以下である。 検出力 生存関数① 89.55% 生存関数② 82.84% 解析時点の平均 RMST(実薬群) 42.83カ月 34.35カ月 解析時点の平均RMST(対照群) 37.15カ月 0.674 27.01カ月 0.699 258.9 258.6 出力内容 解析時点の平均ハ ザ ー ド比 解析時点の平均イベント数 検出力は①の方が高い。 ②で24カ月までにイベントが集中している(特に遅発期間)ためである と考えられる。 RMST は Active 、 Control ともに①の方が大きい値である。 これも24か月までのイベ ントの集中具合のため、 ②のKM曲線が低く推移しているためであると考えられる。 平均 ハ ザ ー ド 比は①の方が良い方向になっている。 ②では HR=l.0 に近い期聞が長いためであると考えられる。 今回の2つの例に限らず、 どんな生存関数の仮定を置くかは臨床との議論、 過去の試験や論文など の情報が十分に必要である。 103

111.

SAS OnDemand for Academics 生物統計解析ハンズオンセミナ ー 0江森 健人I, 2、 小川 直之 I, 3 、 渡辺 裕治 l,·l 、 浅野 圭吾 I, 5 、 土屋 裕章 I, 6 、 鈴木 博之上 7 ( 臨床評価研究会、 2EAファ マ株式会社、 3 株式会社三和化学研究所、 4 株式会社タクミインフ ォメー ションテクノ ロ ジー 、 5 株式会社デー タフォ ー シー ズ、 6 ヤンセンファ ー マ株式会社、 7 株式 ー 会社エスアー ルエル ・ メディサ チ) I ー SAS社より学習用に無料で使えるSAS OnDemand for Academicsがリリースされ、 SAS を用いた統 計解析教育、 個人での学習や研究における解析作業の環境は大き く進歩した。 そこで、 SAS OnDemand for Academicsの利用法を解説し 、 生物統計解析の実演を行うことで、 SASと生物統計学 の裾野を広げることにつながると考え、 昨年と同様、 本セッションを企画した。 本セッションでは、 SAS 入門編としてアカデミア並びに企業においてSAS利用を考えている初心 者を対象として、 SAS OnDemand for Academicsの基本操作と、 「新版実用SAS 生物統計ハンドブ ック[ SAS句 .4/R3 ユ 0 対応]」から取り上げた生物統計解析の事例についてハンズオンセミナー を行 う。 題材とする事例は①デー タの要約、 ②2群の平均値の比較、 ③相関と回帰、 ④生存時間解析、 の4 つを予定しており、 それぞれ基礎的な生物統計学とSAS プ ロ グラムの書き方、 SAS アウトプット の見方を解説する。 [ハンズオンセミナー 受講者へのお願い] -本セミナー を受講される方は、 ご自身のPCをお持ちください。 ・ 題材とする統計解析事例の演習プ ロ グラムは弊会のホームペー ジ上で公開しておりますので、 事前にダウン ロー ドをお願いします。 (ダウン ロー ドURL、 550KB) htto://www.acc-io.org/files/l-lANDBOOK ACE SAS 2017051 O.zio .事前にSAS OnDemand for Academicsのアカウント登録を済ませてください。 SAS社のホームペー ジより登録申請ができますが、 申請から ID ・ パスワ ー ドの発行までは十数分 ~数十分程度の時聞が必要になると思われます。 (登録申請先 URL、 2019年 7 月現在) httos://www.sas.com/orofile/ui/#/c 代ate -既にSAS OnDemand for Academicsのアカウントをお持ちの場合も、 事前にご確認ください。 107 ロ グインが可能であることを

113.

FCMPのSTATIC statement,HASH object,DICTIONARY object それぞれによるLAG関数機能の定義 森同 裕 イ ー ピ ー エス株式会社 STATIC statement, HASH object, DICTIONARY object Definition of LAG function function by each in FCMP Yutaka Morioka Statistics Analysis Department!, EPS Corporation 要旨 FCMPプロシジャはSASのパ ー ジョンまたはメンテナンスリリ ー スレベルが上がる度に多くの機能拡張が行われて . いる. 特にFCMP内のSTA TICステ ートメント,HASHオブジェクト,DICTIONARYオブジェクトについては, それぞれ 特徴的な機能を持った拡張点である. 各機能の特長と実装法について, 通常SQLプロシジャ内でErrorとなるLAG 関数と同等の挙動をユ ー ザ ー 定義関数としてどのように定義できるかを題材にして説明する 1. LAG関数とテストデ ー タ まずは, SASHELPライブラリに格納されているCLASSデ ー タセットを用いてLAG関数の機能を確認する. Na鵬 data wkl; set sashelp.class; L age=lag(age); L2_age=lag2(age); keep name age Lー:; run, 7)レフレッド アりス パ - )\ラ ヰ+ロル へンリ ー ジェ 』 ムズ ジェ ー ン ジャヰット ジzフリ」 ジョン ー 上記のコ ドの結果が右図で, lag(ag巴)の結果にはlobs前のageの ジョイス ー ジュディ 値が入り, lag2 (age)の結果には 2obs前のageの値が入っているよう ルイ』ズ メアリ ー フィυッブ にみえる. ロパ』卜 ロナルド しかし, lag(n)関数の説明として, nオブザベ ー ション前の値を取得 ト ー マス ウィリアム するという説明は間違いである Age 14 13 13 14 14 12 12 16 13 12 11 14 11 15 16 11 15 11 15 Lage [ L2岨@ 14 13 13 14 14 12 12 15 13 11 11 14 11 15 16 11 15 11 例えば年齢が15歳の場合のときのみ, lobs 前の値を取得したいと考えて, 次のコ ー ドのように書いたと する. data wk2; set sashelp.class; if age=15 then L_age=lag(age); run, 111 14 13 13 14 14 12 12 15 13 11 11 14 11 15 16 11 15

114.

その結果を右図に示した. �ヲお干 日’u;,. SAS の日本語サポ ー トペ ー ジでの LAG 関数の説明は 「 キュ ー か,二;♂ 目《ンu l ジ斗ムズ ら値を返します。jの 一 文である. もう少し簡単に説明するならば,LAG 関数は正確には,n 回前 にその関数を通過した値を保持して返す関数だと説明できる ンシヤルな処理を想定して,キュ を構築する関数のため,仕 」 刷出I 69 51 66 63 64 Weicht I 113 84 98 103 L ••• Ii :�;�� 目ジェ ー ン I� :弘 ジュディ ー ルイ」ズ メ7リ ー lobs 読み込んで, lobs 出力する SAS デ ー タステップのシー ヶ I�て ー 14 13 13 14 γ it�; Hロナルド ム 組みの異なる SQL プロシジャ内では使用できないようになっている. 試しに以下のコ ー ドを実行してみると, 「 ERROR: PROC SQL では LAG 関数はサポ ー トされていません。 DATA ステップ内では使用可能です。Jとログに表示され,エ ラ ー で終了してしまう. proc sql; select name,age,lag(age) as L_age from sashelp.class; quit; proc sql; selecl n e,age,lag(age) as _age from sashe Ip. c I ass; R即日: PROC SQL�はLAG関納まサボ 』 卜されていません。 DATAステップ内�t;J:使用可能です。 qull; ー 日TE:エラ が発生したため、このステッブの処理を中止しました。 :GTE: PROCEDURE SQL処理河合計処理時間): 0.01 秒 処理時間 0.01 秒 CPUB寄閣 叩 SAS の言語仕様なので致し方ない部分ではあるが, エ ラ ー に逆らい,言語仕様の裏をかきたくなるのはハ ッカ ー の性である.そういった 一 見すると,悪ふざけた試みが,新しい知見をもたらすこともある.本稿で は敢えて SQL の中で LAG 関数処理を行う方法について追求する. 2. 自己結合での実現 SQL の中で LAG 関数と同じ結果を得たい場合,当然,自己結合の使用が考えられる .1 名前 proc sql; select BASE.NAME ,BASE.AGE ,PREV.AGE as L age from (select 六monotonicO as KEY from sashelp.CLASS) BASE left join (select へ monotonicO as KEY from sashelp.CLASS) PREV on BASE.KEY=PREV.KEY+l; quit; monotonic 関数は処理連番を付与する関数で,obs が関数処理を通過する度に1ずつカウンタが加算されて いくイメー ジの関数である.ただし,undocumented SAS function とよばれるものの 一 つで,古くからユ ー ザ ー の聞では知られ,実装もされているが,公式リファレンスには載っていない. 通過連番と,通過連番に l 足した数をキー にして自己結合してやれば,LAG 関数と同じ処理は可能である. しかし,本稿ではあくまで,関数処理という部分にこだわりたい. 3. FCMP プロシジャの STATIC ステ ー トメント FCMP プロシジャはユ ー ザ ー 定義関数やサブル ー チンを作成することができるプロシジャである. FCMP プロ シジャの基本的な説明や文法については,過去に多くの論文で説明されているため,本稿では説明しない. FCMP プロシジャの STATIC ステー トメントは SAS のリファレンスでは 「 Retains a variable' s value from a previous call until the variable is reassigned. Jと解説されている.つまり,関数の内部に,指定し 112

115.

た値について, 呼び出しの 度に初期化されることを防ぎ, 保持しつづけることができるようにするという意 味である. 以下のコ ー ドでは, rsumという関数を定義し, STATICステ ー トメントでx という変数を指定して, その初 期値に0を与えている. そしてxに引数の値を足して, それを戻り値 としている. もし STATIC で指定していなければユ ー ザ ー 定義関数の内部変数であるx は関数が呼び出される度に初期 化される. しかしSTATICの働きに より, その初期化がおきないため, 関数を実行すると引数に指定した変数 の累積合計が戻ることになる. Name アルフレッド アりス }\ - パラ キャロル へンリ ー ジェ ー ムズ ジヱ ー ン ジャネット ジヱフリ ー . シ ョン ジョイス ジュディ ー ルイ ー ズ メアリ 』 フィリップ ロハ ー 卜 ロナルド ト』マス ウィリアム proc fcmp outlib=work.functions.common; function rsumGn); static x o; x=m+x, return(x); endsub; run, options cmplib = work.functions; data TEST; set sashelp.CLASS; sum_weight=rsum(weight); run , Name ifステ ー トメントを入れて, 特定のobsでのみ 関数が呼び出されるようにすると, 関数が値を 保持しているイメ ー ジが よりわかりやすい. data TEST; set sashelp.CLASS; if S EX=” 女子” then sum_weight=rsum(weight); run , この機能を使って, LAG関数を定義したのが以下の コ ー ドである 保持した変数を戻り値に入れた後に 引数で更新している. 右最下部の出力図で, 無事に 実装できていることがわかる. proc fcmp outlib=work.functions.common; function lagn(var); static st ; x=st; st=var; return(x); endsub; run, options cmplib = work functions; data wk3; set sashelp.class; L_age=lagn(age); run, アルフレッド アリス J、 ー パラ キャロル へンり ー ジェ 』 ムズ ソェ 』 ン ジャヰット ジェフリ ー ジョン ジョイス ジュディ ー ルイ ー ズ メアリ ー フィリップ ロハ ー ト 口ナルド ト ー マス ウィリアム Name アルフレッド アリス }\ - })ラ キャロル へンリ ー ジェ ー ムズ ジェ ー ン ジャヰット ジェフリ ー ジョン ジョイス ジュディ 』 ルイ ー ズ メアリ 』 フィリッブ ロパ』卜 ・ ロナルド ト ー マス ウィリアム 113 I Sex l飽e I Height I 14 13 13 14 14 12 12 15 13 12 11 14 12 15 16 12 15 11 15 男子 女子 女子 31."子 男子 男子 女子 女子 男子 男子 主王子 女子 31."子 女子 男子 男子 男子 男子 男子 69 56.5 65.3 62.8 63.5 57 .3 59.8 62.5 62.5 59 51.3 64.3 56.3 66.5 72 64.8 61 57.5 66.5 Weight 112.5 84 98 102.5 102.5 83 84.5 112.5 84 99.5 50.5 90 14 13 13 14 14 12 12 15 13 12 11 14 12 15 16 12 15 11 15 I Sex I Age I 男子 女子 女子 女子 男子 男子 女子 女子 男子 男子 女子 女子 女子 女子 男子 男子 男子 男子 男子 14 13 13 14 14 12 12 15 13 12 11 14 12 15 16 12 15 11 15 69 56.5 65.3 62.8 63.5 57.3 59.8 62.5 62.5 59 51.3 64.3 56.3 66.5 72 64.8 67 57.5 66.5 帽 112.5 84 98 102.5 102.5 83 84.5 I 12.5 84 99.5 50.5 90 I sum weight 84 182 284.5 369 481.5 532 622 699 自11 11 112 150 128 133 85 112 I Weight I 112.5 84 98 1日2.5 102.5 83 84.5 112.5 84 99.5 50.5 目。 77 112 150 128 133 85 112 i出t 112.5 196.5 294.5 397 499.5 582.5 667 119.5 863.5 963 1013.5 1103.5 1180.5 1292.5 1442.5 1570.5 1703.5 1788.5 190日.5 11 69 56.5 65.3 62.8 63.5 57.3 59.8 62.5 62.5 59 51.3 64.3 56.3 66.5 72 64.8 67 57.5 66.5 Height m 剖 112 150 128 133 85 112 I Sex I Age I Height I Weight 男子 女子 女子 女子 男子 男子 女子 女子 男子 男子 女子 女子 女子 女子 男子 男子 男子 男子 男子 I L age 14 13 13 14 14 12 12 15 13 12 11 14 12 15 16 12 15 11

116.

Nome しかし, STATICは関数自体が内部変数を共通して保持するので, 引数が異なって呼び出されても, 共通のSTATIC変数を参照して しまう. data wk4; set sashelp.class; _age= lagn(age); weight=lagn(weight); keep name age weight run, ; 上記のようなコ ー ドを実行すると意図せずageの値を_weightに格納 し, weightの値を_ageに格納するいったことが起きてしまうので 注意が必要である. アルフレッド アリス パ ー パラ キャロル へンリ ー ジェ 』 ムズ ジェ ー ン ジャネット ジェフリ ー ジョン ジョイス ’ ジュテ ィ ー ルイ ー ズ メアリ 』 フィ υ ッブ ロパ 』 卜 ロナルド ト ー マス ウィリアム I Age l恥ii:ht I 14 18 18 14 14 12 12 15 18 12 11 14 12 15 16 12 15 11 15 112.5 84 98 102.5 102.5 88 84.5 112.5 84 99.5 50.5 90 77 112 150 128 188 85 112 e I _weight _昭 112.5 84 98 102.5 102.5 88 84.5 112.5 84 99.5 50.5 90 77 112 150 128 188 85 14 18 18 14 14 12 12 15 18 12 11 14 12 15 16 12 15 11 15 またFCMPプロシジャは仕様として,戻り値が文字型であるか数値型であるかを予め定めなければいけない という制限があるため, 型ごとに関数を別に定義する必要がある. そういった制限っきではあるが,FCMPのSTATICステ ートメントを使って実装した関数は,SQLプロシジャの 内部でも問題なく動作することが, 今回確認された. proc sql; select name,age,lagn(age) as _age from sashelp.class; quit; ‘ 4. FCMPプロシジャのHASHオブ ジェクト ‘ SAS9.3より FCMPプロシジャの中で, HASHオブ ジェクトを定義することが可能となった. 関数の使用が開 、 始される時点でのみdeclare部分が動作するためFCMPとHASHオブ ジェクトは非常に相性がよい.以下はDS1 をセットして, ID がDS2に存在するかをチェックし, 存在すればY,しなければ N を返すコ ー ドである. proc fcmp outlib=work.functions.common; function check(ID $) $; declare hash hl(dataset: ”D82 ”); rc= hl.definekey(” ID”); rc= hl.definedoneO; rc= hl.checkO; if re eq O then return(”Y”); else return(”N”); endsub; quit; options cmplib = work.functions; data OUT; setDSl; YN= check(ID); run, 回目 114 Eヨ

117.

通常のデ ー タステップにおいてハッシュオブジェクトを使用する場合と, 文法がほぼ同じであるため, 学 習コストが低く手軽に使用することができる. 難点としては, 関数のコンパイル時にオブジェクトの定義が 完了してしまうため, declare ステ ー トメントの dataset :オプションで指定するデータセットについて, 引 数を使って, 可変に指定出来ない点がある. 以下が FCMP プロシジャの HASH オブジェクトで lag 関数を実装したコ ー ドとなる proc fcmp outlib=work.functions.common; function h_lagn(var,n); declare hash hl; rc=hl.definekey(”monoウ; rc=hl.definedata( ”val”); rc=hl.definedoneO; _mono=monotomcO; mono= mono-n, rc=hl.findO; rv=val; val司ar; mono= mono, rc=hl.addO; return(rv); endsub; run, quit; Name Age アルフレッド アリス )\-パラ キャロル へンリ』 ジェ ー ムズ ジェ ー ン ジャネット ジヱフリ ー ジョン ジョイス ジュディ ー ルイ ー ズ メ71)フィリッブ ロハ ー ト ロナルド ト ー マス ウィリアム 14 13 13 14 14 12 12 15 13 12 11 14 12 15 16 12 15 11 15 L age 14 13 13 14 14 12 12 15 13 12 11 14 12 15 16 12 15 11 options cmplib = work.functions; data OUT2; set sashelp.class; L_age=h_lagn(age, 1); run, 、 monotonic 関数で生成される処理連番をキ ー として, HASH オブ ジェクトに追加し, 指定した数を処理連番か ら号|し、た値をキ ー として find メソッドを実行することで,前に処理を通過した値を戻り値として得ることが できる. 出SH オブジェクトはステップ内で使用する関数で共有されるため, 先ほど STATIC と同様に複数回や, 複数 変数への適用はできない. proc sql; select name,age,h lagn(age,2) as age2 from sashelp.class; quit; パ ーパラ しかし, SQL プロシジャの中でも問題なく動作し, 非常に興味深い. 115 13, 14

118.
[beta]
5. FCMP プロシジャの DICTIONARY オブsジェクト
、

SAS9.4M5 より FCMP プロシジャに DICTIONARY オブ ジェクトの機能が追加された. 基本的に key と data
で管理するという点では HASH オブ‘ジェクトに非常に似ているが, 大きな違いとして, HASH オブ『ジェクト
のように definekey や definedata で構造を事前定義する必要がない点があげられる.
たとえば, key の数は限度の 6 つまで、で、あれば, 可変で、設定でき, 型についても文字 ・数字に縛られず
に格納することができる. また data についても型混在が許容される.
以下のような辞書のイメ ー ジをサンプルとして想定してみる.
keyl
1
2
A
B
1
A

じ;事軽減

:;絡\V3

key· '•'i:-

da!高三
100
200
AAA

1
B

BBB
1000
CCC

1
‘

上記を FCMP の DICTIONARY オブ ジェクトで実装して確認してみる.
proc fcmp;
declare dictionary de;
length data2 data3 data5 $200;
dc[l] = 100;
dc[2] = 200;
de[”A”]=”AAA’’ ;
de[”B”]=”BBB” ;
ddl,1) = 1000;
de[ ”A”, ”B",l] = ” CCC";

eyl=l data!=
ey2=A data2=AAA
eyl=l data3=ZZZ
ey4」=1 key4_2=1 data4=1000
ey5_1=A key5_2=B key5_3=1 data5=CCC

keyl = 1;
datal = dc[keyl);
put keyl= datal= ;

キ ー にして, data を取得しているが, 途中で data を更

key2 = ”A” ;
data2 = dc[key2);
put key2= data2=;
de[!] = ”zzz” ;
data3 = dc[keyl);
put keyl= data3=;
key4_1 = 1;
key4_2 = 1;
data4 = dc[key4_1,key4_2);
put key4_1= key4_2= data4=;
key5_1 = ”A'・;
key5_2 = ”B” ;
key5_3 = 1;
data5 = dc[key5_1,key5_2,key5_3];
put key5_1= key5_2= key5_3= data5=;

右上がアウトプットに出力された結果になる.
アウトプットの l 行目と 3 行目については, 共に[ l]を
新しているため, 違う値が出力されている. 最初は数値型
の値「lOOJ が出力され, 次は「ZZZJ となっていることから
もわかるように, key や data が型に縛られない.
文法は非常にシンプルで, r declare dictionary 任意の
P

辞書名J で DICTIONARY オブ ジェクトを定義する.
伎を格納・更新,或いは取得するときも全て,任意の「辞
書名(key のリスト) J で取り扱うことができるため非常に
簡易である.
ただし, FCMP で引数と戻り値を持つ関数として利用する
場合はユ ー ザ ー 定義関数の制限上, 型が定まっていないと
、

いけないため, DICTIONARY オブ ジェクト本来の長所が活
かしにくくなっているように恩われる点は非常に残念で
る.

run,

116

119.

以下がFCMPプロシジャのDICTIONARYオブFジェクトでlag関数を実装した コー ドとなる proc fcmp outlib=work.functions.common; function d_lagn(var,n); declare dictionary d1; rv=dl[n+l]; dl[l]司ar; do i=lOO to 2 by -1; dl[i]=dl[i-1]; end; dl[l]=.; return(rv); endsub; quit; options cmplib = work.functions; data OUT3; set sashelp.class; L_age=d_la伊(age,l); run, Name アJレフレッドI アリス )\ - パラ キャ口ル へンリー ジェームズI シェ』ン ジャネット ジェフリー ジョン ジョイス ー ー 白‘ ュ7 γ イ ー ルイ ズ メアリ」 フィリップ 口J , - 卜 ロナルド トーマス ウィリアム Age 14 13 13 14 14 12 12 15 13 12 11 14 12 15 16 12 15 11 15 Lage 14 13 13 14 14 12 12 15 13 12 11 14 12 15 16 12 15 11 前に処理した 100 番目の値まで保持することを想定している. 戻り値を取得した後に, 関数が使用される ごとに辞書デー タを一 つずつ更新する処理を入れている. ハッシュオブ?ジェクトと同機能であるが, コー ドを見ると非常に単純化されていることがわかる. proc sql; select name,age,h lagn(age,2) as _age2 from sashelp.class; quit; SQLプロシジャの中でも問題なく動作する. 結論 本稿は, 通常SQLプロシジャ内では使用不可能なLAG関数について, 同じ機能をFCMPプロシジャで実装で きないだろうかという好奇心が発端となっている. 結果, 様々な方法で実現することができた. ただし 使 用に際しての制限があるため,そのまま実務で汎用的に使えるものとはならなかった. しかし,その過程で, STATICステ ー トメント, HASHオブジェクト, DICTIONARYオブジェクトの特徴をうまく説明することができ た. しかし, 現状, 本論文で紹介した機能の実際の使用例が充分に発表されておらず, ユー ザーがどういっ た機能をどのように選択するべきかの判断が難しい状況となっている. 今後, 具体的な利用の発表がなされ ることを期待したい. 117

120.

参考文献 Andrew Henrie!く,Mike Whitcher, and Karen Croft. 2017.'、Dictionaries: Referencing a New PROC ” FCMP Data Type Proceedings of the SAS Global Forum 2017 Con危 rence. Available at httos://suooort.sas.c⑪ rn/resources/oaoers/oroceedine:s1 7/SAS0418 ” 2017.odf 118

121.

SASによるWebAPIの利用方法と注意点: Google Distance Matrix APIを例として O 筒井杏奈、 大野ゅう子 (大阪大学大学院医学系研究科保健学専攻) Usage of and notes on Web API using SAS: A case study on Google Distance Matrix API Anna Tsutsui, Yuko Ohno Division of Health Sciences, Osaka University Graduate School of Medicine 要旨 近年、 WebAPI (Application Programming Interface) の普及は目覚ましく、 従来、 利用困難で、あった情報や サ ー ビスが WebAPI を通じて誰でも容易に利用可能となってきた。サ ー ビスの精度や信頼性が高い Web API を用いると、 ユー ザー は取得した情報の解析や解析方法の開発に注力できると期待される。 一方、 利用にあたっては、WebAPI の概念だけでなく、基本的な Web 用語である URI (Uniform Resource Identifier) 及び JSON (JavaScript Object Notation)、 並びに利用規約をはじめとする制約の理解が必要である。 また、 SAS から WebAPI を利用するには SAS 特有の注意点がある。 本稿では、 SAS を用いて WebAPI にリクエストを送り、 レスポンスで得られた JSON 形式のデー タを 読み込み、解析するという 一 連の作業の検討結果を報告する。具体的な例として、Google Distance Matrix API を利用して、 東北地区における小児がん拠点病院までの移動距離と所要時間を求めるという課題を 例に実証的に検討し、 利用における注意点を明らかにした。 キ ー ワ ー ド: WebAPI、 Google Distance Matrix API、 URI、 JSON、 JSON マップ 1 はじめに 近年、 Web 技術関連では Web API (Application Programming Interface)と呼ばれるサ ー ビスが注目され、 普 及が進んで、いる。 企業をはじめ、 政府や公共団体等の多様な組織が Web AP!を公開しており、 現時点でも 利用可能なサ ー ビスは多岐にわたる。 例えば、 SNS、 地図 ・ 位置情報、 音声認識や画像処理、 統計デー タや 気象情報等のサー ビスが、 Web AP!を通じて利用可能となっている。 これらを利用することで、 今まで個人 、 では収集が難しかった情報や、 専用ソフトウェアや専門知識が必要だ った解析結果が、 誰でも容易に得られ ようになってきた。 サ ー ピスの精度や信頼性が高いものであれば、 ユー ザー は取得した情報や結果を信頼し て利用することで、 その分、 情報の解析や解析方法の開発に注力できると期待される。 119

122.

一 方、 利用にあたっては、 WebAPI の概念だけでなく、 基本的な Web技術である URI (Uniform Resource Identifier)及び JSON (JavaScript Object Notation)、 並びに利用規約をはじめとする制約の理解が必要であ る。 また、 SAS から WebAPI を利用するには SAS 特有の注意点がある。 WebAPI は複数の統計解析ソフトから利用可能で、 R 及び Python を用いた報告はよく見られたが、 SAS を用いた報告は限られていた。 本稿では、 SAS を用いて WebAP !にリクエ ス トを送り、 れた JSON 形式のデ ー ー タ(以下、 JSON デ レス ポンス で得ら 一 タ)を読み込み、 解析するという 連の作業の検討結果を報告 する。 具体的な例として、 Google Distance Matrix API を利用して、 東北地区における小児がん拠点病院まで の所要時間と移動距離を求めるという課題を実証的に検討し、 利用における注意点を明らかにした。 2 基本的な事項 2.1 APIとWebAPI 「WebAPI」は Webと API の二つの言葉が合わさったもので、 API は「プログラムモジュ ール聞のやり取 りの取り決め J [1 ] を意味している。 つまり API とは、 あらかじめ構築されたシステムモジュ ールの機能 を呼び出す際の規約として、 どのような値を パ ラメ ータとして呼び出すか、 パ ラメ ータ名称は何か等を定め たものである[1]。 この API を発展させたものが WebAPI で、 HTTP プロトコル等の Web技術を用い、 インターネットを通 じて Webサ ーバ ーを外部から呼び出せる機能を持つ。 例えば、 SAS から Google マップの WebAPI に経路探 索のリクエ ス トを送り、 その結果を SAS データセットに読み込むことや、 「政府統計の総合窓口(e-Stat)」 の WebAPI に取得したい統計データの ID 番号を送り、 データを受け取ること[2] が可能となる。 WebAPI の利点は前節 l で示したが、 加えて、 ソフトウェアで WebAPI からの レス ポンスを直接処埋で きる点、 さらに繰り返し処理のルー プを活用して WebAPI に複数のリクエ ス トを機械的に繰り返し送信 し、 系統的に レス ポンス を得られる点が挙げられる。 2.2 URI WebAPI には多くの場合、 URI とし、う技術が用いられている。 URI とは、 情報やサ ー ビ ス 、 機器等の何ら かのリソース (資源)を 一 意に識別するためのデータの書式を定義した標準の一 つで、 一 般にはネットワ ー ク上のデー タやサ ー ビ ス 等の所在情報を表すために用いられるが、 他にも対象の識別情報を記述するために 用いられる[3]。 もともとリソース の所在情報を記述する書式の標準として URL (Uniform Resource Locator) が定義されたが、 これを拡張し、 位置に依存しないリソース の識別情報である URN (Uniform Resource Name)を追加して URI が定義された[3]。 この URI により WebAP !のリソース を表現することで、 リクエ ストの内容を指定できる。 例示として WebAP !の一 つである Google Distance Matrix AP !に、 二地点聞の経路検索をリクエ ス トする URI を URI l に示す。 ここで「<API KEY>」は API キ ーと呼ばれる、 とを意味する。 120 ユー ザ 一 個別の ID 番号を記載するこ

123.
[beta]
URI l東京駅から国立成育医療研究センター までの経路探索をリクエストするURI
https://『『1aps.googleapis.com/maps/api/distancematrix/json?&key=<API_KEY>&o
rigins=東京駅&destinations=国立成育医療研究センタ ー
URIは 一 意にリソー スを表現するため、同じ

0 httpsc/Jmaps.gocg!eapls.com/;·

URIであればどのソフトウェアから利用しでも

。

十

WebAP!のレスポンスは変わらない。

X

+

ー

a httpsJ/maps.googl曲pis.com/map抑piid由n

ヨ

×

合 @

"destination...addresses·
[
’
’日本‘干157-0074東京都世田谷区大露呈丁目1 0 1国立成宵医療研究センタ ー

またURIは使用可能な文字が限定されてお

1origin a出resses·
r四s

り、疑問符「?」やアン パサンド「&」等の特定

[

。

ルファベット等の自由に使用可能な「非予約文

’
u
t
a
t

s
lw

字jの2種類がある。 両方に該当しない文字
は、パー セントエンコー ディングと呼ばれる方
法を用い、「% XXJ (XX は十六進数)の形式

!status·

で記述する。 この場合、例えば感嘆符「!Jは

日本‘東京都千代悶区丸由肉1T自東京駅

市

]

M
nU
51
分お
5
OB ’
10
2 11
20
1 M同

の目的で用いられる「予約文字Jと、数字やア

“

[

ewe n” e
ct
u
tu
a
ea
tt
ea
v a
t
t
v
r”a
s’
u
d ld

”elements’.

[

”OK"

図I Googl e Di stance Matr ix AP!から取得したデータ

「%21」 、「東京」は
I
%BA
% ACJと記述できる。
「%E6%90%8 %E4

2.3

JSON

URIをアドレスパ ー に入力することでWebAPI
基本的にWebAPIはWebブラウザでも利用可能であり、
にリクエストが送られ、レスポンスが得られる。 このようにしてURIlから得られた検索結果を図lに示
JSONと呼ばれるWebAP!で広く用いられているデータ形式で表現されている。
す。 結果は、
JSONはJavaScript Obje ctNotationの略で、データを表すためのデー タ記述言語の 一 種である。 JSONデー
、

タはデータサイズ が小さく、人間にとって読み書きしやすく、機械にとっても構文解析( パ ース) ・ 生成し
やすい特長がある[4]。 名前にJavaScriptという言葉が含まれてはいるが、SASを含め、様々なソフトウェ
アで取り扱うことができる。
JSONは、二つのデータ構造を基にしている。

一

、

つは名前/値のベアの集まりで、様々な言語で「オブ ジェ

クトJ、レコー ド、構造体、連想配列等として実現されるものである[4]。 二つは値の順序付きリストで、
ほとんどの言語で「配列」として実現されるものである[4]。
守

JSONの形式の例を示す。 オフ ジェクトは名前/値のベアのセットで、波括弧「{」「}」で囲まれる。 各名
前の後ろにはコロン「:」が付き、名前/値のベアはカンマ「,Jで区切られる。 図1にて、移動距離は下記の
ように表現されている。
{ ” text ” : ” 20.5 km~

”

value ” :Zθ510}

名前と値はそれぞれ、textと ”20.5km”、valueと20510であり、各ベアがカンマで、区切られている。
値のうち、二重引用符「 ”」で固まれた20.5kmは文字列、固まれていない20510は数値である。 値として
はこれらの他に、true、false、nul l、
オブジェクト、配列を入れることができる。
もう 一 つの形式は配列で、順序付けされた値の集まりである。 角括弧「[J「]」で固まれ、値はカンマで

121

124.

区切られる。 図lで使用されている配列が複雑な構造をしているため、 説明のために簡易な例を下に示す。 { ” ” place :[ ” ” Kyoto , ” Osaka ” ], ” ” score :[ 8, 6, 4, 5 ], ” player :[{ ” ” ” ” ” name : Ken s ” ” age : 14 } , { ” ” name : Taro ~ ” ” age : 15 }] } このようにJSONは形式が簡単であり、 ある程度は人聞が目視でデ ー タを読むことができる。 2.4 利用規約・ ガイドライン 多くの WebAPI に、 利用規約やガイドラインが存在する。 利用にあたっては、 まず、 それらを参照し、 サ ー ピスの範囲や制限事項を確認することが必要である。 ただし利用目的により、 その使用方法が公式に認められているとは解釈できない場合が起こりうる。 その 場合は、 日本の著作権法の参照が解決をもたらす場合もある。 2018 年に著作権法が改正されて柔軟な権利 制限規定が整備された。 これに基づくことにより、 一 定の条件下で著作物の「軽微利用」が可能となってい る[5]。 また、 同 ー の WebAPI を機械的に繰り返し利用する場合は、 1秒間に l 固まで等、 リクエストの実行間隔 や回数に制限がないかを確認し、 サ ー バ ー に過度の負荷がかからぬよう留意することも必要である。 Google Distance Matrix API の利用 3 3 .1 Distance Matrix API の概要 現在、 Google は Google Cloud の枠組みで、 AI と機械学習、 デ ー タ分析、 デ ー タベ ー ス等、 様々な Web API を公開している。 従量課金制であるが 一 定量は無償で利用できる[6]。 本稿では、 Google の WebAPI 群のうち、 Distance Matrix API(以下、 本 API)を利用した。 本 API は Google マップで提供されている経路探索機能の WebAPI 版の 一 つであり、 交通状況を考慮した上で、 出発 地から目的地までの移動距離と所要時聞を計算し、 結果を返す。 返されるデ ー タの項目数が少なく(図 I)、 SASでも取り扱いやすいデ ー タ構造と言える。 本 API は Matrix の名の通り、 出発地と目的地をそれぞれ複数指定し、 行列のように組み合わせて計算す る機能を持つ。 また、 毎月 200 ドル分の無償枠が設定されており、 最大 40,000 要素(1 要素=出発地と目的 地の1ベア)まで無償で利用可能である[7]。 海外では本 API を利用して、 出発地を患者の居住地、 目的地を医療機関の住所とし、 複数の組み合わせで 移動距離と所要時間を求め、 医療機関の受療動向を分析した報告がある[8, 9]。 一 方、 日本では本 API が公 共交通機関で移動する場合の経路探索のサ ー ピスを提供していないことから[10]、 本 API だけで分析を完 結することは難しい。 情報・デ ー タを補い、 他の地理情報処理( GIS)ソフトウェアにて処理を実行する工 夫が必要だと報告されている[11]。 なお、 本 API で取得できる情報の精度や信頼性については、 Google が 2019 年 3 月に日本で新しいマップ を導入して以来「 Google マップの品質が落ちた」という指摘が相次いでいることから[12]、 今後しばらく はこの点を留意することが重要と考えられる。 122

125.

3.2 URIの記述 この節では、 本APIで用いるURIの記述を紹介する。 まず、 本APIでは、 URIに APIキ ー( ID番号)を記載することが求められている。 APIキ ー取得の手順は 以下の通りである。 まずGoogleアカウントを作成し、 GoogleCloudPlatformにてクレジットカ ー ド情報を登録してアカウント を有効化する[6]。 次にGoogleCloudPlatformにて任意のプロジェクトを作成し、 Distance M atrix APIのサ ー ビスを有効化すると、 APIキ ーを取得できる。 なお、 このAPIキ ーとWeb APIの利用回数は紐付けられて 課金額の計算の根拠となることから、 不正利用の防止のため APIキ ーは安全な 場所で管理する必要がある。 基本の書き方は以下の通りで、 リクエス トの内容に合わせて斜 APIキ ーが取得できたらURIを作成する。 体かっ太字部分を修正する[13]。 http(s)://maps.googleapis.com/maps/api/distancematrix/outputFormat?parameters OutputFormat は 出力形式を示し、 公式に推奨されたJSON形式のjson、 又はXML形式のxmlを値に指定 する。 Parameters は複数のパラメ ー タからなり、 それぞれをアンパサンド「&」で結合する。 本APIの場合、 必須パラメ ー タは、 APIキ ーを示す key、 のつであり、 3 これらは指定しないと エラ 出発地を示す origins、 目的地を示す destinations ー が生じる。 記載例はURI lに示したが、 origins及びdestinations は名前に よる指定の他、 住所又は緯度・経度に よる指定も可能である。 任意ノ〈ラメ ー タは複数用意されており、 例えば移動手段を示す mode パラメ ー タが挙げられる。 デフォル トは自動車のdrivingだが、 徒歩のwalking、 自転車のbicy cling及び公共交通機関のtransitに変更可能で、あ る。 なお前述のように、 日本では公共交通機関である transitを指定しでも計算がされず、 ルー トがないこと を示す「ZERO RESULTS」が結果として返される。 任意ノfラメ ー タには 他にも出発時刻を示す departure_timeノfラメ ー タ及び到着時亥IJを示す arrival_timeノfラ メ ー タがあり、 デフォルトの「 departure_time=検索した時点Jから変更可能である。 指定方法は、 検索時点 より未来の日時を、 協定世界時(以下、 UTC)の1907 年l月l 日O 時0分0秒からの累積秒数にて表現す る。 この基準日時はUnix時間と等しく、 Web上で 「Unix時間 計算 」等と検索すれば、 累積秒数を 計算す る サイトが見つかる。 また、 SASはこの基準日時の10年前に相当する 1960年l月1日0 時0分0秒からの 累積秒数で 日時を取り扱っていることから、 SASの日時値からJO年分の 秒数(すなわち3156 19200秒)を 減じることで、 3.3 累積秒数が得られる。 SASによる利用 このようにして作成したURIを用いてSASから本APIを利用する。 SASStudioの「プリファレンスウイ ンドウJで、 「全般」・「文字ポリシ ー 」にある「テキストエンコ ー デイング(デフォルト)」をShift_JIS に設定した上で、 Program lのように作成した。 「くURI>」には URI lを記載した。 Program IWeb APlを利用する プログラム 干ilename MAP_API url ” <UR工〉 ” debug; libname MAP_API json ; 123

126.
[beta]


部)

l行目のfilenameステ ートメントにて、 URIlとフ

表lDebugオプションで表示されるログ(

ァイル参照名MAP AP!を関連付けている。 アクセ

NOTE:  GET
/maps/api/distancem
85晶destinati ns=克ES克9B%BD%E7鬼AB%8B%E6う臣88克9
E3克82%BF克E3克83克B【:HTTP/1.0
NOTE: »> Host: maps.googleapis.com:443
NOTE: »> Accept: */*
NOTE: »> Accept-Language: en
NOTE:  Accept-Charset: iso-8859・1,*,ut干-8
NOTE:  User-Agent: SAS/URL
NOTE: »>
NOTE: «< HTTP/1.0 200 OK
NOTE:«< Content-Type: application/json; charset
NOTE:<« Date: Mon, 15 Jul 2019 07:52:46 G阿T
NOTE:<« Expires: Mon, 15 Jul 2019 08:22:46 GMT
NOTE:«< Cache-Control: public, max-age=1800

r url」に指定することで、 インタ

ス方式を





ネット

上のWeb AP!を利用可能にしている。 Debugオプシ
ヨンは任意だが、 指定すると実行ログに表lのよう
なデバッグ情報が示される。 2行自の libnameステ 
トメントにてjsonエンジンを指定する。 これによ

り、 Web AP!からJSONデー タが取得され、  

が自動的にSASデータセットとして読み込まれる。
SASStudio3.8 (SAS 9.04.01M6,SASUniversity

Edition)にてProgramlを実行したところ、 実行ログに警告(WARNING)は表示されたが、 デー タを取得で
きた。 警告の内容は、 URIl中の「&KEYJ等の各ノ号ラメー タに対して実行ログに「KEYのシンボリック参
照を解決できません。 」等と表示したもので、 この警告はURIl中のアン  サンド「&」を%str関数により
マスクし、 実行時に各ノミラメー タがマクロ変数として扱われることを防ぐことで回避できた。


方、 SASStudio3.7.1(SAS 9.04βIM5,有償版)では、 実行ログに「不正な要求です。 詳細を把握するに


は、  バッグオプションを使ってください。

LIBNAMEステ ートメントのエラ ーです。 Jとエラーが表示さ

れ、 データを取得できなかった。
そこで原因はURI Iに含まれている「東京駅J等の日本語が、 URIで使用可能な文字に該当しないためと
考えて、 プログラムをProgram2のように修正した。
l行自の optionは、 続く2行目と3行自の処理のためのURLエンコ  ディングの方法を指定している。
2行目と3行目で、 %letステ  トメントにて2つのマクロ変数にそれぞれ、 出発地と目的地の名前を格納
する。 名前は、 %qsysおnc関数で urlencode関数を実行することにより、

パー セントで符号化した文字列に変

換している。 また、 %qsysfunc関数を用いることで符号化した文字をマスクし、 SASの実行ログに「マクロ

xx の呼び出しを解決できません。 Jという多数の警告を表示しないようにしている。

4行目から6行固までのfilenameステ ートメントはProgramlと同様だが、 URI中に%str関数とマクロ変
数の参照を追加して修正した。 また、 オプションとして本AP!から取得したデー タが正しく読めるように




encoding= utf8 を追加した。
7行自のJibnameステ ートメントはProgramlと同じである。
実行すると、 問題なくデータを取得できた。

Program2 WebAP!を利用するプログラム2
option urlencoding=ut干8;
%let _origins=%qsys千unc(urlencode(東京駅));
%let _destinations=%qsysfunc(urlencode(国立成育医療研究センタ  ));
filename阿AP API url
・・https://maps.googleapis.com/『naps/api/distancematrix/json?%str(&)key=<API_KEY>%str


(&)origins=&一origins%st「(&)destinations=&_destinations" encoding= ut干8
libname MAP_API json;

124



debug;

127.
[beta]
2ALLDATA デー タセット(一 部)

合計行数 14 合計列数ー 7
P •

ゆ

P1

P2

V P3

P4

1 rows
2

nu nu nu

3

1 origin_addresses

4

1 destination addresses

5

2 rows

6

2 destir四tion addresses destination_addresses 1

7

2 origin_addresses

ongin_addresses1

8

3 rows

elements

elements

Program 2 を実行した結果、

凶デ

Value

OK

National Center for Child Health and Develop

。

Tokyo Station, 1 Ch me Marunouchi, Chiyoda
0 distance

取得したデ ー タの確認
ー

暗

0

1 status

3.4

や 行1143 DESTINATION ADDRESSES データセット

得られた

~トを図 2 に示す。 ーライ

合計行数.1合計列数3

!L�1

。,dinal r。。t ‘

。rdinal des首nati。n addresses des語na桓on addresses1
1 National Center f。 r Child Health an

ブラリ内に、 複数のデー タセットが作ら
_.r#MAP_API

れたことが確認できる。 このうち
ー
ー
ALLDATA デ タには複数レコ
ドで全ての項目が含まれていた(表
2)

。 一方、 他のデー タセットは全て l レコ ー ドで、 一部の項目のみ含ま

れていた(表 3)。 どのデー タセットも「Analysis-readyJ ではないもの
の、 もともと得られたデ タの構造が単純なので、 デー タ構造を解析用
ー

に変換することは容易と考えられる。

3.5

P鴎ALLDATA
b鴎DESTINATION_ADDRESSES
P鴎ELEMENTS DISTANCE
川

b鴎ELEMENTS.DURATION
b箆ORIGIN ADDRESSES
b爵ROOT
砂鴎ROWS_ELEMENTS

図2ライブラリ

JSONマップの利用

前節 3.4 にて SAS デー タセットを示したが、 JSON マップを用いることで、 JSON デー タを SAS デー タセ
ットとしてどのように読み込むか、 すなわちデー タセットの数やデー タセット名、 変数の名前やタイプをど
うするかをユー ザー で、 指定で、 きる。
JSON マップは、 SAS が JSON デ

ー

タの読み込み毎に自動で作成しているため、

ユ ー ザー がー から作成す

る必要はない。 SAS が作成した JSON マップをロー カル等に保存し、 変更を加え、 JSON デー タの再読み込
み時に変更後の JSON マップを指定することで、 短時間で SAS デー タセットを変更できる。
SAS が作成した JSON マップを保存するためには、

し、 libname ステ

ー

Program 3 のように filename ステ

ー

トメントを追加

トメントにオプションを追加する。 「くpath/>」は任意のパスを示す。 これを実行する

と、 filename で指定したパスに JSON マップが保存される。

Program 3 SAS が作成した JSON マップを保存するプログラム

(注・ l 行目から 6 行目までは Program 2 と閉じ)
干ilename JMAP

”

<oath/>imao.mao"

libname MAP_API json mao=JMAP automao=create;

125

128.

表 5 修正後の JSON マップ( 一 部) 表 4JSON マップ( 一 部) { ・' { ” DATASETS :[ { ” ” ” DSNAME : destination_addresses", ” ・' ” TABLEPATH : /root/destination_addresses , ” ” VARIABLES :[ ” ” ” ” ” ” DATASETS :[ { ” " { NAME : ordinal_root", ” ” TYPE : ORDINAL", ・・ PATH ” : ” /root" ” }, { NAME : ordinal_destination_addresses", '・ ” ” TYPE : ORDINAL , ” ” ” ” PATH : /root/destination_addresses ” }, { ” " ・ ” NAME : destination_addressesl 1 ” ” ” .’TYPE : CHARACTER , ” " ・ PATH : ’/root/destination_addresses/des .’CURRENT LENGTH": 111 " ” " ” ”NAME : destination_addresses", ” ” ”TYPE : CHARACTER", ” ” ” PATH : /root/destiation_addresses/des ”CURRENT LENGTH": 111 ” }, { ” DSNAME : ALL_API", ” ” ” TABLEPATH : /root , ” ” VARIABLES :[ ” ” { ” }, { ” NAME : origin_addresses", ” ” " "TYPE : CHARACTER , ” ” " PATH : /root/origin_addresses/origin a ” "CURRENT LENGTH : 61 ・ ・NAME ” : ” distanceC", ” ・ TYPE . ・ CHARACTER", ・ E ” ” ” PATH : /root/rows/elements/distance/te ” "CURRENT LENGTH :7 } }, }, � lfl MAP_API 表 6 ALL API デ タセット(一 部) F毘ALL_API b臨ALLDATA origin_addresses 図3修正後のライブラリ • distanceC , 1 National Center for Child Health and [ Tokyo Station, 1 Chome Ma run 17.6 km JSON マップの例示を表 4 に示す。 DATASETS の値は配列で、 、 配列に各デ ー タセットのオブ ジェクトが含 まれている。 そのオブジェクトの中に 3 つの名前/値のベアがあり、 それぞれ DSNAME でデ ー タセット名を 示し、 TABLEPATH でデ ー タセットオブザベ ー ションの区切り方を示し、 VARIABLES の値が配列であるこ とを示している。 VARIABLES の配列には各変数を示すオブジェクトが含まれ、 そのオブ、ジェクトの中に 3 つ又は 4 つの名前パ直のベアがあり、 NAME で変数名を示し、 TYPE で変数タイプを示し(ORDINAL、 NUMERIC 又は CHA孔<\CTER )、 PATH で JSON ファイル内のパスを示し、 CURRENT_LENGTH で変数の最 大長を示している( TYPE が CHARACTER の場合) 。 JSON マップの修正例として、 ALL API デ ー タセットに l レコ ー ドで全項目が含まれるように変更する場 合を考える。 JSON マップの修正手順の例は以下の通りである。 I.DSNAME の値を「ALL APIJ に変更 2.TABLEPATH の値を「/root 」に変更 3. TYPE が NUMERIC 又は CHARACTER のオブ、ジェクトを全て、 ALL AP !の VARIABLES 配列に移動 、 苧 ー 4.TYPE が ORDINAL のオフ ジェクト、 及び ALL AP !以外のデ タセットのオブ ジェクトを全て削除 5.NAME の値の修正。 特に変数名の重複している text と value は名前を修正(図 l 参照) CURRENT_LENGTH は、 SAS が JSON デ ー タ読み込み時にこの記載は無視するので[ 14]、 編集は不要で、 ある。 修正後、 JSON マップを上書き保存した(表 5)。 その後、 Program 3 の libname ステ ー トメントの automap のオプションを閃use に変更して、 SAS プログラ ムを再実行すると、 意図通りにデ ー タセットを読み込めた(図3,表6)。 126

129.

4 解析例 4.1 背景 本章にて解析例を示す。 前述の通り、 海外ではDistance Matrix APIを利用し、 受療動向の分析が報告されている[8, 9]。 日本では、 公共交通機関による移動は検索できないが、 自動車による移動は検索可能なため、 本稿では試験的に東北 地区における小児がん拠点、病院への移動状況を調べた。 小児がんとは、 小児(一 般的には0歳から15歳未満)に発 生する悪性腫蕩の総称である。 希少がんが多く、 大人のがん と比べて擢患率が低い。 日本での擢患数は年間2,000人から 2,500人で、 子ども10,000人に約l人の割合である[15]。 患 Google My Maps 者数が限られている中、 質の高い医療及び支援を提供するた 図4 小児がん拠点病院一 覧 一 めには 定程度の医療資源の集約化が必要 と考えられており [16]、 現在、 小児がん拠点病院(以下、 拠点病院)が全国に (注. 京都府内の2施設が近接しているため、 15施設整備されている(図4)[17]。 2018年に「小児がん拠点 地図上ではl施設に見えている) 病院等の整備に関する指針jがまとめられ[16]、 今後、 体制は再整備されると考えられるが、 現状で拠点病 院の小児がん患者のカバー率は4 割程度と推測されている[18]。 小児がん拠点病院の医療体制にて、 「東北ブロック」と呼ばれる地区には拠点病院がl施設あり、 宮城 県 仙台市にある東北大学病院が指定されている。 各県に標準的治療ができ る施設がlないし2施設あるが、 再 発・難治性症例で新規治療が必要な症例は拠点病院に送られる体制が必要 と報告されている[19]。 国勢調査によると、 東北ブロックは15歳以上自宅外就業者・通学者に占める利用交通手段が自動車であ る人の割合が高い都道府県が多く[20]、 拠点病院へ自動車で移動する場合が他地域より多いと考えられた。 よって本稿では、 東北ブロック内の各市区町村から拠点病院までの、 自動車で移動した場合の所要時間と 移動距離を本APIにより求め、 移動状況を調べた。 4.2 対象と方法 対象地域は東北ブロックにある、 青森県、 岩手県、 宮城県、 秋田県、 山形県、 福島県の6県とした。 各居住地に住む患者を代表する住所として、 オ ー プンデ ー タの「国土数値情報ダウンロー ドサ ー ビス」 にある、 支所、 出張所、 連絡所を含む市区町村役場680施設の住所を用いた[21]。 経路探索時の日時の設定は、 到着目を平日の2019年6月5日水曜日に設定した。 到着時間は、 東北大学病院の初診の受付時聞が午前8時30 から11時00 分までであることから、 受付時 間終了1時間前の午前10時に到着するように設定した。 2019年5月25日にSAS を実行し、 本AP!から各市区町村役場から東北大学病院に到着する場合の、 予 想される移動距離と所要時間を取得した。 680施設のうちl施設(支所)が、 2019年5月25日現在の住所と 国土数値情報に登録された住所が異なり、 経路が探索できなかったため解析から除外した(n=679 )。 本APIからは、 基本の所要時間と、 予想される交通状況を考慮した所要時間の2種類が得られた。 後者の 結果が得られた664施設は交通状況を考慮、した所要時聞を用い、 得られなかった15施設は基本の所要時間 127

130.

表7 都道府県別調整所要時間及び移動距離 を代用 した。 また、2時間毎に15分休憩 すると仮定して 休憩時間を加算し、 調整所要時間とした。 そして午前10 都道 時と調整所要時聞から 、 予想出発時間を求めた。 府県 集計方法は、 全体及び都道府県別に移動距離と調整所 青森 要時間の要約統計量を求めた。 またコロプレス地図(区画別段彩図)作成のため、 市 区町村にl施設のデ ー タとなるように、 支所、 出張所、 連絡所、及び区役所を持つ仙台市 の市役所のデ ー 岩手 タを除 き、231施設の予想出発時間を地図に示した。 宮城 4.3 結果と考察 全体(n=679) の調整所要時間(時間) の範囲は0.1 ~ 7.1 で、 平均値 (SD)は2.68 (1.35)、 中央値は2.60だっ 秋田 た。 移動距離の範囲(km)はI.I ~460.9 で、 平均値 ( SD) は183.69 (IO1.05)、 中央値は172.33だった。 山形 各都道府県 の移動距離と所要時間を表7に示す。 平均 調整所要時間は0.98 ~4.72時間、 平均移動距離は50.52 ~341.22km と差があった。 図 5から 予想、出発日寺聞は、 宮城県仙台市にある拠点、病院からほぼ同心円的に早くな 福島 っていることが確認できた。 青森県は出発時刻が早く、 他県に比べ小児がん,患者や家族にとって移動 の負担が大 統計量 調整所要 移動距離(km) 時間(h) n 104 104 Mean (SD) 4.72 (0.75) 341.22 (41.02) Min,Max 3.7,7.1 271.7,460.9 n 115 115 Mean (SD) 2.95(0.93) 200.06 (65.11) Min,Max 1.3,4.9 79.7,329.5 n 104 104 Mean (SD) 0.98 (0.44) 50.52 (29.54) Min,Max 0.1,2.6 I.I,140.9 n 115 115 Mean(SD) 3.52(0.52) 242.18 (53.30) Min,恥fax 2.4,4.7 122.9,328.1 n 52 52 Mean(SD) 1.92 (0.58) 113.69(36.82) Min,Max 1.0,2.9 52.8,190.8 n 189 189 Mean (SD) 2.03 (0.67) 144.01 (45.08) Min,Max 0.9,4.2 65.0,308.3 きいと考えられた。 本解析には限界点が多く、 正確な評価は難しいが、 Web APIの利用により結果を簡単に求めて可視化できた。 5 まとめ 本稿では、URI、JSON等の基本的 な事項を説明した上で、 例示としてGoogle Distn a ce Matir x APIを利用 するためのURI とSASプログラムの記述方法を説明した。 またSASによる JSONデ ー タの読み込みと、JSONマップの利用方法を示し た。 さらに具体例として東北地区における小児がん拠点、病院 までの移動時間と所要距離を実証的に求め、 解析結果を示し し]=>8:30 図=>7:00 andく8:30 闘=>5:30 and <7:00 圃<5:30 た。 限界 ・ 制限もあるが、 WebAPIを通じて新たな可能性が 広がると期待される。 本稿が参考になれば幸いである。 6 図 5 市区町村別 予想、出発時間 参考文献 川高久雅生, ”WebAPIの過去 ・ 現在 ・ 未来(〈特集>WebAP!活用術),”情報の科学と技術,vol. 64, no. 5, pp. 128

131.

162・169, May 2014, doi: 10.18919/jkg.64.5_162. [2] e-Stat AP !機能," AP !の使い方.” Accessed: Jul 15, 2019. [Online]. Available: https://www.e-stat.go.jp/api/ap ト dev/how to use [3]インセプト,”IT 用語辞典 e-Words.” Accessed: Jul 15, 2019. [Online]. Available: http://e-words.jp/ [4] JSON,”JSON の紹介.” Accessed: Jul 15, 2019. [Online]. Available: http://json.org/json’ .htrn I [5 ]文化庁著作権課,”法令解説平成 30 年著作権法改正の概要:デジタル化 ・ ネットワ ー ク化の進展に対応 した柔軟な権利制限規定の整備等:著作権法の一 部を改正する法律(平成 30 年法律 第 30 号)平 30.5.25 公布平 31.1.1 施行( 一 部を除く),” 時の法令, no. 2069, pp. 4-20, Mar 2019. [6] Google Cloud,”プロダクトとサ ー ビス.” Accessed: Jul 15, 2019. [Online]. Available: https://cloud.google.com/products/?hl=ja [7] Google Maps Platform,”マップ、 ル ー ト、 プレイスの料金設定.” Accessed: Jul 15, 2019. [Online]. Available: https://cloud.google.com/maps-platform/pricing/sheet/ [8] K. M. Sommerhalter et al., '’Proximity to Pediatric Cardiac Surgical Care among Adolescents with Congenital Heart Defects in 11 New York Counties,”( in eng), Birth Defects Res, vol. 109, no. 18, pp. 1494-1503, Nov 2017, doi: 10.1002/bdr2.1129. [9] 8. I. Shaw et al.,”Geospatial relationship of road traffic crashes and healthcare facilities with trauma surgical capabilities in Nairobi, Kenya: defining gaps in coverage,”( in eng), Trauma Surg Acute Care Open, vol. 2, no. 1, pp. e000130-e000130, Dec 2017, doi: 10. l 136/tsaco-2017-000130. [10] Google Maps Platform,”FAQ,' ’ Jun 27, 2019. Accessed: Jul 15, 2019. [Online]. Available: https://developers.google.com/maps/faq#transit_directions_countries [11]増山篤,”フリ ー のソフトウェア、 サ ー ビス、 デ ー タを用いた地方における公共交通アクセシビリティ評 価青森県弘前市の循環ノ t ス路線を題材としたケ ー ススタディ,”都市計画論文集, vol. 53, no. 1, pp. 97・ 107, Apr 2018, doi: 10.11361/joumalcpij.53.97. [12)西田宗千佳. (May 27, 2019) Google マップの劣化原因「地図 J になにが起こったのか? • ASCII.jp [Online]. Available: https://ascii.jp/elem/000/001/863/1863999/index-2.html [13) Google Maps Platform,”Developer Guide,' ’ Jun 20, 2019. Accessed: Jul 15, 2019. [Online]. Available: https://developers.google.com/maps/documentation/distance-matrix/intro [14] SAS Institute Inc.,”LIBNAME Statement, JSON Engine,” SAS⑧9.4 Global Statements: ReferenceCary, NC, USA: SAS Institute Inc., 2017, pp. 139-157. [Online]. Available: https://documentation.sas.com/api/docsets/lestmtsglobal/9.4/content/lestmtsglobal.pdf [15)国立がん研究センタ ー 小児がん情報サ ー ビス,”小児がんとは J ’ Aug 29, 2016. Accessed: Jul 15, 2019. [Online]. Available: https://ganjoho.jp/child/dia_tre/about_childhood/about_childhood.html [16)厚生労働省健康局長,”小児がん拠点病院等の整備について J ’ 健発 0731 第 2 号, Jul 30 2018. Accessed: Jul 15, 2019. [Online]. Available: https://www.mhlw.go.jp/content/000347081.pdf [17]厚生労働省,”小児がん拠点病院等 一 覧表(平成 31 年 4月1 日現在) ,' ’ 2019. Accessed: Jul 15, 2019. [Online]. Available: https://www.mhlw.go.jp/content/000497384.pdf [18)小児 ・ AY A 世代のがん医療 ・ 支援のあり方に関する検討会,”小児がん拠点病院等の指定要件の見直し に関する報告書,” Jul 31, 2018. Accessed: Jul 15, 2019. [Online]. Available: h叩s://www.mhlw.go伊,/contenνI 0901000/000477613.pdf [19)健康局がん対策 ・ 健康増進課,”第 6 回小児がん拠点病院の指定に関する検討会議事録,” Jul 14, 2014. Accessed: Jul 15, 2019. [Online]. Available: https://www.mhlw.go.jp/stf/shingi/0000054873.html [20]総務省統計局J ’ 利用交通手段 J ’ 平成 22 年国勢調査最終報告書日本の人口 ・ 世帯, 2014, pp. 264-266. [OnlineJ. Available: http://www.stat.go.jp/data/kokusei/201O/final/pdf/01-11_5.pdf [21)国土数値情報ダウンロ ー ドサ ー ビス,”市区町村役場第 1.0 版 J・ Aug 31, 2014. Accessed: Jul 15, 2019. i [Online]. Available: http://nlftp.mlit.go.jp/J吋/gml/datalisνK句 Tmplt-P34.html 連絡先:anna.tsutsui@sahs.med.osaka・ u.ac.jp 129

132.

SASからPythonを操る 0関根 暁史 (藤本製薬株式会社) SAS lets Python do machine learning. Satoshi Sekine Fuiimoto Pharmaceutical Corp. 要旨 PC-SAS(日本語版)から 町thon に命令して機械学習等を行わせる方法を解説する。 一連の工程は全て SAS が 一 元的に制御する。 キ ー ワ ー ド: PC-SAS, Python, pandas, matplotlib, chainer, MNIST, pillow, numpy, scikit-leam, mlxtend 1. はじめに 機械学習向けパッケ ー ジを多く取り揃えているということで近年 Python が人気である。 一方 PC-SAS はオプションがなければ機械学習のほとんどを行うことができない。 そこで PC-SAS の足りないと思え る機能は Python に補填してもらうことにした。 筆者は SAS 9.4 および Python 3.6.6 を使用している。 Python ファイルがコマンドラインから駆動することを利用して、一連の統計解析工程をシ ー ムレスに SAS から制御することとした。 これにより町由on そのもののデ ー タハンドリング技術のほとんどを覚 えることなく、円吐hon に引き渡す直前までのデ ー タ加工は SAS の豊富なプロシジャで行えばよく、 ま た町thon が出力するグラフやデ ー タを SAS で直接受け止めて、 SAS の豊富な帳票作成機能を用いて帳 票化してしまうことが可能である。 また ηthon は日本語フォントを得意としていないので、 Python で日本語を取り扱う方法についても 併せて解説する。 2. PC-SASからPythonを駆動する 手元にある資源(SAS デ ー タセット)を町伯on に渡すことにする。 円rthon の pandas ライブラリは SAS デ ー タセッ1-- (sas7bdat )を直接読み込んで活用することができるので便利である。 SAS が苦手としている 解析を町thon に委ねることになるのだが、 デ ー タセットを読み込んで解析する Python ファイル自体も SAS プログラムが書いて出力する。町北on ファイルは X ステ ー トメント等を使用して駆動させる。町北hon からは解析結果として csv ファイルやグ、ラフ画像ファイルが返される。 それらのファイルを SAS が引 き継し、で、 更に別の解析を行ったり、帳票化や SAS グラフ化を行ったりすることができる。 一 連の全工程 130

133.

をコントロ ー ルしているのはいずれも l つの SAS プログラムである。 =� i事 I 凸 SAS デー タセット c::::::> 1· Python ファイル 画像ファイル Y 閣時 軽3 csv \ ファイル ‘ 口 匪j RTF帳票化 鴎 崎による再 竺ノ 1 つの SAS プログラムが操作 3. Irisデ ー タの3次元の散布図を描く SAS は 3 次元の散布図の描画を得意としていないため、その部分のみ Python の機能を借りる。Python にも Iris のデ ー タは実装されているが、手持ちの SAS デ ー タセットを汎用的に Python に渡して解析で きるようにしたいため敢えて SAS 側の Iris デ ー タを使用するものとする。Iris の永久 SAS デ ー タセット を外部に吐き、pandas ライブラリがそれをデ ー タフレ ー ム化し、matplotlib ライブラリがデ ー タフレ ー ム を用いて 3D のグラフ(画像ファイノレ)を外に吐き、SAS がそのグラフファイルを読み込んで最終的に RTF . 帳票としてしまう(図1)。 @ @ 』包時a 鞄時間。lor 、局rgin悶a Iris 30 』 aa E Ew 吾E3 m出 花 河 川拍ω mmmwH時 Pe,剖,、今 40 、明., 明 '"""1. 60 ー φI :1!> 図1フィッシャ のあやめの3次元図 ρ SAS の RTF 帳票化機能によって日本語の表題が付けられている。グラフ内部の日本語使用については 次章で説明する。図 l 作成の SAS プログラムは巻末の付録に掲載した。 131

134.

4. Pythonが日本語を扱えるようにする Python は日本語を得意としていないため、 プログラム中やグラフ中に るユ ー ザ ー 一 切日本語を交えずに扱ってい が少なからずおられるのではなかろうか。多少のオプションは使用することになるが、町北on でも日本語を使用することは可能である。 プログラムの頭に「# coding: utf-8 」と書くことで以降のコ ー ド中の日本語が生きることになる。P戸hon ファイルから操作される場合は、 ηthon ファイル自体の符号 化方式が ut何で保存されていなければならない。 matplotlib 等のグラフ中の日本語が文字化けしてしま う問題であるが、 IPA(情報処理推進機構)のHPから日本語のフォント(拡張子.仕η を落としてきて特定の フォルダに置き、 「 matplotlibrc 」中のフォント名を当該フォント名に書き換えることで問題は解消する。 田8 cm 田回目 20 。冊 語。。 。。 。o am 。 <mD 。。 @号。 。。。 。 。 。 @ 江m沼 <DO 。 @ 5 義s 10 20 怒号詳 0 0綴器GD @哩聖書 0密密密密 @淀均@ @ 0 25 � @oe @。。 25 &I) 。 O @命。縫F 40 8国田(mm) 50 60 町thon ユ ー ザ ー はこの日本語の文字化けを ” 豆腐 “ パー ジニカ 。 。。冊 e 。適。。。。 。。 。 曲。 。。。 。 唱由。 。@事著書 。 。 。 。 QJl) @ 寺島 10 70 (m)O 0 0 8 Q1) 転。 n2.nnnnnnnnn円 だけで パー シカラ ー 0 5 30 セトサ 20 @嘩野lib除 壱聖路 G曙扇露軍量 @芯幻惑 号語 @窃号量密主 40 50 30 �弁の長さ(mm) 60 70 図2.フイツシャ ー のあやめ ” “ 豆腐 になると表現しているが、 上記のひと手聞を加える は取れることになる(図 2 )。 5. Pythonのデ ー タをSASデ ー タセット化する 5・ 1.MNIST デ ー タの SAS デ ー タセット化 MNIST は手書きの数字デ ー タであり、手元に置いておけば様々な機械学習実験に供せるので便利であ る。 SAS から命令して chainer ライブラリを回転させると MNIST デ ー タが得られるので、 pandas ライブ ラリを用いてその MNIST を csv ファイルとして外部に出力し、 SAS がその csv ファイルを読み込ん で加工することにより SAS デ ー タセット化するものとする。 その結果、 学習用の Train デ ー タセット (60,000 レコ ー ド)と検証用の Test デ ー タセット(10,000 レコ ー ド)の 2 つのデ ー タセットが得られる。 784 列の変数が 28 × 28 ピクセルの明度デ ー タを意味し、 変数 digit が実際の数字( Target :目的変数) である。 132

135.

I Tl附デ タセット( ー 60,000 レコ ー ド)| 白u auavaO0・0u au- aHV OB S 0 8 0 命e 白 auaoaoaO0・ u h uauau ' ' '" r ;,; >! 時欄常貯吋 ;�:5::i予噂吟 � �1響�; :rt) '�雪翠;ぷ c',,1:'(J国間 Testデ ー タセット( 10,000 レコ ー ド) 上記 Train デ ー タセットの一 部(40 個/60000 個中)を SAS の SGP,制EL で可視化してみる(図 3 )。実際の 。。 。 。。。 。。。 Train デ ー タには 0-9 までの数字デ ー タが存在しているが、代表的に 0~3 までの数字を表示した。 � 1 / / 辻 / 8. ;ト 主 ?. d 2-,. ') 之 3 .3 吉 3 ーも ち ·3 3 3 ち z z 国&手書定数字デ ー タ(T回 in)のSASによる可視化 5・2. MNISTデータのSASによる分析 先ほどの MNIST の Train デ ー タセットを用いて SAS の HPPRINCOMP プロシジャによる主成分分析 を行い、第 l 主成分( Prinl )を X 軸、第 2 主成分(Prin2 )を Y 軸として散布図を描いてみた。 784 次元あっ た変数が 2 次元に落とし込まれた主成分分析(累積分散比率は 0.1 にも満たなし、)であっても、数字( digit) は ” それなりに “ 判別されたかのように見える(図 4・ I )。すなわち Prinl および Prin2 は digit の特徴を “ それなりに 捉えていると言える。 133 ”

136.

30 @ @ 20 I to 自 10 嶋 20 。 幽 働 10 20 10 30 Sc柏崎:向。1 |相 ・0・1・z・3 o 4けけりはけ| 園4-1. T,描的データのSASIこよる主成分分続結果 Train デ ー タで作成した主成分スコアへの変換公式を Test デ ー タに当てはめて 成分スコアを計算して散布図とした(図 4・2 )。 Test デ ー タの digit は実デ ー Test デ ー タとしての主 タである。 図 4・2 も図 4-1 と同 様の傾向を示しているように見える。 30 20 � 10 0 ・10 ・20 。 -10 l柑 20 10 30 Scoring:拘in1 ・0・1・2・3・4 0 5・6・7ババ| 留4月2. Trainの絡i!i:T,儲tiこ量費用した跨のT輔t0 :!'.成分スコア 主成分分析は教師なしの分析法であるが、 次元圧縮のためには強力な武器となり得ると考えられる。 6.画像デ ー タを数値デ ー タ化する 、 MNIST は元々数値デ ー タとして用意されていたもので あったが、今度は実際の手書き数字の画像ファ イルを数値デ ー タ化することを試みる。 「 7J と書いた自作の画像ファイル( seven.png)を用意し、 SAS か ら pillow ライブラリに命令して画像ファイルを RGB コ ー ド(数値)化して 吐き出させた。 更にその た。 csv ファイルを SAS で加工して SAS デ 134 ー csv ファイノレ( temp.csv)として タセット( rgb品 s7bdat)として保存し

137.
[beta]
B

A

1
2
3
4
5
6
7

長通

自作の手書きの
数字データ
(seven.png)

2.04E+02
2.04E+02
2.04E+02
2.55E+02
2.55E+02
2.04E+02
2.04E+02
2.04E+02
2.04E+02

終級官:;空機'.r("f"\l�'.li?S'. '']搬出ア級会てrW·'Sc'\CTIC'.sC?':c'.'.;:'.'.''.''.'.s'.i'.'1

降験
鴎

pillow

24
265
04
,ss

204
266
204
,n,

204 cxCCCCCC
204 cxFFFFCC
204 cxCCCCCC
刈4 ""FF,αXX';

SASデータセット
(rgb.sas7bdat)

csvファイJI.,
(temp.csv)

保存されたSASデ ー タセット(rgb.sas7bdat)の情報から、SAS のSGPLOTを用いて数字デ ー タは再現でき
た(図5)。

。
20
40

60
80
100
o

20

40

eo

ao

10自

国5.SASのグラフ働1二より復元された司r.1闘の
Ii浮デ ー タ
上記では画像デー タを解析するために、 し、かに数値デ ー タに変換して行くかを示した。

7. ランダムフォレストによるIrisデ ー タの分類
守

ランダムフオレストとは決定木のアンサンフル学習で、ある。 すなわち複数の決定木を作り、 複数の分
類結果から多数決をとって判定する方法であり、 決定木よりも予測精度は高くなる。 Iris デ ー タのうち
Peta!LengthとPetal Widthを説明変数として、sciki トlearn(以下skleam)のensemble機能を用いて種(Species)
を分類した。 Irisデ ー タは特に学習用・検証用には分割せず150レコ ー ド全量を用い、 skleran のデフォ
ルトの機能で判定した。 skleranのデフォルトは木を10本作って判定する。 半IJ別結果について、 誤分類
が2件あり、 正答率=148/150=0.986 ・ ・ ・ となった(図的。 図中の点が実測値であり、 背景が予測値である
“

が、 決定木・ ランダムフオレス卜の予測境界域は直線的になり、 また 飛び地
ある。

135

”

が見られるのも特徴で

138.

25 20 E ε15 £ 苦 10 5 20 30 40 50 Petal Length (mm) 60 70 図6. ランダムフォレストによる分類正答率=[0.98666667) 背景の予測境界域を描いてくれるのがmlxtendライブラリであるが、 このような機能はSASには直接存 在していないので、 町thonに委ねた方が有利な機能と言える。 8. サポ ー トベクタ ー マシンによる MNIST デ ータの分類 5章で作成したTrain, Test両デ ー タセット使用して解析する。 8・1.Trainデ ー タを用いたdigitの分類 skleamのデフォルトのSVM機能を用いて、 Trainデ ー タ(60000レコ ー ド)の digitの分類を行う。 では拡張子.sav のファイノレ(svm_model却 v)を予測式として外部に保存することができる。 本解析は筆者 の環境で実に17 分もかかったが、 保存ファイルがあれば解析を二度行わないで 、済む。 解析結果として 、 正答率=58244/60000=0.97 07 で‘あったが、 学習側として悪くない精度のモデ ルが得られたと思われる。 8・2.Trainデ ー タで作成した予測式をTestデ ー タに適用する 8-1で作成した予測式(svm_model.sav)をTestデ ー タ(10000レコ ー ド)に当てはめて的中率を見る。検証 側としての正答率 =9404/I 0000=0.9404であったが、 学習側の正答率を大きく下回っておらず過学習し過 、 ぎていない良いモデ ルで、はなかろうか。誤判定が596件あったが、 これらがどのようなデ ー タで、あった か代表的に10件をSASで可視化してみる(図7)。 C:-1 Co Iγ|咽|も 図7. Testデータのうち鼠判定されたレコ ー ドの 一 部 136

139.

例えば digit=2, pred=9 となっているレコ ー ドは、実際には 2 の数字であるが 9 と判定されてしまった ことを意味している。 誤判定されるようなデ ー タは人間でも判別不能なものが多い。 8・3. Trainデ ー タで作成した予測式を実際の手書き数字デ 6 章で「 7J と書かれた 100 × 100 ピクセルの自作の数字デ ー ー タに適用する タ( seven.png)を用意していたが、 これが 「 7 」と実際に判定されるのかを実験する。 MNIST は 28 × 28=784 ピクセルデ ー タであり変数の数が異 なっては解析できないため、 pillow ライブラリを用いて seven.png を 28 × 28 ピクセルにリサイズした downsize.png を用意する。 downsize.png を csv ファイル化し、 更に SAS プログラムで MNIST と同形式 のデ ー タセット( downsize品s7bdat)に変換する。 事3 �、 数値化された 100X 100 ピクセルのデー タ (seven.png) pillow csvファイル 28X 28 ピクセルのデー タ (downsize.png) pillow E霊 Train, Test と同形式の SAS デー タセット l�I 」ー過 (downsize.sas 7bdat) 8・lで作成した予測式を downsize デ ー タセットに適用すると、 実際には「 7J であるデ ー タが「 3 」と判 定されてしまった。 残念ながら自作デ ー タの質がオリジナルと違い過ぎたのだろう。 9. まとめ SAS と Python のハイブリッドプログラムを組むことで、 お互いの得意な領域を行ったり来たりする 解析が可能となった。 Python 自体に精通していなくとも、 前処理のほとんどを SAS でこなしてしまえ ばよいので、初心者でも機械学習に入り込み易かった。また PC-SAS ならば 一 連の流れをl本の SAS プ ログラムで全て操作ができて便利である。 参考文献 ・小野潔( 2015). SAS による新しい大規模統計入門, SAS ユ ー ザ ー 総会 2015 論文集 ・小野潔(2017). 最新 AI の話題 ~ AI の権利は誰のもの? ~ , SAS ユ ー ザ ー 総会 2017 論文集 ・吹谷芳博(2017). Jupyter Notebook を活用したプログラムライブラリ構築の検討, SAS ユ ー ザ ー 総会 2017 論文集 ・小野潔(2018). SAS の目指す AI/機械学習/深層学習とは! ! , SAS ユ ー ザ ー 総会 2018 論文集 ・木口亮(2018). SAS Viya の CNN を活用した Process Innovation ~ 機械は解析図表をどう見ているのか~ , SAS ユ ー ザ ー 総会 2018 論文集 ・木口亮(2018). SAS Viya による意識改革からみえた Data Scientist の生き方 ~ 僕たちはどう生きるか ~ , SAS ユ ー ザ ー 総会 2018 論文集 ・中嶋優 一 (2018). Python による SAS デ ー タハンドリング, SAS ユ ー ザ ー 総会 2018 論文集 · http://sasonediver.blog.fc2.com/ 137

140.
[beta]
付録
紙面の都合上、 図1作成のSASプログラムのみ収録した。 それ以外のプログラムはWebに置かせて頂いた。
*「OUrisデー タの3次元の散布図を描<. sasJ
/*一一一一一一一一一 一一一一一一一一一一一一一一ー
以下のパスを記入してSASプログラムを使用してください。
一一

一一

一一一一

一一 ー一同ー一

一
ーーーーー
一一一
一一一
*/
一一
一

*一一散布図のRTF帳票を出力したいフォルダ 一 指定(パス記入);
略let _path=.半:temporary;
*一一散布図のRTF!撮襲名を記入して下さい(拡張子ごと):
引et _file=図1. フィッシャ ーのあやめの3次元図.rtf;
I* Irisの永久SASデ ー タセットを外部に保存する工程*/
’''

Iibname te叩 &_path.";
”

data ’'&_path.平input ;
merge
’

sashelp.iris(where=(Species= Setosa') rename=(Petallength=xl Peta1Width=y1 Sepallength=zl))
’

sashe Ip.iris(where=(Species= Versicolor') rename=(Peta1Length=x2 Peta1Width=y2 Sepa1Length=z2))
’

sashe Ip.iris(where=(Species= Virginica') rename=(Peta1Length=x3 Peta1Width=y3 Sepa1Length=z3));
abs=pathnan陪("temp");
’
’
”
’H ”
”H
”
ca11 symputxぐ xcommand", "' II "'I lstrip(abs)11 平temp.py"II II
);
’

’

’

’

outpath=tranwrd(abs, 平 , / );
”

ca11 symputx ("outpath ,outpath);
drop Species SepalWidth abs outpath;
run;

/キPythonファイルを吐く工程キ/

、

”

fi Iename Python "&_path.平temp.py" encoding= tf-8 ;
”

proc str側n outfi le=Python resetdelim="br ;begin
非coding: utf-8 br newline;
from mpl_toolkits.mplot3d import Axes3D br newline;
import matplotl ib. pyplot as pit br new I ine;
import pandas br newline;
”

df=pandas.read_sas( &outpath./input.sas7bdat勺br newline;
fig=plt. figure(figsize=(5, 5)) br new Iine;
ax=Axes3D(fig) br newline;
’

ax.scatter3D(df.x1,df.y1,df.z1.color=、lue",label= Setosa . s=30) br new Iine;
’

’

’

ax.scatter3D(df.x2,df.y2,df.z2,co1or="red",label= Versicolor , s=35) br new Iine;

138

141.
[beta]
’

’'

’

ax.scatter3D(df.x3,df.y3,df.z3,color="green , label= Virginica j斗0) br newline;
pit.title(' Iris 3D') br newline:
’

p It. Iegend( Ioc= upper Ieft' ) br new Iine:
’

’

ax.set_x Iabe IPeta I Length (mm) ) br newline.
’

’

plt.ylabel( Peta I Width (mm) ) br newline;
’

’

ax.set_zlabel( Sepa I Length (mm) ) br new Iine:
”

pit.savefig( &outpath. /output. png"

option noxwait xsync:
x &xcommand. ;*Pythonファイル実行;
option noxsync. ;

/キPythonのグラフをSASに取り込む工程*/
proc t側plate:
define statgraph ANNO;
begingraph / designwidth=5in designheight=5in:
layout overlay;
annotate:
endlayout;
endgraph;
end:
run.
data SG州NO;
length function $10 image $1000:
’

’

function= image ,anchor= left",
”

”

”

layer= front'; xlspace= graphpercent ;ylspace= graphpercent ,
’

”

”

=50.
image="&_path.半output. png ,height=100; width=lOO; xl=O; y1
”

run.
ods listing close:
”

ods rtf file二 品一path. ¥&_fi Ie. ’ title:
H

ods graphics/reset border=off:
proc sgrender data=sashelp.class template=ANNO sganno= SGANNO;
*sashelp.classはダミ ー として用いています、
run:
ods escapechar=" "' ;
ods rtf text=

一

’

’

S= {just=c fontsi ze=15. Opt font_weight=bold fontfamily= M S ゴシック }、図1フィッシャ ー のあ

H

やめの3次元図 ’
ods rtf close:

139

142.

/キ不要なファイルを削除する工程*/ data _nul I_; " ” rc=fi I ename(、yz , &_path.平temp.pyつ; rc=fdelete(、yz"); ” ” rc=fi I ename(、yz , 品_path.平input.sas7bdat"), ” rc=fde I ete(、yz ). ” ” rc=fi I ename ("xyz , &_path.平output.png勺; rc=fde Iete (" xyzづ; run: 140

143.

クオ ー ト処理及びスコ ー プへの理解を深める 0木本早紀 (イ ー ピ ー エス株式会社統計解析l部) Guidance of QUOTE Functions and Macro Variable Scopes not only for Beginners but also for All SAS Users 一一 Saki Kimoto Statistics Analysis Department 1, EPS Corporation 要旨 マクロ機能は SAS プログラミング初級者・中級者にとって障壁と なりやすい. 本論文ではマクロ変数に 焦点を絞り,クオ ート処理とスコ ー プを中心に整理する. クオ ート処理では各クォ ー テイング関数の違 いを解説する.スコ ー プでは,マクロ変数がどういった場合にグロー パル/ロー カルマクロ変数になるか, マ ク ロ 変 数 の 値 を取得す る際の対象ス コ ー プはどのように決定す る か , ま た近年追加さ れ た READONLY オプションについ て解説する. キ ー ワ ー ド:マクロ変数クオ ート処理スコー プ 1. クオ ー ト処理 補 現在,クオ ート処理 l の ために7種類のクォ ー ティング関数が用意されている. 最初に各 関数を紹介 し, 次にそれらの違いについてまと める. 1・1. 写令STRと号令NRSTR %STR 及び%NRSTR はマクロの コンパイル勺 時に定数テキストに含まれている特殊文字や演算子を マスクする勺 関数である. すなわち引数の文字列その ものをマスクする. マスク可能な文字は表1に示した. ベ アマッチのない引用符や括弧については, %を当該文字に前置 しておけばマスク可能である. また, ベ アマッチのない引用符や括弧の前の%をテキストとして扱いた い場合は, %を重ねておく(%%)必要がある. 1-2. %QUOTEと%NRQUOTE %QUOTE 及び%NRQUOTE はマクロの実行時に置換された値に含まれている特殊文字や演算子をマ スクする関数である. すなわち, 引数の文字列そのものまたは置換された値をマスクする. マスク可能な文字は表lに示した. ベ アマッチのない引用符や括弧については, %を当該文字に前置 141

144.

しておけばマスク可能である. また, ベ アマッチのない引用符や括弧の前の%をテキストとして扱いた い場合は, %を重ねておく(%%)必要がある. 1・3.ち色BQUOTEと今令NRBQUOTE %BQUOTE及び%NRBQUOTEはマクロの実行時に置換された値に含まれている特殊文字や演算子を マスクする関数である. すなわち, 引数の文字列そのものまたは置換された値をマスクする. マスク可能な文字は表lに示した. ベ アマッチのないクォ ーテ ー ションや括弧について, %を前置し ておく必要はない. また, テキストとしての%についても特に処理は不要である. 1・4. %SUPERQ %SUPERQはマクロの実行時にマクロ変数の値に含まれるすべての特殊文字と演算子をマスクする 関数である. 引数に取るのはマクロ変数のみであり, 引数には先頭に&のないマクロ変数名もしくはマ クロ変数名を生成する式を指定する. また, 指定したマクロ変数の値に含まれているマクロ変数やマ クロ参照は 一 切置換されない. マスク可能な文字は表1に示した. 表1.各クォ ー ティング関数でマスク可能な文字 関数 マスクのタイミング マスク可能な文字 %前置でマスク可能な文字 %STR マクロのコンパイル時 ベアマッチなしの’” () %NRSTR マクロのコンパイル時 %QUOTE マクロの実行時 %NRQUOTE マクロの実行時 %BQU0TE マクロの実行時 blank AND OR NOT EQ NE LE LT GE GT 刑 + 申/く〉=「 ~;,# blank AND OR NOT E9_ NE LE LT GE GT IN & % /〈〉=『 ~;,# blank + AND OR NOT E9_ NE LE LT GE GT IN + /〈〉=『 ~,,# blank AND OR NOT E9__NE LE LT GE GT IN.企.% + /〈〉=『 ~;,# blank AND OR NOT EQ NE LE LT GE GT IN + ー* /〈〉=「 八 ~;,# ー 〈 ベアマッチなしの’” () ー* A ペアマッチなしの’” () ー* 〈 ペアマッチなしの’” () ー* 《 ペアマッチなしの’” () %NRBQUOTE マクロの実行時 blank AND OR NOT EQ NE LE LT GE GT IN & % + ー* /〈〉=「 《 ~;,# ペアマッチなしのf ” () %SUPERQ マクロの実行時 blank AND OR NOT EQ NE LE LT GE GT IN & % + ー* /〈〉=『 〈 ~;,# ペアマッチなしの’” () 1-5. 各クォ ー ティング関数の違い 1・5・1. %SUPERQと他のクォ ー テイング関数の違い %SUPERQと他のクォ ー ティング関数には大きく2つの違いがある. Iつ目は引数の違いであ る. %SUPERQは引数にマクロ変数のみを取るが, %。ffi.)STR 及び%(NR)(B)QUOTEは引数に文字列を 取ることができる. 2つ目はマクロ変数の値に含まれているマクロ変数やマクロ参照が置換されるかど うかの違いである. %SUPERQでは置換されないが, %STR 及び%(NR)(B)QUOTEでは置換が試みられ る. 142

145.
[beta]
1-5-2. マ スクのタイミングの違い
マスクのタイミングでも 2 種類に分類できる. %(NR)STR はマクロのコンパイル時にマスク
し, %οlfR)(B)QUOTE及び%SUPERQ はマクロの実行時にマスクする.
153.%:XX と%NRXX の違い
%STR と%NRSTR, %QUOTE と %NRQUOTE, %BQU0TE と%NRBQUOTE の違いは&と%をマスク

するか否かである. NR は” not resolved ”を表し, NR のつくクォ ー ティング関数は&と%もマスクするこ
とができる.
いずれの関数も&から始まる文字列, %から始まる文字列について, それぞれマクロ変数, マクロ参
照として展開を試み, 展開できなかった場合は WARNING を返す. ただし, NR のつく関数は展開で
きなかった場合, ただの文字列として扱う(例トI)
例 11.%:XX と%NRXX の挙動の違い
プログラム・ ログ

解説

%SYMDEL TEST! X / NOWARN; *
/ 初期化事/
%LET TEST1=%BQUOTE(SAS_&X);
»WARNING: X のシンボリック参照を解決できません。
»WARNING:X のシンボリック参照を解決できません。
%PUT &TEST!;
>>WAR!吋ING:X のシンボリック参照を解決できません。
>>SAS &X

引数を展開する際, &X はマクロ変数と見なされ
WARNING が出る. %LET で TEST! を定義する
際, %BQU0TE では&をマスクできず, &X はマクロ変
数として扱われる.
TESTl=SAS マクロ変数 X

%LET X=USER;
%PUT &TEST!;
»SAS USER

マクロ変数 X を定義すると TEST! の値が代入されたも
のに変わることから確認、できる.

%SYMDEL TEST2 X / NOWARN ;戸初期化*/
%LET TEST2=%NRBQUOTE(SAS_&X);
>>WARN町G:X のシンボリック参照を解決できません。
%PUT &TEST2;
>>SAS &X

引数を展開する際, &X はマクロ変数と見なされ
WA悶吋刑G が出る. %LET で TEST2 を定義する
際, %NRBQUOTE は&をマスクし, &X はテキストと
して扱われる.
TESτ'2=SAS &X

%LET X=USER;
%PUT &TEST2;
»SAS &X

マクロ変数 X を定義しでも TEST2 の値は変わらないこ
とから確認できる

ログ部分には区別のため〉〉を文頭に付与している.
上記プログラムの%BQU0TE と%NRBQUOTE をそれぞれ%QUOTE と%NRQUOTE または%STR と%NRSTR に置き換え
ても PUT される結果は同じとなる. ただし各関数の挙動の違し、から WARNING の出方は異なる.
%SYMDEL で指定したマクロ変数を削除できる. また, NOWARN オプションを用いると, 指定したマクロ変数が存在
しないときに WARNING を出さないようにできる.

1・5 ・4. まとめと例
トテlから1・5 ・3で紹介した各クォ ー ティング関数の違いを図lにまとめ, 例を例1-2に示した.

143

146.

図1.各クォ ー ティング関数の違い I マクロの実行時にマスク 7クロのコンパイル時にマスク %STR %NRSTR 同じ項目をマスク I %QUOTE %NRQUOTE %前置で可能 ペアマッチなし引用符・括弧のマスク 可能 %BQU0TE %NRBQUOTE 引数には文字列を取る ι..守 ーー-- ・・ - - -ーーー 四回司自ーーーー 町一一ー -ーーーーー町__ ..ーーーーー--四ーー---------ーーー目ー四国ー- - 同じ項目をマスク 置換する ー-----ーーーーーーーーーーーーーーーー,----- 1 I マクロ変数の値に含まれている マクロ変数・参照を置換するか I %SUPERQ 置換しない I 引数にはマクロ変数のみを取る 各クォ ー ティング関数の違いをまとめた. 図中には記載していないが, %STR と%NRSTR , %QUOTEと%NRQUOTE, %BQUOTEと%NRBQUOTEの違いは&と%をマスクするかどうかであり, それぞれ前者はマスクせず, 後者はマスクす る(本文1-5・3参照). 例1・2.各クォ ー ティング関数の挙動の違い プログラム 解説 結果 %LET NAME=a SAS user; DATA_NULL_; CALL SYMPUT( ”X’ ブI’m ” ll'& NAME’ ); CALL SYMPUT( ”Y” ,つ% ’m ” ||’&NAME’); RUN; X=I ’m&NAME Y=I%’m&NAME ” %PUT %NRSTR(&X); %PUT %NRBQUOTE(&X); %PUT %NRQUOTE(&Y); %PUT %SUPERQ(X); &X I ’m a SAS user I ’m a SAS user I ’m&NAME ‘解説① 4解説② 4解説③ 4解説④ 解説① 解説② 解説③ ではなく ’を用いることで&NAMEを 展開せずにx. yに入れている. コンパイル特に%NRSTR が&Xそのものを7スクするため, &Xは文字列として扱われる. したがって &Xは置換されず「&X」となる. &Xはマクロ変数として扱われる. &Xは置換され, rrm&NAMEJとなる さらに&NAMEが置換さ れ, 「I’m a SAS user」となる. 実行時に%NRBQUOTEが働き, 「 ’ 」はマスクされ, rrm a SAS user」が 出力される. &Yは7クロ変数として扱われる. &Yは置換され, r1% ’m&NAME」となる. さらに&NAMEが置換さ れ, 「1%’m a SAS userJとなる. 実行時に%NRQUOTEが働き, 「% ’ Jはテキスト「っとして認識さ れ, 「I’m a SAS user」が出力される. 144

147.

解説④ 2. マクロ変数X を呼び出し, 「l'm&NAME」となる. 実行時に %SUPERQが働き, P」はマスクされる が, 引数のマクロ 変数(X)に含まれるマクロ変数(NAME)は置換されないため, 「l'm&NAME」が 出力される. スコ ー プ 2-1. マ クロ変数のスコ ー プ 、 マクロ変数には, グ ロ ー パルとロー カルの2種類のスコ ー プ叫 が存在する. グロー パルマクロ変数 (以下グロー パル変数)は SAS セッション全体で使用可能なマクロ変数であり, ロ ー カルマクロ変数 (以下ロー カル変数)は自身が定義されているマクロの実行中にのみ使用可能なマクロ変数である. ま マ た, マクロ変数はその名前と値の 一 覧を保持する 、ンンボルテ ー フ ルに格納される. グロ ー パル変数は グロー パノレ 、ンンボノレテ ー ブソレに, ロー カル変数はロー カルシンボルテ ー ブルに格納される. P マクロ変数は%GLOBAL で宣言するとグ ロー パル変数に, %LOCAL で宣言するとロ ー カル変数にな ・ る. 明示的に宣言をしない場合, オ ー プンコ ー ド 5 で定義すればグロー パル変数になるが, マクロ内で 定義する際は, グロ ー パル変数/ロ ー カル変数のいずれになるかは条件によって決定される. 特に注意 が必要な場面について紹介する. 2・2.ろもLET %LET を用いてマクロ変数を定義する場合, 下記の優先度でスコ ー プが決定される(例2・ I) グロ ー パル/ロ ー カル宣言なしで %LET を用いた場合 ① %LET を実行した場所 オ ー プンコ ー ド:グロ ー パル変数(新規作成/上書き) マクロ内:条件②へ ②同名のロ ー カル変数が存在するか YES :ロ ー カル変数(上書き) ③同名のグロー パル変数が存在するか NO :条件③へ YES :グロー パル変数(上書き) NO :ロ ー カル変数(新規作成) 例2 ・ 1. %LET でのマクロ変数定義 プログラム・ログ 解説 結果 %SYMDEL VARI VAR2 / NOWARN;/*初期化キ/ %LETVARl=X; %MACRO EXOl(VARI=X); %LETVARl =Y; %LETVAR2=Y; %PUT USER %MENDEXOI; 4オ ー プンコ ー ド 4引数 ‘マクロ内十同名ロ ー カル変数あり ... "?クロ内 %EXOJ; »EXOI VARI Y >>EXOI VAR2 Y »GLOBAL VARI X 145 グロ ー パル変数VARl =X ロ ー カル変数VARl=X ロ ー カル変数VARl=Y ロ ー カル変数 VAR2=Y

148.

%SYMDEL VARI VAR2 / NOWAR1可;/* 初期化*/ %LETVARI=X; %MACRO EX02; %LETVARI=Y; %LETVAR2=Y: %PUT USER %MENDEX02; 4オープンコード グローパル変数VARI=X .. "?クロ内+同名グローパル変数あり .. "?クロ内 グローバル変数VARI=Y ローカル変数VAR2=Y %EX02; »EX02 VAR2 Y »GLOBAL VARI Y ‘ ログ 部分には区別のため〉〉を文頭に付与している. %PUT USER;でユーザ一定義マクロ変数の一覧を出力することができる. 2・3. CALL SYMPUT(X)ル ー チン CALLSYMPUT(X)を用いてマクロ変数を定義する場合, 以下の優先順位でスコ ー プが決定される. グロ ーバル/ロ ー カル宣言なしでCALL SYMPUT(X)を用いた場合 オー プンコ ー ド:グロ ー パル変数(新規作成/上書き) マクロ内:条件②へ ①CALLSYMPUT(X)を実行した場所 YES:ロー カル変数(上書き) ②同名のロ ー カル変数が存在するか NO :条件③へ ③同名のグロ ー パル変数が存在するか YES:グロ ー パル変数(上書き) NO :条件④へ ④ ロ ー カルシンボルテ ー ブルに既にマク ロ変数が存在するか YES:ロ ー カル変数(新規作成) NO :グロー パル変数(新規作成) 条件④については特に注意が必要である. 定義するマクロ変数と同名に限らず, ロ ー カルシンボル テ ー ブルに既にlつでもマクロ変数が存在すればロー カル変数となる(例2・2) . したがって, 条件① ~③に該当しない(条件④でスコ ー プが決定する)ときは, 以下の場合にロ ー カル変数となる. 別名のロ ー カル変数を先に定義している場合(後で定義した場合は該当しない) マクロに引数がある場合(引数がロー カル変数となるため) PARMBUFFオプションを使用している場合(SYSPBUFF自動マクロ変数が作成されるため)吋 マクロ内において, PROC SQLの後に CALLSYMPUT(X)を使用する場合(自動マクロ変数が作成 されるため, 2・4参照) 他にも, 実行中のマクロに, &または%を含むラベルを使用した%GOTOステ ー トメントが含まれる場 合もロー カル変数となる. 例2・2.CALL SYMPUT(X)でのマクロ変数定義 プログラム・ログ 解説 結果 %SYMDEL VARI VAR2 VAR3 LOCAL /NOWARN;片初期化*/ 146

149.

DATA NULL; CALL SYMPUT( ” VARI ” J’ X ” ); RUN; %MACRO EXOI; DATA_NULL; CALL SYMPUT( ” VARI ” J’ Y ” ), CALL SYMPUT( ” VAR2” J’ Y ” ); CALL SYMPUTX( ” LOCAL ” J’ Z","L” ); CALL SYMPUT( ” VAR3'’ , ” Y ” ); RUN; %PUT USER %MENDEXOI; 4オ ー プンコ ー ド グロー パル変数 VARl=X ・4 同名グ ロ パル変数存在 ‘ 4 ロ カル変数が存在しない状態 4 ロー カル変数作成 4 ロー カル変数が存在する状態 グロ ー バル変数 VARI =Y グロー バル変数 VAR2=Y ロー カル変数 LOCAL=Z ロー カル変数 VAR3=Y 4オ ー プンコ ー ド グロー パル変数 VARl=X 4引数 ロ ー カル変数 LOCAL=Y 4同名グロー パル変数存在 4 ロー カル変数が存在する状態 4同名ロー カル変数存在 グロー パル変数 VARl=Y ロ ー カル変数 VAR2=Y ロー カル変数 LOCAL=Z ー ー %EXOJ; »EXOI LOCAL Z »EXOI VAR3 Y »GLOBAL VARI Y »GLOBAL VAR2 Y %SYMDEL VARI VAR2 LOCAL /NOWARN;/* 初期化 */ DATA NULL; ” ” CALL SYMPUT( ” VARI ” , X ); RUN; %MACRO EX02(LOCAL=Y); DATA NULL_; CALL SYMPUT( ” VARl","Y ” ); CALL SYMPUT( ” VAR2” , ” Y ” ); CALL SYMPUT( ” LOCAL ’ γZ ” ), RUN; %PUT USER; %MENDEX02; %EXO:Z; »EX02 LOCAL Z »EX02 VAR2 Y »GLOBAL VARI Y ログ部分には区別のため〉〉を文頭に付与している. また, 前述の条件はネスト 灯 したマクロにも応用できる(例 2-3) . ロより外側のマクロのロ ー カル変数, 「グロ ー パル変数 j を対象マク 「ロ ー カル変数」を対象マクロのロ ー カル変数と読み替えれば よい. 例 2・3. ネストしたマクロにおける CALL SYMPUT(X)でのマクロ変数定義 プログラム ・ ログ 解説 %SYMDEL VARI VAR2 VAR3 LOCAL OUT LOCAL_I N /NOWARN;/* 初期化 */ 147 結果

150.
[beta]
%MACROEX OUT;
DATA NULL·
”
CALL SYMPUTχ( ”VARl","X );
” ” ” ’ ”
CALL SYMPUTX( ” LOCAL_OUT , Z J L ),
RUN;
%MACRO EX_IN;
DATA_NULL_;
” ”
CALL SYMPUTX( ”VARI” , Y
);
’ ”
CALL SYMPUTX( ”VAR2” JY );
CALL SYMPUTX( ” LOCAL IN" , ” Z ” , ” L” );
”
'
CALL SYMPUTX( ”VAR3 ブY );
RUN;
%PUT USER;
%MENDEX IN;
%EX IN;
%MEND EX OUT;
%EX OUT;

4 ロ ー カル変数が存在しない状態
.... EX OUTのロ ー カル変数作成

グロ ー バル変数
EX OUTロ ー カル変数

4同名グロ ー パル変数あり
4解説①
.... EX刑のロ ー カル変数作成
4解説②

グロ ー パル変数
EX OUTロ ー カル変数
EX刑ロ ー カル変数
EX INロ ー カル変数

»EX IN LOCAL IN Z
>>EX INVAR3Y
»EX OUT LOCAL OUT Z
»EX OUTVAR2Y
»GLOBALVARIY

解説①

解説②

EX一町のロ ー カル変数は存在しないため, VAR2はEX一則のロ ー カル変数にはならない. EX_INより外側
のEX OUTにはロ ー カル変数が存在するため, VAR2はEX OUTのロ ー カル変数となる.
(もしEX_OUTにもロ ー カル変数が存在しない場合は, さらに外側(=グロ ー ノミル)を見ることになり, グ
ロ ー パル変数となる.)
EX別のロ ー カル変数が存在するため, VAR3はEX別のロ ー カル変数となる.

、

ログ 部分には区別のため〉〉を文頭に付与している.
例2-2及び例2-3 で用いた CALLSYMPUTX について説明する. CALLSYMPUT ではロ ー カノレ/グロ
ー

パルを明示的に指定できないが, CALLSYMPUTX では指定することができる. また値の先頭と末尾

の両方の空白を削除してから マ クロ変数に渡す. 構文は以下の通りである.
CALLSYMPUTX ( マ クロ変数名,値く,シンボルテ ー ブル〉);

シンボルテ ー ブル:
G:

グロ ー パルシンボルテ ー ブルに保存

L:

最もロ ー カノレな 、ンンボルテ ー ブルに保存

F:

同名 マ クロ変数が存在:同名マ クロ変数が存在する最もロ ー カルなシンボルテ ー ブルに保存
同名マ クロ変数が存在しなし、:最もロ ー カルな 、ンンボルテ ー ブルに保存

シンボルテ ー ブルを指定しない場合と ” F ”を指定した場合の違いは, 同名マクロ変数が存在しないときの挙動である. 指
定なしの場合, マクロ変数が存在するシンボルテ ー ブルの中で最もロ ー カルなシンボルテ ー ブルに保存される

24.SQLINTO文
PROCSQL の町TO 文を用いて マ クロ変数を作成する場合, CALLSYMPUT(X)と同じ挙動をする

が, PROCSQL を実行すると自動 マ クロ変数(SQLEXITCODEやSQLOBS 等)が作成されることに留
意する必要がある.

マ クロ内で PROCSQL を実行する場合,

148

これらの自動変数はロ ー カル変数とな

151.

る. したがって, ー マ クロ内でPROC SQLのINTO文を用いて マ クロ変数を作成すると, プを宣言していなければ, 同名のグロ ー パル変数がない限り必ずロ ー 明示的にスコ カル変数となる. 2-5. READONLYオプション SAS 9.4から%GLOBALステ ートメント及び%LOCALステ ートメントにREADONLYオプションが 追加され, 読み取り専用の マ クロ変数を作成することが可能となった. 構文は以下の通りである. %GLOBAL/READONLY マ クロ変数名=値; %LOCAL/READ0NLY マ クロ変数名=値; 読み取り専用の マ クロ変数を作成後, 値の変更を試みるとログに ERRORが出力され, 値を変更するこ とはできない(例2-4) . 削除することもできず, そのマクロ変数が存在するスコ ー プが削除されるま で保護される. READONLYオプションを用いることで意図しない マ クロ変数の上書きを防止できる. 例2-4.READONLYオプション プログラム ・ ログ %GLOBAL/ READONLY VAR=X; %LETVAR=Y; »ERROR:変数VARは読み取り専用として宣言され、 変更や再宣言できません。 ログ部分には区別のため〉〉を文頭に付与している. 2・6.SYMGET関数 SYMGETは SYMPUTとは逆に, マ クロ変数の値を取得し, デ ー タステップ内の変数に代入するこ とができる関数である. 引数には, 引用符で囲んだ先頭に&のない マ クロ変数名, している文字変数, マ クロ変数名を格納 マ クロ変数名を生成する文字式を取ることができる. 取得される マ クロ変数のスコ ー プは以下の優先順位で決定される. SYMGET関数の取得するマクロ変数のスコ ー プ ①SYMGETを実行した場所 オー プンコ ー ド:グロ ー パル変数 マ クロ内:条件②へ ②同名のロ ー カル変数が存在するか YES:ロ ー カル変数 NO:条件③へ ③同名のグロ ー バル変数が存在するか YES:グロ ー パル変数 NO:取得不可(ログに NOTEが出る) また, ネストする マ クロ内では, 存在する同名の マ クロ変数の中で最もロ ー カルな マ クロ変数の値を 取得する(例2-5) 例2・5.SYMGET関数の取得するマクロ変数 プログラム 解説 %GLOBAL VAR; %LETVAR=X; ‘ シンボルテ ー ブル ・ デ ー タセット GLOBAL VAR作成 149 . 、 この時点でのシンホ ルテ ー プ ル · GLOBAL VAR=X

152.

DATA TEST; GETO I =SYMGET( ”VAR"); RUN; %MACROEX OUT; %LOCALVAR; %LETVAR=Y; DATA TEST· SET TEST; GET02 = SYMGET( ”VAR’’); RUN; %時1ACROEX IN; %LOCALVAR; %LETVAR= Z; DATA TEST; SET TEST; GET03 = SYMGET( ”VAR”); RUN; %MEND EX Ilサ; %EX I川 DATA TEST; SET TEST; GET04=SYMGET( ”VAR”); RUN; %MEND EX_OUT; GLOBALのVARを取得 ‘ この時点でのシンボルテ ー プ ル • GLOBALVAR=X • EX OUT VAR=Y <1111 EX OUTVAR f乍成 <1111 EX OUTのVARを取得 <1111 EX刑VAR=Z 作成 <1111 EX一町のVARを取得 この時点でのシンボルテ ー ブル · GLOBALVAR=X · EX OUTVAR= Y · EX INVAR=Z EX OUTのVARを取f尋 この時点でのシンボルテ ー ブル · GLOBAL VAR=X • EX OUT VAR=Y <1111 デ ー タセット TEST %EX OUT 目 GETO I X I GET02 y I GET03 z I GET04 y 注釈 初級者向けに用語の解説を以下に示す. lクオ ー ト処理:プログラム中の意味のある特殊文字や演算子をただの文字列として扱えるように処理すること. *2 コンパイル:プログラムのソ ースコ ー ドを機械語またはより水準の低い言語に変換すること. マ クロのコンパイル では,マ クロプロセッサが,([)セッションカタ ログ内にエントリを作成,(2)そのマ クロのすべてのマ クロプログ ラムステ ー トメントをマ クロ命令として コンパイルして格納,(3) マ クロ内のすべてのコンパイル対象外項目をテキ ス卜として格納する *3 マスク:プログラム中の意味のある特殊文字や演算子をただの文字列として保護すること. *4スコープ・変 数の名前を参照できる範囲のこと. *5オープンコー ド : マ クロ外のコー ド . *6 PARMBUFFオプション:引数の数が可変のマクロを定義できる 引数は自動で 作成されるマクロ変数SYSBUFFに 格納される. 事 7 7クロのネスト あるマ クロの中に他のマ クロを入れ込むこと. 事 参考文献 [1] SAS Institute Inc. SAS⑧9.4マクロ言語:リファレンス(第5版). [2] Pengfei Guo and Shanghai (2016). Macro Quoting: Which Function Should We Use? PharmaSUG China 2016, Paper 81. 150

153.

ODS EXCEL入門 0松沢享 (株式会社インタ ー サイエンティフィックリサ ー チ) [はじめに】 SAS9.4M3 から追加された「 ODS EXCEL 」はSASからExcel への出力を提供する。 本発表では、 基本構文の紹介から始まり、 テクニックや活用方法についても提案する。 本発表を通 して、 その魅力と可能性に触れたい。 [方法 1 ODS EXCELの構文は非常に簡単で、 出力したいプロシジャを「 ODS EXCELJ で囲むだけである。 ods e玄eel file= 'c:¥test.xls x’ options( autofilter= 'all’ ); pro c report data= sashelp.class; run, ods excel close; 【結果】 上記プログラムの実行結果を以下に示す。 A 日 C E D 【総括】 SASからExcel への出力方法は多数存在するが、 ODS EXCELはその中の第 1 候補になり得る。 理由とし て、 オー トフィルタやペ ー ジ設定などの制御を行うオプションが豊富に用意されている点である。 本発表ではODS EXCELとSASの各種機能を駆使して、 Excelで解析帳票を作成する方法についても提 案している。 本発表を通して、 ODS EXCELの可能性とSAS プログラミングの楽しさを感じて頂ければ幸いである。 [参考文献] [l] SAS骨 9.4 Output Delivery System: Us 巴r ’ s Guid 巴, Fifth Edition https://documentation.sas.com/?docsetld=odsug&docsetTarget=p09n5pw9ol0897nlqe04zeur27rv .htm&docsetVersion= 9.4&local 巴 en = [2] Jane Eslinger (2017). The REPORT Procedure and ODS Destination for Microsoft Excel: Th 巴 Smarter, Faster Way to Create First Rate Excel Reports 151

154.

PROCFCMPとDOSUBL関数で ユ ー ザ ー 定義関数を自由かつ平易に作成する方法 田中真史 。 (イ ー ヒ エス株式会社統計解析l部) DOSUBL Function within PROC FCMP Provides an Easy Way to Create Various User-Defined Functions Tanaka Masashi Statistics Analysis Department I, EPS Corporation 要旨 ユ ー ザ 一 定義関数を作成するFCMPプロ、ンジャを用いると、%MACRO ステ ー トメントを用いるよりも、 プログラムの見通しが良くなる場合がある。 さらに、 FCMP プロシジャには FCMP Special Function の RUN MACRO 関数が用意されており、 非常に柔軟な処理を行うことができる 。 しかし ながら 、 RUN MACRO 関数の理解はやや難しく、 用いるマクロも通常のマクロとは異なる。 この点を改善する ために、 FCMPプ口 、ンジャとDOSUBL関数を組み合わせることで、 RUN MACRO関数と同様の処理を 実装した。 具体的には、 DOSUBL関数でSQLプロシジャなどを実行した結果をグロー パルマクロ変数 に格納した上で、SYMGET関数で直ちに展開してユ ー ザ ー 定義関数の戻り値とした。また、DOSUBL関 数とRUN MACRO関数の実行速度やマクロ変数のスコ ープを比較した。 キ ー ワ ー ド:PROC FCMP 、 DOSUBL関数、 RUN MACRO関数、 SYMGET関数 1章緒言 FCMPプロシジャによる関数のユ ー ザ ー 定義は、 %MACROステ ー トメントを用いたマクロの定義と同様、 頻出する処理を簡潔にまとめる方法である。 さらに、FCMP プロシジヤにはFCMP SpecialFunction の RUNMACRO関数が用意されており、別に定義したマクロをユ ー ザ ー 定義関数に組み込むことで非常に幅広 い処理を行うことができる。 しかしながら、RUN MACRO関数の理解はやや難しく、 用いるマクロも通常の マクロとは異なる。 本稿では、FCMPプロシジャとDOSUBL関数を組み合わせて、RUN_MACRO関数の広 範な処理範囲を維持したまま可読性を上げる方法を紹介する。 152

155.

2章FCMPプロシジャの概略 FCMP プロシジャでは、 FUNCTION ステートメント以下にデータステップに類似したコードを記述し、 RETURN で戻り値を定義し、 ENDSUB で関数定義を完了する(コード 2・ I )。 【コ ー ド2-1】 FCMP プロシジャの書き方 options cmplib = nul I_; *1; proc fcmp out Iib = work f. f; *2; function myfunc(varl. var2 $) $20; *3; code to be executed … return (return va I ue) ; endsub; run. options cmplib = work._f; *4; 回一 *1関数を再定義するときのWARNINGを防ぐ。 *2 WORKライブラリのデ ー タセット _Fのパッケ ージFに関数を保存する。 *3関数名はMY印NC、 引数VARlは数値型、VAR2は文字型、 戻り値は長さ20の文字型。 *4 WORKライブラリのデ ー タセット ーFから関数を呼び出す。 ユ ーザー定義関数の使用で、 プログラムの可読性が高まる場合がある。 コー ド22a、 2・2bは百分率を取得する例である。 ユ ーザー定義関数(コード2-2b)では「戻り値= PCT(引数)Jと処 理の内容が明らかであるが、 マ クロ(コード2・2a )では「 %PCT(戻り値,引数)」と戻り値と引数が並列に扱 マ クロを用いるよりも、 われており、 読解の難易度が上がる。 【コ ー ド2-2a】百分率の取得(マクロ) 蜘,aero pct(var. n, tota I); length &var. $6; =品n.; n total =品tota I. . ’ if _total = 0 or nmiss( n. total)三0 then &var. = N/A'; ’ ’ ’ else &var目 = cats(putn(round(lOO*_n/_total. le-1), ’8. 1 ), 協 ) , drop _n _tota I; 時mend pct: data _nu11一; 日,pct(p1, 5, 25); 目pct(p2, 3, 0); 拡pct(p3, .. 5); put (p1-p3)(=); run. J/, AH nuF M同 一 一 qd AH ,,f’ UN - - w百 nunu - - nt nv nU L O nt 一一 一 一噌l - nv 153

156.
[beta]
【コ ー ド 2・2b 】百分率の取得(ユ ー ザ ー 定義関数)

options cmplib = _nul I_:
proc fcmp outlib = work._f. f:
function pct(n. total)$6:
’
if total = 0 or nmiss(n. total) A= 0 then return('N/A );
’ ’
’
’
else return(cats(putn(round(lOO州/total, le-1), 8.1 ), 覧 ));
endsub:
run:
options cmplib = work._f;
data _nul I_:
pl = pct(5. 25):
p2 = pct(3, 0):
p3 = pct(. . 5):
put (p1-p3)(=):
run:

一ー LOG --

p1=20.0略p2=N/A p3=N/A

ユ ー ザ ー 定義関数とマクロの可諦性の差は、 FCMP プロシジャが関数及び CALL ル ー チンの定義に特化し
ており、 %MACRO ステ ー トメントに比べて構文に制約があることが原因といえる。制約があるとはいえ、前
述のように FCMP プロシジャでは RUN_MACRO 関数を用いて自由度の高いプログラミングを行うことが可
能である。
【コ ー ド 2・3 】 RUN_MACRO 関数を用いた実装

options cmplib = _nul I_:
proc fαnp out Iib = work._f. f:
function _count(ds$. where$);
’
re = run_macro('m , ds, where, c);
蜘,aero m();
proc sql noprint:
select count(*) into :c
from %sysfunc(dequote(&ds.))
where %sysfunc(dequote(&where.)):
quit:
始nend m:
return (c):
endsub:
run:
options cmplib = work._f;
data _nul I_:
’
’
’
M = _count('SASHELP.CLASS , cats( SEX = , ”’ M"')): *1:
’
’
’
・
’
F = _count( SASHELP.CLASS ’ cats( SEX = , ” F"')):
put (M F)(=):
run:
ーーLOG -M=lO F=9
” ’

*1日本語版SAS では M \

” ”

”

”

F ではなく 男子 、

”

”

女子 とする。

154

157.

コー ド2・3では、RUN_MACRO関数で SQLプロシジャの結果を ユーザー定義関数の戻り値とした。_COUNT 関数の引数は デー タセット名とWHERE 条件で、 戻り値は条件を満たすオブザベー ションの数である。 上記 の例では、 SASHELPライブラリのデー タセット CLASS に含まれる男子生徒と女子生徒の人数を 数えた。 一 MPプロシジャ内の RUN MACRO関数を呼び出すと、 ユーザー定義関数の引数(DS、 WHERE)及び、FC 時変数( C) が、 RUNMACRO関数の引数で指定したマクロ(M)内のマクロ変数(DS、 WHERE、 C)と関 連付け られた状態でマクロ が 実行される。 3章FCMPプロ 、ンジャ内でのDOSUBL関数の使用 RUN_MACRO関数を用 いると、 関数定義 にSQL プロシジャなどによる 処理が実装でき、FCMPプロシジ ヤの応用範囲は著しく広がる。 しかしなが ら、 RUN MACRO関数は挙動を理解するのがやや難しく、 マクロ も専用のものを用意しなければならない。 そこで、 コー ド3-1ではDOSUBL関数を用いることで、 コー ド 2・ 3 のCOUNT関数をより簡単に実装した。 【コ ー ド3・1】DOSUBL関数を用いた実装 opti ans cmp iI b = nu I I一; proc fcmp outlib = work._f.f: function _count(ds$. where$): ’ re = dosubl( proc sql noprint: select count(*) into quit: ’ :_c from ’11 ds 11 ’ where ’ ’ 11 where || ; ’ rt = input(symget( _C ) • best.) . ’ ca 11 symde (' I _c ); return(rt) : endsub: run. options cmplib = work.f: data _nul I一; ’ ’ ’ ’ M = _count( SASHELP CLASS ,cats( SEX= , ”’M'")) . , ”’ ’ ’ ’ ’ F = _count( SASHELP.CLASS ,cats( SEX= , "F )), put (M )F (ニ); run. 《U nB = nu nU「「 ’L - 41 一 一 一 Mm 一 DOSUBL関数の引数に実行したい 処理を記述し、 定義したグロー パルマクロ変数( C)をSYMGET関数で 即座に展開して、 ユーザ一定義関数の戻り値とした。 ユーザー定義関数の引数(DS、 WHERE)をDOSUBL 関数に直接代入することで、 RUN MACRO 関数と マクロを組み合わせる際の煩雑さを避けた。 結果として、 RUN MACRO関数と同様の処理が実現でき、 デー タセットCLASSに含まれる男子生徒と女子生徒の人数 が 取得できた。 155

158.

【コ ー ド 3・2 】要約統計量の取得 options cmplib = _nul I一’ proc fcmp outlib= work._f.f; function _summary(st $, dat$. where$. var$). ’ re= dosubl( ’ ’ 11 dat 11 proc summary data = ’ ’ where 11 where || ; ’ ’ 11 var 11 var ’ ’ output out= _stat 11 st 11 = st run. proc sql noprint: select put(st, hex16.) into: val from _stat: *1; quit: ’ ’ rt= input(symget( val ) • hex16.); *2: ’ ’ ca11 symde I( _val ); return(rt); endsub: run . options cmplib= work._f; data _nul I_; , ’ M = _summary( median , ’ ’ F= _summary( median , put (M F)(=): run: ’ ’ ・ ’ SASHELP.CLASS ’ ’ SASHELP. CLASS , ’ ” ”’ ’ SEX = M , ” 川 SEX = F ’ ’ ’ HEIGHT ); ’ HEIGHT ); 一一 LOG --- M=64.15 F=62.5 *1 +進数から十六進数への変換。 時十六進数から十進数への変換。 コ ー ド3-2のSUMMARY関数は、オブザベー ション数以外の一 般の要約統計量も取得できる。上記の例で はデ ー タセットCLASSの変数HEIGHTの男女別の中央値を取得した。グロー パルマクロ変数VALに要約統 計量の値を格納するときに十六進数に変換したのは、 十進数が文字としてマクロ変数に格納される際に発生 する打ち切り誤差を避けるためである。 【コー ド 3・3 】コンペア結果の取得 options cmp Iib= nu I I一; proc fα『IP outlib = work._f.f; function _compare(base$. comp$) $2: length rt$2: ’ re = dost』b I ( ’ ’ ’ ’ noprint: compare = proc compare base = 11 base 11 11 comp 11 run. 首let comp = &SYSINFO.; *1: ’ ’ rt= if symget( _comp ) = ’ ’ ca I I symde I( _comp ); return(rt) . endsub; ’ ’ 0 ’ ’ then OK run; options cmplib= work._f; 156 ’ ’ else NG ;*2:

159.

data datl. X = 1; run. data dat2; X = 1; run. data run; nul I ’ ’ a = compare ( datl , ’dat2'); put a= ; 一一 LOG -- a=OK *1 自動マクロ変数 SYSINFO に格納されたコンペア結果をグロ ー バルマクロ変数 COMP に格納した。 *2 FCMP プロシジャでは許容される構文。 コー ド 3・3 の_COMPARE 関数では、 DOSUBL 関数で COMPARE プロシジャを実行して、 自動マクロ変数 SYSINFO に数値で格納されたコンベア結果(0 ならばコンベア 一 致、 それ以外ならコンベア不 一 致) で戻り マ 値を定義した。筆者は COMPARE 関数を、 タ ブ‘ルプログラミングで作成した多数のデ ー タセットを 一 括でコ ンベアするときに用いている。 4章DOSUBL関数とRUN MACRO関数の比較 4・ 1 処理速度 DOSUBL 関数と RUN MACRO 関数の処理速度の比較を行った。変数 VAL の値として l から 100 までの 一 様乱数をとるデ ー タセット DAT を作成し、 変数 VAL の値の度数を、 10 を幅として集計したデ ー タセット OUT を作成した(図 4-1)。 集計にはコー ド 2-3 とコー ド 3・ l で RUN MACRO 関数と DOSUBL 関数を用いて ユ ー ザ ー 定義した_COUNT 関数を用いた。 DAT のオブザベ ー ション数を 1,000 から 100,000,000 まで変化さ せて、 SAS の実行ログに表示される処理時間を調べた。 DAT の各オブザベ ー ション数について、 2 種類の COUNT 関数で 30 回ずつ集計を行った。 その結果、 この例では DOSUBL 関数と RUN MACRO 関数を用い たユ ー ザ ー 定義関数の処理時間に大きな差は確認できなかった(表 4・ I )。 DOSUBL 関数と RUN MACRO 関 数は、 部分的には同様の処理で、マクロを実行しているものと思われる。 157

160.

DAT OBS 2 3 4 5 6 7 8 9 10 ・.. 9998 9999 10000 OUT VAL 10 92 54 97 58 46 40 82 48 47 ・.. 28 4 81 1 く=. 11く= 21く=, 31<= 41<= 51く=. 61く= 71く=, 81く=, 91く=. く=10 <=20 <=30 く=40 <=50 <=60 <=70 く=80 く=90 <=100 GR 2 3 4 5 6 7 8 9 10 COUNT 982 996 1037 1045 984 1001 988 973 1008 986 data DAT; ’ ’ do obs = 1 to 10000: val = floor(lOO*rand( UNIFORM )) + 1: output: end: run. data OUT: do gr = 1 to 10; ’ ’ count = _count( DAT , cats(1 + 10*(gr - 1), end: run: 【図4・1】度数の集計 ’ ’ く= val く= , 1O*gr)); output; 【表4-1】RUN MACRO関数とDOSUBL関数の処理時間の比較 DATのオブザベーシヨン数 RUN MACRO関数(秒、 Mean±SD) DOSUBL関数(秒、 Mean±SD) 1E3 0.03±0.000 0.10±0.000 3E3 0.03±0.000 0.10±0.000 1E4 0.04±0.000 0.11±0.006 3E4 0.04±0.005 0.11±0.004 1E5 0.08±0.003 0.15±0.006 3E5 0.16±0.006 0.23±0.005 1E6 0.46±0.012 0.53±0.008 3E6 1.31±0.026 1.37±0.024 1E7 4.26±0.074 4.31±0.028 3E7 12.65 ± 0.189 12.74 ± 0.091 1E8 42.14±1.130 42.13±0.203 158

161.

4-2マクロ変数のスコ ー プ FCMPプロシジャ内でDOSUBL関数を実行して結果をグローパル マ クロ変数に格納する場合、 グローパル マ クロ変数の上書きに注意する必要がある。 一方、RUN MACRO関数では、 グロー パル マ クロ変数の上書き は起こらないと思われる。 準備として、 グローパル マ クロ変数を意図せずに上書きする例を示す。 【コ ー ド4-1】グロ ー バJレマクロ変数の上書き 明let y = 1. 蜘naoro test O; 首I et y = 100; *1; 蜘1end test; 目 test(). 首put品=y; 一一一LOG -一一 Y=100 *1引ocal y;を追加することで、 グロ ー バルマクロ変数Yを上書きすることを避けられる。 コード4-1では マ クロTESTを実行することで、グローパル マ クロ変数Yの値がl から100に上書きされた。 このように、マクロ変数を用いたプログラミングにおいては、 マ クロ変数のスコ ー プを意識する必要がある。 【コ ー ド4-2】FCMPプロシジャとグロ ー バJレマクロ変数 options cmplib二一nu11一; proo fomp outI ib = work. f. f; function _run macro(xl); ’ ’ re= run macro ( m , xl. yl). 愉naoro mO; 百let yl = &xl. 伽1end m: return(y1); endsub; function _dosL』bI (x2) ; ’ ’ re= dosubl ( 唱let y2 = 11 cats(x2)); ’ ’ return(input(symget ( y2 ) . best. )); endsub; run; options cmplib = work._f; 見let yl = 1; 目let y2 = 1; data nulI al = _run_macro(100); a2 = _dosubI (100) . put (al a2) (=) ; run; %put &=yl &=y2; ーーLOG -a1=100 a2=100 Yl=l Y2=100 159

162.

コー ド 4・2 でユー ザー 定義したRUN MACRO関数と DOSUBL 関数は、 引数をその まま戻り値にする点 では同等の関数だが、 マ クロ変数の挙動が異なっている。 RUN MACRO 関数は実行しでもグロー パル マ ク ロ変数YIを上書きすることはないが、 DOSUBL関数は実行したときにグロー パル マ クロ変数Y2をl から 100へ上書きしてしまう。FC MPプロシジャのRUN MACRO関数はグロー パル マ クロ変数を上書きしない点 で優れている。RUN MACRO関数の代わりにDOSUBL関数を用いる場合は、 一般的な SASプログラミング と同様、 マ クロ変数の 名前が重複しないようにするなどの注意が必要である。 補足として、RUN MACRO関数を実行したときの マ クロ変数の挙動を以下に示す。 コー ド4・3では、 マ ク ロMの 実行時にユー ザー 定義の マ クロ変数をログに出力した。 興味深いことに、 RUMMACRO関数で マ ク 、 ロMを実行すると、 マ クロ変数X、 Yがグ ロー パル マ クロ変数として作成され、 Yは名前の 重複が許容され ていた。 【コ ー ド4-3】RUN MACRO関数実行時のマクロ変数の挙動 options cmp I ib = nu I I 一; proc fcmp outlib = work._f.f; function run_macro(x). ’ ’ re = run_macro ( m , X, y); 蜘1acro m(); 目let y = &x. ; 首put user_; 伽,end m; return(y) endsub; run; options cmplib = work._f; 目let y = 1; data nul I a = _run_macro(lOO); run; 問 《Unu nU -1nu 1 1 VAv-vI nu nUELtLEL l』AHaanAH nDnDnD - nununU -nu aLEL ’L - nunu 160

163.

5章結語 FCMP プロシジャ内で DOSUBL 関数を用いることで、 RUN MACRO 関数と同様の処理を、 より簡単に実 装することができた。 DOSUBL 関数と RUN MACRO 関数の処理速度に大きな差は見られず、 可読性の観点 、 から、 本稿で提示した DOSUBL 関数を用いる方法は有用と思われる。 ただし、 グ ロ ー パルマクロ変数を定義 することが、 プログラム全体の頑強性に大きな影響を与える状況では、 RUN MACRO 関数を選択するべきで あろう。 本稿ではマクロの簡易版として FCMP プロシジャを導入した。 それだけでも十分に有用だが、 DOSUBL 関 数や RUN_MACRO 関数を用いると、 SQL プロシジャなどを実行した結果をユ ー ザ ー 定義関数の戻り値にす ることができる。 結果的に、 それらの強力なプロシジャとデ ー タステップを組み合わせた処理を実装するこ とができ、 それこそが FCMP プロシジャの真価と思われる。 本稿で紹介した方法によって、 プログラムを簡 潔に記述することや、 日常的に作成しているプログラムの構成自体を見直すことが可能となれば、 筆者にと って望外の喜びである。 補足:本稿のコ ー ドの実行や 4 章の処理速度の比較はすべて SAS Studio で SAS 9.4M5 を用いて行った。 参考文献 I) Base SAS 9.4 Procedures Guide, Seventh Edition https://documentation.sas.com/?docsetld=proc&docsetTarget=titlepage.htm&docsetVersion=9.4&1ocale=en 2) SAS 9.4 Functions and CALL Routines: Reference, Fifth Edition https://documentation.sas.com/?docsetld=lefunctionsref&docsetTarget=pOwzddkqqeo6pun I tba7109dkkq8.htm&do csetVersion=9 .4&locale=en 161

164.

JSONとし、う奇妙な拡張子とSAS o浅井友紀 (A2 Healthcare Corporation) SASデー タをJSONに変換することにより, SASを使わずデー タの可視化を行うことが可能になる. またJSONをSASデー タに変換することで,Webや各種アプリから取得したデー タの利用にSASの豊 富な機能を使うことが出来る. スマー トフォンやタブレット端末によって様々なデー タが収集, 利 用されている現在において,WebAPIの主要な形式であるJSON形式のデー タは今後ますます増えて いくだろう. そのJSONとSASのデー タ変換方式を取り上げることで, SASの利用機会が広がること を願う. SASデ ー タセットをJSONに変換にはproc jsonを用い, JSONをSASデ ー タセットに変換するには libname ス テ ー トメントを用いる. 読み込むJSONを指定する際にencodeを指定しないと日本語が読 み込めないので注意が必要. JSONを利用するにはSASだけでなくJSONの知識も必要になるが, まずはデ ー タ読み込みの部分を 紹介し, 利用の第 一 歩となる発表を目指す. 162

165.

、 。 。 FedSQLフ ロシジャの特性及び SQLフ ロシジャの挙動との比較 山野辺 浩己 イ ー ピ ー エス株式会社 ComparisonofFedSQL Proec duran e d SQL Procedure Hi o r ik Yamanobe Statisti cs Analysis Depar t em n tI, EPSCorporation 要旨 SASにおいて, SQLを使用したプログラム実行は, SQLプロシジャが用いられてきた. SQLプロシジャ 内におけるSQL は, 値の取り扱いや関数について, SASの仕様にマッチするよう 一 部 カスタマイズが行わ れ, 一般に用いられる標準SQLとは異なった挙動を示す. 一方で, SAS9.4からSQL99 (SQL3)に準拠し たFedSQLプロシジャが実装され, 一般に用いられる標準SQLと同様の動作をさせることが出来るように なった. 本稿では, FedSQLプロシジャ特有の挙動を確認し, またFedSQLプ口 、ンジャとSQLプロシジャ の結果を比較し, 動作を検証する. キ ー ワ ー ド:SQL, PROCSQL, PROCFEDSQL 1. はじめに 従来SAS上でSQLコ ー ドを用いる場合, PROCSQLを使用することが求められた. PROC SQLは, 標 準SQLと挙動が異なるため, 標準SQLを熟知したユ ー ザーが開発すると戸惑う点、が多い. 標準 SQL とは, アメリカ規格協会(ANSI)または国際標準化機構(ISO)によって規格化されたものを指す. PROC FEDSQLでサポ ー トしている ANSI SQL:1999は, 1999-2002年にANSI及びISOで規格化された 規格で, 当初SQL3と呼ばれていた. ANSI SQL:1999 は, Orac l e社やMic rosoft社など, 多くのベンダー 、 n gementSyst em:リレ ー ショナルデ ー タベー ス管理システム) が提供するRDMS(Relationa l Databa s eMa a で標準的にサポ ー トされているもので, 現在の PROC SQL が対応していない変数の型や, 外部デー タベー スとのトランザクション処理を規格している. PROC FEDSQLが, ANSI SQL:1999 cor eに準拠すること ー で, SASデ タセットでは区別できなかった型の制御が行え, また異なるデ ー タベースやSASデ ー タセッ ト間で結合が可能になるなど, SASと外部デ ー タベー スとの親和性が高くなっている. 一方でPROC SQLは, 多くの点において, SASデー タセットでの仕様に合うようにカスタマイズされて いる. SASの関数の多くがそのまま利用できる等のSASで扱いやすいような標準SQLの仕様からの変更 が確認できる. 本稿では, BASESAS上での実行に限定して, PROC FEDSQLとPROC SQLの挙動と特性の違いを比 較した. 本稿の開発上における差異を確認する目的のため, SAS上におけるPROC SQLとの挙動の違いに 注目し, 比較検証を行う. 163

166.

2. 型の取り扱い SASで実行される SQLコ ー ドは,SASの仕様に合うようカスタマイズされている.代表的なものとして, 型の扱いが挙げられる. SASでは, 変数の型が数値型と文字型に分けられる. PROC SQLでは, 変数の型と し て [CHARACTER], [VARCHAR], [INTEGER], [SMALLINT], [DECIMAL], [NUMERIC], [FLOAT], [REAL], [DOUBLE PRECISION], [DATE]を宣言できる. しかし, 内部的には, 自動的に型ごとに定められ たSASの数値変数・文字変数として設定され, 処理される. PROC FEDSQLでは, 標準SQLの型の多くをサポ ー トする. 外部デ ータベ ー スと同様の変数の型を数多 く 扱えるようになっているため, 裂の種類が増えている. また SAS における実行では, 数値デ ータ型は [DOUBLE], 文字デ ータ型は[CHAR]として変数が定義され処理される. これらの変数型は, それぞれ SAS 上での数値型・文字型にあたる. PEOC FEDSQLの型及び対応する変換について, 表2 1にまと めた. /安 表2 1*/ 宣 PR 言q� S Q L:数型 した 変 ��$上での処濠 CHAR CHARACTER VARCHAR 愛 m言Q'CしFた王変将数勢獲:, 文字型 NCHAR NVARCHAR VARCHAR INTEGER BIGINT DECIMAL DECIMAL/NUMERIC DATE SMALLINT DOUBLE NUMERIC FLOAT FLOAT REAL DOUBLE PRECISION DATE 文字型 数値型 INTEGER REAL 数値型 SMALLINT TIME TIMESTAMP TINYINT PROC SQLを用いた下記program2_2で示すプ ロ グラムを実行 すると, [INTEGER]で宣言した変数に, 整数以外の小数 値を格納す る. result2_2結果から , 格納された値が小数点であ るため, SQL上の [INTERGER]ではないことが確認できる. ロ グには注目すべきメッセ ー ジは特に表示されない. 164

167.

/* program2_2り proc sql; create table datal (VARI INTEGER); inse此into datal values (1.1); insert into datal values (2.2); insert into datal values (3.3); insert into data1 values (4 .4); insert into datal values (5.5); /* result2 2勾 SASシステム select VARI from datal quit; /* log2ユ * / 1 proc sql; 2 create lab I e data1 (VARI INTEGER); NOTE:テ ー ブル叩RK.DATA1 (行事如、列数1)が作成 3 insert into dalal values (1.1 ), NOTE: 1行が叩RK.DATAlに挿入さ ました。 4 insert into data1 va I ues (2. 2); MnTC・ 1 才ニ手封切nRu ハATA11-i h士 i t-- ました。 晋主建 PROCSQLでは表示されなかった 一方, PEOCFEDSQLを用いた下記program2_3を実行したところ, れ 変数型についてのメッセ ーれジが表示される. 結果から, 格納された値が[INTEGER]ではないことが確認でき る. /* program2_3 */ proc fedsql; create table datal (VARI INTEGER); insert into datal values (1.1); insert into datal values (2.2); insert into data1 values (3.3); insert into datal values (4.4); insert into datal values (5.5); /安 result2 3*/ SASシステム さ select VARI 仕om datal quit; /* log2_3 */ MN nU 戸ト」 n門 pu rE nu aahv EFE 1 -00 nr ’L 門口 u nυ 。 ん せ ま て れ 4C いトー AA円 nu 箆 lu wn 悼 ポ サ で J 〆バl フ - m山 S nk ヨ a F F』恒三 「 --TE FhM一 L , AU 向 内 《 - - --rTIq 翁u Enu q J 山 TE a一ロva 怯 a匂 《 a F炉 』 tanu u EL -- 4 寸叫 刊 叫 - -- 叩品 q v u1 I 《 λu s u +’ 1 u nAA nTS H ua vH 3 O BEn i uv nU u nU v ρ也nH ua u ln 、 . 、 hHN た m t仇 悦れ しさ t =守 e&目、e+ ; hH 、 J E M ec c μ e ・ ’ e S G t ) f 、 E e A Ff T ’ ・ 合口論 先削 作 sれw 円 み1の 帥sm re 。 』 RM 入 、を戸 ノ 』 ’ ’ - ---Ha日内 V E E E 一 - z 宅 & ・ 、 へ ノ , . d ‘ ’ ’ d ’ 、 ’ 目 ’ & レh.N 一 ペ d a e. ad e1 E I d j イe ’ゆ』開 四 目川 一店 ア 削I J k 山h じフuイ川さ目げs . 悶 .御eラ下一 mt ’ 伺 目、 ”、ゐ , . 目’ 目.目 ’, . ’ . ’’ ド’ 且’ 目 、 白 ’、 + e fE L r 』 ” yn r cne CR C M m CF R V h e D T 白 X X: E E 草〆 BH H れ 「巳 「巳 「E Fヒ T’ Tao TI TI nu nu nu nu nv hnM阿量加Hl』凹bpNU PROCSQLでは暗黙的にSAS上における数値変数への変換が行われ,PROCFEDSQLでは, 変数定義が [DOUBLE]へ変換され処理されることがわかる. 3. 値の取り扱いについて SASにおいて, 文字変数・数値変数ともに, 標準SQLで言うところのNULLは存在しない標準SQLで 165

168.

は, NULLが設定され, 比較する対象とされないが, SAS ではNULLを, 数値変数においては欠損値, 文 字変数におけでは空(ブランク)として扱う. そのため, NULL と欠損値を, 数値変数における欠損値として 扱うSASと, 明確に分ける標準SQLとでは, これらの値の取り扱いについて不整合が生じる. また, 欠損 値についても, 比較対象外として扱う標準SQLと, マ イナス無限大として比較するSASでは扱いが異なる. PROCSQLでは, 存在しないデー タの値について,SASにおける取り扱いに準じることとなる.一方PROC FEDSQL では, デフォル卜[sasmode]ではSAS と同様の取り扱いに準じ, [ansimode]オプションを使うと A NSI SQLにおける取り扱いに準じることができる. 「 [sasmode]ではデ ー タ中に存在するNULL値を欠損値として処理を行うため, 以下の program3_1 のコ ー ドを実行すると, result3_1 のように, 欠損{直とNULLの両方が結合されることがわかる. [ansimode]オプションで同じコ ー ドを実行した結果を result3_2 に示した. デフォルトである[sasmode]と 比べ, [ansimode] オプションでは, NULL ・ 欠損値が対象となっていないことがわかる. /* program3_1 安/ proc fedsqJ; create table data2 (xl double,yl char(lO)); insert into data2 values ( 2,'data2_1’); insert into data2 values (null,'data2_2'); inse此into data2 values ( .,'data2_3'); /* result3 1*/ /* result3 2り SASシステム SASシステム Y笠 create table data3 (xl double,y2 char(lO)); insert into data3 values (null,'data3_1'); insert into data3 values ( .,'data3_2'); insert into data3 values ( 2,'data3_3'); d司ta22 select xl,yl,y2 from data2 left join data3 using (xl) data23 dat司33 d司t司23 dat司22 21 d司ta2_1 quit; 続けて, 比較演算における欠損値の扱いを確認する. SASにおける欠損値は, 断される. program3_3 で示したコ ー ドでは, 3 オブザベ ー ションあるデ ー マ イナス無限大の扱いで判 タに対し, 変数 y3 と変数 z3 を 比較するというものである.結果を示した result3_3 からは欠損値やNULLと比較したレコ ー ドについても, 出力されており[欠損値< 10)が成立していることが読み取れる. 一方で,[ansimode]で、 は, 3 オブザベ ー シヨ ン目の[5< 10)しか成立していない.これは,前述したように欠損値とNULLを比較対象としない A NSISQL の標準によるものである. /* program3_3*/ proc fedsq]; create table data4 (x3 double, y3 double, z3 double); insert into data4 values (1, .,10); insert into data4 values (2,null,10); insert into data4 values (3, 5,10); /* result3 3*/ SASシステム select 脅 from data4 where y3<z3 quit; 166

169.

/*program3_4り proc fedsql ansimode; create table data4 (x3 double, y3 double, z3 double); insert into data4 values (1, .,10); insert into data4 values (2,null,10); insert into data4 values (3 , 5,10); /安 result3 4*/ w一 一1一 SASシステム 一 3 一5 select ま from data4 where y3<z3 quit; 4. 注目すべき差異 、 PROCFEDSQL では, PROCSQL で-は未対応だ った標準 SQL のコ ー ドに対応している. 一方で, PROC 、 SQL で、使用可能だ った一 部 SAS のコ ー ドには非対応のものもある. 以下, 把握しておきたい差異について まとめた. -結合条件(USING 句) PROC SQL で記載されるデ ー タの結合では, ON 句によってデ ー タセット名 ・ 変数名をそれぞれ記述し, イコ ー ルで結ぶ必要があった. PROCFEDSQL で使用可能な USING 句は, デ ー タの結合の際に用いること が出来る. 結合の際の KEY がテ ー ブル間で同 一 名変数である場合に,冗長となりがちな結合条件部分の可読 性を向上できる. 以下 PROC SQL における結合例を program4_1 ・ result4 1 に, PROC FEDSQL における結合例を program4_2 ・ result4_2 に記した. /*data4 1合/ /*data4 1*/ GRP NAME AAA BBB XXX yyy 内局u’ zzz 0 0 ・EE 0 0nrι0 .,, 向y’・ GRP O 0 Onrι- 0 ・・・ 0 nバV 内rι・ ・B・ SEX M M F F F /*program4_1*/ proc sql; select* from data4_1 left join data4_2 on data4_1.SEX=data4_2.SEX and data4 1.GRP =data4 2.GRP order by data4_1.SEX, data4_1.GRP quit; 167 AVG 200 40日 200 300 400

170.

* / program4_2*/ proc fedsql; select 合 from data4_1 left join data4_2 using (SEX, GRP) order bydata4_1.SEX, data4_1.GRP * / result4 2り quit; F F 400 去っ:i 参照するレ コー ド数の制限(LIMIT句,OFFSET句) ・ 一部の抽出結果のみを確認する場合において PROC SQL では,[OUTOBS]オプションや[ INOBS]を用い て,外的に抽出する方法が取られていた. PROCFEDSQLでは,取得するレ コー ド数についてLIMIT句で 指定でき,指定行の次行以降のレ コー ドを取得する際にはOFFSET句を用いることが出来る. /合 data4 3*/ ヲf41 内LEunDnoaaT 一 an斗ro 41 qιaqd - -- - -no - -ヲt NUM PREF GGG AAA BBB EEE FFF CCC DDD * / program4_3*/ proc fedsql; create table data4_3 (num double, pref char(lO) ); select* from data4 3 order bynum limit 4 offset 2 /*result4 3*/ quit; -デー タの単純結合 デー タの単純結合について,PROC SQLとPROC FEDSQLでは内部処理時の挙動が異なる. そのため, 結果のデー タにおいて,レ コー ド順に不 一 致が生じることがある. data4_4とdata4_5に掲示した2つのデ ー タセットに対して,PROCSQLで結合したコ ー ドと結果をprogram4_4 ・ result4_41こ,PROCFEDSQL で結合した コ ー ドと結果をprogram4_5 ・ result4_5に示した. コー ド部分は呼び出すプロシジャ以外は同 ー だが,結果のレ コー ド順が異なる. このような結果の取違いを避けるために,結果の出力順を明示的に宣言 168

171.

するよう心がける必要がある. /安 data4_4り idnum 3 2 1 4 4 2 1 I Cl B2 Al 01 D2 Bl A2 /合 data4 5*/ idnum name 2 2 1 4 3 number lwol lwo2 one four three Bbbl Bbb2 Aaal Dddl Cccl lexl /* program4_4会/ proc sql; select name, number, text from data4_4, data4 5 where data4 4.idnum = data4 5.idnum; quit; /* program4 5り proc fedsql; select name, number, text from data4_4, data4_5 where data4 4.idnum = data4 5.idnum; qrnt; 房長五EDI /* result4 5*/ /女 result4 4*/ I 82 I two1 I Bbb1 「81- I函,----rsbb1 I :!ご=11::fi 82 ! two2 I白bb2 , A2 one : Aaa1 D1 -関数の挙動 PROC SQLは多くのSAS関数に対応しているが,PROC FEDSQLは部分的にSAS関数に対応している ものの,PROCSQLに比べると少ない. 使える関数の種類には注意が必要となる. またMEDIAN関数につ いて,PROC SQLでは, 集計関数として中央値を取得することが可能だが,PROC FEDSQLでは集計関数 として使えずレコ ー ド単位で中央値が取得される.下記program4 6, result4 6は,PROCSQLにおいて, MEDIAN関数を用いた例である. MEDIAN関数には変数を 一 つのみ与えた. 同 ー の コ ー ドをPROC FEDSQLで実行したコ ー ドと結果をprogram4_7 ・ result4_7に示す. /合 data4 6り age F町υ内F’』内rι 唱l nO 瓜件 -EEAYιhヨU num 169

172.

円回 /* result4 6*/ /* program4_6*/ proc sql; select median(age) 仕om data4 6 quit; 回! /* program4_7*/ proc fedsql; select median(age) from data4 6 quit; ・ 比較演算子 PROCSQL では,SAS で用いることが出来る比較演算子を使用することが出来る. 等しい場合[EQ],等し くない場合に[NE], 一定の範囲の値を抽出する際には, [XX<YY<ZZ]といった書き方が可能である. PROC FEDSQL ではこの手のコ ー ドに対応しておらず, 等しい場合[=], 等しくない場合[!斗, [<>], [ "=], 範囲を取 るには[between XX and ZZ]のような書き方が求められる.[!] は PROCSQL では OR として扱われ, PROC FEDSQL では等しくない場合の記号になるなど, 両者で意味の異なる不等式もあるので注意する必要があ る. -型の変換 SAS では, 数値型 ・ 文字型の変換に INPUT 関数 ・ PUT 関数を用いる. PROCSQL においても,SAS と 同様の型変換を行うが, PROCFEDSQL では, CAST 関数 ・ INPUT N 関数 ・ PUT 関数を用いた型変換を求 められる. Program4 8, program4 9 は, 型変換について, それぞれ PROCSQL ・ PROCFEDSQL で、行っ たコ ー ドを示した. /* program4_8*/ proc sql; select put(l2.345,best.) ,input('12.345 ・ ,best.) from dummy; qmt; /* program4_9安/ proc fedsql; select cast(l2.345 as char(lO)) , cast(’ 12.345 ’ as double); qmt; • SAS マ クロとの親和性 SAS において,動的なプログラムを作成する場合は,SAS マ クロを用いることが多い. PROCSQL では, 附 。 、 テキストを値として与える際に,SAS 同様の操作が可能なため,[ ]ダブルコ ー テ ー ション,[ ]シング ルコ ー テ ー ションを組み合わせることで, マ クロ変数の展開に対して柔軟な対応が出来る. PROC FEDSQL では, テキストを値として与えるにはシングルコ ー テー ションを用いる必要があるため を展開できず %TSLIT グルコ ー テ ー マ クロ関数を用いる必要がある. そのままでは マ クロ変数 %TSLIT マ クロ関数は,与えた引数に対して,シン ションで囲った状態で展開するため, マ クロ変数を値としてコ ー ドに展開する際には必須とな る. また, PROCSQL では into 句を用いることで,抽出結果をマクロ変数として作成することが可能だが, PROCFEDSQL に代替手段は見つからない. 170

173.

-再マージ PROC SQLでは, MAX関数などの集計関数と, GROUP BYなどの集約関数に指定しない変数を同時に SELECT句で指定した場合,集計関数の結果と,集約関数に指定しない参照した結果を,MERGEしてから 結果を出力する再マージが行われる. PROC FEDSQLでは,この再マージ処理が行われずにERRORとな る.以下にデータdata4 8に対して,PROCSQL, PROCFEDSQLで、 再マージが起こるコードを,それぞれ program4 8, program4_9に、 ログをlog4_8, log_4_9に示した. /会 data4 8*/ Fnun吊uan守合唱UAHV仇討vnF’・ 4EEA4unyι6.,Aツιnpι内yι =1 一 -B no 一組守EZ - 9ι - ー, age /* program4_8*/ proc sql; select sex, age, mean(age) from data4 8 group by sex quit; /* program4 9*/ proc fedsql; select sex, age, mean(age) from data4 8 group by sex quit; /* log4_8り '205 proc sq I; select主ex, age, mean(age) 担08 from data4 8 i207 group by sex 1208 1209 例日TE:クエリは元のデ } タに要約統計量の結果を再マ ー ジしますo 1210 quit; lOTE: PROCEDURE SQL処問処 時間): 0.00 � r 処王里時間 CPU喧閏 0.堕f;J;_ i /* log4_9*/ 212 proc fedsql; 213 se I eel sex, age, mear、(age) 214 from dala4 8 group by sex 215 216 ERROR: jlJ "DATA4_8. age" はク!ル 」 ブ化されるか、集計関数で{受用される必要があります 217 quit; NOTE: PROCEDURE FEDSQL処理(合計処理時間): 0. 03秒 処理時間 CPUB寺』 0.03秒 log4_8では, 再マージが行われたことを示すNOTEが表示されている. log4_9では, ERRORでデータセ ットが作成されていないことがわかる. ·NULLIF関数 PROCFEDSQLでは,NULLIF関数に対応 している. NULLIF関数 は,与えた二つの引数が等しい 場合 にはNULLを返し,異なる場合 は第 一 引数を返す関数である.本関数に対応したことにより,CASE式によ る冗長的な コードでしか 対応しきれなかった処理が容易となった.以下にCASE式からNULLIF関数に置 き換えた例を示す . /* program4 10*/ set var = case when tmp=’ー 1 ’ then null else tmp end /* data4 11 */ set var = nullif(tmp, '·1 ’) 171

174.

• NATURALJOIN 時の結合条件となる変数 JOIN句に NATURAL を指定した場合, 各デ ー タセットで共通の変数にて, デ ー タの結合が行われる. PROCSQLでは, このデ ー タ結合時に, 変数型と変数名を確認して同 一 だった場合に結合する. 一方,PROC FEDSQLでは, 変数型と変数名に加えて, 変数長も確認し結合する. 結合条件となる変数を厳密に見るよう になり, 想定していないデ ー タの場合はE RRORを出し, デ ー タセットは生成されない. data4_12, data4_13は, 共通の変数[idnum]を持つが, lengthがそれぞれ事8と$10に設定されている. 両 デ ー タセットを結合した際のログを, PROC SQLについてはlog4_12に,PROC FEDSQLはlog4_13に示 した. /合log4_12合/ 1889 proc sql; 1890 create tab I e nu11 as 1891 select申 1892 from dala10 natural join dala11 1893 白u m --- - - au nH 且 E A An n E M 守山町 A 品Hn H V’向 A aHR H U W H 川R H ---- A 品 AAnnE ET - 剛司 uh n - at 内正 」 U 司nu nU m -’ 10 0 nvnu /* data4 12*/ 1894 ; 1895 quit; NOTE: PROCEDURE s日L処理(合計処理時間): 処理E 間 CPU時男 /* data4 13*/ idnum I即日1 ID003 ID004 0.01 秒 0.01秒 /* log4_13会 / ful I name AAAAA/AAAAA 1896 1897 proc fedsql; 1898 create table _nul I_ as 1899 select * 1900 from data 10 nalura I join data 11 1901 , �ROR: BASE driver, Invalid len峰山for column idnum 1902 ; 1903 quit; CCCCC/CCCCC DDDDD/DDDDD 叩 TE: PROCEDURE FEDSQL処理(合計処理時間): 処理時間 0.04秒 5. 結論 4章までの内容から, Base SAS環境下のDS2プロシジャを除く通常のデ ー タステップ主体での開発にお いて, 日常のプログラム にSQLを用いる場合, PROC SQLとPROC FEDSQLにそれぞれ向き不向きがあ ることがわかった. 2章では, 型の取り扱いについて, PROC SQL • PROC FEDSQLは、 SASにおける文 字型 ・ 数値型で処理されることを述べた. 3掌では, 値の取り扱いについて, PROC SQL では区別しない NULLと欠損値を, PROC FEDSQLは区別して取り扱い, また[ansimode]オプションを使うことで, 欠損 値の取り扱いを ANSI準拠にすることを述べた. 4章では, PROCSQLとPROCFEDSQLのプログラム上 の差異について, 注目した点を述べた. PROC FEDSQLは, SAS と外部デ ー タベ ースとのやり取りをスム ー ズに行うために実装されたものであ るため, BaseSAS上での開発では, PROCSQLに比べ, 関数や不等式の扱い, マクロプロセッサの仕様に 対して, SASの仕様に合わない点が多くある. 一 方で, PROCSQLは外部デ ー タベ ー スやDS2プロシジャ などのSASの最新の仕様に追いついておらず,PROCFEDSQLがこれらに対応できている.PROCFEDSQL は、 標準SQLコ ー ドが動かせることで, 標準SQLに親しんだユ ー ザ ー が起こしがちなデ ー タハンドリング 上の仕様の差異を吸収し, また厳密な型の判定により, デ ー タ属性起因による事故を未然に気付ける利点が あると言える. 以上の理由から, 開発状況・環境によって, これらのプロシジャを使い分けるが重要と考え る. 172

175.

参考資料 (1) SAS Institute Inc. SAS⑧9.4 FedSQL Language Reference, Fifth Edition (2) SAS Institute Inc. SAS⑧ 9.4 SQLプロシジャユ ー ザ ー ガイド第2版 (3) Cuyler R. Huffman, Matthew M. Lypka, Jessica L. Parker. 2018. “Anything You Can Do I Can Do Better: PROC FEDSQL VS PROC SQL” Proceedings of the SAS Global Forum 2018 Conference. Available at httns://www.sas.com/content/dam/SAS/suooort/en/sas-global-forum-oroceedings/2019/3734 ・ 2019.odf (4) Sho YOSHINO (2016) FedSQLプロシジャは, SQLプロシジャとどう違うの? - SAS 『data Memorandum; set memory; run;』 https://data-memorandum.blogspot.com/2016/06/proc-fedsql-vs-proc-sql-sas.html (最終確認日 2019年07年26 日) 173

176.

SASのログを効率的にチェックするマクロの紹介 o審藤敏貴 l ( I ソ ー パル株式会社) 、 解析プ ロ グラムは作成して終了ではなく、 実行時の ロ グ に Error、 Warning、 不要な Noteがで、 ていな いことも重要である。 しかし、 そこで、 ロ グを目視で確認したりE汀or等を検索していては効率が悪い。 、 コー ディングしながらログ をチェックするマクロを作成したので紹介する。 174

177.

WINDOWステ ー トメントを用いたユ ー ザ ー 入力画面を使って何かできなし、か考える o伊住寿雄 (ソ ー パル株式会社) ・要旨: SASでは、 ユー ザ ー の入力画面を表示させるWINDOWステー トメント、 DISPLAYステー トメント というものがある。 あまり知られていない機能で、 今回、 初めて知るという方も多いと思われる。 知らなければ移用する機会はほとんどないはず。 このように、あまり利用する機会がないWINDOWステー 卜メント、DISPLAYステー トメントだが、 活躍する場はきっとある! 簡単な使用例と、 応用例(ロー ルプレイングゲー ムを作ってみた)を紹介する。] . ユー ザー入力画面の作成と表示する方法: 、 さ っくりいうと、 デー タステップ内でWINDOWステー トメントを用いて、 ユ ー ザー 入力画面の書 式等の定義を行い、 DISPLAYステー トメントを用いて、 定義した画面を表示する。 田使用例として: 簡単な使用例として、 デー タセット名と変数名を ユー ザー が入力して、 入力されたデー タセット、 変数の要約統計量を求めるコ ー ドを考えてみた。 ・使えそうな場面を考えてみる ・チェック用途として:ある時点での変数の値を確認する DISPLAYステー トメント実行時、処理が 一 時停止することを利用して、チェックしたい変数を表示 する -分岐処理として: ユー ザー の入力によって処理を変更する ユー ザー が入力した変数の値を参照することにより、値に応じて以降の処理を変更することができ る -デー タ作成として: ユー ザー が入力した値をもっデー タセットを作成する ユー ザ ー が入力した変数の値を保持し、 入力した順番でOBSを発生させ、 デー タセットとして保存 する ・応用例として: ある時点での変数の値を表示したり、 ユー ザー の入力によって処理を変更することができるので、 何か面白いことができなし、かを考えてみる。 そうだ!ロー ルプレイングゲー ムを作ってみよう! ・まとめ: 今回紹介した応用例自体はゲー ムなので実業務には役に立たない。 しかし、 応用例を作成するにあ たって使用したロジックについては、 ユー ザー が入力した値によって処理を変更したり、 現在の変 数の値を表示したりしているので、 工夫をすれば何かに役に立つ場面はあると思われる。 175

178.

Waterfall plus Swimmer’s plot 0仲子晶也 l 、 吉田秀幸2、 村山 一 穂2、 高橋健 一 l 、 鈴木正人 l ( 1 MSD株式会社、 2株式会社タクミインフォメ ー ションテクノロジ ー ) これまでのがんの臨床試験の学会発表では、腫蕩縮小率を見るためのWaterfall plotと、RECIST 1.1 ’ による効果判定と投与継続の有無、生存期間との関係を見るSwimmer s plotと呼ばれる2種類の図が それぞれ別々に使われてきた。 しかし、 近年、免疫チェックポイント阻害薬の登場により、 腫虜縮 小が認められ、かつ、 生存期間が延長する症例だけではなく、 従来では考えられなかったような、 腫虜は縮小していないものの病勢が安定した状態( SD )や、 効果判定が増悪( PD )でも投与が中 止されず、生存している症例も相当数見られるようになった。 弊社では、免疫チェックポイント阻 害薬の臨床試験結果を数多く発表しているが、今までのように、症例の縮小効果と生存期聞を別々 に示すのではなく、 1つの図で、同時に見せることは臨床的にも意義があり、また、効率的でもある ことから、 今回、 Waterfall plotに弊社が以前発表したSwimmer’ s plotを結合させたWaterfall plus ’ Swimmer s plotを作成した。 176

179.

SAS Graph (ODS Graphics)出力データの再利用に関する検討 Considered reuse of SAS Graph, ODS Graphics, output 0小津 義人\稲葉 洋介 l 、仕子 ( ' 国立大学法人千葉大学医学部附属病院 優樹 I 、川崎 洋平 I 臨床試験部生物統計室) 本発表では、ベ クトノレ形式のEMFファイルの出力をExcelに読み込み再利用することを考えSASが 出力する ベ クトル形式のファイノレをAdobe i11ustrator でパ ー ツ分解することにより確認をした内 容をご紹介する。 Output Delivery System (ODS) は SAS9. 1. 3のexperimental extension として 登場した、ODS STATISTIC Graph (ODS Graphics)はSAS9.2で、 SAS/Graph のライセンスを必要とする モジュ ー ノレとして提供され、SAS9.3では、Base SASの機能の 一 部として提供されるようになり基本 的 な Graphの作成が SAS/Graph なしに Base の機能として簡単に 行えるようになった。 また SAS/Graph を用いて作成していたプログラムを変換する試みも発表されており、Graphの作成は ODS Graph へシフトしているものと思われる 1)2 )川 。 近年では作成されたグラフは、直接プリンタ に出力することなしに何らかのファイル形式に保存し利用する場合が多く、保存するファイルの 形式としてラスタ ー 形式(ビットマップデ ー タ) 、ベ クトル形式(Drawデ ー タ) の2種類の形式が 存在する。 しかし、これらの形式においてもラスタ ー 形式ファイルに文字情報、ベ クトル形式のフ ー ァイルにピットマップ情報を埋め込んだりすることができる形式への拡張がなされており、出力さ れたグラフを目視で確認し判断するのは難しく、図の拡大や縮小などの二次加工を行ったときに文 字が鮮明でないなどの問題に直面する。SAS/Graph 形式の代表的なベ クトル形式ドライパとしては、 CGM、剛F、EMFなど Microsoft Office が扱える形式の変遷とともにユ ー ザ ー に使われるドライバ も変遷してきた。 ODS Graphics においては、当初は ラスター 形式のPNG、ベ クトル形式のSVG の みが提供されていたが、その後種々のドライパがサポ ー トされ、SAS/Graph で扱うことの多し、EMF フ ァ イ ルへ の 出 力 も 提 供 さ れ るようになっ た。 今回確 認 し た 内容 を ODS (ODS Graphics)や SAS/Graph 出力デ ー タの再利用をする際の参考としていただきたい。 1) 2) 3) http:/!support. sas. com/resources/papers/proceedingsl0/154-2010. pdf https .・/ /biogs. sas. com/content/graphicall yspeaking/2019/05/29/converting-from-gplot-to-sgplot-scatter-plots/ https;・/ /blogs sas. com/content/graphicall yspeaking/2019/06/12/converting-from-sas-graph-to-ods-graphics-co 1 or contr 目 ol/ 4) http; //www. ssfa. it/phocadownload/Presentaz 10n i_2015/Data_v1sualization in_Cl inical_Pesearch/4 Holland_Convert 1ng_S AS Graph_plots_to_ODS. pdf 177

180.

SAS Programming Tips:詳BYLINEの活用 0松沢享 (株式会社インタ ー サイエンティフィックリサ ー チ) 「栂iYLINE」という機能について、 基本から活用方法まで紹介する。 SASプログラマ ー にとって知っていると少し役に立つような機能を紹介したい。 178

182.

ICLIFETESTプロ 、ンジャをTEMPLATEプロシジャで機能拡張! 区間打ち切りデ ー タはKMプロット化できるのか? 堀田 真一 (ファイザ ー R&D合同会社) ICLIFETESTプロシジャはSAS version 9.4 (SAS/STAT 13. 1)から追加されたプロ 、ンジャである。 LIFETESTプロシジャは右側打ち切りのデ ー タしか打ち切りとして扱えなかったが, ICLIFETESTプロ シジャは左側打ち切りと区間打ち切りのデ ー タも使って生存時間解析を行うことができる。 ICLIFETESTプロシジャの中心的な機能は、 3種類の打ち切りのデ ー タを使ったカプラン ・ マイヤ ー プロットのグラフ作成機能であるが、新しいプロシジャであるだけにグラフを作成する上での課題 もある。 当日はTEMPLATEプロシジャを使ってICLIFETESTプロ、ンジャのカプラン ・ マイヤ ー プロット の設定を操作して解決した例を紹介する。 また、 LIFETESTプロシジャのグラフ機能で見られるトラ 、 ブ ノレをTEMPLATEプロシジャで解決した例も紹介する。 181

183.
[beta]
解析帳票出力用デ ー タセットのコンペアに拡張属性を利用する方法
森岡

裕

イ ー ピ ー エス株式会社

How to use extended attribute to compare datasets for TLF
Yutaka Morioka
Statistics Analysis Departmentl, EPS Corporation

要旨
、

RTF 形式で解析帳票を作成する場合,ダ ブ、ルプログラミングによる検証としては,出力用のデ ー タセットをコンペ
アすることが一 般的と忠、われる.ただし,帳票タイトルや, ヘ ッダ ー ラベル等のデ ー タセットに含めにくい情報を
どのように検証するかについては様々な方法がある.本稿では 一つの方法として SAS9.4 から追加された拡張属性
機能を利用して,帳票上の情報をコンペアする方法を提案する

解析帳票と出力用デ ー タセット

1.

T!Me ili.X.X療薬遵守串

outl

』日築率(%)

安全性解析対象集団ー
向山 跡

j例数ω
!平均d
;標準偏差d
:最小値d
:中央f直d
!最大i直d

\JI&薬率(民〉♂

・.,

〕
i •'
ト

与

山

日

’

i •'

!80%以上

d

d

ri告0

ぜ

!
;
!
f

+

!日側未満ω

・※一一樹立主

92
93 29.,
8.543
44,3.,
95 oo.,
iiiii:ii・3
o.,
100(100.oJ.,

プラセボι
N=1051

;

目

i
;
l

←

'!
i
;

・3

97.,
94 15.,
9.06.
52.797.10.,
’ ''iiiii.ii.,
2 (4.1)ρ
103 (95.9).,

out2
f�lj数
平均
標準偏差
最小値
中央値
最大値
80%朱満
80%以上

I

oul4
97
94.15
9.06
52.7
97.10
100.0
2 (4.1)
100(100.0 103 (95.9)

oul3
92
93.29
8.54
44.3
95.00
100.0

I

。

'

-i

一一

ρ

解析帳票の品質を担保する方法として,出力する直前のデ ー タセットをコンベアして 一 致を確認すること
で, バ リデ ーションを行う場合 を想定する.
その場合,極力,レポ ー ト出力用のプロシジャ(REPORT,TABULATE,ODSTABLE,RWI,PRINT,etc )で計算・加工
を行わない方針で作製することが 一 般的だと思われる.
デ

ー

タセットで

一

レ ポ ー ト出力時に値の計算・加工を行うと,

事前に

致を確認した意味が薄れるからである.

上図左側は, RTF 帳票のイメ ー ジで, 右側は出力用デ ー タセットである. 次ペ ー ジに ODSTABLE プロシジャ
を用いて出力用デ ー タセットから RTF 帳票を作成するコ ー ドを示す.

182

184.

ods rtf file = ”OUTPUTFILE..rtf’ notoc data; titlel ”Table 14.1.X.X服薬遵守率 ”; title2 ”安全性解析対象集団 ”; proc odstable data= T14_1_X_X; sty!e= {frame=hsides rules=groups background=whit巴 font size = 9pt}; column outl ・ out4 define header header1_2; style= {background=white}; start=outl; end=out2; vjust=top;just=center;text ””, end; define header header3; style= {background=white font_weight = medium font_size = 9pt}; start=out3;end=out3; vjust=top; split= "# ”;just=center; text ”EPS001#N=100#n(%) ”; end; define header header4; style= {background=white font_weight = medium font_size = 9pt}; start=out4; end=out4; 吋ust=top; split=”#ぺjust=center; text ”プラセボ#N=105#n(%) ”; end; define outl;print headers=off;just=left;style= {cellwidth=200}; end; define out2;print_headers=off;just=left;style= {cellwidth= l80};end; define out3;print_headers=off;just=center;style= {cellwidth=200};end; define out4;print_headers=off; just=center;style= {cellwidth=200};end; define footer footerl; start=outl; end=out4;style= {BorderBottomStyle=hidden background=white font_weight = medium font_size = 9pt};just=left; text ”※ 一 脚注 ----"; end; run, ods rtf close; この場合, 以下図の四角で因われた部分については, 情報がデータセットに入っておらず, コード内で直 接値を指定している箇所になる. すなわち, 帳票タイトル, 解析対象集団, 項目ヘッダーラベル, 脚注といった箇所である このような出力周データセットに含まれない情報について, 正しくチェックするにはどのようにすればい いだろうか. ひとつの方法としては, 目視で, 帳票レイアウト見本との整合性を全て確認する方法が考えられる. 仮に 出力用データセットがMain,Subで 一 致していても,作製した帳票をそのまま実際に開いて確認せずに完了と 183

185.

することは少ないはずである. 出力確認のためにファイルを開く, 或いは印刷を行うはずなので, そこでデ ー タセットコンベアの対象外 の部分を目視でチェックしてやればよい. しかし, 例えば群別の例数N=XXの部分などは, 実際の解析用デ ー タセットから動的にカウントして, 格納 、 する箇所である.そのため帳票レイアウト見本との突合せた けでは不十分である. また,脚注部分などについ ても帳票のデ ー タ部分に合わせて, 内容を可変的に出力するケ ー スも想定される. そのため, 目視でチェックするにしても, 可能であればデ ー タ部以外の箇所もコンベア対象に含めて, 見 落としのリスクを減らしたいと考えるのは自然な流れである. 一 般的な方法として, 下図のように出力用デ ー タセットにタイトルやラベルの情報も含めて, 管理する方 法がある. 国t TITLEl POP LABEL REPORT REP日RT R即日RT REPORT REPORT REPORT REPORT REPORT FOOTN日TEl 出t1 Table 14.1.X.X !il藁遵守寧 安全句I蛤覇市サ象集団 out2 rm;主 I限寮率m 平均 標準偏差 最小値 中央値 最穴f直 80%来i筒 80%以上 ※ ー司ー 限Pi主・・・ー t3 t4 山 凶 伊soo1UN=1OOUn(%) 92 93.29 8.54 44.3 95.00 100.0 ブラセボttN=105Un(%) 97 94.15 9.06 52.7 97.10 100.0 2 (4.1) 103 (95.9) 。 100(100.0) 決められたカテゴリ変数(例では cat )でマクロ変数に値を格納する SAS マクロを用意しておき, 出力プロ シジャでは, 直接指定していた箇所をマクロ変数に変えておき ” cat = デ ー タの読み込みについては where REPORT のように where ステー トメントやデ ー タセットオプションで, 本体部分のみ抽出する. ” コンベアによる検証については, Subプログラム側も, 決められたル ー ルどおりに属性情報も含めて作製 すれば I つのデ ー タセットをコンベアするだけで完了する ほぼ同じ発想、の方法として, 下図のように, 本体部分とそれ以外の情報を付属デ ー タセットとして分離し てしまう方法もよく見かける 付属デ ー タセットはマクロ変数抽出のためだけに使用される. 運用しやすい 形ではあるが, なんらかの原因で, 本体デ ー タセットがうまく作れていないのに, 前回作製した付属デ ー タ セットだけが残っていたり, 帳票番号が変更になった場合などに, 別の付属デ ー タセットを使ってしまうな どのリスクが生じる. 2つのデ ー タセットを必ず同期した状態で管理するために注意と工夫が必要である. またコンベアについても 1 つの帳票に対して, 本体と付属情報, 必ず 2 つのコンベアが必要である 。 utl 服薬率(%) out2 (�lj/il( 平均 標準偏差 最小値 中央値 最穴{置 80%未満 80%以上 I out3 92 93.29 8.54 44.3 95.00 100.0 。 100( 100.0 I 。 ut4 97 94.15 9.06 52.7 97.10 100.0 2 (4.1) 103 (95.9) 国t TI孔El POP LABEL3 LABEL4 FOOTNOTEl val Table 14.1.X.X lil襲遵守率 安全'I生解析対象集団 EPSOO1UN=1OOttn(%) ブラセボUN=105Un(%) ※ ーーー 院店主司ーーー さらに, よく見かけるものとして SAS に設定できる属性のうち, ラベルを有効に活用しようとする方法が ある. 次ペ ー ジ最初の画像のようにデ ー タセットラベルや変数ラベルに, 決めた区切り文字で情報を格納す る. デ ー タセットと付属情報が 一 体化している上に, デ ー タ本体部分にはなんの影響も及ぼさないため, 管 184

186.

理しやすい方法である. コ ンベアについても 一 つのデー タセットだけで完了することができ, 付属情報の差 異は, 属性値の差異として検出可能である. ただし, 付属情報の量が多い場合, 取り出し側のプログラムが複雑になること, 特に英語の場合などであ るが, 付属情報の値の文字数によっては変数ラベルの文字長限界(256)に収まらない場合も想定されるなど, ラベルのシステム的な制限に注意した上での管理が必要になる. ブラセポtlN=105#n(%) 97 8.54 44.8 95. 100.0 0 100(100.日) 。。 :,:; 52. 7 97. 10 100.0 2 (4.1) 108 (95.9) 本稿では, 今までとは違ったアプロー チとして, 拡張属性( Extended Attribute ) を利用する方法につい て提案したい 2. 拡張属性( Extended Attribute) SAS デー タセットには,デ ー タセットラベルや 変数ラベル,変数の Length, Format, Informat などの属性が 存在する. ただし, これは SAS システムによる事前に定義された絶対的なシステム属性となっている. 変数 ラベルの中身を空にすることはできるが, デー タセットから変数ラベルという属性そのものを消去すること はできないし, 一 つの変数に複数のラベルをつけることもできない. SAS9. 4より, デー タセットまたは各変数について, ユー ザ ー が任意で自由に定義可能な拡張属性を設定す ることが可能となった.拡張属性は名前と値のベアで構成され,{直は数値型か文字型のいずれかの型をとる. なお,ファイルの実体としては,拡張属性の情報は sas7bat と同じ階層に sas7bxat というファイル形式で作 製され, 自動的に同期管理される. 拡張属性の設定の仕方は以下となる. proc datasets; modify [デ ー タセット名]; xattr set ds 拡張属性名 1 =値拡張属性名 2=値. or xattr set var 変数名(拡張属性名 1 =値拡張属性名 2 =値) run;quit; 変数名(拡張属性名1 =値拡張属性名2=1直)…; 例えば, 適当なテストデー タを作製して, 拡張属性を設定してみる data TEST; X=”A”;Y=l; run; proc datasets nolist; mo必fyTEST; xattr set ds PGAUTHOR=”Yutaka Morioka ” SPEC=”spec verl.O ” ; xattr set var X (Origin=” CRF” PAGE=l) Y (Origin=”Derived” Derivation=”'AAA·BBB+l”); run;quit; デー タセット「 TESTJ に 対してデー タセットの拡張属性として. デー タセット作成者の名前( PGAUTHOR),対 応する仕様書のパ ー ジョン( SPEC )を設定し,変数にはその変数の由来(Origin )や記載ペー ジ番号(PAGE),導出 式( Derivation )などを格納した. 拡張属性は単純にデー タセットを見ても確認することはできない. 拡張属性を確認する 一 つの方法は proc 185

187.

contents にかける方法である. 拡張属性が付与されている場合, 以下のような出力が追加される. ods output ExtendedAttributesDS=EXDS; ods output ExtendedAttributesVar=EXVAR; proc contents data=TEST; run, Member 町RK. TEST W旧RK. TEST Exlei世眠抽llrlbute I Allrlbt teVarlable Y Derivation X 日rigin Y Origin PA旺 X r 臨師同 明ORK.花ST WORK. TEST 叩限. TEST 町郎.花ST I Ext百世凶Attribute I AttrlbuteCharValue I Attri加teNumVal崎 PGALI刊OR Yuta,a Morioka spec verl.O SPEC 』 AllrlbuteCharValue AAA-BBB+I AttrlbutoNumValue CRF Dori ved 或いは, SASHELP ライブラリ(SQL プロシジャにおける dic i tonary)に vxattr(xattrs)で, 全ライブラリ, 全デ ー タセットの全ての拡張属性(変数・デ ー タセット)が格納されているため, 以下のコ ー ドで確認可能で ある. proc print data=sashelp.vxattr noobs; run, options nolabeJ; proc sq!; select* from dictionary.xattrs; quit; なお, proc datasets で使用可能な拡張属性関連のステ ー トメントは以下の通りである. XATTR ADD 拡張属性と値を定義 XATTR DELETE 拡張属性を全て削除 XATTR REMOVE 拡張属性を個別に削除 XATTR SET 既存の拡張属性値を更新 新規拡張属性および値を定義 XATTR UPDATE 既存の拡張属性値を更新 186

188.

ADD と SET の違いについては, 設定した い拡張属性が既に同じ名前で存在する場合に, ADD はエラ ーを返 し,SETは更新するという差がある. また UPDATEとSETの違いについては,設定したい拡張属性が同じ名前で存在して いない場合に,UPDATEは エラ ーを返し,SETは新規に定義を行うという差がある. 帳票I青報の拡張属性への格納と取り出しについて 3. 最初の例で示した帳票の帳票タイトル,解析対象集団,項目ヘッダ ーラベル,脚注は例えば,以下のよう なコ ー ドで,出力用デ ータセットに拡張属性として設定できる. proc datasets nolist; modify T14_1_X_X; xattr add ds titlel=” Table 14.1.X.X服薬遵守率 ” population=” 安全性解析対象集団 ” footnotel=” ※ 一 脚注 ー・・” ; xattr add var out3 (VARHEAD=”EPSOOl#N=lOO#n(%)” ) out4(VARHEAD=” プラセボ:·#N=105#n(%)”), run;quit; proc contentsで確認した際のアウトプットが以下である. !デ ータセヴトの並張属性@リスト【アルファベット隈>I :並張属性;数値|文字値 「 i ※-一-闘;主但-一 戸孟L孟,1 里1 i二J T干 山.xxn院透守零 L一 i … I� 変数@盤張属性@リスト{アルファペヴト鵬 • 1 怒張属性i属性変叡!数値j文字値 帳票出力用デ ータセットlこ情報を持たせる以上,帳票出力プログラムは デ ー タセットに 設定された拡張属 性から 値を 取得し,解析 11長 票を作るべきである.プロシジャから直接,拡張属性を参照することはできない ため,現実的にはマクロ変数を介する方法が考えられる. 拡張属性からマクロ変数を作るためにはproc contentsかSASHELPライブラリを利用するが, いずれにせ よ拡張属性名と値を加工せず,可能な限り,そのまま作製できるように工夫するべきである(下記の例は contentsを利用した コ ー ドと,結果,生成されたマクロ変数の 値を示して いる) ods output ExtendedAttributesDS =exattr_ds; ods output ExtendedAttributesVar=exattr var; proc contents data=T14_1_X_X varnum; run, data null; set exattr_ds(in=ds) exattr_var(in司ar); 正ds then call symputx(ExtendedAttribute,AttributeCharValue); if var then call symputx(AttributeVariable,AttributeCharValue); run, %put _USER_; 白百五E下回T両百花1 ---"!P;士一一 LOBAL OUT3 EPSO O ,UN=10日Un(%) toBAL 日UT4ブラセボ側=105Un(%) LOBAL POPULATION安全’l生解析対象集団 L日BAL TITLEl Table 14.1.X.X D医療遵守率 拡張属性をマクロ変数に格納し,それを帳票出力プログラムで利用するとして,今度は帳票出力プログラ 187

189.

ムで正しく, マ クロ変数を指定できていることをどうやって保証するかという疑問が生じる. その点に, つ いては出力プログラムを出力用デ ー タセットと拡張属性から限りなく自動生成できるように工夫するか, 或 いは出力部分の該当箇所をチェックプログラムで読み込み, 例えば出力変数out3 (こ&out3 という命名的に同 期した マ クロ変数が指定されているかなどを確認するといった様々な方法が考えられるが, 本稿ではその点 についてこれ以上言及しない. 拡張属性を含んだ出力用デ ー タセットのコンベア F拡張属性の抽出 */ data Vxattr ; set sashelp.Vxattr; where libname in (”MAIN”,”SUB”); name=coalescec(name,'’dataset”), run, proc so此data= Vxattr; by libname memname name xattr; run, proc transpose data =Vxattr out=Vxattr_t(drop=ーname_ _label_) delimiter=_; var xvalue; id name xattr; by libnam直memname; run, data vxattr_main vxattr_sub; set Vxattr_t; if libname="MAIN” then output vxattr_main; if libname="SUB” the泊 output vxattr_sub; drop libname; run, 4. / コンベア部分 / %macro comp(ds); title ” &dsデ ー タセットコンベア結果 ” ; proc compare base=main.&ds comp=sub.&ds listall; var out:; run, title ” &ds拡張属性コンベア結果 ” ; proc compare base=vxattr_main comp=vxattr_sub listall; where memname="&ds"; run, %mend; * * T14_1_X_Xデ ータセットコンベア結果 オブザベ ー ションの要約レポ ー ト OBS 最初のOBS 最後のOBS 共通のオブザベ ー 奉準 比較 a a ションの数:8 MAIN.Tl4_1_X _X から読み込んだオブザベ ー ションの放(合計 l : a SUB. Tl4_1 _X _X から読み込んだオブザベ ー ションの数(合計l : a 比較変数のうちどれかで等しくないオブ!ザベ ー ションの数:日 すべての比較変数が同等なオフザベ ー ションの数:日 NOTE:不等な値はありません。比較した変数はすべて同等でした。 T14_1_X_X盤張属性コンベア結果 日 選準値 比較飽 088 11 dataset_footnotel dataset_f回tnotel + + 一一一|| I ※ ー 脚注一一 II %comp(T14 l_X_X) 解析帳票出力用デ ー タセットのコンベアプログラムは, 帳票単位でコンベアしやすいように マ クロ化され ているケ ー スが多い.拡張属性についても事前加工して,帳票単位で個々にコンベアをとれるような構成にし ておいた方が管理しやすい. あくまで1つの提案ではあるが,片側の拡張属性のっけ忘れが,obsの差異ではなく, 変数の値の差として 表示された方がプログラ マ にとって, 把握がしやすい. そのため, デ ー タセットの拡張属性か, 変数の拡張 属性かについての情報, そして変数であった場合は拡張属’性が付属している変数名と拡張属性名を連結した 変数名となるように設定し, l I帳票lobsの形に転置して管理すると扱いやすい. 上のコンベア結果は, デ ー タセットの値は完全に 一 致するが, sub側(比較値)がデ ー タセットの拡張属性 otnote 1)を設定し忘れ, また変数out3に設定する「VRHEAD」についてmain ,subで内 として, 脚注の情報(fo 188

190.

容が異なるというテストデ ー タセットで実行した. なお, 実際の業務で実装する場合は, 何十, 何百表分のデ ー タセットをコンベアすることもあるため, デ ー タセットの値と拡張属性が各帳票ごとに両方 一 致しているかを判別しやすいようにしておいた方がよい. 自動マクロ変数「&sysinfo」は compare プロシジャを実行した後に参照すると 一 致, 不 一 致の結果がコ ー ド値で返ってくる. 完全に 一 致している場合は「OJが返るので, 本体と拡張属性のコンベアの2つで共に0 が返っているかを判定するようにマクロを組めばよい. またコー ド値から, どういった差異がでているかを 判別することもできるが, その判別については SAS のリファレンスから COMPARE Procedure の Results に関 する項を参照いただきたい. 結論 拡張属性は非常にシンプノレな機能であるが, それ故に利用の仕方は完全にユ ー ザ ー に委ねられている. 過 去の発表をみると, デ ー タセットの仕様や, 履歴デ ー タを拡張属性に持たせて, デ ー タ管理のツ ー ルとして 利用するものが多かったように感じる. 本稿では異なったアプロ ー チとして, 帳票情報のコンベア対象範囲 拡大のために利用した. 正確な統計はとっていないが, 実際に業務に利用した感想として, ほんの少しの手 間で済む割には, タイトル ・ 脚注の修正漏れや, 解祈対象集団の取り違えなどを早期に検出できた事例が多 かったと感じる. 今後, さらに拡張属性を様々な方向で発展利用した事例が発表されることを望む. 189

192.

転移学習無双~デ ー タ不足をSAS Viyaで、 超える~ 0藤田智紀,吉田祐樹,平野勝也,木口亮, 北西由武 (塩野義製薬 解析センタ ー ) Transfer Learning ~Overcoming Shortage of Data by Using SAS Viya~ Satoki Fuiita, Yuki Yoshida, Katsunari Hirano, Ryo Kiguchi, Yoshitake Kitanishi Shionogi & Co., Ltd. 要旨 、 画像解析の分野においては近年の精度向上が目覚ましく, 特に, 深層学習のモデルで ある畳み込 みニュ ー ラルネットワ ー ク(convolutional neural networks, CNN )が高い性能を発揮している. 人の手 を介さず, 画像の特徴量をコンビュ ー タが自動抽出することで, 従来の手法を大きく上回る精度が 実現できるようになっている. しかしその分, 画像の特徴を学習するために大量の学習用画像デ ー タが必要となってくる. 対象とする課題や, 置かれている環境によっては十分な量の画像デ ー タを 入手することが難しい場合があるが,そのような問題を解決するlつの方法として転移学習がある. 本稿では, SASViya を通して転移学習を実装し, その有用性を実際の事例への適用により確認, 検 証した. キ ー ワ ー ド:転移学習, 深層学習, CNN, SAS Viya 1 . 序論 近年のコンビュ ー タの発展に伴い, 大量のデ ー タを収集, 演算処理できる環境が整えられ, 人工知能の諸 問題に対して CNN を代表とする深層学習の手法が大きな成功を収めている. 特に画像解析の分野において は,それらの手法,技術の進化が著しく,画像認識では人聞を超える精度の認識レベルにまで到達している. これに伴い, 技術を適用できる領域も大きな広がりを見せ, 生産品や設備の点検作業, 自動運転や無人ドロ ー ンにおける物体認識,画像から類似物を提示するWEBサ ー ビスなど,様々な課題の解決に貢献している. 健康医療分野においても例外ではなく, 画像を用いた診断や評価技術へ転用されており, 医師の眼では見つ けづらい特定の組織を検出するなどの, 医師の診断へのサポ ー トが実現されつつある. ただしこれらを達成 するためには,画像の特徴を学習するために大量の学習用画像デ ー タが必要になるという大きな課題がある. 特に製薬企業が実施する医薬品開発のための治験においては, 多くの場合, 被験者数は数百例であり, 学習 に十分な量の医療画像デ ー タを取得することは難しい. このような状況を打破するための手段の l つに, 転 193

193.

移学習が挙げられる. 転移学習とは, あるタスクで学習したモデ、ルを別のタスクに転用することで, 何も事 前の情報がないところから学習するよりも少ないデ ー タ量で効率よく学習することができるものである. 転 移学習に関する研究自体は何十年も前から存在はしたが, 機械学習の分野で転移学習が注目され始めたのは 1995 年以降である[!]. 2010 年代に入り, Image Net に代表される大規模物体認識のデ ー タセットの公開とコ 。 ンヒ ュ ー タの計算処理能力の向上により, CNN を筆頭とする深層学習の手法の圧倒的な物体認識性能が示さ れると, それに続き, 特定のタスクのために大規模デ ー タで訓練されたネットワ ー クが, 他の異なるタスク にどの程度転移できるのかという聞いに注目が集まった[4]. その流れにより, 現在では, 転移学習の手法が 研究され, 利用法が確立されてきた. 今後私たちは, 深層学習を駆使して, 臨床試験や実世界の画像デ ー タから疾患の診断を行うといったプロ ダクトイノベ ー ションや, 日々業務の中で人の手によって行われている定型化された作業や点検作業等を画 像認識によって自動化するといったプロセスイノベ ー ションを実現させたいと考えている. しかし, 先ほど 述べたように学習デ ー タが十分にない状況が予想されるため,転移学習という選択肢は必須であると考える. そこで,本研究では転移学習導入の第 一 歩として,転移学習の有無による効率性と精度の比較検討を行った. なお, 本研究では, 解析環境として SAS Viya を用いた. SAS Viya は, Python, R, Java などの様々な言語 で操作することができるオ ー プン性を有している点, 画像デ ー タの読み込みに関して前処理が不要で簡単で ある点が特徴として挙げられる. そのため, SAS Viya は今回の検証では有用なツ ー ルであった. 2 章では, 転移学習のベ ー スとなる深層学習の概要を述べた後, 画像解析によく用いられる深層学習の特 別なモデ‘ルである CNN について説明する. 3 章では, 転移学習の考え方について説明を行う. 4 章では, QC(Qualiザ Check)業務に転移学習を適用した例を紹介する. 5 章でまとめを述べる. なお, 2 章, 3 章における圏内の画像は, Image-net (http://www.image-net.org/ )から引用した. 2. 深層学習 本章では, 転移学習のベ ー スとなる深層学習について説明する. まず深層学習の基本的な考え方を述べた のちに, 本稿の検証で用いる深層学習のモデルである, CNN について説明する. 2. 1. 深層学習とは 。 深層学習とは, 人工知能のタスクに対して, 複数の階層を有するグラフを用いてコンヒ ュ ー タが学習し, 特徴量を見つけ出すアプロ ー チである. 通常, 音や声を聞き分けるといったことや, 写真を見て何が写って いるのかを認識するといったことに代表されるような, 私たちが普段の生活の中で当たり前に実行している 主観的, 直感的なタスクを形式的に記述することは難しい. たデ ー そこで, 例えば年齢や性別といった, 与えられ タに含まれる様々な特徴量が, 出てくる結果にどのように相関しているのかを学習することに目が向 けられるが, どのような特徴量を抽出すべきなのかということに関しては, 従来の機械学習の手法において はその表現方法に性能が大きく依存してしまい, 手動で特徴量を設計することに難しさがあった. しかし, 深層学習では, その部分もコンピュ ー タに任せることで, デ ー タの正しい表現を獲得し, 観測デ ー タの変動 の要因を説明することが可能になる. 例として, 深層学習のモデルが猫の画像をどのようにくみ取り識別するかのイメ ー ジを述べる(図l参 照). 猫の画像がデ ー タとして与えられたとき, 入力層では, 画像の各ピクセルの輝度情報(三原色または白 黒)が入力となる. それらのピクセルを入力として, 隠れ層の1層目では, 近援するピクセルの明るさを比 較して不連続に変化している場所(エッジ)を検出する. そして, 隠れ層の2層目では, それらを組みわせる ことで認識できる角や輪郭等を探していく そうして得られた角や輪郭を更に組み合わせ, 隠れ層の3層目 194

194.

では, 耳の部分や, 鼻の部分のような, 物体の 一 部を検出する. 最後に, 第3層で得られた各パ ー ツから, 入力された画像が何の画像かを認識するような構造になっている. つまり, 深層学習は, 表現することが難 しい複雑な概念を, 単純な概念に分割して入れ子状にすることでうまく獲得している 出力層 隠れ層 3層目 揺れ層 2層白 隠れ層 1層白 入力層 ① 日 図1:深層学習のイメ ー ジ図(猫と犬の画像分類のタスクを想定) 通常の深層学習のモデルを数式で表すと, 以下のようになる. h(i) = gOl (wO ゾh山+ザi)) i = 1,2, ... ,n. ここで, (i)は層を表しており, 特に, h(O) = Xは入力層, h(n)は出力層を表すとする. w <O とb(i) は推定すべきパラメ ー タを表し, g <il は活性化関数で、 ある, 有名なものとしては, g(x) = max(O, x)で、 定義され る正規化線形関数(rectified linear unit, ReLU )があり, 標準的に用いられている. 上式は, 隠、れ層がn-1 層で, 第i層の幅がh(i)の次元となっているモデルを表している. 2. 2. 畳み込みニュ ー ラルネットワ ー ク 深層学習におけるネットワ ー クのモデルには様々なものが提案されているが, 時系列デ ー タや画像デ ー タ 、 など, 格子状のトポロジ ー を有するデ ー タに対して最もよく用いられるモデ ルの l っとして CNN が存在す 守 る. CNN とはその名の通り, ネットワ ー ク内のある層で畳み込みの処理を行う深層学習の特殊なモテ ルで‘ あ り, まずは, 畳み込み処理とはどのようなものか説明する. 2 次元の画像Iを入力, Kを重み関数(ここではフ ィルタと呼ぶことにする)とした場合, 畳み込みの処理は以下で定義される. S(i, j〕=川) (i.j) =エエ刷 m,j + n)K(m,n) 町1 n (i.j)は2次元画像のi行l列のピクセルを表している. この処理のイメ ー ジを図2に示す. 図2において, 推定しなければならないパラメ ー タはAll,A12,A21,A22である. そのことからも分かるよ うに, 畳み込みを利用することで疎なネットワ ー クとなり, 推定するパラメ ー タの数を入力の数よりもずっ と少なくすることができる. これにより, モデルのメモリ使用量は減り, 計算処理の効率性も向上する. ま た, フィルタ ー のそれぞれのパラメ ー タが, 入力の全ての位置に対して利用されるので(入力の境界部分のピ クセルについては Padding 設定等を行うか否かに依る), これもまた, 必要メモリ容量の低減に貢献する. 以 上の理由から, 通常の深層学習のモデルに現れる密行列の掛け算と比較して, 畳み込みは非常に計算の面で 効率的な処理となる. 更に, 画像全体でパラメ ー タを共有していることで, 同じ特徴を画像の様々な場所で 検出することが可能となり, 画像内で‘位置が異なっても同様の特徴を検出したい場合には有用である. 195

195.

フィjレター 入力 a12 all a13 a23 a22 a21 a33 a32 a31 出力 a14 * a24 All A12 A21 A22 一 a34 a11A11+ a12A12+ a21A21+ a22A22 a12All+ a13A12+ a22A21+ a23A22 a13All+ a14A12+ a23A21+ a24A22 a21A11+ a22A12+ a31A21+ a32A22 a22A11+ a23A12+ a32A21+ a33A22 a23A11+ a24Al2+ a33A21+ a34A22 図 2:2 次元畳み込みの例 次に,CNNのモデルの基本的な構成について説明する.典型的なCNNの層は,畳み込み,プ ー リングの 層から構成され,図3のようになっている. 1つ目の段階であ る畳み込み層では,先ほど述べた畳み込みの処理を行い,それ により出力されたものに対して,ReLUのような非線形活性化 関数を介して正規化を行う. そして,2つ目の段階ではプ ー リ ングを行う.プ ー リングは,ネットワ ー クの出力を 一 定の領域 ごとに,それらの要約統計量lつで置き換える操作であり,プ ー リングによく用いられる関数のlっとしては,矩形の近傍中 で最大の出力を返す最大プ ー リング(max pooling)がある(図 4 参 照).他にも,矩形近傍の平均やL2 ノルムによるプ ー リングも存 在する. 図8:典型的なCNNの構成要素 プ ー リングを行う利点としては主に2点挙げられる. I W】ax 0.3 0.7 。3 0.6 0.2 0.5 0.1 0.1 0.2 0.5 0.5 1 。目6 0.2 0.2 0.3 つ呂は, プ ー リングを行うことにより,入力の微小な移 動に対しでほぼ不変な表現を形成することができる点で ある.これは特に,画像内において, ある特徴が存在す プーリング 側鰯 援理機参 る厳密な位置よりも,画像内にその特徴が存在するか否 かに関心がある場合に有用な性質である 2つ目は, 一 定 の領域を,その要約統計量で置き換えるために,次の層 における入力サイズを削減することができる点である. max これにより,ネットワ ー クの計算効率の改善と, パ ラメ ー 図4:プ ー リング(最大プ ー リング)の例 タの保持に必要なメモリ量の削減へとつながる. この ようなプ ー リングを行う層を加えた,畳み込み,正規 化,プ ー リングの 一 連の操作を何度か行い,最後に図lにあるような全結合層ですべてを結び付けた後に出 力層で結果を出力するという流れが, 一 般的なCNNのネットワ ー クのモデルである.出力層では,目的が クラス分類であるならば,以下で定義される, Softmax 関数と呼ばれる活性化関数がよく用いられる. exp(za softmax(z)i = 一一一一一, L j exp (勾) i = 1,…, D D はクラス数であり, z = W T h + b は全結合層での出力である. i = 1,…, Dの内で,最も大きな Softmax 関数 の値をとるクラスが,入力デ ー タに対してCNNが導いたクラスとなる. 196

196.

3. 転移学習 本章では, 本稿の主題である転移学習に つ いて説明する. 転移学習は, あるタスクで学習したことを, それ とは別のタスクにおける汎化能力向上に役立てるために転用するというアイデアに基づいており, 2 つ 以上 の異なるタスクを実行する. 例として, 猫と犬の画像を分類するタスク(タスクI)と, イルカとサメの画像を 分類するタスク(タスク2)を考える. もし, タスクlにおいて猫と犬の画像が大量にあった場合, タスクlで の学習を, タスク2において少ないデ ー タから有用な表現を素早く学習するために役立てることができる. 具体的には, タスクlで学習したネットワ ー クにおける下位層の重みをそのままタスク2へ転用し, タスク 2においては, 上位の層の重み(ここではW 市 >. w 巾))のみを学習する(図5参照). Transfer & Freeze 図5:転移学習のイメ ー ジ 画像のような視覚的なカテゴリの多くは, エ ッジや目に見える形などの下位の概念, 幾何学的変化による影 響, 照明の変化などの潜在的な因子を共有しているため, タスクlとタスク2において目標が異なっていた としても, タスクlの下層の学習結果をタスク2へ転用することができる. つ まりは, タスク2において, 上層がそのタスク固有のものであるのに対して, 下層は, タスクlで学習された特徴抽出器になっているの である. ここでは下層を転用させたが, タスクによっては上位の層を転用させることもありうる. 音声認識 システムなどがそれにあたる. このように, 異なるタスク間で共有される表現に対応するパラメ ー タを共有 することで, その共有が妥当である場合には汎化が改善されることが多い. ここでは, 転移(Transfer)した下 位の重みは固定(Freeze)し, 転移元の下位層をそのまま特徴抽出器として目的のタスクに転用するという, 転 移学習において最も典型的な方法を想定している. しかし, 転移した重みを固定せずにその学習済みの重み を初期値とし, 下位層も含めて再学習する場合もある. その場合, 良い初期値から学習を更に行うこととな り, まったく事前の学習がないところから全ての重みパラメ ー タの学習を行うよりも, より良い値へのより 早い収束が期待できる. また, 転用した部分も含めて重みパラメ ー タを再調整することで, 目的のタスクに 197

197.
[beta]
、

対してより適したモデルとなりうる. 転移学習の試みは, ある領域で 培った経験を, 他の領域に生かすこと
で効率的, 効果的に学ぶ方法を提供してくれているのである. そのため, タスク間で共有されるものがない
場合や, ネットワ ー クが違いすぎる場合は, 転移学習は有効ではない.

4. 転移学習の応用事例
4. 1 応用事例の説明
前章で述べたように, 大量のデ ー タでの学習済みモデルがすでにある場合, 転移学習を用いることで, ネ
ットワ ー ク全体を学習するには少ないデ ー タでも汎化性能のよいモデルを構築することができる. 本章では
比較的少ないデ ー タしかないある事例に対して, 転移学習を用いることでどのような恩恵が受けられるのか
を, 転移学習を用いない場合と比較する. 今回用いるのは, 付築が貼られている文書と貼られていない文書
の画像デ ー タであり, それらを解析した事例を紹介する.
弊社の eTMF の Ce 口ifiedCopy 作成業務において,紙原本をスキャンして電子化するにあたり,原本に付婆
が貼られたままスキャンされていなし、かどうかを確認する作業は, 今まで人の手によって行われてきた. し
かし,その部分をAIによってオ ー トメ ー ション化することにより,作業の効率化が実現できなし、かと考えた
ことが本事例のきっかけである. つまり, 文書に付筆が貼られているかどうかを画像から自動判別すること
がモチベ ー ションであり, 本章では, それを転移学習によって実現する. 先に述べたように, デ ー タとして
は, 以下のような付築が貼られている文書と貼られていない文書の画像をそれぞれ用意した.

砲店

.・,i
(主<"',. とんどの習合 +’::
e・喫舎頃o•,嗣r
"'、.,司R :",1,"1, U' 今·: �•ttlt',l,lc:"':’...
例。< //泊 、
ザu司,u ・ ,,国〆れ・,心@れ錨,.
』程e 戸 民�
” 色屯r. ,e,:r�:,れた ;. -�. m, 勾見恥 待合、れ�r -�;,。."’
t•-'lO.tW Ill掩ヲ,e覇空汚蜘 t r‘・てド$防唱司令霞
d 演は必�を·.
�:とて幻
J:Amri吟調K ’,,.幡町,
)�' ’ .岨しコ �·1;,,::u,:1,.
,、 ‘可防御牽が舞唱�· ・,身‘ittl' Itta�,・ ,,.・ M 切るニ、司’ ’.,
ノト刊,同
咽,...,・,
でか” τ ・ aの翁,、 ,ーじ見町 ’u a又 -C't'<f 、 'J:ll,_
,旬1民民U .’,<,捗と健対a・'?•,1・紙吹’b明拘・t命令する ""ヨ属仰時,.可定住
"・-tl!t �tt.• 碕陶酔令,tQl'Jlt給量。白:i;a,u..三/',; 場 '." ' て
’‘“作aきれて・'
令·-’e’ー, ,.忽.忘れもこ.,,,、司
-ザ
’”とお即 e e‘., 明.,.< ’'’‘〆・m
’;, -�樽柿色‘え
、(\•'!,�·«るで一時;,,p.包n帽削嶋田泊刊 <�.

r<IIにお,ずる..媛震のm!Rt それに回避する磁湖周
鎗"'

l!el

H

Hl

"

I益

t,;T;it!

司C

6M

Sト

S自

1,

治

ペ

’ ザ‘ ', ... 白‘札""施と"'·
‘ 、 旬月下町。‘ m
• .
: ,,,志位

g

.t'

..併帯 I 釘

,1.),(;, 単!.'

a会

lli.·<C な e

’

l

奇. ,I:

J.QU 1;14

1 γ

Y 異 i:t�

d

.ooj,,,,t,.�l-•! �SI',

C't. t;.

H

IJ;."111 b

M

イ4

訊;$!"

仁

o;::1;

I,.:',.'

唱.〆弓F

U

’" 匂‘白色‘�i::'.1今 吋肉院
'・ 9・"・,,ド’.�
;1.11. ;,,.,1,4
:l!IW•tft-t:t:.,)
II-

·,

:;I; ,,_

I 1 急 ':0,f"J晶化

.,角...多.,,ラ亘a,,t;:i,:.,c・ p・4へ。 老健弘め,ゐ" 捗 t': ...1:r.1.e91:
‘
…”…削町、る健け 町""" ー と··•!,
H ’脚。,,,', ;J: 加の....隠/(
,帥.匂 ’ 』a、川刷•au::i;:
. ‘ :I'ムセ幅広町""句点差� itt,;a飼町..舟"とを側除
’之 n
‘
..叫目 札制酬閃 て a ' 旬、 市,
.ν,向山判明a��1.r,,o·,1 同省令制,
,P

,•11,.,11�11.-

J

宙E

�If:>••·

,.':.'l;hl崎町刷

見

Ql

��l (Hf'

r

"' '""'

’

3

)(,·,:,,II

:,<

,ηa、

r

0>?.1tret1::,

l>,lm:t

畿電食侮 句。, �iき れるが ‘ 均金院さ a略
'.'い,;:,、• "':'�そ語、 "'" "” !:; 。,.守也$'. 、z ,.宅島 .,..:,•.
r:1::- 台 .a盆
d ・ユ 」E
t •x-, .;:..f. 〆,,
令唱』白仇 Z
・れω .・ttt;c.�帳句陀� ,,1</::伶場金
5拘"'時住民縛 M 刈でたえ
ffiill'f Q'Pl'>t,rt・,,砂iU:a 似,:.m, - ,,’宅 P:l/ K 君事匂‘
‘h z場 ’, '" -’ b
’
.徐 ri, :, ・‘ ニ"- 防・
”雪量 偽"'・サ 矛副食債を.句、,
e '"
,唱ちろ師同開 , 料相川崎
S提 唱綜同;!,:,* Iこ &唱刊
h(> ..
t: .:.: ι, ·t� ‘ l.l't:l(;l'"i,,勺守ふ号例,"
, ....蹴

I�

, :R• -f;-f,�

I

詣 I J11.d..

占’,

1q:6i隊
t.

:1

l.l"i‘

1•,"f1' 頃 I·

’、�“u・切,r
J

1:..1

t

-

隆

ぺ

語..

実.. ぜ �t S"

・h t ・

�tll

府副

P

司

的舗

潟

.t.·r.匂�·志望・,.,奪告 ;fttiO.l'『!, 'i'�守婦:.t.
a・,., '
vf!</y n包 '仲ヲ町外v
:�-..,久場切,.,ヨ,.
・
,,.,句 ,旬鴨,...,空前 弘 、 ,t‘ ,,,fl・,’
・ 争時,,,,,,凶 ”、そ狩司副 1':>I� 一
ぜ

"

初旬陵..リ

r,.

·験·首崎戸勧寸.勝例r

A i’

ll;,t,

拠験b

U柑間

6

ll§o.f.t '

:-1

司長"

:t, ...

i:O"r言

同

R

¥·,,?

Ito.fl

i:•

I脚

..-:’""
』.
"
"

..,ア旦

有企 jl.i!:;·

e

図6:画像デー タ例(左:付筆あり, 右:付筆なし)
用意した学習用画像デ

ー

ー

タとテスト用画像デー タの枚数は, それそ れ以下であった.
表 1 :画像デー タの枚数
学習用

|

テスト用

イ寸筆あり( tag)

158

40

付筆なし(no_tag)

149

37

198

198.

画像の識別にはCNNがよく用いられるが, 今回学習用に用意できたデ ー タは数百枚であり, CNNをゼロか ら学習するためのデ ー タ数としては非常に心もとない. そこで, 事前に大量のデ ー タで学習した重みを転用 して転移学習を行う. 具体的には, VGGl6の学習済みモデルを転用して特徴抽出器として用いる. VGGl6 とは, 畳み込みが13層, 全結合層が 3層の合計16層からなる深層学習のネットワ ー クのモデル(図7参照) であり, もともとは, 大規模な画像認識のコンペティションであるILSVRCにおいて1000クラスの画像分 ‘ 類を行うために, lmageNetと呼ばれる大規模画像デ ー タセットによって学習されたモデ ルで、 ある. VGGl6 は, 1000クラスの分類という非常に多くの対象を分類することが可能なため, 画像の特徴を捉えることが ‘ 非常に上手く, 特徴抽出器として良く機能することが期待される. モデ ルの構造は以下のようになってい る. 図7: VGG16のモデル構造 この学習済みモデルの畳み込み層の部分の重みは全てそのままに, 最後の全結合層の部分のみを, 今回用意 した文書の画像デ ー タを用いて学習させた. つ まり, 画像から特徴を抽出する下層の部分は, 月ljのタスクの ー ために用意された何十万もの大規模なデ タから学習させたものを用い, 文書に付婆が貼られているかいな いかを判定するというタスク固有の出力に関係する上位の層のみ, 目的のタスクのために用意された比較的 少数のデ ー タから再学習させたのである. 実際の実装には, A S S ViyaのPythonインタ ー フェ ー ス(Jupyter notebook) を用いた. うに, Pythonからも接続して操作できるオ ー プンなプラットフォ ー A S S Viyaはこのよ ムとなっている. そのため, 今回用いた VGGI6に限らず, KernsやTensorFlowといった深層学習のライブラリに搭載されているVGGl9やR esNet50 ‘ などの, 事前学習した重みを持 つ 様々なモデ ルを利用することができる. 更に, 用の機能が搭載されており, イメ ー SAS Viyaには画像処理専 ー ジ(画像)型のデ タを扱うことができる. 従来, プログラムで画像を 、 扱うためには, ピクセル単位の配列に変換するなど の前処理が必要で、 あったが, SAS Viyaでは, 画像を画 像そのままのバイナリで扱うことができるようになっており, 画像解析を行うにあたってとても便利なツ ー ルとなっている. 転移学習との比較のために, 従来のCN1呼のみを用いた分類も行った. つ まり, 大規模のデ ー タで事前学 、 習したパラメ ー タは転移させず, 今回用意した文書のデ ー タのみを用いてゼロから学習を行った. モデ ル自 体は, VGG16の層構成を用いた. 4. 2結果 e 、 転移学習を行った場合と, 行つてない場合の学習済みモテルをそれぞ れ用いて, テスト用デ ー タ77枚を 分類した結果を示す(表2参照). 199

199.

表2:テスト結果(左:転移学習, 右:通常のCNN) Descr Vulue Descr Value 。読み取られたオブザペーション数 n 。読み取られたオブザペーション数 77 使用されたオブザベーショシ数 77 1 使用されたオブザベーション歓 77 2 援分類の膝差(%) 12.98701 2 誤分類の誤差(%) 35.06494 3 f員失段差 0.559048 3 領失綴差 0.655115 1 転移学習を用いた場合の誤分類率が約 13% に対し, 転移学習を用いない場合の誤分類率は約 35%であり, 転 移学習を用いた場合のほうが, 分類の精度がより高いことが分かる. また, 反復学習の履歴を図示してみる と, 以下の図8のようになった. model loss 一一首ansfer 蜘m加g ---- C終結 司. ,......... ‘..幽"'--、‘ ,..... ・齢、.....,.....,‘・・・- ·・ ・・・・ ・・・・・b・,,...‘、,補・ - ・... e 。 10 却 却 40 部 却。ch 図8:学習履歴僕線:転移学習, 点線:通常のCNN) 転移学習を用いたほうの学習曲線(実線)は, 学習が進む(エポックが増える)につれて, 誤差関数(loss)の値が0 へと近づいている 一 方で,転移学習を用いていないほうの学習曲線(点線)は,学習が進んでも中々誤差関数の 値が下がらず, 学習効率の悪さが見て取れる. 以上より, 転移学習を用いることで, デ ー タが少ない状況で も効率よく学習ができ, ある程度の精度を実現できることが確認できた. ‘ 現時点で利用できる画像307枚に対し, VGG!6のモデ ルがあまりにも層が深く,転移学習を用いない場合 においては到底学習できないと予想されることを鑑み, 画像デ ー タ量に応じた, 畳み込み層が2層又は3 層 程度で構成される浅くて小さいネットワ ー クを用いての学習も試みた.しかし,どの場合も分類の精度は70% に属かず低かったため, ここでは結果の報告を割愛する. 今回, 転移学習実装のために用いたパッケ ー ジであるDLPyには, ヒ ー トマップによって, 機械が画像の どこに注目したかを可視化する機能が備わっており, その結果も以下に示す. 200

200.
[beta]
Overtayed Image

Heat Map

OVertayed Image

Heat Map

ι

品
一
一
一
ト戸山 ~ 涜ユ刊一
一

二
、一 潟
一
村ic一

一
L町
一幅削一
向 山
一
Jい時
一
…
二一
。
町 J
・EF
.
両
日
”
ー一
J
a
M
r
-
r
UJ
’
山花・
zb引『
r
r i ~・
a
3
ち吋
s
m
J
九一一三H
叫吋
J
九九
J
・
h
u
・
h
品J 時三 九日i
2 一V

可
’
一
-
二 勧 司日
二・
開諮rA
.
m
.
パー-
山.
.
1けり町一山一子
一

下 南認
竹
? ?,
一三・
一
一

Original Image: tag

白河町四口調幻 m却特
自uauauAUo a
除胤臨副

・・‘’- .. ,. ’- . ..
・-,,dよ五、.勺,,,=
電.・・-·・
••••;;;.,,‘ 日ム4
・・ ” ・ .........
.:. .込礼.
3九二三時点正2ぷぷ' ぬ,r'l.�
人
:
·
;
ニ;�:·
可t�
マ"! .!� f円台,.,,.ーザa ちf
�:;...•
••.-..•..l'J .:··-・‘ユ‘六、..ー
」除...........・
..,.,,.品
�-:,•,・て正午;は・え・司 目.,.,,·h' J下i
主土品占c'宅L草布草E喧豊f
吟3肖 ·長君主.....�ヰ
!"'...-,守.・・ーーがM・・‘·:.--·it·・喝,,..,,,・ャ智岡
,:..";c
..,;.:;.,.;.;ニ.·.'H :::��'凡.・
事M守・·�”....,・.. r�
.•:1,•.� ,-;·.’,.、、が,
A,同日J・- 時間.弘:;.,.,,. ・ゐよ古川
..
>,,t'\i'
'·,
3刊,W,•t•:
5・
寄
..
含.:,,;.;,
-�,ff 押さヤε•:'."'.•! "-'-"�
T’
:-. ·--::."t. ・. "·・
’_,.,.
··� - -�:.::

-� ti

4

F

F ....

L

〕

: �

図9:ヒ ー トマップの一例

-EE瞬間ト

Original Image: tag

(上:転移学習, 下:通常のCNN)

図9において,上の図が,転移学習を用いた場合におけるヒ ー トマップのl例であり,下の図が,転移学習
を用いていない場合におけるヒ ー トマップのl例である.これにより,モデルの判断根拠情報を可視化する
ことができ,青,緑,赤の濃淡を見ることで,半IJ別に影響を与えている箇所を確認することができる.この
図からも,転移学習を用いていないほうが赤の部分が広域であり,学習ができていないことがうか がえる.
4. 3考察
今回,実際の事例を通して,転移学習の有用性を確認したが,この事例自体はまだ実用段階には至ってい
ない.分類精度が80%を超えてはいるが,100%に近づけなければ実用は難しいだろう. そのため,L、くつか
の改善点が考えられる.まずは画像デー タの量と質が挙げられる.転移学習は,デー タ量が比較的少なくて
も機能するが,デー タ量が大いに越したことはない.デー タが多ければ,より学習が進むことに加え,転移
学習において,より多くの層を再学習できるようになり,モデルの幅が広がる.どのような状況でも,可能
な限りデー タを入手するように,最大限努力しなければならない.また,多いだけでなく,汎化性能が良く
なるように,多種多様なデー タを学習させることも重要で、ある.今回の例で考えれば,紙原本のスキャンの
仕方や,付婆の色,付婆が貼つである位置等により,様々な画像デー タのパタ ー ンが存在すると考えられる.
そのため, それらが それぞれ十分な枚数手元に そろっていることが好ましい.過学習を防ぎ,実用性に秀で
‘

たモデ ルを形成するためには,そのモテツレの構造だけでなく,学習するデー タにも十分気を払う必要がある.
また,今回行つてはいないが, トレ ー ニング時に,手元にある画像デー タに対して反転や回転,スライド,
輝度の変更等を行い,画像の水増しをすることも,手元にあるデー タが少数である場合に有用である.これ
により,デー タが数倍に増え,モデルの精度が数%向上することが期待される ただし,このような水増しを
行う際には,デー タを学習用とテスト用に分けた後に行うことに注意したい.分ける前に水増しを行ってし
まうと,学習用のデー タと似通ったデ ー タがテスト用デー タに含まれてしまい,まったく新しいデー タに対
しては予測性能が良くないにもかかわらず,テスト用デー タにおける精度が異常に高くなり,良いモデルだ
と勘違いしてしまうことにつながるからである.他に考えられる改善点としては

201

ハイパ ー パラメ ー タのチ

201.

ュ ー ニングが挙げられる. 今回の事例では, 転移学習を用いた場合と用いない場合どちらにおいても, エポ ック数を 50, パッチサイズを 32, 学習率を 0.01, ネットワ ークを VGG16 とし, 正則化などは行っていない 設定で学習を行っている. これらのハイパ ー パラメ ー タを変更してみることで結果がどのように変化するか ということを検証し, より適したハイパ ー パラメ ー タを設定することが求められる. 以上に挙げた事柄を考慮し, より実用に適したモデルを構築することが今後の課題である. 5. まとめ 本稿では, Certified Copy 作成時の QC 業務の一 部のオ ートメ ー ション化をモチベ ー ションとし, SAS Viya による転移学習を文書の画像分類に適用してみることで, その有用性を確認した. 結果として, 転移学習時 には非転移学習時に比べて非常に高い確率で付筆のついた文書を自動で検出することに成功した. 近年の情報化社会の発展により, かつてに比べれば, 非常に大規模なデ ー タを集めることができるように なったとはいえ, 分野や目的によっては, 欲しいデ ー タが十分に手に入らない状況がまだまだ存在する. そ のような状況でこそ真価を発揮するのが, 今回取り扱った転移学習である. 今後, 社会, 技術の更なる発展 に伴い, 収集できるデ ー タの種類, 質, 量は確実に大きくなっていくものと予想される. そのような中で, たとえ目的のタスクに必要なデ ー タが十分になかったとしても, それらのデ ー タと共有する表現を有する, 比較的手に入れやすい別のデ ー タが存在する可能性はますます広がっていくだろう. そのため, 転移学習と いう手法の存在により,目的のタスクとは無関係だと思われていたデ ー タに新たな利用価値が生まれてゆき, 突き詰めれば, 無駄なデ ー タというのはほとんど存在しないととらえることができる. また, 多額の費用, 労力をかけて集めたデ ー タに対して, 再利用できる可能性も更に高くなり, より多くの知見へと導いてくれ ることだろう. もちろん, 実際の解析実行において, タスク聞において共有する表現を含む部分があるかど うかを見極めることや, モデル構造をどのような形にするか, 更には学習の際のチュ ー ニングの仕方をどう するのかなど, 考えるべき問題はまだまだ多い. 何 一 つ考えず, 大量のデ ー タで学習したモデルの適当な層 の重みを転移させているだけでは, 有効な結果は得られないだろう. 目標のタスクと現状あるデ ー タを照ら し合わせ, 転移学習に利用できそうな表現を共有する十分な量のデ ー タはあるかどうか, ある場合はどの部 分を転移させるか, 新しく学習する部分については, どのような学習の仕方にするかといったことなどを, 自分の用いることのできるデ ー タの環境に従って適切に定めていくことが求められる. 今回, 転移学習の実装については, SAS Viya 上において, P戸hon API 向けパッケ ー ジである DLPy を利用 した. DLPy は, Python の深層学習用のパッケ ー ジである Keras に似たコ ー デイングで, 深層学習のモデルを 簡単に構築から学習までを行うことができる. また, 商像解析に対するCNNの利用においては, 特徴の抽出 を全て機械に任せてしまっているため, 機械が何を根拠に画像を判断しているのかがブラックボックス化さ れてしまうという, 深層学習における解釈性の問題が存在するが, 4章で見たように, DLPy には, 機械が爾 像の何処に着目したのかをヒ ー トマップで表示する機能があり,結果に説明力を持たせることができる. SAS Viya では, この便利なパッケ ー ジを, そのオ ー プン性により利用できることに加え, 画像をピクセル配列と してではなく, 画像そのもののイメ ー ジ型として扱うことができるため, 画像解析を行うプラットフォ ー ム として SASViya は非常に有用であった. 深層学習の分野では,膨大な量の活動と技術革新が日々行われてい るため, 今後は, SASViya のオ ー プン性を生かして, 時代に合った解析を行っていきたいところである. 4章では文書の QC 業務という, プロセスイノベ ー ションに関する事例を取り扱ったが, MRI やレントゲ ン等による医療画像から人間の呂よりも正確に早く疾患を検知するようなツ ー ルを生み出し, プロダクトイ ノベ ー ションへとつなげることにも, 転移学習は大きく貢献しうるだろう. 引き続き, プロセスイノベ ー シ 202

202.

ョン, プロダクトイノベーション双方の実現のために転移学習を最大限活用できるよう, 様々な視点から模 索していきたい. 本稿が, 医薬品開発に携わるデータサイエンテイストにとって深層学習, 果ては転移学習の活用へ関心を 抱くきっかけになれば幸いで、ある. 参考文献 [I] Jialin Pan, S., Yang, Q., A survey on transfer learning. 2010. IEEE Transactions On Knowledge and Data Engineering 22. [2] Goodfellow, I., Bengio, Y., and Courville, A., Deep Learning. 2016. MIT Press. 、 [3] SAS Institute Japan,“SAS Viya:ディープラ ー ニング &画像処理用PythonAPI向けパッケージ・DLPy”, [https://blogs.sas.corn/content/sasjapan/2018/05/21/sas-viya_dlpyl/]. [4]中山英樹, 深層畳み込みニュ ー ラルネットワ ー クによる画像特徴抽出と転移学習. 2015. 電子情報通信 学会音声研究会7月研究会. [5]木口亮, 平野勝也, 北西由武, SAS ViyaのC聞を活用したProcess Innovation ~ 機械は解析図表をどう見 ているのか~ . 2018. SASユ ー ザ ー 総会2018. 203

204.

臨床試験における機械学習手法による欠測デ ー タ解析 0竹村俊男, 新谷彩夏, 久保公二, 古手渉, 上田篤志 (株式会社分析屋 ライフサイエンス部) 欠測デ ー タの取り扱いは, 分野を間わず精度の高い推定ならびにバイアスの除去のために十分に考 慮されるべきものである. 生物統計の分野においては, 欠測デー タに対する様々な手法が適用され てきたものの, 機械学習アプロ ー チを採用したものは少ない. そこで, 欠測のある臨床試験デ ー タ において, 感度分析として機械学習による解析を行った結果について報告する. 具体的には, AIDS 治療薬の臨床試験であるACTG193A試験デ ー タセットを用いて, 主解析である MMRMI こ加え, 既存手法(LOCF, ANCOVA, 多重代入法, wGEE, パ タ ー ン混合モデル)および 機械学習アプロ ー チ(KNN, Random Forest, GRU-D, RITS)による感度分析の結果を示し, 考察 を1Tう. 207

206.

SAS Viyaを利用したリアルワ ー ルドデ ー タマイニング2.0 0味津嘉手口 l 、 平野勝也\北西由武 l ( I塩野義製薬株式会社解析センタ ー ) Real World Data Mining 2.0 with SAS Viya Yoshikazu Ajisawa, Katsunari Hirano, Yoshitake Kitanishi Biostatistics Center, SHIONOGI & CO., LTD. 要旨 近年, 製薬企業においてリアルワ ー ルドデータ(RWD)の活用が盛んに行われている. 活用されてい る RWD の l つに匿名加工された レ セプトデー タが挙げられる. レ セプトデ ー タを使用して, 特定の疾 患に擢患した患者集団における治療履歴や疾患履歴をリアルワ ー ルドで, かっタイムリー に把握するこ とで,医薬品開発, マー ケティング,安全性監視等に役立つ仮説を探索することが可能である. しかし, RWD の容量は数~数十 TB と大きいため,数~数十 GB 規模で収まっていた従来の臨床試験データを解 析するためのハー ドウェア環境で処理することは難しい. ソフトウェアの面からも, プログラムコ ー ド の書き方によっては, ネットワ ー クやメモリ ・ ハ ードディスクに負荷が集中することで, プログラムの 実行時聞が長くなってしまい, 業務開始から結果を得るまでに多大な時間を要してしまう. そのため, RWD を解析する際には, 容量の大きいデ ータを処理できるハードウェアや DB システムとともに, リ ソ ー スを効率的に利用するプログラミングが必要である. これらの課題を解決するために, 弊社では DB システムとして Hadoop と Hive, 解析環境として SAS Viya を採用し, Visuaはnal戸ics でデ ータの可視化や機械学習等で探索解析を行し、ながら, 仮説を探索し ている. 本論文では, SAS Viya と レ セプトデ ータベー スを利用した解析による仮説の探索まで、 のプロセスと, 容量の大きい RWD を効率的に解析するための手順やプログラムコ ードの工夫などを紹介する. キ ー ワ ード:リアルワ ー ルドデー タ, SAS Viya, Hadoop, レ セプトデ ー タ 1 はじめに 近年, 医薬品業界では, RWD の活用に注目が集まっている. RWD は, 実際の臨床現場で得られるデ ー タであり, 臨床試験よりも, より 一 般的な患者集団における医薬品の有用性や安全性, 使用実態を検 討するデ ー タソ ー スとして期待されている. 活用されている RWD の l つにレセプトデ ー タベースがあ 211

207.

る. レ セプトとは, 実施した診断 ー デ タベ ー ・ 医療機関が保険者(市町村や健康保険組合等)に請求する医療報酬の明細書(力日入者に 医療行為, 処方した薬剤等)である. 民間企業が有償で提供している代表的な レ セプト スとして, 株式会社JMDCが提供するJMDC ClaimsDatabaseがある. JMDC ClaimsDatabase は, 複数の健康保険組合の レ セプトから成るデー タベースで, 累積母集団数は約560万人(2018年6 月時点)である. JMDC ClaimsDatabaseは, 同 ー の健康保険組合に加入している期間における, 加入者 およびその家族の診断履歴, 処方された薬剤, 医療行為などを時系列に追跡することが可能である. し かし, 退職や被扶養者から外れた等の理由で健康保険組合が変わった場合には, 加入者番号が変更され るため, 診断 ・ 治療履歴を時系列に追跡できなくなる. また, 高齢者の レ セプトデー タが少ない, とい った限界はあるが, JMDC ClaimsDatabaseは個人ごとの疾患履歴や治療履歴をタイムリー に把握するこ とが可能であるため, 医薬品開発, 安全性監視, マー ケティングなど, 製薬企業の様々な部門で活用す ることが可能である. 一方で、, RWDは, 数~数十TBにもなるデー タベースであるため, 数~数十GB規模の臨床試験デー タを解析しているハー ドウェア環境で処理を行うことは難しい. また, ソフトウェアの面からも, プロ グラムコ ー ドの書き方によっては, デー タベースの結合やソー トの処理において, ネットワ ー クやメモ 、 リ ・ ハ ー ド ディスクに負荷が集中してしまい, プログラムの実行時間が長くなり, 業務開始から結果を 得るまでに多大な時間を要してしまう. そのため, RWDを解析する際には, リソー スを効率的に利用 できるように, 必要に応じて, プログラミングコ ー ドを使い分けることや, 容量の大きいデー タを処理 できるハ ー ドウェアやDBシステムが必要となる. 弊社では, これらの問題を解決するために, DBシ ステムとしてHadoopとHive, 解析環境としてSASViyaを採用し, Visual Anal戸ics/Statisticsでデ ー タ の可視化や機械学習で探索解析を行いながら, RWDから仮説の探索を行っている. 本稿では, 弊社の解析環境を紹介し, 次にRWDデー タを解析した際に我々がはまった落とし穴とそこ からの脱出法を紹介する. さらに, SASViyaを利用し, レセプトデー タベー スから仮説の探索を行う ためのプロセスを紹介する. 2 DBシステムと解析環境の紹介 弊社におけるDBシステムと解析環境の概要図を図lに示す. DBシステム 話》 解析環場 個人PC |ふ|「器 ロ園時 翻穣蹴護醤}翻3 図l:弊社におけるDBシステムと解析環境の概要因 212 Brows官 経由

208.

2.1 DBシステム 弊社では DB システムに Hadoop と Hive を採用している. Hadoop とは, 大規模なデ ー タを高速 に複数のサ ー バで、分散処理することが可能なオ ー プンソー スソフトウェア ・ フレー ムワ ー クであ る. Hadoop 内には, 分散ファイルシステムの Hadoop Distributed File System (HDFS) , リソー ス の制御を行う YARN, さらに, Hadoop 上にデ ー タウェアハウスの構築を行う Hive といったソフ 、 トウェアが含まれる. Hadoop は, 大量のデ ー タをブ ロック化して複数のサ ー バに保管すること ができるため, デ ー タの増加に対して, 柔軟に対応することが可能である. さらに, Hadoop に は, 画像デー タ, 文章デ ー タ, 音声デー タのような非構造化デ ー タを蓄積することが可能であ る. また, Hive では, SQL ライクな言語である HiveQL を利用することで, Hadoop 内のデ ー タ を処理することが可能である. 2.2 解析環境 弊社では RWD の解析環境に SAS Viya を採用している. SAS Viya では Python や R など SAS 以 外の言語からも, Cloud Analytics Services (CAS)と呼ばれる並列分散処理型のインメモリエンジ ンで計算処理を行うことができる. 全ての言語が同じ CAS を利用するため, 同じオプション設 定であれば, どの言語でも同じ結果を得ることが可能である. また, プログラミング ・ インター フェ ー スに加えて, 対話型操作で利用できる Visual Analytics / Statistics を利用することも可能で あるため, Hadoop から抽出した RWD を CAS 上に保存しておき, デ ー タの可視化や機械学習を ノンプログラミングで実施することが可能である. 3 落とし穴と脱出法 3.1 デ ー タの抽出 弊社では, Hive を利用して Hadoop に格納された RWD から解析に必要なデ ー タを抽出し, SAS Viya を利用して解析を行っている. RWD の解析に際し, まずは Hadoop に格納された RWD から解析用デ ー タセットを作成する必要がある. 通常のサイズのデ ー タと同様に, 後処理 (Merge)のことを考慮して, デ ー タセットオプションで必要な変数を KEEP しつつ, SORT プロシ ジマでヂ ー ヲをゾ 一 、した. 局, 終bら次い. 「ヱラ ーなく実行されているが, なぜか終わらない. 1 時間,Z時 ;:·ク · Lでたヨク?Jと考えている聞に, サ ー バが反応しなくなった. 原因は, ①ソ ト対象のテ ー ブルのレコ ー ド数が 500626897 でLあったこと, ②Hadoop のテ ー ブ ー ル内に string 型の変数が存在したためで・ あった. SAS/Access Interface to Hadoop では, デフォルト 設定で string 型変数が長さ 32767 の文字変数に変換されるため, 単純計算でも, string 型変数 一 つで 32767*500626897 byte のディスク容量が必要になる. この時の状況は, すべての文字変数が string 型で定義されていたため, 膨大なデ ー タセットになっていたと思われる. その上, SAS Viya の作業フォルダがシステム領域内に配置されていたことで, システム領域の空きがなくなり サ ー バが停止していた. この問題からの脱出法として, 我々は以下のように対処した. 213

209.

(1 ) Hadoopテ ー ブル内のs仕ing型変数をvarchar型に変更 (2)Hadoopを参照する際のlibname ステ ー トメントに, DBMAX_TEXT=オプションを追加 (3) Viya の作業フォルダ、を, システム領域とは別の領域に移動 3.2 「Sort by =今Merge by」からの脱却 3.1節の対処を実施した後, いつも通りに, 必要な変数をKEEPしつつ,SORTプロシジャで デ ー タをソ ー トできるようになった. しかし, デ ー タの容量が大きいほど,SORTプロシジャに よるソ ー トに時間がかかる. さらに,SAS側で複数のデ ー タセットをマ ー ジした後に不要なレコ ー ドを削除する手順では, 不要になるかもしれないレコ ー ドを含めてHadoop からViya にデ ー タ を転送しなければならないため, プログラム作成・実行時の待ち時間の増加とネットワ ー ク負荷 の上昇につながった. そのため, 使い慣れたSASへの拘りを捨て, 「Hadoop(+Hive) が得意な 部分はHadoop(+ Hive) に任せ,SASViya が得意な部分はSASViya で実施する」というスタイ ルに方向転換し,SQLプロシジャで, Hadoop(+ Hive)にパススルー クエリを投げて, 得られた結 果をSASデ ー タセットに保存することにした. SQLプロシジャを利用したデ ー タ抽出のプログ ラム例を以下に示す. proc sql; 2 connect to hadoop(server=” サ ー バ ー 名 ” authdomain =" ドメイン名 ” 3 schema=” スキ ー マ名 ” 4 cfg=” コンフィギュレ ー シヨンファイル名 ” 5 DBMAX_TEXT= IOO) 6 create tab le base 7 as select aaa.x, aaa.y, bbb.z 8 f示om hadoop.aaa as aaa left join hadoop.bbb as bbb 9 on aaa.x= bbb.x; IO quit; 上記のプログラムは,Hadoopにパスス/レ ー クエリを投げて,Hadoopに格納されたテ ー ブル aaa とテーブル bbb をマ ー ジキ ーX のもとマ ー ジし, 変数X, y,zが含まれるデ ー タセット base を作成 するプログラムである. SQLプロシジャを使用して, より効率的に解析を行うために心がけるべ き点を述べる. 7行自のSELECTステ ー トメントは, 複数のテ ー ブルからデ ー タを抽出するため のステ ー トメントであり, 「 テ ー ブル名. 変数名」の形式で抽出するデ ー タセットに残しておく 変数を指定することができる. このとき,*(アスタリスク)を指定すると, 指定したテ ー ブル に含まれるすべての変数を残したデ ー タセットを作成することになる. しかし, RWDはレコ ー ド数が多く容量が大きいことから,*を使わずに, 解析に必要な変数だけを抽出し, 作成するデ ー タセットの容量を少なくすることを心がけた方がよい. さらに. 8行目のJOINを使ってデ ー タセットのマ ー ジを行っている. SQLでのマ ー ジには 「 InnerJoin(内部結合)J, 「 OuterJoin(外部結合)J, 「 FullJoin(完全外部結合) 214 J , r Cross

210.

Join (交差結合)Jがあり, いずれも事前のソ ー トは不要である. Inner Joinは, マー ジするテ ー 。 プ ルに共通するレコ ー ドのみを残して マー ジする方法である. ‘ ープ り, LeftJoinは左のテ RightJoinは2つ目のテ ー ルにあるレコ ー Ou ter Joinは2通りの方法があ ドをすべて残して マー ジする方法であるのに対して, ブルにあるレコ ー ドをすべて残して マー ジする方法である. 、 マー ジするテー プ‘ルそれぞ れのレコ ー ドをすべて残して マー ジする方法である. ー ジするテ FullJoinは C rossJoinは マ ー ブルのそれぞれのレコ ー ドのすべての組合せを取り出して マ ー ジする方法である. これらの結合方法を必要に応じて使い分ける必要がある. マー ジキ ー は9行目のように指定す る. 3.3 Viewテー ブルの利用 ‘ 守 JMDC ClaimsDatabaseは母数テー プ ル, 傷病テー フ ル, 医薬品テー ブルを含む8つのテー ブル からなり, それらがHadoop内に絡納されている. さらに, JMDC ClaimsDatabaseには, 辞書情 報が格納された マスター デー タも用意されており, これらもHadoop内に格納されている. 例え ば, 「 ICDIOの小分類コ ー ドXXXの診断レコ ー ド」を抽出したい場合, 、 傷病テー プ ル内の標準傷 病コ ー ド ((財)医療情報システム開発センター (MEDIS心C)が作成しているレセ電算コ ー C Oコ ド)と傷病 マスター デー タ内の標準傷病コ ー ドを結合させ, 標準傷病コ ー ドに対応する I DI ー ドや分類名を紐づけた後に, 対象レコ ー ドを抽出する必要がある. しかし, 解析を実施するた びに, 傷病テー ブルと傷病 マ スター データの結合処理を行うプログラムコ ー ドを作成することは 効率的でない. この落とし穴から脱出するために, に言えば, ビュー (View)を作成することにした. 、 「 デー タベー ス内に作成される架空のテー プ /レJである. ー ー り, デ タそのものが含まれないが, 複数のテ である. さらに, l度作成したビ ュー は, ブルをlつのテ ー ビュ ー ビュー とは, ー はテ 端的 ブルと異な ブルのように扱うことが可能 複数のプログラムから参照することができる. そのた 、 、 め, あらかじめ必要なビ ュー を作成し, Hadoopからデー タを抽出する際は, ビ ュー にアクセス 、 することで, 複数のテー プ ルそれぞれにアクセスするプログラムコ ー ドよりも, プログラムコ ー マ ドを簡略化できる. 弊社では, 医薬品テー フ ルと医薬品 マスター デー タを結合した医薬品 ビュー 、 と傷病テ ー プ ルと傷病 マ スター デー タを結合した傷病 ビュー をHadoop内に作成して, 解析に利 用している. 3.4 テストデ ー タを活用 3.2節で述べたように, これまでの手順を捨て,SQLプロシジャを利用する方針へと転換したの だが, 慣れないSQL プロシジャのため, Hadoop から思うようにデー タを抽出できない. そのた め, プログラムの作成, 実行,修正を繰り返しながら, 業務を進めるが, デー タの抽出に時間がか かり, 思うように業務が進まない. さらに, Hadoop内の様々なテー ブルからデー タの抽出を行う ため, そのたびに待ち時間が生じてしまうのは, 業務を進めるうえで効率的ではない. この溶とし穴から脱出するために,RWDの 一 部の加入者を抽出した小規模なテストデー タを作 成し, Hadoop内に格納した. まずは, このテストデー タを使って, 解析用プログラムの開発を始 める. その後, プログラムのDraftが完成したところで, 参照するデー タベー スをテストデー タか らフルデー タに切り替えて結果を出力する手順を採用した. これにより, デー タを抽出にかかる 215

211.

時間を大幅に節約することができ, プログラム開発の効率化に繋がっている. 4 仮説の探索 今回は, JMDC Claims Database の特徴の l つである患者ベ ー スの疾息履歴を時系列で追跡することが 可能な点に着目し, JMDC Claims Database を利用した仮説の探索を行ったプロセスを紹介する. 取り上 げたテ ー マは, うつ病発症者の過去5年間の疾患履歴から, うつ病の予兆を探索することである.本稿 では, あくまでRWDから解析対象集団を定義し, 対象となるデータを抽出して解析を行い, 結果を 得るまでの解析プロセスを紹介するものであり, 得られた結果の臨床的・医学的な観点での考察は目 的としていない. つまり, 事例は臨床的・医学的な主張をすることを目的としていないことに注意さ れたい. 4.1 デ ー タの構成 使用したデ ー タには, 2005 年 1 月から 2018 年 9 月の聞の複数の健康保険組合加入者のレセプ トデ ー タが含まれている. 上記の期間に JMDC デ ー タに登録された加入者の(2019 年時の)年 齢と性別の分布を以下の図2に示す. nu nu nu nu eo ,, 向U AM 。 4αI回 EαX回 600:日3 8CllX旧 1α工日D 度数 民;望日反目両;; 図 2: JMDC デ ー タの年齢と性別の分布 4.2 うつ病発症者の抽出 表 1 に示した ICDIO の小分類コ ー ドを「うつ病」と定義し, そのうち, 疑いフラグが NULL のうつ病の診断を有する加入者をうつ病発症者と定義し, 抽出した, そして, 最も早いうつ病の 診療開始年月日を Index Date とした. また, 観察開始年月が Index Date から過去 5 年間以内の加 入者は, 過去5年間すべての追跡が不可能であるため, 解析対象から除外することとした. 216

212.

表l :うつ病の定義 灘鱒畿髄説時 うつ病エピソ ー ド 反復性うつ病性障害 持続性気分[感情]障害 その他の気分[感情]障害 F33 F34 F38 上記の抽出条件のもと, うつ病発症者して36,528例を抽出することができた. 4.3 非うつ病群の設定 4.2節で述べた抽出基準のもと, JMDC Claims Databaseからうつ病発症者(うつ病群)を抽出 したが, 教師ありの機械学習を適用するために, できる限り同じ背景情報を持つ対照群( 非うつ 病群)を設定したいと考えた. しかし, JMDC Claims Databaseは, 個人を特定できないように匿 名加工されているため, 個人の詳細な背景情報は存在しなかった. そのため, うつ病群の各個人 の生年と性別が同じで, うつ病群に属していない加入者をl対l でマ ッチングさせて, 非うつ病 群を設定した. したがって, グのイメ ー うつ病群と非うつ病群の年齢分布と男女比は等しくなる. マ ッチン ジを図3 に示す. 関同 一 間 のE司 -Y l 年 S -一 生 S -一 嫡 時 -一 々m v -一 様 -一 ・-v -一 E-v av-一 ....... 犠々な傷病の診断 多 ,lj, Jj. 。 初めて「うつjと診断 .QI. ' 図3: マ ッチングのイメ ー ジ 生年と’性別でマッチングした際, 97例のうつ病発症者がマッチングできなかったため, 解析対象 から除外した このため, 解析対象集団はうつ病群36,431例, 非うつ病群36,431例となった. う つ病群, 非うつ病群ともに解析対象者の平均年齢は40.95歳(標準偏差:13.14歳), 性別の内訳 は, 男性が22,520例(61.8%), 女性が13,91l例(38.2%)で、 あった. 解析対象者の年齢と性 別の 分布を図4に示す. 217

213.

Gt叩p 白悶』p=[迫p陀SSi聞 nu nunu zueo ヲ, 日 2α刃 4000 自由::0 sα::0 1αXO 0 zαp 4(X泊 6α::0 8日::0 1日工口 度数 i空白雨明一同e 図4:解析対象者の年齢と性別の分布 4.4 、 ロジスティック回帰モデ ルの適用 各解析対象者の Index Date から過去 5 年間の疾患履歴を, ICDIO の小分類に基づいて調べた このとき, うつ病と同日に診断された疾患 (Index Date と同じ診療開始年月日を持つ疾患) は含 めないこととした. Index Date と診療開始年月日の差から, 診断年を Index Date の 5-4 年前, 4-3 年前, 3-2 年前, 2-1 年前, 1 ・ 0 年と5つのカテゴリに分類したうえで, 診断年ごとに各疾患の診 断の有無を2値で表した解析用デ ー タセットを作成した. 作成した解析用デ ー タセットのイメ ー ジを表2に示す. うつ病発症の有無を応答変数, ICDIO の小分類における各疾患の診断の有無を 説明変数とするロジスティック回帰モデルを当てはめ, 変数増加法( SLENTRY=0.005)で変数選択 を行った. 表2:解析用デー タセットのイメ ー ジ -- 一nu 一nunutE-11 nu 5-4 年前 4・3年前 3・2年前 2・l年前 トO年前 5・4年前 -ti 一nu 一 ’i 一nu ’l 一AU 凸U yyyy うつ病群 うつ病群 うつ病群 うつ病群 うつ病群 非うつ病群 一 ’I 一 白U 一nu 一nu 一nu xxxx xxxx xxxx xxxx xxxx 、 ロジスティック回帰を適用した結果, 5-4 年前のモデルでは 67 疾息, 4-3 年前のモデ ルで、は 72 、 疾患, 3-2 年前のモデルでは 82 疾患, 2 ・I年前のモデ ルでは 87 疾患、, 1-0 年前のモデルでは 1 IO疾 患がそれぞれ選択され,すべてのモテツレを通じて,182 疾患が選択された.選択された疾患を ICDIO の大分類ごとの内訳を確認すると,F(精神及び行動の障害)に分類される疾患(20 疾患)の割合 が最も高かった. 218

214.

4.5 疾患名の分類 ロジスティック回帰モデルで, うつ病発症に関係すると思われる疾患を絞り込むことはできた が, 疾患の数は依然として多いため, 疾患名に頻出する文字をもとに疾患の絞り込むアプロ ー チ を検討した. 様々なアプロ ー チが考えられるが, 今回は迅速な仮説立案を目指し, 選択された ICDJO の小分類名を l 文字ずつ分解し, 分解した l 文字ずつの出現頻度を集計した結果から絞り 込みを行うこととした. 集計した結果は以下の表3に示す. 表3 :疾患名に含まれる文字の頻度(頻度が12回以上の文字だけ抜粋) 日一 日一 日一 ロ一 口一 口一 口 さ一 れ一 関一 い一 感一 菊一 皮 日 同一 同一 日一 凶一 同一 同一 分 物一 明一 部一 不一 る一 日 封一 位一 泣一 泊一 刀一 幻一 害一 症一 炎一 に一 <一 > 副一 見一 日 問一 “一 日一 位一 障 そ一 及一 性一 び一 他一 の一 疾息名に含まれる文字を集計した結果, 頻度が上位の文字には, 「 障j, 「害J, 「 炎」, f 痛」 の ように文字から疾患を連想しやすいものが存在することを確認できた. そのため, 選択された疾 患、のうち, 疾患名に 「 炎」を含む25疾患, を含むほぼすべての疾患は, 「 痛」を含む JO 疾患に分類した. 「 障」 と 「害」 がともに存在し, また, 「 障」と「害」 多くは ICDJO の大分類で F に該当 する疾患であった. そこで, F(精神及び行動の障害)に分類される疾患は, うつ病と大分類が同 じであることから, うつ病との関連が強いことが推察されたため, ICDJO の大分類が 「 F(精神及 び行動の障害)」に該当する20疾患, 上記のいずれにも当てはまらなし、128疾患に分類した. 疾 患、名に 「 炎」 を含む疾患, 分類した疾患の 一 「 痛」を含む疾患, 覧を表4に示す. 219 ICDIO の大分類の 「 F (精神及び行動の障害)Jに

215.

表4:疾患の分類 その他の胃腸炎及び 大腸炎,感染症及び 詳細不明の原因によ るもの 急性副鼻腔炎 血管運動性鼻炎及び アレルギ ー 性鼻炎< 鼻アレルギ ー > 胃炎及び十二指腸炎 脂漏性皮膚炎 尿道炎及び尿道症候 群 臆及び外陰のその他 の炎症 片頭痛 背部痛 l 急性扇桃炎 |急性咽頭炎 慢性喉頭炎及び慢性 喉頭気管炎 その他の非感染性胃 腸炎及び非感染性大 腸炎 詳細不明の接触皮膚 炎 前立腺の炎症性疾患 気管支炎 急性又は 慢性と明示されない もの 慢性肝炎,他に分類 されないもの 1@1�� |急性喉頭炎及び気管 炎 及び液状物に よる肺臓炎 |アトピ ー 性皮膚炎 その他の関節炎 滑膜炎及び腫鞘炎 乳房の炎症性障害 子宮頚(部)の炎症 性疾患 その他の頭痛症候群 女性生殖器及び月経 耳痛及び耳内貯留 咽喉痛及び胸痛 痛風 腹痛及び骨盤痛 アルコー ル使用<飲 酒>による精神及び 行動の障害 タバコ使用<喫煙> による精神及び行動 の障害 詳細不明の気分[感 情]障害 重度ストレスへの反 応及び適応障害 摂食障害 恐怖症性不安障害 その他の不安障害 解離性[転換性]障 身体表現性障害 頭痛 脳の損傷及び機能不 全並びに身体疾患に よるその他の精神障 害 双極性感情障害<操 うつ病> 強迫性障害<強迫神 経症> その他の神経症性障 害 広汎性発達障害 4.6 室Eコ 主 非器質性睡眠障害 |小児<児童>期及び 青年期に通常発症す るその他の行動及び 情緒の障害 |多動性障害 他に分類される障害 又は疾病に関連する 心理的又は行動的要 因 |精神障害,詳細不明 Visual Anal戸ics を利用した図示 解析結果を図示するため,SASViyaに搭載されているVisual Analyticsを利用した(Visual Analyticsで作成し,出力後,一部PowerPointを使って追記した部分もある) • 4.4節で選択され た疾患における,l人当たりの年間診断数の推移を群ごとに集計した結果を図5に示す. I人当 220

216.

たりの年間診断数における, 疾患ごとの内訳を図6に示す. 年間診断数(延べ数)の疾患ごとの 構成を図7に示す. 1人当たりの診断書量 4, 4.63 うつ病鮮 旦27 J.12 J.02 ー 2.12 2.11 2.11 2 14 4・3年前 3-2年官官 2・1年前 1・0年寄司 2.10 非うつ翁群 。 5-4年前 惨断年 図 5 : I人当たりの診断数の推移 ___; tJ.当たり由怠額歯 2.5 2.0 うつ病群! 1.s I 〆.,... ! J 1.0 --- 非うつ鱗| 0.5 0.0 I -- … ; 4・J!j:古書 2・.1£手前 : … / 開封;:.;�正弘切 i手伝的(;:.;�出 ,;�;�i,i 日雨量工合仁三五前一両手前;何年約 i 牛3年前 2-ll¥高官 f炎Jを含む疾患 ; f痴」を含む咲8 4・3年前 2・1年前 ! 3持前 l岬前 2-1王手前 4・3王手告書 ffjに分額される疾患 その他 図6 : I人当たりの年間診断数の推移(疾患の種類ごとの内訳) 齢鰯牢・ !1-4年闘 •·J革関 FREQ FREQ FREQ 1--0牢麗 l-1牢悶 J.l年草書 FREQ 合齢 186759 190836 195945 203412 うつ続審 IJO!i3 113マ18 118978 126425 葬うつ病偉ーーー回一 76586・E・E・- 7711 8・・・圃幽E 76967・-圃 76987・-・ 、輔 うb司.. 246947 168836 78111 司 慮” 開制 4 1, FREQ r炎jを含む疾患 2: r痛jを含む疾患 3: fFJに分類される疾患 4:その他 外側:うつ病群 内側:非うつ病群 図7・年問診断数(延べ数)の疾患の種類ごとの内訳 221

217.

4.7 探索結果のまとめ 図5より, 非うつ病群に比してうつ病群では, 「うつ」と初めて診断される 5年前から, l人 当たりの年間診断数は多く, さらに, IndexDateに近づくにつれて増加していた. 図6の疾患ごとの内訳をみると, いずれの疾患もうつ病群の方がl人当たりの年間診断数は非 うつ病群より多かった. さらに, いずれの疾患もうつ病群では, うつ病発症l年前から発症直前 までの1年間の診断数がそれ以前の診断数に比べて大幅に増加していた. 図7の疾患構成率をみると, 非うつ病群では各疾患の構成率は変化していなかったが, うつ病 群では, IndexDateに近づくにつれて, 「炎Jを含む疾患の割合が減少し, 「痛」を含む疾患と 「F (精神及び行動の障害)」に分類される疾患の割合が滑加していた. 5 まとめ 本稿では, RWDを解析するための弊社のDBシステムと解析環境を紹介した. さらに, 実際にRWD の解析を実施し, 我々が直面した落とし穴とそこからの脱出法を紹介した . RWDは, 特定の患者集団 を対象としない臨床デ ー タであるため, 一 般化可能性の高い集団における医薬品の有用性や安全性, 使 用実態を検討することが期待できるデ ー タソ ースである. しかし, RWDは通常の臨床試験デ ー タをは るかに上回る容量のデ ー タであるため, 容量の大きいデ ー タを処理できるハ ー ドウェアやDBシステム の整備が必要となる. また, 解析担当者はリソ ー スを効率的に利用できるプログラミングを意識する必 要があるが, 臨床試験デ ー タの解析業務に慣れ親しんだ担当者には難しし、かもしれない. 本稿で紹介し た内容が, 今後RWDの解析に取り組む方々の 一 助となれば幸いでEある. 今回の解析はSASViyaに付属するSASStudioVを利用して, Data/ProcステップにてSASライブラ リ内にデ ー タセットを作成して解析を行ったが, SASViyaには, 並列分散処理型のインメモリエンジ ンであるCASが用意されているため, CAS上のデ ー タをCASプロシジャで加工 ・ 解析することで, より業務の効率化に繋がるかもしれない. 可能性を秘めたインメモリエンジンCASを活用できるよう に, 今後, CASプロシジャおよびCASアクションの学習を進めたい. また, 解析対象集団を定義し, RWDから対象となるデ ー タを抽出して解析を行い, 結果を得るため のまでの解析プロセスを紹介した. 本稿で取り上げた事例では, 仮説立案のための思考と実践のサイク 、 ルにスピ ー ド 感を持って回していくために, 対照群の設定には, うつ病発症者と生年と性別が同じうつ 病未発症者をマッチングすること, さらに, 疾患の分類には, 疾患名からの文字に分解するアプロ ー チ をとったが, これらには, 他にも様々なアプロ ー チが考えられる. 今回紹介したアプロ ー チを改善しな がら, RWDマイニングで臨床 ・ 医学的に意味のある仮説を今後も探索していきたい. 参考文献 I. JMDCClaimsD唱tabaseの特徴. httos://www.imdc.eo.io/oharma/database.html 2. SAS/A ccess Interface to Hadoop. httos://documentation.sas.com/?doc回tld= acreldb&docsetTarn:et=nOk1rn628cl4ewmnI ohdwdm5co5l i.htm&docset Version=9 .4&locale= ia 222

218.

3. 田津孝之ら. はじめての Hadoop 分散デ ー タ処理の基本から実践まで. 技術評論社. 4. Tom Keefer. SAS/ACCESS⑧Interface to Hadoop: Experiences and Best Practices at a Large Financial Institution. SAS GLOBAL FORUM 2019. 2019. 、 5. 宮崎洋. SAS Viya Data Mining and Machine Leaming プレピ ュ ー . 6. Stephen Sloan. Twenty Ways to Run Your SAS® Program Faster and Use Less Space. SAS GLOBAL FORUM 2019. 2019. 223 SAS ユ ー ザ ー 総会 2015. 2015.

219.

機械学習を用いた統計解析ソフト間での言語トランスレ ー タの開発に関する考察 0横井章泰 (ヤンセンファ ー マ株式会社 研究開発本部 クオンティタティブサイエンシズ統括部 生物統計部 クリニカル ・ インフォマティクスグル ー プ) ・ 目的: 昨今,統計解析の帳票を作成する方法は多岐にわたる.数多くのソフトウェアが使用可能であり, プログラミングによる結果出力も多い. どのソフトウェアを使用しても, 閉じ結果を得られるよう にすることは, 社内資産の有効活用や整合性の担保という点において, 非常に有用であると考えら れる. また, Rプログラマ,SASプログラマ, Pythonプログラマ等, ある1つの言語に習熟したプ ログラマが,他のプログラミング言語による業務を要請された場合にその言語を習熟するには学習 コストが必要となるが, その学習コストが削減できれば, プログラミングに関する人材リソー スの 活用がより効率的となる. 上記の実現に寄与すると考えられる, 「機械学習を用いた統計解析ソフ ト聞での言語トランスレ ー タの開発」について考察する. 原理は, プログラムソー スコ ー ド(SAS, R, Python)と出力帳票のベアを考え, 既存の帳票を画像に 変換し, 類似する帳票をグル ー ピングする技術をベ ー スとする. 画像ベ ー スでの分類を機械学習などの手法を用いて行うことにより, プログラミング言語間の関連 性の紐づけが可能になると考えている. 第 一 歩として, 機械学習を用いた, 画像(グラフ)を分類 する試みについて考察した結果を発表する. ・概要: 本発表では,実際に駆動するプロトタイプソフトウェアを開発し,デモンストレ ー ションを行う. 各開発フェ ー ズ(要件定義, 外部設計, 詳細設計, 実装)を通じて, 開発上の課題を明確化する. 要件定義フェ ー ズにおける機能要求は以下である. 1. グラフ概念の自己学習機能. 「箱髭図, 散布図, 円グラフJ等の概念をソフトウェアが自ら自己学習する機能を示す. ソフトウェアが自らインター ネットを検索巡回し, 得られた情報を学習教材とすることによっ て概念の自己学習を行う. 2. 帳票画像の自動分類登録機能 1.で学習した成果を元に, 社内資産である帳票画像とソー スコ ー ドのベアを画像ベ ー ス で自動 分類し, デ ー タベ ー スに登録する機能を示す. 3. 類似した画像とベア登録された画像に基づく検索機能. 作成したい帳票画像を入力として与えることにより, 登録デ ー タベ ー スを検索し, 類似画像を 出力するためのプログラムを検出する機能を示す. 4. セキュリティの観点、からサー バ ー にあるデ ー タではなく, クロー ズした系で動作が可能. 5. 非力なマシン環境下においても, ソフトの実行が可能. 上記要求を満たすソフトウェアの開発を通して得られた知見を糧に考察を行う. Keyword : Python ,転移学習,CNN(Google Mobile Net),TensorBord, GoogleimageCrawler 224

221.

高次元遺伝子解析の呪いからの解放 新村秀 一 (成践大学 名誉教授) Free from the Curse of High-dimensional Microarray Data Analysis Shuichi Shinmura Seikei University Emeritus Professor 要旨 「Microarray デ ー タ(nくく p)を用いて癌遺伝子を特定する研究Jが 1970 年頃から行われてきた ( Golub ‘ 1999 )。これらの研究で用いられた 6 種の Microarray が公開されているので、統計に限らず機械学習(AI) 等の工学の新テ ー マとして研究されてきたが、 いずれの研究も成功していなし、(判別分析の Problem5)。 しかし 2 群判別が最も適した手法であり、 筆者は僅か 54 日間で簡単にこの問題を解決した。 結果は非 常に単純である。 6 種のデ ータは線形分離可能なデ ータ(Linearly Separable Data, LSD)である(Fact3)。 こ の重要な信号が、 これまでの研究で誰も指摘していない。 さらに、 筆者が開発した Matryoshka Feature Selection Method (Method2)で、簡単に 線 形分 離 可 能 な n 個以下 の 遺 伝 子 の k 組 の部 分 空 間 (Small Ma町oshka, SM)と最小誤分類数(Minimum Number of Misclassifications、 MNM)が l 以上の雑音部分空間 に分割できた(Fact4)。 各 SM は統計分析が容易な小標本で、あるが、 ロ ジスティック回帰以外の標準統計 手法( 一 元配置の分散分析とt検定、 相関分析、 クラスタ ー 分析、 PCA、 Fisher の LDF)は LSD である 事実を示さなかった( Problem6)。 そこで、 MNM 基準による改定 IP-OLDF (RIP) の判別スコア(RIP Discriminant Score, RipDS)を変数とし、 n 症例 * k 次元の信号デ ー タ(kく=n)を作成した。 これを標準統計手 法で分析し「癌の遺伝子診断を統計分析で世界初の提案」ができ、今年 5 月に Springer2[ 16 )を出版した。 以上の研究が簡単にできたのは、大学卒業以来研究してきた判別分析の新理論( Springer![ 15 ])が 2015 年に完成し、 その応用問題として未解決の癌の遺伝子解析( Problems)が簡単に解決できた。 本来であ れば癌の遺伝子研究の専門家でない筆者が「癌の遺伝子診断」までを行うことは適していない。しかし、 2 群が Microarray 空間で完全に分かれていて、 さらに MNM=O である k 組の SM に分割できる。 そし て RipDS で信号デ ー タを作ることで、 標準統計手法で有効と考えられる癌の悪性度指標を数多く発見で きた。 しかし、 これ等のどの悪性度指標が医学的に役に立っか否かは医学専門家の検証が必要で、 ある。 大学卒業以来の研究テ ー マで、ある判別分析の新理論 と 「Microarray による癌の遺伝子解析と診断」に 初めて成功したので、 これまでの研究を見直した。 そして 「高次元の LSD は、 ケ ー ス数 n 個以下の遺 伝子のk組の小標本に必ず分割できるという事実jが統計にとって 一 番重要と考えた。 すなわち、 我々 は 「高次元デ ー タの呪し、から数理計画法(MP)の LP と IP で定式化した LDF で解放される (2 次計画法 QP で定式化した SVM ではできない)。 そして、 分割した SM を統計分析し新しい癌の遺伝子診断の世 界が広がる」。 筆者は、 統計ソフトを用いた 「デ ータの科学」 と MP ソフトによる「モデルの科学」 で知 的生産性の向上を提案してきたが、 これ等の連携で誰も解決できなかった問題を解決し、 主張の正しさ を示すことができた。 遺伝子診断の統計分析の詳細は、 JMP ユ ー ザ ー 会で報告する。 キ ー ワ ー ド:高次元 Microarray デ ー タ解析、 癌の遺伝子診断、 線形分離可能なデ ー タ(LSD)、 LSD 227

222.

の SM 分割、最小誤分類数(MNM)、Revised IP-OLDF(RIP) 1. 初めに 1.1 1970 年頃から成功していない癌の遺伝子解析を 2015 年 12 月に僅か 54 日で解決 「高次元 Microarray による癌遺伝子の特定と癌の亜種を見つける研究Jが 1970 年頃から行われ てきた[ 11 ]。 これらの研究で用いられたデ ー タが公開されているので、統計に限らず工学系の機械 学習(AI)等の新テ ー マとして研究されてきた。本研究に関して、医学以外の多くの研究が次の「3 つの困難」を指摘している通り、いずれも成功していない。 I) nくくpの高次元デ ー タ解析の困難:例えば分散共分散の推定が難しい 2) 、 高次元デ ー タのそデ ル選択は NP-Hard になる:単に統計の狭い世界の話 3 )雑音から信号を分離することは困難(Problem6):何を信号と考えるか不明な議論が多い しかし、仮に症例数が n= IOO で遺伝子数が p= I0,000 の発現量とすれば、2 群判別が最も適した手 法である。 筆者は 2015 年 12 月 20 日迄の僅か 54 日間で、表 1 のように簡単にこの問題を解決し た。 用いたデ ー タは、1999 年から 2004 年の間に米国の 6 医学研究プロジェクトが Science 等に論 文を発表し、研究に用いた公開デ ー タである。 これらは Alon [8]と Singh は癌と健常の 2 クラス、4 種の Golub、Shipp、Tien と Chiaretti は異なった癌の 2 クラスである。 これらは異なった癌種でもあ るが、 Springer2 に示す通りほぼ同じ結果が得られた。 表1 6 種の Microarray の Method2 による結果 Data Description Alone et al. Normal (22) vs.知mor c叩cer (40) Chiaretti et al. Size SM:Gene JMPI2 62 *2000 64 :1152 5 (8) 8-cell (95) vs. T-cell (33) 128*12625 270:5385 3 (2) Golub et al. All (47) vs. AML (25) 72 キ7129 69:1238 8(11) Shipp et al. Follicular lymphoma (19) vs. DLBCL (58) 77 キ 7129 213:3032 3 (4) Singh et al. Normal (50) vs.同mor prostate (52) 102 *12625 179:11387 10(10) Tian et al. False (36) vs. True (137) 173 キ12625 159:7221 29(17) 結果は非常に単純である。 6 種のデ ー タは LSD である(Fact3 )。 この重要な事実であり信号が、 これまでの研究で誰も指摘していない。 唯 一 、青嶋・矢田[叫が、これ等の6種を含むIO種以上の デ ー タで 2 群が 2 つの異なった球体上に布置していることを高次元 PCA 等の研究で指摘している。 さらに、筆者が開発した Method2 で MNM 基準による RIP で簡単に LSD である n 個以下の遺伝子 数のk組の SM と MNM が l 以上の雑音部分空間に分割できた( Fact4)。 このことは、統計学にと って「高次元の LSD はk組の小標本の SM に分割され、我々は高次元空間の呪し、から解放される」 ことを意味する。 以上の研究が簡単にできたのは、 大学卒業以来行ってきた判別分析の新理論(Springerl[l5 ]) が 2015 年に完成し、その応用問題として 1970 年頃から未解決の癌の遺伝子解析(Problems) を MP ソフトの LING0[3][4][I4 ](と Excel のアドインソフト What ’ s Best !)で、簡単に解決できたためであ る。 そして、II月開催の JMP ユ ー ザ ー 会で、癌の遺伝子診断の統計分析方法と結果を紹介する。 228

223.

1.2 SM による癌の遺伝子診断の四IJP1111211711131による初めての提案 本来であれば癌の遺伝子研究の専門家でない筆者が 「癌の遺伝子診断」 までを行うことは適して いないことは十分理解している。 しかし、 癌は遺伝子の病気であり、 高次元の Microarray 空間で 2 群が完全に分かれていて、 さらに MNM = O である k 組の SM に分割できる。 各 SM は統計分析が 容易な小標本(Small n, Small p)であるので、 統計分析で有効な癌の遺伝子診断が提案できると考え た。しかし、ロジスティック回帰以外の標準統計手法で LSD である事実が示されなかった(Problem6)。 そこで試行錯誤のすえ、 RIP の判別スコア( RIP Discriminant Score, RipDS)を遺伝子の代わりに変数 とした n 症例* k 次元の信号デ ー タ( k<=n)を作成した。 これを標準統計手法で分析し LSD である事 実と癌の悪性度指標を数多く発見し 「 癌の遺伝子診断の統計分析法を世界で初めて提案できた (Springer2[ 16 ])」。 しかし、 これ等のどの癌の悪d性度指標が医学的に役に立っか否かは医学専門家 の検証が必要である。 残念ながら Golub らの研究後に、「 NIH が乳がん以外の癌に関して Microarray による研究は成果 が出ないと判断し、 医学研究が終わったようであるん このため、 し、かに医学専門家の検証につな げるかを 2016 年から模索しているが方策がない。 しかし統計や工学研究者は、 NIH の報告を知ら ずに研究を続けているのは 一 般的に問題であろう。 また、デ ー タが LSD であるのに、そのデ ー タを 学習標本に用いた AI 研究が LSD の事実を指摘しない点だけが、 まだ説明できていない。 1.3 、 統計ソフトによる「デ ー タの科学」と MP ソフトによる「モデ ノレの科学Jが知的生産性を向上 させるという筆者の主張が実証できた 大学卒業以来の研究テ ー マで、ある判別分析の新理論を確立し、その応用として「高次元 Microarray の癌の遺伝子解析と診断jに成功した。 そこでこれまでの研究を見直した結果、 LSD である高次元 デ ー タは、症例数n個以下の遺伝子のk組の小標本に必ず分割できるとし、う事実が統計で 一 番重要 と考えた。 すなわち、 我々は 「 高次元デ ー タの呪いから LP と IP で定式化した LDF で解放され、 QP で定式化した SVM ではできない。 そして、 小標本の SM が統計分析で良い結果を得ない P r油lem6 を信号デ ー タで解決し、 品/JP で新しい癌の遺伝子診断の世界を提案できたJ。 本研究では、統計的判別関数がなぜ役に立たなし、かの理由を試験の合否判定で誤分類確率が3割 を超えるものがあることと表1に示す通り Microarray で 17% も誤判別することで示す。 すなわち 統計的 LDF は LSD の判別に全く役に立たないばかりか( Problem2)、 判別分析の基本統計量の誤分 類数(NM)も問題が多い( Probleml )。 小標本 SM の判別分析でも Fisher の LDF, QDF , 正則化判別関 数( RDA)、 LASSO は全く役に立たない。 一 方 Fisher が開発した最尤推定法で求めたロジスティッ ク回帰は、 Microarray を分析できないが、 全ての SM を NM = O で判別した。 LASSO 研究苫は、 癌 の遺伝チ解析への応用合汚えているが米だ成功していない れ 彼らは回帰係数 Jヤj':IJ別係数を()にした 残りの非ゼロのモデルをJfl l 、れば、 変数選択の NP-Hard を克服でき Problems が解決できると単純 に考えている c 筆者の学位論文で、 「 LSD でない Fisher のアイリスデ ー タで自然に多くの判別係数 がOになる」ことを示した。 これは判別超平面を固定したケ ー スが偶然にある変数値で同じ値をと ると、 その変数の判別係数が 0 になっただけである。重要なのは LSD である場合に判別係数が 0 に なれば、 その LSD と部分空間で 2 群が完全に分かれていて、 わざわざ高次元 LSD で研究する必要 がなく低次元の部分空間 SM で検討すればよいという点である。 すなわち癌遺伝子の特定が SM で 行える。 これに対して意図的に判別係数を 0 にしても、 その部分空間が LSD でないのに確実に癌 229

224.

遺伝子が含まれると主張する理由が分からない。 一 IPだけが、 理論的 方、Vapnik[20]がQPで定式化したハー ドマ ー ジン最大化SVM(H-SVM)とR に高次元のLSDを判別できる。筆者の開発したRevisedLP・OLDFとRevisedIPLP・OLDF、 そしてソ フトマ ー ジンSVM (S-SVM)でペナルティ ー cを104 にしたSVM4も経験的にLSDが分かる。 しか し「医学研究でSVMを用いた研究もあるが Fact3を報告したものがなし、」のは不思議で、ある。 そ して残念なことに、 RIPとRevisedLP-OLDFだけが、Microarrayをk組のSMと雑音に簡単に分割 できるが、SVMができない理由を数理計画法の入門的な知識(日科議連2[4])で説明する。すなわ 、 、 ち「何故IPとLPモデ ルだ けが高次元デー タの呪いから我々を解放できたjかを説明する。 Method2で、 他の高次元LSDで、あっても容易に k組のSMに分割し、 統計分析で研究できる。 本研究は、 質が高く、 2群がLSDとし、う検証しやすいデ ー タを用いたことで、 LINGO とJMPの組 み合わせで、 初めて役に立つ研究を退官後に完成で、きたことは医学デ ー タを研究対象とした幸運で ある。 2. 判別分析の新理論とその応用研究としての癌の遺伝子解析と遺伝子診断の成功の理由 2.1 判別分析の新理論 1971年に大学卒業後、 大阪府立成人病センタ ーで心電図の正常所見と10種以上の異常所見を FisherのLDFとQDFで判別し診断論理の構築を考えた。 しかし医師の開発した枝分かれ論理に敵 わなかったことが「新しい判別理論研究Jの動機になった。 線形判別関数f(x)の判別規則は単純で ある。 1) yi*f(Xi)>Oであればclasslか class2に正しく判別され、 2) yi*f(x;)=Oを満たすおの帰属は決定できない。 しかし多くの研究は理由なくこの未解決の問題2) を classlに判別されたとしている (Problem I)。 さらに判別分析の基本統計量である NMは、 1)判別境界を動かすと変わるし、 2)異な ったLDFで異なった NMが得られ、 3)事前確率やリスクを変えることでも異なってくる (Probleml)。 これはMNM基準に基づくIPOLDFで解決できた。 学位論文の Fig.lで初めて判別 司 係数と NMの関係が分かつた(Fact!)。 そしてMNMの集合の最適凸体(O ptimalConvexPolyhedron, OCP)でProblemlを解決できる。 さらにMNMの単調減少 ’性(MNMk> =MNM(k+I)、 Fact2) を発見し た。 日科議連1[3]で、 スイス銀行紙幣デ ー タ[ I OJが 2変数(X4,X6)でMNM(X 4,X6)= 0であるので(Basic G eneS et,BG旬、 (X4,X6)を含む16モデルがLSDであり、 残り 47 モデルのMNMが l以上である ことが分かつた。 この初めてのLSD判別研究が、 Problemsをわずか54日で解決できた理由であ る。V apnikは H-SVMで初めてLSD判別を定式化したが、 多くの研究者がKernelSVMに注目し LSD判別を行わなかった。RIPとH-SVMだけが理論的にLSD判別が可能であるが、 分散共分散 行列に基づくLDFはLS D判別を正しく行えない。 これは大学入試センタ ー 試験の研究用デ ー タの 数学I aとIlbで、 得点合計で合否判定すると誤分類確率が 3割近くになることで確認している。 さ らに全合格者がある設問に正解すると、 QDFとRDAが全合格者を不合格群に誤判別する 一 般化 逆行列の取庇もある(Problem3)。 FisherがLDFの判別係数や誤分類確率の標準誤差を定式化しな かったことから分かるように、 判別分析は推測統計学ではない(Problem4)。 竹内先生[6]が唯 一日 科議連1を書評し、 小西定則著も書評されている。 小西らはBootstrap法で半IJ別分析の標準誤差を 応用統計誌で 一 般論として論じている。 筆者は、 現実のデ ー タの多様性に対応し、 230 「小標本の100

225.

重交差検証法(Method!)」を提案した。 Methodlで3種のOLDFを3種のSVM、 FisherのLDFと ロジ ス ティック回帰の8種のLDFを6種のデ ータで比較評価した。 6種のデ ータは、Irisデ ー 夕、 学生の成績評価、 多重共線性のあるCPD デ ー 夕、 ス イ ス 銀行紙幣デ ー 夕、 10択100聞の統計入門 、 の6回の合否判定、日本車の普通車と小型車の判別デ ータである。 100 組の学習と検証デ ータか ら、 平均誤分類確率を求める。 そして「全てのモデ、/レ[7]」で最小のものをMlとM2 とし、 6種の 、 デ ータの全てのモデルでM2 最小のBestモデ ルを比較したところ、 R1Pが一 番よく、 次にロジ ス ティック回帰とSVM4が第2順位で、 FisherのLDFが 一 番悪かった。 しかし日科議連1では、 判 別係数の95%信頼区間の良い結果を示せなかった。 2015年に10択100聞の合否判定で、 8種の LDFの判別係数を定数項で、 割って正規化することで、 FisherのLDF以外の7種のLDFの判別係数 がほぼlの自明な判別関数になり、 判別分析の4つの問題を解決で、 きた[ 15]。 そこで2015年10月 25日に富山市で開催された科研費シンポジュ ー ムで、 2016年に刊行予定のSpringerIの概略を発 表した。 翌26日に筑波大学の院生の石井さんの発表で、 6種のMicroarrayが公開されていること を知り、 1970年頃から解決されていない判別分析のProblem5 の解決を忘れていることに気づい た。 2.2 癌の遺伝子解析の成功 10月28日にJ efferyら[ 12]のHP からデ ータをダウンロ ー ドしShippのデ ータを判別するとLSD であることが分かつた(Fact3)。 さらに32個の係数だけが非ゼロで、 残り7,097個が自然にゼロに なる。 もう一度判別すると更に小さいモデルが求まり、 3回の判別で8変数に落ちついた。 これは ス イ ス 銀行紙幣デ ータで発見したBGS でないのでSMと呼ぶことにした。 そしてMethod2をMP ソフトのLINGOで作成し、 12月20日まで表1に示す通りk組のSMとMNMが1 以上の遺伝子 の部分空間に分割した。 例えばAlonらは62症例で2,000 遺伝子と 一 番小さいデ ータである。 これ が1,152個の遺伝子からなる64組のSMに分割できた。 JMP12列は、 2015年11月に開催された JMPユ ー ザ ー会で、 S all博士が特異値分解で高次元の横長デ ータに対応したFisherのLDFの紹介を したので、 1ヶ月借用し分析した NMと括弧内は誤分類確率である。 Tienでは誤分類確率が17% である。 すなわち正規分布を仮定して求めた判別超平面は、 正規分布でないデ ータでは判別超平 面の近辺にある多くのケ ース を間違うという単純な理由である。 医学診断や試験の合否判定で、 判別超平面の近辺に多くのケ ース があり、 誤分類確率が3 割程度のものも出てくる。 理由もなく 判別超平面上のケ ース を classIに判別する間違いや、 NMが信頼に足る統計量でないことは自明で ある。 これらが筆者以外指摘する研究者がいないのが、 判別理論の大きな問題である。 2015年口 月l 1 Elカミらロンドン大学で開催されたCM Statisticsで発表したU なぜか私以外の従表はLASSOに 関するもので、 前のセッションもLASSOで、 ある、 そして将来Microarrayに適用し、 癌の遺 ft-� fを 特定1るというj臨旨のものが多かったの そこでMethodlの発炎をやめて表1の結取をポし、 「こ のテ ー マはもうすでに解決し、 LASSOでは無期であるjことを述べたが反論はなかった η LSDで ある坊合、 判日IJ係数が() (こなれば、 より小さい次元のヂ ー タ窓IUJで2群が分肉mされていて怠味が ある。 LSDでもないのに単にギljJ}lj係数が0になった治、ら、 それを省いたモデノレで怖の遺伝子ー を特 定できるというと張は非論理的である、 しかも数也何相度を0にできても、 全く立味がないコ 癌の遺伝子解析の代表的な研究は、 Je能ryらが10種のFeatureS election法を6種のデ ータで比 較している。 他の研究でもこの方法と「高次元のMicroarrayから雑音を除いた信号デ ータの抽出 231

226.

法jが提案されている。 しかし、彼らの研究で何を信号と考え、雑音と考えているかがはっきり しない。 高次元の Microarray は LSD であり 2 群がこの空間で分かれているので、これこそが信号 である。 さらに、それが n 個以下の遺伝子からなるk組の SM に分割でき、高次元デ ー タの呪い から解放された[ 17][18] 1 。 そしてこの小標本を統計分析し、癌遺伝子の特定や遺伝子診断の道が聞 かれた。 Microarray が LSD であることも分からない統計や AI 研究は海図なき研究である。 3. なぜ高次元デ ー タの呪いから解放できたか 3.1 IP・OLDF と実行可能領域( OCP) 式(1)に示す p 変数の LDF は、(b1,...,bp)を p 個の判別係数、(x1,. ・ ., Xp) を p 個の説明変数とし、bo を定数項とする。 これを bo で割って判別定数項を l に固定した LDF を考えた。 IP-OLDF を説明す る図lを考えたことが本研究の成功の鍵であった。 f(Xi) = b1*X1+… +bp*xp+bo = b,*x,+… +bp*Xp+l (1) これを式(2)のように IP で定式化し、IP-OLDF と呼ぶことにした。 MIN=Lei; yi*f(xi) >= -M* ei; (2) for i =I ,. ・・, n ; ei : Binary Integer 最初の行は目的関数で決定変数 ei の和を最小化している。 ei は 0/1 の 2 値の整数値である。 2 行自 は n 個のケ ー スでできる n 個の制約式である。 yi*f(x炉 Yi*(b,*x1+...+bp*xp+1 )が O 以上 (yi*f(x炉=0 )であれば classI か class2 に正しく判別され ei は 0 に、そして yi*f(xi)く O で誤判別さ れる場合は ei を l として Yi*f(刈〉=ーM にする。 BigM 定数を 10000 位の正の整数値とする。 これ で誤判別されるケ ー スの判別スコアが0未満-M以上の範囲であれば、制約式が満たされて計算で きる。 もし判別スコアが・M以下の値であれば、制約式を満たさないので計算できないがこれまで、 経験していない。 すなわち、。で判別されるおは Yi 吋(Xi)>=O、誤判別される Xi は Yi*f(Xi)>=-M とし て制約条件を緩める2者択 ー を行っている。 筆者の研究以前に MP の判別研究は行われている。 Stam [19 ]が 170 以上の研究と書籍に関する 総括論文を米国の OR 学会誌に出した。 丁度筆者が先行研究を調査せずに IP-OLDF で研究を始め た年である。 また Vapnik は 1995 年に SVM の本を出版し、統計や OR という分野を避けて機械学 習の分野で SVM を普及した。 統計は大きな研究テ ー マを亡くしたわけである。 Stam は彼の論文 の中で、「なぜ統計研究者は我々の Lp-norm[7 ]判別研究を利用しないのか?Jという章を設け て、同僚の大学の統計研究者との議論を載せている。 筆者は L町DO Systems Inc.の創立者でシカゴ 大学ビジネススク ー ル名誉教授の Linus Schrage 氏[ 14]より、Stam の論文を含む先行論文を読むよ うに言われ、そして判別研究は米国の OR 学会では終わったといわれた。 RIP に関する英語の論文 で Stam の論文を取り上げて「統計ユ ー ザ ー が MP による判別モデルを使わないのは、判別理論は Fisher が開発し、MP の判別研究は後追いの研究である。 その場合、 実証研究で MP モデルが統計 、 的判別関数より優れていることを証明する必要がある。 しかしこれらの研究は単に MP モデ ルの 提案だけである。 一方、SVM は SVM の範囲内ではあるが実証研究を行っている」と批判した。 筆者の論文を 2015 年以降に国際的な研究者 SNS の Research Gate(RG)に Up すると、Stam をはじ めこの種研究で有名な OR 研究者が私の研究を見ているという通知が RG から届いた。 暫くする 1 [17 ]はIEEEの機械学習の国際会議で、 筆者の成果と比べて AI 研究の批判を行っていてリジェク卜さ れるかと思った。 しかし Best ペーパーの一 つに選ばれ、 6 頁を 25 頁まで改定することを求められた。 232

227.
[beta]
と 、彼はOR誌の論文に変えて 、それ以前のウィ ー ンにある国連の研究機関のIIASAで、 行った資
料に差し替え た。彼のウィ ー ン滞在の数年後の2003年4月から1年間筆者もIIASAで在外研究し
ている。恐ら くそのことを知った上での 対応であろう。
IPO
- LDFを次の n =3、p=2 (n>p)のデ ー タで説明する。class 1y,
( = 1) にHl= (-2, ・3) 、class2に
H2=( ・1 1)とH3=(1,-3)の2件のデー タを考える。このデ ー タでIP-OLDFを表すと式(3)になる。
M刑=I: e;;

1*( ー2b,・3b2+l)>=ー10000匂,;

(
3)

・
ー1*(-2b,+lb2+l)>= ・ 1OOOO*e2; 1
- * (1 b, ・3b2+l) >= lOOOO*e3;

制約式 から次の式( 4)の3個の線形式を考える。
Hl:

-2 b, - 3 b2+ 1 = O; H2:

・ 1*十2 b1+ l b2+l) = O;

H3:

ー 1* (1 b, ・3 b2+l)

= O;

(4)

これは、図1の2次元の判別係数の空間を+半平面 (y;叫X;)>O) と ー 半平面 (y;*f(x;)く0 ) の2つの
半平面に分割する。+半平面の内点の任意のbは X;をデ ー タ空間で正しく判別し、一半平面の任
意のbは X;をデ ー タ空間で誤判別する。この3個の線形超平面は、判別係数の空間を7個の凸体
に分割する。各凸体の内点bは、3つの超平面の+半平面にあれば対応するX;を正しく判別し、
一半平面であればその X;を誤判別する。凸体の内点に記入した数字は一 半平面の数で表される
NMである。すなわち内点に対応する無限のLDFは記され たNM個のケ ー スを誤判別する。閉じ
ケ ー スを誤判別するLDFを同値と考えれば、わず か7個の同値なLDFしかないことを初めて示し
た。そして得られるCPは有限個しかないので 、最小のNMすなわちMNM が存在する。 パ タ ー
ン認識では、定数項boをlに固定しないで 、( p+l)次元の空間で判別係数と誤分類数の関係を説明
ー
している (.f; JI M:公!; 、 I·. I I I {i;E 1方 、 1\IJIU英!?、,|、l刊現行 ( 1998). [";/ J かりやすし、ノ、タ ー ン 山刊にl ・ オ
ウムれ:)。この場合、全ての超平面は原点を通り、筆者の研究のような豊能な成果を導かない。

一 6

。

相
一

、 \\一
ノ \い

\\\

UN\\

\

;
、、

・
〆
10

咽

図I判別係数と誤分類数の関係

図2 Product Mix (領域の最大・最小問題)

この図の MNM=Oの三角形をOCPと呼びIP・OLDFの実行可能領域である。MNM基準による
LDFはこのOCPを求めるよう定式化した。しかしIP-OLDFはOCPの3個ある頂点のいずれ かを
選ぶ。デ ー タが 一 般位置にない場合、例えば頂点、に3個以上のケ ー スがある場合、これ等を何れ
の群に判別する かは決定できない。例えば三角形の頂点に b,軸に平行な線形超平面を加える。下
側が 一 半平面とすれば、三角形のMNMはlになり、この超平面の上側にMNM=lの2つのOCP
の計3個のOCPができる。そこでOCPの内点を直接求めるRIPを開発した。この図 からLDFが
CPの頂点や辺上の点を選び、それを満たすケ ー スが3個以上であれば、その帰属を決定できない
ことが分かる。即ちCPの内点を選ぶことでProblem!が解決できる。RIP以外のLDFは、判別超

233

228.

平面上のケ ー ス数をhとすれば、 NMがh個増える可能性がある。 更に実行可能領域の全てが 、 、 MNM=OであるというこれまでのMPモデ ルで、定式化された例のないMPモデ ルになっている。 図lの FactIで判別係数と NMの関係を示し、 NMの欠陥を補うMNMを明確に定義した。 そし てMNMの単調減少性からMNM=Oであれば、それを含む全てがMNM=Oであり、LSDはMatryoshka 構造を持つことが分かつた。 すなわちNMの欠点を克服するMNMがLSD判別に重要な役割を果 たす(Fact2)。 これで癌の遺伝子解析が簡単に解決できた。 そして、 図lと連立方程式の解を求め る基礎知識で、 高次元のp次元からSMが簡単に求まるロジックを説明できた。 3.2 真のOCPの内点を求めるRIPの開発 IP-O LDFはデー タが 一 般位置にあれば、 真のOCPの凸体の頂点を求め、 判別超平面上のケ ー ス 数はp個である。 この頂点を共有する凸体は2P個あり、 そのうちの 一つが真のOCPになる。 しか しデ ー タが 一 般位置になく判別超平面上に(p+l)個以上のケ ースがある場合、IP-O LDFは真のOCP の凸体の頂点を求めない。 そこで式(5)のRIPを開発した。 ただしf(xi)=b1*x1+ ... +bp *xp÷hoで、あり、 boはlに固定しない。 デー タがLSDであれば全ての eiが 0になり、 全てのXiでYi*f(x炉=Iになり Yi*f(xi)>Oを満たすので、 classIかclass2に正しく判別される。 デ ー タがLSDでない場合、 Yi* 賢治) > = Iにならないケ ース即ち yi*f(ぉ)< Iになるケ ースXiに対して、 eiを1とすることで制約条件を Yi*f(Xi) >=・ 9999と緩めることで制約式として計算できる。 この時Mを1 0000から小さくしていく と「学生の成績デー タjでM=30程度で判別スコア yi*f(xi)の絶対値がl以下になり yi*f(Xi)=Oにな る可能性が出てくる。 必ず判別スコアをめ *f(xi)<・l lこするためにMを大きくする必要を日科議連 1で示した。 そして Mを大きくするとYi*f(xi)=Oになるケ ースXiを避けれるので、IP-O LDFで定式 化した図lのOCPの内点を見つけたと判断できる。 非常に回りくどい論理で 一 番理解しにくい が、 他は難解な式もなく単純明快である。 現在RIPが多分重心を求めていると考えているのは、 日本車の判別で座席数と排気量の各l変数が2組のBGSになる。 この場合小型車と普通車の最大 値と最小値の平均値を悶Pは最適解として求めていることは確認している(Springer I)。 IN=工ei; M (5) Yi*f(xi)> =l-M* ei; for i =l, ... n , e; : Binary Integer 3.3 通常のLPの説明とMethod2が簡単に高次元デ ー タをSMに分割できる理由 図2は日科議連2で取り上げた製品混合のLP問題で、 高校数学で習った「領域の最大 ・ 最小問 題jである。 AとBという2製品(p=2)を3個の制約式(n=3)で定式化し、 利益を最大化したい。 A は1 日当りのAstroの生産台数、 Bはl日当りの Cosmoの生産台数である。 Aの利益は20千円/ 日、 Cの利益は30千円滑である。 これをLPの標準形と呼ばれている数学表現(6)で定式化する。 MAX 20A +30C (千円) 豆 60 (Astroの生産能力) I)A 2) (6) C 豆 50 ( Cosmoの生産能力) 3)A十 2C 豆 120 (労働時間) 3つの制約式とモデルに現れないAミ0と Cミ0の5つの不等式を満たす図2の5角形を実行可能 、 領域とし、う。 MPモデ ルは制約式で変数聞の関係を記述する。 統計的判別関数は変数の分散共分散 行列を用いるので、 p個の変数がお互い拘束し高次元の呪いを避けることはできない。 図2の任意 234

229.

の A と C の値の組み合わせで目的関数( MAX=20A + 30C)の値を最大化したい。 LP では図に示す 等利益直線を平行移動し(A, C)=(60, 30)の共有点が最大利益 2100 になる。 もし C の利益が 40 であ れば労働制約と同じ傾きになるので、 端点( 60, 30)と(20, 50)の線分全てが最適解になる。 重要なこ とは、 LP の最適解は凸体の端点(頂点)か端点を含む辺になる。 端点の次元は MP の利用者は意識 しないが、 一般的には n 個の制約式と p 個の変数が n>p の場合、 n 個から p 個の制約式で作られ る線形式の交点、 即ちこの例では2次元である。 ただし端点に別の制約式が重なる場合は蛇の目 と言って、 この場合デ ー タは 一般位置になく判別超平面上のケ ー スは何れに判別するかは決定で きなし、( Problem !)。 さらに、 A=O と C=O の交点は l 次元である。 蛇の目の特殊例がない場合、 何 れにしても端点は高々p次元である。 一方、 高次元デ ー タすなわちがくpの場合、 交点は高々n次 元である。 そして(p-n)個の係数を 0 にする必要があり、 p が大きいと無数の交点の組み合わせが出 てくる。 これが、 RJP で判別すると高々 n 個の判別係数しかゼロでなく、 残りの判別係数が全て簡 単に0になる仕組みであるい7][ 18]。 統計的判別分析は、 なぜ高次元pの呪いに束縛されるのか? それは、 全ての変数の分散共分散行列を用いているからである。 このため変数は全ての説明変数 の間で束縛される。 また高次元の分散共分散行列を少数の症例から求めることは困難であった。 それが品伊は漸く特異値分解で 2015 年に高次元の LDF を発表した。 しかし表 l が示すように NM が O でない。 すなわち統計的 LDF は、 LSD 判別が困難なため Problems を解決できない。 3.4 3.4.1 なぜ高次元の呪いから解放できるか その理由 RJP と Revised LP-OLDF が高次元 LSD を k 組の SM に分割できる理由は、 「 筆者の定義した IP と LP モデルの実行可能領域( OCP )と、 線形代数の初歩的知識である連立方程式の解法の組み合わ せ」で明快に高次元デ ー タの呪し、から我々 を解放したかが分かつた。 しかし医学研究者や多くの統 計や工学研究者が、 SM を単純に分析しでも役に立つ結果が得られない新しい Problem6 を 5 ポで考 察する。 これは筆者がこれまで経験しなかった新しい「デ ー タの概念jである。 MP は、 n 個の制約式で実行可能領域を定義する。 目的関数を最大/最小にする最適解をこの実行 、 可能領域の決定変数の組み合わせから求める。 通常の MP モデ ルは統計と同じく n>p であり、 p 次 元空間で定義された実行可能領域の端点は n 個から p 個の制約式を選び、 p キ p の正則行列を連立 方程式の解として端点を求める。 即ちnからp個の制約式を選び交点を求めるので、 高々 p次元で ある。 一方nく くpの高次元空間では、 制約式がn個しかないので、 実行可能領域の次元はpでなく n 以下の Pi 次元(p , n)の制約を受ける。 そして p に代わって Pi 次元遺伝子空間の SM で n 個から p, く= 個の線形超平面を選んで Pi*Pi の正則行列を連立方程式の解として実行可能領域の頂点が求まる。 LINGO の Program3 で高次元の Microarray を判別すると、自然に n 以下の非ゼロの Pi 個の遺伝子の 判別係数が求まり、Microarray を簡単に k 組の SM に分割できる。分散共分散行列を基本とする LDF は p 個の遺伝子が互いを拘束し、 意味のある遺伝子を特定するため変数選択は NP-Hard になる。 さ らに Microarray が LSD である重要な信号が分かっていないので、工学研究が多くの Feature Selection 法を提案しているが結果が出ない。 3.4.2 OCP の特異性と通常の MP モデルの実行可能領域との違い 、 筆者の開発した LDF の実行可能領域( OCP )は、 図 l と図 2 の比較から通常の MP モデ ルの実 行可能領域と次の点で異なっている。 235

230.

I) 複数の実行可能領域としてのOCP 高次元MicroarrayがPi (Pi孟n) 次元以下の k組のSMに分割でき、 高次元デ ー タの呪し、から解 放できたのはOCPとSMの2つのステップに分けて考える必要がある。 OCPはn<pの場合、 高々 n次元以下になるので、 Method2のl回の判別でn次元以下のMa町oshkaが簡単に求まり計算速 度とSMを求める出発点になる。 最初のBGS Iがさらに小さいと係数が0になるものを省くこと を繰り返すことで最初のSMIが求まる。 現在分かつていることは多くのSMは2個のBGS にさ らに分割できることが多い。 k組のSMの下限値はp/nであり一 般的にnが増えると下限値は小さ くなる半面、 含まれる遺伝子数が大きくなる可能性が高い。 その場合、 LSDである限り自動車デ ー タに見るとおり複数のSMに分割されることは変わらない。 真のBigデ ー タでnがpより大き くなれば、 SMも少なくなり実行可能領域もl個に近くになると考える。 しかし図lで紹介した n=3、 p=2の普通のデー タでも、 l件のb,に平行するデー タを加えると3 組のOCPが現れる。 ただ し、 BGS の個数は研究対象のデ ー タに固有の特徴と考えられるので、 この個数に落ち着く。 2) OCPである実行可能領域の特異性 筆者はMNM基準による解を求めてRIPを定式化することを第1目標とした。 このため、 これ までのMPにおける実行可能領域の常識とは全くことなる次のようなモデルを定義した。 • LSD判別の場合、 実行可能領域全体がMNM=Oの解でありどの点を選んでも最適解になる。 一 般のMPモデルは、 目的関数を最大化/最小化する点や線分を実行可能領域から求める。 ・実行可能領域は通常一 つであり、 固定されている。 これまでのモデルはnくpの場合で、 n 個の 制約式からp個の制約式を選んで作られる頂点、で制約式を満たす ー っの実行可能領域が定まる。 • MPで用いられる変数を決定変数という。 MNM=Oになる最適な判別係数を求めるためにqで目 的関数を定式化し、 その値を最小にする eiを求めて実行可能領域を制御している。 真の決定変数 はPi個の判別係数bであり、 これが目的関数に現れていない特徴がある。 SVMは目的関数がbと eiを含んだ定式化になっている。 • SVMは sv 聞の距離の最大化基準を用いている。 これは非線形最適化(NL P)になるので、 逆数の 最小化を目的関数とするので判別係数bの2次式になり、QPになる。 QPは、 L PやIPと異な り、 定義域あるいは実行可能領域全体で、 目的関数の2次式を最適化する唯 一 の解を求める。 即 、 ち、 部分空間に数多く存在する最適解のSMを見つけるには全てのモデ ルを探索する必要があ り、 NP-hard になる。 このため、 統計的判別関数と同じくMicroarrayをSMに分割できない。 3.4.3 なぜSVMでFact3を指摘する研究がないのか? SVMを用いている研究があるがFact3を指摘した論文は見当たらない。 その理由は次のことが 考えられる。 -筆者のように実行可能領域を設定していない 0 ・H-SVMやSVM4でなくSVM lを用いている。 ・用いている数理計画法ソフトが、QPの最適解を正しく求めることができない。 236

231.

4. 癌の遺伝子解析に関する 8 種類の LDF と AI 研究の位置づけ 4.1 判別分析研究の経緯 本研究に関して関連事項を時間軸で紹介する。 4.1.1 Fisher の仮説の問題 大学卒業後に行った心電図の自動診断システムの診断論理を判別分析で研究し、 医師の開発した枝 分かれ論理に歯が立たないことから、 判別分析の問題を次のように整理した。 1 ) ガウスは2地点聞の複数回の計測値からガウス分布を導き、 最小二乗法を提案した。 計算機環境の ない時代、 Fisher はガウスの成果を踏まえ、 2群が平均だけ異なる同じ分散を持つガウス分布と考 えて(Fisher の仮説)、 正規分布から簡単に LDF が導けることを利用して判別分析を提案した。 しか し、 この仮説は余りにも単純化して現実のデー タで満たすものは少ない。 例えば、 医学診断、 各種 格付け、 試験の合否判定、 そして Microarray による癌と健常などの2クラス判別である。 2) Fisher あるいは彼の同世代の研究者は、 Fisher の仮説を満たさない場合、 2群の分散共分散が等し くない場合を想定し、 QDF の利用を勧めている。 この事実は、 今日のように正規分布しか認めな い傾向が間違いであることを示す。 間違( 2011 )は Fisher の忘れさられている考えを紹介している。 さらに Fisher は計算時間のかかる最尤推定法を開発したが、 LDF の定式化に利用していない。 J[\伊 3) の ロ ジスティック回帰は最尤推定I去を採用している。 Fi此h( 1993 )は、 ロ ジスティック回帰を LSD に 適用した場合、 推測が困難になり係数の標準誤差は大きくなるといっている。 筆者は、 になり、 「 h制MがO ロ ジスティック回帰の NM が ROC 曲線上で判別境界を動かすことで 0 になるものがある 場合、 LSD を正しく判別できたjと考えた。 これで RIP が見つけた全ての SM が ロ ジスティック回 帰で LSD であることを再確認できた。 これは最尤推定法が、 デー タの構造に対応し LSD であるこ とを見つけることができたことを示す。 一方、 AI 研究は LSD である Microarray を教師デー タとし て与えているのに、 何故 LSD が認識できなし、のか大きな問題が残る[ 14 ]。 4.1.2 地球モデルと九割 M Fisher が Fisher の仮説から判別分析の世界を聞いたことは卓見である。 しかし計算機環境が改善さ れたのにいつまでも Fisher の仮説を不磨の大典のごとく墨守した研究は間違いである。 Cox (1958 )は Cox 回帰や ロ ジスティック回帰を医学研究に提案した判別分析の第 2 世代になる。 筆者は ロ ジスティ ック回帰と同じ考えで、 1970 年代に Bays の定理を用いたスベクトル診断を提案した。 すなわち医学診 断は、 ある計測値が連続的に大きく(あるいは小さく)変化するにつれ、 正常から異常になる確率がOか らlに増加するという考えである。 これは、 心電図の自動診断に失敗して、 その理由を考えて出した 結論である。 即ち、 正常群を地球とし、 異常群は判別超平面である水平線からはみ出した山脈という 「地球モデル[ I J」を考えた。 異常の典型症例は正常から離れた山の頂点であり、 異常群の平均ではな い。 また水平線の近傍に異常例が多く布置する。 このため、 2群を勝手に正規分布として求めた判別超 平面は現実のデー タに少し合わない。 しかし判別超平面の近傍に多くの異常症例があるので、 誤分類 確率は大きくなる。 これが試験の合否判定で、 誤分類確率が3割近くなる理由でもある[4]。 以上から判別分析の基本的な統計量であり、 誤分類確率の基礎となる NM には次のような問題があ る。 I)判号lj境界を変えると NM は異なる U 2)異なった判別手法の NM は尽なるυ 237

232.

3)事前確率をケ ー ス数に比例寸る、 あるいはI : Iとすることで結果が異なる。 更にリスク概念を導入 ー することでも NM は異なってくる) 寸 なわち判別の某礎的な統計量の NM そして誤分類確率は問題が 多い と 4)特 iこ LSD 判別では、 MNM が NM ;こ代わって重要な統計量:であり、 RatioSV が 2 番目に重要な統計量 である。 4.2 ヒュ ー リスティックな OLDF から IP・OLDF の定式化 Miyake & Shinmura (1976)は、 Fisher の仮説を前提に、 母誤分類確率と標本誤分類確率の関係を研究した。 2 群がp変数の正規母集団から n1 個と n2 個をサンプリングする。 そして母誤分類確率を 0 から l の縦軸 に、 各母誤分類確率に対応する標本誤分類確率の分布の 5% 点から 95% 点まで 5% 刻みで横軸に描いて比較 を行った。 n1 =n2 と異なり n1 と n2 のバランスが崩れるほど、 あるいはpが大きくなるほど、 見かけの標本誤 分類確率は、 母誤分類確率より確率的に良くなるという当然の結果を示した。 一方、 誤分類確率の前提となるNMには、 多くの問題点がある。 そこで、 標本に 一 意に定義できる MNM をヒュ ー リスティックで求めることを考えた。 筆者が編集委員をしていたある統計誌に投稿した が、 3 年間何度か再投稿を繰り返したが、 「 MNM 基準による判別は、 過推定する。 正規分布が 一 番良 いことも理解しない素人の考えだJとリジェクトされた。 そこで ME 学会誌に投稿したところ三宅・ 新村(1998)が簡単に採択された。 しかしこの研究は 19 変数を持つ自然分娩群(180 症例)と帝王切開群 (60 症例)の児頭不均衡にPD)の 6 変数モテ守ルで検討しただけである。 しかし計算時聞がかかるため一 般 化できなかった。 学位論文[27]で、 ヒュ ー リスティックなアプロー チでなく、 EでMNM基準によるIP心LDF と決定 変数を整数値から非負の正の実数に変えた LP・OLDF を、 Fisher の LDF と QDF と比較研究した。 検証 デー タは3種類である。 最初は、 当時は判別手法の評価デー タの定番であったセトサ、 パー ジニカの3種のアイリスデー タである。 パー シクル、 セトサは他の2群と散布図で容易に分かれるので、 これ を省いた 4 変数で 2 群判別した。 結果は、 IP 一 OLDF で求めたMNMだけが単調減少することを示し た。 そして、 学位論文の Table5 で判別係数が自然にゼロになる例を紹介した。 しかし LSD でない場 合、 判別係数が O であることの意味を見つけることは難しい。 これが LASSO 研究に対する疑問であ る。 第 2 の評価デー タは CPD デー タである。 3 組の多重共線性があり、 MNM だけが単調減少する。 しかし QP の NM は 11 変数まで減少した後で増加する。 逆に変数減少法を行うと、 19 変数から 6 変数 まで増加し、 多重共線性が解消されると5変数以下で減少することが分かつた。 多重共線性の影響を 具体的に示せた。 最後は、 2群が正規分布する乱数を作成し、 一 つを原点に固定し回転させ、 他方は平 均値を移動させた 115 組で評価を行った。 これによって 2 群の長軸が並行でない場合の影響を示し た。 Fisher の仮説は、 長軸が並行していることを想定していると考えられるので、 非常に厳しい仮説で あることをこの実証研究で示したかった。 4.3 判別分析の研究対象とした 8 種類の LDF と QDF と RDA しかし IP-OLDF はデー タが 一 般位置にない場合、 正しい OCP の頂点、を求めない欠点が分かつた。 そ こで OCP の内点を直接求める RIP を開発した。 そして、 Revised LP-OLDF と Revised IPLP-OLDF を開 発した。 また、 3 種類の SVM とロジスティック回帰と Fisher の LDF の計 8 種の LDF で、比較を行つ た。 スイス銀行紙幣デー タで、 LSD 判別の道を開いた。 即ち MNM の単調減少性から 2 変数(X4, X6)が 最小次元の SM である Basic Gene Set (BGS)であり、 この BGS を含む 16 モデルが MNM = O であり、 残 り 47 モデ、ルはMNMが l 以上の雑音であるという LSD 特有の Ma町oshka 構造になる。 また小標本の 238

233.

ための 100 重交差検証法(Method !)を提案し、 検証標本で、平均誤分類確率の中で、 全てのモデ‘ルで最小平 、 、 均誤分類確率 M2 を持つ Best モデ /レを選ぶというモデ ル選択法を確立した。 学習標本の最小平均誤分 、 類確率 M l は、 MNM と同じく単調減少しフルモデ ルが 一 番小さくなるので、モデル選択に利用できな い。 一 方 SM の M2 は Best モデルに近い値をとる。 このように NM あるいは誤分類確率の 95% 信頼区 間の解釈が旨くできた。 そして、 RIP の M2 が他の7種の LDF の M2 より小さく良いことが分かつ た。 このことは、 「 正規分布を仮定した Fisher の LDF が過推定しないで 一 番良いのは統計の常識jだと するレフリーの考えが間違っていることを示す。 しかし日科議連1では 19 変数の CPD データで判別 係数の 95% 信頼区間をうまく説明できない問題が残った。 Springer !で、6種のデータを用いて8種類の LDF を Method !で求めた M2 で比較を行った。 6種の データは、 アイリスデー 夕、 学生の生活実態、デー 夕、 CPD データと、 3 種の LSD であるスイス銀行紙 幣デー 夕、 普通車と小型車の6変数、 10 択 100 聞の6回の合否判定データである。 19 変数の CPD は 、 、 、 、 52 万個の全てのモデ ルを評価で きないので 変数増減法のモデ ルで M2 を計算し比較した。 残りの 5 種 のデータでは全て All possible モデル[ 22 ]で M2 を計算した。 その結果、 RIP が 一 番よく、 ロ ジスティッ ク回帰と SVM4 が第 2 順位で、 SVMl と Fisher の LDF が 一 番悪かった。 再度、 徹底した比較で 「 Fisher の LDF が過推定しない 一 番良い LDF である」という統計の常識が間違っていることを示し た。 また、 日科議連1でうまく説明できなかった 95% の信頼区聞が、6回の合否判定データで判別係 数の定数項で各判別係数を割ることで、 Fisher の LDF 以外は判別係数がほぼ1になる 「 自明な LDFJ が求まった。 自明な LDF とは、 試験の合否判定を大門 2 間の得点Tlと T2 で行い合格得点を 50 点と すれば、 作 T l+T2-50 でf>=Oであれば合格、 f<Oであれば不合格と正しく判定できる。 しかし Fisher の LDF では大学センター試験の研究データでは 3 割近い誤判別率を示す。 これで判別分析の4つの問題を解決できたと考えた。 判別係数とNMの関係を表す Factl でNMの 欠点と判別超平面上のケースの帰属問題を解決でき、 OCP の内点を選ぶ即P の妥当性が証明でき Problem !を解決した。 RIP と H-SVM だけが LSD を理論的に正しく判別できることで、 スイス銀行紙 幣デー 夕、 日本車データそして試験の合否判定という LSD 判別分析の新ジャンルを聞き Problem2 を解 決した。 しかし日本とヨ ーロッパの統計と OR の論文誌のレフリーは、 LSD の判別でなく重なりのあるデ 「 判別分析の目的は、 簡単な タの判別である」という間違った判断でリジェクトした。 判別分 ー 析の問題は、 重なりのあるあいまいなデータで、評価を行って明らかな評価が得られない。 LSD のよう な結果のはっきりでるデータで評価すべきことが分かつていない。 Problem3 は試験の合否判定で遭遇した。 数学IaとIlb の幾つかの試験の合格群を 90% 以上に設定した 場合、 QDF とRDAで全合格者が不合格者に誤判別される。 これを多変量的にアフ。 ローチしたため解決 に3年かかった。 最後に諦めて、 全設聞を 一 元配置の分散分析をすると、 簡単に合格群だけがある設 問に正答していることが分かつた。 この結果は公表できないので、 201 1 年から筆者の行った統計入門 の中間と期末試験の 10 択 100 聞のデータで再検証し直した。 その結果に対して大きな驚きを期待した 守 が、 「SAS やJMPのプ ロ グラムのパクで‘ ある」とか「試験問題は使いまわせないので判別分析を行う 意味がなしリという意見に驚いた。 これは、 一 般逆行列の暇庇である。 この問題が起きない統計ソフ トは、 単に事前に変数値が定数になる変数を分析から省いているためである。 この問題は、 一 定値を 持つ変数に乱数を加えるだけで簡単に解決できる。 Problem4 は、半lj別分析は推測統計手法でないこと 、 、 である。 このため Method !を開発し、 M2 が最小の Best モデ ルを選択する簡単なモデ ル選択法を提案 した。 239

234.

4.4 癌の遺伝子解析における高次元の呪いからの解放と 8 種の LDF の役割 これで新しい判別理論は完成したと考えた。 しかし 2015 年 10 月 25 日に 1970 年頃から Microarray を使った癌の遺伝子解析が成功していないという Problem5 があり、 デ ー タが公開されていることを知 った。 そこで 6 種の Microarray を Jeffery らからダウンロ ー ドして RIP で判別すると全て LSD であるこ とが分かつた(Fact3 )。 さらに 3 章で紹介したとおり、 簡単に k 組の SM と MNM が l 以上の雑音の遺伝 子空間に分かれた(Fact4)。 これで 「 高次元の LSD の呪し、から解放されjて、 5 章の癌の遺伝子診断が 可能になった[ 30] 0 以下で、 8 種の LDF の役割をまとめる。 (1) Fact3 の発見(癌の遺伝子解析) RIP と H-SVM だけが LSD を理論的に正しく判別できる。 しかし、 Revised LP-OLDF 、 Revised IPLP­ OLDF と SVM4 でも全ての SM を NM = O で判別できた。 一方、 SVM でも研究した報告があるが LSD を報告したものはない。 その理由は次の点が考えられる。 1) 筆者は実行可能領域として全ての点が MNM=O になる最適解からなる OCP を設定している。 これ によって Revised LP-OLDF、 Revised IPLP-OLDF と SVM4 が Fact Iを見つけた可能性がある。 2) 多くの研究者は、 H-SVM が重なりのあるデ ー タでは計算エラ ー になるので使用していない。 そし て SM を正しく判別できないことが多い SVMI で分析している。 筆者の研究では、 SVM4 が SVMI よりはるかに良い結果になる。 3 ) 遺伝子数の 一 番少ない Alon でも p =2000 ある。 このとき、 SVM の目的関数の 2 次項は 2000C2 = 1,999,000 と多くなる。 さらに、 QP は LP 計算を繰り返して最適解を求める。 そして、 最適解が平 坦であれば解が収束に困難な場合がある。 以上のことを考えると、 多くの QP ソルパ ー で Microarray を直接判別するのは問題かもしれない。 これに対して、 プリチヤ ー ド&江口( 2009 )は、 し、 「 関連遺伝子セットの多重解の存在 J について言及 「 高次元デ ー タによる癌の遺伝子研究の発見の見逃しと多大な見せかけの発見の両刃のリスクが派 生する」ことを指摘している。 このため Golub らでは遺伝子の置き換えや分析結果の LOO による検証 を行っている。 これに対して筆者は、 高次元 LSD は k 組の n 次元以下の SM あるいは BGS に分割でき る。 これによって発見の見逃しを避けることができる。 しかし全ての SM あるいは BGS が有効な信号 でなく見せかけの信号である可能性は認める。 それを区分することが今後の研究課題と考えている。 2018 年末に成膜大学で、あった統計シンポジュ ー ムで‘江口氏に 「 Microarray を SVM で判別しなかった か」を確認したところ、 「 10 年間癌研と共同研究したが、 Fact3 は発見できなかったJ とのことであ り、 SVM が Fact3 を発見できない理由は確定できていない。 (2) Fact4 による高次元 LSD の呪し、からの解放と癌の遺伝子診断 2015 年末に RIP で表 l のように簡単に Microarray を k 組の SM に分割できた。 LINGO で Method2 を LINGO Program3 として開発し Springer2 に公開しである。 Method2 は簡単に他の OLDF と SVM にも 適用できる。 実際に分析してみると、 Revised LP・OLDF と Revised IPLP・OLDF でも別の組み合わせの SM に分割できた。 しかし、 SVM では最初の判別で多くの判別係数が非ゼロで、 再度の判別で改善さ れず分割できなかった。 以上の結果を総括すると、 3 章で説明した通り、 高次元 Microarray は n 症例以 下の諌形制約で作られる k 組の OCP を実行可能領域として分割できる。 Revised LP-OLDF は OCP の頂 点、 RIP は OCP の恐らく重心を自然に選ぶことができる。 これに対して QP で定式化した SVM は、 他 の判別関数と同じく全定義域で目的関数の2次関数を最小にする最適解しか見つけないという制約が 240

235.

ある。 このために部分空間のMNM= Oの最適解を見つけるためには、 All possible modelの探索が必要 になり、 NP-Hardになることが結論付けられた。 (3)遺伝子診断と Problem6 SMは n次元以下の小標本で、ある。 しかもMNM = Oであるので、 SMの遺伝子空間で癌と健常あるい は異なった2種の癌が完全に分かれている。 そこでこれらの遺伝子の中に癌遺伝子が含まれ、 最小次 元のBGSの遺伝子で特定できると考えた。 そこでJMPの 一 元配置の分散分析とt検定、 相関分析、 ク : ラスタ ー分析、 PCAと FisherのLDF、 QDFとロジスティック回帰で分析した。 ロジスティック回帰だ けが、 最尤法を採用しているので全てのSMのNMが0 になった。 他の判別関数は、 多くのSMでNM = Oにならなかった。 そして他の統計手法は全く線形分離可能な事実を示さなかった。 即ちSM自体は 信号でなく含まれる遺伝子を直接分析しでもよい結果は出ないという問題が分かつた(Problem針。 判別 分析の結果は他の統計手法よりましである。 RIPとH-SVMは理論的にLSDを判別でき、 RevisedLP­ OL DF、 RevisedLP-OLDFとSVM4は少なくとも表 l で求めた全てのSMをNM=Oで判別し、 他の統計 手法より格段に良い結果になる。 以上から、 RIP、 H-SVMとRevisedLP-OLDFで判別して得られた判 別スコア(DiscriminantScore, DS)が癌の悪性度指標を表し、 信号と考えた。 即ち、 SMに含まれる遺 伝子で作られる総合特性値の中にあって、 大きな分散を表すPCAの第I主成分や第2主成分は役に立 たず、 ぱらつきの小さな高次元の主成分空間にあるDSが信号であると考えた。 そして、 これまでの FeatureSelectionの基本である直接遺伝子を検定や相関等の手法で分析しでも結果は出ず、 遺伝子の代 わりにRIPのDS(RipDS) やRevisedLP-OLDFのDS(L pDS)やH-SVMのDS(HsvmDS)を用いて作成 したがkの信号デ ータを考えた。 これをクラスタ ー分析すると2群がきれいにクラスタ ー に分かれ、 PCAで症例の位置関係が分かり、 Microarrayによる癌の遺伝子診断に初めて成功した。 4.5他の研究 多くの研究は、 検定や相関やクラスタ ー分析をもとにFeatureSelectionを行うか、 高次元空聞からフ ィルタリングで信号を選択するという趣旨のものである。 これまでの手法を組み合わせて単純に分析 していてはよい結果を得られないし、 L SDとし、う格別の信号を知らずに FeatureSelectionやフィルタリ ングをやみくもに行っても良い結果は出ないと考える。 Jefferyらは 6種のデ ー タをUploadする 一 方、 これらを10種の FeatureSelectionで分析しているので筆者の結果と比較すれば参考になる。 一 SDを発見できるのにふさわしいアプロー チと考える。 し 方筆者は、 機械学習の AI研究が 一 番L かし Ciliaら(2019)は、 AlonとG olubの正診率が100%でないことを紹介している。 多層階の判別式あ るいはロジスティック回帰式のネットワ ー クをLSD で推測している。 しかし、 最尤推定法でたった l つのロジスティック回帰で、 全てのS Mの正診率が100%であるのに、 多層のロジスティック回帰のネ ットワ ークをデ ー タで学習させて成績が悪いのが理解できない。 AI研究者はまさか相関比最大化など の間違った学習基準で研究しているか 月 6 開催の IEEEの機械学習の国際会議[35]で議論したい。 5 Microarr可による癌の遺伝子診断 5.1 SMの統計分析とProblem6 当初、 2群がSMの遺伝子空間で分かれていて小標本で、あるので、 信号と考えた。 そして、 これを統 計分析して癌の遺伝子診断の提案ができると考えたが成功しないあらたな Problem6 が見つかった。 (1) 2群の平均値の差の検定 241

236.

多くの SM を 2 群の平均の t 検定をすると、 t 値が正、 ほぽ 0、 そして負のものに分かれた。 この事 実から、 古い研究では t 検定等で癌の平均値が大きいものを癌遺伝子として探しているような研究もあ るが、 間違いであることが分かる。 すなわち t 値が正であるものは発癌遺伝子の可能性が考えられる。 そして負のものは抑制遺伝子かもしれない。 しかし平均に差のないほぽ 0 の遺伝子も重要である。 こ れを省くと SM は MNM=O でならない。 即ち、 これまで医学的に分かつていない遺伝子の組み合わせ で初めて LSD すなわち信号になると考えた。 この主張は、 重要である。 表 2 は 2017 年に見つけた Alon の最初に見つかった 62 症例の SM !の 35 遺伝子の t 値を降順に並べ替えた表である。 最初から 10 個の t 値は 1.088 から 3.509 である。 次の 15 個は絶対値が l 以下で平均に差がないと考えられる。 最 後の 10 個はーI 以下である。 即ち平均に差がない遺伝子が 15 個と 一 番多く、 このような遺伝子はこれ までの医学研究の対象となっていないと。 しかし、 SMI で 2 群が分かれるのに、 これ等の遺伝子が必 要不可欠である。 表2 gene (2)相関係数、 Alon の SMI の 35 遺伝子の t 値 t 差 gene t 差 Gene t 差 X1920 0.894 3.509 X2000 0.100 0.370 X1941 -0.202 -0.956 X1785 0.704 3.150 X1936 0.074 0.344 X1964 ・0.217 ー1.127 X1763 0.612 2.984 X1852 0.051 0.306 X1895 -0.395 -1.204 X1886 0.612 2.619 X1706 0.059 0.303 X1779 -0.286 ・1.371 X1810 1.433 2.546 X1782 0.060 0.238 X1705 ・0.373 ー1.694 X1986 0.460 1.981 X1869 0.035 0.156 X1786 -0.550 -2.206 X1790 0.267 1.826 X1962 -0.002 -0.009 X1874 -0.474 -2.231 X1969 0.517 1.727 X1789 -0.015 -0.060 Xl955 ・0.459 -2.385 X1914 0.285 1.396 X1984 -0.082 ・0.461 X1842 -0.386 -2.459 X1953 0.199 1.088 X1999 -0.103 ・0.465 X1974 -1.392 -3.510 X1979 0.090 0.396 X1784 -0.131 ・0.827 X1836 -1.203 -4.334 X1776 0.070 0.376 X1922 -0.162 -0.940 クラスタ ー 分析そして PCA 図3 は、 35 個の遺伝子を 595 個の相聞の分布である。 平均はー0.008263 であり、 ほぽ左右対称と考えてよい。 242 範囲は[・0.5255, 0.56723]で、 中央値は・0.0291 、

237.
[beta]
重芝Correla舗圏、

100.Mもil;<@! 0 56723
開5%

0.52636

97. 5%

0.43076

90.0%

0.2担四

万O崎4分包il\ 0 12802
50.0%

$突笹 -0.0291

25.0% 4·勿位点

。恒国

100%

】0 2629

2.5弛

。

-0.3667

05弛

-0.47唱

e崎

鑓小笹 -0.52目

si:i国

'

a品包田icSb曲
平均

羽田82日

ll!1'tml!

0.2国民52

平均のm"lll.呈a凹制品3
平均のよ袋扮'"' 0.田田嗣3
平均の下係員'""

0.02噛91

N

595

図3 595個の相関係数の分布
図4は、 SMI (62症例*35遺伝子)をクラスター 分析し、 5クラスタ ー に分けた。 行方向は62症例を
表す。 上から、 赤、 縁、 青、 撞、 薄緑の5クラスタ ー である。 そして左の上から5つの濃い赤と薄い
赤が交互に現れるが、 濃い色は健常症例で、 薄い赤は癌
症例である。 一番下の薄緑のクラスター だけ
が9症例の癌患者である。 緑、 青、 援の各 クラスタ ー も図のように癌と健常症例が交互に含まれてい
る。 これは、 他のSMでも同じような結果になる。 このことは、 発現量の値そのもので癌と健常 を分
けれないことを意味する重要な事実である。 すなわち癌と健常はRatioSVに示す通り明確に分かれる
が、 遺伝子の発現量の大きなバラツキに隠された小さなばらつきであると考えている。 この主張を裏
づける幾つかの事実はある。 右はケ ースの樹状図である。 真ん中の四角いカラ ー プロットは、 62*35の
メッシュに対応し、 各症例と遺伝子のベアの発現量の値を(青→グレ ー →赤)の諾調で表しである。 下は
変数の樹状図である。 左から18と1
9番目の遺伝子は、 短い距離で最初にクラスタ ー 化されるが、 全
ての相関係数の絶対値が0.5
6以下でlでないことに注意する必要がある。 他のデ ー タでは相聞がlで
あるものもある。 以上から
症例聞の距離の大きさが信号でないことが分かる。
図5はクラスタ ー 分析のあとでPCA分析を行いクラスター 分析のクラスタ ー 分けを反映させた。 左
図は第l主成分(Prinl)から第1
3 主成分までの固有値である。 Prinlは5.3971で全体における寄与率
は1
5.4%、 Prin2 は3 .60
61で寄与率は1
0.34%であり、 累積寄与率は25.74%であり、 この2 主成分で全
体の1/4のばらつきを表す。 PCAでは35遺伝子に対し、 総合化した2個の主成分で約25%のデ ー タの
ばらつきを表しているので統計ではこの2軸で重要な情報が把握できることを期待している。 しかし
これが癌の遺伝子診断に全く無力であることがProblem6 である。 また、 かなり高次の主成分のt値が
大きくなることが多いことを確認している。

243

238.

目 副都町田'"' ·必 自 却...園田 3創施a �哨' . Z正,田目崎.. 冨 回 :: 明伺書 ' 。 円 旦 姐2 ::. 且 喧庄 ' :: 1.ose:o '"'栂 4 。釦 31 .. 可8 図 4 Wardクラスタ ー 分析 5.2 図5 .. . .. 司 自 2 ' {J.S.,宅地} 4 6 8 ,., •1.Q .... 。。 05 PCA 信号としての判別スコア 表3は、 2018年にGolub (72症例*7,129遺伝子)で求めた 179個のSMである。 Gene列は含まれる 遺伝子数 、RIPからSVMIは6種類のLDFのRatioSV (=SV聞の距離沖IJ別スコアの範囲 *10 0 )であり、 M axと Minは6個の最大値と最小値である。 これら6種のMPのうちSVMIを除く 5種のLDFは170 個総てのNMは 0 になった。 SVMI、 LDF2 (事前確率がケ ース数に比例)とQDF列は、 NMを示す。 SVMI のRatioSVで取り消し線を引し、たのは、NMがl以上のもので 、RatioSVは重なりのあるデ ー タ で値が大きくなり役に立たないことを示す。 最後の 3行は、 各列の最大値 、 最小値と平均値である O RatioSVが1%以下のRIPは僅か 2個 、 LPとIPLPは1個 、 SVMは全て 1%以上である。 この値が 5% 以上であれば 、 2群が明確に分かれており M etho d!による検証が必要ないと考えている。 最大値は 25% 以上と非常に 大きい。 SVMI、LDF2、QDFのNMの範囲は、[0,23]、[0,9]、[0,30 ]である。 これが示すこ とは、 統計的判別関数とSVMIは全てのSMのNMが0と判別できないが、他の統計手法よりは良いと いうことである。 すなわち 、L SD の発見はRIP とH-SVMが理論的に可能であり、 RevisedLP・OLDF、 RevisedIPLP・OLDF、SVM4とロジスティック回帰は今回分析した 6種類の Microarrayの 全てのSMで NM=Oである。 H-SVMは高次元の Microarrayで計算上の関係でNM=Oの結果を得られないソフトもあ るが、 SMでは問題が起きない。 以上から 、 高次元の呪し、から解放されたSMをRIP、 RevisedLP-OLDF とH-SVMで判別した判別スコア(DS)のR ipDS、LpDSとHs vmDSは、 PCAの Prinl や Prin2でなく高 次のばらつきの少ない部分空間でL SD をとらえる総合尺度であると 分かつた。 表 3 Golub (72症例*7,129遺伝子)で求めた 179個のSM SM I Gene RIP LP IPLP HSVM SVM4 SVMI I 18 I 15.91 14.58 14.58 ts.03 18.03 18.03 I 18.03 244 Max Min I SVMI 14.58 。 LDF2 2 QDF 。

239.

。 。 。 2 。 。 5 21 4.84 15 4 10 4.82 1.52 21 3 4 6.71 2.79 23 3 30 0.63 23 9 28 2.3 0.52 21 4 17 品仏e& 5.83 5.08 21 2 25 33.34 116.25 33.34 24.47 23 10.47 。 30 1.77 。 9 16.69 24.58 2.1229 1.5307 2.5363 2 30 17.38 17.58 17.58 17.33 17.34 17.33 17.58 17.33 3 17 4.74 5.19 5.19 5.18 5.18 ↓仏4& 5.19 4.74 4 26 15.32 15.65 15.65 14.95 14.95 14.95 15.65 14.95 5 19 19.38 19.86 19.86 20.36 20.36 20.36 20.36 19.38 174 45 7.46 4.84 4.84 9.12 9.12 平&,.00 9.12 175 43 4.34 1.52 1.52 4.82 4.82 岳会e4 176 42 6.71 2.79 2.79 5.26 5.26 畠毛岳平 177 39 0.63 0.72 0.72 1.77 叫ふ♀吾 178 32 0.52 1.52 1.52 2.3 2.75 4弘昌吾 179 46 5.41 5.08 5.09 5.83 5.83 MAX 54 28.8 25.1 25.1 33.34 MIN 11 0.52 0.72 0.72 Mean 33.5 13.66 13.05 13.05 16.68 0.52 17.09 11.89 2 。 。 図 6 は 179 個の RipDS の相関係数の分布である。 範囲は[0.16015, 0.90355]で、 中央値は 0.6315 で平均 は 0.623039 の値の小さな方に裾を引く分布である。 遺伝子の相関範囲は[・0.5255, 0.56723 ]で、 中央値と 平均はほぼ 0 で、 あったのに、 0.16 以上の正の相関である。 他のデ ー タでは相聞が l になるものもある。 これは異なった遺伝子の組で作られる判別スコアが同じことを意味し、 お互いに互換性がある。 一つの 解釈として、 癌にとって重要な意味があるために互換性があると考えられるが、 Golub では最大の相関 、 は 0.9 で あった。 &Pe,℃entile 3曲目も鼠穴笹0.回355 99 5'抽 083237 97 5% 0 79637 90.0軸 0.74703 75.0抽 4卦位点。69919 珂.o弘 中央値O日145 25 0弛 4分位点0.56128 100情 0.488曲 2.5拍 0.37108 00% 息小笹0.1田15 o.s叫 0265 38 .a�s田Ic S箇tis語圏 平均 0.62 3039 0.盟国019 察車偏差 苧時母詔書鏡産o.田27012 平均即よ告掲5唱0.6283374 手同の下側95帖O日77407 N 1540 図6 ー 図 7 は Ward クラスタ 分析である。 Alon の RipDs の相聞の分布 5 個にクラスタ ー 化すると、 25 症例のクラス l の AML は最初 の赤いクラスタ ー にまとまる。 そしてその下に、 47 症例のクラス 2 の All は緑、 青、 4 症例の桂、 3 症 245

240.
[beta]
例の薄緑と4個のクラスタ ー になる。こ
の
ことから、 クラスlのAML はクラス2のAll に比べて軽度
の癌症例 であることが素人でも分る。図8のPCAは、Prinlの固有値が 35.6056 で寄与率は63.6%、Prin2
は1.922
8 で寄与率は3.44% である。累積寄与率は 67.04%と約70%のデ ータのばらつきをとらえてい
る。それ以上にPrinlの固有値が spike上に大きく、青嶋、矢田、石井らが「2群 が 2 つの球体上に布置
する」と言っ ていることに対応する。すなわち 図8 では2群の重心を結ぶPrinl上で原点を挟んで負の
軸と正の軸 に布置していることと対応している。そしてクラスlはほぼづ以下に、 そしてクラス2はな
ぜか原点 から正の方に値が 大きくなる につ れ Prin2のばらつき も大きくなる扇状の形をしていることが
他の結果でも観測される。

JI>

; 'i ;}""4号

(� - 叫

s

10

,.,

1.0

J

"'"

/-

War廿クラスタ ー 分析(G olub)

_,

\す

...

ii語鰯融制ti語紙I器棚i閑語紙Ii器巳二孟二ヨ

図7

\

川哩�叫

是

図8 PCA (G olub)

す なわち、 癌と健常であろうが 、 異なった2種の癌 であろうが 図8とほぼ同じ結果になる。 しかし信
号 デ ータを転置して分析する と、 それぞれ異なった 結果になる。今後多くの統計研究や統計教育で豊富
なSMを分析し、 統計的な意味と医学的な 考察を検証することが望まれる。
6. SM とBGSの関係

6.1

6次元のLSDのMatryoshka構造とMethod2によるSMの分割
スイス銀行紙幣デ ータの判別 分析分析でLSD判別の重要’性を知った。そして2 変数(X4,X6)が最小

のLSDになる部分空間のBGS であることが 分 かつた。MNMの単調減少d性(MNMk>=MNM (k+I))で、(X4,
、

X6)を含む16個のモデ、ル がMNM=O (信号)になり、 47個の判別 モデ ルのMNM が l 以上
の雑音にな
ることが分 かつた。2015年末に、表lの結果を得た。Microarrayを Big Matryoshkaと呼び、そこに(X4,X6)
のMatr yoshka構造を発見した。 そ
のような最小次元のBGSま で、膨大 な Ma町oshka が 含まれる LSD
してスイス銀行紙幣デ ータ で気にしな かった 判別係数が自然に0になる現象に気づいた。
そこで Method2を考え、最初 RIP でLINGO Program3 を開発した。本当はBGSを求める Program 4 で
BGSを求め て研究しようと考えていた。BGSはiPS 研究で山中4因子を見つけたロジックと同じ 変数
減少法の変形 である。 しか しp = IOOOOの場合、最初のBGSIを求めるのにl万四のRIPの判別の繰り
返し になり、SMのように求まった SM!を省いた残りの遺伝子でSM2を連続的 に求めるのに時間 が か
かった。

246

241.

しかたなく、20 17年に2000個と遺伝子数が少ないAlonでl個づっBGSを求めることを繰り返し130 個のBGSを求めた。 そしてRatioSV を比較すると6 6個のSMでは65個のRatioSV が 5%以上である が、 130個のBGS は1%未満であった。 そこで方針を変えて、 SMを統計分析し 5章で紹介した癌の遺 伝子診断を優先した。 そして、 RipDSによるMalignancyIndexesとクラスタ ー 分析とPCAで癌の遺伝子 診断の方法を確立した[30]o さらに詳細な分析を加えて今年5月にSpring己 1・2を出版した。 その重要な点 は、15車種の小型車と29車種の6変数を持つ普通車デ ータをLINGO Prog ram3 で分析し 、6変数 の小標 本でもMethod 2でSMに分割することが有意義なことが分かつた。 図9は、 排気量XIと座席数 X3の 箱ひげ図である。 これらの2変数は2個のBGSすなわちMNM=Oの最小次元のSMでBGSである。 0.5 回 M世 p� � - 。。『’ ro rコ 必吟 3 -1 -1 小型普通 1 小型普通 図9 排気量XI と座席数X3の箱ひげ図 、 表4は変数増加法の結果である。 阻Pは6個のモデ ルでMNM=Oであることを示す。 FisherのLDF は、 4変数 までは2個のBGSを含むのに NMは0でない。 QDFは1変数でXlを選びNM=Oである が、 3番目にBGSのX3が入ると15車種の小型車の座席数 が4席と一定なの で、 全てが普通事に誤判 別される。4に小さな乱数 を与えれば問題3が解決できる。 最後の2列はRDAの結果である。2つのパ 、 ラメ ー タをチュ ー ニング する必要がある。当初、品作が適切なパ ラメ ー タを設定し、 ユー ザ ー は変更で、 きなかった。 そして、 QDFがデー タに異常を検知するとRDAの分析に切り替わり、 Problem3が観測 された。 筆者の指摘で色々試行錯誤したようだが、 最終的にユー ザー が決めることになった。 パラメ ー タを入「 = 0.8に設定すると表のようにNM は 2以上になる。 区間[0,1]を0.1刻みのl l個に分けて探索 すると、 このデ ータで、はパ ラメ ー タをλ=y=O.lに設定すると初めてRIPと同じになった。すなわちパラ メ ータ の設定によって幅広い判別結果が得られる。 このことは S-SVMでも同じである。 ペ ナルティ ー cを10-6 から106 まで13段階で変えて検討すると、 2つの sv は sv 聞の距離が一 番小さなものから、 sv 聞の距離が一 番多いなもの(すなわち sv が全てのケ ー スを誤判別する )まで svに固定する全ての 組み合わせを調べることが分かつた。 これは重要な事実で、 「 新村(200 6). 改定IP-OLDFによるSVMの アルゴリズム研究. オベレ ー ションズ・リサ ー チ,5/1 1. 702・ 707.」を参照してほしい。 その上で、 6種類 の通常のデ ータでSVM4とSVMIをMethod!で評価しM2 で比較するとSVM4の方がSVMI より良い ことを確認している。 一 般にSVM研究ではSVMIを進めている。 以上のことから、SVM の研究者でな い筆者が行える検証がなぜ行われていないのか疑問である。 表4 日本車の変数増加法 の結果 p I Var. Emission (XI) RIP I 。 LDF I 2 247 QDF I 。 0.1 入寸 =0.8 2 。

242.

2 Price (X2) 3 Capacity (X3) 4 C02(X4) 5 Fuel (XS) 6 Sales (X6) 。 。 。 。 。 。 。 。 4 29 3 29 4 29 5 29 5 。 。 。 。 。 表 5はRIPを Method2 で分析した結果である。最初の判別でX Iの判別係数だけが非ゼロで選ばれる。 これを3回判別しでも変わらないのでSMIとする。 ただし l個であるのでBGSIになる。 次にこれを 省いた残り5変数で判別すると、X3がSM2(BGS2 )に選ばれる。 この 2 変数を省いた4 変数で判別する と(X 2,X5) の判別係数が 0でなく選ばれるがMNM=4 であるので本来はここで停止する。 しかし判別を 続けると、(X4,X6)が MNM=9になる。すなわち6変数はSMl=(X I),SM2=(X3),SM3= (X 2,X5)とSM4=(X4 ) の4つの変数群に分割される。自動車に詳しくないが、排気量は車の能力を評価する重要な指標であり、 座席数は利便性の指標である。 すなわち、LSDデ ー タであれば Microarrayでなくても一 般のデ ー タを分 析し、その現実の意味を検討することは役に立っと考える。 特にマ ー ケッティングなどで製品評価には すぐに役立つのではなし、かと考える。 表5 車のデ ー タをMethod2で分析した結果 3 Matroska SM NM IT 2 3 2 2 2 2 3 3 X2 6 5 4 4 3 2 4 2 3 3 4 2 9 2 4 6.2 。 。 。 。 。 。 XI SUM 4 2 9 2 4 3 9 2 。 。 。 。 。 4 。 。 。 。 。 。 。 。 4 3 XS X4 X3 。 。 。 。 。 。 。 。 。 。 。 2 。 。 。 。 。 。 X6 。 。 。 。 0 C 。 。 I I 。 。 I 。 。 。 。 0 I I SMとBGSの探索 いよいよSMとBGS の関係を分析する準備が整った。 これまでは 一つの Microarrayを分析し、それ が終わると別のデ ー タに取り掛かかり分析の時期が異なるため、L別GOの Versionも異なった。 2019年 6月に 6種類をすべて同じ条件で表6のように分析した。 これまで判別を繰り返す回数のITを1から 15程度の範囲で恋意的に変更し行ってきた。 今回は、IT= !とIT=5に固定してRevised LP-OLDF(LP)と RIPでSMを求めることにした。H-SVMはSMに分割できないので省いている。またRevisedIPLP-OLDF 、 は分割できるがRevs i ed LP-OLDFとR IPの混合モデ ルで、 あるので省いた。 248

243.

表6のMicroarray行は上段でAlonとGolubとS ingh、 下段でTienとShippとCh iarett iである。Method はLPとRIPの2種類である。ITはl回の判別分析と5回の判別分析 に固定した。 CPUは計算時間であ る。 空白欄は分析 を後の方で行 い10 分以上 かかるものを中止し求めなかった。SM行は分割した SMの 個数でGene行は含まれる遺伝子数である。OtherはSMに含まれなかった遺伝子数と括弧内はそのMNM である。例 えばAlonで最初の列はIT=l にすると25秒で48個のSMを見つけ、2000個総てがそれに含 遺伝子が含ま まれる。 IT=5 にすると5倍以上の2 分30秒かかり、 より多くの68個のSMに1969個の れる。ITを増やす とSMの 個数は増え、 反して含まれる遺伝子数が少なくコンパクトになる。 この傾向 =lのLPしか求めていず、 何らか は他のデ ー タでも同じである。 ChiarettiはIT の理由で計算時聞が一番 かかる。TienはLPでIT=5 にするとIT=lの13 分21秒の約5倍 の1 時間 9 分52秒 かかり、Chiarett i に 次い で2番目に計算困難である。遺伝子数がGolubと同じ ShippはRIPのIT=lで2倍以上かかり、IT=5 にすると31 分45秒の2倍以上が予想され計算を省いた。 表6 Alon 62*2000 Method LP LP RIP CPU 25s 2m30s 32s Micro百四y Golub 72*7, I 29 RIP LP LP RIP 2m52s 4m29s 25m3s 5m56s 5 5 IT 5 Singh 77*7129 RIP LP LP RIP 3l m45s 15ml0s I h28m57s 23m26s 5 5 SM 48 68 35 62 124 190 88 181 169 285 129 gene 2000 1969 2000 1888 6319 5840 6090 5913 12602 12611 12582 12(3) 810 1289 1039 1216 23(17) 14(21) 43(3) Chiarelli 128*12,625 Other gene 。 31(4) Microarray Tien 173 ’ 12,625 Shipp 77*7,129 LP LP LP LP RIP LP 13m21s lh9m52s 6m35s 33ml0s 13ml8s 26m38s Method CPU IT 6.3 6種のMicroarrayのRIPとRevisedLP・OLDFによる SMの探索 。 5 5 SM 89 131 152 253 I 14 155 gene 12578 12625 7114 7129 7117 12623 Other gene 38(29) 44(22) 15(10) 12(7) 2(30) 。 BGSによる癌の遺伝子診断 Springer2では2017年に求めた 56個のSMの結果 を紹介した。 このSMを用いて、 LING O Program4 で各SMにBGSが幾つ含まれるかを調べる ことにした。 その結果は、 多くのSMが2組のBGSとそれ ら に含まれない 遺伝子 に分割でき た。 3個のBGS を含むものや、 l個 しか含ま ないSM も数個あった。 図10は、クラスタ ー 分析で5クラスタ ー に分けた 後のPCAの結果である。 Pr inlとPrin2の固有値 で、 累積固有値は67.04%であり、 56次 は35.6056と1.9282であり、 寄与率は63.6%と3.44%であるの 元に布置する症例がこの2軸で約67%のばらつ きを表している。 Class Iは赤い20例と2例の緑が Prinlの-5 以下に布置している。 class2は原点近く に5例の緑 から、 18例の青、 樺の15例 、 2例の薄緑 が外れ値になっている。 即ちクラスタ ー 分析で一つのクラスタ ー になった 緑の7症例が、(18, 20)と (55, 52, 58, 24, 59) にはっきり と分かれている。 この事実は、 健常者が癌愚者 になった場合、 明確に分 249

244.

かれるがその距離は発現量の動きに比べ小さいと考えられる。 即ち、 数理計画法による判別分析の OLDFとSVMでしかこれを検出できない。 分散共分散行列に基づく統計的判別関数は、 そのような LSD の事実の検出は難しいので、 NMは0にならないことが多い。 これに対して、 Fisherが提案した最 尤推定法を用いたロジスティック回帰は、 線形分離可能な小標本である全てのSMを正しくNM=Oで 判別する。 クラスター 分析よりPCAの方が空間的な位置関係が分かる。 ただし、 残りの 54次元に 33%のばらつきがあるが、 その詳細は分からない。 PCAでは、 このような 33%のばらつきは無視し て、 67%のばらつきで重要な情報がとらえられることを期待している。 因子負荷プロットから、 SM56 が第1 ;象限にSM51 が第4象限に布置し、 これ等は異なった判別結果即ち癌の悪性度指標であること を示す。 詳細はスコアプロットや因子負荷プロットの数値を検討すればよい。 1.0 IO Elg省、Value 20406080 35.曲目 1.9282 1.5543 14523 1.22011 l宮 I L凹711 I 1.02791 \ o.9n61 1 0.85101 I 0.7822 宮 I宰 ,、 I主 .!! -5 0.76S9 ・ ,5 0 0.7214 -5 0 R恒三{田..弛) 10 -10 ・·LO -OS 00 OS 10 0.0 0.5 1.( 術省、1 (636%) 10 10 Elg曲咽I園田咽岡田 .51/ o I (i l 0 35.曲目 15543 1.220, 1 I 1田791 \ 1巴 I 1.!! 1 曲目 I 0高山 o.7BZ2 0.76田 1., I 1 :耳 宮 署 己 。。 0 i -5 -10 -10 ・5 0 陥主(63.6%) -0.5 10 防訟1 (日.6%) 図10 PCA(56SM s) 6 5 個のSMから97個のBGSが求まった。 これで97個のRipDSをもとめ62 症例*97RipDSの信号デ ー タを作成し、 クラスター 分析後にPCAで分析した結果を図 11に示す。 PrinlとPrin2の固有値は 累積固有値は60.17%であり、 56 次元に布 57.5 と2 .67であり、 寄与率は 57.5 %と2 67%であるので、 . 置する症例がこの2 軸で約60%のばらつきを表している。 固有値は大きく、 累積固有値は逆に小さ い。 Class Iは赤い20例と2例の緑がPrinlのづ以下に布置している。 class2 の原点近くの正の軸にあっ た 例 5 の緑が、 2 象限と 3象限に布置し、 健常と2例の緑と差がなくなった。 l;象限と4象限に18例 の育、 援の1 5例、 2例の薄緑が外れ値になっている。 個々のDSsのRatioSVが1 %以下になったこと で、 癌症例が健常に近づいた形になった。 因子負荷プロットから、 BGS 27の2番目の27bs が第4象限 に布置し、 これは他のDSsと異なった判別結果即ち癌の悪性度指標であることを示す。 詳細はスコア プロットや因子負荷プロットの数値を検討すればよい。 250

245.

1.0 15 20 40 60 80 百四割Mllue SS.n48 // 10 2 5386 2.35日 2 2475 I 2.1305! Z即時Oft , W 164521 I I I I I� l ID 向 I c. I I向 o 15835 \\\ o.s」 ; i/ # 。,: • ···�·'宇和 一 μ •, \ --0.5 1.4640 1.3272 -10 -15.J -15 -10 ・5 0 5 10 I 15 -1.0 1.0 --0.5 0.0 0.5 1.0 附inl (57.5崎) 尉柏1 (57.5%) 6.4 \ 5 1.5田5 図l I ;;二子=-ーζζ Ncza 1.72451 ノ PCA ( 56SMs) 今後の課題 6.3 で BGS を求める LINGO Program4 を連続適用し BGS を求めることは効果的でないと判断した。 そこで Tien と Akon ですでに求めた各 SM で、 Program4 で BGS を求めた。 この結果の概略は、 多くの SM は 2 個の BGS とそれに含まれない遺伝子に分かれた。 そして、 なぜ SM の RatioSV が驚くほど大きいのに、 反面 BGS の RatioSV は全て 1% 以下と小さい Problem ?の検討を行っている。 Tien では SM に含まれる 2 つの BGS がほぼ直交して異なった役割の判 別スコアが組み合わさるので、 SM の RatioSV が大きくなることを確認している。 しかし、 この事実は これまでの統計の常識を超えている。 更に多くの SM の RipDS が全く同じものも見つけている。 遺伝子 のデー タ解析は、 これまで経験していない多くの現象があるようで楽しい研究対象である。 7, まとめ ハ ー バード大学医学部の Golub 教授は 1999 年に Science に発表した論文で、 30 年前即ち 1970 年頃から遺伝子から Oncogenes の特定と癌の亜種の研究を行ってきたが、 体系的な研究成果を得 ていないと真撃に述べている。 恐らく、 研究の総括を行ったのであろう。 「 N旧が乳がん以外の癌 に関して Microarray による研究は意味がないと研究費を停止し、 この研究は終鷲した」と日本の 専門医から聞いている。 2017 年に 6 種の Microarray から見つけた全ての SM を JMP で分析し癌の 遺伝子診断の結果を Amazon の Kindle 版として出版した。 それを持参して説明しようとしたが、 彼から 「 研究しでも医学研究が終意しているのでやめた方がいし、」と説明を遮ってアドバイスさ れた。 しかし結果は出ているので、 更に種々の検討を加えた 415 頁の世界初の Microarray による 癌の遺伝子診断の本を Springer から出版した。 筆者は 1971 年に京大の数学科を卒業した。 社会人として生きていく拠り所として当時高橋暁 、 正(編集)の『計量診断学』が多くの学問で計量を冠したブ ー ムになっていた。 当初統計の書籍を 100 冊以上読んだが、 達成感がなかった。 そこで SAS で統計を、 LINDO で数理計画法を勉強することを考 えた。 サラリ ー マンがこれを達成するため、 これをビジネスにして自分の立場を固定したほうが良い と考え、 これ等のソフトで現実の問題を解決し、 本や論文を出し、 片手間で、営業を行ってきた。 そし て、 分析対象がデー タで記述されておれば統計ソフトの SAS や JMP で問題解決する「デー タの科 学 J 、 分析対象が数式で記述できれば MP ソフトの Want ’ sBest !や LINGO で問題解決する「モデルの科 学」が、 研究者に限らず社会人にとって必要な知的生産性を向上させる道具であると主張してきた。 251

246.

オパマ元大統領のような影響力がないので、 統計や OR 学会では認められなかった。 その聞の状況は [5]に詳しい。 多くの判別分析の実証研究に MP によるお1NM 基準による RIP で 2015 年に判別分析の理 論を完成した。 そして Golub らが私の大学卒業年から高次元 Microarray に悪戦苦闘していることを知 った(Problems)。 そして応用問題として 1999 年から 2004 年までの米国の医学プロジェクトが研究に 用いた Microarray を 2015 年 10 月 20 日から判別したところ 54 日間で簡単に解決した。 しかしその道 具の準備はほぼ同じ 1971 年から始まっている。 Golub らは恐らく判別分析などを試みて全く役に立た ない経験をしたのであろう。 そこで彼らは signal to noise や荷重投票法などの独自手法を開発した。 そ して絞り込んだ遺伝子を自己組織化マップ(SOM) というクラスタ ー 分析、 LOO、 カプランマイヤ 一 法で検証している。 これ等の研究は折角集めた Microarray の遺伝子 a情報を全て使わず取りこぼしてい る点である。 これがRIP で Microarray の遺伝子空間で 2 群が完全に分かれているという Fact3 を発見し た。 そして LSD は既にその中に山中 4 因子と同じ概念の BGS まで多くの線形分離可能な Ma町田hka を含んでいて、 k 組の SM に分割できる。 この Fact4 は「LSD は必ずケ ー ス数 n 個以下の部分空間の SM に分割でき取りこぼしがなしリ点である。 これらの SM 全てで 2 群は分れているので、 JMP で簡単 に分析できると考えたが良い結果が得られなかった(Problem6)。 そこで悪戦苦闘し信号データを作れ 、 ば、 標準統計手法で親形分離可能な多くの結果が得られたわけである。 すなわち「モデ ルの科学Jと しての LINGO が高次元デー タを SM に分割さえすれば、RIP、 Revised LP・OLDF,H-SVM で判別した判 別ス コ アを統計分析すれば、 簡単に癌の悪性度指標と多くの有意義な結果を示すことができた。 更に Golub らの癌の亜種を見つけるのに、 Ward クラスタ ー 分析のクラスタ ー を色分けし、 PCA で位置関係 を確かめるとし、う分かり易い手順を全てカラ ー で示すことにした。 無償で公開されているデ ー タを N田の決定も知らずに統計や工学の研究が今も行われている。 彼らの研究では絶対無理である。 LP と IP で高次元の呪し、から解放する。 そしてそれを統計分析す 、 るという組み合わせが必要で あるということを示すことができた。 しかし LSD である Microarray を学習デ ー タとして与えれば、 AI 研究による 2 群判別は一 番簡単な AI 入門のテ ー マである。 し かし筆者の目を通した論文でこれに成功したものがないことは、 不思議である。 References 1 新村秀 一 (2004).『JMP活用 2 新村秀 一 (2007).『泊四による統計レポ ー ト作成法』. 丸善. 3 1 日科議連1):新村秀 一 (2010). 『最適線形判別関数』. 日科技連出版. 4 1 日科議連2):新村秀 一 (2011b). 『数理計画法による問題解決法』. 日科技連出版. 5 新村秀 一 (2012). 6 竹内啓(2011 ). 書評ソj、西定員IJ 「コ ラム 判別関数J .統計、 71 統計学とっておき勉強法』. 講談社. 「SAS/JMPとの歩みJ , SAS Technical News,春, 夏, 秋, 冬号j 「多変量解析入門一線形から非線形へー」、 新村秀 一 「最適線形 74. 7 Sall, J.P.(新村訳著)(1986). SASによる回帰分析の実践. 朝倉書店. 8 Alon, U.et al.(1999). “Patterns of Gene Expression Revealed by Clustering Analysis of Cancer and Normal Colon Tissues Probed by Oligonucleotide Arrays.”Proc. Natl.Acad.Sci.USA, 96, 6745”6750. 9 Aoshima, M., Yata, K. (2019).“Distance-based classifier by data transformation for high-dimension, strongly spiked eigenvalue models.”Annals of the Institute of Statistical Mathematics, 71, 473-503. 252

247.

10 Flury, B., Riedwyl,H. (1988). Multivariate Statistics: A Practical Approach. Cambridge University Press. “ 11 Golub, T.R. et al. (1999). Molecular Classification of Cancer: Class Discovery and Class Prediction by Gene Expression Monitoring. 円 Science. 1999 Oct 15; 286(5439): pp. 531・537. 12 Jeffery, IB. Higgins, DG. Culhane, AC. (2006). “Comparison and evaluation of methods for generating differentially expressed gene lists from microarray data. BMC Bioinformatics. Jul 26; pp. 7:359. 刊 http://www.bioinf.ucd.ie/people/ian/ 13 Sall, J. P., Creighton, L., Lehman, A. (2004). JMP Start Statistics, Third Edition. SAS Institute Inc. (Shinmura, S. edited 14 Schrage, L. (2006). translated Japanese version) Optimization Modeling with LINGO. L別DO Systems Inc. (Shinmura, S. Japanese version) 15 [Springerl): Shinmura S (2016). The New Theory of Discriminant Analysis after R Fisher, Springer. DOI: 10.1007/978”981-10・2164・0. 16 (Springer2): Shinmura S (2019a) High Dimensional Microarray Data Analysis - Cancer Gene Diagnosis and Malignancy Indexes by Microarray. Springer. 17 Shinmura S (2019b) “Release from the Curse of High Dimensional Data Analysis.”Springer ’ s Studies in Computational Intelligence (SNPD 2019, IEEE conference): 1-23 18 Shinmura S (2019c) High-dimensional Microarray Data Analysis - First Success of Cancer Gene Analysis and Cancer Gene Diagnosis-, ISi World Statistics Congress 2019,ト6. 19 Stam A (1997) Non 開traditional approaches to statistical classification: Some perspectives on Lp-norm methods. Ann Oper Res 74:1・36. 20 Vapnik, V. (1995). The Nature of Statistical Learning Theory. Springer-Verlag. 253

249.

Proc PHREGによる時間依存性共変量を含むCox比例ノ\ザ ー ドモデルの解析 0稲葉 l 洋介 、 川崎 洋平\仕子 優樹\小津 1 ( 千葉大学医学部附属病院臨床試験部生物統計室、 2 l 義人 、 宮岡 悦良 2 東京理科大学理学部第二部数学科) Analysis of Cox Proportional Hazard model with tim巴 dependent covariates using Proc PHREG Yosuke Inaba l , Yohei Kawasakil, Yuki Shiko l , Yoshihito Ozawa l , Etsuo Miyaoka 2 1Biostatistics Section, Clinical Research Center/ Chiba University Hospital 2 Tokyo University of Science, Faculty of Science Division II, D巴partment of Mathematics 要旨 Cox 比例 ハ ザ ー ドモデルとは Cox が提案した、 Time to event デー タに対して多変量解析を行う方法である。 その際、 共変量の値は観測期間を通して一 定と仮定し、 ハ ザ ー ド関数を時間の関数の部分と共変量に依存す る部分に分離して推定する。 そのため、 共変量の経時的な推移をモデルに組み込む場合は特別な対処が必要 ー となる。 本稿では時間依存性共変量を含む Cox 比例 ハ ザ ー ドモテ ルの理論的背景、 SAS による実装方法を解 説する他、 解析事例や結果の解釈での留意点を解説する。 キ ー ワ ー ド: Cox 比例 ハ ザ ー ドモデル, 時間依存性共変量, Proc PHREG, Time to event, Survival Analysis, Baseline statement 1 はじめに ・ 、 、 Cox 比例 ハ ザ ー ド モデ ル(Cox モデ ル)とは Time to event デー タに対するセミ パ ラメトリックな解析 方法の 一 つで、 ー ハ ザ ー ド関数の比の対数に線形モデルを適用する手法である[ l ][2]。 タとはイベント発生までの時間とイベント発生の有無のベアで構成されるデ ー Time to event デ タで、 生物統計の分野 では被験者の生存時聞がしばしば題材とされる。 例えば既存の治療と新規治療で患者の延命効果を比較 する臨床試験では、 全ての症例をイベン卜発生までフォロ ー アップできる場合は稀であり、 ある 一 定の 割合で打ち切り(Censoring)が発生する。 この状況で標本集団から得られる推定値はバイアスが生じる 事になり、 パ ラメトリックな解析方法は必ずしも適さない。 この問題に対して、 Kaplan と Meier は積極 限推定量(product 1 imit estimator)によるノンパラメトリックな解析方法を提案した[ 3]。 この方法は 予め共変量 が調整される前向きランダム化比較研究のような状況では現在でも有効な手法であり 、 臨床 試験の主要評価項目として頻繁に採用されている。 しかしそのような理想的な状況で常に解析が行える とは限らず、 実務上は背景因子の調整の必要性に直面する事が多い。 例えばデ ー タベ ー ス研究等の後ろ 257

250.

‘ 、 向き研究では、 比較群ごとに背景因子の偏りは避けられない。 Cox 比例ハ ザ ー ド モデ ルはこのような状 況に対する解決策の一 つであり、 生存解析において共変量で調整した推定結果が得られる事から、 これ まで様々な状況で適用されてきた。 Cox 自身の著作物の他にも現在では総合的な解説書も多く出版され ており、 Fleming and Harrington (2005)、Kalbfleisch and Prentice (2002)、Collett (2014)や Hosmer and Lemeshow (2002)がある[4] [5] [6] [7]。 日本語の書籍では大橋 (2002) に詳細な解説がある他、 前述 の Collett (2014)と Hosmer and Lemeshow (2002)は訳本が出版されている (宮岡(2013)、 五所(2014)) [8] [9] [10]。 、 、 Cox 比例 ハ ザー ド モデ ルでは比例 ハ ザ ー ド性を担保するため、 全ての共変量の値は時間と独立と仮定す る事が一 般的である。 もし臨床検査値等の経時的に推移するデー タを 一 般的な Cox 比例ノ、ザ ー ドモデル の共変量として含めたい場合は、 ベー スライン等のある時点の値を採用して定数と取り扱う。 しかし実 際の所、 フォロ ー アップ期間が長い試験ではイ ベント発生直前の検査値がより大きな影響を持つ事も十 分考えられ、 そのような状況では検査値を時間依存性共変量としてモデルに含める事で推定の精度を向 、 上できる可能性がある。 Cox の論文でも、 線形モデ ルの共変量が時間に依存する共変量の取り扱いに既 に言及されている[ l ]。 Crowley と Hu は 1977 年の論文において、移植の有無を時間依存性変数として扱 う事により、 心疾患患者に対する心臓移植の効果を示した[11]。 Murataugh らは原発性胆汁性肝疾患の 短期的な予後予測を改善し、 現在も updated Mayo model として使用されている[12] [13]。 この他に、 Fisher らの論文では喫煙の生存率に対する影響、 コ レステロ ー ル低下薬の効果の推定、骨髄移植デー タ 等の例等が挙げられている[14]。 SAS による実装は Allison (2010)、 Collett (2014)、 大橋(2002)に詳細 な解説がなされている他、 海外の SAS ユ ー ザ ー 会でも多くの論文が発表されている[6] [8] [15] [17]。 し かし日本語で解説された資料は少ない。 、 . 本稿はまず基本的な用語及び数学的な定義を解説し、時間依存性共変量を含む Cox 比例 ハ ザ ー ド モデ ル の理論的背景、 SAS による実装方法を解説する他、 解析事例や結果の解釈での留意点を解説する。 2 定義 2. 1 生存時間デ ー タ 最初に、 本稿を通して用いる記号を整理する。 ある特徴を持つ症例から成る母集団を考え、 我々は各症 例のイ ベント発生の有無 (1=イ ベント発生、O=打ち切り)、イ ベント発生までの時間(failure time)、ま たは打ち切りまでの時間(time to loss or censoring)が観測できる、 かっ全ての症例の実際の生存時 間は打ち切り発生の機序とは独立と仮定する。 この仮定の下で興味の対象のイ ベント発生までの時間は 連続な確率変数で表され、Tと表記する。 Tの従う分布には ハ ザ ー ド関数の形状によって指数分布、 ワイ 、 ブ ル分布等が考えられるが、 ここで特に制限は設けない。 Tの累積分布関数F(t) は生存関数と呼ばれ、 F(t) = P(T三t) で与えられる。 ここで、 Pは確率測度を表し、 F(t)の値は時間tより以前にイ ベ ントが発生する確率を表 す。 同様に ハ ザー ド関数λ( t) を定義する。 ハ ザ ー ドとは、 ある時間tまでイ ベ ントが発生しない条件の下でt からLitの時間間臨でイ ベ ントが発生する条件付確率をLit→0とした際の収束先であり、以下で ハ ザ ー ド 関数が定義される。 258

251.
[beta]
λ(t〕=」!!日)P(t ::;:; T ::,; t + Ll巾三T )/Llt}
これは時間tにおける瞬間イ ベント発生リスクとも解釈される。 ハ ザ ー ド関数は常に非負の値を取る。
各症例i(l ::,; i ::,; n)のイ ベント発生時間をtcoと表記する。Tを連続確率変数と仮定した事により、イ ベ
ント発生時間に重複が発生する事象は確率浪lj度0となる。観測したイ ベント数をk とすると、打ち切り
数はn-kである。必要に応じてtc1) < tc2J く … く t(k) と並べ替える事とする。
ある時点、でイ ベントも打ち切りも起きていない症例は、イ ベントが起きるリスクに曝されていると考
えられる。時点tでリスクのある症例全体をリスク集合と呼び、 R(t)と表記する。
前述の通り、打ち切りがある生存解析ではTのパラメトリックな解析は困難が伴う。この問題に対して
Coxは、 ハ ザ ー ド関数の比を推定対象とする事でTの分布を直接扱わずに推定を行う方法を提案した。

2. 2ハザ ー ド関数のモデリング
患者のイ ベント発生 ハ ザ ー ドが、p個の説明変数Zi ,Z2 ,…Zp に依存する状況を考える。まずは、これら
の説明変数が時間と独立である、と仮定する。i番目の被験者の ハ ザ ー ドは以下の関数で表される。

。

λ ( t;za =ψ(zaλ ( t)
ここで、ψ(z川まi番目の被験者に対する説明変数 ベクトルの関数で、 ハ ザ ー ド比を表す。λ。(t)は説明
変数ベクトルzi = (0,.. 0) での被験者の ハ ザ ー ドの関数で、 ベー スライン ハ ザ ー ド関数と呼ばれる。
’

ψ(xDfま非負関数なので、ψ(za = exp1Z1 i+ …+ /Jp zp Dと表すと、比例 ハ ザ ー ドモデルは以下の式で表
される。

λ(t;za = exp ( β出 i+ …+ PpZpi )λo(t)

ベー スライン ハ ザ ー ド関数との比の式に書き直して対数を取ると、

loglfλ(t; zD I

1

iλ。 (t)f = p内++β

pXpi

、

となり、これは左辺をアウトカムと考えた親形モデ ルととらえる事ができる。

2.3

部分尤度

λ。(t)を任意の関数と仮定する。イ ベントが起きていない時間間隔では、特にβには情報は付与されな
いと考えられる。ある症例iにイ ベントが起きた時間をtcoとする。リスク集合R(tc;))の条件付で、時刻
t(i)における症例tのイ ベン卜発生確率は以下で表される。
exp{zci)伊}/
/LeR(tciJ ) exp{zclJ ll}
したがって、めを、症例i がイベントを観測した場合はl、打ち切りの時に0を取る変数として、この
場合の部分対数尤度関数は
n

I

L (戸) = む{ zco
i=l

P - log

\_

Z

州匂)β}

IER(tc,〕)

、

}

で表される。この関数を数値計算により最大化する事により、βの最尤推定量を求める事ができる。

2.4

、

時間依存性共変量を含むCox比例ハザ ー ド モデル

259

252.

、 一般的にCox比例 ハ ザ ー ド モデルを用いる場合、説明変数はある ベースラインの値を用いる場合が多 い。 ベー スライン時の値に興味がある場合や生涯変わらない情報であれば問題ないが、臨床検査値や 腫療の大きさ等はフォロ ー アップ期間中に推移し、場合によっては ベースラインよりもイ ベント直近 の値が有効な情報を含んでいるような場合がある。この場合は経時的に変化する変数としてモデルに ‘ 組み込む事により、モデ ルの信頼度を向上させる事ができると考えられる。 時間依存性共変量 ベクトルをxi (t) == (xli (t),…,Xpi (t))と記述する。前述の ハ ザ ー ド関数をこの記法で 書き換えると、 。 λi (t;zi (t)) = exp(/11zli(t) + … + /1p Zpi (t))λ (t) と表される。この時、症例rと症例lsの時点tにおける ハ ザー ド比を考えると、 ん (t; Zr(引 仰5(t)) =叫/11(Z1r - Zit)+ ..+ /1p (Zpr 一 叫 ’ ’ と展開される。これより舟は任意の時刻tにおいて、争 ー ら = 1かつ,j *j である任意のj について ろγ = 号tで、あるような症例rと症例lsのハザー ド比と解釈される。 同様に部分尤度関数は n I i=l i I L(戸) = 工作co Ct)β ー logエ州向)(明 \. IER(t(i)) ) で表される。 、 ここで留意するべき点が3つある。最初は、時間依存性共変量をCoxモデルに組み込んだ 時、厳密に は ” 比例 ” 、 、 ハ ザ ー ド モデ ルと呼ぶ事はできない。なぜなら各症例の時点毎に共変量の値は異なる変化 をするため、 ハ ザ ー ド比は 一 定に保たれないためである。しかし部分尤度の計算自体に特別な問題は 発生しないため、本稿では特に区別せず比例 ハ ザ ー ドモデルと呼んでいる。 次に、上記の式から、尤度の計算のためにはリスク集合R(tci) )中の症例全てのtci) で、の共変量の値が必 要となる事が分かるが、実際の試験でデー タを収集する事は不可能に近い。対処方法として最後の測 定値を代入する方法が提案されている[6]。他に、前後の測定値の平均値を代入する方法も考えられる が、Allison (2010)では推奨されていない[18]。 最後の留意点として、年齢のような時間の線形な関数となっている共変量を時間依存性共変量として モデルに組み込んでも、時間に対して 一 定とした場合と推定値は変化しない。なぜならそのような変 数の経時的な影響は ベースライン関数に織り込まれてしまうためである。 2. 5 ベ ー スライン累積ノ、ザ ー ド関数と生存関数の推定 通常のCoxモデ ルと同様、共変量の係数を推定した後、ベースライン累積ノ、ザ ー ド 関数R。 ( t)を推定す 、 ‘ る事ができる。t(k ’) :s; t :s; t(k ’+ 1〕 (k ’ = 1, ... ,k-1)として、 _:!J_ H0(t) = ) 一一 1I 附ω)叫{zco(t)β} 会 ただし、dj はtui におけるイ ベント数である。ここでも各イ ベント時点でのリスク集合に含まれる全被 験者の共変量の値が必要となる。 ベースライン生存関数So(t)の推定値は以下となる。 260

253.

S0 (t) = exp{-fl。(t)} 特定の被験者に対する生存関数は、通常のCoxモデルのようにお (t)の累乗の形で、表現する事ができな い。変わりにハザ ー ド関数の積分を用いて以下の式で表される。 I 仰 = 叫!一L ιι I P ex \ \ 計算の詳細はCollett(2014)を参照されたい[6]。 2.6 内的変数と外的変数 時間依存性共変量を苦慮、したモデルを考える際に重要な概念として、内的 (Interna1/Endogenous) 変 数と外的(Externa1/Exogenous)変数がある。内的変数とは被験者が生存中にのみ観測され得る変数で あり、臨床検査値、QOLスコア等が該当する。内的変数をモデルに組み込む際は注意が必要となる。な ぜなら治療に影響を受けるような変数を選択した場合、治療効果の推定に深刻なバイアスが入る可能 性がある為である。大橋(20 02) ではがんの補助療法の試験に於いて腫虜マ ー カ ー を時間以前性共変 量に加えた場合に治療の効果が過小評価される事例を挙げている。この場合はJointmodel等を用い て影響を調整した上で解析を行う必要がある。外的変数は観測の成否がアウトカムに関連していない 変数で、例えば花粉症治療薬の試験における単位時間中の花粉の飛散量等がある。 説明変数自体は時間と独立だが、係数が時間に依存するような状況も 一 種の時間依存性変数と考えら れ、例えば分割肝移植術のリスクの変化等が報告されている口9]。 一 般に、戸 (t)とし、う形式の時間依存 性係数を持つ共変量Xがモデルに含まれていたとして、例えば戸 (t)がtの親形な関数となる場合は、Xを X(t) = Xtと置き換えて時間依存性変数とする事により、時間依存性共変量として処理できる。しかし ながらP(t)が非線形関数や2つ以上のパラメ ー タからなる関数の場合は簡単にモデ ルにはあてはめる事 ‘ ができない。この他に比例ハザ ー ド性の仮定の検証に使われる場合もある。これは時間依存 a 生係数戸 (t) を持つ変数がモデルに含まれると仮定し、帰無仮説戸 (t) = 0の検定を行う手法であり、本稿3. l lこて事 例を紹介している。 3 SASによる実装 時間依存性共変量を含むCox比例ハザ ー ド モデ ルの条件付尤度関数は、SASの PHREGによって実装する 、 、 事ができる。PHREGプ口、ン ー ジャ中でmodelステ ー トメン卜中の変数をプログラムステ ー トメン卜によ り更新してし、く方法と、デー タセットを計数過程型(Counting Process style)に持たせる方法の2通 りがあり、適宜入力デー タセットを加工する必要がある。同ーのデー タであれば上記2方法とも同じ 結果が返るが、プログラムステ ー トメントによる方法ではBaselineステ ー トメントで生存関数を推定 する事はできない。勿論、計数過程型で解析し生存関数を出力する場合でも、結果の利用には注意す るべきである。 以下で解析事例を紹介する。デー タセットはCollett(2014)付属のデー タセットを使用した。本稿はプ ログラミング方法の解説が主な目的であるため、更なる解析の詳細及び医学的な解釈については原著 を参照されたい。 261

254.
[beta]
3. 1

解析事例

例l:肝硬変デ ー タ
最初に、 架空の肝硬変治療の試験デ ー タを用いて基本的な実装方法を解説する。 本試験では 12 人の被
験者が組み入れられ、 新規治療群とプラセボ群にランダムに割り付けられる。 被験者は治療開始3か
月後、 6 か月後、 12 か月後、 その後は l 年毎に来院し検査を受ける。 デ ー タセットには以下の変数が
含まれている。
Patient :被験者ID
Time:生存時間(日)
Stαtus :イベント指示変数(l=イベント、Oニ打ち切り)
Age :年齢

Lbr :対数変換したピリルビン値

ピリルビン値は各来院毎に測定される。 ビリルピン値を時間依存性共変量として取り扱うため、 変数
tl, …, tS 及びLbrl,…, LbrS を定義し、 各来院時の前回来院時からの日数及びビリルピンの測定値を格納
する。 これにより、 ピリノレビン値はti く time く ti+1Ci = 1, ... ,4)の時にビリルビンの値はLbri 、 time>
ts の時 lこ Lbr5 の値を取る離散な関数となる。 以下に変換したデ ー タセットの冒頭 3obs を示す。 ただし

欠測を.で表している。
Patient

2
3

time

status

age

lbrO

tl

lbrl

t2

lbr2

t3

lbr3

281

1

46

3. 2

47

3. 8

184

4. 9

251

5

604

0

57

3. 1

94

2. 9

187

3. 1

321

3. 2

457

1

56

2. 2

61

2. 8

97

2. 9

142

3. 2

t4

lbr4

t5

lbr5

359

3. 4

440

3. 8

SAS の PHREG 中では、 時間依存性の変数 Lbrt を model ステ ー トメントに含め、 時間 time に関する if
then 文で Lbrt の値を更新する事により、 時間依存性共変量を指定する事ができる。
SAS プログラム1:肝硬変デ ー タ
PROC PHREG data=library.CIRR;
class treatment(ref="O");
model time*status(O)=age treatment lbrt;
lbrt=lbrO;
array lbr{*} lbrl lbr5; array t{*} tl t5;
do i=l to dim(t);
if time>t{i} and -missing(t{i}) then lbrt= lbr{i};
end;
run,
プログラムの実行結果は以下となる。

262

255.

パラメ ー タ自由度 パラメ ー タ推定値標準誤差 力イ2乗値Pr> ChiSqハザ ー ド比 age -0.05340 0.07667 0.4852 0.4861 0.948 1.22847 1.30145 0.8910 0.3452 0.293 3.73624 2.40678 2.4099 0. 1206 41.940 treatment 司 lbrt 結果の解釈は、 他の共変量が同 一の値だが時点tでピリルビンの値がl異なる2人の被験者において 、 時点 tの死亡ハザ ー ド比の推定値は41. 92、 という事になる。 ただし今回解析したデー タセットは例数 が少ないため、 推定値の信頼度は低い事に注意する。 同デ ー タを計数過程型のデー タセットで表現する。 この場合は以下のように時間間隔の開始時点を stαrt 、 終了時点をstop で‘ 表す縦型のデー タセットとなる。 patient start 。 184 184 251 。 281 94 2 94 187 2 187 321 2 321 3 。 604 61 97 3 97 142 3 142 359 3 359 440 3 440 457 3 status treat 47 47 251 2 stop 61 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 age I brt 46 3.2 46 3.8 46 4. 9 46 5 57 3.1 57 2.9 57 3. 1 57 3.2 56 2.2 56 2.8 56 2.9 56 3.2 56 3.4 56 3.8 対応するプログラムは以下となる。 この場合はmodelステ ー卜メン卜に記述する変数は全てデータセ ット中に存在するため、 if-then文でmodelステ ートメント中の変数の値を更新する事は不要である。 SASプログラム2:肝硬変デー タ(計数過程型) PROC PHREG data= library.CIRR CP plots(overlay)=s; ” class treat(ref= O"); model (start stop)*status(O)=age treat lbrt; bas巴 line out= cirr_out survival= s / nomean diradj group= treat, run, 263

256.

実行すると、 前回と同じ結果が返る。 異なる点としては、 計数過程型で実行する際は Baseline 文が実 行可能となり、 生存関数が推定可能となる点である。 この場合に Baseline 文を使用すると、 ロ グには 以下の note が出力される。 NOTE: Since the counting process style of response was specified in the MODEL statement, the SURVIVAL= statistics in the BASELINE statement should be used with caution. ただし、 Allison (2010)では、 殆どの事例でこの note は考慮する必要は無い、 と記載されている。 treatment 毎に推定した生存関数は以下のようになる。 直接銅整溌み生存調数 1.0 0.8 0.6 暢 0.4 02 0.0 0 日加 。 10!渇 1500 st p treat -一一一一-0 -一ーー一一1 特定の共変量の値の生存関数に興味がある場合は、 興味のある共変量の値を格納したデ ー タセットを 作成し、 Bas 巴 line 文の covariates= オプションで指定すれば良い。 例2:卵巣がんの化学療法 次に、 比例ハザ ー ド性の仮定を確認する方法を示す。 使用するデー タセットは 26 例の卵巣がん患者に 対して手術の後に2つの異なる化学療法を行った試験のデー タで、 以下の変数で構成される。 Patient :被験者 ID Time :治療開始からの経過時間 Status :イベント指示変数( O = 打ち切り、 l =イベント) Tre αt:治療(l=単独、 2 = 併用) Age :年齢 Rdisease :残存病変の切除( I = 不完全、 2=完全) Per[ :身体状態( l = 良、 2= 不良) 尚、 変数Rdisease とPer[は今回はモデルに含めていない。 以下にデ ー タセットの冒頭 3obs を示す。 264

257.

status treat time patient 156 2 1040 3 59 。 age rdisease perf 66 2 2 38 2 2 72 2 この時、 i番目の症例のハザ ー ドの推定関数は、 えi(t) =回P(/3AgeAgei + /JrγeαtTreataλo(t) となる。 このモデルに年齢と時間の交互作用項Age* Timeを追加する事により、 係数の有意性および ハザ ー ド関数が時間に依存しているかを確認する事ができる。 あてはめたハザ ー ド関数は i;(t) = exp(/JAgeAge; + /JrreatTreαt; + /3AgetAge;* Time)λo(t) パラメ ー タ推定のプログラムは以下となる。 SAS プログラム 3 :卵巣がんの化学療法デー タの比例ハザー ド性の確認 PROC PHREG data=library.COC; model time*status(O)=age treat aget; agetニage*time; run, パラメ ー タ自由度パラメ ー タ 標準誤差 力イ 2 乗値 Pr> ChiSq ハザ ー ド比 推定値 age 0.21565 0.11261 3.6673 0.0555 1.241 treat -0.66359 0. 66955 0.9823 0.3216 0.515 aget -0.0002031 0.0002832 0.5141 0.4734 1.000 、 変数 aget は有意ではないため、 上記モデ ルには不要で、ある、 と結論付ける事ができる。 4 まとめ ‘ 本稿では時間依存性共変量を含む cox 比例ハザ ー ド モデ‘ルの理論的側面及び Proc PHREG による実装、 推定結果の解釈を解説した。 今後、 医療デー タ ベースが整備されて行くにつれて、 長期間大規模例数 の生存解析の報告は増加すると思われる。 その中で時間依存性共変量を扱う必要も増えて行くと予想 される。 本稿で取り上げられなかったトピックとしては、 競合リスク解析等に対する時間依存性共変量 Cox モ デルの適用、 内的変数でアウトカムの中間変数となっているような場合に用いる Joint model、 モデル の適合度の検定、 、 ベー スライン生存関数の推定の発展的な方法、 、 等がある。 時間依存性共変量は Cox モデ ルの歴史の中で 比較的古い話題ではあるものの、 今後も更なる理論的発展が見込まれる。 265

258.
[beta]
参考文献
[l]

D.R.Cox,

“Regression Mod巴 ls and Life一Tables,”

l R. Stat. Soc. Ser. B, vol. 34, no. 2,

pp. 187 220, 1972.
[2]

D.R.Cox,

“Partial Likelihood,”

[3]

P. Kaplan, E.L; Meier,

Biometrika, vol. 62, no. 2, pp. 269-276, 1975.

“Nonparametric Estimation from Incomplete Obs  rvations,'’

よ』m.

Stat. Assoc., vol. 53, no. 282, pp. 457-481, 2016.
[4]

T. R. Fleming and D. P. Harrington, Counting 丹ocesses and Survival Analysis. Hoboken,
NJ, USA: John Wiley & Sons, Inc., 2005.

[5]

J. D. Kalbfleisch and R. L. Prentice, The statistical analysis of failure time data. J.
Wiley, 2002.

[6]

D. Collett, 船delling survival data in medical research. Chapman and Hall/CRC, 2014.

[7]

D. W. Hosmer, S. Lemeshow, and S. May, Applied survival analysis: regression mod,θling of
time-to-event data. Wiley一 Interscience, 2008.

[8]

大橋靖雄and浜田知久馬, 三左京物質/Jf!!/1/r-SASによ,3生物斑託東京大学出版会, 1995.

[9]

D. Collett and宮岡悦良, E茶ilfHのための会主戸巧神デー タグダゲ原夢見亨2庇共立出版, 2013.

[10]

D. W. Hosmer, S. Lerneshow, S. May, M. Gosha, and五所正彦, 会長戸時局'f!f!Jj_λ丹原章第2庇東
京大学出版会, 2014.

[11]

J. Crowley and M. Hu,

[12]

P. A. Murtaughθ t al.,

J. Am.

“Covariance analysis of heart transplant survival data,”

Stat.』ssoc., vol. 72, no. 357, pp. 27-36, 1977.
“Primary biliary cirrhosis: Prediction of short - term survival

based on repeated patient visits,”
[13]

Hepatology, vol. 20, no. 1, pp. 126-134, 1994.

T. M. Therneau and P. M. Grambsch, Modeling survival data: extending th
θ Cox model.
Springer, 2000.

[14]

L. D. Fish巴r and D. Y. Lin,
Regression Model,”

“Time-Dependent Covariates in the Cox Proportional-Hazards

Annu. Rev. Public Health, vol. 20, no. l, pp. 145-157, 1999.

[15]

Teresa M. Powell and M. E. Bagnell, “Your survival guide to use tim巴 -d巴pendent
covariates, '’ SAS Glob. Forum, 2012.

[16]

Ying Yao,

“Several Methods to assess proportional hazard assumption when applying COX

regression model,”
[17]

F. Xue, R. Sanofi, M. Lai, and R. Sanofi,
in PROC PHREG,”

[18]

Pharma8即日ina, pp. 1-9, 2018.
“Time Dependent Covariat巴s

‘Survival



More

pp. 1 12.

Paul D. Allison, Survival Analysis Using SASI/P: A Practical Guide, Second Edition. SAS
Institute, 2010.

[19]

K. Sasaki et al.,

“Elevated Risk of Split-Liver grafts in adult 1 iver Transplantation:

Statistical Artifact or Nature of the Beast?,”
741-751, 2019.

266

Liver Transplant., vol. 25, no. 5, pp.

260.

、 SAS Viyaにおける機械学習モデ /レ評価入門 ~ ASSESSプロシジャ 0 三宅正晃 (株式会社タクミインフォメ ーションテクノロジー) SAS Viyaなどの先進的な機械学習ツ ー ルで、は、高度な機械学習モデルを手軽に試し、 ハイパ ー パ ラメ ー タのチュ ー ニングやモデノレ間比較をすることができる。 ハイパー パラメ ー タのチュ ー ニング 、 、 やモデ ル間比較のために、 様々なモデ ル評価指標が提案・実装され利用されている。 したがって、 機械学習によるデ ー タ分析を進めていくにあたって、様々なモデル評価指標を正しく理解している ことが重要である。 (もちろん、 扱っているデー タやモデルの理解も重要で、 ある。) 、 本発表では、 SAS Viyaにおいてモデ ル評価を担当しているASSESSプロシジャを取り上げ、 教師 、 あり学習におけるモデ ル評価の入門的な解説を試みる。 具体例も交えながら、Li食Information, ROC Information, Fit Statisticsについて解説する。 269

262.

SAS/JMP を用いた全国消費実態調査の擬似ミクロデ ー タによる教育プログラムの開発 0古隅弘樹\有馬昌宏\川向肇\周防節雄2、 高橋行雄九宮内亨4 ( I 兵庫県立大学、 2 統計情報研究開発センタ 一 、 3 BioStat 研究所、 4統計センタ ー ) Development of educational program using SAS/JMP and pseudo-micro data of national survey of family income and expenditure Hiroki FURUZUMI 1 , MasahiroARIMA1 , H句ime KAWAMUKAI 1 , Setsuo SUOH 2 , Yukio TAKAHASH13 , Toru MIYAUCHl4 'Univ. ofHyogo, 2 SINFONI CA, 3 BioStat Reseach Co., Ltd., 4National Statistics Ce nter 要旨 兵庫県立大学では旧神戸商科大学の流れを汲む経済学部・経営学部の改組を行い,2019年度より 社会情報科学部と国際商経学部が発足した. 社会情報科学部ではビッグデ ー タの処理や分析といっ た情報科学のスキルを軸として,経済や経営といった社会科学の領域に応用できるデ ー タサイエン テイストの養成を目指している. 、 。 統計センタ 一 作成の「教育用擬似ミクロデ ー タ」の提供が中止になった後, 我々のグ ル ー フ の有 志で全国消費実態調査の匿名デ ー タから新擬似ミクロデ ー タを作成した. このデ ー タを使って SAS や JMP などを用いて, デ ー タサイエンスを学ぶ学生にビッグデ ー タにも対応できるデ ー タ解析の 実践教育を行し、たい. 学生が関心を持って取り組めるよう,卒業後,社会に出た年代にあたる 20代 未婚独身世帯の生活状況の分析や, 両親の退職後にあたる 65 歳以上の年金生活世帯の家計の分析 など, 身近でイメ ー ジしやすい集計プランを提案する. 公的統計の公表値(平均等の代表値)からは 実態が見えないものが多く, ミクロデ ー タを用いることで分布情報を含む分析が可能になる. 例え ば,収支の平均差から導出される老後の夫婦生活に必要な貯蓄額は 2千万という金融庁の報告書の 内容を検証する等, 身近な社会問題に関連するビッグデ ー タを分析させ, 公的統計を含むミクロデ ー タを利用する際に必要な知識や技法なども修得させる. キ ー ワ ー ド:統計教育, 公的統計, 全国消費実態調査, 擬似ミクロデ ー タ, 公的年金 はじめに 兵庫県立大学の神戸商科キャンパスには, 旧神戸商科大学の流れを汲む経済学部と経営学部があ ったが, 学部再編により 2019 年4月に社会情報科学部と国際商経学部として生まれ変わった. 国 内初の学部名称、となった社会情報科学部では, 社会科学と情報科学の融合領域を対象としており, 世の中にあふれる様々なデ ー タを利活用して,社会や組織が抱える課題に取り組むことができるよ う,デ ー タの収集から分析に至る情報科学のスキルを軸として, 経済や経営といった社会科学の領 273

263.

域に応用できるデ ー タサイエンテイストの養成を目指している. 社会情報科学部での取り組み 公的統計の二次利用の推進施策によって,e-Stat に代表される WebAPI や LOD (Linked Open Data) によるデ ー タ提供が政府や自治体で積極的に取り組まれている. 社会情報科学部では, これらのオ ー プンデ ー タを利用した基礎演習や, 提携企業から課題やデ ー タの提供を受けて実施する PBL(課 題解決型学習) 演習といった演習科目と並行して, 基礎的素養(数学, 確率・統計, プログラミン グ,等) を中心にl年次で学修することになっている. 2年次以上になると, 各分野(社会,政策, 医療など) のデ ー タを用いたより実践的なデ ー タ分析演習を行い, 専門科目として機械学習, 人工 知能,数理モデリング,デ ー タ可視化,などを履修することができる. また,BYOD (Bring Your Own Device) により学生が持参するノ ー ト PC に分析ツ ー ルや開発環境を導入し, キャンパス内のアク ティブ・ラ ー ニング・スペ ー スやデ ー タサ ー バへのアクセス環境の整備によって, 日々の演習や講 義の予習や復習, レポ ー ト課題, 研究に学内外で取り組める学修環境の構築に努めている. 教育プログラム開発の必要性 公的統計のミクロデ ー タを学部や大学院での統計教育や研究および論文作成に利用する教育・研 究のカリキュラムの策定を考えている。 公共デ ー タの利活用への期待が膨らむ中, 公的統計デ ー タ も重要な位置を占めている. オ ー プンデ ー タとして利用しやすし、 e・Stat に代表される集計表等に対 して, 利用申請の提出と審査が必要な匿名デ ー タや個票デ ー タ, オンサイト利用については, 認知 度の低さやデ ー タ処理の技術が必要になることもあってまだまだ敷居が高く,大学教育における公 的統計ミクロデ ー タの利用教育が必要となっている. 公的統計を利用するために必要となる復元乗率などの基礎的知識やノfッケ ー ジソフトおよびプ 、 ログラミング言語など の統計解析ツ ー ルでの利用上の留意事項などについて,学生にとっても身近 な家計消費のデ ー タである全国消費実態調査のミクロデ ー タを利用した実践的な分析事例を用い た教育カリキュラムの開発を検討している. ただし, 講義や実習・演習での匿名デ ー タの利用につ いては各種の制限から利用が難しいため,教育用擬似ミクロデ ー タに代わるデ ー タとして用意され た新擬似ミクロデ ー タを用いて教育を行い, その過程で 有用な研究に結びつく課題が発見されれば, 個別に学術目的の研究として匿名デ ー タや個票デ ー タの利用を申請して,研究成果に繋がるという 教育プログラムを構築したい。 社会情報科学部のカリキュラム l年次の関連科目としては, 数理科学(微積分, 線形代数), 統計学, 情報処理基礎(Excel) , プ ログラミング(Python 基礎), PBL 演習があり, 2 年次以降では, プログラミング(Python 応用), 確率・統計, デ ー タ分析演習(Excel, R, Python), 社会調査法 (JMP) などがある. 他の関連科目 として, 統計的モデリング, デ ー タマイニング, 機械学習, 人工知能, デ ー タ可視化などが開講予 定である.なお,有償統計ソフトとしては SAS/JMP を導入する予定であり,他の統計ソフト(SPSS, STATA など)を使う教員間で調整し, 授業では JMP で統 一 することとした. 274

264.

。 教育フ ログラムの概要 インター ネットなどで手軽に利用できるオー プンデー タは, その利便性もあって, デー タがどの ように作られ, どのような性質を持っているのかをあまり意識せずに利用することが多く, 数字の 独り歩きや不適切な解釈の 一 因となっている. 匿名デー タや擬似ミクロデー タといった個々の調査 客体の回答情報に近いデー タに触れ, デー タがどのように作られているかを理解させることが, 他 のデー タを利用する際の意識の改善につながるといえる. 調査の概要として, まず調査の目的があり, そのための調査対象や調査事項, 用語(概念)定義 が設計されている. 異なる統計デー タを比較する際には, これらの違いが影響することを意識させ る必要がある. また, わが国の統計調査システムとして, 世帯調査であれば国勢調査結果を母集団 とする標本設計・抽出をおこない, 地方自治体である都道府県や市区町村と実施省庁が協力して調 査を実施する体制を取ることで,全国だけでなく地方における統計精度を確保する仕組みになって いることも理解が必要である. 標本設計や抽出方法においては地域特性を考慮し, 人口の過疎・過 密によって抽出率を変えるなどの工夫が行われており,母集団推計をする際にもそれらを考慮、 した 乗率によって復元する必要があるため, デー タを利用する際にはこれらの理解が必要になる. 複数年次の調査デー タを利用する際には,調査項目の変更点などの時系列比較をする場合の注意 事項について考慮する必要があり,調査年次によってレ コー ドレイアウトや コー ド表が異なること がある. 分析ツ ー ル(SAS/JMP)の対応形式でデー タセットが提供される場合は, デー タのインボ ー ト作業は軽減されるが, テキストデー タでの提供にも対応できることが望ましい. インポー トツ ー ルでうまく取り込める場合は問題ないが, よくあるのは欠損値の取り扱いで、 , 数値デー タに含ま れる欠損を意味する記号(ピリオド, NA, V, 空白など)の対処や, レ コー ドレイアウトを基に変 数を切り分けるプログラムを別途記述しなければならない場合がある. インポー ト後には, コー ド 表を基にした各変数の分布の確認作業などが必要になる. このあたりの作業は使用する分析ツ ー ル (SAS/JMP)の操作方法とあわせて演習を行い, 提供デー タに関する基本分布の情報とつきあわせ て, デー タインポー トに問題がないことを確認できれば,用意した分析事例に基づいて演習をおこ ない, 個々の興味に基づくテー マを設定して分析, 評価, プレゼンを行う. 今後の課題 講義や演習・実習で最初に利用することを想定している全国証紙実態調査の新擬似ミクロデー タ は、 その匿名デー タの分布を基に個別デー タを生成していることから、新擬似ミクロデー タの分析 によって得られる結果や解釈に学術的有効性は無いものの,匿名デー タ等の利用申請に至る前段階 として, 準備や教育目的での利用には有用性は大いにある. とはいえ,新擬似ミクロデー タの利用を出発点とする公的統計ミクロデー タの利用教育のプログ ラムの有用性と限界については, 匿名デー タを用いた分析結果を踏まえたうえで, ある程度把握し ておくべきと考えている. これは新擬似ミクロデー タを利用して学習を始める学生に、 公的統計を 利用することのモチベー ションとデー タ解析からの新たな発見や政策提言に向けてのインセンテ イブを与えるために必要であると考えている。 275

265.

参考文献 [1]天野徹( 2016)「ビッグデ ー タ時代における統計学教育のポイン卜情報の定量的評価とリスク 管理のセンスを持つ文理融合型人材育成のために一 J pp.85-90, コ ンビュ ー タ利用教育学会, [2]独立行政法人統計センタ ー 、 コ ンビュ ー タ&エデ ユケ ー ション, 40, 2016. ( 2012) 『教育用擬似ミクロデ ー タの開発とその利用 ~ 平成 16 年 全国消費実態調査を例として ~ 』製表技術参考資料 16,独立行政法人統計センター, 2012 年 7月. [3]河野真理子,和田かず美( 2018)『ミクロデ ー タ分析のための演習用教材の作成方法 ~ 一 般用ミ クロデ ー タ詳細品目版及び擬似ミクロデ ー タによる事例~ 』統計研究葉報第 75 号 No.4, 総 務省統計研修所, 2018 年 3 月. [4]統計教育連携ネットワ ー ク「統計学分野の教育課程編成上の参照基準( JINSE) http://www.jinse.jp/archive.html (2019 年 7 月 31 日アクセス) [5]独立行政法人統計センター 「公的統計のミクロデ ー タ利用」 https://www.nstac.go担/services/archives.html (2019 年 7 月 31 日アクセス) [6]兵庫県立大学社会情報科学部 https://wwwルhyogo.ac 担/sis/ (2019 年 7 月 31 日アクセス) 276

267.

SAS Global Forum 2019レポ ー ト 日本のSASプログラマ ー のプレゼンス向上を目指して 一 0森岡 裕 (イ ー ピ ー エス株式会社) 米国ダラスで開催されたSAS Global Forum 2019に参加させていただいた. 長谷川準(EPS)と共同で 論文を作製・投稿し, 壇上発表を行った. その発表についてInternational Professional Award という賞を受賞させていただいた. 得がたい体験を得たと実感している. 私が特異なのではなく,SASに対する愛情と熱意があればどなたでも同じ経験ができると確信する. 論文投稿から発表に至るまで, そして現地での様子などを, 今後の日本のSASプログラマ ー が世界 に羽ばたくための糧になるように共有したい 279

268.

公演デ ー タから見る宝塚歌劇団演出家のライフサイクル 0坂部 裕美子 (公益財団法人 1 統計情報研究開発センタ ー ) 宝塚大劇場公演の演出家別公演担当数 宝塚歌劇団公演の「中核Jと言える宝塚大劇場公演について、 直近 50年分の演出家別公演担当数 (再演も含む)を集計すると、植田紳爾が最も多く、以下柴閏倍宏、酒井澄夫、小池修 一 郎と続く。 さらに、 一定以上の数の公演を担当した者は歌劇団の理事となり、 また「宝塚歌劇の殿堂J入りを 果たすこともできるように見受けられる。 2 演出家としてのライフサイクル 演出家としての個々の成長過程を見るために、 1979年(宝塚パウホ ー ル開場の翌年)以降の歌劇 団全公演の演出助手・演出補のデー タを整備したところ、 助手デビュ ー した演出家はその後、 バ ウ 、 ホ ー ル公演演出→大劇場公演演出→演出補昇進→サブ 担当卒業=完全な独り立ち、とし、う段階を踏 んでゆくことが分かった。 しかもこの成長過程と独り立ち後の活躍( 1の結果から、 公演担当数が 多いほど「活躍している」と見なす)は関連があるようで、 後に活躍する演出家は、 演出補以下で の公演担当数が少なめになる傾向がある。 また、 1980年前後に助手デビュ ー し、 既に熟年期に入ったと思われる演出家 5名の生涯公演担当 状況を比較したところ、 年次別の公演担当数には、 例えば活動ピ ーク期が最も多くそれ以降は減退 する、 というような変化は全く見られず、 むしろ前述のとおり演出家デビュ ー 初期に規定されたと 考えられる活動ベ ー スが、 生涯維持されるようである。 3 演出家の退団と採用の傾向 こ こ まで主に見てきたのは現在も宝塚歌劇団に所属する演出家のみだが、 公演デ ー タ中には、 中 途で名前の消える者も存在する。 この中途退団者について確認してみる。 1959年以降の公演デー タにおいて、 演出助手として2 公演分以上にデー タがあり、 「演出家デビ ュ ー 後20年Jまでに記録が途絶える演出家は16名いる。 演出助手で辞める者が最も多い(11名)の だが、 辞めるまでの助手活動期間は5 ~ 6年が4名、 2年が3名、 l 年が 4名となっている。 そして、 16名のうち11名は平成以降の助手デビュ ー である。 デー タを見ていくと、 昭和期までは 既存の助手が演出補に昇格したタイミングで新しい助手を採用していたのを、 平成以降は数年にl 度の定期採用に変更したようである。 その結果、 助手の総数は増えているが、 中途退団者も増えて しまっている。 ちなみに、 近年の助手にはかつてないほど女性が多い。 このような体制変化も含め、 世界的にも 特殊な劇団の演出家育成システムは、 まだ変革の過程にある。 280

270.

【企画セッション】 NICE TSD Evidence Synthesisシリ ー ズの紹介: ネットワ ー クメタアナリシスを中心として セッション 1 : 「メタアナリシス及びネットワ ー クメタアナリシスに対する 一 般化線型モ デルのフレ ー ムワ ー ク ~ NICE TSD2の紹介 ~ 」 セッション2: 「試験問の異質性:サブ グル ー プ解析, メタ回帰, 及び偏りの調整 ~ NICE TSD3の紹介 ~ J 「エビデンスネットワ ー クの不 一 致性 ~ NICE TSD4の紹介 ~ 」 、 セッション3: 0 町田光陽 1)2) I O 渥美淳 1)4 ) 奥山ことば I) 5) 0 石渡量太 I) 3) ー )日本製薬工業協会医薬品評価委員会デ 2 )塩野義製薬株式会社 3 )サノフィ株式会社 タサイ エ ンス部会 継続課題下5 4 )東レ株式会社 5lMSD 株式会社 [Planning Session] Introduction ofNICETSO Evidence Synthesis Series: Focusing on Network Meta-Analysis Session 1: A generalized Linear Modelling Framework forPairwise and Network Meta-Analysis ~ from NICE TSD2~ Session 2: Heterogeneity: Subgroups, Meta-Regression and Bias-Adjustment ~合omNICETSD3 Session 3: Inconsistency in Networks of Evidences ~ from NICETSD4 Mitsuaki Machida 1121 Ryota Ishiwata 1131 Jun Atsumi 114> Kotoba Okuyama 1151 11 Japan Pharmaceutical Manufacturers Association Drug Evaluation Data Science Devision KT・5 21 Shionogi Co., Ltd. 31 Sanofi Co., Ltd. 41Toray Industries, Inc. 5> MSD Co., Ltd. 要旨 本邦では薬価の価格調整に費用対効果評価が本格導入されたが, 英国では約 20 年前より NICE (National Institute for Health and Care Excellence)が医療技術等の保険償還の可否, 及び新薬の薬価に関 連した費用対効果評価及び総合的評価(アプレイザル)を実施しており, 日本も含めた各国からその活 動が注目されている. また様々な技術的文書( Technical Support Document (TSD) )も作成しており, 現 在までに 19 の TSD が存在する. 特に, TSDl ~TSD7 では エ ビデンスの統合( Evidence Synthesis)に関 わるトピックを扱っており, その中でも TSD2 ~TSD4 では費用対効果評価で用いられる間接比較,或い はNetwork Meta-Analysis (NMA)を実施する際の考慮すべき点, 及び注意点が示されており, 特に重要 と考えられる. さらに各事例に対し, WinBUGS のプログラムコ ー ドが提供されている. 本発表では, TSD2 ~TSD4 で紹介されているすべての WinBUGS のプログラムコ ー ドを SAS (Proc MCMC 等)に移 植を行ったため, 解析プログラムを紹介するとともに, エ ビデンスの統合(NMA)に関する NICE の考 1 283

271.

え方, 及び NMA を実施する際の一連の流れや注意点を紹介する. さらに実際に費用効果分析に関連し て実施された NMA の実例を紹介する. 本論文では, 費用効果分析での事例以外の NMA の方法論及び SAS によるプログラミングを紹介する. キ ー ワ ー ド: NICE, 臨床試験, 費用対効果評価, ネットワ ー クメタアナリシス, 比較, 一 、 般化線形モデ ル, ベ イズ, 試験聞の異質性, メタ回帰, 不 一 エ ピデンス統合, 間接 致性, WinBUGS, MCMC 1.はじめに 医療経済評価を保険償還制度や価格調整制度に活用している国はヨ ー ロッパを中心に数多くあり, 本邦に おいても本年4月, 薬価の価格調整に費用対効果評価が本格導入されている. イギリスでは早期に医療技術 の費用対効果評価を導入し, 医療技術評価(Heal出 Technology Assessment; HT A)機関である NICE (National Institute for Health and Care Excellence)が標準的治療や処方を提言するガイダンスを発行している[円. HTA で 主たる役割を担う費用対効果評価とは, 対象となる新医療技術とそれに最も置き換わり得る医療技術(比較 対照)とを「費用」及び「効果」の両面において比較・評価するもので, その方法論は統計学の理論に立脚 しているものが多い. その中でも, 薬剤効果の他弗!との比較において, システマティックレビュ ー に基づく メタアナリシスが重要性を増しており, 統計的に高度な理論に基づくネットワ ー クメタアナリシスなどの手 法が活用されている. そのため, 統計解析担当者にとっては, これらの方法論の理解, 及び結果の慎重な解 釈が必要となる. 近年, 本邦においてもエビデンスに基づく医療(Evidence Based Medicine)の提供が求められており, その 根拠となる学術論文のシステマティックレビュ ー 及びメタアナリシスの重要性は高まっている. 1996 年, メ タアナリシス報告の質を向上させるために, 国際研究グルー プが「QUOROM(メタアナリシス報告の質)声 明Jという方針を作成し, 2009 年にその改訂版が作成され「PRISMA(システマティックレビュ ー 及びメタ アナリシスのための優先的報告事項)声明jと名付けられている[2]. システマティックレビュ ー はlつのテ マに関して明確にまとめられたレビュ ー であり, 体系的かっ明確な方法を用いて, 関連研究の特定, 選択 ー 及び批判的吟味を行い, レビュ ー に採用された研究からデータを収集・解析する研究手法である. メタアナ リシスは, システマティックレビュ ー の結果を統合するために非常に有用な統計手法とされている. QUAROM から PRISMA への発展におけるシステマティックレビュ ー の概念的変化として, 次の 4 点、があげ られている. それらは, ①システマティックレビュ ー の過程においてそのプロトコル(研究設計書)を必要 に応じて修正する必要がありそのような反復過程を反映したものとなっていること, ②システマティックレ ビュ ー を行う過程で採用した研究の偏りリスクに関する評価の報告が重要とされていること, ③研究レベル における評価(例えば, 十分な症例数に基づくものか)及び研究の特徴に由来する結果レベルにおける評価 (例えば, データのバラツキ)といった偏りリスクの評価が必要であること, ④報告バイアス(例えば, ポ ジティブな結果が発表されやすいことによる偏り)の重大性を十分考慮すべきとされていること, である. PRISMA 声明は 27 項目のチェックリスト及び 4 段階(特定, 選抜, 適切性, 採用)のフロ ー チャ ー トで構成 されており, 現在, システマティックレビュ ー 及びメタアナリシスを報告する際には遵守することが望まれ ている. 本論文ではシステマティックレビュ ー の詳細は割愛するが, PRISMA 声明の原則に従いシステマテ ‘ ィックレピ ュ ー を正式に実施するべきことが, 中央社会保険医療協議会における費用対効果評価の分析ガイ ドライン[3]でも言及されている. 本邦における薬価制度への本格導入にて求められる費用対効果評価におい 2 284

272.

ても, メタアナリシス又はネットワ ー クメタアナリシスの実施に先立ち, 十分な検討が必要となることは再 度強調されるべきであろう. その過程において, 試験聞の異質性 又はネットワ ークでの不 一 致性 を説明でき る因子が示唆されたならば, その因子をモデルに反映することも可能であり, また結果の解釈でも重要な示 唆を与えると考えられる. 今回紹介する NICEから公開されている TSD2 ~ TSD4 は, 費用対効果評価に関わる意思決定のための エ ピ デンス統合の手法における技術サポ ー トのシリ ー ズの 一 部であり,無作為化比較試験(Randomized Controlled Trial; RCT) からの相対的治療効果デ ータの統合に焦点があてられている. 2 節ではメタアナリシス及びネッ トワ ークメタアナリシスに対する 一 般化線型モデルのフレ ームワ ー ク(TSD2), 3 節では試験聞の異質性:サ . ‘ ブ グ ルー プ解析,メタ回帰,及び偏りの調整(TSD3), 4 節で、 はエ ピデンスネットワ ー クの不 一 致性(TSD 4) を紹介する. TSD2 ~ TSD4 の内容紹介に加え, それらで紹介されている WinBUS プログラムコ ー ドをすべて SAS プログラムに移植を行った. さらにネットワ ー クの不 一 致a性を検討する Node-Splitting(ノ ー ド分割)法 についても概説した. 2.メタアナリシス及びネットワ ー クメタアナリシスに対する 一 般化線型モデ ルのフレ ー ムワ ー ク(TSD2の紹介) 、 TSD2 では, RCT から得られたデ ータの統合における一 般化線形モデ ルの枠組みを提供する. 固定効果モ 、 手 デルと変量効果モデルのそれぞ れに対する線形回帰に基づく共通のモデルを与え, そのコアモテ ルが ネット ワ ー クメタアナリシスに適用される. 推定ではベイズ流アプロ ー チを適用し, MCMC シミュレ ー ションのた めの WinBUGS プログラムコ ー ドも与えられている. 各モデルの適合度は残差の逸脱度を用いた DIC により 比較される. 最後に, MCMC における計算上の課題への対応についての提案を与える. 2.1 2群比較のメタアナリシス及びネットワ ー クメタアナリシスの導入 メタアナリシスは独立な情報源,特に RCTからの エ ピデンスを併合するための手法として今日,医学研究 文献において一 般的に行われている. この統計手法としては,2x2分割表からの結果を併合する手法を含み, 多くの文献で紹介されており, 変量効果の考慮、も重要な点である. メタアナリシスの幅広い適用には, 長年 にわたる統計手法やソフトウェアの発展が寄与しており, Sutton & Higgins[4]により最近の発展における展望 が与えられている. ここでは, 確率論的な意思決定(決定論的ではなく確率論的な情報に基づく意思決定) に活用できるよう に, RCTから集積されたエビデンスを統合するための統 一 的な解釈及び説明を与える. 臨床試験から報告さ 、 れる様々な形式のデ ー タを線形に変換することにより, 一般化線形モデ ルの枠組みを適用する. ここでは, 正規分布に基づく尤度(正規尤度), 二項分布に基づく尤度(二項尤度), ポアソン分布に基づく尤度(ポア ソン尤度),多項分布に基づく尤度(多項尤度)について,恒等式(identity), Logit 変換,Log 変換,complementary ‘ 、 log-log 変換, probit 変換のリンク関数を用い, 固定効果モデ ルと変量効果モデ ルで、 の線形予測子による共通 手 のコアモデル(軸と なるモテ ル) を与える. ネットワ ー クメタアナリシス(Network Meta-Analysis; NMA) として知られている 3 治療以上が含まれる混 合比較(Mixed Treatment Comparisons; MTC)は,エ ビデンス統合の比較 的最近の発展によるものである. NMA は,治療 A と B を比較する試験 の情報を併合するだけで なく, 複数の無作為比較試験からの治療 Avs B,Avs 3 285

273.

C,AvsD, B vsD などのデ ータを併合し, RCT での エ ビデンスを考慮しつつ, ネットワ ー クでの内部的に 一 致 した推定値を提示する.NMAとしてデザインされた共通のコアモデルは,2群のメタアナリシス,多群試験, 間接比較,また NMA によりデ ータを統合できる. 2 群比較のメタアナリシスや間接比較は, NMA の特別な ケ ー スである. 一 、 般的な 一 般化線形モデ /レ (Generalised Linear Model; GLM ) の枠組みは, 頻度流またはベイズ流のどちら の方法にも当てはめられる. しかしながら, 長年の間, 包括的な決定分析(comprehensive decision analysis) の主軸は MCMC を利用するベイズ流で、 あった. それはベイズ流の事後分布に基づくシミュレ ー ションが統 計的推定を行えるだけでなく, 不確実性を考慮、した下での確率的な意思決定の基盤を与えるからである. 無 償で利用できる WinBUGS 1.4.3 MCMC パッケ ー ジは, エ ビデンス統合の GLM アプロ ー チを実装できるモジ ュ ー ノレ性を活用することで,(ネットワ ー ク)メタアナリシスの実行及びモデル吟味に関して, 固定効果モデ ‘ ルと変量効果モデ ルを統 一 的に扱うことができる. 2.2 2値デ ータに対するコアモデルの展開 ここでは,事前に規定された対象患者集団において治療lと治療 2を比較しているM個の臨床試験に対し てメタアナリシスを実施することを想定する. 固定効果モデルでは, 各試験iがサンプリング誤差を伴う試 、 、 験問で共通のパラメ ータdを推定する. 一方,変量効果モデ ルで は,各試験iでの試験特有の治療効果8;1 2 は 等しくはないが,交換可能 (exchangable)と仮定して推定する. これは治療効果 8;.12での試験番号 t は重要で ないと仮定する方法で,全ての 8;.12 は類似していることを意味する. 言い換えると,興味のある集団の中で, 試験が与える情報はその試験の順番とは関係ない. この交換可能性の仮定は,試験特有の治療効果が平均d12 と分散 σl2 を伴う試験間で共通な分布に基づくことに等しい. この分布には通常正規分布が想定され, 8i,12 ~ N(d12,σl2) 、 となる. 固定効果モデ ルはこの特別な場合で,分散をゼロに設定することにより得られる. 2つの治療のみの メタアナリシスの場合は,治療比較がl回のみのため,d,δ,σ の添え字は不要になる. 以降では,共通の分散 の仮定のもとで、 u の添え字は削除するが,Sとdの添え字は維持する. これは複数治療への拡張を考慮するた めである. 2値デ ータのメタアナリシスのロジットモデル 2.2.1 心筋梗塞後の死亡を避けるための8遮断薬の 22 試験のメタアナリシスを検討する. 利用可能なデ ータは, 22 試験における, 対照群 (治療 I )及び P 遮断薬群 (治療 2)での患者数とそのうちの死亡数 (イベント数) である (表 2.1) 表2.1. f3遮断薬の事例: 22試験の対照群とP遮断楽群における患者数と死亡数 対照群 死亡数 (r;2) 。遮断薬群 試験i 死亡数 (r;1) 3 39 3 38 2 14 116 7 114 患者数 (nil) 患者数 (n;2) 3 II 93 5 69 4 127 1520 102 1533 5 27 365 28 355 4 286

274.

2.2.2 6 6 52 4 59 7 152 939 98 945 8 48 471 60 632 9 37 282 25 278 10 188 1921 138 1916 II 52 583 64 873 12 47 266 45 263 13 16 293 9 291 14 45 883 57 858 15 31 147 25 154 16 38 213 33 207 17 12 122 28 251 18 6 154 8 151 19 3 134 6 174 20 40 218 32 209 21 43 364 27 391 22 39 674 22 680 、 モデ ルの規定 試験 i の群kについて, 各群の患者数n;kからイベント数r;kを定義し,デ ータ生成過程が二項尤度に 、、,J l ( 従うと仮定する. すなわち, r;k~ Binomial(p恥n;k) で, P ik は試験iの群 k におけるイベントの確率を示す (i = 1, ... ,22; k = 1,2) . 興味のあるパラメ ータ Pik は 死亡率で, Oから lの聞の値を取るため, これらの確率を±無限大の聞の連続尺度に変換するため にリンク 関数が利用される. 二項尤度について最も 一 般的に利用されるリンク関数は,logitリンク関数(表 2.3 参照) である. ここではlogit尺度上での成功確率Pik を次のよう にモデル化する. logit(p;k) = µ; + δはkl(k判} (2) 一 f1 ifu is tru I(u ) 一 lo ott】erwise である. この設定 において, µ;は試験特有のベ ー スライン値で「対照J治療(すなわち, 治療I) における 結果の対数オッズを表し, δi,12は対照群(治療I)に対するp遮断薬群(治療 2)における試験特有の成功率の対 数オッズ比である. ここで式(2)を logit(p1; ) = µ; logit(p;2 ) = µ; + δi 12 と書き換え る こ と ができる . 変量効 果 モ デ ルでは , 試 験 特 有 の 対 数 オ ッズ比 は 試 験共通の分布 0;,12~ N(d 12,σ 2)に従う. 固定 効果モデルでは, 式(2 )を logit(p;k) = µ; + d 12 × l(k剖] 、 で置き換える. それは, 基盤となる真の治療効果の同質性を仮定して, 試験聞の異質性σ 2の設定をゼ ロとす ること に対応する (その場合, 試験聞のバラツキはサンプリング誤差と解釈する). ここで提示するメタア 守 ナリシスモデルの重要な特徴は, 試験特有のベ ー スライン{底的にモテ ルを仮定していないことである. こ 5 287

275.

れ はモデルで推定 されるnuisance parametersとして考慮される.ベースライン(リスク)のモデル化に関して は割愛する が,TSD5で議論されて いる. 2.3 モデルの適合性とモデル比較 あてはめられたモ デルの適合度が十分かどうか を点検するため に, 適合度の尺度を検討する.全体での残 差の逸脱度を耳目 で示し,モ デノレの あてはめを改善できるか点検するため, 耳目の値と独立なデ ータポイン トの個数 (例えば,。遮断薬の例では,22 試験×2 群= 44 デ ータポイント )を比較する.二項尤度の場合 , 試験毎の各群が1つ の独立なデ ータポイントとなり,その残差逸脱度は次で計算される. 伴弓引 Dres = ) ) 2 ( ru,Iog(�) + (n1k -r;k ) log 、1 ik1 \ILik 一 ηk ' I 守d守. \ = L i L k dev,k ( 3) 、 こ こに,hとn;kは試験毎の群kでの観測イベント数 と患者数を表し,f'1k = n;kPik は現在のモデルに基づき, それぞれ繰り返し で計算される試験毎の群kでのイベントの期待数で ,dev 1kは, 繰り返し毎に計算される各 は事後平均 耳目 により要約される.そして各デ ータポイン デ ータポイントにおける残差逸脱度である.これ トの影響度を評価するためにLeverage統計量が利 用 できる.頻度流に おける回帰分析では一 般的である. 各 デ ータポイントのleverageであるleverage1kは,残差逸脱度の事後平均 から,事後平均での逸脱度を差し引い たもの として計算される.二項尤度 に ついては,hの事後平均をf1k , dev,kの事後平均をdevik と表わす. dev ik は式(3)でf'1kを弘に置き換えて計 算した逸脱度である.そして , PD = Li L k leverageik = L i L k [devik - devil<] ( 4) のleverage, Pv(有効なパラ と表すと,DIC (Deviance Information Criteria )は残差逸脱度の事後平均瓦esとそ メ ータ数とも呼ばれる)の和となる. DIC = Dres +PD DICは, モデルの複雑性のペナルティ(pD)を課した, モデル 適合の尺度である. DICが小さいモデルは, ‘ を示唆する.特に,同じ尤度及びデ ータについて様々なパラメタ モデルを比 より倹約したモデ ルであるこ と 較 する際には便利である.例えば,固定効果モデルと変量効果モデルの比較,固定効果モデルで 共変量を含 む場合と含まない場合の比較(但し,後述する よ うに 変量効果モデルに共変量を含めるかどうかの規準には ならない) などであり,3ポイント程度の減少(増加)が適合度の向上(低下)の目安となる. なお,SAS ま た はWinBUGSがデフォルトで 出力する残差逸脱度には定数部分も 含められている が ( DIC= Dmoaet +Pv, Dmodel = Dres +定数部分) ,定数部分は共通であるためモデル聞の比較をする上で 定数部分は本質的ではな し\ TSDのWinBUGSや本稿で紹介する SASのプログラムの実装方法では,DICツ ール/オプションに より出 ではなく, 基本 パ ラメ ータであるd ikの事後平均から算出 されたものである 力されるPDの導出は fik から (SASではpriorステート メントで設定 したパラメ ータの事後平均が残差逸脱度の算出に 用いられる) .しか ‘ が, パラメ ータの不確実性が大きく非常に非線形なモデ ルではより安 定 するとの しな がら,気ikを用いるほう こと である.また,WinBUGS単体では式(4) による 計算 は できないからか,TSDの数 値 例では,leverageの 図示以外だと,WinBUGSのDICツ ールで算出されるPDを用いた と記載があった.本稿で も 特 に断り のない 限り,SASのDICオプションで算出されるPDを用いて ,耳目 と の和のDICを示して いる.参考までに表2.1 の両方を示した. のメタアナリシスの結果(表2.2)では式 (4)に よるPD とDICオプション による出力結果 固定効果モデルと変量効果モデルで 比較すると,DIC の差はほ とんど ないため,シン プル な固定効果モデル 6 288

276.
[beta]
が好まれるかもしれない.一方で leverage に着目すると,固定効果モデルで大きい 2 点は試験番号142 つ
手

の群であり,変量効果モテ ルで‘はこの 2 ポイントの leverage は小さくなっている(図 2.1) .そのため,この
試験についての再調査や重要な共変量の存在を検討することを TSO では提案されていた.このように特定の
試験・群について調査するきっかけとしても leverage は有用と考えられる.なお,本稿で示す 95% 信用区間
は TSO と同様に equal-tailed interval(事後分布のパ ー センタイルを利用した構成方法)である.
、

表 2.2 固定効果モデル及び変量効果モデ ルによる日遮断薬のメタアナリシスの結果
、

‘

変量効果モデ ル

固定効果モデ ル
median

95%信用区間

0.25

0.05

-0.26

(-0.37, -0.12)

d12

司

res

median

95%信用区間

0.070.25

(-0.37, ー0.12)

0.08

0.13

(・0.01, 0.32)

1 1

&’

SD

t

4 6.7
69.6

ζυ

DIC

ヲ白

PD

22.9

---

σ
'R1eam
白人

SD

5 l
4 8 8 6
;
〆O nE
r吐 AU’I
A値寸

日1eam

式(4)で導出
Pv

25.0

29.2

DIC

71.7

71.0

10,000回のbum-in 後の50,000回の繰り返しサンプリングに基づく-
t44(デー タポイント)と比較

45

3.S
JO,

\

..
..

/
I
/

/

’

〆

〆

/ -- 、、

,〆〆
。, 。
I

10

:

/

,

-’

-2

\
号 、

'-._

/峨

…-…一一L …..../ j一一一一
-3

、\

o

""'

j >O;

\

-一、

/

I

、

\

曲

.o,,

て「

一\………

’

/ /�寸\\

22.1 各デ ータの残差逸脱度の平方根W;k(±♂�)の Leverage Ueverage;k ) に対するプロット及び,W;k2 +
leverage;k = c (c= l (実線), 2(破線), 3(ドット線), 4 (ドットー破線)) の曲線.一般的に,c= 3のラインの外側のポイントは
モデルによくあてはまっていないとみなされる
、

、

(左図:固定効果モデ ル,右図:変量効果モテ ル)

2.4

、

一般化線形モデ ル

‘

2.2 節で紹介した二項尤度に対する logit リンクのモデ ルを,様々なデー タに適用できるモテツレに拡張する

7

289

277.

本質的な考えは, メタアナリシスでの基本的な技法と同じだが, データの性質(連続値, 割合(率), カテ ゴリ)及びデー タの抽出プロセス(正規分布, ポワソン分布, 多項分布など)を反映させるため, 尤度とリ ンク関数を変更する. 一般化線形モデルの理論の枠組みでは, 尤度を未知のパラメ ー タyに関して定義し, このパラメ ー タを士∞の範囲に変換するためのリンク関数g(・)を用いる. 式(3)に対するメタアナリシスのモ 、 デ ノレは, (5) g(y) = eik = µ; +δi ,bkl{k叫} 一 、 の形式による 般化線形モデ ルになる.ここに, g は適切なリンク関数(例えば logit リンク)で,。ik は通常, 試験iの治療群kにおける治療効果の連続尺度 (例えば対数オッズ) である. これまでと同様,んは試験tに おける試験特有の ベースライン効果 で,無関係な nuisance パラメ ータとして扱われる. oi.bkは試験 i の対照群 b (b= I )に対する治療群kの試験特有の治療効果 である. 例えば, 試験 I の対照群b (b= I )に対する治療群 2 の治療効果は (6) 2 δi,1 2 ~ N(d ゅ σ ) に従う. 、 臨床試験では様々なタイプの応答のデータが得られることを考慮すると, 一般化線形モデ ルによりそれら を解析することが求められる. それぞれのケ ースでのメタアナリシスで基盤となるモデルは同じである (式 と(6)).異なるものは尤度とリンク関数のみである.ベイズ流の枠組みでは分散パラメ ータにおける事前分 (5) 布の規定にも注意が必要である. 表 2.3に 一般的に利用される尤度, リンク関数及び逆リンク関数の詳細を 示す. 表2.3 リンクの名称 Identity 一般的なリンク関数及びその逆関数,並びに対応する尤度 尤度 リンク関数 逆リンク関数 。= g(y) y = g-1(()) y 。 正規 exp(()) 1 + exp(()) 二項,多項 Logit 川r/c1-r)) Log In(y) exp(B) ポアソン Complementary lo含log In{ー ln(l -y)} 1- exp{-exp((J)} 二項, 多項 Reciprocal link 1/y 1/e ガンマ Probit φl(y) (cloglog) φ(8) 二項, 多項 また, 表2.4に, 述べられているすべての様々な尤度に対してPDを計算するために必要な残差逸脱度の公式 とその予測式を示す. 8 290

278.

、 表2.4 一般的な尤度に対する残差逸脱皮及びモデ ルによる予測式 γ, k = n;kP ik γik~ Poisso n (λ ikE仇 f;k = λikEik Yik~ N〔予肱, se i) Yik se品は既知と仮定 ~ Mu ltin o mia l (p;,k,l Yi,1:k 2.5 Residual Deviance 2 (r;k lo g (号)+(均 :〆l;k) T;k) lo g (日)) ik) 立((℃; 4 Yi.1:k Nk(丸山L( kX k)) 一 (f - 恥) + T;klo g 4�2( ;k γikJ = n;kPikJ 多変量正規分布 ~ エL 予測式 γik~ Bin o mia l (p;k, n;k) γi,k,l ・j 残差逸脱度 モデルによる 尤度 2 (号)) ) 三 ( 州) 2 ik �r エ(Y;, 1 ,k - Yi.1 山 1 (川 - Yi. 1 :k) 間接比較への拡張とネットワ ー クメタアナリシス 、 これまでの議論から,変量効果モデ ルにおけるメタアナリシスでは,M個の試験それぞれによる治療lと治 療2の治療効果 8; 1 2 は,平均 d12 ,分散 σl2 に従い,試験問で交換可能と仮定される.ここでは,同様の 一 連 の試験(すなわち,同じ研究課題を伴う試験)で治療lと治療3の比較を行う場合も想定する.治療lと治療3 の2群聞で・の変量効果モデ /レで のメタアナリシスを実行するため群間差 8; 13 は δi, 13 ~ N(d13, σf3 )に従って交 、 、 換可能であると仮定する.この時,治療2と治療3の試験毎の治療効果の比較 δi,2 3 もまた交換可能であると仮 定する. 6国~ N(d2 3,σ'f3 ) これは移行性(Transitivity)の関係,すなわち 8,.23 =ふ 13 - ,si.1 2 から導かれる.したがって, d2 3 = d 13 - d1 2 および, σi3 = σl2 +σ品 (7) - ) 2pi ; σ12 σ13 である.ここに pg)は,試験内における治療1に対する治療 2 の相対効果と,治療1に対する治療3の相対 効 果の聞の相関を表す.単純化のために,分散は等分散 o-f2 = σι = σi3 = σ 2 であると仮定している.これは多 き 群試験における2治療聞での相関を0.5と想定している場合に相当する.異質性を許容する分散モテ ルにつ いては Lu & Ades[5 ]を参照されたい. 治療効果 8;,12 とめ,13 [こ関する交換可能性の仮定により,治療 l と治療 2 の試験,治療 l と治療 3 の試験か ら,治療 2 と治療 3 の間接比較が可能になる.治療!と治療 2 を含む試験,治療 l と治療 3 を含む試験の統 合では,治療 2と治療3の試験を含むことも許容する. 2群のメタアナリシスの標準的な仮定と,間接比較 及び,直接比較と間接比較を含む混合比較( Mixed treatment comparison; MTC )で求められる仮定との関係性 に注意が必要となる.すなわち, 変量効果の 2群メタアナリシスでは,治療!と治療 2を比較した試験で, 効果 8;, 12 に交換可能性の仮定を置き,治療 l と治療 3 を比較した試験では,効果 8;,13 に対して交換可能性の 仮定が必要である. NMA では,この治療 l と治療 2 との比較,及び治療 l と治療 3 との比較の両方の治療効 果に対して,交換可能性の仮定を置かなければならない.この仮定は,追加の治療 k = 4,5,…,S にも拡張さ 9 291

279.
[beta]
れ,試験全体でのめ,xy の交換可能性を仮定する必要がある. さらに 一 致性の等式(consistency equations)
d 23= d13 - d12
d24 = d14 - d12
d(s-1),s = d1s - dl,(s-1)

も仮定される(ネットワ ー クでの直接比較と間接比較の結果が 一 致していること ).それらは間接比較及び混
合比較のために必要な仮定だが,全ての試験が同じ研究目的であると仮定する下では,追加の仮定にはなら
ない. しかしながら,理論上,治療効果の 一 貫性を保つ必要がある 一 方で,そのエビデンスに不 一 致
(inconsistency )が生じる可能性がある.

複数の治療が比較される場合を想定して表記を改める.対照治療( 群 I )に対して,群 kの治療における試
験特有の治療効果は,以下の共通の変量効果分布から抽出される.
2

o; ,1k ~N(dt;i,t;k , σ )
ここに,dti1 ,tik Iま,試験iの群 l における治療 t;1 に対する試験iの群 kにおける治療t;kの平均効果を表す.
治療 l と治療2を比較する試験では dt; 山k= d12,治療2と治療3を比較する試験では dt11 ,tik= d 23 で、ある.
治療2に対する治療3の(統合 )治療効果d23 は式(7)から推定される.

2.6

多群試験の組み込み

ここでは関心のある治療法を複数含む多群試験を想定する. 多群試験のメタアナリシスの実施方法につい
ての質問は,Lu & Ades[6 ]に よるベイズ流の枠組で,そして Lumley[7]と Chootrakool & Shi[8 ]に よる頻度流の
枠組で検討されている.
試験聞の交換可能性の仮定に基づき,単 一の多群試験では変量効果のベクトルムを推定する.例えば,3 群
試験では2つの変量効果(治療lに対する治療2,3), 4群試験では3つの変量効果(治療lに対する治療2~
4)を生成する. これまでと同様,全ての相対効果は同じ試験聞の分散をもち,

,, � (::::)叶(:;::)(σ;;2

:;;:

••.•

"Y,'))

(8)

に従うとする.ここに,んは変量効果のベクトルで,多変量正規分布に従い,試験tで、の群の個数をαi (a;=
2,3,…),そして dt ;1,t ik= d1,tik - d1んを示す.治療群2からk ー 1までの結果が全て所与の下,群 k>2の変量
効果について,その条件付き単 一 分布は
I

O; 1 2

\

1

Oi,lkl ( r :)~N ( ( d1t 1k 一 duiJ +-ti-1:J.二i[δi,lj 一
、
\ u,,1(k-1) I

( 1, ;j
d t

一 d

1,t11

\

,

である.各多群試験に対する変量効果を推定するためには,式(8)での多変量分布と式(9)での条件付き分布の
どちらかが利用され, パラメ ータ聞の相関が考慮される.式(9)の条件付き分布の利用は群の個数に寄らず対
応できるため,より 一 般的なものになっている.これは,群のいくつかが無作為に欠測
MAR )しているが, S 個の治療を含む M 個の試験の連結されたネットワ

ー

(Missing At Random;

クとして検討できる. (MAR は,

群の選択がランダムであるということを意味しているわけではなく,群の欠落がその治療の有効性に無関係
ということを意味している.)

10
292

280.

2.7 、 正規尤度及び identity リンクを伴うモデ ルの連続量デ ー タへの適用 応答変数が連続量の場合, メタアナリシスは標本平均Yikとその標準誤差se;k に基づく. サンプルサイズが 極端に小さくない限り, 例えデータの分布が歪んでいても中心極限定理により, 標本平均は近似的に正規分 布に従い, 尤度は以下で示すことができる Yik ~ N(O;k,seふ) ここに関心のあるパラメ 然尺度上で と表すことができる. ー タは平均的k である. リンク関数として identity 関数が利用され, 線形モデルは自 。ik = µ; +δi,bkl{k*l) (10) 表 2.5 のデータはパーキンソン病における補助療法としてド ー パミンアゴニストが与えられた患者におけ る平均オフ時間(薬剤の効果が認められない時間)を示している. 利用できるデータは,5つの薬剤( 1 (プ ラセボ)と2~5の治療薬)の7試験における各群の平均, 標準偏差, 例数である. そのネットワ ー ク図を図 2.2 に示す. 表 2.5 パーキンソンの事例:治療 l をプラセボ, 治療 2-5 を治療薬としたときの, 試験名, 治療法, 標準偏差( SD)を伴っ た平均オフ時間の減少, 各群の例数, 治療群間差とその標準誤差( SE) 試験 治療法 3 2 3 4 5 7 2 平均オフ時間の減少 SD 例数 ー1.22 3.7 54 -l.53 4.28 95 ・0.7 3.7 172 ・2.4 3.4 173 -0.3 4.4 76 群間差 SE (群間差) -0.31 。 目 668 -1.7 。 目 383 2 ・2.6 4.3 71 -2.3 。 目 718 4 -1.2 4.3 81 -0.9 0.695 3 -0.24 3 128 4 -0.59 3 72 0.35 0.442 3 -0.73 3 80 0.55 0.555 -0.3 0.274 0.3 0.32 4 ・0.18 3 46 4 -2 目 2 2.31 137 5 -2.5 2.18 131 4 ーl 8 2.48 154 5 -2 1 2.99 143 293

281.

Trをa }ど; J 図 2.2 パ ー キンソンのネットワ ー ク.先端は治療を表し, 連結線は RCT で直接比較された治療の対を示している. 実線 上の数値は, 試験の数を示しており, 治療(Treatment)の傍の数字が治療コ ー ドである. [出典: NICE DSU TS02 (htto://nicedsu.or2:.uk/technical-sunnort-documents/technical-suooort-documents/) ] 群単位のデー タ(A rm-level data)を用いたモデルで実装したSASプログラムとその結果として相対効果の . 事後分布の要約を示す. 本稿では変量効果モデルのみ示しており, 太字部分が固定効果モデ ルと異なるとこ ろである. TSDでは同じパー キンソン病のデー タに対して, 群間差のデー タ (T rial-level data;diffとrences)を 用いたモデル, 及び群単位のデー タと群間差のデー タの両方が混在する sharedparameter modelについても紹 介されている. SASプログラムはWinBUGSコ ー ドとの対応やSharedparameter modelなどへの拡張への容 易さを考慮、し, read array機能によって解析デー タセットの 変数を配列に格納する形とした. TSDで用いら れている無情報事前分布のパラメ ー タ, 初期値(triple-chains(後述)のlつ目のチェ ー ン:相対効果や試験 効果は0)に合わて実施したところ, TSDの例と 同様の結果が得られた. Shared parameter modelのSASで の実装に関して補足すると, 今回はread aπayを用いているため, 異なる構造のデー タセットを読み込むこ 、 とは容易であり, 群単位のデー タと群間差のデー タそれぞれの解析プログラムを組み合わせるだけで比較的 容易に実装できる. 、 <群単位データ(Arm-level da侃)を用いたモデ ルで実装したSASプログラム:変量効果モデル> * / Parkinson’ s example arm-level data*/ data inds, 本 na『10of 町四; 1=_n_; input ti t2 t3 yl y2 y3 se I se2 se3 na; cards; I 3 .ー1.22-1.53 . 0.504 0.439 . 2 I 2 0.70-2.40 0.282 0.258 2 I 2 4 0.30 -2.60-1.20 0.505 0.510 0.478 3 3 4 -0.24-0.59 . 0.265 0.354 . 2 3 4 . -0.73 -0.18 . 0.335 0.442 . 2 4 5 -2.20-2.50 0.197 0.190 . 2 4 5 . 1.80-2.10 . 0.200 0.250 . 2 12 294

282.
[beta]
run ,

キ
o/olet ns加dy=7:, 試験数;

%let narm-3; * 最大の群の数;
%let n町下5; * 治療法の数;

/* 出力変数名を指定するための7クロ変数作成変数名試験番号i第k群
Proc mcmcのmonitor に配列名を指定すると,{直が存在しないdev I 3などでERRORがでるため, 必要な変数リストだけをマクロ変
数に格納する本/
data _null_;length tmpI・tmp4 $2000;
retain Imp , set inds end= end;
’

’

do k= I to na; x = catx( J, devソ,k);
’

tmpl = catx( :tmpl,x);
ifk> I白en do;
’

’

二

X = catx( l delta ,i,k);
’’

tmp3 = catx( ,tmp3,x);
end;

end;
’

if end也en call symputx( dev',tmpl );
’

1fend then call symputx( _delta',tmp3);

do k= I to &narm;
”

x = catx('_','dev',1ぷ);

tmp2=回阻( ,tmp2,x),

’
’
x = catx( _','_delta ,i,k),

tm凶= catx( :tmp4,x);

’

end;
・

ifend血en call symputx( dev all',加p2);
ifend then call symputx('_delta all',tmp4);
nlll"

data dummy ;run;
proc mcmc data=dummy jointmodel alg=NUTS
nbi=IOOOO nmc=50000 thin= ! seed=5 die
DIAG=MCSE / * モンテカルロエラ ー
の出力 * /
outpost=msout stats(PERCENTAGE=(2.5 50 97.S))=(SUM)
monitor=(d2-<l&ntrt sd totresdev &dev ); ・ 診断プロットやデ ー タセットへ出力するパラメ ー タの指定;
aπay mu[&ns加dy];
parms mu: 0,

prior mu: ~ normal(O,var=I 0000) ;

aπay d[&ntrt] ;
parms d2-d&ntrt O; prior d2 d&ntrt~normal(O,var=I 0000) ; *相対効果のパラメ ー タ ー ;
parms sd 1;

prior sd~uniform(0,5);

tau = l/sd**2; *変最効果のSD部分;

13
295

283.

array w(&ostudy,&narm] ; a町ay血eta[&nstudy,&n百m] ; array delta(&nstudy,&narm]; array taud(&nstudy,&narm] ; array sw(&nstudy,&narm( ; array md(&ostudy,&narm] ; 間ay resdev[&nstudy]; 町田y dev[&nstudy,&narrn] &dev_all; array _delta(&nstudy,&oarm] &_delta_all; P町四s &_delta O; prior &_delta~normal(O,sd= l);*prior delta(i,k]の指定はできないため, N(O,I)として後で式変形する: 事解析デ ー タセットを配列として読み込むための準備; array t[&ns加dy,&narrn]/nosymbols; •試験i、 群k の治療法のID; 町四y y[&nstudy,&narm ]/nosymbols:, 権 試験i、 群kの治療効果; 町ay se[&ns加dy,&n町四]/nosymbols; ・ 試験i、 群kのSE; array na[&nstudy]/oosymbols:,本試験1の鮮の数 begincnst; d[l]=O; ” ” * READ_品RAY(”読み込むデ ー タセット名”,官み込んだデ ー タを絡納する配列名 ,”読み込む変数名lヘ 読み込む変数名2”… )., re = r田d_町四y("mds", t, "t I 目. , ” re = read一町四y( inds ,y, "y l ","y2","y3 ), ’’ ” ” ” ” re = read ar四y(” inds” ,se, set ","se2 ,なe3 ); ” ” re = read_ar悶y(”mds”,na, na ); do i= I to &ns加dy; w[i,l ]=O; delta[i,l]=O; ifna[i] < &narm then do; do k = na[i]+I to &narrn; _del阻(i,k]= O; end; end; end; endcnst; 日=O; ’ 対数尤度{初期化); do i=l to &ns加dy; resdev[i]=O; do k= I to na(i]; sw(i,k)= O; ifk> I then do; do m = I to k-1; sw(i,k) =sw(i,k)+w(i,m( ; 14 296

284.

end; sw[i,k) =sw[i,k)/(k-1); md(i,k) = d(t(i,k)卜d(t)i,111 + sw(i,k); taud(i,k)=tau*2 * (』1)/k; deltaJi,k)=md[i,k)+_delta)i,k)/sqrt(taud(i,k)); w)i,k) = delta[i,k)・d)t[i,kll + d)t(i,111; end; theta(i,k) = mu(i) + delta(i,k); dev[i,k] = (y[i,k]-the回[i,k]) * (y[i,k]-theta[i,k]) / se[i,k]**2 ; *デー タポイントの逸脱度; ll=ll+lpdfuorm(y[i,k],血e阻[i,k],se[i,k]); ’ 尤度算出; r田dev[i] = resdev[1] + dev[i,k]; end· end; model general(ll); totr田dev=sum(of同sdev [ * ]); ホ モデルの残差逸脱度, run, 表2.6 パーキンソンの事例:相対効果の事後分布の要約 変盈効果モデル 固定効果モデル 町1ean SD median 95%信用区間 町1ean SD median 95%信用区間 d,, -1.81 0.33 ー1.81 (-2.46,-1.17) ー1.85 0.54 ー1.84 (”2.95,-0.87) d,, -0.48 0.49 ・0.48 (-1.44,0.47) 0.51 0.67 ・0.50 (ー1.82,0.74) d.. -0.53 0.48 ・0.53 (ー1.46,0.40) 0.54 0.67 -0.53 (ー1.82,0.71) d1, -0.83 0.52 -0.83 (ー1.85,0.18) -0.85 0.81 ・0.84 (-2.40,0.68) 0.41 0.45 0.28 (0.01,1.60) σ resdev1 13.2 13.6 pD 11.0 12.3 DIC 24.3 25.9 Bum-in I 0,000, サンプリング回数 50,000 (single-chain ), いずれの相対効果の事前分布も N(0,1002) 1 15 (デ ー タポイント)と比較 2.8 ベイズ流MCMC法における技術的な課題 WinBUGS のベイズ流 MCMC パッケ ー ジの利用は便利であるが, 注意も必要である. 以下に TSO に記載 されていた注意をまとめる. 収束の確認においては大きく異なる初期値を利用して少なくとも 3 つの連鎖を 実行し,収束後,各連鎖が同じ事後分布から抽出されていること確認することが提案されている. SAS の Proc MCMC で multiple chains (TSO では triple-chains が主として用いられていた)を実装する場合は, SASMCMC Help の Example: Gelman-Rubin Diagnostics が参考になる. 15 297

285.

最初の「bum-inJと事後分布の標本数は保守的に大き目に設定すべきで, これらの繰り返し数も解析結果 と共に報告されるべきである. シミュレ ー ションの回数と自己相関の程度を反映しているモンテカルロエラ ー が, 関心のあるパラメ ータの事後分布の標準偏差の5%未満であるべきと提案されているものもある. ま た, ベ イズ流の MCMCに適用するエピデンス統合のモデルにおいて,参照治療の選択,事前分布の選択,二 項分布とポアソン分布における零セルカウントなど, 注意深い調査が必要となる. 参照治療の選択により事 後分布の推定値に影響を与える可能性があるが, 各パラメ ータの事前分布に無情報事前分布を設定すること でその効果を無視できる. そのため, 参照治療はプラセボや標準治療といった解釈が容易なものを設定すべ きである. また,イ ベント数(例えば,有害事象の発現例数)が0(例)となる零セノレを伴う二項尤度とポア ソン尤度が許容されるのはベ イズ流の MCMC アプロー チの主要な特徴の 一 つであり, 頻度流のアプロ ー チ と異なり, 零セルカウントを伴う試験のための特別な注意は必要ない. また, 得られる事後分布の標本はパ ラメ ータ聞の相関が保持され,確率論的な費用効果分析にそのまま用いることができるという利点もある. ρ 3. 試験聞の異質性:サブグル ー プ 解析, メタ回帰, 及び偏りの調整(TSD3 の紹介) 3.1 試験問の異質性の導入 TSD3では治療の相対効果(治療効果)の異質性に焦点を当てている. この異質性は,効果修飾因子(effect­ modifier)の存在を示し,患者集固または試験の実施条件(例えば,組入除外基準)が異なることによる治療 効果の真のバラツキと, 試験の実施方法(例えば, 観察研究では適応による交絡が生じやすし、)に関連する 偏りに区分される. 治療効果のバラツキは, 試験のエピデンスの外部妥当性を脅かし, 結果の 一 般化可能性 を制限する. 一 方,試験の実施上の不完全性は内部妥当性の脅威となる. TSD3では, クロスバリデ ー ション 等による外れ値の検出,メタ回帰,及び偏り調整の手法に関するガイダンスを提供している. 以下にその概 要を紹介する. 3.1.l メタ回帰の概要 メタ回帰は観察された試験問の異質性を説明するため,治療効果と各臨床試験の特性との関係を検討する ために用いられる. 含める試験をRCTに限定した場合でも,治療効果と各臨床試験の特性との交互作用の検 討は,本質的に観察的である. つまり, 各試験では群聞で共変量 (連続値など)の分布のバランスが取れて いたとしても, 試験ごとに共変量の分布が異なる可能性があり, ネットワ ー ク上のすべての群聞で共変量の 分布のバランスが取れていることは,通常期待できないためである. したがって,メタ回帰はRCTでない研 究(観察研究)に付随する解釈及び推論において,交絡及び共変量聞の相関などを考慮する必要があり, 特 に治療効果と共変量との関連性から,因果関係の推論は不可能である点に注意が必要である. さらに, 以下 で説明するように, 入手可能な共変量及びデ ータ構造に依存して,メタ回帰から得られるエピデンスの質が 異なってくる. 「試験レ ベルの共変量」とは, 試験レ ベルで集計された患者背景に関する共変量として定義する. 一 方, 「患者レ ベルの共変量」は, 個々の患者デ ータ(individual patient data; IPD)が利用可能な共変量, 又は患者 の層別でアウトカムが与えられており, その層別に対応する共変量として定義する. 利用可能な情報と考慮、 16 298

286.

すべき解析の対応関係を,共変量がカテゴリ(Al~ A3) 及び連続値(Bl~ B 3) の場合に関して以下に示す. 以降では「試験レベルの共変量Jを中心に紹介する. A l. 試験特性に関連する試験レベル共変量(カテゴリ) 例えば,ある疾患のl次予防及び2次予防患者集団で実施された試験では,試験聞の治療と共変量の 、 . 交互作用に関連することから, サブ グ ル ー プ解析が考慮すべき解析となる. A2. 患者特性に関連する試験レベルの共変量(カテゴリ) (a) 男性と女性の別々の試験(試験問の共変量が性別)では, Alと同様である. (b) 男性と女性の両方を含む試験で,男性と女性の割合は報告されているが,性別ごとのアウトカムが報 告されていない場合は,男性(又は女性)の割合を試験レベルの共変量(連続値)と扱うこともある. その場合はメタ回帰が考慮すべき解析となる. (c) 男性と女性の両方を含む試験だが, 性別ごとの割合又は性別ごとのアウトカムが報告されていない 場合は, 追加の前提条件がない限りメタ回帰は実行できない. A3. 患者レベル共変量(カテゴリ) (a) アウトカム及び共変量の!PD が利用可能な試験の場合,試験内での共変量の効果の検討に利用でき, さらにメタ回帰にて検討できる. (b) 男性と女性の両方を含む試験で,男女別に精度の指標(バラツキ) とともに治療効果が報告されてい る場合,性別に関し!PD を利用可能であることに匹敵する. アウトカムが 2 値または連続値で,共変 量がカテゴリの場合にのみ成立する. Bl. 試験特性に関する試験レベル共変量(連続値) 例えば, 薬物の投与量が共変量の場合は, メタ回帰が考慮、すべき解析である. B2. 患者特性に関する試験レベル共変量(連続値) 例えば, 患者の平均年齢が共変量の場合は, 上記B lと同様で、 ある. B 3. 患者レベル共変量(連続値) アウトカムが2値の場合,平均年齢とそのバラツキが,事象の有無別に報告されている場合,年齢の !PD を有することと同様である. 共変量の平均値が事象の有無別に報告されていない場合は,メタ回 帰を行うために IPD が必要となる. 連続値のアウトカムで,連続値の共変量の場合は,メタ回帰を実 施するには! PD が必要となる. 治療効果と共変量との交互作用を調べる場合, 試験内及び試験問での検討には2つの重要な違いがある. 1つ目は, 試験内での検討には,(試験問比較と比べると)症例数も十分であり, 交互作用はサンプリング誤 差と比較されるため検出されやすい. 一方, 試験問の検討では, 観測数(試験数) は非常に少なくなる可能 性があり, 交互作用が検出されたとしても, 偽陽性である可能性が高い. 2つ目は,ecologicalbias (エコロジ カルバイアス)またはecologicfallacyに対する試験問比較の脆弱性である. 例えば, 試験問で共変量に対す る治療効果の回帰係数が, 試験内から得られた回帰係数とまったく異なる現象が認められることがある. そ の場合,!PD が利用可能で5あると偏りを回避でき, 検出力も大幅に向上する. また, 共変量と治療効果との交互作用は認められず, 且つ各試験で、は群間で共変量のバランスが取れてい る場合であっても, 共変量がベ ー スラインリスクに影響している場合, 試験ごとに要約した共変量を用いる 17 299

287.

と治療効果の推定値は無効(方向)に偏ることが知られている. これはエコロジカルバイアスの ー 形態であ る Aggregation bias (要約による偏り)として知られている[9]. 通常, 共変量が ベー スラインリスク及び治療 効果の両方に非常に強い影響を及ぼす場合のみ重要となる. 例えば, 生存時間解析における年齢などの共変 量の癌リスク への影響が特に顕著であり, 且つ対数線形モデルは非常に非線形であるため, 特に影響を受け やすく, 全体のデ ータから推定するのではなく, 層別解析(共変量がカテゴリ)又は回帰分析(共変量が連 続値)によって推定値された治療効果 を統合する必要がある[IO]. 3.1.2 偏りの調整方法の概要 偏り を調整する目的は, 対象母集団の治療効果に対して偏っている推定値 を, 不偏推定値に変換すること であり, すべての場合で, 外部デ ータ又は事前の意見における不確実性を考慮する必要がある. 3.5 節で 4 つ の方法について概説する. 3.1.3 メタ回帰の形式としてのネットワ ー クメタアナリシス NMA はメタ回帰の 一 形態であるが, RCT に基づかなければならない. 本邦の中医協のガイドラインも対 照薬との相対効果の推定は, RCT に基づくべきことが言及されている[3]. 実際, NMA における一 致性を仮 定した治療効果のコヒ ー レントな( 一 貫した)推定値は,2群のメタアナリシスと同様に,個々の試験の推定 値 を重み付けしたものになっている. またNMA文は間接比較が, 観察研究の偏りによる影響を受ける (弱 い)という主張は誤解であり,2群比較のメタアナリシスと同様に,観察できない効果修飾因子(し、わゆる米 測定の交絡因子も含む)に対し, より影響を受ける(メタアナリシスは本質的には観察研究である) . いずれ も解析を構成する試験が対象母集団に対して不備である限り, 治療効果の不偏推定値を与え, RCT に基づく 限り, 観察研究よりも優れている. 3.2 異質性( heterogeneity)の測定 試験問の異質性を測定する数多くの標準的方法が提案されており, 例えばコクランのQ統計量がしばしば 用いられ, 変量効果モデル を正当化するために利用される. 12 統計量は, 尺度フリー という利点があるもの の, 試験数及び試験規模に依存しており解釈が難しいとされている. 一方, ベイズの枠組みでは, 固定効果と変量効果のモテ子ルの残差逸脱度と, DIC 統計量 を比較することで 異質性を検討できる. ベイズの利点は, 試験問の分散 (標準偏差)の事後分布 を与えることであり (あるい は解釈がより簡単なことであり) ,デ ータが取りうる範囲に関して洞察を与えることである.試験聞の分散(標 準偏差)の事後分布は, 事前分布に非常に敏感(センシティブ)な場合があり, 特に無情報(漠然)事前分 布( vague priors) を用いると, 非現実的なほど高度な異質性を示す事後分布となるため注意が必要とされて おり, 特に試験数が少ない場合または多くの試験で症例数が少ない場合に認められるとのことである. 解決 策は, 専門家の意見またはメタ疫学データ( meta-epidemiological data)に基づき, 無情報ではない事前分布 (informative prior)を利用することである. また,最も簡単なアプロー チは, 閉じ条件で, 閉じアウトカム指 標を採用している他の治療の大規模なメタアナリシスから, 試験問の異質性(標準偏差)の事後分布を用い る方法とされている. 3.2.1 異質性の検討 次に高度な異質性への対処方法を簡単に紹介する. 基本的な考え方は, 治療効果の大きさを, 試験聞のパ 18 300

288.

ラツキと比較するものである. 以下の図3.1では,変量効果モデルが適合した状況を示しており,平均治療効 果の事後分布は有意差が認められるが, 試験問の異質性のため, 予測分布は裾がかなり広く, 新しい試験が 負の治療効果を示す確率[破線の分布で 0(赤の垂線)より左側の確率]はかなり高くなっている(0.162). 異質性が存在する場合は, 平均治療効果の(事後)分布より予測分布の方が, 治療効果の不確実性をより 良く表すことが知られている.詳細は割愛するが,MCMC 法では治療効果の分布から標本を抽出することで, 予測分布を得ることができる. さらに高度な異質性が存在する場合は, その原因を分析し, 外れ値(他とは 異質な試験)の特定, あるいは共変量による調整を行うこと等が求められるだろう. q F Rha ’首 。 姐除 qe ム “‘・‘-r e・a卸噛省e錨,e 図3.1 事後平均=0.7, 標準偏差=0.2,試験問の標準偏差(異質性)の事後平均=0.68(※事後平均0.7と同程度)の治療効 果に対する事後確率密度(実線)及び予測確率密度(破線). [出典 NICE DSU TSD3 (htto://nicedsu.on1:. uk/technical-suooort-documents/technical-suooort-documents/)] 3.3 外れ値の検出 異質性の疑問に密接に関係するのは外れ値の検出の方法である. ここでの焦点は, 試験結果の全体の変動 ではなく, 他の試験から異なる結果を示すlつ又は2つの試験である. 中心から離れたlつの試験が, 異質 性の測定値に大きな影響を与える可能性があるため, この2つの問題は密接に関係している. 逆に, 異質性 の程度が大きいと, 真の外れ値を検出するのが難しくなる. 3.3.1 クロスバリデ ーションによる予測の妥当性評価(2群比較のメタアナリシス) 急性心筋梗塞の患者を対象として, プラセボ(対照群)と静脈内マグネシウム投与を比較した16 試験のメ タアナリシスについて未調整の対数オッズ比,及び変量効果モデルからの「縮小J推定値(すなわち, 交換 可能であると仮定したもとでの試験ごとの治療効果)のフオレストプロットを図3.2に示す. ‘ 固定効果モデルと変量効果モデルで, 残差逸脱度( residual deviance)及び DIC を比較すると, 変量効果モ デ ルの方がはるかに小さいため, 変量効果モデルが選択された. 対数オッズ比尺度での標準偏差の事後分布 の中央値は0. 86 で, 治療効果(平均値)の大きさ ”0.89と同程度であり, 顕著な異質性を示している. 図3.2 では, ISIS-4 大規模試験の対数オッズ比が, 他の試験とは少し異なることが示され, 特に本試験の頻度流の 未調整の95%信頼区間(CI)及び縮小推定値の95%信用区間は, 平均治療効果の95%信用区間と重なってい なかった. 19 301

289.

メタアナリシスにおいて, l試験ごとの異質性を調べる適切な方法は, 「lつずつ除く (leave one out)」アプ ロー チに基づくクロスバリデー ションとされている. まずl試験を統合する対象から除き, 次に残りの試験 に基づいて治療効果の予測分布を求め, 観測された治療効果と比較するものである. ’ Morton 1984 Rasmussen 1986 Sm楢E 986 Ab目ham 1987 Fel由tedt1988 Shechter 1989 C町emu司nski1989 Be由ch誼1989 Sir唱h 1990 Pe同i田1990 Shechter 1991 Golf 1991 Th回ge目en 1991 LIMIT-2 1992 Shech桂r 1995 ISIS-41995 一望ヒ==sc τ==士曹 ====’ -=-=-=a.= ==聖士宮= 一==量宅= P田岡田r mean predぼ舗ve mean -4 図3.2 ・2 log唱dds間話。 2 4 マグネシウムの例:未調整の対数オッズ比と95%信頼区間(・と実線),試験ごとの対数オッズ比(95%信用区 間)の「縮小」推定値(口と破線),全ての試験を含む変量効果モデルから得られた, 統合した治療効果の事後平均と 95%信用区間(・と実線)と予測l分布の95%信用区間(く〉と破線) ・ [出典: NICE DSU TSD3 (h 出 :// nicedsu.on!.uk/technical-sunoort documents technical-suonort-documents/) J 、 S 4試験を除いた変量効果モデ ルに基づいた予測分布 詳細は割愛するが, クロスバリデー ションによりISIを所与とすると, ISIS-4大規模試験で観察された対照群での死亡率は同程度と考えた場合, マグネシウム群 で観察され得る極端な方向 ( 死亡数が観察された値より増加する方向) の確率 (P値) は0.056となり, 比較 的小さく, 外れ値を思わせる数値となった. しかし16試験それぞれに対しクロスバリデ ー ションを実施する 場合の検定の有効数を考慮すると,(16個のP値が従う) 一 様順序統計量のn番目(最小値)の期待値は 1/(n+ I) となることから, 16番目のP値の期待値は 1/( I6+ I)=0.059であり, 上記のP値0.056と同程度となり, ISIS4試験が必ずしも極端な結果ではないことが示唆された. これはISIS-4試験で観測されたオッズ比と信頼区 間, ISIS-4 試験を除いた場合の変量効果メタアナリシスでの縮小推定値, 治療効果の事後平均及び予測平均 が示されている図3.3でも確認、できる.ISIS-4試験から観測された対数オッズ比は,治療効果の事後平均の信 用区聞からは外れているものの, 予測平均値の信用区間の範囲内に依然として含まれている. 本事例から変量効果モデルに関する重要な点が幾っか認められた. Iつ目は, ISIS-4試験を含む変量効果 モデル及び含まない変量効果モデルのいずれも, 残差逸脱度及びDICを指標にした場合, 同程度によく当 てはまっていた. 変量効果モデルは, 一般的に治療効果の任意の確率分布に適用でき, その広がりによって 大きくは影響を受けないためである. 2つ目として, 平均効果に基づいて推定することの弱点を示している ことである つまり, 試験の組合せ全体として考えると, ISIS-4試験自体を含めたり, 除いたりしても, 特 に注目すべきものではないが, 統合された平均効果とは著しく異なっている. したがって, 治療効果の平均 値の事後分布に基づく場合, 説明できない不 一 致が数多く存在する状況となるが, 一方で治療効果の予測分 布に基づくモデルでは, 全てのデー タと矛盾しないことになる. 20 302

290.

M町旬n 19 日4 R田mussen 1986· Sm 旧t 1986 宇士L τ主君==- ! ー一ー Ab田ham 1987 Feldstedt 1988 Shech担『 19 回 C官官, muzyr帽ki 1989· Ber包d田l 1989 Singh 1990 Per創団 1990 Shech怯 r 1991 Golf1 鈎 二二事�一 �司 __-tτ=百===ァ寸 ー-主ιL t Tho用e 田en 1991 L品刷T-21992 Sheet市r 1995 IS隠-4 1995 一千詔一 七時=ト 一一・一一 I 一一+ 一 十 一 pos国加r mean pr叫 ictive m田n , -4 図3.3 7 で二高rー ーヨ=百==コァ I -2 0 log-od曲目省。 2 4 グネシウムの例:米調整の対数オッズ比と95%信頼区間(・,実線).試験ごとの対数オッズ比の事後平均と 95%信用区間,すなわち「縮小J推定値(ロ,破線). ISIS-4試験を除いた変量効果モデルに基づく,統合した治療効果 の事後平均と95%信用区間(・,実線)及び予測分布の95%信用区間(く〉,破線) [出典:NICE DSU TSD3 (htto://nicedsu.om.uk/technical-suooort-documents/technical-suooort-documents/) J 3.3.2 クロスバリデ ー ションによる予測の妥当性評価(間接比較及びNMA) クロスバリデー ションは,複数の治療法と複数群で実施された試験で実施されるより広いエピデンスのネ ットワ ークに対して,修正することなく適用可能である.しかし,複数の治療法がある場合,予測分布は多 変量正規分布となるが,TSD2 で見たように,多変量分布(式8)を条件付l変量分布(式9)に変換したの と同様の考え方で,予測分布も条件付l変量正規分布へ書き直し可能である. TSOでは,治療数に依存せず ネットワ ークが構築でき,且つより 一 般的なプログラムコ ー ドを可能にするl変量正規分布が利用されてい る.予測した治療効果関の相関を,治療法問のあらゆる対比において正確に反映させるため,参照治療以外 との治療比較の予測分布は 一 致性の式(o;;:w = of:W ーδf,:W)により推定する. 、 、 3.4サブ グ ルー プ, メタ回帰, 、 、 ベースラインリスクへの調整 。 3.4.1メタ回帰の導入:サブ グ ルー フ 効果 RCTの治療効果に関連して,サブグル ー プ効果は,治療との交E作用をもっカテゴリカルな試験レベルの 共変量として理解でき,前述のシナリオ Al に対応する.この場合の仮説は,治療効果の大きさが,例えば, 守 男性,女性の患者で異なる,又は治療効果の大きさが年齢ク ル ー プ,前治療などに依存している等になる. 、 、 そのようなデータを解析する最も簡単な方法は,サブ グ ル ー プ毎に別々の解析を実施した後,相対的な治療 効果を推定するものである.しかしながら,そのアプロ ー チは2つの欠点がある. Iつ目の問題は,変量効果 ‘ 、 ‘ モデ ルの場合,サブ グ ル ー プ毎に別々の解析を実施することは,サブグル ー プ聞で試験問変動に対する異な る推定値が得られることを意味する.試験間変動を推定するための十分なデー タがあることは稀であるため, 全てのサブグル ー プに対して治療効果が同じであると仮定する方が,より理にかなっているかもしれない. 2つ目の問題は,サブグル ー プ毎に別々の解析を実行することは,サブグル ー プ間で治療効果が等しいとする e 帰無仮説を棄却する検定(交互作用の検定)を直接的には実施できないことである.サブク ル ー プ毎に別々 に解析を実施する方法の代替法は,治療効果に導入される,共通の試験聞の異質性パラメ ータ,及び交互作 、 用項pを伴った l つのモデ /レを用いた統合解析である. TSD2で紹介した,別々の2群比較のメタアナリシスに 手 対する変量効果モテ ルは以下で‘ある 21 303

291.

θ ik = µ; + oi,1kI(k事1) ここに, (Jik は試験i, 群k での線形予測子(例えば, 対数オッズ) であり, んは試験tでの試験特有の ベースラ インリスク であり, 関連しない局外母数 (nuisance parameter) として見なされ, o;,1ktま試験iの対照群 (群 I) に対する群kの試験特有の治療効果 で, Iは式(2) で定義される. 交互作用を伴うメタ回帰モデルは以下となり, 。 = +( ik µ; 8;,1k + flx;)I k l ( (11) 剖 ここで, X;は試験iの試験レ ベ ルの共変量 で, サブグループ, 連続値の共変量, 又は ベー スラインリスクを表 せる. また式(11)は, 次のように書き直すことができる. 。 = il µ; 8;2 = µ; + 8;,1 + flx; 2 治療効果及び共変量 との交互作用 (δ及。ヲ)は治療群のみで考慮され, 対照群 では考慮されないことに注意 する. 変量効果モデル では, 試験特有の治療効果は共通の分布0;,1 2 N(d, u 2 )から得られる. 周定効果モデル ~ ベ では, 式(11)を B;k = µ; + (d + flx;)I(k叫} 'こ置き換える. イズの枠組みでは, d, /3, σは独立な (無情報の) 事前分布が与え られる. 次節に, サブグループ毎に別々の解析から得られる結果 と, サブグル ープの交E作用解析から得られた結 果を対比した事例を与えた. 理想的には, 可能であれば臨床専門家から引き出された情報に基づく事前分布を用いて, 「統計的に有意 ’ 、 な」サブグループ項を 含めたい. しかしながら,サブグ ループ効果が費用対効果モデ ルで、考慮される場合は, 事前分布の正当性を有する と共に,サブグループ効果が統計的に頑健(ロバスト)であるべき とされている. 実際に, 統計的に弱し、交互作用に基づいて, あるサブグループ でのみ治療が採択又は棄却されるべき といっ た議論は難しい とされている. 3.4.1.1 2群比較のメタアナリシスでのサブグル ー プ:スタチンの事例 高脂血症治療薬(スタチン)をプラセボ又は通常治療(対照群)と比較した19試験のメタアナリシスには, l次予防(心疾患の既往なし)が目的の試験が幾っか含まれ, 残りは2次予防(心疾患の既往あり)が目的の 、 、 試験が含まれていた. すなわち, サブ グ ループ変数は試験レ ベルの共変量 であることに留意する. 興味のあ るアウトカム指標は,全死因による死亡率で,表3.1 1こデー タを示す. 全てのデー タの2群比較のメタアナリシ ‘ スにおいて,潜在的な効果修飾因子であるl次予防 対 2次予防をサブグ ループとして考慮すること, 又は2つ のタイプの試験ごとに, 別々のメタアナリシスを実施することができる. 表 3.1 心疾患の既往あり/なし,患者におけるプラセボに対するスタチンのメタアナリシス 19 つのRCTにおける対照群及びスタチン群でのすべての原因による死亡数 Placebo/Usual care Trial ID 2 3 # of deaths # of patients S旬tin # of deaths # of patients Type of prevention η2 n., riz n., x, 256 2223 182 2221 Secondary 4 125 129 Secondary 。 52 94 Secondary 4 2 166 2 165 Secondary 5 77 3301 80 3304 Prim町γ 22 304

292.

6 3 1663 7 8 459 8 3 。 155 10 4 223 3 224 Primary II 633 4520 498 4512 Secondary 124 2 123 Secondary 188 4 193 Secondary 9 3 42 12 13 33 II 6582 Primary 460 Secondary 145 Secondary 83 Secondary 14 5 78 4 79 Secondary 15 6 202 4 206 Secondary 16 3 532 530 Primary 17 4 178 2 187 Secondary 201 3 203 Secondary 3293 106 3305 Primary 18 19 135 。 [出典:NICE DSU TSD3 (htt1r//nicedsu.org.uk/technical-surmort-documents/technical-surmort-documents/)] 試験I, 群kで、 の死亡数T;k /ま, 二項尤度T;k ~ Binomial(p;k, n;k), i= I ,.・.,! 9;k=l,2に従うと仮定する. X; を以下の ような試験レ ベルのサブグルー プ変数として定義し, X, i (0 試験tが1次予防患者の試験 ll 試験iがZ次予防患者の試験 =古 ここでの交互作用のモデルは式 (11)で与えられ, ここに6;k = logit(p;k )は線形予測子である. 本設定では, µ; (ベー スラインリスク) は対照治療の死亡率の対数オッズを表し, δi,12はl次予防の試験で、の対照群に対す る治療群での試験特有の死亡率の対数オッズ比である. 2つの別々の解析と, 固定効果モデル及び変量効果モデルに交互作用モデルを用いた l つの解析結果を表3.2 に示す. 固定効果モデ、ルで、 は, 別々のモデル及びlつのモデルでの解析で2群の治療効果は正確に同じ結果に なる. 一方,変量効果モデルでは,試験間 で分散を共通とするため,治療効果が必ずしも同じにはならない. 、 守 lつモデルによる解析では, 分散はより正確になる. 特にl次予防のサブ クル ー プで、は, 分散ノミラメ ー タを得 、 るために利用可能なエビデンスがほとんどなく(5試験), 別々に解析した変量効果モデ ルで、 は, 全ての推定 ‘ 値の信用区間(Cr!)は非常に広くなっている. しかしながら, ベイズの枠組みでは,lつのモデ ルで、の解析の みが交E作用項Fの直接的な検定が可能であり,Fの点推定値は負であり,2次予防でスタチンがより効果的で ‘ 、 あることを示唆しているものの 固定効果及び変量効果の両方のモデ ルで、 95%信用区間(Crl) は交互作用 がない可能性を示していた(信用区聞が0を含んでいた) . 23 305

293.

表3.2 事後分布の要約:対数オッズ比(LOR), オッズ比(OR)及び試験問の異質性(バラツキ; σ)に対する事後平 均値(LOR, OR) /事後中央値(σ), 標準偏差(sd)及び95% 信用区間(Crl) モデル適合度:残差逸脱度の事後平均(resdev), 有効パラメ ー タ数(pD )及びDIC Random effects Fixed e能cts Primary Prevention Secondary Prevention Primary Prevention LOR OR Secondary Prevention Separate analyses Separate analyse洛 mean/median(sd) mean(sd) mean(sd) mean/median(sd) [95%Crl] [95%Crl] [95%Crl] [95%Crl] -0.11(0.1) ・0.18(0.74) -0.36(0.16) [-0.30, 0.09] ・0.31(0.05) [-0.42, ・0.21] [-2.01, 1.12] [-0.72, -0.06] 0.9(0.09) 0.73(0.04) 1.12(3.65) 0.71(0.11) [0.74, 1.09] (0.66, 0.81] [0.13, 3.07] [0.49, 0.94] σ 0.79(0.98) 。ー16(0.23) [0.06, 3.90] [0.01, 0.86] 16.9t 29.0l 11.9t 28.Jl pD 6 15 9.3 16.8 DIC 22.9 44 21.1 45.1 resdev Single analysis with interaction term, Single analysis with interaction te口 九 p, for subgroup p, for subgroup 回目n(sd) m回n (sd) mean/median(sd) m田n/medi叩(sd) [95%Crl] [95%Crl] [95%Crl] [95%Crl] ー0.29(0.26) 心.21(0.11) p [-0.86, 0.20] [-0 42, 0.01] 目 LOR -0.11(0.1) [-0.30, 0.09] OR -0.31(0.05) [-0.42, ・0.21] -0.07(0.20) -0.36(0.16) [-0.48, 0.36] [-0. 72, -0.07] 0.9(0.09) 0.73(0.04) 0.95(0.21) 0.7(0.11) [0.74, 1.09] [0.66, 0.81J [O 62, 1.43] [0.49, 0.94] 目 0.19(0.20) σ [0.01, 0.76] resdev' 45.9 42.6 pD 21 24.2 66.9 66.8 DIC t 10 (デ ー タポイント)と比較, t 28 (デー タポイント)と比較,' 38 (デー タポイント)と比較 固定効果モデル:別々の解析では 10,000 回の bum-in 後に収束し( I つのモデルでの解析では 20,000 回の bum­ in 後) , 結果は 3 つの独立連鎖からの 50,000 サンプルに基づく(WinBUGS) 変量効果モデル:別々の解析では 40,000 回の burn-in, I つのモデルでの解析では 50,000 回の burn-in が利用さ れた. 結果は 3 つの独立連鎖からの 100,000 サンプルに基づく(WinBUGS) [出典: NICE DSU TSD3 (h出://nicedsu o四uk/technical叫ooort-docum叩ts/technical-suooort-documents/)] 必ずしも容易ではないが, この考え方は2値から複数カテゴリの交互作用に拡張できる. 例えば, 患者が軽 度, 中程度, 重度にカテゴリ化された試験では, 2 つの交互作用項, すなわち l つ目は軽度と比べた中程度の 交互作用, 2 つ目は軽度と比べた重度の交互作用を導入することができる. あるいは疾患の重症度を連続値の 共変量として( 3.4.3節参照), 又はベースラインリスクに対する回帰として検討することができる(3.4.4節 参照). 更なる変法は交互作用項を変量効果として導入することである. 意思決定での適用はおそらく稀で あるが, そのようなモデルは国や地域間での治療効果における違いを検討する解析で価値があるかもしれな い. しかし,地域内で十分な数の試験が利用可能である必要がある. 異なる交互作用項が各地域で想定され, それらはある平均と地域間の分散を有する共通の分布からランダムに抽出される. s個の試験のメタアナリシ スでは, 変量効果の交互作用モデルは以下であり, 24 306

294.

()ik = µ; + (δi, 試験i (i l,... ,s)が地域;j,k=l,2で実施されたとき/3; = Bj となる. = Bj ~ N(b ,τ;) ここに,Bj は地域特有の交互作用を示し,bは地域聞を通じた交互作用の平均効果を表し,τjは地域聞の変動 を表す. 3.4.2 NMAにおける交互作用モデルの範囲とその解釈 本節では, 費用対効果 評価で利用可能なモデルの範囲を提示する. 以下ではサブグル ー プ(カテゴリ)と 治療効果との交E作用に関して紹介するが, 連続量を共変量としたメタ回帰と構造的に同じであり, 連続量 、 を共変量とした場合でも全く同様に当てはまる. 費用対効果評価の意思決定においては, 交互作用モデ ルの 、 、 限られたクラスのみが, 実用的で有用な解釈を与えるとされており, サブ グ ル ー プの交互作用だけで、なく, 連続量の共変量及び共変量としてのベ ー スラインリスクにおいても同様とされている. 多群試験のメタ回帰 ‘ モデ ル への 一 般的な 3つのアプロ ー チは, ①治療ごとに別々に交互作用を検討するモデル, ②治療間で交換 可能性な治療ごとの交互作用を検討するモデル,③すべての治療で lつの交互作用を検討するモデルである. スタチンの例での l 次予防 vs2 次予防を例として, s 個の複数の治療法Ti,九…エを比較する場合, 試験 ‘ 聞の共変量として 2 値の場合を考える. TS02 で、 の 一 致性のモデ ルに対するアプロ ー チに従うと, 治療法 l に 対する各治療法の相対効果であるs-1個の基本パラメ ー タd12, d13 ,… ,di, を考えることになる. これまでと同 様に, 治療法 lはプラセボ又は標準治療であると仮定し,NMAでの参照治療とする. 残りの(s-1)(s・2)/2 個の 治療の対比は, 一 致性の式により, これらのパラメー タを用いて表現できる. 例えば, 治療 3 に対する治療 、 4 の治療効果は,d34 = d14 -d13 と書ける.以下で詳述するように,固定効果モデ ルで‘ の交互作用を紹介するが, 治療効果の試験間変動を考慮する変量効果モデルに, 容易に拡張可能である. ・ モデル l :治療ごとに別々の交互作用を検討するモデ‘ル スタチンの例でのl次予防又は2次予防と治療との問に交E作用があるが, 交互作用は治療ごとに異なるモ デルは, 基本治療と同数の交互作用項を導入する. 例えば,β12,β13,…,βIsとなる. これらの各項は, 治療 l と治療2, 3,…,sとの比較におけるl次予防に比した2次予防の迫力日効果(交互作用)を表している. 主効果d12, d13,…,di,, すなわちl次予防患者での治療効果であるが, 交E作用はこれらと正確に平行となる. 例えば, 治 療3に対して治療4を比較する試験での主効果の検討と同様に,交E作用項は治療lへの相対効果の交互作用項 の差/334 = /314 - /313 となる. 固定効果モデルは以下になる. 。ik = µ; + (dt;,.t + f3t 山山)Ick"1J =的+ (du - du;, + (/Ju; - /Ju;,)x;)Ick"l) ik ; 、 ik k (12) ー t;kは試験 I の群 k の治療法を表し,X; は共変量又はサブ グル プ変数,Iは式( 2)で定義した. 本モデルでは, d11 = /311 = 0 とする. 残りの交互作用項は 無関係( unrelated)であり(同じ分布に独立に従うことも含めて, 互いに関係がなし、), 互いに関係のない(互いに影響を与え合わなし、)無情報(漠然)事前分布を与えられる. したがって, 2 次予防での相対効果は d12+/J12, d13 +/J13,…, d,,+/J,,となり, l 次予防居、者でのs個の各治療の 相対効果は, 2 次予防患者での対応する相対効果とは, 完全に無関係となる. この場合, l 次予防と 2 次予防 守 を別々に解析しようとする場合, 交E作用項の検定することが難しくなり, 変量効果モテ ルで、 分散を共有す ることもできなくなる. 25 307

295.

・ 、 モデル 2:治療間で交換可能な治療ごとの交互作用を検討するモデ ル 本モデルはモデル l と同じ構造で, パラメ ータ数も同じである. 違いは,(トI)個の 「基本的な」交互作用 項は,五いに関係のない無情報(漠然)事前分布(unrelated vague priors)を与えられるのではなく,共通の変 量分布/J1k~ N(b,, 2 ),k=2,…Jが与えられることである. 情報のある事前分布(informative prior)も利用でき るが, 交互作用の平均値及びその分散はデータから推定される. ・ モデル3:すべての治療で同じ交互作用を検討するモデル l つ の交E作用項bをすべての治療効果に対して適用する. つ まり,すべての治療k=2,…,s に対しβlk=bと する. したがって,治療I に対する相対効果d12,d13,… d , , , は,2次予防での治療効果d,2+b,d13+b,…, d,,+bよ り,すべて同じbだけ低く(又は高く)なる. ただし,l次予防または 2次予防患者内での治療同士(2 ,3,…, s ) の相対効果では, 交五作用項が相殺されるため, l 次予防と 2 次予防での治療効果は正確に同じになる. 治療 l を参照(基準治療) として選ぶことが重要であり,また共変量を含むモデルの結果はその選択に影響 を受ける (sensitive) . 例えば, 2次予防患者での治療法3 に対する治療法4の相対効果はd14+b-(d13+b)=dw d13であり, l 次予防患者での相対効果と同じである. このように交E作用を検討する場合, 幾つ かの選択肢がある. モデル選択に影響する l つ の要因は, 利用 ‘ 、 可能なデ ータ量である. 固定効果モデ ルで考える場合,関係のない交互作用モデ ル(モデルI)は,各サブグ /レ ー プで少なくとも s-1 個の試験が含まれるように,またすべての治療を含む 2 つ の連結したネットワ ーク P (各サブ グル ー プで1 つ のネットワ ー ク) が必要となる. 、 変量効果モデ ルでは共通の試験問分散を推定する ため,より多くのデータが必要となる. 交換可能な交互作用モデル(モデル2)では少ないデータで推定可能かもしれないが,本モデルを用いるに は,交換可能性の明確な根拠が必要となる. Iつ の理論的根拠は, 閉じクラスの異なる治療法に対し,異なる 共変量の効果を許容するものである. したがって,治療法2 ,…, sの幾っかは l つ の「クラス」に属し,治療 l は 標準治療又はプラセボとする. 例えば, l つ の交換可能な交 E 作用項としては,心房細動(AF)に対する,ア スピリンを基礎とした治療の組で,別の組としてはヲルファリンを基礎とした治療である. モデル2は一 見す ると魅了的なアプロ ー チだが, 十分なデータがあっても, 臨床現場及び意思決定で用いることは, 反直感的 であり, 反論が難しい勧告をされ得るという困難があるとされている. 本モデルはクラス内の治療の相対効 果に実際に違いがあるということであり,治療の推奨に際し, モデルl又はモデル2に基づく場合, 費用対効 果評価を厳格に適用すると,異なるサブグル ー プで異なる治療が推奨され得るということを意味してしまう. TSD3 では,交 E 作用が異なるという仮説が,統計的に頑健(ロバスト)であることが示されない限り,結論 が支持されることは難しい可能性を示唆している. 以上の理由から, TSD3 では最後のモデル3 のみを検討している. 一方, モデル l 又はモデ/レ2 に関する代替 、 モデ ルを排除しているわけではなく,探索的解析又は仮説形成の検討にて, 検討することができるとされて いる. 3.4.3 連続値の共変量でのメタ回帰 連続量の共変量を扱う場合, MCMC法で、 のチェ ーン(連鎖) の混交時間(mixing time) を改善するには, 共変量の中心的な値を解析で用いるべきである. これは共変量の各{直x,から平均値fを差し引くことで可能 守 となる. 単純な2群比較のメタアナリシスの場合, 式(11 )は以下のようになる. NMAでも式(1 2) のモテ ルを同 26 308

296.

様に共変量をセンタリング(中心化)できる. 。 = + ilc 3.4.3.1 µi (oik + β(xi - x)〕/{ k叫} (13) 連続値の共変量での2群比較のメタ回帰:BCGワクチンの例 結核(TB)予防のBCGワクチンの有効性を評価した試験のメタアナリシスでは, 試験が実施された絶対緯 度または赤道からの距離が, ワクチンの有効性に影響を及ぼす可能性が示唆された. 試験が実施された絶対 緯度に加え, ワクチン接種及び非接種ごとの試験の追跡期間, 及び各グル ー プで結核と診断された患者数が 入手可能であった. 表3.3 BCGの例:ワクチン接種群及びワクチン非接種群での総患者数nのうち結核(TB)と診断された患者数r, 及 び試験実施時での絶対緯度x Trial number 2 13 Not vaccinated number diagnosed total number of with TB patients Vaccinated number diagnosed total number of with TB patients Absolute degrees latitude '" n12 139 303 4 6 123 306 44 55 17854 27 16913 33 円I nu II 29 29 x, [出典:NICE DSU TSD3 (httn://nicedsu.or2川c/technical-sunnort-documents/technical-sunoort-documents/)] 赤道からの距離に対して未調整のオッズ比(対数尺度)をプロットした(図3.4). 緯度が異なると, ワクチン 効果も異なるように見える. � υ、 l 凶。 A a銅革aaagaE -- 主寸 …・ー一一一 ャー寸……一一一一r…山一一一 一一一一…“一 @ 。 問 ,。 20 ・9 0 30 40 。 50 曲 .... L副.... 図3.4 結核予防のBCGワクチン:対数尺度での赤道からの絶対緯度に対する米調整のオッズ比のプロット. fl]の大き さは研究の精度に比例し, 水平線(破線)は治療効呆がない関値を表 し, 実線は変量効果の交互作用モテ’ルにより推定さ れた回帰直線である. オッズ比がlより小さい場合, ワクチンが有効であることを示す. [出典:NICE DSU TSD3 (httn://nicedsu.om.uk/technical-sunnort-documents technical-sunnort-documents/) J 27 309

297.
[beta]
試験iの群kで結核(TB) と診断された患者数を二項尤度T;kBinomial(P;k, n;k)に従う と仮定する. 連続値
の共変量 X;は絶対緯度を表し, 式(12)のメタ回帰モデルを, 共変量の平均値王= 33.46 °でセンタリングした変
‘

量効果モデルを当てはめた(固定効果モデルの当てはまりが悪かったため変量効果モデ ルが採用された). 治
療効果は共変量の平均値における対数オッズ比が得られる. 表 3.4 に共変量「絶対緯度Jで調整した場合 と調
‘

整しない場合の変量効果モデ ルの結果を示す.
、

表3.4 結核(TB )と診断された 患者数に対する共変量を伴わない変量効果モデ ルに基づく対数 オッズ比(LOR)及びオ
4

ッズ比(OR) (LOR<O及びOR<lの場合, ワクチンに効果がある),及び交互作用の推定値(b)の事後平均, 標準偏差
(sd)及び95%信用区間(Cr!),及び試験問の異質性(σ)の事後中央値, 標準偏差(sd)及び95%信用区間(Cr!),及
、

ひ’モデ ル適合度:残差逸脱度(resdev)の事後平均, 有効パラメ ー タ数(pD)及びDIC
mean/median

Nocov,町田te
sd

Cr!

m回n/med,胡

Model with Covariatet
sd

・ 0.032
0.009
0.220
-0.762
-0.763
(・1.21, -0.34)
0.126
0.107
0.478
(0.30, 0.71)
0.470
0.059
0.202
σ
0.649
{0.39, 1.17}
0.272
0.188
resdev*
26.1
30.4
23.5
21.1
pD
49.6
51.5
DIC
* 26 (デ ー タポイント)と比較,T共変量「練度」の平均値(33.46° )での治療効果

b

LOR
OR

Crl
(-0.05, -0.01)
(ー1.04, ・0.52)
(0.35, 0.59)
{0.03, 0.75)

20,000回の bum-in後, 独立な3連鎖から50,000回の繰返しに基づく(WinBUGS)
[出典: NICE DU TSD3 (htto://nicedsu.org.此technical-suooort-documents/technical-suooort-documents/)]
、

DICの値を比較する と, 共変量で調整したモデル と調整しないモデ ルで,違いがないように見える. 共変量
’

.

で調整しないモデ ルで、 の残差逸脱度の事後平均値はより小さかったが, 共変量で調整したモデ ルでは, 変量
効果により, より縮小した推定値を許容するため, 有効ノfラメ ータ数(pD)がより小さくなる. しかし, 共
‘

変量で調整するモデ ルでは, 異質性(σ)がかなり減少しており(0.649=争0.270), 交互作用項bの95%信用区
間(-0.05, -0.0I)がOを含んでいない. 共変量で調整するべきかを検討するには, 回帰係数の事後平均値を, 事
後標準偏差と比較すべきである. すなわち, 試験聞の変動が何であっても, 変量効果モデルが同様にデータ
にうまく当てはまってしまうため, DICは変量効果モデルに共変量を含めるかの規準には使えないことがわ
かる.
3.4.3.2

NMA : Certolizumabの例

NICEの単 一 技術の評価(STA : Single Technology Appraisal)のアプレイザル(補足.本邦では「総合的評
価J と呼ばれる)として,メトト レキセート(MTX)を含む疾患修飾性抗リウマチ薬(抗リウマチ薬 )(DMARD:
disease-modifying anti-rheumatic drugs)による治療でコントロ ー ルできなくなった患者における慢性関節リウ
マチ(RA)の治療法であるCertolizumab Pegol (CZP)の試験のレピュ ー が実施された.
MTXを対照群として, 7つの異なる治療法 と比較した12つの試験が同定された. すなわち, プラセボ+MTX
(治療I) , CZP + MTX(治療2) , Adalimumab + MTX (治療3) , Etanercept + MTX (治療4) , Infliximab +
MTX(治療5) , Rituximab + MTX(治療6)及びTocilizumab + MTX(治療7)であり, 図3.5に示したネットワ

28

310

298.
[beta]
ークを形成している.

すべて同じ治療法 と比較しているタイプのネットワークは,

「スター型ネットワーク」

と呼ばれる.
CZP+MTX(2)
Ada!血盟国b+MTX(3)
E回目玄白pt+MIヲ{(4)
Placeb。+MTX(l)
Infli阻血ab+MτX(5)

Ri回目皿ab÷MIヌ(6)

T。岨zumab+M'Iヌ(7)

図3.5 Certolizurnabの例:2つの治療法を結ぶ線は, これらの治療法を直接比較したことを示している. 線上の数字は,
2つの治療法を直接比較したRCTの数である
[出典:NICE DSU TSD3 (htto://nicedsu.org.uktechnical-suooort-docurnents/technical-suooort-docurnents/)]3.5に各試験の治療群(i= l,…,12; k=l,2)ごとに, 含まれた患者数n;k, そのうち6ヵ月時点で ACR50を達
成した患者数(利用可能でない場合は,3ヵ月時点のACR50を使用)恥及び各試験での平均擢患期間(年)
X; を示した.

治療法の相対効果に平均擢患期聞が影響を与えると考えられ, シナリオ82に対応している. 図

3.6は平均擢患期間に対して未調整オッズ比(対数尺度)がプロットされ, 27の数字はプラセボ+MTX (参
照治療)に対する各治療(治療27)での未調整オッズ比(対数尺度)に対応している. Abe2006試験では
表の各セルに0.5を加えて計算されている.

表3.5 Certolizurnab例:12試験での群l及び群2での患者の総数nのうち6か月時点でACR50に達した患者数人 及び
試験tの平均擢患期間(年) Xi・ 全ての試験でブラセボ又は実薬対照に加えて, MTχが投与されていた
Ann I

Treatment m
a口n I

Treatment m
arm2

n;i

r,-,

n,-,

x,

199

146

393

6.15

63

28

,,,

,,.,

'"

RAPID I

Placebo

CZP

15

Kim2007

Placebo

Adalimumab

9

Placebo

Adahmumab

STAR T

Placebo

Infliximab

Abe2006*

Placebo

Infliximab

Placebo

Tocthzumab

Placebo

DE019

Placebo

Weinblatt1999

Placebo

ARMADA

ATTE ST

St悶nd2006

CHARISMA*

Placebo

Placebo

CZP

Adalimumab
E tanercept

M ean disease
duration
(yeaτs)

total
number of
patients

試験名

RAPID 2

Arm2

number
achieving
ACR50

4

127

19

200

5

33

62

30

number
ach,evmg
ACR50

80

246

5.85

81

207

10.95

23

59

37

11.65
8.1

360
49

110

R1tux1mab

。

5

47

14

40

15

61

49

26

5

6.85

67

110

22

311

65

363

lnfliximab

29

total
number of
patients

13

165

7.85

40

11.25

50

8.3

0.915

299.

204 22 Tocilizumab Placeもo OPTION 勺か月時点の ACR50 90 205 7.65 [出典: NICE DSU TSD3 (htto://nicedsu.o胞 uk/techoical-suonort-documentsltechnical・sunnort-documents/)] qo帽 。 .-F 0 -- qm _ F ’ -- -- / F -· - ’ 4 . - ’ a ’ O 一 E J ”・ ’ , ー ・’ .,. 一, ー一一一一一一一一一ー一一一一一一一ーーー一一一ー一···;;骨丘二一 ,, , , , ,, _. 旬 ,, ,,, 。 ,, _. , _. _. , - ” _. ,, --- O併 宣 見事雷 言 語 EaBEat 3- ・” 一., , ー ’ ... .. 一 � -- .. ·· � -- ← , 一 , , 一, ,, --- ' ·一 -·--· -’ - ,’ ’ f ,・’ ー ’ ..• .•--・ , , 二. : て/寸_, ... ----:;;...-- .-·· ----, ’ F・ ・” .a- .,a- ’ ’. -- ー , ・ ’ ” - -·・ _ .. -4・” , ’ 二, ., .....- ・ ” .-一J ,- ’ ー- ’ - 5 , , ,,. 一-. ,一, a -i .,. .... 0 2 4 6 8 10 12 dis曲輔@蝿畑、 図 3.6 Certolizumab の例: 6 つの実薬対照群のプラセボ+ Mlχ に対する未調整オッズ比(対数尺度)の平均擢 J患期間(年) に対するプロット. プロットされた数字は, プラセボ+ MTX と比較した治療を示し, 直線は変量効果メタ回帰モデルに 基づいたプラセボ+ M官と比較した以下の治療の相対効果を示す. すなわち,(上から下へ) E刷ercept+M1χ(治療 4, 緑の点線), CZP+MTX(治療2, 黒の実線), Tocilizumab+Mlχ(治療 7 , 紫の長短の破線), Adalimumab+MTX(治療 3, 赤の破線), Infliximab + MTX (治療 5 , 青の一 点鎖線), 及び Rituximab+MTX (i台療 6 , 黒の長い破線). I 以上のオ ッズ比 はプロットされた治療が優れていることを示し, 水平線(薄い破線) の下は治療効果がないことを示す. [出典: NICE DSU TSD3 (httn://nicedsu. 白血此f回 hnical・sunnort-documents/technical-sunnort-documentSJ)] すべての治療に対して共通の交互作用を仮定したモデルを当てはめる. センタリングした(中心化した) 共変量を用いて, 変量効果モテツレを当てはめるには, 式(13)を以下のように書き換える. elk = logit(p1k) =的+ (81, 1k +伊叫k -Pu11 )(x1 - x))1lk*1J ここで, (14) X = 8.21,P11 = O,P1k = b(k = 2, ... ,7) 2 81, 1k ~ N(du tk , σ ) である. この定式化では,すべての交互作用はbに等しく設定する. つまり, 実薬群同士の比較では, 交互作 用項が相殺される. は式(13)に 一 2群比較のメタアナリシスは,NMAの特別な場合のため,2つの治療のみの場合,式(14) 致する. 表3.61こ固定効果及び変量効果モデルでのNMA及び橿患期聞を共変量とする交互作用モデルの結果を示す. 様々な擢患期間に対する推定オッズ比は図3.6の平行線で表される. 30 312

300.

表3.6 Certolizumab の例: ACRSO に達した患者数に対する共変最「権患期間 J がある場合とない場合で‘の固定効果及び 、 変量効果モデ ルに基づいた, 交互作用の推定値 ( b ) 及び治療 l に対する治療 y (2 ~ 7) の対数オッズ比 d1rの事後平均, 標準偏差(sd)及び 95% 信用区間(Cr !),及び試験問の異質性(cr)の事後中央値,標準偏差(sd)及び 95%信用区間(Crl), 並びにモデル適合度:残差逸脱皮の事後平均(resdev), 有効パラメ ー タ数(pD) 及び DIC. No covanate Random eff田tst Fixed effects mean/ sd Covanate ‘ disease duration' Cr! mean/ median Cr! sd mean/ 2.21 1.93 d13 3.47 d14 d,, d,, σ resdev ・ pD DIC (l.73,2.72) 2.27 0.39 (1.53,3.10) 1.34 (1.45,6.74) 3.46 1.41 (1.26,6.63) 1.38 0.17 1.65 0.22 0.00 d,. 0.25 0.22 0.71 (1.52,2.37) (1.06,1.72) (ーI .40, 1.39) (1.22,2.10) 1.97 1.48 0.33 0.33 (1.33,2.64) (0.90, 2.21) 0.01 0.82 (・1.61,1.63) 0.34 0.20 (0.03, 0.77) 1.56 37.6 30.9 55.6 52.1 0.38 (0.77,2.28) * 24(デ ー タポイント)と比較, Crl 0.06 (0.01,0.26) 0.25 (1.19, 2.16) mean/ 0.14 2.50 0.29 2.82 1.34 1.66 1.40 0.17 1.98 0.28 -0.42 sd Cr! 0.14 0.09 (-0.03,0.32) 1.71 0.34 ( 1.04,2.41) median 0.73 2.57 (1. 96,3.08) (0 71,5.96) 0.42 2.77 目 (1.08,1.74) (ー1.86,1.04) (1.45, 2.53) 33.8 (0.42,6.01) 0.84 (ー2.08,1.21) 0.19 (0.02,0 73) 0.30 2.00 0.45 0.28 30.2 (1.79,3.44) 1.42 1.48 -0.44 19.0 21.2 18.0 sd median median b di, Random effectst Fixed effects (0.95, 2.15) (l.12,2.93) 目 21.3 51.4 52.8 Tσ に対し情報のある事前分布(半正規分布)を利用 40,000 困の bum-in 後, 独立した 3 つの連鎖から 100,000 回の繰返しに基づく( WinBUGS) [出典: NICE DSU TSD3 (htto:・//nicedsu.ore.uk/technical-suoooは-docu四ents t草花;hnical suooort-documents/)] 、 表 3.6 の 4 つのモデルに対する DIC 及び残差逸脱度の事後平均値は, 単 一 のモデ ルを決定的に支持するも ので、はなかった. 固定 効果モデルのみを比較する と, 共変量 との交互作用項 b の信用区聞は 0 を含まないこ ‘ とから, 共変量を考慮すること で当てはまりが改善している. 共変量を含めた変量効果モデ ルで、 は異質性が 、 減少したが(0.34=キ0.28 ), 交互作用パラメ ータ b の信用区間は 0 を含んでいた. メタ回帰モデ ルは完全に合 理的 であるが, 強力には支持されなかった. しかし, 多くの試験で擢患期聞が短い試験ほど, 小さな治療効 ‘ 果が認め られることが報告されており, 決定モデ ルへの影響を考慮、する必要がある. つまり, 生物(学的 ) 製剤の使用を, 権患期間が特定の闇値を超えている患者に限定すべきか否かという問題である. 不合理な考 え方ではないが, 図 3.6 のメタ回帰のみに基づいて閥値を決定することは難しい. 治療 3 及び 7 (Adalimumab 及び Tocilizumab )は l つ以上の擢患期間 で検討された治療であり, 各期間 で異なる治療効果を示しているよ うに見え, 回帰の傾きの決定に大きく影響を与えている. しかし, 線形の関係性は非常に疑わしく, また治 、 療 6 (Rituximab )での負の治療効果の予測は妥当ではないつまり, 用いたメタ回帰モデ ルが妥当ではなく, 異質性の原因に関 して, さ らなる調査の必要性を示唆している. 3.4.4 ベースラインリスクによるメタ回帰 ベ ースラインリスクに関するメタ回帰モデルは, 験固有の ベースラインリスク, 式( 14 )と同じであるが, は各試験での対照群の試 f は治療I (基準治療)の観測された対数オッズの平均値戸である. ( このように, X; =µ; eik = logit(pρ=µi + δ川+ C/J1tik - f31t;,)(µ; ベイズの定式化での重要な特性は, 、 ー の ) I(k叫 モデ ルで、推定された「真の」 31 313 ベー スラインリスクを共変

301.

量とみなし, 各 µ; の不確実性(バラツキ)を自動的に考慮できる点である[ l 1][12]. 観測されたベ ースライン リスクに対して回帰分析を行う単純な方法を用いる と, 治療効果とベ ースラインリスクとの相闘を考慮して いないため, 「平均への回帰(regression to the mean) J を引き起こしてしまう. NMA では, 第 l 群での治療が常 l に治療 1 (基準治療) ではない(基準治療が含まれない試験の存在). しかし, 式( 14)のモデルでは, 治療と 比較する全ての治療で同じ交互作用が仮定されているため,治療1以外の治療同士の比較で交E作用項は相殺 されるため, 治療lを含まない試験に対しては, ベースラインリスク の調整は行われない. その他の交互作用 ‘ モデル(3.4.2節のモデ /レ1, 2)を当てはめる場合は, 調整されるリスクに, 全ての試験で比較されなかった (かもしれない)基準治療(治療1) の推定リスクを反映するよう注意が必要である. 3.4.4.1 ベ ースラインリスクに関するネットワ ー クメタ回帰:Certolizumabの例 図 3.7 は, Certolizumab の例で, 未調整オッズ 比(対数尺度)をACR50 のベースラインオッズに対してプロッ トしたものである. 治療効果とベースラインリスク (いずれも対数尺度)との聞に強い線形関係が示唆され た. 回帰直線聞 の差が ベースラインリスクを調整した治療効果を表している. 表3.7 は, 共変量をベースライ ンリスクとし, 固定効果及び変量 効果 モデノレで、 の交互作用を検討した結果を示す. 表 3.7 Certolizumabの例:交互作用の推定値( b ) 及び治療Xに 対する治療 Yの対数オッズ比dxyの事後平均値,標準偏差(sd) ’ 及び95% 信用区間(Cr !). 試験問の異質性(σ)の事後中央値, sd及ひ 95% 信用区間(Crl). 「 ベ ースラインリスクJの共 、 、 変量を含める/含めない固定効果モデル及び変量効果モデ ルとして検討. モデ ルの適合度:残差逸脱度の事後平均 (resdev), 有効パラメ ー タの数(pD)及びDIC mean b d,2 d,a d,. d,s d,6 d,1 Fixed Effects sd Crl 0.93 0.09 (ーl.03, ・0.69) 2.13 O.l l (1.90,2.35) 司 l.85 2.08 l.68 0.36 2.20 0.10 (l.67,2.06) pD DIC Random Effects sd -0.95 0.10 2.18 0.22 l.83 0.24 Crl (ーI.IO「0.70) (1.35,2.29) (1.79,2.63) 0.34 (1.47,2.80) 2.04 0.46 (1.19,2.94) 。目50 (-0.72,1.27) 0.37 0.59 (-0.86,1.45) 0.19 0.19 (0.01,0.70) 0.10 0.14 (l.49,l.86) (l.93,2.46) σ re渇dev掌 町1ean l.71 2.25 27.3 24.2 46.3 43.6 0.22 0.27 (1.30,2.16) (l.75,2.79) 19.4 19.0 * 24 (デー タポイント)と比較 60,000 回のbum-in 後の3 つの独立した連鎖からの 100,000 回の反復に基づく(WinBUGS) [出典: NICE DSU TSD3 (htto:/.泊icedsu.orn.uk, teclmical-suooort-documents/technical-suooort-documents/)] 32 314

302.

\ \ \ \ 、 、、、 、、 、、 \ 。 - 。am刷 室E oi目 SE @耳革 」EE oov 自 四回同 0 “警 0 "' 0 0.01 0.02 0.05 0.10 0.20 。印 1.00 M蝿毎回。也勉d冊明暗@蜘g-9Cale) 図3.7 Certolizurnabの例: ベー スラインオッズ(対数尺度)に対して, プラセボ+MTXに対する6つの実薬での治療の未 調整オッズ比のプロット. プロットされた数字は, プラセボ+MTXと比較される治療を表し, 直線は変量効果メタ回帰 モデルに基づくプラセボ+MTXと比較して,以下の治療の相対効果を表している. すなわち,(上から下へ) Tocilizurnab +MTX (7, 紫の短長破線), Adalirnurnab+ MTX (3, 赤の破線), Etanercept+MTX (4, 緑の点線), CZP+MTX (2, 黒 い実線), Inflixirnab+ MTX (5, 濃紺の点と破線), Rituxirnab+MTX (6, 黒い長破線). I以上のオッズ比はプロッ卜され た治療が有効であり, 水平線(破線)以下は治療効果がないことを表す. [出典:NICE DSU TS03 (htto:i/niぼdsu.o限 .uk/technical-suooo口-docurnentsltechnical-suooort-docurnents/)] 共変量を伴う固定効果及び変量効果モデルの両方において, 交互作用項の信用区間は0からかなり遠く, ベ ースラインリスクと治療効果との5齢、交E作用を示唆している. DIC及び残差逸脱度の事後平均値は,共変量 ー を伴う変量効果モテ ルがわずかに優れていた. 治療6を除いたすべての治療に対し, 単 一 の交互作用を用いた 、 モデルは, かなり当てはまりが良かった. すなわち, 費用対効果評価(CEA) モデ ルに, ベ ースラインリス 、 クと治療効果の関係性を反映する必要がある. さらに図3.7は, 共変量に起因するエフェクトサイズ のバラツ キは, 共変量を制御できない場合, し、かに2群比較のメタアナリシスでの深刻な異質性及びNMAでの潜在的 な不 一 致を引き起こすかを示している. ベー スラインリスクを調整すれば, 同 一 治療内での試験聞の差異, 及び抗TNF-α薬剤聞の差異の双方が, 最小限の違いであることがわかる. 3.5偏りとその調整 本セクションでは, 内部偏りと外部偏りの両方に対して, 偏り調整方法を検討する. 前述したメタ回帰モ デルと「偏り調整Jとの違いは小さいが, 重要な違いがある. メタ回帰では, 意思決定問題の正式な範囲内 でさえ, 相対的な治療効果に明確な違いがあることを認める. 偏り調整では 意思決定に関係する対象集団 を念頭に置いているが, 利用可能なエビデンス又は少なくとも幾つかのエピデンスでは, 恐らく試験が内部 偏りを有するため(つまり恐らく異なる患者集団又は異なる試験の実施条件, 又はその両方に関係している ため), パ ラメ ータの偏った(又は潜在的に偏った)推定値を与える場合を想定している 以下に偏り調整の 4つのアプロ ー チを簡単にまとめた. TSD3ではそれぞれを詳細に紹介しているが, 本発表では割愛する. 33 315

303.

・ メタ回帰による共変量の調整:対象集団及び治療法を具体的に決定する必要があるが, エピ デンスの多 くは他の集団又は他の(類似の)治療が含まれている. 本アプロ ー チは, RCTの2群比較のメタアナリシ ・ ス, 間接比較及ひ�Alこ適しており, 大きなデータセットではより効果的となる. 試験レベルの指標に関連する潜在的偏りの調整:潜在的偏りが含まれる幾つかの試験を含み, その偏り の事前分布は, 外部のメタ疫学的データから推定可能である. 本アプロ ー チは,2群比較でのメタアナリ シス, 間接比較, NMA, 及び 「 品質」 が混在しているRCTtこ適しているが, 臨床試験と観察研究データ が混在したメタアナリシスに拡張できる. このアプロ ー チは,lつの試験を含む小さなデ ータセットには ・ 適しているが, 利用するメタ疫学デー タの適切性に依存する. 試験レベル指標に関連する偏りの推定と調整:偏りの大きさの程度は, 既存の試験結果から内的に推定 可能である. 本アプロ ー チは, 「 品質」が混在したRCTの間接比較又はNMAfこ適しているが,臨床試験と 観察研究の混在に拡張できる. 大きなデータセットでより効果を発揮する. 専門家による内部及び外部偏り分布の導出:上記のいずれの状況にも適用でき, RCT 又は観察研究の2 群比較のメタアナリシス, 間接比較及び NMAに適している. 本アプロ ー チは l群試験を含む小さなデ ータ セットには適しているが, かなり時間を消費するものである. 4. エピ デンスネットワ ー クの不 一 致性 4.1 Inconsistency (不 一 致性)とは NMA の重要な仮定は, ネットワ ー クにおける治療聞の直接比較の結果と間接比較の結果に違いがないと いう 一 致性(consistency)である. TSD4では RCT における NMAにおいて、 この一 致性が成り立っていない程 度(inconsistency:,不 一 致性) に焦点をあてており, 本節では不 一 致性の評価方法やその注意点について紹介 する. NMA では間接比較の効果の推定や, 直接比較した結果と間接比較した結果をあわせた推定が可能とな るものの, 不 一 致性がみられると統合したエピ デンスの妥当性に疑問が生じることとなるため, 不 一 致性の 評価は重要なポイントとなる. なお, 各種の方法で不 一 致性が検出されなかったからといっても一 致性が示 されたというわけではないことに注意されたい. 4.2 エピデンスのル ー プ TSD4では不 一 致性の評価の際には, ネットワ ー クを図示したネットワ ー ク図を調べることを強く推奨し ている. ネットワ ー ク図では, 多群試験が含まれている場合に異なる線を使用することや, 比較している試 験数の情報を含めることが有用である. 、 ネットワ ー ク図では, 各ノ ー ド( 節点)が治療方法, ノ ー ド を結ぶ辺(edge)が2つの治療の比較試験がある ことを表している. 図4.1a)について着目するとA→ B→Cのループl つが表されており(以下, ル ープABC と表記), Aを参照治療と扱うとすると, TSD2の一 致性を仮定したモデ‘ル(consistency model)では基本ノfラメ ータとしてdABと<lAcがある. deeは独立なノ号ラメ ータではなく, 他の2 つのパラメ ータから求まるものであ る. ネットワ ー クの情報としては, 3つのデータソ ー スと 2 つの独立したパラメ ータと捉えることができ, 潜在的な不 一 致性として自由度が1 つあるとみなせる. “ ” TSD4ではこの自由度を Inconsistency Degrees of “ Fr明dom(ICDF): N・基本パラメ タ数 と定義している. ここでNは対比較の数, 基本ノfラメ ータ数は 治 療数(nt)ーl ” ー であり, ネットワ ー クの試験が全て2 群比較であれば,ICDF = N-( nt-1)となる. ICDF は独立な 34 316

304.

/レ ー プの数と同じであり, 2 群比較試験のネットワ ークに一 つの独立なル ー プが加わると ICDF が l 増加し, 潜在的な不 一 致性が 一 つ発生する. b) N= 4, nt=4, ICDF=l B a)N= 3, nt詰3, ICDF=l B ム c) N= 9, nt=1. ICDF=3 B Aく C 〉 〈 O D · c F G C d) N= 6, nt=4, ICDF=3 B A ム c 図 4.1 ネットワ ーク図の例 [出典: NICE DSU TSD4 (htto://nic吋su.ore.uk/technical-suooort-documents/technical-suooort-documents/)] もう少し複雑なネットワ ー クを考えてみると, 図 4.1 c)の ABCD の四角形には ABC, BCD, ABCD の 3 つの /レ ー プがある. このうち 2 つがわかると他の辺がわかるため, ここでは 2 つが独立なル ー プであり, ル ー プ ABCD の四角形には 2 つの潜在的な不 一 致性があることになる. 右側のル ー プ EFG で表される独立なル ー プ が加わると合計 3 つとなり, ICDF の計算結果と 一 致する. ネットワ ーク図を作るには, 例えば R のパッケ ー ジ gemtc や netmeta などで可能であるが, 簡単な図であ れば SAS の sgplot でも可能で、 ある. 後述する事例・血栓溶解治療法の解析デ ー タセットからネットワ ー ク図 を作成した (図 4.2 ). 各治療法が円周上の座標になるように加工した後は, 直接比較の治療法を結ぶ線を作 るため, SAS blog で紹介されているハッシュオブジェクトを用いる方法(13 ]を適用して, sgplot プロシジャ用 のデ ー タセットを作成した. ネットワ ークを把握しやすいように, ノ ー ド上に治療法の識別番号を, 線上に 直接比較の数を表示させ, sgplot の ubble ステ ー トメントや spline ステ ー トメントの thickresp オプションを用 いてノ ー ドの大きさを症例数に比例,線の太さを直接比較の数に比例するようした.基準となる治療法(NMA における参照群) を中心に表示することも簡単である (図 4.2 右). 本稿ではプログラム紹介は割愛するため プログラムは公開予定のものを参照していただきたい. 35 317

305.
[beta]
4.2 ネットワ ー ク図作成の実行例

単純なネットワ ー クにおける不 一 致性の評価方法(独立なル ー プ)

4.3

この節で紹介する方法はシンプルで、解釈も容易であることから, TSD4 ではこの方法を可能な限り用いる
ことを推奨している. ただし独立でないル ー プがある場合には, より一 般的な場合に適用可能の方法として
後述する方法が選択肢に挙げられる.

4.3.1
不

一

Bucher法
致性の検定方法として最も単純なものは Bucher らの提案する方法である(Bucher 法) [14). この方法

は2段階の方法であり,l段階目で対比較のエピデンスをそれぞれ統合し,2段階目で直接比較と間接比較か
ら得られるエビデンスが異なっているかどうかを検定する.
図 4.1 a)のル ー プ ABC のネットワ ー クを例に考える. BC の直接比較
d�'};d と比較する.

a�r を AB と AC から成る間接比較

a�1d = a�r - a�: os)

、

、

直接比較の推定は各試験または通常の対比較のメタアナリシス(固定効果モデ ル又は変量効果モデ ル)か
ら推定できると仮定する. 直接比較の推定値は独立なので, 分散は,
Var(d�'};d ) = Var(ct�f!) + Var(d�j{)
となり, 不 一 致性の程度をωとすると次式で表せる.
W9c = d�/! - ctkn/
Vαr(w 8c) = Var(d�f!) + Var(ctk'};d ) = Var(ct�/!) + Var(d�j{) + Var(d�f)
ここで, 不 一 致性がないとし、う帰無仮説の検定をZ R 仁

=

--

。 Dr

4些==が標準正規分布に従うことから実施でき

乍

べ

JVa @Be)

る. AB, AC のエビデンスについても同様に検討することは容易である.
Bucher 方法に 3 群試験を含めると, 3 群試験は内部で整合性がとれているので検出力が低下することにな

るので注意が必要である. また, 不 一 致性の分散は全ての比較の分散の合計であることから, ル ー プ中の治
療の数が増えると分散が大きくなり, 不 一 致性は検出されにくくなることにも注意が必要である.

36

318

306.

適用例: 図4.1a)のネットワ ー クと同じ構造のデー タについて,直接比較の推定値は以下の対数オッズ比で示されたと きを考える. a�:r ln(OR) 2.79 standard eπor ofln(OR) 0.56 a�t 1.42 0.34 d�/! 0.47 0.10 [出典:NICE DSU TSD4 (httn://nicedsu.o隠.uk/technical-suooort-documents/techoical-suooort-documents冷] ここで,治療 C と B の相対効果の間接比較の推定値はa�nl = 1.42 - 2.7 9 =ー 1.37, Var( amn = 0.56 2 + 0.342 = 0.429である.直接推定agg- = o.47と比較すると,不 一 致性推定値W 8c = 0.47 ー (-1.37) = 1.84と Va市川 = 0.102 + 0仰が得られる 従って,Zee = 是主 = 2.78 となり不 一 致性が検出された( p-valueく 0.01) . 4.3.2 Bucher 法の拡張:複数のル ー プがあるネットワ ー クへの適用 不 一 致性の分析をそれぞれ独立に行うことができるパタ ー ンとして,図4.1 c)のネットワ ー ク構造がある. 左側のル ー プABCD と右側のル ー プEFGの2つにわけで考えることで,例えばル ー プEFGではEFについ て Bucher法を適用し,ル ー プABCD の BCについては Bucher法を逆分散法と組み合わせてカイ2乗検定に 拡張して適用できる.本稿では割愛するが,TSD では数値例も記載されている.なお,Bucher 法と同じく, カイ2乗検定に拡張した Bucher法も基本は2群比較試験に基づいており,多群試験を含むと不 一 致性検出の 検出力が落ちることに注意が必要である. 4.4 複雑なネットワ ー クにおける不 一 致性の評価方法 複雑なネットワ ー クの場合,次に述べる方法のうち,Bucher/去を繰り返す方法は,不 一 致が全く検出され ないのであれば解釈しやすいが,検定の多重性の問題があり,ひとつでも検出される場合には解釈が困難と なる.そのためTSDでは 一 致性を仮定しないinconsistency modelが提案されている.また,Node-splitting[ I司法 について間接的なエピデンスと 直接的なエビデンスを比較する有効な手法のひとつであると紹介している. その 一 方で不 一 致性の程度をパラメ ー タ(incoherence variance (Lumley)[?], inconsistency variance (Lu andAdes ) [ 16])としてinconsistency modelを用いる方法は不 一 致の指標としては推奨されていない.不 一 致性のパラメ ー タの信用区聞が広いことが理由のひとつとのことだ. 4.4.1 Bucher 法の繰り返し 図4.1 d)は4つの治療それぞれが比較されており,ICDFは3である.図4.1 c)との違いとして,図4.1 d)に は3治療によるル ー プ(ACD, BCD, AB D, ABC)が4っと4治療によるル ー プ(ABCD, ACDB, C AB D)が3つあ り,このル ー プが独立ではないということである.これは3つの不 一 致性に対しての独立な検定を構築する ことができないことを示している. もしネットワ ー クの全てのル ー プで、検定する場合,検定の多重性を考慮する必要がある.さらに,複数の 治療のネットワ ー クでは,間接比較に用いられる治療数やル ー プ自体が多くなり不 一 致性が検出されにくく 37 319

307.

なることも考えられる. 多群試験を含むときには, 例えばル ー プABC で不 一 致性を検定するときには, 3 群比較の ABC 試験を除 外することを TSD4 では提案している. ただし, ル ー プABD の検定のときは, AB における ABC 試験は検 定のときに含まれるべきなので注意が必要である. 4.4.2 、 一致性を仮定しないモデ ル: Inconsistency model ‘ 複雑なネットワ ー クでは, Bucher法を繰り返し適用する代わりに, 一 致性を仮定したモデ ル(consistency model)と 一 致性を仮定しないモデル(inconsistency model:利用可能な対比較のそれぞれ無関係に推定する Unrelated mean effects model)を比較することをTSD4では提案している. Consistency modelにおいてnt偲の治療A,B,C … を伴うネットワ ー クを考えると, nt-1個の基本ノfラメ ー タdAB, dAc,...を定義している. つまり参照治療として選択された治療Aと比較したときの各治療の効果を推定するこ とになる. 他の対比較は全て派生した パ ラメ ー タで, それらは一 致性の等式から基本パ ラメ ー タの関数とし て定義できる. 例えば図4.1 b)のネットワ ー クにおいては, consistency modelは4 つ の対比較におけるエピデン スから3つ の相対治療効果パラメ ー タdAs, dAc, dAoを推定し, dco はdAo - dAcから求まる. Inconsistency modelで、 は, パ ラメ ー タ聞の関係に仮定をおかず, 4 つ の対比較におけるエピデンスからdAB, dAc, dso, dcoの4 つ の相対 治療効果ノミラメ ー タを推定する. 一 連の試験がM個あることを想定すると, 変量効果モデルでは, 治療Xを他 の治療Yと比較するある試験での試験特有の治療効果c\xvは正規分布に従うと仮定する. 8;,xy ~ N(dxy,σ ) for i = 1,…,M 2 変量 効 果 を用 い た consistency (16) model で は , nt・1 =3個 の 基 本 パ ラ メ ー タ は無 情 報 事 前分 布 : dAB, dAC, dAD~N(0,1002):が与えられ, 他の全ての対比較は一 致性の等式から次のように定義する. dsc = dAc - dAB• dsv = dAD - dAB• dcv = dAD - dAC· 変量効果を用いたinconsistency modelでは, 式(16)の平均治療効果のそれぞれで共通の分散σZ を共有する 別々の パ ラメ ー タとして扱われる. 多群試験が含まれるときinconsistency modelでは, 複数の対比のうちどこに着目するかによって異なる パ ラ 、 メ ー タをモデ ル化することになる. 例えば, 3群のABC試験では, Aを参照治療としてABとACの独立効果と することもできるし, Bを参照治療としてABとBCの効果, Cを参照治療としてACとBCの効果とすることも 選択できる. パ ラメ ー タ化の選択は パ ラメ ー タ推定とその不 一 致性の検定に影響を与えることに注意された この方法で困ることは,試験聞の変動を推定するための十分なデ ー タがあることが稀だということである. 試験問変動に つ いて無情報事前分布を使うことは, 不 一 致性をみえにくくしてしまう可能性がある. TSD4で は不 一 致性の解析を開始する前に, consistency modelから試験問変動の事後分布を精査することを推奨してい る. 現実的な値にならない場合は, 専門家の意見や疫学デー タに基づいた情報をもった事前分布を使うこと が考慮されるべきとのことだ. 事例:血栓溶解療法 TSD4に示されている2 つ事例のうち, 急性心筋梗塞に対する8 つ の血栓溶解薬の比較の例を紹介する. 50試 験のデ ー タセットには以下の治療群の30日間または35日間での死亡数と患者数が含まれる. デー タ数が多い ため具体的な各試験の結果は割愛した. ・治療法(ID) : streptokinase (SK, coded I), alteplase (t-PA, 2), accelerated alteplase (Acc t-PA, 3), streptokinase plus 38 320

308.

alteplase (SK+t- PA, 4), reteplase (r-PA, 5), tenocteplase (TNK, 6), peトcutaneous transluminal coronary angioplasty (PTCA, 7) urokinase (UK, 8), anistreptilase (ASPAC,9); PTCA(7) SK(1) UK(8J 図4.3血栓溶解療法例のネットワーク [出典:NICE DSU TSD4 (h伽://nicedsu.orn.uk/technical-suooort-documents/technical-su口oort-documents/)] 図4.3から合計9つの治療と16の対比較があることがわかり, 太線で強調されているル ー プは3群試験のみで、 作られている(SK, Acc t-PA, SK+t-PA) ため, ICDFは2群試験のみの計算式からさらにlつ引き, 16-(9-1)・1=7 となる. 従って,3群試験からなるAcc t・PAとSK+t-PAの比較を除く15個の相対効果について確認する. また, Consistency modelを用いてSKを参照治療として解析すると, SK(こ対する8つの治療効果が基本パラメ ー タと して得られ, 残りの相対効果は 一 致性の等式から得ることになる. 、 SASによる固定効果モデ ルの実装例と結果を以下に示す. なお,TSD4の結果表示にあわせてpDはWinBUGS による導出方法と同様なSASのDICオプションの値を示し, DICはresdev(逸脱度) +pD(こより求めた. Consistency modelのプログラムはTSD2と同様であるため割愛するものの, 太字のコ ー ドがconsistency modelと 異なるポイントであり, 治療法の直接比較のパラメ ー タを用いている箇所である. 公開するプログラムでは, 解析デ ー タセットから直接比較のパラメ ー タを自動で指定する場合の方法も載 せているが, それぞれに初期値を指定することを考えると, 本稿で示すように, ひとつひとつ当該パラメ ー タを記述するほうがよし、かもしれない. 実行した結果が表4.1であり, Consistency modelの基本パラメ ー タ以 外の相対効果は, 事後分布の標本のデ ー タセットから 一 致性の等式により算出し,要約統計量を求めた. TSD の例と異なりSingle-chainで、 実行したが結果は同様で、あった. なお, SASに用意されているマクロ%POSTINT や%TADPLOTを用いると簡単に信用区間や診断プロットを求めることができる(SAS MCMC Help Detail: Autocall Macros for P ostprocessingやRegenerating Diagnostics Plotsを参照). < Inconsistency modelプログラム> %let ntrt=9; * 薬剤lの数; d2_9d3_ 4d3 5d3_6 d3_7d3_8 d3_9; * 直接比較; %let nstudy=50; 事試験数; /輩 出力変数名を指定するためのマクロ変数作成変数名試験番号 %let nann=3; * 多群試験の最大の群数; %let inds=<解析デ ー タセット>; 1第k訴町 data null %Ietd direct=dl 2dl 3dl 4dl 5dl 7dl Sdl 9d2 7d2 8 39 321

309.
[beta]
endcnst;

length回p 1-tmp2 $2000;
retain tmp:;

array d[&ntrt,&ntrtf

set &inds end=end;

%do k=l %to &n廿L; d&k._1・d&k._&n甘t.

do k

%end;;

= I to na;
'

/*初期値*/

同pl = catx(",tmp l ,x);

parms dl_2 O; parms d1_3 O;parms dl_4 O; parms dl_S O; parms

x = 回tx( γdev',i,k);

dl_7 O; parms d1_8 O; parms dl_9 O; parms d2_7 O; parms d2_8 O;

end:
’

if end血en call symputx( dev',tmpl );

parms d2_9 O; parms d3_4 O; parms d3_5 O; parms d3_6 O; parms

do k= I to &narm,

d3 7 O; parms d3_8 O; parms d3_9 O;

' '

prior &d_direct~normal(O,prec=0.0001);

x = 曲以(二 , dev',i,k);
'’

回p2 = catx( 川p2刈,
戸直接比較がない不要パラメ ー タの指定町

end;
・

’

%do k= I%to&回目;%do c =I%to &ntrt.;

if end 出en call symputx( dev all ,tmp2);

%if%sysfunc(血dex(&d_direct,

run-

d&k.一&c))EQO%出en

d&k.ー&c =O ;;
%end;%end;

%macro nma_tsd4_2_incon();
data dummy ;
run·

11=0,

pr,田mcmc data=dummy ALG =nuts(MAXHEIGHT=20

do i= I to &ns加dy;

)

jointmodel die DIAG = MCSE outpost=msout_百1_in_a

resdev[i]=O;

S回ts(PERCENTAGE=(2.55097.5))=(SUM)

do k= I to na[i];

nbi=I0000 nmc=30000 thin= I seed=99

p[i,k] = logistic(mu[i] + d[t[i,l),t[i,kll );

monitor=(&d_direct totresdev &dev);

ll=ll+lpdfbin(r[i,k], n[i,k],p[i,k]);

訂ray mu[&nstudy];

rhat[i,吋 =p[i,k]町[i,k];

P町ms mu: 0; 申 初期値;

ifr[i,k]=O then tmp=O;

prior mu:・~normal(O,var=IOOOO) ;

else tmp=r[i,k]吋 log(r[i,k])ーlog(rhat[i,k]));

町田y rhat[&ns知dy,&narm];

dev[i,k] =2吋回p + (n[i,k]-r[i,k]) * (log(n[i,k]叫,,kl)ー
log(n[i,k]-rhat[i,k])))ゾデ ー タポイントの逸脱度;

aπay resdev[&nstudy];

r由化v[i] = resdev[i] + dev[i,k];

array dev[&nstudy,&narm] &dev_all;

end;

町ay p[&ns加dy,&narm] ;

end·

array t[ &nstudy,&narmJ/nosymbols;
array r[&nstudy,&narm]/nosymbols;

model general(ll);

array n[&nstudy,&narm]/nos戸nbols;

totresdev=sum(of resdev:); •逸脱度,
run·

町ray na[&nstudy]/nosymbols;

%mend,

begincnst;
'’

”

”

”

”

”

’

’

%nma_tsd4_2 _mcon;

re = r回d_array("&inds , t, tiγ G ブt3");
”

’

re = read_町田y( &mds , r, rl γ
”

”
re = r,田d_町祖y( &inds , n, n l",''n2γn3 );
”

・

”

re = read_町田y( &mds ', na,”na );

40

322

310.

表4.1 consistency modelとinconsistency model の結果の要約 Consistency model Treatment (X に対する Y の対数オッズ比) X Inconsistency model 95%信用区間 mean y 上側 下側 SD 95%信用区間 ロ1ean SD 下側 上側 SK(I) t-PA(2) 0.002 0.030 -0.06 。.06 ・0.004 0.030 -0 目 06 0.06 SK(]) Acc t-PA(3) -0.177 0.043 -0.26 -0.09 ・0.158 0.049 -0.25 ・0.06 SK(I) SK+t-PA(4) -0.049 0.046 -0.14 0.04 ・0.043 0.047 -0.14 。 目 05 0.060 -0.24 -0.01 -0.060 0.089 ・0.24 0.11 0.100 -0.67 0.28 ・0.665 0.186 -1 03 -0.30 SK(I) トPA(5) -0.123 SK(I) PTCA(7) -0.475 司 SK(I) UK(8) -0.202 0.219 -0.63 0.23 ・0.369 0.524 -1.42 。 目64 SK(I) ASPAC(9) 0.015 0.037 -0.06 0.09 0.005 0.037 -0.07 0.08 t-PA(2) PTCA(7) -0.477 0.104 -0.68 -0.28 -0.541 0.414 -1.37 0.26 t-PA(2) UK(8) -0.204 0.219 -0.63 0.22 ・0.296 0.348 -0.99 0.38 t-PA(2) ASPAC(9) 0.013 0.037 -0.06 0.09 -0.291 0.359 ー1.00 0.40 Acc t-PA(3) r-PA(5) 0.054 0.055 -0.05 0.16 0.019 0.065 -0 11 0.15 Acc t-PA(3) TNK(6) 0.006 0.064 -0.12 0.13 0.005 0.064 -0.12 0.13 Acc t-PA(3) PTCA(7) -0.298 0.097 0.49 0.11 -0.217 0.119 -0.45 。.01 Acc t-PA(3) UK(8) -0.025 0.220 -0.45 0.40 0.142 0.357 -0.55 0.85 Acc t-PA(3) ASPAC(9) 0.193 0.056 0.08 0.30 1.409 。 目415 0.63 2.27 resdev 105.6 99.5 pD 57.4 64.5 DIC 163.0 164.0 Bum-in I0,000,サンプリング回数30,000 (Consistency modelでは20,000回),いずれの相対効果の事前分布もN(0,1002) 。E � @ 制 高 2 ” . 。。 C C 。 。 I• .. . . . ・.. . .. . - . 2 c 。ns1stency model .. 3 図4.5各デ ー タポイントにおける逸脱度の比較 41 323

311.
[beta]
Inconsistency modelはConsistency modelよりも逸脱度(resdev)が低いのであてはまっているようにみえるが,
パラメ ー タ数はInconsistency modelが多いため,
デルの個々のデ

ー

それがpDにも表れており, DICとしては同程度である.

両モ

タポイントについて逸脱度の事後平均をプロッ卜すると(図4.5), 4ポイントで‘inconsistency

modelの逸脱度が明らかに低い値を示しており,consistency modelはあまりあてはまっていないことがわかる.
これらは試験番号4445であり, Acc t-PA(3)とASPAC(9)の比較試験である.

対数オッズ比の95%信用区聞が

consistency modelとinconsistency modelとで重なっていないこととあわせると不

一

致性が存在するとみなせる.

、

図4.5は両モデ ノレの事後分布の標本からS即lotのscatterステ ー トメントで作成したものであるが, Tipオプシヨ
ンを用いてデ ー タポイントがどの試験群であるかをツ ー ルチップとして表示させるとより有用と思われる.

<図4.5のプログラム>
pr田皿回ns da也=<inconsistency modelの事後分布の標本>nway
nopnnt,var dev:,output out=dtl me叩=;

data dt3; merge dtlt dt2t;run;

run ・
’散布図の作成:逸脱度の変数名dev[試験番号]ー[群番号]をツ ー
proc transpose data=dt I out=dt l t(rename=(coll = incon));

ルチップで表示;

V町 dev:,

ODS GRAPHICS /reset臥占AGEMAP= ON noborder ;

run;

proc sgplot da旬=dt3 noautolegend aspect= I;
sca世er

x=con

y=mcon/

markerattrs= ( color=black

proc m白血 data=<consistency modelの事後分布の標本>nway

symbol= CircleFilled)tip=LNAME_);

noprint;var dev:;output out=dt2 me佃=;

linepann x=O y=O slope= I :,市対角線;

run·

XAXIS min=O max= 3.5 mmor label= ” consistency model” ,
YAXIS min=O max=3.5 minor label=” inconsistency model” ;
run·

proc transpose data=dt2 oudt2t(rename=(colI =con));
var dev羽皿;

4.4.3 Node-Splitting
Node-Splitting (ノ ー ド分割)法[15]は,

ベ イズ流の枠組みで相対効果dxv2つの要素:XYデ ー タ全て(XY

試験, XYZ試験, WXY試験など)からなる「直接比較」と, 残りのデ ー タによる「間接比較」に分離してパ
ラメ ー タを推定する方法である. TSD4では, Node-Splitting法についての詳細な解説はないものの, 直接比較
と間接比較のパラメ ー タの事後分布を図示することで直感的に違いが判断でき, また高い検出力を有するロ
バストな方法であることから, 複雑なネットワ ー クにおける不
る. Rgemtcパッケ

ー

一

致性の評価のオプションとして推奨してい

ジにはNode-Splitting法が実装されており, 簡単な指定で実行できるようになっている

[17]. SASにおいても, 不 一 致性の評価対象の直接比較が2群比較試験のみで構成されていれば, consistency
modelSASプログラムに少しのコ ー ドを追加することだけで実施できる.
Node-splittingf去を用いて, 前節のAcc t-PA(3)vs ASPAC(9)の不

一

致性評価をSASで実施した結果を以下に示す.
”

”

Consistency modelのプログラムに対して, 評価対象の直接比較のときに相対効果のパラメ ー タ direct を新た
に指定するだけでよく, 追記したコ ー ドは太字で示した. Dias, S.らの報告[15]にはこの血栓溶解療法の事例
に対するNode-splitting法の結果と事後分布の密度プロット, 直接比較と間接比較の事後分布の標本から不
致の程度である

w=a

vir

-a ind, Bayesian p-valueとして事後確率prob=P r(w > 0)からp=2*min(prob, I-prob)を求
42

324

312.
[beta]
めていたため,これらについても SAS で求めた.前述の Consistency modelと inconsistency modelの比較と同じく,
明らかに異なっていることがわかる.
Node-splitting 法の SAS プログラム(コア部分)
くプログラム追加コ ー ド>

%let spl =9;

data prob;

%Iet sp2=3;

set outpost 4_th_ns39 end=end;

Pr田mcmc ou中OS七=outpost 4_出ns39

dif手direct-indir,田t;

<省略>

ifdi汀> 0 then index+ I;

*評価対象の直接比較にはdirect を用 b る:

ifend then do;

parms direct O;

prob= index仁n ;

prior dir配t ~normal(O,var=lOOOO);

p=2*min(prob, I-prob);

indirect = d&spl - d&sp2;

put prob= p=;

omega = direct-indirect;

call symputx(’prob’ ,put(round(prob,.000 I ),6.4));

’

合.

call s戸nputx('p',put(p,pvalue6.4));
output;

do i= I to &nstudy;
do k= I to na[1],

end;

く省略>

run;

合評価対象の直接比較の場合はdirect を用 b る;

*事後分布の図示,
proc sgplot data=ou中ost 4 th_ns39;

If tli,k]=&sp1 and t[i,1l=&sp2 then spid = 1;
else if t[i,kJ=&sp2 and tJi,1]=&spl then spid =ー1;

DENSITY direct/LEGENDLABEL=Direct";

else spid=O;

DENSITYindirect/LEGENDLABEL= ” Indire氾t ” ;

if spid = 0 then di宵'd= d(t(i,kll・d(t(i,11);

XAXIS LABEL =” log-odds ratio'’ ;

else dif罰祖=spid*direct;

INSET ” Pr(Direct>Indirect)=&prob"
.’p=&p” ;

p(i,k] = logistic(mu[i] + diffd);
*.,

run;

く省略>

表4.2: Node叩litting modelの結果
95%信用区間

Ace t-PA(3) ASPAC(9)
(対数オッズ比)

SD

町1ean

上側

下側

Direct

1.41

0.42

0.63

2.27

Indirect

0.16

0.06

0.05

0.28

w (Direct-Indirect)

1.24

0.42

0.45

2.12

10,000回のBum-in, サンプリング回数は50,00043

325

313.

Spt滋i拘置’vs3 。 一 帥 ・d・- 町 出 N 。 log- dds ratl -田園田・o,同時t ・-Inc訴時計 図4.6 Node-splitting modelにおける直接比較と間接比較の密度分布 4.5 不 一 致を回避する手段と対応 統計的交E作用の検出と同様に, 不 一 致の検出は治療効果を検出するよりも多くのデータを要求する. そ のため帰無仮説を棄却できなかったとしても, 検出力不足が理由の可能性があり, 不 一 致がないということ を示唆しているわけではない. また, 試験聞の異質性は不 一 致のリスクを増加させるが, その 一 方で分散増 大により不 一 致の検出力を下げることにもなる. TSD4によると, 間接比較で偏りを引き起こしている可能性 のあるメカニズムは, ベ アワイズのメタアナリシスの異質性を引き起こしているものと同様と思われる. そ のため, 間接比較に基づく結論が妥当であることを確認するために, 直接比較のエピデンスについても確認 しなければならない. 試験聞の異質性を避けるためのあらゆるステップは,誤った結論を導くリスクを減らすのに効果的である. 例えば, 典型的な効果修飾因子である年齢, ベースラインの重症度, 前治療がそれぞれ交絡しているかもし れない. ネットワ ー クメタアナリスと不 一 致性の評価の前に各試験を吟味し, 潜在的な交絡因子を確認し, 潜在的な偏り調整とメタ回帰(本稿3節およびTSD3参照)を検討すべきである. それでも不 一 致性が検出さ れた場合, 潜在的な効果修飾因子を調査するなどの臨床疫学の観点から再考することとなる. 5.おわりに 本発表では,NMAにおける 一 般化線形モデルのフレー ムワー クを紹介するとともに,治療の相対効果を正 確に評価するために必要な, 外れ値の検討, メタ回帰及び偏りの調整, さらには不 一 致性の評価及び考え方 を示し, 公開されているWinBUGSコ ー ドによる事例に対するこれらの方法をSASで実装する方法を交えて紹 介した. 本稿では触れていないものの,TSDIではエピデンス統合の全般的な紹介,TSD5ではベー スラインモ ‘ デル,TSD6では費用効果分析にエビデンス統合を組み込む際のソフトウェアの選択,TSD7ではレピ ュアー 用 44 326

314.

のチェックリストについてまとめられている(日本製薬工業協会の2019年デ ータサイエンス部会 継続タスク 5から TSDI ~ TSD7に関する報告書をリリ ース予定である). NMAの分野は, 研究が活発な領域であるため, 本稿で示し た内容は最新の研究ではない点もあると思われるが, ネットワ ークメタアナリシスの理解および 今後の費用対効果評価に役立てば幸いである. 謝辞 ‘ 本発表にあたり, 以下の 2019 年デ ータサイエンス部会継続タスク 5 の皆様には, 様々な面でアド パイスを頂 いた. 特に, 日本イ ー ライリリ ー株式会社荒西利彦氏, 大日本住友製薬株式会社直井 一 郎氏, 第一 三共株 式会社松下泰之氏, 帝人ファー マ株式会社中島章博氏には論文のレビュ ーの際, 有用なご助言を頂いた. さらに,大日本住友製薬株式会社直井 一 郎氏にはネットワ ーク図作成プログラム等に対し,大変有用なご助 言をいただいた. ここに感謝の意を表する. (2019 年デ ータサイエンス部会継続タスク 5メンバー ※発表者を除く) [五十音順]東美恵(エ ーザイ株式会社), 荒西利彦(日本イ ー ライリリ ー株式会社), 直井 一 郎(大日本住 友製薬株式会社),中島章博(借入ファー マ株式会社),野島俊秋(興和株式会社),吉田瑞樹(ファイザー R&D 合同会社),[タスクフォ ースリ ー ダー 兼推進委員]松下泰之(第 一 三共株式会社), 河田祐 一 (中外製薬株式 会社),[担当副部会長]酒井弘憲( エーザイ株式会社) 参考文献 [I] National Institute for Health and Ca問Excellence. Guidance List. URL: httos://www.nice.org.uk/guidance/oublished [2]卓興鋼,吉田佳督,大森豊緑. エ ピデンスに基づく医療( EBM)の実践ガイドライン,システマティック レビュ ーおよびメタアナリシスのための優先的報告項目( PRISMA 声明). 情報管理. 2011; 54: 254-266. [3] 中央社会保険医療協議会における費用対効果評価の分析ガイドライン第2版. URL: httos://c2h.nioh.!!o.io/toolsfauideline/guideline ia.odf [4] Su仕on, A.J., Higgins, J. Recent developments in meta analysis. Statistics in Medicine 2008; 27(5):625-650. [5] Lu, G., Ades, A. Modeling between-trial variance structure in mixed甘eatment comparisons. Biostatistics 2009; 10(4):792-805. [6] Lu, G., Ades, A.E. Combination of direct and indirect evidence in mixed tr官atment comparisons. Statistics in Medicine 2004; 23(20):3105-3124. [7] Lumley, T. Network meta analysis for indirect treatment comparisons. Statistics in Medicine 2002; 21(16):23132324. [8] Chootrakool, H., Shi, J.Q. Meta-analysis of multi-arm trials using empirical logistic transform. The Open Medical Informatics Journal 2008; 2:112-116. [9] Rothman, K.J., Gr官enland, S., Lash, T.L. Modern Epidemiology. 3 ed. Lippincott, Williams & Wilkins, Philadelphia; 2008. [10] Govan, L., Ades, A.E., Weir, C.J., Welton, N.J., Langhorne, P. Controlling ecological bias in evidence s戸thesis of 仕ials reporting on collapsed and overlapping co巾 ariate categories. Statistics In Medicine 201O; 29:1340-1356. [II] Mcintosh, M.W. The population risk as an explanatory variable in resear℃h synthesis of clinical trials. Statistics In Medicine 1996; 15 :・ 1713・1728. [12] Thompson, S.G., Smith, T.C., Sharp, S.J. Investigating underlying risk as a source of heterogeneity in meta-analysis. Statistics In Medicine 1997; 16:2741-2758. [13] Diagrams with curved links; SAS blog URL: httos://blo!!s.sas.com/content/graohicallvsoeaking/2016/03/05/diagrams-with-curved-links/ [14] Bucher, H.C., Guyatt, G.H., Griffith, L.E., Walter, S.D. The results of direct and indirect treatment comparisons in meta-analysis of randomized controlled trials. Journal of Clinical Epidemiology 1997; 50(6):683-691. 45 327

315.

[15] Dias, S., Welton, N.J., Caldwell, D.M., Ades, A.E. Checking consistency in mixed treatment comparison meta analysis. Statistics in Medicine 2010; 29(78):932・944. [I6] Lu, G., Ades, A.E. Assessing evidence inconsistency in mixed trea回ent comparisons. Journal of the American Statistical Association 2006; 101(474)沖47・459. [I7] van Valkenhoef, G., Dias, S., Ades, A.E., Welton, N.J. Automated generation ofnode-splitting models for assessment of inconsistency in network meta-analysis. Research Synthesis Methods. 2016;7(1):80-93. ・ NMA関連のTSDs及びまとめた書籍 • NICE TSDs URL: htto://nicedsu.orn:.ul心technical-suooort-documents/technical-suooort-documents/ Dias S, Ades AE, Welton NJ, et. al. Network Meta-Analysis for Decision-Making. Wiley. 2018. NMAに対するPRISMA • Hutton 8, Salanti G, Caldwell DM, et. al. The PRISMA Extension Stat疋ment for Reporting of Systematic Reviews Incorporating Network Meta analyses of Health Care Interventions: Checklist and Explanations. Ann Intern Med. 幽 2015;162(11):777・784. ・ NMAの邦書 丹後俊郎. 新版メタアナリシス入門. 朝倉書店. 2016; 181・226. NMA の概要( YouTube) • Salanti G. A 10 minutes Introduction to Network Meta-Analysis. (2016年公開) URL: httos://www.voutube.com/watch?v=xaCEiB9MI6c ・ ISPOR報告書 • Jansen JP, Fleurence R, Devine 8, et. al. Interpreting indirect treatment comparisons and network meta-analysis for health-care decision making: report of the ISPOR Task Force on Indirect Treatment Comparisons Good Research Practices: part I. Value Health 2011; 14(4): 417-28 Hoaglin DC, Hawkins N, Jansen JP, et al. Conducting indirect treatment comparisons and network meta-analysis studies: repo此of the JSPOR task force on indirect treatment comparisons good research practices-Part 2. Value Health 201I; 14: 429-37. ・ ・ ・ 日E盟巳盟連 ・ 日本製薬工業協会医薬品評価委員会デー タサイエンス部会. WinBUGSの使い方. 2014. 、 、 久保拓弥.データ解析のための統計モデリング入門 一 般化線型モデ ル ・ 階層ベイズモデ ル ・ MCMC. 岩 波書店. 2012. 豊田秀樹. 基礎からのベイズ統計学ハミルトニアンモンテカルロ法による実践的入門. 朝倉書店. 2015. MCMC (YouTube) 久保拓弥. 階層ベイズ&MCMC講義(2015年公開) 46 328

316.

・ ・ URL: httos://www.voutube.com/watchワv=w08id0z5YRO 伊庭幸人 .MCMC講義.YouTube.ο015 年公開) URL: httos://www.voutube.com, watchワv=-H28HI unnOM 過去のSASユ ー ザ ー 総会でのNMA関連発表 ・ 福井伸行, 乙黒俊也,磯崎充宏. ネットワ ー クメタアナリシスによる無作為化比較試験の統合.SAS ユ ー ザ ー 総会2014発表資料. httos://www.sas.com/content/darn/SAS/ia io/doc/event/sas-user-grouos/usernrouos14-a” 05.odf 舟尾l楊男,黒田晋吾.SASでのNetwork Meta-Analysisの実施例~頻度論に基づくアプロ ー チ ~ .SASユ ー ザ ー 総会 2016発表資料.h伽://nfunao.web必2.corn/files/nma.odf又は httos://www.sas.corn/content/darn/SAS/ia io/doc/ eventisas-user-grouos/usernrouos2016七回01.odf (URL閲覧日2019年7月30日) 47 329

317.

付録 公開するプログラムリスト:本稿では割愛したものの, SAS で実装する際の注意点をコメントとしてプロ グラムに追記している. NMA に限らず、 MCMC プロシジャの使用例として参考になれば幸いである. ファイノレ名 解析対象の試験群; 特に断りのない場合、 群単位の 治療効果の要約指標のデータ構造に対するco田istency model (対応するTSDの例) TSD2 l a/TSD2 l b プログラムの説明・太字箇所は TSDにはないプログラム BLOCKER 日町田mial likelihood, logit link,変量効果モデル,治療法が二つの場合のみに対応/左記の固定 効果モデル Binomial likeliho岨,logit link,変量効果モデル,データポイントの leverageのプロット. T宮D2 l c/TSD2 l d (1 aの治療法が3つ以上の場合)/左記の固定効果モデル 。d , log link,変量効果モデル/左記の固定効果モデル TSD2 2a/TSD2 2b DIETARY FAT 両国間 likeliho TSD2 3a/ TSD2 3b DIABETES Binomial likelihood, cloglog H此変量効果モデル/左記の固定効果モデル TSD2 4a/ TSD2 4b SCHIZOPHRENIA Multinomial likelihood (with competing risks),log link,変量効果モデル/左記の固定効果モデル TSD2 Sal TSD2 Sb PARKINSON s Normal likelihood, identity link,変量効果モデル/左記の固定効果モデル版 TSD2 6a/TSD2 6b P SORIASIS Conditio田l Binomial likelihood,probit link,変量効果モデル/左記の固定効果モデル版 TSD2 ?a/TSD2 7b PARKINSON s ’ ’ Normal likelihood,identity Ii曲,変量効果モデル,群間差の要約指標に対する モデルI左記の園 定効果モデル TSD2 8a/ TSD2 8b PARKINSON'S Normal likelihood, identity li曲,変量効果モデル,群単位と群間差の要約指標が混在したshaI吋 開阻me陪r model /左記の固定効果モデル TSD3 I MAGNESIUM Binomial likelihood,logit link,変量効果モデル, ベアワイズメタアナリシスにおける予測的クロZパリデーションの実施 1百D3 2 Adve四e even鱈in Binomial likelihood,logit li曲,変量効果モデル. 予測的クロスパリデーションの実施 Chemothe四.py. TSD3 3a/TSD3 3b STATINS Binomial likel出回d, logit link,変量効果モデル, サプグルー プ効果があるメタ回帰f固定効果モ デル/左記の画定効果モデル TSD3 4a/TSD3 4b BCGVACCINE Binomial likelihood, logit link,変量効果モデル,連続量の共変量のあるメタ回帰/左記の固定 効果モデル TSD3 Sa/TSD3 Sb CERTOLIZUMAB 。 Binomial likelihood, I git link,変量効果モデル. 連続盤の共変量のあるメタ回帰, informative prior distrib凶ionの場合もあり/左記の固定効果モデル TSD3 6a/ TSD3 6b CERIDLIZUMAB Binomial 1止elihood, logit link,変量効果モデル. ベ ースラインリスクを調整するメタ回帰f 左 記の固定効果モデル SMOKING CESSATION Binomial likelihood,変量効果モデル,inconsistency model TSD4 2 THROMBOLYTIC Binomial l肱eliho叫,固定効果モデル,inc沼田istency model TSD4 2・ext TREAl百AENTS Binomial likelihood,固定効果モデル,四nsistency剛1delσSD2_ldを利用)およびTSD42の TSD4 I データポイントの逸脱度と比較する散布図 TSD4 2・e草Z Node同•pllttlng model TSD4 2-network ネットワー ク図 48 330

318.

ADaM デ ー タ作成のための効率化 SAS ツ ー ル (CJUG ADaM team, 0 藤原由 株式会社タクミインフォメ ー ションテクノロジ ー ) Optimization Tool for ADaM Datasets Yu Fujiwara CJUG ADaM team, Takumi Information Technology Inc. 要旨: 。 ADaM Teamで、ADaMを作成する際の標準的なツ ルを作成して UG いる。これらのツ ー ー ルについて紹介及び利用方法について発表する。 キ ー ワ ー ドCDISC, ADaM, Macro 331

319.

Agenda 〆ツ ー ル紹介 J今後の開発予定ツ ー ルについて Agenda 〆ツ ー ル紹介 〆今後の開発予定ツ ー ルについて 332

320.

開発の経緯 ,/ ADaM作成のためのツ ー ルは少ないため、。UG内でツ ー ルを作成 J各社で比較的利用されており、比較的作成が容易なマクロから着手 マクロ群 〆今回紹介するマクロは以下4マクロ 〆%g_impDate ,/ %g_permVars v〆%g_getLength ,/ %g_occurrenceFlag 333

321.

o/og_impDate 〆引数指定されている日付変数に部分日付が存在する場合,同じく引数指定さ れた補完月(日)へ日付を補完すると共に, 日付 ・ 時間補完フラグ変数を設定 するマクロ 》試験毎でプログラミングを行うと、時聞を費やすことが多い 》日付補完ルールは各社 ・ 試験単位で様々な場合が想定されるため、様々 な補完に対応できるよう開発 〆使用方法 %g_impDate (Parameter name) ; inds outds datevar outvar imp_y imp_m imp_d 1mp_h imp_mi 1mp_s Reference date (DM.RFSTDTC) Reference date (DM.RFSTDTC) Refe『唱nee date (DM.RFSTDTC) 0 0 0 sd加lib imp_meth Y 入力データセット名 出力データセット名 補完したい日付変数名 出力変数名 年がない場合に補完したい年 月がない場合に繍完したい月(S,M,Eでそれぞれ初月、6月、来月も設定可) 目がない場合に補完したい日(S,M,Eでそれぞれ初日、15目、末日も設定可) 時がない場合に補完したい時間(S,M,EでそれぞれO時、12時、23時も設定可} 分がない場合に補完したい分(S,M,EでそれぞれO分、30分、59分も設定可} 秒がない場合に補完したい秒(S,M,Eでそれぞれ0秒、30秒、59秒も霞定可) SDTMライブラリ(RFSTDTCをデー タに保持している場合、imp_xが全て埋まっている時は指定 不要) 補完方法: Y:年がない場合、reference dateと伺年月日とする。 NULL:年がない場合、年以外をreference dateと同じとし、年を補完しない。 334

322.

%g_permVars 、 J指定されたライブ ラリの全デ ー タセットに対して、全ObsにおいてNull値である Permissible変数名を取得するマクロ 》 Permissible変数のリスト化、および変数削除を選択できるよう開発 〆使用方法 %g_permVars (Parameter name); inlib inds outds work. PermList reffile drop N 入力データセットのライブラリ名 indsが2レベルで指定された場合は無効 入力デー タセット名(1レベルでも2レベルでも可) 2レベルの場合は、inlibオプションは無効 結果デー タセットの出力デー タセット名 Permissible変数名を取得するためのMetadataファ イル 指定された入力デ ー タセットから対象となる変数を dropする/しない 10 335

323.

%g_getLength J指定されたライブラリの全デ ー タセットに対して、各変数の最大長を出力及び 変更を行うマクロ 》各プログラム内に当ロジックを組み込む時聞を削減 》デ ー タセット聞で同 一 変数の変数長を合わせるオプションや、 パラメ ー タ ごとに変数長を取得できる機能を入れて開発 J使用方法 %g_getlength (Parameter name); 11 outds var宮 Work,Lengthlist 』LL_ separate N valueds 入力データセットのライブラリ名 入力データセット名 結果データセットの出力データセット名 長さを取得する対象の変数名 Indsが指定されない場合に、共通変数に対しで取得する 値を決定する NorNO:入力ライブラリ全体のすべての同 一名変数の 最大長(桁数)を取得(デフォルト) YorYES:入力データセットごとに最大長(桁数)を取得 PARAMCDごとに求める場合のデ ー タセットを指定する 指定されない場合は、作成しない 12 336

324.

%g_occurrenceFlag ./ ADaM OCCDS形式のSASデ ー タセット|こ任意のOccurrence Flag変数を追 加するマクロ 》各プログラム内に当ロジックを組み込む時聞を削減 〆使用方法 %g_occurrenceFlag (Parameter name); 13 入力デ ー タセット名 Occurrence Flag変数が追加されたOCCDS形式の出力デ ー タ セット名 inds outds Occurrence Flag変数名 var where null Occurrence Flag変数毒事出対象レコ ー ドの条件 da泊stepのwhereステートメントの記法に従い記述する key ソ ートキ 一変数 sort procedureのby.ステー トメントの記法に従い記述する ” ” ※ソートキ 一変数には as田nding ” 、可escending を指定しない flgvar Occurrence円agを立てる対象とする変数名 keyで指定した変数から選択する 14 337

325.

Agenda 〆ツ ー ル紹介 〆今後の開発予定ツ ー ルについて 15 non-P21 item check macro ./ Pinnacleでチェック対象ではないが、ADaMでチェックを行ったほうがよい点 について確認するツ ー ル 利用イメ ー ジ ADaM Pakage 寺弘 亡二〉 16 338

326.

チェック項目 〆 CJUGADaM 内でチェック項目について検討 ,田"由来¢理観ll'AiJ.岨ζIii'隠れて1め場合.ヂ ー タJ ー スの日"""宜磁とltl孔�リジナJしめデ ー タから安直 , ヂニ亙蕊語亙,t雇語電極陸す五 ソ ー ヌ亨 ー到町T - ,,開閉胃tゐこと調 mrる ADaMcompli町田check Eコ P21 d蜘e.xmlge問団tor用 Ex剖che曲 怒翠AOaM& d凶問問l cross check E二コ 同抱che曲 17 〆初期開発は着手しやすい下記機能から開発予定 〆ソ ー スデ ー タ確認 J日本語チェックマクロ 〆 formatチェックマクロ 18 339

327.

企業聞で、のADa Mデータの 多様性に関する考察 白石友太朗 (エイツーへIレスケア株式会祉電子デ一書申麟推進グループ) Consideration on variation of ADaM data between companies Tomotaro Shiraishi Electronic Study data Submission Group, A2 Healthcare Corporation 要旨: 製薬企業はADaMデー タに対して独自のル ールを設定していることがある。設定され ているル ールを示しその目的に対する解釈を述べる。また、多くの製薬企業から委託 を受ける CROという立場からの提案を示す。 キ ー ワ ー ド:ADaM、企業ル ール、CDISC 340

328.

Disclaimer ・本資料は個人の見解であり、 演者の所属する団体の見解ではございません。 背景 麟!?出馬おお首謀長引l 1 麟�! �勺人喧を: !作成立?? 眠櫨藤瞬間懇?!;??以;ぷ�t:'ifl欝審議磁;記;;時gWJーを ι� 欝! l/'1 iJ;Wl 麟!?!?副読続長持議長自 341

329.

z場包_§a_ 同店ミ どのようなルー ルが存在するか 変数の並び順 多 ADSLの作成ルー ル(ADSLにどのような変数を持たせるか) 多 ANLxxFLの作成ルー ル 多 Lengthのルール 多 標準的なPARAM、PARAMNのル ー ル 少 証明事争時騨ゆ縄経�三 342

330.

企業ル ー ルを設ける理由 解析ツ ー ルを使用するため 343

331.

ADaMデ ー タから 一 覧表を作るため 圏覇圏 CSR用の解析以外に解析するため 10 344

332.

CROからの成果物の質を 一 定にする 11 CROからの成果物の質を 一 定にする ・ マニュアルや成果物作成ガイドで、ルールを規定 例:00の解析をするのでADxxを作成する、 レコ ー ドの追加ルール、解析に使うかどうかに かかわらず全てのレコ ー ドを保持、IGの詳しい解説 12 345

333.
[beta]
企業ルー ルに対応するCROの立場から

13

企業ルールに対応するCROの立場から

'"''}ljf"i j企葉腐�元:等!在する場:奇ぽまi::選;iテjじ
<

r

;

事前説明があると認識の菌E 菌Eカ7なく作業を進めることができる

••

''I

r,11: !rftCT待機構昨禅寺リ験反瞬間帯繍欝
lFi <ry.• ···川容[WI山隊iあるのたi開票i��:;たごとになりか�r�tft�1:1r,11t{ 川/1JII1I'ilj
1

14

346

334.

まとめ 付 15 347

335.

【CDISC企画セッション】 企業聞で共通化できる解析帳票と 使用するADaM デ ー タ 0坂上拓1,2、淡路直人1,2 、浅見由美子1, 3 、月四あづさ1,4 、小泉慶-1人三沢秀敏1, 5 (1日本製薬工業協会医薬品評価委員会デー タサイエンス部会2019年度継続丁目、 ー 2中外製薬、 3 第一三共、 4サノフィ、 5ファイザ ) Commonly used TFL shells and ADaM Taku Sakaue, Naoto Awaji, Yumiko Asami, Azusa Tsukida, Keiichi Koizumi, Hidetoshi Misawa 要旨: ・ 製薬協 DS部会加盟会社40 社のアンケ ー ト結果を元に、総括報告書( Clinical Study Repo 同, CSR )のために、一般的に作成される解析帳票と、その出力項目を特定し、 一般的に作成される解析帳票を実現するため、最低限必要なADaMデ ー タ構造と、 変数をあらいだした。 - それを元に「企業聞で共通化できる解析帳票( TFLShell )と使用するADaMデ ー タ』 を作成中である。本日はその概略について紹介する。 キ ー ワ ー ド: CDISC ADaM, TFL Shells,総括報告書( CSR) 348

336.

はじめに ・ 本発表は、日本製薬工業協会 医薬品評価委員会デ ータサ イエンス部会2019年度継続丁目内で検討した結果であり, CDISCや規制当局の見解ではありません. Background • 2017年に日本製薬工業協会医薬品評価委員会デ ータサイエ ンス部会の参加企業を対象に、総括報告書に含める標準的 に作成する解析帳票のタイトルとそれらに含まれる解析項目 を調査するためのアンケ ートを実施 一一般的に作成される解析帳票とその出力項目を特定し、これらを実 現するために最低限必要なADaMデ ー タ構造と作成すべき変数を 洗い出した 企業聞で作成するADaMのバラツキを抑え,ADaMの標準化と開発効率性の 向上を目指すともに、デ ー タの二次利用性の向上を目指す 349

337.

作業の流れ 目 一般的作成される解析帳票とその出力項目の特定 .......・ ........... .. 投与倒 未役与四 完了倒 牟 中止由 I'* I'*" 瑚毎の完了倒 掴毎の中止冊 同傘型得後中ヰ明 中止謹砲の聾的 FAS揮用問I除外個 PPS録用倒I障外個 … .I•I••• l l ・・ 世与中止倒 中止理由の織鈴 |事正面E夜亙中止個』 中止寝酌毎の闘世 同意取得倒 割付偏 揖与倒 兎7圃 龍韓圃 皇室 350 何時韓神間 1・輔輔輔輔

338.

アンケ ー ト結果/インタビュ ー から見えたバリエ ー ション .患者の内訳 ーデ ー タベ ー スへの収集デ ー タの格納方針(同意取得した被験者を含 む ・ 含まない)の違い ・解析項目として 「 同意取得例」、 「 適格例」、 「 不適格例Jの有無 . 人口統計学的及び他の基準値の特性 -疾患特性(抗がん剤とその他) ・原疾患の特性を、患者背景とベ ー スライン特性に含めているケ ー スと、別表 として作成しているケ ー ス(抗がん剤) アンケ ー ト結果/インタビュ ー から見えたバリエ ー ション . 人口統計学的及び他の基準値の特性 ー既往 ・ 合併症 ・有害事象の集計と同じ体裁で集計するケ ー スと、有無という形で患者背景と ベ ー スライン特性に含めて集計するケ ー ス ・臨床検査値の評価 一検査値異常の評価 • CTCAEを用いて評価するケ ー ス、社内で持っている異常判定評価指標を 用いて評価するケ ー ス 351

339.

掴凶〕庁 、 AC H l v u y 一山 い l MUJmv uwy A可! ? 露 湘 \久一y w lV 凶Y TS 二 -」-H 1V UW ぐよ 訓 刑制措 - ー剛 栴両国一 ωmSヨ05由説W 30Sωω mw高密 『 量百ヨ 害当官『 aEεRmsuoaaa盲目白 。sqE雪g『司停 〉m h a 電話am m EE4d p嗣望。sa ’za@勾・a 4・244 妥当ea一 aE冒zaEO a冒aeaqaa 雪E 】 明S 岡山H db UA 也OR 誕{ 『a v sEegzOE-- ga昆 糞- - 内e 品冨RヨnSBEE -v v d 」ヨNW語ヨ ミ6a A2W 6 9 3州邑 JFag MV Aa’64 M持XE A主 提言RX星 提言再MA mmF UR e’ 援A xnuR A X高対ポ- 提{ ポ- 演{ dF XX XEUR 対話戸 誕{ 泌さ A X諸m un さ 欝安揖Mポ} 気安深刻渓} XX e小 深雪高測 品百Z39官3ns呂MV A 可『郎事。 『 『 E40 ヨωv 寺 亘書邑」『匂ヨ も『 援{ 疑Mp 提言語xさ xde 受{ dF 提言美一 xdF X糞uR XXXX戸 車 XX 匂列 d小 XXX話R MA 話。R { xaか ) 提言夜MA 4小 誕トSOR xaeH 夜」官。Edpし戸 xx xs 援」申書 xefド 明U ’a寝E話 ) 明u } } ) } { ) ( 量呈雪aaヨ } • 随 ’t 望 星 → ヨ 、, zu xun 廃品 膏U内 -- 側ポ } 須合au円aF nM誌m M S 賢官翼M av 賢官Mm M E Ed gE eR肖常時 0・兎凶 @ ae- 提言”“n 求》 -m mn 誕【 訴} 提言回提 4b 提言RUA 提言MM aF 質{ mn m E MM m E XM A MM戸 開 豆 き4 5区 FR蕗Ee ω。元首ae ぎ) 提言nM a, 延安翼-R V aF u 提言kn aFEF 誕ト夏川u 諸A Nn u ポV 提言降拠 点》 nA MM前 提 訴w 認」官M M49tF 四B 』[Z jm sv u Mm ae n MM戸 努{ 誕A U--2 4・ 》 MEa- 一 提{ Ed 家康 zwmw喝嗣B m・后喝6 } 、P →aM民当aa MMA zu - a’ n uan 穏- 官制戸 】 】n 】 】 } {MMm } v 積雪一扇 淵・ E社細 田S榔刷阻 欝爪w’ →明「ω 20= ( ぐ久UW 1V T S薄 型 ) d皆 i . l l dz保書g喝a量EEazE置EaaBE革B B 戸至 宝 豆 〉ロ 渇gd F 切らr利潤吋AM、- w -也 、 v 百号室昆 司 一一 、町 自雪面白局 乞 」司 一 i 一 -- -it -ii lili ー: ij i - i li - - Z百長r i - - ii iiZ H草γ r 』 一 当gazap 守 zaga i 一 zH 買、 一 z u EU 九 - is吋 JI - - i - - 7一 ー;ili- - jL ji- - J i-- jj i 「 苦Y コ 一 y 三一 品 : -マ 質店 : 禁忌 、 --Z22 8号 x eev ~以首句 一嶋 君主g V 4 MM 百戸 ヨ 8 Fえ E2 4 7 明百年 色 - 一EE 日11 〉gF 22日fA H4γ l nE号 い|| 直Euv c い 山 、 J: -1 i ifz hE PE 一 Eaaza ErE E宣言》 日E 主需 工vdzaE 伊話 吋 m uコ引Y UE V 1 JIl i 調安 田M Y - Z - 11 11 1 11 11 11 1 K … 寺 握、 き も zaZL 〉UF E重信戸 τ・d、 γ 乞 ;罫匝品目γ … n w安MF 覧Y一 u z一援VV it --1 1 1lil l - 1I ll i- - i l u貧国号 il l 関骨wukV 弓!日三パ 21E E E E- ; 白市「市ZE-;:JE E 戸 EF γ 1i pEP i Illi-- 耳 m円若井 1 q a V4-zZ旦量苦E5 2早 百 FF4誕 語 百号 、HY ; :j ; 契 費・ 一 : 費V 十 l 百 官戸市 一 i Eけ 汗 ! 1 ! ま日~! 一史 H E丑EEZE E - E Fg 電電戸 ( ndγ E Z与 一一 週宮。ZY - e 一 -告和釦川パ E RZm of- -ド も e 一 思 匂123 1 」臣官望当ZEm oγ 一1 1E 守 ER 幸 、 :UZ白EEa喜 一吉 戸 一 守 一 一 - E o mEZEZ号訴事官、p o m rm O百ゴ宮 崎 ごす gR024更とm O一 γ 一 誕百EY - 認吉突し号 2 一直暗 唱置場 ト ーー哩Z 浮 … 1hh li-- !E stilt-- Lflf il l-- - I b i--} …z j gιω草 今 、 守 … - も晴 語 句 存Er円 、 1IIIIlli--illli----ーーーーーーーーーーーーーー!トlL陪「ll|民悼llk vss窃早 一様 互 い 混ぜ 司吊 EhEEP ; ji l l-n宮aG汗 圭一 与、 Ep n FEats EgeB 昂 星術EH注目戸 4 av l; lJlE高 等 EE岸 、 1員、 一1 U gRU …zd1 Eau伺暗 〉日明白目 11y h lME 与 RE MV ZE質酌LEE日M mEE将司区ges島 F M 4石包た区E取側E百四話伊官イい日Ul閣官白寿 ZEM YL 一 割BEESE警告民主再 EZU 2耳手 ・ 111111111111111161同情1広w ril-n除泊再1ト110 一 両E Eepszi aE aeE 守? J11!L g m hb C 20 一 語為52 B品S FとZK匝官イaー こ :,11111141!11汁汁11J3E4ilia雷同団1Joelh f ,, 宮要書寝髭E沼津一 、 l よ I 一 も … つ SF目T 一 γ i l 今wu 局面 一 ト 、 一 bET 一 可 1 Il--Illi--Illi----J品町1引円 《 ( 白 一 ilIll i--A内li l -- i λH5m2 5 2 5hE E ” 智一自用問語zzs吉百主主 Y oad淘pku gヨ耳切m、,hr v RMFZv -a O 〉’m〉叩淘r 川 》旬〉阿》泊 ml 勺4 2 QJ 向Ebロ品 、保〉 n EM U。由 淘附9hm - RZh川》h 吋 ω 印N ':. 事 b. J しY 噌 一

340.
[beta]
ADaM変数のマッピング結果
・ 今回のアンケ ート結果を元に特定した、CSRIこ 一 般的に作成
する解析帳票(22レイアウト)を実現するために必要なADaM
と作成変数
- 7 datasets(ADSL: 1, OCCDS: 2, BOS: 4)
- 81 variables
|あくまで、必須変数を含んだ最低限必要な変数|
11

「企業間で共通化できる解析帳票と使用するADaMデ ー タ」
(製薬協DS部会継続TF2で作成中)
1 表記ルー ノレ Convennon of ru糊tion
ー
annotat:ed ADaM
本文書内の唖耳容体棋や出力曜日、 アノテ シヨンした AD品Z 涯教の定韓方怯について以子に市す M Dio,J.,込•edJU.胤s and
官a.nahl肘出血d注目do,J TLF ,be!" fot>n, t.be ""''"""""' of not.a ton as below.

’

者安中町Illカ項民で.騨続制t
サる.

- . --一一目

白一

-···-

一ーー

ー

百e ..哩layedne出花Ille summa,y of d岡田宮tinUat回H国関3

盟主LIB:血E
Treatm目前B
Trea町、enlA

N•XX

AOSL R州 OFL(cγ}
ADS!.. ENRI FL (cγ }
ADSL.CCM凡FL(=Y)

面曲目ga師団開l>duet

ADSL.EOTS汁削,,cヱD陪C ONT 削 UEO ’ }
ADSLDCTREA異例1一一一一一一一

353

N•XX

間{同店}
u(xxx)

n !鳴)
n(:皿x)
xx(xu)
同(且x)

xx(xx.叫
間{四.X)

xx(xu)
目(xx.且}

xx(x.x.x)
回I皿 X)

四(xえお}
四(X.X.X)

n (%)

lU t旧東]

341.

今後の予定 ・ JPMA Websiteにて公開予定(どなたでもアクセス可能です) 13 354

342.

欠測のあるデ ー タを解析した際の 電子デ ー タ提出方法の検討 0 山崎広徳 1,2,大内喜海 1 , 3,栗矢芳之 1 ,4,仲家諒 1 , 5 ,村田優紀叩 ( 1 日本製薬工業協会医薬品評価委員会デー タサイエンス部会2018年度TF1. 2大正製薬, 3協和キリン, 4大鵬薬品, 5 武田薬品j富士フィルム富山化学) Preparation and Submission of Analysis Datasets/Materials for Missing Data Analysis Hironori Yamasaki 1 · 2, Yoshiumi Ouchi1 ベYoshiyuki Kuriya1 ぺRyou Nakaya 1 · 5, Yuki Murata 1 , 6 1 Task force 1, data science expert committee, drug evaluation committee, Japan Pharmaceutical Manufacturers Association, 2Taisho Pharmaceutical, 3 Kyowa Kirin, 4Taiho Pharmaceutical, 5Takeda Pharmaceutical, 6FUJIFILM Toyama Chemical 要旨: ・ 欠測のあるデ ー タの解析を実施する状況を想定し,規制当局 やCDISCの要件を考慮したうえでのADaMからTFL作成まで の流れを考察し電子デ ー タ提出方法を検討した. キ ー ワ ー ド:ADaM, Analysis Results Metadata, CDISC, Missing Data, placebo Multiple Imputation, Pattern-Mixture Model, Tipping Point Analysis, Selection Model, Shared Parameter Model 355

343.

はじめに 本発表は, 日本製薬工業協会医薬品評価委員会デ ー タサイエ ンス部会2018年度TF1プロジェクト1内で検討した結果で、あり, CDISCや規制当局の見解ではありません. Agenda ・ 背景 ・ 動機 ・ CDISC,規制当局の要件(PMDA. FDA) ・ 検討の対象とした欠測のあるデ ー タに対する解析手法 . 各解析手法と解析手順・デ タ ー Multiple Imputation (pMI, PMM, TPA) 尤度に基づく解析手法(SM, SPM) ・ まとめ 356

344.

Agenda ・ 背景・動機 。 CDISC,規制当局の と 電器 @ (PMOA, FDA) 各会卒者干手 問ア る解析 絵 ア l'vlultipie Imputation (prvll PiVllVl. TPA) (Sl\11 8PM) ¢ すと め 背景・動機 ・ 承認申請時および再審査申請時に,通知等で求められる臨床試験および製造販売 後臨床試験について,ADaMやAnalysis Results Metadata (ARM)等の提出が必 要である. また,ICH E9(R1)の議論から欠測のあるデ ー タの解析への注目が高まっており, 欠測のあるデ ー タに対する解析手法についての議論が多くなされている. データサイエンス部会 2013 ~ 15 年度タスクフォ ース4 (製薬協 OS部会 TF4) 一方で,これらの解析手法について,承認申請時の電子デ ー タ提出の観点での議論 はまだ少ない Multiple Imputationを実施した|擦の電子デ ー タ提出方法の検討(大内ら,2016SASユ ー ザ ー 総 →ADaMからTFL作成までの流れを考察し電子デ ー タ提出方法を検討することとした. 357

345.

Agenda @ • CDISC,規制当局の要件(PMDA, FDA) 検討の対象とした欠測のあるヂ ー タiこ対する解 tff G 各解析手法と解析手/I演,デ ー タ 叩 Multiple! (pMI. PMM. (SM. SPM) 。 せと CDISC (ADaM2.1, ADaM IG1.1)の要件 欠測のあるデ ー タの解析について,単 一 補完(LOCF等)及び多重補完した場合の ADaMやARMの例示が提案されている. 企白血牟1 5.2 Analysis Variable Metadata 5.3 Analysis Results Met,ョdata ADaM IG 1.1 4.5.1 Identification of Rows Used in a Timepoint Imputation Analysis 4.9.1 Adding Records to Create a Full Complement of Analysis Timepoints for Every Subject 4.9.2 Creating Multiple Oatョsets to Support Analysis of the Same Type of Oatョ 4.9.4 Traceability When the Multiple Imputation Method is Used 358

346.

欠測のあるデ ー タの解析手法に関連する 規制当局の要件 [PMD刈 ・ 申請電子デー タに関するFAQ (平成31年4月10日公開) Q4-18:ADaMのデ ー タソ ー スとして,Multiple Imputation等による欠測値の補完に関 連したデ ー タ等を提出する場合はどのフォルダに格納すればよいでしょうか. A:「misc」フォルダに格納しデ ー タセットの定義書及びデー タガイド等において欠測 値の取扱いについて説明してください. 会本 FAQI ま申請者がMl に関連するデ ー タを提出したい場合の内容で、 あり , PMDA がMIi こ関連するデ ー タの提出を求めているわけではない [F DA] STUDY DATA TECHNICAL CONFORMANCE GUIDE (January 2019) 4.1.2.9 Imputed Data When data imputation is utilized in ADaM, sponsors should submit the relevant suppo出ng documentation (i.e., define.xml and ADRG) explaining the imputation methods. Agenda CDISC. 怒号lj送局(J)妥件(PfviO,L\, FDA) ・ 検討の対象とした欠測のあるデ ー タに対する解析手法 各解析手 日 一ー ノ Multipie Impυtalion (pi'v1i, PMfvl. -1 fコム) ( S fv1 . SP M l 脅 す )- 10 359

347.

検討の対象とした欠測のあるデ ー タに対する解析手法 ・ 本発表では,製薬協DS部会TF4が作成した「欠測のある連続量経時デ ー タに 対する統計手法について(ver2.0) J(以下,TF4の資料)を参考にし,以下の5 手法を取り上げた. placebo Multiple Imputation (pMI) Pattern-Mixture Model (PMM) Tipping Point Analysis (TPA) Selection Model (SM) Shared Parameter Model (SPM) *TF4 の資料では, DIA Scientific Working Group on Missing Dataが公開しているSASマクロ を用いて解説している手法もあるが,本発表は上記SASマクロを用いた解析の流れは検討して いない. 11 Agenda 官景藷動機 '1."', ! . @ 閣議 II 叩掲の袈件(PMDA, FDA) 検討の対象とした欠測のあるデ ー タに対する解析手法 . 各解析手法と解析手順調データ Multiple Imputation (pMI. PMM, TPA) 尤度に基づく解析手法( SM, SPM) @ まとめ 12 360

348.

各解析手法と解析手順の検討 • Multiple Imputation placebo Multiple Imputation (pMI) Pattern-Mixture Model (PMM) Tipping Point Analysis (TPA) . 尤度に基づく解析手法 Selection Model (SM) Shared Parameter Model (SPM) 13 Ml実施時のデ ー タ提出方法 Ml procedureによる多重補完を行う際の,ADaM関連デー タの提出方法(大内ら(2016)による検討) pMI, PMMへTPAいずれもMl procedure !こて実行可能 (このあと各手法を説明) *一部実行できない解析もあり BDS データを提出 *解析結果を得るためのprocedu問実行のため、 ADaM BDSへ再加工することもある ARM記載範囲 361 大内ら(2016SASユ ー ザ ー 総会)より引用14

349.

placebo Multiple Imputation (pMI) ・ ・ ・ • 対照群のデー タを用いたデ ー タ補完の うち,プラセボ群の場合をplacebo Multiple Imputationと呼ぶ 鼠験治療中止被験者{実業群)の推移 応答(低いほど改箸} 試験治療中止後は無治療(プラセボ) と同様の推移と考える 群間差を小さくする可能性からEfficacy の保守的な推定値を与える Jump to Reference (J2R). Copy increments in reference (CIR) . Copy reference (CR)等の種類がある 時点1 E寺点2 時点3 時点4 製薬協シンポジウム(2017/2/23)資料(6.感度分析2 (Refe陪n四ーbased imputation) )より 一 部改変 時 pMI の実施手順 . 解析のステップは以下の通り 1. 2. 欠測値を時点ごとに時系列に補完する 時点tの欠測値を補完するとき入力デー タとしてプラセボ群の全被験者及び時点tが欠;_RI] している実薬群の被験者のデー タを結合する 3. 時点1から(t-1)までの応答変数とベースライン共変量を用いて,ベ イズ流の回帰により時 点tの欠測値を補完する.その際,プラセポ群のデー タから得られる事後予測分布からパラ メ ー タをサンプリングし,実薬群とプラセボ群の時点tの欠測値の補完に利用する. 4. 5. 時点tの欠測値の補完後,最終の時点まで上記2 ~ 3を繰り返し,完全デー タを生成する 上記2 ~ 4の作業を繰り返し,多重補完されたデータを生成する 6. 多重補完されたデー タに対し解析を実行し多重補完されたデー タの解析結果を統合する TF4の資料より 一 部改変 16 362

350.
[beta]
プログラム(例示)
/*pMI*/
proc mi da叶T_ADHAMD!ou同UT seed= 67890 nimpuぬ=1000;
class TRTPN
monotone reg(/details);
mnar model( CHG_WEEK1 CHG_WEEK2 CHG_WEEK4 CHG_WEEK6 /
modelobs= (TRTPN= ” 1 ")) ;
var BASE CHG_WEEK1 CHG_WEEK2 CHG_WEEK4 CHG_WEEK6;
run;

17

Pattern-Mixture Model (PMM)

・

被験者全体を1つの集団と考えて応答変数の分布を仮定するのではなく,中止
時点からなる部分集団ごとに別々の応答変数の分布(パタ ー ン)を当てはめる
パタ ー ンごとに分布を考え,複数パタ ー ンが混在した状況を扱う

It

"'

·: ".
。-

*Complete Case Missing Value (CCMV),
Neighboring Case Missing Value
(NCMV)等がある

、

一一←時..
一一
a

8

'"量
8

E処

・圃圃圃園開..,で•111u,也脂賓のum移
幽幽幽幽幽完了例の鶴覇権移
,で陵揺した笹島l の来""鍵
・・・・・鋳,.,で 罰S しず,,...容の観測鎗修
時 ,で隠居した徹dG の象鼠刻鐙移

363

TF4の資料より 一 部改変
18

351.

PMMの確率モデル デ ー タから推定不可能 今制約条件で推定 ー デ タから推定可能 J (Y?, Yr", RIXれーめ= f (Rd X i ,�) f (YflRi, X ;, 面 )!(Yア IYf 孔, i, ) X o Yf:被験者iの観測された応答変数 Yf':被験者tの観測されなかった応答変数(欠測デ ー タ) R;:被験者iの欠測識別変数ベクトル xi :被験者tの共変量 ψ:脱落確率モデルのパラメ ー タベクトル O :応答変数モデルのパラメ ー タ 19 ・ 制約条件 本検討では,Ml procedureで実行できる,MNARを仮定した以下の制約条件 を取り扱った Complete Case Missing Value (CCMV) :完了例と同じとする仮定 Neighboring Case Missing Value (NCMV):次の時点で、中止した集団 倒,,<ター ンヨの時点3を舗完〈観測:O朱観測:x) CCMVの椙合: lパター ン1跨点10時点20時点ヨO時点40 i,.,... バタ ー〉’Z碍慮10時点2 0 時点30時点4 X _ ,I パター ン3時点10時点20 時点31E)時点4 X ’F �::> 制約条件のイメ ー ジ TF4 の資料より引用 20 364

352.

PMMの実施手順 ・ 解析のステップは以下の通り 1. 制約条件を決定する 2. 制約条件を用いて,推定可能にした分布から欠測値に対する補完値を生成し多重補完さ れたデ ー タを生成する 3. 多重補完されたデー タに対し解析を実行し多重補完されたデー タの解析結果を統合する 融騨櫨盤鱗櫨輔舗 TF4の資料より引用 21 プログラム(例示) /*PMM*/ proc mi data=T_ADHAMD out=OUT seed=67890 nimpute=1000; class TRTPN ; monotone reg(/details); mnar model( CHG_WEEK1 CHG_WEEK2 CHG_WEEK4 CHG_WEEK6 / modelobs=CCMV ); var TRTPN BASE CHG_WEEK1 CHG_WEEK2 CHG_WEEK4 CHG_WEEK6 ; run; 22 365

353.

Tipping Point Analysis {TPA) • . PMM等による補完値に,A分の悪化を加える(Delta Adjustment Method) Aをどの程度動かすと主解析の結論が変わるかを検討する(Tipping Point Analysis) " fどり I <,: ::_: ,1 . :1 L …ー「 :::·:J !( 卜!と :可!? 。 I :: a、企 3 占 製薬協シンポジウム(2017/2/23)資料(5.感度分析1 PMM (NFMV, Delta adjustment))より引用 23 TPAの実施手順 ・ 解析のステップは以下の通り 1. PMMのモデルを特定後, Delta Adjustの方法を決定する 2. Delta (Li)=Oに設定し欠測値に対する補完値を生成し多重補完されたデー タを生成する 3. 多重補完されたデー タに対し解析を実行し,多重補完されたデー タの解析結果を統合する (Li=Oによる結果は, PMMの結果と 一 致する) 4. 上記の2. および3 をAの値を変えながら繰り返し,結論が変わる点(Tipping Point)を探索 する 24 366

354.

プログラム(例示) /*Delta Adjustmentり proc mi data= T_ADHAMD out=OUT seed=67890 nimpute= 1000; class TRTPN monotone陪g(/details) , mnar model( CHG_WEEK1 CHG_WEEK2 CHG_WEEK4 CHG_WEEK6 / modelobs= NCMV ); adjust( CHG_WEEK1 rshift=&DELTA. adjustobs=(TRTPN ="2")) adjust( CHG_WEE限rshift=&DELTA. 叫ustobs=(TRTPN ="2")) adjust( CHG_WEEK4 Ysh附=&DELTA. adjustobs=(TRTPN ="2'’ )) adjust( CHG_WEEK6 Yshi代=&DELTA. adjustobs=(TRTPN =”2” )); var TRTPN BASE CHG WEEK1 CHG WEEK2 CHG_WEEK4 CHG_WEEK6; run, 25 PMM実施時のARM例 Analysis Pa悶me恰ベs) Analy邸Va陶b恰(s) Analysis Reason Analysis Pu巾O田 Da句Reference (incl. Selection Criteria) Documentation Programming Statements • I PA臥MCD= 判AMDTl17” (HAMD17 Tot酒l Sc沼r·e) ' I CHG (Chan叩ge from Ba叫n I SPECIFI印IN SAP I PRIMARY OUTCOME M臥SURE I ADHAMD [PARAMCD "HAMDTl17" and AVISITN in (1,2,4,6)] = I See SAP Section 1.1. 1 次スライドに考察あり * Statistical Analvsis Plan jスライド14に記載した非BDSデ ータ作成~TFL作成までのプログラムコ ー ドを 記載する ADHAMD (Hamilton Depression ScoreのBDS形式デー タ)に基づいて,プロトコルで事前に規 定されたPMMによる感度解析を想定した場合の例示 pMI, TPAについても同様のARMが作成可能 26 367

355.

Documentation に必要な情報 臨誼器購韻韓関樫難輯輯醸覇軍 乱数の鵠ed Impute 回数 欠測バタ.,-t, (Monotone等} 品 、ー へぽ ー・ 『、 も 補完方法(Regression/ Propensity sco陪等) 制斡条件{CCMV等} 。 。 。 。 。 Oi' I:!,.の設定(時点によらず 一 定のI:!,.等) 。 。 0 ・ 解析計画書に上記の情報が含まれていれば,ARMのDocumentationは 「See SAP Section X.X.XJといった簡便な記載でも問題ないと考えられる 27 Selection Model (SM) ・(九 Ra の同時密度関数が以下のように分解できることを仮定 f(九RdO , ψ) = f(巧 IO)· f(Rd九ψ) m t 巧= (Y , Yt):応答変数,げ:観測デー タ,lt :欠測デ ー タ, R i :欠測識別変数,。:円の分布を規定するパラメ ー タ ψ:Ri の分布を規定するパラメ ー タ ・観測デ ー タの尤度 黒田(SASユ ーザー 総会2016)より 一 部改変 28 368

356.

SMの実施手順 1. 応答変数と脱落確率をモデル化する. 2. 次の最適化で、使用するパラメ ー タの初期値や,解析モデルに対応するデザイン 行列を生成する. 3. IMLプロシジャで欠測部分を数値積分(QUAD)し,リッジ安定化Newton­ Raphson法(NLPNRR)で,対数尤度関数を最適化する. 4. 最適化した対数尤度関数について,有限差分法(NLPFDD)で近似し, へ ツセ 行列を算出する. 5. 時点毎の最小二乗平均及び群間差を算出する. 詳細な手順は,Pharmaceutical Statistics Using SAS A Practical Guideを参照. 29 SMによる解析を実施する場合 30 369

357.

Shared Parameter Model (SPM) m ° f(YゎRi, bi)= J(Yi lbi)J(Yi lbi)J(Rilbi)f(b包) 観測データの密度関数 f(Y/,R包) = / f(Y/lbi)f(Rilbi)f(bi)dbi o m Jb o 九= (Y; , Y; ):応答変数,Y; :観測データ,時間:欠測データ, R ; :欠測識別変数, bi :被験者の潜在的な変量効果 ・ 応答変数モデル,及び脱落確率モデルの両方に影響する潜在変数(変量効果) を仮定するモデル ・ ある時点における脱落が,応答変数ではなく,応答変数にも関連する個々人の 潜在的な特性の影響を受けると考える. ・ 共通の変量効果が応答変数モデルと脱落確率モデルに含まれると考える場合, 欠測メカニズムがMNARの場合に対応する. TF4の資料より抜粋 31 SPMの実施手順 1. 使用する応答変数モデル,脱落確率モデルを決定する. 2. 応答変数モデルのみで解析を実施し,応答変数モデルの初期値の算出を行う 最終Visit数を応答変数,治療群を説明変数とした脱落確率モデル (Complementary log-log linkモデル,口ジットモデル等)を用いて初期値の算 出を行う 3. 観測デ ー タに対する尤度についてNLMIXEDプロシジャを実行して,パラメ ー タ を推定する. 32 370

358.

SPMによる解析を実施する場合 麟難覇醸離鐘融鍾覇 33 尤度に基づく解析手法のARM例 Analysis Parameter(s) Analy駒山川able(s) Analysis Reason Analysis Purpose D拘Referen目 (incl. Selection Criteria) Documentation Programming Statements 盛鵠魁鍾量 I PARAMCD=”HAMDTl17” (HAMD17 Total Score) I CHG (Change from Baseline) I SPECIFIED IN SAP J PRIMARY OUTCOME MEASURE I ADHAMD [PARAMCD=川MDTl17" and AVISITN in (1,2,4,6)] I See SAP Section 1.1.1 金 次スライドに考察あり Statistical Analvsis Plan |スライド29で示した手JI頂のプログラムコ ード(IMLプロシジャ等)を記載するT ADHAMD (Hamilton Depression ScoreのBOS形式デー タ)に基づいて,プロトコルで事前に規 定されたSMによる感度解析を想定した場合の例示 ↑解析結果が再現出来ることを前提に,各社の状況 ・ 制約等lこ沿った範囲内でARMを作成する(大内ら,2016) 371

359.

Documentationに必要な情報 ' 機1�出荷量凶弾事す橋事::長�r:;1]蕊| Bl 使用する務審変数奇ヂル, 藩;j 初期値の生成方法(解析モヂルの指定) 日 数値積分及び最適格の手法! ・ 。 。 解析計画書に,SASによる制約条件を仮定したSM,SPMを実施するため の上記の情報が含まれていれば,ARMのDocumentationは「See SAP Section X.X.XJといった簡便な記載で問題ないと考えられる. 35 pMI, PMM, TPAのデ ー タ提出方法の検討・考察 • SAS9.4以降では,Ml procedureのMNAR statement lこより3つの解析手法と も実装可能 * いずれの解析手法においても, ARMの記載内容(Programming Statements)はBDS以降→TFL作成まで (主にMl procedureの記載内容が変わるのみ) 上記の記載内容を前提にすれば,BDSを提出すればよい • ARMの記載内容(Documentation)は,SAPに含まれる情報はSAP参照とす ることも可能 *pMIにおけるJ2R, CIRやPMMにおけるNFMVの仮定などMl procedureで未実装部分もあり 36 372

360.

SM,SPMのデ ー タ提出方法の検討・考察 ・ • 提出するADaMは,いずれもBOSでよい. ARMの記載内容(Documentation)は,初期値の算出方法や,導関数の計算 に用いる方法等がSAP!こ記載されていれば,SAPを参照とすることも可能. 37 Agenda 官常総動機 。 CDISC,規制当局必要件(PMDA. FDA) 。 機討の対象とした欠郊のあるヂ … タに対する解析手法 各解析手法と解析手JI長 デ s Multiple Imputation (ptv1 I. PMfv1. TPA) 尤j支に基づく淳析手法(Sfvi SPM) - まとめ 38 373

361.

まとめ 製薬協DS部会TF4が作成した「欠測のある連続量経時デ ータに対する統計手 法について(ver2.0)」で取り上げられていた以下5つの解析手法について,電 子データ提出方法を検討した ・ pMI, PMM, TPA, SM, SPM ・ 電子デ ータ提出方法の検討結果は,大きくわけで2パタ ー ンに分類できた Ml (pMI, PMM, TPA) 尤度に基づく解析手法(SM, SPM) ・ どの解析手法を用いた場合でも,提示したARMを作成することによりBOSを電 子デ ータとして提出することで問題ないと考えられた 39 謝辞 本発表内容の検討にあたり,日本製薬工業協会の皆様にご協力いただきました この場を借りて,お礼申し上げます. デ ータサイエンス部会2018年度TF1 ・ 浅見由美子様(第 一 三共株式会社) . 淡路直人様(中外製薬株式会社) ・ 月田あづさ様(サノフィ株式会社) . 三沢秀敏様(ファイザ一株式会社) デ ータサイエンス部会 2018年度TF4 ・ 大浦智紀様(日本イ ー ライリリ ー株式会社) . 横山雄 一 様(持田製薬株式会社) ・ 渡遺大丞様(サノフィ株式会社) 40 374

362.

参考文献 1. Alex Dmitrier水o, Christy Chuang-Stein and Ralph D ’Agostino. (2007) Pharmaceut回l Statistics Using SAS A Practical Guide 2. SAS/STAT14.1® User's Guide (2015) 3. 土居正明,高橋文博(2015)計量生物セミナ ー 4. 高橋文博. (2015)【日本製薬工業協会シンポジウム】臨床試験の欠測デー舎の取り扱いに関する最近の展開と今後 の課題について一統計手法・ eslimand と架空の事例に対する涜れの整理 一 (3)PA甘ERN-MIXTURE MODELの 解説 5. ADaM Implementation Guide ver1.1 (2016/2パ2) 6. 日本製薬工業協会 医薬品評価委員会デ-11 サイエンス部会.欠測のある連続量経時デ- 11 に対する統計手法 についていer.2)(2016/4) 7. 北川忠行. (2017/6/26)ナニワデ- 11 サイエンス研究会欠測デ-51の感度分析について 8. 大内喜海,吉崎正浩 . 浅見由美子(2016)SAS ユーザー総会Multiple Imputationを実施した際の電子デー ヲ提出 方法の検討 9. 黒田晋吾. (2016)SASユ ーザー 総会【企画セッション】欠測のあるデー 舎の解析のためのSASプログラム紹介~ デ ー 告発生・ DIAマクロとプロシジャの進展~(3)MNARの仮定の下でのSelection Modelに基づく解析 10. 藤原正和. (2016)SASユ ーザー 総会【企画セッション】欠測のあるデー 舎の解析のためのSASプログラム紹介~ デ ー タ発生・ DIAマクロとプロシジャの進展~(5)Pattern Mixture Model と Multiple lmputalionl こ基づく解析 2 (Reference-based imputation) 41 参考文献 11. 渡過大丞. (2016)SASユ ザ 総会【企画セッシヨン】欠測のあるデ - 51の解析のためのSASプログラム紹介~ デ ータ発生・ DIAマクロとプロシジャの進展~(6)MIプロシジャで実行可能なPattern Mixture Model と Multiple lmpL』talion !二基づく解析 12. 高橋文博. (2017/2/23)【日本製薬工業協会シンポジウム】臨床試験のeslimandl こ対する最近の議論と.欠;fflの J あ るデータに対する基本的解析手法について 5 感度分析 1 PMM (NFMV, Delta adjustment) 13. 藤原正和. (2017/2/23)【日本製薬工業協会シンポジウム】臨床試験のestimandl こ対する最近の議論と,欠測のあ るデ -51 に対する基本的解析手法について 6 感度分析 2 (Reference-based imputation) 14. 黒田晋吾,駒番弘 . 原綾子,吉田征太郎. (2017/3/9)第4 回デーヲサイエンスラウンドテ ー ブル 15. Chris Smith and Sco社Kosten. (2017)Pharma SUG - Paper SP01 Multiple Imputation: A Statistical Programming Story 16. STUDY DATA TECHNICAL CONFORMANCE GUIDE ver4.2.1 (2019) 17. 申請電子デ ーヲに関する FAQ (平成31年4月10日公開) ー ー 42 375

363.

Appendix ADHAMD :今回取り扱った ADaM BOSデ タ Missingdata.org.uk で公開されている抗うつ薬の臨床試験のサンプルデー タ 「M8SW2011_exampleJをBOS形式に変換 解析パラメ ー タはHAMDTl17 (HAMD17 TOTAL )で,解析VISITとしてBaseline及ひ·week 1, 2. 4, 6 をもっ ー 鶴欝麹騒盤露盤欝翻騒盤藍警鐘露盤整費量璽盤翻髄翻盤欝璽翻櫨闘騒盤機霊撃墜鏑鰹翻 。 HAMD17TOTAL HAMDTl17 32 32 HAMD17TOTAL HAMD丁目7 21 32 14 W田k2 、 2 HAMD17 TOTAL HAMDTl17 20 32 -12 28 Week4 4 HAMD17TOTAL HAMDTl17 19 32 -13 -15 MBSW2011 MBSW2011-1503 1503 006 F DRUG 2 -1 B踊eline MBSW2011 MBSW2011-1503 1503 006 F DRUG 2 7 MBSW2011 MBSW2011-1503 1503 006 F DRUG 2 MBSW20竹MBSW2011-1503 1503 日06 F DRUG 2 W田川 O -11 MBSW2011 MBSW2011-1503 1503 006 F DRUG 2 42 W,田k6 6 HAMD17 TOTAL HAMDTl17 17 32 MBSW20刊MBSW2011-1513 1513 006 M DRUG 2 ・1 Ba担line O HAMD17 TOTAL HAMDTl17 19 19 MBSW2011 MBSW2011-1513 1513 006 M DRUG 2 7 W田川 1 HAMD17TOTAL HAMDTl17 24 19 MBSW2011 MBSW2011-1802 1802 009 F PLACEBO 1 -1 Baseline O HAMD17 TOTAL HAMDTl17 10 10 MBSW2011 MBSW2011-旬位1802 009 F PLACEBO 1 7 W曲川 1 HAMD17TOTAL HAMDTl17 17 10 7 。 。 MBSW20刊MBSW2011・1802 1802 009 F PLACEBO 1 帽W田k2 2 HAMD17TOTAL HAMDTl17 17 10 7 MBSW2日廿MBSW2011-1802 1802 日09 F PLACEBO 1 31 W曲k4 4 HAMD17TOTAL HAMDTl17 14 10 4 MBSW2011 MBSW2011-1802 1802 009 F PLACEBO 1 43 W曲k6 8 HAMD17TOTAL HAMDTl17 16 10 6 376 y 5 γ 43

365.

TUTORIAL ’ SASユ ー ザ ー 総会2019における「Let sデ ー タ分析コンテスト j の 。 規定課題の模範解答SASフ ログラムを解説 。周防節雄 兵庫県立大学 宮内亨 (独)統計セ ンタ ー 高橋行雄 BioStat研究所(株) Exemplary SAS Proqrams to Solve the Compulsory Exercises for the 7th Micro Data Competition in Japan SAS Users Forum 2019 Professor Emeritus of the University of Hyogo Setsuo Suoh Toru Miyauchi National Statistics Center Yukio Takahashi BioStat Research Co.,Ltd 要旨 ’ SASユ ー ザ ー 総会2019におけるrLet sデ ー タ分析第7回ミクロデ ー タ分析コ ンテストjの規定課題につい て、出題者の立場から、模範解答の SASプログラムを解説する。 キ ー ワ ー ド 全国消費実態調査、匿名デ ー 夕、新擬似ミクロデ ー 夕、集計用乗率、proc tabulate 1. はじめに 独立行政法人統計センタ ーは、平成16年の全国消費実態調査のミクロデ ー タから教育目的で教育用擬似ミ クロデ ー タを作成し、公的ミクロデ ー タの利用 実習用に提供 してきた。SASユ ー ザ ー 総会で、は、2013年から 2016 年まで、この擬似ミクロデ ー タを使用 してデ、 ー タ コ ンペを実施してきたが、2016 年度末でこのデ ー タの提供が中 。 止になった。そこで、2016年に急逮「新擬似ミクロデ ー タ」をSASユ ー ザ ー会世話人(本稿著者グルー フ )が集ま 、 ー り、2004年全国消費実態調査の匿名デ ー タを使って、2017年のデ た。更に、2018年に 1989、 1994、 1999、2004年の匿名デ ー タ コ ンペ用の新擬似ミクロデ ー タ lを作成し タから 4回次分の最新擬似ミクロデ ー タを開発した。 本年の コ ンべでは、この最新擬似ミクロデ ー タを使った。 コ ンペは規定課題 (資料11) と自由課題から成り、規 定課題は参加者全員に課せられる。本稿では、SAS ユ ー ザ ー 総会で、のチュ ー トリアルとして、二つの規定問題 のSASプログラムを解説する。規定問題は本稿の最後に掲載した。 2. 目次 初めに、今年のデー タ コ ンべから利用が 開始された全国消費実態調査の4回次分の最新擬似ミクロデ ー タの 構造を示す。(資料1 ,2, 5) 次に、規定問題1と2のために周防が作成したSASプログラムを解説する。(資料3,4,6~ 9) 最後に規定問題2の宮内作成の大変興味深い SASプログラムの 解説をする(資料 10)。このプログラムは極め て巧妙に 作られており 、スマ ー トであるが、初心者にお勧め するにはためらいが残る。そう し、う方法もあったのか とし、うのが、周防の正直な感想である。一方、周防はデ ー タステップを使って処理をしており、対照的である。 ’ 1この新擬似ミクロデ ー タの作成の経緯と開発過程については、高橋他(2017)「Let sデ ー タ分析コンテストに用いる 新擬似ミクロデ ー タの概要、『SASユ ー ザ ー 総会2017論文集』pp33-44Jを参照されたし、。 379

366.

資料1 最新擬似ミクロデー タの変数コ ー ド表(その1 ) 項目名 変数名j Year j調査年 N。 i レコ ー ド一 連番号 X01 i 大都市圏の別 X02 1世帯区分 (住居と生計を 共にしている 世帯員数) (就業している 世帯員数) X05 ;住居の構造 X06 j住居の建て方 j 住居の所有関係 xos i 世帯主の性別 X07 同 I '""''°"'I! 企業酎 従業者規模 ( 表 2 変数コ ー ド嚢 符号 符号肉容 全国消費実態調査の調査年(西暦) ・...凶 2004 整数 1 ~ 271,169の連番 3大都市圏 その他 勤労者世帯 2 勤労者以外の世帯 3 無職世帯 1人 2 2人 3 3人 4 4人 5 5人以上 0人 1人 2 2人 3 3人以上 木造(防火木造含む) 2 木造(防火木造含む)以外 一戸 建 2 一戸建以外 |持ち家 2 持ち家以外 。 。 備考 一一一一 トップコ ーディング トップコ ーディング 再コ ーディング 再コ ーディング 再コ ーディング 男 2 5 6 7 女 24議以下 25 ~ 29歳 30 ~ 34歳 15 16 70 ~ 74歳 75歳以上 民営・自営1 ~ 4人#1 ” 5 ~ 29人 II 30 ~ 499人 II 500人以上 ボトムコ ーディング 中略 トップコ ーディング 再コ ーディング 2 3 4 5 宮公 6 無職 #1 欠測値 1 再コ ーディング 単身世帯 2 夫婦のみ 3一 2世代 4 二世代(世帯主と子) 5 二世代(世帯主または夫婦とひとり親) 6 3世代 7 |その他 繁一一一一一一一一一一一豆ヨ三: 之,芝一一一一一一 2 有 壱ヨ:てて'. ;と芝ー------一ーー----- 無 2 有 0人 事ヲコ::ま五-� ・・・ーー..・・・...... 1人 --ー・ー...........・・・・・・・・・・・・・・ー・・・.. 2 2人以上 ' 一 X12 X13 Xl 4 i 未就学児の有無 j 学校に通う 世帯員の有無 65歳以上の ! 世帯員数 T.:1 T.:f 。 1:. weight j集計用乗率 実数 #1: 1989年については、世帯区分が 「 2勤労者以外の世帯」について従業者規模が 調査されていないため欠領値となっている。また、企業区分について 「 1 ~ 29人Jと して調査されているため、 「 2民営・自営5 ~ 29』は『1民営・自営1 ~ 4」に含む。 380

367.

資料1最新擬似ミクロデ ー タの変数コ ー ド表(その2) 産業符号 .!.. 1 農業 #1 V47 .?.. } ..1.. 5 6 1 林業 1 漁業 1 鉱業 9 10 11 12 15 16 17 18 19 1建設業 1製造業 電気 ・ ガス ・ 熱供給・水道業 情報通信業# 2 1運輸業 1卸売・小売業 i金融・保険業 j不動産業 飲食店,宿泊業# 3 医療,福祉# 3 教育,学習支援業# 3 j複合サ ー ビス事業#3 jサ ー ビス業(他に分類されないもの) #3 j公務(他に分類されないもの) その他(非就業を含む) #2 i 秘匿処理 20! 不詳 ・ #1 1989、94、99年の農業には林業および漁業が含まれる。 #2: 1989、94、99年の情報通信業は,その他(非就業)に含まれる。 #3: 1989、94、99年の飲食店,宿泊業などは、サ ー ビス業(他に分類されないもの)に含まれる。 V48 職業符号 .rn. 常用労務作業者 臨時及び日々雇労務作業者 民間職員 官公職員1 #1 官公職員2 #1 商人及び職人 国人経営者 韮 従業者 豊 車穫 重量者 遺§!..申 !ム 事 責 _g 無職 2 3 4 5 6 7 8 9 ー・・・・・・・・・・・・・・・・・・曹.... .1.1. 安の飽 13 不詳 #1 : 1989、例年の官公職員1は、官公職員2に含まれる。 秘匿処理 ・ 資料2最新擬似ミクロデ ー タ構造 Obs 1 2 3 4 5 271169 Year 1989 1989 1989 1989 1989 No 1 2 3 4 5 2004 271169 X01 X02 ~ X14 V47 V48 10 1 10 1 10 1 1 6 1 6 。 。 。 。 。 1 。 。 。 。 。 3 1 weight Y001 1.67619 288 1.67619 280 1.67619 278 26.26047 304 26.26047 322 ’‘’ Y002 329129 329018 326600 380733 388665 Y203 中略 19 12 210.10435 1196 1426621 【注釈】以下の SASプログラムでは「副i_zensho4years 」と言う名前のパ 381 ー マネントデ ー 。 。 。 。 。 106130 タセット

368.
[beta]
資料3 規定課題 1 :SAS プログラム①
/キ02一規定課題1:周防流②. sas *I
*規定課題プログラム例:j萄防流,
Libname giji4 "G:¥全消¥擬似ミクロ作成プロジェクト半
*新情報¥最新情報¥2019年01年28日高橋4田次分新擬似ミクロデータ平
”
P4_匿名_GIJl_4回分一提供c_2019_03_05 .
DATA Kadail:
keep YEAR X09 Weight Y040 Y041 Y083 Y103 Y137 headerl /*全世帯用*/
:
W040 W041 W083 W103 W137 header2 目l*O円→欠損値に変換本/
set giji4. giji_zensho4years:
array Y (5) Y040 Y041 Y083 Y103 Y137:
array W (5) W040 W041 W083 W103 W137;
do i=l to 5: if Y(i}=O then W(i}=.:
*支出のない世得用.
e I se W(i I =Y(i I ; end; *支出のある世帯用,
header1=1: header2=2: *表頭表示用変数;
if YEAR=1989 OR YEAR=2004: *この2年だけに限定,
label

”

”

YEAR = 調査年
”
”
X09
= 世帯主年齢
”
”
Weight= ウエイト

町ぽ 昨昨
LU

内

下歳 上
以 倒以
歳~ 歳
8斗 D
「F
D
dη
dO
戸

w ffffffffKM四 四潮 干

世

担

帯

alv

な
で
ロ
ゼ
が
ヨ
ヨ
Eh

”

)
E
1
e

日

ι

噌l 噌1 唱』 唱1

・;;

圃圃圃圃圃圃圃圃圃圃圃圃IISJr,駈苦言苦靖国・t.-'F.i
出力すZヲ百ヌ表を主瓦�
一一一一一一一一寸
proc t ab ulateを使うのが 一 番簡単だと判る。
!
②表側の「世帯主の年齢J情報が10歳刻みで表示する必要
があるが、元の変数は5歳刻みなので、工夫が必要。
proc formatで、multilabelを指定するのが 一 番簡単。
③表頭が「全ての世帯」は普通にやればできる。
④表頭が「各費目に支出のあるの世帯のみ」の部分は
工夫が必要。数値がOの時は欠損値(.)に変換して
おくのが 一 番楽な方法。
⑤表頭の「全ての世帯」と「各費自に支出のあるの世帯のみ」
を別々のクロス表に出力せずに、
同時に 一 つのクロス表に出力するには、工夫が必要。
元々ある変数Y040~Y137の値を、新変数W040~W137'こも
コピ ー をしながら、値がOなら欠損値に置き換えておく。
j
こうすることで、「各費目に支出のあるの世帯Jだけを
i
一一封書tEJ註差点百態 主主宅一一一一一一一一一一一 一一”一一一一一j也且」

ω

’

-t

run

内4

”

= 消費支出
”
”
= 食料
”
”
= 住居
”
”
= 被服及び履物
”
”
= 教育

且

”

W040
W041
W083
W103
W137

Dr

H

= 消費支出
”
”
= ” 食料 ”
= ” 住居
”
= 被服及
び履物
”
”
= 教育

問問
印 悶印 刷 歳 歳 議 歳 歳 歳 歳 歳 歳 議 歳 歳 = - 一一
一
世
該
UH
fM M H H
mmumω
初 判 M判印 印mmmm 3
6 -F全 F一
当
r= = = = - H H M M M M M M W M W H 『,,噌t
1・ 41w n4M
a
9
R
R
’
e9 4 9 4
0 =====-二
一= = = = = - - 一D = D =
n vA
T
l
vn
on
u
un
gu
u n u n
A
n
ngngn習のU
nu
’Eの,島
内dau『
rDeoaaT
Mme414141 ・
,erDFO7’nonuU
41
aU 41・
4141Fa
・e41目’e の4
nkHU
HU
HU HU
nu
t-
「ra
a
a
a
uv
uv
HV Hv
nu
nu
nk

”

Y040
Y041
Y083
Y103
Y137

’

titlel Justify=Center 諜題1 全世帯の支出平均額及び、当該支出費目がゼ口でない世帯だけのそれぞれの平均額 \
”
title2 Justify=Right " C単位:円)
PROC TABULATE data=伽dai 1 farmat=comma12.
Class Year X09 headerl header2 / MLF : *制ulti Label Format:
Var
Y040-Y137 W040-W137;
I Weight Weight . I
…
山
Table Year= * (al I X09= ),
山’
…
header!= *(Y040-Y137)有nean="" header2= ホ(W083ー制137)相ean=""
”
”
/ box= 調査年世帯主の年齢 ;
Format Year YEAR」F
X09 X09 F.
headerl HDRl_F.
header2 HDR2 F.
’
”
Keylabel al I = 全世代 \
規定課題1 :SASプログラム①からの結果View画面は資料8
run

382

369.

資料4規定課題2:作業手順 資料5最新擬似ミクロ変数名リスト 4年分のデータセット 全世帯 2 3 4 5 6 7 自 9 10 12 13 14 15 16 17 No XOl X02 X03 X04 X05 X06 X07 xos X10 X11 X12 X13 X14 V47 レコード一連番号 大都市圏の別 世帯区分 世帯人員 就業人員 住居の構造 住居の建て方 住居の所有関係 世帯主の性別 Ii量務費�i(/')鵡 企業区分・従業者規模 家族分類 未就学児の有無 学校に通う世帯員の有無 65歳以上の世帯員数 産業符号 職業符号 3 4 38 39 40 41 42 43 44 45 46 83 88 93 103 121 126 137 141 151 203 383 Y038 Y039 Y040 Y041 食料 IO Y042 Y043 Y044 パン Y045 めん類 Y04!._ 皇 虫穀類 中略 1· Y083 IO 中略 I Y088 光熱・水道 ]o 中略 I Y093 I 家具・家事用品 IO 中略 I Y103 被淑及ぴ履物 ]o 中略 I Y121 I 保健医療 IO 中略 I Y126 交通 ・ 通信 ]o 中略 I Y137 教育 ]o 中略 I Y141 I 教養娯楽 IO 中略 I Y151 その他の消費支出 ]o 中略 I Y203高函 注 O 印は10大費目 l! Ji亘 I I l I I

370.
[beta]
資料6規定課題2:SASプログラム②
/* 02一規定課題2:周防流ver2.sas */ options nocenter; *規定課題プログラム例:周防;
options macrogen mtrac巴,*マクロ展開がLOG画面に表示される;
%let drive =G;
Libname giji4 ” &drive:¥全消¥擬似ミクロ作成プ口ジェク卜¥
ー タ¥
*新情報¥最新情報¥20190128日高橋4回次分新擬似ミクロデ
P4一匿名_GIJl_4回分一提供c_2019 03 05” ;
*消費支出:Y040 10大費目の合計;
* 10大費目
1 Y041食料
2 Y083住居
3 Y088光熱・水道
4 Y093家具・家事用品
5 Y103被服及び履物
6 Y121保健医療
7 Y126交通・通信
8 Y137教育
9 Y141教養娯楽
10 Y151 その他の消費支出 ;
*世帯形態
X12 未就学児の有 無(1=無,2=有)
X13 学校に通う世帯員の有 無(1=無,2=有)
X14 65歳以上の世帯員数(0= 0人, 1 = 1人,2 = 2人以上);
data kadai2; *1989年と2004年の全世帯 ;
keep year weight Y040 Y041 Y083 Y088 Y093 Y103 Y121 Y126 Y137 Y141 Y151
X12 X13 X14;
set giji4.giji_zensho4years;
=
if �ear 1989 OR year= 2004;
run;
本
女未就学児のいる世帯(d12)
学校に通う世帯員がいる世帯(d13)
65歳以上の世帯員がいる世帯(d14)
のそれぞれのデ ー タセットを作成する; *注:重複世帯 有り;
data d12 d13 d14;
set kadai2;
if X12=2 then output dl2;
if X13=2 then output d13;
if X14 > = 1 then output dl4;
run·
%macro create(inputDS,dl989,d2004,kanji);
data &d1989 &d2004;
keep Year HHtype Sweight S040 S041 S083 S088 S093 S103 S121 S126 S137 S141 S151;
length HHtype $ 26;
set &inputDS; by year;
array Y l12J weight Y040 Y041 Y083 Y088 Y093 Y103 Y121 Y126 Y137 Yl41 Y151;
array S l12J Sweight S040 S041 S083 S088 S093 S103 S121 S126 S137 S141 S151;
if first.year then do i=l to 12; Sli} = O; end;
Sweight+weight; *weightの累言十を求める;
do i = 2 to 12; Stu+Y tu ホ weight; end;本 集計乗率を考慮し、10大費目それぞれの累計を求める;
if last.year then do; HHtype= ” &kanji ” ;
if year = 1989 then output &d1989;
if year = 2004 then output &d2004; end;
run;
proc print data= &dl989; title ” data = &d1989”” ;run;
proc print data = &d2004; title "data=&d2004 ;run;
%mend;
%create(kadai2,ALL1989, ALL2004,全世帯)
%create(d12, d12_1989,d12_2004,未就学児のいる世帯)
%create(d13, d13_1989,d13_2004,学校に通う世帯員がいる世帯)
%create(dl4, d14_1989,d14_2004,65歳以上の世帯員がいる世帯)
data final;
set ALL1989 dl2 1989 d13_1989 d14_1989
ALL2004 d12_2004 d13_2004 d14_2004;
run;
proc print data = final;
var Year HHtype Sweight S040 S041 S083 S088 S093 S103 S121 S126 S137 S141 Sl51;
title ” data=final” ;run;

384

371.

data final2; set final; by Year; retain allW; array S l12J Sweight S040 S041 S083 S088 S093 S103 S121 S126 S137 S141 S151; if first.Year then allW = Sweight; else Year = .; Sweight =Sweight/allW*lOO; do i = 3 to 12; sliJ = round(sliJ/S040*100,.1); end; label H S041=" 食料 H S083=”” 住居 ” S088=" 光熱・水道 ” ・ S093=” 家具 家事用品 H S103= ” 被服及び履物 ” S121=” 保健医療 H S126= 交通・通信 ” S137=" 教育 ” S141=” 教養娯楽 ” ; S151= ” その他の消費支出 " ” label year= 調査年 HHtype=“世帯形態 ” Sweight=”世帯の構成比(%) ” ; run; proc print data = final2 label noobs; var Year HHtype Sweight S041 S083 S088 S093 S103 S121 S126 S137 S141 S151; title ” 課題2世帯形態別消費支出総額に対する10大費目の構成比 (%表示、小数点以下1桁) ” ; format Sweight F5.1; run%include &drive:¥女X60s(2014-8-9)¥SAS_Forum¥2019¥データコンペ¥規定課題¥模範解答¥ 周防解筈¥規定課題2平均標準偏差macro化.sas; data kadai2cross; merge final2 MeanSTD; ” ” label MEAN=" 平均 H STD= 標準偏差 ; run; proc print data = kadai2cross label noobs; var Year HHtype Sweight MEAN STD S041 S083 S088 S093 S103 S121 S126 S137 S141 S151; title ” 課題2世帯形態別消費支出総額に対する10大費目の構成比(%表示、小数点以下1桁) ” ; format Sweight F5.1; format S041 F5.1; format MEAN FlO.O; format STD FlO.l; run; / * 規定課題2平均標準偏差macro化.sas */ %macro meanSTD(YR,dsName); data Y&YR&dsName; set &dsName; if year= &YR; run; proc means data=Y&YR&dsName MEAN STDDEV VARDEF=WGT; VAR Y040〆消費支出;WEIGHT weight; output out= mean&YR; title ”data =Y&YR&dsName"; run; proc print data=mean&YR; title "data= mean&YR”;run; data meanSTD&YR; keep _STAT Y040; set mean&YR; if STAT =”MEAN” OR _STAT一="STD ・ 1 run· proc print data= meanSTD&YR; title ”data= rneanSTD&YR”;run; proc transpose data= meanSTD&YR out = MS&YR; var Y040; run; proc print data= MS&YR; title ”data= MS&YR”;run; data MS&YR&dsName; set; rename COLl= MEAN COL2= STD; drop _NAME_; run; proc print data = MS&YR&dsName; title "data = MS&YR&dsName: after renamed” ;run; %mend meanSTD; %meanSTD(1989,KADA12) ー タセットを縦にくっつける; %meanSTD(l989,d12) キ 8個のデ %meanSTD(1989,d13) data MeanSTD; %meanSTD(1989,d14) set MS1989Kadai2 MS1989dl2 MS1989dl3 MS1989d14 %meanSTD(2004,KADAl2) MS2004Kadai2 MS2004d12 MS2004d 13 MS2004d14; %meanSTD(2004,d12) run; %meanSTD(2004,d13) %meanSTD(2004,d14) proc print data = MeanSTD; tit le "data = MeanSTD ” ;run; 385

372.
[beta]
資料7規定課題2:途中経過
data=final

 ……

山町e
百合

i

…}( s柑臼山 i一一一

一回
  19


2 ! 1阜鈎?来就学児のいる世帯
,
···
 a II ,珂9 i学校にii.う世帯事負がいる世帯I
'
·
I
,
4 i 19自9 i 65歳以上の世帯員力、いる世帯事

一-一一--苧,

J

ト一 ·
:..-..................….........,.…・・•
s ! 2004 i 金:世帯
一
一一
一-
I一一一一

一一ミ1040 i : ~守:由411:-♂ (一由回i

E
阜0101945546 ! 145喧汚27045 i
:397960 3叫I 12774帽17512 i 35796243983 /
I
i ··
;
必魁且� 66:365970861
18301411886 j

u
i

30376棚51.7 J
49崎4083630.3 !
i
2自由s411124.s

s

。聞

2自05441591 .9

,
6713849:313.4 (
'
3自70347580.4

l
I ・.....・--…!
 ・-………・…・......・......
 一一一一一一一
一一一一一一一
一一

I

Ja1自白7306.95 [ 9.10394SE12 ! 2.124414店、2:回7487298582 .a 157215剖何回白.0 i
4259101.32 : 1.2251066E12 Z79526田5739 \ 9店主8972岨0.2 \ 7850回63076.7

•••••&&jUIKKll"• .il&Cll•aa..-�&&a&&&AA

.

eJ:2004i来就学児のいる世帯

B 

7!2004<学械に通う世帯角がいる世帯I

BI

|デーセット:R nal





H

9467646.93 j S.4094602E12 ! 785日11692154 ! 1417柑399934.9 208976830463 .4
2004; 6晴以ょの世帯i員帆喝世帯;119臨73.00 ! 3.2494相E12;加0閣制問;叩52815713.S [ 2308即倒78.8

!

 一一←



s叩 I -.-·--.二三五山]I =·:·--·-·�一仁三:=:i,a-ij:二= =S;4,:r  :町長
23002897892 S
. i日2101921自72
6792333456.5
24823271221 .3 [ 10自14019139.7
9112356:33自.7
186494目5517.3 I
!
ι
35柑134898.8 i
175200間関B ;帽45048817.2 j
2329912922
崎eo91se1o.3 I 1ぬ96071621
1959167361.1
S093 I

44016欄3

印;

·-··

2552688546.9

ν

:3078嗣813・s

開問44制21

j
2099952081.7 !

459416550。自I

 一oj

1市勾04SOSS.5

I

6189610:317.9 I

100161:34057.自:
2303141自:35.9 !

唱。;

戸叩24101? .. 2971叩17E
1
602:3262464.5 ! 17547915522 !



.................................‘-----------------・・・・・・・・・・・・・・・・・弓・・・・・・・・・・・・・・・・・φ.................................

21910000e01s.1 418223237942.s I 36:3178002336.9 i 1105243242白58 j 41563宮崎573白0: 94:3057165646.o I 2.10日由963E12
司70一

357示7.5

{自98

i

15
1
1 :: 6 i 1
11079740

山ム

5一一E

027976.3

219悶U呂占1三勾1734�9白1
 一一 一…一一 _]由
.一一…一一…一
一一←一一 一一 一一

s2011悶 一21f1白2白叩644色iia,:1 r白4017自7149.7
1

112



2

課題2世帯形態jjlJ消質支出総額に対する10大費自の締成比(%表示、小数,制品下1桁)



:長正!世部忽

|デーセット: fi 

二二;し向唾型�l骨堂正唾耐空空画監空垣両保唾り正青空整空当恒曹司ミ
2
2

i 円;宋蹴学児めいる世帯
余白

,oo o

!

1�1

竺…?何?!

::
3.9 i
5.6 I
9. i 4.
7'
_ ー…一一了
一一一→~ー……一 一 一一 田, ,四.
一一一一1 ! 6.1 ー…一一一ト
一
一 1. ! 35 +·!
' . . .… L一一… 9.ー…トーート
5.3'
3.4 i
7.3 i
2.4 i
9.3;
8.
9./
43.3 i坦.o; 3.9 i
7………j… ……………··
·
·
·
·
r
··
·
·
·
…ー…
ト…十
一 十………
i
… ー…!
…ー……ー…ト
… …'
………
十
1…
い
J6s�J此の世間百午、手間ι
…一 ···26· ··.: 27<β; J . . 4:i […門
戸;一… 6 9[ i2: ······ 9:li 3主山 91[
…J
i
十
i ……
:学術こ通う世帯員がいる世帯1
山

釦04'全世帯

ド 就学児のいる世帯
一一
一一一一一
白ド学椀=通う世帯員がいる世帯
一i田創:!.上の世帯員州、る世帯
来

;

山

i

7

100.0

t1l

� � /ト

23.3

6 6.

1�J
7

7

6.3 '

3β 

4.6'

7

�:/-,. . . . …. . .

ι

γ

7

aβ

13.1

4 6. i

10 .4 '

I





155.51297705

4

6
7

8

23.3

.264
24 1.

0523.0963233

I

STD
164454.3455224

129791 .30931355

320998.86505698

166132.89624249

285503.75758833

184040.1229163

269946.85086492

287644.39166786

360116.95863243
271029.00049296

183791.38573854

l

次頁:資料の
枠に対応

144652.4541872

205009.0186969

|規定課額2:SAS プログラム②からの結果 View画面Iま資料9  次貰)

386



18.6'

212

MEAN

3

47
20.7

373.

資料8規定課題1プログラム①からの結果View画面 課題1 全世帯の支出平均額及び、 当該支出費目がゼ口でむい世帯三けのそれぞれの平均額 (単位:円) 23,3 95 30,103 25,427 46,620 60禽台 241,579 64,673 13,756 16,634 2,531 21,219 17,042 25,33 9 70盆以上 193,841 53,906 13,581 13,0CO 2,C:04 21,3ce 13,74日 24,282 18,046 16,C67 22,550 29,242 14,910 22,119 13,47日 44,861 14,393 19,342 13,354 22,185 15,021 l 44,169 15,640 79,886 12,506 47,367 9,863 33,552 13,728 21,488 14,778 48,589 10,4句 31,C65 資料9規定課題2プログラム②からの結果View画面 課題2世帯形態別消費支出総額{二対する10大費目の構成比(%表示、小数点占l下1桁) 387

374.
[beta]


資料10規定課題2SASプロク ラム(宮内亨作成)について解説
世帯数の構成比の算出
全世帯を分母にする必要があるがデ ー タセット KADAT2_A には 1989 年と 2004 年の全世帯134,067
OBS)だけでなく世帯類型 (変数 Setai) ごとに未就学児がいる」、  学校に通う世帯員がしも」、  65 歳以上の
世帯員がしも世帯を重複して output(OBS 数は 4 倍の 536,268)しているのでProc TabulateTable ステ
ー
トメントでALLJ を分母にすることができないこの解決法を以下に示す
(1) 変数
構成比の分母をカウントする変数 (Setai CNT ) と構成比の分子をカウントする変数 (Setai_PCT ) の二つを用
意する
(2) Proc TabulateTable ステ ー トメントの記述
世帯数の構成比を求めるための記述は以下の通 り
Setai PCTPOTSUMSetai CNT>
別途weight 文が効いているのでこの記述によりSetai_CNT の合計値を分母にしてSetai_PCT の合計
値の割合を求めることができる
なお表側に変数 YEARSetai を指定しているのでYEAR × Setai ごとの数字となる
(3) DATA ステップの記述
世帯類型ごとに Setai CNTSetai_PCT の値をコントロ ー ルする
Setai_CNT は世帯数の分母になるためすべての OBS で値が lJ になるので DATA ステップの冒頭で
Setai_CNT= lを設定する
全 世 帯 は  Setai_CNT= l  Setai_PCT= l とし て す べ て の OBS を出力する こ と に よ り  そ の 構 成 比
Setai_PCT/Setai CNT100%になる
/*全世帯*/
Setai = 1; Setai PCT = 1; output;
未就学児がしも世帯についてはXl2=2 の場合 Setai_PCT= l それ以外の場合 Setai_PCT = 0 としてす
べての OBS を output する
これによりSetai_PCT= 1 の合計は未就学児がしも世帯数となり構成比の分子になる

/*未就学児がしも世帯*/

Setai = 2;
if Xl2 = 2 then SetaしPCT = 1; else Setai_PCT = 0;
output;
学校に通う世帯員がいる世帯65 歳以上の世帯員がしる世帯も同様に処理する

これにより世帯類型ごとに世帯の構成比を算出することができる

しかし全世帯と3つ世帯類型ごとにすべての OBS をデ ー タセット KADAI2 A に output しているのでこのま
ま では1世帯当たり消費支出の平均及び標準偏差消費支出に対する 10 大費目の構成比例)はすべての世
帯類型で閉じ値となってしまう これを適切に処理するために2つ目の DATA ステップでSetai_PCT=O の場
合消費支出(Y040 )と 10 大費目(Y041Y151) の値を欠損値に置き換え平均標準偏差 消費支出金額
の合計の計算 に影響を与えないよう に工夫してい る

J ,ooor·t:,;;rで�I雲:r,T��ザ均的伊 きさ平 空常時{切でi
.��i霊-一一
一一:fl
話器
課題2世帯の種類孤消費支出に占める10大賞目思肢出金額の割合

一

i世間師郎防T,_阜両加担町

i

. ·-··

I

I

i福一
1暗議以上母世替員がいる担帯i
耳障'全世g
i
!泰訴宇児がいる世智
手
片 掬Z通う世帯員がいる世帯 j
川出量以上申世唱由民がいる糧事|

田.7'

,曲

一(

39;

s.,t

昂冊目

坦54

3117

37.6

2710388

一一

白眼脚 一
一問自問する元大間

;

ぬ

;�� ,

29.7

F....婚観|資料9と閉じ結果|
|
|

ゑ緩欝酔

34

:一

.,

as,

9.7

4.7

9.7,

つ

20.1

375.
[beta]
/ホ規定課題2:宮内亨作成(周防実行用) . sas *I
首let drive=G;
Libname SAS_LIB "&drive平全消半擬似ミクロ作成プロジェクト半
*新情報平最新情報平2019年01年28日高橋4回次分新擬似ミクロデ ー タ平
”
P4_匿名_GIJl_4四分一提供c_2019_03_05 ;
DAA
T KADA!2_A
Set SAS_L1B.giji_zensho4years • where Year=1989 or Year=2004 ;
Setai_CNT= 1;キ世帯事数カウント(構成比の分母)
/*①全世帯*I Setai = 1 : *世帯類型;
Setai_PCT= 1 . output:
/*②未就学児がいる世帯*I Setai = 2 :
if X12 = 2 then Setai_PCT= 1 :本世帯数(構成比の分子)
else Setai_PCT= 0:
output
/*③学校に通う世帯員がいる世待*I Setai = 3 :
Setai_PCT= 1 : *世帯数(構成比の分子)
if X13 = 2 then
else
Setai_PCT= 0
output
/*④65歳以上の世帯員がいる世帯*I e
S tai = 4 :
if X14 = 1 OR X14 = 2 then
Setai PCT= 1 ; *世帯数(犠成比の分子)
else
Setai PCT= 0
output
Keep
Label

Year Setai Weight Setai_CNT Setai_pCT
Y040 Y041 Y083 YOBSY093 Y103 Y121 Y126 Y137 Y141 Y151
”

”

Year = 認査年
”
”
e
S tai = 家族形態
”
”
Weight = ウエイト
”
”
Setai_CNT= 世帯数カウント(分母)
”
”
=
Setai_PCT
世帯数構成比(分子)
”
"
Y040 = 消費支出
”
”
Y041 = 食料 ”
”
Y083 = 住居
”
”
YOBS= 光熱・水道
”
”
=
Y093
家具・家事用品
”
”
=
Y103
被服及び履物
”
”
Y121 = 保健医療
”
”
Y126 = 交通・通信
”
”
Y137 = 教育
”
”
Y141 = 教養娯楽
”
”
Y151 = その他の消費支出

run
S ついて支出金額を欠領値とする
*世帯類型の分子になる*非該当の女OB に
data Kadai2_B (drop=i)
set Kadai2_A
array Y(ll) Y040 Y041 Y083 YOBSY093 Y103 Y121 Y126 Y137 Y141 Y151
if Setai_PCT= 0 then do i = 1 to 11 . Y(i) = . : end:
run .
Proc Format
Value Year F
H
1989 = "1989


2004  2004
  e
S tai="
Seta l 一PCT*PCtst』I『1<Seta l 一CNT>=
Y040 * (mean *F=lO. std)
山’
(al I *(Y041 -- Y151)) * PCTSUMくY040>=




box 調査年
世帝類型

Value Setai F


1 全世待


2 未就学児がいる世帯


3 学校に通う世帯員がいる世帯


4  65歳以上の世帯員がいる世帯
run .

format
Label

Setai e
S tai_F.


Setai_PCT  世帯の構成比(時)



Y040
1世帯当たり消費支出(円)




Key I abe I a I I
消費支出に対する10大費目の構成比(首)


mean
 平均



std
標準偏差 


tit I e 課題2 世帯の種類別、消費支出に占める10大費目別支出金額の割合 
run

389

376.

’ 資料 11 SAS ユ ー ザ ー 総会 2019 「 Let s デ ー タ分析コンテスト j の規定課題 。 規定課題1 世帯主の年齢階級ごとに、全世帯の一 世帯当たり平均支出金額、 及び、表に示す費目(項目)に支出のある(支出がゼロではない)世帯だけの一 世帯当たり平均支出金額を求め、 以下の表を作成してください。 表題は中央揃え、 『 (単位:円)』は右寄せ(必ずしも表の右肩である必要はありません·)Iこしてください。 表としてわかりやすいものであれば、日本語表記の折返し ・ 罫線等の書式を完全に一 致させる必要はありません。 なお、表中の数字は正解の一 部です。計算結果の確認に使ってください。 課題1世帯主の年齢別一 世帯当たり平均支出金額 (単位円) すべての世帯 調査年世帯主の年齢 消費支出 住居 食料 各費目に支出のある世帯のみ 被服及び 履物 教育 住居 被服及び 履物 273,156 1989年 全世代 教育 27,564 29歳以下 30歳代 40歳代 50議代 60議代 70歳以上 再掲34歳以下 再掲35~64歳 再掲65歳以上 2004年 全世代 29歳以下 30歳代 40i義代 50歳代 60歳代 70歳以上 再掲34議以下 再掲35~64歳 再掲65歳以上 規定課題2 以下の表の世帯類型ごとに、世帯数の構成比、消費支出の1世帯当たり平均及び標準偏差.消費支出に対する10大費目の支出金額 の構成比をそれぞれ求め以下の表を作成して下さい。 なお、構成比及び標準偏差は小数点以下1桁、1世帯当たり消費支出金額は整数表示とします。 表題は中央揃えにしてください。 表としてわかりやすいものであれば、日本語表記の折返し ・ 罫線等の書式を完全に なお、表中の数字は正解の 一 一 致させる必要はありません。 部です。計算結果の確認に使ってください。 課題2世帯の種類別、消費支出に占める10大費目別支出金額の割合 1世帯当たり消費支出(円) 世帯類型 鋼査年 1989年 全世帯 未就学児がいる世帯 世帯数の 構成比(%) 100.0 平均 標準偏差 消費支出に対する10大費目の構成比(軸) 食料 27.3 20.1 学校に通う世帯員がいる世帯 65怠以上の世帯員がいる世帯 2004年 全世帯 100.0 未就学児がいる世帯 学校に通う世帯員がいる世帯 65怠以上の世帯員がいる世帯 390 住居 光需品・ 水道 家具・ 被服及び 家事用品 庖物 保健 医療 交通 通信 教育 教獲 娯楽 その他の 消費支出

377.

1 就職氷河期世代ワ ー キングプアの特徴 就職氷河期世代ワ ー キングプアの特徴 ~全国消費実態調査の疑似ミクロデ ー タを用いた年長世代との比較~ 鳥居優子 コ二力ミノルタ株式会社CAE推進部 The Features of the ”Employment Ice Age" Generation in Comparison with Prior Generations using the Pseudo Microdata Synthesized from National Survey of Family Income and Expenditure in Japan Yuko Torii CAE Development Division, Iくonicaトtlinolta, Inc. 要約 25 ~ 29 歳時点において、就職氷河期世代の勤労者世帯に占めるワ ー キングプアの割合は同 年齢時点の年長世代と比べて増加していないが、就職氷河期世代ワ ー キングプアは、年長世代 ワ ー キシゲプアと同世代勤労者世帯全体のいずれと比較しても、光熱・水道に多く、教養娯楽に 少なく支出するという消費傾向があった。また就職氷河期世代がワ ー キングプアになる属性とし て、従事する産業との関連が年長世代と比べ強くなっている可能性がある。 キ ー ワ ー ド:就職氷河期 ワ ー キ〉グプア相対的貧困率等価可処分所得 はじめに バブル崩壊後の就職が困難な時期に高校や大学を卒業した世代には、今なお不安定な働き 方を続けている人も多く、 2019 年 6 月には政府もこの世代を支援する方針を固めている。また 働いているにも関わらず貧困な状態であるワ ー キングプアも、世代を問わず社会問題となってい る。これらの社会問題を調査する 一 環として、就職氷河期世代でワ ー キングプアの状態にいる人 について、年長世代と比較する分析を行った。 高卒者の場合、1975 年頃から 1985 年頃に生まれた人々、大卒者の場合、 1970 年頃 から 1980 年頃に生まれた人々が就職氷河期世代とする[ 1 ]と、今回使用する疑似ミクロデ ー タ は 2004 年までのデ ー タであるため現在の就職氷河期世代の特徴を表しているとは言えないが、 若年時に十分な所得力tなければ、将来に向け自己研鎖を行うことや、 2000 万円かそれ以上必 要ともいわれる年金以外の老後資金を用意することも難しくなるため、若年時の分析を行うことに も意義があると考えている。 391

378.

2 就職氷河期世代ワ ー キングプアの特徴 分析 分析対象と定義 本分析の 主な対象は、全国消費実態調査 の疑似ミクロデ ー タのうち 、1989、1994、 1999、2004年の各調査年時点で世帯主の年齢が25~29歳の世帯とする。 生まれた年は そ れぞれ1960~1964年、1965~1969年、1970~1974年、1975~1979 年となる (表1)。1960~1969年生まれは就職氷河期世代ではなく、1970~1974年生まれには就 職氷河期 に卒業した人とそうでない人が混在しており、1975~1979年生まれはすべて就職氷 河期世代と想定する。 ワ ー キングプアの定義は暖昧である。一般的に年収200万円以下と言われることもあるが 、 調 査年によ る違いもあることを考慮し、相対的貧困率を参考に定義することにした。相対的貧困率 とは、以下の式で計算した等価可処分所得の 中央値の 半分未満の割合である[2]。 可処分所得=実支出一非消費支出…式(1) 等価可処分所得=可処分所得(式(1))÷世帯人員の平方根…式(2) 「勤労者以外の世帯Jについては収入 を調査 していないため、全ての「勤労者世帯Jと「無職世 帯Jの 等価可処分所得を計算したところ、相対的貧困率を決める貧困線である中央値半分 (50%)の場合、「年収200万円Jよりかなり小さくなると考えられること(表2参照)、また分析 対象が非常に少なくなることから、本分析では勤労者世帯のうち「等価可処分所得中央値の 70%未満」の世帯をワ ー キングプアとすることにする。 分析内容 ・ 就職氷河期世代ワ ー キングプアの特徴を知るため、以下の3点について分析を行った。 ・ ・ 分析1:就職氷河期世代にはワ ー キングプアが多いか 分析2:就職氷河期世代ワ ー キ〉ゲプアの 属性 分析3:就職氷河期世代ワ ー キングプアの消費傾向 就職氷河期世代は非正規雇用が多いと言われているため、ワ ー キングプアが年長世代と比較 して多いの ではないかと考え、 分析することにした。次に、 収入以外の面でどの ような属性の 人が ワ ー キングプアであるかを分析した。最後に、全国消費実態調査 の特徴を生 かし、消費傾向につ いても分ヰ斤を行った。 分析結果 分析1:就職氷河期世代!こはワ ー キシタフ7が多いか 各調査年の 25~29歳勤労者世帯中の「等価可処分所得中央値の 70%未満Jの世帯の 比率を求める方法で分析を実施した。疑似ミクロデ ー タの各レコ ー ドには集計用乗率が設定され ているため、この値を合計することにより、世帯数を算出する。結果は表3の ように、 就職氷河期 392

379.

就職氷河期世代ワ ー キングプアの特徴 3 世代を含む 1970 ~ 1974 年生まれ、就職氷河期世代である 1975 ~ 1979 年生まれのほう が、年長の世代よりもワ ー キングプア比率がやや低く、ワ ー キシゲプアが多いとは言えないことが分 かった。 分析2:就職氷河期世代ワ ー キングフアの属性 収入以外の面でどのような属性の人がワ ー キングプアであるかを調べるための分析手段として、 生まれた年代別にワ ー キングプアと非ワ ー キングプアを分類する決定木を使用した。疑似ミクロデ ー タの各レコ ー ドの集計用乗率の値に応じてレコ ー ド数を増やすことで、各レコ ー ドの重みに対応す る。ただし、実行速度を考慮して集計用乗率の 1/10 を整数値に丸めた値をレコ ー ド数としたた め、集計用乗率の値より精度が落ちている点に注意が必要である。疑似ミクロデ ー タの「世帯事 項等Jを説明変数、ワ ー キングプアか否かを目的変数とし、学習デ ー タ:検証デ ー タ= 7:3 に分割 したデ ー タを用いたところ、年代により違いがあるが、学習デ ー タで AUC=0.8095 ~ 0.8435、 検証デ ー タで AUC=0.7802 ~ 0.8431 の精度で決定木を作成することができた。 作成した決定木を図 1 、その変数重要度を表4に示す。1960 ~ 1964 年生まれでは X12 (未就学児の有無)の重要度が 一番高く、未就学児有のほうがワ ー キングプアの割合が高 い。それ以外の年代ではXll(世帯形態)の重要度が 一 番高く、概ね単身世帯・夫婦のみ以外 のほうがワ ー キングプアの割合が高くなっている。 就職氷河期世代である 1975 ~ 1979 年生まれは「単身世帯・夫婦のみJ「民宮・自営 5 人以上、官公Jの世帯が 一 番多く、かつワ ー キングプアでない割合が高い。「2世代、3世代、そ の他の世帯形態」「就業人員 1 人J「民営 ・ 自営 1 ~ 499 人jの場合はワ ー キングプアの割合が 高くなっている。 就職氷河期世代では V47 (産業符号)の変数重要度が高くなっている点に着目し、産業別 の 1 か月の等価可処分所得の分布を確認した。図2に例として 1960 ~ 1964 年生まれと 1975 ~ 1979 年生まれの箱ひげ図 co 円以上 75 万円以下に限定して作成)を示す。分類 数が調査年により異なるため 一概には言えないが、就職氷河期世代では世帯数は少ないもの の、等価可処分所得の低い産業があり、これらの特に低い産業を除いても多少産業により差が 広がっているように見える。このため次に、説明変数が V47 (産業符号)のみの決定木を作成して みた。この結果、1960 ~ 1964 年生まれでは学習デ ー タ AUC=0.5460、検証デ ー タ AUC=0.5327 の精度で決定木が作成され、1965 ~ 1969 年生まれ、1970 ~ 1974 年生 まれでは決定木が作成されず、1975 ~ 1979 年生まれでは学習デ ー タで AUC=0.6024、検 証デ ー タで AUC=0.6074 の精度で決定木を作成することができた。こちらも決定的な結果では なかったが、就職氷河期世代がワ ー キングプアになる属性として、従事する産業との関連が年長 の世代と比較して強くなっている可能性を否定できない。 393

380.

就職氷河期世代ワ ー キングプアの特徴 4 分析3:就職氷河期世代ワ ー キ〉タフヲの消費傾向 生まれた年代別の25~29歳時点での「勤労者世帯の消費支出に占める10大貫目の割 合J(表5)と「ワ ー キングプアの消費支出に占める10大貫目の割合」(表6)の平均値を 算出した。全般的に、勤労者世帯全体、ワ ー キシグプアとも生まれた年代力吟愛の世代になるにつ れ、食費、被服及び履物が減少し、交通通信が増加する傾向が見られる。 全員が就職氷河期である1975~1979年生まれのワ ー キシゲプアについては以下の傾向が ・・ 見られる。 光熱. 7./<i萱の占める割合方痛い。 教養娯楽の占める割合が低い。 これらの傾向があると言えるかどうか確認するために、1975~1979年生まれのワ ー キングプア ・・ と以下の 3 つの標本とで、有意水準。=0.05で対応のない2 標本t検定を行った。 ・ • ・ 就職氷河期でない1960 ~196 4年生まれのワ ー キングプア 就職氷河期でない1965~1969年生まれのワ ー キングプア 同世代(1975~1979年生まれ)の勤労者世帯全体 この結果、光熱・水道、教養娯楽とも以下のような結果となった。 Folded F検定の結果p値<0.05で等分散性であるという帰無仮説は棄却され、等 分散性であるとは言えない。 非等分散性のt検定の結果p値<0.05で平均値に差がないという帰無仮説は棄却さ れ、平均値に差があると言える。 結論 分析結果から25~29歳時点の就職氷河期世代について、(1)就職氷河期世代がワ ー キン グプアである割合は周年齢時点の年長世代と比パて増加していない、 (2)就職氷河期世代 ワ ー キングプアは、年長世代ワ ー キングプアと同世代勤労者世帯全体のいずれと比較しても、消 費支出に占める光熱・水道の割合方情く、教養娯楽の割合が低いとし1う消費傾向があった、 (3)就職氷河期世代がワ ー キシゲプアになる属性として、従事する産業の関連が年長の世代と 比較して強くなってし1る可能性がある、といったことが分かった。 今回の分析は「25~29歳時点j「年長の世代との比較JIζ留まっているため、実際の全国消 費実態調査の新しい調査年のデ ー タを使用して、30 歳以上の時点、年少の世代との比較を行 うことができれば、更に就職氷河期世代ワ ー キ〉ゲプアの特徴を掴むことができるであろう。またその ような分析が適切な支援策の策定に役立つと考えられる。 参考文献 [1]厚生労働省. 2019.報告書(治療と職業生活の両立支援、就職氷河期世代の労働 者への支援). 54ペ ー ジ. URL: httos://www.mhlw.go.io/stf/seisakunitsuite/bunva/kovou roudou/iinzaikaiha臼u/c紅白r consulting gihou 00004.html 394

381.
[beta]
就職氷河期世代ワ  キングプアの特徴

5

[2]厚生労働省.相対的貧困率等に関する調査分析結果について.国民生活基礎調査
(貧困率) よくあるご質問. URL:
httos://www.mhlw.定o.io/seisakunitsuite/印shiki/toukei/to151218心1.html


表1分析対象
調査年
生まれた年
1960

 1964

1965

 1969

1970

 1974

1975

 1979

ι

1994

1989
30

 34



表2ワ  キングプアを決定する貧困闇値

表3生まれた年代別

噂嗣財閥中央糊i!JJ.,A

 --""-骨 仰の
119鎚t

_;

1袋抱

:

ほ泊4
2鋭減



25

 29 歳勤労

者世帯中のワ キングプア比率


1 ヮーキフザヲア日調停{%
2.2.s·};
 一時図書事1

場合:印刷場会型別場合



99.�制

119:?37

139,110

一生創もた主主
一一…………一一…
倒主 
ぬ踊んぬ

91,779

110,135

128,491

1前吾長崎両年7

85,290

100.14Ir

102,348;
120.895

119,406

65

141,倒4

言語75

~;,

9'.語;単

一

17.2

13.4

14.9

表4ワ ー キシグプアを分類する決定木の変数重要度
01960

~ 1964 年生まれ
変厳重E聾E冨
一γ…字智一一;

01965

一
検証 1

…亡祖河湾主雪辱どflf11];眼目対比的ン卜
°
1…0000, 13.674711 0000 8 5073' 1 0000
1
主混一読業火員
D 50お:…611853 0. 3684 3 1Jj9 07316
3


x10 ·企業区分 従業者規模 0.318f 4.3521; 0.3臼0 3.0114 1 1122
3
3
正副一夫都市圏の耳IJ
0.2522' 3制82 0 2822 2.4007 1.1191
jf14"'55巌以上申世帯貝故
0量11rF 3 003s; o 2302 1 9珂1' 1 0478.
2

I幅一住居め構造
心計3 4.3939· 0.2155 1 8330 0 6706
3
主両 ぜ家族分類
0 2067 2 8265 0 2015 1 7145 0.9750
1
o.112,C2J51{0 1so6 1 5367 1 0478
xw 住居の建て方 
1
白7て産業符号
一··o忌ゐぷ
0.2, o. 1689
.
1 4368  o.4924



xff 学校i;:通う世帯置の有;\\;012so, {7638) 0 1叫1.2273 1.11
1
」oi:函j'' 1/680 0 1422, 1.20剖.1 0田5
1
説話プ世帯主の性別
'1411 E量業符号
'0.0998 o日4 0.1058 0 8田.9 1.0回2
1
お主世帯入質
·a.iso言34254 0.0165 0.1405 0 0白9
o,1316- 1.80031 0.0000
0 0 0000
孟辰一住居の所有関係

ιぬ

01970
一一

 1974 年生まれ
盟主数lli'磐度
一一一一一一一
学習「一一一



4

ー{

2'i

。日

吋

Xif一未就学児の有無

01975

証 - r·
'

重〓

変散ラ,if;�
;格対重製隆寺B対重要度!相
対!t拘ウ〉トi
一…

xH·家族分類
一· 1.0000' <iiiijj , oaoo'J, :i:i治正田00
t
2
OJ:制8旬1281 0 3830 11 田69 0.9955
I弱--;就業;人員
d語7言15.8927 0.3191 9田33' 0剖珂
6
\i<ii産業符号
x町大都市園田別
令()2!語ιjj 9728 0.2制s· a 911 o 95
4
扇子企業区分従難者規槙 0 25白12.0而5 0.23 7 2335  0 9008.
元証言「ι住居の構造
0.1790 8.4312 0.1920 6 01 1.0731'
主語ー世帯人買
. ii 1. 96.f 9,2535 0.1835' 5.7470' 0.9342
; 0 1ぬ6 5.1632 0.1395 4 369.0 ° 1.2729
反面一γ住居め建て方
泊証;学校t通ラ世帯員の有無:oo叩 4.52叫O凹51 2 9798 0.9896
一一

~ 1969 年生まれ

一一一変数量裳度
一
一一
……一
電車証 … |
一一一 宇宙一一一
;
;
つ筆致
…
.
! 掬対12聖書書度. 絡事苦了室主裳厳格対比内ウント
変数ヨペj』
……一
i
ん
xff 家族分類
一一一↑·1·
r .ooi@:fa2GG6 イoooi ' iii.o4:必:五iioiiO:
7
孟iii→世帯入員
(ji;主語1s 0146: oiis51T124iso 1叫27


xi<i'企業区分
従業者規模0.5797 17,5457 0.出向1.2お96 1.11
6
--
3'
03' 163日4· o66i;i' 115573 1.122s
XD4 就業人員
元福つ住居め構造
0.4895 14.8161 o:言説i;'.10 1837 1.0921
3
IJ.4334 13 1175 Q.必語 8. 8367 1. 0703
瓦耐つ犬都市圏の耳IJ
2
1泌n産業符号
0,42ii 1.2 7630 0.4419; 841倒10480,
4
'o
270s
8.1858
oj;i47'
6.1849
1
2005_
1
瓦ωτ世帯主の性�'.
I

°
°
,·
v4ii 職業符号
01552 4 69119 02活必一瓦3476 14701




s 421s 011�1 3 4238 o.倒71

1

 1979 年生まれ

ール変敏重裳度
一…i

l…… 字醤一  一夜道 一~ァ一

寸主主霊長
凌数iヨペJレ
目章子重望書留相対比的〉ト
- QB対で重書留

'xtt プ家族分類
1 i)印c>; «sos:f ;oぬ0: 29:4:ija' 10000
2
0 7173 31.9973 0.662( 19.弱60, 0.9242
5
v4'1'産業符号


28 6179. 0 62112, 184828 0,9791
1針。「「穀企業区分 従業者規模l6416
3

J<04 業入員
: O 539i 24 0762 O日fif十 '15.9218· 1.00お
2
0.3508 .15.臼97 o3is.i' 9お12· 0 8.9
;v扇ーで藤議符号
2,
(泌5←住居の構造
…0.28盈• 1f弱sfoJij,.一一…当2127 i:1095,
2
os--:1!帯主'. ii)性耳IJ
02742 122:iO.f 0227干6.6832.. ()82制
xo-C住居の所有関係
002234 99側bzj当7 {;.6409_ 1.0104
…一



 o 2122

LI

「:x

395

r

i

382.

6 就職氷河期世代ワ ー キシゲプアの特徴 生まれE年 図1ワ ー キングプアを分類する決定木(25~29歳勤労者世帯) ; 01960 ~ 1964年生まれ サフツリ ー 01965 ~ 1969年生まれ の繍始ノ ー ド=O 01970 ~ 1974年生まれ i w6R旧NG.岡田R空0 2 WOR!Ot<O..POORoi 396

383.
[beta]
就職氷河期世代ワ ー キングプアの特徴

7

01975~1979年生まれ
サフツリーの銅始ノード=O

調

x

V47

1Wci阻N<l.POOR=O

,。

V47

2 WOR剛日月氾,R=12産業別等価可処分所得箱ひげ図(2529歳勤労者世帯)
01960~1964年生まれ

01975~1979年生まれ

産業llil等価可斑扮胃緯窓M図{唱曲。-1 田S年生省I)

産聾淘l等価可処分野潟絃Jt1図(1976-1980年生按I)
u,i
終•!
盗. ;

-ー五l) 0
I)

..・;

...

ma•·; 戸ーー一目立:m:》ーーー一一。。- 0
観遺•1 -一一一一一---c:m:::ト-佃町四百四【〈崎。 ∞。 。 。l
。�》-ー「。
...ガス自由侠舗本選・4
一一---c::::m::::J-…一一一@回
。
』
情句通信.,
輔•·! 一一一寸言語Eトーー一目。
"ft·小兎.., -----c:::a::t-一一』一�。 。 。
”“一切c::a:::=》m一一
傘凪母臨調可
。
吋!l:'i::::m:ト一一ーー
本H 1
飲書店宿泊・4
IH.幡�イ
。叩吋ー屯:::m::::::J---0
歓宵零宙実繊・4
-一一一--c=:u:::I一一 。
畿合唱, ーピス・.,
,ーーピス.,..に勿'"きれ"も叫,""" 一一--c::::e:c:ト一一一一。 。 。 。
。。
公筒『偲に分担され.いもの〉ι
。ー一一一『四回目C:ヨCJ-守一一一-
。 一一一 -
その他(#豚Sを含む>( 一

匂
e奪回目

e 防協鍾贋剖

.....
トー-{ご夜二ト一一一一→。 。
図司..叫
電気品開閉鎗岨禽e
H一寸::::亙'IZ:]-一一-
醐ト←一一一口231一一一・0
岡崎鎗 戸一一四窓ト一一吋田明。。

0

..

金II・ 像..・
追認率三三
平阻H 。
』-EB留一一吋
ザー ピス釦相羽侵害同凶酎: 』----u褒荘一一--個個。。
』�一一一一- 0
時【出掛aされないもの)•
磁調a 300000 .cooooo
•m可処分断褐《同〆周}

・

=

'

,00

397

""'"

叩

露軍備可処分帰得〈岡; Jわ

叩

384.
[beta]
8

就職氷河期世代ワ ー キシゲプアの特徴
付録1規定課題用SASプログラム
規定課題1
”

”
libname giji xxxxx ;

where Year in (1989, 2004);
”
”
”
label Y040=”消費支出 Y041= 食料
H
”
”
Y083= 住居 Yl03= 被服及び~{NEWLINE}履物
Yl37=”教育” Y083M=”住居” Y103M=”被服及
”
”
”
び.v{NEWLINE}履物 Y137M= 教育 ;
run;

proc format;
/*世帯主の年齢を再定義する */
value HH AGE
56= ” 29歳以下”
78 = ” 30歳代”
910 = ”40歳代”
11 - 12 =喝O歳代”
”
”
131460歳代
”
”
other = 70歳以上 ;
value HH SAIKEI
”
5 - 7 = ”再掲34歳以下
”
”
813= 再掲3564歳
”
“
other = 再掲65歳以上 ;
run;

日

options center;
ods escapechar=” ” ;
title ”課題1世帯主の年齢別一世帯当たり平均支出
”
金額 ;
”
”
title2 justify=RIGHT (単位:円) ;
proc tabulate data=cel format=commal2.0;
class Year HH AGE HH SAIKEI;
var Y040 Y041 Y083 Y103 Y137
Y083M Y103M Y137M / weight=weight;
”
”
table Year="叫 (ALL= 全世代
川
””
/ * 表側ネ/
HH_AGE= HH_SAIKEI= ),
/ * 表頭本/
”
all=”すべての世帯 * (Y040
川
Y041 Y083 Y103 Y137)*mean=
”
剖ド= 各費目に支出のある世帯のみ
吋(Y083M Yl03M Y137M)*mean=”
”
/box=”調査年世帯主の年齢 ;
format HH_AGE HH_AGE.;
format HH_SAIKEI HH SAIKEI.;
run;
N

data work.eel;
set gりi.gりi4zensho;
X09_02 = X09;
rename
X09=HH AGE
X09_02 = HH SAIKEI;

E

/ * ゼロを欠 t異化する ホ /
Y083M = ifn(Y083.v=O, Y083, .);
Y103M = ifn(Y103.v=O, Y103, .);
Y137M = ifn(Y137.v=O, Y137, .);

規定課題2
”

”

proc sql noprint;
select sum(weight)
into :sum_‘weight2004
from giji.giji4zensho
where Year=2004;
quit;

libname gりi xxxx ;
proc format;
/*世帯類型を定義する * /
value FAMILY TYPE
”
1 = 全世帯害”
”

”

2 = 未就学児がいる世帯
3= ”学校に通ラ世帯員がいる世”帯
4 = ”65歳以上の世帯員がいる世帯

data work.ce2;
set giji.giji4zensho;

run;

/水変数世需類型 を作成する * /
FAMILY_ALL = 1;
/ * 全世需 * /
FAMILY BABY = ifn(X12 = 2, 1, O);
/*未就学児がいる世帯*/
FAMILY_KIDS = ifn(X13 = 2, 1, O);
*
/
/本学校lこ通う世帯員がいる世帯
FAMILY_OLD = ifn(X14 > 0, 1, O); /*
65歳以上の世需員がいる世帯り

、

/本調査年ごとの weight合計を求める * /
proc sql noprint;
select sum(weight)
into :sum_weight1989
from giji.giji4zensho
where Year=1989;
quit;

where Year in (1989, 2004);

398

385.
[beta]
9

就職氷河期世代ワ ー キングプアの特徴
wgtlOOper = ifn(Year = 1989,
(weight/ &sum_weight1989)本 100.0,
(weight/ &sum_weight2004) * 100.0);
run;

Y137 _PctSum Yl41_PctSum YlSl_PctSum (0
0 0 0 0 0 0 0 0 O);
array n{勺 NUMERIC_;
do i = 1 to dim(n) ;
do j = 1 to dim(pctsums);
if substr(vname(n{i}), 1,
12) = cat(vname(pctsums{j}),” _") then do;
if n{i} > 0

ods exclude all; /*表を非表示にする 本/
proc tabulate data=ce2 format=comma12.1
out=work.table2 vardef=WGT;
class Year FAMILY ALL FAMILY BABY
FAMILY KIDS FAMILY OLD;
var wgtlOOper;
va「No Y040 Y041 Y083 Y088 Y093
Y103 Y121 Y126 Y137 Yl41 YlSl
/weight=weight;

then do;

p出ums{j} = n{i};

end;

end;
end;

’ ’
table Year= 川 *(FAMILY_ALL=
川
川
FAMILY BABY= FAMILY KIDS=
川
FAMILY_OLD= ),/キ表側キ/
/*表頭本/
wgtlOOper= 川 *sum= ”
all= "川 Y040= 川 *(mean="
"*f=commal2.0 stddev= 川 )
all= 川本(Y041 Y083 Y088 Y093
Y103 Y121 Y126 Y137 Y141
川
Y151)*(pctsum<Y040>= );
run;
ods select all;

end;
keep Year FAMILY TYPE
wgtlOOper_Sum Y040_Mean Y040_StdDev
Y041 PctSum Y083 PctSum Y088 PctSum
Y093 PctSum Y103 PctSum Y121 PctSum
Y126 PctSum Y137 PctSum Y141 PctSum
YlSl_PctSum;
label Year= ” 調査年 ” FAMILY_TYPE= ”世
帯類型 wgtlOOper_Sum= ”世帯数の
,v{NEWLINE}構成比(%) ” Y040_Mean= ” 平均 ”
"
Y040_StdDev= ” 標準偏差 ” Y04l_PctSum= 食料
” Y083_PctSum= ” 住居 ” Y088_PctSum= ” 光熱 -
,v{NEWLINE}水道” Y093_PctSum= ” 家具・
"
,v{NEWLINE}家事用品 ” Y103_PctSum= 被服及
”
”
び,v{NEWLINE}履物 Yl21_PctSum= 保健
,v{NEWLINE}医療 ” Yl26_PctSum= ” 交通
N{NEWLINE}通信 ” Y137_PctSum= ” 教育 ”
Y141 PctSum= ” 教養,v{NEWLINE}娯楽 ”
YlSl_PctSum= ” その他の,v{NEWLINE}消費支出 ”;
run;
”

/本不要な行が入っているので削除するり
proc sql;
delete
from work.table2
where (FAMILY_BABY=O) or
(FAMILY_KIDS=O) o「(FAMILY_OLD=O);
quit;
data work.table2 1;
set work.table2;

proc sql;
create table work.table2 2 as
select *
from work.table2 1
O「de「by Year, FAMILY_TYPE;
quit;

/*世帯寺類型を1変数iこするり
if FAMILY ALL = 1 then FAMILY TYPE
= 1;
if FAMILY BABY = 1 then
FAMILY TYPE = 2;
if FAMILY KIDS = 1 then
FAMILY_TYPE = 3;
if FAMILY OLD = 1 then
FAMILY TYPE = 4;

options center;
ods escapechar= ” ~ ”;
title ” 課題Z世帯の種類別、消費支出に占める10大貧
"
困別支出金額の割合 ;
proc tabulate data=table2_2
format=commal2.1;
class Year FAMILY TYPE;
var wgtlOOper _Sum Y040_Mean

/本10大震自の変数をまとめる */
array pctsums{10} Y041_PctSum
Y083 PctSum Y088 PctSum Y093 PctSum
Y103 PctSum Yl21 PctSum Y126 PctSum

399

386.
[beta]
10

就職氷河期世代ワ ー キングプアの特徴

(円)吋(Y040_Mean*f=comma12.0
川
Y040 StdDev)*sum=
”
副|= 消費支出!こ対する10大費目の
'’
構成比(%) *(Y041 PctSum YOS3_Pct5um
YOSS PctSum Y093 PctSum Y103 PctSum
Y121 PctSum Y126 Pc巴um Y137 PctSum
川
Y141 PctSum Y151_Pct5um)*sum=
”
”
/box= 調査年 世帯類型 ;
format FAMILY_TYPE FAMILY TYPE.;
run;

Y040_StdDev Y041_Pct5um Y083_Pct5um
YOSS PctSum Y093 PctSum Y103 PctSum
Y121 PctSum Y126 PctSum Y137 PctSum
Y141_Pct5um Y151_Pct5um;
””
table Year= ” 叫FAMILY_TYPE= ,/*表
側キ/
/*表頭*/
wgt100per_Sum= ”世帯数の
削{NEWLINE}構成比(%)” 匂um= ’ 『
all= ”1世帯当たり消費支出

付録2規定課題図表一覧
課題1世帯主の年齢111ト世帯当

1どり 平均妥温金額
「告白iミ山高白山

す’tてのE常
読書草世常主@年�
1989

金量代

3路盤畠

金科

住居

官73,1 56

74,586

1 5,392

1 91 ,1 26 52,81 85,148
257,211 75,1 68 1 8,54
誕曜量代
31 6.11 5 I so.31 2,137
j 値代
326,35 79,633 1 3,335
型車代
官41,579 64,673 1 3,756
属選量代
1
93,84
1 53,913,681
Z盟長島lt
I
官1 7,田4 60.2033,533
再婚3唱品以下
3印,6<!0 81 ,945 1 3,61 0
再猫謁自制盗
5 7,377
27,11 7
1 3,白日
事詰晶画司邑恥土
官85,504 66,623 1 8,737
寝耳M
会佳代
旬議以下
宮町,528 41,600 33,78161 ,458 58,6478,997
主鴎代
|明991 78,696 1 6,275
4盛代
1 352.176,97 14,631
E睦代
i 官73,686 67,935 1 5,1 02
底睦代
官1 6.004I 54,766 1 6,356
克E量脱土
官官9,61 9 i 唱.白E 35,01 8
再猫3,也以下
珊3ト地J m. 557 ! 74,535 1 6,3558
1 5一.
蜘
官3日間川8一.
冊目暗 県上
暗
i一
一

〈単位:円〉

強l!Gl!U'f

事量管

店街

住居

国鈎

11 ,759 I 官官,591
1 7,空白 , 1 .1 so I 官9,431
20.官79

甥盛以下

1

20.7 9

片::

11.11s

24,984;

2

5

I 1 4,11 1

1 s.1 10 I 1 6.042

1
1
欄間
官3,006 23,955

i

i 7, 64

:::::; I

1 3,743

::2白0

告訴時一4
官官,245 1 5,8印
20.843
1 4,2笛 1,987 官白官58
1 3,11 6 1 3,034 28目白色
1 3,749 2.印6 37,71 2
1 2,957 1 1,561 39,736
1 4,7<!0 I 31 .282 官7,315
1 5,255 !宮1 ,91
23
:
1 2,官87 ; 1 ,76 : 官官::::
9,45官1
954宮4,34
1
1 3,245 ; 5,6白 I 4
1 ,750 I

i

14.,輔:官細川

一1一q

I

25,9窃

i

::. ·:

一一·:一��·�一一:一:.仙1 :·一

一
i
川:
: ::お陪7:

a

筏 時1
y畑
85

1 5,021 I 44,16s
::::白<IQ
: ::::::
9,863

i 33,552

1 3.728 I 21 .488
14.778

I 咽目

589

10.叩
31 ,師
闇
j
-官…仰-� …
一 一
一
'
一一
一…
g咽

課題2世稽@種慧}llJ..消費支出1;:占める 1 航費目}ll民:血金援の割合
調憲年芭帯察捜

37J;

115 I

271,029

400

23 ! I 05

I

387.

11 就職氷河期世代ワ ー キングプアの特徴 付録3自由課題SASプログラム ヨドーーーーーーーーーーーーーーーーーーーーー on dat一日目1.Year = dat_pdl.Year; *調査年]JI]に低所得者を見つける。; 本ー同担ーーーーー ーーーー園田信綱嶋・ーー ーーーーーー quit; 本各レコ ー ドの1カ月の等価可処分所得を計量草する。; *等価可処分所得が貧困問領未満のレコ data giji.dat giji; set giji.giji4zensho; whe「E X02 -= 2; /*「勤労者以外の位得Jは収 data giji.dat_flagged; 5巴t work.dat merged; WORKING_POOR = ifn(eq_disp_income < pdl70, 1, O); run; 入が未調査 * / disp_income = Y003 - Y179; /本可処分所得=実支出 ー 非消費支出 eq一disp_incom巴 = disp_income/ v 本ーーーーーー ー ーーー嶋ー--ーーー sq代(X03); /*等価可処分所得=可処分所得一世帯人員の ーーーー司匂句”ーーー--- ドにフラグを立てる; -司副創傷司争’田---· 本生まれた年代別勤労者世帯中の低所得者の比率を求め る。; ネーーーーーー ーーーー ーーーーー ーーー--時ーーーー ーーー司- -’-- . 平方銀り run; 本各年代の25~29歳時点のデータを作成する。; options mprint; %macro CREATE_AGE_DATA(bir_year=); data work.dat_by&bi「year.; set gりi.dat_flagged; *調査年別の等価可処分所得の中央値を計算する。; proc means data=giji.dat_giji maxdec=2 median noprint; /*小数点2桁まで * / class Year; where Year = (&bir_year. + 29) and X02 = var eq一disp_income; weight weight; 1 and X09 = 6; BIRTH_YEAR = &b1「_year.; output out=work.dat_median median=median; AGE = 25; run; 10大震自の合計に対する割合 本 / Y041_RATE = Y041/ Y040* 100; Y083 RATE = Y083/ Y040* 100; YOSS_RATE = YOSS/ Y040* 100; Y093_RATE = Y093/ Y040* 100; Y103 RATE = Y103/ Y040* 100; Y121_RATE = Y121/ Y040* 100; Y126_RATE = Y126/ Y040* 100; ハ * 調査年別の貧困問値を求める。, data work.dat_pdl; set work.dat_median; pdlSO = median* 0.5; F相対的貧困率 の貧困線*/ pdl60 = median 本 0.6; Y137_RATE = Y137/ Y040* 100; pdl70 = median* 0.7; where Year -= • ; Y141_RATE = Y141/ Y040 キ 100; Y151_RATE = Y151/ Y040* 100; keep BIRTH_YEAR AGE WORKING_POOR weight XOl X02 X03 X04 XOS X06 X07 XOS X09 XlO Xll X12 X13 X14 V47 V4S Y041 RATE YOS3 RATE YOSS_RATE Y093_RATE Y103 RATE Y121 RATE Y126 RATE Y137 RATE Y141 RATE Y151 RATE eq_dispーincome; keep Year pdlSO pdl60 pdl70; run; ” ” title ワ ー キングプアの闇値 ; proc tabulate data=work.dat_pdl fo「『nat=co 昨1ma12.0; class Year; run; var pdlSO pdl60 pdl70; ”” P表側 * / table Year = , ” all= 等価可処分所得中央値(円/ ” ” ” ” ’ 月Y ペpdlSO= 50%の場合 pdl60= 60%の場合 * pdl70ピ ' 70%の場合” )*sum= ” ” 字表頭 / / ” %mend; %CREATiξーAG,ξ_DATA(bir_year=1960); AG,ιDATA(bi「_year=1965); ι %CREATi %CR臼 TιAGE_DATA(bir_year=1970); %CREAT.ξ_AGE_DATA(bi「_year=1975); ” /box= 調査年 ; run; /* 4デ ー タをマ - Si する * / data giji.young_workers; set dat_by1960 dat_by1965 dat by1970 *ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー司ーーーー . *各レコ ー ドが貧困かどうかのフラグを立てる。; 本 ーーー副司’司司同ーーーーー唄明司ーーー ーーーーーーーーーーーーーーーーー・ 本調査年別の貧困問値デタをマ ジする。; dat_by1975; /**** label省略*字本本/ run; proc sql; create table work.dat_merged as select* from giji.dat giji left join dat pdl proc format; value BIRTH YEAR 401

388.

12 就職氷河期世代ワ ー キングプアの特徴 ” ” 1960 = 1960~1964年 ” 1965 = ”1965~1969年 ” ” 1970 = 1970~1974年 " ” 1975 = 1975~1979年 ; proc tabulate data=work.table_dat format=comma12.1; /*調資年ごとのweight合計を求める * / class BIRTH YEAR; varWGT70PCT; table BIRTH_YEAR=”” , P表側 * / /*表頭字/ all=”ワ ー キングプア比率 『 ’’” (%戸(WGT70P汀= ) * sum= ” ” /box=生まれた年 ; format BIRTH YEAR BIRTH YEAR.; proc sql noprint; run; run; *,司ーーーー ー----ーーー・ー・”ーーーーーーーーーーー・ *ワ ーキングプア比率表を作成する。; *ーーーーーーーーーーーーーー-----喝『ーーーーーーー・. ・ select sum(weight) 本ーーーーーーーーーー,----· into :year1960_age25 from giji.young_workers where BIRTH_YEAR=1960 and AGE=25; * 決定木を作成する; ヨドーーー四四国国--回ー園田ーー ・ ods graphics on; quit; * 各年代の25~29歳時点の決定木用デ ー ヲを作成する。; %macro CREATE_TREE(bir_year=); data work.tree_by&bir_year.; proc sql noprint; select sum(weight) set giji.young_ orkers; where BIRTH_YEAR = &bir_year.; into :year1965_age25 from giji.young_workers where BIRTH_YEAR=1965 and AGE=25; /* weight!こ応じて行数を増やすり row_num = round(weight/10, 1); do _n一=1 by 1 to row_num; output; quit; proc sql noprint; select sum(weight) into :year1970_age25 from giji.young_workers where BIRTH YEAR=1970 and AGE=25; end; run; %let end_year =%巴val(&bir_year+4); ” title ワ ー キングプアを分類する決定木(&bir_year.­ quit; ” &end_year.年生まれ) ; proc hpsplit data=work.tree_by&b1「_year. proc sql noprint; select sum(weight) maxdepth=6; classWORKING POOR XOl X02 X03 X04 XOS X06 X07 X08 XlO×11 X12 X13 X14 V47 V48; ’ modelWORKING_POOR(event='1 ) = XOl X02 X03 X04 XOS X06 X07 X08 XlO Xll X12 X13 X14 V47 V48; prune costcomplexity; pa代ition什action(validate=0.3 seed=123); into :year1975_age25 from giji.young_work巴rs where BIRTH_YEAR=1975 and AGE=25; quit; data work.table_dat; set giji.young_worker百; if BIRTH YEAR = 1960 and ” code ” WORKING_POOR = 1 thenWGT70PCT= (weight/ file= &dat path.hpsplexc_&bir year..sas ; &year1960_age25) * 100.0; else if BIRTH YEAR = 1965 and WORKING_POOR = 1 thenWGT70PCT= (weight/ 「un; %mend; rules file=”&dat_path.rules_&bi「 yea仁 .txt” ; %CRE冶 Tξー TREE(bir_year= 1960); %CREATJ TREE(bir year=1965); %CREATJξー TREE(bir_year=1970); %CREATJξ_TREE(bir_year=1975); &year196S_age25) * 100.0; else if BIRTH YEAR = 1970 and WORKING_POOR = 1 thenWGT70PCT= (weight/ &year1970_age25) * 100.0; else if BIRTH YEAR = 1975 and WORKING POOR = 1 thenWGT70PCT= (weight/ ι &year1975 age25) * 100.0; run; options center; ods escapechar=” ” ; title ”表生まれた年代別25~29歳勤労者世情中のワ ー キシ ” グブア比率 ; N 402

389.

老後の生活を楽しみ安定して送るためのデータ分析 コニカミノルタ株式会社 滝上 陸子 情報機器開発本部開発イノへ.ーションセンター CAE 推進部 Data analysis to enjoy life and be stable in the old age Chikako Takigami KONICAMINOLTA Inc. R&D innovation Center CAE Development Division 応募部門: Bクラス(初級者)使用歴3年未満 要旨 世帯主が60才以上の世帯を対象に娯楽費の多少により3つのグル ー プに分類し、 それぞれのグル ー プ の収支状況を比較することで、 老後の生活の豊かさを左右する要因はどこにあるのかを分析した。 その 結果、 収入では「個人・企業年金」、 支出では「家賃地代」の関わりが大きいという結論を得た。 キ ー ワ ー ド: 1. 疑似ミクロデ ー 夕、 全国消費実態調査、 家計のやりくり、 家計収支、 高齢化社会 目的 世界 ー の高齢化社会である日本において、 就労、 年金、 介護、 医療など、 様々な問題や課題が山積し ていることは、 日々の報道からも明らかである。 どんな人にも必ず訪れる高齢期に、 ひとりひとりが心豊かに安定した暮らしを送るには、 どうすれば いいのだろうか。 収入の多さに依るところは当然であるが、 SASユ ー ザ ー 会より提供された全国消費実 態調査の擬似ミクロデ ー タを分析することにより、 大半を占めるごく 一 般的な世帯に対して何らかの示 唆が得られないかと考えた。 2. 分析方法 前提として、 全国消費実態調査の擬似ミクロデ ー タに用意された集計用乗率を用いて復元した値を使 用することとし、 また、 世帯区分が「勤労者以外の世帯」は収入の調査をしていないため、 収入費目の 分析では、 世帯区分が「勤労者世帯」「無職世帯」のみに限って計算を行うこととする。 2.1分析対象 まず、 分析の対象を決定するために家族分類と収入総額の状況について、 世帯主の年齢による分布を 確認した。 Figurel は、 調査年を 2004 年とし世帯主が 50 才以上のデ ー タを抽出して、 家族分類の世帯 数を集計したものである。 このグラフでは、 55 才以降は2世代もしくは3世代の世帯が急激に減少し、 逆に単身または夫婦のみの 世帯が増加していることがわかる。 この時点、を境に、 単身または夫婦のみの世帯の合計が 50% を超え、 403

390.

以降は増加の一 途となる。 親が50才代に入る時 期には子供が独立していくといったごく一 般的 な状況を反映した結果と言える。 余談になるが、 75才以上で「2世代(世帯主 【 E H闘waペ 易 Figure 1. 家族分類の年齢別変化(2004 年) 単身!!<務 … 90 2 η 2 7 3 0 8 3 4 民日早 川” は一 比 瓜 民 陣 内仏 60 才以上の単身または夫婦のみの世帯の収入総額 5 9 2 08 0 64 8 6 8~ 体 的拡併 化 仏 仏 q o 抱 一 MM槌 ’ 一一 一 O一S L ミ 6 2 3 5 3 5 0 一 ) 肱一 融 制ム 即 位 札一 蹴 町 民均 九 405 ω2 s… 9 8 0 e 7 一 h a 2 9 9 e一 02 一 砥 肝 時 且 um 凪 且一 山一 伊創見: 一 ,‘ nnn 山 花 札 札 制 鼠 η R mm nh一n 20ぺ 害 防 7 8吋 1 2 一貫 3 阜 県 凪 且 配 肱 札… 忠 , 川即 時 間切 則 一山則 一むお … 8 1 5 怜 6 60 8 98 一 例制 位 位 仏 MU札 凪 配 馳 伺 ← 抑 制一 則 抑 制 一町一 則 削 剛 山 則一 4 8 》 ’ 6 3 3 79 8 2 幻 想立 初 … 訓 鈎 aa J 523 一 ド一 2 1 60 1 83 乱 鼻 Mm晶 化 続 続 初 級 404 。 2unm 2 m mw であるため、 上側四分位点を EA rA 4 限を設定した集団を対象とする。 「60 20 9 U 4 1 9 2 6 0 3 一 札制 品 靴 飴一 的崎県 加 鎌 一 mm 日一 』 噂局制.功局・,.,同..”届...,回’岬UQ �R”“”珊電岨 用民鴎· の収入総額の分布は、 Figure4の通り ・ 合 イアスを軽減するため、 収入総額の上 5 4 6 ・,3 2 3 5 8 1 1 一 弘 礼 瓜 叩v nη 一 九 露一 f妥 .. さらに、 一部の高収入世帯によるバ 3 8 9 0P 85 4 5 1 3 札 柏市丸 い山靴 刊 札 腿 回初凪 民 Er 5 6 ゆ eoa r S2 3 76 M m r 且 也… 削 位十位 一 且 抱一 鋼一 且 札 mm一 :… l s 44 5 1 34 … 78( 抱一風 A 見一則一 立 ’ 一 mm mmw m 何w - 60 9 り 4 3 1 0 7 1 7 Mm且 周 札 則 - 明石 臨時… 鈎風 凪一 一 am 0 7 p n avF 6 4 2 ι 02 品” 一 州 制MM一舶品川骨組出品 目 … 6 2 0 03 1 5 8 5 9 9 鎗 凪 叫 肱 陣 札 別 且一 m 凪 凪一 8 2 7 》 SE 7 8 1 4 3 極純 凪 … 叩… 級凪 一 》 5 1 8 7 3 03 75 4一 A a 凶 叩 胤 凪一肌 孔 且 且 刻 一 S S 2 、,4 8 = 7 0 一a・4 2 一 且 民 凪一 副 総 民一ω明肱 九 一 羽 目似 ’ 3 B 6 1 7 47 0 ゅ 3 9一 凪 札 且 相 且 UJm 悶 肱 的 見 一 3 ?4 6 9 ’ 2 、,S 7 … 唱一 位 仏 品W4 低 一 制 鈎 お 制 且 的r … 一一 6 0 8 4 ,一 S 8 1 JJS 祖一 丸 四 恥河 肌 札 愚 前 “ι 幻 典 一 〉 4 2 OL S 6 8 7 ’ 7… 時 乱 抱一 M mm民 民 札 位 一 札 此 ”…6 7 一7 3 3 一3 8 … 80 1 m一泊 九 州 問 一札一弘 札 一月 wa孤 一 、 〉 5 9 3 6 ←t g e 8 9 6一 眠 且 丘四制 凪 防っ 色白 品向調肱 一 一 《+ 一 一 ー ) 餌? ι 醐 …抑制 … 制 抑 制片側 側 醐 一 則 糊 取λ飽援の袈鈎観計量 従って、 近年の収入総額は60才 時 .... ,..刷IVOOI ....τ鴨鴎 才を分岐点 と想定する。 Figure2. 収入総額の年齢別変化(2004 年) も、 60才で大幅に減少している。 Figure3の表に示すと 75:t臥」ヒ ,..,.才 錨...:r 時制才 筒""ヨF 鉱H4!t 年Ill Figure2の収入総額のグラフでは、 平均値、 中央値と (2019 年 5 月 31 日公表) 平成 31 年(2019 年) 4 月分 Figure3. 労働力調査(基本集計) Figure4. 上限 値と設定する。 55 ・ 64才を括りとして就 おり、 最新の労働力調査では、 600000 題化している8050問題を反映している可能性が伺え 倒掬000 "世代 ニ佳代〈懲傍盆と予7 3笹代 話量 ''"飴 ,.才以上 70・H才 師...才 e令制才 措""'"' 取λ81111>変化 炎筒のみ と子)」の分布が微妙に上昇しており、 最近問 1000000 る。 業率が調査されており、 2018年のその値は75%を超えている。 第 17 表 年齢階級別就業率より抜粋 点、でも、 それほど低下していない可 能性も考えられるが、 本分析では60 才以上の単身または夫婦のみの世帯」

391.

以上の結果から、2004年のデ ー タで分析対 ω才以上単身まをは夫錫ll)ih.収入総額防万円以下の世帯署員{20例年} 一 象とする高齢者世帯は、 「60才以上の単身ま 7聖E帯区王子? 世帯数1 6?.0, 35?! j勤明者 iiJJ 者以外1]50,4361 たは夫婦のみの世帯で、 収入総額が650,000円 摂麗世帯 以下の世帯」と定義し、 非勤労者世帯も含め、 4,541,?f,41 ts12担� ロt およそ650万世帯が該当する。 分析対象の世帯数 2.2分類方法 対象とする世帯の生活の豊かさを計る指標として、 娯楽費に着目した。 娯楽費の多少により、 生活に 余裕があるのかないのか、 安定して楽しく暮らせているのかどうかを判定することにし、 闘値の定義の ため分析対象の娯楽費の分布を確認した。 以下Figuresが、 「60才以上の単身または夫婦のみの世帯」の娯楽費の分布である。 夫婦のみの世帯 は世帯人数で割り、 1人あたりの娯楽費を算出した上で、 各調査年の娯楽費金額とlogをとった値の両 方で確認を行った。 単身または夫婦のみ世帯の1 人あたりの娘療費(60オ以上} 置 Ill巨 (los)O) Ill陸曹の分事 ’酬 ’”狗 質問胤 分権 ’鎖拘 初 、 ・0 • • ,,! ?、,、晶 ” " 岨 一一 0 割問削国 1恒掴園田 昌 明Z町田 T団X悶曲 ,,畠た”の聞置’ 目 E田町m t町四回同 回0 U SD U 100 lUi Q.O U 50 1S 10D I!.$ llO U 50 15 100 125 錫..... 60 才以上の単身または夫婦のみの世帯の 1 人あたりの娯楽費 Figures. 金額ベ ー スでは、 小さい値の頻度が非常に大きく右裾に長い分布となっているが、logをとると右より であるものの正規分布に近い分布形状である。 また、 4 回の調査年においては、 1989 年の値が小さい が、 その後の推移として特に大きな変化はみられない。 以上により、 闘値として2004年の娯楽費のlogを用いて以下のように設定する。 豊かさ 関値(娯楽費のlog) | | 高 9.42 (中央値)以上 3. 分析結果 3.1 職業面からの比較 3 405 中 9.42 > * > 8.10 | 低 8.10(10%点)以下

392.
[beta]
P

豊かさのグ ル ー プ別の職業の分布は Figure6 のようになっている。
これによると、 無職が全世帯の 70% 近くを占め圧倒的多数である。 豊かさのレベルは高いグツレ ー プがお
よそ 50% 、 低いグル ー プは 10% になっている。 次に商人および職人の世帯が 10% を占め、 こちらも無
職と類似した豊かさの分布である。 少

現皐周巳晶止盟fl宮町世帯分布(2004年60才以上回単身宮止惇夫錦町品世帯}

:
it - ;
;
r- -.
1
!
一一一一一」}ぜ;主単位明治l.".上;唖=�-'-"tこ場.I�c_..jJ

数派であるが、 官公職員1、 個人およ

IEC時以J:OJ・震創世・ll 1

剛

び法人経営者は、 豊かさ高が 70 ~ 80%

11iiiat1sbt:!ll鷲句麗かさ

.... 44.似酋
0/ll!IIII作lllt
j閉 店m
店普及煙筒・屡!IIIJ倖軍脅1
46,234
0.71
7.131語
'
z掴2詞
3.52
10.&咽
民-
官公・.,酎
3,
曲’
O周
'
一
一一一一叶一
f宮崎民間
1 叩) 岨:目i
I m.田v
t .97 79.042 i
鳴λJll1聴人
O.TT
語句 l
偉人as
血相v
!
232.1122
3凪 坦.鍵淘
a魯温織鍵康管

を占め、 高収入の裕福な世帯と見受け

…

られる。 逆に、 常用・臨時及び日々雇
の労務作業者と農業漁業従事者につい

i

一一一

'

・

...

’

1U1
筒27
4.73

一一

148,α拘
18,4蝿
回目8
7血
...... _
掴包制@
叫由8
町田V

512
m柑
• ••
.-

”園

帽凪
掴訓
掴...
18.国

’目、t薗
20,,国
世,,,崎
:弘師?

仰向
掴118
s国岬. '
掴蝿
制凪

揖....,.
w

’,...

晶符
制自
製日3

刷""

j

山
田昌
70.26
43.54

j 制畑 J
2剥
4 醐j
Z 世ι·'·'』惜し
民国
叫叫 l
73.31 ,
一
子
一- ··-·--- ……ーすI TT.2坦:
…… ト ー 旬惜 5,7,輔 …ー 7.44 28,9田 … >7.副 •• 仏国t '' 時国…
副... 、,
..., '
,.,一
..
'
' …
帽盟j 一一
( 一 一一一一
一
(i ー一 a坦
一I 一 坦,479
臥闘e
1'111111脅
一叫司…吋
' ーを0>1!1
11噛 一

ては、 55% 以上が豊かさが中程度以下

ι

'

1・制.時十

凪74 4掴,787'

f一一一一

の状態になっている。

福

…

'

!

〕~ 〕

日二

l

二二:: �.J

ふ:

2;

叩昂

目

D

’,刷..田4
782 ,.

朝田急掴2坦
26.70

Figure6. 職業別豊かさ別の世積分布

3.2 収入面からの比較

相m .
問

次に「勤労者世帯」および「無職世帯Jについて収入に関する分析であるが、 3.1 の職業別の結果か
ら、 豊かさ高の割合が 80% と非常に高い「官公職員 1 Jと、 詳細が不明な「不詳Jは、 除外することと
する。 また、 預貯金は、 収入費目の「預貯金引出」と支出費目の「預貯金」があり、 実質的な収入とし
て勘定できるのは、 この差額であると想
定する。

Figure?のようになっている。
〔

Ev
gM’

社会保障給付は他費目に比べてばらつき
が小さく、 給付金は総じて同等の金額で

。
。

。
自gaEEEEA

。
8aHEEBB-4

以上の前提において、 収入源の分布は

1

ある。 「預貯金から」とした項目は、 預
貯金の収入費目から支出費目を引き算し
たもので、 値の範囲が非常に大きい。 60
才以降も預貯金への預け入れができる
か、 持ち出し一 方になるのか、 世帯によ

Figure 7. 官公職員 1 を除く勤労者の収入源

って状況が大きく異なっている。

Figure8 は、 収入費目の豊かさによる比率の遣いを表したものである。
各収入費目の「%」は、 収入総額に占める各費目の割合、 「比率」は豊かさ高を1とした場合に他のグ
ル ー プがどの程度の比率になるかを表したものである。
収入蟹闘.,.t, さ JllO)比111(2回4年剖才紙』ヒ阜a "'"" 尖婦のみ雀問
%収入館曾C:.!il>る荷台底調, ....問問l引とし a止 と.. .,修司R
!
蜘叫ム
!
命科 目:}
月叫y i一二対岸;…←L……....Ji....子; … 二関肺H ー し…・人目吋 仁 剛山
目山
. -'!.L�-ふ忠一点ょ月ゅよ型J 戸 時ぃ-�·-···!鴨 同
'!.! "'弓)-
I...
町 "·内''・・ •
’“
日。 "·'淘 .92 041 .‘・8 "' ・A時 州ム% 叫んM淘 I •九時…
2鱒
"' '""国E
"'
。., "’ ...l
0.75 9"49 n ”
.... ,.,, 。,e i:均一
.....:岬;問ふ'!.,.

‘

•=!..

A

冒w

”

川

陶

"'

臥鍋

,,,

Figures. 収入費目の豊かさ別の比率

これによると、 各グソレ ー プとも収入総額に占める社会保障給付は 27% 程度で、 一番大きな割合を占め
ているが、 実に3割にも満たない状況である。 15年前の2004年時点で、 すでに年金のみならず、 他の
4

406

393.
[beta]
収入源が必須の家計状況が伺える。 ここで、 豊かさによる差異の要因として、 主たる収入源である社会
保障給付と預貯金、 また豊かさ高に対する比率が 0.44 でしかない個人・企業年金に注目する。
預貯金に関しての追加の分析として、 収入に勘定される預貯金引出と支出に勘定される預貯金(預
入)の差額を預貯金残高の増減と仮定し、 中央値の推移について年齢を追って確認した。 50 才以降、
同じ職業の人が継続して勤労していることを想定し、 擬似ミクロデ ー タに含まれる4回分の調査年か
ら、 以下のように世帯主年齢を抽出し、 職業別に集計した。
調査年

/

世帯主の年齢

19s9年

1994年

/

1999年

/

2004年

/

I so 54才| 55 59才 I 60 64才| 65才以上
~

~

~

Figure9 に示すグラフから、 5564 才ではどの職業

嶋象溺寝野会議事由推移

’”

lOOO

でも値がプラスとなりこの期間は老後資金を蓄えやす
いタイミングとなっていることがわかる。 子育ての終

100000

了、 退職金の受領などが影響していることも推測され
る。 60 才以降、 職業があればその後も残高はプラス
である。 中でも民間職員はよほど余裕があるように見
られる。 60 才以降、 無職となった場合は、 退職以前
の職業で分類することはできないが、 無職世帯の中央
値としては残高マイナスの状態が継続している。

骨”才

一一
時制才

骨e・"

S歩..コp

10-14司V

"才以上

年!!

Figure9.職業別預貯金残高の般移

3.3 支出面からの比較
次に消費支出の 10 大費目のうち、 娯楽費とその他を除く 8 項目と、 非消費支出について分析した。

禽........
..
...,.. ・m .. ”,‘ .. ...., ,箇 日$ ’

実1110.,•11u1a,化事。∞・等曲,t以上•it11!t..実働のみ曾帯}

,.,:i,

Gll

...
e

沼

健婿

’

伺

ー

,,,

.

皿咽

醐叩$

叩

•

.U:0.1凶

J鋼鍋店舗

刊.,,

%

抽

亀剛

明

噛山“

同

{WI

115

UICI

$J除

’” 民

匙息
一
一ー
.n

聞

各
縫湾
ームー
一 一←
11.1110
�
OJ10
1:).215

・..‘・周・

憐鎗箇ζIi«>る倒合

昆昆$ヨa

何
一一一
m

内

比•

•aa 匝1耐としたと雀@比$

‘ ... ..,・. ’‘,... ... '"" 卑廻・@’‘

a復・e
島周隣

1.)1

us

府
一
S,l1r,

一一
1.S&

aη

@縄

開

唱

。岡

山

'"

a網

"防

相鈎

Ul

t.00

1.e初

UO

I.GO

虚湾
一一ー

一

開

問

抽

I�

2.511

1.00

一

問

一

. ’‘・m 句 ’

a 嵐,.

ea

filllH

唱90

島海

.鋪

....

出”

..・

叩

1&.7tn

<117

1.00

R

, ,

・

・

畑

2

叫調。

健忠

岡

a

:ua

];旬

間

叩'

'同

開

1JO

!.Ta

H)・

,,銅 ’&.

曳

一

...
一
。.,

Figure 10.支出資自の豊かさ別の比率

FigurelO は、 収入費目の豊かさによる比率の違いを表したものである。 各支出費目の「%」は、 支出
総額に占める各費自の割合、 「比率Jは豊かさ高を1とした場合に他のグル ー プがどの程度の比率にな
るかを表したものである。
これによると、 最も大きな割合を占めているのは食費で、 11%程度となっている。 また、 唯 一 、 豊か
守

さ低のグル ー プが豊かさ高のク ル ー プを上回る比率になっているのが住居費で、 豊かさ高に対して 1.72
倍となっている。 食費と住居費について詳細項目についての集計は以下のとおりである。

5

407

394.

豊.,,吉却にみ止食費時状況( 2(間同年ω才以上阜身また鉱夫婦田品世帯} 割合: 潟質支出に占晶晶割合 由 一 … i j 輔副岬勾|姐の鞠 j 踊 i A1tlil : 胡 ! 耳iiii「:n:�白1 iiici : �.羽 1 uaa·T u T 町 了三am告 : | 'bさ! 一一 拘留! i 齢 i 平帽!齢j拘留;観念!平均町酷:鞘II i 酷 i 鞘圃 i 齢 l 鞘II!_!空二三空配備j刊回;齢j鞘留 i I l 1 2,竺;ち戸._,吟: 1,823' 的12,•,竺j Zぶ·-;一円j引竺旦記旦担当竺jE叩I'マヨヰ勾jぶ[4,33 三一千---�や符1…一丸1吟し叩.. 之 干 ! 附押|ゅ:叩: 2,岡山L3·32-��醐 惜 1 捌,,... J吐ヨ竺i’四; 2.田:,.., L ..醐掛川』 芳三よい!”••I方夜夜明; 5,557J円引 ,平均 ,明 ! 惜叩 Figure11.無職世帯の食費の豊かさ別の比率 食費に関しては、 Figurell に示すとおり、 一 般外食以外のすべての項目において、 豊かさ高と低で大 差はないが、 低の方が若干大きいという傾向にあり、 これは単純に豊かさが低いと他の支出費目よりも 食費にかかる割合が高くなる傾向を反映しているものと考えられる。 一般外食は、 言わばぜいたく費で 豊かさ高の部類に含まれる費目であるため、 他の食費項目とは反対の傾向となっている。 ー ー 住居費は Figure12 に示すとおり、 唯 一 、 家賃地代が、 豊かさ低のク ル ー プが豊かさ高のクル ー プを上 回っている。 消費支出に占める割合も、 豊かさ高のグル ー プが 2.83%であるところが、 低いクル ー プは 10.18% と、 約 3.6 倍の負担となっており、 注目すべき点である。 .かさ別にみた住民貨の状況( 2004年60オ以上単身または夫婦のみ世帯} 鋼会: 消費支出に占める割合 消鑓…i 住駒刊誌�主君:計器 晶 、話函「 21,7岱 i 唱 s.描! 10.1a J s.制 I 4.29 I 2.s,2 I t訓! 3.5総 2.35 唱 s.43, I a.制4 I s.2a I 1.鴎714.図 I 3,276 11.sa I 4 ら 311 2.57 167.477 i 2.a2s I 仰|加!珊自 J 4.34 J 一_1. L 哩坐 Figure12.無職世衛の住居費の豊かさ別の比率 叩, 315 j 4. : 結論 以上の分析により、 2004 年時点で 60 才以上の単身もしくは夫婦のみの世帯で、 「多少の娯楽も楽しみ ながら安定した生活を送ること」に関連が深い項目は、 収入面は主たる項目である「社会保険給付」「預 貯金(収支の差額)」と比率で差が大きい「個人 ・ 企業年金」、 支出面は負担が大きい「家賃地代」であ ることがわかった。 最後に、 この4項目を説明変数とし、 娯楽費のlogの中央値を闘値として、 豊かさ高と豊かさ低の二項 ロジスティック回帰分析を試みた。4つの説明変数はそれぞれ、 収入総額 ・ 支出総額に占める割合の対 数を因子とし、 豊かさ高(タ ー ゲット=1)となる確率を求める形式とした。 、 結果は以下 Figure13 のとおりである。 AUC は 0.59 程度でモデ ルの精度はよいものではないが、 各因 子の影響度は最尤推定値(オッズ比)から推察できる。 家賃地代の割合が大きくなれば、 豊かさ高にな る確率が低くなり、 個人 ・ 企業年金の割合が大きくなれば、 豊かさ高になる確率が高くなる。 最尤推定 値の大きさから、 豊かさ高に導く因子は、 社会保険給付や預貯金よりも、 個人 ・ 企業年金の方が、 影響 が大きいことがわかる。 6 408

395.
[beta]
モデルの慣栂



電尤Jilli憧の,e続

宅デルに童書するR c自信
陶磁下面積=05945

nラ)( ll; 1111!1![一一一
8忠信IUI圃畠
カイ2l量Iii Pr>CldSq

一一一一一一一一一一
山…-……




し糊
L判官

j

U沢曲、

!

-一一一
I

し別沼7

鶴b込ん芭オプザペー シヨン監1

7217

使用され念オプザペ

72廿



臨み且ん草銅置の告計

シヨン鼠1



。醐4

0.醐74

t掛川副



1

a揃O回開

開制

叩1



1,521泊

0.2伽"'

1



0157

a曲お淘

‘.0001
‘“削

9437.例狗6

唱曲S担。

ar,x胞の継定



I 515剖50'

畳居され主観置の合計

|引田450 I

E盃[耐空ミ
liUliプロ77イIし

1

0

却397悶

2

1

2513677

モデルの砲事革匁鯵匂L何g,,1です.

予麹m,障と11111デー タ@応答との関透健
ー滋@酷;


 磁の面会1

1LJ
一…一
宇イ叩


回4釦叩のO

40.6

o.o

I e.臨時前E12

M曲

ガンマ

0.169



e剛

:r,町 内)醐

。加

0.25

o.s。

1  特異度

1

0.75

Figure13. 4 因子を使用したロジスティック回帰の結果


年2004年の60
なお、 このモデ ルは、 調査

変数

収支項目名

最尤推定値

オッズ比

才以上の「単身世帯と夫婦のみ世帯」で、

I Y084

家賃地代

-3.5464

0.029

「勤労者世帯(官公職員1と不詳を除く)お

I Y017

社会保険給付

0.2096

1.233

よび無職世帯」かつ収入総額が65万円以下の

I tyokin

預貯金差額

0.2046

1.227

I Y027

個人・企業年金

1.5296

4.617

世帯を対象にしたものであるが、 他の家族分
類や、 収入項目の調査がない非勤労世帯につ

いても、 同様の手順で分析することにより、 今回の分析との相違点を確認することが可能だと考える。

5. 考察
「個人 ・企業年金に加入し、 自分の家を持つことjは、 収入額に左右されることは否めないが、 公的
年金の行方が不安な状況において、 どちらも若い世代から少しずつ長期的に取り組み備えておくこと
で、 ひとまずは安心して老後を迎えられるのではないだろうか。
しかし、 個人年金保険の世帯加入率は平成30年の調査では21.9 %で10年間変動がなく、 持ち家率は
平成25年の調査では61.5%で60%前後の推移が長期間継続している。 若い世代は子育て費用や社会保
険料などの負担も大きく、 厳しい現実である。 より個人年金に入りやすい、 あるいはそれに替わる蓄え
やすい老後資金、 そして、 より住宅を購入しやすい、 さらなる施策が必要だと考える。

6. 参考文献
・ウィキペディア「高齢化社会」 https://ja.wikipedia.org/wiki/高齢化社会
・総務省統計局平成16年全国消費実態調査http://www.stat.go.jp/data/zensho/2004/index.html
労働力調査(基本集計) 平成31年(2019年) 4月分(2019年5月31日公表)
平成25年住宅・土地統計調査 4-1

世帯の居住状況とその推移

https://www.stat.go.jp/data/jyutaku/2013/pdf/nihon04-1.pdf

7
409

396.

ー -公益財団法人生命保険文化センタ 平成30年度「生命保険に関する全国実態調査」 個人年金保険の加入状況 ・SASユーザー総会2017論文集sas-user-groups-2017・proceedings-jp.pdf 付録 1 規定課題用 SAS プログラム [規定課題1] proc format; value f YEAR ” ” 1989 = 1989年 ” ” run; 2004 = 2004年 ; proc format; value NENDA1 (multilabel notsorted) ” ” 5, 6 = 29 歳以下 ” ” 7,8 = 30 歳代 ” ” 9,10 = 40 歳代 ” ” 11,12 = 50 歳代 ” ” 13,14 = 60 歳代 ” ” 15,16 = 70 歳以上 ” ” 5,6, 7 = 再掲 34 歳以下 ” ” 8, 9,10,11,12,13 = 再掲 35-64 歳 ” ” 14,15,16 = 再掲 65 歳以上 ; run; data work.datal; set IN_DS.giji4zensho; keep YearX09 Y040 Y041Y083 Y103 Y137 weight; where (Year = 1989 or Year = 2004); Y103 = hihuku Y083=jyukyo Y041 = syokuryo rename X09 = nendai Y040 = syohi labelX09 =年代; label Year =調査年; label Y040 =消費支出; label Y041 =食料; labelYI03 =被服及び履物; label Y083 =住居; label Y137 =教育; run; data work.data11· set work.datal; jyukyo2 = jyukyo; 匂oiku2 = kyoiku; hihuku2 = hihuku; if jyukyo2 = 0.0 then j卯kyo2 = . ; if hihuku2=0.0 then hihuku2 =.・ if oiku2=0.0 then kyoiku2=. ; run; label kyoiku2 =教育; label hihuku2 =被服及び履物; label jyukyo2 =住居; proc tabulate data = work.datall format = commalO.O; class Year nendai / mlf preloadfmt order = data; var syohi syokuryo jyukyo hihuku kyoiku jyukyo2 hihuku2 kyoiku2 / weight=weight style=[CELLWIDTH = 1.5 cm]; ”” ” "" tables (Year = )ペ ALL=”全世代 nendai = ), ” ” ALL = すべての世帯吋 syohi syokuryo jyukyo hihuku kyoiku) ・ mean =" ALL ="各費目に支出のある世帯のみ ” ・ (jyukyo2 hihuku2 ky,印刷2) ・ mean ="・ ” ” / rtspace = 50 box = 調査年世帯主の年齢 ; ” 問 title 課題l 世帯主の年齢別 一世帯当たり平均支出金額 ; ” ・- title2 justi今= right height = 9pt (単位:円) ; run; format Year f_YEAR. nendai NENDA1.; Y137 = kyoiku ; [プログラム解説] proc tabulate を使用して集計表を作成する。 -集計表で使用する項目のカテゴリ値(符号内容)をformat文で定義する。 ・必要な項目を抽出して、 変数名とラベルを付与する。 -費目に支出がある世帯のみを集計の対象とするため、 支出がゼロの世帯の値を欠損化する。 • proc tabulateで集計用乗率weightを指定し、 集計表を作成する。 [規定課題2] proc format; value RUIKE!a (multilabel notsorted) ” ” 1= N ” run; 2 = "未就学児がいる世帯 ; roe format; 8 410

397.
[beta]
value RUIKE!b(而司己label notsort記 7
” ”
I= N
”
”
2 = 学校に通う世帯員がいる世幣 ; run:
proc format,
value RUIKE!c (multilabel notsorted)
”
”
0= N
。'
”
I, 2 = 65 歳以上の世帯員がいる世帯 : run;
data work.data2:
set IN DS.giji4zensho;
keep Year No X12 X13 X14 Y040 Y041 Y083 YOBS Y093 Y103 Y121 Y126 Y137 Y141 Y151 weight weight2;
where (Year = 1989 or Year = 2004);
weight2 = !;
X14 = koreisya
Y040 = syohi
rename X12= misyugaku
X13 = gakko
Y088 = kounetu
Y083 = jyukyo
Y041 = syokuryo
Y121 = hoken
Y126 = koutu
Y103 = hihuku
Y093 = kagu
Y15I = sonota ;
Y141 = goraku
Y137 = kyoiku
label XI2 =未就学児の有無;
label X13 =学校に通う世帯員の有無,
label XI4=65 歳以上の世帯員数,
label Year = 調査年;
label Y040 =消費支出;
label Y041 =食料;
label Y083 =住居;
label Y088=光熱・水道;
label Y093 =家具・家事用品;
label Y103 =被服及び履物,
label Y121=保健医療;
label YI26 =交通・通信;
label YI37 =教育;
label Y14I =教養娯楽,
label Y15I=その他の消費支出; run;
proc tabulate data = work.data2 vardef = wdf format = comma10.0 out = work.kada12,
class Year misyugaku gakko koreisya / mlf preloadfmt order =data;
var No syohi syokuryo jyukyo kounetu kagu hihuku hoken koutu kyoiku goraku sonata weight2
/ weight = weight style = [CELLWIDTH = I cm];
”
tables (Year =川) * ( ALL="全世帯 misyugaku = "" gakko =川 koreisya ="’)
”
”
”
(Year=”世帯数の構成比(%) 戸((weight2 =" ) ホ (colpctsum = ”) *f = 7.l)
”
”
”
”
(syohi = "l 世帯当たり消費支出(円) •(mean ="平均 (std = 標準偏差 ) *f = comma!O.l))
( ALL="消費支出に対する 10 大賞目の構成比(%) 叫 (syokuryo jyukyo kounetu kagu hihuku hoken koutu
川
kyoiku goral叩sonata)ペ(rowpctsum<syohi >= ) *f = 7.l));
”
”
title 課題 2 世帯の種類別、 消費支出に占める 10 大費目別支出金額の割合 ;
run;
format Year f YEAR. misyugaku RUIKE!a. gakko RUIKE!b. koreisya RUIKE!c.;
data work.kadai22;
set work.kadai2:
format ruikei $48.;
ru1l《目= misyugaku,
””
”
if (ruikei EQand (gakko NE ”) then ruikei = gakko:
”
川
if (ruikei EQand (koreisya NEthen ruikei = kore1sya:
”
"
if _TYPE_ EQ 1000 then ruikei = 全世帯 :
syokuryo_Pct = syokuryo_PctSum IOOO_syohi;
if (syokuryo_Pct EQ .) and (syokuryo_PctSum_lOIO_syohi NE.) then syokuryo_Pct = syokuryo_PctSum 1010 syohi:
if (syokuryo_Pct EQ .) and (syokuryo_FctSum_lOOl_syohi NE.) then syokuryo_Pct = syokuryo PctSum 1001 syohi;
if (syokuryo Pct EQ .) and (syokuryo PctSum 1IOO_syohi NE.) then syokuryo_Pct = syokuryo PctSum_llOO_syohi:
jyukyo_Pct = jyukyo PctSum 1000 syohi;
if (jyukyo Pct EQ .) and (jyukyo PctSum 1010 syohi NE.) then jyukyo Pct = jyukyo_PctSum IOIO_syohi
if (jyukyo_Pct EQ .) and (jyukyo PctSum_lOOl_syohi NE.) then Jyukyo Pct = jyukyo PctSum 1001 syohi;
if (jyukyo_Pct EQ .) and (jyukyo_PctSum_lIOO_syohi NE.) then jyukyo Pct = Jyukyo_PctSum 1100 syohi;
kounetu_Pct = kounetu PctSum_lOOO syohi;
if (kounetu Pct EQ .) and (kounetu_PctSum_lOIO syohi NE.) then kounetu_Pct = kounetu_PctSum !OlO_syohi;
if (kounetu_Pct EQ .) and (kounetu_PctSum_lOOl_syohi NE.) then kounetu_Pct = kounetu_PctSum_lOOl_syohi:
if (kounetu_Pct EQ .) and (kounetu_PctSum_llOO_syohi NE.) then kounetu_Pct = kounetu_PctSum_llOO_syohi;
kagu_Pct = kagu PctSum_lOOO_syoh1;
if (kagu Pct EQ .) and (kagu PctSum_lOlO_syohi NE.) then kagu Pct= kagu PctSum_lO!O_syohi;
if (kagu Pct EQ .) and (kagu PctSum_lOOl_syohi NE.) then kagu Pct = kagu_PctSum 1001 syohi;
if (kagu_Pct EQ .) and (kagu_PctSum_l!OO_syohi NE.) then kagu_Pct = kagu_PctSum_l 100 syohi;
hihuku_Pct = hihuku_PctSum_lOOO_syohi;
if (hihuku_Pct EQ .) and (hihuku_PctSum 1010 syohi NE.) then hihuku_Pct = hihuku_PctSum_lO!O_syohi;
if (hihuku_Pct EQ .) and (hihuku_PctSum IOOI_syohi NE.) then hihuku_Pct = hihuku_PctSum_lOOl_syohi;
if (hihuku_Pct EQ .) and (hihuku PctSum 1100 syohi NE.) then hihuku Pct = hihuku_PctSum_llOO_syohi;

9
411

398.

而ken_Pct一三hoken_PctSum_lOOO_syohi; if (hoken_Pct EQ.) and (hoken_PctSum_IOIO_syohi NE.) then hoken_Pct = hoken_PctSum_IOIO syohi; if (hoken Pct EQ.) and (hoken_PctSum IOOI_syohi NE.) then hoken_Pct = hoken_PctSum_IOOI syohi; if (hoken Pct EQ.) and (hoken_PctSum llOO_syohi NE.) then hoken Pct = hoken_PctSum 1100 syohi; koutu_Pct = koutu_PctSum_IOOO_syohi; if (koutu_Pct EQ.) and (koutu_PctSum_lOlO_syohi NE.) then koutu_Pct = koutu_PctSum_IOIO syohi; if (koutu_Pct EQ.) and (koutu_PctSum lOOl_syohi NE.) then koutu Pct = koutu_PctSum_lOOl syohi; if (koutu_Pct EQ.) and (koutu_PctSum_llOO_syohi NE.) then koutu_Pct = koutu_PctSum_llOO_syohi; kyoiku_Pct = kyoiku_PctSum_IOOO_syohi; if (kyoiku_Pct EQ.) and (kyoiku_PctSum_lOlO_syohi NE.) then kyoiku_Pct = kyoiku_PctSum 1010 syohi; if (kyoiku_Pct EQ.) and (kyoiku PctSum 1001 syohi NE.) then kyoiku Pct = kyoiku_PctSum_IOOl_syohi; if (kyoiku_Pct EQ.) and (kyoiku_PctSum_llOO_syohi NE.) then kyoiku_Pct = kyoiku_PctSum_l100 syohi; goral叩_Pct = goraku_PctSum_IOOO syohi; if (goraku_Pct EQ.) and (goraku_PctSum_I010_syohi NE.) then goraku Pct = goraku_PctSum_IOlO_syohi; if (goraku_Pct EQ .) and (goraku_PctSum_IOOl_syohi NE.) then gorakuーPct = goraku_PctSum_IOOl_syohi; if (goraku_Pct EQ.) and (goraku_PctSumーllOO_syohi NE.) then goraku_Pct = goraku_PctSum llOO_syohi; sonota_Pct = sonota_PctSum_lOOO syohi; if (sonota_Pct EQ.) and (sonota_PctSum_lOlO_syohi NE.) then sonota_Pct = sonota_PctSum_IOIO_syohi; if (sonota_Pct EQ.) and (sonota_PctSum IOOl_syohi NE.) then sonota_Pct = sonata PctSum IOOl_syohi; if (sonota_Pct EQ.) and (sonota PctSum_llOO_syohi NE.) then sonota_Pct = sonota_PctSum_lIOO_syohi; run; data work.kadai_output; set work.kadai22; format weight2_PctSum_lOOO_weight2 7.1 syohi_Mean comma!O.O syohi Std comma!0.1 goraku_Pct hihuku_Pct hoken_Pct jyukyo_Pct kagu_Pct kounetu_Pct koutu_Pct kyoiku_Pct sonota_Pct syokuryo_Pct 7.1; keep Year ruikei weight2_PctSum_I000_weight2 syohi_Mean syohi_Std goraku Pct hihuku Pct hoken_Pct jyukyo_Pct kagu_Pct kounetu Pct koutu_Pct kyoiku_Pct sonota_Pct syokuryo_Pct; rename weight2_PctSum_lOOO_weight2 = kouseihi; ’ if ruikei EQ V then delete; run; proc report data=work.kadai output NOWD STYLE(column) = [width=!.4cm verticalalign=centerl ” ” STYLE(header) = [verticalalign=center] split = # SPANROWS; ” ” title 課題 2 世帯の種類別、 消費支出に占める 10 大費目別支出金額の割合 ; COLUMN Year ruikei kouseihi ” ” ( 1 世帯当たり消費支出(門) syohi_Mean syohi_Std) ” ” ( 消費支出に対する 10 大賞自の構成比(%) syokuryo_Pct jyukyo Pct kounetu_Pct kagu_Pct hihuku_Pct hoken Pct koutu Pct kyoiku Pct goraku Pct sonota Pct) ; ” ” DEFINEYear/order 調査年 STYLE(column) = [verticalalign司op]; ” ” DEFINEruikei / 世帯類型 style(column) = [width=4.5cm] ; ” ” DEFINEkouseihi / 世帯数の#構成比(%) style(column) = [width=l.7cm]; ” ” DEFINEsyohi_Mean / 平均 style(column) = [width=l.7cm]; ” ” DEFINEsyohi_Std / 標準偏差 style(column) = [width=l.7cm]; ” ” DEFINE syokuryo Pct / 食料 ; ” ” DEFINEjyukyo_Pct / 住居 ; ” ” DEFINEkounetu Pct / 光熱・#水道 ; ・ ” DEFINEkagu_Pct / 家具・#家事用品 ; ” DEFINEhihuku Pct/ "被服及び#履物 ; ” ” DEFINEhoken Pct / 保健#医療 ; ” ” DEFINEkoutu_Pct / 交通#通信 ; ” ” DEFINEkyoiku_Pct / 教育 ; ” ” DEFINEgoraku_Pct / 教養#娯楽 ; ” ” run; DEFINEsonota_Pct / その他の#消費支出 ; 。 [フ ログラム解説] proc tabulateを使用して集計表デ ー タを出力後、 proc reportでレポ ー ト形式に整える。 -集計用乗率を使用して世帯数を集計するため、 1世帯を1とカウントする変数を作成する。 (weight2) • proc tabulateで、 vardefとweightを指定して実行後、 結果をデ ー タセットに出力する 0 ・出力不要な世帯類型の値を削除後、 proc reportでレポ ー トを出力する。 10 412

399.
[beta]
付録2規定課題図表 一 覧
醐

i

幽
章
均

図表]
・
($位 円}

…
ト川
一畑 一

2222
mm 畑m
一 m 湘一
周一
脚

…
川町 …
純一

制一
紘 一 町一制 帽 一
割 崎 一
E M 帽 一
国 …n 制 帽 n 制 刊 一
岬担 割 岨 別
一
号 I L -
-
i! 11

aaM叫

aE 1

WLm m
一m 一
描m
一 一
叫一
湖一
明 瑚一
叫 側一
期一
蹴 間 一
脚一
醐 闇 市 町 制
a

mmm

mm

t

2

世「 し
日 …

→

s

[規定課題

叫 崎町
叩
H同一
均一
色
時一
←
一
は u町
日叫ん
唯 一品一
且 純 一眠 時 一
凪 眠 時一
創 剛一
胸一
叫台湾 ム 一
←
)i j
一
与
一
一
割一
組 制 四一
醐…
四一
抑 制 一
側…
附 一蹴 拙 一 一
問…
書 一 問削 一
間 蹴 瑚 …
川町一
世円凪
明日朝叫凪 …
ぬ 凪一
紙…
挽 訂 一
同一
悩 一 忽一
明日一
凪 叫 凪 一
札一

z
rsム 一

・e

’
ー
’’ ’

…子
一 四一惜 畑 一
時 四 間一
畑一
応 判 明 細 川一
訓
一
糊 …拙 抑 制 醐 …
2 …
s 一回 一一
刊 訂 剖 t
世…
一 一
4時 t
泊 2 Z 一
語一
一二処回 一H 1 情 一
一 一
一 一

一
朗E 2 1 1 2 2 1 1 1 2

…
即 胸一

mm

mmm 明 仰 仰 棚 判 別 仰 山 川 柳 叩 附 加 問 問 側 側

川

世

昌

一
し
ー
ィ
口
・’

m

一
制 一
盟榊 師 一
叩 間 瑚 馴 悶 側 帥 叩 剤 耐 問 問 叩 期 制 湖一
醐
…
刊 一
個 …也鈍 地 也 叫 叫 叫 ね 叫 叫 …
仙川一
明叫却 叫 叫 怯 叫 臨 時 時
ベ- 一
+
!
拘
…
即 時 鮒一
一
畑一
周 脱 却~
脚…

if1
4 脚mmm 閥均 一細 川

酔
噌

一

…

一

戸 商 一町 一
割一
輔…
刊一
随一
一 釦 一 刊 ~詔 一
四←
曲一
司一
制…
国一
曲一
軌一
日一
輔…
制 一割 一

師

!?
一

一
mmm 一砥 m

L

明

22 ←崎一蹴畑一四一切 四

四 抱一
捌一
応 捌…
町一
抑 制…
…

一

四一
透

←

…
剛 一蹴 …
制一
蹴一
蹴一
蹴一
献血 一
伽一
制一
則一

間

五 由説 明 主 ィ
刷一
円台 一

22

m 一捌 町 一

一

海

h
3
322

明

一誠

寸コ!

…
却 に湾

》

tiilh}

i ll
J1 3 1 1 I 1 2 J J i J j
J J
i…
上 …… 一 … ← 一 一 一 下一
一一 一 一 一 一 一 F 一量 一
量一
よ一
四 一 千
二 二
一上 …
劇叫 勲
一 下一二
一 一
剛一
判一
制一

…

t

三

軸 一 蹴一
制 蹴一
脈血 一
郎 副一
肘

一

1

H4
( i

・

踊 一 時

i i

畑 一 前

[規定課題1

図表]

縁組2世帯,の橿思周.清書室出E占«,る柑:I<置自民主出量留の割合

時一一 一一……一一一一一一…ー -…-……一一…………一、…一 回 一 m…山一一一 一一一 -
j構
L·…
l j
I 一一一一一………一一一一一一一
一一一一一一一」一
融寧!

旬鋭調停

金曾ill

:1世俗語怠‘)l措置量出t円}!

;世@障の i
成陶磁3

世輔盛

υ

*属学,VI る健穆

,

司幹線E週ラ雀移畠f!V,.1!!!11

2004写

回a威主の世帯量ffυ,.1堂
会館e

家風.見,,.�,る曾穆

診を史E彊う曾穆且,,.いる1!tlll
田acえよの鷲穆量,,.いる世<II

平均

i

i

輔畠 I

t刷.454.4

100.0

273,’田

崎3 '
m日

3拍白金田

166,1泊’

招待

沼田S倒

’制,倒0.1

盟7,6岨144,652.5

誕I0.117

2曲凪却8. 0

担.• 1

t問。
甜ア

37.6

270,盟
S
129,791. 7

筏鼠制7

271.0却

183,781.8

’田.570.0

i

1附!制
273

5. 6

2 9.1

車•·
措

6.1

5.2

5.6

l

靖曹宜幽E却する帽大置目の舗埠比側占
r -…
jその他のl
ι 教聾
i 克渇
1敏凪且ぴ1 蝿儲
鹿島・
脚用品; 醐
醐!糊;酬?櫛;泊費宜出|
剖.7'
9.2
43
9. 9
2.7
7 .4
3.6
3.9

7唱

35

3. 8

3.0

89
4.6

3.2

2.6

4. 4

280

3.9

53

3A

23.3

6.6

6.3

4.3

27.6

5.8

‘

22 8

6.0

e

24.4

5.6

7. 1

23 . 0

4.2

6.1

付録3自由課題 SASプログラム(主要部分抜粋)
/ ’ デ ー タの抽出と媒楽賞算出 */

data work.data;
set IN_0S.giji4zensho; where X09>= 13 and (XII = I or XI1 = 2)
and Y002 く= 650000;
/* 収入は上側四分位点以下 傘 /
weight2 = I;
/「人あたりの娯楽費
goraku_per = Yl69 / X03;
戸娯楽貨の log*/
goraku_Iog = log(goraku_per+ I);
”
l国bel gorakiιlog ="娯楽費(log) ;
”
'・
label goraku per = 1 人あたりの娯楽費 , run;

v

戸 娯楽費から豊かさのフラグを設定し、 職業との関連を調べる * /

data work.data_g;
set data;
Y 句u_flg = I;
if goraku log>= 9.42 then yoyu flg = 2;
if gorakuJog く= 8.1 then yo戸1 flg = O;
’
”
label yoyu_flg = 豊かさ 1
kariire = Y032+ Y033+ Y034;
tyokin = Y025 -Yl91;
run;
proc format;
value f_GORAKU (multilabel notsorted)
”
“
”
”
”
”
;
I= 中
2= 高
run;
0= 低
proc tab咽late data= data_g vardef=wdf f = comma!O.O; where Year = 2004;
class X02 V48 yoyu flg / mlf p 町loadfmt order = data;
var we_ig恒2.j_weight=叩.gQ!;
11

413

3. 0

3A

73
48

4.3

2.4

9. 7
_
9.3

40

13.1

3.3

13.6

4.2

51

47

9.3

HI
3.5

15.0

6.8

11 5

4.6

11.4
2.3

9.7

2 07

9.1

掴4

9.4

叩A

叩.5
柑2
叩.5

233

241

16.8

剖2

26.8

400.
[beta]
tables V48 =’’
'
”
"
weight2 = "60 才以上の職業別世帯数 川( sum = 世帯数 colpctsum= 官lj合(%) 叫 f=7.2)
”
”
日
”
yoyu_flg= 娯楽費からみた生活の豊かさ 岨 weight2 = ""*(sum= 世帯数 rowpctsum = 割合(%) 叫 f= 7 2)
’’
/box = 職業 ;
”
”
title 職業別にみた生活の豊かさの世帯分布( 2004 年 60 才以上の単身または夫婦のみ世帯) -
format V48 f work. X02 f KUBUN. yo戸1 fig f GORAKU.;
run;
”

*
*
収入状況
/
/

proc tabulate data = data_g vardef = wdf f = comma!O.O out = syunyu; where Year= 2004 and X02 ne 2 and V48 ne 4 and V48 ne 13;
class yoyu_flg / mlf preloadfmt order = data;
var Y002 YOOS Y009 Y016 Y017 Y020 Y021 Y025 Y027 Y029 kariire tyokin / weight = weight;
’”
tables yoyu_日g= ,
”
”
Y002 = 収入総額の平均 •mean= '’
”
”
”
”
”
Y016 = 財産収入
Y009 = 事業 ・ 内職収入
Y017 = 社会保障給付
(YOOS =勤め先収入
”
”
”
”
”
tyokin= 預貯金から
Y021 = "特別収入
Y027 = 個人・企業年金
Y020 = 仕送り金
”
”
”
kariire = 各種借入金
Y029 = 証券売却
’'
”
”
”
)*(mean= 平均 ( rowpctsum<Y002 > = %
( ) )吋=comma!0.2)
"
”
/box = 豊かさ ;
”
title 豊かさ別にみた収入費目の状況 (2004 年 60 才以上単身または夫婦のみ世帯) ;
format yoyu fig f_GORAKU.; run;
”

”

"

"

”

"

”

/*60 才まで勤労、 60 才以降無職世帯も含めた貯金額の推移 V
*
;• 1989 年 50 ・ 54 才 1994 年 55-59 才勤労者世帯/
/• 1999 年 60-64 才 2004 年 65 才以上勤労と無職世帯V
data work.data_m;
set IN_DS.giji4zensho;
where (X02 = I and
( (Year = 1989 and X09 = II) or (Year = 1994 and X09= 12))) or
(X02 ne 2 and ((Year = l999 and X09 = 13) or
(Year = 2004 and X09> = 14)));
weight2 = !;
日ow = -Y025 +Yl91; run;
proc tabulate data = work.data_m vardef= wdf format=comma!0.0 out = tab4; where V48 ne 13 and V48 ne 4 ;
class Year X09 X02 V48 / mlf preloadfmt order = data;
var Y025 Y!91 flow/ weight = weight;
” ’
tables V48 =川傘Year =川場 X09 =
”
”
”
”
"
”
”
”
(Y025 = 預貯金引出 Yl91 = 預貯金( 預け入れ) 日 ow = 残高 戸( mean= 平均値 median= 中央値 P25= 25% 点 P75 = "75% 点つ/
”
”
box = 職業/調査年/世帯主の年齢 ;
”
”
title 職業極別 50 才以降の預貯金収支の状況(勤労者世帯) ;
format Year f Year. X09 f AGE. X02 f KUBUN. V48 f workw.: run"

”

"

"

*
/*支出状況
/

proc tabulate data = data_g vardef= wdf f = comma!O.O out = tab5; where Year=2004 and X02 ne 2 and V48 ne 4 and V48 ne 13;
class yoyu_flg / mlf preloadfmt order = data;
var Y038 Y041 Y083 Y088 Y093 Yl03 Yl21 Yl26 Yl37 Yl41 Yl51 YI79 / weight = weight;
川
tables yoyu_flg= :
Y038 = ’支出総額の平均 事 mean = ”
"
”
”
”
”
”
”
”
”
”
Y093 = 家具家事用品
Y!03= 被服履物
Y088 = 光熱水道
Y083 = 住居
(Y041 = 食料
”
”
”
”
”
n
”
”
”
Yl37 = 教育
Yl41 = 娯楽教養
Yl26 = 交通過信
Yl21 = 保険医療
Yl51 = その他
”
”
Yl79 = 非消費支出
”
”
”
) ‘( mean= "平均額 ( rowpctsum<Y038 > = %
( ) ) 吋= comma!0.2)
”
/box = 豊かさ ;
”
”
title 豊かさ別にみた支出資目の状況 (200460 才以上単身または夫婦のみ世帯) ,
format yoyu_flg f_GORAKU.; run;
”

”

"

/ * ロジスティック回帰り

data work.data_s;
set work.data_g; where Year = 2004 and X02 ne 2 and V48 ne 4 and V48 ne 13;
tgt fig = O;
if goraku log > = 9.42 then tgt fig = I;
*
r Y084 = Y084 / Y039;
川家賃地代/
l_Y084 = log(r_y084+I);
r Y017 = YOI7 /Y002;
l_Y017 = log(r_Y0!7+1);
/* 社会保険給付 V
ホ
r tyokin = tyokin/Y002;
l_tyokin = log(r_tyokin+I);
預貯金差額V
/
事
r_Y027 = Y027/Y002;
run;
戸個人・企業年金/
l_Y027 = log(r_y027 +I);
proc logistic data = WORK.DATA_S;
’
model tgt_flg(event =’1 ) = l_Y084 l_YOl7 l_Y027 l_tyokin / link = logit
technique = fisher noint outroc = l_ROC;
freq weight; run;

data l_ROC(keep = X Y);
set l ROC; X = 100*ーIMSPEC_;

Y = 100事 SENSIT ;

12
414

run;

401.

親と同居する未婚者世帯の消費傾向分析 ~ 新疑似ミクロデ ー タを活用して ~ チ ー ム名:こ ー な - O 太田 葉月、 中山 (株式会社 浜銀総合研究所 貴公 情報戦略コンサルティング部) 参加部門:Bクラス(初級者) Analysis of the poor single people living with their parents by their consumption trends (Using the new pseudo-micro data) Hazuki Ota, Yoshimasa Nakayama Hamagin Research Institute, Ltd. 要旨 親と同居する未婚者の中には、 経済的 理由から親との同居を選ばざるを得ない人々が一定数いると思われ る。その中でも本当に支援を 必要とする世帯を 「 新疑似ミクロデ ー タ」を用いて収入面 、 消費面から特定し、 消費傾向もふまえた 支援施策を提言する。 そこで、 収入面では相対的貧困、 消費面では需要の所得弾力性か ら割り 出した生活必需品 ・ 晴好品の消費 割合を 分類基準として用いて分析を 行った。 その結果、 相対的貧困 下にある親と同居する未婚者世帯の中でも 、 生活必需品の消費が多く、 噌好品の消費が少ない世帯 が20%程 度存在し、 消費面でも困窮している ことが分かつた。 特にこうした世帯へは、 就職支援等の手厚い支援が必 要であると考える。 キ ー ワ ー ド:親と同居する未婚者 、 需要の所得弾力性 、 相対的貧困、 新疑似ミクロデ ー タ 1. はじめに 、 親と同居する未婚者に関するトピックの代表例として 「パラサイト・シング ルjや「中高年引きこもりj がある。 「パラサイト ・ シングル」 は山田(1999)が 「 学卒後もなお親と同居し、 基礎的 生活条件を親に依存 している未婚者」 と定義した概念で、 経済的に恵まれた 家庭で育ち、 時間的・経済的に豊かな生活を送って いると批判の対象で、 あった。 また 、 「中高年引きこもりjは8050問題 lにつながる ために注目が高まってい る。2019年3月の内閣府が行った「生活状況に関する調査」 で、 はじめ て中高年層の ひきこもり 2につ いて 調査が行われたことからも注目度の高さが垣間見える。 親と同居している未婚者の中には経済的な理由から、 親と同居せざるを得ない人達も 一定数いると推測され I 8050問題と は主に50代前後の引きこもりの子どもを 80代前後の親が養っている 状態を 指し、 長期的なひ きこ もりが当 事者の社会的孤立や介護による親子共倒れを引き起こすリスクが指摘されている。 2 「ふだんは家にいるが、 自分の趣味に関する用事のときだけ外出する」、 「ふだんは家にいるが、 近所のコ ンビニなどには出かける」、 「 自室からは出 るが、 家からは出ない又は自室からほとんど 出なしリがひきこも りの対象である。 この調査では「中高年 ひきこもりJの 人数は61.3万人に上ると試算されている。 415

402.

る。 例えば、 大石(2004) は若年層の親との 同 居率上昇は、失業率の 上昇が原因であると 図l 未婚者数と未婚者のうち親と同居する人の割合 20 ~ 34怠 万人 1800 “" “s’‘ ' 7市% 35~44怠 万人 600 同 1聞 町 岬 指摘している。また西 (2016 )は 親 と 同 居 す る未婚者の近況につ いて総務省統計局「労 醐 10, 出 働力調査jを使って分 2低D隼 降の若年層、 壮年層 """年 li:ia:.:II*防省鎗 析する中で、 2000年以 初10•事 2015年 臨時雇 ・ 四路年 ,000年 ー。ー来栂者のうち腐と開店するλの観合 Emll来総省陵 {総指省銀齢島『園野悶!l』} 2015年 2010f写 ー。_,食倒E者のうちaと同居する入の割合 "'需省銀鈴局『園野田奮』} 45 ~ 54趣 万人 ヨ拘 ""' で親と同居する未婚 者が増加し た 一 因に 100 55 ~ 59歳 万人 100 "·'万人 ヨ路"軍人 ” 日雇割合の 上昇を挙げている。 高田(2005)は 未婚女 別 2醐 100 初 性の親との同居は未 婚女性自身の労働供 給を減少させるが、 llXNl隼 。 2 15毒事 2010隼 '""年 ー。_,長畑脅のうも旬と開局する人の割合 C坦朱防省取 {総楊省段肘局「園鰐鋼歪』} '"初年 ,oo,与 ""園調長崎者a 2010年 2015写 -〈〉ー朱錨者のうち凪と網局する人の割合 U!fl省銀齢局戸国,,m蓋』} 要因は親の年齢層によって異なると指摘する。 すなわち、親が60歳未満の場合は親の援助による効果で労働 供給が減少する 一 方、親が60歳以上の場合、特に父親の面倒を見ることが労働供給の減少に寄与すると結論 イ寸けている。 このような経済的理由から自立が困難な未婚者には適切な支援が必要で、あるが、 支援制度が不十分で‘ある ことは否めない。 実際に総務省統計局 「国勢調査」(図I)で確認してみると、20~ 34歳、 35~ 44歳では未婚 者数に増減はあるものの、 親と同居する人の割合は2000~2015年でほぼ横ばいである。 一 方、 45~ 54歳、 55~ 59歳と年齢が上昇するにつれて2000 年 ~2015年にかけての親と同居する未婚者の割合は上昇してい る。 支援制度が機能 しているのであれば、 経済的に自立して 一 人暮ら しをする未婚者が増え、 親と同居する 未婚者が減ると期待できるが、 実態は逆行している。 支援を有効に機能させるには、 本当に支援が必要な人たちを特定しその人たちにあった施策が必要であ る。 それには 一 定水準以下の収入で生活する人を経済的支援対象とし、 その人の消費傾向(消費振り)も考 慮した方が良いと思われる。 なぜなら、 同じ収入であっても全てを生活費に充てている人もいれば、 「パラ サイト ・ シングルJのように生活費を抑えて娯楽に多く費やす人もいるからである。 具体的に国 ・ 地方自治 体が支援を行う場合には政策の費用対効果は小さく見積もられ、 支援が実行されにくくなってしまう。 そこで本分析では、 親と同居する未婚者の中でも本当に支援を必要とする人たち(世帯)を「新疑似ミク ロデ ー タ」を用いて収入面、 消費面から特定し、 消費傾向もふまえた支援方法を提言したい。 本論文の構成 は次の通りである。 まず、2章で詳細な分析方法、 3章で分析に使用するデ ー 夕、 4章で分析結果 ・ 考察に 言及し、 5章で本分析の結論をまとめる。 2. デ ー タ 416

403.

本分析では、全国消費実態調査の匠名デ ー タを基にSAS世話人会により作成された「新疑似ミクロデ ー タJを使用する。 このデ ー タは 19 89、199 4、1999、2004年のそれぞれ 4年分の横断面デ ー タからなってい る。 これは世帯単位のミクロデ ー タであり、各世帯の詳細な収入 ・ 消費デ ー タを有している。 なお本デ ー タ は標本調査であって全数調査でなく、集計用乗率を変数として含むため、本分析でもこれを使用する。 3. 分析方法 、 親と同居する未婚者世帯の中でも真に援助が必要な世帯を特定するために、収入面、消費面から 4グ ル ー プに分けて分析する。 分析は 3段階に分けて行う。 まず①親と同居する未婚者世帯で、かっ相対的貧困世帯 を抽出する。 次に②抽出した世帯の消費傾向を知るために、各消費項目を生活必需品と噌好品の2つに分類 した上で、支出に占める生活必需品と噌好品の割合を世帯ごとに算出し、最後に③上記世帯を生活必需品と 、 晴好品の割合から 4グ ル ー プに分類する。 3章l節で親と同居する未婚者世帯でかつ相対的貧困世帯の抽出 方法、3章 2節で消費項目の生活必需品と噌好品の分類方法、3章3節で抽出世帯のグル ー プ分けの方法をそ れぞれ説明する。 3.1. 分析対象世帯の抽出 まず親と同居する未婚者世帯を抽出するために、以下のように親と同居する未婚者世帯を定義する。 ①世 帯人員が2人(X03=2)、世帯形態が「二世代(世帯主または夫婦とひとり親 )J (Xll= 4)、世帯主の年齢が25歳 以上(X09 >= 6)の世帯、②世帯人員が2人以上(X03>=2)、世帯形態が「二世代(世帯主と子)J( XI 1 = 5)の世帯、 ③世帯人員が 3人(X03= 3)、世帯形態が「2世代」(Xll= 3)の世帯、で未就学児 ・ 学校に通う人員がいる世帯 を除く世帯(Xl2八=2and X1 3"=2)とする。 この抽出の定義には留意点がある。 ③において親と同居する未婚者 世帯の他に「 一 人親と同居する夫婦Jが含まれてしまうが、デ ー タ上の制限で排除できていない。 これは西 (2016)の集計分析で20~ 34歳の人口に占める親と同居する未婚者の割合は2000年前後では約45%であり、 ③の世帯を除いてしまうのを避けたためである。 次に、収入面で困窮する世帯を「相対的貧困3J世帯と設定し、抽出する。 相対的貧困世帯とは所得が、全 世帯の所得の中央値(所得中央線)の半分(貧困線)に満たない世帯を指す。 相対的貧困世帯の割り出しに は全世帯のデ ー タを用い、調査年毎に算出する。 まず可処分所得から世帯ごとに等可処分所得を算出する。 可処分所得は年間収入(YOO!)から年間直接税(Yl80)と年聞社会保険料(Yl84)を引し、た値を用しへ等可処分所 得は可処分所得を世帯人員の平方根で、 害1]った値を用いる三次に、所得中央線を等可処分所得の中央値から算 出し、その所得中央線の 50%を貧困線と設定する。 この貧困線以下の等可処分所得で暮らす世帯が相対的貧 困世帯であり、本分析においては収入面で困窮する世帯と定義付ける。 3ユ 消費項目の分類方法 3経済協力開発機構( OECD)が作成した基準。 貧困の定義には相対的貧困の他に「絶対的貧困jがあるが、 これは人間として最低限の生存を維持することが困難な状態のことを指す。 一般的に「 貧困」と聞いて想像 する貧困は絶対的貧困に当たる場合が多い。 4デ ー タ上では直接税(YI 80)、社会保険料(YI 84)は 一 か月あたりの金額のため、それぞれを 12倍した金額を 年間直接税、年聞社会保険料として使用した。 5可処分所得が0円を下回る世帯は可処分所得をO円とした。 また、世帯人員が5人以上の世帯は便宜的に 世帯人員を5人として計算した。 417

404.

所得↑=今消費量土O 需要の所得弾力性=O 。く需要の所得弾力性 。〈需要の所得神力性<I 所得↑=今消費量↑ lく需要の所得弾力性 表 る あ を で 標 指 す 表 .刀 る す /\ 少 減 十品 し も る カ nHH 品川M す 品川N 増 % 可 要 る 需 る 平 噌 。 り 弾 弾 要 得 貯 ーが は う 切 得 得 需 所 こ 、即 付目 た 行 の 所 所 の 徴項 ま を 目 の の 財 て の 特費 品 け 項 要 要 と 標 そ を 消 需 分 費 需 需 得 指 こ 、。 所 る 刷 向の 必 り 消 傾ど 活 切 の て る の 園 出 費 、生 か そ し す 人 を い 消 て て る は と 用 個 性 昇 の しみ あ で 準 利 は 係 上 帯と に で 析 基 を と 開 始 世の 的 品 分 け 性 性 の ド も均 好 本 分 力 力 と が 表l 需要の所得弾力性による財の分類 にこの需要の所得弾力性による財の分類をまとめた。 級財の中でも需要の所得弾力性が低い財ほど、所得 の増減によって消費量が大きく変化しない財のため、より生活に必要な財であると考えらえる。 この需要の所得弾力性を全世帯のデ ー タを用いて消費項目ごとに推定し、財を分類する。各財(消費項 ‘ 目) の需要の所得弾力性が各世帯で 一 定としづ仮定の下で、推定するモデ ルは以下の通りである。 lnEXPij = /Joj + /J上 1j ln/NCi + /J2 j Xi + Eij (I) 6 ここで被説明変数、lnEXPij はt世帯の消費項目jの支出額を対数化した値、In/NC; はi世帯の平均月収 を対数 化した値、xi はi世帯の属性ベクトル、Eij は誤差項、/Jkj (k = 0,1,2)は消費項目jの 数である。したがって/J1j が需要の所得弾力性に相当するパラメ ー タになる\本分析では被説明変数となる消費項目には10大費目で ある「食料」、「住居関連 8J、「水道・光熱」、「家事・家事用品」、「被服及び履物」、「保健医 療」、「交通 ・ 通信J、「教養娯楽」、「その他の消費支出Jを用いる。なお、本分析では学卒後の未婚者 を想定しているため、10大費目の1つである「教育Jは省いた。世帯の属性ベクトルxi には世帯人員、未就 学児がいる世帯ダミ ー、学校に通う世帯員がいる世帯ダミ ー、65歳以 の世帯員がいる世帯ダミ ー、調査 年ダミ ー を用いる。なお、本来ならば価格を説明変数に入れてコントロ ー ルする必要があるが、デ ー タ上で 得られないために本分析では含められない。 係 次に、推定する需要の所得弾力性に基づいて消費項目を分類する。一般的に表lのように分類されるが、 実際に推定を行い確認したところ、全ての消費項目の需要の所得弾力性が 上 0 から l の間にあり、表 l が適応 できなかった。そこで、本分析では消費項目を2つに分類することだ を目的とし、 (I )式で推定する各消費 項目jの需要の所得弾力性のパラメ ー タ/J1j が 0.5を超える消費項目を晴好品、/J 1j が 0.5以下の消費項目を生 け 活必需品として、財を2種類に分類する。この分類に従って世帯ごとに生活必需品、曙好品が支出総額 (Y038)に占める割合を算出する。 3.3. o グル ー フ 分け 最後に、抽出した相対的貧困下にある親と同居する未婚者世帯を消費傾向から分類する。支出総額(Y038) に占める生活必需品の支出割合の大小、支出総額(Y038)に占める噌好品の支出割合の大小の組合せによって 6 2(収入総額(Y002)、実収入(Y003)は就業世帯しか調査されていないために平 平均月収=年間収入(YOOI)÷1 均月収を用いた)。 7 6章を参照願いたい。 8 住居(Y083)はそのままの値を用いず、土地家屋借金返済(Y198)を合計した値を分析では用いた。住居関連 支出に持家者の固定資産税支払が含まれていないことに注意されたい。固定資産税は他の税(Y183)に含ま れ、他の税(YI83)を固定資産税として住居関連支出をして加えることは避 た。 け 418

405.

消費面から4つに分類する。 なお、 生活必需品の支出割合の大小、 支出総額に占める噌好品の支出割合の大 小はそれぞれが相対的貧困世帯の中央値を超えるかどうかで判断する。 4. 推計結果と考察 表2 はじめに、 相対的貧困世帯割合を確認する。 調査年毎の貧困線と相対的貧困世帯割合を表2 にまとめた。 貧困線は1989年の131万円から 1999年には156万円まで上昇している。 2004 全世帯の集計用乗率合計 貧困線(円) 相対的貧困世帯割合 相対的貧困世帯 調査年 1999年 1989年 1994年 919,323 1,308,902 9.6% 9,946,151 1,542,322 10.7% 2004年 11,236,665 1,559,064 11.3也 31,887,307 1,475目810 10.7百 年には貧困線は下がり、 148万円になる。 しか し、 貧困線は物価等の動きは加味されていない 的貧困世帯割合も1989年から1999年にかけて と1994年と同等水準まで、 下がっている。 使用す るデ タ上での相対的貧困世帯は概ね10%前後 光熱・水道 需要の所得弾力性を消費項目ごと確認する(表 保健医療 3)九推定した全ての消費項目の需要の所得弾力 食料 性が O から l で、 表 l から必需財に属す。 その ため、 3章2節に従って消費項目をそれぞれ生 家具・家事用品 活必需品、 噌好品に分類した。 ある親と同居する未婚者世帯を、 消費傾向ごと 教養娯楽 に4つに分類した。 まず、 相対的貧困世帯に占 被服及び履物 める親と同居する未婚者世帯に着目すると、 その他の消費支出 1989年から2004年まで上昇し続けている(表 4)。 2004年の相対的貧困世帯のうち親と同居す る未婚者世帯の割合は10.7%と、 1989年の2倍 が増えてきていることを表している。 次に、 収 表4 生活必需品 生活必需品 生活必需品 晴好品 噌好品 晴好品 噌好品 (日=0.01)を行った。 注2 ) 料 は有意水準 1% で統計的に有意なことを示す。 ;主3)他の説明変数は省略。 帯が、 まず収入の面から困窮に陥っている世帯 る未婚者世帯を消費傾向で4 生活必需品 注 1)帰無仮説Ho.・βIi=口、 対立仮説H1.・β1;>0の検定 以上である。 この結果は親と同居する未婚者世 入面で困窮する親と同居す 生活必需品 (0.0039) 0.530 •• (0.0031) 0.590 材 (0.0033) 0.602 梓 (0.0041) 0.760 材 (0.0036) 交通・通信 最後に、 収入面で困窮する相対的貧困状態に 分類結果 0.178 •• (0.007) 0.199 叫 (0.0018) 0.316 •• (0.0043) 0.343 材 (0.0017) 0.396 •• 住居関連 であることが分かつた。 次に、(I)式で推定した 財の 推定値 (標準偏差) 消費項目(説明変数) 11.3%まで増加しているが、 2004年には10.7% ー 需要の所得弾力性の推定値 表3 ため、 相対的貧困世帯割合が重要である。 相対 相対的貧困世帯に占める親と同居する未婚者世帯の割合 1994年 1989年 つに分け、 構成比を調査 し 乗率合計 相対的貰困世帯 うち親と同居する来婚者世帯 88,061 4,090 割合(%) 乗率合計 100.0 1,066,738 4.6 73,027 1999年 割合(百) 乗率合計 100.0 1,269,036 6.8 90,281 2日日4年 割合(%) 乗率合計 割合(%) 100.0 3,402,928 7.1 365,620 100.0 10.7 9各消費項目の支出額が0円の世帯は対数化できないため、 本推定からは除外している。 また、 各消費項目 の対数化した支出(EXP;j)分布が正規分布に近いことはヒストグラム、 Q-Qプロット図で確認した。 419

406.

、 た(図2 )。 グ ル ー プ①:必需品割合も噌 、 好品割合も多い世帯、 グ ル ー プ②:生活必 需品割合が多く、 晴好品割合が少ない世 図2 消費グル ー プごとの世帯構成比 ι u, '); 々 帯、 グル ー プ③:生活必需品割合が少な 、 く、 噌好品割合が多い世帯、 グ ル ー プ④: H弘 生活必需品割合も曙好品割合も少ない世帯 に分類した。 199 4年以降、 1989年と比較 町、 して生活必需品割合も噌好品割合も多い世 そ'"亡 帯(グル ー プ①)が増加したことが分か 40' る。 生活必需品割合が多く、 曙好品割合が 少ない世帯(グル ー プ②)は調査年毎に増 h ’,) 減はあるものの分析世帯の約20%を占めて いる。 生活必需品割合が少なく、 l者好品割 、 合が多い世帯(グ ル ー プ③)が1989年か JO、 f「、 '"''ヲ,1 ら2004年にかけて若干増加している。 生 活必需品割合も曙好品割合も少ない世帯 ,cc,,'白 '0ちヲ年 la i 1'.iむこ出品I事) '•者叫品 圏、、:l;,f;('..;;l品 川•' ) U再メf日1 事,口七生活i:,,;/,l,�, ,,:レ) ' j与, 回主モ活('.,,1,l』i.h (多、 P書士子" ”J ) 'il"'品{少j (グル ー プ④)は1989年から2004年にかけて大幅に減少している。 さらにグル ー プごとの平均支出金額等を分析した。 表5からわかる通り、 グル ー プ②は生活必需品割合が 高く、 噌好品に分類される「こづかし、J、 「交際費」が少なく、 預貯金引出から預貯金を引し、た金額がO円 以上であることから収入面・消費面どちらからも生活に困窮している可能性が高い。 このグル ー プ②に親の 介護で就職・結婚ができない人、 親子ともに経済的に裕福でない家族が含まれていると考えらえる。 グル ー 、 プ①はグ ル ー プ②と比較して預貯金引出から預貯金を引し、た金額が大きい。 生活必需品、 噌好品どちらの消 費も多いために貯蓄できていないグル ー プで-あると推測する。 グル ー プ③は「外食J、 「こづかい(使途不 明)」、 「交際費」の平均支出金額が高く、 預貯金引出が多い。 生活必需品割合が小さいこともふまえる と、 グル ー プ③は生活費を抑えることができ、 その上で生活費以外の余剰的なものに浪費してしまっている と考えられる。 「パラサイト・シングルJ、 「中高年ひきこもりJはグル ー プ③に含まれている可能性が高 、 い。 グ ル ー プ④の特徴は預貯金が多いことだ。 預貯金から預貯金引出を引し、た金額が0円以上になるグル ー 、 プはグ ル ー プ④だけで、あり、 節約志向で将来への備えをしているグル ー プであると考えて良いだろう。 以上の結果をふまえて、 支援を提言したい。 消費傾向を見る限り、 グル ー プ②:生活必需品割合が多く、 噌好品割合が少ない世帯への支援が直近で必要であると言える。 まず、 生活必需品への支出を減らすため に、 税制としての良し悪しの議論はあるが食品に対する軽減税率は有効であろう。 しかし、 この世帯は消費 内容を見直して支 出額を減らすとい 表5 消費グル ー プごとの平均支出額(2004年) 平均支出額(円,2004年) うことは難しいと ・ 考えられるため、 外食 こっ かい (使途不明) 交 際費 預貯金 預貯金 預貯金 一 等可処分 引出 預貯金引出 所得(万円) 収入増加につなが ①生活必需品(多)/噌好品(多) 4,684 7,410 15,094 40,998 125,442 -84,444 1,059,940 る施策が不可欠で ②生活必需品(多)/晴好品(少) 3,736 1,716 5,355 71,967 131,991 -60,024 1,096,665 ある。 そのために ③生活必需品(少)/噌好品(多) 6,344 17,544 31,784 141,938 268,869 -126,930 1,083,836 ④生活必需品(少)/噌好品(少) 3,831 6,785 9,941 203,069 192,405 10,664 1,113,881 は親子どちらに対 420

407.

しでも職業斡旋をしたり、介護サ ー ビスを充実させて子どもが就業できるようにしたりといった支援が急務 である。 また、グル ー プ③には経済的支援ではなく、消費行動を見直すための生活指導のような支援が必要 かもしれない。 5. 結論 本分析では、親と同居する未婚者の中でも収入 ・ 消費面ともに困窮している世帯グル ー プを特定し、その 世帯グルー プの消費傾向をふまえた支援施策を提言した。 相対的貧困下で生活必需品への支出割合が多く、 噌好品への支出割合が少ない世帯が、親と同居する未婚者世帯の中でも真に支援を必要としていると結論付 けた。 そのような世帯には収入そのものを増やすための働きやすい環境を提供することが重要である。 戸 本分析ではデ ー タ上の制限から 4グ ル ー プに分類することまでにとどまった。 しかしながら、さらに世帯 の属性等に詳しく注目できるようになったり、世帯単位でなく、個人単位でのデ ー タを使用できたりすると さらなる提言が可能になるかもしれない。 6. 補足説明 (I)式の/31 jが需要の所得弾力性と等しくなることを簡単に説明する。(I)式においてん j = 0、あるいは同 一 世帯属性の場合、需要の所得弾力性は定義と微分公式より以下のように変換できる。 弾力性 = j 袋詰1 寄託=。 = (2) 1 したがって、/31 jが所得の需要弾力性を表すパラメ ー タであると分かる。 7. 参考文献 大石亜希子,2004, 「 第12回(2002年)出生動向基本調査その2若年就業と親との同別居」,『人口問題研 究』Vol.6 0, No.2pp. 19・3 1. 北村行伸 ・ 坂本和靖,2004, 「 優雅な『パラサイト・シングル』像が変容j樋口美雄 ・ 太田清 ・ 財団法人家計 経済研究所編,『女性たちの平成不況』, 日本経済新聞社,pp.87・1 1 5. 高田しのぶ,2005, 「 未婚女性の労働供給に関する分析 親との同居は労働供給に影響を与えているか一 J ' 『人口学研究』Vol.37, pp.31・46. 時子山ひとみ,199 5, 「 食料消費構造における傾向的変化と所得弾力性 一 食料消費の 「 成熟jに関する計量 的考察一 J ' 『農業経済研究』Vol.67, No. I, pp.1 0-16. 西文彦,2017, 「 親と同居の未婚者の最近の状況(2016 年) J,『総務省統計研修所』pp.ト16. 山田昌弘, 1999,『パラサイト ・ シングルの時代』ちくま新書. 421

408.
[beta]
付録1

規定課題用SASプログラム

% 事デ ー タが収納されているライブラリの設定;
libname dataset v9 ・
新疑似ミクロデ ー タの格納フォルダパス’
OU甘ep = windows_64;
% 傘アウトプットを出力するライブラリの設定;
‘
libname outputD v9 ’PDF 等のアウトプットを出力するフォルダ パス’
OU甘ep = windows_64;
% *加工したデ ー タセットのライブラリの設定,
libname outputF v9 ・ 新たなデ ー タセットを出力するフォノレダパス’
outrep = windows 64,
% ・ フォ ー マット作成,
proc format;
value _year_
1989 = '1989 年・
1994 =’1994 年’
1999 = '1999 年’
2004 =’2004 年’;
run;
proc format,
value _age_ (multilabel notsorted)
5-6 =’29 歳以下’
7-8 = '30 歳代’
9-10 =・ 40 歳代 ・
II-12 =’50 歳代’
13-14 = '60 歳代目
15-16 = '70 歳以上・5-7 =’ 再掲 34 歳以下
’
~
=
8-13 再掲 35 64 歳’
14-16 ピ再掲 65 歳以上’;
value FM TYP (multilabel notsorted)
0-high =全世帯T
100-111 = 宋就学児がいる世帯’
・
10,11,110,111 ='学校に通う世常員がいる世帯
1,11, IOI,111 = '65 歳以上の世帯員がいる世帯’,
run
%・ 変数の加工 ・ 作成;
data outputF.base_ cl,
set dataset.giji4zensho;
attrib
Y083_Y length = 8 label =’住居’
Y103_Y length = 8 label = 被服及び履物’
Y137_Y length = 8 label =’ 教育’
X12一D length = 8 label =’未就学児がし、る世帯’
X13一D length = 8 label = ’学校に通う世帯員がし、る世帯’
X14_D length = 8 label =・65 歳以上の世帯員がし、る世帯’
FM TYP length = 8 label =・世帯類型’
N_1 length = 8 label =’世帯数’,
同住居町
ifmissing(Y083) = 0 andY083 >O then do;
Y083 Y=Y083;end;
else do,Y083 Y = ., end;
/*被服及び履物 事/
ifmissing(Y103) = 0印dYI03 > 0 then do;
Y103 Y=Y103;end;
else do;YI03_Y = .,end;
/* 教育町
ifmissing(Y137) = 0阻dYl37 > 0 then do;
Y137_Y =Yl37;end;
else do,YI37 Y = .;end;
/* 未就学児がいる世帯町
ifmissing(X12) = 0田d X12 = 2 then do;
X12ーD = 1;end;
else ifmissing(X12) = 0 and Xl2 = 1 then do;
X12 D = O;end;
else do, X12_D =ー;end;
門学校に通う世帯員がし、る世帯町
ifmi田ing(Xl3) = 0 & X13 = 2 then do;
X13 D = l,end,
else ifmissing(X13) = 0 and Xl3 = I then do;
X l 3 D = O;end;
else do;Xl3_D = .;end;

/・ 65 歳以上の t世 帯員がし、る世帯町
ifmissing(Xl4) = 0 and (Xl 4 = I or Xl4 = 2) then do;
Xl4_D = I,end;
else ifmissing(Xl4) = 0 and Xl4 = 0 then do;
Xl4 D = O;end;
else do;X l 4_D = .;end;
片世帯類型町
ifmissing(X12_D) = 0
and
missing(X13_D) = O
and
missing(X14_D) = 0
then do;
FM TYP = X12_D* IOO+X l 3_D ’ IO+Xl 4_D;
end;
f・世帯数ホ/
N_I = I;
run;
% 寧 規定課題 2 の作成過程;
% 場 調査年ごとに表を作成;
%MACRO HW2(VAR);
proc tabulate
data = outputF.base_cl ( where = ()向町 = &VAR))
out = work.HW2 &VAR
vardef= wdf;
class Year FM_T YP / mlfpreloadfmt order = data exclusive;
var
N IY040Y04 IY083Y088 Y093
Y l 03 Yl21Y l 26 Yl37Yl41Yl51;
keylabel Mean =’平均・ Std = 標準偏差’ all =・ 全世帯,
tables
Y田r = ” ’ FM TYP=ヘ
colpctSum ・ N I
Y040 本 (mean • f= comma8. std • f= 8.1)
pc臼um<Y040> •
(Y041 Y083 Y088Y093 Y103 Yl21Yl26 Yl37 Y l 41Y l 51)
/row = float;
weight weight;
format Year Year . FM TYP FM TYP .;
run;
%MEND;
%HW2(1989);
%HW2(2004);
%* 調査年ごとに出力した表を縦積みする;
data work.hw2( drop = _type_ _page_ _table_);
set
work.HW2 1989
work.HW2_2004;
run;
%叩DF ファイルへの打ち出し,
options nodate nonumber,
ods pdffile =” &STUD主¥h-ohta干outputD¥HW_a11.pdf'’;
’
title height = I6pt ’ 付録 l 規定課題図表 一 覧 ;
ods layout start columns = I rows = 2,
%場 規定課題 1;
title justify = center height = 12pt
課題l

世帯主の年齢別 一 世帯当たり平均支出金額

ti tle2 justi今= right height = !Opt ’ (単位:円) ’ ;
proc tabulate data = outputF base cl
(where = (Year = 1989 or Year = 2004));
classYear X09 /mlfpreloadfmt order = data;
varY040Y041 Y083Y103Yl37Y083 YYI03 YYl37 Y;
keylabel all =’ 全世代 目;
tables
”
Year = ” 傘 (all X09 = ),
m回n ='すべての世帯’
.(

422

409.

Y040 =’ 消費支出『 Y041 = 食料’ Y083 =・ 住居・ ’ Y103 = 被服及び履物 Y137 =’ 教育’ ) • f = commas. m同n =・ 各費目に支出のある世帯のみ’ 寧(Y083 YY103_YY137_Y)‘f = commaS. ’ / box = ’ 調査年 世帯主の年齢 ; weight weight; fonnat Year _year_. X09 _age_., run; title; % 事 規定課題2; title justify = center height = 12pt ’ 課題2 世帯主の種類別、消費支出に占める10大費目別支出金額の ’ 割合 ; pr田report data = work hw2 missing split =’#’ style(h回der) = [fontsize = ?pt] style(column) = [fontsize = ?pt]; column Year FM TYP N I PctSum 00 N I (’ l 世帯当たり#消費支出(円y Y040 Mean Y040_Std) (’消費支出に対する10大費目の構成比(%)' Y041 PctSum 11 Y040 Y083 PctSum 11 Y040 YOSS PctSum 11 Y040 Y093 PctSum 11 Y040 YI03 PctSum 11 Y040 Yl21 PctSum 11 Y040 Yl26 PctSum II Y040 Yl 37 PctSum II Y040 Yl 41 PctSum II Y040 Y151_pctSum_ 11_Y040); / order ’ 調査年’, define Year define FM TYP / display ’ 世帯類型’ ; ' / display ’ 世帯数の再構成比(%) ; define N l _PctSum OO_N I define Y040_Me叩 / display ’ 平均 ’ fonnat = commas.; define Y040_Std / display ’ 標準#偏差’, / display '食料1 define Y04I_pctSum _ 11 Y040 define YOS3 _PctSum_ 11_Y040 / display ’ 住居1 define YOSS_pctSum_ 11_Y040 / display t光熱・#水道’ ; I display ’ 家具・#家事用品 ’, define Y093_pctSum_ 11_Y040 ’ define YI03_PctSum 11 Y040 / display ・ 被服及ひ情履物 ; ’ I display ’ 保健#医療 ; define Yl21_PctSum l I_Y040 define Yl26_PctSum_l 1_Y040 / display ’ 交通#通(言 ’, / display ’ 教育 ’, define Yl 37 PctSum l l _Y040 ’ / display ’教養#娯楽 ; define Yl 41_PctSum II_Y040 ’ define Yl51_PctSum_ l l _Y040 / display ’ そのf也の#消費支出 ; fonnat N I PctSum 00 N I Y040 Std Y041 PctSum 11 Y040 YOS3 PctSum 11 Y040 YOSS PctSum 11 Y040 Y093 PctSum 11 Y040 Y103 PctSum 11 Y040 Yl21 PctSum 11 Y040 Yl26 PctSum 11 Y040 Yl 37 PctSum 11 Y040 Yl 41 PctSum 11 Y040 Yl51 PctSum II Y040 run, title; ods layout end; ods pdf close; commas I, 423

410.

付録2規定課題図表 一 覧 課題1世帯主の年齢別 一世帯当たり平均支出金額 すべての世帯 調査年世帯主の年齢 1989年 2004年 (単位:円) 各費目に支出のある世帯のみ 消費支出 食料 住居 被服及ぴ履物 教育 住居 全世代 273.156 74,586 15,392 20,279 11,759 22,591 20,719 27,564 29歳以下 191,126 52,818 25,148 17,202 1,180 29.431 17,779 14,711 30歳代 257,211 75,168 18,542 18,860 10,051 25,503 19,170 16,042 40歳代 316,715 90,305 12,137 23,086 23,955 18,956 23,395 30,103 50歳代 326,325 79,633 13,335 24,984 13,743 20,783 25,427 46,620 60織代 241,579 64,673 13,756 16,634 2,531 21,219 17,042 25,339 70愈以上 193,841 53,906 13,581 13,000 2,004 21,302 13,748 24,282 再掲34歳以下 217,084 60,203 23,533 17.490 4,087 29,014 18,046 16,037 再掲35 ~ 64歳 301,640 81,945 13,610 22,246 15,801 20,843 22,550 29,242 再掲65歳以上 207,117 57,377 13,040 14,205 1,987 20,258 14,910 22,119 全世代 285,504 66,623 18,737 13,116 13,034 28,052 13,478 44,861 29歳以下 201,528 41,605 33,781 13,749 2,016 37,712 14,393 19,342 30歳代 261.458 58,647 28,997 12,957 11,561 39,736 13,354 22,185 40歳代 330,991 78,696 16,275 14目740 31,282 27,315 15,021 44,169 50歳代 352,145 76,927 14,631 15,255 21,910 23,334 15,640 79,886 60歳代 273,686 67,935 15,102 12,287 1,769 22,962 12,506 47,367 70歳以上 216,034 54,766 16,356 9.452 954 24,341 9,863 33,552 再掲34歳以下 229,619 48,096 35,018 13,246 5,609 41,750 13,728 21,488 再掲35 ~ 64歳 322,557 74,535 16,355 14.448 20,061 25,906 14,778 48,589 再掲65意以上 230,090 58,068 15,989 10,059 948 24,034 10.403 31,055 被服及び履物 教育 課題2世帯主の種類別、消費支出に占める10大費目別支出金額の割合 消費支出に対する10大費自の構成比{%) 2品主主1背) 世帯類型 翻査年 1989年 2004年 llli虫i 2 制水熱 道 家具 事 用・品 家 被盟議び 星雲 童書 教育 護霊 5.6 5.2 3.6 7.4 2.7 9.9 4.3 9.2 24.7 平均 書室 食料 住居 273,156 164454.4 27.3 言書室 全世帯 100.0 未就学児がいる世帯 20.1 270,523 129791.7 29.1 6.1 5.6 3.9 7.1 3.5 9.7 4.7 9.7 20.7 学校に通う世帯員がいる世帯 43.3 320,999 166133.1 28.0 3.9 5.3 3.4 7.3 2.4 9.3 7.8 9.4 23.3 65歳以上の世帯員がいる世帯 26.7 269,947 183791.8 27.6 4.3 5.8 3.8 6.9 3.2 9.3 3.5 9.1 26.4 全世帯 100.0 285,504 184040.1 23.3 6.6 6.3 3.0 4.6 4.0 13.1 4.6 10.4 24.1 未就学児がいる世帯 13.4 287,644 144652.5 22.8 8.0 6.4 3.0 4.8 4.2 15.0 6.6 10.5 18.6 学校に通う世帯員がいる世帯 29.7 360,117 205009.0 23.0 4.2 6.1 2.6 4.4 3.3 13.6 11.4 10.2 21.2 65歳以上の世帯員がいる世帯 37.6 271,029 195570.0 24.4 5.6 7.1 3.4 4.3 5.1 11.5 2.3 10.5 25.8 424

411.
[beta]
付録3

自由課題SASプログラム

% * デ ー タが収納されているライブラリの設定,
libname dataset v9 ・ 新疑似ミクロデ ー タの格納フォノレダノ f
ス’ outrep = wmdows_64;
% $ アウトプットを出力するライブラリの設定;
libname outputD v9 ’ PDF 等のアウトプットを出力するフォ
ルダパス ・ OU出p = windows_64;
’
% ホ 加工したテ ー タセットのライブラリの設定;
libname outputF v9 ’ 新たなデ ー タセットを出力するフォル
ダパス T outrep = windows_64;
/ * -----一一一一一一一一一一一一一一一ー

需要の所得弾力性を推定

一一一一一一一一一一一一一一一一一一--- * /

% 需要の所得弾力性の推定用の変数の作成;
data work.analysis_vI;
set outputF.base_cl;/ * 規定課題プログラムで変数加工時
に作成したデ ー タセット町
attrib
SALARY length = 8 label ニ ’ 月収・
FLG SLR length=8 label =’ 月収 OI可以下フラグ・
In salary length = 8 label = ’ 月収(対数) ’
’
HM length=8 label =’ 住居関連費 ;
1fmissing(YOOI) = 0 then do;
salary = YOOI / 12 *I0000;end;
else do; salary=.;end;
ifmissing(SALARY) = 0 and SALARY> 0 then do;
FLG SLR = I;end;
else ifmissing(SALARY) = 0 and SALARY = 0 then do;
FLG SLR = O;end;
else do;FLG_SLR=.;end;
ifFLG SLR=I then do;
In_salary = log(SALARY);end;
else do;ln_salary = 吋 end;
ifmissing(Y083) = 0 and missing(Y l 98) = 0 then do;
HM = Y083+Y198;end;
else do;HM= ,end; run,
*

% * マクロ変数の作成,
%MACRO TOTAL(VARLIST);
% * 需要の所得弾力性を推定する被説明変数の対数化,
data work analysis_vI,
set work.analysis vI;
attrib
FLG_&VARLIST length=8
Inー&VARLIST length = 8 ;
1fmissing(&VARLIST) = 0 and &VARLIST> 0 then do;
FLG_&VARLIST=I;end;
else ifmissing(&VARLIST) = 0 and &VARLIST = 0 then
do;
FLG_&VARLIST = O;end;
else do;FLG_&VARLIST = .;end;
ifFLG &VARLIST = I then do;
Inー&VARLIST= log(&VARLIST); end;
else do; Inー&VARLIST = .;end;run;
% * 需要の所得弾力性の推定;
proc reg data = work analysis vI,
Model &VARLIST:
model ln_&VARLIST = In_salary
X03 Xl2 D X13 D X14 D Year 94羽田r 99羽田r 04 I
clb;
weight weight; run;qmt,
%MEND;
% # 被説明変数である消費項目ごとに7 クロをまわす;
%TOTAL(Y041);%TOTAL(HM);%TOTAL(Y088); %TOTA
L(Y093); %TOTAL(Yl03); %TOTAL(Yl21); %TOTAL(Yl2
6);%TOTAL(Yl 41);%TOTAL(Yl51);
% * 生活必需品 ・ 日脅好品の設定;

data work.analysis v2,
set work.analysis vI;
attrib
-
GDS_LOW len伊h = 8 label =’ 生活必需品(金額)
GDS_HIGH length=8 label = ’ 控室沢品(金額) ’
GDS_LOW_R length = 8 label =’ 生活必需品/支出総額・
GDS_HIGH_R length = 8 label =’ 噌好品/支出総額’;
GDS LOW = Y041+HM+Y088+Y093+YI21;
GOS HIGH=Y103+Yl26+YI4l+Yl51;
GOS LOW R = GDS LOW/ Y038;
GDS_HIGH_R=GDS_HIGH / Y038;run;
/丸一一一一一--一一一一一一一一 ー

相対的貧困率の導出

ー一ー * /

% ホ 等可処分所得の算出,
data work.poor;
set work.analysis_v2;
attrib
DIS_INCM length = 8 label = ’可処分所得・
・
凡N length=8 label =’世幣人員の平方根
AD_DIS_INCM l回gth=8 label = ’ 等可処分所得’;
1fmissing(YOOI) =0 and missing(Yl 80) = 0
and missing(Yl84)=0 then do;
DIS_INCM = YOOl *!0000 - (Y l 80+Yl84) * 12;end;
else do; DIS_INCM = .;end;
ifmissing(DIS_別CM)=0 and DIS INCM < 0 then do;
DIS_INCM=O;end;
1fmissing(X03) = 0 then do;rt_N =X03本* (I/2);end;
else do;目N= ,end;
ifmissing(DIS_INCM)=0 and missing(rt N) = 0 then do;
AD_DIS_INCM= DIS一郎ICM I rt_N;end;
else do;AD_DIS INCM = .;end;run;
% * 所得中央線(等可処分所得の中央値)の導出;
proc means data = work.poor missing vardef=wdf;
class 羽田r;
V町AD DIS INCM ;
output out = work MD_ADI
(where = (Year ハ= )
drop = ーTYPE F阻む
median(AD_DIS 別CM) = median ADI;
weight weight ;
’
label median ADI = ’所得中央線 ; run;
proc sort data = work.poor, by Year, run,
proc sort data = work.MD_ADI;by Year;run;
% * 所得中央線のデ ー タを結合,
datawork.poor2;
merge work.poor(m=in R) work.MD_ADl(m = in_S);
by Year;ifm_R = I, n皿;
% * 貧困線の算出;
data work.poor3;
set work.poor2;
attrib
BD_POOR length = 8 label d貧困線(円 y
’
FLG_POOR length = 8 label = ’ 相対的貧困世帯 ;
BD POOR = median ADI /2;
if missing(AD DIS_INCM) = 0叩d AD一DIS_INCM <二
BO_POOR then do; FLG POOR = I; end;
else ifmissing(AD_DIS_INCM) = 0 and AD一DIS附CM>
BD POOR then do;
FLG POOR=O;end;
else do;FLG_POOR = .;end;
run;
% 牟 親と同居する未婚者世帯のフラグ立て;
data work.sm;
set work.poor3,

425

412.

attrib FLG_COH length = 8 label =’親と同居する未婚者世帯’; ifXII = 4 &X03 = 2 &X09 >= 6 then do; FLG_COH = I; end; else ifXII = 5 & X03 >= 2 & X12 D = 0 & X13 D = 0 then do; FLG_COH = I; end; else ifXII = 3 &X03 = 3 &X12 D = O&X13 D = Othen do; FLG COH = I; end; else do; FLG_COH = O; end; run; % ・ 貧困かっ親と同居する未婚者世帯の抽出; data work.sample; set work sm; ifFLG_POOR = I and FLG _COH = I then output; run; % * フォ ー マットの作成, proc format, /* グル ー プ分け町 value GRP I =’①生活必需品(多)/噌好品(多) ’ 2 = ②生活必需品(多)/噌好品(少) ・ ・ 3 =’③生活必需品(少)/晴好品(多) 4 =’③生活必需品(少)/噌好品(少) ’, run; % $ グル ー プ分け; data work.clsf; set work sample, at廿ib /事 グル ー プ分け町 ’ GRP_P length = 8 label = グル ー プ分け ; ifmissing(GDS_LOW_R) = 0皿d missing(GDS HIGH R) = 0 and GDS LOW R > median LOW P and GDS HIGH R > medi叩 HIGH P then do; GRP_P = I; end; else ifmissing(GDSーLOW_R) = Oand missing(GDS HIGH_R) = 0 and GDS LOW R > median LOW P and GDS HIGH R <= median HIGH P then do; GRP_P = 2 ; end; else ifmissing(GDS_LOW R) = 0 and missing(GDS_HIGH_R) = 0 and GDS LOW R <= median LOW P and GDS HIGH R > median HIGH P then do; GRP P = 3; end; else ifmissing(GDSーLOW_R) = 0 and missing(GDS_HIGH_R) = 0 叩d GDS LOW R <= median LOW P and GDS HIGH Rく= median HIGH P then do; GRP P = 4; end; else do; GRP P = .; end; run; ’ % 事 グル ー プ分け(貧困世帯,支出総額), proc tabulate data = work.clsf missing vardef= wdf; classYear GRP_P/preload畳nt; var NIY041Y0 8 8Y093Y103Yl21Y126 Y137Y l41Y15 8Y159Y167YJ79Y l91 ; tables ’ ’ 剖I = 全世帯(貧困同居世帯) G即_P = , Year = *NI = 吋 ’ ( f= comma8. 事 sumwgt =’世帯数 f= 8.1 • colpctsum = 割合(%)') misstext = 0 0 ・; /printmiss weight weight; ” ” ’ ’ 426 format Year _Year_. GRP_P _GRP ., run;

414.

Communicating Risk and U ncerta i ntv David Spiegelhalter Chair of the Winton Centre for Risk & Evidence Communication, Centre for Mathematical Sciences University of Cambridge Presiden乙Royal Statistical Society 2017・2018 @d spiegel JUSE - SAS User Forum, Tokyo 2019 I used to do statistical methodology.… 429

415.

430

416.

I now work with psychologists and communication professionals 431

417.

og 一 「コ3 03 :・ 同 oE コO〈〈一コs m C ω一 叶ymw 03骨昆科目a 一宮ヨ ogo Eヨ oz a一ぜ一 巾 》『仲 一 宮『 ... ® 哩,h e ®e-® @ ’‘@ @ @ 悶 て@ @ @ @ @ @ @ @I) @ @ ® 0ilfll» @ コ 」ω百ωコ σ 〈口 一 ωコ 立件。 σ 0 古C豆 rw才巾丘 一 ωnO〈巾『MH Cωめ己 コ ZC3 σ の 「ωω 「00 沖 (D @ @@@ @@空自 由E 品 @ @@ @磁磁@ ®•"' @ @ mw qdQ Aり コ『O「ヨ 才 巾 「 同才 一ωコ 一 「 一一 ωc ω 立の ω ℃巾 「 ωN h日

418.

Brexit ・ This is causing some problems for the UK ・ We had a referendum in 2016 • Numbers were used in both the Remain and Leave campaigns The Leave number: based on GDP, big assumptions, no uncertainty. 433

419.

The Remain number: it is wrong (around double true figure), but clever! Can we make this number look small? ・ Around 60 million people in UK ・ So around £6 a week per person ・ Around 80p a day ( 100 Yen) • 'We each send the EU the equivalent of a packet of crisps a day’ 434

420.

Assume we want to communicate in an honest, trustworthy way • Numbers do not speak for themselves 四 we give them meaning ・ Their emotional impact depends on how the ’story' is told ・ This makes it challenging to communicate risk and uncertainty STOP TEXTS ST 酔 WRECKS 閉 討斡 巳�ヨ υS Eciit!Oll 回�血j 。 Eating just one slice of bacon a day linked to higher risk of colorectal cancer, says study By Nina Av悶mo郁a, CNN ①Updated 9:58 AM ET, Wed April 17, 2019 435

421.

盟 一 … ω 関 協 一 議… D一 曲 師 同叫 i 一二七 ,.‘… Media are reporting this study of 500,000 people Ab司問d Diet and colorectal c出1cer in UK Biob自由:a prospective study 0 Bae匂round Kathryn EB悶dbury哩Ii, Neil Murphy, nmothyJ Key Article Contents 436

422.

25g processed meat a day associated with 19% increased risk of getting bowel cancer Such relative risks are known to exaggerate apparent effect Need absolute risks Around 6% of people will get bowel cancer anyway in the UK. So what is a 19% increase over 6%? . . . . 巾 『d 1 y VE 叶れ rt- 叫U k o e Aい pu uv vy a e a e Au --仏U LH P nド o a ・に 町 e coM 叩・ 1 ・d o nド n k ハ U n o vコa -ムt s HけいじれJ川…円けμ AM一 日けUAJ川又けい川μhM A什り晶曹m 円川九州いいロハ口 出内 J idhhM山 口リレ〔μ仁川一円一U一ムUM711V一 九日一一U人一一 川辺〈U 円リ出 〈汁il U Aリ凶ロペυι 丸一J山λ什ハ斗へJSU一 hu- M 丘 一川一 じud れJ 晶曹宜 ハハ凶作江 戸 !「ノ出 円 以ハ出 、 わいい一 轟普 門川山門〉 ηJ(凶作 Uι(V山 口けUA1M白川V 口山 晶置 の出 A Vハ ーい AU円以 hf川 の一一 口U FhuM口 以内M Ahh一 v 晶曹宣 円以内U つ川口出ムUU円円以AL〕 ハパロ凶円u AM のけU刊一出〈U 口凶 円U 晶曹鼠 打 、 JV? AUUnハハ叫ηじυえいい凶 日引いμλ打出 ハU川五日川ずしU A円U 門川川ザハハいぷ〈JM一rけい日以 凡JM山九円一Uリ冗ぺげ川いのけuu〈ーい山 ハM} 437

423.

円nM士一Uμ 門M 《けω ACU A いいり円以 ハ円い 斗 J 臨機蹴 AUA川川凶 内U(Mnvt 晶E Jりい以 口山内UA川日出 の凶 出品冨裏 円九円以 ハU1U一 ハU λnM晶曹明日出 AいU 〈い U 門 川出 〈U n円凶作古川凶 作ν 円M ηυ ハV山 門UAU凶門け一 ηυ 〈リ川一円U 内山けじ以 内円以円山 晶曹宣(川山一 行k口え凶 n門JH山門門 一 足以 へりι 〈M六UN- Az以 〈けい以 内い えU泌 円パhdA1H山 行UAM &普 門出 内ハ以〈川出九日UAパ凶 nu門凶歯周 一い」 ハ 円安V 凶作un 凶作以引い日出 へいu のU リυト以内 一 ndえU出 (凶 行 U 口一去一一 〈UMずれ》円副作 un じ出町門一VCM交じハV 100 people eating a bacon sandwich every other day 4 Recommendations for risk communication • Emphasise absolute risks • Use ’expected frequencies" - eg what would we expect to happen to 100 people • Keep denominator fixed • do not compare ’ 1 in 100’ with ’ 1 in 5σ • say ’ 1 in 100’ with ’2 in 100’ • But also give relative risks for rare, important events • Use numbers and graphics ’ Avoid words like ’likely,,’common unless given a clear definition ・ 438

424.

耐 E a- - , z a 439 - nv u n可 e nv e Ln o t w 。 ’ What about trust? 均 m可 、 . b d 。 Lo a -hu o nv n s n yd 醐 a I e 凶 伽 岬 昌 M E ’閣 町 hu 市 } El eM 可 s pE t 闘恥 c.一 g 旬 s n d a E - - 凹d h c h 釘 m 間 a a1 s S, H i h p 1 1。 ONLINE C URSE 匂伽 VA DA P代唱ramt Cou問剖 Cat•唱。rlas .,.r\四m Fa ’Expected frequencies' are now in UK GCSE Maths syllabus:

425.
[beta]
Philosopher Onora-O'Neill....
• Qrganisations should
not be aiming to
’
’increase trust
• Rather, aim to demonstrate trustworthiness
• Need intelligent openness about
information

• accessible

・ intelligible
• usea67e

・ assessable

The pillars and

Code of Practice
for Statistics

principles of the

Code of Practice

for Stati錠ics

Trustworthiness

,

c,,,,Ji 加盟句”凶凹旬由回. .,,田陣噂®'
-電•""'箇飽訴溜世魁巴国首'""旬
nHooe,ty,odio畑"'旬
利初陣'"""'"臨め価蜘岡田露店街阻
鋪四岨国民尉市4同-剖a刈田町""'脚色
卸凶,nccta調匂蕗匂惜由円借『由of』同羽=
目祖,'dlectlhe W必f酎醐"�-

Ensuring official statistics
serve the public

Illnd叩回dentd挺,,,聞=魁暗...
�.曲nh旬
o,..,回目。"'納。u d a田明・由,,,
S匂蜘tldao/H"d。f Profession for s包耐旬"
wh'"pho凶,aod ,,,..,,�tho"・nd ards
of倫e c。..,抑制明tolmp,o"' a旬t1,t1凶'"'
自tafu<thop"b包師。,, '"' '"'''""'
'""'"''唱'"'"""""
no叫.,�防相槌.
。,"Eenisa蜘m shouldcommt旬岡田.暗
th凶日泊詮謝"加'" '"" ... "'附田""'
恥回""甘沼t promotes切n畑·=·

’四

TOT,闇温pan:ntpro祖””町制dπ旭国..

t

o..,時直径@鴎shouId have effec首w bu舗M鎚
…酬明topri脚…ω
知ooort <hoi, ''"''"alt ョttoMarulb<'
..即時。"'怯柑向m •"刷出""'

,,

間間

Edition 2.0
February 2018

百""''叫'"''岬曲目岡
向。p詮.,吋岨"'由松錯包山,u/dbe
appropr旬惚’,.,.m... ,悶lned a岨釦pported
'"納"'"""'"' .....回開alllt時lopo碍""
l6Da泊aovum四m

匿;t!��: !

tl� Regulati

曜語 Authorit
UK Sta

。事阻岨onsshriud f帥k a代理!tpe叩ぽs
t町forma-銭。伺""'陀ly aod maoaa, "祖
l
tnwaysthatareccnsl11ent州thre!eYc1nl
/ee;lsla泊。n '"' ..

”, '"""" '•='

y

C時nfPrnchr.�加5!al1,ttcsf.!Mion;.o

440

426.

Part of demonstrating trustworthiness.. ・.. is admitting uncertainty Uncertain ↑ y abou ↑ s ↑atis ↑ics -··一一一一一一一一一一一……一一 Business 鴨削附CMY ・ .... MQfloMtlQ:I. 階 。柳時店前S Emriomy UK unemployment恒lls to 1.44 mllllon 0お岨...,醐ロ醐 ·-·-·同一一一副 f ,, 0 回 〈@官. lll(巳""""'抱卵曽憎,"』旬.....旬’Mm U陶... t同自陶•=戚加畑 肱-同offl由A旬•=蜘明 官鳩町.l!Tlboto1師栂,ow酬』間嶋.MdGhar耐u嘘"'窃um制 " e属製,!11!JI岡市匂 441

427.
[beta]
Uncertain ty abouts↑ atis↑ ics

一一一一一一一一
Business

,.,.蜘曹V ..旬t臥担 ...初旬 -帥” ...館市

UK unemployment falls to 1.44 mllllon
c• J叩制山

f

.,, ・ 巴 •:'"·"

陶町、

UK胴,�ntfo”削細胞山田iふ山間叩匂
1斜gu間曲。w.
而則市、
)w明間'"抽出輔副
包札
帥由制阿久in work E同時as剖stv

Uncertain ↑ y aboutstatistics

一目··-·一四一 一一-

..

臥刷n醐畑出胃出回抽出国師吋旬』田町

- li1i面圃Office for

• National Statisti白

Release calenda, Meth

UK unemployment勉lls to 1.44 mllllo
c• 叩刑囚醐

”。me > Employment and labo回ma惚et > People加wor匙》· Employment and.emp;叩胆typ国> UKlab<

UK labour market:January 2018
Es伽抗es of employment, unemploym叫economic in制vity and other
出吋帥川s,蜘to 1.輔mn� -岡山
m冊、1相聞曲叫
employment-related statistics for the UK.
明司附偲凶伊
)-欝諮問調"肌馴.凶&倒閣1
旧制刷陣、m work incre田岡stv""

j

442

428.
[beta]
Uncer↑ain ↑y about sta↑istics
e
n
o

o
e

TE

hu
コu

一
丹羽目向日

1. Main points for September to November
2017
2. Summary of latest labour market statistics
3. Things you need to know about this release
4. Employment
5. Public and private sector employment明日t
published on13 December2017)
6. Actual hours worked
7. Workforce jobs (fi円 t published on13

出品同相川弘脚to 1.44 mill
-

10. Unemployment
11. Economic Inactivity
12. Young people in the labour market
13. Redundancies
14. Vacancies
15. Future publication dates
16. Links to related statistics
17.Q叫ty and method山U

Decem恥r2017)

lflgu闇曲側.

8 Average weekly earnings
9. Labour disputes (not seasonally adjusted)

川崎町田単価仕出回醐

而ru"師、

"'-lnworki間開a制時用鳳

肌曲醐'

Uncer↑ain ↑ y abou↑ s↑ G ↑is↑ics
主主� 畑町山抽同血t As well as calculating precision measures around the numbers and rates
UK unemployment勉lls tc obtained from the survey, we can also calculate them for changes in the

刊向山川市a

numbers. For example, for September to November 2017, the estimated
chan喧e in the number of unemployed people since June to August 2017 was a
; small fall of 3,000, with a 95% confidence interval of plus or minus 77,000. This
means that we are 95% confident the actual change in unemployment was
somewhere between an increase of 74,000 and a fall of 80,000, with the best

u’《

町m

estimate being a small fall of 3,000. As the estimated fall in unemployment of

’

nt 幅 llb
I fl壇u欄 sh。靴

Thenumhaへ

i

E

3,000 is smaller than 77,000, the estimated fall in unemploγment is said to be

/

iw句飼町紛"嗣'"州側V脚
ほ

削曲醐箇凧 "刷出 問聞曲吋·�,...
'i

change in unemployment is 3,000 +/- 77,000 ! !

443

429.

February 2019: Bank of England report on Growth • Uses ’fan chart' for annual change in GDP Percentage increases in output on a year earlie「 ; +一一 同制∞一一→- I 6 -鋪繍鰍→5 4 3 • 30%, 60%, 90% intervals 2 1+ o- 1 • No central projection 2 • Shows uncertainty about past growth 3 2014 15 16 17 18 19 20 21 22 Migration statistics are highly political, but uncertain Statistical bulletin: Migration Statistics Quarterly Report: July ��18 (rescheduled from May 2018) 444

430.

February 2018 report Figure 1: Long-Term International Migration UK, 2007 to 2017 (year ending September 2017) - lmmigrat,on 800 ~ e Net Migration Emigration @ Revised Net Migration Thoυsands 600 ・・・E・E・- ・EE・E・- ~ d園田四回 r Dec15 p ・・・・・・・周 Dec14 一-E------ 平 Dec13 + ・・・・・・・・・周 Dec12 一4岡田岡 白田岡 Dec11 へ Dec10 一 d剛 ~町田町副 一 如湘胡 一 園間関関盤 一 露援隊隊機騒 Dec09 ~ 関 関関圏 際機緩綴醐 幽 一 闘機関閥盤 審 議露 爾闘機関麟側関閥閣制幽 Deに08 \ / 〈 開側関関関側悶悶悶悶附幽 Dec 0'7 Dec16 Year ending 。 s urce: Long-Term International Migration, Office for National Statistics We worked with the Office for National Statistics on including uncertainty in the graphics 445

431.

Figure 1: Long-Term International Migration, UK, year ending UK migration report |\わvember 2018 June 2008 to year ending June 2018 ー- Estimate Known uncertainty In su刊町田t1mate •••• A叫usted for the unusual pattern in student Immigration 官四』抽nds 700 嵯静 Immigration Only visualises sampling error Quality issues as verbal caveats 500 Emigration Net migration ’ 00 …一一 : EU referendum 0…- Jun08 Jun田 Jun10 Jun 11 Jun 12 Jun 13 Jun 14 Jun 15 Jun 16 Ye町ending 。 Jun 17 Jun 18 P同vision副 。 s urce: L ng-Term International Migration, Office for National Statl抗lcs Part of demonstrating trustworthiness.. ・.. is admitting uncertainty • But can we communicate uncertainty about facts, numbers and science, without losing trust and credibility? 446

432.

Randomised trial of communicating uncertainty about numbers • Topics: Number unemployed, • Tigers in India, • Global temperature change • Format: • Estimate • Range • Verbal qualifier, • Trust/credibility: in number and source • Design: Online panel, between-person, 1126 participants ・ To what extent do you think this number is 8 ,.帥幸‘- 7 拘c"s'喝F G接 誕暗@怠帽 6 声援暗算金総 蘇齢議濃密 5 4 3 2 Dε コ C o 』 h担 56 亡 。ocコ℃ω 之ω Oω 」 仏 』@ uncertainty rilli--i h People notice 由ul--ilit Results 榔磯制 r云1 Control 係機縁怒鳴 神絞耳回 都即事掛 手品品掛 歩、月e宮b Numerical Format 447 Verbal

433.
[beta]
To what extent do you think
this number is reliable?

Results
b

People realise the
number is less
reliable

l�
王子

歪
‘

4

町
i

‘H田玖

..

捕拶割!l!宅

ザ夫.::;

事時e'&>·

抑食品

E寸

竺空竺竺土

恒鑓匙#恕

Control

Numerical

Veゐal

@
句
”

Format

Results

To what extent do you think the
writers of the report are
C

Trust in the source
is not reduced if
the uncertainty is
quantified

+.. , ... +....+h‘’フフ

包

5

7

 6
的
姐国
�

さ

由

主
2

喝�

仏

.........

%、"-

�町畠話~

5→

略aゆ議

、寄輔副

4→

i 働向!

I t.1'静観跡

3寸

暢

’.�晶、

i :

Control

I

Numerical
ドormat

448

Verbal

434.

Communicating uncertainty about the future to clinicians and patients ・ Online risk calculators for predicting outcomes following treatment for breast and prostate cancer • Based on analysis of UK cancer registry data • Competing-risks Cox proportional hazards model • Validated on external data sets • Used for> 30,000 patients a month worldwide predict flmj What is Predict? P陣diet s l 聞onll neto。 l thath剖pspatlen也and clinlci田sseehowdlffi酎明t甘田岡聞ts fore町1yinv田Ive b陣a説国near might imp悶vesurvival間t閣総er剖咽ery. 陀Is a幅四頭副旬胸相聞-岬ntComr制御謁聞白ncer刷CC) 輔翻覇鴎 町d戸抽,開掴,曲凶掛P冊diet Pro説副e7 b What does P陪diet do? P聞diet曲陥for田modetallsabo叫tho patient ss Who is Predict for? P田diet is fo, clinlcia,闇,pati田脂血d their Where can I find out more? To阻admo聞go to About Predict https://breast.predict.nhs.uk/ 449

435.
[beta]
’ Add S司ment

、

。必\Us師
100.00 S僑脚”

Jun 1,2012・Aug 12, 2019 v

語長三}•由叩曲

..αm
間ρω
2013一一一一

一一一

一一一一

一←

Z.014

一一

…ー…一

s,鑓Ions

! U縛棺

1,173,160

i 563,757
i.一一一一戸戸一点、

一一一_,.一昨日「

........,同Durntcn

Baunoo Rate

00:01:54

43.43%

ー_,__.r

加n甲咽畑
""省、必..

一一�町、

“201S

一

山山内山日一 一一

.,,.,旬-

CR,t-gV除lt町 .. N納....館町

竺竺ふぶ�
! % New

白旬。"'

47.99%

ー-~-日『ーー一一ー

’

抱,

Com

S鋪剖""'

E怯帥d肺瑠由回

話市地盤翠却AS也

包囲岡田知抽

ca<,

a

笠主�

十 一一…一一

Brow,«

20悩
ι_;

一,.-_

! ..... , S悶8切除

毎創圃a

。附mu時6'stom

一

’‘-加w

"酬’ E喜祖.71•

=•曲師"'"

0,,185 I日時

4田畑田11,

""'

I •且亀

……一一一……………ー……-

s. H血相自

& 、 J叩,,,

450

"·'"

I '·'"

so.m

I

,.田%

436.
[beta]
令

、》

4,949

1.87

1

Osa伝a

s,回8 1稲田3

37.45%

Z063

但百円}

57.59%

2

Ynkohama

3,385 ,..ヲミ3

42.42..

1,436 争師、J

55.95%

2.01

00:02:03

3.

Shloj山uCity

3,273 '"吉亀〉

42.50弘

1,391

54.90

’‘

1.97

00泡2:02

4

Min叫o Clly

3,136 {晶,1望丸}

39.3且%

1,235 ,,畠ll"i

52.17%

2.08

00:02:08

5,

Nog由yo

3,0曲3 ''·"句}

36.60主

1,121

"·"叫

62.06'も

18
. 0

。。沿2:07

6.

Fukuoka

1,760 ,,..,,)

33 41%

588

(?..河川

59.83%

1.89

00:01:34

7

Kyoto

1,407

trn吟

33.76%

475 "·"'')

47.83

’b

209

OltO附 ・ 56

8.

Chuo City

’,

''"副司

66.94'丸

897 ''·""

45.�

2.14

00:01:38

。

9.

k bo

10

Soppoc

。

340

告別主}

‘

1,097 '""'

3500%

384 {1.1:2<t.l

42.21

1,064 ,,.,世,,

43 14%

459

49.25'11.

''·""

2.52

Olt.02.54

217

00:02:46

0 00%

r…

…へ
l…
.J .
一…
j •··· 1ー1·10olse2 [._‘…

Show rows r九1 1 0

c

n,;,冊port山"''""'"''" aパ3{19剖10.'59:56AM Roi『'""'"'°同

451

437.
[beta]
Ageat

曲e圃均

母

民間剖母

τ...圃...・曲

毒事 ;示品ゐマ N

H田由国

⑮}
轡

P岨岡崎T岡出刷岡市

、圃司句

c«可制協同rto14p<\)ve1附"阻晴"'""例rogramma
白

…竜'

L�J.N

句刷出向

2

。

下τ

.,,喧..1九'Hrn凶'" 円<." o·t.内"私

曜動 陶

命(吋;…一

両町一命

Treatment Options
”。冊。帽

引い

轡

�bf

崎町

却

ー

母

""時

[;;;,]出町叩

...恒也a

問帥a

、

τ IITICIUl'S:忌.

田

ー

r�.1-,,,,:,t抽出岡田·Jr.25,田t計

'悶N

Ue>附""

Results

i,�

璽富山町祖尻町

同国

τ7噌抽同副
陣陪邸面ge

b歯師開曾槍加加問出。n y。u ha咽 P悶vid回

...町噛轡胸

Tit盟也官官制持

同帥訓告山間開>i>.<eml1'Rヨn1:·,im仰向

M剖旬。

!

nalB倒閣制

&』rgery田ly

助問間同運雪地

'"'山brtx1,;;.r,;;?勾'"叫…

8%

54%

+Chemother叩y

7%

81%

+γ陪極包皿JIT1ah

4%

85略

+Bi焔帥田帥町閣曲

2%

67%

d岨由加m恒国st国n副首W官官制clud回, 76%would a』耐帽a加担115

問m

Texts

歯

Icons

se 『官suits are for women who have創r闘のhadsu句ery.刊is graph shows
the percen也.ge of women surviving 叩 to 15 yeaぉ. Th飴e 『箇ults a問bas剖on

判官

the inputs 飢d廿·ea加1ents you selec恰d.

100%

醐幅闘

宣

告側

f

Survival rate excluding
deaths官。m breast
can蹴運動

e Additional benefit of

bisphosphonat鎚

2

f> Additional benefit of
甘冨説uzumab

附

0

2

4
6
8 10
Y回国 after 副司ery

12

1%

46%

πnon泡曾沼田PY

Cha同

。時間II S町叫四

+”。

tt

T的le

一

tsmeforwom制 who havealr田rJy h掴·�ry.,刊..回副e "'"'崎 tho
of 嗣m田酬。制叫veetle回5 10 ''iye師胡尉剖喝町・

町向明電器町加伊ム:ι

14

⑧ Addition副 benefit of
chemother百PY

<il Additional benefit of

hormone therapy

e Surgery only

452

a・

438.

Curves Table Te叫s Icons ul for women who have 剖陪ady had su喝町・Bas珂on the inpu恰 and甘eatmen包you select:d, th随自阻ph shows出epercen也geofwomen surviving at回st 5 叩{柑,ye師 at悼r SU市町・ 有国@陪s 泊町e Overall Survival 100% 100% 90ラる so,ら 80% 70% 60% 50% 四% 70% 60% 。% 15yea陪 aft町 SU匂ery Table Curv田 糊 担 _ Survival 『ate excluding deaths from b陪astcancer. 需事 ⑧Additional benefit of bisphosphon副:esls2% 剖 15ye町宮 軽量Add社lonal benefit of trast出umab Is 4% at 15 y,回国 著書Add耐郎副国nefitof chemotherョpyis 7% at 15y,田rs. 重量Add比ional benefit of hormone therapy is 8% at 15ye町s. esu唱ery only su刊Ivel is 46% at 15ye町宮 Icons Chart These隠suits are for women who have already had surgery.刊is display shows the outcomes for 100 women based on the inputs and treatments you have selected 5 10 r·��よI years after su匂ery. 46 out of 100 women treated wrth surgery only are alive at 15 years. ・ 54 out of 100 women treated with hormone therapy are alive (an extra 8). ・ 61 out of 100 women treated with hormone therapy, and chemotherョpy are alive(.剖extra 15). ・ 65 out of 100 women treated with hormone therapy, chemotherapy, and trastuzumab are alive (an extra 19). ・ 670凶of 100 women treated with hormone therapy, chemotherapy, trastuzumab, and bisphosphonates a陪alive (an extra 21). Of the women who would not survive, 24 would die due to caus田not related to breast cancer. 453

439.

Table Curv偶 Chart Te双s These results are for worn日n who have air伺dy had surgery. T his display shows the o凶:com田for 100 women based on the inputs and treatments you have select凶 s 10 t 1s ; y,伺隠after su匂白砂・ 88888Q8�8§ QQQOつの()リつひ 0 24 deaths due to other causes 9 breast cancer related deaths • 2 extra survivors due to .::::: :::::::::: ........ .. bisphosphonat笛 ⑧4 extra survivors due to trastuzumab 7 extra survivors due to chemother冨PY ⑧8 extra survivors due to hormone therapy e 46survivo隠with surgery alone Levels of explanation in Predict 1. Verbal gist. 2. Multiple graphical and numerical representations, ’ with instant ’what-ifs 3. Text and tables showing methods 4. Mathematics, competing risk Cox model 5. Code. For very different audiences! 454

440.
[beta]
Part of mathematical description
The form of the Predict V2.1 algorithm
The問timatecl b剖eline cumulative haz,叩i for hrei.st《叩cer mortality H0 at I years po坑
叫rgcr_v has the form

、s

H.(t) =ほp[a'.f(I)]
her<' "• is a v町tor of出timated cυel!iCll'I山,山,<l f ,, (column) wctor of fra<:t10l polynυmial

functions of time pt operatwn (,h百円ent models are built for ER +組d ER-)
In Pmlict 2.1,

・ 1f ER+

H.(t) = cxp[0.7424402 - 7.527762/.,/i

• ,f ER-

1.812513log(t)/.,/iJ

H0 (t) = cxp[-1.156036 + OA707332/t2 - 3.51355/t].

g,
Th,, 回timatecl survival function for urcast c,UlI mortaht)’S. given risk factors x R1d the
ith treatment combiuati《)ll XT is bVCH uy

S:,(t) =四p [ H0 (t ) 町p[/(rR + <1叶|]=四p[- exp[,(f(t) + b'.xn + c'xr]]
where b. c are v回初出of estimated !'oetl1ciP11ts. Thiis the chance of living he_voncl t vears
afterrgcry under treatment ngim,, i, ,出Ullllllonly ur<'拙t cancer mortality.Predict Prostate
An i1d1vldualised prognostic model for men newly
diagnosed with nn-metastatic pros泊施cancer

Did you ms即加 visit Pdiet B間借t C副首@斤

What is Predict
Prostate for?

How do I use Predict
Prostate?

What will Predict
Prostate tell me?

Pdtct P間前ate 1s a tool whethe

Enter the delalls aboyouettd your

The Pdiet Proate tool shows you how

。凶com田加m co陥@刊·ative magement

prostate ccer, and then関陣d

d市@問nt lnttial management str討:egiesr monlt。巾日)町·ecomp町凶withdil

conservative management ordieaffect the percentage of men that suive

ta1ent (sueordlothepy).

国剖ment to sestimates of剖刊ival with

ten and Iieen yeaafter diagnosis Non­

each.

individualised dals also shown on the

We recommend patients read the About

同柏ntlal harms of each tatment type.

Prict section before using the tool.
Pdiet Prostate ls only Intended for use
amongst men for whom both coe刊剖Ive
mansement and radical t帽副ment could

https://prostate.predict.nhs.uk/

455

議塑い

441.

&Et・ F』 e 汗 e e cd AU Hu e d El c nH 旧 ・ 文 , ‘ unHe e巾 S 門 川 m Incontinence I- 、 , E- , E J t 司 b , p Y n dM 代 <IRadl儲I Radiotherapy nH - E E 3 .. •Radle凶p肉薄也恰ctomy. 開 mm Col宿町V説明mana伊m附 E nd e t o e mp un - iil--L『KI-- 副 副 . 匂 内 C O ん 児 町 Pot開首剖ly permanent harms of t pO E U B 同州 ・ ・ 白書ned田: ・w。問。問。r mo問問ds in the陥st4w掴陶 ・ Wlthconse四甜崎町祖阻gen閣nt, fewer世祖n 1 in唱DOmen have血is issue aft町3years. 出an 1% WI由mdlcalpros値幅e旬間y,abo凶20 in 100men have制S国ue副首3years. 20% II聞岡町阻 m1mm mmm1m語llllllllllllll!llillill!IIIIIIIIIHI議総1111泌総 i WI曲目d畑出erapy,, 曲。凶3 In 100m町、 have由is陣剖ea官官3yea周回 3% 1111111111 1111111111 i駿111111 1111111mm詰11111 1111111111 1111111111 1111111111 llllllllll llUIIIII! 属国mat蝿for lnoonttn町田d四function have b曲n也陶n加mtheUK-b出描d約怠副嘩叫面詰Ir唱for C副首町and官阻加町叫(門前田1ヲ凶副.官噌如II聞軒瑚ch曲n 回,圃d he同:M愉配爪刷w.n吋m.剖宮/doVfulV10.10弱IN日M岨160!担21 What about doubts about underlying understanding/science/models? 456

442.

ROYAL SOCIETY OPEN SCIENCE 間施剖拘脚誠lshlng.o叫仙mal/rsos Review @� ate 曲副d田咽n dl!r 81白州, van de 『 linden S, F眠man AU, Mitchell j,臼l咽o AB, Z調IL. Sp切elhalter DJ. 2019白冊岡山首eating 柵個包 inty 企out fad回,num 民俗 and 剖聞日. R. Soc. 仰ren sd. 6: 18187百. http://dx.doL引が1 0.1098師団.181870 Communicating unce 巾 inty about facts, numbers and science Anne Marthe van der B1es 1 ベ Sander van der Linden1.2, Alexandra L. J. Freeman1 , James Mitchell3 , Ana B. Galvao3, Lisa Zaval4 and David J. Spiegelhalter1 ’ Wmton Ce岡田for Risk田d E叫d mmun回出n, D叩副m田tof Pu偲刷出町田ks and 胸臨阻制加融先制也市idlje S曲l M蜘・胸幅ng lab, B叩棚田t of 陶d叫周到, Unlve副司y d 臼帥ridge,白帥ridge, UK 切削減 B凶『闇 5曲師11, Univ師ity of 愉刷ck. 印刷I叩,協 同町町師I of 均伽l明 ω師bia u鵬榔, 蜘 Yorl<, NY, U訓 @酬吋B, 鋤品捌2・7拐・94:お 制使白 Level of uncertainty A. Direct: expression of uncertainty about fact or number or science • perhaps a probability or an interval B. Indirect: Summary of quality of underlying evidence • caveats about biases in data • many qualitative scales in use 457

443.
[beta]
MAGIC team­
benefits and harms
of medical
treatments

r …一…

j'.ffhelJ凶

tion / Ne;,s & Views

R

三 campaigns}'

{}潤

「- Chok:eofln加ven世onforth目隠叫治相,ere aortic: stenosls一司「
or

E圏瞳

R舵ommenda目。,ns

向w・u惜TA'明

院回...澗SAVR

Qualityofe叫dance

勤蜘

相官醐・岨帽噛曲栂
肱開脚岡加

出曲曲崎臨a

蜘師....幽曲面蜘
帥由畑醐同軸周

拠

.
.
,

全唱司令

鐸麗欝盤薗毘翻趨麗E静
.....

」

女*辛d量

榔

4聖女唱聖女

一

食昔t *

幅 値

合唱!f;t(

a
圃
.
, ,
.
.
,.

**骨量

Moderate

白血 ・
晦
晦 h h --
α α α g g α
M M M M M M

食合合

""也御山崎岨戚...町宮耐喝
催国勉r川崎信加岡が包』

島健闘耐畑抱卵樽曲ー叫古田2開"

@極圏離罰悶
旬

悶

開

怨露趨密密u:週

臨軍属罰踊密密Ill>

"'

-怒怒趨密部

@路盤懇萄鼠筒穏
肝

mil盟盟限鶴鶴田酔
制

312

lllm/llllll盟国酪

智d酎総笛田

司自常命
会合*

'"

.合*

U唱曲....勾旭川町

官2

制胎...冨也

M

u

aー さωEB
』司 〈

・

8 ale

Evidence(抑e; amount, quality, consistency)ーー+
Figure t: A depic唱。n of evide『ice and ag『鈍ment S旬t叩, e附 and their陀la首onship to
con自dence. Confidence increases tOI栂rds甘1e top-right comer as suggested by the
increasing strength of sh剖ing. Gen闘lly, evidence is most robust when there are mul甘pie.
consistent independent lines of high-quality evidence.

458

富加

M側面醐

V町回
会*合唱僻

b俺脚

。雲間目判制聞剛MAGICID

C刷惚血n回

句

事le

合,*合同9

・・*

鹿沼盟国信翠-

宅密画盤国富国

“a勉緬
・...

・...
’...噸
会合会

酌聞由側副,,...開絢伺・ - •暢嗣栂卵""

Communicating confidence in the science/
strength of evidence in climate change
IPCC

。...

444.
[beta]
UK What Works
Centres rate
evidence for
policies

Toolk捻蜘朋d,

Arts paはicipation

⑧②玉三1

⑧⑧⑧滋 対

⑧⑧⑧

⑥

町、 r

⑧⑧⑧

⑧⑧⑧⑧

Block scheduling
円、 lnwnrnoimJ陥正t Im""' loo ,n no ,·os1,h,ml on

⑤壬E

⑧⑧話 怒 り

⑥E

⑥⑧⑧⑥

I on imped frn loo ,,,st. Is品t:dun mt民"lt'f.l\(• r苛aknn·

Aspiration interventions
~.,.,ちlow'" no lmpan I<>, m<Kk,·.n,· n>,t hc«ed no n-n’

主主

C

limitedt可idenιE

eg health,
education
Education
Endowment
Foundation

Behaviour interventions
九'"'"'""' ,mp.nc< frn moder,"' w,1. '"'"" on mrn

'"'"'""

V

limih'1I円Iden白土

Collaborative learning
九\odmt,•lmロ品"focc,cv lnw,·o且E boscd on"'""""'

、

r 1dC'aee

Trustworthy communication
• Intelligent openness: accessible, intelligible,

useable, assessable

• Be confident about uncertainty
• Listen to and respect audiences
• Multiple, layered formats
・ Test outputs
Vigorously pre-empt misunderstandings
・ Work closely with communication professionals
and journalists

・

459

445.

ー ー 主催: SAS ユ ザ 会 代表世話人 大橋靖雄 話 人 (氏名50音順) 一 世 世話人会 中央大学教授 伊藤陽 上村鋼平 統計数理研究所デー タ科学研究係教授 魚住龍史 京都大学講師 小野潔 株式会社インテック 岸本淳司 九州大学 ARO 次世代医療センタ ー 東京大学特任講師 副センタ ー 長准教授 イ ー ピー エス株式会社 堺伸也 坂巻英一 周防節雄 兵庫県立大学名嘗教授 菅浪秀規 興和株式会社 高橋行雄 BioStat 研究所株式会社 野原賢 一 独立行政法人統計センター 日本メディア株式会社 松岡漕 順天堂大学臨床研究支援センタ ー 独立行政法人統計センタ ー 宮内亨 八木章 近畿大学元教授 山之内直樹 第 一三共繰式会社 (掲載50音順) 協賛 イ ー ピー 工ス株式会社 工イツ ー ヘルスケア株式会社 SAS Institute Japan 株式会社 JMP ジャパン事業部 株式会社 JMDC スタットコム株式会社 株式会社タクミインフォメ ー ションテクノロジー 株式会社テンダ 協力 SAS Institute Japan 株式会社 SAS ユ ー ザ ー 総会事務局 〒 101・0061 東京都千代田区神田三崎町 3 ・2・15 ORIENT BLD. F 出 陀緊急 �01 論文集 2019 年 9 月 5 日初版第 1 刷発行 発行: SAS ユ ー ザー会 SAS Institute Japan 株式会社