>100 Views
April 21, 25
スライド概要
解析しやすい医薬データにするためのSASによるデータ加工,セッションのねらい 高田康行
解析しやすい医薬データにするためのSASによるデータ加工,医薬データの加工で苦労した点一問題提起一 大庭幸治
解析しやすい医薬データにするためのSASによるデータ加工,加工プログラム例1-繰り返しを利用したプログラム- 林行和
解析しやすい医薬データにするためのSASによるデータ加工,加工プログラム例2-まとめて行うプログラム- 高田康行
解析しやすい医薬データにするためのSASによるデータ加工,標準化を目指した医薬データの定義 -CDISC標準データモデルの理解をもとに- 松丸一郎
ミクロ経済統計特別セッション,再抽出匿名化標本データ利用上の問題点 松田芳郎
ミクロ経済統計特別セッション,統計調査のリサンプリング・データのユーザビリティに関する研究 古田裕繁
ミクロ経済統計特別セッション,1982年から2002年における韓国所得分布の分析 金慧蓮
ミクロ経済統計特別セッション,バングラディッシュ の婚姻形態による世帯所得と支出の分析 ディパンカーロイ
ミクロ経済統計特別セッション,通勤時間に注目し てみた共働き夫婦の通勤・家事・育児分担に関する分析 菅幹雄
変量効果を含むロジスティック回帰 高橋行雄
ロジスティック回帰による推測(V.9LOG!STICプロ シジャの機能拡張) 浜田知久馬
SASによる統計解析を意識したEDC構築 小出起美雅
SAS-Micr。softWord間の自動化処理による出力 の加工・整形 田村洋介
XMLを用いた統計解析結果出力標準化の試案 武安雅史
電子カルテとEDCシステムとの連携システムの開 発と導入事例 齋藤裕子
医学データ解析における64bit版SASの有効性の検討-Itaniumプラットフォーム(IA-64)を軸にして - 土居主尚
トリム平均を利用した統計解析,ブートストラップ 法による線型モデルの適用 堺伸也
POWERプロシジャを用いた生存時間解析におけ る症例数設定方法の統計学的一考察 中西豊支
nestedケース・コントロールデザインにおける擬似 尤度によるパラメータ推定 ロ羽文
生存時間データにおける予測力の指標~時間依存性ROC曲線法~ 徳田洋介
NLMIXEDプロシジャによるbreakpoint指数分布のあてはめ 浅野淳一
製薬企業の営業力分析-SFE(Sales Force Effectiveness)のアプローチによる- 武藤猛
学力低下に関する全国大学教員アンケートの分析-JMPを用いた教員所属専攻別の分析 岩堀淳一郎
FACTOR、CALISプロシジャによるひったくり発生マップが防犯行動に与える影響の分析 大場亨
歌舞伎公演演目の多変量解析-安宅の関はまた かの関?- 坂部裕美子
消費者の製品関与と考慮集合 松沢利繁
JMPによるコンジョイント分析と住民意識調査への 応用-JSLスクリプトを利用したコンジョイント分析の実装化- 有馬昌宏
行政施策評価へのコンジョイント分析適用の可能 性と課題 田中洋平
LOHAS市場の拡大は日本経済の牽引役となる か? ~ジョイントセグメンテーションを用いた LOHAS因子の探索法とNLPプロシージャを用いた パラメータ推定法の提案~ 坂巻英一
リテール金融工学の発展 小野潔
SASを使った数値計算・統計処理教育プログラム 作花一志
テユートリアル教育(情報科学演習)における学習 行動の類似性に関する定量分析 安田晃
SAS/STATGLMプロシジャの演習-Excel 表示応 答分解- 柴山忠雄
抗がん剤の第11相臨床試験における早期終了を 考慮した試験デザインのプログラム作成 中島章博
計数時系列データの推定について 緑川修一
2重対数プロットに基づいた比例ハザード性の検証方法の提案 横山雄一
生物学的同等性試験における例数設計の比較 柳澤健太郎
JMPユーザーによる臨床試験データの解析体制 と事例報告 田口奈緒子
SAS Drug Development を用いた非臨床統計解析 システムREDPOSTの新規手法紹介 大和田章一
ActiveXDeviceDriverを用いたHTML形式の臨床 検査値レビュー用推移図の紹介 橋詰公一
DDEを利用したExcelへの出力 中村竜児
CRONTABとSASAUTOSを活用した、データ数表 WEBページ作成システムの構築について 小西利雄
献血協力者と非協力者の意識に関する研究 田久浩志
BOXPLOTプロシジャの臨床データへの適用事例 長谷川要
JMPのグラフィック機能を利用したアンケート調査 結果の空間的表現の可能性 川向肇
SAS言語を中心として,解析業務担当者・プログラマなのコミュニティを活性化したいです
SASForumユーザー会 学術総会 2006 論文集 2006 年 7 月 27 日(木 )~7 月 28 日(金〉
SAS、SASを構成するプロダクト群は、 SASI n s t i t u t eI n c .の萱録商標です。 その他、本論文集に記載されている会社名、製品名は、一般にそれぞれ各社の商標または登録商 標です。 本論文集の一部または全部を無断転載することは、著作権法上の例外を除き、禁止されています。 本論文集の内容を実際に運用した結果の影響については、責任を負いかねます。
目 次 口頭論文発表 ‑複雑なデータ加工に関する特別セッション 「解析しやすい医薬データにするための SASによるデータ加工」 セッションのねらい………………………………………………・ ・ ・..………………… 3 H H 高田康行(持田製薬株式会社〉 医薬データの加工で苦労した点ー問題提起一……………………………………… 5 大庭幸治(京都大学〉 加工プログラム例 1 一繰り返しを利用したプログラムー…………………………… 7 林行和(株式会社 ACRONET) 加工プログラム例 2 ーまとめて行うプログラム‑…………………………………… 9 高田康行(持田製薬株式会社〉 標準化を目指した医薬データの定義…………………………………………………… 1 1 ‑ CDISC標準データモデルの理解をもとにー 松丸 郎(中外臨床研究センター〉 φ ミクロ経済統計特別セッション 再抽出匿名化標本データ利用上の問題点……………………………………………… 1 5 松田芳郎(青森公立大学〉 統計調査のリサンプリング・データのユーザピリティに関する研究…………………… 1 7 古田裕繁(財団法人統計情報研究開発センター〉 1 9 8 2年から 2002年における韓国所得分布の分析……………………...・ ・..……… 2 9 H 金慧蓮(東京国際大学/韓国国家統計局〉 パングラディッシュの婚姻形態による世帯所得と支出の分析………………………… 4 1 ディパツ力一口イ(東京国際大学/パングラテ、イツシユ統計局〉 通勤時間に注目してみた共働き夫婦の通勤・家事・育児分担に関する分析………… 5 1 菅幹雄(東京国際大学〉 φ 医薬統計(チュートリアル) 変量効果を含む口ジスティック回帰…………………………………………………… 6 1 高橋行雄(中外臨床研究センター〉 ロジスティック回帰による推測 C V . 9 LOGISTICプロシジャの機能拡張)……………… 8 1 浜田知久馬(東京理科大学〉
@医薬品開発(システム系) SASによる統計解析を意識した EDC 構築……………………………………………… 1 0 7 小出起美雅(株式会社 ACRONET) 富田大祐 関根靖高 林行和 山口孝一 SAS ‑M i c r o s o f tWord聞の自動化処理による出力の加工・整形…………………… 1 1 3 田村洋介(アストラゼネ力株式会社〉 XML を用いた統計解析結果出力標準化の試案………...・ ・..……………………… 1 2 3 H 武安雅史(株式会社シー工ーシー〉 三郎丸清 電子力ルテと EDCシステムとの連携システムの開発と導入事例…………………… 1 3 3 粛藤裕子(静岡県立静岡がんセンター〉 キト成和 医学データ解析における 64bit版 SASの有効性の検討……………………………… 1 4 1 ‑Itanium プラットフォーム(I A‑64)を軸にしてー 土居主尚(東京大学〉 山口拓洋 @医薬品開発(解析系) トリム平均を利用した統計解析……...・ ・..……………………………...・ ・ . . . . . ・ ・ . .1 5 1 ブートストラップ法による線型モデルの適用 H H H 堺 1 申也(イーピー工ス株式会社〉 小山暢之(三共株式会社〉 井上貫博(イーピーエス株式会社〉 幸坂美樹 松山千恵 山田剛久 POWER プロシジャを用いた生存時間解析における…...・ ・‑………...・ ・..……… 1 6 1 H H 症例数設定方法の統計学的一考察 中西豊支(興和株式会社〉 五所正彦 菅波秀規 nestedケース・コントロールデザインにおける擬似尤度によるパラメータ推定……… 1 7 1 口羽文(東京大学/日本臨床腫虜研究グループ〉 吉村健一(東京大学/国立がんセンター/日本臨床腫療研究グループ〉 生存時間データにおける予測力の指標 1 恵田洋介(東京大学〉 時間依存性 ROC曲 線 法 …………… 1 8 1 伊藤陽一 NLMIXEDプロシジャによる b r e a k p o i n t 指数分布のあてはめ………………………… 1 9 1 浅野淳一(東京理科大学〉 浜田知久馬 1 1
φ 調査・マーケティング 製薬企業の営業力分析………………...・ ・..………………...・ ・..……………… 2 0 3 ‑ SFEC S a l e sF o r c eE f f e c t i v e n e s s )のアプローチによるー H H 武藤猛 ( I T B P O株式会社〉 学力低下に関する全国大学教員アンケートの分析………………………………… 2 1 3 ‑ JMPを用いた教員所属専攻別の分析 岩堀淳一郎(高知大学〉 FACTOR、C A L I Sプロシジャによる「ひったくり発生マップ」が………………………… 2 2 3 防犯行動に与える影響の分析 大I 君亨(千葉県市川 l 市 〉 歌舞伎公演演目の多変量解析ー「安宅の関」は「またかの関 J? ー…………… 2 2 9 坂部裕美子(財団法人統計情報研究開発センター〉 消費者の製品関与と考慮集合………………………………………………………・・ 2 3 7 松沢利繁(株式会社インターナショナル・クリ工イティブ・マーケティング〉 淘崎一益(株式会社日本アルトマーク〉 JMPによるコンジョイント分析と住民意識調査への応用……………………………… 2 4 5 ‑ JSL スクリプトを利用したコンジョイント分析の実装化ー 育馬昌宏(兵庫県立大学〉 川向肇 天津重信 行政施策評価へのコンジョイント分析適用の可能性と課題………………………… 2 6 1 田中洋平(兵庫県立大学〉 黒田佳代(夕、イキン工業株式会社〉 加藤雅宣(兵庫県立農林水産技術総合センター〉 川向肇(兵庫県立大学〉 有馬昌宏 φ 経営・経済 LOHAS市場の拡大は日本経済の牽引役となるか?………………………………… 2 7 3 ジョイントセグメンテーションを用いた L OHAS因子の探索法と N L Pプロシージャを用いたパラメータ推定法の提案 坂巻英一(一橋大学経済研究所〉 GMOリサーチ株式会社〉 細川慎一 ( リテール金融工学の発展……………………………………………………………… 2 8 5 小野潔(三菱東京 U FJ銀行〉 1 1 1
@教育 SASを使った数値計算・統計処理教育プログラム……………………………...・ ・ . .2 9 7 H 作花一志(京都情報大学院大学〉 南野公彦 テュートリアル教育(情報科学演習)における………………………………………… 3 0 9 学習行動の類似性に関する定量分析 安田晃(島根大学〉 平野章二 阿部芳尚 中図書章(島根大学医学部位屠病院〉 沼田英輔 津本周作(島根大学〉 lV
!ポスターセッション φ 統計解析 SAS/STATGLMプロシジャの演習 ‑ E x c e l表示応答分解一……………………… 3 2 1 柴山忠雄 抗がん剤の第 H相臨床試験における……………………………………...・ ・ . . … … 3 2 9 早期終了を考慮した試験デザインのプログラム作成 H 中島章↑専(東京理科大学〉 豊泉滋之(ブリストル・マイヤーズ株式会社〉 渡辺唯一(東京大学〉 浜田知久馬(東京理科大学〉 計数時系列データの推定について…………………………………………………… 3 3 9 緑川│修一(東京理科大学〉 高井まちる 石田良介 宮岡悦良 2重対数プロットに基づいた比例ハザード性の検証方法の提案…………………… 3 4 7 横山雄一(東京理科大学〉 大内喜海 浜田知久馬 @医薬品開発 生物学的同等性試験における例数設計の比較……………………………………… 3 5 9 削漂健太郎(株式会社アームシステックス〉 山本典子 矢船明史(クリニック干駄ヶ谷〉 浜田知久馬(東京理科大学〉 JMPユーザーによる臨床試験データの解析体制と事例報告………………………… 3 6 5 田口奈緒子(興和株式会社〉 川北耕司 山田英樹 菅波秀規 SASD r u gD e v e l o p m e n t を用いた…………………………………...・ ・ ‑ ・ … . . . ・ ・ ‑ … 3 7 5 非臨床統計解析システム REDPOST の新規手法紹介 H H 大和田章一(三共株式会社〉 山之内直樹 上森光才 A c t i v e XD e v i c eD r i v e rを用いた……………………………………………………… 3 8 5 HTML 形式の臨床検査値レビュー用推移図の紹介 橋詰公一(住商情報システム株式会社〉 V
@システム DDEを利用した Excelへの出力………………………………………………………… 中村竜児(株式会社インクリース研究所〉 3 9 3 CRONTA8とSASAUTOSを活用した、 ………………………………………………… 3 9 7 データ数表WE8 ページ作成システムの構築について 小西利雄(三井住友力一ド株式会社〉 @調査・マーケティング内 献血協力者と非協力者の意識に関する研究………………...・ ・ ‑ … … . . . ・ ・ . . … … 4 0 9 H H 田久浩志(中部学院大学〉 吉本晋(徳山大学〉 @グラフィック 80XPLOT プロシジャの臨床データへの適用事例…...・ ・..…………………...・ ・ . . 417 長谷川要(キリンビール株式会社〉 H H JMPのグラフィック機能を利用した…………………………………………………… 4 2 9 アンケート調査結果の空間的表現の可能性 川向肇(兵庫県立大学〉 有馬昌宏 Vl
口頭論文発表 複雑なデータ加工に関する 特別セッション 「解析しやすい医薬データにするための SASによるデータ加工」
S A S Forumユ ー ザ ー 会 解析しやすい医薬データにするための SASによるデータ加工 ーセッションのねらい‑ 。 高 田 康 行 l、 大 陸 幸 治 2、林行手13、 松 丸 一 郎 4 持田製薬株式会社 京都大学大学院医学研究科 医薬開発部 1 疫学研究情報管月!学講座 2 株式会社 ACRONET 開発本部 中外臨床研究センター D M・統計解析部 3 バイオメトリクス部 4 C l i n i c a IDataProcessingf o rMakingEasilyAnalyzableDatabySAS ‑AimofSession‑ 4 iT a k a t a1,K o j iOba2, Y u k i k a z uH a y a s h i3 ,I ch i r oMatsumaru Yasu刊 k 1 C l i n i c a lDevelopment,MochidaP h a r m a c e u t i c a lCo., L td . Depa口mento fE p i d e m i o l o g i c a l& C l i n i c a lR e s e a r c hI n f o n n a t i o nManagement, 2 KyotoU n i v e r s i t yo f G r a d u a t eS c h o o lofMedicine D a t aManagement& B i o s t a t i s t i c sDep , . t ACRONETC O r p . 3 4 , . tC hugaiC l i n i c a lR e s e a r c hC e n t e rC o .,L td . B i o m e t r i c sDep 要旨 臨床試験や疫学調査などを始めとする臨床研究で得られる医薬データに対しては、 SAS プロシジャを適 用できるようにデータを加 Iすることが必要である。今回は、医薬データの力1工をより効率的に行えるよう にするためのプログラム例を作成することを試みた。データ加工上、考慮、が必要となる変数名・変数定義 については、標準化を進めている CDISCの考え方を導入することを試みた。 キーワード 医薬デー夕、解析川データセット、データステップ、 CDISC 1.はじめに 実験や調査などの研究で得られたデータは、何らかのデータベースに入力された後に解析される。解 析するために SASのプロシジャを適用しようとする場合、何かしらのデータ加工を必要とすることが多い。 特に臨床試験や疫学調査などを始めとする臨床研究で得られる医薬データは、人に対して得られるデー タであることから欠測や異常データが発生することが不可避である。そのために SASプロシジャが適用で きるようにデータ加工をするにあたっては、し、ろいろな工夫が必要となることも多い。これらの工夫は基本 的なデ、ータステップ。で、のフ。ロクーラム方法やプロシジャの使い方とはまた別物である。そこで、 SAS によるデ ータ力1r .に際して参考となるようなフ ログ ラム例を作成することを試みた。 c A また、効率的なデータ力1工を行うためには、変数名・変数定義について考慮することは避けて通ること はできない。標準的な変数名・変数定義があればその設定 i こ悩むことも、変数の取り違しも少なくなること C l i n i c a lD a t aI n t e r c h a n g eS t a n d a r d s が想定される。医薬データにおける変数名・変数定義は、 CDISC( 3
C o n s o r t i u m ) が世界的な標準の策定を進めているため、その概念を取り入れることを試みた。 2 .構成および演者 本セッションにおいては、上記の問題への解決を試みるために以下の通りの構成とする。 「 セッションのねらい一 J 高出康行 本企両セッ、ンョンの意図と概略の説明。 「医薬データの加工で苦労した点一問題提起一 J 大庭幸治 本企両セッションにおける問題提起として、データ加工に苦労した例の提示。 「医薬データの加工プログラム例 I 繰り返しを利用したプロク、、ラムー」 林行和 マクロなどを利用し、処理を分割/繰り返しで、実施した場合のプロク守ラムの例示。 「医薬データの加工プログラム例 2ーまとめて行うプログラムー」 高出康行 まとめたデータを作成して、同様の処理を一度に行った場合プログpラムの例示。 「標準化を目指した医薬データの定義一 CDISC標準データモデルの理解をもとに ‑J 松丸一郎 医薬データの標準化を目指している CDISCのデータモデ、ルを踏まえたうえで、変数名・変数定 義の考え方の提示 c ‑4一
S A S Forumユ ー ザ 一 会 解析しやすい医薬データにするための SASによるデータ加工 医薬データの加工で苦労した点‑問題提起一 大庭幸治 京都大学大学院医学研究科 疫学研究情報管理学講座 TroublePointsi nt h eC l i n i c a lDataProcessing ‑I n t r o d u c t i o noft h eI s s u e s‑ K o j iOba l i n i c a lR e s e a r c hI n f o r m at i o nManagement, Departmento fE p i d e m i o l o g i c a l& C KyotoU n i v e r s i t yofGraduateS c h o o lofMedicine 百百七三a y : . 日 近年、統計解析パッケージの発展により、 SASを代表とする様々な統計パッケージを用いるこ とで基本的な解析を実行することは比較的容易となった。しかし、実際にデータ解析できるよう にデータセットを加工する段階では、その加工方法は人により様々である。一般には、そのよう な加工を行うためのテクニックを学ぶ機会も少ないため、プロシジャが使えるようにデータセッ トを加工するまでに多くの時間をとられることが多い。大規模疫学研究である日本動脈硬化縦断 研究のデータ加工を行うとで実際に昔労した点を、問題提起という形で例示する。 キーワード 医薬デー夕、データステップ、 JapanA r t e r i o s c l e r o s i sL o n g i t u d i n a lStudy(JALS) 1.医薬データの例 日本動脈硬化縦断研究(JALS;JapanA r t e r i o s c l e r o s i sL o n g i t u d i n a lS t u d y ) は、日本の地域・職域を 対象として、動脈硬化性疾患の発症・死亡に関する疫学調査を施行し、日本人固有の諸危険因子 との関係を明らかにすることを目的とした疫学研究である 10 JALSは測定方法・検査方法を標準 2 月末日までに各地域で行われた既存コホートを 化し前向きに追跡を行う統合研究と、 2002年 1 収集し、個票ベースで統合する 0次研究よりなる。本セッションでは、事例として JALSO次研究 での例をとりあげる。 2 .JALSO次研究データの概要 JALSO 次研究は、 1985 年 ~1999 年までにベースラインの測定が行われ、 2002 年 12 月末日まで 既に追跡が終了した 1 7地域コホート・ 4職域コホート、計 65. 43 5名のデータである。既に各地域 で行われたコホート研究のデータであるため、基本的には各コホートで用いているデータテーブ ル構造に従い収集された。収集されたデータの内容は、 1 )ベースラインデー夕、 2 )イベントデー夕、 3 )生存デー夕、 4 )繰り返し測定デー夕、の 4つに大きく分けることが出来る。それぞれのデータの 5ー
内容を以下に簡単に示す。 1 ) ベースラインデータ…主要な背景因子・リスクファクターに関する情報が入 ) Jされているデ ータ 2 ) イベシトデータ…脳卒中・心筋使塞などのイベント発症の有無に関するデータ 3 ) 生存データ…対象者の生存状態についての情報が入ったデータ 4 ) 繰り返し測定データ…ベースラインデータについて繰り返し測定が行われた場合に繰り返 し測定分提供されるデータ 3 .JALSO次研究における解析事項 以上のデータを用いて、 J A L S O次研究では、以下のような解析事項、が計画された。 ベースラインデータの検討 単純集計、コホート間でのベースラインデータの違いを検討… 総死亡・動脈硬化性疾患の発症とリスク因子との関連の検討 ベースライン(性・年齢など)別の発症率の検討、多数の交絡要因を調磐した解析(層別 解析・回帰分析)、リスク因子の経時的な変動を考慮した解析、コホート間差を考慮した 解析... 以上に挙げた解析事項は、疫学研究では一般的に行われるものであろう。また、臨床試験など 他の医薬データを対象に行われる解析事項とも重なる部分は多い。そのため、一部の特殊な解析 ASを代表とする様々な統計パッケージで解析を実行することは比較的容易であ 事項を除けば、 S る 。 4 . 問題提起 しかし、実際にデータ解析できるようにデータセットを加工する段階では、その方法は人によ り様々である。また、入手の足りない研究者レベルではその加工を解析担当者が行うこともしば しばである。一般には、そのような加工を行うためのテクニックを学ぶ機会も少ないため、プロ シジャが使えるようにデータセットを加工するまでに多くの時間をとられることが多い。これら を踏まえた上で、実際に JALSO次研究データを扱っていて、データ加工に苦労した例を挙げる。 主なものは以下の通りである。尚、詳細は当日例示する。 各コホートでバラバラの変数名やデータ構造をまとめるためのデータ加工 大規模なデータを扱う上で、解析を効率よく行うためのデータ加工 繰り返し測定が変数として複数列あるような場合のデータセット加工 5 .参考文献 し大橋晴雄,上島弘嗣,原田亜紀子,日本動脈硬化縦断研究グルーフ.メタアナリシスによる大 J A L S ) 医学のあゆみ 2 0 0 3 ; 2 0 7( 7 ) : 47 7 ‑ 81 . 規模コホート統合研究 ( ← 6一
S A S Forumユ ー ザ 一 会 解析しやすい医薬データにするための SASによるデータ加工 加工プログラム例 1ー繰り返しを利用したプログラムー 林行和 株式会社 ACRONET 開発本部 DM.統計解析部 ExampleProgram1‑doingr e p e a t e d l y‑ i k a z uH a y a s h i Y叫c D a t aManagement& B i o s t a t i s t i c sDep , . t ACRONETC o r p . 要旨 臨床試験や疫学調査などを始めとする臨床研究で得られる医薬データはケースカードに記載されたまま を忠実にデータ化することが求められる。そのデータを基に SASを用いて集計解析を実施する場合には、 集計解析を実施しやすいデータ構造に変換するとし、う作業が発生する。本発表では、マクロ等を利用し、 J/繰り返しで実施した場合のプログラムを例示する。 処理を分害I キーワード ransposeプロシジャ、 r e t a i nステート データステップ、繰り返し、 SASマク口、 t メント 1.はじめに 医薬データの解析においては、離散データの集計や連続データの要約統計量の算出など、複数の項 目に対して同様の処理を行うことが多い。同様の処理をしたい項目が複数のデータセットに渡っている場 合、データセットの構造がデータセットご、とに異なると、それぞれに対して個別にプログラムを組む必要が 出てくる。プロクーラムの効率化やエラーを極力防ぐためにも、同様の処理をマクロ化しプロクーラムを組むこ とを推奨する c そのマクロを効率的に使用するために、データセットの構造をマクロを使いやすい構造に 変換する事例を紹介する。 2 . プログラム例作成方針 大庭の提示した問題点に沿って、フ。ロクーラム例を作成する。データ加工のフ。ログ、ラムは、解析において SASマクロ等で、分割もしくは繰り返しで、解析が実行できるデータ構造に変換することを目的とする。 各コホートでバラバラの変数名やデータ構造をまとめるためのデータ加工 大規模なデータを扱う上で、解析を効率よく行うためのデータ加工 繰り返し測定が変数として複数列あるような場合のデータセット加工 ‑7‑
3 .本発表のプログラム例において利用する SASプログラム上の手法 本発表のプログラム例においては、以下の手法の利用例を示すことが特徴である。 r e t a i nステートメント SASマクロ t r a n s p o s eプロシジャ f i r s t . b y変 数 お よ び l a s t . b y変数 4 . プログラム例の提示 作成したプログラムは、 SASフォーラムユーザー会の HP上に掲載する。 ‑8‑
S A S Foru mユ ー ザ ー 会 解析しやすい医薬データにするための SASによるデータ加工 加工プログラム例 2ーまとめて行うプログラムー 高田康行 持田製薬株式会社 医薬開発部 ExampleProgram2‑d o i n gi namass‑ YasuyukiTakata C l i n i c a lDevelopmentMochidaPharmaceuticalC o ., L t d . 噌 要旨 SASを用いてデータ加工を行う方法については、定まった方法は無い。本発表においては解析実施時 にb yステートメントを用いて一度に解析を実施することができるようなデータ加工を行うことを目的とした解 析プロク守ラムの作成を試みた。 キーワード yステートメント、 r e t a i nステートメント、 arrayス データステップ、繰り返し、 b テートメント 1 . はじめに SASを用いてデータ加工を行う方法については、特に定まった方法は無い。しかし、フ ロク。ラムの記載 o 内容により、プロク。ラム量や処理効率が異なってくる。また、フコログ ラムにエラーがあった場合の修正や他 のプログラムへの応用のしやすさも異なってくる。 医薬データの解析においては、離散データの集計や辿;続データの要約統計量の算出など、複数の変 数に対して同様の処理を行うことも多い。このように同様の処理を行う場合に b yステートメントを用いて一 度に処埋することは効率的な方法である。そのような処理が可能となるようなデータ加工を行うことを目的 としたプログラムの作成を試みた c 2 . プログラム例作成方針 大庭の提示した問題点に沿って、プログラム例を作成する。データ力[]工のフ。ロクーラムは、解析において b yステートメントで一度に W i o析が実行で、きるデータ構造に変換することを目的とする。 各コホ一卜でバラバラの変数名やデータ構造をまとめるためのデータ加工 大規模なデータを級う上で、解析を効率よく行うためのデータ加工 Iあるような場合のデータセット ) J I I工 繰り返し測定が変数として複数ダJ 9
3 .本発表のプログラム例において利用する SASプログラム上の手法 本発表のプログラム例においては、以下の手法の利用例を示すことが特徴である。 r e t a i nステートメント aπayステートメント end=オブρション f i r st .by変 数 お よ び l a st .by変数 4 .プログラム例の提示 作成したプログラムは、 SASフォーラムユーザー会の HP上に掲載する。 n u
S A S Forumユ ー ザ ー 会 解析しやすい医薬データにするための SASによるデータ加工 標準化を目指した医薬データの定義 CDISC標準データモデルの理解をもとに← 松丸一郎 r l 1外臨床研究センターバイオメトリクス部 自 C l i n i c a lD a t aD e f i n i t i o na i m e df o rt h eS t a n d a r d i z a t i o n B a s e donU n d e r s t a n d i n gCDISCS t a n d a r dD a t aModel‑ l c h i r oM a t s uI11a r u B i oI11e t r i c sD e p , . tC h u g a iC l i n i c a lR e s e a r c hC e n t e rC o .,L td 要旨 データ定義の標準化は、データ処理の効率化や信頼性確保の上で、重要な課題の一つで、ある。医薬業界 においても、グ、ローパル化のメリットを押し進めるためにはサイト、スタディごとにデータ定義が異なる現状 から、機関、企業を超えたデ、ータ定義のグローパルスタンダード を築くべきで、ある。 C DISCの策定する標準 データ定義は、これを叶える候補であり、 C DISCのデータ定義のポイントを理解することは、機関、企業の データ定義の標準を構築するためにも重要である。真のク守口ーパルスタンダードを策定するためには、 併l 々の機関、企業におけるデータの定義上の課題や工夫を、声を出して標準化策定団体に届ける努力も 必要である。 キーワード DISC 医薬デー夕、標準化、 C 1 .データ定義の標準化の重要性 データの変数名、定義(データ定義)の標準化は、データを取り扱う者、とりわけ統計解析的手法を用い る業務に携わる者やデータ・レビューを行う者にとっては、データ処理の効率化やアウトフ。ット(データ一覧 や解析結果)の信頼性を確保する上で無視することの出来ない重要な課題の一つである。いくらすばらし いプログpラムを作ったとしても、インプッ卜されるデータがプロク、.ラムの処理可能な仕様を満たしていなけれ ば、宝の持ち腐れになってしまうおそれがある。 2 .サイト、スタディごとにデータ定義が異なる現状 近年、グローパノレ開発として、海外サイトとの同時開発や、企業問の共同開発の機会が増す中で、同じ 意味のもので、あっても個々のサイトやスタテ、ィによってデータ定義が異なるケースに遭遇することがある。 本来一意的に定義されていればマクロ化等で信頼性を保持しつつ効率的に処理できるデータも、異質 の定義が混入するため、プロクcラムがストップしてしまったり、本来あってはならないデータの欠落や誤っ た処理をされてしまったりするおそれがあるo 後処理に関しては、コンピュータに対する過大な期待(何でも出来ると考えがち)が、ピリオド 1つの違い でデータを別物扱いする特性を失念させ、データ処理の限界や迫力日処理によるミスのリスクを増大させて しも可能性がある。 1 1
3 .どの標準を目指すべきか CDISCを意識すべき背景一 データ定義の標準化がもたらす恩忠に気ついた欧米の製薬企業を中心に、グ、ループ企業内の標準化 が進んでいる。 しかし、企業内でデータ定義の標準化がなされても、企業間(製薬・ベンダー含む)のデータ交換、ある いは企業の申請データを受け付ける規制当局でのレビューは、個別にデータ処理の対応が迫られる現状 に変わりはなく、ク。ローパル開発を目指す上での障壁はなおも残されている。 CDISC( C l i n i c a lD a t aI n t e r c h a n g eS t a n d a r d sC o n s o r t i u m, h t t p : / / w w w . c d i s c . o r g l )は、機関、企業聞をま たがり、かつ規制当局への申請を含めて、医薬データ交換のグ、ローパルスタンダード、たるデータ定義を策 定する非営利団体である。世のクーローパル化の湖、流を鑑み、 CDISC にて策定されるデータ定義を理解し、 機関、企業のデータ標準のセットアップに生かすことは、医薬品の供給を通じて医薬産業が世界の人々の 健康にスピーディに貢献する上で、も、多くのメリットをもたらすことが考えられる。 4 .CDISC標準データモデルの変数名・定義の理解 CDISCには複数の標準モテ守ルが存在するが、 SDTM( S t u d yD a t aT a b u l a t i o nModel)は申請用データの 標準を対象としており、内容も理解しやすしものと考え、その理解のポイントを示す。 1 )同じ変数は同じ意味・用い方 2 ) 同じ接尾語変数は同じ用い方 3 )S t r u c t u r e(構造:オブザベーションの持ち方)を規定 O 4 ) 変数も値も必須か、値が n u l lでも変数は必須か、必要時にのみ用意する選択可能な変数か 5 ) 文字型か数値型か 6 )C o n t r o l l e dTenns/Formatが規定されているか、独自に設定可能か a t e / T i m e、D u r a t i o nのフォーマット (CDISCは I S 0 8 6 0 1 ) 7 )D 8 ) 特殊な用途のデータ定義を理解する(例 :Comments) データベース、データセットの定義をする上で、至極当然のことばかりで、あるが、個々に設定されたデータ 定義も数多く存在する現状、基本に立ち戻って理解すべきホ。イントばかりで、ある。 5 .データ定義の標準化の今後 CDISC においても、標準モデ、ルご、とに特性があり、各々の特徴を理解する必要がある(例 :SD百1. v s . ADaM)。また、パージョンアップにどう対応するカも考慮、する必要があるO CDISC の定義通りに機関、企業内データ定義を標準化するのも一つの方法であるが、すでにデータ定 義の標準化が進んでしも機関、企業では、 CDISC と機関、企業のデータ定義を十分理解し、双方聞のマ ッヒ。ンクーをはかり、一方にデータ定義の変更が生じてもフレキシブルに対応で、きる体制を整えておくとし、う 方法も得策であり、将来のためには決して無駄にはならない。 CDISC に代表されるデータ定義のク。ローパルスタンダードが、将来大幅な変更なく、真に我々のグ、ロー パルスタンダード、たり得るためには、現行の定義で‑はカバーで、きなしまうなデータや構造を洗い出し、グロ こも対応で、きるものになっているべきである。そのためにも、個々の機関、企 ーパルスタンダードがそれら l 業におけるデータの定義上の課題や工夫を、声を出して標準化策定団体に届ける努力も必要である。 ‑12‑
口頭論文発表 ミクロ経済統計特別セッション
S A S Forumユ ー ザ ー 会 再抽出匿名化標本データ利用上の問題点 松田芳郎 青森公立大学経営経済学部 SomeI s s u e st oU t i l i z eRe ‑ samplingDataSetswithoutIdentifyingInformation YoshiroMatsuda S c h o o lo fManagementa n dE c o n o m i c s, AomoriPub l i cC o l l e g e 要旨 Slowmovementst ou s er e 苛a m p l i n gd a t as e t so fg o v e r n r n e n ts t a t i s t i c sf o ra c a d e m i cr e s e a r c hseemt ob e a c c e l e r a t e df o rt h ef i r s tt i m es i n c et h es y s t e ms t a r t e di n1 9 5 0 s .Duet ot h ehumblek n o w l e d g eo fh a n d l i n g m i c r o‑ da t as e t swemayo v e r l o o ksomei m p o r t a n ti s s u e st ou s es u c hm i c r od a t a ‑ 古e t s .Weshowh e r et h e p r o b l e m sc o n c e m i n gw e i g h t st oe s t i m a t et h ep o p u l a t i o np a r a m e t e r s . 一統計改革匿名化標本データ抽出比率(復元乗率) キーワード. 1.日本の統計行政変革の新しし、動き 統計行政に関心のある方なら、以下に述べる行政府間で、の諸委員会の活動とそれを巡つての統計学 関連諸学会や日本学術会議の諸報告がなされたことをすでにご存じと思う。 経済社会統計の整備の推進を図るため、 2004年 1 1月に内閣府に経済社会統計整備推進委員会 (委員長:吉川洋東京大学大学院経済学研究科教授・経済財政諮問会議議員)が設置された。 2005 年 6月の委員会報告書『政府統計の構造改革に向けて Jの取りまとめをもって、この委員会の活 7年 6月 21日 動が終了、その結果、「経済財政運営と構造改革に関する基本方針 2005J (平成 1 閣議決定)において、統計法制度を抜本的に見直すとされた。更に、これらを踏まえ、総務省で は、統計調査の民間委託の推進及び統計データの二次的利用の促進に対応した統計法制度の在り 方について検討するため、「統計法制度に関する研究会J (座長:鹿松毅東京大学大学院総合文化 研究科・教養学部教授)を開設・検討を進め、「統計法制度に関する研究会報告書」が 2006年 6 月に公表された。これと相前後して、統計制度の改革の推進を図るため、上記の経済社会統計整 備推進委員会の後継組織として、 2005年 9月に内閣府に設置された統計制度改革検討委員会が、 2006年 6月に委員会報告を取りまとめ公表し、この委員会の活動は終了、「経済財政運営と構造 改革に関する基本方針 2006Jが閣議決定され、今後、統計法制度の改革の検討は行政府の手に ゆだねられるが、これが順調に運べば、学術研究のための現行の統計法における指定統計の目的 ﹁ hu
外使用の許可条件が欧米並に緩和されることが期待され、アジアの発展途上国よりも遅れた状態 からの脱却につながることになる。 2 . 再抽出匿名化標本データ ミクロの政府統計を利用する方法として、ほぼ各国で採用されている方式は、統計情報としての匿名 化のために再抽出する標本データとする方式が採用されている。ここで注意すべき事は、そもそも大部 分の統計調査は多段層化無作為抽出法を採用していることである。そのときの層化する母集団リストに は実は、やっかいな問題が存在している。世帯単位の統計調査を例に取ると、世帯を抽出単位とするの は世帯に関する属性を調べる場合と、その世帯に属する個人の属性を調べる場合とが存在する。従っ て、推定すべき母集団情報は、世帯の場合と個人の場合とがある。問題は標本世帯に含まれる世帯員 の属性が母集団と異なっている際に、そのときの復元乗率として補助情報を導入して比推定を行うこと が多い。事業所を単位とする調査の場合でも類似の問題が発生しうる。すなわち、企業を抽出しさらに 事業所を抽出するとき、さらに当該事業所に所属する従業員を抽出し、従業者の属性を推定する場合 を例とすれば明瞭である。 問題は、公表される集計値は、世帯に関する乗率と世帯員に関する乗率とが異なっていても、集計量 の性質から問題はない。問題が発生するのは、再抽出して外部提供されるデータセットが、世帯と世帯 員とが別個のものとして提供されるのではなく、利用者の要望に応じて世帯属性とりンク出来るようにセッ トで提供されるときである。そのときの推計乗率はどうあるべきかとしづ問題である。 3 . 日本の外部提供の状況 現在、学術研究のために聞かれている組織には 3箇所あるが、そのうちの総務省統計研修所は、 公募ではないので、公募形式を取っている 2箇所について説明する。 かつて 1 996から 1999年にかけて、松田芳郎を研究代表者として文部省科学研究費補助金「特 定領域研究」経費による大規模なミクロ統計活用の研究プロジ、エクトが組まれた。その結果とし て二つの組織が生まれた。一つは、文部科学省が、この特定研究領域の事務局を務めた一橋大学 付置経済研究所附属日本経済統計情報センターを母胎として、大学問共同利用施設として拡充し た社会科学統計情報研究センターの事業である。すなわち、総務省統計局統計調査部の依頼に応 えて、秘匿処理を施した政府統計ミクロデータ(個々の調査票のデータ)を、全国の大学研究者 に学術研究のため提供する試行的システムの構築である。今のところ、年 2回 4月と 1 0月に公 募している。今ひとつは、上記特定領域研究の直接的継承組織として発足したデータベース構築 活動で、(財)統計情報研究開発センターの協力を得て実施しているミクロ統計データ活用研究会 の日本学術振興会のデータベース形成経費補助金によるミクロ統計データベースである。研究会幹事 (代表者)は、発足当初は松田芳郎(当時東京国際大学経済学部教授)で、その後井出満(大阪 産業大学経済学部教授)に交代、現在、森博美法政大学経済学部教授である。ここでは、例えば 社会生活基本調査では、世帯の属性とそれに属する世帯員の個人としての活動の集計ーがなされて いるが、ここでのミクロの再抽出標本では、 i 止帯乗率を使用するように管理している。 今後の課題としては、データベース形成経費による活動が永続的になることと、そこで構築されたデ ータベースの蓄積が許可され、再利用が可能になることである。 参考文献 松田芳郎 [1999J r ミクロ統計データの描く社会経済像』日本評論社。 一一一一一他共編 [2000J ~締庵ミクロ統計分析 統計調査制度とミクロ統計の開示ー』日本評論社 (講座ミクロ統計、第 1巻) 松Jt t 専 [2005J r 標本調査法入門:基礎から学ぶ標本調査の埋論と実際』日本統計協会 1 6
S A S Forumユ ー ザ ー 会 統計調査のリサンプリング・データのユーザピリティに関する研究 古田裕繁 研究開発本部長 財団法人統計情報研究開発センター U s a b i l i t yofResamplingDataofS t a t i s t i c a lSurvey H i r o s h i g eFURUTA C h i e fD i r e c t o r ,R e s e a r c ha n dDevelopmentH e a d q u a r t e r , S t a t i s t i c a lI n f o r m a t i o nI n s t i t u t ef o rC o n s u l t i n ga n dA n a l y s i s( S i n f o n i c a ) 要旨 統計調査の個票データに秘匿措置を施し、そこから再抽出を行ったリサンプリング・データを用い るミクロ統計分析については、一般に、リサンプリング・データの抽出率が大きいほど個別データの開 示リスクが大きく、一方、抽出率が小さいほど、研究者にとって分析の有用性が低下するとし、うトレード オフの関係がある。本稿は、特定のリサンプリング・データの分析に基づく結論(仮説)が棄却されるリ スクを、抽出率が 5%、10%、20%、50%のケースについて、実証分析したものである。検証結果によ ると、ミクロ統計データ活用研究会が採用した 20%の抽出率は妥当であるとの結論を得た。 キーワード: リサンプリング・デー夕、 頑健性、 カイ 2乗統計量、 変動係数 1 研究の背景‑目的 我が国の統計制度の下では、指定統計調査のミクロデータの自由な利用は禁止されている。一方、 国際的なミクロ統計データ活用の、流れの中で、統計審議会答申「統計行政の新中・長期構想 J(平成 7 年)を受けて、各方面で具体的な検討が進められることとなった。ミクロデータの利活用については 理論的、技術的、制度的に解決を要する多くの課題があることが指摘されていることから、このような 課題に学問的に答えるためには実際の政府統計のミクロデータに基づいた実証的研究が必要でーあ るとし、うことで、平成 8年度から文部省科学研究費補助金特定領域研究「統計情報活用のフロンティ アの拡大ーミクロデータによる社会構造解析 J(特定領域代表:松田芳郎一橋大学経済研究所教授 (当時))がスタートした。この研究におけるデータ処理の流れの説明は省略するが、当初は基本的 に各省庁で集計処理に使用された全データすなわち 1 0 0 %のデータが用いられた。しかしながら、こ こで、採用したオーダーメイド、集計方式は研究者・研究会事務局双方に負担が大きかったので、平成 1 1年度は研究会事務局が各省庁から提供されたデータから一部 ( 1 0 % )を再抽出し(以下、「リサンプ リング・データ」としづ。)、これに必要な秘匿措置を施して研究班に提供する方式がとられた。 76
この研究プロジェクト終了後も、研究者からはミクロデータの利用要望が多数寄せられていたため、 松田等が新たにミクロ統計データ活用研究会(代表:松田芳郎東京国際大学教授(当時)、平成 13 年度からは井出満大阪産業大学教授(当時)に交代)を立ち上げ、平成 1 1年度に行った方式による 研究を継続することになった。同研究会が科学研究費補助金を受けて作成した「ミクロ統計データベ ース J を利用したリサンプリング・データのユーザ ピリティに関する実証分析研究プロジェクトにおいて は、財団法人統計情報研究開発センターが研究会事務局(以下、「事務局」としづ。)として作業を分 十 Eした。 平成 12~16 年度の 5年間に、全国消費実態調査、就業構造基本調査、社会生活基本調査、住 宅統計調査のそれぞれ 20%のリサンプリング・データを用いて、総計 43の実証分析研究が実施され たが、 20%のリサンプリング・データからでも学術的に有用な結論(仮説)が得られることが明らかとさ れた(表 1 )。 表 1 ミクロ統計データ活用研究会における年次、調査別研究数 I I I I計 全国消費査 就業犠造査 社会生活査 住宅統計 実態調 基本詞 基本調 調査 4 2年度 平成 1 7 1 3年度 5 2 4 1 4年度 3 1 5年度 4 5 3 3 2 1 6年度 1 4 1 3 3 計 1 3 年次 5 1 4 9 8 4 3 注)ミクロ統計データベースは、他のデータベースと異なって、公開・自由利用ではない。データベースの利 用を希望する者(研究者)は、事務局が行う公募に応募し、使用条件を満ーたす研究課題について、事務局経 由で統計法に基づく調査票目的外使用申請を行い、承認を受けたものについて、使用許可期限内に限って 使用するという特殊な利用を行っている。研究者は、このデータベース (CD‑R 提供)を利用して研究を行った。 また、研究者は、研究終了後、提供された CD‑Rを事務局に返却するとともに、使用したパソコン等にリサンプ リング・データをコピーしていた場合は、そのデータを消去するとともに、消去報告書を提出した。なお、事務局 に返却された CD‑Rは、事務局がそのデータを読み取り不能とする処理を行った。 統計調査の個票データに秘匿措置を施し、そこから再抽出を行ったリサンプリング・データを用い るミクロ統計分析については、一般に、リサンプリング・データの再抽出率が大きいほど個別データの 開示リスクが大きく、一方,再抽出率が小さいほど研究者にとって分析の有用性が低下するというトレ ードオフの関係がある。本研究の目的は、この再抽出率と分析の有用性の逆相関関係を実証的に 分析し、「どの程度の抽出率であれば、ミクロデータを秘匿可能として、どのような集計にも使用可能 として提供で、きるか」とし、うような実務的ガイドラインの基礎資料を提供することである。 2 ミクロ統計データ活用研究会プロジェクトの概要 ( 1) リサンプリング・データの作成 0 %の再抽出率でリサンプリング・データを抽出 事務局は、各省庁から提供されたミクロデータから 2 ︒ ︒
したが、その処理には次の 3つの特色がある。 1つは、それまでの秘匿措置に関する研究成果を踏ま え、母集団ユニークの可能性のある標本ユニークの排除のために、地域コード、の削除及びトップコー デ、イング?を行ったことで、ある。すなわち、地域は全国で大括りの 6地域区分にまとめ、単身世帯では 都市階級項目を削除し、年齢 7 5歳以上の者については 7 5歳とするなどの措置を施した。 2つは、 20%のリサンプリング・データとしち隈られたデータによって多くの研究班の研究目的をでき るだけ満たせるように、汎用的な分析の観点、から特異なデータを排除したことである。たとえば、平成 1 4年就業構造基本調査の場合は、次の条件を満たす世帯にデータを限定している。 ‑世帯主が存在する世帯 ・集計用乗率が入っている世帯 .0 歳 ~14 歳に不詳が入っていない世帯 ‑世帯内で世帯事項に矛盾を生じていない世帯 3つは、抽出は世帯単位で行い、抽出方法として、同一世帯の複数回抽出を許す確率比例抽出 を採用し、各データの集計用乗率は同じにしていることである。これには集計用乗率から地域が特定 されないようにするという秘匿措置の観点、と、研究班による集計プログラム作成を容易にするとし、う 2 つの側面がある。 リサンプリング・データは各調査、各年次について 300組を作成した。 300組のデータセットの主要 項目(就業構造基本調査の場合は、地域、一般・単身の町、特定家族類型、 1 5歳未満の合計、 1 5 歳以上の合計、世帯の収入階級、性別、年齢5歳階級、有業・無業の別の9項目)について、元デー タとの適合度を見るカイ 2乗統計量を計算し、その値が小さいデータセットのグループの中からリサン プリング・データを研究班に提供した。 (2) ミクロ統計データ活用研究会プロジェクトにおける研究手j[~ このリサンプリング・データを利用した研究は、以下のような手順で行われた(図 1 )。 ①研究会事務局が、秘匿措置の観点から研究班ご、とに異なるリサンプリング・データセットを作成し、 CD‑Rに収録して研究班に提供。 又は C D‑Rに収録し ②各研究班は、それを用いて集計を行い、集計結果と集計プロク、、ラムを MO て事務局に送付。 ③事務局は、検証用にコピーしておいたリサンプリング・データ(研究班用と同じもの)を対象に、研 究班から送られてきた集計プロク、、ラムを用いて集計を行い、研究班と同じ結果が得られるか検査。 ④検査の結果、同じ結果が得られ、プログラムに誤りがなし叱判断された場合は、そのプログラムを 用いて、調査所管省庁から提供されたミクロデータ(元データ)を対象に集計を行い、その結果と研 究班の集計結果を比較して、リサンプリング・データの有用性について検在。 なお、ここでの検証は、④におけるリサンプリング、・データによる集計結果と元データによる集計結 以上の項目をチェックするこ 果を全集計項目について比較し、基本的に両者の集計値の差が:1:5% とによって行った。 ⑤上記④の作業終了後、研究会は研究結果報管会を開催、各研究班は研究結果報告書を基に 研究結果を報告、それについての質疑応答及び意見交換を行う。また、事務局は、リサンプリング・ データの有用性に関する検証結果報管書を基に検在結果を報告。 ‑19ー
図 1 r ミクロ統計研究会プロジェクト」における研究の流れ 事務局 各 研 矧I 注)ゴシック体表記は、個票使用に 関係する部分を指す。 ※ 研究結果報告書及び検証結果報告書は、総務省統計局に提出する。 3 本研究のフレームワーク 個別データの秘匿に関するリスク、すなわち、識別可能性は、各データセットの抽出率だ、けでなく、 デ、ータセットに加えた秘匿措置によっても異なると考えられる o ここでは、抽出率を 5%、10%、20%、50% に替えたケースについて、相対的に抽出率が大きいほどリスクが大きし吃仮定して研究を進めた。 はじめに、抽出率が 5%、10%、20%、50%のケースについて、各々 300 組のリサンプリング・データを 作成する。リサンプリング・データの作成は、 2の(1)で説明したのと同様の方法で行った。 この作成したリサンプリング・データの頑健'性について、以下の 3つの観点から検証を行った o ‑20‑
①リサンプリング・データ自体を分析して、リサンプリング・データがどの程度元データに近似してい る状態で提供されているかを調べる必要がある。リサンプリング・データは、夜、匿措置を施すことによ る誤差と世帯単位の抽出に伴う誤差をあわせもっと考えられる。 4つの抽出率のケースについて、リ サンプリング・データと元データとの比較を行い、この誤差の大きさを実証的に明らかにした。 ②リサンプリング・データによる分析においても、その統計調査が主題としている分野で、学術的に 有用な結論(仮説)が得られることの検証が必要である。そのため、研究班の研究計画に基づく集計 計画について、リサンプリング・データによる集計結果と元データによる集計結果との比較を行った。 ③上記②の結果、両者で同様な結果を得られていたとしても、別のデータセットからは別の結論が 導かれるようではその結論は正当化されない。そのため、 300 組のデータセットを用いて結論(仮説) が棄却されないだけの頑健性を、当該データセットがもっているか否かについて実証的に検証した。 4 リサンプリングデータと元データの比較 表 2 平成 1 4年就業構造基本調査の 3 0 0組のデータセットのうち構成比 の差が元データと士 1ポイント以上ある項目を含むデータセットの数 属性 (世帯属性) 家族類聖 7区分 世帯員の就業状態 有業親族世帯人員 有業親族世帯人員階級 子供の数 子供の数階級 子供の年齢別人数 末子の年齢階級 夫の年齢 5歳階級 夫の有業・無業の月1 妻の年齢 5歳階級 妻の学校区分 妻の有業・無業の別 棄の就業状態 妻の年間就業日数 妻の週間就業時間 妻の個人所得 妻の継続就業期間 妻の前職の有無 妻の教育区分 夫婦の就業状態 (個人属性) 配偶者の有無 続き柄 年齢 10歳階級 居住開始時期(元号) 居住開始時期(月) 前住地区分 1年前との就業異動 現職就業時期(元号) 世帯の代表者 基準となる夫婦か 抽出率5百 │ 1 0 唱 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 3 3 2 2 2 50% 20% 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 35 1 2 196 1 6 1 114 38 168 146 88 32 1 4 4 。 。 。 。 。 3 3 2 1
本研究でとりあげた統計調査については当該実施省庁で既に膨大な集計が行われているから、 本プロジェクトによる各研究班の集計は、分類項目をより多重にクロスさせた集計、特定の属性をも っデータに限定した集計になる傾向がある。したがって、リサンプリング・データの主要な属性につい ては、元データと分布が類似していることが要請される。そこで、 5%、10%、20%、50%の抽出率で作成 した各々 300 組のデータセットについて、主要な世帯属性、個人属性の構成比を求め、元データに よる集計結果と比較した。 4年就業構造基本調査について、表側の属性に関する構成比で、元データによる 表2は、平成 1 構成比と差が::t1ポイント以上ある項目を含むデータセットの数である。これによると、世帯属性につ いて土 1ポイント以上差があるデータセットは、抽出率 5%の場合にのみ存在した。個人属性について は、抽出率 50%で、も差のあるデータセットは存在するが、抽出率が大きくなるほど差の生じるリスクは 小さくなることが確認できる。 1 )で述べたように特異なデータを除外したものであるが、その なお、ここでの元データとは、 2の ( 数は 418, 855世帯中 234世帯、レコード数では 968, 628人中 1, 425人と無視しうるものである。また、 元データによる集計結果と公式集計結果との比較においても、ほとんど差異は認められなかった。 5 リサンプリングデータによる研究班の集計と元データによる同集計の比較 就業構造基本調査、社会生活基本調査、全国消費実態調査についての研究班の実際の集計結 果から各 l表を選び、 20%リサンプリング・データによる集計と元データによる集計の比較を行った。 表 3は、ある研究班が就業構造基本調査のリサンプリング・データを用いて行った「男女、雇用動態 類型、就業理由別就業者数J の構成比表(一部)である。表側は、前職と現職の聞の雇用形態の異 動をもとに雇用動態類型として独自に分類したものであり、各々の雇用動態類型ごとに現職就業理 表 3 雇用動態別、就業理由別就業者数構成比(男性) {単位・%, %ポイント) 類型 その他 l正規→正規 2 6 . 6 1 .3 8 . 5 1 4 . 3 2正規→パート 5 5 . 3 0 . 5 1 9 . 5 4 . 8 3正規→派遣 5 6 . 8 3 . 2 11 .6 4パート→正規 1 6 . 9 2 0 . 6 1 4 . 1 5パート→パート 2 3 . 5 2 . 9 6パート→派遣 2 8 . 6 7派遣→正規 3 4 . 7 日派遣→パート 3 6. 4 。 。 。 。 2 7 . 3 。 。 9派遣→派遣 5 8 . 1 0 . 0 9 . 7 2 7. 4 3 . 5 1 2 . 4 合計 差(リサンプワング・データ 6 . 1 0 . 2 0 . 5 2 5 . 1 2 2 . 9 。 。 0 . 2 5 . 5 1 2 . 8 8. 4 。 。 。 。 0 . 0 1 0 . 5 9 . 5 1 3 . 2 4 . 7 0 . 1 0 . 2 1 3 . 3 1 6 . 9 3 9 . 8 4 . 1 2 . 2 3 . 0 0 . 3 9 . 2 1 5 . 1 2 6 . 2 9 . 5 0 . 0 0 . 0 0 . 0 2 6 . 2 9 . 5 1 0 . 2 1 2 . 2 0 . 0 2 0. 4 1 2 . 2 0 . 0 。 。 0 . 0 9 . 1 2 7 . 3 1 6 . 1 。 。 。 。 0 . 0 0 . 0 6 . 5 9 . 7 1 2 . 7 l . l 0 . 5 0 . 4 21 .2 2 0 . 7 0 . 5 1 . 1 1 .1 完全データ) l正規→正規 0 . 5 7 4 ‑ 0 . 1 3 3 0 . 2 5 7 0 . 5 6 1 0 . 1 3 0 0 . 0 2 7 0 . 0 5 1 0 . 7 7 1 0 . 7 1 1 2正規→パート 2 . 9 0 6 0 . 4 7 3 0 . 7 6 3 2. 46 0 0 . 5 0 1 0. 40 8 0 . 5 3 2 0 . 1 1 7 0 . 2 2 8 3正規→派遣 7 . 2 9 0 2 . 2 5 5 ‑ 5 . 1 6 5 ‑ 3 . 6 5 6 0 . 3 0 0 0 . 1 5 3 0 . 1 1 8 ‑0. 45 6 0 . 3 0 4 4パート→正規 0 . 1 9 7 2 . 0 6 3 0 . 5 8 2 0 . 2 2 9 0 . 1 7 4 一0 . 0 2 7 0 . 0 6 9 1 .3 2 4 0 . 0 5 8 5パート→パート 0 . 1 8 6 0 . 9 5 3 0 . 4 3 4 ‑ 1 .5 8 9 0 . 5 2 7 0 . 7 0 9 0 . 4 2 9 0 . 5 4 7 0. 45 4 6パート→派遣 ‑ 9 . 3 1 7 3 . 5 3 1 4 . 2 5 6 42 9 0. 3 . 7 9 2 0 . 0 0 0 0 . 0 0 0 1 0 . 2 5 6 1 .6 9 8 1 7派遣→正規 1 .9 2 7 3 . 8 5 6 0 . 7 9 3 ‑ 3 . 1 6 5 2 . 1 1 3 0 . 1 6 8 0 . 0 0 0 0 . 9 2 1 ‑ 4 . 6 9 3 8派遣→パート 5 . 7 4 5 0 . 0 0 0 6 . 1 6 1 一 日. 3 9 3 6 . 1 0 3 ‑ 1 .1 8 7 ‑ 2 . 0 4 7 3 . 5 5 3 1 3 . 7 6 0 9派遣→派遣 1 8 . 2 0 6 ‑ 0 . 1 6 2 0 . 2 3 1 ー1 1 .4 7 9 3. 47 3 0 . 0 0 0 ‑ 1 . 13 4 0 . 1 8 3 0 . 0 9 6 0 . 1 3 0 0 . 0 0 0 ‑ 0 . 0 2 3 ‑ 8 . 8 3 6 0 . 1 5 9 0 . 0 0 0 ‑ 0 . 0 1 6 0 . 6 2 5 0 . 5 1 7 合計 {注)網掛けのセ J レは、構成比の差が士 5ポイント以上あるもの。 ‑22
由別就業者数(構成比)を集計している。 2の ( 2 )の研究プロジェクトの研究手順においては、表 3下段のように、個々のセルの値を元デ、ー タによる集計結果と比較することによって検証を行った 本研究では、これに加えて、表全体として両 O 者の集計結果に差異が認められるかを、カイ 2乗統計量を用いて検証した。 表 3の様式の集計結果に関して、リサンプリング・データによる集計結果と元データによる集計結 果に差異がないとの帰無仮説の下で、カイ 2乗統計量による 5 %有意検定を行った。その結果、カイ 2 乗統計量は 7 5.4で、自由度 8 0 ( = 9X9‑1)における P値は 0 . 6 2 4となり、帰無仮説は棄却されなかっ た。つまり、研究班による表 3の集計結果は全体として元データによる集計結果と差異がないことが P一一 一 I n 2 一 一 n一 n 一 9 す ト ] 一 戸 9 す ト ] 同 量 計 統 乗 イ カ ︒ 確認された。 p=EL U N nij : 1 )サンプリング・データの結果(度数) n:1)サンプリング・データの結果の和(度数) 八日/元データの結果(度数) N:元データの結果の和(度数) 6 リサンプリング・データセットの頑健性の検証 上記 5の検証は 3 00組のデータセットの中から選択され、研究班に提供された特定のデータセット に関する検証である。特定のデータセットの分析結果から得られた結論(仮説)が、別のデータセット からは異なる結論が導かれるようではその結論(仮説)は正当化されない。研究班が得た結論(仮 説)を正当化するためには、結論(仮説)が棄却されないだけの精度を当該データセットが持ってい る必要がある。そこで、、就業構造基本調査の場合を例に、データセットの頑健'性について検証した。 各抽出率における 300組のデータセットそれぞれについて、表 3様式の 9X9項目のクロス集計を 行った。その集計結果と元データによる集計結果とは差異がないとの帰無仮説の下で 5% 有意検定 を行い、帰無仮説が棄却される回数を比較した。抽出率別の棄却回数は表 4のとおりで、あった 表4 リサンプリング・データによる集計結果と元デー タによる集計に差異がないとの帰無仮説の検証結果 3 0 0組のデータセットのうち、 5 %有意水準 抽出率 で棄却された回数 5目 2 9 1 0 % 1 0 2 0 % 7 3 5 0 % ‑23 O
ここで、棄却回数が多いことは、元データとの適合度の低い、すなわち、偏りの大きいデータセット が提供されるリスクが大きいことを示している。偏りの大きいデータセットから得られた結論(仮説)につ いては、別のデータセットからは異なる結論が導かれる可能性があることを意味している。したがって、 偏りの大きいデータセットが提供されるリスクが大きいような抽出率のデータセットは頑健'性があると はいえない。 20犯の抽出率によるリサンプリング・データの棄却率は相対的に小さいことから、 20%抽出 率のリサンプリング・データは頑健性があるとし、える。 300 組のデータセットについて、カイ 2乗統計量の分布は図 2のとおりである。なお、自由度 80 に 01 .9以上が棄却域である。 おいてはカイ 2乗統計量 1 図 2 300組のデータセットの力イ 2乗統計量の分布 60 抽出率 5%(男性) 抽出率 10%(男性) 費 度 量 30 為川1m 滞 1 J1 5 鹿 800 ∞o I N= 300 1 2 0 . 0 7 1 . 3 1 4 6 佃 , r ; ' ω 1 4 0 . 0 引 抽 出 率 20%(男性) 抽出率 50%(男性) 50 度 度 費 量 30 数 30 :Wllllll ,~, :25 4 0 . 0 800 8 0 . 0 1 0 0 . 0 1 2 0 . 0 = Mean 73. 4224 S t d .Dev.= 1 2 . 6 9 3 5 2 N=300 8 0 . 0 1 4 0 . 0 2 4
偏りの大きいデータセットが選ばれるリスクが大きいとし、うことは、Jj j lの観点からは、 300組のデータ セットによるある項目の集計値について、その変動係数が大きし、ことを意味する。表 3様式の合計欄 )。 の就業理由別構成比について、抽出率別に 300組データセットの変動係数を求めた(図 3 いずれの就業理由の構成比についても、抽出率が小さくなるにしたがって、変動係数が大きくな っていることが確認できた。特に、抽出率 20%を下回ると変動係数が急に大きくなることから、 20%の抽 出率は妥当といえる。 また、構成比が小さししたがって、データ数の少ない集計項目は、抽出率にかかわらず変動係 数が大きいことが確認できた。 図3 抽出率、就業理由別構成比の変動係数(男性) │変動係数(%) 40 十 35 ~. 一一一一一 一一一一一 一一 一 一一.̲̲̲./倍率維持 (0.4) 余絡ができた ( 0 . 5 ) 30 ‑ t 2 5r ‑ 一 ー 社 会f :j:出る(1.2 ) 20 ‑ t 1 5 10 。 50 覧 40 覧 10 覧 5覧 抽出率 (注)就業理由のラベルのカッコ内[立、元データにおける当該就業理由の構成比(百)。 7 サイズの小さい層を対象とした集計についての検証 上記 6にもかかわらず、 20%のリサンプリング・データで、あっても、対象を限定した集計結果に関して は、信頼度が低下することを示す。全国消費実態調査についてある研究班は、「世帯主の年齢階級 が 60‑64歳で、世帯の年間収入階級が 299万円以下で、世帯の貯蓄階級が 599万円以下の世帯 としづ特定世帯に関する世帯の支出内訳の集計を行った O この (世帯主とその配偶者がいる世帯)J 279データ中 146サンフ。/レ、研究班に提 特定世帯に該当するサンプルは、元データにおいては 49, 856データ中 28サンプルしかなかった。したがって、こ 供されたリサンプリング・データにおいては 9, の集計結果について、元データによる集計結果との本離がほとんどの項目で::t5%以上あったのは、 当然の結果で、あった O phu 白 つ
このことを 3 0 0組のデータセットから得られる集計値(平均)の変動係数が、上記特定世帯に限定し た場合と、全世帯を対象にした場合とで、どの程度異なるか比較した(図 4)。 特定世帯を対象とした集計は、全世帯を対象とした集計と比べると、両者の縦軸目盛から明らかな ように、同じ抽出率でも集計対象を限定した方が、変動係数が相当大きくなる。 図4 抽出率、世帯の支出内訳別変動係数 ①特定世帯対象の集計 変動 3 0 係数(出) 2 5 2 0 │ー+ー支出総額 ( 6 1 ) 1 5 1 ・・ひ・実支出 ( 5 5 ) x 消費支出 (56) 1 0 !一台ー食料 (37) 5 。 l一栄一水道=光熱料 ( 4 9 )I 5 0 % 2 0弘 1 0 % 5 % 抽出率 ②全世帯対象の集計 変動係数(首) 1 . 6 1. 4 1 . 2 0 . 8 0 . 6 0. 4 0 . 2 。 一額日航り鳴一 一総出支件づ一 ↑出支費料道一 一支実消食水一 一一十×十十一 1 .0 O . 5 0 % 2 0 % 1 0 % 5 % 抽出率 (注)集計項目の後のカッコ内は元データにおける変動係数 ?u c o
一般的に、リサンプル抽出率と集計値の変動係数には図 5のような関係がある。 リサンプル抽出率が小さくなるほど変動係数は大きくなるが、同じ抽出率でも項目 Aと項目 Bで変 動係数の水準に差がみられる。これには、例えば出現頻度が小さいなどにより項目の属性として 元々ぱらつきが大きい場合や、集計対象を限定したために該当サンプル数が少なくなった場合など が考えられる。したがって、特定世帯等に限定して集計する場合は、当該サンプル数に十分留意す る必要がある。 図5 抽出率と集計値の変動係数の関係(概念図) 300組のデ タセットから得られた 集計値(平均)の変動係数 ある項目 B ある項目 A 分析許容精度ライン 50% 20% 10% 5% データセットの抽出率 8 まとめ ( ') 結 論 検証結果によると、 5%、10%の抽出率によるリサンプリング・データの提供による実証分析研究の 場合は、研究班の結論(仮説)が棄却されるリスクが大きく、一方、個別データの開示リスクも勘案す ると、ミクロ統計データ活用研究会が採用した 20%の抽出率は妥当である。 したがって、ミクロデータによる実証研究の研究形態として、第 l段階は 20%リサンプリング・データ による予備的・試行的分析を行い、そこで学術的に有用な結論(仮説)を得たものについて、第 2段 0 0 %近いデータを利用して結論(仮説)を確認するとしづ研究アフ ローチは有効な方法とし、 階として 1 o える。 しかしながら、集計対象を限定した分析にリサンプリング・データを利用した場合は、得られた結論 (仮説)が棄却されるリスクが大きいので、当該サンフ。ルサイズ、の大きさについて十分留意する必要 がある。 なお、多くの研究者の参加を得て実施されたミクロ統計データ活用研究会プロジェクトの経験から 27
明らかになったことは、研究者はプログ、ラム作成の過程において、ドキュメントの解釈ミス、集計対象 の誤り、単純なコーディングミス等々様々なミスを犯すということである。事務局の負担が大きいという 問題はあるものの、研究班の研究結果発表以前に、事務局によって研究者が作成したプログラムを 検証するといいうプロジ、エクトの研究手順はこの意味でーも効果的なものであった O ( 2 ) 課題 リサンプリング・データの作成方法で述べたように、本研究でいう元データは、各省庁で公式集計 に使用された全データに、秘匿措置の観点から分類区分の統合、トップコーディング、、などの加工を 施した、リサンプリング直前の段階のデータである。元データとリサンプリング・データはレコードフォ ーマットが同一で、あるから、研究班作成の集計プログ、ラムをそのまま元デ、ータに適用することによっ て、各種の検証を行った O したがって、本研究は、抽出率を変えたときのリサンプリング・データによる 集計結果と、元データによる集計結果との違いに焦点を当てたもので、ある。 ところで、各省庁における公式集計で、は各世帯員レコードに付与された集計用乗率を用いて集計 を行っているが、リサンプリング・データの作成に当たっては、同一世帯の複数回抽出を許す確率比 例抽出を行い、同一世帯の各世帯員レコードの集計用乗率は同一にしており、公式集計の場合とは 復元方法が異なるという特徴がある。これは世帯を意識したミクロ統計分析を想定したためで、あると 思われるが、今後多様な抽出率のリサンプリング・データが提供され、また、ミクロデータを利用した 多様な集計・分析が行われることを想定すると、リサンプリング・データへの集計用乗率の与え方、復 元方法の違いによる影響についても検討する必要があることを指摘しておく。 28一
S A S Forumユ ー ザ 一 会 1 9 8 2年から 2 0 0 2年における韓国所得分布の分析 金慧蓮(キム・ヘリヨン) 東京国際大学経済学研究科博士後期課程 韓国国家統計局 TheI n c o m eD i s t r i b u t i o no fK o r e a :1 9 8 2 ‑ 2 0 0 2 KimHae‑Ryun G r a d u a t eS c h o o lo fEconomics, TokyoI n t e m a t i o n a lU n i v e r s i t y ,Ph.DC a n d i d a t e KoreaN a t i o n a lS t a t i s t i c a lO f f i c e(KNSO) 要旨 The Korean s o c i e t yi s now s u f f e r i n g 企omh i g hs o c i a li n s t a b i l i t y and p o l a r i z a t i o nc a u s e d by i n c r e a s e di n e q u a l i t ya f t e rt h ef i n a n c i a lc r i s i so f1 9 9 7 .I ti su r g e n tt oi n v e s t i g a t ei n t oc o n d i t i o n s d e t e r m i n i n gincomed i s t r i b u t i o na n dt oi d e n t i f yf a c t o r si n f l u e n c i n gi n e q u a l i t yo fd i s t r i b u t i o n .T h e r ei s, s of a r ,nog e n e r a la g r e e m e n tont h eq u e s t i o nw h e t h e ro rn o tt h ed e g r e eo fi n e q u a l i t yd e c r e a s e di nK o r e a . i c u l a r l ya f t e rt h ef i n a n c i a l T h i sp a p e ra s s e r t sa ni n c r e a s e dt r e n do fi n e q u a l i t yo fincomed i s t r i b u t i o n,p紅 t a n de x a m i n e sv a r i o u sf e a t u r e so fi n e q u a l i t yt a k i n gnewa p p r o a c h e s . c r i s i s, キーワードIne q u a l i t y , I ncomed i s t r i b u t i o n, D e c o m p o s i t i o n 1 .INTRODUCTION Koreae x p e r i e n c e dr a p i deconomicg r o w t hs i n c e1 9 6 0 .T h r o u g h o u tt h ep e r i o do fr a p i deconomic t h eviewp r e v a i l e dt h a tt h ei n e q u a l i t yo fincomed i s t r i b u t i o ni nKoreahadb e e nr e d u c e da d e v e l o p m e n t, g r e a td e a. lT h i si sb e c a u s er e s e a r c h e s,done home and a b r o a d,p r o d u c e ds t a t i s t i c a lm e a s u r e so f i n e q u a l i t ys h o w i n gr e l a t i v ee q u a l i t yo fKorea,comparedt oo t h e rc o u n t r i e so ft h esamel e v e lo fGDP. However ,o r d i n a r yp e o p l eo fKoreap e r c e i v e dt h em a t t e rd i f f e r e n t l y .Theyf e l tt h a tt h egapbetweent h e r i c ha n dt h ep o o rwasv e r yl a r g e,a n dt h a tt h es t a t eo fKoreaneconomyands o c i e t ywasu n b e a r a b l y u n j u st .1o b s e r v es u c haf e e l i n gw i d e s p r e a d,e s p e c i a l l ya f t e rt h eeconomicc r i s i so f1 9 9 7,e v e na f t e rt h e Koreaneconomyr e t u m e dt ot h ec o u r s eo fn o r m a leconomicg r o w t h .J u d g m e n t se v e no fs p e c i a l i s t s i c u l a r l yf o rt h ep e r i o da f t e r1 9 8 0 . 1wouldl i k et oknowwhatc h a n g e sKoreanp e o p l er e a l l y d i s a g r e e,p紅 t e x p e r i e n c e d .Thep u r p o s eo ft h i sp a p e ri st op r o p o s eo n eviewonc h a n g e si ni n e q u a l i t yo fincome d i s t r i b u t i o no fKoreai nt h etwod e c a d e s企om1 9 8 2t o2002,u s i n gm i c r o ‑ d a t a,t a k i n gi n t oa c c o u n to f s e v e r a lf a c t o r st h a td i dn o tr e c e i v ee n o u g ha t t e n t i o nb e f o r e . ‑29
Thev i e w soni n e q u a l i t yw i l ld i f f e rd e p e n d i n gonwhatwel o o ka t :e i t h e rincomeo re x p e n d i t u r e,o r . t i t sd e f i n i t i o n .Att h ec e n t e ro ft h ep r e s e n ta n a l y s i si st h eincomeo fOECDd e f i n i t i o nw i t hi m p u t e dr e n T h i sa p p r o a c hp o s e smeones e r i o u sq u e s t i o n, t h a ti s, howt oe s t i m a t enon‑employeet o g e t h e rh o u s e h o l d income,f o r,i ti sn o ta v a i l a b l ei nHouseholdIncomeandE x p e n d i t u r eS u r v e y( H l l i S ) .1t r yt od e t e r m i n e i tont h eb a s i so fc o n s u m p t i o nf u n c t i o ne s t i m a t e df o remployeeh o u s e h o l d so fwhich income a n d e x p e n d i t u r eb o t ha r ea v a i l a b l e .Incomeo fe a c hh o u s e h o l di sa d j u s t e df o rh o u s e h o l ds i z e,u s i n ga n e q u i v a l e n c es c a l et h a tt a k e si n t oa c c o u n te c o n o m i e so fs c a l eo fh o u s e h o l de x p e n d i t u r e . r yt oe s t i m a t e Havingd e t e r m i n e dt h ep a t t e r no fincomei n e q u a l i t ya n di t sc h a n g e so v e rt i m e,1t whata r er e l a t i v ec o n t r i b u t i o n so fd i f f e r e n ts o u r c e so fi n e q u a l i t yt ot h eo v e r a l ld e g r e eo fi n e q u a l i t y .1 e s u l t so ftwok i n d so fd e c o m p o s i t i o n s .Theo n ei sd巴c o m p o s i t i o ni n t od i f f e r e n ts o u r c巴S p r e s e n th e r et h巴 r o ft o t a li n c o m e :e a r n i n g s,incomefroma s s e t s,i π e g u l a rincome,e t c .,u s i n gh a l fo fS q u a r e dC o e f f i c i e n t s i n gMeanLogD e v i a t i o n o fV a r i a n c e(SCV).Theo t h e ri sd e c o m p o s i t i o ni n t og r o u p so fh o u s e h o l d s,u (MLD).Householdsa r ec Ia s s i f i e dbyb o t hh o u s e h o l dh e a d ' sa g eande d u c a t i o nl e v eI . Thes t r u c t u r eo ft h ep r e s e n tp a p e ri sa sf o l l o w s .S e c t i o n s2,3and4showd e t a i l so fo u rf i n d i n g s, andf i n a l l yi nS e c t i o n5, 1summarizet h er e s u l t so fmys t a t i s t i c a la n a l y s i s . 2 .DATAANDMETHOD 2 . 1Data n comeandE x p e n d i t u r eS u r v e y ( H l l i S )m i c r o ‑ d a t al E m p i r i c a la n a l y s i si sa p p l i e dt oHouseholdI from1982t o2002r e l e a s e dbyKoreanN a t i o n a lS t a t i s t i c a lOffice(KNSO).T h i ss u r v e yi sc o n d u c t e d monthlyu s i n gt h ea c c o u n tbookwhichi sr e c o r d e dd a i l y .I tc o v e r su r b a nh o u s e h o l d sr e s i d i n gi nc i t i e s . ,t h ef o l l o w i n gt y p e so fh o u s e h o l d sa r ee xc Iu d e d :f a r m e r s 'h o u s e h o l d s ;f i s h e r m e ns However h o u s e h o l d s ;o n e ‑ p e r s o nh o u s e h o l d s ;h o u s e h o l d swhoseo r d i n a r yincomeande x p e n d i t u r ea r 巴 d i f f i c u l tt o u s i n e s s income and e x p e n d i t u r es u c ha sh o u s e h o l d sr u n n i n gr e s t a u r a n t s,i n n so r s e p a r a t e 仕omb b o a r d i n gh o u s e si nt h e i rd w e l l i n g s,andh o u s e h o l d sw i t h o u tk i nr e l a t i o n s h i p ;f o r巴i g n e rsh o u s e h o l d s . ラ Incomei scuπentmonthlyincomewhichi scomposedo fr e g u l a randi r r e g u l a ri n c o m e .Thef o r m e r i sc Ia s s i f i e di n t os a l a r i e sandwages,s e l f ‑ e m p l o y m e n tands u b s i d i a r yworkincome,income仕oma s s e t s and t r a n s f e ri n c o m e . The l a t t e ri sd e f i n e da s' n o tr e g u l a r l yr e c e i v e di n c o m e 's u c ha sr e t i r e m e n t e c e i v e df o rc o n g r a t u l a t i o no rc o n d o l e n c e,e t c .Incomef o rt r e n do fi n e q u a l i t yi s a l l o w a n c e s,moneyr b a s e donr e g u l a rincom 巴. I ncom 巴sa r ea d j u s t巴dbye q u i v a l e l l c es c a l e2andi nc Iud巴 i m p u t e dr e n tb巴s i d e s I I nm i c r o ‑ d a t a,i ti si m p o s s i b l et oi d e n t i f yt h eIDn u m b e rp e re a c hh o u s e h o l da n de a c hd i f f e r e n tm o n t h .Duet o 巴h o l dc a n n o tb ee s t i m a t 巴d .T h u s,1t r e a t 巴dt h 巴m a s t h e s ed a t ar e s t r i c t i o n s,t h ey e a r l yb a s e di n c o m ep e rh o u s d i f f e r e n th o u s e h o l d si ne a c hy 巴紅 m i c r od a t a s e ta I t h o u g ht h e ym i g h tb 巴 t h esam 巴 h o u s e h o l d sw i t hd i f f e r e n t m o n t h . 玉 , where Y= incomeo re x p e n d i t u r eo fi t hh o u s巴h o l d,S j= t h en u m b e ro fm印 加si nh o u s e h o l di 2W= s r j a n dE := t h ee q u i v a l e n c ee l a s t i c i t y( 0 . 5i nt h i sp a p e r ) . ‑30一
i n c o m e swhich訂 ea n a l y z e df o rd e c o m p o s i t i o na n a l y s i s . 2 . 2V a r i o u sapproachest oI n e q u a l i t ymeasurement I n e q u a l i t yo fKoreawast h o u g h tt oh a v ed e c r e a s e da st h eeconomyd e v e l o p e d .Homeanda b r o a d u p p o r t e dt h i sviewt h r o u g hc o m p a r i s o nw i t ho t h e rd e v e l o p i n gc o u n t r i e swhosei n i t i a l l e v e lo f s t u d i e s3 s ,r e c e n ts t u d i e s4 a r g u et h a tt h ea c t u a ls i t u a t i o no fi n e q u a l i t yh a s i n e q u a l i t yi ss i r n i l a rt oK o r e a .However n o timproveda smucha swet h o u g h t,andt h ea r g u m e n ti ss t i l ld i s p u t e d .T h e r e f o r e,t h e r ei snog e n e r a l c o n s e n tons i t u a t i o no fi n e q u a l i t yo fK o r e a .A l t h o u g hi ti sd i f f i c u l tt ocomet oa na g r e e m e n toncommon methodf o ra n a l y s i s,v a r i o u sa p p r o a c h e sf o re s t i m a t i n gi n e q u a l i t yc a nb eimplementedf o ra n a l y z i n gt h e a c t u a li n e q u a l i t y . F i r s t,1i n c l u d e di m p u t e dr e n t 'i n t oincomec o n c e pt .I ts h o u l db ei n c l u d e df o re s t i m a t i n gi n e q u a l i t y b e c a u s et h ep r i c eo fl a n dandr e n tf e ef o rh o u s i n gi se x t r e m e l yh i g hi nK o r e a .Althoughw h e t h e ri t ti su s e f u lt ob ei n c l u d e di nincome c o n c e p t,when s h o u l db ei n c l u d e do rn o ti ss t i l ld i s p u t e d,i c o n s i d e r i n gs o c i a lw e l l ‑ b e i n go fh o u s e h o l d si nK o r e a .Thel i v i n gs t a n d a r do fh o u s e h o l d swhichdon o t h e own t h e i rh o u s i n gc o u l db el o w e rt h a nt h a to fh o u s e h o l d s which ownt h e i rh o u s i n g . Second,t e q u i v a l e n c es c a l ef o ra d j u s t i n gt h enumbero fh o u s e h o l dmemberss h o u l db ec o n s i d e r e d .Thes i z eo f ,i fh o u s e h o l ds i z ec h a n g e s due toιthe s i z eo f h o u s e h o l d sa f f e c t st h el e v e lo fincome i n e q u a l i t y e c o n o m y ' .T h i r d,t h e incomeo fn o n ‑ e m p l o y e eh o u s e h o l d s must b ee s t i m a t e df o re x a r n i n i n gt o t a l ft h i sincomeg r o u pi si n c l u d e df o re s t i m a t i n gi n e q u a l i t y ,t o t a li n e q u a l i t yw i l lbe i n e q u a l i t yo fK o r e a .I h i g h e rt h a nwheni ti sn o ti n c l u d e d .A c c o r d i n gt od e f i n i t i o n,non‑employeeh o u s e h o l d sc o n s i s to ft h e s e l f ‑ e m p l o y e d,managersandn o n ‑ w o r k i n gh o u s e h o l d s .Ont h i sa c c o u n t,non‑employeeh o u s e h o l d smay i n c l u d ee i t h e rt h eh i g h e s tincomeo rt h el o w e s tincomeg r o u p swhichi soneo ft h ef a c t o r st h a tmake .F i n a l l y ,t oi n v e s t i g a t ewhichf a c t o r sc o n t r i b u t es i g n i f i c a n t l yt oi n c r e a s e di n e q u a l i t y i n e q u a l i t yh i g h er e c o m p o s i t i o na n a l y s i sbyincomes o u r c e sandbys u b ‑ g r o u ph a sbeend o n e . a f t e r1 9 9 7f i n a n c i a lc r i s i s,d and I n e q u a l i t yd e c o m p o s i t i o ni sd e s i r a b l ef o re x a r n i n i n gt h ei m p a c tt oi n e q u a l i t yo fp a r t i c u l a rf a c t o r s, a l l o w sf o ra ne v a l u a t i o no ft h es p e c i f i ci m p a c t so fincomer e c i p i e n tc h a r a c t e r i s t i c ss u c ha sa g eand e d u c a t i o nl e v el . 2 . 3 .E s t i m a t i o nofNon‑employeeHouseholdIncome Asm e n t i o n e da b o v e,incomeo fn o n ‑ e m p l o y e eh o u s e h o l d si sn o ta v a i l a b l efromHIES d a t a .To i n v e s t i g a t eo v e r a l lt r e n do fi n e q u a l i t y ,i ts h o u l db ee s t i m a t e d .Amongv a r i o u swaysf o ri t se s t i m a t i o n, r e v e r s er e g r e s s i o nmethodi sa d o p t e di nt h i sp a p e r .T h i smethodi st oe s t i m a t ec o n s u m p t i o nf u n c t i o n " o femployee h o u s e h o l d s by a s s u m i n gt h a tc o n s u m p t i o nf u n c t i o no fincome i st h e same f o rb o t h c i e n t so fc o n su m p t i o nf u n c t i o n employeeandnon‑employeeh o u s e h o l d s .1u s et h e s ee s t i m a t e dc o e妊I 円 f o re s t i m a t i n gi n c o m e so fn o n ‑ e m p l o y e eh o u s e h o l d s . 3O s h i m a( 1 9 7 0 )a n dAdelman( 1 9 7 8 ) 4 Choo,H a k ‑ J u n g( 19 7 9 )a n dB a e,Moon‑Gee( 1 9 9 7 ) 3 1
Thet y p e so fr e s i d e n c ea ss o c i a li n d i c a t o randt h enumbero fh o u s e h o l dmembersa r eemployedi n 巴g r e s s i o nmod巴1b巴c a u s eb o t ho fthemc o u l da f f e c tt h ec o n s u m p t i o no fe a c hh o u s e h o l d .Consumption r 巴巴 i sa sf o l l o w : f u n c t i o no femploy D3 D4 D2 叩 =α1+α2 i+α3 i+α4 i l n c t ' +sl1nN i +β2(D )+s3(D 2 i・lnN i i 3・lnN)+s4(D 4 i・lnN) 仰 +Y l1nY i +Y2(D2 岬)+Y3(D ny / m p )+Y4(D4 i・l ny / m p ) i・lnY/ 3 i・l wh巴r e D = dummy v a r i a b l巴 f o rown h o u s巴 , D, = dummy v a r i a b l 巴 f o ro t h e r ‑ r 巴s i d巴n c e5, D 3 i= 2 i 1 i dummyv a r i a b l巴 f o rd巴p o s i t ‑ r 巴n t ‑ h o u s e6, D4 i=dummyv a r i a b l ef o rmonthlyr e n thous巴 , Nt=numbd o l dmemb巴r , R eppp=incomeo fcmploy 巴巴 h o u s e h o l d,and cfpzconsumptiono f巴mploy 巴巴 o fhous巴h h o u s e h o l d .Thec o e f f i c i巴n to ft h 巴n umb巴ro fh o u s e h o l dmemberandincom 巴s howsp o s i t i v e .A d j u s t 巴d 巴r a n g巴sfrom0. 45 1t o0 . 5 3 4 . R ‑ s q u a r t i m a t 巴d c o e f f i c i巴n t so f consumption f u n c t i o no f巴mploy 巴 巴 , n on‑employ 巴巴 i ncom 巴 i s Using 巴s 巴p si na c c o r d a n c 巴w i t ht h 巴t y p 巴s ofr 巴s i d 巴n c e : imputedbyf o l l o w i n gs t u n c t i o no fnon‑employ 巴eh o u s e h o l d swhor 巴s i d 巴i nt h e i rownhous巴 i s F i r s t,incomef l nY ,/削 岬 = 土 ( lnC; 1 01I‑emp αl β1 i ) 1nN 1 1 S巴cond,incom 巴f u n c t i o no fnon巴mployeehous巴h o l d swhor 巴s i d 巴i no t h巴r r 巴s i d巴n c巴 i s l n1 ' ;"0" 岬 1 ー(lnC;IOII‑emp‑(α1+α2)‑( βI +s2)lnN;) 1 1+1 2 T h i r d,incom 巴f u n c t i o no fn o n ‑巴mploye 巴h o u s巴h o l d swhor 巴s i d 巴i nd巴p o s i t ‑ r e n t ‑ h o u s巴 i s l nY ,/Oll 仰 =ーユー(lnC ; 1 01I np̲ (α1+α3)一(β1+ん) l nNi) 1 1+1 3 一目 F o u r t h,incomef u n c t i o no fn o n ‑ 巴m ployeeh o u s巴h o l d swhor 巴s i d ei nd e p o s i t ‑ r e n t ‑ h o u s emonthlyr e n t hous巴 i s 」 l n T O F temp=‑ ‑(lnC z p i o n ‑ e 押 収 1+α4)一(β1+β4)lnN ; ) 1 1+1 4 3 . TRENDOFINCOMEINEQUALITY T r 巴n do fi n 巴q u a l i t yi nincomed i s t r i b u t i o nu s i n gG i n ii n d e x, MLD (MeanLogD巴v i a t i o n )and 巴xi sp r 巴S巴n t巴di nt h i ss e c t i o n .Formula 巴f o rc o m p u t a t i o na r ea sf o l l o w s : A t k i n s o ni n d 5S u c ha sh o u s e h o l d sr e s i d i n gi nc o m p a n y ' sh o u s e, a n dn o t ‑ p a y i n gr e n th o u s e h o l d s 6T het y p i c a ls t y l eo fr e n ts y s t e mi nK o r e a,t h a ti s,t e n a n tp u tsomea m o u n to fmoneyt ol a n d l o r dd u r i n gc o n甘a c t lo r2y e訂 s )i n s t e a do fp a y i n gr e n tp e rm o n t ha n da f t e re x p i r i n gat e r mo fl e a s e,h er e c e i v e st h a tmoney p e r i o d( a n d l o r d . b a c k仕oml 32‑
r E ム 守E ︑ ︑︐ ︐ ︐ ( ~1 ‑ [ 出 n n Y k n ‑ 一 + 引 J い円 τ n: i ¥111111lfノ L κ 2 n T J ] 2一川 /11111¥ n G MLD = 1すl o g ( と) ( 2 ) ( 3 ) where n i st h et o t a lnumbero fh o u s e h o l d s, Y k i st h eh o u s e h o l d s incomeand μis t h ea v e r a g e h ep訂 a m e t e ri n d i c a t i n gt h es o c i e t y ' sa v e r s i o nt oi n e q u a l i思 s e te q u a lt o0. 5i nt h i s income,and εist . r p a p e R e g u l a r income i n e q u a l i t i e so v e r2 1y e a r sh a v eb e e ns l i g h t l y upward t r e n d,n o t w i t h s t a n d i n g t e m p o r a r yd e c l i n e仕om1986t o1 9 8 8andfrom1 9 9 1t o1 9 9 6( F i g u r e1 ) .E s p e c i a l l yi n e q u a l i t yworsened n d i c a t i n gt h a tt h ea g g r a v a t e ds i t u a t i o no f economy d e t e r i o r a t e s income s i g n i f i c a n t l yi n 1998,i h e r e a st h eeconomyh a sa l r e a d yr e c o v e r e d . d i s t r i b u t i o n .Thei n e q u a l i t ys t i l lr e m a i n sa tah i g hl e v e l,w h a to femployeeh o u s e h o l d si sr a t h e r Whilet h emovemento fnon‑employeeh o u s e h o l d si sf l u c t u a t e d,t o s t a b l e .Thei n e q u a l i t yo fnon‑employeeh o u s e h o l d si sh i g h e rt h a nt h a to femployeeh o u s e h o l d s,duet ti sr e a s o n a b l eb e c a u s enon‑employee h i g hd i s p e r s i o no fincomec l a s so fn o n ‑ e m p l o y e eh o u s e h o l d s .I h o u s e h o l d sc o n s i s to fs e l f ‑ e m p l o y e dh o u s e h o l d sandn o n ‑ w o r k i n gh o u s e h o l d swhichm i g h tc o n t a i nt h e h i g h e s tincomeandt h el o w e s tincomeh o u s e h o l d s .l n c l u s i o no fi m p u t e dr e n tr e d u c e dt h ei n e q u a l i t yf o r o rnon‑employ 巴 巴 h o u s巴h o l d sf o rt h ee n t i r ep e r i o d( T a b l e1 ) . employeeh o u s e h o l d sa f t e r1 9 9 5,andf MLD and A t k i n s o ni n d e x move i n as i m i l a r way t oG i n ii n d e x,i m p l y i n gt h a tt h ec h o i c eo f measurementmethodd o e sn o tmakemuchd i f f e r e n c e s . n d e xb a s e donR e g u l a rlncome F i g u r e1 .Trendo fGi凶 l ム 山 d u • 加︐ ︐ ︐ 0 . 6 5 0 . 6 0 田 VJ 0 . 7 0 O P A t r m m 0 . 7 5 a l lh o u s e h o l d 0. 55 0. 50 I 0 . 4 5 0 . 4 0 0 . 3 5 臼 n p l o v 田 h o u s e h o l d 0 . 3 0 0 . 2 5 ~ ~ M ~ % ~ U ~ W ~ ~ ‑33ー ~ ~ ~ % ~ ~ ~ 00 m a
T a b l e1 .IncomeI n e q u a l i t yb a s e donR e g u l a rIncome MLD Y e a r IA t k i n s o n A l l I A l l H o u s e h o l d H o u s e h o l d 1 9 8 2 0. 5048 0 . 2 8 7 5 0 . 1 4 0 1 1 9 8 3 0. 5035 0 . 2 7 8 9 0 . 1 3 9 5 51 1 9 0. 1 9 8 4 0 . 2 8 9 3 0. 51 1 9 1 9 8 5 ..ー 一回 a目 1 9 8 6 0. 3024 ー圃圃 目, 0 . 2 8 5 3 1 9 8 7 0 . 2 9 4 1 1 9 8 8 0 . 2 7 8 1 θ~~.~~~~:~~~ 1 9 9 3 0. 5938 1 9 9 4 0 . 5 8 4 1 0 . 3 1 6 5 1 9 9 5 0 . 5 9 8 9 0. 33 7 5 1 9 9 6 0 . 3 0 7 9 1 9 9 7 0. 35 55 1 9 9 8 1 9 9 9 0. 4593 ν t d 一守 一丹︑ '4A 守 A 仏 マ 川 AA守 r ハU ハU一 5 4 今 u r o フ‑ l⁝ 2 ∞ 一 ∞ 一フ‑ 2 側 在 44L3J 副主 4 . DECO恥1POSITION I no r d e rt oa n a l y z ef a c t o r st h a ta f f e c ti n c r e a s e di n e q u a l i t ye s p e c i a l l ya f t e rIMFt i n a n c i a lc r i s i s,i ti s h e l p f u lt odecomposei n e q u a l i t y .Onlyemployeeh o u s e h o l dincomed a t aa r eemployedduet or e s t r i c t i o n 7 n e q u a l i t yi n d e x ,GE(2), o fd a t ao fnon‑employeeh o u s e h o l di n c o m e .AmongGeneralizedEn仕opyi i . e ., h a l fo fSCVi sa p p l i e dt od e c o m p o s i t i o nbyincomes o u r c eandGE(O), i . e ., MLD,t od e c o m p o s i t i o n bys u b ‑ g r o u ps u c ha sa g eande d u c a t i o nl e v e lo fh o u s e h o l dh e a d . 4 . 1DecompositionbyIncomeS o u r c e e l f ‑ e m p l o y m e n tand Householdincomec o n s i s t so fv a r i o u sincomess u c ha ss a l a r i e sandwages,s s s e t s and t r a n s f e r income and i r r e g u l a ri n c o m e . So t o t a l s u b s i d i a r y work income,income from a i n e q u a l i t yi sd i v i d e di n t oi t sf a c t o r components u s i n gt h ed e c o m p o s i t i o n method d e v e l o p e d by S h o r r o c k s( 19 8 2 ) .Thet o t a li n e q u a l i t yGE(2)i sr e g a r d e da st h esumo ff a c t o rc o n t r i b u t i o n,wheree a c h 7T heg e n e r a lf o r m l 川 I I α α II l' = 1¥.μ) I s GE(α ) = で̲ 1汁 凶 ̲ 1w h e r eni st h e附 1n u m b e ro fi n d i v i d l 凶 ,Yk i st h ei n d i v i d u a lo rh o u s e h o l di n c o m ea n d μist h ea v e r a g ei n c o m e . ‑34
c o n t 伽 t i o nd e p e n d sont h ei n c o m e sfromag i v e nf a c t o rs o u r c同 GE(2) =ISf・F a c t o rincome f s o u r c e fg i v e sad i s e q u a l i z i n gC O I l t r i b u t 1 0 I 1 1 f S > O, anda ne q u a l i Z I n gc o n t r i b u t i o ni f Sf<0・ f T h i sc o n t巾 u t i o ni sc a l l e da b s o / u t ec o n t r i b u t i o n 'o ff a c t o r ft oo v e r a l li n e q u a l i t y .The' p r o p o r t i o n a l i sd e f i n e da s c o n t r i b u t i o l l' S, Sr : : : : 一一二一 GE(2) ̲ s .t . 予 Sr = 1 γJ Whilet h e r ea r ev a r i o u swayso fd e f i n i n gs " t h i sp a p e rf o l l o w st h eS h o r r o c k s 'way( 19 8 2 ),which Uf C O V ( Y f ' Y ) d e f i n e ss f a s Sf=一一一一一一一 ,where Y =t o t a lincomeand Yr=f a c t o ri n c o m e .T h e r e f o r e,t h e V訂 ( y ) Jf r e l a t i o n s h i po ff a c t o rc o n t r i b u t i o ni s Sf = Sf.GE(2) = ρf'Xf~GE(2). GE(2)f Y f, , whereρf= c o r r e l a t i o nc o e f f i c i e n tbetween Yf and Y and Xf=ー, t h a ti s,fs 山f 臼 a 似c t o r山 児 L̲ r y I no r d e rt os e et h ee f f e c t so ft h e1 9 9 7c r i s i soni n e q u a l i t yo fincomed i s t r i b u t i o n,1comparetwo s p e c i f i cy e a r s,1 9 9 7and2 0 0 2 .T a b l e2p r e s e n t st h ed e c o m p o s i t i o nr e s u l to fincomes o u r c e s .I n1997, whenf i n a n c i a lc r i s i sh a sn o ta f f e c t e di n e q u a l i t yy e t,t h em a j o rc o n t r i b u t o rt oi n e q u a l i t ywase a r 凶n g, p r o p o r t i o n e dc o n t r i b u t i o no fwhichwas62.3%( e a r n i n go fh o u s e h o l dhead42.5%,e a r n i n go fs p o u s e 11 .3%,e a r n i n go fo t h e rh o u s e h o l dmember8 . 5 % ),andt h es e c o n dc o n t r i b u t o rwasi r r e g u l a rincome, 1 8 . 1%.Self‑employment /s u b s i d i a r yworkincomeandincomefroma s s e t sg a v es m a l l e rc o n t r i b u t i o non t o t a li n e q u a l i t y ,4.5%and4.5%,r e s p e c t i v e l y .Thec o n t r i b u t i o no ft r a n s f e rincomewas1 0 . 6 % .I n2002, t h ec o n t r i b u t i o no fe a r n i n gd e c r e a s e dt o48. 4 % .I nc o n t r a s t,t h a to fi r r e g u l a rincomei n c r e a s e dt o4 5 . 5 % . i m m e d i a t ea n n u i t y ,e t c ., Asi r r e g u l a rincomei sd e f i n e da su n e x p e c t e dincomes u c ha sr e t i r i n ga l l o w a n c e, t h er e a s o nf o ri n c r e a s e dc o n t r i b u t i o nc o u l db et h es t r u c t u r a lc h a n g eo femploymentb e h a v i o rs u c ha s i g hj o bm o b i l i t yandi n t e r m e d i a r ypaymentf o rr e t i r e m e n ta l l o w a n c e,e t c .,c a u s e dby e a r l yr e t i r e m e n t,h r e s t r u c t u r i n ga f t e rf i n a n c i a lc r i s i s .A l t h o u g hincomefroms e l f ‑ e m p l o y m e n tandc a p i t a lh a sbeent h o u g h t t ob emoreu n e q u a l l yd i s t r i b u t e dt h a nl a b o rincome,i ta c t u a l l yc o n t r i b u t e sl e s s .I ti sb e c a u s eo fd a t a r e s t r i c t i o n,t h a ti s,a n a l y z e dd a t aa r eo n l y employee h o u s e h o l dd a t a .T h e r e f o r e,i f income o f h ec o n t r i b u t i o no ft h o s ei n c o m e s non‑employeeh o u s e h o l d sa r ei n c l u d e df o rd e c o m p o s i t i o na n a l y s i s,t c o u l db ei n c r e a s e d . ‑35一
T a b l e2 .D e c o m p o s i t i o nbyIncomeS O l l I " Ce s P r o p o n i o n a l I n c o m eS o u r c e Y e a r c o n t r i b u t i o n Sf …ι A b s o l u t e c o n t r i b u t i o n S( l ∞ 4 2 ‑ . 0 5 十仇チー一一 0 0 . . 0 1 7 8 7 2 7 8 一 ÷ 日 一 ω 一一一一一…ー 1 閉 1 1 . 3 0 . 0 2 0 7 一日一一一"一..‑一一]一目白一一・ し 】 L旦Sp 唖 金 s 」 E e 星 旦 i 堕 空 F 1 坦 R 且 M 師 盟 1 9 h Y M 2 E p l り J o h m 割 m l E 聖 f E 主 E q 旦 p 型 n 主 型 t 坦些 & 空 空 旦 e r s 8 . 5 0 . 0 1 5 4 一一一一ー一一一一一一 一 一 一 一 一 一 一 し 一一一 I n 主 c 一o 盟 m主 ef r U o 一 E m E a り s 一 s 一 e t s ー ∞82 O . 7 . 1 2 9 1 8 0 4 . 5 4 . 5 8 2 o∞ 0 . 0 1 9 3 0 . 0 3 3 1 0 . 30 5 1 0 . 1 0 6 1 0 . 0 2 7 9 0 . 0 1 3 7 5 3 7 0 1 4 1 , 2 6 9 2 1 , 5 3 7 2 0 9 1 7 9 3 . 0 9 2 o∞ 1 0 . 8 0 1 5 1 9 . 3 1 5 0 6 . 9 4 9 6 . 30 5 1 0 0 . 2 1 9 1 2 . 9 ∞2 3 . 8 7 2 0 一一一一一一一一 6 . 3 7 7 0 8 0 1 1 . 6 5 4 5 o∞ O . ∞48 0 . 1 3 8 8 1 1 .1 7 5 3 9 . 41 6 6 40 4 1 3 6. 5 3 7 0 1 4 1 (_______IO~ 1 8 . 1 ∞ 3 9 4 . . . 0 8 2 l j‑ E I π E C E E E L l 佐 l M I i E n F c 円 om 三 e一 一 ‑ 」 A v e r a g e ( 1, 0 ∞won) , 2 6 9 2 1 , 5 3 7 2 0 9 1 7 9 4 . 5 1 I r r e g u l a ri n c o m e I n e q u a l i t yp e re a c h c o m es o u r c eGE(2) 0 . 1 8 2 8 0 . 1 6 8 8 . 46 4 6 2 3 2 7 1 2 In 4 5. 5 一 4 . 2DecompositionbySub‑group e n t e dbys u b ‑ g r o u p,i .巴 . , a g ea n de d u c a t i o nl e v e lo fe a c h I n e q u a l i t yd e c o m p o s i t i o nc a nb ei m p l巴m 巴q u a l i t y巴q u a l ssumo ftwoc o n t r i b u t i o n s :' w i t h i ng r o u p 'i n e q u a l i t ya n d h o u s e h o l dh e a d .Thet o t a li n b e t w e e ng r o u p 'i n e q u a l i t y . GE(O) = 午viGE(O)i n where GE(O)i =i n e q u a l i t yo f it hg r o u p,v ム t h ep o p u l a t i o ns h a r eo fg r o u p i, a n d λ2=fL, i=ー土, 1 n μ i . e ., g r o u pi ' smeanincom 巴r e l a t i v 巴t ot h ep o p u l a t i o nm e a n .Thef i r s tt e r mi sw i t h i ng r o u p 'component t h a ti st h ew巴i g h t e dsumo ft h ei n e q u a l i t i e sw i t h i n巴a c hs u b ‑ g r o u p,a n dt h es e c o n dt e r mi s betw巴e n 巴n tt h a ti sr e m a i n i n gi n e q u a l i t yt ob ee q u a lt os u b ‑ g r o u p ' smeani n c o m e( J e n k i n s,1 9 9 5 ) . g r o u p compon ラ 4 . 2 . 1Ageofhouseholdhead n do v e r6 0 . Ageo fh o u s e h o l dh e a di sc l a s s i f i e di n t of i v eg r o u p s :20‑29,30‑39,40‑49,50‑59,a 巴q u a l i t yo fw i t h i ng r o u p 'e x p l a i n sv e r yl a r g ep a r to fi n e q u a l i t y .T a b l e 3 shows t h er e s u l to f I n d巴c o m p o s i t i o nbyh o u s巴h o l dh e a da g 巴 .I n1 9 9 7,t h 巴r e l a t i v ec o n t r i b u t i o no f' w i t h i ng r o u p 'was9 8 . 1% , w h i l et h a to fb e t w e 巴ng r o u p 'waso n l y1 .9%.Thep r o p o 口i o nwasal i t t l ei n c r e a s e di n2002( 3 . 6 %f o r b e t w e e ng r o u p ' ) .S t i l li ta f f e c t sl e s si nt o t a li n e q u a l i t y .A n o t h e rf i n d i n gi st h a tt h ei n e q u a l i t yr i s e sa s h o u s e h o l dh e a da g ei n c r e a s e s .F o re x a m p l e,GE(O) o fe a c ho fa g eg r o u p20‑29,30‑39,40‑49,50‑59 a n do v e r60 w e r e0 . 1 2 7 2,0 . 1 6 0 1,0 . 2 2 0 8,0 . 3 1 3 8,a n d0 . 3 0 4 5,r e s p e c t i v e l yi n2 0 0 2 . Conceming ・ b e t w e e ng r o u p 'i n e q u a l i t y ,b o t hyounga g e da n do l da g e dh o u s e h o l dh e a d s紅 ec o n t r i b u t i n gmor 巴t o i n e q u a l i t yt h a nm i d d l ea g e dg r o u p s .Hence,i ti se x p e c t 巴dt h a ti n e q u a l i t ywiUi n c r 巴a s eb e c a u s eo fa n 巴a s eo ft h eyounga n dt h ea g e dh o u s e h o l d si np o p u l a t i o ns t r u c t u r a lc h a n g e s . i n c r 36‑
T
a
b
l
e3
.D
e
c
o
m
p
o
s
i
t
i
o
nbyH
o
u
s
e
h
o
l
dHeadAge
i
t
h
i
ng
r
o
u
p I B
e
t
w
e
e
ng
r
o
u
p I A
v
町a
g
e
P
r
o
p
o
r
t
i
o
no
fI W
Y
e
a
r
I
n
e
q
u
a
1
i
t
yI凶 g
r
o
u
p 1 ……吸引句~~!ity…
j I
n
c
o
m
e
V V
ホ
, GE(
0
),
V,
キl
o
g
(1/λ) I(
1,
α
J
O
w
o
n
)
1
0
.
0
2
0
91 (
0
.
1叫 ) 1 0
.
0
1
4
51 似 l
∞め̲L̲I
,
?
2
?
j
.
̲
.
.
.
.
g
:
1叫
巳
̲
3
7
5
̲
2
̲
̲
̲̲
L
̲̲
0
.
:
?
2
およ (
0
.
1
4
2
3
)I ‑
0
.
∞57: ー(0
.
0
1
5
3
川
1
,
5
9
5
空_J.一一(竺 1.~~?2L....:~些6
型組
1
9
9
7
伊
\~:~?~?2....L ...::.0.勾~:'.L (
:
9
:
(
)
(
)
<
!
.
!
.
)l…
J
d
⁝ 1A一
体 ι⁝ 司
ト
一
山
一 mF
一
d日司
o
0
.
2
1
1
9
0
.
2
1
9
8
T
o
t
a
1
0
), a
n
dl
o
g
(1/λ,
) a
r
ei
np
a
r
e
n
t
h
e
s
i
s,r
e
s
p
e
c
t
i
v
e
l
y
N
o
t
e
: GE(
1 ,??~
1
,
0
9
7
,
5
4
0
1
T﹄ ‑q&一今&一 'i
J
9一971一5 m
一
一
︐
j⁝ A
一
今
︑
q
r
‑
ベ
ノ
‑
一
︒
︒一
︑
戸‑ 一O
一 ⁝0 一2 一
︑
︐
一
‑
ノ
角
ゆ一心一心一川刊一 m
w一
一(一(⁝⁝一
m 一日⁝ω
山
一
昨
一
位
一
幻
一
一
2 一I一8 一8 一5一
一
ω
刷一例一仰石川山一
いいハ一3
十
;
:
一
し
い
一
一
U
U
F
S
L
川一山一一m 畑一川一
o一
oo
‑
⁝
十十十土
︒
⁝
︒
l
お一切石一刀⁝
ハUP ハU ⁝
ハU A U ⁝
ハ U⁝
11111L1liri‑‑卜lllL
∞
2 2
m 一刀⁝η ⁝汀一戸川一
0
.
1
8
5
8
(
0
.
3
3
4
9
)I 0
.
0
0
8
1
! (
0
.
1
4
7
3
)I
0
.
0
0
3
6i
1
,
9
3
8
4
.
2
.
2Educationl
e
v
e
lofhouseholdhead
D
e
c
o
m
p
o
s
i
t
i
o
nbye
d
u
c
a
t
i
o
nl
e
v
e
lo
fh
o
u
s
e
h
o
l
dh
e
a
dshowss
i
m
i
l
a
rr
e
s
u
l
t
sa
st
h
a
to
fh
o
u
s
e
h
o
l
d
h
e
a
da
g
e(
T
a
b
l
e4
)
.C
o
n
t
r
i
b
u
t
i
o
no
fw
i
t
h
i
ng
r
o
u
p
'i
n
e
q
u
a
l
i
t
yi
ss
i
g
n
i
f
i
c
a
n
t
l
yg
r
e
a
t
e
rt
h
a
nt
h
a
to
f
b
e
t
w
e
e
ng
r
o
u
p
'i
n
e
q
u
a
l
i
t
y
.Thep
r
o
p
o
r
t
i
o
nc
o
n
t
r
i
b
u
t
i
o
no
fw
i
t
h
i
ng
r
o
u
p
'was91
.6%,w
h
i
l
et
h
a
to
f
'
b
e
t
w
e
e
ng
r
o
u
p was8.
4
%i
n2
0
0
2
.Andt
h
el
o
w
e
rl
e
v
e
lo
fe
d
u
c
a
t
e
dg
r
o
u
p,t
h
eh
i
g
h
e
rw
i
t
h
i
ng
r
o
u
p
'
i
n
e
q
u
a
l
i
t
yb
e
s
i
d
e
sg
r
a
d
u
a
t
es
c
h
o
o
ll
e
v
e
lg
r
o
u
pi
n2
0
0
2
. Between g
r
o
u
p
'i
n
e
q
u
a
l
i
t
yr
o
s
ei
n 2002
(
0
.
0
1
7
5
)c
o
m
p
a
r
i
n
gw
i
t
ht
h
a
ti
n1
9
9
7(
0
.
0
1
3
7
),s
u
g
g
e
s
t
i
n
gt
h
a
t'
i
n
c
o
m
ed
i
f
f
e
r
e
n
cピ byt
h
ee
d
u
c
a
t
i
o
n
l
e
v
e
lw
h
i
c
hh
a
se
v
e
rb
e
e
np
r
e
v
a
l
e
n
ti
nKoreans
o
c
i
e
t
ya
p
p
e
a
r
e
da
g
a
i
nd
u
et
od
i
f
f
i
c
u
l
t
yt
of
i
n
dj
o
bf
o
r
l
o
w
e
re
d
u
c
a
t
e
dp
e
o
p
l
ea
f
t
e
rf
i
n
a
n
c
i
a
lc
r
i
s
i
s
.I
tc
a
nb
ea
l
s
oe
x
p
l
a
i
n
e
dbyi
n
c
r
e
a
s
e
dunemploymentr
a
t
e
d
u
r
i
n
ge
c
o
n
o
m
i
cr
e
c
e
s
s
i
o
n(
7
.
0
%i
n1
9
9
8,
6.3%i
n1
9
9
9
)
.
T
a
b
l
e4
.
D
ー
一
・
ー
一
ー
ー
ー
ー
ー ‑r‑‑‑
Y
e
a
r
bvH
o
u
s
e
h
o
l
dEd
‑.1
‑‑‑
H
o
u
s
e
h
o
l
dH
e
a
dA
g
e
P
r
o
p
o
r
t
i
o
n
fi
‑
t
hg
r
o
u
p
I
n
e
q
u
a
l
i
t
y o
W
i
t
h
i
ng
r
o
u
p
I
n
e
q
u
a
l
i
t
y
V キGE(
0
)
V
0
.
1
1
2
8
0
.
1
5
4
9
(̲.旦竺 1
0
.
0
7
9
8
0
.
2
0
1
1
‑
一
一
明
一
一
一
一
…
一
一
一
一
一
一ー一
" ー
]一
0
.
0
4
3
3
.
̲
.
.
.
.
一
一
一
一
…
一
一
0
.
1
7
4
0
0
.
0
8
9
4
0
.
1
2
0
3
捌 2 日空 空
l
Z
h
E
叫
P
J
I
c
F
E
J
E
E
!
o
明
主
,
]
笠
f
叩
副
摂
主
3竺
y
主立!
E
E
h
竺t
0
.
42
3
4
0
.
0
9
4
9
刊
明
日
目
.
.
̲
.山
一
一
一
0
.
21
9
5
0
.
0
5
2
6
G
r
a
d
u
a
t
es
c
h
o
o
l
T
o
t
a
l
0
.
20
8
3
0
), a
n
dl
o
g
(1/λ,) a
r
ei
np
a
r
e
n
t
h
e
s
i
s,r
e
s
p
e
c
t
i
v
e
l
y
.
Note: GE(
B
e
t
w
e
e
ng
r
o
u
p
i
n
e
q
u
a
l
i
t
y
V;*
l
o
g
(1/λ,)
A
v
e
r
a
g
e
I
n
c
o
m
e
(
1
α
,
1X
lw
o
n
)
9
2
3
,
1
9
8
1
1
,
4
8
7
,
6
6
1
1
,
9
5
2
1
e
3
7
~._2:,~72_
,
53
7
1
0
.
0
1
7
5
9
9
1
1
,
2
7
4
,
8
7
6
1
1
,
9
9
0
,
5
1
0
2
3
,
0
7
8
1
,
9
3
8
4 .CONCLUSION Th巴 d巴g r巴巴 o fi n巴q u a l i t yo fincom 巴 d i s t r i b u t i o ni nKor 巴a , m巴a s u r 巴db y巴i t h巴rG i n i, M巴a nLog D巴v i a t i o n, o rA t k i n s o nr o s巴 i nt h etwod巴c a d巴so b s巴r v巴d .Thev a l u巴 o fG i n ii n d巴xa tt h巴 巴 ndo ft h巴 o b s巴r v a t i o np巴r i o di sa b o u t1 4% h i g h巴rt h a nt h a ta tt h巴 b巴g i n n i n g,2 9% h i g h巴rf o rMLDand42% h i g h巴rf o rA t k i n s o n( T a b l e1andF i g u r e1 ) .A l lo ft h巴 t h r 巴 巴 i n d i c巴sshowas i m u l t a n巴o u ss h a r pr i s efrom 1 9 9 6t o1 9 9 9 .Ar i s巴 i so b v i o u s l ya ni n f l u巴n c巴 o f t h 巴 IMFc r i s i so f1 9 9 7 . T h i sc o u r s巴 o fchang 巴si ni n e q u a l i t yi sl a r g巴I yar 巴n 巴c t i o no fc h a n g e si nn o n ‑巴mploy巴巴 s 'i n c o m e . I n 巴q u a l i t yo f巴mploy巴巴 s 'incom 巴I Ssom 巴w hats t a b l巴. Ont h巴 o t h巴rhand,i n巴q u a l i t yo fn o n ‑巴mploy巴巴s ' income i sl a r g巴r ,a ndf l u c t u a t e s mor 巴 v i o l巴n t l y( F i g u r巴s1 ) .Th巴 d巴g r巴巴 o ft h 巴i ri n巴q u a l i t yi sh i g h o n ‑巴mploy巴巴 g r o u pc o n s i s t so ft h etwo巴x t r 巴m e s :t h巴 unemploy巴dont h巴 on巴 s i d巴 , a ndt h 巴 b e c a u s巴 n s 巴I f ‑ 巴m ploy巴do rl a r g巴 a s s巴t sh o l d e r s,ont h eo t h 巴r. A I s o,f l u c t u a t i o n si nb u s i n e s sc o n d i t i o n sa f f l 巴c tt h i s h a n巴mploy巴巴s ,p 訂 t i c u l a r l yi ns u c ha n巴V巴n tl i k et l 児島町c r i s i so f1 9 9 7 . g r o u pmor巴 t T h e r ei s on巴 un巴x p e c t巴df i n d i n g :t h巴 巴f f 巴 ,c to fi n c l u s i o no fh o u s巴 r 巴n t .I tapp巴a r st o 巴q u a l i z 巴 n o n ‑巴mploy巴巴s 'incom 巴 d i s t r i b u t i o nf o ra l m o s ta l lt h ey巴a r so b s巴r v e d .T h i si n c l u s i o na l s o巴q u a l i z e s e m p l o y e e s 'incom 巴 d i s t r i b u t i o nb e g i r u 廿n gi n1 9 9 5( T a b l巴s1 ) .W,巴 c a ns a yt h a ti m p u t巴dhouser e n t d i s e q u a l i z 巴s incomed i s t r i b u t i o n, o n l yf o r巴mployeeh o u s e h o l d sandf o rt h ep e r i o db e f o r et h eIMFc r i s i s . P o s s i b l ee x p l a n a t i o nf o rn o n ‑ e m p l o y e e si st h a t,h a v i n gr e n ti n c l u d e d,h o u s e h o l d sw i t hnop a i dincome 巴r ot op o s i t i v e .Tos e ewhichc l a s s e so fp e o p l et h eIMFc r i s i sa f f e c t e dt h e w i l lt u r nt h e i rincomefromz o e f f i c i e n t so fi n e q u a l i t yi n t ot h e i rcomponents,andcomparedtwoy e a r s, 1 9 9 7 most,wedecomposedc and2 0 0 2 .WedecomposedGE(2)i n t od i f f e r e n ts o u r c e so fincome,t of i n dt h a tt h e1997c r i s i shadt h e l a r g e s td i s e q u a l i z i n ge f f e c toni η e g u l a rp a r to fincome( T a b l e2 ) .C o n t r i b u t i o no fc h a n g ei ni n e q u a l i t y o f i η巴g u l a rincomewast h el a r g巴s t .A I s o,w巴 decomposedGE(O)i n t od i f f e r e n tg r o u p so fh o u s e h o l d s .I n onea n a l y s i s, w巴 c l a s s i f i e dh o u s e h o l d sbya g e( T a b l e3 ), andi na n o t h e r, by e d u c a t i o nl e v e lo ft h e h o u s e h o l dh e a d .C o n t r i b u t i o n st oincomei n e q u a l i t ybyyoungando l da g e dg r o u p sandl o w e re d u c a t e d g r o upa r el a r g e ri n2002t h a ni n1 9 9 7( T a b l e4 ) . o n o r n i cands o c i a ls t r u c t u r e so fKoreaa r ec h a n g i n gi nt h ew o r l deconomyt h a ti s Nowb o t h巴c i t h合巴 ec r o s s ‑ b o r d e rc a p i t a lf l o w s .T h i si sc a l l e dg l o b a l i z a t i o n . "I nt h i sp r o c e s s, g e t t i n gi n t e g r a t e d,w t h es o ‑ c a l l e d" d i g i t a ld i v i d e "i se m e r g i n g,t h a ti s,i n f o r m a t i o ngapbetweent h er i c handt h ep o o r ,o r h eyoungandt h eo l d .Andl a b o rm a r k e ti sg e t t i n gmoref l巴x i b l巴 and巴mploym 巴n ts t r u c t u r ei s betw巴巴nt ‑ t i m e,t e m p o r a r yandd a i l yw o r k e r sw i l li n d u c ej o b ‑ i n s t a b i l i t y .I fwel o o ka ts o c i a l c h a n g i n gs ot h a tp紅 t s t r u c t u r e,t h enumbero ft h ea g e dandt h es i n g l eyoungh o u s e h o l d sh a sbeeni n c r e a s i n g,andd i v o r c er a t e l s or i s i n g .A l lt h e s ee c o n o r n i ca n ds o c i a lc h a n g e sr n i g h twidenincom 巴 g apandi n c r e a s e h a sb巴巴 na i n e q u a l i t y ,a ndr n i g h td i s i n t e g r a t eKoreans o c i e t y ,c a u s i n gs o c i a lc o n f l i c t sandu町巴 s t s . Ev巴n t u a l l y ,i t ti su r g e n tf o ru st oh a v eac l e a r e ri d e aa b o u t mayu n d e r r n i n eK o r e a ' sl o n g ‑ t e r me c o n o r n i cg r o w t h .I incomed i s t r i b u t i o ni nKorea,andmakei tp o s s i b l et oknowwhatt od of o rt h ef u t u r ep r o s p e r i t yo ft h i s c o u n t r y . ‑38ー
ACKNOWLEGEMENTS 1wisht oe x p r e s smys i n c e r ea p p r e c i a t i o nt of a c u l t yands t a f fo ft h eGraduateSchoolo fEconomics s p e c i a l l yt oP r o f e s s o r a tTokyo I n t e r n a t i o n a lU n i v e r s i t yf o rt h e i re x t e n d e dl o n g ‑ t e r ms u p p o r t,ande DenzoK a r n i y aandP r o f e s s o rY o s h i r oMastudaf o rt h e i rguidanceands u p p o r t .Myg r e a ta p p r e c i a t i o n a l s ogoest oP r o f e s s o rS e t s u oSuoho fU n i v e r s i t yo fHyogof o rh i sa s s i s t a n c eanda d v i c e .T h i spaper would n e v e rhavebeencompletedw i t h o u tt h e i rencouragementand d e v o t i o n . And1would l i k et o e x p r e s s myg r a t i t u d et o myhome o f f i c e,KoreaN a t i o n a lS t a t i s t i c a lO f f i c e,f o rp r o v i d i n g me w i t h r n i c r o ‑ d a t ao fHouseholdIncomeandE x p e n d i t u r eS u r v e y . APPENDIX • SASP r ogramsusedinthepaper 1 . MacroLanguage h u sa l m o s t70, 000h o u s e h o l d s Theo r i g i n a lHIESr n i c r od a t ac o n s i s fo fmonthlybasedhouseholdd a t a,t a r ei n c l u d e di neachy e a rd a t as e t仕om1982t o2 0 0 2 .Tor e a dt h e s ehugeo r i g i n a ld a t as e tf o r m a t t e di n t e x tf i l et oc o n v e r tthemi n t oSASd a t as e tf o reachy e a r , 1usedt h emacrolanguagea sbelow: 百l e td r i v e1 = d ; / , 本c h a n g ed r i v e1 本/ l i b n a m eHIES" & d r i v e1 :半s a sd a t a¥s a s ̲ h i e s ̲ m ̲ n e w 1¥o r i g i n aj " ; 百m acror e a d ̲ o r i g i n a l1 (n o .y e a r .q u a r t e r ) ; f i l e n a m ei n & n o . " & d r i v e1 : ¥n e w ̲ d a t a ̲ 0 6¥& y e a r .¥& y e a r . & q u a r t e r . . t x t "; d a t ah i e s . o r i g i n a l & y e a r . ̲ & q u a r t e r . ; i n f i l ei n & n o .I r e c l = 6 8 3 0・ i n p u ty e a r$1 ‑ 2month$3‑4h h ̲ k e y$5‑14h h ̲ c l a s s$1 5 ‑ 1 7no̲member1 8 ‑ 1 9 3h ̲ in d u t r y$2 4 ‑ 2 5h ̲ o c c u p a t i o n$2 6 ‑ 2 7 ; n o ̲ e m p l o y e e2 0h ̲ a g e21‑22h ̲ s e x$2 / 本T her e s to fi n p u tv a r i a b l e si so m i t t e db e c a u s eo fl i m i t e ds p a c e本/ r u n ; e p e a t l ; %macror 百d oi = 1 9 8 2弛t o2 0 0 2 ; / 本y e ar*/ % d oj = 1百t o4 ; 弛read ̲o r i g i n a l 1 ( 1 .& i .& j ) 百e n d ; / 本q u a r t er*/ 百e n d : e p e a t l ; % m e n d ; 目r 2 .ProcRegprocedureandCallSymputroutine h e" p r o cr e g "p r o c e d u r eand" c a l lsymput"r o u t i n ewere Fore s t i m a t i n gincomef o rnon‑employee,t employed.Ap a r to ft h eprogrami sa sb e l o w : p r o cr e gd a t a = c h a n g e ̲ & i n c o m e . & y e a r .o u t e s t = r e g o u t ̲ & i n c o m e . & y e a r . ; t i t l e" R e g r e s s i o nU s i n gD i f f e r e n tI n c o m e:& i n c o m e .( y e a r & y e a r . ) " ; 2 ̲ h o u s ed 3 ̲ h o u s ed 4 ̲ h o u s eno̲membern o ̲ e m p l o y e eL e x p / d w ; m o d e lL i n c o m e二 d r u n ; ‑39一
d a t ao u t ̲ e x p ;s e tr e g o u t ̲ & i n c o m e . & y e a r . ; a1 = i n t e r c e p t ;a 2 = d 2 ̲ h o u s e ;a 3 = d 3 ̲ h o u s e ;a 4 = d 4 ̲ h o u s e ;b1 二n ιmember;c 1 = n o ̲ e m p l o y e e ;d 1二 L e x p ; r u n ; d a t a̲ n u l l ̲ ;s e to u t ̲ e x p ; c a l ls y m p u t ( ' a 1 ',a1 ) ; c a l ls y m p u t ( ' a 2 ', a 2 ) ; 1 ) ; c a l ls y m p u t ( ' c , ' 1 c1 ) ; c a l ls y m p u t ( ' b 1 ',b c a l ls y m p u t ( ' a 3 ', a 3 ) ; c a l ls y m p u t ( ' a 4 ' ,a 4 ) ; c a l ls y m p u t ( ' d 1 ', d1 ) ; r u n ; d a t ah i e s . e s t i1 ̲ & i n c o m e . & y e a r . ;s e th i e s . o r i g i n a l & y e a r . ;s e td u m m y & y e a r . ; i fh h ̲ c l a s s > = 2 0 0t h e nd e l e t e ; L m e m = l o g ( n o ̲ m e m b e r ) ; L e m p = l o g ( n o ̲ e m p l o y e e ) ; L e x pニl og (t o t ̲ e x p e n d i t u r e ) ; ニe x p ( & a1 + ( & a 2 ) * d 2 ̲ h o u s e + ( & a 3) * d 3̲ h o u s e + ( & a4 ) * d 4 ̲ ho u se + n e w ̲ & i n c o m e . ( & b1 )*no̲member +( & c1 ) * n o ̲ e m p l o y e e + ( & d 1) * L e x p ) ; r u n ; REFERENCES J e n k i n s,S .P, Accountingf o rI n e q u a l i t yT r e n d :DecompositionAnalyses f o rt h eUK,1971‑1986 ヘ Economica,62( 1995), 29‑63 i s t r i b u t i o n and Pove ロy i nS e l e c t e d OECD coun 町i e s ",p r e p a r e d by Jean‑Mare OECD, Income D o r s t e r ,MarcoMirad ' E r c o l eandHoward Burniaux,Thai‑ThanhDang,DouglasFore,MichaelF Oxley ,EconornicsDep紅 tmentWorkingPapersn o .189,1998 A.F . ,I n e q u a l i t yDecompositionbyF a c t o rComponents ヘEconometrica,50(1982),193‑211 S h o r r o c k s, i s t r i b u t i o n and I ts D e t e r r n i n a n t si n Kor 巴a "( i n Korean),K orea Choo,Hak‑Chung, Income D D e v e l o p m e n tI n s t i t u t e,1 9 7 9 / 19 82 一一一一一, In comeD i s t r i b u t i o nandS o c i a lE q u i t yi nKorea ヘKDIICIERJointSeminar,1992 Bae,Moo‑Gee, E x a r n i n a t i o n of Adelman's Ar gument f o rE q u a l i t yf o r Income D i s t r i b u t i o n "( i n Korean), Joumal0 1Economics,SeoulInstituteofEconornicandSocialStudies,1976 n s t i t u t e, In comeI n e q u a l i t yandP o v e r t yandP o l i c i e s "( i nKorean),prep 紅 e dbyJung, KoreaLaborI J i n ‑ H o,Hwang,Duk‑Sun,Lee,Byeon‑Hee,Choi,Gang‑Si , k 2002 t r u c t u r eo fIncome D i s t r i b u t i o n and P o l i c i e s "( i n Korean), Korea I n s t i t u t ef o rP u b l i c Finance, S p r e p a r e dbyHyun, J in‑Kwon, 2002 heoη olIncomeD i s t r i b u t i o n( i nKorean),Seconde d i t i o n,Seoul,BeeBongP u b l i s h i n g Lee,Jong‑Woo,T ,1999 Company Lee,Jun‑Gu,T heoη ザ Income D i s t r i b u t i o n andR e a l i t y( i n Korean),Seoul,DaSan Pu b l i s h i n g ,1999 Company KoreanN a t i o n a lS t a t i s t i c a lO f f i c e, AnnualR e p o r t011 t h eH o u s e h o l dIncomeandE x p e n d i t u r eS u r v e y, NSO, Daejeon, 2001/2002 SeoulI n s t i t u t eo fE c o n o r n i candS o c i a lS t u d i e s,IncomeD i s t r i b u t i o nandS o c i a lW e l f a r e "( i nKor 巴a n ), p r e p a r e dbyKim ,Jin‑Uk,S巴o u l, YoeGangP u b l i s h i n gCompany ,2002,117‑148 ‑40一
S A S Forumユ ー ザ ー 会 パングラディッシュの婚姻形態による世帯所得と支出の分析 ディパンカー ロイ 東 京 国 際 大 学 経 済 学 研 究 科 博士後期課程 パングラディッシュ統計局 Analysis on Income and Expenditure Distributions of Bangladesh HouseholdsbyHabitationofMarriedCouplesandSomeOtherRelevantAttributes DipankarRoy G r a d u a t eS c h o o lofEconomics,TokyoI n t e r n a t i o n a lU n i v e r s i t y,P h . D .c a n d i d a t e, S t a t i s t i c a lO f f i c e r,B a n g l a d e s hBureauo fS t a t i s t i c s,Governmento fBangladesh 要旨 I nB a n g l a d e s ht h巴 d i s p o s a b l eincom巴 i smor 巴u n巴q u a l l yd i s t r i b u t巴dt h a nt o t a li n c o m e . T h i sl a n d consumption巴x p e n d i t u r ed i s t r i b u t e dun巴V巴n l y .W巴 foundt h a ta g g r e g a t巴d o fanomalyc o u l dhappeni fnon‑ consumption巴xp巴n d i t u r 巴 , w hichi scomposedo ft a x,p r i v a t巴 t r a n s f 巴 ,r ,i n s u r a n c巴 premiumands o c i a l non‑ s 巴c u r i t yc o n t r i b u t i o n,i sv e r ymuchu n e v e n .A f t 巴r c a t e g o r i z i n ga l lh o u s e h o l d sa c c o r d i n gt ot h eh a b i t a t i o no f m a r r i巴dc o u p l e s, o u ra n a l y s i sshowedt h a tG i n ic o e f f i c i e n tf o rd i s p o s a b l巴 incomei sl o w e rt h a nt h a to ft o t a l i n d i c a t i n gt h a tp r i v a t et r a n s f e r shav 巴 a n巴q u a l i z i n ge f f e c tonincomed i s t r i b u t i o n . incomei nsomec a t e g o r i e s, h i ss t u d y showed t h a tt h el a n do w n e r s h i po f hous巴h o l d and t h巴 e d u c a t i o nl e v巴1o f F u r t h e r m o r e, t o l d s 'h e a da r em勾 o rd巴t 巴r m i n a n t so fi n e q u a l i t yi nr u r a landu r b a na r巴a s,r 巴s p e c t i v巴l y . h o u s巴h キーワード D i s t r i b u t i o n,I n巴q u a l i t y,D巴c o m p o s i t i o n,Households‑ Ca t e g o r i z a t i o n 1 .Introduction I n e q u a l i t yi n incom巴 and c o n s u m p t i o ni sag r e a tc o n c e r nf o r dev巴l o p i n gc o u n t r i e ss u c ha s nB a n g l a d e s ho v e rt h ep a s ts 巴v e r a ly e a r sr e g i s t e r 巴dar e m a r k a b l ep r o g r e s s . B a n g l a d e s h . Economicgrowthi S u c c e s si na t t a i n i n gs u c h ah i g h e r growth 巴l e v a t巴d Banglad巴s h ' sp o s i t i o n among t h e d巴V巴l o p i n g 巴v e r,p e rc a p i t aincom 巴 i nB a n g l a d e s hi sa tt h elow巴rendamongt h巴m, and巴x t 巴n s i v巴 c o u n t r i e s " . l How p o v e r t yc o n t i n u e st oa f f l i c ta r o u n dh a l fo fi t sp o p u l a t i o n .Incom巴 d i s t r i b u t i o nandpov 巴r t ya r 巴i n t e n s i v巴l y t si nB a n g l a d e s h .Ev巴ns o,巴x i s t i n ge s t i m a t e so fi n巴q u a l i t yandpov巴口ya r 巴o f t巴ns oh i g h l y s t u d i e ds u b j巴c c o n t r o v e r s i a la st omakea nund巴r s t a n d i n go ft h e s巴 phenom巴n ad i f f i c u l. t2 T h i sl e a d st of u r t h e rs t u d yon u a l i t y and pove 口y i n B a n g l a d e s hc o n s i d e r i n gt h ev a r i o u s a s p e c t s o fs o c i o‑ economic and m巴q demographic f a c t o r so fi n d i v i d u a l sa n dh o u s e h o l d s . According t o Sundrum ( 19 9 0 ),t h eI 巴v e lo f s o c i o‑ 巴r a t h e rr i s i n g .R a v a l l i o nand incomei n e q u a l i t ywaslowi nB a n g l a d e s ha n dn o tshownar e m a r k a b l echang 19 9 6 ) 3f o u n di nB a n g l a d e s ht h a tc h a n g e si nd i s t r i b u t i o no fincom巴 d e t e r m i n et h巴 c a p a c i t yo fgrowth Sen( t or e d u c巴 pove 口y .KhanandS巴n(2001)p o i n t e do u tt h a tt h巴 r i s i n gi n巴q u a l i t yh a sl a r g e l yb巴巴 ndu巴 t ot h e 巴 i n incom巴 o fc 巴r t a m compon巴n t s( s o u r c巴 of incom巴) t h a ta r 巴 d i s e q u a l i z i n g( i巴. r i s i n gs h a r d i s p r o p o r t i o n a t e l yconc巴n t r a t巴damongt h巴 h i g h巴rincom 巴g r o u p s )a sw巴1a sar i s巴 i nt h巴巴 x t e n to ft h e i r 2 0 0 3 ) IB a n g l a d e s hE c o n o m i cR e v i e w( S e eKhana n dS e n( 2 0 01 ) . JI n e q u a l i t yB r i e f i n g,B r i e f i n gP a p e rN o .2,March2002,UKD e p a r t m e n tf o rI n t e r n a t i o n a lD e v e l o p m e n t 2 ‑41一
d i s e q u a l i z i n g巴f f e ct .ForBanglad巴s ha sawholeas i g n i f i c a n tp a r to fi n c r e a s巴di n e q u a l i t yh a sbeendu巴 t o t h es h a r pi n c r e a s巴 i ni n e q u a l i t ybetw 巴巴nu r b a nandr u r a la r e a s . t i o n2o u t l i n巴st h es o u r c巴 o fd a t aands a m p l i n gd e s i g n .Th巴 Thep a p e ri so r g a n i z e da sf o l l o w s .S巴c r巴t i c a lc o n c巴p t sandm巴a s u r e m e n to fi n e q u a l i t ya r ep r e s e n t e di nS巴c t i o n3 .S e c t i o n4p r o v i d巴S巴m p i r i c a l 出巴 o a n a l y s e sando u rf i n d i n g si nd e t a il .S e c t i o n5c o v e r sh o u s巴h o l dandi n d i v i d u a lc h a r a c t e r i s t i c s .Summaryo f t h巴 r e s u l to fo u rs t a t i s t i c a la n a l y s e sa p p e a r si nS巴c t i o n6 . 2 .D a t aS o u r c ea n dS a m p l i n gD e s i g n Thea n a l y s i sc a r r i巴do u tont h巴 b a s i so fHouseholdIncomeandExp巴n d i t u r eSurv巴y(HIES)2000 hBureauo fS t a t i s t i c s( B B S ) .Th巴 u n i to fs u r v e yi sah o u s e h o l d,andt h巴 sample c o n d u c t e dbyBanglad巴s s i z巴 o fhous巴h o l di s 7,440 r e p r e s巴n t i n gt h e whole c o u n t r y . The s u r v巴y p r o v i d巴s d a t a on incom巴 , p e n d i t u r e,consumptiono fh o u s巴h o l d s,andsomes o c i o‑d巴mographicc h a r a c t巴r i s t i c so fi n d i v i d u a lsucha s 巴x a g e,s e x,m a r i t a ls t a t u s,e d u c a t i o n巴t c . Th巴 sampled e s i g nf o rHIES2000u s e datwo‑ st a g es t r a t i f i e drandoms a m p l i n gt e c h n i q u巴. The c o u n t r ywasd i v i d e di n t o1 4s t r a t a, b e i n gr u r a l,m u n i c i p a l i t yandm e t r o p o l i t a n( t e r m e dSMAo rs t a t i s t i c a l c ho ft h巴 f i v ed i v i s i o n s( r e g i o n s ) .Thee x c e p t i o nb e i n gB a r i s a lf o rwhicht h e r ei sno m e t r o p o l i t a na r e a )i n巴a r o p o l i t a na r 巴a .Among1 4s t r a t a,f i v eb e l o n g st or u r a landt h巴 r e m a i n i n gn i n eb e l o n g st ou r b a ns 巴c t o r s . m巴t 巴t h巴nd e t e r m i n巴db a s e donEnumerationAr 巴a s(EAs)合omt h e1 9 9 1 P r i m a r ySamplingU n i t s(PSUs)wer P o p u l a t i o n C巴n s u s .T h i s sample d巴s i g nf o r HIES c o n s i s t巴d o f442 Pri m a r y Sampling U n i t s (PSUs) t h r o u g h o u tt h ec o u n t r y,o fwhich252b e l o n g st or u r a ls 巴c t o rand1 9 0t ou r b a ns 巴c t or .ThePSUwasd e f i n巴d o p u l a t i o nandHousingC巴n s u s1 9 91 . a sc o n t i g u o u stwoo rmoreEnumerationA r e a s( E A s )u s e di nt h巴 P EachPSUc o m p r i s e da r o u n d250h o u s e h o l d s .I nt h ef i r s ts t a g eat o t a lo f442PSUsw巴r 巴d rawn合omt h e s a m p l i n g合amew i t hP r o b a b i l i t i e sP r o p o r t i o n a lt oS i z e( P P S ) .Thenas y s t e m a t i csampleo f巴i t h e rt e n( f o r PSUsb e l o n gt oSMA)o rt w e n t y( f o rPSUsb e l o n gt or u r a la n dm u n i c i p a l i t i巴s )h o u s e h o l d swast a k e nw i t h i n e a c hsampl巴dPSU. 3 .Measuremento fI n e q u a l i t y The most w i d e l yu s e d summary measure o ft h ed e g r 巴 巴 o fi n e q u a l i t yi nh o u s巴h o l dincom 巴 d i s t r i b u t i o ni st h 巴G i n ic o巴f f i c i巴n t .4 I tr 巴p r 巴s e n t sa nov巴r a l lmeasur巴 o ft h ec u m u l a t i v eincom巴 s h a r 巴a gamst u m u l a t i v巴 s h a r eo fh o u s e h o l d s .Thel o w e rt h ev a l u eo ft h eG i n ic o巴f f i c i e n t, t h巴 moree q u a l l yt h e t h巴 c h o u s e h o l dincomei sd i s t r i b u t e d .Th巴 c o e f f i c i e n tv a r i e sbetw巴巴n0t h a tr 巴f l巴c t scompl巴t 巴巴q u a l i t y,and1t h a t 巴sc o m p l e t巴 i n e q u a l i t yi . e .,oneh o u s e h o l dh a sa l lt h eincome,anda l lo t h e r shav巴 n o n e .Th巴 most i n d i c a t commond e f i n i t i o no ft h eG i n ic o e f f i c i e n ti si nt e r m so ft h eLor 巴n zc u r v e‑ ast h er a t i oo ft h巴 a r e abetw巴巴n h el i n eo fe q u a l i t y,t oa r 巴ao ft h et r i a n g l ebelowt h i sl i n e .I no t h e rwords,G i n i t h eLorenzc u r v巴 andt r e aund巴rt h eLorenzc u r v e[Kakwani( 19 8 0 ) ] . c o e f f i c i e n ti soneminust w i c et h巴 a T h e i l ' sT c a nb巴 a s s e s s i n gt h巴 m民j o rc o n t r i b u t o r st oi n e q u a l i t y ,b yd i f f e r e n ts u b g r o u p so ft h巴 p o p u l a t i o nandr 巴g i o n s .I ns t a t i cd e c o m p o s i t i o n s,h o u s巴h o l dandp巴r s o n a lc h a r a c t 巴r i s t i c ss u c ha sa r巴a,s e x, 巴d u c a t i o n,巴mploym巴n ts t a t u sandr 巴g i o n a ll o c a t i o na r ed巴t e r m i n a n t so fh o u s巴h o l dincom巴. I ft h a ti st h巴 c a s e,t h e na tl e a s tp a r to ft h ev a l u eo fanyg i v e ni n e q u a l i t ym巴a s u r emustr 巴f l e c tt h ef a c tt h a tp e o p l巴 have d i f f e r巴n te d u c a t i o n a ll e v巴l s, employm 巴n ts t a t u s, s e x and s oo n .T h i si n e q u a l i t yi sr e f e r r e dt oa st h e between‑ group" componen. t But f o r any s u c hp a r t i t i o no ft h ep o p u l a t i o n, wheth巴rby a r 巴a ,r e g I O n, employments t a t u s, e d u c a t i o nl e v e lo ranyo t h e ra t t r i b u t e, somei n e q u a l i t ymaye x i s tamongt h o s ep e o p l e w i t h i nt h esames u b g r o u p ;t h i si st h ew i t h i n ‑ group"componen. tTheT h e i l ' sTc a nbedecomposeda c r o s s t h e s ep a r t i t i o n si na na d d i t i v巴 Way5 Letusemploythefollowingn o t a t i o n s : i : Decompositionc a t 巴g o r ys u c ha sa r 巴a , 白 人 巴d u c a t i o n,anda g巴巴t c k : Incom巴 c l a s s( h o u s巴h o l dincom巴 d e c i l巴s ) Xi nincom巴 r 巴C巴i v e dbyh o u s巴h o l d si nincomec l a s sko fc a t e g o r yi k :M巴a nik :Numbero fh o u s e h o l d si nc e l l( i, k) 4 S 巴 巴 A nand( 1 9 8 3 )f o rt h巴 c aI cu l a t i o ni nd 巴t a i. l 5S巴巴 P a n f i l i aC h i n g( 19 9 1 ) 4 2
T o t a !incom巴InC巴I( i,k) i s X;k = ηi k Xi k LL ' い To 凶 ncomeo fa l lh o u s e h o lの i sX= T o t a !p o p u l a t i o ni s L ε =L 11= l ; k I 1 ; Th巴i I 'si ndexi st h 巴ng i v e nby (X.,¥̲ (X.,/X ¥ 7=ZZ11flM中:) ω Th巴i ! ' si n d巴xc a nb巴 decompos巴da s T=Lw;T " , ;+ 九 ( 3 ) Wh巴r 巴 w ;= X;/X i st h巴 incom巴 s h a r eo f t h巴 it hs e c t o r T" , ; =~(ミ判 4 .A n a l y s i sonIncomea n dE x p e n d i t u r eD i s t r i b u t i o n s Th巴 f a m i l ys y s t 巴m i na n1 s l a m i cs o c i e t yi sn o thomog 巴n 巴o u s .Atl e a s t,t h巴r 巴a r 巴t wot y p e s ;on巴 IS NorthA仕i c aandW 巴s tA s i as u c ha sMoroccoandt h巴 o t h巴ri s1 n d i a nsub‑ co n t i n e n tandSouthAsiasucha s hand1ndon巴s i a .6 Th巴 b i gd i f f 巴 ,r 巴n c巴 i st h a ti nt h巴 s 巴c ondt y p巴 o f1 s ! a m i cs o c i巴t y,second,t h i r d, Banglad巴s o re v巴nf o u rw i v e sc a nb巴 a l l o w 巴dt ol i v 巴w i t ht h巴 f i r s twif 巴 ,i nt h巴 sam巴 hous巴h o l d .Thati s,u s u a I I yon巴 hous巴h o ! dmayc o n t a i non巴 husbandw i t hh i smor 巴t h a nonewif , 巴 .A tt h巴 sam巴 t i m巴 f o ro t h巴rhous巴h o l d ‑ 巴c ondando t h e rw i v e s,how巴V巴r ,m ays t a yi nt h巴i rp a r 巴n 旬 、 h ous巴h o l d,a si st h巴 o r i g i n a l1 s l a m i cCod巴 , s which makes o u ra n a l y s e s morec o m p l i c a t 巴d .T h i si sonea s p e c tb a s巴don t h巴 m a r i t a lc r i t e r i a and t h e h a tt h e r em i g h t b巴 u s u a lt r a n s f e rt h r o u g ht h巴 c h a n n e lo fi n t 巴r n a l 1 s l a m i cp o i n to fv i e w .A p a r t 仕omt 巴m 1 t t a n c e,巴x t e r n a lr e m i t t a n c eandg i f t s .Th 巴r 巴f o r 巴 , t h emovemento ft r a n s f e ri sr o b u s ti nB a n g l a d e s h .1 n r how巴v e r, wec o n s i d e rt h巴 t r a n s f e rbetweeno n e ' ss p o u s e s . t h i sp a p e r, n d / o rmoneyt r a n s f e r r e d 仕omsomeone; n o to n l y 1ncome c o n s i s t so fm a i n ! ye a r n i n g incom巴 a r a n s f e ri n c l u d i n gbetweeno n e ' ss p o u s e s .However, t h ed a t aweu s ei sa g g r e g a t巴d p e n s i o n sb u ta l s op r i v a t巴 t o l dincomew i t h o u ti d巴n t i f y i n gt h es o u r c eo fincomeo f巴a c hhous巴h o l dmember. T h e r e f o r e,i ti s hous巴h n i n gincom巴. I ts h o u l db e巴mphasizedh巴r 巴t h a tt r a n s f e rr e c巴i v e di s d i f f i c u l tt os e p a r a t et r a n s f e rfrom回 r 巴c e i v巴r s,w h i l emoneyt r a n s f e r r e dt oo t h巴r sIS t r e a t巴da sexp巴n d i t u r巴 f o rs 巴n d e r s .1 n t r e a t e da sincomef o rr oa v o i dt h ed u p l i c a t i o no fincom 巴i nt h巴 t r a n s f l 巴r ‑ s 巴n d巴randt h巴 t r a n s f e r‑r巴c巴i v e ra sincom巴 , w巴 t r i巴d o r d巴rt o l d sb a s巴d on wh巴t h e rt h巴y s 巴n do rr e c巴i v e any t r a n s f 巴 ,r 7, a sf o l l o w s ;1 ) t oc a t e g o r i z e al I hous巴h 巴n d e r / r 巴c 巴i v e r :mays 巴n do rr 巴c 巴1 V巴 t h巴 t r a n s f 巴 ,r ,2 )s 巴n d巴r :o n l ys 巴n dt h巴 t r a n sたため r e c e i v e r :o n ! yr e c巴1 V巴 s t h巴 t r a n s f e r,4 )s e l f ‑ co n t a i n e d :n 巴i t h e rs e n dn o rr 巴c 巴i v巴 anyt r a n s f , 巴 r .A f u r t h e rd巴t a i li sshowni nt h巴 Not巴 o f ft h i spaper. t h巴巴 ndo FromT a b ! e4 . 1wehavef o u n dt h a t, t h巴 s h a r eo fincomeandd i s p o s a b l eincomeo ft h et o p! 0%o f incomegrouphouseholdsi smoret h a nd o u b l ecomparedt olow‑incomegroup50% hous巴h o l d sa l l h i g h‑ h e r .However,t h egapb巴twe巴nt h er i c h e s tandt h ep o o r e s ti sn a 汀o weri ne x p e n d i t u r es h a r eand巴V巴n t o g巴t 汀o weri nconsumptions h a r e . n a 6 7 S e eC l i f f o r dG e e r t z( 1 9 6 8 )f o rd e t a i l s . S i m i l a rc o n c e p t sa r er e p o 目e di nT a n a k a,M;S a t o,Ta n dM a t s u d a,Y (2005) 43‑
Table4 . 1Incom巴sandExp巴n d i t u r 巴S harebyD巴c i l巴sofHous巴h o l d s D e c i l e1 2 3 4 5 6 7 8 9 D e c i l e10 Income DisposableIncome Expenditure ConsumptionExpenditure 1 . 8 4 1 .35 2. 56 2 . 6 8 3 . 9 2 4 . 0 6 3 . 1 3 3 . 0 5 4 . 9 1 3 . 9 7 3 . 8 7 5 . 0 1 5 . 7 7 4 . 7 4 5 . 8 9 4. 78 6 . 8 0 5 . 6 9 5 . 6 3 6 . 8 5 8 . 0 5 8 . 0 9 6 . 8 6 6 . 8 2 8 . 2 9 9 . 5 6 9 . 5 8 8 . 3 3 .77 11 11 42 1 0 . 3 9 .72 10. 1 4 . 2 9 1 5 . 5 3 15. 41 1 4 . 3 5 57 4 1. 31 4 0 . 6 3 . 13 30. 71 Co n s u mPt i Jn E x p e n d ib Jr e E x p e n d i加r e βu m川 n u ﹂引 p u 内 U d '円 e n u nμ e a nHU e a l n c o me F 一 一 一̲O̲L 10}:̲20% → 3 ̲ 0 止 4 0 % ̲ ̲ 5 ̲ 0 ̲ % ・ 6 0 % __l0~ iロDeci l e1 口2 ロ3 口4 圃 5 ロ6 回 7 口8 9 80%̲90% JpO% I e c i l e1 0 I ロD 巴1 .P e r c e n t a g eShar 巴o fIncomesandExp巴n d i t u r e sbyD e c i l e sofHouseholds F i g u r Tabl 巴4 . 2G i n iC o e f f i c i e n tf o rIncome, D i s p o s a b l eIncome, E x p e n d i t u r eandConsumptionExpenditure e c e i v i n gt h eT r a n s f e rC r i t 巴r i o ni nBangladesh Bas巴donSendinダR 一句ム山 0 却 9 0 . 46 3 0 . 3 9 2 0. 47 7 0 却 2 ︒ 同 一 unrh 一!・ ‑‑nu Qu‑nu‑Qu ・ 一 I nc ome m.m一四一山一日一団一団 m 1 C E・‑ up‑‑‑ Typeo f 1Numbero f H o u s e h o l d sI Household I S e n d町/R e c e i v e r1 6 6 3 8 I S e n d e r I 2 9 I R e c e i v e r I 2 1 1 I S e l f ' ‑ co n t a i n e d I 5 6 2 I Ove r aI l I 7440 I I np r i n c i p l e, G i n ii n d e xb a s e dond i s p o s a b l巴 incomei slowert h a nt h a tofincom巴. But, ourd a t a l s( f r o mT a b l巴 4 . 2 )t h a td i s p o s a b l巴 incom巴 i sh i g h l yun 巴q u a l l yd i s t r i b u t e dt h a nincome.T h i smayb巴 r e v巴a du巴 t oo u rt a x a t i o ns y s t巴m andt r a n s f 巴 ,rc r i t e r i o np r e v a i l si nt h ecoun町 y .Althoughd a t aont a xandt r a n s f 巴 ,r a r 巴u n a v a i l a b l巴 t ou s,w巴 t r i e dt of i n do u tp r i v a t et r a n s f 巴 ,rd a t aa f t 巴rc a t e g o r i z i n gt h ehous巴h o l d sb a s巴don h巴rt h e ys 巴n do rr 巴C巴lV 巴a nyt r a n s f e rt os u p p o r to u run巴x p e c t e df i n d i n g s . wh巴t 仕omF i g u r e2 )t h a tG i n if o rd i s p o s a b l eincomei slowert h a nt h a tofincom巴1n Andwefound( somec a s e s .However,mored e t a i l e da n a l y s e sc o u l dn o tbedonedu巴 t ou n a v a i l a b i l i t yofd a t aont a x 巴s . T h e r e f o r 巴 , s omea m b i g u i t ys t il Ie x i s t s .Th巴 s t u d yshowedt h a tconsumption巴x p e n d i t u r 巴 i smore巴q u a l l y d i s t r i b u t 巴dt h a nexp巴n d i t u r 巴. 44‑
一一一一 G i n if o rD i s p o s a b l eIncome ‑ ー GiniforExpenditure 0 . 5 0. 45 0. 4 0 . 3 5 k 守山 0 . 3 寄 ‑ ̲ Sender/Receiver Sender Receiver Typeo fHousehold Self‑contained F i g u r e 2 .G i n il n d i c e sf o rlncomesandE x p e n d i t u r e sbyTypeo fHousehold . 3D i s t r i b u t i o n sof Incom巴 andExp巴n d i t u r 巴b yt h eHous巴h o l d sBas巴donS e n d i nダR e c e i v i n gt h e T a b I巴 4 T r a n s f e rC r i t e r i o ni nB a n g l a d e s h Numberof Typeo f Household Households SenderjReceiver Sendcr R e c e i v e r Sel f ‑ c ontained T o t a ! 6638 29 2 1 1 562 7440 Non NonFood Consumption Savings Incomc Disposable Expenditurc Consumption Food Exp enditure Expcnditurc Expenditure Expenditure Incomc 6 5 5 6 . 6 8 6 2 2 5 . 8 5 5 2 7 8 . 3 8 4947. 55 2641 .6 3 2 3 0 5 . 9 2 3 3 0 . 8 3 1 2 7 8 . 3 0 7 0 4 7 . 4 0 6 5 0 7 . 7 2 6 0 4 5 . 2 5 5505. 56 2 4 5 7 . 5 5 3 0 4 8 . 0 2 5 3 9 . 6 8 1 0 0 2 . 1 5 6 3 3 6 . 2 2 5 1 0 5 . 6 3 2 4 5 8 . 7 8 2 6 4 6 . 8 5 2 4 9 . 7 5 1230. 5 8 6 5 8 5 . 9 6 5 3 5 5 . 3 8 日 3 2 8 5 . 5 2 3 0 7 4 . 9 5 2 9 1 7 . 5 8 1 5 5 3 . 0 7 1364. 51 1 5 7 . 3 7 3 6 7 . 9 3 3 4 4 2 . 8 5841 .8 9 I5 .0 2 4 5 3 6 . 8 2 2 4 7 7 . 1 7 2 0 5 9 . 6 5 344. 20 960. 87 4881 4 9 7 . 6 9 ( U n it :B angladesh Taka) 巴d仕omt h巴 T a b l e4 . 3t h a th o u s巴h o l d so f S巴n d e r "hav 巴b o t ht h巴 h i g h巴s tincom巴 and l ti so b s e r v t h eh i g h e s te x p e n d i t u r e .T h i sh i g h e r巴x p e n d i t u r er e s u l t sfromh i g h e rt r a n s f er .Householdsof r e c巴i v e r " p e n d i t u r 巴 , w hichi sc o n s i d e r巴dt o havet h es e c o n dh i g h e s tincomet o g e t h e rw i t ht h es e c o n dh i g h e s t巴x comefromh i g h e rconsumptione x p e n d i t u r ef o rI u x u r i o u sI i v i n g .Ont h巴 o t h e rhand, S巴I f ‑ contained" h eIowωt income w i t hr 巴I a t i v巴I yh i g h e rexp巴n d i t u r e, which i s b巴c a u s eo fh i g h e r h o u s e h o l d s hav巴 t consumption巴x p e n d i t u r ef o rn e c巴s s i t i e sf o rI i v i n g .Whileconsumption巴x p e n d i t u r 巴i sh i g h e rf o rh i g h e r o l dincome,n巴i t h e rnon‑ consumption巴x p e n d i t u r 巴n o rs a v i n g sshowanyp o s i t i v巴 r e l a t i o n s h i pw i t h h o u s巴h o l d so fr 巴c e i v e r "巴町 oymoree q u a lincom巴 f o I I o w巴dbyhous巴h o l d so f S巴n d e r " .Our i n c o m e .Hous巴h e m p i r i c a Ia n a l y s i sshowst h a ti fincomer i s e s, t h e nt h巴 p e r c e n t a g eo fe x p e n d i t u r eonf o o dt oincomet e n d s t of a I I,ande x p e n d i t u r eonn o n ‑ f o o dt e n d st or i s e,whichi sc o n s i s t e n tt oE n g l e ' sLaw. Th巴 incom 巴d i s t r i b u t i o no ft h eh o u s e h o l d so f sender/rec巴i v e r "i sp o s i t i v e l ysk 巴w巴dt ot h巴 r i g ht . T h i si m p l i巴st h a tar e l a t i v 巴I ys m a I Ip r o p o r t i o no fh o u s e h o l d shavev e r yh i g hincome,w h i l ev a s tm a j o r i t y f ‑ co n t a i n e d "h o u s e h o l d sb巴I o n gt ot h eI o w e r o fh o u s e h o l d ss t a ya tI o w e rI e v e Io fi n c o m e .Mosto f S巴l incomeg r o u p .Theincomed i s t r i b u t i o no fh o u s e h o l d so fs e n d e r "i ssom巴whatambiguous.Th巴 incom 巴 d i s t r i b u t i o no fh o u s e h o l d so fr e c e i v e r "showsmoreo rI e s sp o s i t i v e l ysk 巴w edt r巴n d .Hous巴h o l d so f s e n d e r / r 巴c e i v e r "e 吋o yt h巴 h i g h巴s ts a v i n gf oI lowed by t h eh o u s e h o l d so f r e c巴i v e r " . Conv巴r s e l y, h o u s e h o l d so fb o t hs e n d e r "and S巴I f ‑ co n t a i n巴d "showt h eIow1 巴V巴1 o fs a v i n g s . … T a b l e4. 4D巴c o m p o s i t i o no f T h e i I ' sl n d e xbyt h eHouseholdsBasedon / R e c e i v i n gt h eT r a n s f e rC r i t e r i o n S e n d i ng Typeof Numberof Household Households 「 6638 『 開 … 守 ̲ . . . . ̲ ‑ ‑ ̲ . ‑ 29 l i 1SEsn 山 d i e 6 手 t r e m / o c e 市 n I E E 函 v 長 ee 函 rmv i i p マ一一一 一一 211 Overall 巾│ 南日 ! 苦 B i 11WIH I nequalily Inequalities Ilne司uality 山 0. 4 町 35 I 0.055 0380J l 0.243 一 一 一 一 一一一一 L ̲ A I IHouseholds 562 0.384 7440 0. 433 45‑ 0.053 i 0.380 1
Wehavefoundfromt h eT a b l e4. 4t h a th o u s e h o l dincomei se q u a l l yd i s t r i b u t e df o rt h eh o u s e h o l d s 巴C巴I V巴r "f o l l o w巴dbyt h巴 hous巴h o l d so fs e n d巴r " .Hous巴h o l dincom巴 i smoreo r1 巴s s巴q u a l l yd i s t r i b u t巴d of r f o rt h e S巴I f ‑ co n t a i n巴d "h o u s e h o l d s .Ont h eo t h 巴rh and,hous巴h o l dincom巴 i sh i g h l yun巴q u a l l yd i s t r i b u t e d o l d so fs e n d巴r / r巴C巴I V巴r " .UsingT h e i l ' si n d巴xf o rt h ehous巴h o l d so f S巴nd巴r / r巴C巴i v巴r ", 13% f o rt h巴 hous巴h o ft h巴 t o t a li n e q u a l i t yi sa t t r i b u t a b l et ob巴tw 田 n ‑ groupi n巴q u a l i t y ;i .巴 . , t ot h巴 d i f f 巴 ,r 巴n cei nincom巴 l 巴V 巴I s 巴 巴 nu rbanandr u r a la r 巴a s .Ther e m a i n i n g87%o fa l li n巴q u a l i t yi sdu巴 t ot h巴In巴 q u a l i t yi nincom巴 t h a t b巴tw c ha r 巴a .Conv巴r s e l y ,b 巴t we巴n‑ g roupcontributionst oov巴r a l li n巴q u a l i t ya r e 16% f o rt h e o c c u r sw i t h i n巴a S巴I f ‑ co n t a i n巴d "h o u s e h o l d s .Aslowa s2%b巴tw巴巴n‑ g r o u pc o n t r i b u t i o n st oo v e r a l li n巴q u a l i t yi st ob巴 found o u s e h o l d so fb o t h S巴nd巴r "and r 巴C巴i v e r " .Thus i fr u r a l‑ urban i n巴q u a l i t i e sw巴r 巴 c ompl巴t 巴I y f o rt h巴 h 巴mov 巴d ,w h i l巴 i n t r a‑ ru r a land i n t r a‑ urban i n e q u a l i t yr 巴m ainedt h巴 sam巴 , t h e nt h巴 r 巴d u c t i o ni n ov巴r a l l r u a l i t ywouldb巴 13%,1.7%,2 . 1% and16%f o rt h巴 hous巴h o l d so f S巴nd巴r / r 巴c 巴i v e r ヘth巴 hous巴holdsof i n巴q S巴n d巴r ",t h巴 hous巴h o l d so fr 巴c e i v巴r "andt h e S巴I f ‑ co n t a i n e d "hous巴h o l d s,r 巴s p巴c t i v巴I y . 5 .ObservedHouseholdsa n dl n d i v i d u a l sE f f e c t s C h a r a c t巴r i s t i c so f hous巴h o l d s and i n d i v i d u a l sa r 巴 i m p o r t a n tt od e t巴rmine t h巴i ri n c o m e .A hous巴h o l di sd巴日 n巴da sadw巴lIi n gu n i twher 巴o n巴 o rmor 巴P 巴r s o n sl i v巴 and巴a tt o g巴t h巴rw i t hcommon o u s e h o l dincom巴 i n c l u d e s( a ) wag巴sand s a l a r i e s, p巴n s i o n s, c o n t r i b u t i o n s and c o o k i n gf a c i l i t i e s .Th巴 h 巴 ,s s i o n a lf ,巴民団r n e dbyhous巴h o l dmemb巴r s ;( b )mat巴r i a lr 巴t u r ni nc a s ho rk i n de a r n巴dbythemi n p r o f 巴x changeo fgoods ands 巴r v i c e s ;( c )t h巴i rincom 巴 合omi n t e r 巴s tand d i v i d巴n d s ;( d )t h e i re a r n i n g s合 om u s i n巴s s,commercialandi n d u s t r i a le s t a b l i s h m巴n t s,andl a n dando t h e rp r o p巴r t y ;( e ) a g r i c u l t u r a la c t i v i t i e s,b 巴m i t t a n c巴s ;and( f )i n s u r a n c巴 b巴n巴f i t s .Th巴r e f o r 巴 , t h es t u d yf o c u s巴donhous巴h o l dandi n d i v i d u a l g i f t sandr c h a r a c t 巴r i s t i c sando b s巴r v e dt h巴i ri m p a c tonincom 巴a sw巴1a si n巴q u a l i t y . T a b l巴 5 . 1Av巴r a g巴 Hous巴h o l dS i z e sbyS巴xofHous巴h o l dH巴a dandL o c a l i t y Sexo fHousehold Head Numbero f Households T o t a l Rural Urban BothSexes Male Female 7440 6774 6 6 6 5 . 1 8 5 . 3 3 3 . 6 5 5 . 1 9 5 . 3 5 3 . 5 4 5 . 1 3 5 . 2 4 4 . 0 5 h巴 T a b l巴 5. 1t h a tt h巴 av巴r a g巴 s i z巴 ofth巴 f e m a l巴 七 回 d巴dhous巴h o l di ss m a l l巴r I ti so b s e r v巴dfromt i nt h巴 n a t i o n a l l巴V巴la sw巴1a sr u r a l‑ urbanl o c a t i o n .U s u a l l y,u r b a nhous巴h o l ds i z巴 i ss m a l l e rcompar巴dt o t h a to fr u r a lh o u s e h o l d s .How巴V巴r ,i ti sfoundt h a tav巴r a g巴 s i z巴 ofth巴 f 巴m al巴寸1巴adedhous巴h o l di sl a r g e ri n u r b a na r 巴a st h a ni nr u r a la r 巴a s . Th巴 s o c i e t yo fBangladeshi sp a t r i a r c h a l ;t r a d i t i o n a l l yt h巴 m巴na r巴 sup巴r i o rt ot h巴 wom巴n .Only9 p e r c e n to fhous巴h o l d shav巴 awomanh o u s巴h o l dhead,andt h e r 巴i sn o tmuchd i f f e r 巴n c巴 betw巴巴nr u r a land u r b a na r 巴a s . Femal巴 hous巴h o l dh巴a d sa r 巴 u s u a l l ywidow巴d, d i v o r c巴d o rs e p a r a t巴d . Among t h巴m, t h巴 m a j o r i t yo fh o u s e h o l d s( 6 7p e r c e n t )w巴r 巴f ound巴i t h巴rwidow巴do rd i v o r c巴d/s 巴p a r a t e d .Formal巴‑h巴ad巴d o l d s,96p巴r c巴n to fh巴ada r ec u r r 巴n t l ym a r r i巴d,and33p巴r c e n twomena r巴 foundt ob巴 c u r r 巴n t l y hous巴h m a r r i e di nf 巴 ,m ale‑h巴adedhous巴h o l d s . o l d si n c l u d巴 w i v e s,w h i l巴 t r a d i t i o n a l l yf 巴 ,w f emal巴 七 回d巴dhous巴h o l d s Mostmal巴 七 回d巴dhous巴h u s b a n d .Amongc u r r e n t l yma汀 i e dwomanh o u s巴h o l dh e a d s,83p巴r c巴n toft h巴i rspous巴sa r巴 a b s巴n t i n c l u d巴 h t ofwomen l i v巴 w i t h husband i nt h 巴 s am巴 h o u s巴h o l d . Thes巴 husbands may be and o n l y1 7p e r c巴n i n c a p a c i t a t e dt h r o u g hi 1 ln巴s so rd i s a b i l i t y .Thes i z巴 o fs u c hf e m a l巴寸1巴adedhous巴h o l d si smuchs m a l l巴rthan o u n t巴r p a r t s( 3 . 6 5v巴r s u s5 . 3 3 ) .Th巴 a v巴r a g enumb巴ro fmon巴y巴am巴ri s 1.50i nmale寸1巴ad巴d t h e i rmal巴 c hous巴h o l d s,w h i l巴 i tg o e sdownt o0 . 9 9i nt h巴 c a s巴 o f f l 巴m al巴 七 回d巴dhous巴h o l d s . T a b l巴 5 . 2r e v巴a l st h a t1.5p巴r c巴n to fB a n g l a d e s h ih o u s e h o l d sc o n s i s tofhous巴h o l dh巴adhims巴I fo r s e l f ,a ndi ti sa l s oobs巴r v巴dfroma n o t h e rf i n d i n g s( D i s t r i b u t i o no fHouseholdS i z巴) t h a t1.5p巴r c巴n tof h巴r hous巴h o l d sa r 巴s i n g l巴 ( o n巴 p巴r s o nh o u s巴h o l d )h o u s巴h o l d s .Botho ft h巴 r 巴s u l t sdon o tc o n t r a d i c t巴acho t h巴r. Th巴 p巴r c巴n t a g巴 o fhous巴h o l d scompos巴do n l yo fh o u s巴h o l dh巴adv a r i巴dd r a s t i c a l lyd巴p巴n d i n gon t h巴I r 巴a .T h i st y p巴 ofh o u s e h o l d si sa l m o s td o u b l巴 i nnumb巴ri nr u r a la r 巴a scompar 巴dt ou r b a na r巴a s .A l i v i n ga r l i t t l巴 l 巴s st h a nf o u rp e r c e n to fhous巴h o l d sc o n s i s to fh o u s巴h o l dhead hims巴l f /h巴r s e l fand t h巴i rspous巴 , r 巴g a r d l巴s so fwh巴r 巴 t h巴Y l i v巴. I n Banglad巴s h, 58 p e r c e n to fh o u s e h o l d sa r巴 n u c l e a r‑ ba s巴d c o n t a i n i n g 4 6一
h o u s e h o l dh e a d, s p o u s eo fh o u s e h o l dh e a da n dt h e i rc h i l d r e nw i t ha l m o s tnod i f f e r e n c e sbetweenr u r a la n d u r b a na r e a s . T a b l e5 . 2D i s t r i b u t i o n sofHouseholds(%)( A c c o r d i n gt oK i n s h i pS t r u c t u r e )byR e s i d e n c e HouseholdStructure TotalHouseholds TotalPercentage 1 .0nlyHouseholdHead 2.HouseholdHeadandSpouse 3.HouseholdHead,SpouseandChildren 4.withChildren'sSpouse,GrandchildrenandParents 5.withHrotherjSister,HrotherjSisteri nLaw, NephewjNieceandParentsi nLaw 6.withOthers Total 7440 100.0 1 .5 3 . 6 57.7 2 4 . 3 Rural 5040 100.0 1 .8 3 . 7 5 7 . 8 26.7 8. 4 4 . 5 Urban 2400 100.0 1 .0 4 3. 5 7 . 5I 1 9 . 0 7 . 1 2 . 9I 7 . 5I D e s p i t ei n a d e q u a t eh o u s e h o l df a c i l i t i e sa n dt h e i rp r e f e r e n c ef o rnuc Ie a rf a m i l i e s, a b o u to n e ‑ f o u r t h o fh o u s e h o l d scomposedo fp a t r i l i n e a le x t e n d e df a m i l i e so ft h r e eg e n e r a t i o n si nt h en a t i o n a ll e v eI .Whilea l i t t l eb i th i g h e rp e r c e n t a g eo fh o u s e h o l d sf e a t u r 巴st h i sc h a r a c t e r i s t i ci nr u r a l紅 巴a s,i ti sl e s sp r a c t i c e di n u r b a na r e a s ;a l m o s to n e ‑ f i f t ho fu r b a nh o u s e h o l d sh a v es u c hc r i t e r i a . C o n s i d e r i n gt h er e a lf a m i l ybondo fh o u s e h o l dh e a d s,o u rd a t ar e v e a l st h a ta l m o s t1 2p e r c e n to f u r b a nh o u s e h o l d sa r eb e l i e v e dt ob ecomposedo fh o u s e h o l dh e a d s 'r e l a t i v e sa n dm a t r i m o n i a lr e l a t i o n s . T h i sphenomenoni smorecommoni nu r b a na r e a s,whereb r o t h e r s / s i s t e r sande v e np a r e n t so fw i f eo ft h e h o u s e h o l dh e a d st e n dt oj o i nt h e s eh o u s e h o l d s .Theseh o u s巴h o l d sa r ef a b r i c a t e d,composede n t i r e l yo f r e l a t i v e s .However,i ti sl e s sp r a c t i c e di nr u r a la r e a s .C a t e g o r i z e da s w i t ho t h e r s ",a b o u t8p e r c e n to f re l a t i v e s .N e v e r t h e l e s s, s u c hh o u s e h o l d sa r emuchl e s scommoni n h o u s e h o l d si nu r b a na r e a sc o n s i s to fnon‑ r u r a la r e a s( 3p e r c e n t ) . 1 ti sq u i t en a t u r a lt h a tu r b a nh o u s e h o l d sc o n t a i nb o a r d e r s, s e r v a n t s, employeesa n d e v e nf r i e n d so fh o u s e h o l dh e a d s . T a b l e5 . 3Ownershipo fLandi nR u r a lB a n g l a d e s hbySexo fHouseholdHead ( U n i t :A c r e ) Head B o t hS e x e s 恥1 a l e Female Households 7 4 4 0 1 0 0 . 0 6 7 7 4 1 0 0 . 0 6 6 6 1 0 0 . 0 L a n d l e s s0 . 0 1 ‑ 0. 49 0 . 50 ‑ 0 . 9 9 1 . 0 0 ‑ 2. 49 2 . 5 0 ‑ 7 . 4 97 . 5 0 + 5 . 6 0 5 . 0 1 1 1 . 8 1 6 0 . 0 1 5 8 . 8 4 7 2 . 3 6 9. 45 9 . 8 3 5 . 5 1 1 5 . 4 2 1 6 . 2 4 6 . 8 2 8 . 1 2 8 . 6 1 3 . 0 1 1 . 3 9 1 .4 8 0 . 4 9 l a n di st h eb a s i cs o u r c eo fincomea n dp r o d u c t i o n .Ownershipo fl a n dd e t e r m i n e sa n 1 nr u r a la r e a s, i n d i v i d u a l ' sp o s i t i o nands t a t u sw i t h i nt h ev iI la g e .1 ng e n e r a l, v iI la g e r sa r ec l a s s i f i e di n t ot h r e eg r o u p sb a s e d ont h e i rl a n d o w n e r s h i p .Landown巴r swhoownas i g n i f i c a n tamounto fl a n da r ec l a s s i f i e da su p p e rc l a s s .1 n mostc a s e s,p e o p l ei nt h eu p p e rc l a s sc u l t i v a t et h e i rl a n dt h r o u g hs h a r ec r o p p i n go rl e a s i n go u tt ol a n d l e s s f a r m e r s .Them i d d l ec Ia s sc o n s i s t so fsmaI ll a n d o w n e r sa n dt e n a n tf a r m e r s .Theya r et h em a j o r i t yi nt h e v i l l a g e .P e o p l ei nt h el a s tg r o u p,t h el a n d l e s s, 巴i t h e rworka sdayl a b o r e r so rc u l t i v a t et h el a r g el a n d o w n e r ' s l a n da ss h a r e c r o p p e r s .T a b l e5 . 3showst h a ti nr u r a lB a n g l a d e s ha b o u t12%o ff e m a l e寸1 e a d e dh o u s e h o l d s n d 5% male寸1 巴a d e dh o u s e h o l d sf o rt h es a m e . Most o ft h ef e m a l e七回 d e d a r ef o u n dt ob el a n d l e s s,a h o u s e h o l d ss h a r et h el e s samounto fl a n dh o l d i n g .1 ti sf o u n dt h a ta st h es i z eo fownedl a n d / f a r mi n c r e a s e s, t h ep e r c e n t a g eo ff e m a l e寸1 e a d e dh o u s e h o l d sd e cI in e .I ti so b s e r v e dt h a t,1 . 48% o fmale寸1 e a d e dh o u s e h o l d s p o s s e s st h el a n dw i t h7 . 5 0a c r e so rmore,w h i l eo n l y0. 49%o ff e m a l e寸1 e a d e dh o u s e h o l d sownt h esames i z e o f l a n d . 4 7ー
T a b l巴 5. 4D i s t r i b u t i o nof Incom巴 byth巴 S i z 巴o fOwn巴dLand I F armandbyR巴s i d巴n c巴 LandO w n e r s h i p( A c r e s ) L a n d l e s s( 0 . 0 0 ) S m a l l ‑ s i z e d( 0 . 0 1 ‑ 2 . 4 9 ) M e d i u m ‑ s i z e d( 2. 50 ‑ 7 . 4 9 ) L a r g e ‑ s i z e dσ . 5 0 + ) Numberof H o u s e h o l d s 1 2 9 2 I 5 6 1 3 I 4 6 5 7 0 I 5025 1 1 5 1 7 I1 8 1 3 2 R u r a l U r b a n 3 2 3 0 4 1 6 5 1 0 4 2 1 1 8 1 6 4 8 0 9 8 1 0 5 1 7 2 6 6 1 1 1 7 2 8 2 4d巴p i c t st h a tt h e r 巴 i sap o s i t i v巴 r 巴l a t i o n s h i pb 巴t w巴巴nlandown巴r s h i po fh o u s巴h o l dand T a b l巴 5. h o u s巴h o l dincom 巴 i nr u r a la r 巴a s .I ti m p l i巴st h a tt h巴 h i g h e rt h巴 s i z 巴 o flandown巴r s h i p,t h巴 h i g h巴ri st h巴 h o u s巴h o l dincom巴.Conv巴r s巴l y , t h巴r 巴a r 巴n os u c hr 巴l a t i o n so b s巴r v e di nu r b a na r 巴a s . T a b l巴 5 . 5D i s t r i b u t i o no fIncom 巴b yt h巴 E d u c a t i o nL巴V巴lofHous巴holdH 巴a dandbyR巴s i d巴n c 巴 E d u c a t i o nL e v e l I l li t e r a t e P r i m a r y S e c o n d a r y T e r t i a r y Numbero f Households 4 2 0 1 2 1 2 3 7 8 1 3 3 5 T o t a l R u r a l Urban 3 8 0 2 6 1 8 2 1 1 9 5 6 2 0 5 7 4 3 6 2 5 5 5 4 9 1 1 5 0 5 8 8 6 7 4 9 8 2 8 2 1 5 1 2 7 2 2 2 8 3 4 2 巴df romt h巴 T a b l巴 5 . 5t h a tt h e r 巴i sap o s i t i v 巴r 巴l a t i o n s h i pb巴tw巴巴n巴d u c a t i o n1 巴V巴1o f I ti so b s e r v h o u s巴h o l dh e a da n dt h巴i rh o u s巴h o l dincom 巴i nu r b a na r 巴a s .I ti m p l i巴st h a tt h巴 h i g h e rt h巴巴d u c a t i o n1 巴V巴1 , t h巴 h i g h巴ri st h巴 h o u s巴h o l dincom 巴.C onv巴r s巴l y ,nos u c hr 巴l a t i o n sa r 巴o b s巴r v e di nr u r a la r 巴a s . . 6D i s t r i b u t i o n so fIncom 巴a n dG i n iCo巴f f i c i巴n tbyt h巴 T a b l巴 5 S i z巴 ofOwn巴dLand I F armi nR u r a lB a n g l a d e s h Land Ownership Gi n i Numbero f Average 1 1 1 1 H o u s e h o l d C o e f f i Households Income LoettJC1e n t ncome 279 3230 0. 432 S m a l l ‑ s i z e d 4287 4165 0 . 3 9 2 Medium‑sized 408 10421 0. 49 3 499 66 18164 0. Large‑sized T a b l巴 5 . 6showst h a t, t h巴 h i g h e rt h巴 landown 巴r s h i po fh o u s巴h o l di nr u r a lBanglad巴s h, t h巴 h i g h巴r t h巴 a v巴r a g 巴 h o u s巴h o l dincom 巴 b 巴c om 巴s .Almostt h巴 sam巴 l 巴V巴1o fi n巴q u a l i t y( low1 巴V巴1 ) 巴x i s t si nt h巴 s m a l l‑si z巴dl a n d h o l d巴rr a n g i n gfrom0 . 0 5a c r 巴st o2. 49a c r 巴s .Th巴 m巴dium‑si z 巴d( 2 . 5 0 ‑ 7. 49a c r巴s )a n d l a r g巴‑si z 巴d( 7 . 5 0a c r 巴so rmor 巴) l andown巴r s h i pshowst h eh i g h1 巴V巴1o fi n巴q u a l i t y .L a n d l巴s sh o u s巴h o l d s r 巴V巴a lt h巴 l o w e s tincom 巴w i t hh i g h巴ri n巴q u a l i t y . . 7D i s t r i b u t i o n so fIncom 巴a n dG i n iCo巴f f i c i巴n tbyt h巴 T a b l巴 5 E d u c a t i o nL巴V巴lofHous巴h o l dH巴a di nUrbanBanglad巴s h Education L e v e l I l it e r at e Primary Secondary T e r t i a r y Average Numbero f H 11ld 日o吋 old5jU5E O C O E f f i c i e n t ncome 972 4982 0 . 3 8 1 7 8 1 8215 0 . 3 8 8 405 12722 0 . 4 2 0 242 28342 0 . 6 0 8 dせ nku
I ti sf o u n d仕omt h巴 T a b l巴 5 . 7t h a t,t h巴 h i g h e rt h ee d u c a t i o n a l1 巴V 巴1o fhous巴h o l dh巴a di nu r b a n h eh i g h e rt h e i rincomebecomes.Forh i g h l y巴d u c a t 巴dh o u s e h o l dhead,t h ea v e r a g eh o u s e h o l d Bangladesh,t sa b o u tf o u rt i m e sh i g h e rt h a nt h a to fp r i m a r y1 巴V 巴1 hous巴h o l dh巴a d . incom巴 i 6 .C o n c l u s i o n s Th巴 s t u d ya n a l y z 巴d t h巴 s i z ed i s t r i b u t i o no fhous巴h o l d income, d i s p o s a b l巴 incom巴 , h ous巴h o l d d i t u r ei nBangladeshbyu s i n g HouseholdIncom巴 andExp巴n d i t u r巴 e x p e n d i t u r巴 andconsumption 巴xp巴n Survey(HIES)2000m i c r od a t as 巴t s .Th巴 G i n ir a t i ob a s巴donhous巴h o l dincom巴 wasfoundt ob巴 l 巴s st h a n i n ir a t i ob a s e dond i s p o s a b l eincom巴 f o rsom巴 c a s e s .Thes t u d yf o c u s巴don巴x p e n d i t u r es i d e sa sw巴1 1 . t h巴 G I ti sf o u n dt h a tt h巴 G i n ir a t i ob a s e d on consumption e x p e n d i t u r 巴 w asfound t o belowert h a nt h a to f d i t u r 巴.T hef o 1 1 o w i n gf i n d i n g sc o n c l u d e : exp巴n i ) i i ) i i i ) i v ) v ) v i ) v e r a g es i z eo fl f 巴m ale 寸1 e a d e dhous巴h o l d si smuchs m a 1 1 e rt h a nt h巴i rmal巴 c o u n t e r p訂 t s( 3 . 6 5 Th巴 a s u s5 . 3 3 ) . V巴r d i t u r 巴 i s h i g h e rf o rh i g h e rh o u s e h o l d incom巴. On t h e o t h e r hand, Consumption exp巴n non‑ consumptione x p e n d i t u r 巴a nds a v i n g sdon o tshowanyp o s i t i v巴 r e l a t i o n s h i pw i t hincom巴. The gap b巴tw巴巴 nt h巴 r i c h e s t and p o o r 巴s ti sw i d e n i n gi nt h巴 d i s p o s a b l巴 income, and becomes nt h econsumptione x p e n d i t u r 巴. n a汀 ow巴ri R巴d i s t r i b u t i o n巴q u a l i z 巴st h巴 incomed i s t r i b u t i o nf o r s e l f ‑ co n t a i n巴d "hous巴h o l d sa s w巴1 a st h e o l dt h a ts e n dt h巴 t r a n s f er . hous巴h Householdt h a tr e c巴l V巴 t h et r a n s f e r(R巴c e l v巴r )a sincomee 町oymor 巴巴 q u a ld i s t r i b u t i o namongt h e o l d sf o 1 1 o w e dbyt h ehous巴h o l dt h a ts 巴n dt h巴 t r a n s f e r( S e n d e r ) . f o u rt y p e so fhous巴h a n d h o l d i n go fh o u s e h o l dandt h巴巴d u c a t i o nl e v巴1o fh o u s e h o l d s 'heada r巴 Thes t u d yshowst h a tt h巴 l t h巴 m可o rd e t e r m i n a n to fi n巴q u a l i t yi nr u r a landu r b a na r 巴a s,r e s p e c t i v e l y . Acknowl e d g m e n t s P r o f 巴 ,s s o r sD巴nzoKamiyaandY o s h i r oMatsudao fTokyoI n t巴r n a t i o n a lUniv巴r s i t yandP r o f e s s o r S e t s u o Suoh o fU n i v e r s i t yo fHyogo gav巴 m巴 v a l u a b l es u g g e s t i o n s and u s巴白 1comm 巴n t sd u r i n g my r 巴s 巴a r c h . Bangladesh Bur 巴a uo fS t a t i s t i c sh a sk i n d l ya d m i t t e d m巴 t ou s et h巴 micro d a t as e t so ft h e e s e a r c ha t GraduateSchool o fTokyo Household Income and E x p e n d i t u r eSurvey2000 f o ra c a d巴micr I n t巴r n a t i o n a lU n i v e r s i t y R e f e r e n c e s 1 .Anand, S( 19 8 3 ), I n e q l l a l i t ya l l dPover ヴi l lM a l a y s i a :Measurel1le l l tandDecompositio/1, A WorldBank OxfordU n i v e r s i t yP r e s s :N巴wY o r k . R e s e a r c hP u b l i c a t i o n, r d G巴巴口z ( 19 6 8 ),I s l a mO b s e r v e d :R e l i g I o u sD e v e l o p 1 1 1 e n tI n Morocco a l l d1 1 ld o n e s I a,The 2 .C l i仔o re s s, ChicagoandLondon. U n i v e r s i t yo fChicagoP fBanglad巴s h :M i n i s t r yo fF i n a n c巴 ( 2 0 0 3 ),B a l l g l a d e s hEconomIcReview ,Dhaka. 3 .Th巴 Governmento 19 8 0 ),1 1 lc omeI n e q u a l iヴ andPover η:MethodsofE s t Il1la t I o nandP o l i c yA p p l i c a t i o n s,A 4 .Kakwani,N ( 巴a r c hP u b l i c a t i o n,OxfordUniv巴r s i t yP r 巴s s :N巴wY o r k . WorldBankR巴s 2 0 0 1 ),I n e q u a l i t yandI t sSourc巴si nBangladesh, 1 9 9 1 / 9 2t o1 9 9 5 / 9 6 :An 5 .Khan,A.RandS巴n,Binayak( o l dExp巴n d i t u r 巴sS u r v e y s,ηl eBangladeshDevelopmentS t u d i e sV o l .XXXVII , A n a l y s i sBasedonHous巴h March2001,N o .1 . 6 .P a n f i l i aChing ( 19 9 1 ), S i z巴 D i s t r i b u t i o no fIncom 巴 i nt h eP h i l i p p i n巴s "i n九1 a k i n gEconomies九1 0 r e EがcientandMoreEquitable:FactorsDeterminingIncomeDistributIon,e d i t巴dbyT o s h i y u l uMizoguchi, KinokuniyaCompanyL i m i t e d, Tokyo. 19 9 0 ),IncomeD i s t r i b l l t i o ni nL e s sDevelopedC o u n t r I e s,R o u t l巴dge,London. 7 .Sundrum,R.M( 8 .Tanaka,M;S a t o,T andMatsuda,Y ( 2 0 0 5 ) λ, t 出 h巴町 i rE仔仇巴氏C ω t ω s0 叩nI ncomeD i s 幻 町 t 汀 凶 州 r 吋 i 加 bu t 山 i o n ",Pa 叩P 巴 訂 r戸 pr 巴 凶 s 巴叩 n t 凶 巴 吋 da 剖t ' I n t e r η nω 凶 at μ i 仰 O ω y η 1 凶 a lC ω 0 1 俳 ρ ず l 件 f e r . ぜ e 印 e 切 l l I I 悶C 白 e仇 I y 日 1Me ω m η / ω 1 0 or η y~ザ f 刀 恥 νO η l l i 仇 l l e l l tS o c i a lS c i e l l t i s t s :C .G i l l ia l l dM.O .L o r e n z, "S i e n a,I t a l y . EI1 ‑49‑
Note C a t e g o r i z a t i o no fh o u s e h o l d sh a sb e e nd o n eont h eb a s i so ft h em a r i t a ls t a t u so fh o u s e h o l d s ' a sshownb e l o w . membera n dt h e i rh a b i t a t i o n, C a t e g o r i z a t i o no fHouseholds P r o b a b l eI m p l i c a t i o n sonIncome Remarks Householdswherea tl e a s tonec o u p l e Householdst h a tmaysendo rr e c e i v e S enderj R e c e i v e r e x i s t si nt h esameh o u s e h o l d n s f e r t h e廿a Householdswherem a r r i e dmanl i v e Householdst h a tmaysendt h e S ender w i t h o u tw i f ei nt h esameh o u s e h o l d 廿a n s f e r withouthusbandin出esame Householdst h a tmayr e c e i v et h e R e c e i v e r household t r a n s f e r Householdswheren e i t h e rm a r r i e d Householdst h a tmayn o tsendo r S el f ‑ c o n 匂i n e d mann o rm a r r i e dwomanl i v e s r e c e i v et h e仕 a n s f e r R υ 川 ハ V
S A S Forumユ ー ザ ー 会 通勤時間に注目してみた共働き夫婦の通勤・家事・育児分担 に関する分析 0菅幹雄 経済学部 東京国際大学 TheAnalysisofSharingBurdenofCommuting,HouseworkandChildcare BetweenHusbandandWifeWhoHaveJobs M i k i oSuga FacultyofEconomics,TokyoI n t e r n a t i o n a lUniversity 要旨 共働き世帯は就業時間と通勤時間を制約にして,家事・育児を分担していると考えられる. さらに,夫婦関係が成立したためには,五いの負担が平等でなければならないはずであり, おそらく就業時間及び通勤時間がより長い方がより少なく家事・育児負担を行っていると 思われる.これは子供のいない共働き世帯 (DINKS) と比較すればより明確になると思わ れる.そこで通勤時間に注目してみて,共働き世帯における夫婦の分担が,世帯類型でどの ように異なっているのかを比較し,夫婦の協力関係を明らかにした. キーワード: 通勤時間,共働き夫婦,分担,社会生活基本詞査,ミクロデータ はじめに 今日,共働き世帯は珍しくない.平成 1 2年 ( 2 0 0 0年)I 国勢調査」によれば, I 夫婦のいる一 般世帯」の総数は約 2 9 2 9万世帯寺であるが,そのうち夫・妻ともに就業している世帯は約 1 3 1 4 万世帯,総数の約 45%を占めている I 夫婦のいる核家族世帯」では,総数が約 2375万世帯 であり,そのうち夫・妻ともに就業している世帯は約 977万世幣,総数の約 41%を占めている. 共働き世帯は専業主婦のいる世帯とは異なった夫婦の協力関係が必要で、あると思われる 共働き夫婦の場合,家事・育児負担を専ら担うはずの専業主婦がいないのであり,その負担を 夫婦で協力しながら互いに分担しなければならなし、からである.その共働き世帯の分担を決 定する上での制約に就業時間と通勤時間がある. 就業時間については,通常,世帯構成員がそれを自由に変更することはできない.もっとも, 最近ではフレックスなど、の就業時間を柔軟に設定する制度があるから,全く変更できないとし、 F h υ
うわけではない.また,パソコン,インターネット,電子メールが一般家庭にも普及しているから, 仕事の一部を自宅ですることも可能であろう.だが,打ち合わせ,情報交換,交渉など,人と人 が顔を会わせなければ進展しない要素が,依然として仕事の大きな部分を占めている. 通勤時間については,居住地を選択することによって夫婦それぞれの通勤時間は変更可 能であり,その意味では就業時間より自由度のある制約である.ただし,居住地を変更すること により夫婦の合計通勤時間を減らすことはできない.夫婦の従業地の中間点のどこかを居住 地として選択することはできても,それによって夫婦の合計通勤時間を減らすことはで、きない. このように共働き世帯は就業時間と通勤時間を制約にして,家事・育児を分担していると考え られる.さらに,夫婦関係が成立するためには,互いの負担が平等でなければならないはずで あり,おそらく就業時間及び通勤時聞がより長い方がより少なく家事・育児負担を行っていると 思われる.そこで通勤時間に注目してみて,共働き世帯における夫婦の分担が,世帯類型で とーのように異なっているのかを比較し,夫婦の協力関係を明らかにした. なお,本研究において使用したデータは,日本学術振興会の平成 14年科学研究費補助 金(研究成果公開促進費)の交付を受けて,ミクロ統計データ活用研究会(代表:井出満大阪 産業大学経済学部教授)が作成した「ミクロ統計データベース」のデータ(社会生活基本調査 のリサンプリング・データ)である.本研究で、は「社会生活基本調査」のリサンプリング・データの う ち , 1986年 , 1 9 9 1年 , 1996年の「時間編」を用いた I 時間編」には,世帯員別の行動時聞 が調査された結果がデータベース化されている. 夫の家事・通勤負担率 表 1は妻の年齢が 30歳以上 40歳未満,子供無し,夫の週間就業時間 3 5時間以上,妻の 週間就業時間 3 5時間以上,世帯の年間収入 l千万円未満の共働き世帯の夫の平均家事負 担率を示している.これを見ると夫の家事負担率は 50%を大きく下回っており,しカも 0%(全く 家事をしなし、)のセルが 6つある.ただし,夫の通勤時聞が夫婦の通勤時聞が共に 30分以上 6 0分未満, 6 0分以上 9 0分未満のケースでは夫の家事負担率がやや高い傾向にある. 表 l妻の年齢が 3 0歳 以 上 4 0歳未満,子供無,夫の週間就業時間 3 5時間以上,妻の週間就業時間 3 5時間以上,世幣 の年間収入 l千万円未満の共働き世帯の夫の平均家事負担率(核家族世帯)[ 1 9 9 6年〕 妻の片道の平均通勤時間 夫 の 片 日分 時道 l 分以上 3 0分未満 聞の 3 0 分 以 上 6 0分 未 満 平 均 6 0分 以 上9 0分 未 満 通 9 0分 以 上 1 2 0分未満 勤 1 2 0分以上 l 分以上 3 03 0分以上6 06 0分 以 上 0分 以 上9 0 9 分未満 分未満 分未満 1 2 0分未満 日分 21% 0% 0% 1 % 36% 0% 5% ‑52一 0% 20%一 14% 8% 0% 。 % 一 22%一 1 2 0分以上
一方で,同じ世帯類型の夫の通勤負担率を見ると(表 2 ),家事負担率と比較して高い傾向 にある.これは妻が主に家事を,夫が主に通勤を負担するような分担が成立していることを示 している. 表 2妻の年齢が 3 0歳以上 40歳未満,子供無,夫の週間就業時間 3 51l寺間以上,妻の週間就業時間 3 5時間以上,世帯 千万円未満の共働き世帯の夫の平均通勤負担率(核家族世帯)[ 1996年 〕 の年間収入 l 妻の片道の平均通勤時間 夫 。 〉 l分以上 3 0 3 0分以上 6 06 0分以上90 0分 分未満 片 。分 時 道 l分以上 3 0分未満 町 0) 平 30分以上 60分未満 0分以上 90分未満 均 6 通 90分以上 1 2 0分未満 勤 1 2 0分以上 100% 100% 100%一 分未満 0% 49% 69% 分未満 0% 27%一 48% 65% 70%ー 90分以上 1 2 0分未満 1 2 0分以上 34%ー 50% 家事・通勤合計の負担率でみると(表 3 ),夫婦の負担比率は表 1 ,表 2と比べ明らかに 50% に近づいている.すなわち,家事・通勤両方を合わせて見ると負担は均等化に近づくのであ る. 表 3妻の年齢が 3 0歳以上 40歳未満,子供無,夫の週間就業時間 3 5時間以上,妻の週間就業時間 3 5時間以上,世帯 1996年 〕 の年間収入 l千万円未満の共働き世帯の夫の平均負担率(家事・通勤合計)(核家族世帯)[ 妻の片道の平均通勤時間 夫 。 〉 片 0分 時 道 l分以上 30分未満 聞の 平 30分以上60分未満 均 60分以上90分未満 通 90分以上 1 2 0分未満 勤 1 2 0分以上 l分以上 3 0 3 0分以上60 6 0分以上90 90分以上 0分 分未満 21% 14% 32% 36% 分未満 40% 18% 36% 分未満 0%ー 23%一 33% 42% 57%一 1 2 0分宋満 1 2 0分以上 25%ー 47%一 横断面比較 (1996年) 1996年のデータについて横断面比較を行った .6つ項目一妻の年齢,子供の有無,末子年 齢,夫の週間就業時間,妻の週間就業時間,世帯の年間収入 のうち, 5つの項目が同じで 1つの項目だけが異なる集計表の組み合わせを選び,それらを比較すれば, 1つだけ異なる 項目の効果だけを求めることができる.そこで,集計表の一覧を作成し(表 4 ),次に,それに基 づいて各効果を求めることが可能な組み合わせをそこから見つけ出し,最後に各効果を求め る為の比較作業を行った. 53一
表 4 横断面比較の集計表の一覧(1996年) 妻の年齢 ( 1 ) 40歳 以 上 ( 2 ) 30歳 未 満 ( 3 ) 30歳 以 上 40歳 未 満 ( 4 ) 40歳 以 上 ( 5 ) 30歳 未 満 ( 6 ) 30歳 以 上 40歳 未 満 ( 7 ) 30歳 以 上 40歳 未 満 ( 8 ) 40歳 以 上 ( 9 ) 40歳 以 上 ( 10 ) 30歳 未 満 ( 11 ) 30歳 以 上 40歳 未 満 ( 12 ) 40歳 以 上 ( 1 3 ) 30歳 未 満 ( 14 ) 30歳 以 上 40歳未満' ( 15 ) 30歳 以 上 40歳 未 満 ( 16 ) 40歳 以 上 ( 17 ) 40歳 以 上 ( 18 ) 40歳 以 上 ( 19 ) 40歳 以 上 子供の 末 子 年 齢 有無 6歳 以 上 有 無 無 低 6歳未、満 6 歳未満 6歳 以 上 6歳 以 上 6歳 以 上 有 有 有 有 有 無 無 低 6歳 未 満 6歳 未 満 6歳 以 上 6歳 以 上 6歳 以 上 有 有 有 有 有 鑑 有 6歳 以 上 夫の週間 就業時間 妻の週間 就業時間 世帯の 年間収入 35時間宋満 35時間以上 35時間以上 35時間以上 3 5 1 1 寺間以上 35時間以上 35時間以上 35時間以上 35時間未満 35時間以上 35時間以上 35時間以上 35時間以上 3 5 1 1 寺間以上 35時間以上 35時間以上 35時間以上 35時間以上 35時間以上 35時 間 未 満 35時 間 未 満 35時間未満 35時間未満 35時 間 未 満 35時間未満 35時間未満 35時 間 未 満 35時 間 以 上 35時間以上 35時間以上 35時間以上 35時 間 以 上 35時間以上 35時 間 以 上 35時間以上 35時間未満 35時 間 以 上 35時 間 以 上 l千 万 円 未 満 l千 万 円 未 満 l千 万 円 未 満 l 千万円未満 l千万円未満 l千万円未満 l千万円未満 l千万円未満 l千万円未満 l千万円未満 l千 万 円 未 満 l千万円未満 1千万円未満 1千万円未満 l千万円未満 l千万円未満 l千万円以上 l千万円以上 l千 万 円 以 上 ァ ータのある セル数 7 9 日 1 4 日 日 1 6 2 1 日 1 4 1 4 1 6 1 1 1 1 1 5 2 1 1 6 1 2 1 9 次に,子の有無が夫の負担率に与える効果の例を表 5,表 6を示す.表 5は夫の負担率に ついて,子有りかっ末子年齢が 6歳未満の世帯の夫の負担率から,子無し世帯のそれを差し 引し、た%ポイント,表 6は子有りかっ末子年齢が 6歳以上の世帯の夫の負担率から子無し世 帯のそれを差し引し、た%ポイントを示しており,正値であれば子供がし、ると夫の負担率が高く なる(妻の負担率が低くなる)ことを,負値で、あればその逆の現象が起こっていることを示して しも.これをみると,末子年齢が 6歳未満で、夫の通勤時間が短くかっ妻の通勤時聞が長いケ ースでは,子供がし、ると夫の負担率が高くなる(妻の負担率が低くなる)傾向がある.ただし, 末子年齢が 6歳以上になると,逆に夫の負担率が低くなる(妻の負担率が高くなる)傾向が観 察されている. 表5 子の有無が夫の負担率に与える効果 ( 1 ) 子有りかつ末子年齢が6歳未満の世帯の夫の負担率から子無し 5時間以上,妻の週間就業 世帯のそれを差し引し、た%ポイント(妻の年齢 30歳以上 40歳未満,夫の週間就業時間 3 5時間以上,世帯の年間収入 l 千万円未満の共働き世帯(家事・育児・通勤合計)(核家族世帯)[1996年 J ) 時間 3 妻の片道の平均通勤時間 夫 コ 。 片 。分 時道 l 分以上 30分 未 満 問σ コ 平 30分以上 60分未満 均 60分以上 90分 未 満 通 9 0分以上 1 2 0分 未 満 動 1 2 0分以上 l 分以上 3 0 30分以上 6 0 印 分 以 上 90 90分以上 分未満 分未満 1 2 0分 未 満 分未満 日分 10% 5% 19% l 見 18% l 弘 53%ー 8見 3% 一7弘一 1 9弛 1 2 0分以上 A吐 D ﹁
表 6 子の有無が夫の負担率に与える効果 ( 2 ):子有りかつ末子年齢が 6歳以上の世帯の夫の負担率から子無し 世帯のそれを差し引し、た%ポイント(妻の年齢 3 0歳以上 4 0歳未満,夫の週間就業時間 3 5時間以上,妻の週間就業 時間 3 5時間以上,世帯の年間収入 i千万円未満の共働き世帯(家事・育児・通勤合計)(核家族世帯)[ 1 9 9 6年)) 妻の片道の平均通勤時間 夫 コ 。 l 分以上 3 0 30分以上 6 06 0分以上 90 9 0分 以 上 分未満 分未満 1 2 0分 未 満 分宋満 0分 片 0分 時道 l 分以上 3 0分 未 満 聞の 平 30分以上回分未満 0分 未 満 均 60分 以 上 9 通 9 0分以上 1 2 0分未満 勤 1 2 0分以上 ‑24略 ‑ 3帖 ‑ 9帖 ‑9% ‑4弘 ‑ 1 1 9 自 ‑ 8帖 7 帖 1 2帖 8 略 8 帖 1 2 0分 以 上 ‑4% 次に末子の年齢が夫の負担率に与える効果の例を表 7 を示す.表の数値は夫の負担率に ついて,子有りかつ末子年齢が 6歳未満の世帯の夫の負担率から,子有りかつ末子年齢が 6 歳以上の世帯のそれを差し号│し、た%ポイントを示しており,正値であれば末子の年齢が低いと 夫の負担率が高くなる(妻の負担率が低くなる)ことを,負値で、あればその逆の現象が起こって しもことを示している. これらを見ると末子の年齢が低く,かつ妻の通勤時間妻の通勤時聞が l分以上のときは夫の負担率が高くなる(妻の負担率が低くなる)傾向がある.このように末子 の年齢の効果は,子の有無の効果よりも明確に出る. 表 7 末子の年齢が夫の負担率に与える効果子有りかつ末子年齢が6歳未満の世帯の夫の負担率から子有りか 0歳 以 上 40歳未満,夫の週間就業時間 35 っ末子年齢が 6歳以上の世帯のそれを差し引し、た%ポイント(妻の年齢 3 時間以上,妻の週間就業時間 3 5時間以上,世帯の年間収入 I千万円未満の共働き世帯(家事・育児・通勤合計) 1996年)) (核家族世帯)[ 妻の片道の平均通勤時間 夫 の 片 0分 0分 H 寺道 l 分以上 3 0分 未 満 問の 0分 以 上 6 0分 未 満 平 3 0分 以 上 90分 未 満 均 6 通 9 0分 以 上 1 2 0分未満 勤 1 2 0分 以 上 l 分以上 3 0 30分以上 6 06 0分 以 上 0分以上 90 9 分未満 分未満 分未満 1 2 0分 未 満 ‑ 1~見 l 帖 ‑ 8覧 7 帖一 4 2略 4帖 5 略 1 2 0分 以 上 47帖 2 0帖 ー 0 也ー 次に,妻の週間就業時聞が夫の負担率に与える効果の例を表 8,表 9に示す.これらの表 は夫の負担率について,妻の週間就業時間が 35時間以上の世帯の夫の負担率から, 35時 間未満の世帯のそれを差し号 l し、た%ポイントを示しており,正値であれば妻の週間就業時間 が長いと夫の負担率が高くなる(妻の負担率が低くなる)ことを,負値であればその逆の現象が 起こっていることを示している.表 8卜 表 9の違いは子の有無である.これらの表をみると子の有 無に関係なく,妻の週間就業晴聞が長いと夫の負担率が高くなる(妻の負担率が低くなる)傾 向が観察されることが分かる. υ 戸内 ﹁hu
表 B 妻の週間就業時聞が夫の負担率に与える効果(1):妻の週間j 就業時間が 3 5時間以上の世帯の夫の負担率 5時間未満の世帯のそれを差し号 l し、た%ポイント(妻の年齢 30歳以上 40歳未満,子無し,夫の週間就業時間 から 3 3 5時間以上,世帯の年間収入 l千万円未満の共働き世帯(家事・育児・通勤合計)(核家族世帯)(1996年]) 妻の片道の平均通勤時間 夫 コ 。 0分以上 90 90分以上 l分以上 3 0 3 0分以上6 06 0分 片 0分 時 道 l分以上 30分未満 聞の 平 30分以上 60分未満 均 60分以上 90分未満 通 90分以上 120分未満 動 120分以上 分未満 2 1 ! 地 6首 分未満 4 首 1 3首 1 1首 分未満 120分未満 1 2 0分以上 1 1 ! 弘一 7%1~ 表 9 妻の週間就業時間が夫の負担率に与える効果 ( 2 ) :妻の週間就業時間が 3 5時間以上の世帯の夫の負担率 5時間未満の世帯のそれを差し号 l し、た%ポイント(妻の年齢 3 0歳以上 40歳未満,子有り,末子年齢6歳未満,夫 から 3 5時間以上,世帯の年間収入 l 千万円未満の共働き世帯(家事・育児・通勤合計)(核家族世帯) の週間就業時間 3 ( 1996年]) 妻の片道の平均通勤時間 夫 の 片 。分 時道 l 分以上 30分未満 問の 3 0 分以上 60分未満 平 均 60分以上 90分未満 通 90分以上 120分未満 勤 1 2 0分以上 l 分以上 3 0 3 0分以上 6 06 0分以上 90 90分以上 120分未満 分未満 分未満 分未満 0分 120分以上 ~1%1~ 2唱 5覧 9唱 1 0 弛 1 6 弛← 2 4 首 時系列比較 (1986年 , 1991 年 , 1996年) 2時点 ( 1 9 8 6年 , 1 9 9 1年 , 1 9 9 6年)のデータを用いて時系列比較を行った.まず集計表の 0 ),次に,それに基づいて時系列の効果を求めることが可能な組み合わせ 一覧を作成し(表 1 をそこから見つけ出し,最後に時系列の効果を求める為の比較作業を行った. 1,表 1 2は時系列の効果の例を示したものである.表 1 1の数値は夫の負担率について, 表1 1 9 9 6年の値から 1 9 9 1年の値を差し引し、た%ポイントを示しており,正値であれば夫の負担率 が高まっている(妻の負担率が低下している)ことを,負値で、あればその逆の現象が起こってい ることを示している 1 1セル中 4セルの例外を除き,夫の負担率が高まっている(妻の負担率が 2の数値は夫の負担率について, 1 9 9 6年の値から 1 9 8 6年の 低下している)ことが分かる.表 1 し、た%ポイントを示している.1 3セル中 2セルを除き,夫の負担率が高まっている 値を差しヲ l (妻の負担率が低下している)ことが分かる. 戸 phu hυ
表1 0 時系列比較の集計表の一覧 妻の年齢 子供の 有無 ( 1 ) 4 0歳以上 ( 2 ) 30歳未満 ( 3 ) 30歳以上 40歳未満 ( 4 ) 40歳以上 ( 5 ) 30歳未満 ( 6 ) 30歳以上40歳未満 ( 7 ) 30歳以上 40歳未満 ( 8 ) 40歳以上 ( 9 ) 40歳以上 ( 1 0 ) 40歳以上 ( 11 ) 30歳未満 ( 12 ) 30歳以上 40歳未満 ( 1 3 ) 40歳以上 ( 1 4 ) 30歳未満 ( 1 5 ) 30歳以上 40歳未満 ( 16 ) 30歳以上 40歳未満 ( 17 ) 40歳以上 ( 18 ) 40歳以上 ( 19 ) 40歳以上 有 { 辺L岨 盆 込 上 有 鑑 鑑 盤 有 有 有 有 畳 正 有 佳 盤 盤 有 有 有 有 有 盤 夫の週間 就業時間 末子 年齢 世帯の 年間収入 妻の週間 就業時間 6歳以上 35時間未満 3 5時間未満 35時間以上 3 5時間未満 35時間以上 3 5時間未満 5時間未満 35時間以上 3 5時間未満 6歳未満 35時間以上 3 6歳未満 35時間以上 35時間未満 5時間未満 6歳以上 35時間以上 3 5時間未満 6歳以上 35時間以上 3 35時間未満 3 5時間以上 5時間以上 6歳以上 35時間未満 3 35時間以上 3 5時間以上 35時間以上 3 5時間以上 35時間以上 35時間以上 6歳未満 35時間以上 3 5時間以上 6歳未満 35時間以上 3 5時間以上 6歳以上 35時間以上 35時間以上 6歳以上 35時間以上 35時間以上 5時間未満 6歳以上 35時間以上 3 5時間以上 3 5時間以上 3 5 1 時間以上 35時間以上 6歳以上 3 データのあるセノレ数 1986年 l千万円未満 l 千万円未満 l 千万円未満 l 千万円未満 l千万円未満 l 千万円未満 l 千万円未満 l 千万円未満 l 千万円未満 l千万円未満 l 千万円未満 l 千万円未満 l 千万円未満 l 千万円未満 I 千万円未満 l 千万円未満 l 千万円未満 l 千万円以上 l千万円以上 l 千万円以上 1 9 9 1年 7 8 1 4 1 5 1 5 20 1 1 8 9 1 8 9 1 3 1 6 22 7 1 5 1 2 1 8 1 0 1 5 1 4 29 1 7 1 0 20 1996年 7 9 8 1 4 8 8 1 6 2 1 8 1 4 1 4 1 6 1 1 1 1 1 5 2 1 1 6 1 2 1 9 1 時系列の効果:1996年の値から 1991年の値を差し号 l し、た%ポイント(妻の年齢が 30歳 以 上 40歳未満,子供 表1 無,夫の週間就業時間 35時間以上,妻の週間就業時間 35時間以上,世帯の年間収入 l千万円未満の共働き世帯の 夫の平均負担率(家事・育児・通勤合計)(核家族世帯)) 妻の片道の平均通勤時間 夫 の 片 。分 時道 問の 平 均 通 勤 l分以上 30 30分以上 60 60分 以 上90 90分 以 上 120分未満 分未満 分未満 分未満 0分 11% 40% l分以上 30分 未 満 2目 5% ‑3% 30分 以 上 60分 未 満 5% 6% ‑2% 60分以上 90分 未 満 30% 2% 120分以上 8%ー 90分以上 120分 未 満 120分以上 2 時系列の効果:1996年の値から 1986年の値を差し引し、た%ポイント(妻の年齢が 30歳 以 上 40歳未満,子供 表1 無,夫の週間就業時間 35時間以上,妻の週間就業時間 35時間以上,世帯の年間収入 l千万円未満の共働き世帯の 夫の平均負担率(家事・育児・通勤合計)(核家族世帯)) 妻の片道の平均通勤時間 夫 の 片 。分 時道 司の 平 均 通 勤 l 分以上 30 30分以上 60 60分 以 上90 90分 以 上 分未満 分未満 分未満 120分 未 満 0分 9% 36 百 0% l分 以 上 30分 未 満 0% も ‑6 2%一 30分 以 上 60分 未 満 60分 以 上90分 未 満 2% 0%1‑ 0% 90分 以 上 120分未満 120分 以 上 2% 日% 3%ー 一 」 ‑ 1 1 ! 地 120分以上 F同 υ ウ t
回帰分析 以上,通勤時間に注目してみた共働き夫婦の通勤・家事・育児分担に関した分析結果につ いてみてきた.分析結果によれば,妻は主に家事を負担し,夫は主に通勤を負担しており,家 事・通勤両方を合わせて見ると負担は均等化に近づく.横断面で見ると妻の週間就業時聞が 長くなると夫の通勤・家事・育児分担率が高くなる傾向がある.このことから,夫と妻の家事・育 児負担割合について議論するならば,通勤時間の影響を無視できないことを示している.また, 時系列的にみると,夫の家事・育児分担率が高くなる傾向があり,共働き世帯の夫と妻の協力 関係に変化が起きていることが伺える.以上を踏まえて回帰分析を行った.回帰式は以下の 通りである. log(玖 )=α+βlog(~)+ ~)kDjk + Uj ~:夫婦の家事・育児時間合計 , Wj 妻の家事・育児時間合計 ,Dj 妻の年齢階級,子の k: 有無,末子年齢階級,夫の週間就業時間階級,妻の週間就業時間階級,世帯の年間収入階 t :誤差項 級 を 示 す 変 数 ( 階 級 ‑1),α ,s,γk'パラメーター, u 表1 3 回帰分析結果 1 9 9 1 t i l 直 回帰係数 切片項 夫婦の家事・育児時間の合計の自然対数値 夫の通勤時間階級 妻の通勤時間階級 末子年齢階級 夫の週間就業時間曙級 妻の週間就業時間階級 世帯の年間収入階級 標本数 自由度調整済み決定係数 0 . 9 7 1 1 5 4 . 3 3 6 0 . 0 2 6 6 . 1 5 6 ‑ 0 . 0 1 6 3 . 0 0 4 0 . 0 5 8 ‑ 0 . 0 2 9 3 . 0 5 9 2 . 6 1 9 3 1 5 0 . 9 9 6 1 9 9 6 p { [ 宜 回帰係数 t 値 0. 42 6 3 . 5 7 9 0 . 0 0 0 0 . 9 1 4 4 5. 40 2 0 . 0 0 0 0 . 0 3 5 6 . 2 3 2 0 . 0 4 3 ‑ 4 . 6 5 1 0 . 0 0 3 ‑ . 5 1 7 0 . 0 3 3 3 0 . 0 0 2 0 . 0 0 9 0 . 0 0 0 0 . 0 0 0 ‑ 0 . 0 7 5 ‑ 4 . 7 0 1 285 0 . 9 4 4 p { 直 0 . 0 0 0 0 . 0 0 0 0 . 0 0 0 0 . 0 0 0 0 . 0 0 1 0 . 0 0 0 0 . 0 0 0 これをみると妻の通勤時間が長くなるにつれ,妻の家事・育児時間が減るが,この傾向はま すます強まっている.また,末子の年齢が小さし、と妻の家事・育児時聞が長くなり,妻の週間 就業時聞が長くなると,妻の家事・育児時間が減るが,この傾向はますます強まっている. <謝辞> 本研究において使用した「社会生活基本調査」のミクロデータは,日本学術振興会の平成 14年科学 研究費補助金(研究成果公開促進費)の交付を受けて,ミクロ統計データ活用研究会(代表:井出満大 阪産業大学経済学部教授)が作成した「ミクロ統計データベース」のデータ(社会生活基本調査のリサン ブリンク、・データ)である. 本研究遂行のため,ミクロ統計データベースの活用に当たっては,総務省の 「社会生活基本調査」の目的外使用申請による調査票の使用許可を受けている. 総務省統計局及び(独)統計センターの関係各位並びにミクロ統計データ活用研究会事務局の方々 には多大なお世話をいただいた.また,ミクロ統計データ活用研究会の研究結果報告会において美添 泰人青山学院大学教授,舟岡史雄信州大学教授より,また経済統計研究会においては庚松毅東京大 学教授,西郷浩早稲田大学教授より大変に有益なコメントを頂いた.ここに記して謝意を表したい.ただ し,言うまでもなく,本稿に残る誤謬は筆者の責任である. ‑58一
口頭論文発表 医薬統計 (チュートリア jレ )
S A S Forumユ ー ザ ー 会 変量効果を含むロジスティック回帰 高橋行雄 中外臨床研究センター・バイオメトリック部 L o g i s t i cR e g r e s s i o nw i t hRandomE f f e c t s Y u k i oTakahashi B i o m e t r i c sD e p t ./ChugaiC l i n i c a lResearchCenterC o . .L t d . 要旨 反応が 2値の場合に対する SASの解析フ。ロシジャの機能が拡張され,多くの事 例に応用が可能となった.しかしながら,それらの機能を適切に使いこなすことは, SASのマニュアル,あるいは,カテゴリカルデータの解析を扱っている成書のみでは, 不十分である.世界的な規模で繰り返し実験が行われている臨床試験を事例に, 2値デ ータの解析における固定効果と変量効果の問題を取り上げる. LOGlSTICプロシジャの t r a t a ステートメントによる条件付ロジスティック回帰, バージョン 9 で追加された s GENMODプロシジャを使った GEE法 お よ び NLMIXEDプロシジャを使った変量効 果を含むモデルの解析法について示す. キーワード:ロジスティック回帰,変量効果,オッズ比, GEE,非線形回帰 1.はじめに 反応が 2値の場合における SASの解析プロシジャの追加,機能拡張は目覚しいものがある. PC 版の SASパージョン 6 . 0 3の日本語マニュアル iSAS/STATソフトウエア:ユーザズガイド」は, 1 9 9 3年 1 0月に初版 1刷に発行された.その中で, 2値反応データを対象とした解析プロシジ、ャは, FERQプロシジャおよび CATMODプロシジャのみであった.しかしながら,その 2つのプロシジ ャは,豊富な機能を有し,それ以前の単純な群聞の有意差検定を主体にしてきた統計解析の枠組 みを広げることを可能にした. リリース 6 . 0 7では,回帰分析の流れをくむ LOGISTICプロシジャが追加され,多重分割表の解 析の流れをくむ CATMODフロシジャとを,どのように使い分けたら良いのか,様々な事例に適用 . 0 9では,一般化線形モデルの統計ソフト GLIM" しつつ,それらの使い分けを模索した.リリース 6 の流れをくむ GENMODフロシジャが登場した. GENMODフロシジャは,反応が計量値でも 2値 を含む計数値でも,どちらにも適用できる分散分析流のプロシジャであった. CU
SASのパージョン 8では, LOGISTICフロシジャに c l a s sステートメントが追加され,カテゴリ カルな説明変数の取り扱いが簡単に行えるようになった.それだけでなく, modelステートメント で 2つの説明変数聞の交互作用を積の形式で直接指定できるように機能拡張が図られた.これに よって, CATMODプロシジャと LOGISTICフロシジャの両方を使い分ける必要がほとんど無くな り , CATMODプロシジャの使用は,限定的な事例での使用に留められることになった.新たな課 題は, 2 値データの解析に極めて類似した機能を持つことになった GENMOD プロシジャと LOGISTIC プロシジ、ャの使い分けであり,高橋 ( 2 0 0 2 ) は,基本的には同様な解析機能を持ち, 優劣の判定は付けがたいと報告した. 反応が計量値の場合に,説明変数を固定効果か,変量効果かを自由に設定できる MIXEDプロシ ジ、ャがリリース 6 . 0 7から使えるようになり,変量効果を常に含む分割実験の解析が手軽にできる ようになった.他方,反応が 2値の場合でも, SASのパージョン 8から登場した NLMIXEDプロ シジャによって固定効果と変量効果含む場合でも解析が可能となった .NLMIXEDプロシジャが, どの程度の問題まで適用できるかの見極めも今回の検討の課題である. LOGISTICプロシジャは,パージョン 9で s t r a t aステートメントが追加され,マッチングされた 条件付ロジスティック回帰も行えるようになり,このために PHREGプロシジャを使う必要がなく なった.条件付ロジスティック回帰は,症例の患者背景をマッチングしたケース・コントロール 試験で使われるのであるが,臨床試験ごとに症例がマッチされたと考えることにより,複数の臨 x a c tステートメントの追加により,少数例での正 床試験の併合の場合にも適用できる.さらに, e 確なロジスティック回帰も可能となったが,これについては割愛する. 機能が充実したこれらのプロシジ、ヤを使った解析を適切に行うためには,典型的な事例に対す る標準的なプログラムの例示と,基本的な出力に即した解析結果の解釈,それらから派生する応 用事例を整備しておく必要性を強く感じている.多くのロジスティック回帰に関する回帰分析的 なアプローチについては,日本語の成書も数多くあるので,ここでは分散分析・共分散分析的ア ブローチを主体にして,基本的な使い方を丁寧に示し,新しい機能の応用についても合わせて示 したい. 2 . アマンタジンを用いたインフルエンザの発病予防 Reuman ら ( 1 9 8 9 ) は,パーキンソン氏病の治療薬として使われているアマンタジンの A 型イ ンフルエンザを予防する効果を検証するために,プラセボを対象とした臨床試験を行った.この 論文には,異なる 2つの試験結果が含まれている.第 1は , 18歳から 5 5歳までの成人を対象にし たインフルエンザ発病予防試験であり,第 2の試験は, 18歳から 40歳の志願者を対象とした実験 的インフルエンザ発病の予防試験である.アマンタジンのプラセボに対するインフルエンザの予 防効果を表 1に示す. 成人を対象にした予防試験では,プラセボ群のインフルエンザ発病率が 3.1%である.予備試験 の結果から発病率を 30%と見積もって例数設計をしており,適切な検出力が確保できる症例数で ‑62‑
あると述べられている.実験的予防試験では,フラセボのインフルエンザ発病率は 90%以上, 50mg 群では 30%以下, 100と 200mg群では 20%以下と見込んで,検出力が 99%と少数例でも効果を検 証できると述べられている. 表 1 アマンタジンのプラセボに対するインフルエンザの予防効果 Ex:試験 E x 1:成人予防 Ex2:実験的予防 m g ) 用量 ( プフセボ 1 0 0 2 0 0 プフセボ 5 0 1 0 0 200 発病あり 5 2 1 1 1 4 3 2 発病なし 1 5 4 1 5 7 1 5 7 8 1 6 1 7 1 7 1 1 1 5 9 1 5 9 1 5 8 1 9 2 0 20 1 9 発病率 相対リスク 3.1% 1 0 0 . 0 % 1.3% 40.0% 0.6% 2 0 . 1% 57.9% 1 0 0 . 0 % 20.0% 34.5% 15.0% 25.9% 1 0 . 5 % 1 8 . 2 % プラセボの投与による発病率が 2つの試験で,明らかに異なるので,プラセボの発病率を相対 リスクで比較してみると, 200mg投与群では Ex1では 20%,Ex2では 18%と同程度の予防効果で ある. 統計モテソレを使った 2値データの解析の基本 SASの多くのプロシジャは 1症例ごとに 1行となるような形式を前提にしている.プロシジ ャによっては,同じ反応 yの症例数が n例あるというような集計されたデータセットでも扱える. 2値反応データの場合には,反応ありの症例数を rとし,その分母となる症例数を nとし , r / nを 反応"とみなすことができる. 生物を対象とする実験では,対数用量 l o g ( x ) に対する反応 r / nがシグモイド曲線状となること が経験的に知られている.シグモイド曲線として正規分布曲線,ロジスティック分布曲線,極値 分布曲線 (Gompertz分布, Gumbel分布, 2重指数関数,補 2重対数関数)が,広く使われてお り , SAS の各種のプロシジャでも自由に選択できるようになっている.シグモイド曲線の当はめ では,用量 xが Omgに近づくに従って反応が 0% (あるいは 100%) に漸近し,逆に用量 xが増加 した場合に反応は 100% (あるいは 0%) に漸近することを前提としている.用量 xが Omgのとき に反応が 0%に漸近しない場合には自然反応があるという.用量 xを増やしても反応が 100%に漸 近しない場合には,免疫反応があるという. GENMODプロシジャでの正規分布曲線のあてはめ 表 1の Ex1と Ex2に GENMODフロシジャを用いて,位置は異なるが同じ形状となる正規分布 曲線のあてはめを行う. GENMODフロシジ、ャは,説明変数として連続変数と分類変数が同時に扱 える.分類変数の場合は, c Ia s sステートメントで c l a s s E x ; とすると分類数に応じたインディ ケータ型ダミー変数,変数 Ex の試験番号を iとしたとき, ‑63一
Wi={ 1i fEx=i , oi fEx..i } が内部で生成される. Modelステートメントでは,説明変数として試験を Ex と投与量を x とした 場合に, r / n =Ex x • とする.試験 Exはインディケータ型の 2つのダミー変数として展開さ れ,説明変数は, 切片を含み 4変数となり, 7x4のデザイン行列が内部で生成される. Modelステートメントでは, さらに/の後で l i n kと d i s tオプションで反応率 r / nにあてはめる シグモイド曲線の種類と仮定する反応の分布を指定する. シグモイド曲線として正規分布曲線と する場合は dist=probitとし,反応の分布を. 2項分布とする場合は link=binomialと指定する. P r o g r a m1 正規分布曲線のあてはめ nu d a t aa m a n t a d i n e i n p u t E x$ x r d a t a li n e s E x l ̲ 成人 O 1 5 9 E x l ̲ 成人 1 0 0 1 5 9 成人 2 0 0 E x l ̲ 1 5 8 E x 2 ̲ 実験 O 1 9 E x 2 ̲ 実験 5 0 2 0 2 0 一実験 1 0 0 E x 2 1 9 一実験 2 0 0 E x 2 ー EdnFU'EA'EAanせ 円 ︽ u n L p r o cg e n m o dd a t a = a m a n t a d i n e; c l a s s E x m o d e l r / n=E xx/ l i n k ニp r o b i t d i st = b i n o m i a l; r u n O u t p u t1に GENMODフロシジャの実行結果を示す.切片 I n t e r c e p t,試験 Exについては. Exl一 成 人 と Ex2 一実験の 2水準(インディケータ型のダミー変数を W 1および W , ).投与量 xの回帰係 数の推定値が出力されている. この推定値は,次の 2つの線形回帰式 。 = 1, 2 ηi‑β + β lW l+β] W2 +β3X , i を , インフルエンザの発現率 P i j= r i j/ ni j に,正規分布曲線, P i j=NormalD i s t r i b u t i o n (1 ]j)+Ei = 1,2 . j = l, ., . ・4 j, i をあてはめたものである.ここで .Pijは.2項分布に従うことを仮定し ,jは投与量の水準で、ある. . 2 7 2 5,β1=ー1 . 5 0 6 8,β、=0 . 0 0 0 0 .s 3=‑ 0 . 0 0 5 0と推定されている. ている.回帰係数は, β。=ー0 O u t p u t1 GENMODプロシジャによる回帰係数の推定値 P a r a m e t e r 2E HU 内 内 内 HU ・Mu 9 . 7 0 内 4Ju‑‑E 6 4一 1 .9 3 4 6 . 9 7 ‑‑‑‑ 0 . 0 0 0 0 ‑ 0 . 0 0 5 0 1 . 0 0 0 0 0 . 6 5 6 5 0 . 1 1 1 6 0 . 1 9 6 0 ‑ 0 . 2 1 9 9 ‑ 1 .9 3 7 8 ‑ 1 .0 7 5 9 0 . 0 0 0 0 0 . 0 0 0 0 . 0 0 0 0 0 0 . 0 0 1 6 ‑ 0 . 0 0 8 1 ‑ 0 . 0 0 1 8 1 .0 0 0 0 0 . 0 0 0 0 1 . 0 0 0 0 a 1nHU Fhu 内HU ‑EanHU 0 . 2 7 2 5 ‑ 1 .5 0 6 8 S l a n d a r d C h i ‑ W a l d9 5 % Er r or C o n f i d e n c eL i m i l s S Q u ar e P r> C h i S Q nU ノ e¥nU hnHU S c a l e ︒ 句 x ‑Ea‑Et 内HU I n l e r c e p l E x 1 成人 E x E x 2 実験 E x D F Estimale
Ex1 成人については,ム=NormalD i s t r i b u t i o n (‑ 0 . 2 7 2 5‑ 1 .5068‑0 . 0 0 5 0・x ), Ex2実験について i s t r i b u t i o n (一0 . 2 7 2 5‑0 . 0 0 5 0・x )があてはめられた正規分布曲線である.この分布 は , ム =NormalD 曲線にしたがう推定値ムと実験で得られた刊を重ね書きした結果を図 1に示す.この図は用量 x としてはありえない負の領域まで示している.これは,正規分布曲線にかぎらず他のシグモイド 曲線のあてはめに共通する問題で,対数用量としなかったためにおきる現象である. Omg の対数 はマイナス無限大となるので,対数用量では Omgを含めることができないために便宜的に xのま まにした結果である.統計モデルとして, Omgから 200mgの範囲の用量反応関係に,正規分布曲 線の一部を使うことが,直線を用いるよりも妥当であるとの判断に基づいたためである. 1 .0 , 0 . 8寸 ‑‑‑‑‑‑‑‑‑‑.‑1 0:Ex1 x :Ex2 0 . 6 且 0 . 4 4斗 nU nu n nu nu ﹄ ︐ .nu nu nu .η4 凋斗 n u n u n 口 n u anu nu‑ ‑ n u • x 図 1 正規分布曲線のあてはめ j 刊量 xの回帰係数がん=一0.0050と負であるので,逆の正規分布曲線となっている.投与量 xが Omgのときのインフルエンザ発現率の推定は, Ex1一成人では, Pl(x=O) Ex2 実験では, =NormalD i s t r i b u t i o n (一0 . 2 7 2 5‑1 .5 0 6 8 )=0 . 0 3 7 6, 。 2(.<=0) =NormalD i s t r i b u t i o n (一0 . 2 7 2 5 )=0 . 3 9 2 6, となることが図 1から確認できる. 投与量 xの回帰係数ム=ー0.0050の SEは 0 . 0 0 1 6であり,その 95%信頼区間は(ー0 . 0 0 8 1 ー ,0 . 0 0 1 8 ) と 0を含まないので,統計的に有意な用量反応関係がある. 線形回帰式, 。 ηi‑β +β l W1+β2W 2 +β3X について推定直線を図 2に示す.各用量での発現率 Pij = r は,逆正規分布 i j /n i j ηi j =N ormalQ u a t i l e( Pi j ) ' i = l,2 . j=l, … ,4 によって変換したプロビット ( p r o b i t ) をプロットしている. 2つの試験の用量 xの直線の傾きは 共通で,切片が異なる平行線のあてはめとなっている. Fhυ GU
ヂミ二二一一一一│ :~ ぢ ‑ 1 0:E xl x:Ex2 c . ‑ 2 ‑3 。 1 0 0 x 2 0 0 (probit) に対する用量反応関係 図2 η LOGISTICおよび NLMEXDプロシジャでの正規分布曲線のあてはめ Program2 に示すように LOGISTICフロシジャでも同様に正規分布曲線をあてはめることがで きる. GENMODプロシジャでは,試験 Exのデザイン行列にインディケータ型ダミー変数をディ フォルトにしているが, LOGISTIC フロシジャでは,対比型がディフォルトである.そこで, param=GLMオプシヨンでインディケータ型ダミー変数を生成させる. GLM"は , GLMプロシジ ャ流のダミー変数を生成せよとの意味であり, SASの GLMフロシジャでは,長年インディケー タ型ダミー変数が使われてきたことに由来している. Modelステートメントのオプションで, t e c h n i q u e = N e w t o n としているのは, LOGISTICプロシ ジャのディフォルトの解法がフィシャーのスコア法であり, GENMODプロシジャでは, 2階の偏 微分を使うニュートン・ラフソン法であり,解法を統一するためである.これは, 2つの解法で, 回帰係数の推定値は一致するのであるが, SEは完全には一致しないためである. あてはめる曲線は, LOGISTICフロシジャでも, GENMODフロシジャでも,ディフォルトはロ ジスティック分布曲線であるので,正規分布曲線にするために, l i n k = p r o b i t オプションを付け ている. P r o g r a m2 LOGISTICプロシジャの場合 p r o cl o g i s t i cd a t a = a m a n t a d i n e; c l a s sE x/p a r a m = G L M; m o d e lr / n=E xx/ l i n k = p r o b i tt e c h n i Q u e = n e w t o n r u n, 非線型回帰 NLMIXEDプロシジャでは,自然反応がある場合,免疫反応がある場合など,様々 なシグモイド曲線のあてはめを直接行うことができる.ここでは, 2つの正規分布曲線の同時あて はめを行なうために, Data ステップで前もって生成したダミー変数 W 1 を使う • NLMIXEDプロシ ジャでは, P r o g r a m3 に示すように推定する回帰係数を含めて直接 GU GU
e t a=b e t a Otb e t a lキw ltb e t a 3* X p i =p r o b n o r m ( e t a ) のようにプログラムする.用いる回帰係数は, p r a mステートメントで変数名とおおよその期待す る回帰係数の推定値を初期値として与える.ここでは,一律 oとしている. NLMIXEDプロシジャのオプションで, d f = g e t 8としているのは,回帰係数の検定統計量として t値を使っているために, GENMODプロシジャの自由度 1の x2検定統計量の p値と合わせるため に,自由度を限りなく大きくして,正規分布に漸近させるためである .M o d e lステートメントは, GENMODプロシジャの m o d e lステートメントのオプションで指定した二項分布 d i s t = b i n o m i a l に対応するように ,rが,観測数 n ,推定値 p iの二項分布に従うことを m o d e lr ‑ b i n o m i a l ( n, pi ) ;と直接的にプログラムしている. P r o g r a m3 NLMIXEDプロシジャの場合 d a t aa m a n t a d i n e 2 s e t a m a n t a d i n e 官1 =( E x = ' E x l ̲ 成人, ) 同 =( E x = ' E x 2 一実験.) p r o cn l m i x e dd a t a = a m a n t a d i n e 2 d f = g e t 8 e t a l0 b e t a 30 p a r m s b e t a O0 b e t a=b e t a Otb e t a l事官 1tb e t a 3本E p i =p r o b n o r m ( e t a ); i ) m o d e l r‑b i n o m i a l ( n,p r u n. なお, M o d e lステートメントで, m o d e l r‑b i n o m i a l ( n,p r o b n o r m ( b e t a Otb e t a lキw l tb e t a 3* x ) ): のように 1行で書こともできる.ここでの事例のような反応率が Oから 1の場合に, NLMIXED プロシジャを使う必然性は全くないのであるが,更なる応用問題に適切に対処すためには,最も 基本的なモデルに対するプログラミングをして,結果が他のプロシジャの結果と一致することを 常に確認する必要がある. 3 . オッズ比による有害事象の比較 アマンタジンの投与によってインフルエンザの予防効果を保ちつつ,有害事象を減らす用量を e u m a n ら (1 9 8 9 ) のダブルブラインド試験の副次的な目的であった.アマンタ 探索することも R C e n t r a ln e r v o u ss y s t e m ) の有害事象を軽減しつつ予防効果が期待できる投与 ジンの中枢神経系 ( 量として 1 0 0 m g群が設定されている.一般成人を対象にした場合には,フラセボのインフルエン ザ発病率が期待した 30%より極端に低く 3 . 1 %しか発現せず,アマンタジンの投与による予防効果 について有意な差を得ることができなかった.しかしながら,表 2 に示すようにアマンタジン ‑67
100mg群で中枢神経系の有害事象がフラセボ群なみの結果となり,副次的な目的は達成された. 発現レベルが異なる有害事象の投与量聞のプロファイル比較をする場合の統計量としてオッズ 比が優れている.アマンタジン 200mgのフラセボに対するオッズ比は,全体で1.83倍,中枢神経 , 0 . 9 1倍 , 1 .00 系で 2.27倍,消化器系で1.48倍であったのが, 100mg群では,それぞれ, 0.94倍 倍とプラセボと同程度の発現率に軽減したことが一見して把握できる. 表 2 アマンタジンのオッズ比による有害事象の用量反応関係の比較 P l a c e b o N % T o t a lNo.o fs u b j巴c t s T o t a lNo.( % )o fs u b j巴c t s withadvers巴 expenences t r a ln巴rvous C巴n G a s t r o i n t e s t i n a l C a r d i o v a s c u l a r Whol巴 body Ama n t a d i n巴 100mg A m a n t a d i n巴 200mg % オッズ比 1 5 9 4 9 30.8% % n オッズ比 1 5 9 4 7 2 9 . 6 % 0 . 9 4 1 5 8 7 1 44.9% 1 .8 3 2 5 1 5 . 7 % 1 2 7.5% 1 0.6% 2 4 1 5 . 1 % 2 3 1 4 . 5 % 1 2 7 . 5 % 0 . 6 % 1 6 1 0 . 1% 47 29.7% 1 7 10.8% 0.6% 3 . 3 % 2 1 1 2 . 2 7 1 .48 1 .0 1 0 . 8 6 0 . 9 1 1 .00 1 .00 0 . 6 3 日 口ジスティック回帰でのオッズ比 オッズ比 ( o d d sr a t i o )は , 2つの群の反応率を P lと P 2としたときに,それぞれのオッズ Pl/(l‑Pl) と P2/ (1‑P 2 )の比, P2/(1‑P2) OR=一一一一一一一一 P l/ ( 1 ‑P l ) として定義されている統計量である. 2群聞の反応率の比はん /P lであるが,反応率は,小さいほ 2=95%の差は うを期待する場合,大きいことを期待する場合の 2面性がある.反応率 Pl=90%と P 5%ということもできるが, 100%に近づけることが困難な場合に反応率を 90%から 95%にするの は , ( 1‑0 . 9 0 )/ ( 1 ‑0 . 9 5 )=2 . 0倍の価値があるともいえる.しかしながら, 0.95/0.90=1 .06倍とした . 1 1 場合は,その価値を過小評価することになりかねない.オッズ比は,これら 2つの比の積で, 2 倍になる. P2/(1‑P2) P 2 1‑Pl 0.95.1‑0.90 OR=一一一一一一一=一一・一一一一=一一‑x一一一一一=1 .06x2 . 0=2 . 1 1 P l / ( l ‑ P l ) PI1‑P2 0.901‑0.95 オッズ比は,反応率が小さい場合には,反応率の比と同様であり,反応率が大きい場合は,反 応を 100%に近づけるための労力の程度を表す統計量として用いることができる.反応率 Pl=lO% とれ =5%の場合は, 0 . 0 5 1‑0 . 1 0 OR=一一‑x一一一一一=0 . 5 0x0 . 9 4 7=0. 474 0 . 1 0 1‑0 . 0 5 のように 0. 474倍となるが , P ;=90%とP;=95%で、あっても両者の関係は互いに逆数の関係となっ ていて,反応率の大小に関係に関わらず統計量としてのオッズ比は,一意に定まる.しかしなが 68‑
ら,オッズ比が何を表す統計量なのかを,簡単に説明し理解を求めることが困難である.そのた めに,私自身は,有効率の比,あるいは有害事象の発現率の比と同様の統計量と理解して差し支 えないと,説明することにしている. LOGISTICプロシジャによる解析 プラセボ群の有害事象の発現率を Plとし,アマンタジン 100mgと 200mg群の有害事象の発現 率を P21 と P22としたオッズ比は,表 2に示しであるように, 200mg群の中恒神経系のオッズ比が 2 . 2 7倍,消化器系は1.48倍とフラセボに比べて有害事象の発現率が高いが, 100mg群は 0 . 9 1倍 , 1 .00 倍とフ。ラセボとほとんど同じであることが一目でわかる.オッズ比とその 95%信頼区間を LOGISTICプロシジャで計算してみよう. SASデータセットの作成と LOGISTICプロシジャを用いた SASフログラムを Program4に示す. SASデータセットの作成は,有害事象の 1項目ごと,投与量群ごとに r / n の形式となるように d o および e n dステートメントを用いている. I n p u tステートメントの eは,入力ポインタを 改行 しないで留まれ"とする制御情報である. P r o g r a m4 オッズ比の計算 d a t aa m a n t a d i n e ̲ a d; , i n p u t a d$ 1 4 . 。 d o x=O .1 0 0 .2 0 0; i n p u t r n@ ; o u t p u t e n d; d a t a l i n e s; 0 :有害事象全体 4 9 1 5 9 4 1 1 5 8 7 1 5 9 7 1 :中枢神経系 2 5 1 5 9 2 3 1 5 9 4 7 1 5 8 2:消化器系 1 2 1 5 9 1 2 1 5 9 1 7 1 5 8 1 5 9 3:呼吸器系 1 5 9 1 5 8 2 4 1 5 9 1 1 1 5 8 4 :全身症状 6 1 5 9 2 p r o cl o g i s t i cd a t a = a m a n t a d i n ea d; c l a s s x( p a r a m = r e f e r e n c er e f = f i r s t ) 皿o d e l r / n=x/ l i n k = l o g itexpb; キ / t e c h n i q u e = n e w t o n* / b y a d 00ステートメントで,まず x=O にセットして r と n を読み,そのまま入力ポインタをその 場に留めておき,次の o u t p u tステートメントで,その時点で入力されている ad,x, r , nを SAS データセットに出力する. Endステートメントで最初に戻り .x=1 0 0 とセットし,次のデータリ ストを r と n として読み,これまでの r と nに上書きする.再度 o u t p u tステートメントで a d . X,r ,n を SASデータセットに出力する.このような手順で 5行分の入力データリストから, 1 5 行4 9 1 Jの SASデータセット a m a n t a d i n ea dが作成される. 説明変数として LOGISTICフロシジャも.GENMOOフロシジャと同様に連続変数と分類変数を ‑69ー
目的変数として混在して使うことができる. C l a s s ス テ ー ト メ ン ト で 投 与 量 x の後の (param=reference ref=first) は,分類変数から解析用のためのダミー変数を生成するときのオ プションであり,最初の水準を基準とした表 3 に示すような参照型のダミー変数が生成される. これにより,プラセボを基準とし 100mg群と 200mg群とのオッズ比を推定することができる. Modelステートメントでは, r/n=x のように反応変数として r /n を用い,説明変数とし ての投与量 x は,参照型の 2つの夕、ミ一変数として展開される. Modelステートメントでは,さ らに/の後に link=logit でシグモイド曲線として,ロジスティック分布曲線のあてはめを行い, expbはオッズ比を回帰係数の推定値の後に追加出力するオプションである.解法のオプションは, ヰ / t e c h n i q u e = r 印刷 o n* 1とコメントにしてあるので,ディフォルトの解法である l階の偏微分を使 ったフィシャーのスコア法となる.このために, 2階の偏微分を使うニュートン・ラフソン法を使 っている GENMODプロシジャの 95%信頼区間とは,若干異なる場合がしばしば起きるので注意が 必要である. LOGISTICプロシジャでは,反応の分布を常に 2項分布と仮定しているので, GENMODプロシ ジャのように分布関数をオフションで設定する必要はない.さらに, byステートメントにより有 害事象の項目ごとに解析を繰り返すようにしている O u t p u t4に中枢神経系の有害事象について LOGISTICフロシジャでの最尤法による結果を示す. x p ( β ] ), e x p ( β 2 )によって計算されたフラセボを基準としたアマンタジンの 100mg と 推定値と e 200mg群のオッズ比と 95%信頼区間が, 0 . 9 0 6倍 ( 0. 49 0 ' " ' " "1 .6 7 9 ),2 . 2 7 0倍 (1 . 31 4 ' " ' " " 3 . 9 2 0 ) と出力 されている. 200mg群の 95%信頼区間の下限が1.31 4倍と 1を含まないので,有意な有害事象の 発現である.他の有害事象についても byステートメントによって計算されているが,結果の表示 は省略する. O u t p u t4 中枢神経系の有害事象についてのオッズ比の推定 A n a l y s i so fM a x i m u mL i k e l i h o o dE s l i m a l e s P a r a m e l e r D F E s l i m a l e S l a n d a r d E rr or W a l d C h i ‑ S q u a r e ‑ 1 .6 7 9 0 ‑ 0 . 0 9 8 2 0 . 8 1 9 6 0 . 2 1 7 9 0 . 3 1 3 5 0 . 2 7 8 8 5 9 . 3 9 2 3 0 . 0 9 8 1 8 . 6 3 9 6 I n t e r c e p l x 1 0 0 x 2 0 0 C h i S q P r> く. 0 0 0 1 0 . 7 5 4 1 0 . 0 0 3 3 E x p( E s1 ) o .1 8 7 0 . 9 0 6 2 . 2 7 0 O d d sR a l i oE s l i m a t e s E f f e c t P o i n t E s l i m a l e x1 0 0v s0 x2 0 0v s0 0 . 9 0 6 2 . 2 7 0 9 5 %W a l d C o n fi d e n c eL i m iI s 0 . 4 9 0 1 .3 1 4 1 . 6 7 6 3 . 9 2 0 口ジスティック回帰によるオッズ比の推定 有害事象の c l a s sステートメントでフラセボを参照水準とした 2つのダミー変数を W]と Wo とし ‑70
た と き に 表 3に示すように W は 100mgのときにのみ 1, w2は 200mgのときにのみ 1となるよ 1 うな変数である. 表3 C a l s sステートメントの参照型ダミー変数 Iw 吋 J ν 守/ 率 1 5 . 7 % 1 4 . 5 % 2 9 . 7 % 1 t i nり 吋 σbob n 1 5 9 1 5 9 1 5 8 内り r & r‑A‑T ︑ 戸︑ 司 σ白 内り m プ ‑ ハ リ ハU t t i 吋ノ‑ 子 ︑ m m ・ ・ ﹂ 刈 ハ リ ハU フ ‑ プ ↓ ︐ r 。 。 w2 LOGISTIC プロシジャでは,中枢神経系の有害事象について回帰係数がん=ー1.6790, sl=ー0 . 0 9 8 2, ム =0.8196として推定されている.これらの推定された回帰係数から,次のロジ スティック分布曲線により反応率が推定される. ム exp(β0+βlW1+ β 2W 2) 。 1+e x p ( β +βlW1+ β 2W 2) 実際に計算してみると, プラセボ :Omgの場合は , w1= 0, w2 = 0なので推定値は, ム =e x p (‑ 1 .6 7 9 0 )/ { 1+e x p (一 1 .6790}=0 . 1 5 7, となる.これは, 25/199 で計算された反応率に一致する.同様に, 100mgの場合は ,w1 =1,w2 =0 なので推定値は, ム =e x p (‑ 1 . 6 7 9 0‑0 . 0 9 8 2 )/ ( 1+e x p {一 1 .6790‑0 . 0 9 8 2 }=0 . 1 4 5, であり, 200mgの場合は W 1 =0, w2 =1なので, P 3=exp(一1.6790+0.8196)/ ( 1+e x p (一 1 .6790+0 . 8 1 9 6 )=0 . 2 9 7 となり , r jで計算された反応率に一致する.プラセボに対する j /n 100mg群のオッズ比は , e‑O.0982 =0 . 9 0 6, 200mg群のオッズ比は , eO.8196 =2 . 2 7 0 のように推定された回帰係数について指数をとるこことで推定できる.プラセボ群のオッズは, e x p ( β。 )/ { 1+e x p (ん )} 戸1 e x p ( β。 ) / { 1+e x p ( s o ) } =e x p ( β。 ) 1‑P l 1‑e x p (ん)/ { 1+ex p ( β。 ) } 1 / { 1+e x p ( β。 ) } であり, 100mg群のオッズは同践に, 九 E x p (ん +β1)/ { 1+e x p (ん +βl)} 。 。 1‑P 2 1‑e x p ( β +β1)/ { 1+e x p ( β +β r ) } 。 。 +s l ) } ,I " =e x p ( β。 +β1) 。 +sl)} E x p ( β +β1)/ { 1+e x p ( β 1/ { 1+e x p ( β 'U . J であるので,オッズ比は, ム( 1ーム) e x p( sU ~+β 1) x 一一一一一=‑ ‑ T , , ‑O , ‑ 1" =e p ( β 1) ム( 1ーム) e x p ( β。 ) 'E4 7s
となることから推定したのである. SASでは PROBITプロシジャが古くからのサポートされ,そ の後 LOGISTICプロシジャが加わり,さらに GENMODプロシジャが加わったのであるが,いず れのプロシジャでも,シグモイド分布曲線の種類を選ぶことができる.しかしながら,回帰係数 の指数をとってオッズ比となるのは,シグモイド曲線にロジスティック分布曲線を用いたときに のみであることに注意してもらいたい. GENMODプロシジャでのオッズ比の計算 GENMODプロシジャでのオッズ比の算出は, P r o g r a m 5に示すように e s t i m a t eステートメント で巴xpオプションを付けて行う. E s t i m a t 巴ステートメントは, modelステートメントで生成された デザイン行列によって推定された回帰係数を用いて,保々な推定値を得るためのものである. Program5 GENMODプロシジャでのオッズ比の算出 p r o cg e n m o dd a t a = a m a n t a d i n e ̲ a d; 曹h e r e a d = '1 :中枢神経系' c l a s s x( p a r a m = r e f e r e n c er e f = f i r s t ) m o d e l r / n=x/ d i s t = b i n o m i a ll i n k = l o g i t; s1 0 0 ' x 10/e x p; e s t i m a t e ' o d d s : 0v s2 0 0 ' x 0I/exp; e s t i m a t e ' o d d s : 0v b y a d r u n, C l a s sステートメントで用量 xは,表 3で示した参照型にしており, 2つの推定値目0 . 0 9 8 2,0 . 8 1 9 6 に対して任意の係数を設定できる ' o d d s : 0v s1 0 0 ' x 10 は , 1x( ‑ 0 . 0 9 8 2 )+0x0 . 8 1 9 6のよ うに推定された回帰係数ベクトルに 1と oを掛けた推定値を求めるように指示している.どのよ うな推定値になるかを出力に明示するためにシングルクウォテーションの中で推定内容が分かる ような記述としている. Exp オフションは,推定値に対して指数の計算の追加を指示する.あて はめにロジスティック分布曲線を使った場合に限って,それがオッズ比になることを繰り返し注 意しておく. O u t p u t5 E s t i m a t eステートメントの出力 C o n t r a s tE s t i m a t eR e s u l t s L a b e l E s t i m a t e o d d s : 0v s1 0 0 E x p ( o d d s : 0v s1 0 0 ) o d d s : 0v s2 0 0 E x p ( o d d s : 0v s2 0 0 ) ‑ 0 . 0 9 8 2 0 . 9 0 6 5 0 . 8 1 9 6 2 . 2 6 9 5 S t a n d a r d C h i l p h a C E r r口「 A o n f i d e n c eL i m it s S q u a r e P r> C h i S q 0 . 3 1 3 5 0 . 2 8 4 2 0 . 2 7 8 8 0 . 6 3 2 8 0 . 0 5 0 . 0 5 0 . 0 5 0 . 0 5 ー 0 . 7 1 2 7 0 . 4 9 0 3 0 . 2 7 3 1 1 .3 1 4 0 0 . 5 1 6 3 1 .6 7 5 8 1 .3 6 6 1 3 . 9 2 0 0 0 . 1 0 0 . 7 5 4 1 8 . 6 4 0 . 0 0 3 3 4 . 世界的規模で行われている繰り返し実験の解析 オセルタミビルのインフルエンザの予防効果について 7つの臨床研究の結果を表 4 に示す. 7 ‑72一
つの臨床研究は,独立に行われているが,先行する研究デザインを踏襲しており,世界的規模で 行われている繰り返し実験である.異なる 4 つの対象集団に対して同様の薬効がオセルタミビル に期待できるのかが逐次検討されてきた.異なる対象集団は,実験計画法でいう標示因子(対象 集団によって薬剤の効果が,どのように変化するのか,その効果を使用するユーザの立場に立っ て,前もって実験の因子として設定する)とみなせる.さらに,それぞれの対象集団の中で,実 験が 2回反復されている. 表 4 オセルタミビルのインフルエンザ発症予防試験 対象集団 A1:実験的研究 A2:一般成人 A3品齢者 A4:家族内 B 2 :オセルタミピル群 r n 6 2 1 32 39 1 0 4 0 1 3 2 1 5 3 1 276 209 1 6 244 1 0 1 9 8 2 80 B 1 :プフセボ群 F n 1 2 8 1 7 1 9 2 5 519 1 3 1 5 5 1 2 272 4 3 206 258 3 3 1 5 1 1 4 4 1 N o .著 者 年 1 : H a y d e n1 9 9 9A 型 2:Hayden2000B型 3 : H a y d e n1 9 9 9 4 :柏 木 2000 5:WV15825 6 : W e l l i v e r2 0 0 1 7 : H a y d e n2004 全体 車研究 1 .2 . および 3は,オセルタミピル用量を併合した結果を示している. 実験計画法の観点からこれらの臨床研究全体を整理してみる.標示因子として因子 A を 4水準 (A1:実験的研究. A2:一般成人. A3:高齢者, A4:家族内),制御因子として因子 B では 2水準 ( 8 1 : プラセボ群. 82:オセルタミビル群)を取り上げていた.因子 B は,因子 A に対して枝分かれに し. 2 回反復で,対象集団をランダムに 81:フラセボと 82:オセルタミビルに割り付けて,イン フルエンザの発病(有,無)を観測した.実験結果は 1999年から 2004年の 5年間の問で公表さ れた.結果は,表 4 に示すように, 81:フラセボと 82:オセルタミ,ビルについて,インフルエン ザが発病した人数を r , 全体を n として整理した.なお, A3:高齢者に対しては,実験は 1回であ った. インフルエンザ発病率をロジット変換 l o g ( p / ( l ‑ p ) した結果を図 3に示す.対象集団の水準によ ってインフルエンザ発病率のレベルが大きく異なるが,同じ対象集団の中で、の差は小さいようで 4 2 ( I l . 乙 " 冶 ι 一 一 一 寸 D O 0:Al,実験的研究 x 必,一般成人 且 ̲ Q‑ 2 ム :A3,高齢者 l l D ロ:A4,家族内 , . . . o ' " "‑4 ‑ 6 1 : p l a c e b o 2 : o s e l t a m i v i r 図 3 インフルエンザ発病率のロジット ‑73一
ある.傾きは, B2:オセルタミビルに向けて同様に下がっているが,交互作用が出るとは思われ ない. GLMプロシジャによるデータ構造の確認 実験計画法の観点でこの実験モデルは,枝分れ型分割実験と理解できる.実験データのランダ ム化の構造を理解するために,インフルエンザの発病の有1,無 :0とし,それを計量値とみな して, P r o g r a m6に示すように GLMプロシジャを適用し,実験のランダム化の構造の把握をして みる. P r o g r a m6 データ構造把握のための GLMプロシジャ d a t a o s e 4 ̲ 0 1; i n p u t A$ E x$ 1 6 . @; d o B=0 ,1; i n p ut r n n自 由 ; y = l ;n = r ; o u t p u t ; y = O ;n = n n ‑ r ;o u t p u t ; e n d, d a t a li n e s; A 1 I : H a y d e n ̲ 1 9 9 9 8 1 2 6 2 1 A 1 2 : H a y d e n ̲ 2 0 0 0 1 7 1 9 3 2 3 9 A 2 3 : H a y d e n ̲ 1 9 9 9 2 55 1 9 1 31 0 4 0 2 0 0 0 1 31 5 5 21 A 2 4 :柏木̲ 5 3 A 3 5 : W V 1 5 8 2 5 1 22 7 2 12 7 6 A 4 6 : W e l l i v e r2 0 0 14 32 0 6 1 6 2 0 9 A 4 7 : H a y d e n ̲ 2 0 0 4 3 32 5 8 1 0 2 4 4 p r o cg l m d a t a = o s e 4 ̲ 0 1; c l a s s A E x B ; m o d e l y=AE xBAヰB E xヰB/s s l; t e s t H = A E = E x; f r e Q n; r u n, GLMプロシジャは, 2値反応の解析の機能は持っていないのであるが, GLMプロシジャは, SAS の初期のパージョンから提供されている実験データの解析の中心的なプロシジャであり, LOGISTICプロシジャでも GENMODプロシジャでも, m o d e lステートメント. e s t i m a t eステート メント. c o n t r a s tステートメント. l s m e a n sステートメントなどの記述は. GLMプロシジャに準じ ており, SAS の関連するプロシジャでも GLM プロシジャの構文をしばしば引用している.私自 身も, GLMプロシジャの扱いに慣れていることもあり, GLMプロシジャの結果と LOGISTICプ ロシジャあるいは GENMOD フロシジャの結果を対比することは,新しいプロシジャの適切な使 い方やそれらの限界などについて,ベンチマークしやすいからである. D a t aステップにより. 2値反応を yとする 7X2X2=28行のデータセットが作成される. GLM プロシジャの modelステートメントでは,因子 Aから枝分かれになっている試験 Exも含めている. a 可︐ A 斗ム
試験 Exと因子 A は完全に交絡しているので,逐次型の平方和 t y p巴1の分解を指示するオプション s s l を指定している ( T y p e 3の平方和は,枝分かれする因子が含まれている場合は,因子 A の自由 度が Oと表示され解析不能となる).この結果として,試験 Ex は 7水準で、あるが,完全に交絡し ている因子 A の 4水準を除いた残りの 3水準分の平方和が分散分析表に残ることになる. T e s tス テートメントでは,因子 A の平均平方(分散)を誤差項となる試験 Exの平均平方で害リって F検 定をするように指示している. GLMプロシジャの結果を見やすいように整理したのが O u t p u t6である.分割の 1次因子 A は , 自由度 3の 1次誤差 Exで検定した結果 , F値は 8 . 3 7と大きいのであるが,誤差の自由度が小さ . 0 5 2 4と有意な差でなない.1次誤差となる Exを 2次誤差で検定した結果は p<0 . 0 0 0 1 いので ,p= 0 と有意である.対象集団 A と薬剤 B との交互作用は p<0 . 0 0 1と有意な差となった. O u t p u t6 GLMプロシジャの出力を整理した分散分析表 T y p e IS S M S o u r c e D F a l u e P r F e a nS q u a r e FV 3 41 A .1 8 5 0 6 6 9 5 1 3 . 7 2 8 3 5 5 6 5 8 . 9 6 0 . 0 5 2 4 3 4 1 . 5 3 2 7 6 2 9 3 31 .7 4 く. 0 0 0 1 E x . 5 9 8 2 8 8 8 0 3 . 3 1 6 0 5 5 9 1 3 . 3 1 6 0 5 5 9 1 6 8 . 6 6 〈. B 0 0 0 1 A本 日 1 .0 3 0 0 9 9 3 6 0 . 3 4 3 3 6 6 4 5 7 . 1 1 く. 0 0 0 1 E x本 日 3 0 . 6 4 3 7 0 2 6 2 0 . 2 1 4 5 6 7 5 4 4 . 4 4 0 . 0 0 4 0 Er r or 3 4 0 9 1 6 4 . 6 3 7 8 2 9 3 0 . 0 4 8 2 9 5 1 E o r r e c t e dT o t al 3 1 5 . 4 1 1 0 4 2 9 4 2 2 2 > 因子A の F値は,誤差を Exとしている.これは, t 巴s tステートメントで計算した結果である. GENMODプロシジャによる解析 GENMODプロシジャには, P r o g r a m7示すように modelステートメントオプションで t y p e lを 指定することにより, GLMフロシジャの s s lと同じような逐次型の平方和の分解に対応する機能 Program7 GENMODプロシジャによる逐次型デビアンス d a t a o s e l t a m i v i r 4 ; i n p u t A$ E x$ 1 6 .@ ; d o B=0 ,1 i n p u t r n @; o u t p u t, e n d d a t a l i n e s A 1 1: H a y d e n ̲ 1 9 9 9 8 1 2 6 2 1 :中略 A 4 7 : H a y d e n ̲ 2 0 0 4 3 32 5 8 1 0 2 4 4 p r o cg e n m o d d a t a = o s e l t a m i v i r 4, c l a s s A E xB ; m o d e l r / n= A E xBA章BE x章B Ilink=logit dist=binomial t y p e 1 r u n, υ 戸 同 i ヴ
を持っている. GLMプロシジャの t y p e lの平方和は, mode!ステートメントで示した説明変数の 並び順に因子を逐次組み込んだ時の残差平方和の減少分をその因子の平方和としている. GENMODプロシジャでは,対数尤度の‑2倍で計算されるデビアンスの減少分をその因子の効果 の大きさを表す x~ 統計量としている.枝分かれ型の分割実験の場合には, GLM プロシジャと同 様に, それらを組換えことにより 分散分析"表を作成することができる. O u t p u t 7 に逐次型デビアンスの結果を示す. O o r r e c t e dT o t a ! u t p u t 6 の平方和の合計 C ST= 215. 41に対応するのは,切片In t e r c e p tのデビアンス DT=434.37である.因子 A のデビアン ス DA = 1 0 0 . 3 9は,因子 Aをモデルに組み入れたときの GLMプロシジャの誤差平方和に対応する. 因子 A の平方和は,切片のみの残差平方和 STの合計から因子 A をモデルに入れたときの残差平 方和を引いて求めることができる. これと同じように,因子 A の X2統計量は 2つのデビアンスの 差から x~ =DT‑DA =434.3730‑100.3931=333.98 として求めることができる. このデビアンスの差は,因子 A の場合は自由度 3の X2分布に従うこ とから p値が求められている. モデルに因子 A と因子 Exを含んだ場合のデビアンスは. 71 .0 3である. これは,因子 A と交絡 しない因子 Exの残りの自由度が 3あることが示されている. 因子 A がモデルに含まれていなけ れば, 因子 Exの自由度は 6で , デビアンスは, 1 0 0 . 3 9+71 .0 3= 1 71 .42 になる. O u t p u t7 逐次型デビアンス L RS t a t i s t i c sF o rT y p e 1A n a l y s i s │ 円 t e r c e p t A E x B A本B E x本B D e v i a n c e D F 4 3 4 . 3 7 3 0 1 0 0 . 3 9 3 1 71 .0 3 3 3 3 . 7 1 2 3 1 .1 8 4 5 0 . 0 0 0 0 l ぺ d d 4 勾 1u 唱 弓 S o u r c e C h i ‑ S q u a r e h i S q P r C 3 3 3 . 9 8 2 9 . 3 6 6 7 . 3 2 2 . 5 3 1 .1 8 く. 0 0 0 1 く. 0 0 0 1 く. 0 0 0 1 0 . 4 7 0 3 0 . 7 5 6 7 > 因子 A の検定は, GLMプロシジャで行ったように, 1次誤差 Exで検定したと同様に, Xム=DA ‑DEx = 1 0 0 . 3 9 3 1 ‑71 .0333= 2 9 . 3 6 で行う必要がある. 2 つの x~ 分布に従う確率変数の比は F 分布に従うことから p 値を計算するこ とができる. xi ̲ <=Dべ ‑DEx =100.3931‑71 .0333=2 9 . 3 6 FA =x~ 1 xi . x=333.98/29.36=11.37. P=0.0212 . 0 2 1 0となり. GLMプロシジャの場合は p = 0 . 0 5 2 4と有意で、なかったが,有意な差とな P値は. 0 り,対象とした集団関でのインフルエンザ発病率に差があると結論される.対象集団 A に対して, ) の一元配置型 自由度が 3の誤差を用いるのは. 4つの対象集団に対して繰り返しが 2(A3では 1 GU マー
の実験として解析したことと対応する.これらの結果を表 5に分散分析表スタイルにまとめる. , GLMフロシジャでは , p <0 . 0 0 0 1と有意であるが, GENMOD 因子 Aと因子 B の交互作用 A*Bは プロシジャでは ,p =0 . 47 0 3 とまったく異なる結果となっている.これは, 2値 ( 0,1 ) を計量値 とみなした場合に,試験 Exの反応率の範囲が広いにも係わらず線形モデルを適用したために起き た現象である. 表 5 ロジスティック回帰の分散分析表スタイル 要因 自由度 x2値 3 3 3 3 3 . 9 8 2 9 . 3 6 6 7 . 3 2 . 53 2 1 . 18 A E x B AB E xB 2次 誤 差 Cわ 全体 1 3 3 3 牟 牟 p 1 直 F1直 1 1 . 37 0 . 0 2 1 2 < . 0 0 0 1 0 . 47 0 3 0 . 7 5 6 7 4 3 4 . 3 7 共通オッズ比による要約,固定効果モデル 実験のランダム化の構造を見極めるために GENMODプロシジャの逐次型 t y p e 1のデビアンス を用いた検討法を示したのであるが,これだけでは不十分である.そこで,プラセポに対するオ セルタミビルの共通オッズ比によって結果の要約してみよう.共通オッズ比の算出には, FREQ プロシジャによる CMH 法とロジット法があるが,ここでは, LOGISTOC プロシジャおよび GENMODプロシジャを用いる最尤法について示す. 試験 Exごとのオッズ比は, P r o g r a m8に示すように,試験 Exを b y変数とすることによって求 r o g r a m7のデータの入力 n 寺に薬剤 B は,フラセボを 0 ,オセルタミビルを 1として入 められる. P 力しであるので m o d e lステートメントで計量値として扱うことにより,オッズ比と 95%信頼区間 が直接出力される. 7つの試験 Exを固定効果としてあつかった共通オッズ比は, B のような主効果モデルで求められる. P r o g r a m8 LOGISTICフロシジャによる固定効果のオッズ比 ・ V ‑ a ρし ' h u ︐ . nU n u ρu l υ A w AC n u n u ‑ n u ‑ ‑ nし ‑l n L u tρu ︽ U ‑‑1 anTna ‑77 . ︐ ︑ ︑ ノ ・I 6LOb F1 A=nU FAVA'f・ l 3A= ‑YA・ VFI‑‑K 見U O &ELPi 1ij/ nupi 4EbVA n u eel s e n D ==vA a a n ι ( gU2nu znunur‑‑ EL CE/' na iAn 巴r l 刊 u 山 田 ・ ' ‑‑1io A p a︐ obnbpu ︐ .ハυ qa ︐AU pum n し nunμ VA nurFA ‑‑ ︐ .EFA し ︐ ・ p r o cl o g i s t i c d a t a = o s e l t a m i v i r 4 ; i n k = l o g i tt e c h n i Q u e = n e w t o ne x p b; m o d e l r / n=B/ l E x; b y r u n m o d e lr / nニ E x
表 6 複数の臨床研究 発現率 対象集団 A 1 :実験的研究 A 2 :一般成人 A3i 苛齢者 A 4 :家族内 共通 N o .著 者 年 l : H a y d e n1 9 9 9A型 2 : H a y d e n2 0 0 0B型 3 : H a y d e n1 9 9 9 4 :柏木 2 0 0 0 5:WV15825 6 : W e l l i v e r2 0 0 1 7 : H a y d e n2004 最尤法:固定効果 プラセボ 0 . 6 6 7 0 . 8 9 5 0 . 0 4 8 0 . 0 8 4 0 . 0 4 4 0 . 2 0 9 0 . 1 2 8 オッズ比 0 . 2 0 0 0 . 5 3 8 0 . 2 5 0 0 . 1 4 5 0 . 0 7 9 0 . 3 1 4 0 . 2 9 1 0 . 2 5 8 オセルタミビル 0 . 2 8 6 0 . 8 2 1 0 . 0 1 3 0 . 0 1 3 0 . 0 0 4 0 . 0 7 7 0 . 0 4 1 」 信頼区間 L95 0 . 0 4 3 0 . 1 0 0 0 . 1 2 7 0 . 0 3 2 0 . 0 1 0 0 . 1 7 1 0 . 1 4 0 0 . 1 8 2 U95 0 . 9 2 2 2 . 8 8 0 . 49 3 0 0 . 6 5 2 0 . 6 1 0 0 . 5 7 9 0 . 6 0 5 0 . 3 6 5 オッズ比による要約,条件付ロジスティック回帰 各層の例数が少なくなったときには, LOGISTICフロシジャの s t r a t aステートメントで層を指定 することにより, Program9 示すように条件付ロジスティック回帰による共通オッズ比の推定もパ 0 . 1 8 2, ージョン 9からできるようになった.最尤法による共通オッズ比 (95%信頼区間)は, 0.258( 0 . 3 6 5 ) であるのに対し,試験 Exを s t a r a t aステートメントで層とした場合にも共通オッズ比 0 . 2 5 9 ( 0 . 1 8 4,0 . 3 6 7 ) と同様の結果が得られる. Program9 層を考慮した最尤法(条件付きロジスティック回帰) Thu 会昼 ff' n u ω λ白 川 = u a 円 ・ l き目 ν n 付 n 件 件関 r r ' ︑ 語 '‑ ‑ T nρuu し PU n u ‑ h U V14EE‑ ‑'βi a‑ ‑l ・ l v ‑ ・ σ b 皿 1i ・1 A n u qa= i K nu ・ 1 1 =ff' qa au ・'A p a‑‑ n u n u φLnD 匁u ︐ nu‑‑ 03 何 puvA rVA ・ pivm山岨 Q U V A ‑‑EUrEU ︐ ︐ i d i gS sI et a‑︐ Pし nuqa ︐ パU F A n u 'tA'tAnu&1 nu vi n u ν n 変量効果モデル 試験を変量効果とする解析は, GENMODフロシジャの r e p e a t e dステートメントを使う GEE法 , NLMIXEDプロシジャを使う方法がある.固定効果モデルでの共通オッズ比の 95%信頼区間は, 新たに行われる試験のオッズ比の予測に使うと過小評価になる. Program1 0に示すように, GENMODフロシジャでは, modelステートメントでは, r/n = x と e p e a t e dステートメントで subiect=Exとする.試験 Ex問の相関構造は, して,試験 Exは含めず, r 各試験は独立して行われているので互いの相聞は Oと仮定できるので, type=ind とする.共通オ ッズ比は, e s t i m a t eステートメントの e x pオフションで推定値の指数を計算することによって求め る.薬剤 B は ( 0, 1 ) の計量値であるので,薬剤J8の回帰係数の推定値がプラセボに対するオセ 0v sl ' B 1 とすることでオッズ比が推定 ルタミビルの対数オッズの差になっているので, ' できる NLMIXEDフロシジャでは, eta = betaO + betal柑 +u : の u が,試験 Ex問で,平 均 が 0,分散が s1 *s1の正規分布に従うことを randomステートメントで random u‑ normal(O, s l判1) subiect=Ex :のように設定している. ウt ︒ ︒
Program1 0 変量効果モデル p r o cg e n m o dd a t a = o s e l t a m i v i r 4 , /事変量 G E Eキ/ c l a s s E x ( p a r a m = r e fr e f = f i r s t ) i s t = b i n o m i a ll i n k = l o g i t m o d e l r / n=B/d r e p e a t e d s u b j e c t = E x/ t y p e = i n d; x p; e s t i m a t e ' 0v s[ ' B 1/e r u n, p r o cn l m i x e dd a t a = o s e l t a m i v i r 4 ; /キ変量 N L M I X E Dキ/ p a r m s b e t a O‑ 2b e t a l‑ 1s l = 1; e t a=b e t a O tb e t a lヰBtu ; p i =e x p ( e t a )/( I t e x p ( e t a ) ); i n o m i a l( n, pi ) ; m o d e l r b r a n d o m u‑n o r m a l ( O,s l村1) s u b je ct = E x; p r e d i c t e t ao u t = e t a ; p r e d i c t p i o u t = p ; r u n ; u n, p r o cp r i n td a t a = e t a ,r p r o cp r i n td a t a = p, r u n, 句 O u t p u t1 0に結果を示すように, GENMODフロシジャによるオッズ比と 95%信頼区間は, 0 . 3 5 9 3 倍 ( 0 . 1 8 5 6,0 . 6 9 5 8 ) となり,試験を固定効果にした最尤法の 0 . 2 5 8倍 ( 0 . 1 8 2,0 . 3 6 5 ) に比べ高い 点推定値となっている.表 6の個々の試験 Exのオッズ比の分布に対して高めのようであるが,そ の理由については今後の課題である. 95%信頼区間の上限は, 0 . 6 9 5 8 倍と最も高いオッズ比の 0 . 5 3 8を含んでいる. O u t p u tlOa GENMODプロシジャによる共通オッズ比の推定 T h eG E N M O DP r o c e d u r e C o n t r a s tE s t i m a t eR e s u l t s L a b e l E s t i m a t e S t a n d a r d Er r or A l p h a C o n f i d e n c eL i m i t s C hi ‑ S q u a r e C h i S q P r> ovs 1 1 .0 2 3 5 0 . 3 5 9 3 0 . 3 3 7 2 O .1 2 1 2 0 . 0 5 0 . 0 5 1 . 6 8 4 4 O .1 8 5 6 ‑ 0 .3 6 2 6 0 . 6 9 5 8 9 . 2 1 0 . 0 0 2 4 E x p ( Ov s1 ) O u t p u t1 0 b に NLMIXEDプロシジ、ャによる推定結果を示す.結果は対数オッズ比ー1.336なので, 指数を取りオッズ比に戻すと, 0 . 2 8 2倍 ( 0 . 1 7 1,0. 40 4 ) となり,こちらは妥当な推定値になって いる. O u t p u tlOb NLMEXEDプロシジ、ャによる共通オ、ソズ比の推定 P a r a m e t e rE s t i m a t e s P a r a m e t e r E s t i m a t e b e t a O b e t a 1 s l ‑ l .2 6 5 3 ‑ 1 .3 3 6 6 l .9 8 0 4 S t a n d a r d E r r o r D F 0 . 7 5 8 5 0 . 1 7 5 6 0 . 5 4 5 4 6 6 6 tV a l u e 一 1 .6 7 ‑ 7 . 6 1 3 . 6 3 一7 9 P r>[ t[ A l p h a L o w e r U p p e r 0 . 1 4 6 3 0 . 0 0 0 3 0 . 0 1 1 0 0 . 0 5 0 . 0 5 0 . 0 5 ‑ 3 . 1 2 1 2 一 l .7 6 6 4 0 . 6 4 5 8 0 . 5 9 0 7 ‑ 0 . 9 0 6 9 3 . 3 1 5 0
5 . 今後の課題 LOGISTICプロシジャ,および, GENMODプロシジャの基本的な使い方からはじめ,高度な使 い方のさわりを教育的な配慮、をしながら示してきた.これらのフロシジャは,まだ多くの応用範 囲を持っている.限られた時間では,その全貌を示すことができないのは残念である.さらなる 応用は,反応が順序カテゴリの場合である.従来は,順位和検定ぐらいしか手軽に使えなかった のであるが,比例オッズモデルの適用により,統計モデルを用いたアプローチが可能となってい る.今回は直接的には触れなかった反応に過大発散 Over‑dispersion がある場合の問題である.そ れに対する scaleオプションで調整法の選択もさらなる課題である. GENMODプロシジャで因子 が変量効果の場合の GEEの適用は, 2値の経時データの解析への応用も魅力的である.臨床試験 での薬剤と共変量との交互作用の探索も手軽にできるようになったが,解析の手順の定式化など も今後の課題である. NLMIXED プロシジャを使うことにより,自然反応や免疫反応があるような場合のロジスティ ック分布曲線,極値分布曲線を使ったあてはめなど,これまで,あきらめていた応用分野での解 析にも希望がもてるようになってきた.今後,機会があるごとに,これらの課題に対して紹介し てゆきたい. 文献 臨床試験関係 Reuman, P . d ., B e r n s t e i n, D . , . I Keefer, M.C . ,e ta l .( 1 9 8 9 ), E節 目 c ya n ds a f e t yo flowd o s a g ea m a n t a d i n eh y d r o c h l o r i d e Ant i v i r a lR e s e a r c h, 1 1, 27 ・4 0 . a sp r o p h y l a x i sf o ri n f l u e n z aA, Hayden, F . G . , Atmar, R.L, S c h i l l i n g, M. 巴 ,tal .( 1 9 9 9 ), Us 巴ofTheselectiveO r a lN e u r a m i n i d a s eI n h i b i t o rO s e l t a m i v i rt o P r e v e n tI n f l u e n z a .N E n g lJMcd;3 4 1 :1 3 2 9‑3 5 . Hayden, F . G . , Jennings, , . L Robson, R .巴 ta l .O r a lo s e l t a m i v i ri nhumane x p e r i m e n t a li n f l u e n z aB .A n t i v i r a lTherapy5 : 2 0 5 ‑ 2 . Hayden, F . G ., Atmar, R.L, S c h i 山 I I ing P 町r 凹 巴 v巴 n 凶t I n f l u 巴 n z a .(NE n g lJMcd;3 4 1:1 3 3 6‑4 3 . 柏木征三郎,工藤矧二,渡辺彰,吉村功 (2000),リン酸オセルタミビルのインフルエンザ発症抑制効果に 関する検討 プラセボを対照とした第 I I I 相二重盲検並行群間比較試験成績 ,感染症学雑誌, 74(1062‑ 1 0 7 6 ) . W V1 5 8 2 5 ( 2 0 0 0 ),高齢者に対する臨床試験,厚生労働省から公表されている申請概要書. W e l l i v e r , R ., Monto, A .S ., C a r e w i c z, O . 巴 ,ta. lE f f e c t i v e n e s so fO s e l t a m i v i ri nP r e v e n t i n gI n f l u e n z ai nHousehold C o n t a c t sARandomizedC o n t r o l l e dT r i a. lJAMA:285:748‑754. Hayden, F . G . , Belshe, R ., V i l l a n u e v a, C . 巴 ,tal .Managemento fI n f l u e n z ai nH o u s e h o l d s :AP r o s p e c t i v e, Randomized Comparisono fO s e l t a m i v i rT r e a t m e n tWitho rW i t h o u tP o s t e x p o s u r eP r o p h y l a x i s .TheJ o u r n a lofI n f e c t i o u s D i s e a s 巴s 2 0 0 4 ; 1 8 9 : 4 4 0 ・ 9 . 統計関連 A g r e s t i( 2 0 0 2 )C a t e g o r i c a lD a t aAna l i y s i s2 e d, W i l e y ‑ l n t e r s c i e n c e . S t o k e s, M . E ., D a v i s, Cふ , andKock, G . G .(2000), C a t e g o r i c a lD a t a加 均s i su s i n gt h eSASSystem, SASI n s t i t u t e . 高橋行雄 (2002),GENMODプロシジャによる計数データの解析,日本 SASユーザ会論文集 21,(193・202). SASI n s t i t u t e( 2 0 0 4 ), SAS/STST9 . 1U s e r ' sG u i d e . 日U 00
S A S Forumユ ー ザ 一 会 ロジスティック回帰による推測 ( V . 9 LOGISTICプロシジャの機能拡張) o 浜田知久馬* * 東京理科大学工学部経営工学科 I n f e r e n c ebasedonl o g i s t i cmodel Enhancement o f PROC LOGISTIC i n V . 9 ChikumaHamada TokyoU n i v e r s i t yo fS c i e n c e h i n j y u k u ‑ k u,Tokyo, 1 6 2・ 8601 1 ‑ 3,Kagurazaka,S 要旨 生存・死亡等の 2値応答変数を目的変数として,複数の説明変数の影響を同時にモデル化するロ o g i s t i cr e g r e s s i o n )は,医薬分野の標準的な統計手法として現在では定着して ジスティック回帰 O いる. SASでは LOGISTIC, CATMOD,PROBIT,GENMODプロシジャ等を用いて,ロジステ ィック回帰を行うことが可能である.中でも LOGISTICプロシジャは,他のソフトウエアと比較 しでも最も高度な機能を有しているが,更に V . 9で機能拡張がなされた. 新たに追加された SCORE文を使用すると,新規データセットについて,モデルの再当てはめ を行うことなく適合度統計量と ROC曲線を計算できる.また新規の STRATA文を指定すると, G a i l,LubinandRubenstein( 1 9 8 1 )の方法を用いて層の存在するデータに対する条件付きロジス ティック回帰を簡単に行うことができる.さらに EXACT文を用いた正確な推測についてもパフ ォーマンスが向上し, MonteC a r l o法 , m i d ‑ p型信頼区間の機能が追加された. ロジスティック回帰では最尤法を用いてパラメータ推定を行う.高度な LOGISTICプロシジャ を十分に使いこなすためには,推測原理である最尤法についての理解が必要である.そこで LOGI . 9における機能拡張の概要を紹介し,ロジスティック回帰の推測原理,特に 3 STICプロシジャの V 種類の検定と既存の検定の関連を中心としたチュートリアルを行う. キーワード:LOGISTIC 最尤法 ロジスティック回帰 条件付ロジスティック回帰 ︒ ︒
1.はじめに 9 6 7年の T r u e t t, ロジスティック回帰の有用性が,医薬研究において広く認識されたのは, 1 C o r n f i e l da n dK a n n e l ( 1 9 6 7 )の論文以来である.この論文は,有名なフラミンガム疫学調査データ を用いて,ロジスティック回帰によって,冠動脈性疾患のリスク因子を定量的に評価したものであ る.この論文以降,医学研究の様々な分野でロジスティック回帰は多変量解析の代表的方法として ASでは LOGISTIC, C A T M O D,P R O B I T,G E 川O Dプロシジャ等を用いて,ロジスティ 応用されている. S ック回帰を行うことが可能である.中でも L O G I S T I Cプ口、ンジャは,他のソフトウエアと比較しでも 最も高度な機能を有し, V.8まででも,カテゴリカル変数,交互作用工頁を含めた変数選択,回帰診 断 , H o s m e r and Lemeshowの 適 合 度 検 定 等 に よ る モ デ ル の 適 合 度 の 評 価 ( H o s m e r and L巴meshow O C曲線の作成, ( 2 0 0 0 ) ),R リンク関数の変更機能,応答変数が 3 値以上の場合への拡張(比例オッズ モデル等), C L A S S文によるカテゴリカル変数のモデル化, CONTRAST文による水準問比較, EXACT文に 2 0 0 0 ),( 2 0 0 1 ) )が,更に V .9 で機能 よる並べ替え分布に基づいた正確な推測等が可能であった(浜田 ( 拡張がなされた. CORE文を使用すると,新規データセットについて,モデノレの再当てはめを行 新たに追加された S OC曲線が計算できる. P R O CL O G I S T I C文の I N M O D E L =データセットオプシ うことなく適合度統計量と R ョンでロジスティック回帰のパラメータ推定値を含むデータセットを指定し, S CORE文で解析デー TRATA文を指定すると, タセットを指定することで,当てはめを行うことができる.また新規の S G a i , l L u b i nand Rubenstein( 19 8 1 )の方法を用いて層の存在するデータに対する条件付きロジステ X A C T文を用いた正確な推測についてもパフォーマ ィック回帰を簡単に行うことができる.さらに E onte Carlo法 , m id‑p型信頼区間の機能が追加された. ンスが向上し, M OGISTICプ口、ン、ジャを十 ロジスティック回帰では最尤法を用いてパラメータ推定を行う.高度な L OGISTICプ 分に使いこなすためには,推測原理である最尤法についての理解が必要である.そこで L ロシジャの V .9における機能拡張の概要を紹介し,ロジスティック回帰の推測原理,特に尤度原理 に基づく 3種類の検定と既存の検定の関連の解説を中心としたチュートリアルを行う. 2 オッズ比とロジスティック回帰 オッズ比 表1 薬剤一 薬 剤 + 5 1 0 9 5 9 0 1 0 0 1 0 0 1 0 / 9 0 5 / 9 5 オッズ ヘ イ ント発生害l 合 5 0 0 1 0 / 1 0 0 ( 1 0 / 9 0 )/( 5 / 9 5 )ニ2 . 1 1 オッズ比 ( 1 0 / 1 0 0 ) / ( 5 / 1 0 0 ) = 2 相対リスク イベント+ イベントー e ハ a b c d a / b c / d a /( a + b ) c /( c + d ) ( c / d )/( a / b ) ニb c / a d 表 1の仮想的なデータに基づいて,ロジスティック回帰と密接な関連があるオッズ、比 ( o d d sr a t i 0 )について最初に説明する.ある薬剤を服用していた患者(薬剤+) 1 00人と,服用していなかっ た患者(薬剤 I 作用)の発生割合の比較を行うことを想定している. ) 100人で,あるイベント(匡j %(51100)であり,一群に対す 薬剤+群ではイベントの発生割合 10%(10/100)に対して,一群では 5 る+群の発生割合の比は, 2 倍になっている.疫学ではこの比のことを薬剤のリスクを表す指標と して, 相対リスク ( r e l a t i v er i s k ) "とよぶ.相対リスクは別名"リスク比 ( r i s kr a t i o ) "とよばれるこ ともある.これに対してオッズ ( o d d s )とは競馬などで賭け率を表す指標で,一群と+群のそれぞれ についての,イベントが起きる確率と起きない確率の比がオッズになる.また 2群のオッズの比を ‑82一
とったものが,オッズ比になる この例では結局,オッズ比は,表 1 に示したように, 2 x2の分割 b c ) / ( a d ) = ( 9 5 x1 0 ) / ( 5 x 9 0 ) = 2 . 1 1となる.ちなみにオッズ比はデザイ 表のセル度数をたすき掛けして ( ンとしてケース・コントロール研究を用いた場合でも同様に推定できる. オッズ比は何を表しているのだろうか?オッズ比よりは相対リスクの方が直感的にわかりやす いのに,医学研究ではよくオッズ比が用いられる.これにはいくつかの理由がある. 表 2 オッズ比が用いられる理由 1 ) イベント発生割合が低ければ,相対リスクを近似 2 ) ケース・コントロール研究でもコホート研究でも,共通の指標として,用いることができる 3 ) 数学的な扱い易さ,ロジスティック回帰との関連 4 ) 対称性がある. イベントの ,+を入れ替えたときのオッズ比 ( 9 0 / 1 0 )/ ( 9 5 / 5 ) = 0. 47 4 = 1 1 2 . 1 1 イベントの +を入れ替えたときの相対リスク比 ( 9 0 / 1 0 0 )/ ( 9 5 / 1 0 0 )ニ 0.947 5 )対数オッズの定義域: p:0~1 ∞~+∞ p/(l‑p):O~+ ∞ log{p/(l.p)} :∞~+∞ 表1 ではオッズ比が 2 . 1 1になったが,これは相対リスク 2に,ほぼ近くなっている.実はイベン トの発生確率が十分低ければ,オッズを求めるときの分母の確率が 1に近くなるので,オッズ比は 相対リスクを近似することができる.例えば希な副作用を対象に解析しているのであれば,オッズ 比が 2 . 1 1であれば,薬剤によって,副作用発現率(相対リスク)が 2 . 1 1倍になると事実上考えてよ いわけである.このように希な事象については,オッズ比によって,相対リスクを精度よく近似で きるのが,オッズ比が好んで用いられる理由の 1つになっている. また疫学研究のタイプは大きくコホート研究とケース・コントロール研究の 2つに分類できる. どちらの研究でもオッズ比は推定可能で,共通のリスクの大きさを表わす指標として用いることが できる.複数の研究結果を統合して評価を行うメタアナリシスを行う場合, リスクの指標をオッズ 比にしておけば,コホート研究とケース・コントローノレ研究の両方の情報を用いることができる. このようにオッズ比を用いるにはいろいろな理由があるが,最大の理由は,ロジスティック回帰 との直接的な関連によって,数学的に取り扱いやすいためである.これについては 3節で詳しく説 明する またオッズ比にはある種の対称性がある.例えばイベントの一,+をひっくり返して,オ ッズ比を計算し直すと,元の 2 . 1 1の逆数である 0. 474になるが ( 0. 47 4 = 1 / 2 . 1 1 ), 相対リスク ( 0 . 9 4 77 ' :1 1 2 )にはこのような対称性は成り立たない. 3 . ロジスティックモデ、ルとは? 「ファッションモデル」としづ言葉から連想されるように,モデルは現実で、は有り得ない程,美 しく整っている.このモデルを使うと後で紹介するように,様々な利点がある.ただしモデルは現 実の姿を反映してない可能性があり,モテ守ルが誤っていると,正しい結論が導けない場合がある. 厚化粧してモデルに似せても,モデルと現実の*離があまりに大きければ破綻する.モデ、ルを用い て解析した場合には,仮定したモデ、ルが正しし、か検証する必要がある.ロジスティック回帰モデ、ル は( 1 )式のモデ、/レで、ある. 1 )式のモデ、ルを仮定す ロジスティックモテ ルで、は患者にイベントが発生する確率 pについて, ( e る. p‑ e x p [(βo+βIX1+β 2X 2+・・ +β , X, ) ] , = 叫 ( z‑ ) 一 1+e x p[ ( β。 +βIXI+β2X2 + ・ ・ +β , X, ) ] 1+e x p ( Z) ‑83一 ( 1 )
8
はロジスティッ
ク回帰の推定の対象となるパラメータである.パラメータと共変量の線形結合をまとめて Zと表し
ここで
xは性別,年齢等のイベント発生確率に影響を及ぼす共変量であり,
,e
x
p
(
Z
)で分子・分母を割ると次のように変形できる.
βo+β,
X,
+β2
x
p
( ‑Z)
X2 +・・・+βrXr )] ‑ 1+e
p=
更に Zについて解くと (
2
)式となる.
X1+s
l
o
gー と =β。
+β1
)
X
)+・ +βn
X
n=Z
l‑p
' v
'"
' . .
イベント発生割合pに対して,
(
2
)
'1'1'
l
o
g
(
p
/
(
l
‑
p
)
)としづ変換を行うと,共変量に対して線形関数とな
る
, pはイベントが起きる確率, (
l
‑
p
)は起きない確率なので ,p
/
(
l
‑
p
)はオッズを表す. l
o
g
(
p
/
(
l
‑
l
o
g
i
t
)と表現されることもある.
p
)
)はその対数をとったもので,対数オッズとよばれるが,ロジット (
対数オッズについてモデル化するには,し、くつかの利点がある.例えば
X1
p=β。
+β1
+β2X2+…+βp
Xp=Z
というモデルを立てる方が自然で解釈しやすい.実際に一般化線形モデルによる解析を行う GEN
MODプロシジャでは,恒等リンク関数 (LINK=IDENTITY)を指定することで,このモデルによる
解析が可能である. pは確率なので, 0
"
"
'
1の範囲に収める必要がある. しかしながら (
2
)式のモデル
では,変数の値によっては確率がO未満や, 1を越えてしまう場合がある.これに対し,オッズ(
p
l
(
l
‑
p
)
)は確率の比であるから,正の範囲の値をとり,対数オッズ (
l
o
g
(
p
/
(
l
‑
p
)
)は,オッズが 1以下
(イベント発生確率が 50%以下)のときは負
1以上(50%以上)のときは正の値をとり,対数オッ
ズでモデル化しておけば, pの値は 0
"
"
'
1の聞に必ず収まる.これが対数オッズについてモデル化す
る大きな利点である.
4
. ロジスティックモデルにおける推測
最も単純なモデ、ルを考える.いま薬剤一群であれば0,薬剤+群では lをとる変数Xのみを考え,
それぞれの群の副作用発現率を p
.,p+とすると,ロジスティックモデ、ルは次のようになる.
Xが0,
1
変数の場合のロジスティックモデ、ル
司
占
剖
叶
)
ト=s如soo+哨夙s1
附司
o
{
仕
奇
剖
)
=
ん ド凶l附:ベ
司
1o{
0仕
占古剖
J
~Jオμ=
)ト叫A山
M
ド吋
O
β
A
+
リ
哨
I
:
1
司占~J-I0仕)ャ呈 =ex
p
̲=p
+
:e
x
p
G
β
'
J
)
=
I,s
J=0
p
̲<p+: e
x
p
G
β
'
J
)>1
,β
'
J>0
P >p
+
: exp(
/
J
J
)<1
,β
'
J<0
結局,パラメータ 81は対数オッズ比を表し ,81をe
xpの肩に乗せたものが, 2群のオッズ比にな
る.したがってロジスティック回帰を行えば,パラメータ 81からオッズ比を求めることができる.
‑84
また 8 0は薬剤一群の対数オッズになる.今,変数が 1つの場合で説明したが,ロジスティック回帰 では複数の変数を同時にモデルに入れることが可能なので,複数の変数のオッズ比を同時に計算す ることができる.このようにロジスティックモデルは,オッズ比と密接な関連があり,より複雑な 状況に拡張したものである. ロジスティックモデ、ルにデータを当てはめて,パラメータを推定する方法には,重み付き最小2 乗法と最尤法があり,一昔前は反復計算を必要としない前者が主流であったが,計算機の能力が向 上した現在では,後者で計算する方が一般的となっている.副作用データの例に基づいて最尤法を 説明する.薬剤一群 1 0 0人と薬剤+群の 1 0 0人は全員独立なので,このようなデータが得られる確 3 )式に示すLとなる.薬剤群で副作用が生じなかった 95人については ( 1・p . ),副作用が生じ 率は ( た5人については p を乗じる.薬剤+群についても同様である.最尤法では確率をパラメータの関 数と考え,この確率のことを尤度 L( li k e l i h o o d )とよび.尤度が高い場合,そのモデ、ルからデータが 得られる確率が高く,モデ、ルがデータに適合していることを意味する.そこで尤度が最大になるよ うなパラメータを求める. p .,p+は8 0,81の関数であり,結局尤度も 8 0,81の関数になる. 仮想、例における尤度とスコア関数 L=p̲5x(l̲p̲)95xp+lOx(l̲pJ90 ( 3 ) l o gL=5 1 0 gP̲+9 5 1 o g(1‑P̲ )+1 0l o gP++90l o g(1‑P+ ) p̲=~xp(β。) ~ ̲ e x p ( β。+β1) 一 一一 1+e x p ( β。)げ+ 1+e x p ( β。+β1) logL=5 β。‑5 1 o g ( 1+e x p ( β。 ) )‑9 5 1 o g ( 1+e x p ( β。 ) ) +1 0 ( β。+β1)‑10l o g ( 1+e x p ( β。+ β 1 ) )‑9 0l o g ( 1+e x p ( β。+β1) ) o g( 1+e x p ( β。 ) )+1 0 ( β。+β1)‑1 0 0l o g( l+e x p ( β。+β1) ) =5β。‑100l 互hEL=5+10‑100 exp(β。 )‑100 c x p ( β。 +β1) d β。 1+e x p ( β。 ) 1+e x p ( β。+β1) =1 5‑100p̲‑100p+ 。 1+e x p ( β。 +β1) dl o gL=1 1" 1" " x p ( β +β1 ) 一 一一一一 0‑1 00 e ̲.‑n,u , 1 / =10‑ 1000 d β 1 80 を -3.2~ ・ 2 .4, . T 8 1 を 0.2~ 1. 3 まで 0.01刻みで動かして,尤度を計算し, G3Dプロシジャで図示 するプログラムは表 3のようになる.対数尤度はパラメータが変化しても,視覚的にあまり大きく 変化しないので,最尤推定量を視覚的に探索するためには,対数尤度より尤度を直接図示した方が よい. G3Dプロシジャが描いた尤度の曲面は図 1 のようになる. 戸 00 υ h
表 3 尤度の曲函を描くプログラム datal i k e l i h o o d ; 4by 0 ̲ 0 1 ; dob O = ‑ 3 ̲ 2t o‑ 2. dob1=0.2 t o1 .3 by 0 . 0 1 ; pO=1 I ( 1+exp(・( b O ) ) ) ; p1 = 1 1 ( 1+ e x p ( ‑ ( b O + b1 ) ) ) ; l = p O 5( l ‑ p O ) 95p1 1 0( l ‑ p1 ) 9 0 ; 安安 安 安安 安 安安 安 安安 o u t p u t ; e n d ; e n d ; p r o cg 3 d ; 1 = ν t i l t = 6 0r o t a t e = 4 0 ; p l o tbOb 安 1 . 82E‑23 1 .21E‑23 6.07E‑24 . 1 30 0 . 9 3 ∞ b 1 ‑ 3 . 2 0 . 2 0 図 1 尤度曲函 B o ( b O )が ・ 3,B1( b1 )が 0 . 7付近で尤度が最も高くなることがわかる.パラメータ数が少ない場合, 山の頂上を求めるために, しらみつぶしに尤度を計算して,最大となる点を見つけることが可能で あるが,パラメータ数が多くなると計算時間が膨大なものになる.そこで,通常はこのような尤度 の最大化問題については,山の頂上では傾きが Oになるという性質を利用して,尤度をそれぞれの パラメータで偏微分して Oになる点を探すことになる.ただし,尤度を対数変換しでも,頂上の位 00 CD
置は変わらないので,通常は対数尤度を偏微分する.尤度は確率の積で表されるので,対数をとる と積が和に換わるため,扱いやすくなる.一般に偏微分して 0になる点は明示的な解としては求め られず,逐次計算によって傾きが Oになる点を探すことになるが. 2x2の分割表については,直感 b, c , dと表した 的に理解しやすい明示的な解が得られる. 2x2の分割表のセル度数を表 1のように a, 5 ), ( 6 )式となる. とき,対数尤度を微分した結果は ( 2x2の分割表の尤度とスコア関数 L=pαx( 1 ‑p̲ ) bXP+cx(1‑P+ ) d ( 4 ) logL=αlogP̲+blog( 1 ‑p̲)+cl o gP++dl o g( 1 ‑P+) dl o gL で ,,̲ . ̲ 10 コp + 一一=一一 1 0 0 c+d /̲, J'. 7 一= c‑(c+d)p+=0 ' s 1 ' .T • ( 5 ) T dlogL 五 7=α +c一 ( 削 除 一 (c+d)孔 =0吋 ー = ー 。 +b ( 6 ) 2つの方程式を解くことによって, p .とp +はそれぞ「れの群のイベント発生割合となることがわか の関係から,次のように式の展開を行うことができる. る.更に p ‑,p +と6 0,61 80, 61の最尤推定量 。 / ( a+b ) β。 =log~ムーニ log u ~1-p_ ~1-a/(a+b) 手訂xpβ。 a ( 7 ) =log‑4‑=log a+h‑a t J t J 1. so+β1=log~ムー =1 u " . ol̲p+ C / ( c+d ) ol‑c/(c+d) =log-4-=1084 コ叫(β。 +βI)=~ E 十 a‑ c α α ニー=吋判 A=loglL‑logl 1‑P+ ~1 ‑P̲ ~\αd) ( 8 ) 結局 6 0は一群の対数オッズ, 61は一群に対する+群の対数オッズ比になることがわかる. LOGISTICプロ、ンジャの出力で この結果について確認する. LOGISTICプロシジャを用いた 2 x 2の分割表についてのロジスティック回帰のプログラムは表 4 となる. 表 4 2x2の分割表についてのロジスティック回帰のプログラム datad a t a ; ; do drug=O t o1 doy=O, l ; i n p u tw @@;do i = lt ow ; o u t p u t ; e n d ; e n d ; e n d ; c a r d s ; 9 55 9 01 0 p r o cl o g i s t i c descending;modely=drug; ワa o o
表 5 2x2の分割表についてのロジスティック回帰の出力 Analysiso fMaximumL i k e l i h o o dEstimates Parameter DF Estimate I n t e r c e p t 1 ‑ 2 . 9 4 4 4 drug 1 0 . 7 4 7 2 Standard Wald Chi‑Square Error 0 . 5 6 7 1 Pr>ChiSq 41 . 1812 く 1 .7359 0 . 1 8 7 7 . 0 0 0 1 OddsRatioEstimates E f f e c t PointEstimate drug 2 . 1 1 1 95%Wald 五dence Con Limits 1 6. 41 6 表 5から l o g ( p / ( l ‑ p ) ) = ‑2.9444+0.7472drugというモデルが得られることがわかる.この式をpに ついて解くと p=l+exp((2.9444+0.7472drug)) となり,この式を用いれば,薬剤を投与した場合と投与しない場合の双方について,イベントが発 生する確率 pを計算することができる. 8。については,横軸の値が 0 'こ対する縦軸の値に相当するので, I n t e r c e p t ( 切片)と表示される. s1の推定値 0.7472が正であることから,薬剤+群の方が一群よりイベント発生劃合が高いこと . 7 4 7 2 = 2 . 1 1 1が2群のオッズ比になる.これは, 2x2の分割 がわかる.この値を指数の肩に乗せた e0 表のセノレ度数を, 95X10/(5x9 5 )のようにたすき掛けして求めた粗オッズ比に,代数学的に一致す る.このように 1つの変数しかモデノレに含めない場合のオッズ比を,調整しないオッズ比と呼ぶ. EU 一 一 E d + 一 ‑1一c + l一 b + α l一 StandardE r r o r ( 標準誤差 : S E )は,パラメータの推定精度を表し,この値が小さいほどパラメータ 9 )式のようになる. の推定精度が高くなる. SEは2x2の分割表の場合, ( ( 9 ) 症例数が増え,セル度数が大きくなると,推定精度が高くなり標準誤差は低下する.また度数が 0に近いセルがあると標準誤差が大きくなり, 0セノレが存在すると標準誤差を求めることができな し 、 標準誤差は狭義には,平均値の推定精度を表す指標であるが,拡張して,様々なパラメータの推 定精度を表すために用いられる.また推定値を標準誤差で、害IJったものを 2乗したものが,カイ 2乗 統計量である.この統計量を用いて 8が有意に 0と異なるか,検定することができる.これを Wald 検定とよぶ. ‑88一
例えば 5 1については,カイ 2乗は (0.7472/0.5671)2=1 .7359となる.この値が大きければ,誤差 に比べて 5 1が大きいことを意味し,カイ 2乗分布の上側 5%点(自由度 1 )である 3 . 8 4を越えていれば, 5%水準で 5 1は有意に 0と異なる.通常, 2群間でイベント発生割合が等しいか,検定することに興 味が置かれるが, p.=P+のときちょうど 5 1 =0 (オッズ比 =1) になるので,このことは 5 1 =0で 1 が有意に 0と異なることは, 2群のイベント発 あるかどうか検定するのと等価で、ある.すなわち 5 1の p値は 0.1877であるので, 2群で有意な 生害IJ合が有意に異なることを意味する.この例では, 5 差があるとはいえない.また 5 1のパラメータ推定値と標準誤差によって,オッズ比の信頼区間を 計算することができる. 5Iの両側 95%の信頼区間は, 標準誤差 推定値士1.96x =0.7472 士 1 .96xO.5671=‑0.3643~ 1 .8579 となり,これを指数の肩に乗せたものが,オッズ比の信頼区間になる.ここで1.96は正規分布の 上側 2.5%点を表す.この例では exp (一 0.3643~ 1. 8579) =0.695~6 .4 16 となる. 5 .3 種類の検定 2x2の分割表において, 群と+群の母発現割合をそれぞれ π , π+としたときに,帰無仮説を いくつかの異なった形で表現することができる. 帰無仮説の複数の表現法 Ho: 7(̲‑7(+=O Ho:~=1 , π Hn:‑ZL= 一竺ニー v 1‑7(+ 1‑7( 日 久一日7 一 久一子一一日一 Ho:7(̲ = 7 ( い 帰無仮説の下では,オッズ比は 1 ,対数オッズ比 5 1は 0 になる, したがって,ロジスティッ ク回帰のパラメータ 5 1が Oかを検定することで,帰 A A仮説 Ho:π 二 π+を検定することができる. さて最尤法の場合, 3種 類 の 検 定 が 可 能 で あ る . 検 定 で は , 帰 無 仮 説 が 最 尤 推 定 量 (MLE: MaximumL i k e l i h o o dEstimate)でーある尤度の山の頂点から, どれくらい離れているかを評価す る.帰無仮説の点と最尤推定量が大きく事離していれば帰無仮説は棄却される.前述の Wald検 1の MLEが Oからどの程度君離しているかを,標準誤差の何倍であるかによって評価 定では, 5 した.すなわち, 5 1の MLEと帰無仮説の水平方向の距離を問題にし, 5 1の MLEが 0に近けれ ば , 0が真値であることは否定できないとして,帰無仮説を保留する.これに対して,尤度比検 定は,帰無仮説の点と MLEの点の山の高さの違いに基づいた検定である.すなわち,帰無仮説 の点の尤度が低いときは,帰無仮説が正しい可能性は低いとして,帰無仮説を棄却する. 3 番目 の検定はスコア検定で,山の頂点では,勾配が 0 になることを利用した検定である.対数尤度を 5 1で偏微分した関数をスコア関数とよぶ.帰無仮説の点におけるスコア関数の値を求め,これ が 0 に近いときは,山頂に近いとして,帰無仮説を保留する.スコア検定は帰無仮説の点にお 8 9ー
ける傾きに関する情報のみに基づいているので, MLE を求める必要がなく,計算が簡単である という利点、がある. LOGISTICプロシジャの 3種類の検定の結果を表 6に示す. 表 6 3種類の検定結果の出力 TestingGlobalNullH y p o t h e s i s :BETA=O Test C h i ‑ Square Likelihood Ratio 1 .8341 Score 1 .8018 I0 . 1 7 9 5 1 Wald 尤度比検定,スコア検定は 2x2の分割表については,よく知られた検定の結果と一致する FREQプロシジャによる分割表の検定のプログラムは次のようになる. 表7 FREQプ口、ンジャによる分割表の検定のプログラム p r o c企eqd a t a = d a t a ; r u g / c h i s q ; t a b l e sy d 女 表 8のような検定結果が得られる. 表8 FREQプロシジャによる分割表の検定の出力 一一一一一一11 一一一 1 1 統計量 1 由度 x2 乗値 1 1 ; : ; ; : 7 ; 値 ! 日 連 Mantel‑Haenszel の X2乗値 11 1 中係数 一致係数 0 . 0 9 4 9 Cramer の V 統計量 最上段に示されている x2 乗値 ( P e a r s o n )がスコア検定,次段の尤度比 X2 乗値が尤度比検定 の検定に一致していることがわかる. 以下, 2x2 の分割表におけるスコア検定,尤度比検定統計量を導出する.尤度比検定は, 9 0ー
Ho:8FOの下で,切片品のみを動かしたときの最大尤度と, H l : 8 1: ; tOの下 8 0と 8 1の両方を動か 1ニ O は π+=π ・と等価で、あり, p o = ( a + c ) / ( a + b + c + d )のとき して最大化した尤度の違いに基づく. 8 0の MLEは l o g ( ( a + c ) / ( b + d ) ) = l o g ( 1 5 / 2 0 0 ) = ‑ 2 . 5 9 となる 尤度が最大になる. Hoの下では 8 図2 に尤度の等高線を示した. bO ‑2. 4 : ︑ ︑ ︑ ‑ 2 . 6 i 、、 ‑ 2 . 8 1 ー 叫 ‑ 3 . 2 ∞ 0 . 3 3 O . 0 . 6 5 0 . 9 8 1 .30 b 1 l o g l ‑ ‑60.0 ‑ ‑58.0 一 一 ー 弱 . 0‑ ‑ 5 3 . 0‑ ‑ ‑ ‑52. 7 ‑54.0 一 一5 2 . 5 一 ← ー5 2. 4 図 2 尤度比検定の模式図(対数尤度の等高線) 尤度比検定の統計量 HO: l o g LH o g p o+b l o g( 1 ‑P O )+clogpo+dlog(1‑P O ) o= αl HJ: logLH o g p ̲+blog( l ‑p ̲ )+clogp++dlog(l‑p+) J=αl P O= U α+c c a ♂ =一一‑ ; ,p ‑=一 一 ‑ a+b+c+d'‑ a+b" ‑ c+d 0 . 5 .x i l l=logLH o J‑logLH ‑p‑ ̲ l ̲ ̲ P + , J ,‑̲l‑p+ = α l o g . ! : . . ι +bl o g ‑ : ‑ 一ーム+c l o g ! . : . . : ' : . .+d l o g ‑ : ‑ 一一一 P o ‑1一P O ‑P o ‑1一P O = 工 江 工q りい 呼 1 0 O エ ( O i j一E ; ; ) 2 E j :ピアソンカイ2 乗 Hoと Hlの下での対数尤度の差を 2倍したものが尤度比検定のカイ 2乗統計量になるが,結 局,これは 4 つのセノレについて,観測度数 x l o g ( 観測度数/期待度数)を足し合わせた尤度比カイ 9 1
2 乗値になる. 次にスコア検定統計量を導く.この検定では, Hoの下での M L E ( 8 o = l o g ( ( a + c ) / ( b + d ) ),8 1二 0 )の 点におけるスコア統計量に基づく.対数尤度を 8 1で偏微分して Oを代入すると 8 ( 0 ) = c .( c + d )( a+ c ) / ( a+b+c+d)となる.これは,薬剤+群の副作用発現数の観測度数と期待度数の差 になる. c=lOで期待度数は 7 . 5なので, 8 ( 0 ) = 2 . 5となり,正の勾配を持つ. 8 ( 0 )の分散はスコア 1で偏微分して 8 1ニOを代入して・ l倍した観察情報量に基づいて計算でき,結 統計量をもう一度 8 1 1 )式に示したように、スコア検定のカイ 2乗統計量は Pearsonのカイ 2乗統計量に一致す 局 , ( る. 帰無仮説の下でのスコア統計量 dl o gL / .. e x p ( β。 +β1) )二 万 ア =c一 (c+d)p+=c‑(c+d). -'.rv-,u~ J'.. 5 ( β 1 /. . J' 。 rJ 1+ロ p ( β +β1) e x p ( β。 ) 5 ( 0 )= c‑( c+d ) .‑ ' ‑ " " ,u 1+は p ( β。 ) G+c ~,~, " ' a+c bc‑ad β1=0コ p‑=九 =po= : . ̲ ‑ , ,5 ( 0 )ニ C 一(c+d ) ‑‑‑ = α+b+c+d' " 'a+b+c+d a+b+c+d α ( +b)(c+d)(α+c)(b+d) V [ 5 ( 0 ) ]= 一三位二一(a+b+C+d)(bc‑ad)2 ‑ 2 一 ‑ V[5 ( 0 ) ] α ( +b ) ( c+d ) (α+c)(b+d) ωr s o n t ' ' s c o r e l ︑ l〆'a ︑ x~ 、 α ( +b+c+d)' M 以上の示したように 2X2の分割表の場合,スコア検定は Pearsonカイ 2乗検定に一致する.反 応が 2値変数,用量が k段階からなる 2xkの分害J 1 表について,用量相関性を検定する Cochran‑ Armitage検定も,用量を連続量としてモデル化した場合のスコア検定に一致する. 6 対応のある 2値データの解析 61 McNemar検定 V.9から, LOGI8TICプ口、ンジャに, 8TRATA文が追加され,条件付ロジスティック回帰が可 a s eと c o n t r o lを m:nでマッチング 能になった.これまでは疫学のケース・コントロール研究で c した場合には, PHREGプ口、ンジャの TIE8=DI8CRETEオプションを用いて解析する必要があっ , たが, LOGI8TIC プロシジャでも簡単に解析が可能になった.更に EXACT文と組み合わせると, 漸近正規近似を行わない,並び替え分布に基づく正確な推測が可能になった.最も単純なケースで 1 : 1マッチングを行った場合には,条件付ロジスティック回帰は,対応、のある 2値データに対する McNemar検定に一致する. c a s eと c o n t r o lで 1 : 1にマッチングさせる場合には表 9のように結果 a s e に対して,年齢や性別がマッチした c o n t r o l を選択するために c a s eと はまとめられる. c c o n t r o lには対応が生じる. 表 9 ケース・コントロール研究データの例 c o n t r o l (対照) 曝露なし 曝露あり c a s e 曝露なし 4 8 ( a ) 4 ( b ) (患者) 曝露あり 1 2 ( c ) 1 6 ( d ) 計8 0 ( N ) このようなデータに対して曝露と疾病に関連があるかを調べる方法が, McNemar 検定で、ある. ‑92‑
連続修正を行わない場合,検定統計量と表9のデータへの適用結果は次のようになる. (b‑C)2 (4‑12/ x ‑ =一一一一=一一一一一= 4 b+c 4+12 2 ( 12 ) カイ 2統計量を自由度 1のカイ 2乗分布と比較することによって検定は行える.この例では p値は 0 . 0 4 6であり 5%水準で有意となる(ちなみにオッズ比の推定値は (clb=12/4ニ 3 )でらある) . しかしながらこの検定が妥当であるためには,一致してないベアの数b+cがある程度大きいこと が必要である . Nが大きくても, b+cが小さい場合には,カイ 2乗近似が悪く,分布を近似しない正 確な検定を用いる必要がある. 1 : 1マッチングが完全に行われた場合,正確な McNemar 検定の p値 は2項確率によって計算できる.この計算は, UNIV ARIATEプロシジャの符号検定の結果に一致 検定を SASで実行するためのプログラムを表 1 0に示す. する. McNemar 表 10 UNIV ARIATEプロシジャによる McNemar 検定 datac c ; i n p u tc a s e c o n t r o l w @@; doi = lt ow; d if = c a se ‑c o n t r o l ; o u t p u t ; e n d ; c a r d s ; o0 48 1 1 16 0 14 10 12 p r o cu n i v a r i a t e data二 c c ; v a rd i , f 曝露なしであれば0,曝露があれば 1として, c a s eとc o n t r o lの差をとった変数 d i f を定義する. d i f はc a s eとc o n t r o lの双方で、曝露を受けている場合,双方で曝露を受けでない場合は 0,c a s eのみが 曝露を受けている場合は 1 ,c o n t r o lのみが曝露を受けている場合は ‑ 1になる.結果は表 1 1のように なる. I¥也RIATEプロシジャによる対応のある検定の出力 表 11 UN 位置の検定:p ‑0=0 検定 P 1直 Pr>=1 8 1 UNIVARIATEプロシジャでは,統計量として M = = ( c ‑ b ) / 2を出力する.符号検定,符号付き順位 和検定では, d i f がOである観測値は解析に寄与しない.この例では 1 6個の観測値が Oでなく,これ がb+cに対応する. 1 2個の観測値が正であり,これが cに対応する.正確な McNemar 検定は,分布 c a s eのみと c o n t r o lのみで、曝露を受ける確率が等しし、)の下では, の中心が Oであるという帰無仮説 ( c a s eのみで、曝露を受ける度数は Bin(b+c, 0 . 5 )の 2項分布に従うことに基づく. 符号検定あるいは 符号付き順位和検定の結果が,正確な McNemar 検定に一致する.ここで、の p値 0 . 0 7 6 8は , SASの2 項分布の累積確率を計算する PROBBNML関数で p = = ( 1 ‑ p r o b n m l ( 0 . 5, 1 6, 1 2 ‑ 1 ) )吃 ‑93一
を計算したのと同じである.この確率は 1 6回コインを投げたときに表が出る度数が 1 2回以上とな る確率を,両側検定ということで 2倍したものである.正確な検定の p f 直はカイ 2乗近似を行った場 合と異なり, 5%水準で有意ではない. 160人と一見サンプルサイズは大きくみえるが,有効なサ ンプルサイズは 1 6ベアでしかなく,カイ 2采ー近似の精度は悪い.このように一致してないベアが少 ない場合には,カイ 2乗近似は問題がある. McN巴mar 検定は FREQプロシジャのAGREEオプションを指定することによっても可能である. AGREEオプションは行変数と列変数の度数分布の一致度を測るための指定である.プログラム例 を次に示す EXACT文でAGREEオプションを指定することにより, 2項確率に基づいた正確な P 値を計算する.表 1 2にFREQプ口、ンジャのプログラムを示す. 表1 2 FREQプ口、ンジャによる McNemar 検定 p r o cf r e qd a t ac c ; 二 o n t r o l / a g r e e ; t a b l e sc a s巴女 c e x a c ta g r e e ; UNIVARIATEプ ロ シ ジ ャ と 同 じ 結 果 が 得 ら れ る ( 表 13)。 表 13 FREQ プロシジャによる McNemar 検定の出力 McNemarの検定 統計量 ( 8 ) 1 1 1 1 4 . 0 0 0 0 自由度 Pr>8(漸近) Pr>=8( 正 確 ) 1 1 , Pr>=8 (正確)が 2項確率に基づいた正確な p f 直 Pr> 8 (漸近)がカイ 2乗近似による p値 である. 6 . 2 条件付きロジスティック回帰 .マッチングを無視した解析 最初に LOGI8TICプロシジャで先のケース・コントロール研究のデータでマッチングを無視し た場合の解析を行い,条件付でない解析の問題点を示す.先のデータで対応を無視して,通常の 2 x2の分割表(1¥暴露×疾患)の形式にまとめ直すと次のようになる. 4 ケース・コントロール研究データの 2x2の分割表(I!暴露×疾患)での集計 表 1 c o n t r o l (対照) l 暴露なし曝露あり 曝露なし曝露あり c a s e 1¥暴露なし 48 4 c o n t r o l 60 20 (患者) 曝露あり 1 2 1 6 計8 0 c a s e 52 28 5に示す. 対応を無視した通常の条件付きでないロジスティック回帰のプログラムを表 1 94‑
表1 5 マッチングを無視した解析のプログラム datac c 2 ; i n p u tresponse exposurew @@; do i = lt ow ; o u t p u t ; e n d ; c a r d s ; 1060 1 120 0 0 52 0 128 Fb 凸U 守 ρし n 1 ・ d n 田宮 X ︑ d Iu 沼田 二 αP a e +し= ae Uny . 司 c0 dm ss 凸u IE phvL O nし 可 せ A mU0 戸 m Ti‑‑ 3 結果は表 1 6のようになる. 6 マッチングを無視した解析の結果 表1 TestingG l o b a lNullH y p o t h e s i s :BETA=O Test Pr>ChiSq CM Likelihood Ratio l l l l E I ) F l l どJ Score 1 .9048 1 Wald 1 .8912 1 0 . 1 6 6 8 0 . 1 6 7 5 AnalysisofMaximumL i k e l i h o o dEstimates Parameter D Estimate Standard Error F Wald C h i ‑ Square I n t e r c e p t 1 ー 0 . 1 4 3 1 0 . 1 8 9 5 0 . 5 7 0 5 exposure 1 0 . 4 7 9 6 0 . 3 4 8 7 1 .8912 OddsR a t i oEstimates E f f e c t 95%Wald 。 。 e マッチングを考慮したオッズ比は 3であったが,条件付きでないロジスティック回帰では1.615 と過小に評価されている.このように通常のロジスティック回帰を適用するとバイアスが生じリス クが過小に評価され,検出力が低下してしまう.計量データの解析に対応させれば,対応のある連 続データに対し対応のない t検定を適用したこと相当する. 9 5ー
条件付きでない解析 この例では 80個のマッチングを行ったベアが存在する.このベアを CLASS文で分類変数として モデル化する.推定するパラメータ数はベアの数80+1!暴露効果を合わせて,合計81個になる.観測 値の数 1 60に対して,パラメータ数が多いので,最尤推定の前提となる漸近的な性質が保証されな 7のようになる. い.条件付きでない解析のプログラムは表 1 表1 7 条件付きでない解析のプログラム datac c 3 ; s e tc c ; s t r a t a =n , r e s p o n s eニ l ; e x p o s u r e = c a s e ; o u t p u t ; response=O;exposure=control ;o u t p u t ; p r o cl o g i s t i c data=cc3 d e s c e n d i n g ; c l a s ss t r a t a ; modelresponse=exposure s t r a t a ; LOGISTICプロシジャの出力は表 1 8のようになる. 表1 8 条件付きでない解析の出力 Apa l y s i so fMaximumL i k e l i h o o dEstimates Parameter. 1 1 1 1 1S tandard D 1 Estimate 1 WaldChi‑ Square Error Pr>ChiSq OddsR a t i oEstimates E f f e c t P o i n tEstimate exposure 9 . 0 0 0 s t r a t a1vs80 3 . 0 0 0 ... ... 」 95%Wald Confidence Limits 1 .817 τ寸│三 1223.087 1 C L A S S文の指定により 8 0個のダミー変数が作成される. 4 8個まで、は c a s巴 もc o n t r o lもともに曝露な し , 4 9から 6 4個まで、は c a s巴 もc o n t r o lもともに曝露あり, 6 5から 8 0個までは c a s eかc o n t r o lのどちら か一方に曝露ありに対応し,それぞれ同ーのパラメータ推定値になる. ‑96‑
EXPOSUREのオッズ比は 9に推定される. Wald Chi‑Squareは 7.2417で p値は 0 .0071と高度に有意 になる.この結果が McNemar検定の結果と大きく異なるのは, LOGISTICプロシジャがパラメータ推 定に最尤法を用いているためである.最尤法がよい推定法となるためには,観測値の数に比べてパ ラメータ数が少ないことが必要であり,この例のように観測値 1 6 0個に対し,パラメータ数が 8 1個 :1 マッチング と多い場合には,最尤法(条件付きでない解析)による推測は大きな偏りを持つ. 1 の場合,通常の最尤法を用いると,パラメータの推定値は正しい値の 2倍(オッズ比は 2乗)に過大 に評価される.この例では正しいオッズ比が 3であるのに 9と推定されている. 条件付きの解析 推定の偏りを避けるためには条件付きの解析を行えばよい.この方法が条件付きロジスティック 回帰である. Pikを事象(疾病)の起きる確率と定義する.ここで i はマッチングした層を表す添え字 xは曝露 の有無,モデルは(13 )式に示す通りである. logl~ー 1=α+ 政 ス1‑P, x) p‑exp(αj+戸) ー 1+e x p ( α j +sx) ( 13 ) は ここで~a iは80 個の層の切片パラメータであり, xはH 暴露の有無によって, 1, 0の値をとる変数で ある.また 8は曝露の効果を表すパラメータである.マッチングさせた層ごとに,両周辺和を固定 させたときの条件付き確率を考える. ( a ),( d )の分害J I表では,両周辺和を固定させたときには可能 a ),( d )はパラメータ推定に寄与しない. なパターンは lつしかないため条件付確率は lとなり, ( 表1 9 マッチングさせた層ごとの分割表のパターン 曝露なし 曝露あり c o n t r o l case 1 1 0 1 1 0 o0 1 0 o1 4 8 ( a ) 4 ( b ) 1 2 ( c ) 0 0 1 1 1 6 ( d ) ( b ),( c )の分割表で=は両周辺和を固定させたとき分割表のパターンとしては, ( b )と( c )の2通りが 考えられる.両周辺和を固定した下で ( c )のパターンが得られる条件付き確率は次のようになる. ( c )の パ タ ー ン が 得 ら れ る 条 件 付 確 率 p(α+β) 1 I υ 1+exp(α+β) 1十 exp(αJ Pi I ( 1 ‑Pi O )= . ‑‑r'‑ , ' / m X 一 一 一 一 ‑ /1" . l . ( 1一 九 ) PiO 山 川 p ( α I ) ~--r'-I/ 1 X 一一一一 1+exp(αJ 1+exp(α+β) P r l ( l p川) exp(α+β) exp(β) Pi I ( 1 ‑P沿)+P, o(1‑P i l ) exp(α+β)+e x p ( α, ) exp(β)+1 条件付けることによって,マッチングした層の効果を表す αlが除かれ, ( 14 ) αl を推定することな く,曝露効果。を推定することが可能になる.またリスク集合の大きさが 2のときの Cox回帰の部分 尤度に等しくなることに注意してほしい.このため条件付きロジスティック回帰は PHREGプロシジ ny ヮ︐
ャで実行することが可能である. b )のパターンが得られる条件付き確率は次のようになる. 同様に両周辺和を固定した下で ( e x p ( αj ) P j o( 1‑Pj J ) Pj J ( 1‑P, O)+P, O ( 1‑PI i ) exp(α+β)+e x p ( αj ) exp(β)+1 ( a )と ( d )のパターンは周辺和を固定すると一つのパターンしか可能でないため条件付確率は lで あり , sの推定には寄与しない.全体の尤度 Lは ( b )のパターンと ( c )のパターンが得られる確率の L Eは次のように導かれる. 積となり , sのM 条件付ロジスティック回帰の尤度と最尤推定量 r 1 L=I一一一一一一 ) 1 ¥exp(β)+1) logL=c β r exp(β) ) x l一一一一一一│ ¥exp(β)+1 ) ( 15 ) ( b+c )l o g (exp(β)+1 ) dlogL ̲ / L , ̲¥ exp(β) b+c )一一一一一=0 S(β)=一 一 一 =c一( 1+exp(β) ( 16 ) ̲ ̲ ̲ /D ¥ C 八 ( ci xp(β) ~ ̲ ‑一一一=一一一一一コ exp(β)=ー コ β =l o g l一│ b+c 1+exp(β) •" ' b . ~\b) d S (β) /1 ,̲ exp(β) 1(β)= 一一一 =( b+c ) d β ( 1+exp(β))" ( 17 ) ヲ S ( 0 ) 2 (c‑(b+c)/2)2 (C‑b)2 x‑sco 町=一一一=‑‑‑‑‑‑‑‑‑一一一一 1 ( 0 ) (b+c)/4 b+c ( 1 8 ) 結局 , sのM L Eは l o g( c / b )(オッズ比は c / b )となり.また帰無仮説 s=0の下でスコア統計量の 2 乗 を観察情報量で害j 'ったスコア検定のカイ 2 乗統計量は ( c ‑ b )2 /( b + c )となり, McNemar検定のカイ 2乗 統計量に一致する. V .9からは, P H R E Gプ口、ンジャを用いなくても, S T R A T A文を用いることで条件付きロジスティック マッチングは 1: 1 でなくてもよいし,層ご 回帰を L O G I S T I Cプロシ、ジャで行うことが可能になった a s eとc o n t r o lの人数が異なっていてもよい.条件付けるためにマッチングした層を表す変数 とに c をS T R A T A文で指定する. E X A C TE X P O S U R Eの指定は,湾r r近近似ではなく,帰無仮説の下での並べ替え 分布に基づいた正確な検定を行うための指定である.この例では 2 項分布に基づく検定に一致する. 0に条件付‑きロジスティック回帰のプログラムを示す. ESTIMATE=BOTHのオプションによって 表2 検定のみならず,パラメータ 3とオッズ比の並べ替え分布に基づいた信頼区間を構成できる O U T D I S T = O U Tによって並べ替え分布をデータセット O U Tに落としている. 表20 条件付きロジスティック回帰のプログラム p r o cl o g i s t i cdescendingd a t a = c c 3 ; c l a s ss t r a t a ; modelr e s p o n s e = e x p o s u r e ; s t r a t as t r a t a ; e x a c te x p o s u r e / e s t i m a t e = b o t ho u t d i s t = o u t ; 出力は表 2 1のようになる. ‑98一 また
表 21 条件付きロジスティック回帰の結果 TestingGlobalNullHypothesis:BETA=O C h i ‑ Square Test Likelihood Ratio 4 . 1 8 6 0 D Pr>ChiS q 1 0.0408 Score Wald 13側 8 AnalysisofMaximumLikelihoodEstimates Parameter DF Estimate Standard Error Wald C h i ‑ Square exposure 1 1 .0986 0 . 5 1 1 4 3.6208 Pr>ChiSq 0.0571 OddsRatioEstimates E f f e c t PointEstimate 95%Wald ConfidenceLimits 1~19.302 exposure ExactParameterEstimates Parameter 95%Confidence exposure p‑Value 0.0768 ExactOddsR a t i o s Parameter 1 1 Estimate 95%Confidence p‑Value 1 2 . 7 6 2 3 . 0 0 0 乗が 4になっていることに注意してほしい. ( 18 )式に示したように M c N e m a r S c o r e (スコア)カイ 2 検定とスコア検定の結果は代数学的に一致する.また正確な検定 ( E x a c t Parameter E s t i m a t e s )の ‑99一
p値は O .0 7 6 8で2 項分布に基づいた p { 直と一致する.オッズ比の点推定値は c / b = 1 2 / 4 = 3で、ある. W a 1 d 検定ベースの漸近的な 9 5弘信頼区間は O .968~9. 3 0 2に対し,正確な信頼区聞は O .909~12. 7 6 2と少し 広めであることがわかる.また,信頼区聞が 1を含むので有意ではないことがわかる.並べ替え分 U Tの内容は表 2 2のようになる. 布を出力したデータセット O 2 並べ替え分布を出力したデータセット OUTの出力 表2 OBS e x p o s u r e Count S c o r e Prob 1 1 6 1 .8 447E19 1 6 . 0 0 0 . 0 0 0 0 2 2 1 7 2.9515E20 1 2 . 2 5 0 . 0 0 0 2 4 3 1 8 2 . 2 1 3 6 E 2 1 9 . 0 0 0 . 0 0 1 8 3 4 1 9 5 20 6 2 1 7 2 2 0 . 0 0 8 5 4 l~ 1 10 . 0 2 7 7 7 8.0575E22 2 . 2 5 0 . 0 6 6 6 5 1 .4 772E23 1 .0 0 0 . 1 2 2 1 9 8 2.1103E23 0 . 2 5 0 . 1 7 4 5 6 9 2.3741E23 0 . 0 0 0 . 1 9 6 3 8 1 0 25 1 1 26 1 2 I E I E I E l~悶22 I~悶22 l~ 附22 l~ 111465‑‑1 i l2 9 1 1 2 . 9 5 1 5 E 2 0 I E l~ 附4 I ω 0 . 0 0 0 2 4 6. 0 0 1 11 1 7 :responseX(expoxure+1 ))であり, 1 7行はそれぞれ c = e x p o s u r eは 3の推定に関する十分統計量(i C o u n tは可能な組み合わせの数で, C o u n tを足し合わせて 0になるように基準化し r o bで、ある. S c o r eはスコアカイ 2 乗統計量 ( c ‑ b )2 /( b + c )である. て確率として表したものが, P 両周辺和を固定した場合 ( b + c = 1 6 ),c は0 から 1 6までの値をとるため,スコアカイ 2 乗統計量は o ( b = c = 8 )から 1 6( b0 ,c = 1 6o rb = 1 6,c = O )までの値をとる. P r o bはB i n( 0 .5 ,b + c,c )の2 項確率である.正 0~16 に対応する. 二 確な検定の p { 直は,得られたスコアカイ 2乗4より大きな値が出る確率を足し合わせて, 0 . 0 0 0 0 2 + 0 . 0 0 0 2 4 + 0 . 0 0 1 8 3 + 0 . 0 0 8 5 4 + 0 . 0 2 7 7 7+ 0 . 0 2 7 7 7+ 0 . 0 0 8 5 4 + 0 . 0 0 1 8 3 + 0 . 0 0 0 2 4 + 0 . 0 0 0 0 2 = 0 . 0 7 6 8 nuv nuv
となる.これに対し mid‑p型の信頼区間を構成することが V̲9から可能になった.プログラムは 表23のようになる. 表23 mid‑p型の信頼区間の計算プログラム p r o cl o g i s t i c descendingdata二 c c 3 ; c l a s ss t r a t a ; modelresponse=exposure; s t r a t as t r a t a ; e x a c texposure/estimate=botho u t d i s t = o u tc l t y p e = m i d p ; EXACT文の CLTYPE=オプションで, midpを指定する.デフォル卜は正確な方法 (CLTYPE=E XACTt)で信頼区間を計算している.結果は表 24のようになる̲ mid‑p法では,スコアカイ 2乗が得 られた 4と等しい場合は確率を半分にして次の様 i こp値を計算する 0.00002+0.00024+0.00183+0.00854+0.02777/2+0.02777/2+0.00854+0.00183+0.00024+0.00002 =0.0490 4 (こ示す. mid‑p型の信頼区間の出力を表 2 正確な検定は,保守的になることが知られており, 5%水準で有意とならなかったが mid‑p値は O . 0 4 " ‑ ' 1 0 . 7 7 6と正確な信頼区間と比べて少し 0490とぎりぎり有意になる.オッズ比の信頼区間は1.0 狭くなる. Type exposqre また V . 9からは,正確な計算のために 3 種類のアルゴリズムが可能になった. P R O CL O G I S T I C文の E 種類のアルゴリズムを指定することができ XACTOPTIONS(METHOD二キーワード)オプションでは次の 3 る. D I R E C T N E T W O R K N E T W O R K M C H i rji ,M e h t aa n dP a t eI( 1 9 8 7 ) a t eIa n dS e n c h a u d h u ri ( 1 9 9 2 ) M e h t a, P M e h t a .P a t e la n dS e n c h a u d h u r i( 2 0 0 0 ) D I R E C T がデフォル卜の方法であるが,一番記憶領域を多く使用し,計算時間がかかる方法である. E T H O D = これに対し,ネットワークアルゴリズムを用いて,効率的に計算するためのオプションが M N E T W O R Kである.最初の 2つが正確な並べ替え分布に基づくのに対し, NETWORKMCでは,モンテカ ノレロサンプリングにより,並べ替え分布を近似する. M Cは M o n t eC a r l oの略である. したがって ‑101‑
乱数のシードとサンプリングの回数を指定する必要がある.このためのオプションが SEED=と N=オ プションである.それぞれのデフォルトはコンビュータの内部時間と 1 0 0 0 0である.解析に再現性 を持たせるためには, SEED=オプションを指定した方がよい. NETWORKMCオプションを用いた解析のプログラムは表 2 5のようになる. 表2 5 モンテカルロシミュレーションによる近似検定のプログラム p r o cl o g i s t i cdescendingdata=cc3 exactoptions(method=networkmcseed=4989 nニ 2 0 0 0 0 ) ; c l a s ss t r a t a ; modelr e s p o n s e = e x p o s u r e ; s t r a t as t r a t a ; e x a c te x p o s u r e / e s t i m a t e = b o t ho u t d i s t = o u tc l t y p e = e x a c t ; 結果は表 2 6のようになる. 表2 6 モンテカルロシミュレーションによる近似検定の出力 ExactParameterEstimates Type Exact ExactOddsR a t i o s Parameter Type 95%Confidence L i m i t s サンプリング回数が 20000固と十分大きいため,正確な並べ替え分布を精度高く近似しているた { i 宣も信頼区間も正確な方法に近くなっている. め,p 以上の結果をまとめる. 7 結果のまとめ 表2 2 ) 条件付きロジ ロジ ( 1) ロジ ( . 9 0 5 8 .0 0 0 4 .0 0 0 力イ 2 乗統計量(スコア) 1 p値 O .0 0 3 O 0 . 1 2 2 .0 4 6 1 . 6 1 5 9 . 0 0 0 3 .0 0 0 オッズ比 信頼下限 0 . 8 1 6 1 . 8 1 7 O .9 6 8 信頼上限 3.200 44.591 9 .302 正確法 O .0 7 7 3 . 0 0 0 O .9 0 9 1 2 .762 ロジ ( 1 )はマッチングを無視した解析,ロジ ( 2 )は条件付きでない解析である.条件付きロジステ 2 )では過大に評価している ィック回帰に比べて,オッズ比をロジ(1)で、は過小,ロジ ( 性についても同様の偏りが入る.検定の結果は条件付きロジスティック回帰では 検定の有意 5 潟水準でぎりぎ り有意となるが,正確法では有意とならない.信頼区間も,条件付きロジスティック回帰と比べて, 正確法では少し広くなる.以上のようにマッチングを行った場合は,適切な解析を行わないと結果 102‑
が大きく偏ることが確認された.また事例のように, b + cが小さいときは,湾j i近性を利用したスコ ア検定と並べ替え分布に基づいた検定は実質的に大きな違いが生じる場合がある. 7. 終わりに 著者が 1 2年前に条件付きロジスティック回帰のチュートリアルを行ったときは, SASはまだ V .6 の時代で、あったが, 1 :1マッチンク守を行った場合しか, LOGISTICプロシジャでは条件付きロジステ H R E Gプ口、ンジャを用いるしかなかった(浜田(1994)). ィック回帰を行うことができず,代わりに P V .9では本稿で示したように,任意のマッチングの組み合わせについて条件付きロジスティック回 帰を行うことが可能であり,かっ並べ替え分布に基づいた正確な推測を行うことも可能である. S A Sは確実に進化しており,解析する側も進化を続ける必要がある. 参考文献 Derr,R.E.( 2 0 0 0 )Performinge x a c tl o g i s t i c r eg r e s s i o nwitht h eSASSystem.SUGI'2000 P r o c e e d i n g s,Paper254 G a i l,M.H.,Lubin,J . H .,andRubinstein,L . V .( 1 9 8 1 ) L i k e l i h o o dC a l c u l a t i o n sf o rMatched C a s e ' C o n t r o lS t u d i e sandS u r v i v a lS t u d i e swithTiedDeathTimes.Biometrika,68,7 0 3 ' 0 7 . H i r j i,K .F .,Mehta,C . R .,andP a t e l,N.R.( 1 9 8 7 )ComputingD i s t r i b u t i o n sf o rExactL o g i s t i c R e g r e s s i o n .JournaloftheAmericanS t a t i s t i c a lA s s o c i a t i o n,82,1110・ 1117 Hosmer,D.W,J r .andLemeshow,S .( 2 0 0 0 ),AppliedL o g i s t i cRegression,SecondE d i t i o n,New Yo1'k :JohnWiley& Sons,I n c . Mehta,C .R . ,P a t e l,N.andSenchaudhuri,P .( 1 9 9 2 ),ExactS t1'a t i f i e dLinearRankT e s t sf o1' O1'de1'edC a t e g o r i c a landBinaryD a t a .Journalo fComputationalandGraphicalS t a t i s t i c s,1 , 21・ 4 0 . Mehta,C .R . ,P a t e l,N.andSenchaudhuri,P .( 2 0 0 0 )E f f i c i e n tMonteCarloMethodsf o r C o n d i t i o n a lL o g i s t i cR e g r e s s i o n .JournaloftheAmericanS t a t i s t i c a lA s s o c i a t i o n,95,99.1 0 8 . T r u e t t,J .,C o r n f i e l d,J .andKannel,W . ( 1 9 6 7 ) AM u l t i v a r 匂t eAnalysiso ft h eRisko f CoronaryHeartDiseasei nFramingham.J . C h r o n . D i s .20,511・524 浜田知久馬 ( 1 9 9 4 )SA Sによる条件付きロジスティック回帰. 日本 SASユーザー会 94 論文集, 5 27'540 浜田知久馬 (2000)LOGISTICのV.8の機能拡張.日本 SASユーザー会 2000 論文集, 1 3・38 浜田知久馬 ( 2001)SASV .8における正確な推測とシミュレーションによる近似法. 日本 SASユーザー会 2001論文集,16 5'187 1 0 3ー
口頭論文発表 医薬品開発 (システム系〉
S A S Foru mユ ー ザ ー 会 SASによる統計解析を意識した EDC構築 O小 出 起 美 雅 ヘ 冨 田 大 祐 ド ヘ 関 根 靖 高 * 件 、 林 行 和 ヘ 山 口 孝 一 * 株式会社 ACRONET 開発本部 ¥ DM'統計解析部 *勺ライアントサポート部 ***臨床システム部 EDCsystemdevelopmentorientedforthestatisticalanalysiswithSAS K im i n o r iKoideヘD a i s u k eT o m i t a * *, Y a s u t a k aS e k i n巴 * * * ,Y u k i k a z uH a y a s h iへK o i c h iYamaguchi* * D a t aManagement& B i o s t a t i s t i c sDepし , 本* C l i e n tS u p p o r tDep , . t* * * C l i n i c a lSystemDep , . t C l i n i c a lDev 巴l opm巴n tD i v i s i o n, ACRONETC o r p . 要旨 近年、データマネジメント作業により作成される臨床試験データは、 CRF記載内容をより忠実に データ化することに重きをおく傾向にある c 中でも一般的に EDCシステムによるデータ作成作業は、 最も原本に近いデータ作成品、える。そのーゾ1、CRF記載内容の忠実なデータ化に注力しすぎる あまり、統計解析時に扱いづらいデータになってしまう可能性もある。 ACRONETで自社開発している EDCシステムでは、その構築時に SASによる統計解析を行う ことを意識してデータ構造を設計している。それにより、統計解析へのデータ移行の際に不必要な 艇を減らすことに成功している。 構造変換や導出・加工変数の作成等の r 本論文では、その具体例を紹介するの キーワード EDC,データ変換,統計解析 1 EDCシステムのメリットとは EDCシステムには CRF記載内容を入力しデータ化するとしづ機能に留まらず、入力されたデ、 ータのチェック機能や、閲覧機能等の様々な機能が組み込まれている c それらの機能により、作 成されたデータの質の向上や、収集されたデータの早期利用が可能となる点等が EDCシステム のメリッ卜として挙げられている。 ‑107
各機能の実施時期 下一> 1.3データの閲覧機能 │ 1.4入力履歴、監査証跡の記録機能 症例入力開始 データ固定 1 . 1 入力時チ工ツヲ機能 必須項目の未入力 日付の妥当性、整合性 不正な値(数値項目への文字入力、規定範囲外の入力) データ入力時に上記に例示した様なチェックを行い問題点をリアルタイムにポップアップ ウインドウ等で表示して入力者に知らせることにより、不正な値の入力等を防ぐことが可能で 寺チェックにて問題点が指摘された場合で、も入力者の負荷軽減の為、入力 ある。但し入力 H された内容をそのまま保存することも可能となっている。これは、臨床のデータはそもそも矛 盾をはらむ可能性があるとともに、入力時にあまり厳しいチェックをかけるとデータ入力作業 の負担が大きくなるとし、うことを考慮した結果である。 1 . 2 ロジカルチ工ツヲ機能 u 有無」と「詳細内容」の記載の矛盾等) 測定値比「正異判定」の基準値を踏まえた矛盾等) 項目聞の整合性 u 選択基準」、「除外基準」と入力値の矛盾(年齢)等) 項目聞の整合性 u 項目聞の整合性 試験依頼者の任意のタイミンク守で、ロジカルチェックを行い、入力データの問題点を確認 することが可能である。ロジカルチェックの内容としては上記に例示した様なチェックに加え、 入力時チェックのチェック内容もロジカルチェックとして再度チェックが行われる。 1 . 3 データの閲覧機能 入力されたデータ(ロジカルチェックによる問題点も含めた)の確認 試験の進捗状況(症例の登録、症例の進捗) 症例分布(年齢層、疾患名等) ‑108一
有害事象等の発現状況 入力されたデータは試験依頼者側ですぐに閲覧、確認が可能となり、早期に、収集され たデータの状況を把握することが可能である。また紙 CRFを用いたデータマネジメン卜作業 に比べてロジカルチェックを実施するまで、の時間を短縮することが可能な為、ロジカルチェ ック結果とあわせてデータを確認することができる。 1. 4 入力履歴、監査証跡の記録機能 入力者、入力日時、入力内容からデータの入力履歴や、修正履歴、また監査証跡を作 成する為の情報を自動的に保存。 2 統計解析的観点から見たデータ構造 2 . 1 統計解析で扱いやすいデータ構造 CRF例 血圧/脈拍 投与開始日 測定日付 1週目 2週目 2006年 3月 1日 2006年 3月 B日 2006年 3月 1 5日 収縮期/拡張期 (mmHg) 130/90 128/87 125/86 脈拍(回/分) 6 5 6 3 6 2 上記に示した CRF例の場合、 CRFレイアウトにあわせて作成するとデータベースは T a b l e l の様なデータ構造となってしまうことが多い。しかし統計解析で使用する際は T a b l e 2の様なデータ構造が望ましく、統計解析へのデータ移行段階でデータ構造の変 換が必要となる c T a b l e l DBP HR 9 0 6 5 8 7 6 3 9 8 6 9 9 6 6 7 T a b l e lの様なデータ構造の場合、各検査項目の実測値は 1時点に 1つのみだが、同 一症例、同一測定時点に複数のレコード(測定項目が欠測のレコード )が存在する。この ‑109
保な場合には目的のi!!IJ定項臼が取得しづらくなる。 Table2 I D VISIT DATE ITEM VAL 1 0 0 1 投与開始時 2006/3/1 収縮期血圧 130 1 0 0 1 投与開始時 2006/3/1 拡張期血圧 90 1 0 0 1 投与開始時 2006/3/1 脈拍 65 1 0 0 1 1週後 2006/3/8 収縮期血圧 1 2 7 1 0 0 1 1週後 2006/3/8 拡張期血圧 8 7 2006/3/8 脈拍 6 3 1週後 1 0 0 1 」 一 」 1002 投与開始時 2006/3/3 収縮期血圧 1 3 6 1002 投与開始時 2006/3/3 拡張期血圧 98 1002 投与開始時 2006/3/4 脈拍 69 1002 1週後 2006/3/10 収縮期血圧 134 1002 1週後 2006/3/10 拡張期血圧 9 6 1002 1週後 2006/3/10 脈拍 6 7 Table2 の様なデータ構造の場合ならば各検査項目の実測値があるレコード‑のみ存在 するので、目的の測定項目を取得するのが容易である。 集計例 血圧/脈拍の平均値±標準偏差 投与開始日 1週日 2週日 収縮期血圧 1 2 8 . 8 : : ! : :5 . 5 0 0 1 2 6 . 8 : : ! : : 5 . 7 3 7 1 2 4 . 8土 4 . 9 2 4 拡張期血圧 8 8 . 5 : : ! : : 7 . 3 2 6 8 6 . 0 : : ! : : 7 . 6 1 6 8 4 . 3 : : ! : : 5 . 0 5 8 脈拍 6 3 . 0 : : ! : : 4 . 9 6 7 6 3 . 3 : : ! : : 3 . 3 0 4 6 0 . 5 : : ! : :3 . 8 7 3 PROC SORT DATA=Table2; BY VISIT ITEM; RUN; PROC UN工VAR工ATE DATA=Table2; BY VISIT ITEM; VAR VAL; RUN; Table2 のデータ構造ならば上記の様な要約統計量の算出も平易なプロク守ラムで、記述 することができる。 一110一
2 . 2 統計解析時に必要芯導出・加工変数 寺点(タイムウインド、ウによる観察日時の許容範囲の設定) 統計解析用の H 投与開始日から有害事象の発現までの日数 有害事象発現期間 SAS日付値、 SASn 寺刻値 有効性の評価項目等の合成スコア 同意取得時の年齢 数値変数のカテゴリ化 臨床検査値等のベースラインカ hらの変化量 統計解析時の取り扱い基準や、上記に例示した様な再利用性の高い項目は導出・加工変 数として作成しておくことにより統計解析作業へスムーズにデータ移行することができる。 投与群、症例採否等の付加情報を加えればそのまま統計解析が可能なデータが理想的で ある。 3 統計解析を意識した EDCシステム構築の具体例 弊社では EDCシステム構築時にシステム開発担当者、データマネジメント担当者に加え、解 析担当者を含めて検討を行うことにより、 SASによる統計解析を意識したデータ構造、及び入力 時チェック、ロジカルチェックを設計している。 3 . 1 EDCデータベース 統計解析 ( S A S )へのデータ移行時にデータ構造変換の不要な EDCデータベース を設計 統計解析に使用する導出・加工変数を設計 3 . 2 入力時チェック、及びロジカルチェック 実施計画書に記載された統計解析 H 寺の規定等を含めた入力時チェック、ロジカル チェクを設計 ロジカルチェックの実施結果を EDCデータベースに保存 3 . 3 効果 統計解析へのデータ移行時に行っていた作業工程(構造変換、導出変数の作成)を データマネジメント作業で、行うことにより作業負荷の平滑化が可能である。 臨床試験では、特に試験の終盤であるデータ固定から統計解析、総括報告書の作成 までに業務量が膨大となる傾向がある。この時期に発生していた作業を EDCシステム開 発の一部として前倒して実施することで、試験の終盤の作業負荷を軽減できる。またこの
ことにより、試験全体の質の向上に大きく寄与することがで、きると思われる。 作業量 ︑ ‑ aF A 町 ︺品川 ︑︑換作 ︑.変数 一造変 ‑曜日 ノ信 ‑ll ︐ ︐ ︐ ︐ ︐ ︐〆 ﹄ h川K r ︐ ︐ ︐ ︐ ︐ ︐ ︐ 江成︐ ︐︐ 導変 b劇 〆 ‑ ‑ ‑ ‑ ,ー DM運用期間 データ固定 → i ← 統計解析 時間 一般的な EDC 統計解析を意識した EDC 4 今後の展望 データ状況確認の為 i こ SASを利用 (SAS/GRAPH) 入力データの値を視覚的に確認することができる閲覧機能の Graph は大変有用である が、個別に作り込みの必要があり、その作業負荷も大きい。しかし SAS/GRAPHを使用する ことにより弊社にて蓄積されたマクロ言語を用いて容易に作成が可能であり、現在 EDC シ ステムへの組み込みを検討中である。また EDCシステムで作成した SAS/GRAPHを統計解 析時に利用することにより統計解析の作業負荷を軽減することができる。 今後の業界標準になるであろう CDISCへの対応も準備中である。 ‑112
S A S Forumユ ー ザ ー 会 SAS‑Microso抗 Word問の自動化処理による出力の加工・整形 田村洋介 臨床統計・プロク、、ラミング部 アストラゼネカ株式会社 A automationtechniquebetweenSASandM i c r o s o f tWordf o rprocessingoutputs YousukeTamura . K . S t a t i s t i c s&ProgrammingDepartment,AstraZenecaK 要旨 Windows版 SAS8.2から他のアプリケーションを操作することにより、自動化処理を達成する方法と して、 Xコマンド とVBS( V i s u a lB a s i cS c r i p t ) を併用する方法を提案する。具体的な事例として、 SAS から ODS(html)を用いて作成された h t m lファイルを Wordで、読み込んで、加工する SASマクロ、及び、 SASから出力した図の画像ファイルを M i c r o s o f tWordで読み込んで、加工する SASマクロを紹介する。 また、その方法の現時点で、のメリットデ、メリットを提示し、将来的なりスク、及び自動化処理全般につ いてを考察した。 キーワード:自動化、アプリケーション連携、 ODS、Xコマンド、 1.はじめに 最終的成果物を M i c r o s o f tWordファイルとして、得るために、 SASからの出力ファイルの加工、整 形の自動化処理をする場合、 OLE/DDEを使用して、 SASから M i c r o s o f tWo r dを操作することが一 般的になされていた。そのためのプログラムは、 SASで実行される、出力ファイルを作成するプログp ラム部分と、 M i c r o s o f tWord等の SAS以外のアプリケーションで、実行される、 SASの出力ファイルを 加工する OLE/DDEのプログラム部分に大別できる。 ODSが存在しなかった SAS6以前で、あれば、このような処理を行うには、以下のような方法が取ら れていた。 SASが出力するテキストファイルを、 M i c r o s o f tWordで読み込んで、表にする デ、ータセットを CSVファイルや M i c r o s o f tE x c e l等にエクスポートし、 M i c r o s o f tWordで、読み込 んで表にする いずれの方法も、 SASの出力ファイルを加工する OLE/DDEのフ。ログ ラム部分は、表としての体裁 P を整える、罫線を附加する等の、長大で煩雑なプログラムになりがちである。 1 1 3一
SASマクロを利用して、 OLE/DDEのプログラム部分の利用を簡素化しても、開発及び、要望の変 更に伴う修正、 S AS又は M i c r o s o f tWordのバージョンの変更に伴うメンテナンス等の管理運用には 多大な時間と労力を要する。 ASの出力ファイルを加工する OLE/DDEのプログラム部分が長大で、煩雑になるのは、 このように S SASの出力と、求められている出力の事離が大きいためである。 一方、 S A S 8 . 0以降では、 ODSが利用可能になり、出力ファイルのフォーマット、見た目に関して、 SASだけで、容易且つ柔軟に対応可能になった。そのため、依然として SASだけでは対応すること の利用により、 が難しい出力ファイルの加工、整形に対する要望は存在すると思われるものの、 ODS SASの出力と、求められている出力の事離は小さくすることが可能になった。このことから、 ODSが無 ASの出力ファイルを加工するプログラム部分を小さくすることが可能と考え かったこと頃と比較して S た(図 l 参照)。 図1.プログラム全体に占める、出力ファイルを加工する部分の害J I合の変化 S A S 6以前 ( O O S無)の S A S プログラム O O S有)の S A S プログラム S A S 8以降 ( 出力ファイルを作成するプログラム 出力ファイノレを作成するプログ ラム O a t as t巴p P r o c e d u r 巴 O a t as t巴P P r o c巴d u r e OOSs t a t e m e n t 出力ファイルを加工するプログラム 出力ファイルを加工するプログラム OLE/OOE OLE/OOE ファイル読み込み 整形 罫線附加... ファイル読み込み... , , , , , , 本稿では、 W i n d o w s2 0 0 0 /SAS8 . 2 /M i c r o s o f tWord2 0 0 0の環境で、 SASの出力ファイノレの加 工、整形の自動化処理を検討した。処理内容によって場合分けし、それぞれ適当と思われる方法 V i s u a lB a s i cS c r i p t )を併用する方法を提案する。 を提案する。複雑なケースで、は Xコマンド とVBS( ASから O D S ( h t m l )を用いて作成された h t m lファイルを M i c r o s o f t また、具体的な事例として、 S から出力した図の画像ファイルを M i c r o s o 丘W ordで、読 Wordで、読み込んで、加工する SASマクロ、 SAS み込んで加工する S ASマクロを紹介する。 まとめとして、現時点で、のその方法のメリット/デ、メリットを提示し、将来的なリスク、及び自動化処 理全般について考察した。 2 .単純な自動化処理 ‑114
前提条件として、 Windows2000/SAS8 . 2 /M i c r o s o f tWord2 0 0 0 (以下、 Word)の環境で、検討す る 。 最終の出力として、 Wordファイルを提供することを目的とし、対象となる自動化処理は、 SASプロ グラムから出力されたファイルを、 Wordで、読み込み、加工、整形する処理とする。 P 2 . 1単一で単純な定型の処理 常に同じで、単一で単純な定型の処理を行う場合、 OLE/DDEを使用する必要はない。 M i c r o s o仕 Word2000以降には、 Wordファイノレに引数の無し、AutoExec品、う名前のWordマクロが 含まれていた場合、ファイノレを開くときにAutoExecを実行するとしち機能がある。 この機能を使用するためには、次のようにすればよい。すなわち、 SASからの出力ファイノレを加工 するプログラムを Wordマクロとして作成し、それを AutoExecとしづ名前の Wordマクロとして含む Wordファイノレを用意しておく。 SASプログラムとして記述されている、出力ファイルを加工する OLE/DDEのプログラムと同等のことがWordマクロで、可能で、ある。 SASプログ、ラムでXコマンドを使用し、用意したWordファイノレを開くことで、自動的に AutoExecが 実行される。 a m p l e . d o cを聞いている。 プログラム lの例では、カレントフオルタ守にある、 S フ。ログラム 1 X"WINWORD.巴 X巴 のパス N " 開 く Wordファイルのパス" E x )X" C :干P r o g r a mFI ie s' lM i c r o s o f tO f f i c e' lO f f i c e' lWINWORD.EXE"" ¥S a m p l巴. d o c " 出力の概念図を、図 2に示す。単純な処理であれば、出力ファイルを加工する OLE/DDEのプロ グラムを、開発、実行するアプリケーションは SAS で、ある必要がないため、出力ファイノレを加工する 処理をWordマクロで行うことができる。 . 単一で定型の処理の概念図 図2 S A S アプリケーション : W o r d アプリケーション : 出力用 SASプログ、ラム 出力用 Wordファイル( S a m p l e . d o c ) │出力フ山を作成す仇グラム I X"WINWORD町 干 S a m p l e 1 出力ファイルを加工するWord マクロ 1 ‑→ 111(Au岨 x ω 1 1 2 . 2 単一でないが、単純な定型の処理 単一でないが、単純な定型の処理を行う場合でも、 OLE/DDEを使用する必要はない。 ‑115
Microso 食 Word 2000以降では、スタートアップスイッチが設定で、きる。スタートアップスイッチと はWordの起動時に、特定の動作をさせる為の機能である。この機能を利用すると、号│数の無い特 定の Wordマクロの実行が可能となる。 この機能を使用し、出力ファイルを加工するプロク、、ラムを Wordマクロとして、いくつか保存した Wordファイルを用意しておく。 SASプログPラムで、 Xコマンド、を使用し、用意した Wordファイルをスタートアップスイッチで、実行した いWordマクロを指定して開けば、自動的に指定したWordマクロが実行される。 プログラム 2の例で、は、カレントフォルダにある、 Sample.docを聞き、 Caselとしち Wordマクロを実行して いる。 プログラム 2 X"WINWORD.exeのパス""開く Wordファイルのパス"1 m "実行したいWordマクロ名手 H E x )X" C :干ProgramFI i e s ¥M i c r o s o f t0伍 c e 干O伍 c e 草 川IINWORD.EXE"" . 干S a m p l e . d o c "Im"Casel" 出力の概念図を、図 3に示す。 SASプロク、、ラムで、実行結果によって、実行する Wordマクロを切り替 える場合に利用できる。 . 単一でないが、単純な定型の処理の概念図 図3 アプリケ一一ジヨジ:SAS アプリケージョン苅T o r d:C 出力用 SASプログラム 出力用 Wordファイル (Sample.doc) l /ω │ │出力フ山を作成す仇仇 I f(条件)t h e n X WINWORD.EXE" . ¥S a m p l e . d o c "I m"Casel"; E l s e X WINWORD.EXE" . 干S a m D l e . d o c "I m"Case2": 帥 山 を ー … ク ロ アプリケーション :Word l ト 、 出力用 Wordファイル(Sample.doc) 出力フア何一一ロ ( C a s e 2 ) 3 .複雑な自動化処理 " 2 .単純な自動化処理 で提示した方法が使用できる状況は限られていると思われる。実行する H Wordマクロを制御で、きても、引数を渡すことができない為、単純な DDEで可能な処理を代替するこ としかできない。 2 .単純な自動化 ここで、はじめて OLE/DDEを使用することを検討すべきであるが、本稿では、 " 処 理 で利用した方法を更に拡張して、 OLE/DDEを用いることなく、 Wordマクロに引数を与える必 H 要がある場合で、も対応可能な VisualBasicScript(VBS)を利用したテクニックを提案する。 ‑116
3 . 1VisualBasicS c r i p t(VBS) M i c r o s o f t Windows 98,Windows Me、Windows 2000,Windows XPでは標準で、 Windows つで、 S c r i p t Host(以下 WSH)がインストールされている。 VBSはWSHで実行可能なスクリプト言語の l o rApplications(VBA)に似ており、 OLE/DDEを使用 文法は、 VisualBasic(以下 VB)、VisualBasic f で、きる SASプログ、ラマで、あれば理解は容易であると思われる。 、 VBSで 、 Sample.docのCaseとし、うマク プロク、、ラム 3は ロi こ"Test"としづ引数を与えて実行するためのプログ ラムである。 VBSは拡張子を " . v b s勺こして、プログ、ラムを保存す れば、実行可能である。 プログラム 3 S e twd=C r e a t e O b j e c t ( " W o r d . A p p l i c a t i o n " ) a m p l e . d o c , ぺTrue wd.Documents.Op巴n"¥S w d . A p p l i c a t i o n . R u n "Cas巴", " T e s t " w d . A p p l i c a t i o n . Q u i t S e twd=N o t h i n g 3.2SASから VBSを実行する プログ ラム 3を保存しておけば、 SASから Xコマンド、でら実行で、きる。 P プログラム4 プログラム 4の例では、プログラム 3をカレントフォルダ i こSample.vbsと│ して保存しておいた場合の実行用の SASプログFラムでらある。 I X" S a m o l e . v b s ι l 3.3SASから Wordマクロを実行する " 2 . 単純な自動化処理 で、出力ファイルを加工する OLE/DDEのプログ、ラムを、開発、実行する N アプリケーションは SASで、ある必要がないとし、出力ファイルを加工する処理を Wordマクロで、行っ た。また、 "3.2 SASからVBSを実行する wにおいて、 VBSのプログ?ラムを SASから簡単に実行で、きるこ とを提示した。 プログラム5 これらを組み合わせて、 SASから VBS %macroExecuteWordMacro( のプロク、、ラムを動的に作成し、 SASから 作成した VBSのプログラムを実行し、 VBSのプログラム i こWordマクロを実行さ せることができる。 で 、 SASマ サンプルとして、プログラム 5 で、その SASマクロ呼び クロを、プログ、ラム6 出しを提示する。 SASマクロ "Execut eWordMacro"は 、 VBSFilePathで、指定した VBSプログラム ファイルを作成し、 Xコマンド、で、実行する としウ機能を持つマクロである。 WordFilePath= ,C a l l = I ) ・ , VBSFilePath= 日l e n a m巴 t 巴mp" & V B S F i l e P a t h . " ; d a t an u l l 日l e̲ t巴mpLRECL=1000; p u t' S e twdニ C r e a t巴Object("Word. A p p l i c a t i o n " ) ' ; W o r d F i l巴P a t h . ", ぺTrue'; p u t'wd.Documents.Open p u t' w d . A p p l i c a t i o n . V i s i b l e=Tru巴 p u t p ut' 凶 w d . A p p l i c a t i o 叩n . Q u i 此 t '; p u t' S e twd=N o t h i n g ' ; r u n ; o p t i o nNOXWAIT; x" " " & V s S F i l e P a t h . " " " ; o p t i o nXWAIT; 弘m end; 、 川 1 1 7ー
作成される VBSプログラムは、 WordFilePathで、指定したWordファイルを読取専用で聞き、 Wordの
a
l
lで、指定したWordマクロを実行し、 Wordアプリケーションを
アプリケーションウインド、ウを表示し、 C
終了するとしづ処理を行う。
MW
ハし︐
n
uw
dnut
企
︐
'
︐
︐
e 凶
dT
mH
au︐
=e
'HS
t
日
︑
円Epuuw
︑
︐
Tι1li
hHA
lρc
'
wh
l
'
︐
el
O{a
の例では、 Case としづ Wordマクロを含む C:VSample.doc
︐
AU‑‑
WC
プログラム 6
%Execute砂匂'
r
d
M
a
c
r
d
.
プログ、ラム 6の "ExecuteWordMacro"のマクロ呼び出し I
I.
V
B
S
F
i
l
e
P
a
t
h
=
C
:¥S
a
m
p
l
e
.
v
b
s
を用意しておく。処理の流れは以下のようになる。
C
a
l
lで、実行したい Wordマクロを指定する際、文字列の
I
;
)
クオートが若干煩雑ではあるものの、 OLE/DDEでVB!
V
BAの文字列のクオートに慣れている SAS
プログラマで、あれば問題ないと思われる。
1
. SASマクロ "ExecuteWordMacro"を実行すると C:¥Sample.vbsが作成され、実行される。
2
. C:VSample.vbsが実行されると、 C:VSample.docを読取専用で聞き、 Wordのアプリケーションウ
インドウを表示して、指定したWordマクロ "Case"を実行する。
3
. Wordが指定したWordマクロ "Case"~処理するO
4
. C:事Sample.vbsがWordアフ。リケーションを終了
出力の概念図を、図 4
fこ示す。 SASプログラムはVBSを介して Wordを操作している。
図4.SASプログラム、 VBSプログラム、 Wordマクロの実行の概念図
アプリケーション :SAS
出力用 SASプログ、ラム
│出力フ山を作成するプロク守ラム
%ExecuteWordMacr
d
.
W
o
r
d
F
i
l
e
P
a
t
h
=
C
:¥S
a
m
p
l
e
.
d
o
c
,C
a
l
l
=
'"
"
"
'
C
a
s
e
"'
"
,
'
'
'"
T
e
s
t
'
",
•V
B
S
F
i
l
e
P
a
t
h
=
C
:¥S
a
m
p
l
e
.
v
b
s
アプリケーション :WSH
ト→
VBSプロクーラム (
C
:¥S
a
m
p
l
e
.
v
b
s
)
r
e
a
t
e
O
b
j巴c
t
(
"
W
o
r
d
.
A
p
p
l
i
c
a
t
i
o
n
"
)
S
e
twd C
wd.Documents.Op巴n"
C
:¥S
a
m
p
l
e
.
d
o
c
".
.
T
r
u
e
w
d
.
A
p
p
l
i
c
a
t
i
o
n
.
W
i
n
d
o
w
S
t
a
t
e2
w
d
.
A
p
p
l
i
c
a
t
i
o
n
.V
i
s
i
b
l巴 =True
w
d
.
A
p
p
l
i
c
a
t
i
o
n
.
R
u
n "Case"
.
"T
e
s
t"
w
d
.
A
p
p
l
i
c
a
t
i
o
n
.
Q
u
i
t
S
e
twd=N
o
t
h
i
n
g
二
二
アプリケーション :Word
,
.
出力用 Wordファイル (
C
:¥S
a
m
p
l
e
.
d
o
c
)
出力ファイノレを加工するWordマクロ
(
C
a
s
e
(
T
e
s
t
)
)
4
.実装例
‑118一
具体的な事例として、 SASから ODS(html)を用いて作成された htmlファイルを Wordで、読み込んで、 加工する、作表用 SASマクロ、 SASから出力した図の画像ファイルを Microsoft Wordで読み込んで、 加工する作図用 SASマクロを紹介する C 4 . 1 作 表 用 SASマクロ SAS から S t y l e設定された Wordファイルを自動作成するために作成した SASマクロで、ある。 2つの SASマクロ (ToWordOLStartとToWordOLEnd)からなり、準備として、 Wordマクロを含む、 WordのTemplateファイルを用意しておく。 使用方法をプログラム 7に示す。 ToWordOlS t a r tとToWordOLEndで 挟 ん だ聞の出力が、'二¥ output¥Sample.doc"! こ 出 フ。ログラム 7 %ToWordOLSta れ( ToWord̲PNAME=.¥o u t p u t, ToWord̲FNAME=S a m p l e ) ; 力される。この例では Proc Repo口で、あるが、 基本的に、任意の出力が使用可能である。 Hu r A VBSプログラムを介した部分の処理の流れ 3 . 3 SASから Wordマクロを実行する"と は 、 " ︐ n o了td a t a = a . a ; P r o cR巴p ; c o l u m np a t i e n tITEMd a yTIMv a l u巴 %ToWord01̲End(ToWord̲TmpPNAME=.Vcommon, ToWord̲TmpFNAME=ToWord̲ TemplateO1 ) ; 同様である。以下に詳細を示す。 1 . SASMacro:ToWordOLStartがODS(html ) の Templateを準備 2 . ProcReport、 で Output作成 (htm) l 3 . SAS Macro:ToWordOLEnd が 、 指 定 し た Word の Template フ ァ イ ル ( . ¥common¥ToWord̲TemplateO1 ) の Wordマクロを実行する VBSフ。ログ ラムを作成し、作成した P VBSプログラムを実行 4 . VBSフ。ロク、、ラムが WordMacroを実行 5 . WordMacroが 、 htmlをインポートし、表のフォーマットを整え、 S t y l e設定し、名前をつけて保存 4 . 2 作 図 用 SASマクロ SASから S t y l e設定されたタイトノレと、画像を読み込んだ、Wordファイルを自動作成するために作成 した SASマクロである。 " 4 . 1 作表用 SASマクロ"を開発後、画像ファイルをインポートする Wordマクロを開発したので、こ れらのプログラムを組み合わせて作成した。 2つの SASマクロ (FigT0W ord̲SとFigToWord̲E)からなり、準備として、 Wordマクロを含む、 Wordフ ァイノレを用意しておく。 !こ示す。 これら SASマクロの使用方法をプログラム 8 119‑
FigToWord̲SとFigToWord̲Eで、挟んだ、聞に出力されたの画像ファイルがぺ¥ output ¥Sample.doc" にインポートされ、出力される。この例で、は Proc Gplotで、あるが、基本的に、画像ファイルを出力す るのであれば任意の出力が使用可能である。 プログラム8 弛F i g T o W o r d ̲ S ( B a s e P a t h二 . ¥o u t p u t . O u t p u t N a m e = S a m p l e ) ; g o p t i o n sdevice=CGMOF97Ls f m o d e = r e p l a c e; T i t l e1T i t l ei nf i g u r e ; F o o t n o t e lF o o t n o t ei nf i g u r e ; P r o cG p l o td a t a = t e s tu n i f o r m ; byC; p l o tb * a = S u b j e c t/n a m e = " ( ' ; r u n ; q u i t ; 弛F i g T o W o r d ̲ E ( T i t l e1 = F i g u r e1 1S a m p l e F i g u r e . F o o t n o t e1 ニT h i si sas a m p l e . . G l u e F i l e s P a t h = .¥t e s t ¥G l u e F i l e s1 .5 0 . d o c .R a t e = 0 . 5 ) ; 処理の流れは、 " 4 . 1 作表用 SASマクロ乍同様で、ある。以下に詳細を示す。 1 . SASMacro:FigToWord̲Sが出力先のフォルダを作成 2 . ProcGplotで、画像ファイルを作成 (cgm) (捜数個の cgmファイルも可) 3 . SAS Macro: FigToWord̲Eが、指定したWordファイノレ(.¥t e s t ¥GlueFiles1 .50.doc)のWordマクロ を実行する VBSプログラムを作成し、作成したVBSプログ、ラムを実行 4 . VBSプロク、、ラムが WordMacroを実行 5 . WordMacroが、画像ファイルに表示される、タイトル"T i t l ei nf i g u r eペフットノート"F o o t n o t ei n i g u r e1 1SampleFigure f こS t y l e設定し、 cgmフ EEuremとは別に、 Wordファイルのタイトノレとして F sas a m p l e .を附加し、 ァイルをインポートし、画像ファイノレのサイズ、を 50%にして、脚、注として Thisi 名前をつけて保存 5 .まとめ 本稿で提案した、 Xコマンド、と VBSを併用する方法は、基本的に OLE同様、すべての Microsoft x c e lマクロ実行用の SASマクロの開発も容易であり、できるこ O節目プロダクトに対して有効である。 E とは、 OLE/DDEと比較してほとんど差が無い。 5 . 1 現時点で、のメリット/デ、メリット OLE/DDEfこ比較した場合のメリットとして、以下の点があげられる。 1 . 開発効率が良い。これは SASプログラム、 Wordマクロのプロク、、ラムをそれぞ、れ、デ、バッグを含め ‑120‑
て適切な開発環境で記述できるためである。 2 . 開発担当者が確保しやすい。1.とも関連するが、 S A Sプログラム、 Wordマクロのフ。ロク守ラムを 別々の担当者が開発できるため、 S A S / W o r dマクロともに精通した開発担当者が必須ではなく なる。 OLE/DDEに比較した場合のデ、メリットとして、以下の点があげられる。 1 . O LE/DDEに比べて、柔軟な処理を記述することが難しい。これは直接S A Sから他のアプリケー o r dマクロで、実行時に何らかの不具合が発生した場 ションを操作していないためで、例えば、 W A SプログFラムを切り替えるとし、った処理は実現が難しい。 合に、実行する S 2 . 保守/管理/運用コストが高くなる可能性がある。これはメリットから考えた場合当然であるが、実 行プログラムが S A Sプログラム、 Wordマクロの 2 個以上になるためで、ある。あるW ordファイルを出 力するために、必要なプログ、ラムが分散しやすくなっている。 5 . 2 将来的なリスク 提案した方法の将来的なリスクを検討する。 1 .M i c r o s o f t0伍 c eプロダ クトを操作する VBSプロク、、ラムの作成、実行が、 W i n d o w s環境で、あれば、 P 極めて簡単であることを利用しているが、今後の W i n d o w s環境で、も、 VBSプログラムの容易性が 確保されるかは不明。 2 . VBSの実行環境で、ある WSHのバージョンアップに伴う、 VBSプログラムの挙動の変化が発生す る可能性がある。 5 . 3 アプりケーション連携を伴う自動化処理 実際 i 、 こW i n d o w s9 5以降で、 S A Sと他のアプリケーションの連携部分を運用すれば明らかであるが、 最終的な成果物としての出力ファイルの見た目、フォーマットに対する要望の変化の速度/頻度は、 出力ファイルのコンテンツに対する要望の変化の速度/頻度よりも常に大きい。このことは、出力フ ァイルのコンテンツに関わるフ。ログラムと最終的な出力ファイルの見た目、フォーマットを加工する フ。ロク、、ラムに対する要望の変化の速度/頻度が異なることを示しており、例え、デ、メリットとしてあげ た、保守/管理/運用コストが高くなる可能性を考慮しても、出力ファイルのコンテンツに関わるフ。ログ ラムと最終的な出力ファイルの見た目、フォーマットを加工するフ。ログラムは分離で、きた方が、柔軟 性が確保できる。 を活用し、 S A Sだけで、ある程度見た目を整えた出力を用意しておけば、最終的 本稿では、 ODS LE/DDE だけでなく、それ以外の方法でもア な出力ファイルに合わせた処理部分は最小化で、き、 O プリケーション連携が実用可能であり、最終的な出力ファイルに合わせた処理部分を実行するアプ リケーションも変更で、きることを示した。 1 2 1一
" 4 . 2 作図用 S A Sマクロ の例では、 Wordマクロを実行するための SASマクロと、画像ファイルをイ H ンポートする W ordマクロは、独立して開発され、利用されており、 SASから作成する VBSプログラム だけ新規に開発することで実現した。 S A SはSASの得意なこと / S A Sでやるべきことに注力し、 SAS以外の個々のアプリケーションで、も同 様にしておけば、アプリケーション連携の実現は容易になる o アプリケーション連携を伴う自動化処理は、プログラムそのものが難しく、煩雑であるが、特定の 方法にとらわれることなく、適切な方法が検討、導入されることが望ましい。その際に、本稿で提案 した方法も検討いただければ幸いである。 参考文献 ・田村佳郎 ( 1 9 9 6 )T a b u ! a t eの出力に本物の罫線を付加するプログラム S U G I ‑ j '9 6 ・スタートアップコマンドラインスイッチを使用して W ord2 0 0 3、Word2 0 0 2、および Word2 0 0 0 を起動する方法( h t t p : / / s u p p o r t .m i c r o s o f t . c o m /d e f a u l t . 日s p x ? s c i d = k b; ia ; 2 1 0 5 6 5 ) ・ W i n d o w sS c r i p tH o s t ( W S H ) とは ( h t t p : !/ m s d n .m i c r o s o f t . c o m / l i b r a r y / j a /d e f a u ! t .a s p ? u r l =/ ! i b r a r γ / i a /s c r i P t 5 6 / h t ml / w s c o n w h a t i s w s h 半以 ' V B S c r i p tの概要 ( h t t p : / / m s c l n . m i c r o s o f t . c o m / l i b r a r y / j a /d e f a u ! t .a s p ? u r l = / ! i b r a r y / i a /s c r i p t 5 6 / h t m l l v b s w h a t . a s l ) ) ‑122‑
S A S Forumユーザ一会 XMLを用いた統計解析結果出力標準化の試案 0武 安 雅 史 ・ 三 郎 丸 清 株式会社シーエーシー システムビジネスユニット医薬第二センター T e n t a t i v eP l a nf o rS t a n d a r d i z a t i o no fO u t p u tf o r S t a t i s t i c a lA n a l y s i sO u t c o m e su s i n gXML ¥ l l a s a s h iTakeyasu/K i y o s h iSaburomaru ' v 1e d i c a l& P h a r m a c e u t i c a lS o l u t i o nCenter r,CACC o r p o r a t i o n 要旨 臨床開発での統計解析業務では、取り扱うデータ構造や統計解析結果の出力形式は試験ごとに 様々である。このため、統川解析結果の出力フロセスにおいて標準化は大きな課題と言える。我々 は 、 1 1¥力プロセスの標準化に焦点をあて、臨床試験の収集データや統 ; ‑ 1解析結果データを 1 L 1) jす SASXMLLIBNAME エンジシ」を用いて XMLへ出力させる事で標準化できると考えた。 る際に i 本稿では、臨床開発で沿も活用されている EXCELを出力先として、 SASプログラムから 1¥ ) Jし た統,i!解析結果の XMLと VBAフログラムを用いた標準化の試案と、それを利用した図表作成例 を紹介する。 キーワード: 標準化、 XML、SASXMLLIBNA' v 1E エンジン、統計解析結果、出力形式 はじめに 臨床開発での統計解析業務では、取り扱うデータ構造や統計解析結果の出力形式は試験ごとに 様々である。特に統計解析結果の出力プロセスにおいては、膨大な数の図表作成と個々の出力形 式に合わせた SAS プログラム作成が余儀なくされる状況が多く標準化は大きな課題と言える。これ までにもデータベースの標準化、 SASマクロの標準化等段々な報告がなされている。我々は、 t L ¥ } Jプロセスの標準化に焦点をあて、臨床試験の収集データや統計解析結果データを出力する際 S A SX¥1LL lBNA¥ 1E エンジン」を用いて、 X M L ( E x t e n s i b l e¥ 1a r k u pL a n g u a g e )へ出力させる事 にi で標準化できると考えた。 XMLはデータに「タグ」と呼ばれる特殊な文字列を利用してデー タの意味や論理構造を記述できるテキスト形式ファイルである。この XML を利用すれば臨 床試験での収集データや統計解析結果データなどの SAS データセットをデータ構造と共に 1 1¥力しておく事が可能となる。一五、図表作成部分では出力形式に合わせた図表テンプレー トを作成し、この図表テンプレート情報と XMLからデータ情報を読込んで図表を作成する 1 2 3
事のできる VBA プログラムを 1つ作成する。これにより、図表テンプレート情報を追加/ 変更するだけで、様々な出力形式に合わせた図表作成が可能となる。 本稿では、臨床開発で最も活用されている EXCELを出力先として、 SASプログラムから出力した 統計解析結果の XMLと l本の VBAプログラムを用いて、様々な出力形式の図表を作成する例を 紹介する。 1.標準化の限界 1‑1.使用するデータセット 本稿では、話を分かりゃすくするために構造を簡単なものとした、下記のデータセット I B a s e i n f o (被験者背景情報)J を使用する。 妥F 設五乞 U s u b i i d Group S t u d yS i t e S e x B r t h d t m Age H e i g h t W e i g h t S a f e t y 被験ャ者ヨ主I D 教ラベ/レ、 投与群 治験実施施設 性別 生年月日 年齢(歳) 身長 ( c m ) 体重 ( k g ) 安全性解析対象集団 発E 窃 ( i ' ; C h a r C h a r C h a r Char M一 男 、 F一 女 C h a r Num Num Num C h a r Yo rN 図1.データセット I B a s e i n f o Jのデータ構造 岡2 . データセット I B a s e i n f o Jの実データ 1 ‑ 2 .出 力 形 式 臨床開発においては、データ構造や統計解析結果の出力形式は様々である。 特に CRO に おいては顧客によっても異なっている。現在では、治験データ収集用データベース ( DMデータセ ット)の標準化や統計解析用データセットの標準化はかなり行われているが、統計解析結果の出 力は定められた出力形式に合わせた SASプロク、、ラムを作成していることが多いのではなし、かと思 われる。次の 2つの図表、「被験者背景一覧 AJ( 図 3 )と「被験者背景一覧 BJ( 図 4 )は同じ被験 者背景情報を出力しているが、「被験者背景一覧表 BJでは、印刷範囲を考慮するために 1つの 被験者情報に対し、 2行用いた図表となっている。このように、同じ被験者背景情報で、あっても臨 床試験や CROにおいては顧客によって出力形式が異なる場合が多く、状況に応じて対応しなけ ればならないのが現状である。また、 SASフoログ、ラムも個々の出力形式に合わせた作成も必要とな る 。 ‑124一
瓦
;
8
C'OEIF
G
I B 101
A
H
E
F
G
H
1
‑4込U222む勾二;出品誌:戸ギ「一‑
トー よ
r
D
r
Ç
j 二一一‑‑
1A:9!
..
.
.
.
.
.
¥
A
.
.
. ...Ii-• ....... .
.
t
.
.~ .
.
.
}
...J~吋
i
トト! F
│
印
仁二二‑て土‑
E
図3
. 被験者背景一覧 A
.
x
l
s
3
F4
AAVa
m
5
1
C
B
t三-1A~10 t
‑
h
zlケ~η:\. '.:~:十で
Y
B
幻
出二丘二
図4
. 被験者背景一覧 B
.
x
l
s
1‑3. SASプログラムと図表の関係
SAS Systemから臨床試験での収集データや統計解析結果を EXCELや WORD/PDFなど、他
のアプリケーションへ出力する際には、明示的に出力するための情報を SASプログラムへ直接記述
しなければならない。特に EXCEL へ出力する場合は、出力先(ファイル名、シート名)、出力範囲、
出力項目順序など出力形式に合わせた記述が必要となる。このため、 SAS プログラムと出力形式と
の聞には「密接な関係」が生まれてしまう。実際に「被験者背景一覧 AJを出力した SASプロク、、ラム
)と「被験者背景一覧 BJを出力した SASプログラム(図 6
)を例に上げてみた。ここでは、 Excel
(
図 5
を出力先とする図表で、最も活用されている DDE(DynamicDataExchange)を利用して出力する。そ
れぞれの SASプログラムで filenameステートメントと Putステートメント部分を見ると、出力先のアプリ
[h
a
i
k
e
i
BJ、そして出力するセルの範囲["r3c2:r52c7J
ケーション["ExcelJ、シート名["haikeiAJ"
103c7Jと、データセットの変数名が出力項目 !
J
頁に記述している。これが、図表を作成するた
"
[
r
4
c
2
:r
めに出力形式にあった情報を SASプログラムに記述した部分となる。さらに複雑な図表となると解析
用データセットを出力に適した構造へ変換や、出力用の Dataステップを複数に渡って記述するなど
して対応することとなり「密接な関係」はより深まることになる。
叫波験者背景一覧 B出力;
f
i
!
e
n
a
m
ex
!
sdde"
E
x
c
e
!
j
h
a
i
k
e
i
A
!
r
3
c
2
:
r
5
2
c7
"
;
d
a
t
a̲
n
u
[
[
̲
;
s
e
tB
a
s
e
i
n
f
o
;
f
i
l
ex
l
sd
s
dd
l
m
=
'
0
9
'
x
:
p
u
tU
s
u
b
j
i
dGroupSexAgeH
e
i
g
h
tW
e
i
g
h
t
;
r
u
n
;
f
i
!
e
n
a
m
ex
!
sd
d
e"
E
x
c
e
i
l
h
a
i
k
e
i
B
!
r
4
c
2
:
r
l03c7
"
;
d
a
t
a̲
n
u
!
!
̲
:
s
e
tB
a
s
e
i
n
f
o
;
B
l
a
n
k
= "・
f
i
l
ex
l
sd
s
dd
l
mニ'
0
9
'
x
:
p
u
tI
dGroupS
t
u
d
y
S
i
t
eSexH
e
i
g
h
tW
e
i
g
h
t
;
p
u
tB
l
a
n
kB
l
a
n
kS
a
f
e
t
yAgeB
l
a
n
kB
l
a
n
k
;
n
H
u
︐
.
r
*被験者背景一覧 A出力;
図 5
.h
a
i
k
e
i
A
.
s
a
s
図 6
.h
a
i
k
e
i
B
.
s
a
s
1‑4.標 準 化 の 限 界
このように、臨床試験での収集データや統計解析結果の出力図表が膨大な数で、出力形式
も多種多様に存在する上に SASフログラムと図表との間にある「密接な関係」が、統計解析
業務の出力プロセスでの「標準化の限界」の要因と考えた。
‑125
2 . 出力プロセスの標準化 2 ‑ 1 .XMLの利用 そこで、臨床試験で、の収集データや出力するために作成される統計解析用データセット、統計解 析結果を保持したデータセットなどのデータを出力する際に iSASXMLLIBNAME エンジ、ン」を用い E x t e n s i b l eMarkupLanguage)へ出力させることで標準化できな てテキスト形式ファイルで、ある XML( し、かと考えた。一方、図表作成部分では出力形式に合わせた図表テンプレートを作成し、この図表 テンプレート情報と XMLからデータ情報を読込んで図表を作成する事のできる VBAフ。ロク守ラムを1 つ作成することで、キーワード、となる SASプログラムと図表との関係を切り離して考えることで標準化の 試案として提出したい。 2 ‑ 2 .XMLを利用する意図 代 表 的 な テ キ ス ト 形 式 フ ァ イ ル と し て CSV (Comma S e p a r a t e dV a l u e s ) ファイルカfあるカ仁 A, 6, 3 9, 9 . 3 9 5 0 3 4 1 5, 5 1, 4 8, 3 9, 3 1, 2 8 4, 4 9, 5 . 3 5 4 1 2 6 1 3, 5 4, 5 3 . 5, 4 9 . 5, 4 4 . 5, 43 8, CSVファイルとはデータをに(カンマ)Jで区切 図 7 .csvファイル って並べた形式ファイルであるため何番目のデ ータが何を意味した値なのか事前に理解してお く必要がある(図 7)。しかし、 XMLはデータに「タ グ」と呼ばれる特殊な文字列を利用してデータの 意味や論開構造を記述できるテキスト形式ファ イルである。この XMLを利用すれば臨床試験で の収集データや統計解析結果データなどの SAS データセットをデータ構造と一緒に出力してお く事が可能となる。よって、 X M Lではタグ名が 何の意味するデータなのかを表現することがで きるため、事前にデータ構造仕様を把握する必要 )。 もなく、 XMLだけで理解も容易なのである(図 8 2 ‑ 3 .デ ー タ の 長 期 保 存 また、 XML は半永久的な保存も可能と言える。表 計算やワープロソフトなどの固有ソフトウェアで、は 次々とバージョンアッフ。され、いつのまにか古いデー く? x m lv巴r SlOn 二 " 1 .0 "e n c o d i n g 二" u t f ‑ 8 "? > <TABLE> くAGE> くG roup>A< / G r o u p > < n >6< / n > <mean>3 9< 1 m巴an> くs t d >9 . 3 9 5 0 3 4 1 5< / s t d > Al t ' ( : <max>5 1< / m a x > くq 3 >4 8< / q 3 > くm巴d i a n >3 9< 1 m巴d i a n > >3 1< / q ] ) < ql くm i n >2 8くI m i n > < 1AGE> くA GE> くG roup>B< / G r o u p > < n >4< / n > <mean>4 9< / m e a n > < s t d >5 . 3 5 4 1 2 6 1 3< 1s t d > くm ax>5 4くI m a x > ~ B群 < q 3 >5 3 . 5くI q 3 > くm e d i a n >4 9 . 5< / m e d i a n > < q1 >4 4 . 5くI q1> くm i n >4 3くI m i n > くI AGE> くI TABLE> タを読み出せるソフトウェアが無い事態が発生するが、 テキスト形式である XMLであればいつで、も情報を取 り出すことが可能である。 1 2 6 図8 .XMLファイル
3 . 統計解析結果の図表作成例 3 ‑1.統計解析 では、始めにサンフ。/レデータセット I B a s e i n f o(被験者背景情報)Jを用いて Group 毎に I AgeJ )。 I H e i g h t JI W e i g h t Jの記述統計量と群ご、との t検定を行う(図 9 / 2記述統計量.マクロプログラムの登録中/ % m a c r oO u t p u t M e a n s( d a t a s e. t vVar); p r o cu n i v a r i a t ed a t aニ& d a t a s e t . n o p r i n t ; c l a s sg r o u p ; v a r& v V a r t dM I Nm i nM A X = m a x o u t p u to u t = & v V a r .N = nM E A N = m e a nS T Dニ s M E D I A N = m e d i a nQ l = q lQ 3 = q 3 ; r u n ; % m e n dO u t p u t M e a n s ; 二 / 宇 t検定:マクロプログラムの登録げ % m a c r oM a c r oT tests(dataset, vVar); o d so u t p u tS t a t i s t i c s = ̲ S t a t sT t e s t s = ̲ T t e s t sE q u a li t y = ̲ E q u a li t y ; p r o ct t e s td a t a = & d a t a s e t c l a s sg r o u p ; v a r& v V a r . r u n ; o d so u t p u tc l o s e ; j : : : P値の算出 ~:j d a t a t& v V a r .; m e r g e̲ T t e s t s̲ E q u a li t y ; b yV a r i a b l e ; i fP r o b F ) 0 . 0 5a n dV a r i a n c e s = " U n e q u a [ " 't h e nd e l e t e ; i fP r o b F =く0 . 0 5a n dV a r i a n c e s =E q u a [ "t h e nd e l e t e ; k e e pV a r i a n c e st V a l u eD FP r o b t ; r u n ; % m e n dM a c r o T t e s t s ; 侮 /ヰ記述統計量の算出牢/ p r o cs o r td a t a = B a s e i n f oo u t = w k ̲ B a s e ;b yg r o u p ;r u n ; % O u t p u t ! . l e a n s ( w k ̲ B a s e,W e i g h t ) ;% O u t p u t 胎 ,a n s( w k ̲ B a s e, H ei g h t ); % O u t p u t ! . l e a n s ( w k ̲ B a s e, A g e ) ; / 宇t 検定宇/ % ! . I a c r o T t e s t s( w k ̲ B a s e, W ei g ht ) ;% ! . I a c r oT t e st s( w k ̲ B a s e, H ei g h t ); % ! . I a c r o T t e s t s( w k ̲ B a s e, A g e ) ; 同9 .統計解析プロクずラム ‑127‑
A!
I C
日
I
0
I
E
I
F
IGI
3
‑
2
.図表作成
H
一2ISAS Forum ユ ザ ー一
一 一00
一
一一一一一一‑
会学術総会 2
6デモ
次に統解析結果を出力する図表を
r
A群
3 1
4 年書官
51
B群 検 定 ・
I寸
τ
寸
記平均T~
之上
量竺笠
101
最小値
p=
一
一
一
述(標準偏差
‑
←
寸
一
統̲
歳 最大値
日~-'- ,
.
一一一ー
析結果のデータセット構造の変換や出
集計値集計値
例数
寸
言
丁
記
;ギ雨量[一一ー一一一一一
寸打一一一ーさ(冨事長喜一一一
P=
力用の Dataステップを複数に渡って記
2
2
P 最大値
151
量
ユ
2
.
J
前章で述べた通り、 DDE 方式を利用し
た場合、出力形式に合わせて統計解
1
1 身長
12 1
述する必要がある。さらには、出力範囲
中央値
171
18 体 重
最小値
19 1
例数
平"Ejf~
の指定など、 SAS プログラムと図表との
集計値集計値
ヨ訂一一一記
五寸
作成する(図 1
0
)。
集計値集計値
例数
よH
221
述(標準偏差
統 k
g
最大値
~
量市夫値
聞に密接な関係を持たせた複雑な SAS
p=
ブ。ログラムを作成しなければならない。
包 )
241
最小値
251・
t検定(有意水準、両側 5%)
2
6I
一
一一一
←
‑
0
.図表
図1
3
‑
3
.XML出力
では、 SAS Systemより臨床試験での収集データや出力するために作成される統計解析用データ
セット、統計解析結果を保持したデータセットなと、、のデータより XMLファイルを作成するための SAS
フ ロク、、ラムを紹介する(図 9
)。
o
i
/
キX
M
L出力用マクロプロクラムの登録本 I
%
m
a
c
r
oO
u
t
p
u
t
X
M
L(
i円I
i
b
.f
il
e
.D
a
t
a
s
e
t
l
;
I
i
b
n
a
m
eT
r
a
n
sx
m
l•&
1i
I
巳. x
m
l
t
y
p
e
=
g
e
n
e
r
i
ce
n
c
o
d
i
n
g
=
'
U
T
F
‑
8
'
;
p
r
o
cc
附
i
n
=
&
i
n
li
b
.o
u
t
=
T
r
a
n
s
;
~①
s
e
l
e
c
t&
D
a
t
a
s
e
!
.
r
u
n
;
%
m
e
n
dO
u
t
p
u
t
X
M
L
;
/
ヰX
M
L出力ヰ/
:半TEMP半Wei
g
h.
txm.
1 Weightl;
%
O
u
t
p
u
t
l
i
縦 {
w
o
r
k
.C
:半TEMP半
t
̲Weight.x
m
l, t
̲
W
e
i
g
h
t
l
;
%
O
u
t
p
u
t
l
i
縦 {
w
o
r
k
.C
e
i
g
h.
tx
m
l, H
e
i
g
h
t
l
;
%
O
u
t
p
u
t
l
i
縦 {
w
o
r
k
. C半TEMP半H
:半TEMP半
t
̲Hei
g
h.
txm.
1t
̲Heightl;
%
O
u
t
p
u
t
l
i
縦 {
w
o
r
k, C
A
g
e
l
; ・・・・・・②
g
e
.x
m
l,
%OutpuW
佐{
w
o
r
k, C半TEMP半A
:半TEMP半t
̲
A
g
e
.x
m1
,
t
̲
A
g
e
l;
%
O
u
t
p
u
t
l
i
脱 (
w
o
r
k
.C
l
立
:
]9
. o
utputXm.
ls
a
s
rSAS XMLLIBNAME エンジンJ
を使用することで、高度な SASフ。ログラム技術はまったく必要
な
く
、 XMしへの出力部分(①)を見ればわずか 6行(マクロ宣言文を含む)のプロクマラムで、出力形
式も意識することなく、全ての SAS データセットの内容を簡単に出力する事がで、きる。この出力結
果例として「年齢 Jの記述統計量(②)は先ほどの XMLファイル(図 8
)となる。
128‑
尚 、 XMLTYPEオブ。ションで、 iGENERIC (デ、フォルト値)J を指定して SASデータセットの変数名 をタグ名(これをタグ変数と呼ぶことにする)として XML を作成する。また、出力文字コードを ENCODINGオブ。ション( S A S 8 . 2 以降)にて XML文書1.0の規格で標準仕様であるド UTF‑8'J を 指定しておく事で UNIXなど異なる OS(オベレーティングシステム)で XMLデータを読み込むこ とも可能となる。 3 ‑ 4 .図表テンプレートの作成 次に図表テンプレート作成の例を紹介する。我々は、 SASプログラム側で出力先の範囲や場所 ( f i l e n a m eステートメント)、出力項目の順序 ( p u tステートメント)などの情報を記述するのではなく、 図表側から出力したいデータを取得することを試みた。そこで、次の図表テンプレート(図 11)のよ うに出力したい場所(セル)に出力したい対象の XMLファイル名とタグ変数名を記述する。そして、 記述された図表テンプレート情報と先ほど出力された XMLファイノレの情報の両方読み込み、図 表を作成する VBAプログ、ラムを 1つ作成した この VBAプログラムは、図表テンプレート情報より O X¥ 1Lファイル内の必要なタグ、変数を探して対象となるデータを取ってきてくれる。 A c 1 8 。 i FlGi E H u . " 戸 す 会 学 術 総 会 2008 デ モ 例数 平均値 記 通〈 首歳 量 記 述( 民団 ,t~ 畳 最大値 中央値 最小値 検宣・ Jファイル名.タグ変数名 P=t ̲ a g e . p r o b t 述〈 5 ' . ' 岡 山 ' . ' 皿 ,6 祖 ~血且 集 計f 直 例E 交 平均値 h e : 酔 n h e l 酔l.mean 樗宰偏差 h合唱l ,~ 最 大f 重 中央値 h e :g h I.m四 h e l g h : m ed J . 回 最小値 h"臣 壬π凶 集計鍾 w e l g t 立n w e l g h t岡 田 i J I 数 平均値 記 鼠 計 Bt 写 集計値 f 手主要閣差 a g e . s t d 計) 量 At 字 集計値 agen a g e ̲ m e組 標章偏差 最大値 中央値 最小{直 集計値 P=t ̲ h e i 酔 阿b t 集計瞳 p=t ̲ w e i g 包戸。 b t w t ! g h l r t d welghtm a.~ welghtme也'" w e t g b t . m m 図 11 . 図表テンプレート 3 ‑ 5 .XMLデ ー タ の 読 込 み 後は、メニューパー(図 1 2 )に作成した iXML(主 )J →「横展開(♀)J をクリックするだ、けで、図表の 完成(図 1 3 )である c ここで展開の「縦」と「横 J の違いであるが、 XMLファイル(図 8 )のように今回で 、 B群)の順番で XMLへ出力されている。このため、この順番を縦方向 はキーとなる Group(A群 へ展開するのか、横方向に展開するのかは、出力形式の状況によって選択で、きるようにしている。 ‑E ・ •••••••••••• •••••• •.••• 虫 i K27 •• • = ‑129 •• • •••••• • • ••• • . = 図1 2 . メニューパー E . .E 0 ‑ = . C = ‑ B :.も︐ A
c
B
A
E
D
I
F
IG I
H
Z
l
s
.
A
SFo";'"ユ ー ザ ー 会 学 術 総 会 羽 田 デ モ
3
例数
平均値
(歳)
記述統計量
6 1
81
91
101
1
1I
身長
12 '
標準{亘書
5
4
3
9
4
9
.
5
43
集計 f
重
集計値
6
1
日 7耐 耐7
4
1
6
4
.
2
5
l12
1η5
.
,
15 i
‑
ζ団
設天fi
161
17
1
日体重
呈
中央値
I
19 I
20I
211
記
~
例数
平均値
6
4
5
3.
43
3
3
3
3
3
5
4
.
9
6
.
3
8加 9
1
1 1
3
.
5
7
3
日1
2
4
標準偏差
最大値
量
6
0.
4
扇面一
4I
慌 得 意 水 準 両 陣15%)
p=日 8
2
2
8
6
2
2
一
一
1
6
6.
4一 一
1
併 1
1
4
2
.
1
1
5
5
.
3
集計値集計値
弘
p=日1
日2
3
3
2
5
6
百 五 山 而 青 函 而E
最小値
述〈
紙切
22 I
231
4
5
1
記
一
6
検定・
1
3
9
.
3
3
3
3
3
3
3
49
5
1
.
3
9
5
0
3
4
1
5 )
'1'
i
41
7
.
t
¥1
1
中央値
最小値
例数
平均値
樟宰偏孟
""~
B群
集計値 1
最大値
1~
i
4
i
‑
‑
‑
‑
‑
‑
‑
‑
A群
集計値
両
p=0
.
8
2
1
0
8
8
9
9
7
2
.
6
5
2
.
3
最小値
4
5
.
3
42.
4
̲̲ ̲ ̲.̲ ̲̲̲̲̲̲̲̲̲ ̲.
.
.
.
.
.
.
24
・・・ H官官官..~横展開
26
図1
3
. 完成図表
3
‑
6
.図表レイアウトの変更
では、この図表に少し変更を加えてみる(図 14)。この変更では「上側四分位 Jr
下側四分位」の
J
聞も変更されている。この場合、 DDE方式では、図表の修正と SASプログラ
項目追加のために出力!
ムの修正が発生する上に検証時間も絶やすことになる。しかし、本稿では既に XMLデータ内に「上
側四分位 Jr
下側四分位」データは出力されているため、 SASプログラムの修正は発生しない。ただ
5
)。
図表テンプレートさえ変更すれば簡単に修正が可能となる(図 1
下‑1)‑‑
E :
F
" G
H
!
1
・
・,
・
定
安
A
8
誌吉一官官冨一一
p
.t
̲
"
"
, T
副
6
醐
"
‑
53~
4
9
5
正哩iE̲_..'!.?型;--~~~!笠
E富
i.t~
温大筒
5
1
よ鍬2!l~~_.
4
8
一一一一一一
3
9
一一一一..
,
ー
下側2!l'))~
3
1
'
~失 U
.
一
ー
R小 館
集計鎗
建 計 値L
円
里
会
手旬~.
栂準~~
・・
B4
"'...~
集計鍾
述内
率笥錨
畑唱N~~
構軍偏差
司 宅h
t, t~
E大 姐
‑唱}l
1
.
1
6
2
.
7
6
6
6
7
'
田
‑
凶 大筒
p
.
.08'228622
34106, 79 ' 叩
←
E
1
7
1
2
1
7
3
5
一
一
一 一
日
】
旦!里
望竺
~型.!___l_主6
一
‑ 陸
宣
U
1
6
4
.
1
一 一
中央値
下側凶先住
属小錨
泌
uS
05
'
1
5
1
9
1
5
5
3
1
4
2
.
1
'
集計値 l
,
. p,. B2哩一τ 一
集計鋸
とご
4
O
5
3
.
4
3
3
3
3
白
川
6
.
.
)
:一 1
‑1
3
5
一一一一
ー
1
2
.
6
"
.
一
一
一
ー
ー一
一一一一一一一
計v
与
え
由
I
"
!
̲
:
毛
色
589j
~5.4~
l
平問舗
~
道
.
m
【
主側里主主一竺並!
!
.
:
̲
q
!
.
.
.
̲
主主旦一‑静岡曲
:下空"些~-哩掛"一一一一一一一一一一一一一一一一一
属小箇
4
1
6
.
‑
"
平均値
惜偏墨
l
坦
・
p E情 事 " 酬
Z
集計錨
6
E
集封筒
豆主一一-~~~一一一一一
記
倒愈
p=0
.10233256
4
3
2
8
'
集封筒
~~___!_!!_一一一一一一ーと1主些ヱ竺L 一一一
七
三
~唱止m仔
一一f'o..
!
.
:
.
.
!
.
.
!
i
~}凶 ~td
r一一ー、、 U土
= ー 引 叫 三 一 一
一一 l
ノ 札
!
t
主~i!旦主虫"
‑一一レ/ μ.'J̲
z
惣・
h
旦畦型今日
一一一一一一一一ー一
同
下型固主!
t
L
.
"
!
時y.!̲一一一一一一一一一̲‑‑‑‑‑‑‑‑‑‑
I~
=
~
,
,
=
笠
沼
L
字句舗
.~-一一一一一一一
傷事偏il.'
箆尚列
7.お"
民大値
関
ー今
宣
鴨
詮
"
'
‑
中央値
下 開 制
.
'
錨
5・~:_
4
7
:
;
;
4
5
3
̲~2 .3
山
4
2
4
図1
5
. 完成図表
図 1
4
. 変更後
‑130
←
1
i
i
1
一
一
一
ー
3 ‑ 7 .まとめ X' v I Lを用いることで SASプログラムと図表との「密接な関係」を切り離し、出力プロセス標準化の可 能性について例示を含め記述してきた。最初の『出力形式の限界』の章で例に挙げた「被験者背景 被験者背景情報 B Jの一覧表についても、 SASデータセットの内容を X' v 1Lへ出力させ、図 情報 AJr 表テンプレートをそれぞれ作成し XML とリンクしておくことで容易に図表作成が可能となり、個々の 出力形式に合わせた SASフ。ロクマラムの作成を不要とすることの可能性を示した。 4 . 最後に 臨床試験の効率化を目指し、規制当局へ申請するためのデータモデ、ルを定義している CDISC ( C l i n i c a lD a t al n t e r c h a n g eS t a n d a r d sC o n s o r t i u m )では、申請するデータ形式に X' v lLファイルが活 用されている c そこで、紹介させて頂いた VBAプログラムなどの図表テンプレート情報と XMLデータ 情報を読み込んで図表を作成する機能を用いれば、申請するデータは CDISCで定義されたデータ モデ、ルの X¥ 1Lファイルへ保存しておき、図表はこの CDISC用に出力された XMLファイルからデー タを取得することで、出力用 SASフロクoラムを作成せずに図表作成が可能となり、更に進化した一貫 3 システムのような標準化が実現できるかもしれない。また、 XMLファイルからは HTML、PDF、WORD など様々な出力形式に変換ができるため、 EXCEL のみではなく状況に応じた出力形式への対応も 可能であり、 X' v lLファイルは「標準化 J の重要なキーワードになるだろう。 我々は、今後も臨床開発業務に X ' v l L を取り入れ、更なる標準化を目指して行きたいと考えてい るc 1 3 1一
S A S Forumユ ー ザ 一 会 電子カルテと EDCシステムとの連携システムの開発と導入事例 斎 藤 裕 子 1)、 朴 成 和 j) 2) 1 ) 臨床試験支援室、 2 ) 消化器内科 静岡県立静岡がんセンター ACaseo fd e v e l o p r n e n tandI n t r o d u c t i o no fC o o p e r a t i o nS y s t e r n betweenH o s p i t a lI n f o r r n a t i o nS y s t e r nandE l e c t r o n i cDataCapturingS y s t e r n YukoS a i t o/N a r i k a z uBoku S h i z u o k aC a n c e rC e n t e rH o s p i t a l/C l i n i c a lτ ' ri a lC o o r d i n a t i o nO f f i c e 要旨 近年、新薬・新治療法開発のために行う治験・製造販売後臨床試験において EDCを取り入れ る例が急増している。これらのシステムはいずれも電子的にデータを入力し保存するにもかかわ らず連携が図れておらず、電子カルテを利用している医療機関では EDCのために同じような情 報を二度入力しなければならないのが現状である。これにより、単に二度入力をしなければなら ないという手間が発生するだけではなく、入力エラーの可能性が増えたり、入力時期が遅れたり するなどの問題が発生している。そこで電子カルテと EDCシステムとを連携させるシステムを 開発した。 、CDISC、HL7、標準化 キーワード:電子カルテ、 EDC 1A qυ ο η
はじめに 近年、国の施策等により、医療機関において医療記録の電子化(電子カルテの導入)が急 速に普及しつつある。一方、製薬企業においては、治験や製造販売後臨床試験等において、 症例報告書 (CRF;CaseReportForm)を電子化した EDC( E l e c t r o n i cData C a p t u r i n g )を取り 入れる例が急増している。これらのシステムはいずれも電子的にデータを入力し保存するにも かかわらず連携が図れておらず、電子カルテを利用している医療機関では、製薬企業の求め る EDCに対応するために、同じような情報を二度入力しなければならないとし、うのが現状であ る。これにより単に二度入力をしなければならないとしづ手聞が発生するだけではなく、入力エ ラーの可能性が増えたり、入力時期が遅れたりするなどの問題が発生している。 そこで、当院で、は電子カルテと EDC とを連携させ、電子カルテに入力した臨床試験用のデ ータを EDCシステムにエクスポートするシステムを開発した。 医療機関における電子カルテの導入 医療記録の電子化は、適切な記録の作成、医療情報の一元化、診療情報のデータベース 化等を可能とし、それらを元に、医療の質の向上と効率化、医療事故の回避(リスクマネ ジメント)、経営改善等につなげることが可能である。しかし、医師法第 24条に、「医師は、 診療をしたときは、遅滞なく診療に関する事項を診療録に記載しなければならない」と規 定されており、この法文中に「記載J という文言が使用されていることにより、診療録を 電子的に記録し保存することが認められるかどうかが不明確とされてきた。 こうした中 1999年 4月に厚生省(現、厚生労働省)の 3局長(健康政策局長・医薬安全 局長・保険局長)により、「診療録の電子媒体による保存について j が発出されると、診療 録等を電子媒体で保存することが公に認められたと理解され、大規模医療機関を中心とし 2月に厚生労働省の保健医療情報システ て電子カルテの導入が始まった。その後 2001年 1 ム検討会による「保健医療分野の情報化に向けてのグランドデザイン(通称『グランドデ ザイン~) J により後押しされ、電子カルテの普及がより一層進むこととなった。『グランド デザイン』は、医療ニーズの変容、政府 IT戦略本部による WE‑Japan重点計画 Jなどが背 景となっており、具体的な内容として、保健医療の情報化計画が策定され、目標達成のた めの道筋と推進方策(アクションフラン)が提示された。この中で電子カルテに関するア クションプランとして、 2004年度までに全国の二次医療圏ごとに少なくともー施設は電子 カルテの普及を図ること、 2006年度までに全国の 400床以上の病院の 6割以上、全診療所 の 6割以上に電子カルテを普及させることとされ、この目標には及ばないまでも、電子カ ルテの導入に拍車がかかった。 ところで、電子カルテとは、狭義には、「カルテ(診療録等)に書いていた診療情報を電 子的に記録し保存したもの j であり、広義には、「診療録を電子化した結果として、数々の 機能が実現できるようになったシステム Jのことである(日本医療情報学会による電子カ ルテの定義より)。また、電子カルテの満たすべき要件は、先に述べた「診療録の電子媒体 による保存について」において、診療録の電子保存を認める条件として、真正性、見読性、 ‑134
保存性の確保が必要とされている。それぞれの内容は以ドの通りである。 i ' j去及び混同を防止すること、作成 真正性:故意または過失による虚偽入力、書換え、 Y の責任の所在を明確にすること 見読性:情報の内容を必要に応じて肉眼で見読可能な状態に容易にできること 保存性:法令に定める保存期間内、復元可能な状態で保存すること この 3 条件を満たして初めて診療録等の電子化が認められることになっており、逆にこ の 3条件を満たしていない電子カルテは、診療記録とはいえないことになる。 当院における電子カルテシステムを用いた臨床試験の運用 臨床試験ではプロトコールに則って診察(全身状態の観察)及び有害事象評価を行い、 それにより得られたデータを漏れなく適切に記録するための補助ツールとしてカルテに貼 付するためのシール(カルテシール;図1)が利用されることが多くなっている。しかし、 電子カルテにはシールを貼付することができないため、当院ではカルテシールの代わりに ) を作成し、それを用いて記録を行っている。 電子カルテ用の入力フォーム(図 2 入力フォームを作成する際には、単にカルテシールの代用としてプロトコールで規定さ れた観察項目が漏れなく実施され記録されることを目指すだけではなく、 CRFデザインも 考慮、に入れ、カルテから CRFへの転記や、試験依頼者による SDV ( S o u r c e Document 寺(カルテ V e r i f i c a t i o n ) が効率的に行われるようにすることも目指している。また、入力 H への記録時)の作業が誤りなく効率的に行えるよう、入力のしやすさや診療の流れも考慮 している。 図 1.カルテシールの例 自!こち 200 体重 体温 血圧 ki( B 月 生 手 PS o1 2 3 4 脈拍数 Imi. r 。 C f 。 。 。 。 。 。 有害軍事‑at: NCI‑CTC2 r a d e 慈心 司 l i I J : 士 下型信 口内炎 脱毛 , . . その他[ z tに主主当したら、ぬ与凝縮 1 3 5ー 2 3 2 3 2 3 2 3 4 4 2 2 3 4
図2 . 入力フ万一ムの例 is 比毎」の入力フ万ームの例 EDCシステムの現状と医療機関からみた問題点 RFが進化を続け、以前は大半の製薬企業が紙でできた冊子タイ 一方、製薬企業では C プ( B o o kTyp e )の CRFを使用していたところ最近では V i s i tTypeCRFが普及し、さらに CRFが導入される事例が増えている。 は EDCシステムを利用した e EDCシステムは、医療機関に使用可否の打診をする際に、 データの質の向上(入力時点のチェック機能による) 問い合わせの減少による効率化 保管スペースの削減 製薬企業(開発担当者)と医療機関とのタイムリーなコミュニケーションが可能と なる などのメリットが強調されることが少なくないが、実際には、 症例報告書が読める字で作成される RF回収に行かなくて良い 医療機関に C SDVの実施前に CRFの記入内容の確認ができるため、 SDVが効率的に行える データ入力の手聞が省ける 経費削減につながる など、試験依頼者にとって多くのメリットが期待される。 一方、実際に使う立場である医療機関からしてみると、 CRF作成に当たって PCが必要 hA マ qd a u
インターネットが使える場所に、カルテを述ばなければならない 電子カルテの病院では、同じことを二度入力する手間がかかる(紙に書くほうが楽) Jしなければならない(伝票の貼付ができない) 検査データも手入 ) 各社各級の EDCシステムが利用されているため、様々な EDCシステムに対応し なければならず、開始時にはトレーニングが義務づけられる などのデメリットも否めない。したがって EDCを導入する際には、 被験者の個人情報保護とセキュリティ確保 利用環境(インターネットが使いやすい環境か?) ユーザーの能力 診療記録の電子化 などを十分に考慮する必要がある。 また、 EDCを利用する医療機関の立場からすると、 情報のフィードパック 施設問の情報共有 逸脱や有害事象の早期発見と参加l 操作性が良いこと システムダウン時の適切な対応 電子カルテとの連供(電子データのインポート機能をつけること) などが EDCに期待したい点である。 電子カルテ ‑EDC連携システム概要 我々は、臨床試験で必要なデータを汎用的なツールを利用して記録・保存し、なるべく入 手を介さないで電子症例報告書 (eCRF)を作成し、試験依頼者/データセンターへ報告するた めの電子カルー EDC 連携システムを開発中であるが、本システム開発に当たって特に重視し たことは、汎用性とセキュリティで、ある。 1 ) 汎用性 先に述べたように、電子カルテは様々なベンダが開発しているため、あるベンダの電 子カルテには対応できても、他のベンダでは対応できないという問題が発生する。これ が製薬企業が EDCシステムを電子カルテに対応できるシステムとして開発することの できない理由のーっとなっている。 そこで我々は様々なベンタマの電子カルテに診療記録として連携が可能で、あり、さらに電子 カルテを未だ、導入していない紙カルテの医療機関で、も利用で、きるよう、 OCRを利用したデータ の取り込みについても検討中である。 このため、本システムでは診療記録として入力したデータを電子カルテへ保存する際には HL7( H e a l t hL e v e lS e v e nr 医療情報システム聞の I S O ‑ O S I第 7層アプリケーション層」に由来) としづ医療情報交換のための標準規約で保存することとし、また、電子カルテから試験依頼者 /データセンター側にデータを提供する際には、受け取り側が共通で利用で、きるフォーマットと ‑137
するため、 CDrsc( C l i n i c a l DataI n t e r c h a n g eS t a n d a r d s Consortium 臨床データ交換の標準 Iることとした。 組織)の規約に貝J 2 ) セキュリティ 記録の原資料としての担保が可能(履歴採取も含む)であり、 eCRF に対する保証を前提と した。 3 ) その他 情報の入力画面および症例報告書との紐付けが容易であることを目指した。 本システムの利用により、医療機関では、同じ内容を二度入力しなくて良くなり、試験依頼 者/データセンターにとっては、原資料(診療記録)と CRFとの整合性の確認がしやすく、 SDV が短時間で実施可能であり、タイムリーな CRFの受領が可能となる。 さらには、独自の EDCシステムをもたずとも、 CDrscフォーマットのデータそのものを授受す ることも可能であり、 EDCシステム開発経費の削減にもつながり、独自の EDCシステムをもたな い研究者主導臨床研究での利用可能性も高い。 図3 . システム繍要 圃国/ !日一一│ 事事黛横董簿、処方繁華量 jl r~ 一ー ーーーーーー一ーーーーーー 子¥ 立 /1 一ーーーーーーーーーーーーーーーーー、 !I フ ト 岬 締 結 ・ λカフ才一ムの作院 ; l . . , . ̲ ; 一 塁 ・ CRF フォームの作成 l i 入 力 項 融C昨項騒の紐付 I t : a おわりに EDC が目指すべきことは、臨床試験を実施する際に重要とされる Q u a l i t yUp、SpeedUp、 Cost down'こ他ならず、そのため医療機関にとっては診療記録を書く要領で、入力・保存が可 能であり、試験依頼者が必要な情報がタイムリーに入手可能なシステムを構築すべきである。 との連携を可能にするのみならず、これが普及 本システムの導入は、単に電子カルテと EDC すれば、情報の標準化の動きを加速し、臨床試験の実施から承認申請までの流れをより効率 138‑
的かっ迅速に行うことを可能とすることが期侍される。 参考文献 医療マネジメント学会/企・編:電子カルテシステムの普及に向けて.じほう, 2004 辻井敦:臨床試験データマネージメント.医学書院, 2004 139‑
S A S Forumユ ー ザ ー 会 医学データ解析における 6 4 b i t版 SASの有効性の検討 ‑Itaniumプラットフォーム(I A‑64)を軸にしてー 0土 居 主 尚 ・ 山 口 拓 洋 東京大学大学院医学系研究科健康科学・看護学専攻 生物統計学 Performanceof6 4 b i te d i t i o nSASs o f t w a r ei nt h ea n a l y s i sofmedicaldata ‑I t aniumo r i e n t e dapproach‑ K a z u t a k aD o i/T a k u h i r oYamaguchi Departmento fB i o s t a t i s t i c s S c h o o lo fH e a l t hS c i e n c e sandN u r s i n g,U n i v e r s i t yo fTokyo 要旨 近年の医学研究においては、解析対象者のデータが何百もの変数から成り立っていることは稀では なく、また、解析手法自体もかなり高度化している。そのようなデータを解析する際には、効率の良い プログラムを作成することがまずは重要であるが、それだけの対応では限界がある。本研究では、 6 4 b i t版 SAS( In t e lI t a n i u m プラットフォーム(IA ‑ 6 4 ) )を用いた場合に、従来の 3 2 b i t版 SAS( I A ‑ 3 2 ) と比較して医学データ解析におけるパフォーマンスがどれだけ向上可能か、またどのような状況にお いて 6 4 b i t版を使用するのが有用かどうかを検討した。 キーワード I A ‑ 6 4、I A ‑ 3 2、I t a n i u m、医学データ解析 1 .緒言 近年の医学研究においては、対象者のデータが何百もの変数から成り立っていることは稀ではな い。また解析手法の高度化に加え、ブートストラップ法 [ l Jやモンテカルロ積分 [ 2 Jのように反復計算を 前提とした手法も広く使われるようになった。そのようなデータを解析する際には、効率の良いプログ ラムを作成することがまずは重要であるが、それだけの対応では限界がある。またデータ自体が巨大 であるため、メモリ不足のため解析自体が行えない場合も存在する。本研究では、 6 4 b i t 版 SAS ( In t e lI t a n i u m プラットフォーム(IA ‑ 6 4 ) ) を用いた場合に、従来の 3 2 b i t版 SAS( IA ‑32) と比較して 医学データ解析におけるパフォーマンスがどれだけ向上可能かどうか、またどのような状況において 6 4 b i t版を使用するのが有用かどうかを検討した。 2 .コンビュータの基礎知識 [ 3 ] 大規模数値計算、高度な意思決定支援、 3D グラフィック、人工知能など、コンピュータの応用分 1 4 1
野は無限にある。このような多岐に渡るコンピュータの動作も、基本的な演算と入出力のみで構成さ れている c コンピュータの性能を議論する上で必要と思われる知識を以下で概説する。詳細な説明 には紙面不足のため、詳細は文献を参照されたい。以下では Pentium4などの従来の 3 2 b i tアーキ テクチャを IA‑32、I t a n i u mの 6 4 b i tアーキテクチャを IA‑64とする。最近、 IA 3 2を拡張した EM64T ← 4 b i tのアーキテクチャも登場しているが、主な拡張は扱えるメモリ (AMD64とも呼ばれる)としづ別の 6 空間の拡張であり、高速化に期待できる部分は多くなく、また現在 SASが対応していないことなどに より、今回は扱わない。 2 . 1 コンビュータの構成要素 コンピュータの構成要素は大きく分けて 3つである。 CPU、メモリ、入出力装置(以下I/O)である。 CPUとは C e n t r a lP r o c e s s i n gU n i tの頭文字であり、制御、演算等のコンピュータの中心的な動作を 行う。メモリは制御、演算の命令やその演算対象を保存しておく場所である。I/oは、最近のコンピュ ータではほぼ例外なく搭載されているハード ディスクやビデ オカードも含み、ハードディスクの読み出 しゃ書き込みはI/O へのデータの読み出しゃ書き込みに対応する。 電源を入れるとコンピュータは適切な初期化作業の後、 Windowsなどの OperationSystemや SAS などのアプリケーションをハード、ディスクのI/Oから読み出し、メモリ上に展開する。その後、 CPUはメ モリから命令を順次読み出し、命令を解析・実行し、その結果をハード、ディスクに書き込んだ、り、ビデ オカード上にあるビデオメモリに書き込み画面描画を行ったりする。一見複雑に見えるコンピュータ の処理は、これらの繰り返しによって構成されている。以下ではこの CPUの動作に着目する。 2 . 2 コンビュータの動作原理と I A・32の高速化手法 以下では前節の CPUの動作を掘り下げ、 Pentium4に添って高速化の仕組みについて説明する。 先に述べたように CPUは、命令をメモリから読み込み(命令フェッチ)、解析し(命令デコード)、実 行し(実行)、その結果を格納する(書き込み)とし、う一連の手順を繰り返す。これらのプロセスを一 定のリズムに従って行っており、このリズムがクロックで、ある。各手順が短時間に終わればリズムを早 める、つまりはクロックを上げることがで、きる 命令フェッチ、命令デコード、実行、書き込みの処理を O さらに細かく分け、一つの処理が早く終わるようにすることで、クロックを上げることに特化した CPUであ る Pentium4では、 20段以上に分割されている。 Iつの命令が読み込まれ、最後の書き込みが終わ るまでには 20段分の処理の時聞が必要であるが、その 20段分の実行ユニットを備え、流れ作業的 に命令を実行してし、くことにより、見かけ上 lクロックで l命令実行しているように見せかけることがで きる。この手法はパイプラインと呼ばれ、現在の多くの CPUで取り入れられている。 しかしながら条件により処理内容が変化する場合などでは、その条件が判断されるまでは以後の 命令を実行できないことになってしまう。それでは効率が悪いので、様々な情報から結果を予測して、 結果が出るのを待たずに実行を開始する。これを投機実行と呼び、結果が出た後予測が正しければ ‑142一
そのまま実行を続け、間違っていた場合は最初からやり直す。パイプラインが長い程、予測が間違っ ていたときにやり直す手順が増え、条件分岐など、の前の結果に依存する処理によって性能が低下す ることになる。 パイフ。ラインによって lクロックで l命令ずつの実行が可能となるが、さらに lクロックで、複数の命 令を実行するのが、スーパースカラ(スーパースケーラとも呼ばれる)である。 CPU が演算を行う処 理は、メモリから CPU 内にあるレジスタと呼ばれる記憶領域にデータを読み込み、複数あるレジスタ 聞にて演算を行い、その結果をメモリに書き込むとし、うのが一連の流れとなる。演算を行う演算ユニ ットと、メモリからレジスタへの読み込みを行うロードユニットをそれぞれ lつずつ備えていれば、この 処理のうち、レジスタ聞の演算と、次の命令である、別のレジスタへのメモリからの読み込み命令は同 時に実行することが可能である。この同時実行はしばしば命令の順番を越えて実行され、このことを アウトオブオーダと呼び、スーパースカラと併せて高速化の技術として広く用いられている。 2 . 3 I A・6 4の高速化手法 [ 3 ] [ 4 ] [ 5 ] IA‑32である P e n t i u m4ではアウトオブオーダにより並列に命令を実行しているが、並列可能な命 令の識別は、 CPU 自体がプログラムの実行時に命令を解析することによって行っている。これは CPUの複雑化を招き、高速化を困難にしている。それに対し、 I t a n i u mではプログラム作成時、つまり はソースファイルから実行ファイルを作成する段階で、並列実行可能な命令を探し、まとめる。まとめら れた命令は一度に CPUに送られ、同時に実行される。 IA‑32が実行時の短い時間で並列実行可能 な命令を探さなければいけない一方で、、 IA‑64では実行前に時間をかけてプログラム全体を判断材 料として並列実行可能な命令を探索することができる。これにより、 IA‑32よりも処理を並列化すること ができ、また CPUを簡略化・高速化することが可能となる。これは明示的並列計算 ( E P I C )と呼ばれ、 IA‑64の大きな特徴である。 また先に述べたが IA‑32では実行結果を予測し、その結果に基づき投機実行を行う。よって予測 が間違いで、あった場合はやり直す必要がある。 IA‑64ではプリディケート処理により、可能性のある 分岐処理を全て行う。結果が出た時点で実際に分岐しない選択肢の処理を廃棄する。これにより、 条件分岐によるペナルティを限りなく小さくしている。 SASなどの科学技術演算では、浮動小数点演算が用いられる。 IA‑32で、は浮動小数点演算ユニ ットを lつ備えており、 lクロックに1.5命令の割合で実行できる。一方で、 IA‑64では浮動小数点の掛 算と加算を同時に実行可能な乗加算器を 2つ搭載しており、加算と乗算が 2つずつの割合で、投入さ れた場合は lクロックで 4命令実行できる。単純計算で lクロック辺りの処理でーきる命令数は IA‑32 の約 3 倍となる。また浮動小数点演算を行う際の作業場として用いられるのが浮動小数点演算ユニ ット専用のレジスタであるが、 IA‑32では 8個であるのに対し、 IA‑64では 1 2 8個も備えている。 IA‑32 では計算途中でレジスタが不足した場合、一度 CPUやその一部であるレジスタに比べて極めて低速 なメモリにアクセスする必要性あるが、同じことが IA‑64で生じる状況は考えにくい。 143‑
低速なメモリによる速度の制約を回避する手法は他にも用いられている。一般にコンピュータで、は 同じデータや命令が繰り返し参照されることが多い。よって頻繁に用いられるデータや命令の繰り返 し参照時に毎回メモリにアクセスするのではなく、それらのコピーを特別な高速メモリに保存し、そこ にアクセスする手法である。この高速なメモリのことをキャッシュと呼ぶ。 CPU に近い方からLlキャッ シュ、 L2キヤツ、ンュと呼ばれ、 IA‑32では一部のハイエンド、のもののみ 2MBの L3キャッシュを搭載し、 それ以外は L2キャッシュまで、しか搭載しない。一方で IA‑64では最低でも1.5MBの L3キヤツ、ンュを 搭載し、多し、ものでは 9MBのキャッシュを搭載した製品もある c 以上のように IA‑64 は高速化に適したアーキテクチャになっているが、ソフトウェアの実行速度は ハードウェアの性能のみではなく、ソフトウェアの最適化にも大きく依存する[7JoSAS が適切に最適 化されていれば、 IA‑64で、は浮動小数点演算の高速化により各プロシジャの計算速度の向上が期待 される c また SAS 内部でプロシジャを呼び出す際、データの受け渡しをする必要があるが、多くのレ ジスタを使えることによってのメモリアクセスが減り、全体的な速度の向上が期待される。さらに IA‑64 では扱えるメモリの限界が IA‑32 と比べて格段に大きく、計算のために莫大なメモリ上を必要とする プロシジャで、は従来で、きなかった解析が行える可能性がある。一方で IA‑32と比べて多くの実行ユニ ット、キヤツ、ンュ等を搭載しており、製造にコストもかかる。 3 .方法 3 . 1 用いたコンビュータのスペックとコスト 比較に用いた IA‑64とIA‑32のコンヒ。ュータのスペックは以下の通りで、ある。 • IA‑64 .5GHz( L 3 キャッシュ 6MB)2基搭載 CPU:I t a n i u m21 恥ベM:10GB WindowsS e r v e r2003,E n t e r p r i s eE d i t i o nf o rI t a n i u m ‑ b a s e ds y s t e m s 部門単位などにて大勢で活用し、主として基幹業務に用いられる。そのため信頼性も高く、それ を満たす設計をしているためコストも高い。 • IA‑32 CPU:Pentium42.6GHz( S i n g l eCore、L3キヤツ、ンュなし) 恥ベ M:512MB WindowsXPP r o f e s s i o n a l 幅広く個人の生産性に貢献できるよう設計されている。そのために信頼性よりもコストに重点が 置かれ、手軽な価格となっている。 IA‑64、IA‑32共に他にも比較候補を追加予定である。なお IA‑64、IA‑32で Windows版 SAS9 . 1の うち、それぞ、れのプラットフォームの対応した 6 4 b i t版 2 0 0 3、3 2 b i t版 XPを用いた。 1 4 4一
3 . 2I A・64のみで実行可能なプログラムの検討 I A ‑ 6 4と I A ‑ 3 2の顕著な違いは、 4GB以上のメモリを活用できるかどうかである。 4GB以上のメモリ を活用することによって、従来はできなかったことが実行で、きるようになった例について挙げる。 3 . 3I A・64と I A・32での速度比較 以下の項目について I A ‑ 6 4とI A ‑ 3 2で同じプログラムを実行し、所要時間の比較・検討を行った . 0 実行ユニットが複数あること ( d u a lCPU、d u a lc o r e )が生かされるプログラム SAS/STATのうち、マルチスレッド、に対応するプロ、ンジャが現状で、は少ないため、擬似的なマル チスレッド の性能測定を目的とし、 S A S八MLにてモデ、ルからデータ発生を行い、発生したデータ IXEDプ口、ンジャで、解析を行うプログPラムを複数同時に走ら、その時間を計測した。一つの を M プログラムは、対象者数は 2 0 0、4時点の繰り返し測定のデータに対し、線形混合効果モデ、ルを 適用することを 2 0 0回反復している c ・ 医学データ解析における代表的なプロ、ンジャ (FREQ、GLM、MIXED、NLMIXED、PHREG、 MULTTEST等) • DATAステップ(条件分岐、反復処理等) • I M L(基本的な線形代数の計算、計算時間を要する非線形最適化関数) . B o o t s t r a p等) プロ、ンジャとしては存在しないがよく用いられる解析手順 ( 4 . 結果 4 . 1 I A・64のみで実行可能なプログラムの検討 S A S九MLにて作成できる正方行列の最大サイズを I A ‑ 6 4と I A ‑ 3 2で比較した。 1 0 0ずつ増やして A ‑ 6 4では 1 6 3 0 0 x 1 6 3 0 0の正方行列まで作成できた。一方で I A ‑ 3 2は 9 4 0 0 x 9 4 0 0の し、った結果、 I 正方行列まで、で、あった O 4 . 2 I A ‑ 6 4とI A ‑ 3 2での速度比較 実行時間を以下の表 lに示す。 : 複数のプロク、ラム(データ発生と解析)を同時に実行した際の実行時間 表 1 1 6スレッド I8スレッド I4スレッド I2スレッド I 1スレッド 4分 5 6秒 I2分 3 1秒 I1分 1 5秒 I 3 9秒 3 7秒 3 0分 5 3秒 1 1 3分 5 1秒 I6分 3 9秒 I3分 1 9秒 11分 3 7秒 A ‑ 6 4とI A ‑ 3 2で、の速度比較については、未発表製品との比較を追加する等の理由のため 残りの I ‑145
当日発表する。 5 .考 察 5 . 1l t a n i u m機の使用感 普段はあまり目にすることのないものであるため、最初に使用感を述べる。サーバ機で、あるため、 特殊なケースに収められている。起動と共にケースファンが回転を始め、かなりの騒音である。また 9インチラックの l区画(約 通常の PCが収められているミドルタワー等の ATXケースではなく、 1 50cm x 50cm) にちょうど、収まるサイズで、ある。以上より、会社や大学等で机の周りに気軽に置けるよ うなものでなく、会社の部署、大学の研究室で l 台、適切なサーバ専用の場所に設置し、複数のユ ーザがネットワーク越しにリモートデ、スクトップと呼ばれる遠隔地からの Windowsの操作を受け付け る機能を用いるのが適した使用形態と思われる。 このような使用モデルにて SASを使用した場合、複数のユーザが l台ずつの PCで SASを実行す るのに比べ、サーバ管理の手聞が大幅に削減で、きる可能性がある。具体的には SAS自体のインスト ール、ウイルス対策ソフトウェアなど運用に必要なソフトウェアのインストール、また定期的な Windows ソフトウェアの更新などの作業も l台のみで実行すればよい。 5 . 2 IA‑64のみで実行可能なプログラムの検討 IA‑32と比べ、 IA‑64では搭載した 10GBが生かされていることが、 SAS 九MLでの作成可能な最大 の正方行列のサイズから分かる。 I A ‑ 3 2では 4GB以上は増やせない一方で、 IA‑64では用いる WindowsS e r v e rのバージョンによっても変化するが、 D a t a c e n t e rE d i t i o nでは 512GBのメモリまでサポ ートしている。必要に応じて増設が可能であり、このスケーラピリティは IA‑64の利点である。 5 . 3 IA‑64とIA‑32での速度比較 IA‑64では CPUを 2つ搭載しており、 2スレッド、まで、は実行時間がほとんど変わらない。また 4スレ ッド、以上で、は実行時間がスレッド、数のほぼ定数倍となってしも一方、 IA‑32で、はスレッド数の上昇に 伴い定数倍よりも少しずつ増加している。これは I A ‑ 6 4が多くのスレッド、が同時に走っている状況でも パフォーマンスが落ち l こくし、ことを示唆している。よって IA‑64は複数のユーザが l台のコンピュータ を共同で使うような状況に適している。 5 . 4 IA‑64とIA‑32のコストの比較 もともと対象とする用途の違うアーキテクチャのコストを単純比較するのも無理があるが、導入時に は比較が必要となる場面もある。構成によって価格は大きく変動するため、具体的な金額について は考察しないが、一般に IA‑64は I A ‑ 3 2よりも数倍以上のコストが導入時にかかる。よって IA‑32と 比べ IA‑64がどのような状況でも薦められるわけではない。 1 4 6一
Webより I A ‑ 6 4の最低金額を調べたところ、構成次第で、は安価で、買える製品も存在する [ 6 J。今回 A ‑ 6 4のどの要素が速度向上に寄与しているかを詳しく分析し、性能向上のあまり寄与しな 使用した I A ‑ 6 4のコンピュータを提案できるものと思 いスペックは落とすことにより、医学データ解析に適した I われる c 5 . 5 マルチスレッドの有効性 CPUは今まで、は一連の命令をできるだけ速く実行することにより、高速化を達成してきた。 CPUの s t r u c t i o np e rc y c i e:I P C )と CPUの動作クロ 処理能力は、 lクロックあたりの処理可能な命令数(in e n t i u m4のアーキテク ックを掛けたもので、決まる。 lクロックあたりのクロックを高めることに着目した P チャが発熱により行き詰まり、 I P C 'こ焦点が移ったO しかし I P Cを高めるためにプロセッサを複雑にす P Cを高めるには工 ると、逆にクロックを低くなってしまうとしづトレードオフの関係が存在し、効率良く I 夫が必要である。一方別のアプローチが存在し、ソフトウェア自体がマルチスレッド、を前提として作ら れていれば、 CPUを複雑にすることなく I P Cを高めることができる。 CPUの高速化技術は出尽くした l J [ 8 J [ 9 J [ 1 0 J。 感があり、マルチスレッド が最後の手段とも考えられている [ 現在、マルチスレッドに対応しているプロシジャは SORT、SUMMARY、MEANS、REG、LOESS、 GLM、ROBUSTREG、DMREG、D' v 1I N Eなど、限られている [ 1 1 J。医学データの解析で使用されること MLなどは未対応であ が多く、かっ、実行時聞が比較的長いプ口、ンジャで、ある MIXED、NLMIXED、I るc しかし今後は CPUの高速化の流れに従い、 S ASも多くのプロシ、ジャをマルチスレッド1 こ対応させる A ‑ 6 4アーキテクチャが有利となってくるで、あろ と思われる。その際搭載可能なプロセッサ数の多い I つc 参考文献 [1]託金芳,田栗正章,手塚集他.計算統計し岩波書庖 . 2 0 0 3 . [ 2 J 岩崎学.統計的データ解析のための数値計算法入門.朝倉書庖 . 2 0 0 4 . [ 3 J 中森章.マイクロプロセッサ・アーキテクチャ入門 .CQ出版社 . 2 0 0 4 . [ 4 J池 井 満 . I A ‑ 6 4プロセッサ基本講座.オーム社 . 2 0 0 0 . t a n i u m2プロセッサ・ファミリ. 2 0 0 6年 5月 1 8日アクセス. [ 5 Jインテル.インテル I h t t p : / / w w w . i n t e. lc o . j p / j p / b u s i n e s s / b s s / p r o d u c t s / s e r v e r / i t a n i u m 2 / i n d e x . h t m d v a n t a g eシリーズ. 2 0 0 6年 5月 1 8日アクセス. [ 6 JH e w l e t t ‑ P a c k a r d .HPI n t e g r i t yサーバ A h t t p : / / h 5 0 1 4 6 . w w w 5 . h p . c o m / p r o d u c t s /s e r v e r s / i n t e g r i t y / a d v a n t a g e / I A ‑ 6 4で、のキャッシュテストの性能向上について . 2 0 0 6年 5月 1 9日アクセス. [ 7 Jエッチ・アイ・ティー . h t t p : / / w w w . h p c . c o . j p / B ‑ AP‑GAMESS/c a c h e t e s t ‑ i a 6 4 .h t m l n t e lとAMDの戦い . 2 0 0 6年 5月 1 8日アクセス [ 8 J後藤弘茂.アムダールの法則を巡る I ‑ 1 4 7ー
h t t p : / / p c . w a t c h . i m p r e s s . c o . j p / d o c s / 2 0 0 5 / 0 1 1 2 / k a i g a i 1 4 7 . h t m 2 0 0 6年 5月 1 8日アクセス. [ 9 J後藤弘茂.マルチコア/メニイコア時代の CPUアーキテクチャ . h t t p : / / p c . w a t c h . i m p r e s s . c o . j p / d o c s / 2 0 0 4 / 1 2 2 8 / k a i g a i 1 4 6 . h t m [ 1 0 J後藤弘茂.全ての CPUはマルチスレッド、へ、明確になった CPUのトレンド. 2 0 0 6年 5月 1 8日アクセス.h t t p : / / p c . w a t c h. i m p r e s s . c o . j p / d o c s / 2 0 0 3 / 1 0 1 8 / k a i g a i 0 3 4 . h t m [ l l J S A Sl n s t i t u t e .S c a l a b l eSASP r o c e d u r e s .2 0 0 6年 5月 1 8日アクセス. h t t p : / / s u p p o r t .s a s . c o m / r n d /s c a l a bi I i t y / p r o c s / i n d e x . h t m l ‑148一
口頭論文発表 医薬品開発 (解析系〉
S A S Forumユ ー ザ 一 会 トリム平均を利用した統計解析 ブートストラップ法による線型モテ、ルの適用 0堺伸也ぺ小山暢之ペ井上貴博へ幸坂美樹〈松山千恵て山田剛久$ 事イーピーエス株式会社統計解析部,枠三共株式会社臨床解析部 A n a l y s i strimmedmean‑u s i n gb o o t s t r a pmethodandl i n e a rmodel S h i n y aS a k a i *, NobuyukiKoyama , 枠TakahiroI n o u e *, M i k iKosakaぺChieMatsuyama*, TakehisaYamada事 事 柿 S t a t i s t i c sA n a l y s i sD e p t .,EPSC o .,L t d . C l i n i c a lPharmacologyandB i o s t a t i s t i c sD e p t ., SANKYOC o ., L td . 要旨 解析上,外れ値の取り扱いは厄介な問題である.特に臨床データの場合は,外れ値にも重要な情報が含ま れていることが多く,外れ値を除いて解析することは必ずしも適切で、はない.現在,外れ値のある臨床データの解 析には中央値やノンパラメトリック法が好んで、用いられている.しかし,ノンパラメトリック法はデータを順位変換して 解析する手法のため,情報のロスが大きいとし、う欠点もある.外れ値に対して頑健な統計量の一つにトリム平均が ある.中央値もトリム平均の一つではあるが,上下数%程度のデータをトリムしたトリム平均を解析に用いれば,算術 平均ほど外れ値の影響を受けず,また中央値よりも情報のロスが少ない推定や仮説検定が可能と考えられる. 今回,外れ値のある臨床試験データに対して共変量で調整した薬効比較を行うため,ブートストラップ法を用 A Sマクロを作成したので紹介する. いてトリム平均に対応した線型モデルのパラメータ推定を行う S キーワード: トリム平均,外れ値.ブートストラップ法 1.はじめに 臨床データにはしばしば外れ値が存在する.データに外れ値があると算術平均や標本分散が外 れ値に大きく影響されることがあり,データの分布に正規性を仮定した解析手法を用いると誤った 結論を導く危険性があるので注意が必要である.外れ値を「不適切な値Jあるいは「あり得ない値J として,はじめから除いて解析した方がいい場合もあるが,外れ値を怒意的に除いて解析すること で妥当でない解析結果が得られる危険性もある.特に臨床データの場合は,外れ値にも重要な情報 が含まれていることが多く,必ずしも意味のない値とは限らない.例えば,稀に重篤な肝機能障害 の副作用がある薬剤の場合,その薬剤を服用した大半の患者さんの肝機能検査値は正常値(基準範 囲内の値)を示すが,ごく一部の患者さんのみ非常に大きな値を示すことがある.このようなケー スで外れ値を除いて解析をすれば,その薬剤は肝機能に対して安全であるという結論が導かれてし まい不適切である.また,効果にばらつきの大きい薬剤のデータに対して外れ値を除いて解析すれ ば,事実とは異なり,あたかも効果の安定した薬剤であるかのような結論にいたる可能性がある. 従って,臨床データを解析する場合には,外れ値に対して頑健な解析方法を選択すべきである. 現在,外れ値のある臨床データの解析には,中央値やノンパラメトリック法を利用した解析手法が最も
好まれている.これは,ノンパラメトリック法が外れ値に対して頑健な性質を持ち,かっ既存の統計 解析ソフトウェアで容易に解析できるためと考えられる.しかし,ノンパラメトリック法による解析は順 位変換により個々のデータの大きさに関する情報のロスが大きいとしづ欠点もある. ここでは,外れ値のあるデータに対する頑健な解析方法として,トリム平均を用いた解析手法を考える. ) 頂,小さい順に同じ害J I合の数のデータを省い トリム平均はデータの最大値及び最小値からそれぞれ大きい1 て算出した平均値である. 例えば,以下の 8個のデータに対して,最小値 lと最大値 9を省いて算出した平均値は 25%トリム平 均となる. ( 2 / 8 = 0 . 2 5のデータを省いているため) デ ー タ ‑0 . 1,1 ,3 ,5 ,6 ,7 ,8 ,1 0 0 2 5 %トリム平均の対象データ=島幸守 1 ,3 ,5 ,6 ,7 ,8 ,胡§ ( 2 5 %トリム平均) = ( 1+3+5+6+7+8)/6 = 5 中央値は上下最大限にデータを省いて算出したトリム平均である.従って,数%程度のトリム平均であ れば中央値を用いて解析するよりも情報のロスが少ないはずである.しかし,これまで臨床データの解析で トリム平均を利用した例はほとんどみられない.これは,トリム平均が統計量として一般に馴染みが薄く,既 存の統計解析ソフトウェアにもトリム平均を利用した解析手法があまり組み込まれていないためと考えられ る. 本稿で、はこのトリム平均の考え方を線型モデ、/レに導入して解析する方法を提案する.トリム平均のため, 一般の線型モデル理論のように解析的な理論を構成することは困難だ、が,ブートストラップ法を用いること で信頼区間や仮説検定を構成することが可能である.ブートストラップ法は, E 仕o nが 1 9 7 0年代に理論構築 したデータの反復復元抽出に基づく分布の推論方法である.その手1 ) 慣はし、たって単純だが,反復復元抽 出品、う計算機負荷的な手法のため,近年の計算機の進化とともに応用範囲が広がった手法でらある. 今回, S A S 8 . 2を利用して,線型モデルに対するトリム平均とその信頼区間をブ、ートストラップ法で、算出 するマクロを作成したので、紹介する. 以下では,まず線型モデルのトリム平均とその信頼区間をブートストラップ法により算出するための手順 について示す.その後,仮想、データを用いてこの手順にしたがって算出した信頼区間と通常の線型モデル の解析から得られた信頼区間を比較し,提案した手法の性能を検討する. なお, SASプログラムについては 3節で簡単に説明するが,平易なステートメントで記述しているため, 詳しし、説明は割愛する. 2 .トリム平均を利用した線型モデルでの解析 線型モデルのパラメータに対するトリム平均とその信頼区間を算出する方法を考える.前節でも説明し たように,パラメータ推定にはブートストラップ法を用いる.ブートストラップ法に関する基本的な説明につい ては参考文献を参照いただきたい. 以下の一般的な線型モデノレ(反応変数 : Y . 説明変数 x)を仮定し,各治療群から n例ずつのデータを 集めてパラメータF を推定する問題を考える.説明変数 x には比較すべき治療群のほか,年齢や性別など の共変量が含まれるものとする. ‑152一
E(Y[x)=:
x
β,
Y=x
s
+
e
,
E
(
e
)= 0,
e~unknown e
汀o
rd
i
s
t
r
i
b
u
t
i
o
nF
線型モデ、/レの解析にブートストラップ法を適用する場合,二通りの方法がある.一つは共変量(説明変
数)を確率的に変動しない固定変量として扱う方法であり,もう一つは共変量も確率変数として扱う方法で
ある.前者の場合,残差を反復復元抽出してブートストラップ法を適用することになるが(修正残差法),後
者の場合は共変量の確率変動も考慮しなければならないため,反応変数と説明変数をセットにした多次元
デ、ータを反復復元抽出してブートストラップサンプルを構成する(ノンパラメトリック法).ブートストラップ法を
適用する上で直感的にわかりやすいのは後者の方であろう.ここでは,後者の方法で、線型モデルのパラメ
ータのトリム平均とその両側 95%信頼区間を算出する手順について簡単に説明する.なお,データをトリム
する割合 aは事前に定めておくものとする.
ノンパラメトリック法による解析手順
0
) 治療群ごとに n例のデータ{(
Y
i
I,
Xi
I
)
,(
Y
i
2,
X
i
2
),・
・
・ ,(
Y
i
n,
X
i
n
),
} (
i
:治療群)から,復元無作為抽出
により n例(もとのデータと同例数)のデータ(ブートストラップサンプル)を抽出する.
1
) 0
)で、抽出したブートストラップサンプルを治療群ごと l
こY
iの大きさの1
)
買に並べ替え,最大値,及び最
小値からそれぞれ大きい1
)
慎,小さい1
)
慣にa/
2の割合の数(全体で aの割合の数)のデータを削除す
る.
2
) 残りの(l‑
a
)の割合のブートストラップサンプルのみを用いて,通常の線型モデ、ルでの解析を行い,
パラメータβに関する推定を行う.
3
) 0)~2)を B 回(一般に B=1000~2000 で十分)繰り返し, B 個のβの推定量, β八J, β乍・ヘ β八日を求
める.
4
)s
^
J
,s
^
2
' • ヘ β 八日を大きさの順に並べ替え, βの両側 95%信頼区間を (ß八0.025 x (B+ 1),
s^
0
.
9
7
5x(B+1
)
)
と
す
る.
通常の仮説検定と同様に ,s
=Oを帰無仮説とした有意水準 5%の両側仮説検定は, 4
)で求めた両側
95九信頼区間が 0を含むか含まなし、かで判断すればよい.なお,パラメータ問の差 (
β ‑,
;
3
/ i
=
l
=
;
}の推定や
検定についても上記と同様の手順で行えばよい.
ブi".̲̲ートストラップサンプルを作成する段階で、データをトリム(削除)しているが,反復復元抽出のため,最
大値あるいは最小値であっても,その値がトリムされる数以上に抽出されたブートストラップサンプルでは,
その後の線型モデ、/レの解析に含まれる.つまり,単純に外れ値を除外して線型モデルを適用するのとは異
なり,外れ値の大きさもパラメータの区間推定に寄与していることになる.
説明変数(共変量)を確率的に変動しない固定変量として扱う場合は修正残差法が適用できる.修正
残差法では,はじめにすべてのデータを用いて通常の線型モデ、ルによる解析を行い,推定されたモデル
から修正済み中心化残差を算出する.この残差を復元抽出し,抽出された残差と既存のデータの共変量
の値を lつずつ組み合わせて反応変数の値を計算し lつのブートストラップサンフ。ルを作成する.その後,
作成したブートストラップサンプルを反応変数の値の大きさの順に並び、替えて,必要な数だけ上下のデー
タをトリムする.後は,上記の 2)~4) と同様の手順でパラメータ推定を行えばよい.修正残差法の詳細につ
‑153一
いては,参考文献を参照していただきたい. 3 .作成した解析プログラム 前節の内容に沿って解析プログ、ラムを作成した.投与群を 3っとし,各群で復元抽出を行うこととした. 復元無作為抽出には SAS/ST ATSURVEYSELECTプロシジャ (METHOD=URSオプション)を用いた.推定 対象は任意の 2つ投与群の効果の差とした. 反応変数にタイデータがある場合,トリム(削除)するときにどのデータを省くかとしづ問題があるが,反応 変数の値の小さい1 ) 慎,被験者番号順に並べて,上下から指定した割合のデータを省くこととした. 解析プログ、ラムの実行には,線型モデルの記述,乱数のシード,復元無作為抽出の回数 ( 8 ),信頼区 間の信頼係数,トリムするデータの割合を指定し,実行する. 4 .仮想データでの解析 仮想、データをもとに,作成した解析プログラムで、解析を行った結果を示す.次のようにモデ、ルを定義し, モデルをもとに乱数により各被験者の臨床データを定めた. 仮想データのモデ、ル 反応変数 Y は,ある評価指標の薬剤投与前後の変化差であるとして,次のモデルに従うこととす る. Y=X s + e x β =x, β ! , +X2s2+X3s3+X.s.+Xs5 , x ,投与群(ダミー変数)群 A→ 1 ,群 B→ 0,群 C→ O X2; 投与群(タミ一変数)群 A→ 0 ,群 B→ 1 ,群 C→ O X3 ,性 別 男 → 1 ,女→O X.; 年齢 6 5歳未満→ 1 ,6 5歳以上→ O X5; 反応変数の投与前の値 効果βは次の値であるとする. β1 =‑ 1 .0,s2=‑ 1 .0,角=0 . 3,s.=0 . 2,s5=一0 . 0 3 誤差 E を次のようにする. %が外れ値で占められる確率変数として,区間 ( φ 1 ( 0 . 0 1 ), φ 1 ( 0 . 9 9 ) )で標準正規分布, 全体の 2 区間(一 1 0, 10 )の残りの区間で一様分布に従うものとする ( φ は標準正規分布の分布関数). 仮想データの各被験者の値 各被験者の性別,年齢,反応変数の投与前の値は独立に二項乱数か正規乱数を発生させて次の ように設定する. 3 0 % ),女( 7 0 % ) 性別; 二項乱数で分類.男 ( ‑154
年齢; 二項乱数で分類 .65歳未満 ( 5 0 % ),6 5歳以上 ( 5 0 % ) 反応変数の投与前の値; 平均 1 0分散 32の正規乱数 各群 100例とし,誤差のサンプルを発生させて先のモデ、ルをもとに反応変数の値を定める. 図 lに,作成したデータの反応変数の分布を箱髭図で示した.各群で、外れ値が幾っか見られた. "はβl一応の推定値, 表 lと図 2に,作成したプログ、ラムで、解析を行った結果を示した"群 A一群 s H 群 A一群 c "はβ/の推定値"群 B一群 c " [ 土品の推定値である.解析時にトリムした割合は 4 %,復元無作為 抽出の回数( s )は 1999回である.性能評価をするために,比較用に通常の線型モデ、/レの解析結果や第 2 節で紹介した修正残差法の解析結果なども示した. 5% 信頼区間の幅は①>③>②ミ⑤>④(記号の説明は表 lを参照)であり,トリム平均を この例では, 9 0 一 ,1, ‑ 1 )に近い結果 利用した線型モデルで、の解析が有用で、あることを示していた.推定値も設定した真値 ( が得られていた. 9i 牢 本 Tl悶}上 。 Tム凶Ti 3 ‑ 3 ‑ 6 本 群A 群 B 群 C 図 1 仮想データの反応変数の分布 ‑155
表 1 仮想データの解析結果 一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一ー一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一 5 切 下側 9 上側頼9 5 切 中 冨 信限界 真値 推定値 信頼限界 一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一 ‑ 0 . 0 9 9 0 . 0 0 0 0 . 2 3 9 0 . 5 7 8 O .6 7 6 ①平均値の差 1 . 0 0 0 ーO .8 4 3 ‑ 1 . 1 8 1 一0 . 5 0 5 O .6 7 6 群A B 一 一 一 群 群 群B C ‑ ‑ 0 .7 4 4 . 0 8 3 一1 . 4 2 1 O .6 7 6 ‑ 1 .0 0 0 一1 ② ( 共 ト 変 リ 量 ム を 平 調 均 整 の )差 * 1 ③平均値の差 ④ ( 共 ト 変 リ 量 ム を 平 調 均 整 の ) * 差1 * 2 0 . 0 0 0 0 . 1 3 4 群A 一群B 群A 一 群 群C 一1 . 0 0 0 B-~C ‑ 1 . 0 0 0 群A 一群B A-~C 一1 . 0 0 0 B-~C ‑ 1 . 0 0 0 一0 . 8 9 3 群A 一群B A ‑群C 0 . 0 0 0 ‑ 1 .0 0 0 ‑ 1 . 0 0 0 一O .9 0 8 B-~C 0 . 0 0 0 一0 . 8 8 9 ‑ 1 .0 2 3 O .2 0 4 ‑ 1 .0 9 7 0 . 1 0 8 ‑ 1 .0 1 6 ‑ 1 . 1 7 4 ‑ 1 . 3 2 6 0 . 4 6 5 ‑ 0 . 5 7 6 一0 . 7 4 6 O .6 0 7 0 . 5 9 8 0 . 5 8 0 ‑ 0 . 1 2 8 ‑ 1 .2 2 5 ‑ 1 .4 3 0 一0 . 5 6 1 一O .7 6 4 O .5 3 5 O .6 6 3 O .6 6 4 O .6 6 5 0 . 4 0 7 0 . 5 6 7 0 . 5 4 9 0 . 5 8 2 一0 . 1 4 1 ー0 . 1 6 0 ‑ 1 . 1 8 0 ‑ 1 .3 1 8 一0 . 6 3 1 O .7 3 6 群A ‑群B 0 . 0 0 0 0 . 1 0 8 一0 . 1 4 0 0 . 4 7 3 0 . 6 1 3 1 .0 0 0 一O .9 0 8 ‑ 1 .1 7 7 一O .5 7 9 O .5 9 8 群A 一群C ‑ B 一群C ‑ 0 . 5 8 6 1 .0 0 0 ‑ 1 .0 1 6 ‑ 1 .3 4 8 一O .7 6 2 一一ー一一一一一一一一一一ー一一一一一ーーー一一一一一一一一一一一一一一一一一一一一一ーー一一一一一一一一一一一一一一一一一一 ⑤ ( 共 ト 変 リ 量 ム を 平 調 均 整 の ) * 差1 *3 * 喧 時 共 { 田 1 重 8 ノ 修 轟 碍 量 ン 正 未 信 パ を 義 講 頼 謹 ラ 霊 / 匡 メ 聾 以 法 ト 爵 し 上 リ で た 申 L ワS 鍵 書 E ク 暗 珪 出 軒 蕗 信 で で で 董 頼 g は 韓 匡 7 暗 ー Z K 慮 演 国 ト 由 碩 控 ス を 宮 愛 与 ト 巨 裁 ラ 鶴 高 額 ヲ を 圭 田 ブ 説 草 珪 鐘 明 を 出董 朝 量 田2 とし士 投与群~(Aノ町'C), 性溺{里/~女), ① ② ③ ④ ⑤ ‑1.5 0.5 。 O. 5 図 2 仮想データの解析結果 ( 9 5弘信頼区間を図示) ‑156一 年齢
5
.9
5自信頼区間の被覆確率
モンテカルロ、ンミュレーションにより,特定の条件のもとで 9
5
%
信頼区間の被覆確率を推定した.前節の
" =0
.
0,品=0
.
0としづ条件で、発生させる、ンミュレーションを 2
0,
000回実施し(仮説検定との
仮想データをβ
対応を考慮してこのようにした), 9
5
%
信頼区間が真値 0を含む割合を算出した.表 2に,結果を示した.
5弘信頼区間の被覆確率の推定
表2 9
0. 0 であ~仮想テ三ータ~ 2
,
0000(/!J{1=Iit~, I
!
t
!
l
i
l
.
苦
β1‑:ααβ';=
・~ItlJÊCI=. g
i
l
!
i
s
手/ご外ヅム をMt
S
‑
I
;
t4%
,f
P
jf
泉
7
f1
安易甜却
のE載。ヲ~/;t 1999@
である
u
主鹿野県宝ぃ量償警塁悪が童福号肝要ぎぃ
ロυnunu
AAAAn
口
群群群
群群群
N
出
N
4
2
5
3
8
8
4
4
7
2
.
1 1
9
1
1
1
1
.9 1
9
1
2
6
2
.
2 1
9
1
0
6
日
N
弘
9
5
.
6
9
5
.
6
9
5
.
5
4
6
4
4
8
6
4
4
7
2
.
4
2
.
2
2.3
9
5
%
信頼区聞が真値 0を含んだ割合は 9
5
.
5
%
から 9
5
.
6
%で、あり保守的で、あったが, 9
5
%に近い値が得ら
れた
6
.おわりに
今回作成したプログラムは,群数やデータの分布型などによりプログ、ラムの修正が必要になるため,利
用に際しては慎重にお願し、したい.
SASに予め備わってし活トリム平均に関する機能として UNIVARIATEプロ、ンジャがある.UNIV
ARIATE
プロシジャの TRIMMED=
オプションで,トリム平均とその 9
5
%
信頼区間の算出を行ってくれる .
95%
信頼区間
をブートストラップ法で推定したいときは以下のサイトのマクロが利用できる.
h
t
t
p
:
/
/
f
t
p
.
s
a
s
.
c
o
m
/
t
e
c
h
s
u
p
/
d
o
w
n
l
o
a
d
/
s
t
a
t
/j
a
c
k
b
o
ot
.h
t
m
l
参考文献
[
l
J 在金芳,田栗章 (
2
0
0
3
),計算統計 I確率計算の新しい手法一ブートストラップ法入門,岩波書庖,
3
‑
6
4
[
2
JE企o
n,T
i
b
s
h
i
r
a
n
i
(
1
9
9
3
),AnI
n
t
r
o
d
u
c
t
i
o
nt
ot
h
eブートストラップ, Chapman& H
a
l
l
1
5
7
解析プログラム 1 *プログラム 1 今回作成したマクロ * 1 *ブートストラップ標本作成; 目macrours(wkin.wkout.cri.s d ) 1 data n u1 set &wkin endニflg ; 一 ) ;end ; i f flg then do c a l l symput(市 nn".̲n where & c r i run proc surveyselect data=&wkin method=urs rep=&nsample n ニ& nnn seedニ&sd out=&wkout noprint where & c r i run %mend ; *ブートストラップ標本完成; 目macroursa(wkin.wkout) data &wkout set &wkin do i = l to NumberHits output end drop iNumberHits run %mend 巾同門 J H H a 除 h‑f を ‑ ア の m ︑ ︐ ロ' A‑‑ E?IUV vl +L iJ nιunι 'み 合川 ・'み / / O n nド m山lun‑‑lnκu ・14WLMH L L ︐ nι H u n d rL ' w 4 no αP e み み Ah?τvl. E ゆOSoa oa‑‑'=Au r(lka oa ﹁ lwH L f ant ニ ‑ ﹂︑ m J uv ・ l'oa 'VE L t r1 こ s'hnuuv nド ︐ cc v a hy u n mor u ψ平 川 鴨 川 辛ヤ 事制 VE proc freq dataニ&wkin noprint tables &v2 / out=triml by & v l; run data &wkout merge &wkin triml(keep=&vl &v2 count rename=(count=nall)) by & v l &v2 ; retain rnk n k + l i f first.&v2 then r n k = l else rnkニr i f rnkく=round(nall*&trim/2) then delete i f rnk>二 naII‑round( n a1 1* 品trim/2)+1 then delete drop n a1 1 rnk run 目 mend *解析部分最小ニ乗法でパラメータを推定する; 目macro glm(wkin.wkout.v l ) proc glm data=&wkin noprint class &indepc model &dep=品 indep Ismeans gun / out=glml by & v l quit data glm2 1 5 8一
Hu n u ︐ .みL ' ν n w +L ea Hu n u ηt m ‑ ‑ 勾 ﹄ ub み 勾 G4EE JU 門H V oa ふE ra+L a n u nuqG‑‑ eopu CHyn O L︐ Une . rum p r w百 一 一LG・' merge glml(where=(gun=l) rename=(lsmean=meanlr) keep= 品v l gun 1 smean) 品v l gun 1smean) glml(where=(gun=2) rename=(lsmean=mean2r) keep= 品v l gun 1 smean) glml(where=(gun=3) rename=(lsmean=mean3r) keep= l by 品v cat=l mean1 : 叩 e anlr‑mean2r output cat=2 meanl司 neanlr‑mean3r output cat=3 meanl司 lean2r‑mean3r output l cat meanl keep 品v run *パーセンタイル法で信頼区間を求める. 世macro percentile(wkin,wkout,v l ) n H a u Ju ︐ . Hu ‑‑ +L n u nド +L H U H ︐ . Ju n H・ ' a u 1 Hus‑ し ︾ +Lm ︐ . ﹄ nu‑‑ nμ・p u み1 H U H u h n 'ρ ' n u Hna ‑‑ m 一 p u l ︐ ・u nn Ju l= aunM Enuou q G ' h H Il+L l 一 ︐ .t +ワ ι / ' ν n ・‑f︐ 門川 a u VEnu'hH =Junv un‑‑E nununa r ea 'hH‑my 川 ' ) ‑ m p u H U p u 1 m l o h u ‑vv a v nv 一 一a v Hu n v +L ‑ ν n ( ' ν n w n u o h u L み H u 0 U 品目﹄ n H ρ u p u r a 気U 4IL o u nv 一 一 勾 . ︐ FO‑︐ ‑ a U a u Ju n u nvLullE u Cun川 a n U GEnu aeafl rmllv +L‑oa ︐ ・ a V1. ︐ u パ c a ︐U 円 H y n ov‑‑LUne rum nド VEwmN ‑1 ︑‑ au+L J P04EI ‑‑qL+ dtil 勾 ‑''hHnド pm 411la =as ρuf/'au LMnoanH キ oa n 4l‑ n+4l ee+ ﹁)( 向 ‑‑‑'4lam ‑‑‑‑‑Hveo U 笥 +LLKoans nunu・'nu‑ohun川 E・ I‑rtrLP U PU‑un41Eeo‑‑ r w v n r k n一 k 一n eoaoa‑‑JInn paslrara ﹄.︐ キ﹃ LHVJ E ふ aeLUEP+lp+lp+l Lcur ・ み ''illn 気 UHU JU ﹁ LnHIltou ︐ . ‑tPIl ‑ emp proc sort data二 品wkin by 品v l meanb run *トリム平均信頼区間(ブートストラップ法線型モデルノンパラメトリック法) 首macrobsl(wkin,wkoutl,wkout2,r c d ) data bsO set &wkin none=l run proc sort data=bsO by &pat run 首trim(bsO,b s l " g u n ) 明glm(bsl,bs2,none) proc sort data=bsO by &pat run 明urs(bsO(keep=品pat&dep &i ndep g u n ),bs3a(compress=on),( g u n = l ),&seedl) 首urs( b s O(keep= 品pat &dep &i ndep g u n ),bs3b(compress=on),( g u n = 2 ),&seed2) 首urs( b s O(keep=品pat &dep &i ndep g u n ),bs3c(compress=on),( g u n = 3 ), 品s eed3) data bs3(compress=on) set bs3a bs3b bs3c by r e p licate gun &pat run 明ursa(bs3,bs3z) 百trim(bs3z,bs4(compress=on),replicate,gun) 首i f 品rcdニO 首then 日do proc datasets 1ibrary=work delete bs3 bs3z bs3a bs3b bs3c meanb)),replicate) %glm( b s 4,加 kout2(rename=(meanl= 首percenti1 e品 (wkout2,bs6,cat) quit 百end data &wkoutl merge bs2 bs6 by cat keep cat meanl I c l m l uclml run 明i f&rcd=O 百then 百do proc datasets 1ibrary=work delete b s : trim: glm: percentil e : urs: ‑159‑
Q
u
i
t 時e
n
d
時m
e
n
d
/ホプログラム 2 プログラム 1を実行するプログラム例本/
d
a
t
aw
k
1
r
n
d
=
2
0
0
6
0
5
2
1
d
op
a
t
i
d
=
lt
o3
0
0
e
r
r
=
r
a
n
n
o
r(
r
n
d
)
一1
0
+
r
a
n
u
n
i(
r
n
d
)
*
(
1
0
‑
p
r
o
b
i
t
(
0
.9
9
0
)
)
i
fe
r
r
<
‑
p
r
o
b
i
t
(
O
.9
9
0
)t
h
e
ne
r
r
=
i
fe
r
r
>p
r
o
b
i
t
(
0
.
9
9
0
)t
h
e
ne
r
r
=1
0
‑
r
a
n
u
n
i(
r
n
d
)
*
(
1
0
‑
p
r
o
b
i
t
(
0
.
9
9
0
)
)
ニp
a
t
i
d
<
=
1
0
0t
h
e
ng
u
n
=
l
i
f 1
<
i
f1
0
1
<
=
p
a
t
i
d
<
=
2
0
0t
h
e
ng
u
n
=
2
i
f2
0
1
<
ニp
a
t
i
d
<
=
3
0
0t
h
e
ng
u
n
=
3
i
fr
a
n
b
i
n
(
r
n
d,1
,0
.
3
)
=
1t
h
e
ns
e
x
=
l e
[
s
es
e
x
=
O
i
fr
a
n
b
i
n
(
r
n
d,1
,0
.5
)
=
1t
h
e
na
g
e
cニ1 e
[
s
ea
g
e
cニo;
b
e
f
o
r
e
=
r
a
n
n
o
r
(
r
n
d
)
*
3
+
1
0・
v
a
l
u
eニ 0
.
0+0
.
3
*
s
e
x+O
.
2
*
a
g
e
c‑0
.
0
3
*
b
e
f
o
r
e‑l
*
(
g
u
n
=
l
)ー 1
*
(
g
u
n
=
2
) +e
r
r
n
u
ι
γ
sl
U
内
U
内
d
勾
a
u
'
n
u・
'
G
勾
auau
作o
z
gb
︐
.au
︐.︐
VAVA
acac
nBSS
︐
.
141nB 'nu
咽
・
︐
.
︐
・
nHVAHun
wuFhdn川 門 川
円
AHVAHV41Eau‑AHVHUHuauiu
nunU 二 円U ‑ g b g b u ‑ ‑
L
lE み
一
一
caa
1inu‑‑ 一
一
﹄
しM
1Ent司u nド = a n ド nド v n ド
JUJUJum 百しn e e ‑ ‑ ‑ ‑
︐nu︐nunur みE
HHnur
勾・
auacaC d
auacacnovlEE'n川 n川 acqG
Cοnbnon川4ELqa‑‑1
・Et︐nunur
+L みL4L4L4L4L4L4L4L4L
auauauauauauauauaua
I
llil百i
‑‑││
町市町市町市制百 w
町市町市町市制百町市
1E4Intounv
︐
.
一
一
一
一
一
一
o
u
t
p
u
t
e
n
d
r
u
n
/*ブートストラップ標本作成のための乱数シード 1*
/
/*ブートストラップ標本作成のための乱数シード 2*
/
/*ブートストラップ標本作成のための乱数シード 3*
/
/*ブートストラップ標本の数*/
ri
mの半分を卜 1
)ムし.全休で品 t
ri
mをトリムする*/
/*上下品t
/
*l
‑
&
a
l
p
hを区間推定の信頼係数とする*/
/*説明変数*/
/*説明変数での分類変数*/
/*反応変数*/
/*症例識別子*/
t
i
t
[
e
1"
r
e
s
1
: トリム平均信頼区間(ブートストラップ法線型モデルノンパラメトリック法)" ;
s
1(
w
k
1,r
e
s
1,
w
k
1
1,0
);
/*解析する D
S,結果の D
S,B
S標本の D
S,作成記録の有無 (
0
:無 1:有)*
/
百b
p
r
o
cp
r
i
n
td
a
t
a
=
r
e
s
1
r
u
n
以上
1
6
0ー
S A S Forumユ ー ザ ー 会 P O W E Rプロシジャを用いた生存時間解析における 症例数設定方法の統計学的一考察 0中 西 豊 支 五 所 正 彦 菅 波 秀 規 興和株式会社 臨床解析部 As t a t i s t i c a lc o n s i d e r a t i o nf o rs a r n p l es i z ec a [ c u [ a t i o no ns u r v i v a la n a l y s i s u s i n gP O W E Rp r o c e d u r e Y u s h iN a k a n i s h i/M a s a h i k oG o s y o/H i d e k iS u g a n a m i B i o s t a t i s t i c s&D a t aM a n a g e m e n tDEPT,KOWACOMPANY ,L T D . 要旨 生存時間解析における症例数設定は SAS9 . 1の P O W E Rフロシジャで行うことができ Q u c r yも汎用されている。 る。その‑)5で、症例数設定専用のソフトウェアである n O W E R しかし、ハザードや試験期間などの症例数設定に必要な条件を同一にしても、 P プロシジャと n Q u e r yは異なる症例数を与える。本稿では、生存時間解析の j i E { タ J i ' 数 Q u e r yが採用している方法と S A Sが採用している方法の逃い 設定の基礎を解説し、 n について示す。 し トt ワ キ P O W E Rプロシジャ, n Q u e r y,症例数設定,生存時間解析,登録期間,脱落 1.はじめに 臨床研究では、死亡までの時間、ガンや心筋梗塞の発症までの時間といったデータを 扱うことがある。このようなデータを解析する場合には、生存Jl奇問解析といった手法を 用いることが多い。生存時間解析はある基準の時刻からある目的の反応が起きるまでの 時間を解析対象とする解析手法の総称を指す。 臨床研究を実施する際、研究の計画者は仮説を検証するために卜分かつ必要最小限と I 的かつ科学的に臨 忠われる症例数を設定しなければならない。この症例数設定は、倫里I 床研究を実施するために重要な仕事のひとつである。 症例数設定では、その品質管理も重要である。品質管理丁二 111~i として、バリデーション されたプログラムを用いる方法、解析的方法で検討すること、解析的方法をシミュレー ションで検証する方法、ダブルフログラミングによって検証する方法などが考えられる。 Q u e r yを用いてきた。 S A S. 91 では、 今まで我々は生存時間解析のための症例数設定には n P O W E Rプロシジャによる生存時間解析の症例数設定が可能となった。そこで、出例数設 ‑161
定を行った際に品質管理の一環として n Q u e r yとP O I V E Rフ。ロシジャを用いて症例数設定を 行ったところ両者の結果が異なった。 ( n Q u e r yはV e r si o n6 . 0を使用) Q u e r yとP O W E Rフ。ロシジャの結果が異なる理由について報告する。章構成は、 本稿では n 2 章では、生存時間解析における症例数設定を簡単に示し、 3 章では、 n Q u e r yとP O I V E Rフ ロシジャの原理について示す。 4 章では、数値言1 算例を示し、 5 章で考察、 6 章でまとめ を述べる。 また、本稿では 2 群比較を想定し、症例数は両群で等しい場合の症例数設定について 考える。 2 .生存時間解析における症例数設定 生存時間解析での検出力は症例数の大きさではなくイベントの発現数によって決ま る。そのため、症例数設定を行う際にはまず、差を見出すのに必要な1f伴のイベント数 (d)を算出する。さらに必要イベント数をイベント発現割合で除することにより l併の 必要症例数を求めることができる。よって、 2群合わせた全体の必要応例数は ( 1 )式を用 いて求めることができる。 d ) (Ti N= = . .̲x2 イベント発現割合 2 . 1全症例で追跡期間が等しく脱落を考慮しない症例数設定 まず、全症例で追跡期間が等しく脱落を考慮しない場合の症例数設定を考える。例え ば、図 1 (.はイベント)のように示すことができる。このような試験デザインの場合 に、脱落を考慮せずに l群当たりに必要なイベント数を算出して、必要症例数を求める 方法として、 F r e e d m a n式 4)や S c h o e n f e J d式 3 )が知られている。 F r e e d m a n式は 2群問で ハザードの差が 0であるとして導いた検定統計量を利用し、 S c h o e n f e J d式は 2t P ( : の ハ ザード比が 1であるとしその対数をとって導いた検定統計量を利月 jしている。 症例 症{f J I A A B 叫; ー 曹 F GI 組み入れ期間 . 司 . G 組み入れ開始からの経過時間 観察開始からの経過時間! 図 1:全症例で追跡期間が等しく脱落を考慮しない場合 nノ GU
F r e e d m a n式 ー + 2 ) n (n‑ ‑2 J hμlr一﹂川リ α ‑ ‑ r l ‑γ q Z 7一 u 内 ︐ +‑一 一 ‑︐d L 一 (7一 ( 2 ) S c h o e n f e l d式 x2 d=(ZI-α +ZI-ß~ ρ ( 3 ) ! l o g ( R )2 J ただし、 :併 2のハザード λ 1 群 1のハザード ZI‑a 正規分布の上側 α %点 ZIρ: 正規分布の上 l { l ! Js' % 点 ゐ メ :2群のハザード比 R= 2.2症例問で追跡期間が異なり脱落を考慮した症例数設定 通常臨床試験では、患者は一斉に登録されない。また図 2(.はイベント、×は脱落、 点線は追跡見j 問の延長分)のように、ある一定の登録期間を設けその問に逐次的に患者 が登録され試験の終了時期は同時である試験デザインもある。この場合、忠者によって 追跡期間が異なってくる。例えば、登録期間を T年、追跡期間を r年とすると、登録期 間の初めに登録された患者は最大 T+r年間の追跡がなされることとなる。そのため、 2 . 1節よりも、イベント発現劃合は高くなる。また、追跡見l 問中に脱落する症例もいる。 具体的な症例数設定の方法は 3章で説明する。 . 症例 I { . ' II f J I . . . ・ A ~ I一一二 . . . ・ . . . . x D A B 同: 司 . ・ . . . . . . . x E E ‑ F • F ' G GI 組み入れ期間 観察開始からの経過 1卯 組み入れ開始からの経過時間 n 図2 :症例問で追跡則問が異なり脱落を考慮した場合 . 3 nQueryと P O W E Rプロシジャにおける症例数設定の原理 2 . 2節の症例問で追跡期間が異なり脱落を考慮した症例数設定を n Q u c r yと P O I V E Rプ ロシジャで行うことができる。 3 .In Q u e r yにおける症例数設定 n Q u e r yでは、症例問で追跡期間が異なり脱落を考慮する方法として(1 )式のイベント a k al o s G )の式が採用されている。本稿ではこの式を L a k a l o s 発現割合が工夫されている L A式と 1手ぶこととする。 ηυ £U
l │記号表記 T 登録期間 r 追跡期間 λJ 指数分布(生存関数)のパラメータ (j=1, 2 ) L ; . 指数分布(脱落関数)のパラメータ (j=1, 2 ) N R 必要症例数 ( 2群分) ハザード比 L a k a t o sA式 伊l‑a+Zl‑s2 )x2 ( 4 ) 2 V︽ 勺 一 石 ノJ / //♂恥 I I l l i t ‑ ‑ i l l ‑ ﹂ ﹁ //中 4 J 司 ︑1lll e A T'df ρ L 一 一j p / t i l l ‑ ‑ ¥ ︑ A ﹁lil‑‑Ill111﹂ !) だ た Aj= λ j+Lj ここで、 / 1 P 2 l x[ 1 /~ + そ ( l n ( R) Y ( 5 ) j :群 (j=1 , 2 ) L a k at o sA式について説明する。患者は一定の速度で登録され、生存関数と )式のイベント発現割合の部分を工夫するこ 脱落関数は指数分布に従うものとする。(1 とにより、登録期間と脱落を考慮した式となっている。登録時点 tの患者の T+i 年 経過時のイベントまたは脱落の起こる割合を P(evento rdrop[ t )とし、登録時点 tは区 o, T lの一様分布を仮定すると、イベントまたは脱落が起こる割合は、 間[ L P (閃n 川t町 0rd r o p )= J~吋 P ( 閃川n J t町 o r d 合r 的 o 叩p :1 )土 咋 正 J Td υ 'V' • .• T =1 ‑J~S(event I I ) S ( d r o p•11)~dl . . , . .T ( 6 ) V ' ここで、生存関数、脱落関数に指数分布を仮定すると、 +仲田p(‑L (T‑(+小十 dt 加 巴n to rd r o p )=1‑J 6 e x p ( ‑ λ j( T‑( ド j =1‑ x p ( ‑内 +Lj)(T‑t+r)L~r L λj+Lj =l 。 TJ tF(xp(一(いj)川 ( 川j)川 ) 巴 に L j ) T よって、イベント発現割合は、 ‑164一 ( 7 )
l E ( λ L, l 川 となり、 ( 5 )式を導くことができた。 ここで、 S c h o e n f e l d式によって求めた 1m:の必要イベント数と、 (5)式を用いて各市ー ( 1=1, 2 )のイベント発現割合が求まる。よって、各群の必要症例数が計算でき、 2群合わ せた必要症例数が導ける。そして、導かれた必要症例数は ( 4 )式に一致する。つまり、 L a k a l o sA式を導出できたことになる。また、 Tを十分小さくし、脱落も考えない場合 にS c h o e n f e l d式となる。 3 . 2P O W E Rプロシジャによる症例数設定 P O W E Rプロシジャでは、 L a k a[OS5)の式が採用されており時間をいくつかの区間に区切 って、区間ごとに期待されるイベント数を算出して検出力を評価するものである。本稿 ではこの式を L a k a l o sB式と呼ぶこととする。 E冨 T : 登録期間 r 追跡期間 X; ( j ) : 生存曲線における群 j の 1 番目の時間 S ; ( j ) : お( j )に対応する生存関数 ん( t ) : 群 j 、時間 tのハザード 叫( t ) : 群 j 、時間 tの脱落ハザード B : 単位時間当たりの区間数(デフォルトでは 1 2 ) λj 群 jの指数分布(生存関数)のパラメータ R : 群 1と群 2のハザード比 mj 群 j のメジアン生存時間 心 : 群 j の指数分布(脱落関数)のパラメータ XLj : 脱落曲線における群 j の時間 SLj : XL;に対応する脱落関数 ι m :群 jのメジアン脱落時間 ぉ j番目の時点の重み N : 必要症例数 (2群分) 同 : J群の重み(デフォルトでは 0 . 5 ) 生存関数にはいくつか指定方法がある。ハザード関数は生存関数から求めることがで き、生存関数が指数分布にしたがう場合にはハザード関数九( t ) は版々な方法で算山す EA 唱 GU FD
ることができる。
また、時点ごとに生存関数を指定した場合、時点ごとのハザード関数は次のように算
出するロここで、
二
t
o=0
,
t
t
'
'
,t
T+r
M
1,
2,
M =f
l
o
o
r
(
(
T+ゆ)
と定義すると、
x
の中で次の式を満たす晶大の xx三 li
I
t=x
の中で次の式を満たす最小の xX > li
l
i
‑=
=
北
)
一
川t
)
/
'
h
;
(
t
;
)
![Sj (1tl- S j (Ç 北 -ç]+ ぃ一 l~川一 1
(
9
)
比例ハザード性を伴うと、
(
1
0
)
h2(
t
)ニ h1(
t
)
R
と表すことができる。
同様に脱落関数についても(ん;X
L
J
;S
L
J
;mLj) を用いて求めることができる。
ここで、群 j の i番目の時点における期待リスク集合 Nji) を以下によって求める。
期待リスク集合はイベント、脱落、区間打ち切りによって変化するロ
N
j
(
O
)= NWj
附 帆川
l
(
1
1
)
1
イ
i
十
十
十
l
ト
い
ト
山
川
ト
い
司
一
い
寸
引
h
叫
吋
j
パ
斤
仏川
(I円iイぺ{~日トト)トいド一叩叫川
v町J
j
j
こ
こ
で
で
、
、 i番目の時点におけるハザード比と期待リスク集合比を以下のようにおく。
θ
ht
() J.
N(
i
)
2i
2
百
万 ,1
;=可1
;
7
i=
(
1
3
)
1
このとき、 1 番目の時点における期待イベント数を以下のように計算する。
ひ
h
t(
1
;)
Nt(
i
)
+z
l
1
;)
N2(
i
)
2(
b
(
1
4
)
L
a
k
a
l
o
sB式は以上の条件のもとで検定統計量 E を用いて必要症例数を算出する方
法である。 l) を変更することにより、ログランク検定、ゲーハン検定、タローン・ウエ
ア検定に基づ、いた症例数設定となるロログランク検定の場合は J'i=1であるロ
ι
ぺ
工 tD,
r
,I
̲
.
i
J
. 一的 │
E=
偽(
)
i 1
+偽
」一
一 一
咋lDr2‑1‑7
;
=
0
ぃ
(
1
5
)
(
1
+吟)
2
検定統計量 Eは近似的に N(E.1)に従うロまた、 E は以下の式に書き換えることができ
‑166一
る 。 ( 1 6 )式は ( 1 5 )式の検定統計量 E を必要症例数 N に関係する部分とそうでない部分 に分離した形式で書き直されている。 D/ , 1ずはそれぞ、れ ( 1 1 )式を N で除して得られる ( 1 7 )式 、 ( 1 8 )式を用いて求めることができる。 Ai ご1n ' ̲ . 1桝 o i I E = N j E $ = N i l ごbA J t 1 τ函 可1 I M‑I A す ( 1 +約 ? D rL 一____!:_!~ 品 N ; ( 和 0 ) =wj ( 1 6 ) ( 1 7 ) 仲 川 叩 り i 恥 い ( 川 i い 恥 刈 + 川 + 川 刊 叫 け l ) =川 州 叶 ( i 叫 i l 引 片 hパ ( イ十十十い{十十トいト川叫吋叶一寸引 j このとき、検出力は次式によつて求めることができ、この検出力を評価することにより 必要症例数を求めることができる。 ム YE ( )QU 2 α/' 1Illi‑‑/ ノ ︑ z ' E N l一 2 ノ fill‑‑‑¥ + αJ φ ︑1Illit‑‑j Z ︑ /2 4R E l一 2 N φ /'ill11111141 一 ‑r ・ ρ i M W ν n o 3 . 3n Q u e r yと P O W E Rプロシジャの違い 3 .2節 、 3 .3節で示したとおり、 n Q u e r yの L a k a l o sA式では S c h o c n f e l d式のイベン ト発現割合の部分を工夫することによって必要症例数を算出している。これに対し、 P O W E Rプロシジャの L a k a l o sB式では生存関数またはハザード関数を指定し、そこから 区間ごとに期待されるイベント数を算出し、ノンパラメトリック的に検出力を評価する ことによって必要症例数を算出している。すなわち、症例数設定の構成方法が異なるた め両者で若干の違いが生じている。 4 .n Q u e r yと P O W E Rプ ロ シ ジ ャ に お け る 症 例 数 設 定 の 数 値 計 算 例 ここでは、登録期間 2年、追跡期間 5年、脱落関数に指数分布を考え、指数パラメー .0 5、生存関数に指数分布を考え、指数パラメータを O .0 4,O .0 8とする。 タを O このとき、 n Q u c r yでは図 3のように入力し、 1 m ,の必要症例数を得ることができる。 ‑167ー
・
・
・
・
・
・
・
・
・
・
・
・
・
・
・
・
・
・
・
園
田
・
・
a
畠邑単函語通畠届函温圃邑畠副温回
車E.
d
e 臼 同 盟 側 Q pt
i
o
n
s 企 印 刷t
s E
恒国o
m即 日 叫 也i
n
d
o'fl世e
l
p
E昆坦j
豆J~ ;
tI~ 且i 旦j 邑|鍾|利回!鍾 l~
Twロgroupt
e
s
to
feque
l
.exponenti.
e1survive
.
1(
nl
e
.r
g
e
)
.
.e
x
p
o
n
e
n
t
i
a
ldropOl
‑
,
‑‑
‑
‑
.
‑
T
e
5
ts
i
g
n
i
f
i
c
a
n
c
el
e
v
e
,l α
T
0
.
0
5
0
1o
r2s
i
d
e
d1
.
5
1
?
L
e
n
g
l
h0
1a
c
c
r
u
a
lp
e
r
i
o
d
Maximuml
e
n
g
t
h0
1l
o
l
l
o
w
u
p
Commone
x
p
o
n
e
n
t
i
a
ld
r
o
p
o
u
tr
a
t
e
,d
Group1e
x
p
o
n
e
n
t
i
a
lp
a
r
a
m
e
t
e
r
.
.
λ
Group2e
x
p
o
n
e
n
t
i
a
lparameter,
λ2
Hazardr
a
t
i
o
,h~λI fλ2
Power(%)
npergroup
T
o
t
a
lnu円】 b
e
ro
fevent5r
e
q
u
i
r
e
d
,E
2
-~,
,
3
2
.
0
0
7
.
0
0
0.0500
0
.
0
4
0
0
0
.
0
8
0
0
0
.
5
0
0
。
目
138
65
図 3n
Q
u
e
r
yの入力と出力
O¥
VE
Rプロシジャでは、次のプログラムを実行することにより 1j~f の必盟山例
また、 P
数が伴られる。
proc power;
twosamplesurvival test = logra口k
groupsurvexphazards=(0.08 0.04)
grouplossexphazards=0.05: 0.05
accrualtime = 2
followuptime = 5
npergroup=.
,
Power=0.8;Ru口
The PQWER procedure
Log‑Rank Test for Two Survival Curves
Fixed Scenario Elements
Method
Lakatos normal approximation
Form of Survival Curve 1
Exponential
Form of Survival Curve 2
Exponential
Accrual Time
2
Follow‑up Time
Group 1Survival ExponentialHazard
o.
08
Group2Survival Exponentユa1Hazard
o.04
Group 1 Loss Exponential Hazard
0.05
Group 2 Loss Exponential Hazard
0.05
Nominal power
0.8
Number of sides
2
Number of Time Sub.lntervals
12
Alpha
0.05
Computed N per Group
Actual
N per
power
GrOUD
0.801
11311
l
三1
4:P
O
W
E
Rプロシジャのフ。ログラムと l
l
LJ
J
I
"
Jじ条件で山例数設定を行っているが、 n
QI
lC
r
yでは
1
3
8例
、 P
O
W
E
Rプロシジャでは 1
3
1例と w
なる結果が件られる。数値,1
一算例の条 {
'
Iーを変
I~I 3
、依1
4から分かるとおり、
更して表 l
、表 2
、表 3
、表 4にまとめた。かHl
i
lとして A
:
n
Q
u
c
r
yの必 '
l
i~IÎ~ 例数、 B: P
O¥
VE
l
i
(
A
‑s
)/
Bを川いた。また、 P
O
¥
¥
E
Rプロシジャのオプショ
ンで l
c
s
l
=
l
o
g
r
a
n
kを用いた。さらに、 A
:
n
Q
u
c
r
yの必民自主例数、 B
:
P
O
W
E
Rプロシジャの
フロシジャの必 i
J
2症例数とし、
必要杭例数を mいた場合に、登録則問は ‑
.
t
l分イI
1を仮定し、症例ごとにイ:
1
何時間と脱/存
‑168‑
時間を独立に指数分布に従う乱数を先生させ、短かった方の時間をその出例の生存時間 Jを比較するシミュレーションを行った。ただし、 とし、ログランク検定を行い、検山 J シミュレーション回数は 1 0 0 0 0回である。 ニO脱落 L = O 表 l 登録期間 T 表 2 登録則問 T = O脱落 L = 0 . 0 5 B:POWERフロシ B:POWERプロシ (A‑B)/B ジャ (A‑B)/B ンヤ A :nOuery A :nOue門/ ( % ) ( 九 ) HR 症例数 検出力 症例数 検出力 HR 症例数 検出力 症例数 検出力 0 . 5 0 . 7 0 . 9 1 4 0 4 4 0 4 4 8 4 8 2 . 7 81 . 1 8 0 . 1 1 3 5 4 3 5 4 4 6 8 8 0 . 6 8 0 . 2 8 0 . 3 3 . 7 0 0 . 5 1 . 1 5 0 . 7 . 9 0 . 3 6 0 1 5 7 4 9 4 5 0 2 8 8 2 . 2 8 0 . 5 8 0 . 1 1 5 1 4 8 7 5 0 0 5 8 0 . 8 8 0 . 1 7 9 . 2 3 . 9 7 1 . 44 0 . 46 表 3登録期間 T = 2脱落 L = O 表 4 登録出j 問T = 2脱法 L = O .0 5 B:POWERフロシ B:POWERフロシ (A‑B)/B (A‑B)/B ジャ ンヤ A :nOuery A :nOuery ( % ) ( 九 ) HR 症例数 検出力 症例数 検出力 HR 症例数 横出力 │涯例数 検出力 0 . 2 . 5 3 . 0 9 . 9 5 . 3 4 1 2 0 8 2. 4 5 . 2 6 0 1 3 8 8 1 3 1 7 0 . 5 1 1 4 8 9 . 3 . 7 4 3 5 8 1 . 0 4 2 5 7 9 . 5 2 . 3 5 3 7 9 8 0 . 5 3 7 0 7 2 . 43 0 0 . 7 9. 4 1 . 41 0 . 9 4 4 4 1 8 0. 4 4 3 8 2 8 0 . 2 1 .3 5 8 7 7 8 0 . 0 3 8 2 3 7 0 . 9 3 登録期間と脱落を考慮しない場合、表 lから分かるようにハザード比が lに近づくと ( A ‑ B )/ Bは小さくなっていく。また、この傾向は登録期間や脱落を考慮した場合も表 2 、 、表 4から同じであることが分かる。つまり、ハザード比が lから i 椛れると n Q u a r y 表3 とP O¥ VE Rプロシジャによる結果の差は大きくなる。また、検出力について、 P O W E Rプロ 0 %となるが、ハザード比が lから離れると n Q u c r yは日程度高い結果と シジャはほぼ 8 なった。 5 .考 察 4章の数値計算例より、 L a k a l o sA式によって得られた症例数を川いて試験を行い、 解析としてログランク検定を行うと実際に必要な症例数と見なった症例数で解析を行 a k a l o sA式をft]いた場合の方が少し多い出例数となる。 うことになってしまう。常に L また、 L a k a l o sA式を用いた場合はハザード比が iから離れると名義の検出力より日 程度大きくなってしまう。症例数は保守的に多く設定する場合があるが、その場合は名 義の検出力の値を変更すべきで、症例数設計は名義の検出力に対して!と権に求められる 方が良い。 さらに、比例ハザード性が成り立たない状況で比例ハザード性を似定し、症例数設定 2 0 0 5浜問)、区間ごとにハザ を行うと必要症例数が大きく異なることも知られており ( ードを変えることのできる P O¥ VE Rフロシジャは便利である。 6 .まとめ 生存時間解析における症例数設定を行うツールとして n Q u c r yと P O W E Rプロシジャに 1 6 9
ついて示した。両者は同じ条件を仮定しでも結果が一致しない。一致しない原因として 症例数設定の構成方法が異なるためであることを示した。名義の検出力に一致する症例 数設定を行うべきであり、生存時間解析における症例数設計は P O W E Rプロシジャを用い るべきである。 参考文献 l υ )浜田知久馬'藤井陽介 ( 2 0 0 3 ),"生存時問解析の症例数設計 2 叩0 0 閃3論文集, 7 3 ‑ 9 8 2 )浜田知久馬,安藤英一 ( 2 0 0 5 ),"P O W E Rプロシジャによる症例数設計" S A SF o r u mユ ーザー会学術総会 2 0 0 5論文集, 1 2 7 ‑ 1 5 1 .( 19 8 1 ), " T h ea s y m p l o l i cp r o p e r l i e so fn o n p a r a m c l r i cl e s l sf o r 3 )S c h o e n f e l d, D i o m e t r i k a,6 8 : 3 1 6 ‑ 3 1 9 c o m p a r i n gs u r v i v a ld i s t r i b u l i o n ",B 4 )F r e c d m a n,L .S .( 19 8 2 ), T a b l e so ft h en u m b e ro fp a l i c n l sr e Q u i r e di nc li n i c a l 5 l La k a t o s,E . ( 1 9 8 8 ), S a m p l es i z eb a s e do nl h el o g ‑ r a n ks t a t i s l i ci nc o m p l c x 1s i n gl h el o g ‑ r a n kt e s t ", S t a t i s t i c si nM e d i c i n e, 1 : 1 2 1 ‑ 1 2 9 l r i a l sL i o m e t r i c s, 4 4 : 2 2 9 ‑ 2 4 1 c l i n i c a ll r i a l s ", B 6 ) L a k a l o s,E . ,L a n,K . K . G . ( 19 9 2 )," Ac o m p a r i s o no fs a m p l es i z em c l h o d sf o rl h c l a t i s t i c si nM e d i c i n e, 1 1 : 1 7 9 ‑ 1 9 1 l o g ‑ r a n ks l a t i s t i c ", S 7 )httP:/ifこp.sas.comjtechs出 p/clow日 load/s!:己 t/power.pclf 2 0 0 6 / 0 5 / 1 6 8 )Sl al i sl i じa lS o l u t i o n sL l d . ( 2 0 0 5 ), n Q u e r yA d v i s o rV e r s i o l l6 . 0U s e r d ' sG u i d c ‑170
S A S Forumユ ー ザ ー 会 n e s t e d ケース コントロールデザインにおける擬似尤度によるパラメータ推定 E 0口羽文 1.3 .吉村健一1.2.3 東京大学大学院医学系研究科疫学・予防保健学 1 国立がんセンターがん予防・検診研究センター情報研究部 2 日本臨床腫蕩研究グループ (JCOG)データセンター3 Parametere s t i m a t i o nbasedonp s e u d o l i k eI ihoodi nn e s t e dc a s e ‑ c o n t r o Is t u d i e s AyaK u c h i b a/K e n i c h iYoshimura D e p a r t m e n to fE p i d e m i o l o g ya n dP r e v e n t i v eH e a l t hS c i e n c e s .G r a d u a t eS c h o o lo fM e d i c i n e .U n i v e r s i t yo fT o k y oI S t a t i s t i c sa n dC a n c e rC o n t r o lD i v i s i o n .R e s e a r c hC e n t e rf o rC a n c e rP r e v e n t i o na n dS c r e e n i n g .N a t i o n a lC a n c e rC e n t e r2 S t a t i s t i c sS e c t i o n .J a p a nC l i n i c a lO n c o l o g yG r o u p(JCOG)D a t aC e n t e r3 要旨 ncstcd ケース・コントロールデザインにおけるハザード、比の推定は,条件付き尤度に基づく Thomas 推定量を用いることが一般的であり, PHREG フ。ロシジャによって推定可能である。これに対して, Samu巴l s巴nは,擬似尤度に基づいた推定を行うことを提案し,さらに Thomas推定量より効率が良いこ とを示している。しかし,現在のところ SAS/STATで は おmu巴lsen推定量は提供されていない。そこで, 本報告では, nestcd ケース・コントロールデ、ザインに対して擬似尤度に基づ、くハザード比推定量を得 るためのマクロを新たに作成した。また, Thomas 推定量との cfficiencyをしてつかのシナリオの下で 比較した結果, Samu巴lsen推定量の方が効率に優れていることが確認された。 キーワード:疫学研究, nestedケース・コントローノレデザイン,擬似尤度, PHREGフ。ロシジャ 1.はじめに 観察研究のデザインには大別してコホート研究デザイン (cohort study dcsign)とケース・コントロー ル研究デザイン (case‑controlstudyd巴sign)の 2つが存在する。前者のコホート研究デザインはあるコ ホート内の全対象者に対して追跡を行うことによって興味のある曝露と疾患との因果関係をより強く 捉えられることを長所とする一方で,時間,コストを相対的に多く必要とすることを短所とする。これに 対して後者のケース・コントロール研究テ、ザインは時間やコストが抑えられることを長所とする一方で, コントロールの選択バイアス ( s 巴l 巴c t i oI 1b i a s )に代表される種々のバイアスの影響を受けやすいことを 短所とする。近年ではこの両者の長所を併せ持ったデザインとして,コホート内ケース・コントロール デザインと呼ばれるデザインが提案されるに至り,通常の疫学コホート研究のみに限らず,薬剤疫学 研究や遺伝疫学研究など多くの分野においてその有用性が次第に認識されている。 コホート内ケース・コントローノレデ、ザインは研究対象者のサンプリング に基づ、いてコホートに対する 一1 7 1
統計的推測を行うものであり,ケース・コントロール研究デ、ザインと同様にサンブリンク守された研究対 象者の曝露情報のみを測定することによってコホート研究デザインに比べてコストを削減すると共に コスト対効率比の観点より優れた研究を実施することが可能となる 110 例えば,遺伝疫学の分野では, ケース・コントロールデ、ザ、インを用いて曝露である遺伝子多型と疾患との関連を探索することが一般 的であった。しかし,先に述べたような古典的なケース・コントロールデザインにより生じる問題点を回 避するため,近年では多くの大規模なコホート研究においても研究開始時点で血液などの生物学的 サンプル( b i o l o g i c a ls a m p l e s )が収集されるようになってし喝 140また一方で,ゲノム全体を網羅した 1 0 ‑50万個の SNPの同時測定が可能となったことなど遺伝子型タイヒ。ンク、、技術の発展により,ゲノム上 の広範囲を対象とした研究への興味が高まっている現状においてはコストの観点から実現可能性が 高くより効率のよいデザインが必要とされている。現在のところ 1人あたり 50万個の SNPを同時測定 するために要する費用は約 1 5万円である。つまり,例えば 1 0, 000人からなる疫学コホートを対象に ゲノムワイドな研究をコホート研究デ、ザインによって実施する場合,曝露情報の測定のみで 1 0億円 前後という莫大な費用がかかってしまうことになる。これに対し,コホート内の 5%のサブサンプルとす るコホート内ケース・コントロールデ、ザインによって検討すれば,測定費用も単純に 5%(5, 000万円程 度)(こ抑えられることになる。さらにサンプルの収集,測定に要する人的コスト及び時間の削減も考慮、 すると,このような分野においてコホート内ケース・コントロールデ、ザインの利用によるコスト対効率比 の向上は非常に大きな利点となる。 コホート内ケース・コントロールデ、ザインとして既に様々なものが提案されているが,その中で最も 広く用いられる典型的なものとして P r e n t i c eによって提案されたケース・コホートデザイン ( c a s 巴 ーc o h o r t e s t e dケース・コントロールデザイン ( n e s t e dc a s巴‑ c o n t r o l d e s i g n )5と Thomas によって提案された n d e s i g n )6が挙げられる。前者のケース・コホートデ、ザインにおいては,コホート内の全ケースと研究ベ ース ( s t u d yb a s e :通常は研究開始時点におけるリスク集団)よりランダムにサンプリングされたサブコ ホートのみを研究対象者とし,ケースとサブコホートのそれぞれのサンプリング確率を用いて調整し た擬似尤度 ( p s eu d o ‑ l i k e l i h o o d )に基づ、くことによりハザード、比の不偏推定量を得ることが提案されて いる。後者の n e s t e dケース・コントロールデザインは,コホート内のケース発生時点で、のリスク集団か らコントロールのサンプリング、を行い,発生したケースとこれに対応してサンプリングfされたコントロー /レのみを研究対象者とするものである。このデザインに対しては,イベント発生時点で、のマッチング、 ( t i m e ‑ m a t c h e d )と考えて導出した条件付き尤度 ( c o n d i t i o n a ll i k e l i h o o d )に基づいてハザード比の推 定を行うこと (Thomas推定量)が一般的となっており, n e s t e dケース・コントロールデザインに対応す るものとしてこの推定量が多くの疫学のテキストで提示されている。しかしながら,条件付き尤度は各 ケースに対して マッチンクマされたコントロール以外のコントロール"の情報は全く用いないことによる 情報損失が存在し,特に 1: 1マッチングの場合には曝露が一致するベア ( c o n c o r d a n tp a i r )の条件付 き尤度への寄与は 0であるため,状況によって効率が大きく劣る可能性がある。 I ウ 1よ つ ‑
これに対して両者の共変量欠損リメカニズ、ムに関する枠組みにおける共通性から, Samuelsen7 は n e s t e dケース・コントロールデザインにおいてもケース・コホートデザインと同様にサンプリングされた それぞれの研究対象者に対するサンプリング確率を定式化することによって,擬似尤度に基づいて ハザード比の不偏推定量を得ることを提案した。条件付き尤度とは異なり,疑似尤度に基づいた場 r e ‑ u s e )するためにより効 合,他のケースに対応してサンプリングされたコントローノレの情報も再利用 ( 暴露情報を用いる研 率の良い推定量を得ることが可能である。 Samuelson推定量はある I時点でのl 究に適応可能であり,多くの疫学コホート研究や遺伝疫学研究で、推測の対象となるものは研究開始 時点の曝露情報(時間非依存性共変量)であるため,この効率に優れる推定量を適用することが可 能な研究は実際的には広範囲である。しかしながら,現在の SAS/STATにおいて Thomas推定量は STRATAステートメントを伴う PHREG プロシジャによりプ口、ンジャレベルで提供されている一方で、, Samuelsen推定量は既存のプロ、ンジャでは未だ、提供されておらず,故に Samuelsen推定量を簡便に 利用できる環境に一般の SASユーザーが置かれていない。 e s t e dケース・コントロールデ、ザ、インに対して そこで本報告では,比例ハザード性を仮定した下, n 擬似尤度に基づいてハザード比を推定する Samuelsen推定量を得るためのマクロ・プログラムを新た f f i c i e n c yを比較した に作成し,し、くつかのシナリオにおいて,現在よく用いられる Thomas 推定量と e 結果を提示することを目的とする。 2 . コホート研究デザインにおけるパラメータ推定 人から構成されるコホートを考える。対象者 ; ( ; = 1, 2,…)は時点 bjより追跡が開始され,時点 Cjま で 、 1 1 j < E j豆町であればイベントが観測され,cj<E j であれば 追跡されるとし,イベント発生時点を Eとする。 b ,Cj), Dj 打ち切りとされる。また,イベントか打ち切りのどちらか早く起きた方までの時点を Tj=min(E j はイベントを発生していれば 1 ,打ち切りであれば Oをとる指示変数であるとする。以下では,一般性 J 頃(T1<T T , , )に iが定義されるものとする。生存時間を対象とする解析におい を失わず ,Tjの昇! 2<ー< の てよく用いられる比例ハザードモデルは,対象者 iの時点 fにおけるハザードを共変量ベクトノレ X】 関数として, 〆 人(t)= A〆 t )e x p [ s 'Xi] と表すモデルで、ある。ここで,A t )はベースラインハザード, βはパラメータベクトノレで、ある。コホート 研究デザインでは,以下に示す部分尤度に基づいて βに対する推測を行うことができる 80 r iDi ( s )=日 │ │ ' J ull̲coho" I i o I IL片 e x p [ β' X) ここで ,R iは時点 Tjにおけるリスク集団を表すとする。 ‑173一 ) l ︐︐︑ I exp[s'Xi ] I
3 .n e s t e dケース圃コントロールデザイン 各イベント発生時点において,リスク集団に属する全コントロールの情報が用いられる通常のコホ ート研究に対して, n e s t c dケース・コントロール研究で、は,イベント発生時点 Tjにおけるリスク集団 κ l )に対するコントロールとして から非復元あるいは復元サンプリングされた対象者がそのケース (Dj= 用いられる。このサンプリングは通常ランダムに行われる。疫学分野では d 巴n s i t yサンプリングと広く呼 ばれるが,リスク集団からのサンプリング、 ( r i s ks e ts a m p l i n g )と呼ぶ方がより適切である 9 Rjに含まれ 0 る人数を Y υ また ,Rjから時点 Tjでイベント発生した対象者 iを除いた集団を ROiとすると,イベントを 発生した対象者 iに対してんi から m(く Y j)人がコントロールとしてサンプリングされるとしづデザイン である。また一般的には,各時点に対するコントロールのサンプリングは独立に復元型で、行われる。 図 1に 1 0人 u1,・・・, 10)より構成される仮想的なコホートの例を示す。 ニ i( 対象者 I D ) nHV っιqjud斗 民 J v a U 7 ' a υ Q U 4 l 同/対象者同に対するリスヴ集団(同) 1 1 R/ 0 3よりサンプリングされた matchedコントロ ル (m=l) / !:l/ i1 ~v. 1.1 1 1 l~J 追跡開始時点 b 時間 T , T 追跡終了時点 c 食イベント 。 打ち切り 図1.仮想的なコホート 図1.の横軸は,各対象者に対する追跡開始時点からの時聞を表すものとし,また,簡単のため打ち 切りは追跡終了による打ち切りのみであるとする。イベントを発生した i = 3に注目すると ,T3までにイ ベント発生も観察の打ち切りも起こっていない点線で囲んだ i = 3人 ・ ・ ・ ,1 0の 8人 (Y 8) がこのイベ 3= = 4, 5, ・ ・ ・ ,1 0より構成される集団 ,R03, ント発生時点 T3におけるリスク集団 ,R3' となり,コントロールは i よりランダムにサンプリングPされる。ここでは m=lであるとしケース i = 3に対し, i = 8がコントロールとし てサンプリングされたとする。イベントを起こした対象者 i = 1, 2, 4でも同様のサンプリングを行うことによ りn e s t e dケース・コントローノレサンプルを得ることがで、きる O 3‑1.条件付き尤度に基づく Thomas推定量 ケース i に対してサンプリングされたコントロールの集合を ~i' これにケース i を加えた全コホート 1 7 4一
に対する部分集合を R
;
C
=~;U i
),i
=
1ム…とする。つまり,図1.の例では, i
=
3 に対して
も
3 ={
i=8
,
} ~ ={
i=3
,
8
}である。また, ~;は互いに独立であるとする。 Thomas( 1
9
7
7
)は,R
;のう
I
ちの l 人はケースであることを与えた下での条件付き尤度によりパラメータ推定を行うことを提案し
た
。
「
,
寸D
tT│exp[β'Xj]
I
L ditiollal(β ) = H l F │
]
V12JMmp[βχ j
一
…
I
叩
コホートデ、ザインにおける(1)の尤度に対し分母を Rとしたものとなる。 n
c
s
t
e
d ケース・コントロールデ、
ザインはケース発生時点における 1:m マッチングデ、ザインで、あると考えることが可能で,この条件付
き尤度は matchedケース・コントロールデ、ザインにおける条件付き尤度と一致する。つまり,通常の
matchedケース・コントロールデータの解析と同様に PHREGプロ、ンジャの STRATAステートメントを
用いることで推定することができる。
3
‑
2
. 疑似尤度に基づく Samuelsen推定量
試験開始時点でのランダ、ムサンプリングに基づ、きコントロールの曝露情報を得るケース・コホート
デザインにおいては,研究対象者それぞれのサンプリング確率により調整した擬似尤度に基づいて
/,ザード比を推定することが既に提案されている。 n
e
s
t
e
dケース・コントロールデ、ザインにおいても同
様の擬似尤度を構成することが S
a
m
u
e
l
s
e
nにより提案された。
n
e
s
t
e
dケース・コントロール研究を行うためには各イベント発生時点におけるリスク集団が既知で、あ
ることが必要とされるため,研究終了時には各対象者の情報 (
bj,T
,
j D以ま必ず既知であるとする。こ
e
s
t
e
dケース・コントロール研究のコントローノレとして選択される確率"を求める
の下では対象者 jが n
ことが可能で,例えば Rjに含まれる対象者 jが時点 Rにおいて コントローノレとしてサンプリングされ
)により求められる。つまり,図1.で i
‑mD/(Y
ない確率"は ,1
j一 1
=
8が時点むにおいてコントローノレと
1
(
8
‑
1
)
=
6
1
7となる。通常,各時点 Tjに対するサンプリングは独立で
して選択されない確率は, 1‑1X 1
jにおけるコントローノレとして選択されな
あるため, コントロールとして選択される確率 "p口jは各時点 T
くことにより求められる。
い確率を,
jが Rjに含まれる限り全てを掛け合わせた確率を 1からヲ l
=1 一日
PI
l
'
VJ
11-~竺-:-D, I
ぶ Xj¥
b
j
)
1
'
;‑1 '
この確率は, コントローノレとして選択されること"をイベント, 当該研究で興味のあるイベントが発生
するか観察が打ち切られること"を打ち切りとみなしたカプラン・マイヤー推定量で、あるため,その推
定量としての良さは自明である。さらに,コホート内のケースは強制的にサンプリングされるため,各
対象者が n
e
s
t
e
dケース・コントロールサンプルとして選択される確率めは,
175‑
I1 (D , =1 ) P j=1P =0 ) o j (D, となる。サンプリングされた研究対象者それぞ、れに対しサンプリング、確率の逆数で重みをつけること によって擬似的な対象集団が得られ,以下で示される擬似尤度を構成することができる。 ‑VA ﹁Ill1114114 一ANur VA 一双 ny一hr ‑ ‑ 一 DA X IF DLP 一 e ‑ ‑ 一 す ﹄ 一 ‑R. n 日 M ﹁Illi‑‑‑L Rur F ‑ u p (1)の尤度に対し,分母がサンプノレより得られる擬似的なリスク集団となっている。サンプリング確率を /Pjを指 推定することができれば, PH肥 G プロシジャにおける WEIGHTステートメントで重み円=1 定することによりこの擬似尤度に基づくパラメータ推定を行うことができる。 4 . シミュレーションによる比較 Thomas 推定量と Samuclscn 推定量の性能評価のため,推定されたハザード比,ハザード比の 95%信頼区間全幅,推定値 βの分散, 95%信頼区間の被覆確率を比較した。また,参考のため,通 常のコホートデザインによる全対象者を用いた結果も提示する。繰り返し数は, 1 0, 000固としたの 4 ‑ 1 . シナリオ設定 興味のある共変量 Xは l変数のみで 2値 ( 0o r1 )とし,また, Xと打ち切りとは独立であるとした。 コホートサイズ、: n=1, 000 X=1の害J I 合(曝露割合): 0 . 5 帰無仮説の下でのイベント発生割合の期待値: 10% : 1 matchedケース・コントローノレサンプノレの比(1:m)=1 ノ、ザード比 ( H R ) : 1,2,3 (=〆) 4 ‑ 2 . シミュレーションの結果 以下にシミュレーションの結果として得られた HR,95%CIの平均全幅, βの分散,被覆確率を示 した。 (HR: ハザード比, 95%CI: 95%信頼区間) 1 )HR=l(掃無仮説) HR(es ) HRの 95%CI全幅 βの分散 95%CIの被覆確率 コホートデザイン 1 .02 0 . 8 3 0 . 0 4 1 0 . 9 5 5 Thomas推定量 1 .04 1 .2 5 0 . 0 8 3 0 . 9 5 5 Samuels巴n推定量 1 .04 1 . 17 0 . 0 7 5 0 . 9 5 0 ‑176‑
2 )HR=2(対立仮説) HR(es) HRの 9 5 9 もC I全 幅 βの分散 95%CIの被覆確率 コホートデザイン 2 . 0 4 1 .4 5 0 . 0 3 1 0 . 9 5 4 Thomas推定量 10 2. 2 . 2 2 0 . 0 6 5 0 . 9 5 3 S a m u e 1 s e n推定量 2 . 0 8 1 .9 5 0 . 0 5 3 0 . 9 4 7 βの分散 95%CIの被覆確率 3 )HR=3(対立仮説) HR(eβ ) HRの 9 5 9 もC I全 幅 コホートデザイン 3 . 0 7 2 . 0 9 0 . 0 2 9 0 . 9 4 8 Thomas推定量 3 . 1 7 3 . 2 6 0 . 0 6 1 0 . 9 5 1 S a m u e l s e n推定量 12 3. 2 . 6 8 0 . 0 4 5 0 . 9 4 7 5 . まとめ n e s t e dケース・コントローノレデ、ザインにおけるハザード比の推定方法として,一般的に用いられてい る Thomas推定量よりも効率に優れていることが示されている S a m u c l s e nによる推定量を得るための マクロを作成し,その性能を確認した。どちらの推定方法で、もほぼノ〈イアスのない推定量が得られる ことが確認できる。今回検討した状況においては, S a m u e l s e n推定量の方が常に Thomas推定量よ り効率が良くなることが示され,また,真のハザード 比が大きくなるにつれて Thomas推定量に対する S a m u e l s e n推定量の漸近相対効率は向上することが示された。これは,イベント発生が増えるにつ れて,各対象者がコントローノレとしてサンプリング、される確率は高くなるのに対して,条件付き尤度に 基づく推定では常に 1ケース対 lコントローノレによる比較が行われるためで、あると考えられる。しかし, これらの性質は曝露割合や m a t c h c dコントローノレの人数 (m) により変化することが予想されるため 当日の発表ではさらにシナリオ設定を増やした結果についても提示することを予定している。 ー 177‑
6 .Samuelsenマクロ プログラム E /******************************************************************/ %Samuelsenmacroprogramf o rSASs y s t e m,r e l e a s e9 .1 .3 / * * / /******************************************************************/ %MACROSamuelsen( d a t a =̲ l a s t ̲, / *S p e c i f yt h ed a t as e tt obeu s e d .I fo m i t t e d, t h el a s t ‑ c r e a t e dd a t as e ti su s e d .* / time=, / *REQUlRED.Thef a i l u r e ‑ t i m ev a r i a b l e* / c e n s o r =, / *REQUlRED.Thec e n s o r i n gv a r i a b l e* / c̲v a l u e s =, / *L i s to fv a l u e st h a tc o汀 espondt or i g h tc e n s o r i n g* / match=, / *Thev a r i a b l ec o u n t i n gt h 巴n umbero fmatchedc o n t r o l sf o rt h ec a s e* / x=x / *Exposurev a r i a b l e* / o p t i o n sn o n o t e s ; odsl i s t i n gc l o s e;o d sn o r e s u l t s; d a t a̲ n u l l ̲; t ̲ s t a r t = d a t e t i m e O; n m c a l ls y m p u t ( ' t ̲ s t a r t ', t ̲ s t a r t ); *d a t ap r o c e s s i n gf o ra n a l y s i s; d a t as u r v̲time; s e t& d a t a .; . rne• thendo; i f&censo s e l e c t ; when(&censor.i n(&c̲v a l u e s . ) )do;c e n s o r = 2;&match.=O;e n d ; o t h e r w i s ec e n s o r = l ; n m end; end; p r o csummarydata=surv̲time(keep=&time.c e n s o rwhere=(&time.n e• & c e n s o rn e . ) ); o u t p u tout=N̲sample(keep=̲FREQ 一 ); ) ) ) 隠 ny U F ( t rvA P3' 創作 I ・ l VHK Pm su nn t 7 巴制 M ヨu 七時 I ‑ ‑ ・vd u mS hupLV a J u run; run: odso u t p u tA t t r i b u t e s = d 一name(where=(Labell="DataS e tName")keep=Labellc V a l u e l ); p r o cc o n t e n t sd a t a = & d a t a .; run; d a t a̲ n u l l ̲ ; s e td̲name(keep=cValuel); r i m( le f t ( c V a l u e l ) ) ); c a l lsymput("data̲name",t run; optwnsn o t e s; %PUT; %PUTNOTE: データセット &data̲name. 内の &N. オブザーベーションを対象に解析しました., optwnsn o n o t e s; ODSOUTPUTCrossTabFreqs=surv̲w e i g h t O ( k e e p = c e n s o r& t i m e .f r e q u e n c y 巴= ( c e n s o r ^ = .andfrequency^=Oand& t i m e . ^ = . )); wher p r o cf r e qd a t a = s u r v̲time(keep=&time.c e n s o r ); tn o c o lnorow; t a b l e s&time.* c e n s o r/ n o p e r c巴n 178‑
r u n ; procs q l; c r e a t eVleWv s u r vt i m ea s s e l e c t*froms u r vt i m e o r d e rbyl e n g,censor ,match; qUlt ; p r o cs q I; c r e a t eviewv̲surv̲weighta s s e l e c tA へB.Frequency u r v̲weightOa sB fromv̲surv̲timea sA,s whereA.leng=B.lengandA.censor=B.censor o r d e rbyA. Ieng, A.censor; q u l t; d a t as u r v̲weight; s e tv̲surv̲weight; byI e n gc e n s o rmatch; D=2‑censor; .0; r e t a i ncumO0cum0 . 0product̲p1 i ff i r st .censort h e ncumO=1; e I s ecumO=O・ cum=frequency*cumO+cum; fa tr i s k; rs=&N.‑cum+frequency;本#o i fr s ‑ f r e q u e n c yne0t h e nnonselectO=1‑(match本D / ( r sイrequency)); e l s ei fr s ‑ f r e q u e n c y = Ot h e nnonselectO=1; n o n s e l e c t = I a g ( n o n s e l e c t O ); i f̲n̲=1t h e nnonselect=1; product̲p=product̲p*nonselect; p=(D=0)*(1‑product̲p)+(D=1)*1; s e l e c t ; when(p^=O)w=l !p ; when(p=O)w=O; end; keepi d&time.censorw match; run; p r o cs q I; c r e a t eviews o r t ̲ s u r v̲weighta s s e l e c t&time., censor , w,match,i d froms u r v̲weight o r d e rbyi d; qUlt ; p r o cs q I; Imea s c r e a t eVlews o r ts u r vt s e l e c t本 froms u r v̲time where&x.八 ̲ o r d e rbyi d; q u l t; d a t asurv; merges o r t ̲ s u r v̲ t i m e ( i n = a ) s o r t ̲ s u r v̲weight; byi d; i fa ; r u n ; 179ー
*a n a l y s i s; sn o t e s; o p tlOn %PUTNOTE:PHREGプロシジャを用いて Samuelsen推定量を求めました., t i t l e 3"Samuelsenmacrowasu s e df o rt h i sa n a l y s i s "; s t i m a t o r‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ "; t i t l e 5"一一一一一一一一一 Samuelsene o d se x c l u d eCensoredSummary; o d sl i s t i n g ; o d sr e s u l t s; o d so u t p u tP a r a m e t e r E s t i m a t e s = r e s u l t ( k e e p =v a r i a b l ee s t i m a t es t d e r rProbChiSq H a z a r d R a t i oHRLowerCLHRUpperCL); p r o cp h r e gc o v sd a t a = s u r v (keep=& t i m e .c e n s o r&x.w); model& t i m e .* c e n s o r ( 2 ) = & x . /RLt i e s = e f r o n; w e i g h tw/norm; r u n ; /********************C I 巴a nupt 巴m poraryd a t as e t s******************/ % c l e a n : o p tlOn sn o n o t e s; p r o cd a t a s e t sn o l i s t ; d e l e t eSORT̲SURV̲TIMESORT̲SURV̲WEIGHTSURVSURV̲WEIGHT SURV̲WEIGHTOV̲SURV̲TIMEV̲SURV̲WEIGHTD̲NAME/memtype=all; q u l t ; t i t l e 3; /********************Countingt o t a lp r o c e s st i m e*******************/ d a t a̲ n u l l ̲; t ̲ e n d ニd a t e t i m e O ; r ̲ s e c = r o u n d ( t ̲ e n d ‑ & t ̲ s t a r t,0 . 0 0 1 ); c a l ls y m p u t ( ' r ̲ s e c ',t r i m ( l e f t ( r ̲ s e c ) ) ); r u n : o p t!On sn o t e s; %PUTNOTE:SAMUELSENMACROu s e d; %PUTNOTE: 総演算時間:& r ̲ s e c .秒 ; %PUT; %mend; %samuelsell(time=leng, c e n s o r = e v e n t, c̲ v a l u e s = O,match=match,x = x ); 引用文献 1L angholzB, ThomanDC .( 1 9 9 0 )N e s t e dc a s e ‑ c o n t r o landc a s e ‑ c o h o r tmethodsohs a m p l i n gfromac o h o rt :A c r i t i c a lc o m p a r i s o n .AmJEpidemio. l1 3 1 : 1 6 9 ‑ 7 6 . 2W acholderS .( 1 9 9 1 )Epidemiology2 : 1 5 5 ‑ 8 . 3L angholzB,RothmanN,Wachold 巴r S, ThomasDC .( 1 9 9 9 )C o h o r ts t u d i e sf o rc h a r a c t e r i z i n gm巴a s u r eg巴n e s MonogrN a t lCancerI n s t .2 6 :3942 4R undleAG , V i n e i sP, AhsanH .( 2 0 0 5 )D巴s i g no p t i o n sf o rmol 巴c u l a re p i d e m i o l o g yr e s e a r c hw i t h i nc o h o r t s t u d i e s .CancerE p i d e m i o lB i o m a r k e r sP r e v .1 4 : 1 8 9 9 ‑ 9 0 7 . 5P r e n t i c eRL .( 19 8 6 )Ac a s e ‑ c o n t r o ld e s i g nf o re p i d e m i o l o g i c a lc o h o r ts t u d i e sandd i s e a s ep r e v e n t i o nt r i a l s . B i o m e t r i k a7 3 : 1 ‑ 11 . 6T homasDC .( 1 9 7 7 ) .Addendumt o Methodso fc o h o r ta n a l y s i s :a p p r a i s a lbya p p l i c a t i o nt oa s b e s t o sm i n i n g " byL id d e l lF.D.K, McDonaldJ . C .andThomasD .C .JRS t a t i s tSocA 1 4 0 : 4 6 9 ‑ 91 . 7S amuelsenSO.( 1 9 9 7 ) .Ap s e u d o l i k e l i h o o da p p r o a c ht oa n a l y s i so fn e s t e dc a s e ‑ c o n t r o ls t u d i e s .B i o m e t r i k a . 8 4 : 3 7 9 ‑ 3 9 4 . 8C oxDR.( 19 7 2 )R e g r e s s i o nmodelsandl i f et a b l e s( w i t hd i s c u s s i o n ) .JRS t a t i s tSocB3 4 :1 8 7 ‑ 2 2 0 . 9R othmanKJ,G r e e n l a n dS .( 19 9 8 )Moderne p i d e m i o l o g y .2nde d i t i o n, L i p p i n c o t t‑Raven,P h i l a d e l p h i a,U . S . A . 司 ‑180一
S A S Forumユ ー ザ 一 会 生存時間データにおける予測力の指標 時間依存性 ROC曲 線 法 O徳田洋介・伊藤陽一 東京大学大学院医学系研究科疫学・生物統計学 P r e d i c t i v eA c c u r a c yo fS u r v i v a lD a t a. . . . . . . T i m e ‑ D e p e n d e n tROCC u r v e s. . . YosukeTokuda/Y o i c h iM .I t o Departmento fB i o s t a t i s t i c s/E p i d e m i o l o g yandPrev巴n t i v eH e a l t hSciences, Schoolo fH e a l t hS c i e n c e sandN u r s i n g,U n i v e r s i t yo fTokyo 要旨 医学の分野において、疾患発症予測の指標をたて、その指標による予測の正確さを予測力の 指標で評価することが一般的に行われる。 2値結果変数に対しては ROC曲線を用いることが多い ま時間とともに変化するため、検査を受けてから が、データが経時的に測定される場合、検査値 l 疾患発症までの時間差を考慮する必要があると思われる。また、打ち切りも考慮する必要がある。 このような状況に対応した方法が 2005年に Heag巴代yらにより提案されている。この方法は複数の リスク因子の影響も考慮、できるため、今後有用な方法となると考えられる。本論文では、この時間 依存性 ROC曲線法について紹介し、解析修IJを示す。 キ ー ワ ー ド : 時 間 依 存 性 ROC曲線、予測力 1 はじめに 医学の分野において、何らかの臨床検査値を用いて対象者の疾忠発症を予測することは よく行われる。例えば、がん患者に対して腫蕩組織内の遺伝子の表現型が予後を予測でき るかどうか検討されているが、その際には、疾患発症の予測に mし、た指標がその疾患発症 を正確に予測しているかどうかは検討する必要がある。 連続量から 2値の結果変数を予測する際、 ROC(ReceiverOperatingCharact巴r i s t i c ) l li J 線 が予測力の指標として標準的に用いられている。しかし、前向き研究において ROC1 1 1 1線を 1 1 1線はある一つの連続量と結 そのまま用いることはいくつかの間題点がある。まず、 ROC1 果変数との関係を調べる指標であるが、通常疾患発症に対するリスク悶子の影響を調べる ためには、複数の変数の影響を考慮する必要性がある。また、検査を行ってから疾患が発 症するまでには時間差があり、検査値はfI寺問とともに変化すると考えられるため、検査か ら発症までの時間を考慮する必要がある。さらに、前向き研究では打ち切りが発生するた 1 8 1一
め、打ち切りも考慮にいれる必要がある。生存 H 寺間データにおける予測 }Jの指標として、 一般化 R2やデピアンス残差などが提案されているが、これらは時間の情報を要約した指標 となっており、検査から疾患発症までの時間差を考慮にいれていない。 ROC山線におけるこれらの問題に対処した方法が、 2005年に Heagertyらによって提案 寺問依存性 ROCEllI線法は、打ち切りの存在 されている (HeagertyandZheng,2005)。この H する生存時間データにおいて回帰型モデルの予測の正確さを測る指標となっており、複数 の変数の影響を考慮、できると共に検査と発症までの時間を考慮できる指標となっている c この方法は提案されたばかりであり、既存の SASプ口、ンジャで解析することはできない。 山線法を紹介 そこで本論文では、 2章で Heagertyらによって提案された時間依存性 ROCI K a l b f l e i s c handP r e n t i c e,2002)に対して時間依存性 し 、 3 章で退役軍人の肺がんデータ ( ROC曲線法を適用し、 4章で適用上の注意点と本法の適用可能性について言及する。 2 時間依存性 ROC曲線法 結果変数が疾患発症ありなしの 2値変数のとき、あるマーカーを用いた予測の正確さは 感度と特異度によって評価することができる。感度は疾患発症ありの対象者のマーカーが 闇値を越え発症ありと予測される割合のことをしづ。 M;を対象者 iのマーカー値、 cを闇 (M;>cID;= 1 )と表わされる。 D;は疾患が発症したら l、発症 値としたときに、感度は P しなければ 0 を取る指示変数である。一方特異度は疾患発症なしの対象者のマーカーが閲 ( M ;三clD ;=0)と表さ 値以下で発症なしと予測される割合のことであり、感度と同保に P れる。感度と特異度はトレードオフの関係にあるため、最適な感度・特異度の値は ROC(ReceiverOperatingC h a r a c t e r i s t i c )山線を拙くことで求められる。 ROC曲線は、問 l ! t こ( 1・ 特 値 cを(ー∞,+∞)の問で変化させて感度と特異度のすべての組み合わせを求め、横車J ! I ! U Iに感度を取った図にプロットすることで引i lくことができる。 ROCI llJ線は予iJl J l の 異度)、縦; 性能を視覚的に検討したり、適切な感度と特異度の組み合わせを決定したり、異なったマ 1 1 1線 下 の 面 積 を ーカーによる予測を比較したりする際に用いることができる。 ROC 1 AUC(Ar e aUnderthe Curve)といい マーカーと疾患発症との問の一致度 ( Concordance) を示すことが知られている (HanlayandMcNeil,1 9 8 2 ) 0 AUCは Oから 1の値を取り、値 が大きいほどマーカーによる疾患発症予測力が大きいことを表す。また、 AUCは疾患発症 ありなしの 2群聞を比較するためのマン・ホイットニーの U 統計量と本質的に同じもので ,1975)。 あることが知られている (Bamber Heagertyらは、 ROCr 1 1 1線を描き AUCを予測モデルのよさの指標とする方法を、生存 1 J t 間データに拡張し、イベント発症時点ごとに感度・特異度を求め、 ROCr l l l線を描くという 1J線法を提案している。 時間依存性 ROCu 時間依存性の感度・特異度を定義するためには、イベント発症時点 fにおけるケースとコ 1 8 2一
ントロールの定義を明確にする必要がある。 Heagertyらはケースとコントロールそれぞれ
寺点 Iにおいてイベントを発症したものの
について二種類ずつ提案している。ケースには、 H
みをケースとする定義(in
c
i
d
e
n
t
)と
、 H
寺点 Iにおいてすでにイベントを発症しているものす
l
at
i
v
e
)がある。コントロールには、時点 Iにおけるリスク集
べてをケースとする定義 (cumu
団のうち、時点 Iでイベントを発症していないものをコントロールとする定義 (
dynamic)と
、
ある適当な時点 fにおけるリスク集団のうち、!時点 fでイベントを発症していないものを
寺点におけるコントロールとする定義 (
s
t
a
t
i
c
)がある。本研究では、
すべてのイベント発症 H
n
c
i
d
e
n
tを、コントロールの定義として dynamicを用いる。
ケースの定義として i
mいる。 Z;は i番目の対象者
感度と特異度を求める I?í~ に必要なマーカーには M; =
Z;β を
に関する検査値などの共変量ベクトル、
Pは Cox回帰における回帰係数ベクトルで、ある。
M;を用いることで複数の検査値と 2値結果変数との一致度を J
i
t定することが可能となる。
M;を用いて感度と特異度を定式化するためには、時間 Tを与えたドでの共変量 M;の条
'Quigleyによって提案され
件付・き分布を特定する必要がある。この条件付き分布は Xuと O
'Quigley
,2
000)、時間 Tの与え方によって 2極類の条件付き分布が得られ
ており (XuandO
る
。 T
;を対象者 iのイベント発生時間を表す確率変数とすると、一つ目は 7
:
.
2
Iを与えた下
寺点 Iのリスク集団における M
での M の条件付き分布である。これは以下のように、ある H
の経験分布として表すことができる。
/
I
/
/
t
)
戸(
M
;三cI
I
;訂)=工 Y/
t
)
{
M
!主
}
(
1
)
/
二つ日は T
;二 Iを与えた下での M の条件付き分布である。 Xu らは Cox回帰モデルにおけ
;の
│
己l
帰係数 β と区別する
るスコア方程式を利用し、 M の条件付き分布を定義している。 Z
た め に M;の 回 帰 係 数 を yと 表 し 、 基 1
f
主ハザードをAu(t)とすると、ハザードは
λ(
t1
M;)ニ
ゐ (t)exp(M;r)と表される。比例ハザード性がj
J
X,り立っているとき、 r=lとな
る。スコア方程式は
エム[M;一(Lkk
(r
,
I)Mk
)]
0=
Jr
(
2
)
と表わされる (
Cox,1
9
7
2
)。 こ こ で 、 九 (r,
l
)二
九(
t
)exp(Mkr
)/W(
t
)
、
エ
W(t)=
/j(t)exp(Mj
r
)で、ある。添え字の i
,
j,
kは対象者を表す。企 tは対象者 iがイベ
、打ち切りになるなら O を取る指示変数、 Y
1
)は対象者 kが1
1
寺点 fに
ントを起こすなら 1
k(
おいてリスク集団に入っていれば 1
、入っていなければ 0を取る変数である。 Xuらは、式
(
1
)において九 (
r
,
l
)を kについて足し合わせると 1 になることから、これを共変量の条 {
!
Iニ
付き分布とみなした。 7;=Iを与えた下での共変量の条件付分布は以下のように得られるの
1
8
3一
戸( M: < S :c l宍=t)=Ljl(Mj三c )‑n)r,t ) ( 3 ) j ここで l(Mj三小土、 Mjがある C以下であれば 1 、ある C より大きければ 0をとる指示関 数である。 f r , t )において yを推定する必要がある。 Heagerty 以上の条件付き分布を則いる際、 7 k( らは yの推定方法に、比例ハザード性に基づく方法と比例ハザード性を緩める方法を提案し ている。比例ハザード性に基づく方法は、 Cox回帰を用いて M の回帰係数 yを推定し、感 寺問 度と特異度を定式化する。比例ハザード性を緩める方法は、以下のように推定される H r r (t)と通 t )を用いて感度と特異度を定式化する。式 ( 4 )に示すように、 依存性回帰係数を ( ; ( 時点 Iまでの対象者の共変量・ 常の Cox回帰を適用して得られる yとの差は、共変量履歴 F イベントを発症したかどうかを表す変数・ a t ‑ r i s kにあるかどうかを表す変数)を与えた下で ; rの期待 c a l e dSchoenfeldr e s i d u a l s の、時点 fでイベントを起こした対象者 jに関する s 9 9 4 )。 値で近似できることを Grambschらが示している (GrambschandTherneau,1 [ r ( t )‑r ]"E(r;IF[) ( 4 ) r (t) の推定値 y(t) は、償事Ih に時間 t 、縦 ~!Ih に y+P*(y) をとり、平滑化の手法を適用するこ とにより求めることができる。このように推定した y (t )を用いて爪 ( Y C t ) ,t )を求める。 1 ‑特異度)を定式化する。本研究におけるケースの定義は、 H 守点 I におい 以上より感度と ( てイベントを発症したものであるので、感度の推定における Mjの条件付き分布には、 Tt=Iを与えた下での共変量の条件付分布を用いる。感度は以下のように表せる。 戸(M >cIT=t)ニエ l(Mk >c )・7fk[ y , ] t j ( 5 ) 式( 5 )は yに比例ハザード性を仮定した式となっているが、比例ハザード性を緩める 1 1 寺は? (t )とすればよい。 をy 寺点 fにおけるリスク集団のうちまだイベントを発症していない コントロールの定義は、 H 1 ‑特異度)の推定における M jの条件付き分布には、 Tj >tを与えた下で ものであるので、 ( f lし、る。 ( 1・特異度)は以下のように表せる。 の共変量の条件付分布を J 戸(M >cI T >t )=玄l(Mk >c)・ 九 (t+)/WY(t+) j ここで、 j ( 6 ) WY(t+)=L k九(t+) であり、 H寺点 Iにおけるリスク集団から fにおいてイベント 一184‑
を発症した対象者を除外した集団を表す。式 ( 6 )は yに依存しないため、比例ハザード性を 1 ‑特異度)となる。 仮定する場合、緩める場合に共通した ( 式( 5 )式 ( 6 )において閲値 cを変化させることにより、闘値 cに対応した感度と ( 1 ‑特見度) r m T =tにおける ROC1 1 1 1 * l i lと の!直が推定できる。この値をもとに、あるイベント発症時 AUCを求めることができる。木研究では、台 } f ; y . 去を用いて AUCを推定する。以!二の計算 を全イベント発生時点について行うことによって、横 ilílU に1I~f[liJ 、縦市Illt こ AUC の f~I を llÏl.った AUCの時間変化が描ける。 7 ) 最後に、時間に関する情報を縮約した、一致度についての要約指標 C'を求める。式 ( は生存時間解析における一致度の指標である ci n d e x ( H a r r e l l,L e e,andMark,1 9 9 6 )を全観 察時間ではなく、時点 τまでに限定して推定したものに相当する。 C'は AUCをH寺点ごと '( t )で評価しているため、疾!J,I,、発症率の高い H 寺点における AUCを重視する要約指 の重み w 標となっている c r C τ = AUC( t) . w '( t) d ( 7 ) ここでザ作2 .I( t).S( t) /W'、W'= r2.I( t) .S( tル 1 ‑S2(τ)である。れ t )は 存関数であり、カプラン・マイヤー推定 i誌を m し、て推定する。 f (t) はハザード I~J 1.ð【で、あり、 同様にカプラン・マイヤ一昨定量を J ! Jし、て + 1 t定する。 Heagertyらは、フォローアップ W I I IJ ¥ [ 0, r )の問で、発症している対象者のうち任意の 2人を選択したときに、イベント発症の速い 対象者の方が遅い対象者に比べマーカーの値が大きい割合 C 'を、一致度の要約指標として いる。 以上の時間依存性 R O C I I I J線法の計算プログラムは SAS/STATv e r ・ 9 . 1(SASI n s t i t u t eI n c . e r 9 . 1 ( S A SI n s t i t u t eI n c .,2 0 0 4 b )を用いて独自に作成した。 2 0 0 4 a )及び、 SAS江MLv 3 時間依存性 ROC曲線法の適用例 退役軍人の J liIiがんデータを!日し、て 1寺問依存性 ROC1 1 1線法の適用例を示す。 K a l b f l e i s c hと P r e n t i c e によって提供されている退役軍人のJ1m がんデータ ( K a l b f l e i s c h 0 0 2 )を用いる。このデータは手術不能のがんを持つ男性 1 3 7人を刻象とし、 andP r e n t i c e,2 標準治療群と試験治療群を比較するランダム化試験であり、追跡開始時の共変量として、 a r n o [ s k ys c o r eが採られている。死亡数は 1 2 4例である。追跡、 W I問 年齢・がんの組織型.K を5 0 0日として時間依存性 ROC1 1 1線法を J I Jし、る。 1 8 5
以上の共変量を m いて Cox回帰を行った際のパラメー夕刊:定 f i1¥[と標準誤差、 p 値を以下 の表 1に示す。 表 1 退役軍人の肺がんデータにおける Cox回帰の結果 変数 治療 年齢パ 0 K a r n o f s k ys c o r e 扇平上皮癌 組織型 小細胞肺癌 腺癌 大細胞肺癌 推定値 ‑ 0 . 3 2 3 ー0 . 0 8 7 ー0 . 0 3 2 1 . 0 0 0 0 . 8 4 1 1 . 1 5 1 0 . 3 5 0 標準誤差 0 . 2 0 6 0 . 0 9 3 0 . 0 0 5 0 . 2 7 0 0 . 2 9 5 0 . 2 8 5 Pr>ChiSq 0 . 1 1 7 0 . 3 4 9 く. 0 0 1 . 0 0 1 . 0 0 1 0 . 2 1 8 く く 式( 5 )式 ( 6 )を用い、比例ハザード性を仮定した時の H 寺問依存性 ROCI l b線を推定し、 AUC の時間変化を推定する。 AUC のH 寺間変化図を、縦中1 1 1を AUC 、横車1 1 1を追跡日数とした同 1 に示す。同保に比例ノ¥ザード性を緩めた時の AUCII 寺問変化を推定し、図 2に示す。比例ノ¥ l o c a l l yw e i g h t e ds c a t t e rp l o t ザード性を緩める方法として、平滑化の一つである LOESS( s m o o t h )法を用いた。 LOESS法における s m o o t h i n gparameterは 1とした。 0日までは 0 . 7 2程の AUC値を保ち、その後約 3 0 0日までは多少減 図 1において、約 6 少した AUC値を保っている。本解析では AUCのばらつきを評価していないが、イベント の発生が初期に固まっており、後半ではリスクセットの人数が少なくなるため、 AUCの推 7 )を用し、て、て =365日としたときの要約指標 定が不安定になっていると思われる。式 ( cを r 求めると、 0 . 7 1 7となった。このことから、一年の間にイベントが起こるという条件の下で、 .7%であるこ イベントを起こすまでの時間が短い対象者ほどマーカー値が大きい割合は 71 とがわかる。 における AUC値は高い。その後は AUC値が減少し 図 2において、図 1と同様に初期j 00日付近からは AUC値がほぼ 0 . 5となっている。このことから、このマーカー ていき、 3 65 日としたときの要約指標 C τは 、 は時間がたつと予測力が恋くなることがわかる。 て 二3 0 . 7 5 5となった。この結果から、ベースラインデータのみから算出されるマーカーを用いて においての予 i J lJ力はよいが、日寺聞とともに予測プJがおち、有用性 予後予測を行うと、初期i が落ちることがわかる。 AUCのH 寺間変化図を解釈する際、リスクセットの人数が減少する後半部の解釈には注意 が必要である。特に比例ハザード性を緩める方法では平滑化を行う必要があり、 r ( t )の推 定の際にはずれ値の影響を受けやすい。図 3は LOESSを行った際の図である。最後のイベ ( t )の推定に与える影響は大きく、最後のイベント発生者を除いた場合の ント発生者が r AUCII 寺問変化図は図 4のようになる。図 2よりリスクセットの人数が多い前半部に関して は 、 AUCの推定は安定していると思われる。 ‑186
AUC 1 . 0 0 . 8 0 . 6 。 0. 4 1 0 0 200 300 400 500 日数 図 1AUC 1 1 寺1 m変化(比例ハザード性を仮定) AUC 1 . 0 0 . 8 0 . 6 。 0. 4 1 0 0 200 300 400 日数 図 2AUC 時 II lJ変化(比例ハザー I~'性を似定しなし、) 187ー 500
y+r・(
y
)
4
y+r・(タ)
.
‑
4
.
.
.
.
一‑
2
1
!
ー
も
hE- ・~.. .
i
y
y
三??. ‑
一
••
2
'"・
2
‑
3
1
・
・
3
.
'.
4
4
‑
5
5
1
0
0
200
300
400
500
1
0
0
200
300
400
b
: 最後の疾患発症者を除外したデータ
図 31
1
寺問依存性回帰パラメータ
AUC
1
.0
0
.
6
0.
4
0
500
回数
タ
ヲノ
J
f
u
a
一7
回数
100
200
300
400
500
日数
図 4 AUC時間変化(上ヒ {
0
Jハザード性を仮定しない、最後の疾患発痕者を除外したデータ)
‑188一
4 考察 I J 寺問依存性 ROCr l J線法は、生存時間データに対してマーカーの疾患発症予測力のI J 前 日j 変 化が推定できるという方法である。回帰モデ、ルを用いることで複数のリスク因子を考慮で きるため、より感度のよい予測モデ、ルが立てられると考えられる。また、本法の適用とし て疫学データへの適用が考えられる。脳卒中の発症を予測することを想定した場合、高血 圧という病態は脳卒中発症の直接的な原因となると考えることは生理学的に妥当であり、 観察初期のイベント発生を予測しうると考えられる。また糖尿病という病態は、血管内壁 を傷つけ動脈硬化の原因となるが、脳卒中発症の直接的な原因とは考えにくい。しかし、 動脈硬化が進行すると血管内において血栓や塞栓が起こりやすくなるため、糖尿病の慌病 において 期間が長くなれば脳卒中の発症リスクが上がると思われる。すなわち、観察初期i '1の発症リスクになるかもし 糖尿病を擢患しているということが、観察後期における脳卒1 れないということである。このような異なるイベント発生 H 寺期ごとの関心のある因子の予 測力を推定する方法としても、時間依存性 R O C r l l r線は適用可能であると思われる。 本法では打ち切り時間と生存時聞が独立であることを仮定しており、仮定が成り立って 寺問と生 いるか注意が必要である。今後、マーカーや共変量で条件付けた下では打ち切り H 寺聞は独立という仮定に緩めることも重要と思われる。また木法は、マーカーが経 H 守的 存H に変化することを考慮、していない。より正確な予測力を知るためにも、今後マーカーの経 H 寺変化を検討することは重要と考えられる。 3章でも示したが、後期i においてはリスク集 団が小さくなり、推定が不安定になっていると思われるため、後期における解釈には注意 ( りであ を要する。さらに、 LOESS法による平滑化で、 smoothingparameterの選択は恋意 1 るという問題もある。これらの不安定性や恋意性を考慮するためには、予測誤差を求める 必要があろう。 5 参考文献 Bamber ,D .( 1 9 7 5 ) .Thea r e aabovet h eo r d i n a ldominancegraphandt h ea r e abelowt h e r e c e i v e ro p e r a t i n gc h a r a c t e r i s t i cg r a p h .Journa1ofmathematica1psycho1ogy1 2, 3 8 7 . 4 1 5 . 1oft h e Cox,D .R .( 1 9 7 2 ) .Regressionmodelsandl i f e . t a b l e s( w i t hd i s c u s s i o n ) .JOUlηa 色 sB, Methodo1ogica134,1 8 7 ' 2 2 0 . Roya1S t a t i s t i c a 1S o c i e旬 SeT Grambsch,P .M.,andTherneau,T .M.( 1 9 9 4 ) .P r o p o r t i o n a lhazardst e s t sandd i a g n o s t i c s basedonweightedr e s i d u a l s .Bio11l etlプシ~a 81,515・5 2 6 . .D .,andP r e n t i c e,R .L .( 2 0 0 2 ) .Thes t a t i s t i c a 1a n a 1 y s i so f f a J J u r etimed a t a . K a l b f l e i s c h,J 2nde d .NewY o r k :JohnWiley&S o n s . ~189 ー
Hanlay ,J .A.,andMcNeil,B .J .( 1 9 8 2 ) .The meaninganduse o fanarea undert h e 匂t i c(ROC)c u r v e .R a d i o l o g X1 4 3 : 2 9 . 3 6 . r e c e i v e ro p e r a t i n gc h a r a c t e r H a r r e l l,F .E . , Lee,K .L .,andMark,D .B .( 1 9 9 6 ) .M u l t i v a r i a b l ep r o g n o s t i cmodels:I s s u e s v a l u a t i n gassumptionsandadequacy ,andmeasuringand i ndevelopingmodels,e t a t i s t i c si nM e d i c i n e15, 3 6 1 . 3 8 7 . reducinge r r o r s .S ,P .J .,andZheng, Y .( 2 0 0 5 ) .S u r v i v a lmodelp r e d i c t i v eaccuracyandROCc u r v e s . Heagerty Biomet n " cs61,9 2 ‑ 1 0 5 . Xu, R . , andO'Quigley , J .( 2 0 0 0 ) .P r o p o r t i o n a lhazardse s t i m a t eofthec o n d i t i o n a ls Ul"v i v a l f u n c t i o n ̲J ournalo ft h eRoXa1S t a t i s t i c a lS o c i σt y ;S e r i e sB,M e t h o d o l o g i c a l 62, , 6 6 7 ‑ 6 8 0 . SASI n s t i t u t eI n c .( 2 0 0 4 a ) .SAS/STA' I "9 . 1U ser主G u i d e .Cmγ,NC:SASI n s t i t u t eI n c . . 1U ser註G u i d e .Cary ,NC:SASI n s t i t u t eI n c . SASI n s t i t u t eI n c .( 2 0 0 4 b ) .SAS/IML'9 1 9 0ー
S A S Forumユ ー ザ 一 会 NLMIXEDプロシジャによる breakpoint指数分布 のあてはめ 0浅野淳一 浜田知久馬 東京理科大学院工学研究科経営工学専攻 A p p l i c a t i o no fb r e a k p o i n te x p o n e n t i a ld i s t r i b u t i o n w i t hNLMIXEDp r o c e d u r e J u n i c h iAsano ChikumaHamada F a c u [ t yo fE n g i n e e r i n g,TokyoU n i v e r s i t yo fS c i e n c e 要旨 早期がんや白血病では,治癒する患者や他の集団に比べて極端に長く生き残る個体(以下,長期生 存者とする)が存在する場合がある.生存時間分布には一般に指数分布やワイフツレ分布が仮定される が,長期生存者が存在するとその当てはまりは悪い.そこで本稿では当てはまりを改善するために, 指数分布を拡張した breakpoint指数分布を適用する. breakpoint指数分布のパラメータを非線形モ デルに対して最適化を行う NLMIXEDプロシジャにより推定する.そして長期生存者が認められる 牌臓がんの切除手術を受けた患者のデータに適用し,その結果について考察する キーワード: NLMIXEDプロシジャ 長期生存者 ( l o n g ‑ t e r ms u r v i v e r ) breakpoint指数分布 1 はじめに 早期がんや白血病, HIV患者では,治癒する患者や他の集団に比べて極端に長く生き残る患者(以 下,長期生存者とする)が存在する場合がある [ 3 J このような患者は死亡や再発といったイベントが 2 J 起きないことから,完治したか疾病に対して強い免疫を持っていることが示唆される [ 生存時間解析では対象としているデータの生存時間分布に指数分布やワイブル分布を仮定すること が多い.だが長期生存者がし、る場合,それらの既存の分布の当てはまりは悪く,その仮定の下で、行っ た解析結果の信頼度は低くなってしまう.そこでよりデータに対し,適合性のある分布を用いる必要 がある. 本稿では指数分布を拡張した breakpoint指数分布を適用する.この分布は既存の分布よりも柔軟 な分布形をとり,長期生存者が存在する場合の生存時間分布に良く適合する. breakpoint指数分布の パラメータは非線形モデルに対して最適化を行う NLMIXEDプロシジャにより推定する.そして長 ‑191一
期生存者が認められる梓臓がんの切除手術を受けた患者データに対して適用し,結果の考察と既存の 分布との当てはまりを比較する. 第 2章では長期生存者が認められる勝臓がんの切除手術を受けた患者データに対する既存の分布の当 てはまりの悪さについて示す.第 3章では b r e a k p o i n t指数分布を定式化する.第 4章では b r e a k p o i n t 指数分布のパラメータの推定方法と NLMIXEDプロシジャを用いた推定プログラムを示す.第 5章 では実際に牌臓がんデータに b r e a k p o i n t指数分布を適用し,その適用結果について考察する. 2 "草臓がんの切除手術を受けた患者のデータ 本稿では牌臓がんの切除手術を受けた患者のデータを用いる.イベントを死亡とし,手術の実施か ら死亡までの時間(週)を生存時間とした.対象となる患者は 3 7名,その中で 2名が脱落し. 1名が 5 . 7週,範聞は 6 . 1週から 234週で、あった.図 lに対象 時間打切りを受けていた.生存時間の平均は 3 データのカプラン・マイヤー曲線を示す.図 lより対象データでは術後早い時期に多くの死亡が起き ているが,ある時点から死亡が起き難くなっていた.このことから患者の中に長期生存者が存在して し、ることが示唆される. 図 2にカプラン・マイヤー曲線と対象データにワイフツレ分布を当てはめた場合を比較した結果を示 す.図 2よりワイブル分布の対象データに対する当てはまりは悪いといえる.特にある時点から急に 死亡が起こりにくくなる現象に対応できていない.仮定した分布の当てはまりが悪ければ,その下で の解析結果の信頼度は低くなることから,長期生存者が存在する場合のデータに適合する分布を新た に考える必要がある. ただ当てはまりを良くしようと柔軟な分布を考えると,パラメータの推定は困難になる.そこでで きるだけ単純な構造を持つ分布を考えなければならない. 時0 . 7 ト 様 0. 7 刻 … 制 0.4 侍 ; ; 侍 ; : 5 0 1 田 1 5 0 2 凹 γ一 一 一 一 一 一 一 一 一 一 一 寸 5 0 1 0 0 2 5 0 生存時間(週) 一一ーカプラン・マイヤー箇箇 図 1 : カプラン・マイヤー曲線 1 5 0 2 凹 生存時間(週) カプラン・マイヤー闇値 一ヮィ γル分布 図2 : カプラン・マイヤー曲線とワイフツレ分布 1 9 2ー
3 breakpoint指数分布 本稿では 2章で示した問題点から,指数分布を拡張した b r e a k p o i n t指数分布を紹介する b r e 乱k p o i n t指数分布は生存時間が任意の時点(以下, b r e乱k p o i n tとする)を境にハザードが異なる 指数分布に従う分布である.この分布は b r e a k p o i n tの時点 b p, b pより前のハザード入), b p以後のハ ザード入2 の 3つのパラメータを持ち,ハザードが変化する時点とその変化の程度を推定することが できる. b r e乱k p o i n t指数分布は , b pまで、はハザードがんの指数分布に従うが,旬以後は b pまで生存したと いう条件付でハザードが入 2の指数分布に従う.患者 zの生存 H 寺聞をたとするとき, b r e 乱k p o i n t指数分 布の確率密度関数 f ( t ), 生存関数 S ( t ), ハザード関数九 ( t )は ( 1 )式 ,( 2 )式のようになる. よ ) (1 入 入l︑ り ) t p P lEl 自ト ム 一一一一一一 入広入 ︑ ・九 ωh eη t i三 b p ))) t( t( t ( rJCυ ﹃ ︑ 〆'EEBEEJ 11111 ωh eη t i<b p │ f ( ト)ト exp( 入 b p )入 凶 川 … … … 入 川 川 μ … 円( い t b S( 収 ω の ) t = e x p ( 入).旬 b 刷 同 p ) .exp(一入 2• ( t一 旬 b 刷 同 p η )) ( 2 ) h ( t ) = 入2 入 ) =0 . 7, 入2 = 0 . 3, b p =5 0としたときの b r e a k p o i n t指数分布のハザード関数を図 3に示す. b r e a k p o i n t指数分布で、はハザードが b pの時点で、非連続的に変化する. :L 0 . 8 ' : t ‑0.5 く : │ ;;」ー一寸← 生存時間 :b r e a k p o i n t指数分布のハザード関数 図 3 ‑193ー
﹃ 1111111111111Il‑‑∞ 1 . 0 ;, 01 5 0 1 凹 1 5 0 ∞ 1 5 0 制i ‑J1J i j k ‑ H トO S 1 4 宇 0.. 生存時間 生存時間 :b r e a k p o i n t指数分布の生存曲線 図5 図4 :b r e a k p o i n t指数分布の生存曲線 pでの非連続な変化により. b r巴a k p o i n t指数分布は指数分布やワイブル分布に比べて ハザードの b 柔軟な分布形を表すことができる. b r巴a k p o i n t指数分布の生存曲線を図 4と図 5に示す.ここで図 4 は入 1=0 . 0 5, > ' 2 =O . O l, b p=5 0,図 5は入 1=0 . 0 1 入 ,2 =0 . 0 5, b p=5 0のときの生存曲線を示してい る.特に図 4では長期生存者が存在する場合のデータの特徴である,ある時点から死亡が起き難くな る現象を表現できている. 4 breakpoint指数分布のパラメータの推定 4 . 1 パラメータの推定法 b r a k p o i n t指数分布のパラメータを最尤法により推定する.生存時間解析では打切りを考慮した最 ( t ),生存関数を S ( t )とするとき,尤度関数を ( 3 )式のよ 尤法を用いた推定を行う.確率密度関数を f うになる. L= rf(t)Ci.S(t)l‑Ci ( 3 ) =1,打切りの場合にはc;=0とする. C i は打切り変数で?患者 t で死亡が起きた場合にはc; b r巴a k p o i n t指数分布の尤度関数を ( 4 )式に示す. r r ( p( サ L= 入;四 ( 4 ) 入l diはダミー変数で,患者 tが b pより前で死亡が起きた場合には di=1,旬以後に死亡が起きた場合 には di= 0とする. 4 . 2 推定の手順 b r e a k p o i n t指数分布の尤度の最大化には非線形最適化法を用いる. NLMIXEDプロシジャでは準 N巴wtonY:去がデフォルトで指定されている.非線形最適化法はパラメータの初期値を与えると,逐次 1 9 4一
近似によりパラメータを最尤推定値に収束させるアルゴリズムである. b r e a k p o i n t指数分布では非線 形最適化法によりパラメータは逐次的に更新するときに, bpの値によって非連続的に尤度関数が変 わるため,分布の全てのパラメータを同時に推定できないという問題が生じる そこで次のような手1 ) 演を踏むことで最尤推定値を求める. 寺のモテ守ルの尤度を推定する. l.ある bpの下で,他のパラメータの最尤推定値とその H 2 . bpの値を変更して手順 Iを繰り返す. 3 . 手順 2で最も尤度が大きくなるときの bpと,その条件の下での他のパラメータの 最尤推定値を全体のパラメータの最尤推定値とする 4 . 3 SASjNLMIXEDプログラム 刻ド*刻ド準測ド準測ド準測ド準測ド準測ド準測ド準測ド準測ド準測ド準測ド準測ド準測ド準測ド準測ド準測ド準測ド準測ド準測ド準測ド準測ド淳司ド淳司ド刻ド準測ド準測ド淳司ド準測ド準測ド刻ド 淳一 , ‑‑breakpoint指数分布のパラメータ値推定マクロ一一一一一一一円 事号│値 本 DDATA ;データセット名 * BPLOW ; breakpointの下限 * BPUP ; bre砧 pointの上限 **港港港港*港事港港本港港港港本港港港港港港港港事港事港事港事港事港港港港港港事港港港事港事事港港港事事港港港事事事; j* breakpoint指数分布のマクロ ザ . i macro BPMACRO(BPLOW,BPUP,DDATA); j* データセットの初期化 り proc datasets 1ibrary~York no1ist; de1ete resu1t2 j memtype~data; j* breakpoユntごとに探索 *j . i do bp=&BPLOW. i to &BPUP . i by 1 ; ods exc1ude a11; / 事 NLMIXEDプロシジャによるパラメータの推定 事/ proc n1mixed data=&DDATA ; parms 1ambda1=O.5 1ambda2=O.5; bounds 1ambda1>O, 1ambda2>O; if time 1t &bp then do; G̲t=exp(‑(l回 bdal*time)); g =lambdal*exp(ー ( 1四 bdal町 四 e)); end; if time ge &bp then do; G̲t=exp(ー(工四bdal吋 bp))*exp(‑(l日 bda2ホ (time‑&bp))); g =exp(ー(l四bdal吋 bp))札 四bda2均 xp(ー(工四bda2*(time‑&bp))); end; 1 9 5一
11 ~ (censor~l) ホ 1og(g) + (censor~O) ホ 1og(G_t); mode1 time ‑genera1(11); predict l‑G̲t out~cdf; ods output ParameterEstimates=estimater; ods output FitStatistics~aic; run:quit; ods se1ect all; /市出力結果の集計事/ proc transpose data~estimater out~Test prefix~lambda;run; data Test;set Test; if NAME ー = 'Estimate' then; ELSE DELETE; run; proc transpose data~estimater dataTerr(drop ~ i f NAME ~ out~Terr prefix~SE1ambda;run; NAME ̲LABEL̲);set Terr; 'StandardError' THEN; ELSE DELETE; run; data aic;set aic; if Descr ~'AIC (sma11er is better),THEN; ELSE DELETE; run; proc transpose data~aic out~Taic(drop~_NAMEー) prefix~AIC;run; data resu1tl(drop~_LABEL_); MERGE Test Terr; run: data resu1tl(drop~ー LABELー); MERGE resu1tl Taic; retain breakpoint &bp; run; data result2; set resu1t2 resu1tl ; run; . i end; 1 * 最も尤度が高くなるパラメータを探索し出カ proc sort data~resu1t2 ザ out~resu1t2; by AIC1;run; proc print data~resu1t2(obs~1);run; i . mend; ‑196‑
5 聴臓がん切除手術後のデータへの breakpoint指数分布の適用 5 . 1 breakpoint指 数 分 布 の 適 用 r e a k p o i n t指数分布を当てはめ,パラメータの推定を行った.各パラ 対象データの生存時間分布に b メータの点推定値とその 95% 信頼区間を次に示す. bp=41 入1 =0.038 ( 0 . 0 2 5, 0 . 1 1 3 ) ん =0.007 ( ‑ 0 . 0 0 1, 0 . 0 2 0 ) パラメータの推定値から 4 1週目を境に死亡のハザードは約 j 倍に減少することが示された 図 6に対象データのカプラン・マイヤー曲線と b r e a k p o i n t指数分布を仮定した生存曲線を示す.図 6 より対象データに b r e a k p o i n t指数分布がよく当てはまっているといえる.また K o l r n o g o r o v ‑ S m i r n o v 検定による適合度の検定を行ったところ,適合しているという帰無仮説の下で P値は 0. 42であり,対 象データに分布が当てはまっていることが示された. ノ、ザード入2 は負の値を含み,その推定精度は悪くなってしまった.これは bp以後のサンプルサイ ズが 6と小さいことが原因だと考えられる.よって今回のようにサンプルサイズが/トさい場合には, ノ、ザード入2の推定精度が極端に悪くなる可能性がある. 時0 . 7 株 ; ; 制 。 [ 50 1 0 0 1 5 0 2 0 0 2 5 0 生存時間(週) 一一ーカプラン・マィヤー薗鍾 一一‑ b r e a k o o i n t籍取分布 図 6 : カプラン・マイヤー曲線と b r e a k p o i n t指数分布 5.2 他 の 分 布 と の 比 較 b r e a k p o i n t指数分布がワイブル分布と比べて対象データへの当てはまりが改善したかを視覚的,定 r e a k p o i n t指数分布,ワイブノレ分布を当て 量的に評価する.カプラン・マイヤー曲線と対象データに b はめた場合を比較した結果を図 7に示す.図 7よりワイブル分布に比べ b r e a k p o i n t指数分布の当て はまりが良いことが分かる.また AIC (赤池情報量基準)による定量的な評価を行った結果を表 lに r e a k p o i n t指数分布の AICはワイブル分布より 1 0以上も J '、さくなった. AICの差 示す.表 lより b が 2程度以上ならば 5% 水準で当てはまりが有意に異なることから, b r e a k p o i n t指数分布により長期 4 J 生存者が存在する場合のデータに対する当てはまりをワイブル分布と比べて大きく改善できた [ ‑197ー
注 目 時0 . 7 j J 宇0 . 6 1 州 l : 制 ; : 7 5 0 1 0 0 1 5 0 2 5 0 2 印 5 0 生存時間(週) 一一ーカプラン・マイヤー闘鍋 ーワイプル分布 1 0 0 1 5 0 2 0 0 2 5 0 生存時間(週) 一一‑breakpolnt揺量分布 カブラシ・マイヤー箇鍋 ←理合指阪分布 b r e a k p o l n t箔慰分布 図 8 :生存曲線の比較 図 7 : 生存曲線の比較 長期生存者がし、る場合のデータに対して混合分布を仮定した解析もよく行われる.これは生存時間 分布が長期生存者とそうでない患者がある割合で混合した分布に従うと考えるものである.混合指数 分布を対象データに仮定した時の生存曲線を図 8に示す.図 8より混合指数分布は b r e a k p o i n t指数 r e a k p o i n t 分布と同程度に対象データに対して当てはまりが良い. AICによる評価では,表 lより b 指数分布の AICは混合指数分布よりも小さく. b r e a k p o i n t指数分布の方が混合指数分布に比べ対象 データによく当てはまっていることが示された. 表1:各分布の AIC モデル AIC b r e a k p o i n t指数分布 3 0 6 . 6 混合指数分布 3 11 .9 ワイブノレ分布 317. 4 5 . 3 膳臓がんの切除手術後の予後因子の解析 b r e a k p o i n t指数分布を基準分布とし Cox回帰による多変量解析を行う.対象データでは対象患、者 7名に対して 28個の説明変数が得られており,全ての説明変数を用いて解析を行つてはその結 数が 3 果の精度は著しく悪くなってしまう.そこで単変量解析を行い,水準 5% で有意になった変数を多変 量解析に用いるというスクリーニンクoを行った.単変量解析では 7変数が有意となり,それらをモデ ルに含めて変数減少法による多変量解析を行った結果,目撃外神経叢への浸潤の有無が水準 5%で唯一 有意となり予後因子であることが示唆された.勝外神経叢への浸潤の有無とは,醇臓の周りある神経 の群がり(神経叢)にがんが進行しているかの有無を表す.勝外神経叢への浸潤がない場合に対しで ある場合はハザードが 2 . 7倍になり,目撃外神経叢への浸潤がある場合には死亡のリスクが高くなるこ とが示された. また b r e a k p o i n t以後の患者を長期生存者と考え,長期生存者と b r e a k p o i n tより前に死亡した患者 とで各説明変数を比較した.ここで b r e a k p o i n tより前の患者を前期死亡群,以後の患者を後期死亡 群と定義すると前期死亡群は 3 1名,後期死亡群は 6名で、あった.探索の結果,死因については前期 ‑198‑
死亡群で 3 1名中 1 8名が 1干転移により死亡しているのに対し,後期死亡群では肝転移による死亡はな かった.各死亡群でI J 干転移で死亡した人の割合が等しし、か検定を行ったところ,水準 5%で有意に前 期死亡群での肝転移の死亡の割合が後期死亡群に比べて大きいことが示された.肝転移は臨床的に死 亡のリスクを高くすることが知られていることから, b r e a k p o i n tより前の高い死亡のハザードはI J 干転 移が一因であると考えられた. 6 おわりに 長期生存者が存在するデータに対して,今回提案した b r e a k p o i n t指数分布を当てはめることで従 来の分布に比べて当てはまりを改善することができた. しかし b r e a k p o i n t指数分布の一般化可能性 については lつのデータに適用した事例研究のみでは分からない.ゆえに長期生存者が認められる他 のデータにも適用し,その当てはまりについて検討する必要がある. 参考文献 [ 1 ]H i r o s h i Takan 悶 i,T a k e h i s aH i r a o k a ,K e i i c h i r o Kanemitsu Tatsuya T s u j i ,Cl 山 uma Hamada.(2005)I d e n t i f i c a t i o no fP r o g n o s t i cF a c t o r sA s s o c i a t e dw i t hE a r l yM o r t a l i t ya f t e rS u r ‑ g i c a lR e s e c t i o nf o rP a n c r e a t i cCancer‑underA n a l y s i so fCumulativeS u r v i v a lC u r v e .World J o u r n a lo fS u r g e r y . h o u . ( 2 0 0 4 )A newp a r a m e t r i cmodelf o rs u r v i v a ldataw i t hl o n g ‑ t e r r n [ 2 J Q回 目 iShao,XianZ s u r v i v o r s .S t a t i s t i c si nr n e d i c i n e2 0 0 4 ;2 3 : 3 5 2 5 ‑ 3 5 4 3 [ 3 ] 大橋靖雄,浜田知久馬 . ( 1 9 9 5 )生存時間解析 SASによる生物統計,東京大学出版会. [ 4 ] 坂元慶行,石黒真木夫,北川源四郎 ( 1 9 8 3 )情報量統計学.共立出版株式会社. [ 5 ] 竹村彰通 ( 1 9 9 1)現代数理統計学 倉J I 文社現代経済学選書,倉J I文社. [ 6 ] 日本目撃臓学会 ( 2 0 0 2 )豚 癌 取 扱 い 規 約 第 5版、金原出版. [ 7 J 武藤長介 . ( 1 9 9 5 )統計解析ノ、ンドブック,朝倉書庖. ← 1 9 9
口頭論文発表 調査・マーケティング、
S A S Forumユーザ一会 製薬企業の営業力分析 ‑SFEC S a l e sForceE f f e c t i v e n e s s )のアプローチによるー 武藤猛 ITBPO株 式 会 社 主 席 研 究 員 S a l e sForceE f f e c t i v e n e s sA n a l y s i so f PharmaceuticalCompanies Ta k e s h iMuto n c . S e n i o rF e l l o w,ITBPOI 要旨 製薬業界においては、ここ数年企業の M & A (合併・吸収)が進展した。また、薬価 き下げなど国民医療費の伸びを抑制するための各種の施策も取られてきた。このよ の号 l うな厳しい経営環境の中で、製薬企業においては、製品開発力と並んで、マーケティン グ・営業力が重要な意味を持つ。このうち、営業力については、従来経験的なアプロー チが主体であったが、競争の激化とともに、より科学的なアプローチが不可欠となって きた。本論文では、営業力(営業生産性)を向上させるための科学的、実証的で、かつ体 S a l e s Force E ff e c t i v e n e s s )の考え方に基づき、共 系的なアプローチである、 SFE ( 分散構造分析を用いたマクロおよびミクロな営業力分析とその結果について報告する。 hトa ワ キ 営業力分析、 S a l e sF o r c eE f f e c t i v e n e s s、共分散構造分析 はじめに マーケティングおよび営業活動は,製品開発と並んで企業経営の 2大要素を構成して いる。画期的な製品開発は中長期的な経営の成否を決定するが,大きなシェアを獲得で きる新製品の開発には多額の投資と長い期間,そして幸運が必要である。このためもう 一つの要素で、あるマーケティング・営業活動を効果的・効率的なものに改革し,営業生 産性を高めることの重要性が増している。特に製薬業界においては活発な企業の M & A (合併・買収)に伴い,多数の MR(学術情報担当者)を有する企業が誕生し,営業 (M R) 生産性を高めることが重要な経営課題となっている。 S a l e sF o r c eE f f e c t i v e n e s s ) と呼ばれている考え方が注目されている。一 最近、 SFE C 般に SFEとは、次の 4つの特徴を備えた営業プロセスの改革手法と考えられる:①成果 (例:薬剤の採用)とそれを達成するための要因(例:ディテーリング活動)との因果関 係にフォーカスすること、②実データに基づいており実証的であること、③統計解析など 203
確立された方法論に基づき体系的にアプローチすること、④実務に応用可能であること。 要約すると、 SFEとは科学的な手法により営業力の分析を行い、営業生産性を改善する ための実践的なヒントを得ることである。 本論文では 2つのアプローチから営業力分析を行う。第一のアプローチはマクロな営 業力分析である。製薬企業全体の各種データに基づき、売上高がどのような要因から決 定されるかとしづ構造分析を行なう。さらにマクロな分析の一環として、企業価値(株 式時価総額)に対して製品開発力がどのような影響を及ぼすかについても分析を行う。 第三のアプローチはミクロな営業力分析である。本論文では SFEのアプローチに基 づき、 M Rのディテーリング活動の結果、どのような要因が評価されて医師の薬剤採用 や処方増加につながるかの要因分析を行う。特に注目するのは、 M R活動の質的側面と 量的側面である。この分析結果により、営業の効果と効率を高めるための実践的な示唆 を得 ることを目的としている。 L 1 . マクロな営業力分析 ( 1)マクロな営業力分析のアプローチについて 製薬業界も他の業界と同様、厳しい競争環境にある。このような環境の中で製薬企業 が売上高(あるいは、利益や市場シェア)をし、かに伸ばしていくかは経営の基本的な課 題である。売上高を決定する要因は多数考えられる。大別すると、企業内要因(営業・ マーケティング活動、製品、その他)、業界要因(業界内競合)、および環境要因(経済、 規制、天候、その他)の 3つが考えられる。これらのうち、企業内要因の総称を「営業 力」と呼ぶことにする(ここでは、マーケティングや製品開発関連の要因も含めている)。 言い換えると、営業力とは、売上高の決定要因のうちで企業が自らの意思で統制可能な 要因である。 SFEは、科学的なアプローチで営業力を高めようとするものである。 マクロな営業力分析の手順は次の通りである:①売上高の決定要因に関する仮説の設 定、②データ収集、③探索的因子分析、④共分散構造モデ、ル(パス図)作成、⑤モデ/レ の妥当性検証と(必要な場合)モデ/レの修正。 本論文では、製薬企業の公開データを用いて、マクロな営業力分析を行う。財務デー 0社の 2005年 3月期決算またはそれに準ずるデータ タとしては、内資系上場製薬企業 3 を用いる。 M Rの人数など製薬企業特有のデータは業界雑誌に基づいている (1)。また、 製品開発に関する情報は、 2004年 1 2月時点での調査報告書に基づいている ω。 ( 2 )マクロな営業力分析(売上高の決定要因の分析) 売上高の決定要因のモデルとして、営業、マーケティング、および製品開発に関する 要因を想定する。この仮説に基づき、上記の通り、製薬企業の公開データを収集した。 3 0社の上場企業に関して得られたデータの内容は、国内医療用医薬品売上高 ( 2 0 0 4年 度)、時価総額 ( 2 0 0 5年 7月 2 9日 ) 、 M R数 ( 2 0 0 5年 4月)、その他合計 1 3種類である。 医療用医薬品に関するセグメント情報に基づき、極力、国内の医療用医薬品に限定した データを用いた。その理由は、製薬企業によっては医療用医薬品だけでなく多角的な事 204‑
業を行っている企業も含まれること、 M R数など営業に関して入手可能なデータが国内 に限られていることによるもので、データ全体で範囲を一貫させることが目的である。 3種類の変数に関する探索的因子分析を 共分散構造モデルを構築するために、上記 1 行った。その結果、固有値が l以上の因子として、マーケティング力(主な観測変数: 販売促進費、宣伝費など)、営業力(同 :MR数など)、および、企業ガパナンス(同:役 員数)という 3つ因子が得られた。これらの因子と売上高との相関係数を確認したとこ ろ、企業ガパナンスは有意でなく、マーケティング力と営業力を中心に、共分散構造モ デルを構築すればよいとし、う方針が得られた。 試行錯誤の結果、最終的に得られた共分散構造モデル(パス図)を図 lに示す。適合 . 9を超えており、モデルは成立している。 度指標 GFIは 0 標準解 MR 数 1∞億円以上の製品数 宣伝費 販売促進費 G F I = O . 9 4 1 適合度指標 : 図1 . 営業力のマクロな構造分析結果 図 lによれば、売上高は、「営業力」と「マーケティング力」と名付けた 2つの潜在 変数により決定され、それぞれの影響力の大きさはほぼ 9 :1である。「営業力」に含 0 0億円以上の製品数である。後者は、過去の製品開発力 まれる観測変数は、 M R数と 1 の結果を反映している。一方、「マーケティング力」に含まれる観測変数は、宣伝費と 販売促進費である。なお、総資産額や時価総額など、企業規模やブランド力を代表する と考えられる変数を含めたモデ、ルは、十分大きな適合度指標が得られなかった。 以上の結果をまとめると、企業の単年度売上高は、営業力とマーケテイング力とで決 0 0億円以上の売上高の製品数とで構成さ 定される。このうち、営業力は M R数および 1 れる。後者の製品数は過去の製品開発力を反映している。一方、マーケテイングカは「売 れる仕組み作り」への短期的な投資である宣伝費と販売促進費とで構成される。営業力 F h υ η4 ハU
とマーケテイングカとの影響力の大きさはほぼ 9 :1である。日本の製薬企業の売上高 は、営業力により大部分が決定されているといえる c ( 3 )企業価値(株式時価総額)の決定要因の分析 医療用医薬品はイノベーションにより発展する。以下、研究開発志向の強し、製薬業の いくつかの経営指標を紹介する ω。製薬業の売上高研究開発費比率は、製造業平均が 3 . 0 切であるのに対して、 1 5 . 4 %と製造業でトップである。医療用医薬品の研究開発には、 長期間と多額の投資が必要で、あり(平均 1 1 .5年 、 3 5 0億円)、またリスクも大きい。こ . 師 、 のような製薬業においては、売上高付加価値比率は業種別でトップであり(製薬:41 2 0 . 3九)、少なくとも現在のところ、これまでの製品開発への多額の投資は、 製造業平均 : 高い付加価値という形で報いられていると考えられる。 このような特徴を持つ製薬企業の企業価値がどのような要因で決定されるかは興味 ある問題である。企業価値の代表的な指標は株式時価総額である。時価総額は企業のブ ランドカを表すばかりでなく、 M & Aが盛んな製薬業界において、企業が M & Aの脅威 にさらされることなく、どの程度自主性を発揮できるかに関しても大きな影響を及ぼす。 本論文では、製薬企業の時価総額が、直接的には収益力で決まり、製品開発力は間接的 に時価総額に影響を及ぼすとし、う仮説を設定し、その検証を行う。 前述のように医療用医薬品の開発には長期間を要する。典型的な開発のステップは、 I 製、物理化学的性状の研究、スクリーニング(および特許申請)、非臨床 新規物質の書J 試験、臨床試験(フェーズ、 I、 E、皿)、承認申請、審査、承認、薬価基準申請、薬価 基準収載、販売開始とし、う手順を踏む (1)。ここでは、株式時価総額に「製品開発力」と して影響を及ぼすのは、フェーズ Eから承認申請までと仮定する。その理由は、フェー ズ I以前は、開発リスクが大き過ぎて株価に織り込まれるとは考えにくく、また承認さ れた後の製品は、短期的な収益(売上高)に直接反映されると考えられるからである。 以上の前提の下に、製薬企業各社の製品開発データを収集・整理した。内容は、開発段 階別(フェーズE 、皿、申請中)、地域別(日本、米国、ヨーロッノミ)、および開発種類 別(新規開発、適応追加)の開発件数である。売上高の分析で準備したのと同じ製薬企 0社について、製品開発に関するデータを準備した。 業3 探索的な因子分析により、各種の変数を集約した上で、共分散構造モデルを構築した。 試行錯誤の結果得られたパス図を図 2に示す。適合度指標 GFIは 0.9以下であり、精 .9 7 6であることを確認してお 度的には問題があるが、もう一つの適合度指標 CFIは O り、モデルとしては辛うじて成立していると判断した。 図 2によれば時価総額は、潜在変数「収益力」で決定される。収益力には、「現在の 収益」、「短期的製品開発力」、および「長期的製品開発力」という 3つの要因がある。 0 0億円以上の売上高の製品数という 「現在の収益」は潜在変数ではないが、売上高と 1 2つの観測変数から構成される。「短期的製品開発力」には、日本と米国で申請中の新 薬開発件数が含まれる。「長期的製品開発力」には、同じく日本と米国で臨床試験中の フェーズE の新薬開発件数が含まれる。モデルにフェーズE の開発件数が含まれないが、 これは資本市場の論理ではまだリスクが大きいと考えられているからであろう。また適 ‑206一
応追加やヨーロッパの開発件数は有意な観測変数とはならなかったが、これは企業価値 に及ぼす影響が大きくないと市場から評価されていることによると考えられる。 標準解 ヨ ま : : " Lτ圭F 7 ' C . L .J 司 新薬開発・日本・申請中 新薬開発・米国・申請中 新薬開発・日本・ Phm 新薬開発・米国・ Phm 適合度指標 : G F I = O . 8 5 8 図2 .企業価値のマクロな構造分析結果 以上の結果をまとめると、製薬企業の企業価値(本論文では株式時価総額で代表させ た)は、「収益力」で決まる。この「収益力」は、「現在の収益 J、「短期的製品開発力 J、 および「長期的製品開発力 J という 3つの要因で決定され、製品開発力(し、わゆるパイ プライン)として株価に反映されるのは、日本と米国におけるフェーズ E および申請中 の製品件数である。この結果は、経済アナリストが製薬企業に関して注目しているキー ポイントとも矛盾せず、妥当な結果と考えられる。 2 . ミクロな営業力分析 ( 1)ミクロな営業力分析のアプローチについて ミクロな営業力は、マイクロマーケテイングとも呼ばれ、 M Rが主に医師とのコミュ ニケーションを通じて、し、かに効果的に自社薬剤の新規採用や処方増加を達成するかを意 味している。製薬企業の営業力が、どのようなミクロな要因で決まるかは、 M Rの最適配置 や人材の活用により売上を伸ばすことを目的とする営業戦略の重要な基礎データとなる。 一般に、営業は企業経営にとって非常に重要であるにも関わらず、マーケテイングに比 べると営業に関する科学的な研究は極めて少ない。これは、営業は経験的・人的要素が大 ゥ ︐a ハU ︐ つ
きく、科学的なアプローチが難しいと考えられているためであろう。営業に関するほとん ど唯一の網羅的かつ体系的な本である Z o l t n e r sらωは、「営業生産性ドライパーモデ、ル」に 基づき、営業の成果を高めるための広範囲なアプローチを論じている。 本論文では、営業生産性ドライパーを簡略化した SFEモデルにより、営業力分析を行 う。目的変数は、 M R活動の主要な目的である、「薬剤の採用」と「処方増加」である。本 論文では、「薬剤の採用」または「処方増加」に影響を及ぼす潜在変数として、「医師ター ゲティング」、「ディテーリングの量」、および「デ、イテーリングの慣」という 3種類を取り 上げる。これらの 3つの要因は、営業生産性ドライパーの中で最も影響力が大きいと考え られる。このうち、医師ターゲティングは特に重要であり、その分析手法と新しいターゲ ティングを実施した場合の効果については既に著者により分析・報告済みであるので(削 7 )、 本論文では、 SFEの残り 2つの要因である、「デ、イテーリング の量」と「ディテーリング P の質」に注目して、営業力の構造分析を行う。 ( 2 )ミクロな営業力分析のためのデータ準備 ミクロな営業力分析のためには、 M R活動が医師にどのように評価されているかを知 る必要がある。本論文では、データとして、医師に対して実施したインターネット調査の 結果を用いる ( N = 8 0 1 )。対象とした薬剤は高血圧症治療薬であり、 ARBや CCBなどの 6種類が含まれる。質問項目は、製品認知に関する質問(知っている薬剤、 代表的な薬剤 1 薬剤の特徴、情報入手経路)、処方に関する質問(使用している薬剤、薬剤の使用理由、最 近 1週間の薬剤別処方人数)、デ ィテーリングに関する質問 (MRと面談した薬剤、最近の 薬剤男IJMRとの面談回数、高血圧患者数)、および回答者の属性である。これらのうち、目 的変数はある薬剤 Pの「採用の有無」と「処方人数」である。一方、説明変数は、薬剤の 特徴、情報入手経路、および薬剤の使用理由の 3種類(合計 6 1項目)である。ただし、元 の質問項目のままでは数が多すぎて、適合度の高い共分散構造モデルを構築することはほ とんど不可能である。そこで、 6 1項目の質問項目を 9項目に集約した。これらの集約後の 変数について探索的因子分析を行った結果、各変数が各々単独で鮮明な因子を構成するこ とを確認できたので、集約後の 9項目を観測変数に用いて、分析を行うことにした。 (3)ミクロな営業力分析の結果 ある薬剤を未使用の医師に対して、製薬企業はマーケテイング活動を行うとともに、 M Rは認知のための活動を行う。次 i こM Rは、薬剤の採用のためにディテーリングを行う。 首尾よく採用してもらえた後は、処方人数の増加のための活動を継続して行う。このよう にして、製薬企業全体としての売上高の伸張や、ンェア拡大を実現してし、く。前述のように、 本論文では、薬剤採用や処方増加は、ディテーリングの質とディテーリングの量という 2 つの潜在変数で、決定されるとし、う仮設を検証する。 「薬剤採用」および「処方増量」という 2つの目的変数に対する共分散構造モデル(パ ス図)を各々図 3と図 4に示す。いずれも適合度指標 GFIは 0 . 9を上回っており、モデル は成立している。 ‑208一
標準解 理由:効果の良さ 理由:安全性 理由:医局・医師仲間 特徴:作用機序 特徴:効果の良さ 0 . 5 0 特徴:臓器保護作用 面談回数 適合度指標 : GFI=O.939 図3 .r 薬剤採用」の構造分析結果 図 3 の結果によれば、仮説通り、薬剤の採用は「ディテーリングの質J と「ディテーリ ングの量」という 2つの要因で決まる。これら要因の影響力の大きさは、 7 :5と、質の 方が影響力は大きい。さらに、ディテーリングの質には、「製品特徴」としづ潜在変数が影 響を及ぼす。ディテーリングの質とは、 M Rが製品の特徴を医師に的確に伝え、それが医 師のニーズに結びつけられるかどうかである。有意な観測変数は、効果の良さや安全性な ど非常に基本的なことばかりである。また、製品特徴の中で作用機序とし、う観測変数は、 競合製品の中で、 M Rがし、かに的確に自社の製品のユニークさを伝えられるかの重要性を 示している。一方、デ、ィテーリングの量は面談変数というただ 1つの観測変数で構成され るが、面談回数の相対的な重要性は小さい。 図 4の結果によれば、薬剤の採用と同様、処方増加も「ディテーリング?の質J と「ディ テーリングの量」という 2つの要因で決まる。この場合、「ディテーリングの質」と「ディ テーリングの量」との相対的な影響力の大きさは 5 :2であり、薬剤採用に比べると面談 回数の相対的な重要性はさらに小さくなる。観測変数の構成は、パス係数の違いを除き、 ) と同様である。 薬剤採用の場合(図 3 ‑209一
標準解 理由:効果の良さ 理由:安全性 理由:医局・医師仲間 特徴:作用機序 特徴:効果の良さ 0 . 2 1 特徴:臓器保護作用 面談回数 適合度指標 : GFI=O.953 図4 .r 処方増量」の構造分析結果 以上の結果をまとめると、ミクロな営業力、具体的には「薬剤の採用」と「処方増加」 という成果を達成するための要因は、「ディテーリングの質」と「ディテーリングの量」と いう 2つの潜在変数で、代表され、しかも「ディテーリングの質」の影響力のほうが大きい ことが明らかになった。この結果は、 MRの質を高め、営業改革を推進し、成果を達成す る上で極めて示唆的である。 3 . まとめと今後の展開 本論文では、マクロおよびミクロな観点から営業力分析を行った。 マクロな営業力分析の結果によれば、製薬企業の売上高は営業力とマーケティング力 という 2つの要因で決定され、営業力の方が影響力は大きい。この結果は M R数に頼っ た売上高達成とし、う現在の製薬企業の経営を反映したものと考えられる。 ミクロな営業力分析の結果によれば、薬剤の採用や処方増量という M R活 動 の 成 果 (同時に、最終的には製薬企業の売上高にも直結する)は、ディテーリングの質とディ テーリングの量という 2つの要因で決定され、ディテーリングの質の方が影響力は大き い。既に検討済みの医師ターゲティングを加えた、 3大要因で SFEを分析することは 妥当と考えられる。 マクロな営業力(製薬企業としての売上高決定要因)とミクロな営業力 (MR活動の 質と量)との関係について考察する。 M R生産性を、「売上高 ‑ ‑ ; ‑ M R数」として定義し、 9 .1倍である(この値 製薬企業聞の M R生産性を比較すると、最大値と最小値の比は 1 210
は、内資系および外資系製薬企業 4 6社に関するものである) (リ。このことは、売上高 は M R数(ほぼディテーリングの総量と考えられる)の影響を受けるものの、 M R活動 の有効性(医師ターゲティングとディテーリングの質)の影響も大きいことを示唆して いる。今後は M Rの人数だけに頼るのでなく、閉じ M R人数であってもその有効性を高 め,その結果 M R生産性を向上させる営業戦略が極めて重要になる。 今回の営業力分析では、 SFEの考えかを共分散構造モデルとして表現し、その妥当性 を検証した。今後の課題としては、医師ターゲティングと、ディテーリングの質およびデ ィテーリングの量とを組合せた共分散榊造モテ守ルの構築がある。このことは、各医師セグ メントを母集団とする母集団比較分析により可能である。このような分析により、ミクロ な営業力の全体構造が明らかになるはずである。また、このようなミクロな営業力の構造 が、薬効領域や薬剤のライフサイクルステージによりどのように異なるかも興味ある課題 である。さらに、今岡取り上げたリアルな M R活動だけでなく、インターネットによるバ ーチャルな M R活動を含めた常業力の構造も解明する必要がある。今後、より実践的な営 業力分析の課題として、これらに取り組んでし、く予定である。 参考文献 (1)医薬ランキング 2005、Month1y ミクス増刊号 (2005.9) 2 0 0 4 .1 2 ) ( 2 )2005年版製薬企業の実態と中期展望、国際商業出版 ( 2 0 0 5 .1 1 ) ( 3 ) 日本製薬工業協会、 倉 IJ薬の場"としての競争力強化に向けて ( ( 4 )望月異弓・武立啓子・山崎幹夫編、医薬品'情報学、東京大学出版会 ( 2 0 0 5 .9 ) ( 5 )AndrisA . Zoltners&PrabhakantSinha、TheComp1eteGuidetoAcce1eratingSa1es Force Performance, ANACOM(2001) ( 6 )武 藤 猛、効果的顧客ターゲティングのための一手法 医薬品マーケテイングへの 応用~, SASForumユーザ会 2005論文集、 pp.23‑29、SASForumユーザ会 ( 2 0 0 5 .7 .2 8 ) ( 7 )武 藤 猛、新しい医師ターゲティング法(上)、(下)、 Month1y ミクス ( 2 0 0 5 .8~ 2005.9) 211‑
S A S Forumユ ー ザ ー 会 学力低下に関する全国大学教員アンケートの分析 JMPを用いた教員所属専攻別の分析 岩堀淳一郎 高知大学 医学部 JMP‑basedAna l y s i so faQ u e s t i o n n a i r eS u r v e yonF a c u l t yMembersC o n c e r n i n gDropi nAcademic A b i l i t i e so fU n d e r g r a d u a t e s‑D i f f e r e n c e sbetweenAcademicD i s c i p l i n e s J u n ' i c h i r oI w a h o r i KochiM e d i c a lS c h o o l 要旨 日本学術振興会科学研究費補助金による共同研究(代表者大学入試センター研究開発部柳井晴夫 4 0 8大学 600学部,回収 教授)で実施した大学学生の学力低下に関する全国大学教員アンケート ( 1, 4 8 1 )結果の分析のーっとして九‑1Pを用いて試みた教員の所属別分析について報告する. 回答数 1 アンケート回答(項目により 3~5 段階)をそのまま 1~5 の数値として扱い,専攻ごとに平均したものを データとしてもちいた.専攻による学力低下の認識の違いを明らかにするために行った,専攻のクラ を利用したかを報告する. スター分析を中心とした分析結果とともに,どのようにJMP キーワード:アンケート分析, JMP,多変量解析,クラスター分析 はじめに この調査については以前の調査との比較も含めた全般的な分析がなされ,学部単位の分析結果 0 0 5 ) .調査の詳細についてはそちらを参照されたい.今回の報告の内容 も示されている(石井他, 2 も含め共同研究の成果は成果報告書にまとめられている(柳井, 2006).以下で報告するのは,今 回の教員調査のみを対象とし,専攻別の分析を試みた結果である.分析においてはアンケート回答 (項目により 3~5 段階)をそのまま 1~5 の数値として扱い,専攻ごとに平均した(一部は設置形態に より分けた)ものをもちいている.専攻の規模は大差があり,設置形態を合算してサンプル数で、 1 0程 度から 1 0 0 0程度のものまで、聞きがあるが同等に扱った. データの前処理 調査結果は広く統計処理に利用されているソフトウエア SPSS のデータ形式で共同研究者から提 ‑213一
供された.J MPで S P S Sのデータを受け入れる方法がわからなかったが, S ‑ P L U Sで S P S Sのファイル Rでも可能),まず S ‑ P L U Sでとりこみ,そこで、予備操作や JMPから が取り込めることがわかったので( i c r o s o f tE x c e lのワークシートファイルへの変換を行った. の読みこみが可能な M 当初は理工系や医学系での調査結果に対象を限定して学力低下に関する教員の意識を分析す ることをめざし,それらの特徴を抽出する目的で専攻別の基礎的な統計を調べた.また,すでに学部 単位の分析が共同研究者によって進行中で、あったが,学部単位ではなく専攻単位とすることが学力 低下に関する状況の理解に役立つのではなし、かとも考えた. ‑ P L U Sでデータが読めたた 基本的な統計量についてはどのソフトウエアでも得られるが,初めに S ‑ P L U Sで得られた形式が扱いやすいように思ったため, S ‑ P L U Sで求めた. め,また標準設定では S x c巴lに読み込ませるとしづ面倒な それをテキスト形式で、出力したものをエディターで、編集し,さらに E 手! J 慣を取ったにれは実は九1 Pで非常に簡単にできることが後日判明した.S ‑ P L U Sで、もで、きるがファ イルの扱いが理解で、きなかった).このようにしてアンケート結果を専攻単位でのデータに整理した. この部分では,統計ソフトウエアに不慣れなために無駄な作業をし,しカも長い休止期間 (~1 年)を おいて行ったので,前の作業を忘れてしまい,非常に効率が悪かった. JMPでなく S ‑ P L U SやRをもちいて,すべての分析を行うこともできたはずであるが,わずかではあ を使う方が簡単で、あったので,それ以後の分析には J MPを使用した.このI J M P るが経験のあるJMP による分析の部分についてはメニューがで、理解で、き比較的効率よく進んだ. 専攻別の学力低下の認識 ここからは J MPによる分析結果を示す.学力低下についての教員の認識を専攻別,設置形態別 ).その結果を見ると,理学系,工学系のな の学力低下認識の深刻度を国立の値の順に並べた(図 1 かでも,数学,物理学に関連が深い専攻ほど学力低下の深刻度が高い.理系以外では経済学系が 高い.教員養成も上位に現れるが,細分類,設置形態(国立と私立)で異なる様相を示す.また,法 学,語学・文学系などのように国立と私立で大きな違いがある専攻(私立で高いことが多し、)もある. 専攻と学力低下認識の深刻度の関係を理解するために,高校教科科目の必要度との関係を示す. 5教科 6科目)の必要度の教 国立,私立のそれぞれについて学力低下認識深刻度と高校教科科目 ( 員所属専攻ごとの平均値について計算した相聞を表 1に,深刻度を教科の必要度に対してプロット したものを図 2に示す.これらの表,図より数学・物理の学習必要度と学力低下深刻度に相関が大き い,すなわち,数学や物理の必要度が高い専攻で学力低下が深刻と認識されていることがわかる. 図1で医学をはじめ医療系は比較的学力低下の深刻度が低い.これらの専攻は,他の専攻にくら べ,学力が適切な水準の入学者の確保に成功していると言えるだろう.しかし,医学部としてではな く,専攻別に分析することにより,医学専攻では国公私立ともに深刻度が低いが,一部の専攻にお いては私立では深刻度が高いことがわかる. ‑214
表1.回答教員所属専攻別に見た教科の必要度と学力低下の認識度との相関 高等学校教科科目 学力低下(国立) 学力低下(私立) 国語 0 . 5 0 9 0 . 0 8 3 世界史 0 . 5 0 3 0 . 1 3 2 数学 0 . 7 1 6 0 . 2 1 7 物理 0 . 6 8 2 0 . 2 2 3 化学 0 . 5 1 9 0 . 1 4 8 外国語 0 . 3 3 4 0 . 1 7 3 3 . 5 3 2 . 5 2 1 .5 応数生地電応金天化機宜物水生情土教農農生経教連商家地環史哲そ殿下回芸経1"教歯細教保心体林政芸薬英国言者宗法文教教医社考介畜教 r t 台術学会主司標語護教学化 r H f学会古護産品 用学体球気用属士芋械物理産物報木員業芸物流民築学政理境学学の字国語術営業員学胞只健理 学 f 物工科 . 1 ヒ.学工.学学学工工養工化化学葺学 理学学電学材 学 学学成学学学成 .学科 他語.学学経葺 生学 の.国(済成分成 .葺学学学学学 1 . 自学学学人葺学学学.. 葺 (圭係 筋主 福獣成 聾 ~ ~活 工外文英学(子( 背骨洋 学( 祉医( 工 工 学 情中 そ 科 学国学術小生葺 楽史 特 学学幼 学宇 報~の字 文)学物護 )学 殊 稚 科 校 他 学 校 学 ) 教 i 副 子科 学栄 学 ) 図 1 回答教員所属専攻別に見た学力低下認識の深刻度(国立大学で高し、1 ) 贋) これらにより石井他( 2 0 0 5 )の報告で学力低下を深刻に受け止めている理学部,工学部における深 刻度回答別の教科必要度の違いが説明できる.理学部で学力低下の深刻度が高い群ほど数学の 必要度が高いのは理学部の中でも数学を必要とする専攻ほど学力低下の深刻度が高いことによると 理解できる.工学部では数学,物理学の必要度はほとんどの専攻できわめて高いのであまり差があ らわれていない.むしろ深刻度の低い群の方が外国語および全般には必要度の低い教科の必要度 が高くなっている. 経済・商学部の場合には専攻の違いでなく,設置形態による差が大きし、(図 1 ) .大学により学力に 差があることが大きな影響を及ぼしているはずであるが,今回の調査はそれに関する情報は直接含 めていない.この設置形態別の深刻度の遣いにその一端があらわれているものといえよう.なお,公 215‑
立はデータ数の多い専攻は少ないので,図 l以外の設置形態別の分析結果には含めていない. 3 2 . 8 ‑ 2 . 6 ‑ . 4 3 . . . . . . . ・ . . . .. . .・ f < ‑ 単2 . 4 ‑ . 3 . 2 ‑ 圃 祖 f 件 2 . 2 ‑ 2‑ 1 . 8 2 . 5 2 . 6 2 . 8 2. 7 2 . 9 3 . . .. . . . ,. ;・ ・ ‑ . . ・.. ... .. . f < ‑ 単 . 8 ‑ ミ 干2 f 件 2 . 6 ‑ 置 4 ミ . . . . 3 ‑ , ̲ ー . ・ ... . . . .・ .. . . . . . . . . . . .. 2. 4 ‑ 1 2 . 2‑ 2 . 3 3 . 1 、 ー ・. 2 . 5 . 4 2 2 . 6 国語 2 . 2 → 3 3 . 1 2 . 5 2 . 7 5 ・ . . .・.. 、‑ 2 . 6ー . 、 . 2.4‑ 1 .8 2 . 2 2 1 .5 2 . 5 3 1 .2 5 世界史 . 2 . 6 . . ・ . . . . .. . .. . . . . . . ・ . .. . ・ ・ . .. .. .. .. . ・ .. . . . . E . . 2 . 4 ‑ 、一 ・ . . . . • ~-...., 2 . 2 a 1 . 5 2 2 . 5 2 . 2 5 . 3 . 2 ‑ ミ 干 f 時 2 . 6 . . . . . 2 、 ‑ ・ 』 ・. ー・ .・ー 2 3 . 4 . ・‑ . / ι 単 }2 . 4 ミ 干 f 時 2 . 2 1 . 75 世界史 .. .. . 3‑ . ., .. . . . 単 i LZ8 / ・ .. 2 . 8 1 . 5 1 1 3 1 . 8 2 . 9 3 . 2J . ‑ 戸 . 、‑ ‑・. 単2 . 4 2 1 1 1 . . . . .. . . . f ト ト 2 . 8 3 . 4 1 1 ,. . . ・ ・ :: ミ 干 2 . 7 国語 3 1 .5 2 2 . 5 数学 数学 私立 国立 図 2 回答教員所属専攻ごとの教科必要度と学力低下認識の深刻度 楕円は正規分布 95%.縦軸,横軸の目盛が一律でないことに注意. 216ー 3
•• •• E . . ・ ・ ・ 市 . ・ ・ . ‑ ・. . 4 ~ e ‑ nL .n︐ ι ・ . ・ . ・ . . ﹁lli 一 qLn6 . . . •• . ' 寸‑‑J111ト‑ili‑‑Illl ﹁││一﹁1 ︐ι 4・ フ ﹄ qunxu 氏U A 件 n ︐ι n ︐ι n J ququnJιn υF国‑nh 卦 4││ ・ . ‑ ‑ . .. ロ υA υF国 千 円h 卦 • 1111 a • .• • 2 . 8 n︐ ゐ 内 ノ ﹄ 144叶 ‑E. ‑ ‑ 3 . . ﹄ 1 .5 2 . 5 2 物理 3 1 .5 2 2 . 5 3 物理 • • •• • • • •• ‑‑ ・・ ‑E ‑ . 2‑ • • • • 2 : 4 1 1 .8 一ーー下 1 . 5 3 2 . 5 2 化学 2 . 6一 件 3 . 2 ‑ 2 . 2 ‑ ‑ E 2‑ 五2.8‑ 国 朴 2 . 6ー . . 2 .4‑ , 2 2 . 2.4 2.6 3 . ‑ 3‑ ι l ̲ { I j . 2 化学 3 . 4 ‑ 費2.4‑ 寸~.~..←」 1 .5 3 .. . ‑ . . . ・ .・ ・ . ・ . . . . . .. .. . . ・ . ー . ・. .・ ‑ . . ・ ー ‑ . ' . 2 . 8 ‑ 1 . 8 1 .8 , ‑ •• .• 、 •. 叫 ︐ . E ・ ι ι ︐ n︐ ‑ . . ・ ・ . . . : , . . F ﹂ 吟 ‑一一 υF国 } 円h 朴 ιndn 食U H ︐ の •.•• • • 3 . 2 外国語 図引続き) ‑217ー E ・. 2 . 2 I I ‑ I‑‑1‑ ‑ , ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ r ‑ ‑ ‑ ‑ . ‑ ‑ , ‑ ‑ ‑ ‑ . 1 .9 2 2 . 1 2 . 2 2 . 3 2 . 42 . 5 2 . 6 2 . 72 . 8 2 . 9 外国語 私立 国立 ・ー ・ .‑ . ‑ ・ ・ー.. . . ・.. . . . . . ・. コ
専攻の分類 次に,専攻の特徴を示すクラスター分析を教科の必要度,教科中の理科の必要度,資質必要度, 所有資質,所有スキル(資質,スキルの項目については石井他, 2005 参照)について行った結果を 示す(図 3~7). いずれも 3 段階の回答を数値化し,専攻での平均値を用いて,専攻の階層型クラス ター分析を行ったもので、ある (Ward 法).ここでは設置形態による区別はしていない.結果は,細部 では違いがあるが,共通するところも多い.これらを参考にして専攻を分類した一例を表 2に示す.工 学部のうち土木工学,建築学は他の理工系と性格が異なり,農学,教員養成はいくつかに分かれる. 表 2よりも上位の区分としては, a . 人文・社会をあわせた,いわゆる文系, b . 医療,福祉,家政,芸術,教員養成など文理にまたがった総合系, c . 科学・応用科学のいわゆる理系 とし、う,大筋で、は常識的な分類があてはまっているように見える.ただ,この大分類で総合系としたも のでも,学部単位でみた農学部のように専攻内に文系,理系の専門分野が混在しているようなものも ある.専攻内に異なる特性をもった教員が混在している,あるいは専攻内に差異があることはセルプ ロットやクロス統計あるいは個人単位の k ‑ m e a n sクラスター分析によっても見ることがで、きる.総合報 告(石井他, 2005)では一部学部単位での分析結果を示しているが,ここに示したクラスター分析は 学部単位でない分け方の可能性を示している. 表 2 教員意識調査回答のクラスター分析から求めた専攻の分類 ( 1例) 専攻 分類 社会 人文 教育・生活 云術 法学,政治学,経済学,商学,経営学,社会学,農業経済学 国際関係学,哲学,宗教学,美学・美術史学,国語・国文学,外国語・外国文学,言語 学,史学,考古学 心理学,文化人類学,教育学,教員養成(中学校),教員養成(その他),建築学,家 政・生活科学 芸術学(美術),芸術学(音楽) 土木・農林 地理学,土木工学,林学,環境科学,農業工学 福祉・教育 教員養成(幼稚園),教員養成(小学校),教員養成(特殊教育),介護・福祉学 医療 生命 理工 教員養成(養護),医学,歯学,保健学,看護学,食物・栄養学,体育学 生物学,生物化学,細胞・分子生物学,生体工学,農学,農芸化学,水産学,畜産・獣 医学,薬学 数学,物理学,天文学,地球科学,化学,応用物理学,機械工学,電気・電子工学,情 報工学・情報科学,応用化学,金属・材料工学,その他の工学 ~218 l
学他)園教校校科学 )文学の)学護稚殊学学金報学学物 学学楽園史学そ明科養幼特学学小伸封何学工工生学学 E ZE E E E ‑E E ‑‑E‑‑‑ J ︑︑ノ︑︐ ・ 冒 z‑EE E E E E E E E ・・・ ・・・ u n吋 E ・・ ‑ 圃 圃 圃 ・ ・ ・ ・ ・ ‑‑‑‑E EEE E 政・生活系との共通性が見えてくる. 学鵬倒学学学一一学一一学制♂斡一一学学動制欝制学学齢制虫学学問刑事学葺牌悼学学問程一議耳学学時 ‑EE ・・ ‑ ‑ ‑ ‑ ‑ ‑ ‑ 園 ・ ・ ・・ ・・ ‑ ‑ 圃 ・ 学治学際語教会済街営国語学学化育学員術政育理員員員業譲古翠員員学の報築理用属械気文木業環学用物産学芸学境物胞産体学学学健護物 法政商園田宗社経芸経外言美史文教哲教芸家体心教教教農介考地教教数そ情建物応金機電天土農地化応生水農農林環生細畜生医歯薬保看食 J43 ︑ 学)圏教校校他科学 学文聾学稚殊学学の))学報学物 史学国養科学幼特学小中そ術楽工情学工生学 学問学学学郡日学相学学問学学学学学懇話甑学較伊昨日団事政学問州信仰都詳学盟団牌学悼学 学治際会学学教育学語国語化済学営業古理理護学学健員政物員員護育員員員築術術学械気報の理用属学用物胞産体学文涼木業学境物芸学産 法政圏社史哲宗教美圏外言文経商経農考地心者医歯保教家食教教介体教教教建芸芸数機電情そ物応金化応生細畜生薬天地土農林環生農農水 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 圃 ・ ・ ・・ 圃 ・ ・ ・ ・・・ ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ 圃 ・ ・ ・ ・ ・ ・ ・・ ‑ ‑ ‑ ‑ ‑ ‑ ‑ 図 4 理科 4科目の必要度による分類 図 3 全教科の必要度による専攻の分類 し一一 ' ' Y2' ' I I 1I~'1 1 / 一一一一欄附 L Ward法による階層的クラスター分析 樹形図 教科の必要度から分類するのがもっとも専攻に対する社会的な通念にあっているように思われる. しかし,一部の理工系については理科 4科目の必要度だけに限った方が常識に合った結果が得ら れる.医療系は理科だけによれば生命系のなかに位置付けられるが,全科目で見ると教育系,家 1 ょ Qd ム っ
学校校他画教)学科 文学学の学学)稚殊量物学報学 E r r 220一 学学学問学ア学学諜学認知語学識学都学立学学炉学問畔学学付坤器開閉 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 圃 ・ ・ ・ ・ ・ ・ ・ E ・・ E ‑‑‑‑‑‑‑E ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 目 ・ ・ ・ ・ ・ ・ 圃 阻 ・ ・ ・ 学営済学治際教術学理会理湿語国語学化育員員員政物育学術吉員員穫員学産学健学理の械文学物芸学産物胞学学業疎境業用気報木用属築体 法経経商政国宗芸哲心社地介圏外雪ロ史文教教教教家食体美芸考教教看教林畜医保数物そ機天化生農農水生細歯薬農地環農応電情土応金建生 J J ︑︑ ︑ ノ 法 学校他国教校)科学 文学学の稚殊学謹))学報学物色 字国史中そ幼特学小学養街楽工情工生学﹃ヰ 間病学噺学学学問学学学学学岬学銃殺誠学学識学時時学事時学榊笠智学悼悼学話芸肌諸学叩 ・・ E‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 圃 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 冒 置 ‑‑‑‑‑‑‑‑‑‑‑‑E 学際学学語圏恒出向晶子吉治済業学営会理教理化育員員員員獲員育健物員学学設術術学理気報文湾学用械用魔物物学芸産胞産学体木の学業境築政 法国管史毘外霊ロ美考政経農商経社地宗心文教教教教教介教体保食教医歯看芸芸数物電情天地化応機応金生生農農水細畜薬生土そ林農環建家 ‑ E 図6 学生にそなわっている資質による分類 図 5 必要な資質による分類 ‑‑‑E l 一 一 一J1 必要な資質(自己表現力から音楽への関心までの 27項目),そなわっている資質,必要なスキル (次ページ)によっても必要な教科によるものと似た分類がで、きる.必要な教科や資質で近くにある医 学,歯学,看護学がそなわってしも資質では別れ,歯学や薬学は医学,看護学と離れて,生物科学 系と近い.経済学系が必要な教科,資質スキルで、は法学と少し離れた位置にあったのが,そなわっ ている資質では法学の隣になる.このような入れ替わりはあっても,いずれの分類でもだいたい同じ になることは,このようなアンケートでも専攻の特徴があらわれていることを示すとともに,学生の進路 選択もある程度合理性をもってなされていることを示してしものではなかろうか.
の平均値(専攻を l 単位として規模にかかわらず同じ 重みで計算したもの)を図 8 1こ示す.公立はサンプル数 仇V M M 学)文稚学学護学)殊の物学学報 が少なく,一部の専攻が欠損値となっているので,医療 など一部の専攻群では比較できない.また,同じ専攻 ﹃ 群でも,設置形態により教育内容に大きな違いがある 場合があることには注意を要する(薬学部を例とすれば 薬剤師養成,薬剤開発研究者養成のどちらに重点を おくか).私立ではどの専攻群でも深刻度が高いこと, b'h 国立では専攻群により違いがあること,理工系ではどち Jzua ︑ 学学問学学仲間学工学諮問学学学誌線制吋学問学学知学学問学位牌併学 らでも最も深刻度が高いことが示されている.このように 設置形態,専攻群により学力低下の深刻度にかなりの 違いがあるので,その点に留意した分析が必要となる. 図 8は理工系での学力低下の深刻度が高く,私立に 顕著にあらわれている全般的な学力低下とならんで, 理工系における学力低下が重要であることを示してい 寸年 る. Ff ここではスペースの関係で Ward法による結果のみを 示したが, JMPでは他の方法(群平均法,重心法,最 長距離法)も利用可能である.必要項目(教科,資質, スキル)について4つの方法を比較してみた.いずれで 拠出目学震 学治教際学済営員業育術学国会語護員語育学理化理員政員学術古員護学鍵員物学文学産学理胞学球学芸産学気用物属木被報の業体築物境用 法政宗国商経経教農体芸哲外社国介教言教史心文地教家教美芸考教看医保教生歯天林畜数物細薬地農農水化電応生金土機情そ農生建食環応 表2 1こ示した専攻グループご、とに学力低下の深刻度 もクラスター分けについては似た結果が得られるが,ク ラスター聞の配置にもっとも違いがあらわれた. L 1 ) ご 町 一 日 44bqE IHH 立 口 立 公 人文 口 国 福祉・教育 守 ↓ 一 口 図 7 必要なスキルによる分類 " " 社会 医療 芸術 教育生活土木・畢林 生命 図 8 専攻グルーフ。ご、との学力低下認識の深刻度 ー 221‑ 理工
まとめ 以上,調査結果の一部について,石井他 (2005)による総合的な報告を補うものとして,専攻別, 設置形態別に分析を行った結果を述べた.まず,専攻別,設置形態別に学力低下認識の深刻度を 調べた.次に,専攻を調査結果をもとに分類し,およそ常識的な分類が成り立っていることを確かめ た.その分類にもとづいた分析により学力低下が理工系で深刻に受け止められていることと私立で は全般に学力低下がより深刻に受け止められていることが確かめられた.学部学生での全般的な学 力低下と数理能力低下の根拠となるデータがこの調査で示されたとし、えよう. 当初専攻群をもとにアンケート調査結果についての分析をすすめることを考えていたが,今回の 報告は,今まで、に完了した,専攻を分類し,そのもとでの学力低下深刻度の違いとし、うことに限られ ている.アンケート調査結果については今回分析していない項目が残されており,今回報告した専 攻分類にもとづいてさらに分析を加える余地がある.また,進行中の全国大学の再編成のために今 回もちいた専攻区分自体の有効性が減少しつつあると思うが,広く大学教育を検討する際の基礎と してこの分析結果が役立つことを期待する. なお,ここで、行った分析は個々の回答でなく,それらを専攻単位で数値として平均したものを使用 しているため,個々の回答単位で見るのとは異なることに注意されたい. たとえば教科の必要度と 学力低下の深刻度の相関係数の値は,専攻単位にしたことで個々の回答に規模に大差のある専攻 の規模に反比例した荷重をかけたものになっている. を利用した . JMPはかつて Macintosh上で、多変量解析をおこなえるメニ 分析の中心部分にはJMP i c r o s o f tWindows上へ移行し,日本語化されたJMP ュー形式のソフトウエアとして導入し,その後 M を使用できる環境を維持していた.その問,統計ソフトウエアの新たな機能の必要性がなく,今回の 利用にあたっても翻訳されたマニュアルや参考資料を参照することがなった.そのため,現在から振 の機能が十分生かせなかった. 高度な機能 り返ってみると,統計全般の知識の欠如もあってJMP で、十分可能で、あったにもかかわらず, JMP の は別としても,前処理の部分で、も基本的な機能でJMP メニューが理解で、きなくて,たまたま知っていたり,目についた手段にたより非常な手聞をかけてしま った. しかしながら,常時利用しているのではないので,メニュー形式で、対話的に利用できることは 大いに有効であり,その結果としてここに報告した分析ができたものと思っている. 参考文献 2 0 0 5 ) 大学生の学習意欲と学力低下に関する大学教員の意識についての調査研 石井秀宗他 ( 究,大学入試センター研究紀要, 3 4,19‑58. 柳井晴夫 (2006)大学生の学習意欲と学力低下に関する実証的研究日本学術振興会科学 研 究 費 補 助 金 基 盤 研 究 B 研究成果報告書 2006年 3月. ‑222
S A S Foru mユ ー ザ ー 会 FACTOR, CALISプロシジャによる 「ひったくり発生マップ」が防犯行動に与える影響の分析 大場亨 市)[ [ 市 道路交通部道路管理課 Analysisont h eE f f e c tofaSnatchOccurrenceMapon lSProcedure PreventiveActionsUsingFACTORandC AL T o h r uOhba RoadA d m i n i s t r a t i o nS e c t i o nI c h i k a w aC i t yO f f i c e ラ 要旨 犯罪に対する注意を住民に促すため,犯罪発生地点をインターネットで、公開する都道府県警が 増えている.犯罪発生地図の公開の効果を正当に評価するとともに,その課題を見つけていくた めには,犯罪発生地図が閲覧者の防犯行動に与える影響を科学的に調査することが不可欠であ る.そこで、,犯罪発生地図と防犯行動との因果関係について構造方程式によりモデ、ルを作成し, CALISフ。口、ンジャによる共分散構造分析を行うことによって,犯罪発生地図の防犯行動への心理 的影響度合を定量的に明らカ hにする. キーワード FACTORCALIS,ひったくり,防犯行動 1.はじめに 検挙率が減少する状況の中,犯罪の被害に遭わないようにすることに大きな関心が寄せられてい る.犯罪に対する注意を住民に促すため,犯罪発生地点をインターネットで、公開する都道府県警が 増えているのはその典型である.中でも 2 0 0 3年 5月に公開された警視庁の「犯罪発生マップJは話 題を呼んだ. 住民の防犯意識が高まるとの理由で犯罪発生地図の公開に賛成する意見がある一方で,危険とさ れた地域に買物客や新規の住民が来なくなるとの理由でこれに反対する意見もある.このような賛否 両論はし、ずれも科学的な調査結果を論拠としていないため,犯罪発生地図に対する評価が定まっ ていない. 犯罪発生地図の公開の効果を正当に評価するとともに,その課題を見つけてし、くためには,犯罪 発生地図が閲覧者の防犯行動に与える影響を科学的に調査することが不可欠である.そこで,犯罪 発生地図と防犯行動との因果関係について構造方程式によりモデ ルを作成し,共分散構造分析を ‑223ー
行うことにより,犯罪発生地図の防犯行動への心理的影響度合を定量的に明らかにする. 2 .調 査 の 方 法 インターネットで、犯罪発生地図を公開している代表例である警視庁の「犯罪発生マップ」を分析対 象とする.この「犯罪発生マップ」では,ひったくり,車上狙い,粗暴犯,住宅対象侵入盗,事務所対 象侵入盗の発生密度がカーネル密度推定法で推定されている.これらのうちその地域の住民でなく ても被害に遭う危険があるひったくりの発生マップを被験者に見せることにした.またそのサイトで説 明されてしも事項を被験者に伝えた. 2 0 0 3年 1 1月から 1 2月にかけて開催された 5つの GlS関連セミナー等の会場で,パーソナルコン ヒ。ュータに接続された液晶プロジェクタを用いて警視庁のひったくり発生マップを多数の参加者に同 時に紹介した後,無記名方式によるアンケート調査を実施した.調査の概要を表 iに示す.アンケー 8 0票であるのに対して,回収した数の合計は 2 5 8票である(回収率 9 2 . 1 % ) . トの配布数の合計は 2 このうちすべての設問に回答した有効回答数の合計は 2 5 0票である(配布数に対する有効回答率は 8 9 . 3 % ).有効回答のうち男性による回答は 2 0 1票,女性による回答は 4 9票である. 表 2 のようにひったくり発生マップロのわかりやすさ,自己の行動を考える上での有用性,防犯行動 全くそう思わなし、」を 1,r あまりそう思わなしリを 2,r どちらともいえ への影響などに関して質問した. r ややそう思う」を 4,r とてもそう思う」を 5とする 5件尺度法で質問した. ない」を 3,r 表 lアンケート調査を実施したセミナー等の概要,アンケートの配布数・回収数・有効回答数 実j } 包日 セミナ一等の名 称 、 主催者 開催場所 アンケート 配 布 回 収 有効回 数 数 容数 有効回 答率 1月 1 4日 G I S をどう活か 社団法人フンド、スケ 東 尽 体 育 (金) I I月 2 0日 (木) 1 2月 l日 (月) 1 2月 4日 (木) 1 2月 4日 (木) すか 環境・ラ ープコンサルタンツ 館(東京都 ンドスケープ分 協会・(株)環境コミュ 渋谷区) ニケーションズ 野での実際 日本 E S R I • 日本 ESRI'ERDAS 青山 TEPI ERDASユーザ、 ユーザ会 A(東 京 都 会2 0 0 3 港区) 国 土 交 通 大 学 国土交通省国土交 国 土 交 通 校 専 門 課 程 調J I 通大学校 大学校(東 京都小平 量技術研修 市) 授業「社会科学 早稲田大学 早稲田大 のための基礎コ 社会科学部 学(東京都 ンヒ。ュータ EJ 新宿区) 授業「環境情報 東尽情報大学 東京情報 環境情報学科 大学(千葉 論J 県千葉市) ‑224‑ 8 4 6 8 6 4 7 6 . 2号 も 3 5 3 3 3 3 9 4 . 3 % 1 9 1 9 4 . 7号 も J 8 9 2 2 2 2 2 0 9 0 . 9 % 1 2 0 1 I6 1 1 5 9 5 . 8 % 2 8 0 2 5 8 2 5 0 8 9 . 3 %
表 2 質問項目の平均値と標準偏差 質問項目 Vl ひったくり発生マップによる犯罪情報の提供はわかりやすし立思う V2 ひったくり発生マップを見て,ひったくりの発生場所についての認識が深まった V3 警察からのひったくり発生情報は正確であると思う ヶ月前の情報であることは,自分の行動を考える上で充分新ししせ思う V4 長くても 1 ひったくりの発生場所を警察がインターネットで、公開することは,自分の生活の安全 V5 に役立つと思う V6 最近のひったくりの発生場所を知りたし立思う V7 ひったくりが多い地域に出かけるときは,鞄の持ち方などに気をつけようと思う 家族・同僚・近所の人などにもひったくり発生マップを見せて,防犯について請し合 V8 ってみたいと思う 平均値 標準 偏差 3 . 6 2 0 3 . 7 7 6 3 . 5 8 4 3 . 2 5 6 . 9 4 4 . 8 7 1 1 .0 7 1 1 . 0 9 1 4 . 1 6 0 . 8 7 1 3 . 8 6 4 3 . 9 3 2 1 . 0 8 3 1 . 0 6 9 3 . 2 2 0 1 . 1 7 5 3 .因子分析の結果 質問項目に対する回答の聞に有意な相聞が多く見られた.このため質問項目に対する回答につ いて探索的に因子分析を行い,その次元を縮小する. オフ。ションとして PRIORS=SMC,SCREEを指定した FACTORプ口、ンジャにより, 固有値を算出し た. (詳細はプログラムリスト参照).これにより,質問項目の一つを被説明変数とし,他のすべての質 問項目を説明変数とする重回帰式による重相関係数の 2乗圧を,相関行列の対角成分に置き換え た行列の固有値が算出される.図 iのスクリープロットにはその固有値が大きい順に示されている. 第 lの固有値と第 2の固有値,第 2の固有値と第 3の固有値の差と比べて,第 4の固有値以降の 固有値の差が少ない.そこで第 l因子から第 3因子までを抽出することにした. NFACTOR 寸 , METHOD=ML,ROTATE=PROMAXのオプ、ンョンを指定した FACTORプ口、ンジャ を実行した.つまり,探索的因子分析により第 3因子まで、を最尤法によって抽出し, promax回転を行 った.その因子パターン行列を表 3に示す.各因子に高い因子負荷量を持つ質問項目から,第 i因 子を「自主防犯行動」と,第 2因子を「情報認識」と,第 3因子を「情報に対する評価」と命名する. 表 3 promax回転後の因子パターン行列 (標準化された回帰係数による) 因子 変数 第 l因子 第 2因子 第 3因子 ー. 1 4 1 . 6 7 8 . 1 1 4 Vl V2 . 2 9 5 . 5 4 0 ー. 0 2 7 V3 . 0 2 2 . 2 7 9 . 1 9 6 ー. 1 0 2 V4 . 1 1 8 . 3 8 2 . 2 4 2 . 2 2 5 . 3 4 7 V5 ー. 1 2 6 . 2 0 0 V6 . 7 1 6 8 V7 . 0 3 5 ‑ . 0 4 3 . 5 3 3 V8 . 0 6 3 ー. 1 6 7 . 6 8 9 注)因子負荷量が 0. 250以上であるものに 網掛けを施した. 3 2 . 5 回)樗回 2 1 . 5 』 0 . 5 O ‑ 0 . 5 2 3 4 5 6 7 固有値の順位 図 l スクリープロット F h υ ー つ 白 つ
4 .構造方程式モデルの構築と分析結果 以上の結果から潜在変数を設定し,構造方程式モデ ルを構築する.まずひったくり発生マップを閲 覧することによって,そのわかりやすさ等について閲覧者は「情報認識」を行う.次に自己の行動を 考える上での有用性について「情報に対する評価」がされ,最後に「自主防犯行動」に結び、つくと仮 定する.このように認識が評価に,評価が行動に影響を及ぼすとし、う認知的流れに沿って,モデルを 構築する. 以上の仮説に基づいたモテ、ルを表現したパス・夕、イアグラムを図 2に示す(ただし図 2には後述す る分析結果も併記している).図 2において,直接に観測することができない潜在変数は楕円で固ま れている.また潜在変数を推定するために実際に測定される観測変数は長方形で固まれている.こ こで表 2のように質問して測定された結果を観測変数 VIから V8としている.前述の因子分析の結 果から,潜在変数「情報認識」の影響を受ける観測変数は VI,V2,V3 のみであるとし,その他の観 測変数はその影響を受けなしせ仮定する.同様に潜在変数「情報に対する評価 jの影響を受ける観 測変数は V4,V5のみであると仮定し,潜在変数「自主防犯行動 J の影響を受ける観測変数は V6, V7,V8のみであると仮定する. 分析には CALISプロシジャを用しも(詳細はプロク、、ラムリスト参照).相関係数ではなく,分散共分 散行列によって計算することを COV(または COVARIANCE)オプ、ンョンによって要求する (La汀 y H a t c h e r 1 9 9 4 ) .METHOD=MLと指定し,最尤法によってモデ、ルを検討した.モデ、ルの適合度指標 i tI n d e x )の(直は 0 . 9 7 2,AGFI(AdjustedGoodnessofF i tI n d e x )のf 直は 0.944 である GFI(GoodnessofF であり,いずれも非常に高い値を示している.したがってデータとモデルの適合度は充分高く,構成 されたモデ、ルは標本共分散行列をよく説明していると考えられる. この分析結果を図 2に示す.単方向の矢印には標準化されたパス係数を付した.想定した潜在変 数によって説明されない,観測変数の分散を生じさせる誤差の項を e,原因となる潜在変数によって 説明されない,結果となる潜在変数の分散を生じさせる誤差の項をとで表した. 仮説「母パス係数は Oである J に関する I検定の結果,すべてのパス係数について有意水準 1%で e l e2 e4 e3 e5 と1 e6 と2 図 2 構造方程式モデ ルの構築と分析結果 e7 e8 nhu 白 つ 白 つ
この仮説が棄却された.潜在変数から観測変数へのパス係数はし、ずれも正の値を示していることか ら,潜在変数と観測変数とは正の関係にある.潜在変数と観測変数との関係についてモデルにおい て想定したとおりの結果が得られたとし、える. 潜在変数聞のパス係数も正の値を示し,かつ有意である.このことから情報認識が深ければ,情報 の有用感の評価が高まり,防犯行動をしようとすると考えられる. 潜在変数「情報に対する評価」から観測変数 V5へのパス係数 (0.754)と比べて,観測変数 V4への パス係数(0.286)が小さい.つまり自分の行動を考える上での有用感と比べて,情報の新しさに対す る評価は潜在変数「情報に対する評価」との相関が小さい.ひったくりの発生場所が移り変わる期間 に関する情報を警視庁のひったくり発生マップ公開ページは提供していないこともあって, 1ヶ月に 一度の更新であることが自己の行動を考える上で新しし、かどうかについて受け止め方が回答者によ ってばらついた可能性がある.ひったくりの発生場所が移り変わる期間に関する情報があわせて提 供されることが望まれる. 潜在変数「自主防犯行動」から観測変数 V6へのパス係数 (0.799)と比べて,観測変数 V7や V8へ のパス係数が小さい.最近のひったくり発生場所をひったくり発生マップで、知ろうとする行動は多くの 回答者にとってしやすし、ものの,鞄の持ち方に気をつけたり,知人にもこれを見せて相談したりする 行動は回答者によって差異があると思われる.目的が犯罪発生の予防である以上,犯罪発生状況 の情報を公開するにあたっては閲覧者にその有用性を評価させるのみでなく,このような防犯行動 を促す余地が残されている. 参考文献 L a r r y Hatcher (1994) A s t e p ‑ b y ‑ s t e p approach t ou s i n gt h e SAS s y s t e l l lf o rf a c t o ra n a l y s i s and s t r u c t u r a le q u a t i o nI l lo d e l i n g .Cary ,NC:SASl n s t i t u t e,p . 1 6 7 . 大 場 亨 (2004) ひ っ た く り 発 生 マ ッ プ に 関 す る ア ン ケ ー ト の 結 果 . < hnp://homepage2.ni匂 . c OI l l/ tohruohba/i n d e x . h t m> . 大場亨・中村尚志・原慶太郎 (2005)r インターネット上のひったくり発生マップに対する認知的評価と 防犯行動との関連 J ,GIS‑理論と応用, Vo. I1 3, No.l,p p . l ‑ l O . 分析に利用したデータとプログラム TITLE 'Crime' ; DATA crime(TYPE=CORR); INPOT TYPE $ NAME $ V1 V2 V3 V4 V5 V6 V7 V8; CARDS; 250 250 250 250 250 N 250 250 250 MEAN 3.6200 3.7760 3.5840 3.2560 4.1600 3.8640 3.9320 3.2200 STD 0.9461 0.8723 1.0731 1.0933 0.8726 1.0855 1.0714 1.1769 CORR V1 1.0000 l nL ︐ 弓n L
CORR V2 0.3977 1.0000 CORR V3 0.2511 0.2175 1.0000 CORR V4 0.1915 0.1699 0.1562 1.0000 CORR V5 0.2734 0.3639 0.2815 0.1926 1.0000 CORR V6 0.0472 0.2943 0.1409 0.1614 0.4174 1.0000 CORR V7 0.0616 0.2329 0.0731 0.0595 0.2780 0.4029 1.0000 CORR V80.0537 0.2634 0.1777 0.0434 0.2511 0.4699 0.3ユ45 ユ.0000 RUN; PROC FACTOR OATA=crirne NFACTOR=3 METHOO=ML PRIORS=SMC ROTATE=PROMAX SCREE CORR RES; VAR V1 V2 V3 V4 V5 V6 V7 V8; RUN; PROC CALIS OATA=crirne METHOO=ML COV GTOL=O.OOOl ALL; LINEQS V1 = 1.00 F1 + E01, V2 = L2 F1 + E02, V3 = L3 F1 + E03, V4 = 1.00 F2 + E04, V5 = L5 F2 + E05, V6 = 1.00 F3 + E06, V7 = L7 F3 + E07, V8 = L8 F3 + E08, F2 = G1 F1 + 01, F3 = 81 F2 + 02; STO E01‑E08 = OEL01‑0EL08, 01‑02 = PSI1‑PSI2, F1 = PHIユ ; RUN; ‑228一
S A S Forumユ ー ザ ー 会 歌舞伎公演演目の多変量解析 ‑ r安宅の関 Jは「またかの関 J?ー 坂部裕美子 財団法人統計情報研究開発センター AMultivariateAnalysisontheSubjectofKabuki Performance YumikoSakabe S t a t i s t i c a lInformationI n s t i t u t ef o rConsultingandAnalysis 要旨 現在の歌舞伎興行は、時 l こ5座が同時に歌舞伎公演を行うこともあるほどの活況を呈 しているが、近年は上演演目に大きな偏りが見られ、一部の演目の上演頻度が極端に 上がっている。中でも「勧進帳」は、場名の「安宅の関」から「またかの関」と呼ばれること さえある。このような現状について、上演データを用いて解析する。 キーワード: 歌舞伎、移動平均、 FREQプロシジャ、 CORRESPプロシジャ はじめに 日本の伝統演劇の一つ・歌舞伎は、ユネスコ世界無形遺産に指定されたり、大きな襲 名興行が続いたり、と昨今特に注目が集まっているが、「歌舞伎」としづ演劇l の有り様は [ 団 近年大きく変わっている。歌舞伎が発祥した江戸時代、名優と謂われた九代目市)I 十郎たちが活躍した明治時代にまで遡らずとも、昭和期と平成期の歌舞伎を比較する だけでもこの変容ぶりは明らかなのである。特に言われるのが、上演演目のパターン化 である。ここでは、実際の歌舞伎上演リストを元に、近年の歌舞伎の上演傾向を探り、さ らに「よく上演される演目」が持つ特徴を分析してみようと思う。 1.対象とする歌舞伎公演データについて 今回の分析には、社団法人日本俳優協会(歌舞伎俳優・新派の俳優を主な構成員と 2 2 9
する組織)で作成されている「歌舞伎上演データベース J1を使用する。
現段階での収録期間は 1946 年 ~2005 年で、収録対象は歌舞伎座・新橋演舞場・
国立劇場・御園座・南座・松竹座・博多座、さらには既に開場してしまった中座なども加
えた、東西の主要劇場における全公演データである(一部欠データあり)。データは上
演時の筋書(公演プログラム)に準拠して作成されている。
図 l 歌舞伎上演 DBの構成(イメージ)
:劇場名
上;貫主草月
喜
;XIl世E 2
αC
1
5
I
回1
0
1
;
‑
IEl種矧dl!種
フ
ヲ
'
"
,ν
7
n
tトッ!¥'lt
'
J
ラ
̲U
.IWt
唾重工温特
;費目名
酷右
l~ 若江戸の初櫓
八代目中村勘
I
J
J
太 即2
、 太 夫 出 雲 の 問 松竹百十周年一記盟念主十一
l
国
+
E
=
L
?
Z
a
M
E
行賀額市倉冨自里由万左兵衛街門=圃弥
重 書三郎作民 名 世 話 三 月 大 相 置 、 田 明
W51
由/白
;聖舞世E 2
ヘ
イ
守
二IJ
7
.
I
"
l1
→心力ン
平1
1女 路 島
口上
f
愛寛
奪回町1
9
、丹左閉門 松 竹 百 十 周 年 記 士 十 八 代 自 9村 勘
酎昌男腹=綱玉4
.
;
1:女平島三魁 三 由 襲 名 櫨 露 三 月 大 量 舞 置
署2 丹;~少円躍経=秀太即砲、
壇寛骨量都
官調軍尾帽太即
=J
空
E
襲E
置色=段調目尾即世久侍平=判
宰
;~Il世E
2
α'
:
1
51
03/
α
3
コ
ウ
〆
。
~Il世E
2
αヌ5
パ)3/剖
イ
ヂS
l
t
'
)
,
tl'
n
t
J
1
J'
1
)‑
t
口 上 勘 九 即 司 め 勘 即1
6 之 世竹百十周年記;t十八代目中村勧
1
.
¥
7 雀 右 衛 1'14・富十島田・又五 三即髄名複露三月大~Il桂.勘九即
理ロ
め十八代田岡
よ
P
村勘三即髄名彼面
J
問
玉5
4
2・玉仁三左E
犠E
門z
目結審撃
2田笠町置
1
9
ち
・
繍左
"..・'"り
悔大量四
!t壇'!I!暗
後 大i
lJl厩=勘九即司め勘
6 常量即断=雀右衛門
三 郎1
4
吉岡鬼;~卸=仁左衛門市、
世竹百十周年記:t.十八代自中村勘
三曲襲名撞~三月大~,警官、肋五郎
明め二代E
I
<
!
'トHl
左 街 門1
1名
見,欠即女肩.a8:=玉三!15、八
制官官官 m-Ik 宮町:>tJØ\'lI t~再
2
. 上演頻度集計
2
.
1 データベースのデータに基づいた単純集計
このデータベースの「演目名」を FREQプロシジャで、集計してみると、上位 10演目は
以下のとおりとなる。なお、本論中では「その舞台の実際の上演回数」ではなく「ある劇
場のある月の公演演目として掲げられた頻度 jを集計対象としていることにご留意願い
たい。
表 l 度数集計(その 1)
順位
演目名
義経千本桜
2 仮名手本忠臣蔵
3 菅原伝授手官鑑
4 勧進帳
5 京鹿子娘道成寺
6 藤娘
7 一谷撤軍記
8 仮名手本忠臣蔵
9 口上
10 連 獅 子
回数
209
208
147
115
87
76
70
65
6
1
56
一
この結果はそのままでは使えない。歌舞伎独特の問題が看過されているからである。
まず、演目の表記の問題である。 FREQプ口、ン、ジャは当然ながら新字・旧字の違いもデ
リケートに判別し、別データとして計上するので(表 lの 2位と 8位参照)、この合算を
行わなければならない。さらに、「加賀見山旧錦絵」という演目を「鏡山旧錦絵」と題して
上演することもある。このような演目の名寄せ作業も必要である。
1
仮称。現在、将来の公開に向けて補完作業中である。
2
3
0
次に、全く別の演目名がついていても、同ーの演目をさす場合の処理がある。有名な 「弁天小僧(弁天娘女男白浪)Jは、実は「青砥稿花紅彩画」としづ長い話の一部分(た だし通しで上演されることは少なし、)なので、正確な回数を数えるためにはこの両者の合 算も行わなければならない。そして、「助六」と呼ばれる芝居には、誰が主役の花川戸助 六を演じるかで演目名が全く変わる、としづ約束がある。これらも合算しなければならな し 、 。 また、演目名「口上」として記録されているものの上演数は 61 回だが、実はこの他に 追 善 口 上 JI 初舞台披露口上」という演目名でも数多の計上がある。こ 「襲名披露口上 JI れらは、今回のようなテーマの集計においては、すべて合算するのが望ましいであろう。 春興鏡獅子」そして「弁 これらを勘案した上で再集計した結果が表 2である。「口上 JI 天娘女男白浪」の躍進ぶりが分かる。 表 2 度数集計(その 2) l 順位 演目名 仮名手本忠臣蔵 2 義経千本桜 3 菅原伝授手習鑑 4 口上 5 勧進櫨 6 京鹿子娘道成寺 7 春奥鏡獅子 8 藤娘 9 一谷撒軍記 1 0 弁天娘女男白浪 回数 273 213 149 147 122 87 78 76 70 6 6I 2.2 I 通し上演 Jの概念の加味 この上演記録集計を見ると、「歌舞伎三大狂言」と言われる「仮名手本忠臣蔵 JI 義経 菅原伝授手習鑑」がきちんと上位にランクインしている。なるほど、 千本桜 JI ι思えるとこ ろだが、まだ考慮すべき点がある。このデータは基本的に l幕を lデータとして扱って いるため、続き物で上演幕数が多いもの(例えば「忠臣蔵」 は通し上演では通常全 10 幕前後の構成になる)は、 l度通し上演されると上演数のカウントが急激に上がってしま う。これらをそのまま合算した値を比較するのは不合理に感じられる。 そこで、この三演目のデータについて、「通し上演であるが故の回数計上過多」の要因 を取り除くために nodupkeyオプションをつけて上演年月でソートしてみたところ、「義経 千本桜 J137、「菅原伝授手習鑑Jl13、「仮名手本忠臣蔵 J84となった。 とはいえ、ある月の所定の舞台公演時間をその演目の世界が占めているのは紛れも ない事実であり、この処理は必要ないとしづ考え方もあると思われるため、この処理の是 非は一概には言えない。 2.3 I 一幕」単位での上演数による比較 ‑231‑
ところで 2 . 2の処理で注目されるのが、「忠臣蔵」は本来の目的に応じてデータ数が相 当量減った(通し上演で、あるが故の重複計上が多かった)のに対し、「菅原伝授」はほと んど減らなかった、ということである。そこで、「場名・通称」データを用いて、三大狂言そ れぞれについて個々の幕別上演数を確認してみたところ、「菅原伝授」では「寺子屋」が 63と、総上演数の 42%を占めていた。「菅原伝授」上演と言っても、「寺子屋」の単独上 演であることが相当多いと考えられる。ちなみに「千本桜」で一番多かったのは「道行初 音旅(吉野山)Jの 742、忠臣蔵では「六段目」のりだ、った。 ここで、再度表 2をご覧頂きたい。ということはつまり、「口上」以外の筋立てを持った 演目で、幕単位の上演回数が最も多かったのは、有名な「勧進帳」ということになる。 3 .r 勧進幅」人気の理由 3 . 1 i 勧進帳」とし、う演目について 「勧進帳」は、頼朝に追われ奥州│へと下る途中の義経主従が、現在の石川県小松市 にあったとされる「安宅の関」に差しかかった折、関守富樫左衛門に一且は見答められ るものの、弁慶の日出嘩の機転で難を逃れる、とし、う物語である。歌舞伎の入門書には必 I 染みの演目であり、白紙の勧進帳の読み上げや ず掲載されている、広く知られたお国[ 最後の飛び六法などの見せ場もある。 最近では、九代松本幸四郎の「勧進帳」の弁慶上演回数 800回達成(ちなみにこれは 当然「実際の上演回数」である)がニュースになっているが、実は今回の集計結果は特 段に意外性はなく、「勧進帳」は相当以前から「人気演目」として認識されていたようで、 時に「安宅の関」をもじって「またかの関」などと抑撤されているのである。 3 . 2 i 勧進帳」の上演傾向 00回を超える上演回数を積み上げてきた過程を振り返るために、 「勧進帳」が 1 1946年から 2005年までの「勧進帳」の年間上演回数の 5年ごとの移動平均をとったも のが次ページの図 2である。直近の数年を除くと、左側の昭和期から右の平成期に移 行するに従い上演頻度が上がっているのが分かる。実際のデータでも、 1960~70 年代 には「勧進帳」の上演が全くなかった年もあるのに比べ、 1985年以降は現在に至るまで 東西のどこかで毎年一度は上演されるようになっている。 3 . 3 i 勧進帳」が持つ要素 「勧進帳」がこれだけ繰り返し上演されるのには、いくつかの理由が考えられる。 「義経もの」である 源平合戦で大功績を上げながら、後には兄頼朝に疎まれ陸奥の地で自害して果てる、 とし、う義経物語は、「判官最眉」という言葉を生み出したほど有名なストーリーである。歌 舞伎の歴史を紐解くと、一部の地芝居では、義経の登場しない演目を上演すると観客 2ちなみに「道行初音旅(吉野山 ) Jは、「平本桜」の名称を被せない単独の舞踊としても 13回計上されている。 nL つ AU nL
図 2 r 勧 進 帳 J年!向上演回数移動平均 ( 5年ごと) 4 3.5 3 2.5 2 1 .5 o .5 。 から「義経を出せ」と野次が飛ぶので、義経に扮した座長が筋立てを無視して舞台に登 場し、そのまま素通りして事を収めたというエピソードもあるようである。「勧進帳」はまさ にこの義経にまつわる物語である。 「歌舞伎十八番」の一つに挙げられている 得意なもの、お家芸としづ意味で用いられる「十八番 Jとしづ表現は、歌舞伎の世界を 超えて広く知られている。歌舞伎にあまり明るくない人で、あっても、「歌舞伎十八番の内 勧進帳」とし、う演題を聞いて、とにかくこれは歌舞伎の中の歌舞伎に違いない、と考える こともあるかも知れない。 「飛び六法」とし、う派手な演出がある 歌舞伎の舞台機構の中でも有名な装置の一つが花道である。これを最大隈に利用し た派手な演出「飛び六法」で「勧進帳」が幕切れになることも、非常によく知られている。 あの勇壮な引っ込みだけでも見てみたい、と思う人は少なくないであろう。 そこで、、これらをヒントに、「よく上演される歌舞伎」の特性として以下の項目を考えてみ た 。 l 主人公が歴史上の有名人である (源平合戦の勇者、戦国時代の武将など) 2 作者が「名作を世に送り出した人物」として有名である (何竹黙阿弥、鶴屋南北、近松門左衛門など) 3 r 宙乗り Jr 早替わり Jr 六法 Jr 毛振り」など、演出に見所がある 4 源平合戦を題材にしている 5 似たようなテーマのシリーズ作品が他にもある (お染久松もの、先代萩ものなど) 6 r 歌舞伎十八番」などの冠がつく 町︑ υ ︑ ηυ つω
7 i 縁起もの Jの演目である (曽我もの、三番盟など) さらに、上演回数が 1 0回以上の 170余作品について以上の 7項目を評価し、それ ぞれをダミー変数として CORRESPプロ、ンジャを用いて数量化してみた。以下の図 3が それである。 図 3 数量化 E類による図 源平もの 1 .5 主人公が有名 15 一引 る M 巴 合 あ 所 見 出 演 111‑pl O D 蕃 体 + 鞍 鐘 作 陥│ 麿 曲 者 ‑1 1 .5 縁起もの ちなみに図中の A 、B、C、Dは上演回数のクラス属性で、 A が最も上演頻度が高いグ ループである。歌舞伎には源義経を始めとする源平合戦の勇者を題材にした作品が数 多く存在し、「勧進帳 Jはその代表のようにさえ言われているのだが、今回の分析結果を 見ると、「勧進帳」の上演回数が多い理由は、むしろそれよりも「歌舞伎十八番 Jという看 板や、派手なヲ l っ込みの方が強く効いているように思われる。 また、今回は主として作品の内容から特性を分類したが、一つの「興行 Jとして演目を や「上演時間 Jは意外に大きく関わってくる要素 見た場合には、例えば「出演者の人数 J かも知れない。これらについても、資料が揃えばぜひ今後考えてみたい。 一234一
4 . おわりにー歌舞伎全体の上演傾向について ところで、こんなにも繰り返し演じられる、とし、うのは上演回数 1位の「勧進帳」だけの 特徴なのであろうか?実はそもそも、表 1~2 に掲げた演目の上演頻度は、この 60 年 の上演史からしても異常なのである。 2 . 1の表 2(重複処理済み)の集計結果の度数分布が表 3である。全演目リストから 見ると、実は「再演される演目」そのものが少ないのである。 表 3 上演回数の度数分布 回数 2 3 4 5 6 7 8 9 1 0 1 5回以下 20回以下 25回以下 30回以下 50回以下 50回超 頻度 800 170 94 54 35 33 24 1 4 1 6 1 1 45 24 25 1 6 35 1 5 さらに加えて近年、歌舞伎の上演演目のパターン化が噴かれている。上演データベ ースから該当する 1年間の上演記録を抜き出し、 nodupkeyオプションを用いて演目名 、 1950年分から 2004年分まで 2年ごとに作成して でソートした「年間上演演目リスト Jを 前後のデータを mergeし、「上演演目リスト掲載数=年間総演目数」と「その年上演され た演目の中で、 2年前にも演じられていた演目の数=再演数 Jとを比較してみると、「再 演率」は 1950年代の 18%から 1990年代には 32%に上がっている。これはある年の 上演データを 2年前のデータと直接比較したものであり、再演・非再演には「偶然 Jの関 与が大きい可能性もある。しかし、総演目数が伸び悩んでいるのに比して、再演数は緩 やかな上昇が続いている、としづ傾向は読み取ることができる。つまり、「再演の頻発」と しづ現象自体は、「勧進帳」に限った問題で、はないのである。 上演演目の固定化については、日本演劇学会紀要第 24号所収の「シンポジウム『歌舞 伎の現状を批判するj)J中で 1986年に既に指摘がなされている。だが、昭和から平成と時 代を経るに従い、舞台に上がる俳優を取り巻く環境も、歌舞伎を見に行く観客の姿勢も 大きく変わっており、その中に「パターン化 Jが支持されるようになってきた要因があるの も確かである。 ‑235
このシンポジウムでは「若手たちが自分の親たちの得意芸だけを伝承している Jr 古典を 補助するための復活狂言が、今日にあっては逆に古典を圧迫する状況が出てきている」な どの興味深い指摘もあるが、この問題についてのこれ以上の詳細な分析はここでは割 が「またかの関 J と呼ばれることそれ自体については、どうやら統 愛する。が、「勧進帳 J 計的に見ても異論は出せないようである。 参考文献 rSASによるデータ解析入門」竹内啓監修、市川伸一・大橋靖雄・岸本淳司・浜田知久 馬著 柳井晴夫・岡太彬訓・繁桝算男・高木慶文・岩崎学編 「多変量解析実例ハンドブック J 学会紀要 J 24号 「日本演劇l u phu q o ︐ ︒
S A S Forumユ ー ザ ー 会 消費者の製品関与と考慮集合 河崎一益・ 0松 沢 利 繁 料 株式会社日本アルトマーク統計解析部事 側インターナショナル・クリエイティブ・マーケティングプロダクショング、ループ柿 ConsumerP r o d u c ti n v o l v e m e m a n dC o n s i d e r a t i o nS e t Kazumasukawasaki 事 T o s h i s h i g eMatsuzawa. . n c . S t a t i s t i c a lA n a l y s i sD i v i s i o n,UltmarcI ネ P r o d u c t i o nGroup,I n t e r n a t i o n a lC r e a t i v eMarketing 梓 要旨 消費者の購買行動(消費者の情報処理システム)については、様々な先行研究がなされて しも。多くの研究の中で、消費者の製品カテゴリに対する関与の重要性が説かれており、関与 の形態についての研究も数多くなされている。しかし、関与が具体的な消費行動にどのように 影響を与えるの泊、に関する実証研究はあまりなされてこなかった。これは関与をどのように測 定するの泊、としウ問題があったためで、ある。 今同の研究は、関与の測定方法、関与がどのように消費者の購買行動に影響を与えるの かについて、デ キーワード: 製品関与、考慮集合、ロジスティックドl 帰 、 JMP 1.問題の背景 消費者の行動については、その製品カテゴリに対する関与が様々な影響を与えている。 一般的に「関与」は、何人が知覚するかれにとっての関与対象の重要性を意味するものとみ なすことができる"と定義されている。ところが、関与は過去の研究から商品関与・ブランド関 与・広告関与等に分類されており、関与がどのように実際の消費行動に影響を与えるのかに ついての実証的な研究の事例は概めて少ない。この背景には関与の定義が前述のように複 雑になってきたことと、それにより関与の測定が困難なことによるためである。 今同の研究では、関与白体を複層的な構造と捉えるのではなく、できるだけ分かりゃすい (測定しやすし、)構造として捉え、そこで測定した関与度と消費構造との関係を見る事を目的と した。 可 ' ' qu 釘 つ
2 .調査の設計 分析に使用するデータを得るためにインターネットを利用したアンケート調査を行った C 実施は以下の 2つのステップ。に沿って実施したO ①インターネットで、過去 1 年間のデ、ジタルカメラの購入者と今後 l 年以内の購入予定者をス クリーニングした。 ②適格者について本調査を実施し、同収は過去 1 年間の購入者と l 年以内の購入予定者を 半々に割り付けた。 スクリーニング状況と最終有効集計数は以下のとおりである。 表1.スクリーニング状況 性・年代 男 性 女 性 2 0代 3 0代 4 0代 5 0代 2 0代 3 0代 4 0代 5 0代 J 十 1年 間 の 購 入 者 メール発送数 メール返送数 (実数) (実数) 実数 2 1 5 3 8 4 4 4 1 4 8 7 2 8 5 3 2 2 3 7 7 4 4 9 2 9 6 0 1 4 0 0 1 4 0 0 1 4 0 0 1 4 0 0 1 4 0 0 1 4 0 0 1 4 0 0 1 4 0 0 1 1 2 0 0 発送数に 対する比率 4 . 6 7 . 9 7 . 6 1 0 . 6 5 . 9 6 . 8 5 . 8 8 . 9 7 . 3 6 5 1 1 0 1 0 6 1 4 9 8 2 9 5 8 1 1 2 4 8 1 2 1年 間 の 購 入 予 定 者 実数 5 4 8 4 9 9 8 7 72 6 2 6 9 7 7 6 0 4 発送数に 対する比率 3 . 9 6 . 0 7 . 1 6 . 2 5 . 1 4. 4 4 . 9 5 . 5 . 4 5 表2 . 最終有効集計数 1年 間 の 購 入 者 性・年代 女 2 0代 3 0代 4 0代 5 0代 2 0代 3 0代 性 40{~ 男 性 5 0代 三 十 実数 1 2 3 1 3 3 5 8 2 3 3 1 2 2 4 0 2 5 0 全体に対 する比率 2 . 4 6 . 2 6 . 6 1 1 .6 4 . 6 6 . 2 4. 4 8 . 0 5 0 . 0 1年間の購入予定者 実数 1 8 3 3 4 4 4 3 3 2 3 1 2 2 2 7 2 5 0 全体に対 する比率 3 . 6 6 . 6 8 . 8 8 . 6 6 . 4 6 . 2 4 4. 5 . 4 5 0 . 0 調査時期は2月の上旬、調査項目は以下のとおりである。 ・デ?ジタルカメラの購入時期(予定者は予定時期)購入価格(同じく予定価格) ・利用目的、購入重視点 ・認知銘柄、購入銘柄(購入考慮銘柄)、認知銘柄イメージ、購入銘柄(現時点での購入 意向銘柄) ‑デ「ジタルカメラに対する意識、対象者属性 2 3 8
3 .分析の流れ ①デ、ジタルカメラに対する意識 23 項目(平久保が関与度を測定する項目として定義した 6 項目を含む)を用いて因子分析を行い、因子を抽出する。 ②抽出した因子の中で、関与に大きな影響を与えているものを関与因子とする。 ③関与因子の得点について、属性との関係を評価する。 ④関与因子の得点によりグループ分けを行う。 ⑤関与因子の得点の高低により消費者の行動に違いが見られるのかを検証する。 4 .関与因子の抽出 平久保が関与度を測定する項目として定義した 6項目を含めた 23項目について因子分析 を実施した。 表3 . 因子分析の結果 FACTI FACT2 FACT3 FACT4 FACT5 事デジカメの性能をよく比較する 0 . 7 8 1 1 2609 0. 0 . 2 1 5 4 0 . 1 0 3 0 0 . 0 1 2 0 *デジカメを購入する際;こは充分時間を使いたい 0 . 7 6 3 3 0 . 1 0 1 2 2902 0. 0 . 0 2 4 4 0 . 1 1 1 1 寧デジカメの新製品;こは興味がある 0 . 7 1 7 4 0 . 1 1 5 8 0 . 1 5 5 7 0 . 3 2 3 2 0 . 0 9 9 5 0 . 6 5 0 2 4678 0. 0 . 0 1 3 8 0 . 1 1 3 9 0 . 0 1 1 1 ' 色々な要素からデジカメを評価したい 0 . 6 0 9 9 心0 705 0 . 2 0 5 8 0 . 0 6 8 0 事 テ'ジカメの広舎に注意を払うことがよくある 0 . 6 0 8 7 。 0 . 1 9 1 9 ‑ 0 . 0 0 3 5 0 . 1 9 4 1 0. 41 0 8 写真を撮るために出かけることがある 0 . 0 0 9 8 0 . 0 1 1 1 写真は趣味のひとつだ 0 . 2 2 2 5 2337 0. 0 . 8 0 6 0 0 . 7 0 3 4 0 . 3 9 8 3 0 . 0 6 9 8 0 . 0 9 3 7 写真の腕;こは自信がある 0 . 0 8 0 1 0 . 6 6 4 3 0 . 1 3 5 2 0. 2234 0 . 1 7 6 8 デジカメ;こっし、、インターネット;こアクセスすることが良くある 0 . 2 1 0 4 1 7 4 7 外出する際はできるだけテージダノレカメフを持っていく 0 . 1 6 0 2 4880 0. 0 . 3 8 3 7 0 . 1 6 9 5 0 . 1 6 2 5 織った写真を加工したり、編集することがよくある 0 . 0 5 0 8 0. 4716 0 . 2 0 1 4 0. 40 0 1 0 . 0 7 1 7 昔のアノレハムを見ることがある 0 . 2 3 3 3 0 . 1 8 1 4 0 . 6 9 9 7 0. 2302 ‑ 0 . 0 9 8 9 うまく取れた写真は飾つにおきたい 0 . 1 2 8 1 0 . 6 7 9 0 0 . 0 9 2 3 0 . 1 4 0 0 写真を撮ることは楽しい 0 . 1 9 1 7 0 . 1 7 0 4 0 . 3 4 9 4 0 . 6 2 4 2 0 . 0 9 1 5 0. 1977 アノレベムの整理をするのは楽しい 0 . 1 3 2 0 0. 3836 0. 5769 0 . 2 8 4 0 0 . 0 5 8 3 撮った写真はいつまでも残 leおきたい 0 . 1 2 5 9 心0 399 0. 51 5 1 0 . 1 9 9 5 0 . 5 2 7 1 色々な使い方を試してみたい 0. 4478 0 . 2 5 1 7 0. 4690 0 . 0 5 3 6 0 . 1 9 7 8 デジカメのことについて友人知人から防j かれることが良くある 0 . 2 1 8 2 0 . 5 5 2 8 ‑ 0 . 0 4 1 4 0 . 6 2 9 8 0 . 0 0 9 4 0 . 4 1 5 7 0 . 0 8 4 6 0 . 6 2 0 6 0 . 0 8 1 7 撮った写真を友人などに見せることがある 0 . 2 1 5 0 0 . 0 6 9 5 0 . 1 8 2 7 0. 3847 0 . 6 1 7 5 0 . 1 7 4 3 美しい写真はある適度同価なでヂジカメでなし、と取れなし、と辺、う 0 . 1 6 0 2 心0 542 0 . 2 0 6 3 0 . 5 0 0 3 0 . 0 3 1 8 写真 i 土取るタイミングが大切だ 0 . 1 2 4 0 0 . 0 7 4 0 0 . 2 1 1 3 0 . 1 8 3 3 0 . 7 6 6 1 写真はカメフよりも取る人のセンスだと思う 0 . 1 6 8 5 0. 2028 ‑ 0 . 0 2 1 1 ‑ 0 . 0 3 7 2 Tジカメ ' ゾ ! ' L l 1 r !1 味 刈子 関'j.1 l 刈子 .If也の人とデジカメのことについ、話すニとがある I 刈 子 7 ' , 写j' q)" カメラ 刈子 パム l 刈子 知識 l 0 . 7 5 0 9 リ J ' . k 腕 同子 f 主) 事印は平久保の関与度測定項 F l 固 有 値 l以上の上記 5因子を抽出した。第 1因子は平久保の関与項目 6項目中 5項日が高 し、寄与を示しており、関与因子と呼ぶことができる。以下の 4因子については、寄与の高い項 目を考慮して上記のように名前をつけた O 2 3 9一
5 .関与因子と属性項目との関係 関与因子の得点分布を見ると以下のようになる。正規分布に比べ関与得点の低い層で度数 がやや高くなっている。 図l.関与因子得点の分布 2 5 . 0 2 2 . 0 2 0 . 0 1 5 . 0 1 0 . 0 5 . 0 ロ ロ ‑ J ロ ‑ J 句 句 ロ ' J b b・ 、 、口 / 句 < : > . 句 、 / ・ 、 、 口 b 'v t Jhb ‑J r Jbu 句︑ J 勺bJ byf ︐ JD ' J J b ~. 1 句 一 ︑ 0 . 0 、 句 J 属性別に、関与得点の平均を見ると以下のようになっている。 表4 . 属性別平均関与因子得点 年代 性別 購入状況 標本サイズ 平均値 標準偏差 20 代 8 5 0 . 1 8 2 4 0 . 8 4 3 3 30 代 1 2 6 0 . 0 3 7 4 40 代 1 2 1 0 . 0 9 4 6 ‑ 0 . 1 8 8 5 1 . 0 7 9 3 1 .0132 0 . 9 8 0 1 0 . 9 7 0 4 1 .0173 1 .0700 0 . 8 6 9 7 50 代 1 6 8 男性 272 0 . 1 2 2 2 女性 228 ‑ 0 . 1 4 5 8 購入済み 250 ‑ 0 . 2 2 6 3 購入予定 250 0 . 2 2 6 3 年代、性別、購入状況で、分散分析を行ったO 年代、性別では有意水準 5%で有意となり、購 入状況では有意水準 1%で、有意となった なお年代では 4層間で Tukeyの検定を行ったが、 C 20代と 5 0代の聞に有意水準 5%で有意な差がみられた。 これを見ると、関与度は若年層と年配層で差が見られ、性別では男性の関与度が女性に比 べ高くなってしも。また、これから購入しようとする層の方がすでに購入を済ませた層に比べ関 与度が高くなっている。 さらに、購入時期を X軸にし、購入価格を Y判l にとって関与得点の等高線をJMPの等高線 グラフを使用して作成すると次ページのようになる。 2 4 0ー
これを見ると、全体的には、購入金額が高いほど関与度が高くなる傾向にあるが、特に、購
入予定者で、なおかつ購入予定時期が遅い層ほどこの傾向が顕著である。また、すでに購入
した層は、購入時期が現在に近い層では購入金額が高くても関与度が低くなる傾向にある。
図2
.購入時期と購入価格による関与度分布
300000
250000
200000
~ 1
5
0
0凹
垣
1
0
0
0
0
0
5
0
0
0
0
関与度
‑く=ー1.
000
‑<=ー 0
.
3
3
3
,~
〆も,~
庁、、〆市tI,""'‑
事
与
望
長V
事
与
望
長V'
〆も弘
̲tn
"
'
lr
手帳V
、~\弘
、~
.{'l〆~長~,.
4
b
g
ぐ
岳P
'
‑
伺
.,~
A
'
¥
"
t
:
〆
8
現
場
陪V
購入時期
も,~
d
.
"
"
"
‑
tn
..~
,~~
tn
吋〆品〆、
局 長 , 局 長V
局蜂~'-
<
=0.333
面遍く=1.000
>
‑
1
.
000
6
.関与度の違いによる行動の差
関与得点がほぼ正規分布するものと考えて、全体を3つのグループ。に分けるために、 0.
4
3
以下(低関与層)と-0 .4 3~0 .43 (中関与層)、 0
.
43以上(高関与層)に分類した。この 3群別に
平均認知銘柄数(知っている銘柄の数)と平均考慮銘柄数(買ってもよいと思ってしも銘柄の
数を)見たものが以下の表である。
表5
. 関与度別認知銘柄数・考慮銘柄数
これをみると認知銘柄、考慮銘柄ともに関与度が高い層ほど平均値が高くなっている。従っ
て、関与度が高くなればなるほど、知っている銘柄が増え、購入してもよいとしづ銘柄数が増える
傾向にある。認知銘柄・考慮銘柄ともに 3層間で;
'
T
u
k
e
yの検定を行ったが、し、ずれも有意水準
1%で、有意となった。
2
4
1
さらに、ある銘柄が認知のみ(知っているだけ)集合に入るのか、または考慮(買ってもよい と思っている)集合に入るのかを、その銘柄のイメージがどのように影響するのかについて、ロ ジスティック同帰分析を使用して求めた。(どちらの集合に入るのかを、その銘柄イメージによ って説明した) 表6 . ロジスティック回帰分析の結果 全体的な結果を見ると、「手ぶれ防止機能がついている JI 評判がよい JI 画素数」の 3項目 のイメージを挙げると考慮集合に入る確率が高くなる傾向にあり、逆に「デジカメの色がたくさ ズームが簡単」のイメージが挙がると考慮、集合に入る確率が低くなる。 んある JI この分析を関与度別に実施したものが表 7である。 これを見ると低関与層では高関与層に比べ「デザインがよいjI印刷の簡単さ」のイメージが 考慮集合に入るために大きな影響度がある。逆に高関与層では「画素数 JI 評判がよし、」の影 響度が高くなっている c I 手ぶれ防止装置がついている」は関与度による違いはないものの考 慮集合に入るためには重要なイメージである。 ‑242‑
表 7 関与度別のロジスティック回帰分析の結果 推定値 p値 推定値 p j 直 , 0 . 9 4 3 5 0 . 0 0 0 3 ‑ 0 . 3 9 9 6 0 . 3 5 8 6 0 . 5 7 3 3 0 . 0 3 5 9 0 . 0 5 7 0 く0 . 0 0 0 1 0 . 1 9 1 0 0 . 0 9 0 7 0. 20 2 6 0 . 0 3 3 7 44 16 0. 0 . 0 1 3 3 0 . 5 2 6 9 0. 40 37 ‑ 0 . 0 2 2 1 0 . 0 4 8 6 すもく0 ; 00 0 1 0 . 0 3 3 3 0 . 7 4 2 2 < 0 ; 0 0 0 1 0 . 0 3 1 2 ‑ 0 . 0 3 4 1 0 . 2 6 4 0 0 . 2 0 3 0 0. 41 9 5 0 . 5 1 8 5 ‑ 0 . 0 1 8 1 0 . 0 0 5 6 0 . 9 1 7 7 ‑ 0 . 3 1 5 2 0 . 0 9 7 0 0 . 1 7 7 0 p j 直 切片 ‑ 3. 47 0 6 0 . 0 0 0 1 函素数 手ぶれ防止機能がついける 0 . 1 0 6 8 0 . 1 3 0 9 0 . 3 4 9 5 0 . 3 9 8 6 0 . 8 6 2 5 印刷の簡単さ 画像ファイルの編集がしやすい 0 . 7 8 1 3 ‑ 0 . 3 8 5 2 レンズの明るさ レンズの信頼性 デジカメ自体の扱いやすさ 南関与層 中関与層 低関与屑 推定値 句 訓 0 . 3 8 6 3 0 . 0 0 5 4 0 . 0 9 1 4 0 . 2 9 5 8 0 . 1 6 3 6 ‑ 0 . 0 7 2 2 0 . 2 8 4 7 0. 47 7 3 0 . 1 2 4 8 0 . 0 0 8 2 0 . 2 3 3 3 液晶モニターが大きい 連写が可能 かわいい 0 . 3 3 5 6 0 . 5 9 6 2 ‑ 0 . 1 0 3 5 0 . 2 8 9 4 0 . 1 3 4 4 0 . 1 0 3 7 0 . 9 8 0 3 0 . 0 0 0 1 0 . 1 5 3 4 0 . 1 7 7 3 ‑ 0 . 2 9 8 2 0 . 0 5 1 1 とった画像ファイノレが扱いやすい プザインが良い ‑ 0 . 3 4 4 7 0 . 2 4 9 7 0 . 2 2 5 7 0 . 0 1 1 1 0 . 6 5 5 1 ズームが簡単 ‑ 0 . 2 3 8 8 簡単に撮影できる 撮影モードがし、ろいろ選べる 0 . 2 6 5 6 0 . 3 4 9 4 ‑ 0 . 2 5 6 2 価格が手頃 軽い 有名メーカーである 付属品の多さ(レンズを含めた) 持ち運びのしやすさ 評判が良い デジカメの色がたくさんある 0 . 9 0 3 0 0 . 8 4 1 1 0 . 7 1 9 2 0 . 7 0 9 0 0 . 0 0 3 9 0 . 1 0 4 0 0 . 5 9 8 4 0 . 0 2 6 6 0 . 1 3 6 6 ‑ 0 . 1 7 7 8 0 . 1 6 5 7 0 . 0 0 5 7 ‑ 0 . 0 0 7 3 0 . 2 1 8 4 0 . 9 5 9 5 0 . 0 3 2 4 0 . 2 0 0 1 0 . 0 8 9 3 0 . 6 5 2 2 0 . 0 3 0 7 ‑ 0 . 1 6 2 0 0 . 2 7 0 6 41 8 9 0. 0 . 0 1 0 0 0. 25 7 2 ‑ 0 . 0 6 4 6 0 . 1 1 1 3 0 . 7 1 0 2 42 04 0. ‑ 0 . 0 0 4 9 0 . 1 2 4 2 0 . 2 4 7 9 ‑ 0 . 0 6 0 0 0 . 6 3 4 6 0 . 1 4 1 1 0 . 2 7 9 6 0 . 0 1 4 7 0 . 9 1 1 4 I 40 2 3 0. 0 . 1 3 9 2 0 . 1 2 3 3 0 . 3 9 6 3 ‑ 0 . 5 4 2 3 0 . 1 2 0 1 0 . 0 0 2 8 0 . 3 1 9 5 0 . 3 4 7 0 0 . 6 4 2 1 0 . 0 5 7 1 0 . 6 7 1 6 0 . 9 9 4 2 司 0 . 1 5 4 1 ‑ 0 . 0 7 7 6 0 . 0 0 0 8 0 . 1 9 8 6 ‑ 0. 40 2 8 同 o . o o o v 。 ト町一く . 9 8 0 0 0 . 1 8 9 1 0 . 0 2 2 2 . 6 7 1 8 。 0 . 0 9 6 9 0 . 0 0 6 2 I 7 今回の結果 因子分析による関与閃子の抽出は比較的うまく行ったと思われる o 関与度は購入前のほうが 高く、購入後は関与度が低下することが分かったc 関与度別に認知銘柄の数と考慮銘柄の数を見ると、関与度の高い層ほど認知銘柄数が多く、 又考慮銘柄数も多いことが分かった c さらに、認知だけの銘柄と考慮集合に入る銘柄を分けているイメージとしては、関与度によっ て異なっており、関与度の低い僧では「デザインがよい J I印刷が簡単」なと。の外見や取り扱い I評判がよし、」といったイメージとなっている c に関するイメージであり、高関与層では「画素数 J 従って、関与度によって「認知→考慮」の情報処理の仕方が異なってしも事が分かったo ‑243‑
8 .今後の課題 ①調査商品の選定 今同はデ、ジタルカメラを取り上げて調査を実施したが、商品自体に対する全般的な関与 度の違し、(関与度が全般的に低いと言われている日用雑貨商品一歯ブラシ・歯磨きなど、 逆に関与度が高し吃思われる高額商品一車など)(こよって消費者の関与度はど、のように異 なり、それがど、のように消費行動に影響を与えているのかを検証してみたいと思う。 ②関与の種類 今同は関与度を lつの種類として捉えたが、関与には様々なものがあると先行研究では 説明されており、それぞ、れの関与度別にど、のように消費行動が異なっているのかを見ていく 必要があると思われる。 ③関与とブランド 関与とブランド選択や、ブランドロイヤリティーの聞にどんな関係があるのかを調べるため の仕組みづくりを考えてみたいと思う。その中で、消費者が情報を処理する際に関与がどの ように、どの程度影響を与えているのカも見て行きたいと思う。 9 .謝辞 今同の研究では、データ収集の段階で株式会社マーシュの町田さんと市原さんに多大なお 力添えを頂きました、記して感謝し、たします。 く参考文献〉 ( 1 ) 片平秀貴 ( 1 9 8 7 )1 マーケティング・サイエンス」東京大学出版会 ( 2 ) 片平秀貴 ( 1 9 9 1 )1 新しし、消費者分析一 LOGMAPの理論と応用 」東京大学出版会 ( 3 ) 清水聡 ( 1 9 9 9 ) 1新しし、消費者行動」千倉書房 ( 4 ) 新倉貴士 ( 2 0 0 5 )1 消費者の認知世界」千倉書房 ( 5 ) 平久保仲人 ( 2 0 0 5 )1 消費者行動論」ダイヤモンド社 ( 6 ) ピルヨ・ラークソネン(池尾・青木監訳)( 1 9 9 8 )1 消費者関与 j千倉書房 2 4 4一
S A S Forumユ ー ザ 一 会 J M P f こよるコンジョイント分析と住民意識調査への応用 ‑JSLスクリプトを利用したコンジョイント分析の実装化ー 0有馬昌宏 r ) 1 [向肇 T 天津重伸 I T兵 庫 県 立 大 学 大 学 院 応 用 情 報 科 学 研 究 科 I兵 庫 県 立 大 学 大 学 院 応 用 情 報 科 学 研 究 科 応 用 情 報 科 学 専 攻 修士課程 P o l i c yE v a l u a t i o ni nL o c a lGovernmentbyC o n j o i n tA n a l y s i sonJMP M a s a h i r oArimar H a j i m eKawamukair S h i g e n o b uAmatsu1 r G r a d u a t eF a c u l t yo fA p p l i e dI n f o r m a t i c s,U n i v e r s i t yo fHyogo 1G r a d u a t eS c h o o lo fA p p l i e dI n f o r m a t i c s,U n i v e r s i t yofHyogo 要旨 JMPでは, JSLスクリプトを利用することで,標準解析機能として実装されていない分析手法を実 装することが可能である.我々は,コンジョイント分析を取り上げ,この手法を JMPのスクリプト言 語である JSLを用いて JMPに実装することを試みた.また,マーケティングの分野で利用されること の多いコンジョイント分析を住民意識調査に活用することで地方自治体で、の行政ニーズ、の表出に適用 できなし、かという問題意識のもと,兵庫県たつの市との共同研究の一環として行った市民意識調査でコ ンジョイント分析の適用可能性を検証するための調査実験を実施した.本稿では,住民意識調査におけ るコンジョイント分析の適用可能性と課題についての考察を行うとともに,コンジョイント分析を JMP に実装するための JSLスクリプトの紹介を行う. キーワード JMP,コンジョイント分析, JSLスクリプト,住民意識調査 1.はじめに 本研究報告は,地方自治体で、の行政ニーズ、の表出と施策の重要度評価をコンジョイント分析によって 計量化できなし、かとしづ問題意識のもとに,コンジョイント分析の住民意識調査への適用可能性を探る ことを目的として行われた研究の成果の一端を紹介するものである. コンジョイント分析とは,①評価の対象となる製品やサービスを構成する属性を抽出し,②各属性に 対して水準と呼ばれる特性内容を設定し,③属性別の水準を組み合わせてプロファイルと呼ばれる具体 的な製品・サービスを構成し,④回答者に絵や写真や文章などで、プロファイルを提示して各プロファイ ルに対する選好を表示してもらい,⑤選好に関するデータから回答者が各属性に対して持つ重要度や水 準の評価値を推定する,としづ評価対象に対する選好を回答者に直接訊ねる表明選好型のアプローチで ある.選好に関するデータのとり方によって,コンジョイント分析は選択型と評定型の 2つの手法に大 別され,評定型は,さらに順位付け評定法,評点型評定法,一対比較法の 3つに分類されている. コンジョイント分析は,評価対象である製品・サービスを構成する属性別に製品・サービス選択にお ける属性の重要度評価を可能にするとともに,製品・サービスの選択に効果がある水準の識別も可能に するため,主としてマーケティングの分野で新製品・新サービスの開発に活用されてきた手法であるが, 内 ノμ F円 υ A宮
行政の分野,特に市町村レベルの行政分野での適用例はほとんど知られていない.しかし,行政サービ スは,道路や上下水道などの社会基盤,消防・救急やごみ収集などの生活環境,医療や介護などの健康・ 福祉,学校や文化・スポーツ施設などの教育・文化,産業育成や企業誘致などの産業振興,コミュニテ ィ活動やまちづくりなどへの住民参加など,さまざまな分野の施策が予算制約のもとで水準が定められ て一種のパッケージとして提供されているものと考えれば,行政ニーズの表出や施策評価は,従来の住 民意識調査で行われていたような個々の分野別施策の重要度を独立に評価してもらう方法ではなく,施 策をパッケージの形で一纏めにして提示して住民から選好を表明してもらい,コンジョイント分析を適 用して他の施策の水準をコントロールした上で評価した方がより現実的であるとともにより正確な評 価が得られるものと考えられる.実際,本研究の関連研究に位置づけられる藤尾他 ( 2 0 0 5 ) や有馬・川 向 ( 2 0 0 5 ) では,順序尺度の 5件法による重要度評価ではオプション価値などの外部経済性が過大に評 価されて重要度が高めに示される可能性が示唆されている. 以下では,コンジョイント分析の適用可能性を検証するために実施した住民意識調査についての概要 を紹介した上で,住民意識調査へのコンジョイント分析の適用可能性について検証するとともにコンジ ョイント分析の適用結果とその応用可能性を示し,最後に今後の課題を挙げて本稿を終える.なお,本 研究でコンジョイント分析を実施するに際して,加藤他 ( 2 0 0 5 )で紹介した Excelの VBAと JSLスクリ プトを用いて JMPでのコンジョイント分析を自動化する方法を大幅に改良し,コンジョイント分析の JMPへの実装化を実現したので,本稿の最後に付録として JSLスクリプトとその解説を示している. 2 . たつの市での実証実験の概要 2 . 1 調査の概要 質問紙法による一般市民を対象とする住民意識調査という状況のもとで,コンジョイント分析を適用 して行政ニーズの表出や施策の重要度評価を行うことができるかどうかを検証するための実証実験と して,兵庫県たつの市をフィールドに選定して調査を実施した.たつの市は,兵庫県南西部に位置し, 2005年 1 0月 1日に龍野市と揖保郡の新宮町・揖保川町・御津町の旧一市三町が合併して誕生した自治体 であり, 2006年 3月 31日現在で人口 82, 800人,世帯数 27, 718世帯の典型的な地方都市の一つである. 新市が誕生し,新しい総合計画策定の基礎資料を得るための市内全世帯を対象とする市民意識調査が 2006年 1月から 2月にかけて自治会組織を通じて実施される機会をとらえて,たつの市が実施する 8 ページの市民意識調査票の他にコンジョイント分析を適用するための調査票も同時に配布してもらい, 自治会を通じて調査票を回収するという方法で調査を実施した. 作成した調査票は A4サイズの用紙に両面印刷したもので,兵庫県立大学大学院が研究目的で調査を 実施することを明記し,コンジョイント分析についてもその意味や方法について簡単な説明を加えた上 で,コンジョイント分析を適用するためのプロファイルの提示と順位付けを行ってもらうための質問を C o n t i n g e n tV a l u a t i o nMethod;仮想市場法)の適用可能 組み込んだ.調査票には,この他に, CVM ( 性を検証する目的で,回答者が第 1位に選択したプロファイルを実施するのに住民負担を求められると したら協力できるかどうか,そして協力できるとすれば幾らまで支払えるかを問う質問を組み込むとと もに,一般住民を対象とする質問紙法による意識調査へのコンジョイント分析の適用を阻害する要因を 質 明らかにするために,提示されたプロファイルに対して順位付けをしなかった回答者にその理由(r 回答が面倒 J, r 順位をつけるのが難しし、 J, r その他」の 4つの回答選択肢に無制限 問の意味が不明 J, r 複数回答)を問う質問を設定した. ‑246
表 1 調査で用いた属性と水準 ¥ 水準 1 水準 2 水準 3 属性A 小学生の登下校時の 安全確保 現状どおり,保護者や地域の ボランティアによる 見守りを行う 市内の全小学校に 登校から下校の時閉まで 警備員を 1人配置する. 小学生全員に 居場所の分かる携帯電話を 無料配布する 属性B コミユ ‑ 1イパスの 運行 コミュニティパスを 廃止する コミユ ‑ 1イパスを 毎日(平日も週末も) 1便運行する. コミユ ‑ 1イパスを 毎日(平日も週末も) 2便運行する 属性C 7 0歳以上品齢者の 医療負担 手l 負担に 国の基準が 2苦 なっても,たつの市では 医療費を無料化する. 国の基準が2割負担に なっても,たつの市では 1割負担にとどめる 国の基準に従って 7 0歳以上高齢者の 医療費負担を 2割にする また,コンジョイント分析を適用するための質問の設定に関しては, ①住民に提示するプロファイル数が多くなりすぎないようにする, ②住民が関心を持てるように住民にとって身近な施策を取り上げる, としづ観点から属性の選定と水準の設定を行った.具体的には,社会問題や地域で取り組むべき課題と して話題になっている 1 A. 小学生の登下校時の安全確保 J, 1 B. コミュニティパスの運行 J, IC. 70 歳以上高齢者の医療費負担」の 3つの属性を取り上げることとし,表 1に示すように各属性にそれぞれ 3つの水準を設定した.この結果 3属性 3水準の組み合わせで総プロファイル数は 2 7 になるが,全 てのプロファイルをそのまま回答者に提示すると選好表明に際して回答者の負担が大きくなってしま うため, JMP の「実験計画」メニューの「カスタム計画」を用いて提示するプロファイルを 8まで絞 り込んだ.また,具体的な回答者の選好表明の方法としては,質問数が多くなって質問紙法による調査 では実施が困難になる選択型および評定型の一対比較法は避け,一般住民が回答者であるので順位付け による評価の方が評点をつけて評価する方法よりも馴染みが深くて回答が容易であろうと考えて,順位 付け評定法を採用することにした.次ページの図 1に示しているのは,以上の過程を経て最終的に調査 票で提示された質問である. 2 . 2 調査票の回収状況と回答者の偏り 調査票の回収状況は表 2に示すとおりである.市民意識調査の調査票の有効回収率が 79.6%であるの に対して,コンジョイント分析のための調査票の有効回収率(回収数から白紙調査票数を引し、た数の配 布数に対する比率)は 52.7%で 27ポイン卜低い回収率であった.また,コンジョイン卜分析のための 調査票で順位付けを完全に行っていた世帯の比率は,配布数を母数にすると 33.3%,有効回収数を母数 にすると 63.1%であり,コンジョイン卜分析を行うための質問に対して回答への完全な無関心や拒否反 応が示されたわけではないが,逆に多くの調査対象者から回答が得られるわけでもないということが明 らかになったと言えよう. 順位付けができない理由(複数回答)としては 1 順位付けが難ししリが 76.7%で最多を占め,次い で「質問の意味が不明」が 21 .7%となっている.また,市民意識調査に回答した集団の属性別構成比と コンジョイント分析のための調査票の回答状況別の集団の属性別構成比を表 3で比較対照できるよう に示しているが,年齢では 70歳代,職業では無職で不完全回答の比率が高く,職業では給与所得者で 完全回答の比率が高いという傾向が窺えるが,特にコンジョイン卜分析のための質問に対する回収不 能・回答拒否者に属性別の顕著な偏りがあるとは認められなかった. なお,全てのプロファイルに順位付けをしていない回答や順位を記入する欄に Oや×で、当該プロファ AUZ 勺t 白 つ
以 下 の 8つ の 施 策 の 組 み 合 わ せ に つ い て 、 あ な た に と っ て 望 ま し い 願 に 、 右 端 の 回 答 と
いう欄に、
施策
A
H
E
B
D
C
F
G
図1
1から 8までの数字を入れて順位付けをして下さいっ
寺の
小
学
生
r
:
l
:
:
!
の
.
t
:
.
登
.
1
'
l
O
下
"
'
喧校 E
パ
コ
ミ
ス
ュ
の
ニ
塗
テ
符
ィ
70鰻
E
窒
以
霜
害
上
警
高
負
齢
担者の
保護者や池袋の
ボランティアによる見守り
全小学生に居場所の
分かる後帯電話を喜己布
会ての小学校 i
、
コミユーティ
ハスの湊i
上
コミユーナイ 1¥スを
毎日 1
便運行
コミユーナイハスを
毎日 2便運行
.
ス
を
コミユーナイ 1i
毎日 1
使遂行
コミユーナイ 1¥スを
毎日 2便運行
コミユ :
'
:
:
'
7
‑
(
1
¥スを
毎日 Z便運行
コミユーナイ
パスの廃止
コミユーティ
パスの廃止
70緩以上品齢者の
警警織員を 1 人記~
保護者や地域の
ボランティアによる見守り
全ての小学校 1
:
:
.
密機員を 1人配置
保護者や地域の
ボランティアによる晃守り
全ての小学校 i
こ
事警 i満員を 1 人~霞
会小学生人居場所の
分かる携帯電話を配布
回答
医療費を無料化
70銭以上品齢者の
医療費を無料化
70銭以上 I高齢者の
医療重量を居並の 2稼負担
70歳以上高齢者の
医療裁を 1害警負拘!こ滋額
70歳以上言語齢者の
医療費量を無料化
70歳以上高齢者の
医療費を思並の 2議負担
70歳以上品齢者の
医療費を 1慈負拐に減額
70態以上品齢者の
医療費を国主主の 2割負担
コンジョイント分析を適用するために調査票で提示したプロファイノレと質問
表 2 調査票の回収状況とコンジョイント分析用調査への回答不能・拒否理由
コンジョイント分析調査回収状況
市民思議調査回収 伏況
コンジョイント分析調査 回 答 不 能 理 由
比率
実数
実数
比率
実数
比率
2
0
.
6
0
2 8
0
.
7 回収数
1
8
.
5
4
9 7
2
.
7 質問の意味が不明
回収数
796 21
.
7
有効回答数
20,
314 7
9
.
6 白紙調査票数
5
.
1
0
6 2
0
.
0 回答が面倒
219
6
.
0
配布数
3,
675 1
4.
4 順位付けが難しし、
25,
525
無回答・回答拒否数
2,
819 7
6
.
7
不完全回答数
1
.
11
9
4
.
4その他
337
9
.
2
有効(完全)回答数
8.
489 3
3
.
3 無 回 答 ・ 回 答 拒 否 数 3,
675
25,
525
配布数
‑
‑
表3
属性別のコンジョイント分析用調査の回答者・非回答者の状況
収= 回無答回拒答否
全
・ 不回完答
全 回 答 者 未白回紙
1
.
男
見
住j
J2
.女
1.10
{
‑
t
2.20代
3
.30代
年 4.40代
代 5.50
代
6.60代;
7
.70ft
8,80代 以 上
1
.給 与 所 得 者
2
.農 林 水 産 自 営 業
3
.自 営 業
職 4
.専業主婦・主夫
業 5
.パート・アルバイト
6
.学 生
7
.無 職
8
.そ の 他
人
1
.1
2
.2人
家
3
.3人
族
4
.4人
数
5
.5人
6.6人 以 上
回答者数
‑
‑
‑
5
1.
46
44.
41
0
.
2
5
2
.
8
7
1
2
.
1
1
1
6
.
0
1
2
6
.
4
4
2
2
.
0
6
1
3
.
0
5
3
.
9
9
3
1
.
6
9
2
.
8
2
8
.
8
5
1
4
.
5
1
1
2
.
0
8
0
.
2
8
2
3
.
6
8
2
.
2
2
9
.
2
7
2
4
.
6
6
1
9
.
6
2
1
9.
43
1
2
.
0
2
11
.5
9
20,
834
4
9
.
3
8
4
4
.
1
4
0
.
3
0
2
.
7
4
1
0
.
1
7
1
3
.
3
5
2
5
.
5
1
2
2
.
7
3
1
4
.
7
0
5
.
1
6
2
8
.
3
0
2
.
8
3
9
.
0
6
1
3
.
5
1
11
.5
3
0
.
2
8
2
5
.
3
6
2
.
5
0
1
1
.
0
2
2
5
.
7
6
1
9
.
8
8
1
6
.
9
1
1
0
.
7
9
9
.
9
7
7,
5
5
1
4
7
.
7
0
4
8
.
5
7
0
.
2
7
2
.
6
1
9
.
7
1
1
6
.
7
3
2
9
.
3
9
2
2
.
0
1
1
2
.
5
2
4.
46
2
9
.
2
2
2
.
5
3
8
.
7
6
1
6
.
1
9
1
4
.
2
3
0
.
3
0
2
3
.
9
7
2
.
0
1
1
0
.
1
0
2
5
.
6
3
2
0
.
3
3
1
9
.
9
5
1
0
.
8
6
1
0
.
6
4
3
.
6
7
5
ー
248
4
8
.
7
0
4
7
.
3
6
0
.
2
7
1
.9
7
9
.
7
4
1
4
.
1
2
21
.
72
2
2
.
0
7
2
2
.
2
5
5
.
3
6
2
7
.
8
8
3
.
6
6
8
.
5
8
1
3
.
2
3
9
.
7
4
0
.
4
5
3
0
.
4
7
2
.
8
6
1
2
.
8
7
2
8
.
8
7
1
7
.
7
8
1
7
.
4
3
9
.
6
5
1
0
.
6
3
1
.1
1
9
完全回答
5
5
.
3
0
45
42.
0
.
2
0
3
.
2
2
1
5
.
1
8
1
8
.
3
1
2
6
.
6
1
21
.50
1
0
.
6
0
2
.
5
7
3
6
.
2
7
2
.
8
2
8
.
7
4
1
4
.
8
4
11
.9
4
0
.
2
6
21
.1
6
1
.9
8
6
.
8
9
2
2
.
7
1
1
9
.
3
2
21
.
72
1
3
.
9
2
1
3
.
5
7
48
9
8,
注 1:r
全回答者」とは,市民
意識調査とコンジョイント
分析用の調査の両方または
いずれか一方に回答した世
帯を示す.
注 2 :r
未回収・白紙J とは,
コンジョイント分析用の調
査票が回収されなかった世
帯および回収されても白紙
回答であった世帯を示す.
無回答・回答拒否 J と
注 3 :r
は,図 1の質問の回答記入
欄に記入がなく,無回答の
理由を少なくとも 1つ は 選
択していた世帯を示す.
注 4 :r
不完全回答 J とは,図
1の質問の回答記入欄の記
入が不完全であったり .0
や×の記入があった世帯を
示す
イルの受け入れの可否を示した回答は不完全回答の中にまとめているが, 0や×での回答は不完全回答 7 6票あり,望ましさの ) I [ 買に順位付けをしてもらうよりも,今後は,提案されたプロファイ の 15.7%の 1 2 0 0 5 ) で採用されている「購入する(受 ルを受け入れることができるかどうかを問う方法や,加藤他 ( け入れる)かどうか」も考慮、に入れた 5段階評定型の回答方法を検討することも必要であろう. 3. コ ン ジ ョ イ ン ト 分 析 に よ る 行 政 ニ ー ズ の 表 出 3. 1 部分効用値の推定と重要度の算出 コンジョイント分析においては,回答者の各プロファイルに対する全体的な評価に対応する効用水準 を全体効用値と呼ぶ.全体効用値はプロファイルを構成する属性の水準ごとに推定される部分効用値に 分解することができるが,本研究では,全体効用値が部分効用値の線形結合和として表現される以下の ような効用関数を仮定し,全体効用値はプロファイルへの順位付けに反比例する線形等間隔の評定尺度 値によって推定できるという前提のもとで分析を行っている. ① Uhi =Yhi =so+sfAf+メ ' l2A2 +メ ' l 3 A 3+ß~BI + メ' l 5B2 +メ ' l 6B 3 +β' 7Cf+s メ' l 9C3 gC2 + h iは回答者 hのプロファイノレ iに対 ここで ,Uhiは回答者 hのプロファイル iに対する全体効用値 ,Y する 8から 1までの値をとる評定尺度値(=9‑ (プロファイル iの順位)), Ajと Bkと C fは表 1に 示す 3つの属性の添字で、示される水準に対応して 0または lの値をとる変数である. コンジョイント分析では,回答者の順位付けデータから得られる評定尺度値 l i l lから回答者ごとに部 ]hlから βh9を最小二乗法で、推定する.なお,自由度を確保するために同じ属性の水準ごとに 分効用値 f ]hjの水準を 推定される部分効用値の総和がゼロであるという制約条件を導入して部分効用値の推定値 f 確定しており,部分効用値がプラスで大きい値であるほど選好度が高い水準であることを意味すること になる. また,どの属性が回答者にとって望ましい製品・サービスを選択する際に大きい影響を及ぼすかを示 jは,属性別の部分効用値のレンジを用いて,以下の②式のように す指標である属性 jに対する重要度 I 表すことができる. 1 ;= ( Pmaxj‑ Pmin) / L j (Pma Xj ‑ P m i n j ) X100 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ② minjはそれぞれ属性 jの推定された部分効用値の最大値と最小値を意味する. ここで ,Pmaxjと P この重要度を用いることで,本研究では回答者に提示した行政サービスのパッケージの選択に及ぼす 個々の属性の影響度の強さを属性問で比較することが可能となる. 3 . 2 重要度の算出結果 ) 開立付けがなされた回答 8, 489票に対して,回 コンジョイント分析を行うための質問に対して完全な1 答データを用いて部分効用値の推定を行うとともに,各属性の重要度の算出を行った. 3つの属性の重 小学生の登下校時の安全確保 Jが 3 3 . 1と 1 5 . 7, r コミュニティパス」が 要度の平均値と標準偏差は, r 31 . 1 と 1 4 . 9, r 7 0歳以上高齢者の医療費負担 Jが 3 5 . 7と 1 6 . 1で , 3つの属性の重要度の分布には大き な違いはないように思われる.しかし, 3つの属性の重要度の関係を見るために,図 2にヒストグラム 付きの散布図を示しているが, r コミュニティパスの運行」の重要度は他の 2つの属性と比較して低め の値をとっており,分布も 75%あたりで切断されている傾向が読み取れる.なお,重要度の定義式であ る②式から明らかなように,各属性の重要度の総和は 100%となるために,散布図では対角線より右上 に落ちるオブザベーションは存在しないということに留意されたい. ‑249
3. 3 重要度の規定要因 図 2に示したように回答者の属性別重要度評価 は大きく異なっているが, 3つの属性別に重要度を 転状況,居住地(小学校区),家族構成という回答 者の属性を説明変数とする重回帰分析を実施して, υ 内 n u 重要度の規定要因を探ることを試みた.ただし,本 研究での重回帰分析においては説明変数は全てダ J 4d υnunU ︽ 制世剛制雄樽川明山明G 営利酢姻 nunυnununU 0987654321 被説明変数に,回答者の性別,年齢,職業,車の運 ミー変数であるので,数量化理論第 I類を実施した ことと同等である.なお, JMP では,名義尺度あ o 10 20 30 40 50 60 70 80 90 100 コミュニティパス重要度 るいは順序尺度で測定された変数を「モデルのあて はめ」においてモデル効果の追加で、説明変数に指定 arginal法でダミー変数を生成 すると,自動的に m して重回帰分析を実行してくれるが,本研究では説 明変数の水準別に 0‑1型のダミー変数を作成し 1 0 0 a r t i a l法による重回帰分析を実施した. て , p 90 : 80 圃 7 0 重回帰分析の結果を表 4に示しているが, 思 l I I I (6 0 ①重要度の算出の根拠となる部分効用値の推定に : 50 幽 40 際して,部分効用値に分解される前の全体効用値 e 相 30 はプロファイルへの順位付けに反比例する線形 ・砕 ;; 20 等間隔の 8から 1までの評定尺度値によって推定 1 0 日 できるとし、う仮定をおいているために,算出され 1 0 20 30 40 5 0 6 0 7 0 80 9 0 1 0 0 通学時の安全確保重要度 る重要度は実際の重要度よりも差が出ない方向 にバイアスがかかっている可能性が高い, ② 3つの属性の重要度の合計は 100%となるという 制約があり,重要度は互いに独立でない, 1 0 0 という問題が存在するため,それぞれの推定式の自 90 由度調整済み決定係数の値は低く,推定結果は良好 制 80 陣 70 型60 とはいえない. v ヰ 50 しかし,推定されたパラメータは, 1 T 4 0 J30 n 20 ①「小学生の登下校時の安全確保」に関しては,年 2 0代以下」と 1 3 0 齢では小学生の親の年代で、ある 1 1 0 0 代」と 1 4 0代」でプラスで有意,職業では「無職」 o 10 20 30 40 50 60 70 80 90 100 高齢者の医療費負担重要度 がマイナスで有意,小学校区では新興住宅地であ 図2 3つの属性の重要度の相互関係 る「光都」と郊外で住宅や流通団地の開発が進ん ,1 誉回J, 1 半田」でプラスで有 でいる「揖西西 J 意,家族構成では「小・中学生」のいる世帯でプラスに有意であり,符号条件は満たされている. ②「コミュニティパスの運行」に関しては,傾向としては「小学生の登下校時の安全確保 Jで推定され 2 0代以下」と 1 3 0代 J たパラメータとは逆方向の符号を持ち,年齢で、は小学生の親の年代で、ある 1 υ F同 n u 白 つ
と 1
4
0代 」 で マ イ ナ ス に 有 意 , 職 業 で は 配 偶 者 が 車 で 通 勤 し て 普 段 は 車 が 利 用 し に く い 「 専 業 主 婦 」
がプラスに有意,小学校区では新市や旧市町の中心地から離れて公共交通の便が悪くて高齢化の進展
している「西栗栖」と「室津」でプラスに有意,反対に「小学生の登下校時の安全確保」ではプラス
に有意で、あった「揖西西 J
,1
誉回 J
,r
半田」に加えて,新市の中心に位置して交通・日常生活で利便
性の高い「小宅」でマイナスに有意となっており,符号条件は満たされている.参考のために,図 3
には
1コ ミ ュ ニ テ ィ パ ス の 運 行 」 の 重 要 度 の 小 学 校 区 別 の 平 均 値 の 空 間 的 分 布 状 況 を 示 し て い る .
③ 1
7
0歳 以 上 高 齢 者 の 医 療 費 負 担 」 に 関 し て は , 職 業 で は 定 年 後 の 高 齢 者 が 多 い 「 無 職 」 が プ ラ ス に 有
意であり,家族構成では「小学生の登下校時の安全確保」でプラスに有意となった「配偶者」と「小・
中学生」のダミー変数が反対にマイナスに有意となっている.
とし、う特徴を示しており,住民の個人的属性や世帯属性によって行政ニーズが異なることが示唆される
推定結果が得られていると言えよう.
表 4 回答者の個人・世帯属性による重要度の重回帰分析の結果
小学生の登下校時の安全確保
70歳以上高齢者の医療費負担
コミユ 7 イハスの運行
0
.
0
2
5
1
0
.
0
1
4
7
0
.
0
0
6
9
8,
384
8,
384
8,
384
p
{
直
推定値 t
値
推定値 t
{
直
p値
推定値 t値
2隼
定数項
2
8
.
7
1
9 2
6
.
6
2 く0
.
0
0
0
1*
*
* 34.063 33.35 p< 0.0001 *
*
* 37.218 33.46l!>く 0.0001 *
*
*
0
.
2
0
1
8
0
.
4
5
0 0
0
.
3
4
6
0
0
.
5
7
7 1
性 男
.28
0
.
1
2
7 0
.
2
6
.
9
4
0
.
7
9
6
5
20代以下
3
.
6
4
5 3
.
0
4
489 2
.
1
9
1
.
15
6 0
.
9
4
0
.
3
4
9
8
0
.
0
2
8
4*
* 2.
0
.
0
0
2
4*
4
.
7
3
5 5
.
2
2 pく 0
.
0
0
0
1*
*
* ‑3.906 4.55 pく 0.0001 *
*
* 0.829 0.89 0.3751
年 30イt
2
.
9
0
4 3.
.662 2
.
0
8
43
1
.242 ー
1
.42
0
.
1
5
4
3
0
.
0
3
7
9*
* 1
0
.
0
0
0
6*
齢 40代
5
0代
1
.518 2
.
0
2
‑
1
.2
4
1 ー
1
.
75
0
.
0
8
0
8
0
.
3
6
‑
0
.
2
7
7 ‑
0
.
0
4
3
2*
0
.
7
2
0
5
;
60代
0
.
9
6
8 1
0
.
1
2
6
2
0
.
5
6
2 0
.
9
4
.53
0
.
3
4
7
8
0.
405 0
.
6
2
0
.
5
3
4
3
農林水産自営業
2
.
0
7
4 ‑
0
.
0
6
0
0
1
.88
1
.
5
6
6 1
.50
0
.
1
3
3
3
0
.
5
0
7 0.
45
0
.
6
5
5
4
自営業
0
.
2
8
0
.
1
7
9 ‑
0
.
7
8
2
5
1
.
1
0
0 1
.
79
0
.
0
7
3
6
1
.
37
0
.
9
2
1 ‑
0
.
1
6
9
2
職 専業主婦・主夫
ー
1
.
14
1 1
1
.547 2
0
.
0
7
6
3
.
5
4
.77
0.
406 0
.
6
1
0
.
5
4
0
4
0
.
0
1
1
1*
業 I~ート・アルバイト
1
.
11
3 ー
1
.
74
0
.
0
8
1
5
0
.
5
8
1 0
.
9
6
0
.
3
3
6
9
0
.
5
3
2 0
.
8
1
0.
41
9
1
無職
ー1
.
8
8
7 3
.
0
4
1
.
6
8
4 2
.
6
3
0
.
0
0
2
4*
* 0.202 0.34 0.7304
0
.
0
0
8
5*
*
学生・その他
1
.643 ー
1
.37
0
.
1
6
9
9
1
.
18
5 1
.05
0
.
2
9
5
6
.
45
8 0
.
3
7
0
0
.
7
1
0
5
2人
0
.
1
2
2 0
.
1
5
‑
0
.
9
7
7 ‑
0
.
8
8
3
2
1
.25
0
.
2
1
2
6
.00
0
.
8
5
5 1
0
.
3
1
6
4
家 3人
0
.
6
3
9 0
4728
‑
0
.
9
2
0 ー
.
7
2
0.
1
.0
9
0
.
2
7
4
6
0
.
2
8
1 0
.
3
1
0
.
7
5
9
0
族 4人
0
.
0
8
4 0
0
.
9
2
9
0
.
0
9
0
.
9
1
2 ‑
1
.03
0
.
3
0
4
5
0
.
8
2
8 0
.
8
6
0
.
3
9
1
8
数 5人
0.
40
5 0
.
3
9
0
.
6
9
6
3
‑
1
.884 ー
1
.9
2
0
.
0
5
5
0
1
.479 1
.
38
0
.
1
6
6
5
6人以上
‑
0
.
0
5
8 ‑
0
.
0
5
0
.
9
5
8
7
‑
1
.
11
3 ‑
1
.05
0
.
2
9
4
5
1
.
17
1 1
.0
1
0
.
3
1
1
2
車 運転する
0
.
1
3
5 0
.
2
4
0
.
8
0
9
7
47
3 0
0.
.
8
9
0
.
3
7
4
6
0
.
3
3
7 0
.
5
8
0
.
5
6
0
8
0
.
0
1
4
2ホ
5
.
3
2
4 2.
45
2
.
3
7
4 ‑
1
.
16
0.
2478
1
.
32
2
.
9
4
9 ‑
0
.
1
8
7
5
西
光
都
栗
樋
(告書磨高原東)
‑
1
.040 0
.
8
4
0.
4
029
3
.
0
9
1 2
.
6
3
0
.
0
0
8
6*
* ‑2.051 ‑1.60 0.1095
東栗栖
1
.
18
3 0
.
9
8
0
.
3
2
6
1
0
.
9
2
1 0
.
8
1
0.
41
9
3
2
.
1
0
5 ‑
1
.6
9
0
.
0
9
0
2
香島
0
.
3
6
6 0
0
.
7
4
8
8
.
3
2
1
.2
3
1 1
.
14
0
.
2
5
5
5
1
.597 ‑
1
.
35
0
.
1
7
5
5
0
.
0
5
4
8
新宮
1
.
787 1
.9
2
0
.
5
2
4 0
.
5
9
0
.
5
5
2
1
‑
2
.
3
1
1 ー2.
41
0
.
0
1
6
0*
越部
1
.
3
2
3 1
.24
0
.
2
1
6
9
0
.
0
9
0 0
.
0
9
0
.
9
2
9
7
ー
1
.412 ー
1
.28
0
.
2
0
0
9
小宅
1
.
300 1
.64
0
.
1
0
0
4
ー
1
.
76
0 ー2
.
3
5
* 0.460 0.56 0.5729
0
.
0
1
8
8*
1
.212 1
0
.
2
4
3
8
.
17
ー
1
.090 ‑
1
.
11
0
.
2
6
8
1
‑
0
.
1
2
2 ‑
0
.
1
1
0
.
9
0
9
4
学 揖西東
2
.
464 2
.
5
4
‑
2
.
0
1
1 ‑
2
.
1
9
0
.
0
1
1
1*
‑0.
45
2 0.
0
.
0
2
8
5キ
45
0
.
6
5
1
1
校 揖西西
0
.
3
8
7 0.
0
.
6
8
9
1
40
0.
46
2 ‑
0
.
5
0
0
.
6
1
3
7
0
.
0
7
5 0
.
0
8
0
.
9
3
9
8
区 揖保
誉回
2
.
3
2
5 2
.
0
8
2
.
2
4
1 ‑
2
.
1
2
0
.
0
3
7
1*
0
.
0
7
0
.
0
8
4 ‑
0
.
0
3
3
8*
0
.
9
4
1
5
神間
0
.
1
4
9 0
0
.
8
7
1
1
.
1
6
0
.
0
8
4 0
.
1
0
0
.
9
2
3
4
0
.
2
5
0
.
2
3
3 ‑
0
.
8
0
5
9
半回
2
.
3
4
5 2
.
4
5
‑
2
.
2
3
5 ‑
2.
47
0
.
0
1
3
5キ
0
.
0
1
4
2*
‑
0
.
1
1
0 0
.
1
1
0
.
9
1
1
2
神部
1
.
47
8 1
.
70
0
.
0
8
9
6
‑
0.
42
2 ‑
0
.
5
1
0
.
6
0
8
4
‑
1
.056 1
.
18
0
.
2
3
9
4
河内
0
.
1
6
8 0
.
1
2
0
.
9
0
1
7
0
.
0
9
0
.
1
0
9 ‑
0
.
9
3
2
1
0
.
0
4
0
.
0
5
8 ‑
0
.
9
6
6
8
御津
1
.037 1
.3
1
0
.
1
9
1
0
1
.
180 ‑
1
.5
7
0
.
1
1
6
1
0
.
1
4
3 0
.
1
7
0
.
8
6
1
5
室j
章
0
.
8
9
1 ‑
0
.
5
7
0
.
5
6
7
8
3
.
6
4
9 2.
0
.
0
1
3
4キ
47
ー2
.
7
5
9 1
.7
2
0
.
0
8
6
2
配偶者
1
.
3
5
2 2
0
.
1
6
8 0
.
3
2
.
3
1
0
.
7
6
0
0
0
.
0
2
0
3*
2
.
5
3
1
.
5
2
0 ‑
0
.
0
1
1
3*
家 親
‑
0
.
3
2
6 0
.
48
9
1
0
.
7
1
1 1
.
6
9
0
.5
9
0
.
1
1
0
9
0
.
3
8
5 0
.
7
9
0
.
4
2
8
0
族 祖父母
0
.
5
3
1 0
.
5
4
0
.
5
9
0
3
0
.
8
3
7 0
.
9
0
0
.
3
7
0
0
‑
1
.368 ー
1
.
35
0
.
1
7
8
5
構 就学前の子供
0
.
3
9
1 0
.
6
3
0
.
5
2
8
8
0
.
0
6
3 0
.
1
1
0
.
9
1
4
4
0.
454 0
.
7
1
0
.
4779
成 1
、・中学生
1
.
6
0
9 3
.
0
5
40
1
.
304 ‑2.
0
.
0
0
2
3*
* ー0.305 ‑0.61 0.5409
0
.
0
1
6
4*
高校・大学生
0.
433 0
.
8
0
0.
4265
0
.
0
3
7 0
.
0
7
0
.
9
4
2
4
0.
4022
0 .4 7止に込~
注:各ダミー変数群の基準値は,性別は「女 j,年齢は [70歳以上 j,職業は「給与所得者 j,家族数は[1人j,車の
自由度調整 R2乗
オブザベーション
運転状況は「運転しなし、 j,居住地の小学校区は(たつの市の中心と想定できる) [龍里子」である.
251‑
4. おわりに 本研究では,従来は「回答者が質問を理解するこ とが難しし、」あるいは「回答者の回答への負担が大 きし、」といった理由のために試みられることが殆ど なかった質問紙法による一般住民を対象とする大規 模な調査におけるコンジョイント分析の適用可能性 を検証し,住民意識調査にコンジョイント分析を適 用して行政ニーズを計量的に表出させることの可能 性を示すとともに,厳しい財政制約のもとでトレー ドオフの関係にある施策の選択過程での住民による 施策の重要度の計量的評価に向けての可能性も示さ れたと言えよう. しかし,本研究は,住民意識調査においてコンジ ョイント分析を適用する上での課題や問題点もいく っか浮かび上がらせることとなった.その第 1は , 提示されたプロファイルに対する完全な順位付けの │馴 ~~使区劃温要民何者〉 A l I G . . I L I S 亡コ怠制'品醐g 立 コ ' " 明 閣 鶴富酔拭叩 4 幽 . 釦 2 0 0 5 ) で採 でも既に指摘しているように,加藤他 ( 難しさである.この問題を解決するためには,本稿 ."且白‑且削泊 U ねε 由 4 即 、 , ー 用されている商品の購買可能性(本研究の文脈では 図3 I コミュニティパスの運行」の 施策のパッケージの受け入れ可能性)を反映させた 重要度の小学校区別平均値の空間的分布 評定値を採用することが一つの方法で、あると考えられ る.また,提示された施策パッケージの受け入れ可能性の可否を Oやムや×で回答してもらうなどの方 法で評価データを収集し,ランダム効用理論に基づくロジット・モデルによるパラメータ推定を行う選 択型コンジョイント分析を適用することも考えられる.いずれにしても,これらの方法の可能性をさら に実証実験で検討していく必要があろう. 2 0 0 5 ) で示されているように,コンジョイント分析で また,本研究では実施しなかったが,加藤他 ( は各プロファイルの評定値に加えて購買・選択・受容の可能性の有無に関するデータが取得されていれ ば,属性と水準の組み合わせで表現される全てのプロファイルに対して調査対象者のうちのどれだけの 比率がそのプロファイルを購買・選択・受容するかを示す指標である予測選好シェア(マインド・シェ ア)を算定することができ,地域マネジメントの Plan‑Do‑Seeのサイクルの中の Planの段階に住民 意識を反映させることが可能になるとともに,プロファイルの購買・選択・受容の判断に決定的な影響 を及ぼす属性と水準を明らかにすることも可能になる. 今後は,上述の課題や問題などに留意しながら,住民参加のまちづくりや地域マネジメントに寄与で きる計量的な住民意識調査の方法と調査結果の住民への還元方法について,さらに研究を進めていきた し¥ 謝辞 7・1 8年度科学研究費補助金(基盤研究 ( C ) 課題番号:17510132) を受けて行っ 本研究は,平成 1 7 ている「地理情報システムを活用した人間サイズのまちづくり支援システムの構築んならびに平成 1 つム F h u つム
年度に行った兵庫県たつの市との共同研究「たつの市総合計画策定に係る市民意識調査票の作成及び分 析を通じた住民参加のまちづくりに関する研究」の研究活動の一環として行った研究成果の一部である. 6年度「大学向け GIS利用支援プログラム」 本研究を進めるにあたり, ESRIジャパン株式会社の平成 1 による支援も受けている.たつの市でコンジョイン卜分析の適用可能性を検証するための質問紙調査を 実施するにあたり,たつの市民の皆様には面倒な調査にご協力をいただくとともに,たつの市からは調 査票の配布・回収に際して格別のご配慮をいただいた.また,コンジョイン卜分析の属性と水準の設定 とプロファイルの選定に際しては,兵庫県立大学応用情報科学研究科の黒田佳代氏(現ダイキン工業株 式会社)に作業を補助してもらうとともに,兵庫県立農林水産技術総合センターの加藤雅宣氏からは貴 重なアドバイスを頂いた.この場をお借りして深く感謝申し上げます. 参考文献 有馬昌宏・川向肇, r 地域社会の有効なマネジメン卜のための住民ニーズ表出システムに関する研究 J , 0 0 5年秋季全国研究発表大会予稿集, p p .1 1 4 ‑ 1 1 7,2 0 0 5 . 経営情報学会 2 有馬昌宏・川向肇, r 住民意識調査による政策評価へのコンジョイン卜分析の適用可能性に関する基礎的 0 0 6年合同・全国研究大会予稿集, pp. 46 8 ‑ 4 7 1, 研究 j,オフィス・オートメーション学会・経営情報学会 2 2 0 0 6 . 片平秀貴, w マーケティング・サイエンス~,東京大学出版会, 1 9 9 7 . 加藤雅宣・有馬昌宏・川向肇, rJMPを活用したコンジョイン卜分析による農作物の消費者評価一兵庫県 0 0 5論文集, p p . 2 8 3・ 3 0 0, の伝統野菜 岩津ネギ'に対する事例一 j,SASForumユーザー会学術総会 2 2 0 0 5 . 代喜一, w コンジョイン卜分析~,データ分析研究所, 1 9 9 9 . r 行政施策評価へのコンジョイン卜分析適用の可 田中洋平・黒田佳代・加藤雅宣・川向肇・有馬昌宏 0 0 6論文集掲載予定, 2 0 0 6 . 能性と課題 j,SASForumユーザー会学術総会 2 藤尾俊幸・鰐青・黒田佳代・田中有紀・川向肇・有馬昌宏, rJMPを利用した CVMによる政策評価ーロ , SASForumユーザー会学術総会 2 0 0 5論文集, ーカル鉄道のサービス向上の金銭的評価を事例に一J pp. 41 5・424,2 0 0 5 . EU つd 臼 つ
付録、JSLスクリプトを用いたコンジョイント分析の処理 コンジョイント分析を行うスクリプトの開発にあたって,加藤他 (2005)で提示した方法をベースにして,次に挙 げる 3 点を開発上のポイントとした.すなわち, iJMP上で、の一貫した処理 J ,i 評定尺度・ 1 ) 頃位尺度の両方に対 多数のサンプル(オブ、ザベーション)にも対応可能」とし、う点である. 応 J,i 第 1の iJMP上での一貫した処理」については,加藤他 (2005)に示されてしも処理では, ExcelとVBAが必要 になり,手順が煩雑なものになってしまう.今回は,この欠点を克服するために JMP上で一貫した処理が行える ことを目指した.第 2の「得点尺度・順位尺度の両方に対応」については,処理に汎用性を持たせたし、とし、うこと もあり,プロファイルに対する選好が得点、尺度と順位尺度のいずれで表明されていても対応を可能とした.第 3 の「多数のサンフ。ルにも対応可能」については,今回の調査では有効回答が約 8, 500サンプル存在し,大量の サンプルに処理が対応できることが求められる.しかし,加藤他 (2005)の方法では Excelで利用できる最大行数 が約 65, 530行であり, 1サンプルの処理に 1 0行を要することから, 6, 553サンプルが対応で、きるサンフ。ル数の限 界であり,それ以上の大量のサンプルには一度の処理で、は対応で、きない.このため,サンプル数の制約を受け ずに一括処理が可能となるようにスクリプトの開発を行った. 本稿で紹介するスクリプトの使用上の注意点として, Windows XP の画像に関するメモリ管理のパグのため, WindowsXPの最新ノくージョンのサービスパックを利用していたとしても, 500サンプル以上のデータについて本 スクリプトを実行した際には,本スクリプトが正常に作動しなし、ことがある.この問題の対応策としては, Windows のデスクトップ画面の表示をクラッ、ンック表示 (Windows2000と同様の表示)に切り替える必要がある. 次ページ以降でスクリプトについての解説を行うが,スクリプトに付した番号と以下の文中の解説番号は対応 しているので,必要に応じて相互に参照されたい. なお,スクリプトを実施する前に用意しておかなければならない JMP ファイルは付図 1に示すようなプロファイ ルを定義するファイルと付図 2 (こ示すような回答者からの回答データが回答者を識別するための I D番号とともに 入力されているファイルの 2種類で、ある. 付図 1 プロファイルを定義した JMPファイル 付図 2 回答者からの回答データを入力した回答者番号付きの JMPファイル h 戸υ L 円 凋 せ
PartO データの初期化と回帰分析の基本形の定義 回帰分析の基本形の定義部である.回帰分析に用いるスクリプトを一種の関数として定義している.なお,被 説明変数と説明変数の変数名は,後のステップで、スクリプトにより置き換えることによって変更する …1 Partl プロファイノレの定義を取得するためのルーチン フ。ロファイルの定義が入った JM?ファイルを聞くことを促すメッセージダイアログ守を表示する . . . 2 ファイルを聞く夕、、イアロク、、を表示する …3 t b l V a r i a b l e sとしづ名前の変数にフ。ロファイルが定義された JM?ファイルの内容を代入する … 4 回答者からの評価データの入った JM?ファイルを開くことを促すメッセージダイアロク守を表示する … 5 ファイルを聞くタすイアロク、、を表示する . . . 6 回答者の ID番号が入力されている列名を指定するよう促すメッセージタ守イアログ、を表示する. … 7 列選択に関するダイアログを表示し, ID番号が入力された列を選択させる. … 8 PartI l プロファイルに対する評価デ、ータを取得するルーチン ID~IJ のデータを IDMatrix としづ変数に代入する.なお, I D M a t r i xは,計算される部分効用値がどのサンプル …9 の部分効用値であるのかを対応付ける際に利用される. コン、ジョイント分析に用いるプロファイルに対する評価データが入った列(複数多I J)を選択するようにメッセージ のダイアログを表示する. (変数選択ができるように設計した理由は,性別とし、った回答者の他の属性項目が含 まれるデータテープ';レからで、もそのままコンジョイント分析を実現できるようにするためである.) . . . 1 0 評価データの入った列を選択する列選択に関するタ守イアログを表示し,列を選択させる.この列選択で選ば . . 1 1 れた列名は, OrdersVarNamesに代入される. O r d e r sVarNamesに代入された列名の順番に,データテープソレからデータを取得し, S o u r c e O a t a T a b l eの右側 に列を付け加える形でデータを S o u r c e O a t a T a b l eに代入する. 現在聞いている回答者の ID番号と評価データの入ったファイルを閉じる. …1 2 . . 1 3 t b l V a r i a b l e s に代入されてしもコンジョイント分析用のプロファイルの入ったデータテープツレの名前を 分析用 データ. j m p "に変更する. (以降の操作で同じファイル名で不用意に保存することを防ぐためである.) …14 P a r t l l l 順位評価法の場合に評価データの変換処理を行うためのルーチン コンジョイント分析の評価データの回答方法についてラジオボックスから選択する形で,評定尺度値(点数評 価法)か順位尺度値(順位評価法)のいずれかの評価方法を利用者に選択させる. …1 5 順位尺度値で、あったときに,値の最大値を求める操作のために,評価値の入っている S o u r c巴 O a t a T a b l eの列 … 1 6 数を取得し, N C o l s S o u r c e O a t a T a b l eに代入する. 順位尺度値で、あったときに,値の最大値を求める操作のために,評価値の入っている S o u r c e O a t a T a b l eの行 …17 数を取得し, N r o w s S o u r c e O a t a T a b l巴に代入する. 順位尺度値で、あったときに,前の操作で得た行列のサイズを利用して, S o u r c巴 O a t a T a b l eの中の評価データ の最大値(最も評価の低し吐きの順位)を取得し, MaxSourceOataTableに代入する. …18 順位尺度値を評定値として利用するために, M a x S o u r c e O a t a T a b l eの値に 1を加えた値から S o u r c e O a t a T a b l e の各行列要素を引し、た値を計算し, TmpOataTableに代入する. …19 評価尺度に関するダイアログのラジオボタンで,順位尺度値がデータとして取得されていると指定されたとき F h υ ﹁υ 町 η ノU
のみ, TmpDataTab!eを SourceDataTab!eに代入する. 回帰分析の説明変数名として利用するために, XVarNamesに SourceDataTableの列名を代入する. …20 … 21 PartIV 部分効用値を推定するための回帰分析を行うルーチン 本ステップで、は,全ての回答者に対して部分効用値を推定するために,以下の 22から 32までの操作をサン プル数 (NRow(SourceDataTable))の回数だけ繰り返す.なお,本ステップの実行中は,画面上にはプロファイル が定義された JMPファイルの内容が表示されているだけになっている. i番目の回答者の評価データは, S o u r c e D a t a T a b ! eの i行目に行方向に格納されているので,これを転置し, …22 列ベクトルとして AddColに代入する. 分析用データを格納するデータテープ ル t b ! V a r i a b ! e s に SourceData"としづ列名で新規に列を作成し, AddCo!に保存されてしも列ベクトルのデータを新規作成列の内容として代入する. 操作 2 3で列ベクトルとして追加された列名 SourceDataを DependentVariab!eNameに代入する. …23 …24 e g r e s s i o n として定義)の中の D e p e n d e n t V a r i a b ! e の内容を P a r t Oで、定義された回帰分析の基本形(R DependentVariableNameの内容(操作 24で代入した列名 S o u r c e D a t a )に変更し, I n d e p e n d e n t V a r i a b ! eの内容を XVarNameの内容(各プロファイルの属'性別の水準を定義した行列)に変更し,回帰分析を実行して処理結果を …25 d ! g R e s u l tに代入する. 処理結果の中から必要な推定結果を取り出せるように,評価のダイアログ中のオブ'ジェクトの表示ツリー(表示 …26 e s u ! t D a t a T a b ! eに代入する. の項目の並び)を R t a T a b ! e の中の 尺度化した推定値"の下にある数値行列の 1列目(偏回帰係数の推定値,すなわち R e s u !tDa 部分効用の推定値)の数値を列ベクトルとして取得し, V e r t i c a ! P a 吋i a ! U t i l i t y V a l u eに代入する. 吋i c a ! P a r t i a l U t i ! i t y V a l u e の値を転置して代入する. H U t i lに Ve …27 …28 Pa 而a l U t i l i t y V a ! u e sにれまでに処理されたサンプルの部分効用値を保存する配列)の最下行に追加する形 U t i !を追加する. で,処理対象のサンプルに対して新たに推定された部分効用値の行ベクト/レ H …29 最初のサンプルを処理するときのみ, P a r t i a ! U ti Ii t y V a ! u e sの各列がどの属性のどの水準に対応する部分効用 e s u ! t D a t a T a b ! e の中の 尺度化した推定値"の文字項目の 値であるのかを示す変数名として使用するために, R 1列目を取得し, I n d e p e n d e n t V a r i a b l e N a m e sに代入する 分析結果が表示された R e s u !tDa t a T a b ! eを閉じる. …30 …31 分析用データテーブル t b ! V a r i a b ! e sの S o u r c e D a t a "としづ列を削除する.この操作により,次の処理対象とな る i+l番目の回答者の評価データを格納することができるように,処理が終わって不要となった i 番目の回答者 の評価データが格納されているデータテープ、ルの列が削除される. PartV … 32 全サンプルの部分効用値の推定結果をデータテープ、ルに保存するルーチン i n a ! U t l i t y T a b ! e品、う名前の変数に代入する. 結果"としづ名前で,新しいデータテーブルを聞き F F i n a !U t i l i t y T a b ! eに ID番号品、う列名を追加し,操作 9で取得した IDMatrixを代入する. …33 …34 I n d e p e n d e n t V a r i a b l e N a m e s から,推定された偏回帰係数がどの属性のどの水準に対する部分効用値である a r t i a lU t i l i t yV a !u eから列ベ かを示す列見出し名を取得し,列見出しに対応する個々の回答者の部分効用値を P i n a ! U t i ! i t y T a b ! eの新しし明!として追加する操作を水準の総数回だけ繰り返す. クトノレとして取得して F 分析用データテーブルとして用いた t b ! V a r i a b ! e sを閉じる. 256 … 35 ‑ ・ 3 6
//一 一 一 一 一 一 一 ー 一一一一一一一一一一ー /女変数の初期化 合/ //一一一一一一一一一一一一一一一一一ーーー 一 一 ‑ tb1variab1es=[]; /*分析に使う属性(文字)の入った変数を格納 Partia1uti1ityva1ues=[]; /安部分効用値を格納 varList=[]; /合分析に使う属性(文字)の入った変数名を格納 Sour仁 eoataTab1e=[]; /会分析に使うプロファイルの入った変数を一時的に格納 dTab1e=[]; /会分析に使うプロファイルの入った変数を配列として格納 Add仁01=[]; /*一人分のプロファイルの入った変数を列ベクトルとして格納 origina1RowOata=[]; /会プロファイルの入った変数を一時的に行ベクトルとして確保 Huti1=[]; /士コンジョイント分析による部分効用値を行ベクトルとして保管 り * / V 会/ * / * / V 女/ vertica1Partia1Uti1ityva1ue=[]; /会コンジョイント分析による部分効用値を列ベクトルとして保管 一一一一一ー一一一一ー 一一一ーー / / 一 /会回帰分析の基本形の定義 会/ 一一一一 一一一一ー一一一ー //一一ーー 女/ Regression = EXpr( Fit Mode1( , v( oependentVariab1e ) Effects( Independentvariab1e , ) Persona1ity(standard Least squares), Emphasis(Minima1 Reportl, Run Mode1(oependentvariab1e << {sca1ed Estimates(l)} ) , Invisib1e 〕 ) ; …1 //一一一一一 一一一 一一ー 一一 ー /士データファイルの定義,分析項目の定義 士/ //一一一一一一一一一一一一一一一一一一一一 //一一一 一 一 一 会 合 会 一 一 ー 一 一 一 一 一 一 一 一 /* ******吋 tart Part 1 ************** */ //一一一一一‑‑‑***一一一一一一一一一一一一 ‑ d1gshow=oia1og( ,コンジヨイント分析で使う分祈対象のプロフアイルの入つた J M Pフアイルを指定します Button("OK") ) ; d 1gshow=open0; tb1variab1es=仁urrent Oata Tab1e(); …2 …3 …4 //一一一一一一一‑***‑ 一一ー 一一一 一一一 / 合 会会士会付女 E NO Part 1 **士会合会会合会合****女 り //一一一 一一会合会一一ー 一一一一一一一一ー //一一一一一‑‑‑***一一ー 一 一 一 一 一 一 一 一 一 / 会 合会会合付句 t art Part 口付会合会合付付付 り //一一一一ー一一会会合一一 一一一一一一一ー d1gshow=oia1og( "コンジョイント分析で用いる回答者のプロファイルの評価値が入った J M Pファイルを指定します" Button("OK") ) ; …5 d1gopenTab1e=open(); …6 d1gshow=oia1og( "次に,回答者の回答者番号の入った亨1 1 名を指定します.", Button("OK") ) ; …7 …8 …9 d1gL工ST=仁01umnoia1og(工D仁0 1Name=仁OlList("工D番号の列", Max仁01(1))); IDMatrix=co1umn( d 1gLIST[ " 工 D仁olName"])<<GetAs Matrix; d1gshow=oia1og( "コンジョイント分析で使う回答者のプロファイル評価値が保存された復数列を指定します Button("OK") ) ; …1 0 d1gorderList=仁01umnoia1og( OrdersVarNames=仁OlList("評価値の亨1 1 ",M in仁0 1(1)) ) ; …11 t ヴ 戸 川 υ ワ 臼
For(i=l, i<=N工tems(dlgorderList["ordersvarNames"]), i++, columnDatabyName=Column(dlgorderList["ordersvarNames"][i]) くくG etAs Matrix; ColumnDatabyName); sourceDataTable=concat(sourceDataTable, …12 …13 …14 ) ; close(dlgopenTable,No save); tblVariables << set name("分析用データ .jmp"); //ー一一一一一一会合会一一一一一一ー一一一一一 安交付合士会 E nd Part 工工士会合会付付合交付合 会/ //一一一一一一‑‑***‑‑一一一一一一一一一一 //一一一‑一一‑‑**仁一一一一一一一一一一一ー / 士 片 付 付 吋t art Part 工工工********** *j //一一一一ー‑‑‑***一一一ー一ー一一一一一一ー / 公 dlgShow=Dialog("コンジョイント分析に用いる評価者の評価法を選択してくださいー" vList( "評価法 type=R珂 adioButtons("評定尺度値 ), Button("OK") ) ; …1 5 NColssourceDataTable=NCol(sourceDataTable); …16 NrowssourceDataTable=NRow(SourceDataTable); …17 MaxsourceDataTable=Max(SourceDataTable); …18 TmpDataTable=J(NrowssourceDataTable, NColssourceDataTable, MaxsourceDataTable+l) …19 ‑sourceDataTable; 工f ( dlgshow["Type"]==l, sourceDataTable=SourceDataTable, sourceDataTable=TmpDataTable ) ; …20 XVarNames=tblvariablesくく GetColumnNames; …21 //一一一一一一‑‑**士一一一一一一一一一一一一 ND Part 工工工片付********安 会/ / 会 合会付士会会 E //一一一一一一一付会一一‑一一 一ーーーー / / 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 ‑ ‑ ‑‑ F 回帰分析の処理部分 会/ //一一一ーー一一一ー一一ー一一一一ー //ー一一一‑一一合会士一ー一一一一一一一一一一 /女******士 S tart Part 工v * * * * * * * * * * * * * / //一一一 一一一‑‑***一一一一一一一一一一一ー‑ For(i=l, i<=NRow(SourceDataTable), i++, Addcol=Transpose(SourceDataTable[ i,0 ] ) ; … 22 tblVariablesくく NewColumn("scoreData", values(Addcol)); …23 DependentvariableName="scoreData"; …24 dlgResult = Eval( substitute( NameExpr( Regression , ) ) DependentvariableName, Expr( Dependentvariable , Expr( 工ndependentVariable , ) XVarNames 〉 ) ; …25 ResultDataTable = dlgResult << Report; …26 verticalpartialUtilityvalue= 27 ResultDataTable[川尺度化した推定値 "][NumberColBox(l)]くく GetAsMatrix; … HUtil=Transpose(verticalpartialutilityvalue); …28 partialutilityvalues=vconcat(PartialUtilityvalues,Hutil ) ; … 29 工f(i==l, 工n dependentvariableNames= ResultDataTable["尺度化した推定値"] [stringcolBox(l)]<<Get ) ; …30 w indow( "モデルのあてはめ" ) く く closewindow; …31 tblvariablesくく Deletecolumns("ScoreData"); …32 ム ﹁hu ︒ ︒η
// ーーー一‑‑***‑一一一一一一一一一一一一一一 /合 会合日付合 E ND Part rv 会/ //一一一一一一一‑***‑一一一一一一一一一一一一ー // 一一一一一一一一一一一一一一一一一一一一 * * * * * * * * * * * * * * /女データテーブルへの出力結果の保存部分 会/ //一一一一一一一一一一一一ー ー 一一一一一 //ーーーー一一一一一一一一ー‑**安ーーーーー一ーーーー tart Part V 付 討 す 安 村 村 川 合 /会 対決公安会合 S //一一一一一一一一一一一一付士一一 会/ ーー FinalUtilityTable = NewTable( "結果" ); …3 3 FinalUtilityTable<<New column("工D番号", values(工DMatrix)); …34 For(i=l,i<=N工tems(rndependentvariableNames),i++, FinalUtilityTable くく N ew仁olumn(工ndependentVariableNames[i],values( partialutilityvalues[0,i])) ; ) ; …3 5 Close(tblvariables,NOSaVe); …36 //一一一一一ー一日公 ー 一ー一一ー ー nd Part V 安安安安安安安付安付女士骨付士安 /安 安公安安安士夫 E //ーーーーー一一一一一ー一一‑**女一一一ーーーー一一一ーー一ーーーーーーー一一一一ー ‑259 安/
S A S Forumユ ー ザ ー 会 行政施策評価へのコンジョイント分析適用の可能性と課題 田中洋平・ 黒田佳代" 加藤雅宣帥 ) 1 [向肇同事 0有馬昌宏事問 事兵庫県立大学大学院応用情報科学研究科修士課程 柿ダイキン工業株式会社 ....兵庫県立大学大学院応用情報科学研究科 間兵庫県立農林水産技術総合センタ~ P o s s i b i l i t i e sandCh副憎 ngeso fC o n j o i n tA n a l y s i s nL o c a lGovernment t oP o l i c y俗 sessmenti Y o h e iT a n a k a . KayoK u r o d a . . MasanobuK a t o h 叫 H司j i m eKawaml 畑 i . . . . M a s a h i r oA r i m a . . . . U n i v e r s i t yo fHyogo D a i k i nI n d u s t r i e s, LTD . G r a d u a t eS c h o o lo fA p p l i e dI n f o r r n a t i c s, H H yogoP r e f e c t u r a lT e c h n o l o g yC e n t e rf o rA g r i c u l t u r e, F o r e s t r ya n dF i s h e r i e s . ' G r a d u a t eF a c u l t yo fA p p l i e dI n f o r m a t i c s, U n i v e r s i t yofHyogo 帥 事 特 要 旨 行政施策評価へのコンジョイント分析の適用可能性を検証するために,兵庫県揖保郡新宮町 (現たつの市)において全世帯を対象とする 4属性 3水準のコンジョイント分析用の質問を含む住民意 識調査を 2004年 12月に実施した.しかし,プロファイルの設計に問題があり,提示したプロファイル 群は属性の直交性の基準を満たしていないことが事後的に判明し,貴重な回答データが得られたにもか かわらず,当初の目的を達成することができなかった.そこで,本稿では,コンジョイント分析を実際 に適用する際に最も大きな問題となるプロファイルの設計段階での属性の直交性について再考した.ま た,調査で用いた 4属性のうちから 1属性を除外することで崩れた直交性が緩和され,部分効用値の推 定が可能となることから, 3属性でのコンジョイント分析を行った結果を紹介するとともに,分析の過 程で得られたコンジョイント分析を質問紙法で実施する際の課題についても言及する. キ ー ワ ー ド : コンジョイント分析,カスタム計画,直交性,質問紙調査 1.はじめに 「コンジョイント分析」とは,評価対象に対する選好を回答者に直接訊ねて得られる表明選好データ ( S t a t e dP r e f e r e n c e ) に基づいて分析する表明選考型のアプローチで,評価対象を構成する属性別に 個々の属性の効果(価値)およびその同時結合尺度 ( C o n j o i n tS c a l e ) を同時に評価することができる 分析手法である.主に企業のマーケティング分野で活用されてきているが,自治体の行政施策の評価に 活用することも可能でらある.近年,従来からの環境評価への応用に加えて,交通・通信や再開発事業な どの個別の分野の事業計画や事業評価にコンジョイント分析を適用する事例が多く見られるようにな ってきている.しかし, I 厳しい財政制約のもとで行政が提供している各種の幅広いサービスの水準を どのように決定すべきか」としづ喫緊の課題に関連しては,コンジョイント分析を適用した政策判断や 政策形成過程への国民や住民の参加が可能であると思われるにもかかわらず,ごく少数の一部の国民や 住民を対象にパブ、リック・インボノレブメントの一環としての特定の分野・領域の政策や計画の代替案評 価に適用される事例が散見されだけである.また,行政の担う分野・領域全般から幅広く属性を選定し てコンジョイント分析を試みている例は,栗山他 (2005) による受益と負担についての国民意識を探る ための先駆的な事例はあるものの,我々にとって身近な市町村レベルで、の行政施策評価にコンジョイン ‑261一
ト分析を適用している例は見られない. このような状況のもと,我々の研究グループは,市町村で行われる住民意識調査においてコンジョイ ント分析を適用した行政施策評価ができなし、かとし寸問題意識を持って,兵庫県揖保郡新宮町(現兵庫 県たつの市)をフィーノレドにコンジョイント分析の住民意識調査への適用可能性を検証するための実験 を試みた.残念ながらこの調査実験は設計した質問に不備があって失敗に終わったが,この調査実験を 実施する過程で明らかになった問題や課題,さらには貴重な住民からの評価データを有効活用するため の取り組みの中からの成果を紹介することで,市町村レベノレで、の行政施策評価へのコンジョイント分析 の適用に対して貢献できることがあるのではなし、かと考えて,研究の一端を本稿で紹介することとした. 2. コンジョイント分析と直交計画によるプロファイルデザイン コンジョイント分析には,大きく分けて選択型コンジョイント ( Choice'basedC o n j o i n t ) と評定型コ Rating'basedC o n j o i n t ) の 2つの手法があり,評定型を細かく分類すると「順位付け評 ンジョイント ( 評点型評定法J, I 一対比較法」の 3つに分類される.本研究では,行政施策評価のために 定法 J, I 住民意識調査でコンジョイント分析が適用できないかの可能性を探ることを目的としており,住民意識 調査は質問紙法で行われ,調査票の配布・回収は郵送や託送による場合がほとんどであることから,順 位尺度による「評定型コンジョイント分析」の可能性を検証することにした. 順位尺度による評定型コンジョイント分析とは,製品やサービスを構成する各属性に対する水準と呼 ばれる特性内容を文字や絵によって表現することでプロファイルと呼ばれる一つの仮想の製品・サービ スを示し,属性ごとに異なる水準で構成される複数のプロファイルを作成して,購入・選択したい順に 並べさせるとしづ手続きを経て,プロファイノレの好ましさを順位で回答してもらい,この回答から回答 者が各属性に対して持っている重要度や部分効用値と呼ばれる水準の評価値を推定するとし、う手法で ある.なお,順位付けではなく,購入するかしないか,あるいは受け入れるか受け入れなし、かで、プロフ ァイルを選択して選好を表明する方法もあり,この方法が選択型コンジョイント分析と呼ばれている. ところで,コンジョイント分析では,回答者への負荷を減らす観点から,属性ごとに全ての水準を組 み合わせてプロファイルを作成して提示するのではなく,回答者に提示するプロファイルを絞り込み, 絞り込まれたプロファイルに対して表明された選好から部分効用値を推定することが一般的である.こ のプロファイルの絞り込みをプロファイルデ、ザイン(プロファイノレの設計)と呼び,各属性の直交性を 保持するために,多くの場合はプロファイルデザインで直交計画が用いられている. ここで,直交性とは属性が互いに独立ということであり,直交性が満たされないと,部分効用値の推 定の効率性が失われ,最悪の場合には推定そのものが不可能になる.ところで,直交性が成立するため の 3条件の成立が求められる. には,一般的に次に示す(1)と(2)と (3) (1)全プロファイルの定義行列から作成した「十ー J型行列の各列の総和が 0である. (2) 全プロファイルの定義行列から作成した「十 」型行列の列間で計算した相関行列の非対角 要素が全て Oである. ( 3 ) 全プロファイルの定義行列から作成した II‑OJ型行列の列間で計算した相関行列の非対角要 素が基本的に全て 0である.ただし,同じ属性の項目聞においては計算された相関係数が 0でな くても問題はない. と (3)の条件が成立しているかどうかを検証するための具体的な手順を, 4属性 以下では, (1)と(2) の場合を例にとって,説明する. ‑262‑
," ゆ 司 " . ・ ・ , ,,, プロファイル定義行手1 [ プロファィ属性 1 属 性 2 属 性 3 属 性4 J レ番号 ( 3水準)( 3水準) 3水準)( 3水準)( 赤 太い よい 大 黒 2 普通 よい 中 白 細い 3 よい 白 太い 4 普通 中 普通 5 普透 赤 6 細い 黒 普通 大 ι ' j ~v/ ::x..口町 ~ プロファイ 属 性 1 属 性 2 属 性 3 属 性4 J レ番号 ( 3 水準)( 3水準)( 3水準)( 3水準) 2 3 2 3 4 2 2 2 5 6 2 3 2 3 2 3 , . ' " 、 四 回 ・ .J ....1‑ I ~ ...~ 、.,~,.A. プロファィ属性 1 属 性 2 属 性3 属 性 4 ル番号 ( 3水準)( 3水準) ( 3水準)( 3水準) 2 3 3 2 3 4 5 2 6 。 。 。 。 。 。 。 。 。 図 1 直交性の条件(1)の確認の手順 手順⑤ r 1‑OJ型行列への変換 プ ロ フ ァ 属性 属性 属性 属性 属性 属性 イル番号 1 ‑ 1 1‑2 2 ‑ 1 2‑2 3 ‑ 1 3‑2 0・ 2 3 0・ . . . 4 5 6 7 8 。 。。 。。 。。。。 。 。。 。 。 。・ 。 。。 。。 。。 ・ ・ 。。。 図2 11‑0J 型行列への変換 ... T 今変量 回 目 日 ー 品 守相関 属性1 ‑ 1 1口口口口 ‑ 0 . 5口 口 口 口口口口口 口口口口口 口口口口口 口口口口口 口口口口口 口口口口口 属性1 ‑ 1 属性1 ‑ 2 属性2 ‑ 1 属性2 ‑ 2 属性3 ‑ 1 属 性3 ‑ 2 属性4 ‑ 1 属 性 ←E 0 0 0 0・ 図3 属性1 ‑ 2 口5 口 口 口 ?口口口口 口口口口口 口口口口口 口口口口口 口口口口口 口口口口口 口口口口口 属性2 ‑ 1 口口口口口 口口口口口 1 .0 口 口 ロ 一 口5 口 口 口 口口口口口 口口口口口 口口口口口 口口口口口 有 守一一一由一 属 性2 ‑ 2 属性3 ‑ 1 且口口口口 口口口口口 口口口口口 口口口口口 ー 口5 口 口 口 口口口口口 1 .0 口 口 口 口口口口口 0 . 0口口口 1口口口口 口口口口 o ‑ 0 . 5 0 0口 口口口口口 口 一 口 口 口 口 口口口口口 口口口口口 一'一一一一一『一一一一一一一一… 一一 一 属 性3 ‑ 2 口口口口口 口口口口口 口口口口口 口口口口口 0 . 5口 口 口 1口口口口 口口口口口 口口口口口 回 一 一 一 属 性4 ‑ 1 属性4 ‑ 2 口口口口口 口口口口口 口口口口口 口口口口口 口口口口口 口口口口口 口口口口口 口口口口口 口口口口口 口口口口口 口口口口口 口口口口口 1 .0 0 0 0 一 日5 口 口 口 一 日5 0 0 0 1口口口口 11‑0J 型行列から計算された相関行列 ①直交性の条件 ( 1 )のチェック 手1 ) 頃 1 各属性について水準値を名義尺度のコードデータに変換してコード行列を作成 プロファイルの定義行列において,全プロファイルの各属性の水準値を水準に対応した名義尺度の コードデータの行列(コード行列)に変換する.すなわち 2水準なら各々の水準値に数値 1と数値 2を割り当て, 3水準なら各々の水準値に数値 1と数値 2と数値 3を割り当てる. ( 図 1の手 ) 1 ) 貢①の行 1の全プロファイルの水準の組み合わせに対して 列は, 4属性で各属性の水準数が 3の場合を例に, 8 水準値をコードに変換して作成したコード行列の一部を示している.) 手順 2 コード行列を 1+一 」型行列に変換 ) 頃 lで作成したコード行列を 1+‑ ‑J型行列に変換する.すなわち, 2水準の属性の場合には, 手1 水準値 1を lに,水準値 2を 0に,水準値 3を 1に変換し, 3水準の属性の場合には,水準値 1を 1に,水準値 2を 1に変換する. 手1 ) 頃3 ‑ 9l j 和を求めて直交性の性質(1)を検証 ) 頃2で求めた 1+‑ ‑J型行列の各列に対して列和を計算する.この列和が全ての列(属性)で 手1 0であれば,直交性の性質(1)を満たしていることになる. ②直交性の条件(2)のチェック 手1 ) 頃4 I+‑‑J 型行列の相関行列を求めて直交性の性質(2)を検証 手1 ) 頃2でコード行列から変換した 1+‑ ‑J型行列に対して, ‑ 9I J(属性)聞の相関行列を算出する. JMPでは 1 分析 J‑ 1 多変量 J ‑ 1 多変量の相関」と選択して IY,列」に 1 +‑‑J型行列の 全ての列を指定すればよい.算出された相関行列の非対角要素が全て O であれば,直交性の性質 (2) を満たしていることになる. ③直交性の条件 (3)のチェック 手1 ) 頃5 コード行列を 11‑0J 型行列に変換 手順 1で作成したコード行列を 11‑0J型行列(図 2参照)に変換する.方法は, 2水準の属性 の場合には,水準値 1を 0に,水準値 2を lに変換する. 3水準の属性の場合には, 2列に分割して, ‑263
水準値 1は (1, 0) に,水準値 2は (0, 1)に,水準値 3は (0, 0)に変換する.ただし,括弧内の 第 1要素と第 2要素は,それぞれ 2列に分割したうちの第 1列に割り当てる値と第 2列に割り当てる 値を意味する. 手順 6 11‑0J 型行列の相関行列を求めて直交性の性質 (3)を検証 手順 5で作成した I1・OJ 型行列に対して,手1慎4と同じ方法で列聞の相関行列を算出する.算出 された相関行列の非対角要素が全て 0であれば,直交性の性質(3)を満たしていることになる.ただ し 3 水準の属性の場合は 2~IJ に分割されているので,同じ属性に対応する 2~IJ の問での相関係数は 0でなくてもよい.実際 l こJMP で計算した相関行列の例を図 3に示しである. なお, JMPの「スクリーニング計画」で生成される直交計画プロファイルは直交性の条件を全て満た しており, I カスタム計画 J で生成される直交計画プロファイルは,条件(1)を満たしていない場合が あるが,条件 (2) と条件 (3)は満たしている. 3. 新 宮 町 住 民 意 議 調 査 の 概 要 と プ ロ フ ァ イ ル デ ザ イ ン の 実 際 3. 1 新宮町住民意識調査の概要 2004 年1 2月に兵庫県揖保郡新宮町 (2005年 4月 1日現在で人口 1 6, 948人 , 5, 224世帯)をフィールド に選定し,新宮町の連合自治会に加盟している 4, 810世帯に対して住民意識調査を実施した. A 4サイ ズ 8ページの調査票を設計し,その中の 1ページに,コンジョイント分析の適用可能性を検証するため の仮想的な政策の組合せの順位付けによる評価を問う質問を組み込んだ. 2004 年1 2月第 1週に自治会を経由して自治会に加入する 4, 860世帯に調査票を配布し,郵送で調査票 年 1月中旬で回収を締め切り,最終的に 1 , 105世帯からの回答 を回収する方法で調査を実施した. 2005 が得られ,有効回収率は 22.97%で、あった. 3. 2 プロファイルの作成と回答方法 コンジョイント分析の適用可能性を検証するための質問に関しては,政策ノ号ッケージとして「コミュ 高齢者への給食サービス J, I 町税負担」の 4つの属 ニティパスの運行回数 J, Iゴミ収集回数 J, I 性を構成要素として考え,週 1回の収集しかない地区もあるために「ゴミ収集回数」だけは「改善」と 「現状維持j の 2水準で, I ゴミ収集回数」を除く 3つの属性については原則として「改善」と「現状 維持」と「改悪 j の 3水準でプロファイル構成を考えることとした. ただし 3水準の属性が 4つで 2水準の属性が 1つの場合には,組合せを計算するとプロファイル数 は54となり,この 54のプロファイルをページ制約のある調査票に記述することはほぼ不可能であるとと もに, 54のプロファイルを望ましさの順に順位付けることも実際には不可能である.そこで,プロファ イル数を少なくするために JMPの「カスタム計画Jを利用して,属性聞の直交性が保持される 9つのプ ロファイルを選定した. なお I カスタム計画」で直交主効果デザインによりプロファイルを作成するための画面例は図 4に 示す通りである.最初に,メニューパー上から「実験計画」ー「カスタム計画」と選択し そのままにしておき, I 応答J は I 因子」において「因子の追加」ボタンで 1個のカテゴリカルな 2水準の因子と 3個のカテゴリカルな 3水準の因子を追加して I 値」に実際の水準値を入力した上で「続行」ボタン をクリックする.続いて,切り替わった画面では,主効果のみを考えるので「モデル」はそのままにし ておき, I 計画の生成」に表示される「最小値」の数を参考にしながら「実験の回数」に生成したいプ ロファイル数を入力して「計画の作成」ボタンをクリックするという手順で図 4の画面が表示される. ‑264一
提示される 9つのプロファイルに対する
.
.
u
;
寄
順位付けに関しては,
霊霊童亙ヨ~匡璽日
,‑‑‑a喜吉一一一一一一一一官官一一一一一一宇面寝耳一一‑‑:r両通膏一一一葺喜富一一一一つ
!
7
融
I
i
1
:
‑
1
I . ̲ !
コー、=ン :
;
.
T
;
;
;
立場から別々に回答してもらった.
匿歪重G 密 室 四 盟 主 型 旦 白
変l!
f
u
i
a
z
え繕潤
l
趨守園調曹
むし
打困宅復
T
1
I
D
laし
la状 縫 M
3
遮 3B
1
毎H
1
1罰..
1
2罰相
表 1にはこの質問への回答状況を示しであ
るが,有効回答 1
,
105票のうち, 3つの立場全
‑因子窃割前を蓮華
てから 9つのプロファイルに順位付けをきち
1M盤
・モデル
んと行った回答者は 57.8%の639人で,面倒な
匡歪!JI!:霊室ヨ@BJ~~互ヨヨ豆璽呂
‑
1
釜芝
名前一一…
質問であるにもかかわらず,予想を上回って
必須
〉
必
:
置
ζみ駁集図書量
・
電
"
.
必5
コミュニテ 4 バスの遅行
"'S~ーへの嶋倉ザーヒス
(町拠虫姐
かなり多くの人々からの回答があり,質問紙
4
硲舟
法による住民意識調査においてコンジョイン
ト分析の手法を適用してプロファイルに順位
aa
担増堵舛稽鍋噌姐円相槽尚
昆割割増創創凶権問割帽
幽侃1 2 紋 1 2貌 2 t 荻
町民
33a
スし呂田目白日し日し
ピいな笥a 属 3 箇 G 3往
‑週週過
け
金
8
一
の
31
へ
a
︐
.
高
一朽便便しし使優し便局塚
なな
t
遺
お の 日 日 目 白 日︐
日
・ ・a‑
ス11t1s
一
﹄
イ
‑Y
ぃ
‑
e待 問 時 噌 暗 唱 唱 槽 槽
‑﹄
図4
王
↑
z'
一
一回槍織眼目園田園田目
・g1
白集積続試 t t t 1
Eaaa週 週 週 遭 遇 週
画今岨mt 芝 3 4 5 5 7 8 9
計翼
•
えた場合 J , r
家族や身近な人のことを考え
た場合 J , r
町全体を考えた場合」の 3つの
一一J
」一一一一一一一‑‑‑‑̲.̲‑一一一一一一一
'函干
i自分のことのみを考
付けをしてもらうことが不可能ではないこと
が判明したといえよう.
i
カスタム」計画によるプロファイルの設計
3. 3
プロファイル設計の問題点
新宮町で実施した住民意識調査で設問に用
表 1 コンジョイント分析の質問への回答状況
用いたプロファイルを表 2に示しているが,
1
3分自 身の 家族や近所 自分自身の
ことを考えて のζとを考え ことを考えて
立付け 般住1'11
す
穎t
立付け て搬t
270(24̲4%) 346(313号色} 3
5
7(323C}も}
害
現I
I
D千
寄
1
2
7(115C
}
も11
98( 69%)
一部回答
}
0
2(9
.
2C
│完今回袴
708{
6
4
.
1号も} 657(595C}も) 650(588号o)
639{578C}も}
3つの立i
釜に笠全戸1
釜
l
有効回築後手堅数
1
.
105
4810
l
調査対象世径数
ω
調査実施後に,調査票に提示した 9つのプロ
ファイルには直交性がなく,回答データから
はパラメータ(部分効用値)が推定できない
ことが判明した.原因は,調査票の設計から
印刷を経て調査票の配布までの非常にタイト
なスケジュールの中,時間的余裕がない状況
こJMP
の「カスタム計画」によって生成された計画の中にあった非現実的な属性水準
で調査票の校正時 i
の組合せの存在が問題となり,研究代表者のその場の判断で現実的な組合せとなるように水準の入れ替
えを行ったことにより,保持されていた属性の直交性が崩れたことによるものであった.
表 2 直交性が崩れたプロファイルの組み合わせ
1
現状維持
2
3
4
5
6
7
8
税負按で 税負担で 税負担で 税負担で 税負担で 税負担で やりくり
高サーピ
高サーピ
9
やりくり
高サーピ 高サーピ
高サーピ
高サービ して (1) し て (2)
ス (1) ス (2)
ス (3)
ス (1)
ス (2)
ス (3)
2害I
]
t
首
2害]
1
増
1
割増
1害]
1
増
1
害]
1
増
2害I
仕
留
町税負担
現状維持
ごみ収集回数
現状維持
週一回増 週一回増
現状維持 週一回増
週一回増
現状維持 現状維持 週一回増
コミュニティパス
1日1
便
1日3便
1日1
便
1日3便
1日1
便
1日3便
なし
なし
高齢者への給食
なし
週3日
」 ー
毎日
毎日
週 3日
週 3日
なし
1日3便
なし
週 3日
一 一」 一 一
現状維持 現状維持
F
h
υ
Gり
臼
つ
コンジョイント分析を適用する際の実務上の最大の問題は,林山・田遁 [ 9 ]や加藤 [2]などで指摘され ているように,直交主効果デザインで作成されるプロファイルの中には,現実的にはあり得ないプロフ ァイルが含まれる場合があることである.現実的にはありえないプロファイルが「カスタム計画」や「ス クリーニング計画」を適用した際に生成された場合の実務上の対応策は,水準値の入れ替えや当該プロ ファイルの削除などが一般的であるが,不用意に水準値の入れ替えやプロファイルの削除を行うと本研 究のようにパラメータの推定が不可能になるなどの致命的な問題が発生するため,プリテスト(予備調 査)を行うことがベストであるが,そのような時聞がない場合でも,本稿で示した手順で属性聞の直交 性の保持の確認や仮想、データによる実際のパラメータの推定作業などを行っておくことが必要である. 4. 直 交 計 画 の 直 交 性 が 崩 れ た 場 合 の 回 答 デ ー タ か ら の パ ラ メ ー タ 推 定 4. 1 直交計画の直交性が崩れた場合の回答データの活用法 本調査においてコンジョイント分析を適用することができない原因は,水準値を入れ替えたことによ つの属性を除外して 3 って属性聞の直交性が崩れたことにある.そこで, 4つの属性のうち,どれか l 属性の計画として扱うことによって直交性が回復されるならば,パラメータ推定が可能になるのではな し、かという考えのもとでパラメータ推定の作業を行った. 実際に,属性を 1つ落としてコンジョイント分析を適用した結果は, 1 ごみ収集回数」もしくは「高 齢者への給食サービス」のどちらか一方の属性を落とした場合,パラメータの推定結果に「バイアスあ り」と表示されてパラメータ推定が不可能であるが, 1 町税負担」もしくは「コミュニティパスの運行」 のどちらか一方の属性を落とした場合には,パラメータを推定することが可能であることが判明した. 町税負担」の水準に基づき, 1 現状維持J, 11割 一方,回答データから回答傾向を分析してみると, 1 増J, 12割増」の順に 9枚のカードを順序付けている回答者が非常に多いことが明らかとなった.この ことから,多くの回答者が 4つの属性の水準の組み合わせを総合的に判断して順位付けをしたのではな 町税負担」という 1つの属性の水準のみを重視して順位付けを行ったのではなし、かと推測した. く , 1 コンジョイント分析では,回答者が属性や水準値のバランスを考えて順位付けをすることが望ましく, 1つの属性だけが順位付けに影響し,他の属性があまり考慮されない状況は望ましいとはいえない.そ 町税負担」の属性を外すことにより, 1 町税負担」の属性だけでプロファイルへの順位付けが行 こで, 1 町税負担」以外の属性に対する評価を明確にすることが可能になると考え, われている状況を回避し 1 「町税負担」の属性を外して分析を行うことにした. 4. 2 属性を落とした場合のプロファイルの順位構造について 「町税負担」の属性を外して 3属性によるプロファイルの順位構造を考える際に,属性を外す前のプ ロファイルの順位構造がそのまま保持されると考えることはできない. 1つの属性の除外が順位構造に 及ぼす影響を考慮、に入れて順位データの変換を行うことが必要になる. 除外する属性である「町税負担」は, で , 1 現状維持」と 11割増」と 12割増」の 3水準である.ここ 1 町税負担」の 11割増」と 12割増」の水準は,回答者が順位付けをする際に,順位を下げる要 因として働いていると考えられる.したがって, 1 町税負担」の属性の除外により, 「1割増」や 12 割増」が除かれたプロファイルの順位は,除外前の順位よりも上位になるはずである.また,順位を押 し上げる効果は 11割増」よりも 12割増」の方が大きいはずである.そこで,これら 2つのケース には,順位を大きく上げるように順位データからは特定の数値を引き,実際のパラメータ推定に用いる 評点(二(プロファイルの数) ‑ (順位) +1) データには特定の点数を加えることにした. ‑266
贋性を外 ところで,前述したように,多くの 『町税負 担 Jの水 2 里 回答者はプロファイルの「町税負担」 現状維持 J ,1 1割増 J,12 の属性が, 1 割増」の[ J 聞に 9枚のカードを順序付け ている.すなわち,多くの回答者が 1 2 3 3 g 自 』q ・ 7 3 E 4 5 5 5 1割増」の イノレを, 4位から 6位に 1 6 l d ' [ 増 7位から 9位に 1 2 割増」のプロファイルを順位付けてい ることになる. す宵~のブ ロファイ ルの点数 1 ' 1 曽 2 2 富1 [ 1 曽 位から 3位に「現状維持」のプロファ プロファイルを, 属性在外 現状維持 1 ' [ 増 ! 2 1 1 '1 増 4 す前のブ ロファイ ルの順位 付け 7 1 割増 4 6 日 現状維持 2 自 9 現状維持 g 図 5 属性を除外したことによる順位データの変換 このことから,「 1割増」の水準が 順位をおよそ 3位下げる要因として, 表 3 新たな政策ノ fッケージの属性と水準 2割増」の水準が順位をおよそ また 1 順位を 6位下げる要因として働いてい ると考えることができる.そこで,図 ごみ収集回数 コミューアイノ〈ス 5に示すように, 1 1割増」の水準が除 かれたプロファイルには順位の 3位上 水準 属性 両齢者への給食 現状維持 (Al) なし (B1) なし (Cl) 週一回増 (A2) 1日1便 1日3便 (B2) (B3) 毎日寸 (C3) 週 3日 (C2) 昇に相当する点数 3点を, 12割増」の 水準が除かれたプロファイルには順位の 6位上昇に相当する点数 6点を加算することとした. 4. 3 部分効用値と重要度の算出 コンジョイント分析においては,回答者の各プロファイルに対する全体的な評価に対応する効用水準 を全体効用値と呼ぶ.全体効用値はプロファイルを構成する属性の水準ごとに推定される部分効用値に 分解することができるが,本研究では,全体効用値が部分効用値の線形結合和として表現される以下の ような効用関数を仮定し,全体効用値はプロファイルへの順位付けに反比例する線形等間隔の評定尺度 値によって推定できるという前提のもとで、分析を行っている. Uhl =九 =sO +s ) A )+s2 A2+s3B l+s 2+s5B3 +s6C )+s7C2+sgC3 4B ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ① ここで ,Uhiは回答者 hのプロファイル iに対する全体効用値,五iは回答者 hのプロファイル/に対 する 9から 1までの値をとる評定尺度値 (=10‑ (プロファイル iの順位)), Ajと Bkと C Jは表 3に 示す 3つの属性の添字で示される水準に対応して 0または 1の値をとる変数である. コンジョイント分析では,回答者の順位付けデータから得られる評定尺度値 Y h iから回答者ごとに部 分効用値 β1から β8を最小二乗法でー推定する.なお,自由度を確保するために同じ属性の水準ごとに推 定される部分効用値の総和がゼロであるとし、う制約条件を導入して部分効用値の推定値んの水準を確 定しており,部分効用値がプラスで大きい値であるほど選好度が高い水準であることを意味することに なる. また,どの属性が回答者にとって望ましい製品・サービスを選択する際に大きい影響を及ぼすかを示 jは,属性別の部分効用値のレンジを用いて,以下の②式のように す指標である属性 jに対する重要度 I 表すことができる. L 二 (Pma x ; ‑ Pmi 勾) /2:j (Pma x ; ‑ Pmi J1 J ) x100 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ② J1j ここで , Pmaxjと Pmi はそれぞれ属性 jの推定された部分効用値の最大値と最小値を意味する. a qL ︐ ヮ nhu
m川川凶円ll︺
性別
旦世
女性
度鼓
60盛代
50室代
長代
4日i
3白書代
20
盆代
度致
直量
$
I
J古
327 0
.
4
6
7
8
1
372 0
.
5:
1
219
699 1
.
0
0田口
水型陸
女性
旦性
音計
氷室
20:&(
,
30
盆(,
40
室内
50盆(,
日溢門
70
定以上
合計
6J
t
d
f
t
2水 準
康叡
割合
水型佳
パート・アルバイト
会社員
学生・その他
公務員・団体車員
自営草
専主主師
専門・措術的盟主
震件水産量
無車
合計
, . 日 02550
" 口.
09815
113 0.16074
193 日.27454
1
9
1 日27159
119 日 16927
7日3 1日日日日日
度量
割合
" 日1
289口
144 020l
!
l7
16 口.02266
3日 日 .0424自
72 日 10198
1
19 0.16856
33 0.04674
30 0.04249
1
7
1 024221
7口6 1日ロロ 00
'
*
翠
図 6 コンジョイント分析に関する設問への回答者の属性
表 4 回答者の個人属性による重要度の重回帰分析の結果
自由度認整 R2乗
項
切片
性 男性
20歳 代
30歳 代
年
40歳 代
齢
50歳 代
60歳 代
農林水産業
自営業
公務員・団体職員
職 専門・技術職
業 I~ート・アルバイト
専業主婦
無稽i
学生・その他
西地区
東地区
地 北地区
区 南地区
1
:
ごみ収集回数
高齢者への給食
¥ス
コミユーナイ 1
‑
0
.
0
0
8
0
.
0
3
4
0
.
0
7
4
1
7
推定値
t
値 直(
P
r
o
b
>
l
t
l
l
P
r
o
b
>
l
t
l
)
推定値
推定値
t
i
i
直 直(
t
i
直 直(
P
r
o
b
>
l
t
D
0
0
1 *** 4
2
0
.
2
0
1
2 7
.
2
4 く.
0
0
0
1 *** 3
0
.
7
3
3
4 9
.
8
1 く0
0
0
1 ***
9
.
0
6
5
5 1
6
.
0
6 く0
0
.
5
6
3
9 0
.
3
7 0
.
7
0
8
1
1
.
3
1
1
5 0
.
7
8 0.
4377
1
.
8
7
5
4 ー
1
.
14 0
.
2
5
5
3
.
9
3 0
.
3
5
3
0
‑
1
3
.
5
3
8
1 ‑
3
.
1
5 0
9
.
4
4
5
2 2
.
4
1 0.01641*
4
.
0
9
2
9 0
.
0
0
1
7 本本
.
0
0
5
9 **
4
.
4
0
1
6 1
.
49 0
.
1
3
8
0
7
.
2
9
1
9 2
.
7
6 0
.6935
4
.
0
5 く0
0
0
1 本本本
11
.
0
0
0
9 **
2
.
0
0
4
6 0
.
7
6 0
.
4
4
7
0
9
.
8
4
4
5 ‑
3
.
8
3 0
7
.
8
3
9
9 3
.
3
4 0
.
0
0
0
1 **
4
.
7
6
5
4 2
5
.
0
3
9
7 2
‑
9
.
8
0
5
1 ‑
4
.
2
3 く0
0
0
1 ***
.
2
5 0
.
0
2
4
71
*
.
1
2 0.03431*
4
.
3
4
6
9 2.
.40 0
.
1
6
2
2
7
.
1
3
5
8 ‑
3
.
6
7 0
2
.
7
8
8
9 1
.
0
0
0
3 **
45 0.01461*
.
0
0 0
‑
1
.
7574 0
.
5
5 0
.
5
8
3
9
0
.
0
1
2
3 0
.
9
9
7
3
1
.
76
97
0
.
5
0 0
.
6
1
4
3
.
7
1
0
8
.
3
4 0
0
.
8
1
7
2 0
.
3
7 0
0
.
8
4
2
5 0
.
7
3
3
3
0
.
0
2
5
3
0
.
0
1 0
.
9
9
1
6
0
.
4
0 0
1
.8840 0
.
5
3
5
3
ー
1
.3637 ‑
‑
0
.
5
2
0
3 ‑
0
.
1
6 0
.
6
2 0
.
6
8
9
2
.
8
7
5
6
6
.
0
5
9
7 2
.
1
1 0
.
0
3
5
11
*
0
.
8
5
2
0 0
.
2
6 0
.
7
9
1
4
6
.
9
1
1
7
2
.
2
0 0
.
0
2
8
11
*
1
.5
7
0
1 0
4848
2
.
0
8
0
7 0
.
8
3 0
.
4
0
9
4
‑
3
.
6
5
0
7 ‑
1
.49 0
.
1
3
7
9
.
7
0 0.
.
2
1
0
1
.
7
1 0
‑
4
.
5
7
6
1
2
.
7
9
2
5 1
.25 0
1
.
78
3
6 0
.
4
7
5
4
1
.88 0
.
0
6
0
7
41 0
‑
0
.
8
5
2
5 ‑0.
ー1
.
2
8
0
9 ‑
0
.
5
6 0
.
6
8
2
8
2
.
1
3
3
5 0
.
9
1 0
.
3
6
2
3
.
5
7
4
8
.
9
0
1
2
0
.
5
6 0
0.
4865 0
.
1
2 0
2
.
4
7
4
1
.
5
7
3
5
2
.
9
6
0
6
0
.
6
9 0
.
4
8
9
8
1
.
5
3
3
4 0
.
3
6
0
1
1
.
6
8
2
2 0
.
9
0 0
.
3
7
1
0
.
9
2 0
0
.
1
4
8
8
0
.
0
8 0
.
9
3
5
3
‑
1
.9730 ‑
1
.
12 0
.
2
6
2
1
2
.
6
1
8
6 1
‑
0
.
6
4
5
6
.33 0
.
1
8
4
8
0
.
3
4 0
.
7
3
7
3
.
7
4 0
‑
0
.
4
8
2
6 0
.
7
6
4
7
1
.
3315 0
.
4
6
1
9
1
.
8
1
4
2
1
.03 0
.
3
0 0
.
3
0
4
1
‑
0
.
3
8
5
1 0
.
8
1
9
9
.
9
9 0
‑
1
.4886
0
.
8
0 0.
4214
.
2
3 0
1
.
8
7
3
7 0
.
3
2
3
8
注・各ダミー変数群の基準{直は,性別は「女性 J. 年齢は f70歳以上 J. 職業は「会社員 J. 居住地区は(新宮町の中心と想定できる)
「中地区」である
この重要度を用いることで,本研究では回答者に提示した行政サービスのパッケージの選択に及ぼす
個々の属性の影響度の強さを属性問で比較することが可能となる.
4. 4 回 答 者 の 属 性
,
1
0
5人のうち,属性を落としてパラメータ推定を行う実験の調査対
新宮町住民意識調査の回答者数 1
象はコンジョイント分析の設聞において「自分のことのみを考えた場合 Jに順位付けを行っている回答
者で,欠損値のない 7
0
8人を分析対象とした.
回答者の性別,年齢の割合は図 6 に示す通りである.回答者の性別については,男性が 53.2%とやや
多くなっている.回答者の年齢については, 50歳代, 60歳代, 70歳代の回答が多く, 20歳代, 30歳
代
, 40歳代の回答はそれに比べて少なくなっている.職業別では,無職,会社員,専業主婦が多い.
268‑
4. 5 コンジョイント分析の結果 式①を用いて,各回答者の部分効用値を最小二乗法によって推定し,さらに②式より各属性の重要度 を求めた. 3つの属性別の重要度の分布については図 7に示しているが, 1コミュニティパスの運行」 ごみ収集回数」の重要度は 73.3% の重要度が 93.6%から 4.2%まで幅広くばらついているのに対して, 1 から 0.4%までの問で特に 60%以下に分布しており, 1 コミュニティパスの運行」が車を所有して運転 できる回答者とそうでない回答者で評価が大きく分かれていることが反映されているように思われる. また, 3つの属性の重要度を非説明変数として,回答者の性別,年齢,職業,居住地区を説明変数と する重回帰分析を行い,属性の重要度と個人属性との聞に何らかの関係が見られなし、かを探ってみた. コミュニティパスの運行」では 1 7 0歳以上」と比較して, 70歳 重回帰分析結果は表 4に示しているが, 1 未満の全ての年齢層で推定された係数はマイナスで有意となっており,車で移動がしにくい高齢者で 「コミュニティパスの運行」が重要 と評価されている一方で、,車で移動 一変量の分布 高齢者への給食重要度 コミュ二子ィパス重要度 1 0 0 100 100 スの運行」ではなくて「ゴミ収集回 数」に注目して順位付けをしている ことが窺える結果となっている. 000090009 987654321 が可能な回答者は「コミュニティパ 008008960 987654321 ごみ収集団敬重要度 90 80 ただし,順位付けに大きく影響を 及ぼした「町税負担」を属性から除 町税 外して推定を行っているため, 1 負担」の属性の水準値のみに反応し て残りの属性については適当に回答 モーメント 平問 標孝信董 平均の標準誤差 平聞のよ側9同信組限界 平聞の下側9日憧傾匝界 N 25.28304 14.899935 0.5599738 26.38245 24.183629 708 平問 標準幅董 平均の榎準語差 平聞の上側9珂信錨限界 平均の下個 9同信錨限界 N 36. 220387 日 .36966B 0.6152098 37.428244 35.01253 708 平坦 標翠偏差 平聞の複準誤差 平均のよ側 95 信錨盟界 平均目下側9同信組盟界 N 38.496573 16.472969 0.6190921 39.712052 37281094 708 している回答者の影響が大きく出て いることに留意しなければならない. 図 7 属性別重要度の分布 6. おわりに 行政施策評価へのコンジョイント分析の適用可能性を検証するために,兵庫県揖保郡新宮町(現たつ の市)での全世帯を対象とする住民意識調査で、実証実験を行った.しかし,プロファイルの設計に問題 があり,提示したプロファイル群は属性の直交性の基準を満たしていないことが事後的に判明し,貴重 な回答データが得られたにもかかわらず,当初の目的を達成することができなかった.このような致命 的な失敗は,本来はプリテストや仮想、データによる簡単なパラメータ推定実験を行っていれば防げるは ずのものであり,研究者としては失格の熔印を押されても仕方のない研究姿勢と専門知識の欠如に起因 するものであるが,実際に調査を実施するに当たっては起こりうる可能性の高い失敗であると考えて, 敢えて失敗を公表するとともに,このような失敗を防ぐためのプロファイルデ?ザインの段階での注意事 項を示した.また,崩れた直交性を回復するために属性の一部を除外してコンジョイント分析を実施し, パラメータの推定を試みたので,その方法と結果も紹介した. 本稿で示した失敗事例や属性の一部を除外して行うパラメータの推定方法の紹介が,今後のコンジョ イント分析の住民意識調査や市民意識調査などでの活用と住民の行政施策評価ならびにまちづくりへ の参加へとつながっていけば幸いである. 269
謝辞 本研究は,平成 1 6年度兵庫県立大学特別教育研究助成金を受けて行った I W人間サイズのまちづくり』 e c i s i o nbyInformedC i t i z e nthroughGIS" の開発研究」と平成 1 7年度および平 を支える" InformedD 8年度科学研究費補助金(基盤研究 ( C ) 課題番号: 17510132) を受けて行っている「地理情報シ 成 1 ステムを活用した人間サイズのまちづくり支援システムの構築」の研究活動の一環として行った研究成 果の一部である.新宮町住民意識調査の実施にあたり,新宮町民の皆様にご協力をいただくとともに, 調査票の配布と督促のお願い状の回覧に際して新宮町ならびに新宮町連合自治会から格別のご配慮を いただいた.この場を借りて深く感謝申し上げます.なお,本研究の失敗ならびに本稿での有りうべき 誤謬は全て O印を付した筆頭執筆者に帰すものである. 参考文献 住民意識調査による政策評価へのコンジョイント分析の適用可能性に関する基礎 [ 1 ]有馬目宏・川向肇, I 的研究 j,オフィス・オートメーション学会・経営情報学会 2006 年合同・全国研究大会予稿集, pp. 468・471,2 0 0 6 . [ 2 ]加藤尊秋, I 選択実験におけるプロファイル設計およびそデル形状と直交計画の役割 j,東京工業大学 社会工学専攻ディスカッションペーパー, 2004 [ 3 ]加藤雅宣・有馬昌宏・)1向肇, IJMPを活用したコンジョイント分析による農産物の消費者評価一兵 SASForumユーザー会学術総会 2005論文集, pp.283‑300, 庫県の伝統野菜 岩津ネギ'に対する事例 j, 2 0 0 5 . [ 4 ]栗山浩一・茨木秀行・高橋慶子・植田博信・井上崇, I 受益と負担についての国民意識に関する考察 j, D P / 0 5 ‑ 1 ),内閣府政策統括官室, 2 0 0 5 . 経済財政分析ディスカッション・ペーパー ( W 住民による行政施策のトレードオフ評価に関する基礎的研究一住民意識調査へのコンジ 0 0 6 . ョイント分析適用の可能性と課題 1 兵庫県立大学大学院応用情報科学研究科修士論文, 2 [ 5 ]黒田佳代, [ 6 ]代喜一, W コンジョイント分析 1 データ分析研究所, 1 9 9 9 . コンジョイント分析について j,東京情報大学研究論集 Vo l . 1 , No.2, [ 7 ]千葉佐智子・岩本俊彦・岡本民一, I pp.137・154, 1 9 9 7 . [ 8 ]芳賀敏郎, IJMPによる最適実験の計画と多特性の最適化 j,SASForumユーザー会学術総会 2002 論文集, pp. 425‑432,2 0 0 2 . [ 9 ]林山泰久・国謹慎太郎 I コンジョイント分析による冬期道路サービス水準の経済的評価:直交主効 roceedingso fI n f r a s t r u c t u r eReview, 果デザインによるプロファイルデザインの有効性の検討 j,P Vo1 . 19,No.1,pp. 47 ‑ 5 4,2 0 0 2 . 0 0 4 . [ 1 0 ]庚野元久・林俊克, W] MP による多変量データ活用術~,海文堂出版, 2 ワt qム n u
口頭論文発表 経営・経済
S A S Forumユ ー ザ 一 会 LOHAS市場の拡大は日本経済の牽引役となるか? ジョイントセグメンテーションを用いた LOHAS因子の探索法と NLPプロシージャを用いたパラメータ推定法の提案 坂巻英 ̲ 1 国立大学法人一橋大学経済研究所 細川慎一 GMOリサーチ株式会社代表取締役 Cant h eexpansionofLOHASmarketl e a dJapaneseeconomy? ‑AproposalofthewayofextractingLOHASfactorsbyjointsegmentationmethod withuseofNLPprocedureonSAS/OR‑ Y o s h i k a z u, Sakamaki I n s t i t u t eofEconomicR e s e a r c hi nH i t o t s u b a s h iU n i v e r s i t y , Hosokawa S h i n i c h i CEO GMOR e s e a r c hI n c ., 要旨 近年 ,L O H A S ( L i f e s t y l e s 01H e a l t h And S u s ωi n a b i l i t y )とし、うライフスタイルが注目を集めてい る。本稿は LOHASな生活を送る消費者層とはどのような人々かを解明することを目的として行わ れたアンケート調査結果をもとに, SASシステムを用いて LOHASなライフスタイルを送る消費者層 に関する分析を行なった結果を紹介することを目的とする。 キーワード LOHAS,ジョイントセグメンテーション, SAS/OR (NLPプロシージヤ) 1 . はじめに 昨年 ,L O H A S ( L i f e s t y l e s0 1H e a l t h And S u s t a i n a b i l i t y )品、うライフスタイルが注目を集めたこと は記憶に新しい。 LOHASとはアメリカの社会学者,ポール・レイ氏と欧米におけるエコロジーグツズ、 9 9 8年から全米約 1 5万人を対象に, 1 5年間に渡って実施し 販売企業社長,ジルカ・リサビ氏が, 1 た価値観調査から生まれた言葉で、あり,~人間の健康と環境の保護を最優先し,持続可能な社会 のあり方を追及する,新時代のライフスタイル』としウコンセプトである。 このライフスタイルを実践しようとする人々を『カルチャラル・クリエイティブ』と呼ぶことがあり, ~地 1 (連絡先〕一橋大学経済研究所坂巻研究室 E m a i l :y s a k a m a k @ i e r . h i t ‑ u . a c . j p 2 7 3
球環境を含め,人間関係・平和・自己実現や自己表現に深い関心を持つ人々』として,今日,世界 中の企業や団体が LOHASなライフスタイルをバックアップしている。 5万人を対象に行ヮた調査でな、実 ポール・レイ氏と心理学者シエリー・アンダーソン氏が全米 1 に成人人口の 29%がロハス志向を持っていることが報告されている。 EUでは成人人口の約 35%が ロハス志向を持っており、日本でも同等以上の潜在的なロハス層存在していると考えられる。 一橋大学坂巻研究室では, GMOリサーチ株式会社殿の協力のもと,一般消費者に対し LOHASなライフスタイルに関する意識調査と題したアンケート調査を実施しした。また,収集された データを SASシステムを用いて解析することで,わが国における LOHAS層の実態を分析すること を試みた。本稿はアンケート調査の分析結果を報告すると共に,ジョイントセグ、メンテーションと呼 ばれる手法を用いて LOHAS な消費者層をセグメントする手法を提案することを目的とする。併せ て LOHASな消費者層が今後,わが国の経済においてどのような役割を果たしてゆくかを考察する ことも試みる。 2 . アンケート調査概要 LOHAS 層に関する調査を実施するに当たり,一般消費者からランダムサンプリング、されたパネ ラーに対し, GMOリサーチ株式会社の協力を得て,別添付録 1のようなアンケート調査を実施し た 。 既存研究を見ると, LOHAS層を形成する消費者の多くが富裕層であるとの報告が多く行われて 0 0 0万円以上の富裕層セグ いる。本調査では LOHAS層からのパネル数を増やすために,年収 1 0 0 0万円未満のセグメントから 250サンプルのデータを収集した。 メントから 250サンプル,年収 1 3 . 収集データのクロス集計 本稿で、はパネルデータの個人属性として, ~性別 l~既婚未婚の別 l~ 年齢層~, ~職業 l~年 収 1~居住地域』を使用した。まず,アンケート調査により収集されたデータのうち, Q 25. 自分自身 が LOHASな生活を営んでいるか,に対する回答結果とこれら個人属性とのクロス集計を,付録 2 に纏めて示す。集計には SAS/STATの仕eqプロシージャを使用した。 χ2乗検定の結果を見ると, これら個人属性のうち, LOHASな生活と密接な関係にある属性は, ~年齢層 1~居住地域』であり, データ収集を行う前に想定していた『年収(富裕層であるか否か)~は LOHAS な生活とはそれほど 強し、関係にはなし、ことが判明した。また,全パネルデータに対する LOHAS な生活を営む人々の 割合は約 27%であり,これまで行われてきた LOHAS層に関する調査の結果とほぼ一致しているこ とも確認、される。 4 . 因子分析による LOHAS因子の抽出 さらにアンケート調査から得られたデータを因子分析にかけることにより, LOHAS な生活に関連 する因子の抽出を試みた。因子分析には SAS/STATの FACTORプロシージャを使用し,パリマッ クス回転による 5因子の抽出を行った。この結果を付録 3に示す。得られた因子負荷量を解釈する ‑274‑
ことにより, LOHASな生活に関連する因子として,図表 1に示す因子が抽出された。 …一一一一一一「 J/ 余 「一一一 F a c t o J 包 EE 図表 1 図表 2 これらの因子をもとに, LOHAS層と非 LOHAS層について,因子得点の平均値をレーダーチャ a c t o r 2 (自分の時間を大切にする因子)に関 ート上にプロットしたものを図表 2 に示す。この結果, F しては,非 LOHAS層の因子得点平均値が LOHAS層のそれを上回っているものの,それ以外の 因子に関しては殆ど, LOHAS層の因子得点平均値が非 LOHAS層のそれを上回っていることが を行い, ~安全かっ自然な 確認できよう。 LOHAS層は,非 LOHAS層に比べ『積極的な自己啓発 J 食べ物を摂取J し , ~地球環境保全を推進』しようとし、う意識が非常に強し、ことが確認される。 5 . 意思決定木による LOHAS因子の探索 ここで, LOHAS層と非 LOHAS層を識別する際に強く影響する個人属性を探索するために, SAS/EM に搭載されている意思決定木分析を用いた探索を行った。分岐評価には x 2乗検定を使 用してし、る。この結果を付録 4に示す。この結果,LOHAS層と非 LOHAS層を最も明確に識別す る個人属性は年齢であり, 60歳以上の高齢者層に LOHAS層が集まってし、ることがわかる。また, 60歳未満の若年層で、あっても,所得が 1 5 0 0万円以上の超富裕層では LOHASな生活を送ってい る人々が多いことが裏付けられよう。高齢者層には既に退職金をもらい仕事を引退した裕福な人々 が多し吃推測されるが,この分析結果は富裕層が LOHAS層を形成している,とした従来の報告を 裏付けている。 6 . ジョイントセグメンテーションによる LOHAS層のセグメント 前節までの分析結果から, LOHAS層と非 LOHAS層の聞には地球環境や実生活において明 確な意識の違いがあることが確認された。また, LOHAS層を形成する消費者層は,先行研究にお ける報告通り,富裕層に多く分布していることが改めて裏付けられた。ここで, LOHAS層を形成す る消費者層を更に幾つかのセグメントにグ、ループ分けすることを考えてみよう。 ここでは消費者セグメントにおいて広く用いられている,ジョイントセク会メンテーションモデ、ルを使 用し ,SAS/ORに搭載されている NLPプロシージャによりパラメータ推定を行う方法を提案する。 一275‑
6 . 1モデル概略 Ram ぉw amye t .a l . , ( l9 9 6 iや坂巻 (2003iは , 2種類の異なるカテゴ、リカルデータを同時に用いて セグ、メン'テーシゴンを行うジョイン!日セグメン'テーションモデルに関する研究を・行うてしも。本稿では 先行研究で行われて u、るこれらのモテ。ルをもとに, LOHAS層のセグメントを行なうこと会試みる。 ここでは,先の因子分析の結果をもとに,質問項目を付録 5のようにグツレープ分けした上で,モ デルで、使用する記号を次のように定義する。 質問群 Kベースで、セグ、メンテーションを行った場合の第 i番目のセグメント(i =1, 2, …. , I ) j 質 問 群 M ベースで、セグPメンテーションを行った場合の第 j番目のセグメント ( j = 1, 2, …. , J ) K 質 問 群 K における第 k番目の質問項目 ( k =1 , 2, …, K ) m 質 問 群 M における第 m 番目の質問項目 ( m = 1, 2, . . .・ , M ) n 第 n番目のパネラー ( n = 1, 2, …ムワ Y i k セグメント iに於いて質問群 K における k番目の質問に Yesと回答される確率 d)m セグメント jに於いて質問群 M における m 番目の質問に Yesと回答される確率 Xnk パネラ ‑nが質問群 K における k番目の質問に Yesと回答した時 1,それ以外は 0をと るダミー変数 Y n m パネラー nが質問群 M における m 番目の質問に Yesと回答した時 1 ,それ以外は 0をと るダミー変数 まずセグメント iとセグメント jへ同時に所属する確率的iを考え, エエ円=1 ( 1 ) i = 1 ) = 1 とし,尤度を サ バ L寸 喜 慈 骨 芸 争 鳥 《 仲 ( 泊 吉χ d y r γ ; れ ; r 吋 d ( 川 x' n) (担サ引例( l 1門 ( 2 ) により定式化する。 6 . 2パラメータ推定 パラメータの推定は潜在クラスモデルの研究において一般的に用いられている EMアルゴリズム (Dempster , LairdandRubin;1 9 7 7 ) 4を使用する。 2R amaswamy , C h a t t e r j e ea n dCohen( l9 9 6 ),J o i n tS e g m e n t a t i o no nD i s t r i c tI n t e r d e p e n d e n tBasew i t hC a t e g o r i c a l ヘJournal01MarketingResearch, 3 3, 2 5 1・2 7 2 . D a t a 3 坂巻英一( 2 0 0 3 ) 個人差を考慮したジョイントセグメンテーションモデ、ルによる消費者セグメント構築法の提案" 『経営情報学会誌~, Vo l . l1 , No , 4 . M釘'.2003, p . 1 ‑ p . 1 5 . 4 D empster , A .P .,L a i r d, N.M.,a n dR u b i n , R . B . (1977), Maximum L ik e l i h o o d 企om I n c o m p l e t eD a t av i a EM ・ A l g o r i t h m " , J o u r n a lo f t h eR o y a lS t a t i s t i c a lS o c i e t y , B39, 1 ・ 3 8 . ・ ヴ︐ a η4 ︒ 戸
ここで,パネラー nがセグメント (i,
j
)に属する確率を示す潜在変数 Znijを考える (
0くZnijく 1
)。
この時,完全対数尤度は
I
I
I
Z
n
i
}log鳥+
logL
d=
I I I z n i jl
o
gl
f
/n
l
i
i
n
=
1i
=
1 }=1
(
3
)
n
=
1i
=
1 }=1
で与えられる。
f
︑︑.︐
A﹃
︐.︑
m
n
"
y
¥
︑ tili‑‑/
J
m
FJ
p
内
︑
0
︑
'
ノ
m
4目目A
vMm
〆︐
︑︑
︑
'
ノ
fu
︐
︐
︐
︑
︑
.
. 阿
MH
J
1Ill1﹄S Jノ
AM
X
J
/alli‑‑¥
・
︑
︑
︑︑.︐
‑K
γれ
l
︑︐︐
︐
︐
︐
︑
︑
.
.
f
x
n
止
v
d
︐.︑︑
/fill‑‑‑¥
HHJ
n
一
一
v
K
H
H
ただし,
である。
(
E
‑
S
t
e
p
)
)
と
ノ ξラメータ (
}
i
j
'Y
i
k
>O
}
mを既知として Znijについての期待値を求め
E
‑
S
t
e
pではデータ F=(XnhY刷
る
。
すなわち,パラメータが所与の場合,不完全データ Znijの期待値は
θ
J
i
l
f
ln
l
i
i
E[Znij[F]=J
‑
!
f
出
I
I
θ lf/
(
5
)
'
i
j n
l
i
j
i
=
1 }=1
で与えられる。
(
M
‑
S
t
e
p
)
M‑Stepでは
EJlogLd]=
I
I
I
E
[
z
川 F]log叫+
I
I
I
E
[
z
川 F]logl
f
/
n
l
i
j
(
6
)
n
=
l jニ 1}=1
n=1 i
=
1 }=1
とした時,最尤推定法により E
z
[
l
o
g
L
d
Jを最大化する (
}
i
j
'Y
i
k
>O
}
"
, を求める。パラメータ推定にはニュ
一トンラフソン法を使用する。
ただし, EMアルゴ リズ、ムでは初期値により対数尤度の収束点が局所最適解に落ちる可能'性が
あるので乱数を発生させることにより得られる複数の値を初期値として与えその中で対数尤度が最
大となるものをそのセグメントにおけるパラメータ推定値として採用する。
このようにしてパラメータが推定された場合に,パネラ ~n がセグメント(iJ")に所属する確率は (}ij
を事前分布として
fK
I
T
I (
1
‑
P巾 εi
,
j
)=円
11J
Y
i
:
"
'
Yik)1
V M
¥
叶│日 δか(1ーら )I‑Y問
│
(K
¥(M
¥1
/~L 工科 I TIYi~"' (
1一九 )
1
‑
'
什│日 δ'
J
'
:(1‑δ1m)川
│
ト
(
7
)
により与えられる。
潜在クラスモデルにおけるセグメント数の決定には従来の研究を見ると情報量基準
(AIC;
Ak
a
i
k
el
n
f
o
r
m
a
t
i
o
nC
r
i
t
e
r
i
o
n,BIC;Bのe
s
i
a
nl
n
f
o
r
m
a
t
i
o
nC
r
i
t
e
r
i
o
n等)が多く用し、られてし、
ゥ
︐a
ゥ
︐a
の
ム
る 。 ここで AIC,BICの算出方法は対数尤度を L,推定されるパラメータ数を p,サンプル数 をfJVとした時, AIC= ‑21ogL+21ogP BIC=‑ 2 1 o gL+P( lo gN) ( 8 ) で与えられる。 坂巻 (2003)はジョイントセグメンテーションのセグメント数決定に BIC を用いているが, 本稿では潜在クラスモデルの評価に今日広く利用されている AIC統計量をセグメント数の 決定に用いる。 6 . 3LOHAS層のセグメンテーション ここで, SAS/ORに搭載されている NLPプロシージャを用いてモデルのパラメータ推定を実施し た。紙面の都合上,使用したプログラムの詳細説明は割愛するが,プログラムの構造は概ね以下 の通りである。 〔ジョイントセグメンテーションに使用したプログラムの概要〕 %macrom ̲ s t e p ; zの推定値算出 zの値の更新 %mendm ̲ s t e p ; 一 一 ‑ 一 一 一 ‑ 一 一 一 一 一 一 一 ー ' 一 一 ‑ ・ 一 ・ ・ ー ・1 j . ̲ j. 乱数発生による zの初期値設定 j . ̲ ̲ ̲ ̲ ̲ ̲ ̲ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 『 一 一 l %macroz ̲ ge n e r a t e ; Zの初期値発生プログラム %mendz ̲ ge n e r a t e ; /丸一一一一一ー一一一一一一一一一一一一一一一̲; j. メインプログラム /札一一一一一一̲̲̲一一一一一一一‑一一一‑一一‑・/ /札一一一‑一一一一一‑一一一一一一‑一一一一一・; E STEPパラメータ推定 /丸一一一一一̲̲一一一一一一一一一一一一一一一・/ ・ / %macroe ̲s t e p ; P r o cNLPD a t a = d a t as e t名 TECHNIQUE ニN E¥¥ 恨 AP o u t e st =o u t e s t lv a r d ef = ncov=2 pcovp s t d e 汀 ; o d so u t p u t" R e s u l t i n gP紅 白n e t e r s " = e s t ̲ d s ; %MacroM a i n ; j .zの初期値設定申/ %z ̲ ge n e r a t e ; / EM アルゴリズム実行灯 o / o d oa = l%To&xa; % e ̲ s t e p ; %m̲step; NLPプロシージャによる パラメータ推定プログラム ・ / zの収束確認収束が確認されれば g o t o 文でルーチンを終了させる町 r u n ; dm" c l e a ro u t p u t " ; 川大量の繰り返し計算を行う ため,不要な o u t p u tを画面から消去する .j %mende ̲ s t e p ; .︐ / 一定一 一推一 一メ 一hr一 ‑J‑ 一 一 フ 一 一 ︒︑ 目 一M 一 一P一 一 E一 一丁一 S一 一 e ‑ ‑ T 也守也 /// %if&STOPFLAG=j %theno / odo;%GOTO FINISH;%end; %end; %FINISH: %Mend; %Main; このプログラムを用いて, LOHAS 層のセグ、メンテーションを行った。まず,モデル内で、考慮、する セグメント数を決定するために,質問群 Kから構成されるセグメント数(i)と質問群 M から構成される セグメント数( j )の組み合わせによって, AIC 統計量がどのように変化するかを算出した結果を図表 4に示す。この結果,質問群 K から構成されるセグメント数を 2,質問群 M から構成されるセグメン ‑278‑
ト数も 2に設定した場合に,最も AIC統計量の値が小さくなることから,本稿においてはこのセグメ ント数を採用することにする。 質問群Kか ら形成され るセグメント 数( i ) 図表 3 対数尤度算出結果 質問群Kか ら形成され るセグメント 数(i) 図表 4 AIC統計量算出結果 ここで、各ノミラメータに対する推定結果を図表 5に示す。 γ 1 1 γ12 γ13 ' { 1 4 γ15 γ16 γ17 γ18 y19 " ( 1 1 0 γ111 γ112 113 y114 ー1 15 0989 0841 0679 09843 0879 0667 0677 0649 0879 0897 0844 0506 0424 06673 0. 2 . 64 主守るべきだ 0995 少しくらい不便な生活をしても地琢環境 I 0456 環境 Lよい商品でも値段が高くては購入する気が起」らない 生1 7価格が高くても環境によいハイブ')ッドカーを賂入したい 0写 口 ∞ 価格が間程度なら環境Lよいものを選ぶ 10 事温暖化防止のため i 、ウールビスウォ ムピスを実践している 08455地E 7 0 2 1ゴミを混らすためレジ袋等を受け取らないよう Lしている ま収入よりもやりがいを重視している 08984自分自身のキャリアプラン i 49 9 夏のボーナスが出たら使わず 1 =貯蓄する 0. 08321米国産のものより高〈ても信績のおける国産の牛肉を食べたい 08575将来支給される年金が気になる 9 4 3石油高躍で日本経済!こマイナスの髭曹がでると心配している 0,7 06788これまでに地犠等でポランナイア活動に書加をした」とがある 0000 ポフンナイア活動に書加をすると自分の時聞が無駄になる 0920 ポフンティ 7活動に参加をすると自己啓発が行える 02402ポフン子ィア活動に時聞を使うよりも自分自身や家族との時間が大切だ γ21 y22 y23 y24 y 2 5 γ26 γ27 γ28 γ29 , 210 γ 1211 γ212 ー2 13 γ214 γ215 。 0 2 1 1 0 2 2 1 1 1 1 1 1 023 024 025 δ26 δ27 δ28 029 1 1 1 1 030501不健康だと分かっていても仕事の都合等で偏った食生活になりやすい Q2 亘5 1 1無農薬野菜や有機野菜を繍入するように心がけている 旦~亘d 家族や友人など和やかで心休まる時簡を確保するように心鋳けている 023721ヨガやフィットネスなどを通じ健康で自然な体作りに取り組んでいる 0877 , 1 1 予防医学を心掛け薬にはなるべく額らないようにしている 031801資絡の取得スキルアップのための勉強お稽古事等の自己啓発に取り組んでいる 040831ボランティア活動よりも自分自身のスキルアジプに時閣を使いたい 003731ファッション雑誌はこまめにテ E ンヲしている 016131習い事で何らかのスポーツを行っている 図表 5 推定されたパラメータの推定値を解釈することにより質問群 K は,自分中心的な生活を送り LOHAS なライフスタイルと関連する殆ど全ての質問項目に対しても強く反応するがむしゃらな LOHAS層(i= 1 )と,自分中心的な生活はしていないが,地球環境や社会参画等には強し、関心を = 2 )に分割されることが確認できる。また,質問群 M をみると, 持つ社会調和的な部分 LOHAS層(i 質問群 K と同様, LOHASなライフスタイルと関連する殆ど全ての質問項目に対して強く反応する がむしゃら LOHAS層 ( j = 1 )と,健康づくり,医療の分野にだけ5 郎、関心を寄せている健康志向的な 2 7 9
部分 LOHAS層 ( j = 2 )にセグメントされることが分かる。 参考までに各セグメントを形成するパネラーの人数を纏めたものを図表 6に示す。 j=2 35 42 図表 6 この結果,ジョイントセグ、メンテーションの結果得られた 4つのセグメントに対し,ほぽ均等にパネ ラーが分布していることが確認できる。 7 . まとめ 本稿では,今日,注目を集めている LOHASなライフスタイルを送る消費者層を解明することを 目的として収集されたアンケート調査データを分析した結果得られた知見を紹介することを目的と していた。 まず,はじめにアンケートデータをもとに作成されたクロス集計表と意思決定木をもとに, LOHAS 層と非 LOHAS層を識別する上で、有効な個人属性の探索を行った。この結果, LOHAS層を形成 する消費者層は,高齢者層,高収入層に多く分布していることが確認され,これまで、先行研究にお いて報告されていた ~LOHAS 層を形成する消費者の多くは富裕層』であるという仮説を改めて裏 付けることができた。また,因子分析を用いて LOHAS層を特徴付ける因子を探索した結果,地球 環境への配慮,社会参画,健康志向等,従来報告されていた LOHAS層に特有の因子を 5つ抽 出することに成功した。各因子について因子得点の平均値を, LOHAS層と非 LOHAS層について 算出した結果, LOHAS層と非 LOHAS層の聞に大きな差異が存在することが確認でき,これら 5 つの因子は LOHASなライフスタイルと密接な関係があることが改めて裏付けられた。 更にジ、ョイントセグ メンテーションを用いた LOHAS層のセグ、メンテーションを行うことにより, F LOHASな生活を送る消費者層が更にしてつかの消費者セグメントにグループ分けすることが可能 であることも確認できた。 2 0 0 7年問題に象徴されるようにまもなく団塊世代の大量退職が始まるが,高い退職金を得て仕 事を引退する団塊世代は, LOHASな生活を追い求める現在の消費者層とかなり重なる点がある のではなかろうか。こうした点を鑑みると,我が国にはまだ潜在的な LOHAS市場があると考えられ, 0 0 7年以降ますますこの市場は拡大を続けると期待できる。今日,世界中の企業や団体が 今後, 2 LOHASなライフスタイルをパックアップしようとしているが,こうした LOHAS因子の抽出, LOHAS な消費者を更に類似の消費者群にセグメンテーションすることは,今後,こうした企業が LOHAS層 へ対するマーケティング戦略を立案する上で大いに役立つものと期待できよう。 本稿における報告事項が, LOHAS市場の開拓や研究に携わる SASシステムのユーザが経営 戦略を立案する上での参考になれば幸いである。 以上 一2 80‑
〔付録1) LOHASに関するアンケート アンケ,ート調査の概要は以下の通りである。 実施日時 平成 1 8年 5月 調査方法 インターネットによるアンケート調査 調査機関 GMOリサーチ株式会社 調査対象 20 歳 ~60 歳の男女 パネル数 5 00人 e s,Noでご回答ください。 質問項目以下のご質問に Y (Ql) 少しくらい不便な生活をしても地球環境は守るべきだ (Q2) 環境によい商品でも値段が高くては購入する気が起こらない (Q3) 価格が高くても環境によいハイブリッドカーを購入したい (Q4) 価格が同程度なら環境によいものを選ぶ (Q5) 地球温暖化防止のためにクーノレビス・ウォームピスを実践している (Q6) ゴミを減らすためレジ袋等を受け取らないようにしている (Q7) 不健康だと分かつていても仕事の都合等で偏った食生活になりやすい (Q8) 無農薬野菜や有機野菜を購入するように心がけている (Q9) 家族や友人など和やかで心休まる時間を確保するように心掛けている (QI0) ヨガやフィットネスなどを通じ健康で自然な体作りに取り組んで、いる (Qll) 予防医学を心掛け薬にはなるべく頼らないようにしている (Q12) 自分自身のキャリアプランは収入よりもやりがいを重視している (Q13) 夏のボーナスが出たら使わずに貯蓄する (Q14) 米国産のものより,高くても信頼のおける国産の牛肉を食べたい (Q15) 将来支給される年金が気になる (Q16) 石油高騰で日本経済にマイナスの影響がでると心配している (Q17) これまでに地域等でボランティア活動に参加をしたことがある (Q18) ボランティア活動に参加をすると自分の時間が無駄になる (Q19) ボランティア活動に参加をすると自己啓発が行える (Q20) ボランティア活動に時間を使うよりも自分自身や家族との時聞が大切だ (Q21) 資格の取得,スキルアップのための勉強,お稽古事等の自己啓発に取り組んでいる (Q22) ボランティア活動よりも自分自身のスキルアップに時間を使いたい (Q23) ファッション雑誌はこまめにチェックしている (Q24) 習い事で何らかのスポーツを行っている (LOHASな生活の有無〕 (Q25) 現在, LOHAS (ロハス/ローハス)な生活を営んでいますか? ‑281一
〔付録 2 )LOHASに関するアンケート l 印をし刷てい S窓ゐ生か活 9 l 1 ! Q 2 6 径濁 l 女色 ゐ 目性 v" 1 0 2 2 6 7 2 7 . 6 4 % 3 6 9 0 0 4 1 6 0 8 3 8 5 l l A S . No LO 合計 ・ ; ( 2 ' p L をO し H てA い S な る 生 か 活 ? 2 0 . v" 1 7 N。 LOHASJ I ! i 代 46 2698% 6 3 1 9 5 5 1 αJ06 ・。 合計 0 p. 岨 ' " 2712767% 35 96 会静 lJ7 3 6 3 274~も 田 5 。年 . . 1 8 合計 30. 代 3 6 1 0 1 2 6 2 8 % 1 3 7 4 0 1 1 代 1 9 8 1 19αm 叩1 1代 同1 1 代 2 1 79 4 4 5 6 も 21α" 44α~/. l 曲 i i ∞ 3 6 3 2 7 4 掛。 5 田 1 0 2 、 3 8 I J 8 ∞ lJ7 53 1 6 2"明も ∞ 5 Lom 合髭 ・ χ 2値 p 4 5 2 1 8 0 7 1 8 1 Q且 年 収 H . 4 .S な生活 LO をしているか? 。円 ‑ 3 田万 v" No LOHAS. 合言? 。値 p値 J3 8 4 2821% 1 1 7 8 8 1 4 7 3 0 0万 4叫 万 9 田万 き冊万、8 " 1 6 6 7 % J9 5 4 7 1 5 2 2 % 4 6 8 0 0 ] . ト1 0 曲万 1 0 0 0万円魁上 9 79 2 4 1 7 1 2 7 2 7 % 3 1 6 0 % J3 2 5 0 Q3 I 居 住 抱 減 をしているか? 北海遭 v" 4 1 7 1 9 0 5 % 2 1 1 主主1>2 0 0 8 4 3 合計 Z2. p lJ7 3 6 3 2740% 5 ∞ 立鍾l2 LOHAS な金活 No LOHAS. 合計 JU 包 5 1 0 3 3 3 3 % 1 5 1 1 1 民 7 2 1 9 8 2 6 6 7 % 2 7 0 東車 贋首 中国 四国 九係・沖縄 1 7 6 lJ7 J2 1 8 526% 1 9 1 7 9 5 % 2 857~も J9 8J 2 1 2 5 2857% 7 7 1 8 3 3 5 0 3 9 7 6 % ' 6 3 2 7‑ t 0 " / c 。 ∞ 5 1 5 〔付録 3) アンケートデータから抽出された因子負荷量 F a c t or 1 F a c t o r 2 Factor3 Factor4 Factor5 Q01 Q02 Q03 Q04 Q05 Q06 0 . 1 4 9 1 0 . 0 8 2 8 00961 ‑01694 0 . 3 0 7 0 0 . 4 2 0 7 ‑03311 0 . 0 4 3 7 ‑ 0 . 0 2 4 8 ‑ 0 . 0 1 9 8 00213 0 . 1 9 1 9 ‑ 0 . 1 1 1 0 4282 ‑ 0. 0 . 3 5 8 3 ‑ 0 . 0 0 9 5 ‑ 01 1 7 4 ‑ 0 . 0 0 9 2 4137 0. ‑ 0 . 4 0 2 9 0.6182 0 . 3 0 7 8 0 . 5 4 7 5 0̲0316 0.1330 ‑ ( ) . 0 2 7 5 0 . 0 8 0 7 ‑ 0 . 0 0 5 8 0 . 1 8 8 0 0 . 1 6 5 5 Q07 0 . 3 5 0 4 ‑ 0 . 0 8 9 5 00032 ‑ 0 . 0 5 6 1 ー0 . 1 6 4 1 Q08 Q09 Q10 0 . 0 3 7 2 0 . 1 6 2 0 0 . 1 7 3 0 0 . 7 1 9 0 0 . 7 0 3 1 04796 0 . 0 9 7 2 ‑ 0 . 1 5 0 7 ‑ 0 . 0 1 1 7 0.0126 ‑ 0 . 0 4 2 8 0 . 2 8 8 6 0 . 1 1 5 5 ‑ 0 . 0 6 1 3 0 . 0 7 9 5 Qll 0 . 3 6 0 4 0 . 1 1 0 0 0 . 3 1 2 8 0 . 1 1 3 7 Q12 Q13 Q14 QI5 Q16 Q17 Q18 Q19 0 . 2 2 9 6 3214 0. 0 . 0 8 5 4 ‑ 0 . 0 1 9 4 ‑ 0 . 0 7 4 7 0 . 2 1 4 5 0 . 1 5 0 9 ‑ 0 . 0 0 5 6 0 . 0 4 2 7 ‑ 0 . 0 3 4 4 ‑ 0 . 3 0 9 7 0 . 5 3 5 0 ‑ 0 . 4 0 0 2 0 . 3 8 8 5 0 . 0 3 2 7 0.6556 0 . 0 3 2 4 00246 00208 0 . 0 6 3 7 01780 0 . 0 5 9 6 0 . 1 1 6 2 ー0 . 0 428 ‑ 0 . 0 0 6 3 0 . 0 6 5 7 0 . 0 1 1 7 ‑ 0 . 2 8 6 9 0.2774 0.1392 0 . 1 1 2 1 00233 0.1160 0.6860 0.6348 0.1432 0 . 0 3 7 8 0 . 3 3 9 7 Q20 0 . 0 8 1 0 0 . 5 1 7 3 0 . 1 3 2 8 0 . 5 3 6 9 ‑ 0 . 7 4 5 4 0 . 0 6 0 4 ー0 . 0 3 7 3 0 . 1 8 6 5 剖9 0 . 7 0 . 1 8 5 4 ‑00559 0 . 1 9 0 4 0 . 0 5 1 4 0 . 2 4 1 8 0 . 1 3 3 2 ‑ 0 . 1 9 2 3 ‑01158 Q21 Q22 Q23 Q24 0 . 4 5 7 5 0 . 0 8 1 8 0 . 1 7 1 7 0 . 6 6 6 6 合計 同 炉 建 都 0 . 2 3 3 4 ‑ 0 . 0 0 1 5 ‑282 0.0856 0.1108 0 . 1 1 5 4 0 . 2 5 6 1 ‑ 0 . 0 5 6 5 2 8 0 0 % 2 5
〔付録 4 ) 意思決定木を用いた LOHAS層の探索 主 主 主 LOHAS層 と 非 LOHAS 層を分離する ま年齢で 最 大 の 因 子i あることが分かる。 若年層であっても,年収 1500万円以上の所得層 では,かなりの LOHAS 層 が存在することが分かる。 e as e " . 、 , 。 ・ ・ 。 . . 。 〔付録 5 ) 質問項目のグループ分け 質問群 K 質問群 M 地球環境への配慮やボランティア活動への参加等,社会全体への関心度 を測る質問群 健康への配慮や自己啓発等,自分自身の身の回りの事柄に対する関心度 を測る質問群 少しくらい不便な生活をしても地琢環境は守るべきだ 環境によい商品でも値段が高くては購入する気が起こらない Q03 価格が高くても環境によいハイブリッドカ を購入したい 価格が同程度なら環境によいものを選ぶ Q Q 0 0 5 4 地球温暖化防止のためにクールビス・ウォームビスを実践している Q06ゴミを減らすためレジ袋等を受け取らないようにしている Q12 自分自身のキャリアプランは収入よりもやりがいを重視している 質問群K QI 3 夏のボーナスが出たら使わずに貯蓄する を~14 米国産のものより 高くても信額のおける国産の牛肉を食べたい 将来支給される年金が気になる 石油高躍で日本経済にマイナスの影響がでると心配している Q Q Q Q 1 を 1 E S 7 5 これまでに地域等でボランティア活動に参加をしたことがある ボランティア活動に参加をすると自分の時間が無駄になる Q19 ボランティア活動に参加をすると自己啓発が行える 020 ボランティア活動に時間を使うよりも自分自身や家族との時間が大切だ Q Q O 0 2 I v Q07 不健康だと分かっていても仕事の都合等で偏った食生活になりやすい Q08 無農薬野菜や有機野菜を購入するように心がけている Q09 家族や友人など和やかで心休まる時聞を確保するように心掛けている QI0ヨガやフィットネスなどを通じ鍵庫で自然な体作りに取り組んでいる 質問群M Qll 予防医学を心掛け薬にはなるべく頼らないようにしている Q21 資格の取得,スキルアップのための勉強。お稽古事等の自己啓発に取り組んでいる Q22 ボランティア活動よりも自分自身のスキルアップに時間を使いたい ファッション雑誌はこまめにチェックしている Q 0 2 2 4 3 膏い事で何らかのスポーツを行っている 2 8 3ー
S A S Foru mユ ー ザ 一 会 リアール金融工学の発展 小野 潔 二菱東京 UFJ銀行 中小企業部 Evolutiono fR e t a i lF i n a n c i a lEl 1g i n e e r i n g Ki y o s h iOno S m a l l&MediumE n t e r p r i s eB 出 面ngD i 吋SlOn,恒1 eB紅 lkof Thkyo・Mit s u b おhiUFJ , L t d . 要旨 日本の金融業は,データマイニング技術を 1 9 9 6年から本格的に導入している。様々な マイニングモデルが実務運用され,リテール金融業の発展の原動力になっている。リテ ール金融工学は,データマイニングと金融工学を融合させた新しい分析手法である。本 稿では,金融業のデータマイニングの歩みを振り返り,発展するリテール金融工学のモ デルを解説する。 キーワード: データマイニング 与信モデル C R Mモデル 1 . はじめに 金融業はデータマイニングが大きな成果をあげた分野であるが,モデルは顧客情報から開発されるた めに外部に発表される機会が少ない。しかし日本の金融業はデータマイニング技術を 1 9 9 6年頃から本 ダイレクトメール応答率の向上 J , 格的に導入している。現在では「与信審査 J(与信は融資の可否審査), I 生命保険の解約防止 J, I 不良債権回収 J, I Web解 「剥落顧客の防止 J (剥落は取引が無くなること), I 析」等の実務モデルが運用され,リテール金融の発展の原動力になっている。特にリテールの与信審査 ではデータマイニングによる分析が不可欠である。 リテール金融工学はデータマイニングの分析結果と金融工学の理論を融合させた新しい分析技術で ある。リテール金融工学は単にリテール分析に使われるだけでなく, CRM,リスクの観点から最適ビジ ネス戦略を選択する。例えばデータマイニングでセグメントしたリテール顧客を金融工学の観点からリ スク分析を行なったり,あるいはモデルの精度からビジネス対象範囲の推定を試みる。また時系列の状 態変化を分析し, CRM施策と有効なグループの結びつけを試みる。 本稿は,過去に筆者が発表した SASユーザー会の資料に基づ、いている。前半は金融業のデータマイ ニングの発展を振り返り,次にリテール金融工学の代表モデルを解説する。 2 . 金融業のデータマイニングの歩み 2 .1 . 米国の金融業のデータマイニング 米国の金融業では 1 9 8 0年代に吸収合併が進みメガパンクが出現し,その結果, 90年代初頭には数千万人 9 9 4年 の顧客データベースが作られた。データマイニングは大規模データベースの解析に適するため,既に 1 e l l sF a r g o銀行の中小企業向け には米国の金融業で使われ始めた。金融業における最初の成功事例は W 戸内U 口内 U ワ 臼
の与信モデルであろう。与信モデルの開発は F a i rI s a a candCompany(FICO)社が行なった。 FICO社 の与信モデルは,十数の銀行の中小企業向け貸出 5年分と経営者の個人信用情報 2年分から与信モデル を開発し,そのモデルに全米の売上高 2億ドル以下の中小企業を適用し,融資可能な会社を選定した。 W e l l sFargo銀行はその結果に基づいて夕、イレクトメールキャンペーンを実施し,翌年 1995年に中小 企業融資額で全米 l位を獲得した。 996年に米国の大手生命会社が顧客の剥落防止分析で成功したことと,損害 その他の有名な成果は 1 保険会社が自動車のリスク細分型保険を商品開発したことが報告されている。 2 . 2 . 日本の金融業のデータマイニング 996年にマイニングツールを用いた本格的なデータマイニングの導入が始まった。 日本の金融業では 1 1996~99 年は一部の金融機関がデータマイニングのモデル開発を先行した。与信分野では大手銀行と 一部地方銀行が住宅ローンの与信モデルの開発に成功し,さらに一地方銀行が中小企業向け融資の与信 モデルの業務運用を始めた。リスク分野では大手生命保険会社が保険の解約顧客の分析に決定木を採用 した。また損害保険会社は事故車と顧客属性との関係を決定木で分析し,それに基づ、いたリスク細分型 自動車保険の販売を始めた。一方,大手クレジット会社のクレジットカードの大量偽造が発生し,カー ドがコンビニエンスストアで利用できない事態が発生した。狙われたクレジット会社はカード不正使用 の探索モデルの開発に着手し,他の多くのクレジッ卜会社は米国 HNC社のニューラルネットワークを 用いたカード不正利用防止モデルを導入した。 2000~03 年には一般の金融会社にデータマイニングが広まった。先行する銀行では中小企業向けの 与信モデルの構築が注目されたが,大量の中小企業データの取得が問題となった。その解決のために中 小企業庁が信用保証協会と民間銀行が中心となり. CRD(CreditR iskDatabase)を設立し,中小企業の 0数社が共同で RDB (日本リス 財務データを蓄積し始めた。同様に民間では,地方銀行を中心に銀行 2 クデータパンク)を設立された。一方,大手銀行は中小企業向け融資のモデル運用を全国展開した。し かしモデル審査は顧客と非対面のため,詐欺集団に狙われやすく,後半その対策に追われた。 消費者金融会社は 80年代からモデル運用が行われていたが,この時期にデータマイニングによる高 精度のモデルに置き換えられた。ところでキャッシングローンのモデル与信は,消費者金融系の個人信 用情報(借入金額,借入件数等)の取得が重要であるが,信用情報センターは業態別に設立されたため, 異業種の参入が困難であった。その解決のため,銀行と消費者金融会社が出資したキャッシングカード ローン会社が相次いで設立され,銀行系カード会社は消費者金融系の個人信用情報を利用するようにな った。 またこの時期に多くの金融会社がデータマイニングを用いた CRMモデルを採用した。データマイニ ングはダイレクトメールの応答率の向上に利用されたほか,協調フィルタリングを利用した Webマイ ニングが実験的に導入された。一方,大手クレジッ卜会社は会員の噌好性や趣味をデータマイニングで 分析し,会員ごとに請求書の様式を変更することに成功した。しかし後半は日本の金融不況と重なり, 多くの金融会社は成果が見えにくい CRMを縮小した。 2004~06 年には中小企業や小規模事業向けの新たな与信モデルの開発が始まった。現在は詐欺集団 の阻止,破産者の早期発見,不良債権の回収を考慮に入れたビジネスモデルが展開している。また銀行 発行のクレジットカードも解禁され,それを利用したスモールビジネスカードが登場した。逆に消費者 金融会社と信販会社は,従来,銀行が優勢であるビジネスローンに進出した。リスク分野では経済不況 286‑
の影響で不良債権が増大しているため,債権回収モデルが注目されている。また一部のノシパンクは中 古車の価格予測モデルを開発し,中古車買戻しビジネスを展開し始めた。 今年,リテール金融の流れを変える出来事が生じた。最高裁判所は高収益を稼いでいたキャッシング ローンのグレーゾーン金利 lの厳格運用を命じ,実質的にグレーゾーン金利を禁止する判決が行われた。 近い将来,法定金利が年率 29.2%から 18%へ変更される可能性が高く,リテールモデルを利用する金 融ビジネスの再構築が急務となっている。 2 . 3 . 金融業でマイニングが発達した理由 日本の金融業でデータマイニングが発達した理由は,①金融会社のリテール分野への進出,②マイニ ングツールの発達,③マイニング専門のコンサルタントの活躍があげられる。 90年代後半から銀行を中心に日本経済は金融不況に陥り,金融会社は高収益性が見こまれる「個人顧 客のキャッシングローン」や「中小企業向けの小口融資」に進出した。しかし従来の専門家による個別 審査では高コストになるため,モデル判断が不可欠である。そのため,データマイニングによる膨大な 顧客情報の解析が急速に発展した。 "'5倍にアップするマイニングツールが不可欠である。 金融業のデータマイニングでは作業効率を 3 米国では 1994年に多くのマイニングツールが開発され,その日本語版が 1996‑97年にリリースされた。 同時期に日本メーカーもツールの販売を開始し,ツール機能が飛躍的に向上した。これにより金融業の 担当者でもデータマイニングが取扱えるようになり,理解が広がった。 与信モデルの開発は高度なマイニング技術と金融のノウハウが必要のため,金融会社はマイニング専 門のコンサルタントにモデル開発を依頼した。その中でも金融エンジニアリンググループ ( F E G )社は 早くから決定木による与信モデルの開発手法を確立し,日本のデータマイニングの啓蒙に貢献した。現 在では MBR (記憶ベース推論)や生存時間解析の手法を駆使するコンサルタントも活躍している。 3 . リテール金融工学 3 .1 . データマイニングとコンプラアンス 金融業のリテールモデル構築で最初に留意する点は,モデルの精度や利益の追求ではなく,コンブラ イアンスの視点に基づく配慮である。金融業のデータマイニングは顧客分類を目的するために,思わぬとこ ろで人種差別,人権侵害,プライバシー侵害につながることがある。例えば欧米の一部では説明変数に郵便番 号を加えると,住民の人種や低所得者が偏っている地域が特定される可能性があるため,郵便番号を含む業務 モデルを規制しているケースもある。また公共性を帯びている金融商品は,他の金融商品に比べて使える情報 に制限がある。例えば消費者金融会社のキャッシングでは,運転免許番号から知り得る再発行回数を利用する 場合があるが,公共性の強い住宅ローンのモデルにその種の特別な情報を入れることは,コンブライアンス上の 問題が懸念される。また極端に顧客を細分化し,少数の特定客へ過剰なサービスを実施するプロパガ、ンダ、的な 金融商品開発にも問題が残る 0 !日本の上限金利に関する法律は 2種類存在する。上限金利は,出資法で年率 29.2%,利息制限法で元本 1 万円未満 : 2 0 . 0 %,元本 1 0万円以上 100万円未満 : 1 8 . 0 %,元本 100万円以上 :15%が認められている。グレー ゾーン金利(みなし弁済)は利息制限法と出資法の金利差のことであり,特定の要件を満たせば認められ ていた。今年の最高裁判所の判決はみなし弁済の厳格運用を命じたものである。 ワ a nL o o
3 . 2 . モデル精度とビジネス戦略 業務モデルを成功させるには,モデル開発に留まらずに,モデルの精度に対応したビジネス戦略の選 択が重要になる。リテール金融工学では, Cap図からモデルの精度情報を引き出すだけでなく,最適な ビジネス戦略にも利用する。 Cap図は予測倒産率を降順に的中確率を累積したものであり,複数モデルの精度比較に利用する(図 1 )。縦軸は累積倒産率,横軸は全顧客割合である。 Cap図の上方の凸曲線が判別力に優れており,直線 は判別力がないランダムモデルを表す。指標に使われる Cap50は横座標 50%の縦座標値である。生命 保険会社の住宅ローンモデルの Cap50は 95%以上,消費者金融会社のキャッシングローンの Cap50は 75~85% ,信販会社のクレジットカードの Cap50 は 70~80% である。経験から与信モデルの精度がこ の範囲外の場合は「モデル改善」または「ビジネスプロセスの変更」が必要になる。 Cap50が 90%以 上ならば高精度のモデルであるが,マーケティングの観点からもう少しリスクを取る方が望ましい。逆 に Cap50が 60%未満ならばデフォルトリスクを回避できないため,有担保や第三者保証を考慮する必 要がある。 ﹄﹄ ﹄ ︑ h 句︑‑ li‑‑tι4satt? ︑111i‑P ︑︑ ﹄ ︑ ﹃ ︑︑﹃ ﹃ ︑﹃ 理想曲線 様々なモデル曲線 ‑ ‑ ̲ ̲ 1 1 ランダムモデル曲線 ー t > 10 l~ 噂 2氾 n 3 ( > ,'~ z : s <IZめ切羽,.俗的~ U. ~・"偏明。, r‑‑i‑Cap50 . 図 1 Cap図( L 出 C h a r t )とモデル精度 3 ふ D e f a u l tM o d e lとP r o f i tM o d e l の相違 収益は予測できるか?‑ D e f a u ltM o d e lはデフォルト顧客と正常顧客の 2値フラグを目標変数としたモデルであり,収益は倒 r o f itM o d e lは収益顧客と損失顧客の 2値フ 産率を算出したのちに事後的に計算する。それに対して P ラグを目標変数としたモデルであり,収益を直接予測する。本来,金融の最終目標は収益であるので, P r o f i tM o d e lが望ましいはずであるが,経験的に D e f a u ltM o d e lを採用する。理由を確認するために, r o f i t M o d e lと D e f a u ltM o d e lを構築した(図工 3 )。その結果, P r o f itM o d e lは o v e r f i t t i n g 決定木で P を起こしやすい構造を有することが判明した。おそらく P r o f i t M o d e lを構築するにはリアル情報が必要 と推定される。例えば個人信用情報(他社借入金額,借入件数等)を週単位(通常は 3ヵ月単位)で取 r o f itM o d e lの可能性があるが,情報料金が高コストになるため現実的でない。 得できれば, P 3 . 4 . ハイプリyトモデル どの分類器の組み合わせが最適か 単独の分類器ではその精度の向上に限度があるため,高い精度が要求される場合は,分類器を組合せ るハイブリッド・モデルが採用される。ハイブリッド・モデルは様々なタイプがある。例えば Cascade Modelは分類器を多段階に直列に組み合わせる。第 1段階では顧客を大きなセグメントに分類し,第 2 段階ではセグメントごとに異なる分類器を適用する。実務では第 1段階は決定木を用い,第 2段階はロ ジスティック回帰分析やニューラルネットワークを適用する。 しかし同じ分類器でも数種類のアルゴリズムが存在し,また評価関数が違うと分析結果が全く違うた ‑288‑
めに,分類器は無数の組み合わせが存在する。そこで実際に分類器を組合わせて 1 00種類のハイブリッ ドモデル作成し,精度の影響を分析した。その結果,分類器の組み合わせることで単独の分類器より精 )。ハイブリッド 度を約 5%向上させるケースも存在したが,逆に向上もないケースも存在した(図 4,5 モデルの他の効用は,第 1段階の分類器でパラメータを最適チューニングできなくとも,第 2段階の分 類器でフォローできるため,平均の精度を獲得できる点である。 図 2 図 3 P r o f i tModelの決定木 l EnterpriseMinerVer4.1を使用。円は決定木を表現,中心円はツリーの頂点 解説:ツールは SAS を,周辺円はツリーの末葉を表す。円の分割は決定木の分岐を意味し,分割円の面積はセグ メントに含まれる顧客数を表す。判別力があるセグメントほど色が濃い。図 2の一番色の濃 e f a u l tしにくい顧客層であり, I イ昔入 1社以下かつクレジットカードを既に保有 い部分は D ,3500,6000,8000, 10000 円を闇値とする する顧客」に該当する。図 3は年間収益が 1 r o f i tModelの決定木を構築した。大きい闇値は高収益の顧客モデルになるが, 目標変数で P D e f a u l tしにくい顧客層を分割できず, o v e r f i t t i n gが発生する。 図 4 ハイブリッドモデルの Cap図 図 5 ハイブリッドモデルの ROC図 解説 :Cap図と ROC図は共にモデルの精度の比較に利用する。 1 00種類のモデルの Cap図と ROC 図を描くと見にくくなるため, 10種類のモデルしか載せていない。分類器により多少の精度 の差異は生じるが,不適切な分類器を除けば,分類器を組合わせることで一定レベルの精度 を得られる。 3 ふ CRMモデルの新展開 R Mモデルはサイコグラフ 従来のリテール顧客分析はデモグラフィックデータを利用するが,最近の C ‑289‑
イックデータ(心理的データ)も利用する。大手カードクレジット会社や旅行代理庖はアンケート調査 からサイコグラフィックデータによる顧客の品物購入の動機づけやライフスタイルを分析し,従来より も高い応答率のダイレクトメールの発行が可能になった。 クレジット会社のキャッシングローン申込書の分析では, r 他社の既存借入金額」を記入した顧客の デフォルト率が低いことが発見された。この場合は借入金額の大きさではなく, 0を含む任意の数字が 記入されていれば,デフォルト率が低いグループになる。 クレジットカードの初使いキャンペーンは,通常カード発行から 1ヵ月後に始まる。しかし期間構造 の分析結果から,半数の初使い顧客はカード発行から 20 日以内に使うので,早期キャンペーンの重要 性を再認識した(図 6,7 )。そのため流通業では申し込んだその場で仮カードを発行し,サービス券を つける戦略を採用している。 "~I '明 勺!一『γ j ‑ ‑ 1 ' ランヲ数 0 ,1個 l~L i C α l l W l ) 髄 全 針 イ ミ む ノ グ 夕 引;黒‑ 、姻 赤・・・フラン激!, 3 i. ¥¥ j / ド1 ・ 21¥h 、 と c き " を む ミ " " " ̲ 、 、 、 、 司 図 7 初使い顧客の期間構造分析 図 6 初使い顧客の決定木 解説:図 6から初使い顧客は,未記入欄が l個以下でかつカードを保持しない特徴を有する ことがわかる(新入社員等)。図 7は顧客が初使いするまでの期間を生存時間分析した 結果である。カード発行から 20日以内に半数の初使顧客はカードを利用する。 3 . 6 . ')7‑ル顧客の移動推移分析 データマイニングは剥落顧客の新しい分類をもたらしたが, C R Mではダイレクトメール程度しか利用 R M戦略から使 されない。理由の一つは顧客セグメントの時系列変化に関する研究が少なく,中長期の C いづらい点にある。決定木の剥落顧客分析では手遅れになるケースが多いため,最新 C R Mでは,顧客の 移動推移分析により,剥落至る原因でなく,兆候を見つけることを試みる。 データマイニングを用いた剥落/継続顧客分析では一定期間の剥落顧客の特定ができるが,計測時点 が違うと,顧客がセグメント聞を移動するため,同じセグメントでも含まれる人数が変化する。そこで 顧客の移動推移分析は,その剥落/継続顧客セグメントの時系列変化を,吸収マルコフ連鎖モデルで表 現する。剥落顧客はマルコフモデルの吸収部分に相当する。 吸収マルコフ連鎖モデルの推移確率行列は,決定木で開発した継続/剥落顧客ルールを 2期連続に適 用し,各セグメントの当期から次期へ推移した顧客数を集計すれば,推移確率行列 ( 9 9行 99~IJ)が算 出できる。行列の要素は顧客ウェイトであり,剥落確率を表わす行と吸収状態を表わす列を追加し, (100 行1 0 0列)の推移確率行列を作成する。推移確率行列の積が時系列変化の顧客ウェイト変化を意味する。 290ー
顧客は新規顧客を除けば年 10%前後の顧客が剥落し, 5年間でほぼ半数になる(図 8右図)。各セグメ ントは剥落顧客の増加に伴って,顧客ウェイトが減少する(図 8中図)。急激に減少するセグメントは 営業上の施策に起因する。逆に剥落・解約が少ない顧客セグメント(例えば教育預金)は低減少率のセ グメントになる。 顧客リテンション(維持)を計るには,移動推移パターンから C R Mキャンペーンに有効な顧客セグメ ントを探し,さらに施策可能なコントロール属性が含まれる顧客セグメントに剥落防止施策を打つ。そ R Mのコントロールが の分析手順は移動推移パターンを順序アソシエーションルールで分析し,さらに C できる属性を求めるため,ロジスティック回帰分析の感応度を分析する。詳細は参考文献を参照。 図 8 顧客セグメントの移動推移 解説:図 8の左図は推移確率行列の条件である。中図は約 100セグメントのウェイト(顧客数)の時 系列変化を表す。横軸の最大値は 5年。右図は全顧客の剥落していく顧客数の時系列変化を表 す。約 5年で顧客の半数が剥落する。 4 . 企業情報を利用した中小企業の倒産モデル構築 4 . 1 . 概略 日本の企業はおよそ 5 00万社以上存在するが,売上高が数億円に満たない中小企業 2は情報開示が進 んでおらず,また財務情報の信恵性に問題がある。そのため中小企業向けの与信モデル構築は,財務デ ータに加え,企業データ(業種,設立年数,所在地,従業員数等)や経営者の個人データ(年齢,年収, 学歴,住所等),さらに信用情報(借入情報)を利用する。本モデルでは,帝国データパンク社(以後 TDB) が提供する 1 カ月約 42 万社の『予測倒産率~ (CCRモデル)を目標変数に, w 企業情報(財務デ o n s t r u c t ) した。再構築モデルに企業 ータは直近 3年分)~を説明変数として,モデルを再構築(Re- C 情報を当てはめれば,中小企業約 120万社の予測倒産率が得られる。 倒産モデルは,構造を担握するために決定木の対話型学習法(強制分割法)を用いる。開発用のデー タは負事例と同数のランダムサンフリングした正事例から構成する。またモデルの安定性を強めるため にパギング学習を利用し,複数の倒産値(闇値)から複数の決定木モデルを構築し,その平均値を予測 倒産率とする。 帝国データパンク社の企業情報 120万社の内,売上高 1倍、円未満が約 50%,3億円未満が約 75%である。 291‑
4 . 2 . 倒酒値と評点の分布 ' " " 一般の金融会社が審査基準に利用する評点の分布と,倒産モデルの倒産率の分布を比較する(図 9 1 2 )。評点は正規分布でなく調査員の主観が混入されている(図 9 ) 0TDB社の CCRモデルと再構築モデ ルのデフォルト率の分布は類似しているが, CCRモデルの分布は滑らかである。また再構成モデルは 平均倒産率を高く見積もったため,再構築モデルと CCRモデルの散布図(図 1 2 ) は前者の倒産率が高 い傾向を示す。 図 9 心身重_';~"..・-・. 図1O(上中国) CCR倒産率分布( 3 7万社) 主 将P K : ; ‑ 図1 1 (上右図) 再構築モデルの倒産率分布( 1 2 0万社) 、 t ; ・ " . . 1 : " . ・ . ; 主 ー . ・ . 1 0 1 (上左図) 評点分布 ( 1 2 0万社,横軸:評点) ・,~I 言・・.・ . 菅胃量 ~.t な ' :4 4 2 (下左図)再構築モデルと CCRモデルの倒産率散布図 図 1 一 …f.、 i . ‑ ・・ . (表示は 1 0 0 0社ランダムサンプリング) 豊富事 f . a・・・邑n~: o 5 1 0 1 5 2 0 2 5 4 . 3 . 決定木の構造 決定木のツリー構造は 1層目を最新自己資本比率で, 2層目を 2分類(卸/小売業,建設/不動産/ " " 8層,最終業数(カテゴリ数)は 5 0 ' " " 6 0個と 製造業)で強制分割した。最終的にツリー構造は 6層' なり,ルール総数は 5モデルで約 3 0 0ルールである。 企業情報では直近 3期分の売上,業績利益等を情報公開しない企業も多いので,加工変数には情報公 開企業が有利になる加工変数(1決算書の公開数」や「利益のプラス数やマイナス数」等)を採用した。 それらの加工変数が分割指標の上位に含まれた。 説明変数 l 評点 2 2分類 P 3 最新期業績自己資本比率 4 税引後利益減少数 P 5 法人申告所得額増加数 P 平均分割指標 5 . 0 0 3 . 7 0 3 . 2 0 3 . 1 0 2 . 3 4 説明変数 6 自己資本比率増加数 P 7 設立年数 P 8 業績利益存在数 P 9 決算書存在数 P 1 0 最新期業績決算書有無 P 平均分割指標 2 . 3 0 2 . 1 6 2 . 0 1 1 .5 4 1 .4 1 表 1 採用された決定木 5個の説明変数の分割指揮値(平均値) (変数名の語尾 Pは加工変数を表す) 4 . 4 . 倒産モデルの精度比較 , TSR (東京商工リサーチ)社の倒産モデルの Cap図を記載する。両 再構築モデルと共に TDB社 社の公開情報に基づいているが,測定時期,ユニバース等が相違しているため,正確な比較でない。 TDB 社の CCRモデルの C ap50は約 90%と非常に高い。 TSR社の Cap50が約 75%と低いのは, TSR社の ‑292‑
ユニバースは TDB社の約 3倍の 1 1 5万社と大きいためである。再構築モデルの Cap50は約 80%であ 7万社で成立するので, るが,この精度は 3 1 2 0万社に適用すれば TSR倒産モデルの Cap曲線のやや 下側に,再構築モデルの Cap曲線が存在すると推定される。 TSR岡 度 予 潤 モ デ J しれ悶万件〉 CCR園 施 予 , 周 モ デ ル (38万社〉 100 " ' 累 積 楠 岡 度 50 車 " '00 25 今回書割合 再鴎担医モデル{120万 E ・九〆・・ー・・・ .._.,_,;.r-...... ・・~. ‑ ‑ ~‑ ‑ ‑ ̲ . ‑ 一 ー ・ ・ ・ ー ー ユ ー ・ ・ ・ ・ ・ ー ・ ー ー 。 。 4 75 全面客割合 m ‑0ーランダム プ 一 ノ ⁝ ~・理想、モデル ー企ー倒産モデ Jレ 図1 3 TDB社の CCRモデル(37万社)の Cap図(上左図) 図1 4 TSR社の倒産モデル ( 1 1 5万社)の Cap図(上右図) 四 全血容割合 一図 1 5 再構築モデル( 3 7 万社)の Cap 図(下左図) 4 . 4 . 1 . 再構築モデルと情報ベンダーモデル 倒産モデルに業種や地域を説明変数に含めると,モデル精度の向上が見込めるが,これらの要因は景 気変動の影響が大きく, o v e r f i t t i n gが発生しやすいため,本モデルも情報ベンダーのモデルにも採用し ていない。 TDB社 , TSR社のモデルの説明変数には「企業照会回数」が採用されるが この情報はユーザーに 公開されていない。「企業照会回数」は,会員企業から該当企業への調査依頼回数であり,該当企業の 悪いうわさが広まったときに利用されるため,倒産と強い相聞がある。逆に TDB社の倒産モデルは評 点を説明変数に採用しない。評点の説明力が強いため,モデル全体が引きずられるためである。しかし 再構築モデルは評点を説明変数に採用しないと Cap50が 60%未満のランダムモデルになる。 4 . 4 . 2 .結論 倒産格付の精度は Cap50が 70%を有しており,ビジネスへ応用が期待できる。留意点は企業情報の 信恵性にある。例えば「調査員が年に一度程度しか調査しない点 J,["経営者が故意に虚偽情報を流せば, 確かめることが容易でない点」である。そのため高い精度が要求される与信審査では,個人や企業信用 情報(借入金額,借入件数,過去の事故歴等)や決算書を合わせて検討すべきである。 5 . リテール金画工学の標題 与信モデルの分野では,兆候がない突然の倒産/破産の予測が課題である。解決には,個人信用情報 の取得タイミングの短期化,口座の動きを表すモデル,生存時間解析などが試みられているが,まだ結 2 9 3
論は出ていない。また中小企業の与信モデルは,中小企業が法人と個人の両方面を有するため,両者の バランスが課題になる。米国では「企業が積極的に情報開示する風土」と「金融会社は業種に関係なく 経営者の信用情報を購入できる点」が,日本の与信情報と相違する。そのため,米国の中小企業モテ'ル をそのまま導入できない。 CRM分野では顧客状態の把握が課題である。剥落直前の状態では CRMの施策が限られてるため, 兆候レベルの顧客に働きかけることが重要である。筆者は状態を吸収マルコフモデルで表現したが,隠 れマルコスモデルを採用する研究もある。 リテール金融工学はまだできたばかりであり,リテール金融の発展と共に今後の発展が期待できる。 本研究は個人的見解で書かれており,所属する三菱東京 UFJ銀行の意見をあらわすものではありま せん。また本モデルは研究用に開発されたものです。 6 .参考文献 • B o r i sK o v a l e r c h u k, E v g e n i iV i t y a e v, " D a t aM i n i n gI nF i n a c e ", K l u w e rA c a d e m i cP u b l i s h e r s, 2 0 0 0 . c h a p i r e, ブースティング入門"人工知能学会, v o1 . l4N o . 5,p p . 7 7 1 ‑ 7 8 0, 1 9 9 9 . • Y o a vF r e u n d,RobertS ・J . R .キンラン, A Iによるデータ解析"トッパン.19 9 5 . ・片岡義広,山本真司, 消費者信用ビジネスの研究"ビーケーシー, 2 0 01 . 'クレジット・スコアリング"シグマベイスキャピタル, 2 0 01 . ・エリザベス・メイズγ ・小島将信,木村公平,岩淵勝成,武田信哉,矢内紘之, 企業評価と信用リスク"清文社, 2 0 0 2 . ・渡辺洋, ベイズ統計学入門"福村出版, 1 9 9 9 . ・山下智志, } I J口昇, 大規模データベースを用いた信用リスク計測の問題点と対策"金融庁研究センター,デ、イスカッ 0 0 3 . ションペーパー, 2 ・山下智志,敦賀智裕, } I J口昇, 信用リスクモデルの評価方法に関する考察と比較"金融庁研究センター,デイスカッ 0 0 4 . ションペーパー, 2 ・益田安良, クレジット・スコアリングの現状と定着に向けた課題"みずほ総研論集, 2 0 0 5 .1 . o . 17 , p p 5 6 ‑ 5 9,日経 B P社 ,2 0 0 0 . ・小野潔, マイニング・ツール選択のポイント"日経情報ストラテジー, v ・小野潔, データマイニングを利用した融資モデルの現状と課題"人工知能学会研究会資料 S I G ‑ J ‑ A 0 0 4, pp 2 0 01 . 4 9 ‑ 5 4, ・小野潔, 金融業界におけるデータマイニングの応用"第 1 9回日本 S A Sユーザ会研究発表論文集, S A SI n s t i t u t eJ a p a n, 2 0 0 0 . ・小野潔, ハイブリッド・コンポーネントの構築"第 2 0回日本 S A Sユーザ会研究発表論文集, p p 2 6 9 ‑ 3 2 7, S A S 2 0 01 . I n s t i t u t eJ a p a n, 1回日本 S A Sユーザ会研究発表論文集, S A SI n s t i t u t eJ a p a n, 2 0 0 2 . ・小野潔, 金融業の顧客の推移分析"第 2 ・小野潔, コンシューマ・クレジット業の利益指向の新与信モデル"第 2 3回日本 S A Sユーザ会研究発表論文集, S A SI n s t i t u t eJ a p a n,2 0 0 3 . ・小野潔, データマイニングを用いた中小企業の信用リスクの推定", S A SF o r u mユーザー会学術総会 2 0 0 5論文 集 ,p p 2 5 1 ‑ 2 5 9, S A SI n s t i t u t eJ a p a n, 2 0 0 5 . ・小野潔,今野浩編集, データマイニング:金融工学辞典", p p43 4 ‑ 4 3 7,朝倉書底, 2 0 0 4 . ・小野潔,田中穂積編集, データマイニンク守とコンフ。ライアンス:人工知能学辞典", p p 6 9 2,共立出版, 2 0 0 5 . ‑294‑
口頭論文発表 教育
S A S Forumユ ー ザ 一 会 S A Sを使った数値計算・統計処理教育プログラム 作花一志 南野公彦 京都情報大学院大学 EducationalProgramso fNumericalandS t a t i s t i c a lComputation by using SAS 。 KazushiSakkaandKimihikoNoun TheKyotoCollegeofGraduateStudiesf o rInformatics 要旨 数値計算・統計解析・多変量解析の数学的基礎を学ぶための SASプロシージャを用いた 江MLのプロシージャを用 教材と SASの天文学への応用例を紹介する。このためには SAS いると効果的であることがわかった。また自然科学データの統計処理の例として 1 1 0 0個の カイパーベルト天体についての結果を報告する。 キーワード: 非線型方程式 P H P 非線形回帰分析 クラスター分析 297‑ カイバーベルト天体
1 . SASによる数値計算 1 . 1 SASによる数値計算 数値計算はコンヒ。ュータの基本的かつ重要な利用シーンの つである。しかし,近年の 初・中等教育機関での数学の履修時間の減少の影響か,数値計算法を(本当はそのパック ボーンである数学そのものを)学生に理解させるのは難しいものがある。 C,F o r t r a n,J a v aなど)では既に膨大な数の数 一方で、,世の中のプログラミング言語 ( 値計算用ライブラリが開発されてしもし,数値計算用パッケージ (MATLAB, O c t a v e,Sc 帥 など),データ解析用パッケージ ( SAS,SPSS,S/S‑PLUS,Rなど)も非常に広範囲の数 値計算法をカバーしている。ブラックボックスであることを認めてしまえば,プログラム をーから作るよりもこれらのパッケージを活用したほうが,開発効率,計算速度,パグの 少なさなど,どれをとっても優れている。 そこで,筆者らは数値計算の入門的なアルゴリズムの仕組みをグラフに表示し,学生に 対してピジュアル的に訴えることで,数学に不慣れな学生にも数値計算がどのようなもの か,パッケージが内部で何を行っているのかを体感してもらうことだけでも達成したいと 考えて教材の作成を行った。その際,行列演算を容易に表現でき,数学関数・サブ、ルーチ 江h ι と,強力なグラフ描画力を持つ SAS/GRAPHの機能を ンも多数用意されている SAS 使用した。 1 . 2 非線型方程式の解法 方程式 f ( x )=0 を解くには,関数値 f(x) を計算し f(x)~O となる x が得られればそれは解 と言える。解の近傍のある点 ( x l,f ( x l ) ) において接線を引き x軸との交点を x 2 とす ると x2=xl‑f ( xl )/f '( x l ) であることは容易にわかる。この式より x l を与えると x 2が求まりその値を x l として 再度泌を計算する・・・・という繰り返しを行っていくと漸近的に解に近づいていくと ( x2 ) ~0.00001 考えられる。実際,数回の繰り返しで f となる。よってこのときの x 2が 解である。これがニュートン・ラフソン法といわれる古くから有名なアルゴ〉リズムである。 f '( x l ) = Oの近傍ではこの式は使えないが,別の xlでやり直せばよい。図 1においては x l = 5でり, x 2,x 3,x 4・・・は限りなく 1に近づく。…・ 298‑
Newton‑P a phson method,f ( め=(x*x*x+3*x*x‑4)j20,. x O =5 図 1 ニュートン・ラフソン法で収束の椅子 1 . 3 s a sソースコードを作成する P H Pプログラミンゲ SAS プログラミング作成に当たって,エデ、イタの上でコードを書くのではなく,ワェブ から必要なパラメータを入力して作成する方法を開発した。現在,ニュートン・ラフソン 法による非線形方程式解法のプログラミング作成 PHPファイルが作成済みであり,筆者の Webページ ( h t 叩: / / w e b l . k c g . e d u / ‑ s a k k a I P H P / c a l c / c a l c nl .php) で利用できる。ここでは ( x )をワェブから与えると 微分の知識は不要で, 2つのパラメータ a,b と方程式の関数 f t e s t . s a sという s a sコードを発生する。それをダワンロードしてローカルフォルダーに保存 . 1から起動・実行することによって, y=f (x)のグラフを描き,解を求めること して, SAS9 r o cmodel と p r o cg p l o tである。 ができる。ここで使用するプロシージャは p 2 9 9
1 3 川 図 2 パラメータ入力画面 下記は a =3,b=‑6,f ( x ) = x' exp(‑x!a)‑b とした場合の結果であり,解は ‑2.557817と 求まる。 T h eM ①E L .P r o c e d u r e S i n g le ‑E C I J a U o nS i m u l a t i o n O b s e r v a ti o n I l e r a t io n s 5 ∞ 0.000000 S oI u ti o nV al u e s x ‑ 2 . 5 5 7 8 1 7 図 3 アウトプット画面 ‑300‑ 問 . e x ‑ 0 . 0 0 0 0 0 0
1 5ふ泊五ぷふふ:ぶdir‑‑γ… 一 一 … 雌 滋I ‑ h Y 1 0 ,〆 ̲ ̲ . . . . ̲ . . ̲ . r一 「 一 一 一 一 一 ノ '/ ‑ ' ー1 0 ‑ 2 0 ‑ 3 0 ‑ 4 0 ‑ 6 ‑ 5 ‑ 4 ‑ 3 ‑ 2 ‑ 1 ,、 図4 y = f ( x ) のグラフ 今後,以下の数値計算法を取り扱う予定にしている。 a )行列演算(行列式固有値など) b ) 連立一次方程式(ガウス・ジヨルダン法,ガウス・ザイデル法) c ) 数値積分(台形則,シンプソン則) d ) 連立非線形方程式(ニュートン法) e ) 常微分方程式 。偏微分方程式 また PHPだけではなく CGIでも同様な処理プログラミングを作成している。 これらの教材は, 2 0 0 6年度後期より京都情報大学院大学 ( h t 旬 : I / w w w . k c g . e d u ) の講義 で活用する予定で,その教育効果の結果については,次回で報告を行いたい。 2 . カイバーベルト天体の統計的性質 2 . 1 KBOとは 9 9 2年に発見されて以 カイパーベルト天体 (KBO) とは冥王星の彼方にある小天体で, 1 0 0 0個余りが確認されている。サイズは地球の月よりも小さいが,地球や 来,現在では約 1 他の惑星のように太陽の周りを公転している「惑星J である。その運動は太陽からの引力 ‑301‑
によるので 3元連立 2回微分方程式で表されるので 6個の積分定数をもち,ある平面内で 楕円軌道を描く。太陽系天体の運動を記述する際には日心黄道座標が使用される。それ は図 5に示すように中心は太陽で,春分点方向を X 軸、地球の軌道面(黄道面)を x y 面とする座標系であり,ここで a ( 平均距離) θ (離心率) . Q (昇交点黄経 )ω(近日 点引数)j (軌道傾斜)は軌道要素と呼ばれる各惑星固有の定数である。 図 5 惑星の軌道要素 ht 旬: l l c f a‑ w w w . h a r v a r d . e d u β a u l l i s t s 爪 t 1P L i s t s . h t m lに載っている 1 1 0 0個の軌道要素のデ ータを用い、 SAS/STATで統計的調査を行った。絶対等級 H とは天体の明るさを表すもの でイ直が小さいほど明るい。 2 . 2 軌道要素の分布 データセットよりソリューション 分析分布 の操作より次の諸量が得られる。 表 1 KBOの軌道要素の統計諸量 標準偏差 最小 平均 中央値 最大 平均距離 a 4 5 . 1 8 1 6 4 3 . 7 1 5 5 2 4 . 3 8 2 7 534 離心率 e 0 . 1 5 0 9 0 . 1 0 2 0 . 1 5 9 5 0 . 9 6 軌道傾斜角 i 8 . 9 1 6 5 5 . 2 0 0 9 . 0 7 1 2 7 8 . 0 0 . 2 0 絶対等級 H 7. 4227 7 . 3 0 0 1 .4912 1 4 . 3 ‑ 1 .2 5 . 2 0 6 。 平均距離 aおよび絶対等級 H の分布はほぼ正規分布である。ただし 3個だけ異常に明るい ものがある。最も明るい天体は 2003UB313で,昨年「第十惑星」として話題になった。 u 円 の ん q o
0 . 0 8・ 0 . 0 6 ' 担 出 度 0 . 0 4 ; 0 . 0 2 ‑ ; O~ 4 5 0 6 0 7 S s o 1 0 5 1 2 0 a 図 7 絶対等級の分布 図 6 平均距離の分布 一方,離心率 eは 0から 1までの,軌道傾斜 iは Oから 180までの数であるが,小さな値 に偏っている。 密度 t " 0 . : 1ュ ー 0 . ' 台 。. 2 50 . 3 0 0笥 0 . 4 00 . 4 5 0目 。 一 日 O 一回 O回 0 . 7 00 . 7 5 O .剖 江 田 o .剖 0 . $ 5 e 図 8 離心率の分布 2 . 3 軌道要素の散布図 図 9は e と aの散布図であり,各点はシャープなエッジの下に現れ, eが小さく aが大 きいものは見られない。これは明らかに選択効果である。近日点距離 a(l‑e)がある値以 下のものしか観測できないのだから これが包絡線を表し a(l‑e)<ao すなわち a o は約 40と読み取れる。 ‑303一 a<ao/(l‑e)
笠 岡 ω . n J ‑ . r o : l . ・・・ H • •• 1 0 0 H4..:.て . . . . ・ . , ・ 、 . .J.. ・. ' .‑ ・・ 会 . ‑ ・ ' . : : . •・ , ・, ・ ・ . . O o . ー圃圃 _J,~I!...'.'::'l干.... . ‑ー ̲..司町一 .... ....̲ . . ' .‑. i ・ . . 1 I i i ' ・J 0 . 0 l ' . 、~ j 匂 0 . 2 H O . E 0 . 8 e 図 9 散布図 離心率と平均距離 H ヒ a, H ヒ i ,H ヒ e , eヒ 1, aと i の聞に顕著な傾向は見られなかった。 2 . 4 非線形回帰分析 軌道傾斜角 j の分布は図 1 0のようになり, 密度 O . 。 4 自 1 2 1 6 20 24 28 32 36 40 44 48 52 56 60 64 68 72 76 80 l n c l 図1 0 軌道傾斜角の分布 これを 304
y = ( a x + b ) e x p (‑ x / c ) で近似し 3つの係数を回帰分析より求めよう。残差平方和を最小にするため yを a,b, cで偏微分して 0 とおくと a, b, C に関する連立方程式が得られるが,非親形であるの で,初期値を与え繰り返し演算を行う。 。a 。a y / a=x.exp(‑x/c) y / b=exp(‑ x / c ) 。a y / c=(ax+b) e x p (‑ x / c ) (X/C2) 非線形回帰の場合は r e gプ口、ンージャではなく n l i nプロシージャを使う。 係数,予測値・上下 95%近似信頼限界・残差を求め,結果はデータセット d2に出力する。 proc nlin data=d1; parms a=100 b=20 c=10; ハパラメータの初期値安/ model y=(a x + b ) exp(‑x/c); ハ回帰式り 安 安 outputout=d2p=predu95m=clu95195m=cl195; /安データセット書き出しり der.a= x*.exp(‑x/c); / 安 8y/8a 安/ der. b = exp(‑x/c); / 安 8y/8b der.c=(a安x+b 安 ) exp(‑x/c)安( x /c/c); / 安 8y/8c 安/ r u n ; この結果 1 4回の繰り返しで次の値が得られた。 表 2 非線形回帰の収束の様子 i " f ; , :G a u s s ‑ N e w io n . i 。 反復 2 3 4 5 6 8 9 1 0 1 1 1 2 1 3 1 4 a 8 0 . 0 0 0 0 3 . 0 3 7 5 6 . 0 6 6 0 1 0 . 3 7 5 9 1 8 . 5 6 0 6 3 3 . 0 3 5 7 5 4 . 9 2 8 4 1 0 6 . 8 1 5 7 . 5 1 6 4 . 9 1 6 5 . 2 1 6 5 . 3 1 6 5 . 3 1 6 5 . 3 1 6 5 . 3 反復計算の段階 4 b C 1 0 . 0 0 0 0 9 9 . 7 4 7 1 9 9 . 4 9 5 9 9 6 . 8 5 5 0 91 .1 1 5 9 8 1 .0 7 7 9 6 7 . 4 8 6 2 3 9 . 3 7 2 8 2 0 . 0 2 9 2 1 7 . 8 6 0 2 1 7 . 7 8 7 1 1 7 . 7 7 0 4 1 7 . 7 6 5 4 1 7 . 7 6 3 8 1 7 . 7 6 3 4 1 0 . 0 0 0 0 9 . 8 0 6 8 7 . 1 0 9 9 5 . 9 7 0 3 4 . 7 7 8 6 3 . 7 6 9 2 3 . 0 7 7 1 2 . 2 8 9 1 2 . 1 5 9 7 2 . 1 5 3 0 2 . 1 5 1 2 2 . 1 5 0 7 2 . 1 5 0 5 2 . 1 5 0 5 2 . 1 5 0 4 N O T E : 収束基準に応じました。 J a = 1 6 5 . 3 b = 1 7 . 7 6 c = 2 . 1 5 平方和ヰ 1 2 6 0 2 7 5 1 1 8 4 7 8 . 4ふ 1 7 0 6 6 . 9 " 1 6 6 7 6 . 8 . ; . 1 5 9 7 1 . 8 1 1 4 6 0 5 . 0 1 1 2 2 4 9 . 2 i 9 2 8 7 . 5 5 4 1 3 . 4 . : . ↓ 5 3 2 7 . 1 1 5 3 2 7 . 1 1 5 3 2 7 . 0i 5 3 2 7 . 0ょ 5 3 2 7 . 0キ 5 3 2 7 . 0 l 安/ phu qJ ハ u
このデータセットにてグラフを描く。
proc gp10t data=d2;
p10t (pred c1u95 cl195 y)*x/over1ay;
5戸 n
bo11 v==
/* predを実線で*/
c=b1ue i=sp1ine 1=1;
symbo12 v=none c=red i=sp1ine 1=33;
/* c1uを破線で*/
symbo13 v=none c=red i=sp1ine 1=33;
/* c11を破線で*/
5戸 n
bo14 v=square c=magenta i=
/* y を線なしで*/
工u
n;
p
r
e
d
1
8
0
!
,
、
1
5
0 ,
1
4
0・
1
3
0:
j
ゴ
.
}
i
・
1
2
0~議"':\\
1
1
0ヨ
¥
'
:
.
,t :
1
0
0司王
'
:
¥
'
.
"
:
'
,
7
:
I
t
9
0~ J
可て'
"7"'
,
.
W
.
.
…
8
0‑
:
j :1:賓
7OH
.
.
.
.
'
l
.
日苛本
6
5o
j
:J
4
oi
r
.,.~
将
。
3
IL
'
.
.
o
i
.
.
.
l~
D
¥
三
一
九
"
̲
'
,
‑
'
.
'
t
;
j
¥
'
,
¥
棋ロ「
‑.'
門 川
2
0
1
0
f
:仁 ] 回
:
:
1
"
"
1
̲
.
.ι
̲
;
宅
u
c
吋
CO~O
t
:
t
.~
o~‘
ー
r
守門
円 一 一
,!::.
.[
.
1.:~ '
‑
;
'~:.l 口三』
門 一 ‑
門
.
.
.
.
:
>
0
:.
‑‑
.‑
.
.
:
.
.
.
.
・
.
..
̲.
謙譲尋
司
耳
泌~
1
0
1
0
2
0
3
0
4
0
x
1
図 1
1 回帰分析の結果のグラフ
グラフで、ロ印は実測値,実線は予測値,点線は上下 95%近似信頼限界を表す。しかしあまり
良い近似ではなく,特に 10<x 1<30では実測値と予測値がずれている。
1
]に載っている方法を使用した。
この回帰分析で、は [
2
.
5 クラスター分析
1
1
0
0個の天体には重複して登録されているものがあるかもしれない。それを調べるため
一3
0
6一
5
0
にa ,e , i, ω,Q,についてクラスター分析を行った。すなわちデータセットの 5変数の J 買に列挙してし、く。最も近いのは 2002TL301 作る 5次元空間における距離を求め,小さい! と 2002TB301であり, 2002TJ301,2002TD30 , 1 2 002TF301,2002TG301もそれらに 近い。これらの天体は同ーのものかもしれない。また別個の天体だとすると Eいに近距離 にあるものかもしれないが,天文学考察は割愛する。 表 3 クラスター分析の結果 榎 準 言 語 化 一一一一ークラスタ」の結合ー N C L 1 0 9 9 1 0 9 8 1 0 9 7 1 0 9 6 1 0 9 5 1 0 9 4 1 0 9 3 1 0 9 2 1 0 9 1 1 0 9 0 1 0 8 9 1 0 8 8 1 0 8 7 1 0 8 6 1 0 8 5 1 0 8 4 1 0 8 3 1 0 8 2 1 0 8 1 1 0 8 0 1 0 7 9 1 0 7 8 1 0 7 7 1 0 7 6 1 0 7 5 1 0 7 4 1 0 7 3 1 0 7 2 2 0 0 2 T L 3 0 1 2 0 0 1 X G 2 5 5 2 0 0 2 P X 1 5 2 2 0 0 3 Q F 1 1 3 2 0 0 2 P A 1 7 1 K 12 7 2 0 0 3F C L I 0 9 9 C L I 0 9 3 C L I 0 9 7 2 0 0 3 Q X 9 0 2 9 7 2 0 0 1日Y 2 0 0 1 D S I 0 8 2 0 0 2 P C 1 5 3 l l 1 2 0 0 3日Y L 10 9 5 C 2 0 0 1 F G 1 9 3 2 0 0 3日D S l 2 4 3 2 0 0 0日A 2 0 0 2 P N 1 5 3 2 0 0 2 P S 1 7 0 1 9 9 9 0 Z 3 V 31 2 0 0 2 G 2 0 0 3 8 H 9 1 2 0 0 2 C S 1 5 4 2 0 0 4 E S 9 5 1 9 9 9 C N 1 1 9 2 0 0 4 P Z l l l S l 2 0 0 3日L 2 0 0 2 T 8 3 0 1 2 0 0 1 X ロ5 5 2 0 0 2 P U 1 5 2 2 0 0 2 P K1 5 3 1 9 9 9 D F 8 2 0 0 2 F W 3 6 2 0 0 2 T D 3 01 2 0 0 2 T J 3 0 1 2 0 0 2 P V 1 5 2 2 0 0 2 C U 1 5 4 2 0 0 0 P収 日 0 8 2 0 0 1叩1 2 0 0 2 P A 1 5 3 2 0 0 2 P R 1 5 2 1 9 9 9 D N 8 2 0 0 1 F C 1 9 3 2 0 0 1 K K 7 6 1 9 9 9 C X 1 1 8 2 0 0 2 P N 1 4 7 ¥ 1 29 7 2 0 0 1日 1 9 9 9 C M 1 1 9 2 0 0 1 D 0 1 0 8 1 9 9 9 J F 1 3 2 2 0 0 1 F K 1 8 5 2 0 0 1 D U 1 0 8 2 0 0 0 C H I 0 5 2 0 0 0 S W 3 7 0 2 0 0 1 R V 1 4 3 度数 0 . 0 0 0 8 0 . 0 0 0 9 0 . 0 0 1 1 0 . 0 0 1 5 0 . 0 0 1 6 0 . 0 0 1 7 0 . 0 0 1 8 4 0 . 0 0 1 8 0 . 0 0 2 2 0 . 0 0 2 4 0 . 0 0 2 4 0 . 0 0 2 4 0 . 0 0 2 4 0 . 0 0 2 6 0 . 0 0 2 6 0 . 0 0 2 6 0 . 0 0 3 0 . 0 0 3 2 0 . 0 0 3 2 0 . 0 0 3 4 0 . 0 0 3 4 0 . 0 0 3 4 0 . 0 0 3 4 0 . 0 0 3 5 0 . 0 0 3 5 0 . 0 0 3 5 0 . 0 0 3 5 0 . 0 0 3 5 なお図 1 2は作花・中西 [ 2 ]の惑星軌道プログラム ( V i s u a l Ba s i c ) において描いたもので, 地球・天王星・海王星・冥王星とこの 6つの KBOについて黄道面に投影された軌道が描か れている。その形は a ,e , pi (=ω+Q) で決まり , aは楕円の大きさを eは偏平率を pi は楕円の長軸の方向を表す。 6個の KBOはほぼ同じ方向に集合している。 イ タ T 巧︐a ﹃υ ハHV
~軌道線 γ逆 転 γ 天動説 話盗 語講 図1 2 KBOの軌道図 KBOの軌道要素について宇宙航空研究開発機構の吉J 1 1 真氏より貴重なアドバイスを頂い たこと厚くお礼申し上げるした、いである。 参考文献 [ 1 ] 竹内啓監修 iSASで学ぶ統計的データ解析 1 ‑ 7 j [ 2 ] 作花一志・中西久崇「天文学入門」オーム社 2001 ‑308‑ 東京大学出版会 1 996
S A S Forumユ ー ザ ー 会 テュートリアル教育(情報科学演習)における 学習行動の類似性に関する定量分析 0安 田 晃 ヘ 平 野 章 二 ¥ 阿 部 秀 尚 七 中 園 秀 章 ぺ 花 田 英 輔 ぺ 津 本 周 作 倉 台島根大学医学部医療情報学講座, H 島根大学医学部附属病院医療情報部 Q u a n t i t a t i v ea n a l y s i sf o rs i m i l a r i t yo fl e a r n i n gb e h a v i o ri nm e d i c a li n f o r m a t i c sp r a c t i c e 合 A k i r aY : 田uda*, Sh 寸iH i r ano ぺHi denaoA b ♂ , Hi d e a k iNakakur 註ベ E i s 叫,e Hanada* , 合S husakuτsumo 旬合 Departmento fMedicalI n f o r m a t i c s,ShimaneU n i v e r s i t y ,Schoolo fMedicine * * D i v i s i o no fMedicalI n f o r m a t i c s,ShimaneUn i v e r s i t yH o s p i t a l 合 要旨 テュートリアノレ形式の演習で、の学習態度には各年度の共通した学習行動と固有の学習行動が 概観される.共通した学習行動は情報取得遅滞,情報の論理的提示不足などであり,固有の行 動は学習に取り組む時機の遅延,学習意欲の強弱などである.本論文はこれらを定量的に見出 し,テュートリアル形式の演習での学習行動に心理的な考察も加え分析した.演習終了時に学 9項目からなる情報科学演習評価シート(評価シート)を 生が自記した 2002年から 3年間の 1 u s s e l landRa o係数,多次元尺度構成法 ( 1 ⑪ S ) を用いて解析した.グループ学 順位相関, R 習としづ社会性を含んだ狭い空間において学生は,演習期間中には他者の行動の側面を意識し, 演習後半において自己の表出行動を示していることが主主DSより考察された. キーワード MDS,テュートリアル,セルフ・モニタリング,多次元尺度構成法 緒言 医学科 2年生を対象とした情報科学演習(以下,演習)では,テュータが与えた医学, 医療に関するテーマをテュートリアル形式の演習によって行っている.演習では,必要な 情報を検索・獲得する技能を習得すること,グソレープ学習により医療をチームで遂行する ために必要な技能を習得すること,論文の書き方,研究発表・プレゼンテーションの方法 について必要な基礎知識を習得すること,を挙げている. 演習期間中を通して学生の学習行動を概観すれば,演習後半から何らかの目的意識を持 つ傾向にあり,演習終了時には学習すべきテーマの重要性を認識しているものの,論拠の 組み立て,仮説の検定,何をどのように学習すべきかなどの観点が欠落していたことを安 ‑309
田らは報告している 1, 2 ) . しかし,これらの報告は単年度のデータを対象としているため, 経年的な学生活動の変化が比較できない上,テュータにとって学生の学習行動は一様では なく経時変化が観察されるが,定量的に観測されていない.本稿では演習を履修した 2002, 03,04年度の学生を対象として,経時変化を学生の学習行動の潜在的な解として定量的に 解析し,テュータが学習行動を概観した結果と符合しているかを検証することを目的とす る.加えて単年度の解析で得られた傾向は何らかの普遍性を有しているのか,あるいは各 年度の学生固有の学習行動に起因する傾向なのかを学生が自記した質問紙を定量的に解析 することによって検討することも目的とする. 方法 1 ) 情報科学演習 演習時間は各年度とも毎週金曜日 8時 30分から 1 1時 45分までの 180分.演習では履 修者を 1 グツレープ 4~6 名とし,テュータが与えたテーマに関してグループ学習を行った. その際,各グループ内の学生一人一人に対してテーマに関連するサブトピックスを与え, グソレープ学習とは別に個別に学習するよう指導した.各グループとも学習成果は論文に示 し,演習発表会でプレゼンテーションを行った. 2 ) 情報科学演習評価シート 学生が自記した情報科学演習評価シート(評価シート)を表 1に示した.評価シートは 東京女子医科大学がテュートリアル教育で、用いているテュートリアル評価シート 3)を一部 改変し, 19項目の質問として構成した.評価シートの回答は,はい,いいえの二者択一と した学生自身の自己評価である.評価シートは学習が終わった毎実習終了時に回答するよ , 04年はインタ う指示した. 2002年は印刷した評価シートを配布,回収したが, 2003年 ーネット上に掲載し,電子的に回収した.評価シートの回収は 2002年度が 1 0回,以下. 03年度 7回 , 04年度 8回行った. 3 ) 対象 対象は後期演習を履修した 2002,03,04年度年島根大学医学部医学科 2年生である. , 87名 , 90名であった. 履修した学生は各年度それぞれ 82名 4 ) 解析方法 ( 1 ) KuderRicherdsonの公式 20 (以下, KR'20) :評価シートのような 2値データの内 的整合性を調べるために用いた. ‑310ー
( 2 )順位相関:演習日の評価シート 1 9項目をチェック数によって 1から 1 9まで順位化 し,演習日間の相関を求めるために用いた. ( 3 )R u s s e l landRao係 数 :2項目聞の類似性を求めるため用いた.評価シートの 1 9項 目すべてに対して 152通りの係数を計算した.今回のような 2値データの場合,要 素数 4のクロス集計表が得られたとき,両項目に選択された数を集計表における 4 項目の要素の和で除した数である. 2 値データの類似性にはこのほかに種々の係数 があるが,この係数がコード化の方向に敏感であり.本研究の目的に適合している ものと考え適用した. ( 4 ) 多次元尺度構成法:評価シートの項目聞の共起性に着目し, 1 9項目から 2項目を取 り出すすべての組み合わせについて共起関係を示す 19行 19列の行列を作成,これ より各項目の空間配置を示すことを考えた.実際の解析では 19行 19列の非類似度 行列を作成し.空間配置の各座標点を固有値問題として解し、た.尚,対角要素は同 じ項目聞の非類似性となるが Oと定義した. 以上の解析は SAS8 . 0 2,S‑PLUSおよびエクセルを用いた. 結果 1 )KR‑20 各年度,各演習日で得た評価シートの KR‑20を計算したところ, 0 . 7 8 6から 0 . 9 6 4の範 囲にあって妥当な整合性が得られた. 2 )順 位 相 聞 各年度の順位相関行列を表 2に示した.直近の演習日間で見た場合, 2004年度は最終 週と前週では有意な相関とならなかった項目を除き,各年度とも演習後半にかけての直近 の演習日間では有意であった. 2003年度は特に他の年度と比べ高値であった. 3)RusselIand Rao係 数 各年度とも演習前半では各項目間に大きな差は見られなかったが.演習後半では学習 計画の時間配分,到達目標.学習項目順位付け.論理的説明などを含む組み合わせでは係 数は小さかった. 4 )多 次 元 尺 構 成 法 各年度とも演習 3週目と最終週における多次元尺構成法で得られた 2次元プロットを図 1~3 に示した.解析によって得られた stress をスクリープロットした結果, ‑311‑ 2次元目に不
明瞭ではあるが肘を見出したため,本稿では 2次元プロットした.近接している項目聞は, はいを選択した非類似性が 19 行 19 列の非類似度行列において相対的に低く,~離してい る項目は,はいを選択した非類似性が相対的に高い項目である. 各年度とも演習 3~5 週目では近接している類似性の高い項目は少なく,最終週では類 似,非類似項目が明瞭となった.特に 2003年度はその傾向が顕著であった.最終週では, 学習計画の時間配分 Ji 学習項目順位づけ Ji 論理的説 各年度とも「討論発表の時間配分 Ji 明」などが他と大きく類似性を異にしていた.更に類似項目が原点近傍に集約される傾向 にあるが, 2002, 04年度では鈍く, 03年度では密で、あった. 考察 1)順位相関, R usseIIa n dR a o係数から 対角要素を見た場合, 2003年度は前半では低値,符号が逆転するなどチェックが不安定 で、あったが,後半は高値で推移している.学習行動がほぼ一様と解釈できると思われる. 一方 2002,04年度では対角要素の順位相聞がほぼ有意となり,これらの年度では演習の 始まりから学習行動がほぼ一様となりつつあったような印象を受けるが,実際の学習態度 は異なっていた.チェック数を順位化しため,分散が順位に反映されなくり, 2002, 04 年度のような相聞の等質性が生じたと思われる.このため,具体的に評価シートの 19項 目聞のチェックした数を関数とした解析が必要となった. R u s s e l landRao係数はチェックした数を関数としている.この係数では演習前半のど 学習計画の時間 の項目間でも類似した値となっているが,後半では討論発表の時間配分 Ji 配分 Ji 学習項目順位づけ Ji 論理的説明」などの要素が特に 2003年度では大きく, 2002, 04年度でも君離した傾向を示していた.順位相関行列ではこのような傾向は知ることがで きないが, 2項目聞のこの係数を計算する際はあくまで独立した標本聞の関係を見たに過 ぎない.そこで,すべての項目の類似性を関数とした計算が必要となった. 2 )多次元尺度構成法から 評価シートの 19項目の順位関係を示した順位相関では,項目個々の特性がどのように 推移するのか分からない.そこで非類似度行列を多次元尺度構成法で解析した.演習の前 半には 2次元プロットには類似性に一定の傾向がなく,不安定な解で、あった.しかし,各 年度を見た場合ほぽ共通し,演習最終週には学習項目順位付け,討論発表の時間配分,発 展応用,学習時間の時間配分のように学習の成果を具体化しなければならない,あるいは 'EA q a ︐ ︒
大局的な見地の項目において類似性は各年度とも低く,独立していた.一方,知識の整理, 重要なテーマ,基本的事項,共通な学習項目,学習目標,他者の理解のような人が介在し 狭い範囲で演習の成果が得られる局所的な項目の類似性が高く,学生の学習行動は演習の 最終週まで広い観点を探ることが少ないまま続いていたと思われる. 継時的に見れば, 2003年度では多次元尺度構成法での解析から演習後半の早い時期から 上述したような 2相性の類似性を示すプロットを呈し,原点近傍の類似性が著しかった. その類似性は演習最終週,その前週,前々週と順位相聞が極めて高度に有意であったこと から学生の演習に対する取り組む意識は高かったと推察できる. 2002, 04年度では 2003 年度のようにほぼ 2相性のプロットを呈しているが,これらの年度の特徴としては原点近 傍にある項目が 2003年度ほど明確に密ではなく,各点が一定の距離をもってプロットさ れている.演習後半にこのようなプロットが継続して見られたが, 2003年度のようなプロ ットではないことから学習の観点が異なっていたと考えられる. 3 )学習行動の背景から これらの解析から学生は,演習初期の頃には不安定な学習態度であった.後半には 2003 年度は明確な学習意識があったものと考えられ, 2002, 2004年度は一定の意識をもって 学習していたと考えられた.そこで後半の演習に関わった心理的な背景を考察したい. Snyder4)は,個人は自己をモニターし,社会的な状況や他者の行動に基づいて適切な自己 像の維持を図る過程があると提起した.個人は感情,気分,思想,性格などの内的過程が 身体行動として表れた自己の表出行動と,自身がどのような人間で,何を考え,何を悩み, 夢見ているかなどを他者に開く自己呈示を行いながら社会的に適切なのかを観察し,自己 , の行動を統制するセルフ・モニタリング(以下, SM) としづ概念を提案した. Snyderは SM を自身が作った質問紙から個人は,自己の表出行動を変えやすいタイプと一貫した行 riggs,Cheek,Buss5)は個人の内的過程は 動をとるタイプの 1次構造を示した.しかし, B 1 次構造ではなくいくつかの因子からなる多次元的な構造を持つこと因子分析によって示 している.更に 5件法によって Snyderの質問紙を被験者とした大学生から回答を得た岩 淵らは外向性,他者志向性,演技性の 3因子を得,それらの因子に因子間相聞があったこ riggs,Cheek,Bussと同じく SMを多次元的な構造と捉えた 6, 7 ) . とより, B 我々は 2002年度から 04年度までの学生の学習行動が,演習前半においては R u s s e l land Rao係数および多次元尺度構成法から大局的な行動が取れていないことを見出した.一方, 因子解は得ていないが,他者との共同作業を行おうとする柔軟な態度,建設的貢献,学習 tEA つd つd
目標などの外向性,論理的説明,他者の理解,共通な学習項目などの他者志向性が得られ たことで,グループ学習という社会性を有する狭い空間においては,学習面あるいは人間 関係という他者の側面を確認しながら外向性を肯定的に捉え,自己の表出行動が演習の過 程で,特に後半になって積極的に表れ,そのことから多次元尺度構成法の 2次元プロット が 2相性を呈しているものと考えられた.これらの点から我々は,演習で行われた学習行 動は外向性,他者志向性を加えたいくつかの意味次元から構成されている多次元な構造と 考え,これらの構造が 2 002,0 3,0 4年度で集約の程度の強弱を有しながら,多次元尺度 構成法のプロットとなったと考えられた. 終わりに 情報科学演習における学習行動を評価シートの項目聞の類似性に着目し,解析すること によって,学生は後半になって多くの項目に関して積極的となるが,その程度は各年度で 異なっていることが定量的にわかった.その背景について SMを用い考察したが, SMで は本来個人の状態を考察することも行う.この点で本研究は,評価シートの 1 9項目のみ を対象とした類似性を考えてきたが,今後,データ行列には個人の演習に対する自己評価 も含め,多成分からの潜在的な学習行動の背景因子を抽出し,因果を明らかにすることを 考えている. 参考文献 1 ) 安田晃,柳梁真佐実,孫暁光・他:自主学習における学生の学習態度に関する数量 化.医療情報学 2 000,20:287・ 294 2 ) 安田晃,柳柴真佐実,孫暁光・他:自主学習における学生の自己評価の変動に聞す る解析.医学教育 2 001,32:6 9 ‑ 7 5 3 ) 東京女子医科大学テュートリアル委員会:テュートリアル教育.篠原出版,東京, 1996,7 7 ‑ 8 6 4 ) Snyder ,M:S e l f ‑ m o n i t o r i n go fE x p r e s s i v eb e h a v i o r .J PersonahtyandS o c i a J 9 7 4,3 0 :5 2 65 3 7 PsychoJogy1 ・ n a l y s i so fs e l f ‑ m o n i t o r i n gs c a l e .J 5 ) B r i g g s SR,CheekJM,Buss AH: An a PersonahtyandS o c i a JP s y c h o J o g y .1 9 8 0,3 8 :6 7 9・686 6 ) 岩淵千明,田中国夫,中里浩明:セルフ・モニタリング尺度に関する研究.心理学 ‑314‑
研究 1 9 8 2,53・5 4 ‑ 5 7 7 ) 岩淵千明:自己表現とパーソナリティ.対人行動学研究シリーズ誠信書房,東京, 1996,5 3 ‑ 7 5 表 1 情報科学演習評価シート 学習対象の取捨選択 l )抽出した学習項目を重要度にしたがって順位づけできたか. (学習項目順位付け) 2 )グループ全員に共通な学習項目を設定できたか. (共通な学習項目) 3 ) 自分独自の学習項目を設定できたか. (独自の学習項目) 4 )基本的な事項を学ぼうとしたか. (基本的事項) 5 )発展的・応用的な事項を学ぼうとしたか. (発展応用) 学習計画の立案と実行 I )学習目標ごとに自らの到達目標を設定できたか. (学習目標) 2 )学習計画の時間配分は適切であったか. (学習計画の時間配分) 3 )問 題 を 解 決 す る た め の 具 体 的 な 方 法 を 見 い 出 せ た か ( 具 体 的 方 法 ) 4 ) 自己学習に十分な時間と努力を注いだか. (自己学習) 5 ) 自分が設定した到達目標を達成できたか. ( 至1 1 達目標) グループ学習上の態度 l ) 自分の考えを簡明かっ論理的に説明できたか. (論理的説明) 2 )他者の考えを理解しようと努めたか. (他者の考え) 3 ) 自分の考えと異なる意見に対しても柔軟な態度がとれたか. (柔軟な態雇) 4 )討論や発表の時間配分に留意したか. (討論発表の時間配分) 5 )グループの一員として問題解決への建設的な貢献をしたか. (建設的貢献) 表 2 各年度の演習日間の順位相関行列 2002乏芋居王 1丑量目 2主恩目 3丑重自 4茸量目 日昼目 6辺霊巨 盛田 7; 8; 恩目 9茸量目 厘目 10; 1j園田 厘目 2; 3韮霊目 4茸霊目 5丑宣目 6丑霊目 7占恩目 8迂童目 9韮霊目 0.766 0.499 0.518 0.658 0.621 0.446 0.666 0.451 0.470 0.620 0.636 0.764 0.740 0.686 0.610 0.610 0.708 0.625 0.705 0.737 0.497 0.647 0.787 0.768 0.585 0.548 0.843 0.680 0.313 0.567 0.766 0.627 0.785 0.646 0.853 0.630 0.707 0.711 0.790 0.621 0.400 0.662 0.459 0.752 0.757 B丑霊目 土~週目~週目 0.685 0.605 0.512 0.560 0.318 2004~手居王 1j墨田 1占厘自 2丑室目 3辺童目 4占星百 5茸霊目 6主恩自 7; 庖目 8茸宣 Eヨ 0.972 0.817 0.786 0.713 0.762 0.568 Lー 0. 422 0.682 1 0.847 2茸量目 3~ 目 4王室自 5週 目 6占星目 7主恩目 0.836 0.796 0.771 0.714 0.498 0.476 0.848 0.822 0.812 0.647 0.577 0.473 0.584 0.580 0.457 0.770 0.473 0.464 0.584 0.310 0.333 10主恩目 内喝υ p h υ
3 発展応用 • 2 具事的方法 学習項目順位付け • 討論発表の時間配分 ‑ 4 ‑ 3 ‑2 • • 自己学習 . 到達目標 重要なテーマ • 2 3 4 3 4 学習計画の身間配分 柔軟な態度・ 2 3 3 学習項目順位がけ • 2 学習項目の抽出 • 論理的説明 . 重要なテーマ ‑発展応用 学習目標 色の学習項目 ‑ 4 ‑ 3 l r . . . ̲.発想連想 ‑2 設的貢 寸 2 討論発表の時間年分 .学習計画の時間配分 .柔軟な態度 ~IJ達目標 ‑ 2 ‑3 図 12002年度の演習 3週固と最終週の多次元尺構成法によるプロット ‑316‑
3 2 知識~整理 1態度 柔軟 ‑ 4 ← 3 2 2 3 4 独自の学習項目 他者名理解 ー2 基本~事項 3 3 2 車習項目 l 順位づけ ‑ 2 ‑3 ー4 3 2 討論発表の時間配分 • ー2 学習計画の時間配分 • 3 ‑ 4 図 22 0 0 3年度の演習 3週目と最終週の多次元尺構成法によるプロット 4 υ a 内ミ 巧 ︐
3 2 , T t 著者の理解 具体島方 1 発想連想 弓子自 J明 国 u; す出口コ 基本的事. 項 量 関 4 ‑3 ‑2 、 一 2 学習項習目副目直位付け 学 標 3 4 3 4 主軟な態度 建守主的貢献 独.自の学習項目 言通な学習項目 ー2 ‑ 3 3 2 学習項目の抽出 自己学習 ー4 ‑ 3 ‑ 2 知識の整理 r 討論発表の時間配分 • 理的説明│ 学習事目順位付け ‑ 2 到達目標 • 学習計画の時間配 • 図 32 004年度の演習 3週目と最終週の多次元尺構成法によるプロット 318‑
ポスターセッション 統計解析
S A S Forumユ ー ザ ー 会 S A S / S T A T R G L Mプロシジャの演習* E x c e l表示応答分解 0柴山忠雄 (前所属・名古屋市工業研究所) Exercisesp r a c t i s i n gSAS/STATRGLMprocedure* ‑Analysiso fresponsei nMSExcel‑ TadaoShibayama l l n d u s t r i a lResearchI n s t i t u t e ) ( R e t i r e d : NagoyaMunic恥a 己日 要 S A S R、ンステムのプロシジャは利用者指針,技術資料,関連図書などに個別の詳細な説明があり使いやす い特色がある.標題のプロシ、ジャは. S A S Rシステムの統計月勃庁手I J 買の中心であり,その説明も完備している が,組み合わせ配置,枝分かれ配置,試行の重複・省略・欠測,想定効果成分・想定効果要素の追加および 除去,など,いろいろの模型に数多くの変数と複雑な数式とを組み込むから「演習」が重要である.まず, i c r o s o f tRE x c e l動作指令言語の V B A表現の連鎖として追跡するために,標 組み合わせ配置で、の応答分解をM 準的な E x c巴l 作業面 1枚 ( 6 5 5 3 6 行x 2 56 3 '1 j ) を 3 0 0行づつの作業域に区分し,個別に入力,中間または出力の 演算値行列を置き,その一つから他の一つを得る計算手順を四A表示で記述した正準制約と端点制約との 比較,効果成分の順次追加 ( T y p e1S S )・部分除去 ( T y p eI IS S ) . などを実算でき,計算原理も見やすい. キーワード: S A S / S T A T RG L Mプロシジャ 正準制約式端点制約式推定可能関数 M S RE x c e lV B A表現 ‑研究の目的 A S Rシステムが始まってから 30年間を超える今もその統言十角材庁手順の中心であり続 このプ口、ンジャは. S け. S A S Rシステムの直接の利用者以外にも広く影響をおよぼし,重要性はすこしもかわっていない. その数理はS A S Rシステム 9S A S / S T A T R 利用者指針までの各版 [ 1 ] .S A S R技術資料R 一1 0 1[ 2 J . ほか [ 3 Jに詳 細に説明されているが,さまざまの模型の中に数多くの変数と複雑な数式とを含む. しかも,要因配置実験 の結果解析の一般的な説明には. S A S Rシステムより以前に,どれにも同じ事情があり,細部の追跡には努力 を要する[4 ] . 単に,数式の変形の連鎖をたどるほかに,計算手I J 自の操作 1つ 1つを動作指令言語の表現の I は大きい. 連鎖として追跡すれば,確実な理解が得られるはずであり,その意味での「演習」の儲J このために部分的に利用できるのは組み合わせ配置での応答分解明l 国の F O r l TR A N 7 7表示 [ 5 J[ 6 Jであるが, 各種の行列を 1次元シーケンシャルテキストファイルとして読み込み/書き出す不便があり,実用的には利 用しづらい.これを M i c r o s o f tRE x c e l表示 [ 9 Jに書き直せば,演算の段階ごとに,入力,中閉または出力 B A手I J 買とともに,見やすく表示できる. の演算値行列を,計算機の画面の上に,実際の形のまま,背景の V x c e l作業面 1枚 ( 6 5 5 3 6行x 2 5 6列)を 3 0 0行づつの作業域に区分し,個別に入力,中間または出 標準的な E 力の演算値行列を置き,その一つから他の一つを得る計算手順を V B A表示で記述すると,計算結果・計算目 的・計算原理を一覧できる.計算内容の詳細が明確になり,このプロシジャの活用が促進される. * E n g l i s hh a n d o u ta v a i l a b l e . 3 2 1ー
. E x c e l作業域の記号/番号づけ・計算手順 S u bx x x O の名前づけ R 現在の M i c r o s o f t E x c e l( 2 0 0 2版など)を起動すると,通常,計算機の画面に「作業帳J 1冊の画像が 現われ i B o o k J と名づけられる.作業帳 1冊は「作業面J 3枚から作られており,それぞれ i S h e e t1 J (作業面 1 ), i S h e e t 2 J (作業面 2 ), および, i S h e e t 3 J (作業面 3 ) と名づけられる.画面の指標を作業面の指掛けに合わせ打鍵すれば任意の 1枚が最前面に表示される. 原始状態の作業面 1枚は表計算のための 6 5 5 3 6行 X256 列の i C e l l J (桝:マス)に区切られている. どの部分を計算作業に用いるかは計算機画面の中で、作業面を動かして任意に選らぶから,長尺の巻紙を使 う感じとなる.作業面を全長よりもはるかに小さな固定長の作業域に区分し,任意に 1つづ、つを選らんで使 えば,わずらわしさをし、くぶん軽減できるかもしれない.行列計算では行列の幅を作業面の横幅 (256~JJ)が 制限すると考えて,固定長を 3 0 0行とし,作業域 1つをほぼ正方形とすれば,転置演算に便利である. 作業帳に 3枚より多くの作業面を生成させると番号づけおよび計算手順 i P r o c e d u r e J S u bx x x0 の名 前づけがめんどうになり V i s u a lB a s i cE d i t o rの索引部分の表示を整えるために相当の熟練を要する. そこで, 1 )原始状態の作業帳を使い,作業面 1枚を固定長 3 0 0行づつの作業域に分割し, M i c r o s o f tR E x c e lV B Aの動作指令言語により,各々の作業域の末尾の「区切り行」を画面上に見やすく表示する. 2 )作業域ごとに区切り行とは別に「基準行J 1行づつを設定する.各々の作業域には行番号の昇順に作業 域番号z z( = 0,1 , … ,2 1 8 )を与え,その3 0 0 倍( = z z * 3 0 0 )を基準行の M i c r o s o f tRE x c e l絶文折子番号とする. 画面では基準行の上に M i c r o s o f tRE x c e l絶対列番号を表示する.この表示は M i c r o s o f tRE x c e l絶対列 記号 ( A, B , … ,Z , A A, A B, … ,I V ) を補足する.これは設定変更による表示切り替えよりも便利である. さらに, 3 )基準行番号を数値で指定するかわりに基準行記号(呼出符号)を定め, M i c r o s o f tRE x c e l V B A動 作指令言語の中で用い,作業域記号としても用いる.関連する計算手順 i P r o c e d u r e J の名前 S u bx x x0 に も用いれば, V i s u a ls a s i cE d i t o rの索引部分の表示が整えられ,使い勝手が格段によくなる [ 9 J . たとえば i S h e e t 1 J (作業面 1 ) を作業面記号s 1で、表わし,その中で、基準行記号z A 1 (基準行番号3 3 0 0 )に 対応する作業域を作業域記号s 1 z A 1 で表わし [ 9],つぎの表示で i C e l l J (桝)の任意の 1つを指定する. C e l l s ( z A 1+ 1 0+j r,5+ i t ) ( 1 ) 括弧内の前の数値 z A 1 +1 0+j rは桝の行番号であり,後の数値 5+ i tは桝の列番号である.行番号 A 1 は作業域s 1 z A 1 の基準行の行番号(=3 3 0 0[ 6 J )を表わす.式(1)の桝はその基準行を相支折子 の中の数値z 番号 0として数えた相実行子番号 1 0の行の直後の行(基点行)から j r番目の行にある.また,絶対列番号 で指定される列5を相対列番号 0としてその直後の列(基点列)から数えた l t番目の列にある. 数値 j rを仮に 1 8 とし,数値 i tを仮に 1 1 とすると,式(1)は行番号3 3 2 8,そして, ~IJ番号 16 の桝を 指定する.数値 j r と数値 i t とを変化させてさまざまの桝を指定し,行番号 z A 1+ 1 0+ 1,そして,列 番号 5+ 1の C e l l s( 3 3 1 1,6 ) (基点桝)から下・右方にひろがる行列の要素の各々を指定できる. ・処理行列(実験配置)の入力 このような準備を行なった上で,たとえば,作業域s 1 z 1 (基準行記号z 1,基準行番号3 0 0 ) に処理行列を 入力する.いわゆる田口直交表なども処理行列の例であるが,ほかの処理行列も取り扱う必要がある. そこで,この作業帳の V i s u a lB a s i cE d i t o r計算方案 i P r o j e c t J を仮に A N O R E . x l s と名づけ,その M o d u l e J の中に計算手順 i P r o c e d u r e J S u bs 1 z 1 ( ) を書き,これを実行して作用させると作業 計算単元 i 面に処理行列の見本が現われるようにし,これに手書きで上書きして任意の雪却E に用いることにする. これまでに試作した計算方案(作業帳) A N O R E .x l s の計算手. ) 1 慣 S u bs 1 z 1 0 では基点桝 C e 1 1 s ( z 1+ 1 0+ 1 ,5+ 1 ) すなわち C e l l s ( 3 1 1,6 ) から右下にひろがる領域 C e l l s( z 1+ 1 0+ i r,5+i q ) ( i rニ 1 ,…, i h, i qニ 1 ,…, i u ) ( 1 a ) に処理行列(の見本)を生成させている.ここで,括弧内の変数 i r( =1 ,…, i h ) は試行番号であり, 変数 i q( =1 ,…, i u ) は要因番号であり,処理行列は試行数(行数) i h X 要因数(列数) i uの行列と なる.前子 lr の中で要因 i qに与える水準値(処理水準) 1 tが式 ( 1 a )の桝に入って行列要素となる. この見本の上にほかの処理行列を上書きす石 e,作業帳 A N O 肥.x 1 sに自動的にこの作業域s 1 z 1が記憶さ れ,さらにつぎの処理行列を上書きするまでは,以後の計算手順はこれを参照して作業を実行する. ‑322一
処理行列が見本よりも右方または下方に大きくてもノトさくても上書きでき,任意の配置を指定できる. 0 )に指定し(記号 z ),要因 i qの拘束 ( f ) ・無視 ( n )も指定す なお,処理行列の右端(外)の列を行 ( z l+1 る.また,処理行列の下端(外)の行を列4に指定し ( z ),前子 i rの拘束 ( r )・欠測 ( m )も指定する. ・効果成分目録(構造模型)の入力 つぎに,計算手順 i P r o c e d u r e J S u bs l z 2 ( ) を書き,これを実行して作用させると作業面に効果成分自 録の見本が現われるようにし,やはり上書きして用いる.試作した計算手順 S u bslz20 は基点桝 0+1 ,5+ 1 ) すなわち C e l l s ( 6 1 1,6 ) から右下にひろがる領域 C e 1 1 s ( z 2+ 1 C e l l s( z 2+ 1 0+n s,5+m t ) ( n s=1 ,…, n h, m t=1 ,…,耐) ( l b ) =1 ,…, n h ) は想定効果成分に任意に与えた順序番 に効果成分目録(の見本)を生成させる.変数 n s( 号であり,変数 m t( =1 ,…,耐)は想定効果成分一つご、とに含まれる活動要因に任意に与えた順序番号 である.この目録は想定効果成分の総数(行数) n h X 最大活動要因数(列数)mhの行列である.想定効果 成分 n sの活動要因 m t (番目のもの)の要因番号 i qが式 ( l b )の桝に入ってその行列要素となる. この効果成分目録の背景には試行の重複または省略のない,また,応答に誤差も揺動もない,思想的な組 み合わせ完全配置が仮定されている.また,数多くの効果成分のうち,階数(要因数)の大きい複数要因交互 作用成分の大多数のものは,先験的に,そして,恒等的に,桐生しないとする拘束式が仮定される. それぞれ経験的,探索的,または,理論的な立場からの予想(作業仮設)であり,結果的に,ごくわずかの 想定効果成分のみが構造模型に組み込まれる.効果成分目録は想定効果成分を列挙しており,処理行列は試 行の重複または省略を伴なう実施配置を指定する.この配置の上での応答測定値から,その構造模型に基づ いて,残差平方和を最小にする条件のもとで,想定効果成分を推定するのが「応答分解」の目的である. ・計画行列の生成,規準行列・規準応答行列の算定,正準行列・正準応答行列の算定ほか 処理行列を作業域slzHこ入力し効果成分目録を作業域s l z 2 (こ入力すると,そのあとは,ほとんど自動的な 作業となる.表lに示されている系列 ( S t r e 訓)の流れの通り,つぎつぎに計算手順を発動させてゆく. 臥N 7 7表示による作業と異なり,演算値行列を M S RE x c e 1の演算画面上で直接に観察でき, なお, F O R T ほとんど同時に,演算手順の内容を背景の V i s u a 1B as i cV B Aの画面で磁Z 認できる利益は大きい. ただし,各々の計算手[ J 債の内容はすでに F O R T R A N 7 7表示で書かれているもの ( [ 5 J,表・ 5,ほか)と基 本的に同じである.それに表lも基づいており,最初の入力作業は系列 S t r e a m1の部分に相当する. つぎに,処理行列の画面を整理し,配置の含む要因水準値の目録を整備し,また,応答測定値i 必ぺクトル に作用する単位行列を生成させる.これが系列 S t r e a ml ̲ k,S t r e a m1 ̲ 1 または S t r e a m1mである. 生成させた単位行列を応答測定値紙台くクトルに作用させ,その状態でこのソフトウェアの計算手順をその 単位行列に作用させ,結果の行列を任意の応答誕たくクトルに作用させて,一般の演算を実行する. 系列 S t r e訓l̲ k,S t r e a m1 ̲ 1または S t r e a ml ̲ mは,それぞれ, k )試行に拘束・欠測のない場合, 1 )拘 束のある場合,および, m )拘束・欠測のある場合に対応する.処理行列の行に拘束記号 ( r )・欠測記号 ( m )を つけてその試行を排除した場合の影響をあとで観察するための区分であり ( F O R T R A N 7 7表示 [ 5 J[ 6 Jでは区分し ていなし、),系列 S t r e a m2,また,表2の系列 S t r e a m2 ̲ k,S t r e a m3 ̲ k,などに受け継がれていく. このソフトウェアの中心部分は表2であり, 1 )計画行列の生成, 2 )規準行列・規準応答行列の算定,およ び , 3 )正準行列・正準応答行列の算定,対角要素法による応答・効果要素変換行列の決定,そして,推定応 答行列・推定残差行列の決定までを含む.作業の実行は容易であり,試行の拘束 ( r ) ・欠測 ( m )により演算値 行列に生じる変化を直接に観察でき,配置の良さが崩れていく様子と配置選択の必要性とを実感できる. しかし,試行の拘束 ( r ) ・欠測 ( m )から発生するさまざまの結果を見通しよく簡潔に整理することは意外に 困難である.この 3つの系列の区分は最小限の要約で、あるが,すでに,作業面 S h e e t 1 の作業域のかなりの 数を使っている.拘束 ( r,r 1…)・欠測 ( m,m 1…)の区分を増せばこのソフトウェアは使いづらくなる. さらに, 1 )試行の拘束 ( r )・欠測 ( m )のほかにも, 2 )要因の拘束 ( f )・無視 ( n ),3 )効果成分の拘束 ( c )・除 去( e ),また, 4 )効果要素の除去 ( u )・欠落 ( a )があり,逆に,追加の可能性も考えると,問題は大きい. その中の計算手順一つ一つの作成・実行が容易であるのに比べて,その全体の困難はあまりに大きい. このソフトウェアの実状を見ると,応答分解の代数的な問題点はほぼ解決されており,統計的な検定・推 り lu qd qd
定への接近も容易になっているが,配置・構造の変化に伴なう実際問題が浮かび上がってきている.これに A S / S T A T RG L Mプロシジャが必要になる. 対処するためには,このソフトウェアをはじめ,その延長上のS 同時に,このような実際問題に,いわゆる,わかりやすい,使いやすい,単一の,実務的なソフトウェア で対処しようとすることは,現状では,ほとんど,絶望的であることも判明する.主効果問題に限定してそ の種類のソフトウェアを組み立ててみても,背景の思想が整理されて把握されないと混乱を生じる [ 7 J . 通常の生産現場の実際課題の解決を取り扱う立場からすれば,理解が不十分のままで数理的な技法の使用 にかたよることは決して得策ではなく,むしろ,古くからの経験積み上げ方式が有効であり必要である. .FORTRAN77表示の応答分解ソフトウェア [ 5 J[ 6 Jに必要な訂正点 i s u a lB a s i cE d i t o r の索引部分に表示される計算手順の各々は F O R T 臥N 7 7表示の このソフトウェアの Y 5 J[ 6 Jの計算手順の各々とほぼ同じものである. M i c r o s o f tRE x c巴1Y B A の動作指 応答分解用ソフトウェア [ 令言語による表示への書き換えは容易であり,変数・演算値行列などの名前もほぼそのまま利用できる. しかし,対角要素法の実行にうつるまでの式の変形の問も,行列の実形を常に見ることができたから,計 算原理の上でこれまで見落としていた認識を得て,それに関係のあるいくつかの計算手順を訂正できた. その部分の変数・演算値行列などは名前も変更しており,表 lおよび2 と表・ 5[ 5 J とは内容が異なって いる.その部分については F O R T R A N 7 7表示応答分解ソフトウェア肌O R E[ 5 J[ 6 J の訂正が必要である. n r m( 表2 ,Z o n巴 s l z S l )の 訂正の内容はつぎの通りである.規準方程式の各項の係数がつくる規準行列 l 対角要素とその行列の第 1列の要素(すなわち一般平均の係数)とは常に等しし、から,それぞれの行の要素 をその行の対角要素で害1 1 って単位化すると,その対角要素が 1になると同時に,その行の第 1列の要素も 1 になる.ここで,第 1行を各々の行から引くと,自動的に,第 1~11 の要素は,第 1 行を除き, 0となる. F O R TR A l ' i7 7表示のソフトウェアで、は [ 5 J[ 6 J,単純でおありながら重要なこの事実を見落としており,各々の 行の中で要素に正準制約式をあてはめてから,その結果の行列要素に,さらに,各々の列の中で正準制約式 をあてはめていたが,その必要はない. しかも,そうして最終的に得られる効果要素が「結果的に」正準制 約式を満たすと判断することは r 結果的に」間違いで、はなかったとしても,論理的には意味がない. その無用のあてはめが排除されて,言わば 2重の,そのあてはめをしなくても,対角要素法によって最終 的に得られる効果要素について,正準制約式が成り立つことを直接に確認できることの意味は大きい. .対角要素法を整理することによる改良点 この訂正を行なうことに伴なって,対角要素法も,整理が徹底し,その数理が鮮明になる. 規準行列 l n r mの対角要素とその行列の第 1列の要素(一般平均の係数)とが常に等しし、から,それぞれ 1 1 の行の要素をその行の対角要素で、割って単位化すると,その対角要素が 1になると同時に,その行の第 1ヲ の要素も 1になる.ここで,第 1行を各々の行から号 l くと,第 1列の要素は,第 1行を除き, 0となる. この行列を仮に正則規準行列と名づけ,その各々の行を新らしい対角要素で、割ったものを仮に単位化正則 n r c( 表2 ,Z o n巴 s l z B 5 ) と名づける.これを単位行列から引くと逆規準近似行列 a d r h( 表2 , 規準行列 o Z o n es l z B 9 ) が得られ,別に求めた逆規準補正行列 o d q n( 表2 ,一時的に Z o n es l z T 9 ) を掛けて,逆規準 d r c( 表2 ,Z o n es l z C l ) を得る.これは角勃庁的に単位化正則規準行列 o n r cの逆行列に等しい. 行列 u この逆規準行列 u d r c を,単位化正則規準行列 o 口r c と同時に求めた単位化正則応答行列 o n r s( 表2 , Z o n es l zTl)に掛けて,応答・効果要素換算行列(逆規準応答行列) u d r s( 表2 ,Z o n es1 z C 5 ) を得る. これから推定応答行列 r l r uおよび推定残差行列 r l r dが容易に求められる(表2 ,S t r e a m3 ̲ k ). 最小残差平方和の方法の数理から推定応答行列 r l r uの列と推定残差行列 r l r d の列とは直交することが 示される. したがって,推定応答行列の列の全部がたがいに 1次独立であれば推定残差行列のどの列も 0と なる.また,推定残差行列の列の全部がたがいに 1次独立であれば推定応答行列のどの列も 0となる. 推定残差行列の列のいくつかが Oでないとすれば,推定応答行列の列の全部がたがし、に 1次独立であるこ とはない.また,推定応答行列の列のいくつかが 0でないとすれば,推定残差行列の列の全部がたがし、に 1 次独立であることはない.推定残差行列の行列式は常に 0になり,その逆行列は一通りには定まらない. 推定残差ぺクトルには,確定的な効果成分は含まれず,確率的な揺動成分の標本のみが含まれるが,この 事実があるために,推定残差ぺクトルから確率的な揺動成分の標本の個別の真値が求まることはない. ‑324‑
表l応答分解ソフトウェアの計算羽慣の系列・ 一 処麿子列・効果戒分目録の入力およひ警理 S t r e a ml ̲ m̲S o m er u nr e s t r a i n e do rm i s s i n g S t r e a m sa n dP r o c e d u r e so fS o f t w a r eA N O R E . x l s . r u na l m o s ts e q u e n t i a lI ya ss h o w nb e l o w . S u bs l z 7 ( ) /Z o n es l z lR e w r i t t e n Z o n es 1 z 7 k .i u ‑ ̲ N L ̲ m n m( 1i .i q )ー I ‑N u m b e r ( n m )o f( I i ) t hl e v e l so f( i q ) t hf a c t o r i n v o l v e di nt h et r e a t m e n t sm a t r i x FROM: S t r e a m1 ̲ 1 >>ーー n p u tT e m p l a t e s 1a n d2 S t r e a m1一 I ーーーーー ーーーー S u bs 1 z 7 a O /Z o n e ss l z l .s 1 z 7 Z o n es l z U l h .i u ‑ ̲ L T I t r t( ir .i q )ー i ‑T r e a t m e n t sm a t r i xp a r a m e t r i z e da n dc o m m e n t e d d a t as u p p l e m e n t e dw i t h o u tc o m m e n t sa d d e d S u bs lz l0 Z o n es lz l /I t r t ( i r .i q )ー i h .i u 一 L T ー T r e a t m e n t sm a t r i x( I n p u tT e m p l a t e1 ) ‑L e v e1 ( 1tr t )o f ( i q ) t hf a c t o ri n( i r ) t ht r e a t m e n t ;w i t h u R o w 4k k /k k( i q )ー i ‑N u m b e r ( k k )o fl e v e l s b a s i c a lI yp o s t u l a t e do fe a c hf a c t o r ( i q ) S u bs 1 z 7 b O /Z o n e ss l z l .s 1 z 7 Z o n es l zT 7 h .i h ‑ ‑ K ̲ m 1 r s n ̲ m( ir .i t )ー i I d e n t i t ym a t r i xf o rr e s p o n s ec o l u m nv e c t o r 一一ーーーー S u bs 1 z 2 0 /Z o n es l z l Z o n es 1 z 2 i q ( n s .m t ) ‑n h .m h ‑ ‑ C T ‑A c t i v ef a c t o r sl i s t( I n p u tT e m p l a t e2 ) ‑F a c t o r ( i q )1 i s t e da s ( m t ) t hf a c t o ri n( n s ) t ha c t i v ec o n t r a s t ーーーーーー ー T O > >S t r e a m2 S t r e a m s1 ̲k .1 ̲ 1a n d1 ̲1a b o v e .r e s p e c ti v e1 y . a r ef o rc o m p a r i s o no fe a c ha r r a n g e m e n t s w i t h o u to rw i t hr u n sr e s t r a i n e do rm i s s i n g . ー ーーー T O ・>>S t r e a m1k o r > >S t r e a m1 ̲ 1 o r > > S t r e a ml ̲ m S t r e a m2 S t r e a ml ̲ k̲N or u nr e s t r a i n e do rm i s s i n g F R O M S t r e a m1k>> o r S t r e a m 11> > o r S t r e a m1m>>ーーーーー一一一一ーーー F R O M S t r e a m 1> > ーーー一一一ーーーーーーーー S u bs l z 9 ( ) /Z o n es 1 z 2R e w r i t t e n Z o n es 1 z 9 i q ( n s .m t ) ‑n h .m h ‑ ‑ C T ‑A c t i v ef a c t o r sl i s tp a r a m e t r i z e d/c o m m e n t e d ‑F a c t o r ( i q )l i s t e da s ( m t ) t ha c t i v ef a c t o ri n( n s ) t hc o n t r a s t S u bs l z 5 ( ) /Z o n es l z lR e w r i t t e n Z o n es 1 z 5 k .i u N L ̲ k n k( 1i .i q )ー 1 ‑N u m b e r ( n k )o f( I i ) t hl e v e l so f( i q ) t hf a c t o ( t h a ti n v o l v e di nt h et r e a t m e n t sm a t r i x S u bs 1 z 5 a O /Z o n e ss l z l .s 1 z 5: Z o n es l z U l h .i u ‑ ‑ L T I t r t( ir .i q )ー i ‑T r e a t m e n t sm a t r i xp a r a m e t r i z e da n dc o m m e n t e d S u bs 1 z 9 a O /Z o n e ss l z U l .s 1 z 9 Z o n es 1 z U 2 jr .i q )ー j h .i u ‑ ̲ L C I c r m( ‑E f f e c t ‑ e l e m e n t s1 i s t 一L e v e l( I c r m )o fa na c t i v ef a c t o r ( i q ) i n( j r ) t he f f e c t ‑ e l e m e n t w i t h .1 .m )o ft r e a t m e n t st h a t ‑N u m b e r( r r x . x=k c o n t a i n i n g( j r ) t he f f e c te l e m e n t jr ) ーj h r r l( jr ) ーj h r r m( jr ) ーj h r r k( S u bs 1 z 5 b O /Z o n e ss l z l .s 1 z 5 Z o n es 1 z T 5 h .i h ‑ ‑ K ̲ k 1 r s n ̲ k( i r .i t )ー i ‑I d e n t i t ym a t r i xf o rr e s p o n s ec o l u m nv e c t o r s ー ーーー T O > >S t r e a m11 o r > > S t r e a m2 ーーーー T O・ > >S t r e a m2k o r > >S t r e a m2 ̲ 1 o r >>Stream2 ̲ m S t r e a m1 ̲ 1 ‑S o m er u nr e s t r a i n e db u tn o tm i s s i n g F R O M: S t r e a m1k>>ーーー ーーーーーーーー S u bs l z 6 ( ) /Z o n es l z lR e w r i t t e n Z o n es 1 z 6 k .i u ‑ ‑ N L1 n l( 1i .i q )ー 1 ‑N u m b e r ( n l )o f( I i ) t hl e v e l so f( i q ) t hf a c t o r t h a ti n v o l v e di nt h et r e a t m e n t sm a t r i x 裁応答分解ソフトウェアの計算羽田の蒋 [ J :部 断 S u bs 1 z 6 a O /Z o n e ss l z 1 .s 1 z 6 Z o n es l z U l h .i u ‑ ‑ L T I t r t ( i r .i q )ー i ー T r e a t m e n t sm a t r i x( Z o n es l z U l )ー d a t as u p p l e m e n t e dw i t h o u tc o m m e n t sa d d e d S t r e a m s2 ̲ ka n d3 ̲ ko n l ya r es h o w nb e l o w :o t h e r s f o rc a s e sw i t hs o m er u nr e s t r a i n e do rm i s s i n g a r eo m i t t e dh e r e . T h ed e s i g nm a t r i xi sb u iI t a n dt h er e s p o n s ec o n t r a s tc o n v e r s i o nm a t r i xi s w o r k e do u t .a n dr e s i d u e sm a t r i xi sc a l c u l a t e d . ~[防生成と応答対出鱒行タ[J. 残留予[Jの算出 死四予J [ の 前. 1 1こ衿凍・欠糊2なし場合 S u bs 1 z 6 b O /Z o n e ss l z l .s 1 z 6 Z o n es l z T 6 h .i h ‑ ‑ K ̲ I I r s n ̲ 1( i r .i t )ー i ー I d e n t i t ym a t r i xf o rr e s p o n s ec o l u m nv e c t o r ー ー ー ー T O S t r e a m2 ̲ k̲N or u nr e s t r a i n e do rm i s s i n g > >S t r e a m1m o r > > S t r e a m2 F R O M S t r e a m2>>一一一一一一ーー一一一一 一 qJ Fυ 円 ηL
ーー ーーーーー 一一一一‑ Z o n es 1 z U 6 o d r n ̲ k( jr ,j t )ー j h, j h ‑‑ Z ̲ k ‑T h e n n( := n ) t hp o w e r e d s q u a r e dn o r m a lo f f ‑ d i a g o n a l matrix t h a ti sm u l t i p li e db yB ̲ ka st o give t h e n n+ 1 ( := n+ 1 ) t hp o w er e d s q u a r e dn o r m a lo f f ‑ d i a g o n a l matrix t ob es h o w ni nZ o n es 1 z U 7 subsequently ーーー 一一ーーーーー一一一 Z o n es 1 z U 7 R e a d yt or e c e i v ea n dt os h o w jr , j t )ー j h, j h ‑‑ Z ̲ k o d r n ̲ k( ‑T h e n n( ・ = n+ 1 ) t hp o w e r e d s q u a r e dn o r m a lo f f ‑ d i a g o n a l matrix a sP r o c e d u r eS u bs 1 z C 1 a ( )r u ni t e r a t i v e l y s h o w i n gt h e maximum absolute magnitude o ft h ee l e m e n t odrn̲k a s m a x! r n ̲ k ! t h a tg u i d e st og ot o Procedure S u bs 1 z C 1 b ( ) S u bs 1 z 9 b 10 / Z o n e ss 1 z U 1, s 1 z U 2, s 1 z 9 Z o n es 1 z S 1 I d g n ̲ k( ir , j t ) ‑i h jh ‑‑ D ̲ k, Design matrix 目 円 ‑ T E ' ‑ AU 7 ι ‑ ﹄ ' 'qu l u n ‑FQ 守 ︑ nu 円 H ρv nH nu ι ' 阿 rhu'H ρv nH nu ヲ'﹄ ヲ L l u R 4l‑ UUUHHU eo‑ ‑ ‑utnHVA ﹄ 一 ︑ quLnH+L ・l J a ρvm 川 nH nu 白 し 1JFQ 守 +LnH ι ' r'J11nu 1( 内じ Z・ ﹂ ・ 1 T7E12︐ 1VA . ︑ 肉 1 r ‑ ‑ L po'&1L 1 ' r LnH2U 5・﹂ m ︑ ρ ν H‑11 門 nU2u ﹃ 1 J m川 +Lγ ﹄ ι ' z・ r'J lJnu nH t eG 4 1﹄ ︐f n ν V ﹄ eGγ ﹄ Vl H 門 nu 一 ﹂U l l M N HU ︑ nu ︑1Jeepo ) S (﹁ e ︐l﹁ :lJ+L nu‑‑Jγ ︑ ‑anlunqd A ll ﹁ z z ‑na 1 m一 t 415m 門 cuγ ﹄ nH Hnu ﹄U 1 l n u HU ︑ nu ‑ ‑ RHU 7 ι ‑FQ ρv nH nu ヲ'﹄' 一 'URHVl +L neU 免u uuum川 S u b s1zC1bO / Z o n es 1 z C 1・一‑ Z o n es 1 z T 9 o d q n ̲ k ( j r, j t ) ‑j h, j h ̲‑ O̲k 。 = Ik+ ... + Z k s u m m e d f ) ti m e s u pt o n n( := ‑I n v e r s en o r m a l corrective matrix a s copied f r o mZ o n es 1 z C 1a n d finalized VA 川 v し ‑2u 一m :r 噌 nu rhutnHnH AA‑‑J ヲ ︐パu L 'MV' t・ ρ ︐ s 'n z i ﹂ ‑ ︑ ρνγ ﹄ nH‑2u D+L L jl ヲ +LnH ・lJHU r'J ︑ 2u t 4E f nHULAnH 7ム 一 nu ‑‑'ngb quγ ﹄ 免 u nH・ 1l 川 tnνHunU HU u‑ l )‑ ﹁ ( ﹂1 ︐ ︑ 戸 S u b s1zA50 / Z o n es 1 z A 1 Z o n es 1 z A 5 I n r h ̲ k ( j r, j t )ー j h, j h ‑‑ H C ̲ k ‑C a n o n i c a lI y constrained n o r m a l matrix S u b s1zB1aO / Z o n e ss 1 z A 5, s 1 z T 1 Z o n es 1 zT 1 u n r s ̲ k ( j r, i t )ー j h, i h ‑‑ U S ̲ k D i a g o n a lI y unitarized n o r m a lr e s p o n s em a t r i x r h u nD 7 ι 白 しv ‑ed ・ ' ・Il γ﹄ +L m2u ・ nH nuvA 守 ι ' ﹄ L k n ︐ ・ 守J ﹄ ﹄ ハU a nH nu ‑gb ‑2u ‑‑‑ nU 41 ﹂H 一 RUIJrT 7 P+l nU 噌E FOinH iJAU ρνρv nH‑nH nu‑‑6 'ZIl +L 白し v rJ'lJV ー ︑ ﹄ ・ ︑ 7ι‑2U n D L K﹁ ‑ ヲ TEE ipLo ρv nH nu 守 =Ak*0k I n v e r s en o r m a l matrix ‑G o tb yP r o c e d u r eS u bs 1 z C 1 a ( ) i t e r a t e d n n(:ニf) t i m e s ‑A sc o n f i r m e db yt h ep r o d u c t 一一 Z o n es 1 z U O jr , j t ) ‑j h, j h ‑‑ I I ̲ k u c r h ̲ k( : =U̲k (Zone s1zC1) *C̲k (Zone s1zB5) ‑A sc o m p a r e dt ot h ei d e n t i t y matrix I ̲ k giving t h ee r r o r m a x! r r ̲ k ! a sd e f in e ds u c ht h a t r r̲k ( E r r o r ) =I Ik( Z o n es 1 z U O )ー I ̲ k( I d e n t i t yM a t r i x ) : =U̲k (Zone s1zC1)ホ C̲k (Zon巴 s1zB5) 一 I̲k VA 一 しV 'unγ ﹄ +L ‑‑・ l ι ' 11 TE' nu e a ︑ z m ‑ ﹄ ︑ ﹃ qu‑ρ ‑cu 'nH rhjvnu Ruinnν 7 'Ehpo 噌 le cu‑‑γ ﹄ tnH SiJAU ρνρv nH‑nH nu‑‑ 1Jr?l ﹄ ﹄白し V ι ' z +L 白しv rJ'・f γ ・ ー ﹄ nDbnr z ‑a 一 Tlqu+L POVlas‑‑ HnH 門 lnunυ 川川U HU ︑ nu ︐パu i ' ︑' ︐ f t ) ﹁ enu ︑ γ ︑ Ild'' ︐f・ t 2uatld'' ' ︐ f t 1s ︐f︑.︐ Fhu Fhu t h ・ ‑ 一 Ti‑nv+L Sr nHnH tnνnuuuu HU ︑ nu S u b s1zC1cO / Z o n es 1 z C 1 ‑‑‑ Z o n es 1 z C 1 jr ,j t )ー j h, j h ‑‑ U ̲ k u d r c ̲ k( ニ C ̲ k( Z o n e s1 z B 5 ) ^( ー 1 ) =O̲k (Zone s1zT9) *A̲k (Zone s1zB9) S u bs 1 z B 5 b0 / Z o n es 1 z B 5 Z o n es 1 z B 9 jr ,j t ) ‑j h, j h ‑‑ A ̲ k adrh̲k( =I̲k (Identitymatrix for contrasts c o l u m nv e c t o r ) ‑C ̲ k ‑Approximative i n v e r s en o r m a l matrix 7 ι 川川U an守 ‑eG ou nH nu J﹄ 守 一 A. nJ﹄ ︐ 一 m L k n VA neu‑‑l 'unvl +L nHU・ 2u 一 ‑2u ‑nH nu Fhu'nHgb RUIJa z‑一‑ ︑+JL1a1 ︑ .nU 4la' FO‑nH 手l 1 1 4 oup+l nH‑nu nu ヲ L r‑'BJm ︑︐﹄︐ ︐ 一 nJ﹄ γ ﹄ ."nu ︑ vllunnH f t FV‑J‑ ︑ nv u f t r h j v︐ n D b n rパ e ︐ Z nr 411lnunuqd eGγ ﹄ HU AU ニ門 U﹁ t n ν n u nu HU na‑ 1 Z o n es 1 z C 5 S u b s1zC50 / Z o n es 1 zT u d r s ̲ k( jr ,i t )ー j h, i h ‑̲ T ̲k : =Uk (Zon巴 s1zC1 )* S ̲ k( Z o n es 1 zT 1 ) ‑I n v e r s en o r m a lr e s p o n s e matrix S u bs 1 z C 10 / Z o n es 1 z U 4 ‑‑‑‑ Z o n es 1 z C 1 d q n ̲ k( jr ,j t ) =j h, j h ‑ ‑ O ̲ k =Ik+ ... + Z k s u m m e d : 二 0 ) t i m e s i t e r a t i v e l yu pt o n n( ‑I n v e r s en o r m a l corrective matrix Z o n es 1 z U 6 jr , j t ) ‑j h, j h ‑ ‑ Z ̲ k odrn̲k( ー T h e n n( := 0 ) t hp o w e r e d s q u a r e dn o r m a lo f f ‑ d i a g o n a lm a t r i x Multiplied b yB ̲ ka st og i v巴 ‑t h e n n+ 1 ( := 1 ) t hp o w e r e d s q u a r e dn o r m a lo f f ‑ d i a g o n a l matrix t ob es h o w ni nZ o n es 1 z U 7s u b s e q u e n t l y ーー ーーー ー 一 一 ー ー ー ー ‑‑ Z o n es 1 z U 7 R e a d yt or e c o r da n dt os h o w jr , j t ) ‑j h, j h ‑ ‑ Z ̲ k odrn̲k( ー T h e n n+ 1 ( : ニ 1 ) t hp o w e r e d s q u a r e dn o r m a lo f f ‑ d i a g o n a lm a t r i x a sP r o c e d u r eS u bs 1 z C 1 a ( )r u ni t e r a t i v e l y 。 ーー ーーー ーーー T O >>Stream 3 k Stream 3k̲ N or u n restrained o r missing F R O M Stream 2 k> > 一一ーー【一一ーー一一ーー S u bs 1 z D 10 / Z o n es 1 z C 5・ ‑ Z o n es 1 z D 1 , i t )ー i h, i h ‑‑ R U̲ k rI r u ̲ k( ir =D̲k (Zone s1zS1) *T̲k (Zone s1zC5l ‑Regression matrix giving fitted responses b yl e a s ts u mo fs q u a r e dr e s i d u e s S u bs 1 z D 5 ( ) /Z o n es 1 z C 5 ー‑ Z o n es 1 z D 5 t )ー i h, i h ‑‑ R D ̲ k r l r d ̲ k ( i r, i ニ :K ̲ k( Z o n es 1 z T 5 ) ‑R U ̲ k( Z o n es 1 z D 1 ) ‑R e s i d u e s matrix a sr e s p o n s e s fitted b yl e a s ts u mo fs q u a r e dr e s i d u e s S u b s1zC1aO / Z o n es 1 z C 1 ‑‑‑ Z o n es 1 z C 1 o d q n ̲ k ( j r, j t )= j h, j h ‑ ‑ O ̲ k . . + Zk s u m m e d = Ik+ . : = n ) t i m e s i t e r a t i v e l yu pt o n n( ‑I n v e r s en o r m a l corrective matrix 一一ーー一一 T O >>Stream 4 k ( O m i t t e dh e r e ) p h U qd ηL
なお,何種類もの数多くの揺動が応答測定値ベクトルに含まれる場合には, F O R T R A N 7 7表示の応答分解ソ フトウェアの場合(表・ 5 [ 5 J ) に示してあるように,それぞれが応答推定値および残差推定値にどのよう に流入するかを求めることができる.ただし,推定残差ぺクトルは定まっても,よく知られているように, それぞれの揺動成分を個別に分離して定量することは,特別の仮定を用いなし、かぎ、り,できない. .正準制約式および端点制約式のあてはめ 規準方程式を解し、て効果要素の各々を求めるときに正準制約式,端点制約式またはそのほかの制約式が必 要であるが,その実質的な意味は意外に認識されておらず,むしろ,その儲J I を無用の補助用具としてこと さらに無視または否定する姿勢すら認められる.最も極端な場合には,どの制約式も単なる方便であり,制 約式の種類には無関係の結論のみを数理統計学的に意味のある結論とすることが主張されてし、る. 正準制約式は,試行の重複も試行の省略もない組み合わせ完全配置の上で,誤差もなく揺動もなく確定す る応答を効果成分の和に分解する場合に,この配置の上の応答平方和がこの配置の上の効果成分平方和の和 に分解されるために必要,また,十分な条件であるから,決して,実質的に無用の補助用具ではない. F O R T R A N 7 7 表示でも [ 5 J[ 6 J,この M i c r o s o f tRE x c e lV B A表示でも,組み合わぜ配置での応答分解のため にこれまでに作成したソフトウェアで壮,効果要素の規準方程式に正準制約式を組み込んで、規準方程式のそ れぞれをたがいに 1次独立なものとしてたがいに分離できる.規準方程式の係数の行列の行の要素の各々を その行の対角要素で害J Iって対角要素を単位化する操作は,通常は,正準制約式を組み込んでから行なう. そのほうが正準制約式を組み込む操作は見やすいが,組み合わせ配置での効果要素の規準方程式では,対 角要素を単位化してから正準制約式を組み込んでも,同じ効果成分の中のたがいに異なる効果要素が同じ試 行に同時に現われることはなし、から,対角要素は正準制約式の影響を受けず,結果は同じになる. 端点制約式の組み込みも容易である.同じ効果成分のたがし、に異なるさまざまの効果要素について,その 活動要因ごとに水準のど れか一つを基礎水準として,この基礎水準を含む効果要素を 0とする. すなわち,規準方程式の係数のうちでその効果要素の係数となるものを不定な任意の値としても,規準方 程式は完全に正しい同じ解を常に与える結果となる.たとえば,規準方程式の係数の行列(規準行列)の列 のうち,基礎水準を含む効果要素に対応する列の要素の全部を 0とし,対角要素のみを lとしてもよい. この状態の規準行列では,このような不定要素の列と同数の行をそのほかの行の 1次結合で表わすことが できるから,規準方程式のうちから不定要素の列と同数の行を 0要素の行として消去してよい.ただし,規 準方程式の各々が成り立っている事実があるから,それに対応する応答の 1次結合の項も 0となる. 消去したあとに残った規準方程式には,基礎水準を含む効果要素の項は存在せず,基礎水準を含まない効 果要素の項だけが桐生して,その効果要素が規準方程式の解として確定する.ここで,最初の規準方程式に もど、ってみると,規準行列の要素のうち,基礎水準を含む効果要素に対応する列の要素を任意に変化させて も,基礎水準を含まない効果要素は変化しない.規準行列の要素のうち,基礎水準を含む効果要素に対応す る列の要素を変化させて,変化の前後の規準方程式の差をとると,応答の項は消去され,また,基礎水準を 含まない効果要素の項が消去され,基礎水準を含む効果要素は規準方程式の解として 0となるほかない. 端点、制約式の場合にも,規準方程式を解くために,対角要素法を利用できる.これまでのところ,収束の 不具合はない.正準制約式の場合も含めて,どこまでの範囲で利用できるかは,個別に検討を要する. 規準方程式の未知数の数が少なくなるのは端点制約式の利点であるが [ 8 J,得られた効果要素を正準効果 要素に換算する手数は意外に大きい.主効果だけを含む系の場合だけが例外的に簡単である.あとで正準効 果要素に換算するのであれば,最初から,正準制約式をあてはめるほうがはるかにわかりやすい. 精密な実験式のあてはめよりも活動効果要素の探索に応答分解を用し、るのであれば,実験のやりかたのー っとして,端点制約式の考え方を利用できる [ 8 ] . とりあえず守専られた応答測定値から広い範囲の応答を予 測して効率的に課題の解決に到達するには,複雑な道具立てよりも実験結果の蓄積・吟味が有効である 指摘したように, 1 )試行の拘束・欠狽, 1 ] 2 )要因の拘束・無視, 3 )効果成分の拘束・除去, 4 )効果要素の拘 束・除去,などにより配置の内容が変化して実験結果にも影響を生じるのは実験計画法の専門的な研究開E であり,まじめな取り扱いが必要である. しばしば,世間で,あまりにも軽く言われる実験の「効率化」な どの「意識」とはおよそ無縁の課題である.このソフトウェアで、実算してみただけでこれは実感できる. 円︐ a qL qd
.SAS/STATRG
凶プロシジャ活用のための応用
組み合わせ配置の応答分解は代表的な実際問題であり,詳細な説明 [
l
J[
2
J[
3
J もありながら,意外に,近
寄りづらい.利用者指針 [
l
J,S
A
S
R技術資料 [
2
J,関連図書 [
3
Jなどを熟読し,その一方で,演算の 1段階ご
とに演算値行列の変化を直視できる手段を確保すると,このプ口、ンジャがぐっと身近なものとなる.
4
J,推定
このプロシジャの流れの中では,まず,計画行列Xを回復行列Jと推定可能行列L とに分解し [
効果要素(縦)ベクトル c
v
> (通常は b [
l
J と書く)を求め,そして,応答推定値平方和 S
S
Y
V
S
S
Y
V=く c
v
.L
'.(
]
'.
J
)
.L
.c
v
>
(
3
)
を求める(通常は行列積J'.Jを L(
X
'
.X
)
‑
l
L
'[
1
]
[
4
J と書いている).プロシジャの M
O
D
E
L文の中に添え
字 /
Eを付け加えておくと,推定可能行列Lの行(推定可能ベクトノレ)の各々が計算結果に出力される.
E
1,/
E
2,/
E
3 または /
E
4 を付け加えておくと,それぞれ, S
A
S
R平方和 S
S
1,S
S
I
I,
このとき,添え字 /
S
S
1
I
I または S
S
1
V に対応する推定可能ベクトルが出力される [
l
Jv
o
l
. 2,C
h
.2
4,p
.
9
1
8
‑
9
1
9
.
プロシジャはこんなに便利に作られており,詳細な説明もあるが,計画行列Xから推定可能ベクトルを取
り出すときの方針が,本来,理論的に一通りに確定しているとは言い切れない点には暖昧さがある.
ただし,その方針がどうあろうと,プロシジャカジ反った推定可能ベクトルは計算結果として出力されてく
S
M
E
A
N
S文 [
l
Jv
o
l
.2
,C
h
.2
4,p
.
9
4
8
‑
9
4
9 によって効果要素ごとに最小 2
る.さらに,プロシジャには L
乗平均ベクトル LSM(…)を出力する機能もあるから,結果をいろいろ比べてみることができる.
したがって,プロシジャの使った推定可能ベクトルについて利用者はほぼ完全な情報を得ることができ,
プロシジャが推定可能ベクトルを取り出すときの方針も,それを積み重ねれば,見えてくるであろう.
応答推定値平方和(式 (
3
))の中の行列積J'.Jを対角化せずに効果成分のI
J
頂次追加 (
S
e
r
i
a
li
n
c
l
u
s
i
o
n‑
P
a
r
t
i
a
le
x
c
l
u
s
i
o
n‑T
y
p
e ~1 S
S
),など、を行なって各種の平方和を定義するのは探
T
y
p
e1S
S
),部分除去 (
索的な便法に過ぎないとも言えるであろう.計画行列Xから推定可能ベクトルを取り出す方針が一通りに確
S
S
1 ほか)がゆれうごくのを実務の上で許容すれば,多
定しないとしても,応答推定値平方和の分解結果 (
解くのにどの未知数からはじめるか一通りでないのと同じ事情になる.
元連立一次方程式を消去法で1
しかし,この種類の疑問は,このプロ、ンジ、ャに固有の問題で、はなく,組み合わせ配置の上の応答う消平およ
びそのほかの配置の上の応答分解にもつながる面があり,接近の姿勢によっては困難な問題ともなる.
i
c
r
o
s
o
f
tRE
x
c
e
lV
B
A表示のソフトウェアは,演算 1段
組み合わせ配置の上での応答分解のためのこの M
階ごとに,結果の演算値行列の実際の形を画面に表示でき,演算内容を背景の画面に表示するので,さまざ
こS
A
S
/
S
T
A
T
RG
L
Mプロシジャを活用する場合に,補助手段のーっとして,便利で、あろう.
まの実ザ課題 l
また,さまざまの応答分解について本質的な解明が必要な場合にも,強力な補助手段となるであろう.
必要に応じて,計算手I
J
国'作業域・作業面などの名前づけ・番号づけ,それぞれの作業域への演算値行列
の布置,などを変更でき,いろいろの問題に柔軟に対応できるから,ほかの行列演算にも利用できる.
順次追加,部分除去,などの実算結果の格納・表示・比較には,今後,工夫の余地があろう.
参考文献
[
l
J
S
A
SI
n
st
i
t
u
t
e
,
I
n
c
.(
1
9
9
0
)
:SAS/ST
A
:
刊 U
s
e
r
'
sG
u
i
d
e,
V
e
r
s
i
o
n6
.,
F
o山 1
1
1e
d
i
t
i
o
,
nSASI
n
s
t
i
t
u
t
e
,
I
n
c
.
[
2
J
S
A
SIn副知t
e
,I
n
c
.(
!9
7
8
)
:T
e
c
h
n
i
四I
R
e
p
o
r
tR
‑
ICJ
,
T
e
s
to
f
h
:
.
'
p
u
t
h
c
s
e
si
n…lI
n
e
a
rm
o
d
e
l
s
.,
SASI
n
s
t
i
t
u
t
e,I
n
c
.
比t
e
l,
R
.
C
.
,F
向山d, R
.J
.a
n
dS
戸Cめ巳 P
.
C
.
ο
9
9
1
)
:
S
A
S買高y
s
t
e
mf
しrl
i
n
e
a
rm
o
d
e
l
s,
η
l
i
r
de
d
i
t
i
o
n
,
SASI
n
s
t
i
t
u
t
e
,
I
n
c
.
[
3
J
L
2
0
0
4
) :日S
/
S
T
A
T
R
G
凶・平方和一, S
A
SF
o
r
四…学術総会2
0
0
4,SASI
n
s
t
i
ω
.
t
eJ
勾釦株式会社,論
[
4
J柴山忠雄 (
文集p
.
2
2
7
‑
2
3
4,w
w
w
.
s
a
s∞吋勾釦1
,
食pH
食p
.
s
a
s
.
∞m
l
p
u
b
l
w
e
b
f
i
l
e
s
/
J
日開n
I
∞n
凶b
/
;
低a
d
e
m
i
c
倒̲
s
h
i
b
a
y
a
m
a
[
5
J柴山忠雄 (
2
0
0
1
) :要因配置実験の結対新のための簡易な入力形式第2
0回目;柏崎ユーザー会研究発表会
(
S
U
G
1
‑
]
2
0
0
1
),SASI
n
s
t
i
t
雌 J
a
p
a
n株式会社(当時会社:名:株式会社 S
A
Sインスティチュートジャパン),論文
集p
.
3
7
3
‑
3
8
0,w
w
w
.
s
a
s
.
∞mj
勾釦1
,
合p
:
万
食p
.
s
a
s
.
∞m
l
p
u
b
/
w
e
b
f
i
les/J
a
戸,
I
n
.∞n
凶b
/
s
u
g
i
j
O1
̲
a
n
o
陀.
[
6
J柴山忠雄 (
2
0
0
1
) :要因配置実験の…F
O
R
T
R
A
N
7
7
表示, ]
S
Q
C
第6
6回研究発表会5
‑
9
,要旨集p
.
1
9
3
‑
1
9
6
.
∞
[
7
J柴山忠雄 (
2
0
0
5
) :花田、u
戸r E
"
分析の数理, J
S
Q
C
第3
5回年次大会4
‑
5,要旨集p
.
1
9
5
‑
1
9
8
.
1
9
9
9
) :応答分解のための差分展開, ]
S
O
C
第2
9回年次大会:
:
;
‑
5,要旨集p
.1
2
1
‑
1
2
4
.
[
8
J柴山忠雄 (
2
0
0
6
) :組み合わせ配置での… E
x
c
e
l表示, ]
S
Q
C
第8
0回研究発表会4
‑
5,要旨集p
.
2
9
5
‑
2
9
8
.
[
9
J柴山忠雄 (
‑328‑
S A S Forumユ ー ザ 一 会 抗がん剤の第 1 1相臨床試験における早期終了を考慮した 試験デザインのプログラム作成 0 中島章博ホ 豊泉滋之料 渡辺唯一叫事 浜田知久馬ホ 事東京理科大学大学院工学研究科経営工学専攻 H ブリストル・マイヤーズ株式会社 村本東京大学大学院情報理工学系研究科数理情報学専攻 The programf o rtwostagedesignsf o ra phase1 c l i n i c a lt r i a lf o ranti‑cancerdrug A k i h i r oNakajima'S h i g e y u k iToyoizumi" TadakazuWatanabe'" ChikumaHamada 本 ' F a c u l t yo fE n g i n e e r i n g,TokyoU n i v e r s i t yo fS c i e n c e B r i s t o l ‑ M y e r sK . K . ••• Departmento fM a t h e m a t i c a lI n f o r m a t i c sG r a d u a t eS c h o o lo fI n f o r m a t i o nS c i e n c ea n dT e c h n o l o g yU n i v e r s i t yo fTokyo 要旨 がん愚者を対象にした抗がん剤の第 I I相臨床試験の目的は,薬剤に抗腫蕩効果があるかを判定する 有効性のスクリーニングである.試験デザインとして倫理的な問題を考慮し,中間解析を行う 2段階 デザインが用いられている.現在,広く使われている 2段階デザイン決定方法に Simon法がある.こ に効果がない場合に試験を早期無効中止することが可能なデザインである.しかし,近 の方法は薬剤l 年,分子標的薬剤など特定のがん種や患者に対して著しく高い薬剤が開発されている.そこで薬剤が 明らかに有効である場合に,迅速に次相に移行できるように早期有効終了も可能となるように Simon 法を拡張し,また,第 l段階で、誤って薬剤が有効と判定する第 1種の過誤の確率を制御できるように 第 1種の過誤の確率の配分を設定できるプログラムを作成した. キーワード:第I I相試験, 2段階デザイン,早期有効終了,有効早期終了, Simon法 , SASマクロ 1 はじめに がん患者を対象にした第 I I相試験の目的は,薬剤に抗腫蕩効果があるかなし、かを判断し,さらな る第 I I I相試験でさらに評価する価値があるかどうか有効性のスクリーニングを行うことにある.第 I I相試験には lつの薬剤について次の相に進めるかどうかを決める場合と,複数の候補薬剤の中から を選択する場合があり,これらの試験デザインは異なる.ここでは前者のデザインの 最も有望な薬剤j みを対象とする. 一般に抗がん剤は強い副作用を有することが多く,薬剤に効果がない場合に多くのがん患者に薬剤 を投与することは倫理的に問題がある.そのため,抗がん剤の第 I I相試験で,試験を 2段階に分けて 中間解析を行い,もし第 1段階において薬剤が明らかに無効又は有効な場合には試験を早期終了する 2段階デザインが用いられている. 329~
2 2段階デザイン 2段階デザインは中間解析を行い,薬剤が明らかに無効,もしくは明らかに有効であると試験の途 中で判定された場合に,試験を第 1段階で打ち切ることが可能なデザインである.中間解析を行うこ とにより,試験に用いる症例数を減少させることが可能である.第 I I相試験では抗がん剤の有効・無 効を判断する指標として奏効率を用いる.奏効とは,腫蕩が規定の大きさ以下に一定期間以上縮小す ることであり,奏効率とは奏効した症例数を適格基準を満たした適格症例数で、割ったものである. 2段階デザインの症例数設計の方法として代表的なものに Simon法がある. Simon法では,まず 1人中奏効例数 X 1が事前に設定した境界例 第 1段階で症例数を π1人で試験を実施する.その結果 , n n 1人中7" 1人より大きけ れば,症例数を π2人追加して第 2段階へ進む.第 2段階では,第 1段階と合わせた総奏効例数 X が 1人以下であれば薬剤が無効と判定し,試験を早期無効終了する.一方 数7" +n2人中第 2段階の境界例数 R人以下であれば,薬剤は無効と判定し,試験を終了する.一方, n 1+η2人中 R人より大きければ,薬剤は有効と判定し,次相試験へ進む . n 1,n 2," 7 1, R が 2段階 π1 デザインのパラメータとなる. 3 Simon法 3 . 1 Simon法のパラメータ決定手I I 巨 第I I相試験の統計的な症例数設計は対立仮説 H1: P=P 1に対する帰無仮説 Ho:P=p oの仮説検 定に基づく.ここで p は奏効率であり ,p oは少なくともこの値を超えないと抗がん剤としての価値 がないと考えられる奏効率(以下,闇値奏効率)であり ,P 1は薬剤の評価を続けるのに十分有効と認 める奏効率(以下,期待奏効率)である .p oには同じ疾患の同じ病期に対する標準的治療の奏効率の 値を設定し ,P 1には p o よりも少し高い値を設定するのが通常である.仮説検定の 2種類の過誤は次 のように定義される .P=p oにおいて有効であると判定する誤り(以下,第 1種の過誤)の確率を α と設定し ,P=P 1において無効と判定する誤り(以下,第 2種の過誤)の確率を β と設定する.一 般にこれらは有意水準 (α) と検出力 ( 1 β) として表現される.試験デザインを決定する際には以 下の 4つの条件を定める必要がある. • po:関値奏効率.次相に進む価値のない奏効率 • P 1: 期待奏効率.次相に進む価値のある奏効率 ・ α:第 1種の過誤の確率.誤って有効と判定する確率 ・ β:第 2種の過誤の確率.誤って無効と判定する確率 Simon法で、は最初にパラメータ n 1,η,2,7 " 1,Rから第 1種の過誤確率 ( α ' )と第 2種の過誤確率 ( β ' ) を計算し,設定した第 1種の過誤確率 ( α )と第 2種の過誤確率 ( β )の制御を満たしたパラメータの組 み合わせを列挙する.その中から最適化規準を用いて,最も最適なデザインを決定する.第 1種の過 誤確率と第 2種の過誤確率の制御を数式で表すとそれぞれ ( 1 ), ( 2 )式のようになる. ¥ xニTl+1 ¥ ム 句E I b ( x ; p o, n1)B(R‑x;po, n 2 ) 三α ) ( ( m i n [ n l , R ] ,= 1‑ ! B(7"l ; P O, n 1 )+ 乞 α / m 川n l, R ] グ =B(7"1 ; p 1, n 1 )+ 乞 b ( x ;P 1, nI )B(R‑x ;P 1, n 2 )壬β x=rl+1 ( 2 ) υ υ 今︑ 今︑ ハ U
ただし ,b ( x ; p, n )は試行回数 η ,成功確率 p,成 功 回 数 z の 2項分布における確率関数であり, B(x;p, n )は試行回数 η ,成功確率 p,成功回数 z までの 2項分布における累積分布関数である. αf三 α,β F三 sの制御を満たしたパラメータの組み合わせの中から最適なデザインを lつ決める ための最適化規準として, 2つの規準 o p t i m a l規準 minimax規準が提案されている. 3 . 2 最適化規準 3 . 2 . 1 optimal規準 o p t i m a l規準は期待症例数 ( E ( N ) )が最小になるようにデザインを決定する.期待症例数とは 1試験 3 )式を用いて算出される. に必要とする症例数の期待値であり, ( E ( N ) η1十 ( 1 ‑PET)η2 PET ニ B(T1;PO,π1) ( 3 ) 二 ( 4 ) ただし, ( 4 )式の PET( p r o b a b i l i t yo fe a r l yt e r m i n a t i o n ) とは P Oの下で第 1段階で試験が早期終 I相試験は他 了する確率である.期待症例数を帰無仮説の下で計算する理由は,一般に抗がん剤の第 I の薬剤が効かなかった患者を対象にするため,効果が示されないことが多く,したがって帰無仮説の 下で平均的な症例数が少なくなるデザインが望ましし、からである. 3 . 2 . 2 minimax規準 minimax規準は総症例数 ( N )が最ノトになるようにデザインを決定する.もし最小となる総症例数が 5 ) いくつもあった場合には,その中から最ノトの期待症例数を持つデザインを決定する.給、症例数は ( 式を用いる. ( 5 ) N =η1+η2 4 Simon法の拡張 既存の Simon法は早期無効終了のみを考慮し,薬剤が明らかに有効である場合に早期有効終了は考 慮されていなし、.近年では,作用部位を限定して毒性と比較して効果が強い分子標的の抗がん剤が開 発され,また遺伝子型を限定して試験を行うことがあり,想定よりかなり高い奏効率が得られること が報告されている.このような場合に第 1段階で明らかに高い奏効率が得られれば,薬剤が有効であ ると判定し,早期有効終了によって迅速に次相試験へ進むことは倫理的である. そこで本研究では, Simon法の最適化規準を採用した早期有効終了も考慮したデザイン(以下, Simon の拡張法)のプログラムを SASによって作成する. 既存の Simon法に早期有効終了を考慮するために,第 1段階で早期有効終了と判定する境界例数 b 1 をパラメータに加える.つまり,第 1段階で奏効例数 X1 が η1人中 b1人以上であった場合に有効と判 定し,次相へ進む.早期有効終了を考慮した場合の c /,s 'は,それぞれ (6), (7)式のようになる. minlbl‑l, RJ ( α,=1‑ IB(T1;PO, n 1 )+ ¥ b ( x ; p o, n1)B(R‑x ;白 川2 )1 x=Tl+1 ( 6 ) / ηノ M η Z ‑331‑ p p R η B Z p け J ︐hU 川 げ ︐ ︐ ι 1 F/‑T υTl.4= ﹁ ↓ z + η P T 一 B 々 μ ︑ ︑ 一 n ¥ 乞 ( 7 )
また、早期有効終了も考慮するので Simonの拡張法の早期終了確率 ( PET')と期待症例数 (E(N)) は( 8 ), ( 9 )式のようになる. E(N) =nl+( 1‑PET')n2 ( 8 ) ( r 1 ; p o, n 1 )+(1‑B(b1一 l ; p o, n 1 ) ) PET' =B ( 9 ) また,拡張する際に第 1段階での第 1種の過誤の制御も考慮した.これは第 1段階の症例数が少な い段階で薬剤を誤って有効と判定する確率を抑えるためである.具体的には第 l段階への第 1種の過 α 1 )として, Pocock型の制御と任意に第 l段階で過誤確率を制御する方法の 2種類を 誤確率の配分 ( 1 0 ), ( 1 1 )式になる. 考えた. 2種類の制御を数式で表すと ( Pocock型 :α1αxl o g ( l+( e x p ( l )‑l ) t ) ( 1 0 ) 任意に制御 :αlニ b ( b :0から αの任意の値) ( 1 1 ) N で与えられる.また,パラメータ n ただし, tは情報分散であり, t= η d 1,n 2,b ,r 1,Rから 1 計算される第 l 段階での第 l 種の過誤確率 (α~) は以下の (12) 式で与えれる. α~ =1‑B (b1‑1;po, n 1 ) ( 1 2 ) 以上より, Simonの拡張法は,パラメータ n 1,n 2,b ,r 1 ' Rから過誤確率 α "s ',α 1を計算し, 1 設定した過誤確率 α,s ,α 1の制御をそれぞれ満たすようなデザインを列挙し,その中から最適化規 準を用い, 1つのデザインを決定する. 5 SASプログラム Simonの拡張法の SASマクロを作成した.本プログラムはマクロ変数として、関値奏効率 ( P o ),期 待奏効率 ( P 1 ),第 l種の過誤確率 (α) ,第 2種の過誤確率 ( s ),出力する際のデータセット名,試 N )の最大値、第 l段階に配分する第 l種の過誤確率を設定する 験に組み込むことが可能な総症例数 ( ことによって, o p t i m a l規準と minimax規準,両方の規準についてのデザインを出力するプログラム となっている.第 l段階に配分する第 l種の過誤確率 ( α 1 )については pを設定すると, Pocock型の 配分となり, 0から lの数値を任意に設定すると αにその値をかけた値で第 1段階の過誤確率を制御 する.また, Simon法では全ての可能なデザインの組み合わせについて,全て過誤確率を計算するた め,莫大な計算量を必要とする.そのため,場合によってはあらかじめパラメータの探す範囲を現実 的な値に狭めてプログラムを回すことも必要である.以下に作成したプログラムを示す. <Simonの拡張法の SASプログラム〉 ホホホ***ホホホホホホホ本ホホ*ホホホホホ*ホ*ホ***ホ**ホホホ**ホホホ**ホホホ*ホホ*; *Simon法有効早期終了サンプルサイズ設計事; *第 1段階での白の制御を考慮、ホ; * creation :8Mar2006 * Author :A.Nakajima * ; * ; 事事*事事事事事事事事事事事事事事事事事事事事事事事事事事事事事事事事事事事事事事事事事事事事ホ本; **本ホホホ*本***ホホ本ホホ*ホ*ホ*事事ホホ事事事ホ本ホ**事事ホホ; *SIMONRマ ク ロ * ; *ヲ│値ホ; ホPO :関値奏効率ホ; 内 内 J ︐ つ J
*P1 :期待奏効率本; A :第 1種 の 過 誤 確 率 門 B :第 2種の過誤確率*; * datanm : デ ー タ セ ッ ト 名 町 本 事 市 川 X :総症例数の最大値本; 本 CONA :第 1段 階 で 消 費 す る 白 円 本市**事事事事事*事事事*本**事事事*本*本*****本***本***; *****本市*本*本**本市*本*本市*事事事*本市**; 本出力結果*; * 第 1段階→; * R1:R1以下は無効早期終了*; * B1:B1以上は有効早期終了*; *一第 2段階一本; 本 R :R以下は効果なし*; ***本市****事事事*本********本*本市***; dm"out;clear;log;clear;"; proc datasets kill; quit; option macrogen; . i MACRO SIMONR(PO=, P1=, A=, B=, datanm=, MAX=, CONA=); J . ︐ . ︐ ︑ ︑ Jnυ. 円 ︐h ‑333‑ 本 do B1=R1+1 to N1; L̲A1=0; * do R=R̲MIN to R̲MAX; u 円 J do R1=R1̲MIN to R1̲MAX; ) ) P 4ム ゐ J do N=NF to NL; NT=N; do N1=1 to N‑l; N2=NT‑N1; 0); R1̲MIN=max(floor(N1*PO*0.5), R1̲MAX=min(ceil(N1本 P1), N1); 0); R̲MIN=max(floor(NT呼 0*0.5), NT); R̲MAX=min(ceil(NT*P1), p ︑ r e ︐ J 4ム ) ) ) 4ム P 4ム P ( * r ( t ヮ ロμ q E * u 円 + ω ' ) ) 守ム p ( ︐ . ︐ P T ‑︑ ︑ AB5(87 ︐ . ι ι ι ι ・+lu .. . ︐一一 or)GI R‑‑*qo** ︐ ・ N(()SAAA ott1*NNN ︑f︑ ( Hi‑‑;;PAf Ibb・・ +Z111 cdoonU4inure 1・ 11 f eee rrPAP‑p ・︑ appkk( =ccc +lu===== nu=== ・ ︑ aAB01AAAFL dZZPAP‑PNNNN A = & . A .; B = & . B .; . i if NL>&.MAX. . i then. i do; NL=&.MAX.; . i end;
BETA1=O; IPETO=PRDBBNML(PO, N1, R1); N1, R1); IPET1=PRDBBNML(P1, N1, B1‑1); UPETO=1‑PRDBBNML(PO, UPET1=1‑PRDBBNML(P1, N1, B1‑1); EN=N1+(1‑(IPETO+UPETO))本 N2; PET=IPETO+UPETO; do x=R1+1 to min(B1‑1, R); L̲A1 =L̲A1+pdf('BINDM', x, PO, N1)本 cdf('BINDM', R‑x, PO, N2); BETA1 =BETA1+pdf('BINDM', x, P1, N1)本 cdf('BINDM', R‑x, P1, N2); end; L̲A =IPETO+L̲A1; BETA=IPET1+BETA1; . i if &CDNA.=p. i then. i do; AL=&A.本 log( 1+(exp(1)‑1)本 N1/N); . i end; . i else . i do; AL=&A.本 &CDNA.; . i end; ALPHA=1ーL̲A; if ALPHA=<&A. & BETA=<&B. & UPETO<=AL then output; end; end; end; end; end; run; 本本本本本本本本本本本本本本本本; 本 DPTIMAL DESIGN本 ; U 門 u 円 n n Tム MU MH c u O t MU RU Tム U 門 Mハ c u a ︐ n u +LM. + L M a d CM rN o r‑ PA‑br cp ・ ‑ ︐ on r vdu ‑ ‑u ‑ ‑ 本本本本本本本本本本本本本本本本; data SIMDNR̲o(keep=PO P1 N1 N R1 R B1 EN PET A B ALPHA BETA NF NL design R̲MIN R̲MAX R1̲MIN R1̲MAX L̲A L̲A1 IPETO BETA1 UPETO AL); set SIMDNR̲o; by PO; design="DPTIMAL"; if first.PO then output; run; 判ド判ド判ド本判ド刻院本率率率率率本率率本; 率問 I NIMAX DESIGN率; 率率率率率率率率率率率率率率率率; proc sort data=SIMDNR DUT=SIMDNR̲M; A斗 A qd qd
by PO N EN; run; data SIMONR_m(keep~PO P1 N1 N R1 R B1 EN PET A B ALPHA BETA NF NL design R̲MIN R̲MAX R1̲MIN R1̲MAX L̲A L̲A1 IPETO BETA1 UPETO AL); set SIMONR̲m; by PO; design~ “ MINMAX" ; if first.PO then output; run; data &datanm.(keep~PO P1 A B N1 N R1 R B1 design); set SIMONR̲o SIMONR̲m; run; proc print;run; . i MEND SIMONR; 本pO~0.05 , p1~0.25 , a~0.05 , ß~0.1 , 最大症例数が 100 ,第 1 段階の臼の制御を pocock 型にした場合本; ï.SIMONR(PO~0.05 , P1~0.25 , A~0.05 , B~0.1 , DATANM~a1 , MAX~100 , CONA~p); 叩 0~0.2 , p1~0 .4, a~0.05 , ß~0.2 , 最大症例数が 100 ,第 1 段階の白の制御を 1/10 にした場合本; ï.SIMONR(PO~0.2 , P1~0.4 , A~0.05 , B~0.2 , DATANM~a2 , MAX~100 , CONA~1/10); 〈出力結果〉 設定した条件に対し. optimal規準と minimax規準それぞれ 1つずつデ、ザインが出力される. pO~0.05 , p1~0.25 , a~0.05 , ß~0.1 , 最大症例数が 100 ,第 1 段階の白の制御を pocock 型にした場合 P1 A B N N1 OBS PO 1 2 0.05 0.25 0.05 0.1 30 9 0.05 0.25 0.05 0.1 25 13 R1 R B1 design o3 o3 4 OPTIMAL 3 MINIMAX pO~0.2 , p1~0.4 , a~0.05 , ß~0.2 , 最大症例数が 100 ,第 1 段階の臼の制御を1/ 10 にした場合 OBS 1 2 B N N1 R1 R B1 design 0.2 0.4 0.05 0.2 0.2 0.4 0.05 0.2 43 13 33 18 3 12 4 10 PO P1 A 8 OPTIMAL 9 MINIMAX Fhυ qd qd
6 プログラム実行結果および考察 6 . 1 提案法の出力結果 Simonの拡張法の出力結果の一部を以下の表にまとめた.表 lは o p t i m a l規準を用いたもので,表 2は minimax規準を用いたものである. Simonの拡張法において,第 l段階の第 l種の過誤確率 ( α 1 ) の制御として Pocock型と任意の値として α1α/10とおいた場合を想定した .E(N)は帰無仮説の p=poの下での期待症例数である. 表 1 :optimal規準を用いた Simon法と Simonの拡張法のデザイン α β . 0 5 0 . 2 0 . 1 0 . 3 0 p o P1 d e s i g n Simon法 Simonの拡張法 Simonの拡張法 α 1 α / 1 0 Pocock型 . 1 0 . 3 0 . 5 0 Simon法 Simonの拡張法 Simonの拡張法 0 . 6 0 . 0 5 0 . 2 I Simon法 . 4 0 Simonの拡張法 Simonの拡張法 N(=η1+η2) 1"1 R b1 E(N) 2 9 l 5 1 5 . 0 1 1 0 1 0 2 9 l 5 5 1 4 . 9 8 2 9 1 0 l 5 5 1 4 . 9 8 2 2 4 6 7 1 7 2 9 . 8 9 2 2 4 6 7 1 9 . 7 9 7 1 3 2 2 0 6 1 8 1 0 2 9 . 2 9 4 7 3 2 4 . 5 2 1 6 4 6 7 2 1 6 4 6 7 2 3 1 3 2 4. 49 1 6 4 6 7 2 3 1 3 2 4. 49 n1 α / 1 0 Pocock型 α/10 Pocock型 表 2 :minimax規準を用いた Simon法と Simonの拡張法のデザイン α β 0 . 1 0 . 0 5 0 . 2 . 3 0 d e s i g n Simon法 Simonの拡張法 Simonの拡張法 0 . 3 0 . 5 0 . 1 0 . 1I Simon法 Simonの拡張法 Simonの拡張法 PO P1 α l n1 α / 1 0 Pocock型 α / 1 0 Pocock型 4 0 . 6 0 . 0 5 0 0. . 2I Simon法 Simonの拡張法 Simonの拡張法 α / 1 0 Pocock型 1 5 1 5 1 9 2 8 2 3 2 6 3 4 3 4 3 4 N( η1+η2) 1"1 R b1 E(N) 1 5 2 5 1 9 . 5 1 1 5 6 1 2 5 9. 49 2 4 2 5 5 2 0 . 3 3 9 7 1 5 3 4 . 9 9 3 9 5 1 5 1 3 3 4 . 5 8 3 9 7 1 5 1 3 3 2 . 6 8 3 9 1 7 2 0 44 3 4. 3 9 1 7 2 0 2 2 3 4. 42 3 9 1 7 2 0 2 0 3 4 . 3 3 二 6 . 2 考察 表 lより, o p t i m a l規準において, Simon法より Pocock型の制御をした Simonの拡張法の方が若 干ながら期待症例数 ( E(N))が減少した.これは第 1段階で早期終了となる確率が少し増えたためだ と考えられる.また,この表以外にも小さい奏効率のところでは一様に Simonの拡張法の方が Simon 法より期待症例数が小さい値となった.また, α lを α / 1 0に制御をした Simonの拡張法は Pocock型 とほぼ同じデザインとなった.他の奏効率の想定では α / 1 0の制御の方が若干期待症例数の値が大き くなることもあった.これは第 1段階の制御が α /10のほうがより厳しい規準となるためである. 表 2より, minimax規準においては総症例数はどのデザインでもほぼ同じ値であったが,期待症例 数は Simonの拡張法の方が小さい値となった. 以上より, Simonの拡張法は Simon法に比べ,各規準とも帰無仮説の下で期待症例数を若干減少さ ハ hu qd qd
せることがを可能である.本稿では示していないが対立仮説の P=P lの下では, 2つの Simonの拡張 法の期待症例数はより大幅に減少する. また, Simonの拡張法において,第 1段階で第 1種の過誤の制御を行わない場合と Pocock型は P l‑P O=0 . 2のときはほぼ同じデザインとなった.このことから帰無仮説の下で第 1段階で有効と判 定を下す確率は非常にノトさいことがわかる. 7 まとめ 抗がん剤第 I I相試験において用いられる 2段階デザインにおいて,既存の早期無効終了を考慮した Simon法を拡張し,早期有効終了も考慮、した Simonの拡張法のプログラムを作成した.早期有効終了 を考慮することにより,薬剤が明らかに有効なときに第 1段階で試験を早期に終了することが可能と なり,次相の試験へ迅速に進めることができる.このため,この方法は倫理的に望ましいデザインで あるといえる.また、 Simon法と比較しでも症例数はほぼ変わらないことが確認できた.また,第 1 段階で第 1種の過誤の確率を制御することによって,第 l段階で誤って有効と判定する確率を明示的 に抑えることを考慮した. 参考文献 [ 1 ]SimonR .,OptimalTwo‑StageDesignsf o rPhaseI IC l i n i c a lτ ' ri a l s,C o n t r o l l e dC l i n i c a lT ' ri a l s, 1989, 1 0, 1 ‑ 1 0 [ 2 ] 丹後敏朗,無作為化比較試験,朝倉書庖, 2000 [ 3 ] 福島雅典,大橋靖雄訳,がん臨床研究の方法,メデイカルブ、ツクサービス, 1995 [ 4 ] 福田治彦,新美三由紀,石塚直樹訳?米国 SWOGに学ぶがん臨床試験の実践,医学書院, 2004 [ 5 ] 正木伸之,被験者数に幅を持たせた抗癌剤第 I I相試験の最適化デザイン?工学修士論文,東京理科 大学大学院工学研究科経営工学専攻医薬統計コース, 2004 ヴd η弓 υ n ぺυ
S A S Foru mユ ー ザ 一 会 計数時系列データの推定について 緑川修一・高井まもる・石田良介・宮岡悦良 東京理科大学 OnEstimationi nCountTimeSeriesModels S h u u i c h iM i d o r i k a w a/MamoruTa k a i/RyousukeI s h i d a/EtsuoMiyaoka ScienceU n i v e r s i t yo fTokyo 要旨 計数時系列データとは,ある一定期間に起こった事象の数を数え上げた 時間と共に変化するデータである.本稿では,計数時系列データの解析 法として,全尤度を修正した部分尤度を用いての推定方法を述べ,その性 質を示し GENMODプロシジャを用いたシミュレーションにより最大部分尤 度推定量 (MPLE)の性質を考察する. キーワード:計数時系列データ,部分尤度, P o i s s o n自己回帰モデル はじめに 計数時系列データとは,ある一定期間に起こった事象の数を数え上げた時間と共に変 化するデータである.例えば,年間の地震の発生件数や事故発生件数等が挙げられる.図 1 1は 1 9 9 8年 1月から 2003年 1 2月までの月間交通事故発生件数のデータをグラフ化したも のである.グラフの縦軸を交通事故発生件数,横軸を時聞とした. ← 339
交通事故発生件数
(単位:件数)
9000
7000
5000
3000
'
9
8
.1
'
9
9
.1
01
.1
0
0
.1
0
2
.1
0
3
.1 '
0
3
.12
時間(単位:月)
図 1・1 :月間交通事故発生件数のグラフ
本稿では,図 1‑1のような計数時系列データに対して,一般化線形モデ.ルを応用した
P
o
i
s
s
o
n自己回帰モデルを当てはめ,部分尤度を用いて推定をおこなった.
モデル
tを時間 (
t=1,
…,
N), Y
tを時間 tにおける観測値 .~t-l を過去の観測値や共変量
を含むベクトル (
px
l
)
.f
!
̲をパラメータベクトル(px1
)とする.また,過去の情報を巧 1
で、表すと,
Ft‑lは次のような σー集合体の増加列で表される.
円
ー 1=σ {yt-l'Yt-2,..., ~t中 ~t小
j
観測値Y
tがパラメータ μIの分布に従うとき,過去の情報丹‑1が与えられたときのんの条件付
き確率関数は次のようになる.
f~t; .ut IFt‑l)=叫 (
‑
μ
I
)
μ
t
y
,
t=1
,
.
・
吋 N.
Yt!
また本稿で扱う P
o
i
s
s
o
n自己回帰モデ、ルは次のようになる.
Yt~Poisson仏) ,
μt= 叫~t-l f!_).
t=1
,
.
.
.
,N
推定法
推定には最尤法を用いるが Count時系列データは観測値が独立でないため一般の
‑340
尤度方程式を用いて推定を行うことができない.そこで, Coxが提案した部分尤度を用いて推 C o x .; 1 9 7 5 J .ここで部分尤度関数を PL(~)と定義すると, 定する [ 叫 )=む(川町一1) 主 侃p(‑μ) tμtyr t ‑ ‑ ‑ = ‑ 2 Y t ! となるこの部分尤度関数 PL( s )を最大にするパラメータの値を最大部分尤度推定量主とし, 次のように定義する. 主=argmaxPL包 ) β βは次の方程式を解くことで得られる. /~ ¥ θ θ V l o gP L V J )=Q, ただし V=(一一…一一) L B β I ノ ' a βP しかし,この方程式は非線形であるため, Newton‑Raphson 法を用いて解くことで最大部分尤 度推定量 βを求める. 最大部分尤度推定量の漸近的性質 正則条件の下で , sは全ての十分大きな Nで唯一つで、あり,以下の 3つの性質を持つ. (1)一致推定量であり,以下のように確率収束する. s‑P →β ( N→∞) ( 2 ) 漸近的に正規分布に従い,以下のように法則収束する. J万佐 _~)_L→ NpbGI ゆ ( N→∞) ( 3 ) 以下の式は 0に確率収束する. 川辺)マヤ G←I 包同)~Q ( N→∞) ‑341ー
( Q ) . G-l~): い x p )正定値行 ここで.Np~, G 一l 包)):p 次元正規分布 . ~N (Q)= Vlo gP L 列をそれぞれ表すものとする. この定理は.MPLEが MLEと同じ漸近的性質を持つ事を示している.この定理からシミュレー ションで、有限の N での MPLEの正規性,一致性を検証する. シミュレーション シミュレーションで、用いるモデルを次のように設定した. Yt~Poi.仰心t) 叫 ヤ0+βlXt+β2ι Yト わ t 一 μt = ここで,時間 tを t =1 , …, N とし,周期成分 XrをXt=COSやt7[/ 1 2 ) .パラメータベクトル Eを s=ヤ 0 's l 'sZ ) =( ‑0.5,1,s 2 )とする .βO , s lの値を固定し β2の値を変化させた.またシミ ュレーション回数を 1万回とした.ここで、の β2の値を以下の表のように変化させた. β2 Modell ‑0.01 Model2 ‑0.5 Model3 表 2‑1:β2の値の表 このとき N を次第に大きくさせたときの推定量のヒストグラム及び正規確率プロットを描いた.ヒ ストグラムの中にある黒線は真のパラメータの位置を示すものとする. β , 。β I については,モ 2についてのヒストグラム,正規確率プロットを デ、ル問で、あまり差がみられなかったため,以下 β 掲載する. ‑342一
Model1 / ! ̲ 2のヒストグ、ラムと正規確率プロット 。 =‑0.5,s1=1,sz=‑0.01 β 俳 1 0 八月 O ‑0. 0 1 ‑0. 0 1 N=100 o .01 図 2一1 :Model1 ,β2のヒストグPラム 平均値 平均値 平均値 標準誤差 標準誤差 標準誤差 ‑ 2 :Model1 ,β2の平均値と標準誤差 表2 ん と3 0 ん と1 0 ‑ J て5 ~ 因 子2 :Model1 ,β2の正規確率プロット ‑343一 N=100
Mode12 β2のヒストグラムと正規確率プロット β0=一0 . 5, β1=1 , β2=一0 . 5 N ‑ = 30 N=500 λ~100 ‑0. 5 ‑0. 5 ‑0. 5 図2 ‑ 3:Mode12, β2のヒストグラム 平均値 平均値 平均値 標準誤差 標準誤差 標準誤差 表2 ‑ 3:Mode12, β2の平均値と標準誤差 N=500 λ~100 ・.. / , " ' " 図2 ‑ 4:Model2, β2の正規確率プロット ‑344
Model3 f ! ̲2のヒストグラムと正規確率プロット β。 = 一0. 5, β1=1β2=一 I ラ TEム ‑EA r n l N=2000 λと1 0 0 0 J¥S1 0 0 n [ 1 [ 1 r l , 図2 ‑ 5:Model4の β2のヒストグラム 平均値 平均値 平均値 標準誤差 標準誤差 標準誤差 表2 ‑ 4:Model4の β2の平均値と標準誤差 λr ‑100 λと 1 0 0 0 tf ︐ 図2 ‑ 6:Model4の β2の正規確率プロット 345 N=2000
ヒストグラム及び正規確率プロットより ,N を次第に大きくとることによって漸近正規性 が確認された.また,平均値及び標準誤差の表から一致性が確認できた.しかしながら Model 3においては,他のモデルと比べ β2の値を大きくとったため ,N=2000とした場合でも正 規確率プロットが直線であるとは見受けられない.このことから , s2の値が大きくなるに 従って,推定の精度が悪くなることがわかった. R e f e r e n c e Cox,D .R . P a r t i a l l i k e l i h o o d . Bjometrjka,62・6 9 ' 7 6,1 9 7 5 . Fahrmeir,L . andKaufmann,H. C o n s i s t e n c yanda s y m p t o t i cn o r m a l i t yo ft h e maximuml i k e l i h o o de s t i m a t e si ng e n e r a l i z e dl i n e a rm o d e l s . T heAn n a J so f S t a u s t i c s , 1 3 : 3 4 2・368, 1 9 8 5 . K. andKedem,K. P r e d i c t i o nandc l a s s i f i c a t i o no f n o n ' s t a t i o n a r yc a t e g o r i c a l Fokianos, t i m es e r i e s . J o u n a Jof MuJUvaaateAna J y s j s ,6 7 : 2 7 7 ' 2 9 6, 1 9 9 8 . Fokianos, K. and Kedem, B. REGRESSION MODELS FOR TIME SERIES ANALYSIS. WILEY INTE 昆5CIENCE , 2 0 0 2 . Jacod,J . P a r t 羽l l i k e l i h o o dp r o c e s sandasympωticn o r m a l i t y . S t o c h a s t i cP r o c e s s e s 6 : 4 7 ' 7 1,1 9 8 7 . andt h e i rA p p l i c a t i o n, 2 .A . andWedderburn,R . W. M. G e n e r a l i z e dl i n e rm o d e l s . J o u n a Jof的 e Nelder,J RoyaJStauucaJSodety , SeaesA, 1 3 5 : 3 7 0384,1972 ・ Slud,E .V .C o n s i t e n c yande 伍c i e n c yo f i n f e r e n c e sw i t ht h ep a r t i a l l i k e l i h o o d . Biome‑ 9 : 5 4 7552, 1 9 8 2 . t r i k a, 6 ・ Winkelmann,R .E c o n o m e t r j cAna J y司y so fCountD a t a . Springer, B e r l i n, 3 r de d i t i o n, 2 0 0 0 . Wong,W.H. Theoryo f P a r t i a l l i k e l i h o o d . T h eAnnaJsof , S臼 u s t k : s ,1 4 : 8 8 ' 1 2 3, 1986 ‑346
S A S Forumユ ー ザ 一 会 2重対数プロットに基づ、いた比例ハザード性の検証方法の提案 0横山雄一 大内喜海 浜田知久馬 東京理科大学大学院工学研究科経営工学専攻 A methodt oe v a l u a t et h ep r o p o r t i o n a lh a z a r d sassump t i o nb a s e do nl o g ‑ I o g5p l o t s Y u i c h iYokoyama Y o s h i u m iO h u c h i 仁h i k u m aHamada n i v e r s i t yo fS c i e n c e F a c u l t yo fE n g i n e e r i n g,TokyoU 要旨 生存時間解析で用いられる代表的な解析モデルに Coxの比例ハザード、モデ ノレがあり、医薬や工学 の分野でよく用いられている。比例ハザード、モデ、ノレを用いることにより、生存時間分布に特定の分布 を仮定することなく共変量の効果を推定することができる。 Cox回帰は PHREGプロシジャを用い て簡単に行うことができる。しかし、このモデ、ルは比例ハザード性(共変量の効果が時点によらず一 定)を仮定しているため、結果の妥当性を保証するために比例ハザード性の検証を行う必要がある。 本研究では、 2重対数プロットに基づいて比例ハザード性を定量的に検証する方法を提案し、汎用 的なプログラムを示す。 生存時間解析、比例ハザート、モデ、ル、 PHREGプロシジャ、 キーワード: 比例ハザード性の検証、 2重対数プロット 1 はじめに 生存時間解析で用いられる代表的な解析モデルに Coxの比例ハザード モデ、/レがある。このモデル は、時点 tにおける個体 tのハザード関数が、個体の特性を表す共変量の影響で基準個体のハザード 関数 h o ( t )の exp({{ム)倍に変化することを想定したモテソレである。個体 zのハザード関数を h ( 互 いt ) とすると ( 1 ) 式で表される。 よ 噌E h o ( t ). exp(βTム) ) ( h (主ド t ) ニ ム = [ZilZi2・ ・ z叫T は個体 zの特性(性別、年齢など)を表す共変量ベクトノレで・あり、また、 β = β [ls2・ ・ ・ spj Tはデータから推定する未知パラメータベクトルで、ある。比例ハザードモテぞルを用いる ことにより、生存時間分布に特定の分布を仮定することなく共変量の効果を推定することができる。 347‑
Cox回帰は PHREGプロシジャを用いて簡単に行うことができる。しかし、求めた推定結果に基づ く、ハザード比の点推定値や信頼区間、生存率の予測の妥当性は仮定したモデルの正当性に依存する。 モデ ルを用いた解析では、前提としたモデ ルが正しし、かどうか、解析したデータに基づいて、検討す る必要がある。比例ハザード モデ〉レは比例ハザード性(共変量の効果が時点によらず一定)を仮定し ているため、この仮定の検証を行う必要がある。 比例ハザード性の検証の基礎となるのが 2重対数プロットである。これは Sを生存率、 tを時間と o g ( ‑ l o g S )と tまたは l o gtのプロット)を作成する して、共変量の値で層別し、 2重対数プロット O と、比例ハザード性の下では層間でプロットが平行になることを利用するものである。しかしながら、 プロットが平行であるか、なし、かは視覚的な判断で行うため、解析者の主観が入る可能性が大きい。 2 提案方法 提案方法を説明するため、 S t a b l e i ne ta. l[ 5 Jの胃がんデータを利用する。このデータは切除不能の 胃がん患者に対する治療として、化学療法あるいは化学療法と放射線治療の併用をランダムに割り付 け、死亡までの時間 t (日)を観測した。両治療群でそれぞれ 45人中、死亡が 37人であった。これ を以下、胃がんデータと呼び、生存曲線のプロット ( Sと tのプロット)を図 1に示す。 S 1 . 0 一一一一一一 Chemotherapyo n l y 一 一 Chemotherapy& R a d i a t i o n 0 . 8 0 . 6 一 ピ ﹁ ︑ ︑ ι nυnu 42 0 . 0 。 250 500 7 5 0 1 0 0 0 1250 1500 図 1 : 胃がんデータにおける生存曲線のプロット 348‑ 1750