730.2K Views
January 04, 22
スライド概要
KH Coder
KH Coder 3 チュートリアル 漱石『こころ』を題材に 【スライド版】 1
本チュートリアルの内容 1. 2. 3. 4. 5. 2 KH Coderの準備 プロジェクト作成と前処理 頻出語と共起 それぞれの部(上・中・下)に特徴的な語 コーディングによるコンセプトの抽出
1. KH Coderの準備 3
1.1 インストール(解凍) ① ダウンロードしたファ イルをダブルクリック ② クリック ③ 「unzipped successfully」 の表示が出れば完了なので、す べての画面を閉じる KH Coderは解凍(Unzip)するだけで利用可 4 ※ノートンやウイルスバスターに「危険なソフト」と誤判定される場合があります。ノートン等 を一時的に無効にすると動作するようですが、この操作は自己責任でお願いいたします。
1.2 KH Coderの起動方法 ① デスクトップに作成された アイコンをダブルクリック ② 解凍先フォルダが開くので、 「kh_coder.exe」をダブルクリック 5 ※PCの設定によっては、 「kh_coder」 のように、ファイル名の 「.」ピリオド以降を省略した状態で表示されます。
2. プロジェクト作成と 前処理 6
【解説】分析のねらいと進め方 本ページのようにタイトルが【解説】で始まるページ では操作不要です。お読みいただくだけで結構です。 漱石『こころ』の探索的分析 物語最後の「先生」の自殺が突然で不自然とい う批判はもっともか? 『こころ』の人間観、人間の罪とは? 分析の手順は大きく分けて2段階 7 語を自動的に取り出して集計し、予断を交えず にデータの全体像を探る コーディングを行うことで、分析者の観点を 活かしてコンセプトを取り出し、分析を深める
【解説】データの準備 1行目に列の名前を入力 2行目からデータを入力 1つ目のシートに入力 ※データ量が多くてKH Coderで エラーになる場合、CSV形式で 保存してからKH Coderへ 8 『こころ』は上・中・下の 3部構成。部の中がさらに一 ・二・三などの章に分かれる Excelで1つの列にテキストを 入力し、ほかの列にテキスト 以外の情報(今回は部や章の 番号)を入力。テキスト以外 の情報のことを「外部変数」 と呼ぶ。
2.1 プロジェクト作成(分析するファイルを指定) この部分を「メニュー」と呼ぶ ② 「参照」 をクリックして ① メニューから「プロジェクト」 「新規」をクリック 「tutorial_jp」フ ォ ル ダ 内 の 「kokoro.xls」( Excel ア イ コ ン)を開く ③「テキスト」 列と「日本語」 が選択されていることを確認 9 ④ クリック 次回KH Coderを起動した時は「新規」ではなく、「プロジ ェクト」「開く」を選択して、既存のプロジェクトを開く
2.2 強制抽出する語の指定 ① メニューから「前処理」「語の取捨選択」を選択 重要な言葉なのに、 1語として抽出されな い時は「強制抽出」 ② 「一人」「二人」と入力 ③ クリック 10 「一」と「人」に 分 か れ てしまうような、分割 が細かすぎる場合に も有効 細かすぎる分割を洗 い 出 す に は「前 処 理」 「複 合 語 の 検 出」コ マ ンドが便利
2.3 前処理の実行 ① メニューから「前処理」「前処理の実行」を選択 「前処理」 とはテキスト 中から自動的に語を取 り出して分析の準備を する処理 この処理を実行してお かないと分析は行なえ ない ② クリック 11
3. 頻出語と共起ネットワーク 12
3.1 抽出語リスト ① メニューから「ツール」 「抽出語」「抽出語リスト」 小説なので主要人物が上位に 「死ぬ」が89回と多く出現? 「一人」より「二人」の方が多い! 活用のある語は基本形に直し て抽出&カウント ex.「知らない」→「知る」 ② 番号をクリックで活用形を表示 ③ 抽出語をクリッ 13 クすると「KWICコ ンコーダンス」へ
3.2「KWICコンコーダンス」1/2 ① ダブルクリックでさら に広い範囲の文脈を表示 分析結果中の語をク リックすればこの画 面が開く 数値だけでなく語の 前後の文脈 (context) を見るの が大切 KWIC = Key Word In Context ② 「集計」をクリックする 14 と「コロケーション統計」へ
3.2「KWICコンコーダンス」2/2 ① 前ページの手順で「コロケーション統計」が開く 「左1」とは、左側の1つ目、すな わち直前に出現していた回数のこと 「父」は「死ぬ」の2語前に7回出現した ② クリックすれば特定 15 の品詞の語だけを表示可 前後に多く出現していた語を 通じて、検索対象語がもとの テキスト中でどう使われてい たかという文脈をうかがえる
3.3 共起ネットワーク ① メニューから「ツール」「抽出語」「共起ネットワーク」→「OK」 入力Excelファイルの同じセル内によ く一緒に出現する語(共起する語)を、 線で結んだネットワーク。強く結び ついた部分ごとに自動的にグループ 分け&色分け。 ② 抽出語をクリックすると 「KWICコンコーダンス」へ 「調整」をクリックすれば各種オプションを変更可。 Ex. 線(edge)の本数を「上位 60」から「100」へ。 16 「保存」をクリック すれば画像ファイル として保存可。
【解説】語の共起を探索する方法 複数の方法の中から選択可 共起ネットワーク ※自己組織化マップは長時間を要するので注意 自己組織化マップ MDS 共起する語のグループから、データ中のテー マないしトピックを探索できる これらの分析には内部で「R」という統計ソフト ウェアを使用 17 クラスター分析
4. それぞれの部(上・中・下)に 特徴的な語 ――特徴語 & 対応分析―― 18
4.1 それぞれの部の特徴語一覧 ① メニューから「ツール」「外部変数と見出し」 ② 「部」をクリック ③ 「文」を選択 ④ 「特徴語」「一覧(Excel形式)」を選択 19 3つの部(上・中・下)の 特徴語が上位10語ずつリ ストアップされる。
【解説】特徴語からみる物語の流れ 下 は「先生」が主人公 に 送 った 長い 遺 書。 親 友「K」と「お嬢さん」 と の 三角 関係 な どを 通 じ て 、上 では 主 人公 に も 読 者に も「 解 ら」 な かった事柄が明らかに。 上 では主人公と「先生」 が交流を深めていく。しか し「先生」の話はよく「解 ら」ないことも多い。 中では主人公が実家に戻 り「父」「母」との会話 が多くなる。「先生」と も「手紙」をやりとり。 Ex. 「先生の話のうちでただ一つ底まで聞きたかったのは,人間がいざと いう間際に、誰でも悪人になるという言葉の意味であった。単なる言葉と 20 しては、これだけでも私に解らない事はなかった。しかし…」(上二九)
4.2 「対応分析」による視覚的な探索 ① メニューから「ツール」「抽出語」「対応分析」 ②「部」が選択され ていることを確認 21 ③ クリック 部(上・中・下)の 特徴をグラフィカル に探索できる
【解説】「対応分析」の見方 ② 原点(0, 0)から見て、 「上_先生と私」の方向 にある語、そして原点 から離れている語ほど、 上に特徴的! ③ 同様に、原点(0, 0) から見て「中_両親と 私」の方に離れている 語ほど、中に特徴的! 下も同じ。 22 ※特徴語の一覧から読み 取れた上・中・下の特徴 と、ほぼ同じ特徴を対応 分析からも読み取れる。 原点(0, 0) ① 原点(0, 0)付近に はこれといって特徴 のない語が集まる
5. コーディングによる コンセプトの抽出 23
【解説】 コーディングとは 語ではなくコンセプトを数えたい場合もある 例えば「人の死」というコンセプトは、「死ぬ」だけ でなく「殺す」という語でも表現される コンセプトを数えるためのコーディングルール コード(コンセプト)の名前 *人の死 死ぬ or 殺す or 亡くなる コ ー ド を 付与 す る 条 件。 「 死 ぬ」 「殺す」「亡くなる」のどれかが出 現している文書は、「*人の死」に 言及していたと見なされる。 24 チュートリアルで使用 する「theme.txt」
5.1 コーディングルールによる検索 ① メニューから「ツール」「文書」「文書検索」 ② 「参照」をクリックして「tutorial_jp」 フォルダ内の 「theme.txt」を開く ③ H5を選択 ④ ダブルクリック Excelの1つ1つのセ ル を KH Coder は 「H5」 と認識。H5を 選択するとセル単位 の検索に。 ⑤ ダブルクリックでセル全体を表示 25 コーディングルール作成時には、どのような文書にコード が付与されているかを検索・確認することが大切
5.2 コードのクロス集計(部ごと) ① メニューから「ツール」「コーディング」「クロス集計」 ②「参照」をクリックして「theme.txt」を開く ※ 「theme.txt」 とすでに表示されている場合は操作不要 ③ H5を選択 ④「集計」をクリック 「下」 では300セルの うち18セル (6%)が *友情に言及 ⑤「バブル」をクリック してプロットを作成 26 各コードが、どの部で 多く出現していたかを 示すプロット
【解説】部ごとの集計から見る物語の流れ ③ 中・下のよ うな人物の死は 描かれていない のに、上でも 「人の死」が一 定数出現。 なぜ? 次の分析で確認! 27 ① 下では3角関係の いきさつから親友が 自殺。そのため「恋 愛」「友情」「信 用・不信」が多い。 ② 中では病気で死に瀕する 「父」の様子が描かれる。
5.3 コードのクロス集計(章ごと) ① 5.2に続けて以下の操作を行う ②「文」を選択 ③「章」を選択 ④「集計」をクリック ⑤「選択」「人の死」を クリックしてグラフを作成 28 「人の死」コードが どの章で多く出現し ていたかを見る折れ 線グラフ
【解説】「人の死」の推移から 1/3 ① 自殺の直前だけを見 ② しかし物語全体に視 野を広げると、「先生」 が死ぬことに執着してい る様子が、上でも詳細に 描かれている。 Ex. 「…先生の話は,容 易に自分の死という遠い 問題を離れなかった。そ うしてその死は必ず奥さ んの前に起るものと仮定 … 」(上三五) 29 る と 、 「 先生 」 は か な り 急 激 に 決意 を 固 め て いるようにも見える。 上二四 上三五
【解説】「人の死」の推移から 2/3 ③ 自殺の理由の一部には、お 上二四 上三五 金や恋に切羽詰まれば誰でも悪 人になる、人間一般への失望 Ex. 「…自分もあの叔父と同じ人間だと意識 した時…。他に愛想を尽かした私は、自分に も愛想を尽かして動けなくなったのです」 (下五二) 30
【解説】「人の死」の推移から 3/3 ④ 自殺が突然で 不自然という批判 はちょっと漱石に 対して酷では? 計量テキスト分析 の利点として: データ全体を見 渡す視点が得ら れる 目で読むべき特 徴的な部分はど こか探索できる 31 上二四 上三五
おわりに 各操作の意味や結果の読み取り方についてより詳し くは、「KH Coderの本」第3章をご参照ください。 『社会調査のための計量テキスト分析 第2版』 (樋口耕一著,ナカニシヤ出版,2020) 第2版では、よりよい分析・活用の ために研究事例のレビューを増補し、 KH Coder 3にも対応しました。 謝辞 本チュートリアルの作成と改善にあたっては、立命 館大学産業社会学部ならびに大学院社会学研究科の 皆さまにご協力いただきました。 32