#39 マスタを使って新たな列を追加

102 Views

November 07, 24

#Python #Pandas #データ分析 #ピボットテーブル #データ結合

スライド概要

今回は、私、小次郎が作成した都道府県別番号マスタを使って、都道府県別番号を都道府県名に変換していきます。

元データとマスタのように、2つのデータを共通な列名で結合する場合、「merge（マージ）」を使って、下記のようにプログラムを書きます。

●pd.merge(データ1, データ2, on=“列名”, how=‘結合方法’)

「データ1」を「left」、「データ2」を「right」と呼び、「on=」の次の列名には「left」と「right」に共通な列名を指定します。この共通な列名を「キー」と呼びます。

また、マージによる結合の仕方には、「キー」以外の列の要素（行）に関して、それぞれの行をどのように残すかにより次の４種類に分類できます。

① inner join（内部結合）→これはデフォルトとなります。
② left join（左結合）
③ right join（右結合）
④ outer join（外部結合）

************

★この動画のブログ

■ データサイエンスチュートリアル
https://tutorial4datascience.blogspot.com/

★参考資料

■ 都道県番号マスタ
https://docs.google.com/spreadsheets/d/1U8GBBfkfeVfRVhBriE2bFqd88fKtqrvR/edit?gid=742728719#gid=742728719

猫のタロー

@Cat_Taro

スライド一覧

すべてのビジネスパーソンが意思決定プロセスにデータを活用する思考を身につけるため、まずは、データサイエンスの分析を体験していきましょう。SECIモデルの最初の段階、共同化（Socialization）からはじめていきます。下記のブログで、ここにアップしたスライド、動画を随時、公開中です。【ブログ】https://tutorial4datascience.blogspot.com/ 【Youtubeチャンネル】https://www.youtube.com/@DataScience_for_everyone 【Kindle】そして、このブログをまとめて書籍にしました！　　https://amzn.to/4ryVppn 　　https://amzn.to/4pGgFb1

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

データサイエンス関連資格

猫のタロー 49.8K

データサイエンス関連の資格_後編

猫のタロー 4.2K

データサイエンス関連資格_前編

猫のタロー 2K

#73 【解決編】 PythonとPyCaretのバージョン問題

猫のタロー 1K

#32 NDBオープンデータとは

猫のタロー 650

#33 URLからデータを読み込む

猫のタロー 423

各ページのテキスト

1 3rd STEP 応用編医療 Section ８マスタを使って新たな列を追加【復習】 75 pd.pivot_table(データ名, index=“列名1” , columns=“列名2”,, values=“列名3” , aggfunc=’関数’, 他の引数) 91 pd.merge(データ1, データ2, on=“列名”, how=‘結合方法’)

2 Section ８マスタを使って新たな列を追加１．単年度のデータセットの作成まずは、年度ごとの分析をしていきますので、前回作成した「df2」（「医薬品名」ごとの「薬価」を算出した列「金額」を追加したもの）の令和2年度のみを抽出したデータセット「df3」を作成します。

3 Section 27 ピボットテーブル（１）基礎編の復習です！（Section 27）プログラム解説1 ピボットテーブル必須項目 Pandasの「pivot_table」は、クロス集計表を作成する機能を持つプログラムです。「pivot_table」は、大量のデータをすばやく集計でき、柔軟な（思い通りに）集計を行うことができます。 75 pd.pivot_table(データ名, index=“列名1” , columns=“列名2”,, values=“列名3” , aggfunc=’関数’, 他の引数) 列名1 「表側」、すなわち、「まとめる」項目にしたい列を指定。列名2 「表頭」すなわち、「分割」する項目にしたい列を指定。列名3 「計算する値」にしたい列を指定。「列名1」、「列名2」は、集計したい表によって、どちらかを省略することが可能です。 ■「列名1」を省略すると、表側は「列名3」になります。 ■「列名2」を省略すると、表頭は「列名3」になります。

4 Section ８マスタを使って新たな列を追加２．都道府県番号ごとの金額（薬剤費）の合計次に、都道府県ごとに使用された医薬品の合計金額（薬剤費の合計）を求めてみましょう。「pivot_table」を使い、 indexにはまとめる項目すなわち「都道府県番号」、values には計算する値すなわち「金額」、aggfuncは関数すなわち「合計」を指定して、下記のようにプログラムを書きます。「index」は、後にグラフを描きますので、リセットしておきましょう。

5 Section ８マスタを使って新たな列を追加３．「都道府県番号マスタ.xlsx」をマイドライブにアップロードするこの集計表は、「都道府県番号」になっていますが、わかりにくいので、「都道県番号」を「都道府県名」に置き換えていきます。小次郎が作成した「都道府県番号マスタ.xlsx」を使います。下記のURLに保管していますので、ダウンロードして、マイドライブの「分析.ipynb」と同じ階層にダウンロードしておきます。 https://docs.google.com/spreadsheets/d/1U8GBBfkfeVfRVhBriE2bFqd88fKtqrvR/edit?usp=sharing&ouid =106292536926943509337&rtpof=true&sd=true 都道府県番号マスタ.xlsx

https://docs.google.com/spreadsheets/d/1U8GBBfkfeVfRVhBriE2bFqd88fKtqrvR/edit?usp=sharing&ouid=106292536926943509337&rtpof=true&sd=true

6 Section ８マスタを使って新たな列を追加４．「都道府県別番号マスタ.xlsx」を読み込むマイドライブの「都道県別番号マスタ.xlsx」を読み込み、「kenbangou」と宣言します。この時、「都道府県番号」を整数型「int」で読み込みます。これは、後ほど、「都道府県番号」順にソートするためです。「index」は、リセットしておきましょう。

7 Section ８マスタを使って新たな列を追加プログラム解説1 merge（マージ） 2つのデータを2つのデータに共通な列名で結合する場合、「merge（マージ）」を使って、91のようにプログラムを書きます。これは、トランザクションデータにマスタを使って新たな列を追加するような場合によく使います。 ※ トランザクションデータ：業務や取引、システムの稼働状況などを記録したデータです。データベースを利用するほどデータ量が増えていき、日々の業務データでは膨大な量になります。 ※ マスタ：マスタデータを略したもので、業務で扱う基本データのこと（【例】商品マスタ、顧客マスタ、従業員マスタ、給与マスタ等）。 91 pd.merge(データ1, データ2, on=“列名”, how=‘結合方法’) 「データ1」を「left」、「データ2」を「right」と呼び、「on=」の次の列名には「left」と「right」に共通な列名を指定します。この共通な列名を「キー」と呼びます。この「キー」により、「left」と「right」のデータが結合されるのですが、「キー」が「left」にはあるが「right」に無い行が存在することもあります。その逆もあります。そこで、それぞれのデータの行をどのように残すのかを指示する方法が「how=‘結合方法’」です。次のページで解説しますが、何も指示しないと（デフォルト）、「キー」が「left」と「right」の両方にある行を残す「how=‘inner’」になります。

8 Section ８マスタを使って新たな列を追加プログラム解説2 merge（マージ）の結合方法マージによる結合の仕方には、「キー」以外の列の要素（行）に関して、それぞれの行をどのように残すかにより次の４種類に分類できます。 ① inner join（内部結合）→デフォルト leftとright両方に共通するキーを持つ要素（行）を残す pd.merge(データ1, データ2, how=‘inner’) ② left join（左結合） leftを基準に結合。rightにキーが存在しない要素（行）も残る。 pd.merge(データ1, データ2, how=‘left’) ③ right join（右結合） rightを基準に結合。leftにキーが存在しない要素（行）も残る。 pd.merge(データ1, データ2, how=‘right’) ④ outer join（外部結合） leftとrightのすべての要素（行）が残る。 pd.merge(データ1, データ2, how=‘outer’)

9 Section ８マスタを使って新たな列を追加５．「都道府県」の列を追加（１）「都道府県番号」をキーにして、元データの「df4」に「kenbangou」をマージ（結合）します。マージの結合方法は、「how=‘left’」とします。

10.

10 Section ８マスタを使って新たな列を追加６．「都道府県」の列を追加（２）ためしに、マージの方法を、inner join（内部結合）でやってみます。 inner joinはデフォルトなので、「how」以下を記載しない「df5_1」を作ってみます。先ほどの「df5」と同じように結合データができました。

11.

11 Section ８マスタを使って新たな列を追加７．集計表を都道府県番号順に並べ替える細かいことですが、北海道の次に群馬県が来る表は、見にくいので、Section 20の「⑰ データ名.sort_values(“列名”)」を使って、ソートします。後々使うので、「inplace=True」も加えておきます。