#34 データの修正・保存

280 Views

February 28, 24

#データ分析 #データ加工 #Python #医療データ #データ保存

スライド概要

今回は、NDBオープンデータのホームページにあるデータを一気に保存します。その前にデータ型の変更や、結合した時にどのファイルだったかをわかるように、フラグを立てておきます。

そのために、下記のようなプログラムを解説していきます。

● 要素がすべて同じ文字からなる列を追加する
　　データ名[[“列名1”, “列名2”, …]] = [“文字1”, “文字2”, …]

● データ型を変更する（復習）
　　⑱ データ名.astype({“列名1”:データ型, “列名2”:データ型,…})

★この動画のブログ

■ データサイエンスチュートリアル
https://tutorial4datascience.blogspot.com/

猫のタロー

@Cat_Taro

スライド一覧

すべてのビジネスパーソンが意思決定プロセスにデータを活用する思考を身につけるため、まずは、データサイエンスの分析を体験していきましょう。SECIモデルの最初の段階、共同化（Socialization）からはじめていきます。下記のブログで、ここにアップしたスライド、動画を随時、公開中です。【ブログ】https://tutorial4datascience.blogspot.com/ 【Youtubeチャンネル】https://www.youtube.com/@DataScience_for_everyone 【Kindle】そして、このブログをまとめて書籍にしました！　　https://amzn.to/4ryVppn 　　https://amzn.to/4pGgFb1

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

データサイエンス関連資格

猫のタロー 49.8K

データサイエンス関連の資格_後編

猫のタロー 4.2K

データサイエンス関連資格_前編

猫のタロー 2K

#73 【解決編】 PythonとPyCaretのバージョン問題

猫のタロー 1K

#32 NDBオープンデータとは

猫のタロー 652

#33 URLからデータを読み込む

猫のタロー 423

各ページのテキスト

1 3rd STEP 応用編医療 Section 3 データの修正・保存 84 データ名[[“列名1”, “列名2”, …]] = [“文字1”, “文字2”, … ] 84’ データ名[[“列名1”, “列名2”, …]] = [数字1, 数字2, …]

2 Section 3 データの修正・保存１．データ型の確認前回、読み込んだデータのデータ型を確認します。 ●「薬効分類」、「薬効分類名称」、「医薬品コード」、「医薬品名」、「薬価基準収載医薬品コード」、「後発品区分」は、記号ですから文字列型（object、正確にはstr） ● 「総計」、「都道府県番号」の列は薬価（医薬品の価格）ですから、浮動小数点（float）にしておかないと、後々の集計プログラムがうまく作動しません。ただし、「総計」、「都道府県番号」の列は、一見して浮動小数点になっていますので、データ型はそのままにしておきます。これは、欠損値（NaN）が混ざっているために起こります。後でまとめて欠損値の処理を行います。欠損値が混ざっていると、dtypesで求めたデータ型は objectと表示されます（1st STEP 「Section 5 データ型」を参照）。

3 Section 3 データの修正・保存２．データ型の変更 1st STEPで習得した⑱を用いて、データ型を修正します。 ⑱ データ名.astype({“列名1”:データ型, “列名2”:データ型, …}) ※ 列名「薬効分類」が小数点以下が「0」になっていて見にくいのですが、後で修正します。

4 Section 3 データの修正・保存プログラム解説1 列を追加要素がすべて同じ文字からなる列を追加するには、プログラム84を用います。 84 データ名[[“列名1”, “列名2”, …]] = [“文字1”, “文字2”, …] ちなみに、同じ数字（整数や浮動小数点）からなる列を追加する場合は、下記のようになります。 84’ データ名[[“列名1”, “列名2”, …]] = [数字1, 数字2, …]

5 Section 3 データの修正・保存３．列の追加「Section 1」スライド8には24個のExcelファイルがあります。最終的には、それらを結合して一つのデータを作成しますので、「年度」や「剤型と医薬品の購入場所」がわかるように列を追加しておきます。これを「フラグを立てる」と言います。

6 Section 3 データの修正・保存４．データの保存 Googleドライブ内に「データ」フォルダーを作成し、出来上がったデータに「H26_内服外来院内」という名称を付けて、csv形式で保存します。

7 Section 3 データの修正・保存５．他のデータの読み込み・修正・保存以下、「Section 1」スライド8のURLを、順次読込んでいきます。全部で24個！頑張りましょう。プログラム内に、「#H26」等と年を記載しておくとわかりやすくなります。 ※第1回目だけが「外来院内」と「外来院外」の順番が異なっていることに注意しましょう。