#6 読み込んだデータの確認(2)

>100 Views

September 07, 23

スライド概要

データサイエンス体験動画「データサイエンス チュートリアル 猫のタロー編」の第6回目は、読み込んだデータの確認(2)を説明します。今回は、下記のプログラムを使って、データのサイズを取得する方法を解説します。

⑥ len(データ名.index)
⑦ データ名["カラム名"]
⑧ データ名["カラム名"].unique()

また、理解を深めるために、下記の知識を身に付けていきます。

●Pandasのデータ構造「Series」と「DataFrame」
●データの個数の数え方:「のべ」と「ユニーク」の違い

■この動画のブログ

データサイエンス チュートリアル
https://tutorial4datascience.blogspot.com/

profile-image

すべてのビジネスパーソンが意思決定プロセスにデータを活用する思考を身につけ、ブルシットジョブをこの世からなくしていきましょう!

Docswellを使いましょう

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

1 1st STEP ビッグデータの 読み込みとデータの確認 Section 4 読み込んだデータの確認(2) ⑥ len(データ名.index) ⑦ データ名[“列名"] ⑧ データ名[“列名"].unique()

2.

2 Section 4 読み込んだデータの確認(2) 1.その他のデータの確認 前Sectionで行った目視確認の他、データを確認する主な方法には、下記の3つがあ ります。 ⑥ len(データ名.index) →行数を数える時に使います。 ⑦ データ名["列名"] →列のことをカラムともいい、特定のカラムにどのようなデータがあるかを確かめるには このプログラムを使います。「” “」は「’ ‘」でも構いません。 ⑧ データ名["列名"].unique() →該当するカラムの重複を避け、カラムの一覧を見るためには、次のようなプログラム を使います。「” “」は「’ ‘」でも構いません。 また、⑥と⑧を同時に処理する下記の方法も身に付けていきましょう。 len(データ名["列名"].unique())

3.

3 Section 4 読み込んだデータの確認(2) ⑥ len(データ名.index) 新しい「コードセル」に、⑥を書いていきましょう。データ名は、「id_pos」ですね。( ) 内に、 データ名、ドット、indexと続けます。 「ドット、index」を省略して「len(データ名)」としても同じように行数が出ます。 ★前Sectionで確認したように、541,909行のデータであることが分かります。

4.

4 Section 4 読み込んだデータの確認(2) 【参考】 データ(DataFrame)のサイズを取得する方法 「len」の他にも、 列数などのDataFrameのサイズを取得する方法は、いくつかあります。 ●len(データ名. columns) 列数を取得できます。 ●データ名.shape 行数と列数を取得できます。 ●データ名.size 行数 × 列数の値を取得できます。 ●データ名.info() 行数・列数や全体のメモリ使用量、各列のデータ型や欠損値ではない要素の数などの 情報を表示できます。

5.

5 Section 4 読み込んだデータの確認(2) ⑦ データ名["列名"] 一番右寄りの列「Country」の列だけを取り出すために、 ⑦を書いていきましょう。 「[」を入力すると、自動的に「[ ]」のように囲ってくれます。便利ですね。 「”」も同様です。 ③の結果の「Country 」列と同様であることがわかりますね。

6.

6 Section 4 読み込んだデータの確認(2) 【参考】 SeriesとDataFrame id_pos[“Country”] を実行した結果は、表がDataFrameに比べてシンプルな感じの表記 になっています。これは、PandasのSeriesというデータ構造になっているからです。 実は、Pandasのデータ構造には、#5で解説したDataFrameと今回出てきたSeriesの2種 類があります。 Series DataFrame 一次元データ (列のみ、行のみ) 二次元データ (行と列) また、pd.DataFrame(データ名 or データの一部) とすれば、結果をDataFrameで取得するこ とができます。この場合は、pd.DataFrame(id_pos[“Country”])と書きます。 SeriesとDataFrameの返還に関しては、下記のURLを参考にしてください。 https://note.nkmk.me/python-pandas-dataframe-series-conversion/

7.

7 Section 4 読み込んだデータの確認(2) ⑧ データ名[“列名"].unique() 「Country」(顧客が居住する国)は重複して出てきますが、全部で何カ国の顧客がい るのか調べるため、 ⑧を書いていきましょう。 これは、データを確認するときは、よく使う手法です。 このまま数を数えても構わないのですが、やや多いので、 次のプログラムで算出しましょう。

8.

8 Section 4 読み込んだデータの確認(2) ⑥+⑧ 「⑥ len(データ名.index)」と「⑧ データ名[“列名”].unique()」を同時に処理してみましょ う。その場合、lenに続く()内に、「データ名[“列名”].unique()」を挿入します。 len(id_pos[“Country”]. unique()) わりと直感的に、プログラムが浮かぶのではでしょうか?これが、Pythonの良さです。

9.

9 Section 4 読み込んだデータの確認(2) 【参考】 データの個数の数え方 データの個数の数え方には、「のべ」と「ユニーク」があります。その違いは、下記のようになります。 A,A,B,C,C,A,C,B のべ 8個 出現した数 ユニーク 3個 何種類か