>100 Views
September 07, 23
スライド概要
データサイエンス体験動画「データサイエンス チュートリアル 猫のタロー編」の第8回目は「列の参照」です。
Section 3と4では、データ全体を確認することを習得しましたが、ここでは、特定の列を選んで、確認する方法を解説します。
■この動画のブログ
データサイエンス チュートリアル
https://tutorial4datascience.blogspot.com/
ちょっと編集ミスがありましたので、差し替えます!いかん!ひげ、残ってた…。
1 1st STEP ビッグデータの 読み込みとデータの確認 Section 6 列の参照 ⑪ データ名[“列名”] ⑫ データ名[[“列名”]] ⑬ データ名[データ名[“列名”] > 数字]
Section 6 列名の参照 1.列の参照(列名) 見てみたい列名のデータを取り出すことは、参照といい、DataFrameにおいては、次のよ うな方法があります。 ⑪ データ名[“列名”] →これで列を選択できます。選択した列は一次元データを表すSeries (Section 4を参照)となります。「データ名.列名」でも可。 ⑫ データ名[[“列名”]] →これで列を選択できます。選択した列は二次元データを表すDataFrame (Section 4を参照)となります。データ名[[“列名1”, “列名2”]] のように、複 数の列を参照することもできます。この際、データ名[“列名1”, “列名2”]では、 エラーとなってしまいます。データ名[“列名”]は、 Series、すなわち、一次元の データしか参照できないからです。
Section 6 列名の参照 2.列の参照(比較演算子) Pandasの列がデータ型が整数や浮動小数点の場合は、列名を指定して、比較演算 子(値の比較等)を書くことによって、その列の条件に当てはまる行のみを参照すること ができます。 ⑬ データ名[データ名[“列名”] > 数字] →列のうち、「数字」以上の要素を持つ行を選択できます。選択されたデータは二次 元データを表すDataFrameとなります。
4 Section 6 列名の参照 ⑪ データ名[“列名”] 列名「CustomerID」のデータを参照(取り出して)みましょう。 長いので、Section3 ④の「.head()」を組み合わせてみましょう。データ型(dtype)は、float64になってい ます。 選択した列は一次元データを表すSeries(Section 4を参照)となります。
5 Section 6 列名の参照 ⑪’ データ名.列名 列名「CustomerID」のデータを「データ名.列名」でも参照(取り出して)みましょう。 データ型(dtype)は、float64になっています。 こちらも、選択した列は一次元データを表すSeries(Section 4を参照)となります。
6 Section 6 列名の参照 ⑫ データ名[[“列名”]] 列名「CustomerID」のデータを参照(取り出して)みましょう。 今度は、[[ ]]で列名 をくくって、DataFrameの形でデータを参照しましょう。
7 Section 6 列名の参照 ⑫‘ データ名[[“列名1”], [“列名2”]] 今度は、列名「CustomerID」と「Country」のデータを同時に参照みましょう。 データ型は、DataFrameになります。
8 Section 6 列名の参照 ⑬ データ名[データ名[“列名"] > 1000] ⑬を使って、「Quantity」が1,000以上、すなわち、1回の注文で1,000個より多いもの を参照しましょう。 全部で、116個ありました。
9 Section 6 列名の参照 ⑥’ len(データ名[データ名[“列名"] > 1000]) ⑥を使って、「Quantity」が1,000以上、すなわち、1回の注文で1,000個より多い注文 が何回あったのかを確認してみましょう。( )内⑬をそのまま記載します。 Pythonの自由な文法が、ありがたく感じられます。 前ページで参照したDataFameの行数と一致していますね。
10 Section 6 列名の参照 【参考】 比較演算子 ⑬の他にもPythonでは、下記のような比較演算子を使うことができます。 比較演算子 意 味 x == y x と y が等しい x! = y x と y が等しくない x>y x は y よりも大きい x<y x は y よりも小さい x >= y x は y と等しいか大きい x <= y x は y と等しいか小さい x in y x という要素 が y に存在する x not in y x という要素 が y に存在しない