#7 データ型

>100 Views

September 07, 23

スライド概要

データサイエンス体験動画「データサイエンス チュートリアル 猫のタロー編」の第7回目は、「データ型」を説明します。Pandasでは、各列ごとにそれぞれデータ型を保持していて、データ型それぞれに合った処理方法が決められています。このデータ型を確認する方法と、データを読み込む時にデータ型を修正する方法を解説します。

⑨ 「データ名」.dtypes
⑩ pd.read_excel("データのある場所",
dtype = {"カラム名": データ型})

■この動画のブログ

データサイエンス チュートリアル
https://tutorial4datascience.blogspot.com/

profile-image

すべてのビジネスパーソンが意思決定プロセスにデータを活用する思考を身につけ、ブルシットジョブをこの世からなくしていきましょう!

Docswellを使いましょう

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

1 1st STEP ビッグデータの 読み込みとデータの確認 Section 5 データ型 ⑨ 「データ名」.dtypes ⑩ pd.read_excel("データのある場所", dtype = {“列名": データ型})

2.

2 Section 5 データ型 1.データ型 Pandasでは、各列ごとにそれぞれデータ型を保持しています。 データ型 意味 object 文字列 int64 整数 float64 浮動小数点 bool 真/偽 Datetime64[ns] 日付および時刻 timedelta 2つの日時の差 category 文字列のカテゴリ

3.

3 Section 5 データ型 ⑨ 「データ名」.dtypes PandasのDataFrameである「id_pos」のそれぞれの項目が、どのようなデータ型であるか を知るためには、⑨ を使います。dtypesの前にある「.」を忘れないようにしましょう!

4.
[beta]
4
Section 5 データ型

2.データ型と処理
Pandasでは、データ型それぞれに合った処理方法が決められています。プログラムがエ
ラーになる原因は、データ型に合った処理を行っていないことが多いものです。
例えば、「int64」のデータをカウント(個数を数える)を指示すると、エラーになります。
整数は加減乗除などの計算を行うものですから、個数を数えても意味はないからです。
ID-POS分析では、「CustomerID」、すなわち誰が購入したかが重要となってきますので、
その数をカウントすることがよく出てきます。id_posでは、「CustomerID」がfloat64型に
なっていますので、カウントできるようにobject型に修正する必要があります。
#4のプログラム「② pd.read_excel(‘データのある場所‘)」では、データ型を特に指示しま
せんでしたので、Pandasがデータ型を自動(適当に)で決めて読み込みました。「,」に
続けて、dtype = {"CustomerID": object}とすれば、「CustomerID」をobject型(文
字列)として読み込むことができます。

5.

5 Section 5 データ型 ⑩ pd.read_excel("データのある場所", dtype = {“列名": データ型}) 「CustomerID」をobject型(文字列)として読み込むために⑩を書いてみましょう。 「id_pos」と区別するために、「id_pos2」と名付けておきます。 なお、プログラムが横に長くなりますので、下記のように2行に分けて書きましょう。Python の場合、()内は、単語の途中以外、どこで改行しても構いません。

6.

6 Section 5 データ型 ⑩ pd.read_excel("データのある場所", dtype = {"カラム名": データ型}) ⑨を使って、「CustomerID」が、 「float64型」から「object型」に変わったことを確認しま しょう。

7.

7 Section 5 データ型 【参考】 read_excel(応用編) Excelデータの読み込みについて、「YutaKaのPython教室」が分かりやすくまとめています。 余力のある方は、下記のURLをクリックしてみて下さい! https://www.yutaka-note.com/entry/pandas_read_excel_1

8.

8 Section 5 データ型 【参考】 csvファイルの読み込み 読み込むデータは、Excelばかりではありません。各項目間がカンマ(,)で区切られたデータ 「csv(Comma Separated Values)」形式のデータも、よく使われます。 csvデータの読み込みは、⑩の「excel」の部分を「csv」に変えれば、読み込むことができます。 ⑩‘ pd.read_csv("データのある場所“) csvデータの読み込みについては、作者が謎の「note.nkmk.me」が分かりやすくまとめていま す。余力のある方は、下記のURLをクリックしてみて下さい! 「pandasでcsv/tsvファイル読み込み(read_csv, read_table)」 https://note.nkmk.me/python-pandas-read-csv-tsv/