#20 データを分割するビニング

>100 Views

September 07, 23

#Python #pandas #データ分析 #ビニング #特徴量エンジニアリング

スライド概要

Section 17では、データに含まれていた時間の「ドリルダウン」、すなわち「年」から「年月」への「ドリルダウン」を行いましたが、このセクションでは、「ドリルダウン」するための数値を新たに作っていきます。

「商品」に属する「UnitPrice（単価）」を、顧客の特徴をよく表すように分割（これを「ビニング」と言います）する方法を身に付けましょう。

それらを実現するプログラムは下記の７つです。

㊺ pd.cut( データ名[“列名”], 分割数, precision=□, right=True )

㊻ pd.cut( データ名[“列名”], 分割数 ). value_counts()

㊼ pd.cut( データ名[“列名”], [数字1, 数字2, 数字3] )

㊽ pd.cut( データ名[“列名”], [数字1, 数字2, 数字3]
, labels=[ラベル1, ラベル2, ラベル3] )

1st STEP同様、動画のテキスト、追加情報は下記のブログを参考にしてください！

■この動画のブログ

データサイエンスチュートリアル
https://tutorial4datascience.blogspot.com/

■参考URL

●ビニングに関しては、Smart-Hintが運営している「データをビニング（ビン分割）する方法｜cut」がとってもわかりやすかったので、参考にしてみてはいかがでしょうか。

https://smart-hint.com/python/cut/

●フリーランスのサウンドクリエータ「パンダの中のパンダ」さんがやっている「【AIプログラミング】ビニングでボストン住宅価格の回帰」が役に立つと思いますので、下記を参考にしてみてくださいね。

https://panda-clip.com/binnning-boston/

猫のタロー

@Cat_Taro

スライド一覧

すべてのビジネスパーソンが意思決定プロセスにデータを活用する思考を身につけるため、まずは、データサイエンスの分析を体験していきましょう。SECIモデルの最初の段階、共同化（Socialization）からはじめていきます。下記のブログで、ここにアップしたスライド、動画を随時、公開中です。【ブログ】https://tutorial4datascience.blogspot.com/ 【Youtubeチャンネル】https://www.youtube.com/@DataScience_for_everyone 【Kindle】そして、このブログをまとめて書籍にしました！　　https://amzn.to/4ryVppn 　　https://amzn.to/4pGgFb1

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

データサイエンス関連資格

猫のタロー 49.8K

データサイエンス関連の資格_後編

猫のタロー 4.2K

データサイエンス関連資格_前編

猫のタロー 2K

#73 【解決編】 PythonとPyCaretのバージョン問題

猫のタロー 1K

#32 NDBオープンデータとは

猫のタロー 650

#33 URLからデータを読み込む

猫のタロー 423

各ページのテキスト

1 2nd STEP 集計とグラフ描画 Section 18 データを分割するビニング㊺ pd.cut( データ名[“列名”], 分割数, precision=□, right=True ) ㊻ pd.cut( データ名[“列名”], 分割数 ). value_counts() ㊼ pd.cut( データ名[“列名”], [数字1, 数字2, 数字3] ) ㊽ pd.cut( データ名[“列名”], [数字1, 数字2, 数字3] , labels=[ラベル1, ラベル2, ラベル3] )

2 Section 18 データを分割するビニング Section 16では、データに含まれていた時間の「ドリルダウン」、すなわち「年」から「年月」への「ドリルダウン」を行いましたが、このセクションでは、「ドリルダウン」するための数値を新たに作っていきます。まずは、「商品」に属する「UnitPrice（単価）」を、顧客の特徴をよく表すように分割（これを「ビニング」と言います）する方法を身に付けましょう。ビニング商品 UnitPrice（単価）商品 UnitPrice（分割）

3 Section 18 データを分割するビニング１．データを等間隔でビニングする「12歳、24歳、28歳、39歳、32歳」を「10代1人、20代2人、30代2人」とすることにより、データをまとめて、わかりやすく処理することができます。このように、データの変数を分割することを「ビニング処理」と言います。ある集合のことを「ビン」と言い、ビンに分けるという意味でビニングと言います。ここでは、最大値と最小値の間を等間隔で分割するプログラムは下記のようになります。 pd.cut( データ名[“列名”], 分割数）これだけでもいいのですが、細かく分割の方法を指定することもできます。「precision=□」で小数点以下何桁までの単位で分割するかを指定することができます。何も指定しないと、「precision=3」、すなわち小数点3桁までの単位で分割します。「right=True」の場合、区分を「○○より大きく、△△以下」に、「right=False」の場合、区分を「○○以上、△△未満」に分割します。何も指定しないと、「right=True」となりますので、区分を「○○より大きく、△△以下」に分割します。まとめると、㊺のようになります。㊺ pd.cut( データ名[“列名”], 分割数, precision=□, right=True )

4 Section 18 データを分割するビニング２．ビニングの結果㊺の結果は、インデックスごとに下記のように表記されます。「right=」を何も指定しないと、「right=True」となりますので、区分を「○○より大きく、△△以下」に分割します。（数字1, 数字2] → 「数字1より大きく、数字2以下」負の数字が入っているのは、最大値と最小値の間を等間隔で分割したためです。 -38.97 < x ≦7794.0 ここにすべてのビンが表記されます。

5 Section 18 データを分割するビニング３．ビン（集合）ごとの出現回数を算出する㊺に、「.」で続けて「value_counts」を書くことで、ビンごとの出現回数を算出することができます。㊻ pd.cut( データ名[“列名”], 分割数 ). value_counts()

6 Section 18 データを分割するビニング４．区分を指定してビニングする㊺のように等間隔で分割する数を指定するだけでなく、区切る境界を指定することもできます。その場合は、区切る境界を「リスト」で指定します。リストは、[ ]で囲んで、任意の型（整数、浮動小数点数、文字列など）の要素を格納できます。要素には順序があり、インデックスを用いて要素を指定できます（*Section 8の参考を参照）。㊼ pd.cut( データ名[“列名”], [数字1, 数字2, 数字3] ) この場合、数字3より大きい値（範囲外）の要素は「NaN」になります。また、㊼でも、「precision=□」「right=False」は、使用できます。㊺ pd.cut(データ名[“列名”], 分割数) [数字1, 数字2, 数字3]

7 Section 18 データを分割するビニング５．区分にラベルを付ける分割した区分にラベル（名前）を付けることも可能です。その場合は、㊼の ( ) 内、カンマに続けて「labels=[ ラベルの名称 ]」を書きます。 [ ラベルの名称 ]は、リストにして自由に決めることができます。㊽ pd.cut( データ名[“列名”], [数字1, 数字2, 数字3] , labels=[ラベル1, ラベル2, ラベル3] ) この際、区分の個数とラベルの個数を同一にすることが必要です。また、「labels=False」とすると、「0」始まりの連番を振ることができます。ビニングに関しては、Smart-Hintが運営している「データをビニング（ビン分割）する方法｜cut」がとってもわかりやすかったので、参考にしてみてはいかがでしょうか。 https://smart-hint.com/python/cut/

https://smart-hint.com/python/cut/

8 Section 18 データを分割するビニング㊺ pd.cut( データ名[“列名”], 分割数, precision=□, right=True ) 1st STEPで作成した「id_pos5」に、「Total」、「Month」、「Year」を付加した「id_pos7」の「UnitPrice（単価）」に関して、その最大値と最小値の間を等間隔で分割するプログラム㊺を書いていきましょう。解説部で説明したとおり、結果は下記の通りになります。 -38.97 < x ≦7794.0 ここにすべてのビンが表記されます。

9 Section 18 データを分割するビニング㊻ pd.cut( データ名[“列名”], 分割数 ), value_counts() 次に、㊺を用いて、ビンごとの出現回数を算出してみましょう。 -39 ＜ x ≦7794の範囲に入るものが406,826個、その他は３個しかありません。

10.

10 Section 18 データを分割するビニング㊼ pd.cut( データ名[“列名”], [数字1, 数字2, 数字3] ) 今度は、㊼を用いて、(0, 5] 、(5, 10] 、(10, 15] 、(15, 20] 、(20, 25]の５つのビン（集合）に分割してみましょう。いい感じに分割できました。

11.

11 Section 18 データを分割するビニング㊽ pd.cut( データ名[“列名”], [数字1, 数字2, 数字3] , labels=[ラベル1, ラベル2, ラベル3] ) 次に、先ほどビニングした５つのビン（集合）に、それぞれ「“-5”」、「5-10」、「10-15」、「15-20」、「-25」というラベルを付与しましょう。ラベルの数とビンの数は同じになるように注意しましょう。

12.

12 Section 18 データを分割するビニング参考ビニングは、機械学習にもよく用いられる「特徴量エンジニアリング」と呼ばれる手法の一つですから、本格的にPythonを極めたい方もしっかりと身に付けていきましょう。フリーランスのサウンドクリエータ「パンダの中のパンダ」さんがやっている「【AIプログラミング】ビニングでボストン住宅価格の回帰」が役に立つと思いますので、下記を参考にしてみてくださいね。 https://panda-clip.com/binnning-boston/

https://panda-clip.com/binnning-boston/