>100 Views
September 07, 23
スライド概要
データサイエンス体験動画「データサイエンス チュートリアル 猫のタロー編」は、2nd STEPに進みます!今回は、2nd STEP「集計とグラフ描画」のオリエンテーションです。
2nd STEP「集計とグラフ描画」の最初は、通算第15回目、Section 13「どのような集計をして、グラフを描くのか?」です。
これから、1st STEPで作成した「id_pos4」、いわゆる「きれいなデータ」を用いて、データの見える化、および報告書・会議用資料などのレポーティング用の集計を行っていきます。
様々なグラフの描き方、集計表形式がありますが、ビッグデータが格納されている「OLAP」で用いられている標準的な分析法に沿って解説していきます。「OLAP」の解説は後程行います。これらは応用範囲が広いため、他のデータでも活用できます。
また、「seaborn」を用いて、インパクトのあるグラフを少ないコードで描いていきます。グラフによるデータの見える化で、より深い洞察が得られることと思います。
■この動画のブログ
データサイエンス チュートリアル
https://tutorial4datascience.blogspot.com/
1 2nd STEP 集計とグラフ描画 Section 13 どのような集計をして、グラフを描くのか?
2 Section 13 どのような集計をして、グラフを描くのか? これから、1st STEPで作成した「id_pos4」、いわゆる「きれいなデータ」を用いて、データ の見える化、およびレポーティング用(報告書・会議用資料)の集計を行っていきます。 様々なグラフの描き方、集計表形式がありますが、ビッグデータが格納されている「OLAP」 (後述)で用いられている標準的な分析法に沿って解説していきます。これらは応用範 囲が広いため、他のデータでも活用できます。 また、「seaborn」を用いて、インパクトのあるグラフを少ないコードで描いていきます。グラフ によるデータの見える化で、より深い洞察が得られることと思います。 Let′s go!
3 Section 13 どのような集計をして、グラフを描くのか? 1.id_pos4のデータ項目 「id_pos4」のデータ項目(列名)は、上記のようになっていますが、これをまとめると下 記のようにグループ化できます。 時 間 顧 客 商 品 InvoiceNo CustomerID Quantity InvoiceDate Country StockCode Description UnitPrice
4 Section 13 どのような集計をして、グラフを描くのか? 2.OLAP (OnLine Analytical Processingの略、オーラップと呼ぶ) 売上報告、市場分析、経営報告、ビジネス業績管理に使われるデータは、「OLAP」と 呼ばれるビッグデータを高速、高機能なシステムに格納されることが一般的です。 「OLAP」 の考え方は、*BIツールにも使われています。 「id_pos4」も、 「OLAP」に格納することができます。データの塊は、ルービックキューブに 似ていますね。 「OLAPキューブ」と呼びます。 顧 客 *BIツール:企業が持つさまざまなデータ を分析・見 える化して、経営や業務に役 立てるソフトウェアのことです。 BIはビジネス インテリジェンス、つまり、ビジネスの意思決 定に関わる情報という意味です。 顧 客 商 品 商 品 Qlik Sense、Tableau、Power BI、 MotionBoard などの製品があります。 時 間 時 間
5 Section 13 どのようなグラフを描くのか? 3.OLAPキューブの分析手法 「OLAPキューブ」は、下記の4つの方法、もしくは、4つを組み合わせて分析していきます。 数多くの集計結果を作成しながら、「売上の低迷」や「売れ筋」などを明らかにしていくのが、 データサイエンティストの仕事です。強い忍耐力が必要なのですが、好奇心や真理を追究 したいという気持ちが忍耐力の源泉になっています。 ドリルダウン・アップ 階層になったデータを掘り下 げて詳細表示 【例】年→四半期→月→ 日、顧客の国→顧客の組 織→個人 ダイジング サイコロを転がすイメージで、 縦軸と横軸を自由に指定 し観点を切り替えて解析す る手法 【例】商品と時間 or 商品 と顧客など スライシング ドリルスルー 集計項目を縦軸・横軸に 指定して2次元の表を作 成すること。 集計(合計)データの 内訳(明細表)を表示 させること。 【例】縦軸/商品・横軸: 時間 or 縦軸/商品・横 軸:顧客など 【例】商品ごとの売上明細、 顧客ごとの売上明細
6 Section 13 どのような集計をして、グラフを描くのか? 4.2nd STEPの進め方(1) 「OLAPキューブ」の分析法に準じて、下記の方法を取り入れながら集計を進め、それぞれ の「売上額」(変数)の変化を見ていきます。 ① スライシング 時 間 データ項目を2つのグループから選ぶ 顧 客 時 間 商 品 顧 客 ②ドリルスルー&ドリルダウン・アップ ドリルスルーでデータを確認し、必要に応じてドリルダウン・アップする 時 間 顧 客 日 ③ダイジング 時 間 顧 客 時 間 年 個人 国別 2つのグループを変更する 顧 客 時 間 商 品
7 Section 13 どのような集計をして、グラフを描くのか? 5.2nd STEPの進め方(2) 集計結果を直感的に理解するために、グラフ化も行います。 グラフ化で使うライブラリは、「seaborn」です。「matplotlib」よりもユーザーが少ないのです が、細かい指示をプログラムに書かなくとも、勝手にグラフを描いてくれます。 実は、「seaborn」は「matplotlib」を基にして動くのですが(*ラッパー/wrapper)、 一部「matplotlib」も使うので、この2つは同時にインポートしましょう。 *ソフトウェアやプログラム部品などが提供するクラスや関数、データ 型などを、本来とは異なる環境や方法で利用できるようにしたもの。 何はともあれ、とてもインパクトのあるグラフを簡単に描くことができますので、是非、身に付 けていきましょう!