>100 Views
September 06, 23
スライド概要
「データサイエンス チュートリアル」は、1st STEPとして「ビッグデータの読み込みとデータの確認」、2nd STEPとして「集計とグラフ描画」から成り立っています。まずは、1st STEP「ビッグデータの読み込みとデータの確認」を習得していきましょう。
猫のタロ-の経験ですが、データ分析の第1歩は、まずはデータを読み込み、そのデータを眺めてみることから始まります。1st STEPは、ここを徹底的にマスターすることが目標です。このことにより、Pythonの基本的な操作も身に付きます。
また、この「チュートリアル」で分析対象となるのは「ID-POSデータ」と呼ばれるもので、具体的には、nanaco、WAON等の電子マネーの購入履歴データ等のことです。「POSデータ」は、「何が、いつ、いくつ、いくらで売れたのか」が記録された情報ですが、ここに「誰に(売れたのか)=誰が(買ったのか)」という情報が追加されると「ID-POSデータ」になります。マーケティングでは、既に顧客分析の主流となっていますし、IDにいくつかの項目が横に並んでいるデータ構造は応用範囲が広いものです。
Pythonは、無償で、コードが読み書きしやすく学びやすいプログラミング言語で、数値計算・データ解析・機械学習の開発に特化した専門性の高いライブラリが豊富なことから、世界中で利用者が多く、ネット上には豊富なコンテンツが存在します。また、PythonはAI分野の開発の主要言語です。
Pythonのプログラミングを開発する環境としては、 Google Colaboratory(以下Colab/コラボ)を使用します。
Colabは、Google IDを持っていれば、すべての機能を無料で使うことができ、Googleドライブと連携もできますので、プログラムをGoogleドライブに保存しておけば、ネット環境がある場所なら自宅でも、外出先でも気が付いた時にプログラムを新規作成、修正することができます。はじめてPythonを学習する際には最適です。また、機械学習など重い処理がハイスピードで行える GPU まで無料で使えますので、実用でも十分に使えます。
1 1st STEP ビッグデータの 読み込みとデータの確認 2nd STEP 集計とグラフ描画 「データサイエンス チュートリアル」は、1st STEPとして「ビッグデータの読み込みとデータ の確認」、2nd STEPとして「集計とグラフ描画」から成り立っています。まずは、1st STEP「ビッグデータの読み込みとデータの確認」を習得していきましょう。
2 1st STEP ビッグデータの 読み込みとデータの確認 猫のタロ-の経験ですが、データ分析の第1歩は、まずはデータを読み込み、そのデータを眺 めてみることから始まります。1st STEPは、ここを徹底的にマスターすることが目標です。この ことにより、Pythonの基本的な操作も身に付きます。 また「データサイエンス チュートリアル」で分析対象となるのは「ID-POSデータ」と呼ばれるもの で、具体的には、nanaco、WAON等の電子マネーの購入履歴データ等のことです。「POS データ」は、「何が、いつ、いくつ、いくらで売れたのか」が記録された情報ですが、ここに「誰に (売れたのか)=誰が(買ったのか)」という情報が追加されると「ID-POSデータ」になりま す。マーケティングでは、既に顧客分析の主流となっていますし、IDにいくつかの項目が横に 並んでいるデータ構造は応用範囲が広いものです。 ※ ID-POSの分かりやすい活用方法については、下記を参照してください。 https://www.truedata.co.jp/idpos/
3 1st STEP ビッグデータの 読み込みとデータの確認 POSデータ レコードNo レシートNo 日付 時間 店舗 レジ JANコード 価格 個数 0001 100002 20200125 10:15:45 AM 15001 22 4935170123548 298 1 0002 100002 20200125 10:15:45 AM 15001 22 4924563583456 198 1 0003 100002 20200125 10:15:45 AM 15001 22 4989754987633 98 2 0004 100002 20200125 10:15:45 AM 15001 22 4923412123544 276 2 0005 100003 20200125 11:02:15 AM 15001 08 4987591123542 298 3 0006 100003 20200125 11:02:15 AM 15001 08 4909123723541 598 1 ID-POSデータ レコードNo nanacoID レシートNo 日付 時間 店舗 レジ 商品名 価格 個数 0001 20897762 100002 20200125 10:15:45 AM 15001 22 4935170123548 298 1 0002 20897762 100002 20200125 10:15:45 AM 15001 22 4924563583456 198 1 0003 20897762 100002 20200125 10:15:45 AM 15001 22 4989754987633 98 2 0004 20897762 100002 20200125 10:15:45 AM 15001 22 4923412123544 276 2 0005 48903546 100003 20200125 11:02:15 AM 15001 08 4987591123542 298 3 0006 48903546 100003 20200125 11:02:15 AM 15001 08 4909123723541 598 1
4 1st STEP ビッグデータの 読み込みとデータの確認 「データサイエンス チュートリアル」では、プログラミング言語としてPython(パイソン)を選択 しました。 Pythonは、無償で、コードが読み書きしやすく学びやすいプログラミング言語で、数値計算・ データ解析・人工知能・機械学習の開発に特化した専門性の高いライブラリが豊富なことか ら、世界中で利用者が多く、ネット上には豊富なコンテンツが存在します。また、PythonはAI 分野の開発の主要言語です。 Pythonのプログラミングを開発する環境としては、 Google Colaboratory(以下Colab /コラボ)を使用します。 Colabは、 Google IDを持っていれば、すべての機能を無料で使うことができ、Googleドライ ブと連携もできますので、プログラムをGoogleドライブに保存しておけば、ネット環境がある場 所なら自宅でも、外出先でも気が向いた時にプログラムを新規作成、修正することができま す。はじめてPythonを学習する際には最適です。さらに、機械学習など重い処理がハイス ピードで行える GPU まで無料で使えますので、実用でも十分に使えます。