195 Views
September 07, 23
スライド概要
データサイエンス体験動画「データサイエンス チュートリアル 猫のタロー編」の第4回目は、ライブラリの選択とデータの読み込みを説明します。今回は、下記のプログラムを使って、ライブラリの選択とデータを読み込む方法を解説します。
① import ライブラリ名 as ライブラリの略称
② pd.read_excel('データのある場所')
■この動画のブログ
→動画に出てくる資料をゆっくりと閲覧できます!
データサイエンス チュートリアル
https://tutorial4datascience.blogspot.com/
■動画に出てきたリンク先
【超簡単】GoogleColabでGoogleドライブをマウント
https://kenko-keep.com/google-colab-mount/
1 1st STEP ビッグデータの 読み込みとデータの確認 Section 2 ライブラリの選択とデータの読み込み ① import ライブラリ名 as ライブラリの略称 ② pd.read_excel('データのある場所/データ名.xlsx ')
2 Section 2 ライブラリのインポートとデータの読み込み 1.ライブラリとは? Pythonには、分析に必要な機能や関数をひとまとまりにしたライブラリが存在しています。 ライブラリとは、汎用性の高い複数の関数やクラスなどを再利用可能な形でひとまとまり にしたもので、Python の世界ではパッケージとも呼ばれます。 NumPy ナムパイ Python で三角関数、ベクトル演算などの数値計算を高速に行うためのライブラリ。 略称は、「np」 Pandas パンダス データ解析を支援する機能を提供するライブラリ。特に、表計算および時系列 データを操作するためのデータ構造と演算を提供します。 略称は、「pd」
3 Section 2 ライブラリのインポートとデータの読み込み 2.ライブラリのインポート(1) 分析をする際は、まずは、必要なライブラリーをインポートしなくてはなりません。ここでは、 NumPyとPandasをインポートしましょう! ライブラリのインポートの方法は、①のように書きます。 ① import ライブラリ名 as ライブラリの略称 前回作成したノートブック「ビッグデータの読み込みとデータの確認」を開き、下記のように 書きましょう。
4 Section 2 ライブラリのインポートとデータの読み込み 2.ライブラリのインポート(2) 「enter」+「shift」を同時に押すと、 の周りに点線と実線の円が現れ、その後、 「コードセル」 の左側にチェックマークと「0秒」という数字が表れます。 これで、ライブラリのインポートをすることができました。
5 Section 2 ライブラリのインポートとデータの読み込み 3.マイドライブのマウント 画面左のファイルメニューの をクリックするとコラボで使うファイル一覧が出てきます。こ こには、 「Online Retail.xlsx」 を保存した「マイドライブ」が表示されていません。 下記の で囲まれた いいます)! をクリックしましょう(この操作は「マイドライブをマウントする」と
6 Section 2 ライブラリのインポートとデータの読み込み 【参考】 マイドライブのマウント マイドライブのマウントを行う時に、下記のようになる場合があります。 その際は、下記の解説をお読みください! 【超簡単】GoogleColabでGoogleドライブをマウント https://kenko-keep.com/google-colab-mount/
7 Section 2 ライブラリのインポートとデータの読み込み 4.パスのコピー マイドライブのマウントが完了すると、 「MyDrive」が現れますから、名称 左の小さな三角部分をクリックして 「Online Retail.xlsx」 を探します。 その後、 「Online Retail.xlsx」 にカーソルを合わせ、右クリックすると メニューが現れますから、「パスをコ ピー」をクリックします。 これで、 「Online Retail.xlsx」 の パス(ファイルの保管場所)がコ ピーできました。
8 Section 2 ライブラリのインポートとデータの読み込み 5.データを読み込む Excelのデータを読み込むには、②のように書きます。この際、「データのある場所」の前 後にある「′」を忘れないようにしましょう。「”」でも大丈夫です。 ② pd.read_excel('データのある場所’) 読み込むデータ名を「id_pos」と名付け、②のプログラムをイコールでつなぎます(「変数 定義」と言います) 。 その後、4でパス(ファイルの保管場所)をコピーしていますので、 ’データのある場所’ のところに貼り付けます。 「#」で始まる行は、プログラムとして認識されませんので、メモとして残しておくことが可能 です。
9 Section 2 ライブラリのインポートとデータの読み込み 最後は、必ず、「ファイル」→「保存」でプログラムを保存してから、ファイルを閉じましょう!
10 Section 2 ライブラリのインポートとデータの読み込み その後、「ctrl」と「enter」キーを同時に押すか、ノートブックの を押すと書いたプログ ラムが実行されます。「ctrl」+「enter」を同時に押す方が、クール! 下記のように の左に、チェック印と処理時間が表示されれば、プログラムは正常に動 作したことがわかります。約54万行のデータですから、1分程度時間が掛かります。 さて、これで、Excelのデータは、Pythonで分析できるDataFrame(データフレイム)に 変換されました。 DataFrameは、二次元の表形式のデータ(テーブルデータ)です。