>100 Views
September 07, 23
スライド概要
データサイエンス体験動画「データサイエンス チュートリアル 猫のタロー編」の第5回目は、読み込んだデータの確認(1)を説明します。まずは、データの目視確認です。下記のプログラムを使って、データを目視確認する方法を解説します。
③ 「データ名」
④ 「データ名」.head()
⑤ 「データ名」.tail()
また、理解を深めるために、下記の知識を身に付けていきます。
●コラボ(GoogleColab)のランタイムリセットの対処方法
●Pandasのデータ構造であるDataFrameの概要
■この動画のブログ
データサイエンス チュートリアル
https://tutorial4datascience.blogspot.com/
1 1st STEP ビッグデータの 読み込みとデータの確認 Section 3 読み込んだデータの確認(1) ③ 「データ名」 ④ 「データ名」.head() ⑤ 「データ名」.tail()
2 Section 3 読み込んだデータの確認(1) 1.データの目視確認 読み込んだデータ、処理をしたデータは必ず目視確認するようにしましょう!正確な分析 をする上での基本です。 データを目視確認する主な方法は、次の3つです。 ③ 「データ名」 → この場合は、最初と最後の5行が表示されます。 ④ 「データ名」.head() → この場合は最初の5行が表示されます。()内に任意の数字を半角で記入す ると、その行数が表示されます。 ⑤ 「データ名」.tail() → この場合は最後の5行が表示されます。()内に任意の数字を半角で記入 すると、その行数が表示されます。
3 Section 3 読み込んだデータの確認(1) 2.ランタイムリセット 接続(セッション)が切れてから90分経過するとランタイムがリセット(実行環境の接 続が切れて初期化)されます。 打ち込んだプログラム自体は、「ファイル」→「保存」で保存されますが、ランタイムリセット されると使えなくなるのは、下記のようなものです。 ● ● ● ● ● 実行中プログラムやimportされたパッケージ、使用した変数 GoogleColabへアプロードしたファイル インストールしたパッケージ ! pip install などでインストールしたパッケージです GoogleColabがマウントしたGoogleドライブ これは、コラボが仮想サーバーという仕組みを使っているからです。
4 Section 3 読み込んだデータの確認(1) 2.ランタイムリセットの対処方法 上部の「ランタイム」をクリックして、「再起動してすべてのセルを実行」をクリックしましょう。 すべてのセルが実行終了するまで、しばらく、待ちましょう!
5 Section 3 読み込んだデータの確認(1) ③ 「データ名」 「コードセル」に、③を書いていきましょう。Section 3でデータ名は、「id_pos」としました ね。 「enter」+「shift」を同時に押すとデータの概要が表示されます。 ★結果表示の最後に、「541909 rows × 8 columns」とあります。これにより、 541,909行×8列 のデータであることが分かります。また、インデックスは、「0」からは じまりますので、最後のインデックスが「541908」ということは、 541,909行あることに なります。
6 Section 3 読み込んだデータの確認(1) ④ 「データ名」.head() ⑤ 「データ名」.tail() ③の結果と同様なデータであることがわかりますね。
7 Section 3 読み込んだデータの確認(1) 3.結果のデータ構造 ③、④、⑤を実行した結果は、 Section 2で読み込んだライブラリPandasの DataFrameと呼ばれるデータ構造で、複数の行と列が存在するExcelなどの表計算ソフ トのデータにとても良く似ています。 スライド3に出てきた「541909 rows × 8 columns」で、 rowsは英語で行、 columnsは列という意味です。 また、一番左の列は「インデックス」、一番上の行は「列名」と呼ばれます。 インデックス 列名