Python入門トップページ


目次

  1. Pandas とは
  2. Pandas を利用するための準備
  3. CSV ファイルを読み込む
  4. DataFrame を表示する
  5. 列や行を抽出する
  6. 列名を抽出する
  7. Python リストに変換する
  8. Python リストから DataFrame に変換する
  9. DataFrame から NumPy 配列に変換する
  10. 基本統計量を出力する
  11. CSV ファイルに書き出す
  12. グループ化とピボットテーブル
  13. データフレームの結合(系列名が等しいとき)
  14. データフレームの結合(系列名が異なるとき)
  15. データフレームの連結

Pandas

DataFrame を表示する

DataFrame について様々な表示方法を確認してみよう.その準備として GitHub のリポジトリにあるサンプルデータ (clustering-sample.csv) を読み込みます.

CSV ファイルを読み込む
import pandas as pd
url = "https://github.com/rinsaka/sample-data-sets/blob/master/clustering-sample.csv?raw=true"
df = pd.read_csv(url)

読み込んだ CSV ファイルをまずはすべて表示してみよう.Jupyter Notebook ですべての内容を表示するには df と入力するだけで良いでしょう.あるいは,print(df) でも表示が可能です. なお,大きなデータの場合は途中の表示が省略されます.

すべての内容を表示する
df
pandas-01
すべての内容を表示する
print(df)
      ID       x       y
0      0  7.4346  6.6520
1      1  6.5419  6.3611
2      2  8.9819  9.2461
3      3  3.8554  4.8386
4      4  1.9527  3.4848
..   ...     ...     ...
295  295  4.1205  1.5010
296  296  9.2843  1.7563
297  297  6.6627  7.3856
298  298  5.7654  6.0543
299  299  2.2411  1.0902

[300 rows x 3 columns]

次に,先頭の5行や,最後の5行だけを表示してみよう.それぞれ,df.head()df.tail() を使用すると良いでしょう.

先頭5行だけを表示する
df.head()
pandas-02
最後の5行だけを表示する
df.tail()
pandas-03

df.headdf.tail に引数を与えて表示件数を指定することも可能です.

先頭の10件を表示する
print(df.head(10))
   ID       x       y
0   0  7.4346  6.6520
1   1  6.5419  6.3611
2   2  8.9819  9.2461
3   3  3.8554  4.8386
4   4  1.9527  3.4848
5   5  4.7211  2.7247
6   6  3.3898  4.3140
7   7  4.1745  1.9040
8   8  3.2748  3.0171
9   9  1.8862  3.4178
最後の10件を表示する
print(df.tail(10))
      ID       x       y
290  290  7.5041  0.0457
291  291  5.3218  7.4842
292  292  8.7020  0.4945
293  293  1.0222  3.0171
294  294  6.7149  9.8268
295  295  4.1205  1.5010
296  296  9.2843  1.7563
297  297  6.6627  7.3856
298  298  5.7654  6.0543
299  299  2.2411  1.0902

DataFrame のサイズを表示するには,df.shape を使えば良いでしょう.

DataFrame のサイズを表示する
df.shape
(300, 3)

目次に戻る