DataFrame について様々な表示方法を確認してみよう.その準備として GitHub のリポジトリにあるサンプルデータ (clustering-sample.csv) を読み込みます.
CSV ファイルを読み込む
import pandas as pd
url = "https://github.com/rinsaka/sample-data-sets/blob/master/clustering-sample.csv?raw=true"
df = pd.read_csv(url)
読み込んだ CSV ファイルをまずはすべて表示してみよう.Jupyter Notebook ですべての内容を表示するには df
と入力するだけで良いでしょう.あるいは,print(df)
でも表示が可能です. なお,大きなデータの場合は途中の表示が省略されます.
すべての内容を表示する
df
すべての内容を表示する
print(df)
ID x y 0 0 7.4346 6.6520 1 1 6.5419 6.3611 2 2 8.9819 9.2461 3 3 3.8554 4.8386 4 4 1.9527 3.4848 .. ... ... ... 295 295 4.1205 1.5010 296 296 9.2843 1.7563 297 297 6.6627 7.3856 298 298 5.7654 6.0543 299 299 2.2411 1.0902 [300 rows x 3 columns]
次に,先頭の5行や,最後の5行だけを表示してみよう.それぞれ,df.head()
,df.tail()
を使用すると良いでしょう.
先頭5行だけを表示する
df.head()
最後の5行だけを表示する
df.tail()
df.head
や df.tail
に引数を与えて表示件数を指定することも可能です.
先頭の10件を表示する
print(df.head(10))
ID x y 0 0 7.4346 6.6520 1 1 6.5419 6.3611 2 2 8.9819 9.2461 3 3 3.8554 4.8386 4 4 1.9527 3.4848 5 5 4.7211 2.7247 6 6 3.3898 4.3140 7 7 4.1745 1.9040 8 8 3.2748 3.0171 9 9 1.8862 3.4178
最後の10件を表示する
print(df.tail(10))
ID x y 290 290 7.5041 0.0457 291 291 5.3218 7.4842 292 292 8.7020 0.4945 293 293 1.0222 3.0171 294 294 6.7149 9.8268 295 295 4.1205 1.5010 296 296 9.2843 1.7563 297 297 6.6627 7.3856 298 298 5.7654 6.0543 299 299 2.2411 1.0902
DataFrame のサイズを表示するには,df.shape
を使えば良いでしょう.
DataFrame のサイズを表示する
df.shape
(300, 3)