DataFrame について様々な表示方法を確認してみよう.その準備として GitHub のリポジトリにあるサンプルデータ (clustering-sample.csv) を読み込む.
CSV ファイルを読み込むimport pandas as pd
url = "https://github.com/rinsaka/sample-data-sets/blob/master/clustering-sample.csv?raw=true"
df = pd.read_csv(url)
読み込んだ CSV ファイルをまずはすべて表示してみよう.Jupyter Notebook ですべての内容を表示するには df
と入力するだけで良い.あるいは,print(df)
でも表示が可能である. なお,大きなデータの場合は途中の表示が省略される.
すべての内容を表示するdf
すべての内容を表示するprint(df)
ID x y 0 0 7.4346 6.6520 1 1 6.5419 6.3611 2 2 8.9819 9.2461 3 3 3.8554 4.8386 4 4 1.9527 3.4848 .. ... ... ... 295 295 4.1205 1.5010 296 296 9.2843 1.7563 297 297 6.6627 7.3856 298 298 5.7654 6.0543 299 299 2.2411 1.0902 [300 rows x 3 columns]
次に,先頭の5行や,最後の5行だけを表示してみよう.それぞれ,df.head()
,df.tail()
を使用すると良い.
先頭5行だけを表示するdf.head()
最後の5行だけを表示するdf.tail()
df.head
や df.tail
に引数を与えて表示件数を指定することも可能です.
先頭の10件を表示するprint(df.head(10))
ID x y 0 0 7.4346 6.6520 1 1 6.5419 6.3611 2 2 8.9819 9.2461 3 3 3.8554 4.8386 4 4 1.9527 3.4848 5 5 4.7211 2.7247 6 6 3.3898 4.3140 7 7 4.1745 1.9040 8 8 3.2748 3.0171 9 9 1.8862 3.4178
最後の10件を表示するprint(df.tail(10))
ID x y 290 290 7.5041 0.0457 291 291 5.3218 7.4842 292 292 8.7020 0.4945 293 293 1.0222 3.0171 294 294 6.7149 9.8268 295 295 4.1205 1.5010 296 296 9.2843 1.7563 297 297 6.6627 7.3856 298 298 5.7654 6.0543 299 299 2.2411 1.0902
DataFrame のサイズを表示するには,df.shape
を使えば良い.
DataFrame のサイズを表示するdf.shape
(300, 3)