In [None]:
import os
import sys
sys.path.append(os.path.abspath('..'))
from config import *

!cp ../data/acorns.clean.csv .
!cp ../data/acorns.clean.nh.csv .
!cp ../data/acorns.clean.meta.csv .
!cp ../data/acorns.clean.tsv .
!cp ../data/acorns.csv .

# ファイル処理

## データの読み込み

```{index} DataFrame
:name: DataFrame
```

```{index} CSV
:name: CSV
```

```{index} TSV
:name: TSV
```

データを属性ごとにカンマで区切って整形した形式を **CSV**（**comma-separated values**）フォーマットと呼びます。また、カンマの代わりにタブ文字で区切った形式は **TSV**（**tab-separated values**）フォーマットと呼ばれます。こうした整形済みのファイルを読み込む際には、Pandas モジュールの機能を利用すると便利です。

たとえば、CSV ファイルを読み込むには、`pd.read_csv` 関数にファイルのパスを指定して実行するだけです。この関数を使って読み込まれたデータは、**データフレーム**（**DataFrame**）と呼ばれる Pandas 独自のデータ型で保存されます。データフレームでは、行と列が明確に区別されており、それぞれが CSV ファイルの行と列に対応しています。データフレーム型に対しては、特定の列や行の抽出、条件に一致する行の抽出、統計量の計算など、さまざまな操作を簡単に行うことができます。

では実際に、どんぐりの重さを記録したデータを読み込んでみましょう。このデータは `acorns.clean.csv` という名前で保存されており、CSV フォーマットになっています。

In [None]:
# !wget https://py.biopapyrus.jp/data/acorns.clean.csv
x = pd.read_csv('acorns.clean.csv')

何も表示されない場合は、データが正しく読み込まれ、変数 `x` に代入されたことを意味します。ただし、もし次のようなエラーが表示された場合には、それぞれに応じた対処が必要です。

- `NameError: name 'pd' is not defined`<br>このエラーは、Pandas モジュールが正しくインポートされていないことが原因です。Pandas をインポートしてから、再度ファイルの読み込みを実行してください。
- `FileNotFoundError: [Errno 2] No such file or directory: 'acorns.csv'`<br>このエラーは、指定されたファイルが見つからないことを意味します。ファイル名やパスが間違っている可能性があります。使用している OS やファイルを保存した場所によっては、コード例にあるような単純なファイル名では読み込めない場合があります。ファイルが存在する正確なパスを確認し、それを指定してください。


なお、オプションを指定せずに読み込むと、ファイルの最初の行はヘッダー行として認識され、その値がデータフレームの列名として自動的に設定されます。もしファイルにヘッダー行が含まれていない場合は、次のように `header=None` を指定して読み込む必要があります。

In [None]:
# !wget https://py.biopapyrus.jp/data/acorns.clean.nh.csv
x = pd.read_csv('acorns.clean.nh.csv', header=None)

また、ファイル内にデータとは無関係なメタデータやコメント行が含まれている場合は、`comment` オプションを使って無視することができます。たとえば、`#` で始まる行をコメントとして無視するには、次のようにします。


In [None]:
# !wget https://py.biopapyrus.jp/data/acorns.clean.meta.csv
x = pd.read_csv('acorns.clean.meta.csv', comment='#')

CSV フォーマットではなく、タブ区切りの TSV フォーマットの場合は `sep` オプションで区切り文字をタブ（`\t`）に指定します。

In [None]:
# !wget https://py.biopapyrus.jp/data/acorns.clean.tsv
x = pd.read_csv('acorns.clean.tsv', sep='\t')

このように、`pd.read_csv` 関数は柔軟なオプションを備えており、さまざまな形式の CSV ファイルを簡単に読み込むことができます。

## データの確認

Pandas で読み込まれたデータを `print` 関数で出力させると、次のように表示されます。

In [None]:
x = pd.read_csv('acorns.clean.csv')
print(x)

Jupyter Notebook を使用している場合、変数名を実行するだけで、その変数の中身が表示されます。この場合、Jupyter Notebook 独自の機能により、出力が見やすく整形されます。ただし、通常の Python 実行環境（たとえばターミナルや他のエディタ）では、同じような出力は得られません。

In [None]:
x

また、Jupyter Notebook 上では、たとえば次のように `.style` メソッドなどをデータに適用することで、数値データをわかりやすく可視化することができます。

In [None]:
x.style.background_gradient()

In [None]:
x.style.bar()

読み込んだデータ全体ではなく、たとえば最初の数行や最後の数行だけを表示したい場合には、`head` および `tail `メソッドを使用します。これらのメソッドは、標準では先頭または末尾の 5 行を表示しますが、引数 `n` を指定することで表示する行数を変更できます。また、`head` や `tail` の結果に対して、続けて `style` メソッドを適用することも可能です。

In [None]:
x.head()

In [None]:
x.tail(n=8).style.bar()

## データの行と列

データフレームから特定の位置にある値を取り出すには、`iloc` または `loc` を使います。`iloc` は、行番号と列番号で指定するときに使用します。`loc` は、行名（インデックス）と列名で指定するときに使用します。

たとえば、データフレーム `x` の 1 行 3 列目のデータを取り出すには、`iloc[0, 2]` のように指定します。

In [None]:
x.iloc[0, 2]

なお、`iloc` および `loc` は、オブジェクトの**インデクサー**（**indexer**）と呼ばれ、添え字を使ってデータの位置やラベルを指定するための抽象的な操作手段です。インデクサーは、関数やメソッドとは異なるため、 `()` を使わずに `[]` を使って添え字を指定します。たとえば、`iloc[0, 2]` のように書くのが正しく、`iloc(0, 2)` のように書くとエラーになります。


### 列の抽出

特定の列だけを取り出す操作は、「ある列のすべての行を取り出す」ことと同じです。 たとえば、2 列目のデータをすべて取得したい場合は、`iloc[:, 1]` のように指定します。このとき、`:` は「すべての行」を意味し、`1` は 2 番目の列を取り出すという指定になります。

In [None]:
x.iloc[:, 1]

```{index} Series
:name: Series
```

このように取り出した結果は、**シリーズ**（**Series**）というデータ型になります。シリーズは 1 列のデータを表しており、数学でいう列ベクトルのようなイメージです。基本的な扱い方はリストに似ていて、インデックスを指定して特定の位置の値を取得できます。さらに、シリーズの各要素には名前を付けることができ、名前が付いたシリーズでは、インデックスの番号だけでなく名前を使って値を取得することも可能です。

データフレームから複数の列を取り出す場合は、列番号をリストで指定します。

In [None]:
x.iloc[:, [1, 2, 3]]

次に、`loc` を使って行や列を抽出する方法を見ていきます。`loc` は、行名や列名を指定してデータを取り出すときに使用します。

たとえば、データフレーム `x` から weight 列を取り出したい場合は、次のように実行します。

In [None]:
x.loc[:, 'weight']

複数の列を取り出す場合は、対象となる列名をリストとして与えます。

In [None]:
x.loc[:, ['height', 'diameter']]

なお、列の抽出するときに、`loc` や `iloc` を使わなくても、列名を使って辞書のような記法でも取り出すことができます。たとえば、`x['tree']` とするだけで、データフレーム `x` から tree 列を取り出すことができます。統計解析などでは列単位での処理が多く、このような簡潔な記法を使うことで、コードがより読みやすく、効率的になります。


In [None]:
x['tree']

### 行の抽出

データフレームから特定の行を取り出す場合も、基本的には `iloc` または `loc` を使います。列を取り出すときと同様に、行番号や行名を指定して抽出します。

In [None]:
x.iloc[0, :]

In [None]:
x.loc[0:4, :]

条件を指定して特定の行を抽出することもできます。たとえば、「重さ（weight）」が 4.0g 以上のデータだけを取り出したい場合、まず条件に合致するかどうかを示す論理インデックスを作成し、それを使ってフィルタリングします。論理インデックスとは、各値が `True` または `False` となっているリストや、それと同等のシリーズや配列[^fn_nparray]のことを指します。

[^fn_nparray]: 配列は、数値計算のために開発されたライブラリ NumPy で使われるデータ構造です。配列は、多次元のデータを効率的に扱うことができ、リストよりも高速演算が可能などの特徴があります。

In [None]:
is_ge_4 = (x.loc[:, 'weight'] >= 4.0)
is_ge_4

In [None]:
heavy_acorns = x.loc[is_ge_4, :]
heavy_acorns

論理インデックスは、数値の比較だけでなく、文字列の比較でも作成できます。例えば、アラカシ（arakashi）のデータだけを抽出したい場合は次のように実行します。

In [None]:
arakashi = x.loc[x.loc[:, 'tree'] == 'arakashi', :]
arakashi

次のように簡潔に記述することもできます。

In [None]:
arakashi = x.loc[x['tree'] == 'arakashi', :]
arakashi

## データの集計

データフレームの各列について、欠損値を除いた後の平均値、分散、サンプル数（件数）などの概要統計量を確認するには、`describe` メソッドを利用します。このメソッドを使用すると、数値型の列すべてに対して、基本的な統計情報が自動的に計算されます。

In [None]:
x.describe()

また、特定の列だけに対して概要統計量を計算したい場合は、まずその列を取り出し、その後で `describe` メソッドを適用します。

In [None]:
x.loc[:, 'weight'].describe()


概要統計量だけでなく、基本的な統計量を個別に計算することもできます。例えば、平均や分散は次のように計算できます。いくつかの例を次に示します。

In [None]:
x.loc[:, 'weight'].mean()

In [None]:
x.loc[x['tree'] == 'kunugi', 'weight'].mean()

In [None]:
x.loc[x['tree'] == 'kunugi', ['weight', 'height']].var()

このように、データフレームやシリーズの後ろに関数名を付けて実行すると、それぞれの列や要素に対してその関数が適用されます。ここで使われている `mean` や `var` は、データフレームやシリーズ専用に定義された関数で、これを[メソッド](section-method)と呼びます。メソッドは、特定のデータ型に対してのみ使える関数であり、他の型には使えません。たとえば、リストに対して `mean` を実行しようとすると、次のようなエラーが表示されます。

In [None]:
y = [1, 2, 3]
y.mean()

`AttributeError` が表示された場合は、そのメソッドが使えるデータ型になっているかどうかを確認してみてください。データフレームのつもりで使っていたのに、実はリストだったという思い込みが原因なことがよくあります。Python は察してくれません。ないものはないと言います。しかも、けっこう冷たく。

次に、データに含まれる木の種類の数を調べてみましょう。データフレーム `x` の `tree` 列には、どんぐりを採取した木の種類が記録されています。このデータに何種類の木が含まれているのかを調べるには、`unique` メソッドを使います。

In [None]:
x['tree'].unique()

このメソッドを使うと、`tree` 列に登場するユニークな値（重複のない値）が配列として表示されます。また、`unique` の代わりに `value_counts` メソッドを使うと、ユニークな値とその出現頻度を簡単に確認できます。結果はシリーズ型で返され、木の種類ごとのデータ数がわかります。

In [None]:
x['tree'].value_counts()

Pandas には、簡単なグラフを描くためのメソッドも用意されています。たとえば、データフレームに対して `hist` メソッドを使うと、すべての列に対してヒストグラムが一度に描かれます。データがどのような分布になっているかを手軽に確認できます。なお、`hist` メソッドは内部で Matplotlib ライブラリを使っています。そのため、事前に Matplotlib をインポートしておく必要があります。

In [None]:
import matplotlib
x.hist()

Pandas の可視化機能は、データの大まかな傾向や分布を素早く把握するのに便利です。しかし、細かい調整にはあまり向いていません。より柔軟で美しいグラフを作成したい場合は、[Matplotlib](section-matplotlib) や [Seaborn](section-seaborn) といった外部ライブラリを利用するのがおすすめです。

```{admonition} 練習問題 PD-1
acorns.csv データを読み込み、クヌギ（kunugi）のどんぐりについて、重さ（weight）、高さ（height）、直径（diameter）の平均値をそれぞれ求めなさい。
```

```{admonition} 練習問題 PD-2
acorns.csv データを読み込み、平均重量が最も重いどんぐりの種類を調べなさい。
```

```{admonition} 練習問題 PD-3
acorns.csv データを読み込み、アラカシ（arakashi）の採種地点（location）を調べ、それぞれの地点ごとに平均重量を求めなさい。
```

```{admonition} 練習問題 PD-4
acorns.csv データを読み込み、クヌギ（kunugi）のどんぐりの重さ（weight）が 4.0g 以上のデータだけを抽出し、その件数を求めなさい。
```

合ってそうに見える出力がいちばん怖い。特に締切前は。

In [None]:
!rm acorns.clean.csv
!rm acorns.clean.nh.csv
!rm acorns.clean.meta.csv
!rm acorns.clean.tsv
!rm acorns.csv