In [None]:
import os
import sys
sys.path.append(os.path.abspath('..'))
from config import *

!cp ../data/acorns.clean.csv .

(numpy_array)=
# 配列

NumPy では、すべてのデータを**配列**（**array**）という構造で扱います。リストや数学のベクトルのような一次元のデータは一次元配列として、表形式のデータや行列のような二次元のデータは二次元配列として表現されます。配列は、必要に応じて次元を増減させることができ、柔軟に形を変えることが可能です。また、NumPy に用意されている多くの関数は、この配列を操作対象としています。本節では、NumPy を使う上で基本となる配列について解説していきます。

## 配列の作成

### 一次元配列

NumPy の配列は、Python のリストを `np.array` 関数に渡すことで作成できます。特に、データが少ない場合や、プログラム内で一時的に配列を使いたい場合に便利です。次は、リストを NumPy 配列に変換する基本的な例です。

In [None]:
x = [1, 2, 3, 4, 5]
a = np.array(x)


`NameError: name 'np' is not defined`？察して。NumPy は、自分からは出てきません。

配列が保存されている変数をそのまま実行すると、`array([...])` の形式で表示されます。なお、この方法は Jupyter Notebook 特有のものであり、他の環境では何も表示されないため注意が必要です。

In [None]:
a

一方、`print` 関数を使って配列を表示すると、Python のリストのような見た目で表示されます。

In [None]:
print(a)

`print` 関数を使った場合、見た目はリストと NumPy 配列で同じだが、実際にはまったく異なるデータ構造です。NumPy の配列は、単なる値の集まりではなく、要素の数、形状、データ型などの情報（属性）を持った[オブジェクト](content-object)です。たとえば、配列の全要素数を知りたい場合は、次のように `.size` 属性を使います。

In [None]:
a.size

一方で、リストには `.size` のような属性は存在しないため、次のように書くとエラーになります。

In [None]:
x.size

配列を作成する際に、以下のようにリストを直接 `np.array` 関数に渡して、1 行で配列を作成することもできます。

In [None]:
a = np.array([1, 2, 3, 4, 5])
a

NumPy の配列では、すべての要素が同じデータ型である必要があります。つまり、配列内には すべて整数、またはすべて小数（浮動小数点数）といったように、統一された型のデータだけが含まれます。たとえば、以下のように整数と小数が混在するリストを `np.array` に渡すと、この関数はすべての要素を自動的に 64 ビット浮動小数点数型（float64 型）に変換して配列を作成します。

In [None]:
a = np.array([1, 2, 3, 3.14])
a

In [None]:
a.dtype

### 二次元配列

行列のような二次元配列を作成するには、二重リスト（リストのリスト）を `np.array` 関数に渡します。たとえば、次のコードは、以下のような 3 行 3 列の行列を作成します。

$$
\begin{pmatrix}
    1 & 2 & 3 \\
    4 & 5 & 6 \\
    7 & 8 & 9
\end{pmatrix}
$$

In [None]:
x = [[1, 2, 3],
     [4, 5, 6],
     [7, 8, 9]]
a = np.array(x)
a

In [None]:
a = np.array([[1, 2, 3],
              [4, 5, 6],
              [7, 8, 9]])
a

三次元以上の配列も、同じ方法で作ります。つまり、多重リストを `np.array` 関数に渡すこと多次元配列に変換できます。

### データフレームによる変換

CSV ファイルなどに保存されたデータを配列として読み込むには、NumPy の `np.loadtxt` 関数を使う方法があります。ただし、NumPy は数値計算向けに設計されているため、文字データや欠損値を含む CSV ファイルでは予期せぬ動作をすることがあります。そのため、実務では Pandas を使ってファイルからデータを読み込んでから、前処理をした後に、配列に変換する方法が一般的です。

どんぐりのデータセットをデータフレームから配列に変換する一連の手順を以下に示します。まず、`pd.read_csv` 関数を使って CSV ファイルを Pandas のデータフレームとして読み込み、そのデータフレームの末尾に `.values` を付けるだけで、配列を取得できます。

In [None]:
x = pd.read_csv('acorns.clean.csv')
a = x.values
a

NumPy の配列では、すべての要素が同じデータ型である必要があります。この例では、データフレームには樹種を表す文字列データが含まれいます。そのため、データフレーム全体を配列に変換すると、変換後の配列の要素が object 型となります。object 型は数値ではありません。数値計算自体は可能だが、意図しない動作を引き起こす可能性があります。そのため、計算処理に使用する際には、object 型を含まないようにデータを整えておくことが重要です。

In [None]:
a.dtype

In [None]:
a[:, 1] * a[:, 2]

次の例では、樹種名などの文字列が含まれている最初の列を削除し、その後データフレームを配列に変換しています。これにより、数値のみを含む配列が得られ、数値計算などに利用しやすくなります。

In [None]:
x = pd.read_csv('acorns.clean.csv')
a = x.iloc[:, 1:].values
a

In [None]:
a.dtype

In [None]:
a[:, 1] * a[:, 2]

## 配列の属性

NumPy の配列は、データそのものに加えて、配列の構造に関する属性も保持しています。たとえば、次のように `.ndim` を使えば、配列の次元数を取得できます。

In [None]:
x = [[0, 1, 2, 3],
     [4, 0, 5, 6],
     [7, 8, 0, 9]]
a = np.array(x)
a.ndim

各次元の要素数は `.shape` で取得できます。この例では 1 次元目の要素が 3 つであり、2 次元目の要素が 4 つです。そのため、`.shape` は次のように出力されます。

In [None]:
a.shape

配列の全要素数は `.size` で取得できます。この全要素数は、`.shape` の出力値の積に一致します。

In [None]:
a.size

## 配列の要素

配列から個々の要素を取り出すには、Python のリストと同様に `[]` を使ってインデックスを指定します。一次元配列の場合、`[]` の中に 1 つのインデックスを指定することで、対応する要素を取得できます。

In [None]:
x = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9])
x[3]

ここでは `np.int64(4)` と表示されますが、これは「4」という数値が NumPy の 64 ビット整数型（int64）であることを示しています。計算や処理には何の支障もなく、通常の整数と同様に扱うことができます。たとえば、次のように 1 を加えてみると、正しく 5 が得られます。

In [None]:
x[3] + 1

なお、どうしてもこの表記が気になる場合は、`print` 関数を使って出力すると、型情報はなく数値だけが表示されます。

In [None]:
print(x[3])

複数の要素を取り出すには、スライス機能（`:`）を使います。`:` の前に開始位置、後ろに終了位置を指定することで、その範囲の要素を取り出すことができます。ただし、終了位置に指定したインデックスの要素は取り出されません。理由？人間の都合です[^slice_end]。

[^slice_end]: スライスで最後のインデックスが含まれない仕様は、扱いやすさにつながっています。例えば、`x[3:7]` とすると、取得される要素の数は 7 - 3 = 4 と簡単に計算できます。また、`x[0:3]` と `x[3:6]` を連結すると `x[0:6]` と同じ範囲になり、連続した部分を分割して扱うのに便利です。このような仕様は、多くのプログラミング言語でも採用されています。

In [None]:
x[1:4]

スライスで開始位置を省略すると先頭から、終了位置を省略すると最後までの範囲を意味します。

In [None]:
x[:4]

In [None]:
x[4:]

二次元配列でも同様に値を取得できますが、二つの次元それぞれに対してインデックスを指定する必要があります。各次元のインデックスはカンマ（`,`）で区切って指定します。

例えば、配列 `x` の 1 行 2 列目の要素を取得する場合は、次のようにします。

In [None]:
x = np.array([[ 0,  1,  2,  3,  4],
              [ 5,  6,  7,  8,  9],
              [10, 11, 12, 13, 14],
              [15, 16, 17, 18, 19]])
x[0, 1]

二次元配列でもスライスを使って、連続した範囲の部分配列を取り出すことができます。

In [None]:
x[2:4, 1:3]

In [None]:
x[:3, 2:]

In [None]:
x[:, 1:3]

```{index} ろ-論理インデックス
:name: 論理インデックス
```

## 論理インデックス

配列から値を取得する際には、単にインデックスを指定して特定の位置の値を取り出すだけでなく、特定の条件を満たす要素だけを抽出することも可能です。そのためには、まず配列全体に対して条件判定を行い、論理インデックスを作成します。そして、この論理インデックスを元の配列に適用することで、条件を満たす要素のみを抽出できます。

次の例では、一次元配列 `x` に対して、論理配列 `f` を使って要素を選択しています。`f` の値が `True` となっている位置（インデックスが 1、3、5）に対応する要素だけが取り出されています。

In [None]:
x = np.array([    0,    1,     2,    3,     4,    5])
f = np.array([False, True, False, True, False, True])

x[f]

論理配列は、条件式を使用して簡単に生成できます。例えば、奇数のみを抽出する場合、次のように条件式 `(x % 2 == 1)` を用います。

In [None]:
x = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9])
f = (x % 2 == 1)

x[f]

複数の条件を組み合わせる場合は、論理積（`&`）や論理和（`|`）を使用します。例えば、「5 より大きい奇数」を取得するには、奇数を表す条件 `(x % 2 == 1)` と、5 より大きいことを表す条件 `(x > 5)` を `&` で組み合わせます。

In [None]:
x = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9])
f1 = (x % 2 == 1)
f2 = (x > 5)

x[f1 & f2]

一方、「5 より大きいまたは奇数」の場合は、論理和（`|`）を使用します。

In [None]:
x = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9])
f1 = (x % 2 == 1)
f2 = (x > 5)

x[f1 | f2]

なお、論理配列を事前に作らなくても、条件式をそのまま配列に適用することで、同じように条件を満たす要素を抽出することができます。

In [None]:
x = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9])
x[(x % 2 == 1)]

二次元配列の場合も同様に操作ができます。例えば、1 列目の要素が 0 である行をすべて取得する場合は次のようにします。

In [None]:
x = np.array([[0, 1, 2, 3],
              [1, 4, 5, 6],
              [1, 7, 8, 9],
              [0, 10, 11, 12]])

f = (x[:, 0] == 0)
x[f, :]

1 行目の要素が奇数である列を取得するには次のようにします。

In [None]:
f = (x[0, :] % 2 == 1)
x[:, f]

本節で NumPy 配列の作り方や値の取り出し方について紹介しました。配列に慣れることで、データ処理は格段に効率よくなります。たぶん、使う機会はないけど。そして、そのうちさっぱり忘れてる。でも安心してください。筆者も毎年、授業前に自分の資料を見ながら「おっ、意外とわかりやすく書けてるじゃん」って思ってます。自分で。

In [None]:
!rm acorns.clean.csv