4. データ分析(Pandas)#
データ分析の基本的な流れは、まずファイルからデータを読み込み、外れ値や異常値を取り除いて扱いやすい形に整えるデータクレンジングから始まります。次に、データを可視化して傾向を確認し、どのモデルやアルゴリズムを使うかを検討しつつ、本格的な解析に進んでいきます。しかし、一度の解析で理想的な結果が得られるのは、教科書にあるような整ったデータに限られます。特に、生物実験などで収集された実データの場合、一度で納得のいく結果が出ることは稀で、閾値を調整しながらクレンジングを繰り返したり、使用するアルゴリズムを見直したりしながら再解析を行う必要があります。もはや「解析」というよりも「探検」に近い作業です。
こうした試行錯誤を重ねながら進めるプロセスは、探索的データ解析(exploratory data analysis; EDA)と呼ばれます。本来であれば、こうした作業も繰り返し構文で自動化できれば理想的です。しかし、現実は「この辺の値を消してみるか」、「あれ、平均変わった?」と勘でいじる日々。ハイテクな環境で最新のライブラリを使いながら、やってることは勘と経験。それでも進められるのは、Pandas のおかげです。
Pandas は、ファイルの読み書き、データ整形やデータクレンジング、さらには簡単な集計なども行えるライブラリです。本章ではこれら Pandas の基本的な機能を紹介していきます。
なお、Pandas を使用するにはインポートが必要です。一般的には以下のように記述します。
import pandas as pd
このように as pd
を指定することで、以後は pandas
の代わりに pd
という短縮名で使用することができます。たとえば、pd.read_csv
で CSV ファイルを読み込んだり、pd.mean
を使って平均値を求めたりすることができます。
「なぜ pd
なのか?」ーー聞くな。空気を読め。
もし Pandas をインポートしようとした際に ModuleNotFoundError: No module named 'pandas'
といったエラーが表示された場合は、Pandas がまだインストールされていないことを意味します。その場合は、以下のコマンドをターミナルで実行してインストールしてください。
pip install pandas
Jupyter Notebook を使っている場合は、コマンドの先頭に !
をつけて実行します。
!pip install pandas
インストールが完了したら、再度 import pandas as pd
を実行して準備完了です。