pandas(パンダス)とは、データを効率的かつ高速に扱う「データフレーム形式」を用いて、データ分析を支援する機能を支援するPythonのライブラリです。
pandasはcsvファイルやテキスト、エクセルなどの様々な形式のデータを読み込むことができ、グラフ化やデータの分析などのコーディングを効率的に行うことが可能です。
また、pandasに似たPythonのライブラリとしてNumpyがあります。
Numpyは主にPythonで“数値計算を高速に行うため”のライブラリであり、pandasは“データの加工”に主に使われています。
使い分けとしては、“機械学習やディープラーニングなどの大量の数値データを高速に行う場合”はNumpy、“データの取り込みや加工など数値以外のデータ処理を扱う場合”はpandasを利用します。
今回は、pandasのインストール方法から、実際にデータ分析をするところまでを解説したいと思います。是非、最後までお読みください。
Table of Contents
pandas(パンダス)を使えるようにする
pandasをインストールする
pandasは標準ではインストール済みではないので、利用する際には必ずpandasのインストールが必要になります。
pipを利用してインストールする際には、以下のコマンドを入力してください。
pip install pandas
pipはPythonのパッケージを管理するためのツールです。
pipは便利なツールなので、ぜひインストールすることをお勧めします。(Python 3.4以降には、標準で付属しています)
インストール方法は、以下のコマンドを実行してください。
sudo easy_install pip
何らかの理由でpipが動かない場合は、easy_installで直接pandasをインストールすることも可能です。
以下のコマンドを実行すると、pandasをインストールできます。
sudo easy_install pandas
また、環境によってはpipではなくpip3が入っている場合があるので、
そのようなときはpipコマンドは認識されないので、pip3コマンドを利用するようにしましょう。
pip3を利用してpandasをインストールする場合は、以下のコマンドを入力しましょう。
pip3 install pandas
pandasをimportする
pandasをPythonから利用できるようにするには、importをする必要があります。インポートの手順も他のライブラリと同様であり、pandasの場合は「as pd」として利用します。以下のimport文を入力しましょう。
import pandas as pd
pandas(パンダス)を利用したデータ分析
pandasには2つのデータ型がよく使われています。まず一つ目に配列のようなデータ形式であるSeries型(表の縦・横の一方向の一次元)、二つ目に表のようなデータ形式であるDataFrame型(表の縦・横両方の二次元)があります。
pandasの基本はDataFrameという表の操作になります。
データフレームを作成する
まずは以下のようなコードを書きます。(*import文から記載しています)
import pandas as pd
panda=pd.DataFrame(
data={"列1":[1,2,3,4],
"列2":["一","二","三","四"],
"列3":["a","b","c","d"]
}
)
print(panda)
すると、以下の表のような形式のデータが出力されます。
列1 | 列2 | 列3 | |
0 | 1 | 一 | a |
1 | 2 | 二 | b |
2 | 3 | 三 | c |
3 | 4 | 四 | d |
上のような表をDataFrameといいます。
また、この表で特に一列だけのものをSeries(シリーズ)と言います。
行や列の抽出を行う
以下のようなコーディングをします。
#列の抽出
panda["列1"]
すると実行結果は以下のようになります。
またデータの取得、変更の際には、at,iat,loc,ilocなどを用いて、行や列を指定することができます。
まとめ
今回は、pandasで基本的なデータ分析の仕方についてご紹介させていただきました。
特に利用頻度の高いのは、csvデータの読み込みと抽出です。ぜひ記事を参考にしてください。
今回ご紹介したPythonのライブラリpandas以外に、おすすめのPythonモジュールであるSeleniumに関しても以下の記事にまとめています。
興味のある方は是非ご覧ください。