pandas(パンダス)とは、データを効率的かつ高速に扱う「データフレーム形式」を用いて、データ分析を支援する機能を支援するPythonのライブラリです。

pandasはcsvファイルやテキスト、エクセルなどの様々な形式のデータを読み込むことができ、グラフ化やデータの分析などのコーディングを効率的に行うことが可能です。

また、pandasに似たPythonのライブラリとしてNumpyがあります。
Numpyは主にPythonで数値計算を高速に行うため”のライブラリであり、pandasはデータの加工”に主に使われています。

使い分けとしては、“機械学習やディープラーニングなどの大量の数値データを高速に行う場合”はNumpy、“データの取り込みや加工など数値以外のデータ処理を扱う場合”はpandasを利用します。

今回は、pandasのインストール方法から、実際にデータ分析をするところまでを解説したいと思います。是非、最後までお読みください。

pandas(パンダス)を使えるようにする

pandasをインストールする

pandasは標準ではインストール済みではないので、利用する際には必ずpandasのインストールが必要になります。

pipを利用してインストールする際には、以下のコマンドを入力してください。

pip install pandas

pipはPythonのパッケージを管理するためのツールです。

pipは便利なツールなので、ぜひインストールすることをお勧めします。(Python 3.4以降には、標準で付属しています)

インストール方法は、以下のコマンドを実行してください。

sudo easy_install pip

何らかの理由でpipが動かない場合は、easy_installで直接pandasをインストールすることも可能です。

以下のコマンドを実行すると、pandasをインストールできます。

sudo easy_install pandas

また、環境によってはpipではなくpip3が入っている場合があるので、

そのようなときはpipコマンドは認識されないので、pip3コマンドを利用するようにしましょう。

pip3を利用してpandasをインストールする場合は、以下のコマンドを入力しましょう。

pip3 install pandas

pandasをimportする

pandasをPythonから利用できるようにするには、importをする必要があります。インポートの手順も他のライブラリと同様であり、pandasの場合は「as pd」として利用します。以下のimport文を入力しましょう。

import pandas as pd

pandas(パンダス)を利用したデータ分析

pandasには2つのデータ型がよく使われています。まず一つ目に配列のようなデータ形式であるSeries型(表の縦・横の一方向の一次元)、二つ目に表のようなデータ形式であるDataFrame型(表の縦・横両方の二次元)があります。

pandasの基本はDataFrameという表の操作になります。

データフレームを作成する

まずは以下のようなコードを書きます。(*import文から記載しています)

import pandas as pd

panda=pd.DataFrame(
    data={"列1":[1,2,3,4],
          "列2":["一","二","三","四"],
          "列3":["a","b","c","d"]
    }
)
print(panda)

すると、以下の表のような形式のデータが出力されます。

列1 列2 列3
0 1 a
1 2 b
2 3 c
3 4 d

上のような表をDataFrameといいます。

また、この表で特に一列だけのものをSeries(シリーズ)と言います。

行や列の抽出を行う

以下のようなコーディングをします。

#列の抽出
panda["列1"]

すると実行結果は以下のようになります。

またデータの取得、変更の際には、at,iat,loc,ilocなどを用いて、行や列を指定することができます。

まとめ

今回は、pandasで基本的なデータ分析の仕方についてご紹介させていただきました。

特に利用頻度の高いのは、csvデータの読み込みと抽出です。ぜひ記事を参考にしてください。

今回ご紹介したPythonのライブラリpandas以外に、おすすめのPythonモジュールであるSeleniumに関しても以下の記事にまとめています。
興味のある方は是非ご覧ください。

【初心者向け】Selenium(セレニウム)とは?ブラウザ操作の自動化をするならまずはこれ!