蛇使いな彼女BLOG
【第11回】 ライブラリ(pandas)の使い方①
2020.05.21
こんにちは!
さてさて、間に番外編を挟みましたがPythonもインストール出来たことだし今度は私が実際によく使っているライブラリについて紹介するよー!
基本的に私が普段仕事で使うデータの形式は “.csv” です
扱うファイルが1つや2つで、中身のデータ行列も少ないならExcelで充分なんやけど水質を始め、対象を機械的に測定している場合、データは1ファイルにつき数十列×数百行なんて当たり前になってきます。
そんな膨大なデータを扱う際、Pythonのpandasってライブラリを使うとデータの扱いがとっても楽になります🌟
超人でもないと細かい数字何個も何個も見てられないからね!!
あ!一応補足するけど表を作りたいとか特定のデータ値に色つけたいとかはExcelか他のソフトでやってね。
ここで話すのはたくさんのデータの中から必要な要素を取り出したり、扱いやすくする方法です。
表にしたり、グラフで可視化するための前処理だと思ってください。
以下にコード例を紹介します。
pandasに限らずライブラリを使うときは必ずインポートしましょう
インポートしてからじゃないと使えません。
なので
import 〇〇○ (←ライブラリ名)
最初にこれを記述しましょう。
また、import 〇〇○ as △△△ とすると、△△△という名前で〇〇○を読み込んだことになります。
2行目3行目の実行結果が“>>>”以降に表示されますが、どちらも問題なさそうですね。
これでpandasが使えるようになりました。
(ちなみに、importがImportになってるとエラーが返される・笑)
あとここで言っておきたいポイントが1つあって、プログラムの最初に #coding: utf-8 とありますよね。
これを記載しておくと日本語が文字化けしてしまう!なんてことが防げます。
コード中に日本語が出てこない場合必要ないけど、私はそうじゃないので毎回記載してるよ☺
・・・さて、話を戻します。
2.データ読み込み
次に、読み込むファイル(ここでは『arr_date.csv』)はこのような1000行12列の数値データとします。
pandasにはtxtファイルやその他のファイル形式についても対応できるようツールが用意されていますが、今回使うのはcsvファイルなので、次に入力するのは
pd.read_csv() もしくはpandas.read_csv()
()の中には開きたいファイルのパスを入力してくださいね!
その際パスの最初と最後に「‘」を付け加えるのを忘れずに。
‘テキスト’と囲うことでPythonがテキストを文字列と認識してくれます。
また、パス中に「¥」があれば「/」に変更してくださいね。
3.結果出力
結果こんな感じ↓
見やすくなりましたね~😋
Pandasで読み込んだデータはDataFrameという形で扱うことが出来ます。
私は初めて見たときExcelのセルが無いバージョンだと感じました(笑)
pd.read_csv(‘パス’,header=0,index_col=0)
ここでパスの後ろ、コンマ以降に記述しているのはread_csvのパラメーターです。
指定しているのは項目行と見出し列。
パラメーターを指定することで細かい調整をしてくれます。
さて、今回はここまで。
次回は読み込んだデータを使って簡単な操作をしてみようと思いますkai