環境システム株式会社公式HP

〒660-0083 兵庫県尼崎市道意町7-1-3
尼崎リサーチ・インキュベーションセンター512

アイコン06-6657-5130

アイコンsales@hydrolab.co.jp

お問い合わせ

アイコン06-6657-5130

アイコンsales@hydrolab.co.jp

お問い合わせ

蛇使いな彼女BLOG

【第23回】 余談―データ操作の悩み

2020.11.19

こんにちは、皆さん。
Numpyの操作はまだまだ沢山あるんですが、今日は休憩がてら世間話にお付き合いください(笑)

ヘビカノページの設立とコラム開始からまだ1年経っていないのですが、私はPythonを初めからもうすぐ2年が経とうとしています…

コラムで紹介しているのは基本的な内容+αですが、モトハシの実際のスキルというか…実務の面では、最近になってやっと簡単な機械学習の実装ができるようになりましたヽ(`▽´)/ワーイ

機械学習についてネットで調べると、沢山の例文や実装コードがあって、見た目には簡単そうに感じるんですが、どれも最初からPythonに内蔵されているサンプルデータを使用した例が多く、実際のデータを使った例は少ないんですよね…。

サンプルデータはそのまますぐ使える整理されたデータなのですが、私が普段操作している生のセンサーデータには記号やらノイズやら明らかに他と違うデータというのが混じっています(*_*)
記号や文字列なんかは、データを読み込む段階である程度排除できるんですが (それこそpandasは優秀です)、ノイズをはじめ、部分的な外れ値、フィルターが掛けられたような広範囲のエラー値にいつも悩まされる…。

そもそも、こういったものが混じったデータは使用しない!というのが一番なんですが、うちのセンサーは水中に設置して使うものなので、天候や流速、水中生物やらの影響を受けるので、エラーが無いほうがおかしいのです。

そう。悩んでも仕方の無いことなのです…。

ではこの荒れ果てたデータをどうやってきれいにするんだ!って話になりますが、感覚的なもので作業するより、確立された方法でシュパパパとデータの整理ができた方が安心ですし、楽ですよね!

そこで、これまで統計分野での評価、異常検知用のアルゴリズムが搭載されたモデルを使った方法…など、色々と試してみたんですが、目的とするエラーのうち、全てに有効ではない、計算時間が掛かりすぎる、正常なデータまでエラー認識されているなど、イマイチ実用性に欠ける結果となりました。トホホ。

悩んだ挙げ句、現在は分類器を使った仕分けを試みております。
分類器というと、使用するライブラリ(sklearn)の種類的に機械学習のくくりになるんですが、「機械学習用のデータを作るために機械学習でデータの分類する」というと、何だか変な気分です(´・ω・`)

まだまだ作業途中なので詳しいことは書けませんが、ああ、もとちゃん大変なんだな~くらいに思ってください (笑)

きっと扱うデータに厚みがあったり、高次元で複雑な場合、こういった壁にぶち当たるしょうね…。
壁、突破しました!という方、こっそり教えて下さい(^u^)
大手グ○グルさんはどうやってデータ処理してるのか気になります…。

ではまた!

pagetop