蛇使いな彼女BLOG
【第54回】 最近の取り組みとデータ補正について
2022.03.04
皆さんこんにちは(^^)
ここ最近はアプリ作成に没頭していたので、その防備録を数回に渡って書かせて頂きました。
私にとってアプリ化は結構大きな区切りといいますか…、
Pythonを始めたと同じ時期、大学との共同研究で(ディープラーニングを含む)商用ソフトの開発と学術的論文化を目標に、これまでの3年間私がデータの解析や図化を行っている際に疑問に感じたことや、初心者目線での発見をかいつまんで説明してきました。
ここで現在の状況について一度整理すると、
1. ディープラーニング(AI関連)については、水質自動昇降装置で取ったデータのエラー値・欠測問題が解決すれば本格的に開発が進むのかな?という状況です。
2. その他、データ整理や簡単な解析については随時行っています。
今後もこれらのテーマについて情報をお伝えしていくつもりです。
そして、1.については一部のエラーに関してS家先生達と補正方法を検討しているので、内容について少し紹介したいと思います。
【水質データの補正について】
水質データはセンサーで計測していますが、湖やダムなど特に野外で測定している場合はうまくデータが取れていないことが多いです。
(私のスマートウォッチのセンサーで測った心拍数などは見ている限り欠測もエラーも無いんですけどね(;´Д`))
野外に設置したセンサーのデータが乱れるのにはいろんな原因があるんですが、その中でも機械の個体差と言うんでしょうか?
各センサーの校正に使う標準液の濃度の微妙な違いがデータの計測値に影響する場合が以下です。
(上からpH、PCY(アオコの蛍光色素)、クロロフィル)
とあるダムデータです。縦方向に水深、横方向に時間です。
矢印で示している5/18付近以降ChlaとPCYの計測データの全層に渡ってスケールが小さくなっているのが分かります。
確認するとこのときセンサーの交換を行っているのだとか。
図でお見せしているデータのように、全体的に大きな欠測や乱れがなく、かつセンサー交換後にデータの連続性が失われていない場合は、私たちの間では補正が可能と考えています。
また、測定原理からして“一番狂いやすいpHのデータが比較的きれいに取れている場合、他の項目は補正対象のデータと考えていいはず”という基準で補正処理を行います。
次にどうやって補正を行うのか?と言う点ですが、詳しくは次回に説明したいと思います。