研究の進捗状況 (1)

ある生体データを取得し,健康状態の良性と悪性を自動的に判別する医療機器の開発。MRIや脳波計のような大掛かりな計測を行うのではなく,自宅でも容易に計測出来る体温計並みの計測器を用いて(多少精度が粗くても)安価に診断出来る医療機器を開発する。生体データとして具体的に何を扱っているのかはネタばれになってしまうので言えませんが,これがワタシの現在の研究テーマ。そのような機器の内部で行うデータ処理の具体的な方法を検討するのが現在行っていること。

問題は,生のデータからどのような数値を計算して,それを良性,悪性の判断基準にするのかというところ。専門的には「特徴抽出」と呼ばれている。時系列データなので,特徴抽出法の定番は高速フーリエ変換(FFT)を用いたパワースペクトル。今回は定石に従って,グラフから直感的にも明らかな違いについて着目し,その違いを数値化するプログラムを作成して実験した。識別処理はk最近傍法(k-Nearest Neighbor method)を用いて k=5に設定。

今のところ,Leave-One-Out (LOO) 法で計算すると,良性,悪性の識別率は共に90%前後。まぁ悪くはない。だけどLOO法はパターン認識システムを過大評価してしまうことがあるので,普通はn分割交差確認法(n-fold Cross Validation; CV) も併せて行うところだが,個人差が影響する可能性が高いので,すべてのデータに対してランダムにn分割する n-fold CVではなく,被験者毎にデータを分ける方法で交差確認を行った。

その結果,識別率は84%。識別率が下がったので,確かに個人差があるのは明らか。だけど,思ってたほど悪くない。結構イケルかも?だけど,欲は出てくるもので,今度は被験者数をもっと増やしたくなって来た。この結果で論文を書いても,意地悪な査読者に当たったら被験者数が少ないと指摘されて,それだけでRejectされる可能性もあるからね。

それはそうと,以前SICE JCMSIに投稿して,結局リジェクトされてしまったが,そのときの査読者の指摘を改めて読むと,k最近傍法(k-Nearest Neighbor method)とk平均法(k-means method)を混同しているようなコメントだった。k-NNは教師ありのパターン識別法,k-meansは非類似度のみを用いた教師なしのグループ分け(クラスタリング)の方法。

学会で発表すると分かるんだけど,パターン認識関連の研究者でもこれらの区別がつかない人が意外と多いので驚く。まぁ,相手に対して失礼にならないように,丁寧に説明してあげればいいんだけのことだけどね。議論の前提となる知識にズレがあると,話が噛み合わないこともあるので注意しないといけない。

だけど,学会発表なら話をしているうちに認識のズレが分かってくるからまだいいけど,論文投稿の場合は書面でのやり取りとなるので,査読者の意図が分からないこともある。それって,結構困るんだよね。