DNA相同性検索では古くから厳密なアルゴリズム(問題解決法)として Ssearch が利用されてきました。
Ssearch は厳密だが時間がかかるので現在では、結果が早く得られる blast が多く使われています。

例として DDBJ blast を挙げまておきます。
http://blast.ddbj.nig.ac.jp/blastn?lang=ja
これらは、人間が頭を使って問題解決方法(アルゴリズム)を考えプログラムとして作成してコンピュータはプログラム通りに実行しています。
AIを利用して「人間が Ssearch や blast のようなアルゴリズムを考えないでできないか?」というのが一つの課題です。

【課題1】
相同性検索をAIを利用してできないか?
AIを利用して問題はないか?

まず、深層学習(deep learning)を利用することを考えてみます。
深層学習を大雑把に言うと、データと解答のパターンを大量に与えてコンピュータが正しい答えを見つける方法を導き出すアルゴリズムです。

つまり、
(1)既存のデータで問題と解答のパターンを大量に与える。
(2)未知のデータでの解答が得られることが期待される。
ということです。

当然、既に与えられたデータからは正解は導き出されますが、既存のデータに無い未知のデータが与えられても正解が導き出されることが期待されます。

まずは、
「16S の塩基配列から 相同性検索を利用してバクテリアの種を推定する」
を目的として、
「blast や ClastalW のようなアルゴリズムを利用しないで、AIを利用して結果が得られるか?」
を課題としたいと思います。

深層学習の場合は基本的には以下のような作業となります。
(1)既存の 16S 塩基配列とバクテリアのパターンを大量に与える。
(2)未知の(既存のパターンにない)16S 塩基配列からバクテリアの種を求められるか?

また「深層学習を利用して得られた結果がどの程度信用できるか?」も重要な問題です。
生物学的に厳密な正解は得られないかもしれませんが、まずは「厳密ではないが応用分野での実用上は問題ない」と考えられる根拠が見つかれば一つの成果になると思います。

結果が出るまで時間がかかるかもしれませんが、少しずつ前に進めれば良いと思っています。

(S.Onda 2017/11/15)