[inti]day4
day2で検証は終わりにして、そろそろ一気に進めたいと思う。
そもそも何がしたいのかというと、画面を常に監視していて、
ショートカットを押した瞬間に次の動作に移動するプログラムだ。
AIによる推論は常に行っていて、次のマウスの位置が黄色くなっている。
予測はマウスクリックが発生してから次のマウスクリックまでの範囲で一つのまとまりになる。
つまり、直前のマウスクリックまでの動作から次にマウスクリックされるであろうポイントを予測する。
なので、インプットはマウスを押されたタイミングのマウス位置、画面のスクリーンショット。
問題点はリカレントモデルにどうやってするのかという事だ。
例えば、マウスクリックしたタイミングでの画像を集めるならまだしも、
時間軸を考慮させるには動画を集めないといけない。
まあ、その問題を後回しにしてもまだ問題はある。
まず、マウスがどこをクリックしたかを自動で判断して座標を取得する方法を作らないといけない。
マウスをクリックしたタイミングを座標にすると
使用している環境によって座標が変わるので実はいまいちだと思っている。
なので学習時はマウスがクリックした位置
いや、マウスの形を学習させて画面全体のみのインプットにして推論させた方が楽なのでは?
AIにも意見を聞いてみた
ご提案のアイデアについて、以下のようにコメントさせていただきます:
アプローチの変更:
画面全体を入力として使用し、マウスの形状も含めて学習させるというアイデアは良いと思います。これにより、環境に依存せずに汎用的なモデルを作成できる可能性があります。
モデルの選択:
時系列データを扱うため、リカレントモデルの使用を検討されていますが、画像処理と時系列データの両方を扱う必要があるため、CNN-LSTMやConvLSTMなどの複合モデルが適している可能性があります。
データ収集:
動画からフレームを抽出し、マウスクリックのタイミングに合わせてラベル付けすることで、時系列データとして扱えるようになります。これにより、クリック間の動作も学習できる可能性があります。
マウスクリック検出:
画像処理技術を使用して、フレーム間のマウスカーソルの変化を検出することで、クリックのタイミングを推定できる可能性があります。
学習方法:
教師あり学習で、入力として画面全体の画像シーケンス、出力として次のクリック位置を予測するように学習させることができます。
リアルタイム処理:
実際の使用時には、リアルタイムで画面をキャプチャし、モデルに入力して予測を行う必要があります。この処理の最適化が課題になる可能性があります。
ユーザーインターフェース:
予測された次のクリック位置を黄色く表示する機能は、ユーザビリティの観点から非常に興味深いアイデアです。
これらの点を考慮しながら開発を進めることで、より実現可能で効果的なシステムになる可能性があります。ただし、リアルタイム処理やモデルの精度向上など、技術的な課題も多いので、段階的に開発を進めることをお勧めします。
とのことで、一先ずマウスを含めた動画を大量に集めますか。
その後、マウスのクリックしたタイミングを抽出するプログラムが必要になる。
まあ、それは結構先の話になりそうだ。
day5では動画を集める方法を考えなければならない