[inti] day1
PCで次の動作を予想するショートカットを作りたい
ショートカットを押したら「お前ここ押したいんだろ」って所を推論して黄色く表示される
再度ショートカットを押したらマウスが動いて
もっかい押したらクリックしてくれる。
名前は...
「IntelligentI(インテリジェント・アイ)」だ。実はこの名前にしたのには経緯がある。がそれは後日にする。
色々調べてみたが、CLIPと呼ばれるAIモデルに可能性を感じた
https://qiita.com/sonoisa/items/d6db2f130fa9a4ce0c2c
文字も認識してくれるらしい?
Web上の画像とか動画からマウスの形が変わった瞬間の画像を集めて学習させればいいんじゃないだろうか。
というわけでまず、計画立案から。
計画名は「初めの一歩」
実際に使ってみて検証する所までだ。目的は常時推論するモデルだし、今回もモデルであってるのかな?とか思わなくはないけど、後で考える。
目標はGoogleColabで、画像を分類するタスクを行うスクリプトを完成させ、実行する。
画像はWeb上によくあるボタンの画像を10個用意して検証してみる。
- 「ダウンロード」と書かれたボタン
- 「エクスポート」と書かれたボタン
- 「Download」と書かれたボタン
- 「Export」と書かれたボタン
- 「ハンバーガー」メニュー
- 「×」ボタン
- 「パスワード」の入力欄
- 「ダウンロード」を意味する絵柄が書かれたボタン
- 「エクスポート」を意味する絵柄が書かれたボタン
- 「URL」のリンク
test