[inti] day2
さて、試しに「openai/clip-vit-base-patch32」というCLIPモデルで分類タスクを行ってみたが、多くが「mouse on Humberger menu」に分類された
でもそれだけではなく、これは始まる前から分かっていたことだが、日本語が使えない。当然英語のみで学習されたのだろう。
昨日の10個の画像は全画面でのスクリーンショットだったせいもあると思う。のでxへのアクセスできるアイコンにマウスオーバーして再度推論してみたが、xをtwitterだと思っていないのか「mouseover on export button」に分類された。もしかしたらdownloadの方だったかもしれないが、どの道違う。
ただ、LINEボタンに関しては「mouseover on LINE」に分類されたし、LINEボタンをchromeの開発者ツールで「download」に置き換えたがこれもうまく「mouceover on download button」に分類してくれた
今気づいたけど、ボタンの色が緑・赤・青だったから「Humberger」と認識したのかもしれない(まさかね...)
つまり、現状でまとめるとこうなる。
- PC画面をあまりしらない
- 日本語ができない
- 全画面のスクリーンショットは使えないのでマウスに近い部分を切り取らないといけない
- 文字の認識はできてそう(英語のみ)
こんな所だった。
一先ず、作戦名「最初の一歩」はこのくらいにしよう。まず、検証してみるという所は達成だ。
次は、「PC画面を本当に認識していないのか」にしよう
作戦名「無知は罪」。そもそもPC画面を認識していないと考えた理由は、マウスをの位置を認識していないからだ。全画面のスクリーンショットだったから小さくて気づいていないという事なのかもしれない。どうしようか悩んでます。
ちくたくちくたく。ちっくったっく。
良い案を思いついた。さっき4つ目のまとめで書いたけど、文字は認識できるので文字列が並んでいる画像にマウスオーバーさせて、画像に表示されているアルファベットで分類問題を解いてもらおう!
そしたらマウスというものを認識しているかどうかわかるはずだ。認識していたら、問題なく分類できるだろう。
認識できていないなら、パワーポイントでアルファベットを並べてそのどれかひとつに〇の図形を描いて検証し、分類できればマウスが認識できていないことがより確かになる。多分〇は認識しているだろうから。(〇のみで一応検証してもいい。)
ここまではマウスの話だ。PC画面が認識できているか、けど今回の目的はマウスが次に動く位置を予想するモデルなわけで、後はアイコンとかボタンが認識できればいい。一先ず、ブラウザを立ち上げて、分類してもらうか。ブラウザはブラウザを知らない人間だったら何に見えるだろうか。
じゃあまとめると次は
- アルファベットを並べた画像
- アルファベットの一つに〇を重ねた画像
- アルファベットの一つにマウスを重ねた画像
- ブラウザの画像
- エクスプローラーの画像
を用意しよう。
ほいで、分類項目は
- mouse over on "B"
- mouse over on "A"
- mouse over on "K"
- mouse over on "a"
- circle on "B"
- circleover on "A"
- circle over on "K"
- circle over on "a"
- mouse over on "BAKa"
- circle over on "BAKa"
- mouse over on browser
- mouse over on explore
- mouse over on chrome
- mouse over on windows
- mouse over on PC monitor
こんな所だろう