WhatZooに写真をアップロードすると、結果はわずか1〜2秒で表示されます。しかし、その一瞬の裏では驚くほど多くの処理が行われています。このガイドでは、元の画像から最終的な動物のマッチング結果までの一連の流れをたどり、アプリが「何をしているのか(そして何をしていないのか)」を正確に理解できるようにします。
ステップ1:顔を見つける
何かを計測する前に、まずアプリは写真の中から顔を見つけ出す必要があります。WhatZooは、もともとGoogleが拡張現実(AR)向けに開発した、端末上で動作する機械学習モデル MediaPipe Face Mesh を使用しています。これは画像をスキャンし、「ここに顔はあるか、そしてどこにあるか」という2つの問いに答えます。
このステップはすべてあなたのブラウザ内で実行されます。写真がサーバーにアップロードされることは一切ありません。モデルのファイルが一度だけ端末にダウンロードされ、重い処理はすべて端末のGPUを使ってローカルで行われます。だからこそ、回線が遅くても分析が動作し、あなたの画像はプライバシーが守られたままなのです。
ステップ2:478個のランドマークを検出する
顔が見つかると、モデルは顔の上に 478個のランドマーク(特徴点) を配置します。これらの点は、目、眉、鼻、唇、あご、そして顔全体の輪郭の形をなぞります。各ランドマークは3次元空間の座標として記録されるため、モデルは特徴の位置だけでなく、その相対的な奥行きや比率まで捉えています。
478個という点の数は、非常に細かい情報量です。比較すると、古い顔検出システムの多くは68個以下の点しか使っていませんでした。この密度が重要なのは、たとえば「狐顔」と「猫顔」の違いが、目の傾き、鼻筋の幅、あごのカーブといった微妙な比率に左右されるからです。
ステップ3:ランドマークを指標に変換する
生の座標は、それだけではあまり意味を持ちません。写真のサイズ、距離、角度によって変わってしまうからです。そこで次のステップでは、それらを写真の撮り方に関係なく一定に保たれる 比率と角度 に変換します。WhatZooは、次のような約7つの中心的な指標を計算します。
- 目の傾き — 目が上向きか下向きかの角度
- 顔の縦横比 — 顔の幅に対する長さの割合
- 鼻幅比 — 顔に対する鼻の幅
- 口幅比 — 顔に対する口の幅
- そのほか、目の大きさ、あごの形、各パーツの間隔などをカバーするいくつかの指標
これらは「相対的な」計測値であるため、同じ人物の自撮り写真とプロが撮影したポートレートでは、似たような数値が得られるはずです。それこそがポイントです。アプリは画素(ピクセル)ではなく、比率を読み取っているのです。
ステップ4:動物プロファイルとのマッチング
WhatZooのすべての動物タイプには、その動物が「どんな見た目か」を定義する想定指標の範囲のセット、すなわち プロファイル があります。たとえば狐顔のプロファイルは、鋭く吊り上がった目と細い顔を想定しています。一方、熊顔のプロファイルは、より丸く幅広い顔を想定しています。
マッチングエンジンは、あなたの指標をすべてのプロファイルと2つの方法で照合します。
- ゲートチェック(重要な特徴)。 各動物には、それなしでは成立しない決定的な特徴が1つあります。あなたの顔がそのゲートを通過できなければ、その動物は早い段階で除外されます。
- 重み付けスコア。 残った候補について、各指標がその動物にとってどれだけ重要かに応じてスコアに寄与します。あなたの比率がプロファイルに近いほど、スコアは高くなります。
総合スコアが最も高い動物があなたの結果となり、そのスコア自体が画面に表示される「類似度」のパーセンテージになります。
結果が変わることがある理由
同じ人でも、2枚の異なる写真で少し違う動物が出ることがあります。これは想定内のことで、たいていは入力(写真)に原因があります。頭が傾いていると目の傾きの読み取りが変わり、強い横からの光はあごのラインを隠し、大きな笑顔は口幅比を広げます。モデルは見たままを忠実に計測しているので、よりきれいな写真ほどよりきれいな結果が得られます。(最高の精度を求める方のために、完璧な写真の撮り方について別のガイドを用意しています。)
大切な注意点
ここはまったく正直にお伝えしたい部分です。動物顔診断はエンタメです。 上で述べたパイプラインは本物のコンピュータビジョンであり、計測も本物です。しかし、そこに付けられる「意味」、つまり「ライオン顔だからリーダーの性格だ」といった考え方は、遊び心のある解釈であって科学ではありません。顔の比率が性格を決めるという査読済みの証拠は一切存在しません。
ですから、結果を楽しみ、友達とシェアし、性格の説明は本来意図されたとおりに受け取ってください。それは楽しい鏡であって、診断ではありません。
まとめ
- MediaPipeがあなたの端末上で顔を見つける。
- 478個のランドマークを配置する。
- それらの点が一定の比率と角度に変換される。
- その比率を動物プロファイルと照合し、最も近いタイプを見つける。
これが、一枚の写真からあなたのスピリットアニマルまで、約1秒で行われる全行程です。