WhatZoo에 사진을 올리면 결과는 1~2초 만에 나타나지만, 그 짧은 순간에는 생각보다 많은 일이 벌어집니다. 이 글에서는 원본 이미지부터 최종 동물상 매칭까지 전체 과정을 차근차근 살펴보면서, 이 앱이 실제로 무엇을 하고 있는지(그리고 무엇을 하지 않는지) 정확히 이해할 수 있도록 안내합니다.
1단계: 얼굴 찾기
무언가를 측정하려면 먼저 사진 속에서 얼굴을 찾아야 합니다. WhatZoo는 MediaPipe Face Mesh를 사용합니다. 원래 구글이 증강현실(AR)을 위해 개발한 온디바이스 머신러닝 모델로, 이미지를 스캔해 두 가지 질문에 답합니다. 여기에 얼굴이 있는가, 그리고 어디에 있는가?
이 단계는 전적으로 여러분의 브라우저 안에서 실행됩니다. 사진은 절대 서버로 업로드되지 않습니다. 모델 파일은 한 번만 기기에 내려받아지고, 모든 무거운 연산은 기기의 GPU를 이용해 로컬에서 처리됩니다. 그래서 인터넷이 느려도 분석이 작동하고, 여러분의 사진이 비공개로 유지되는 것입니다.
2단계: 478개 랜드마크 감지
얼굴을 찾으면 모델은 그 위에 478개의 랜드마크 점을 배치합니다. 이 점들은 눈, 눈썹, 코, 입술, 턱의 윤곽과 얼굴 전체의 형태를 따라 찍힙니다. 각 랜드마크는 3D 공간상의 좌표이기 때문에, 모델은 이목구비가 어디에 있는지뿐 아니라 그 상대적인 깊이와 비율까지 포착합니다.
478개의 점은 상당히 정밀한 수준입니다. 비교하자면, 예전의 많은 얼굴 인식 시스템은 68개 이하의 점을 사용했습니다. 이 정밀도가 중요한 이유는, 예컨대 "여우상"과 "고양이상"의 차이가 결국은 미묘한 비율—눈의 기울기, 콧대의 너비, 턱선의 곡선—에서 갈리기 때문입니다.
3단계: 랜드마크를 수치로 변환
원본 좌표 자체는 그다지 의미가 없습니다. 사진의 크기, 거리, 각도에 따라 값이 달라지기 때문입니다. 그래서 다음 단계에서는 이 좌표들을 사진을 어떻게 찍었든 일관되게 유지되는 비율과 각도로 변환합니다. WhatZoo는 약 7가지 핵심 지표를 계산하는데, 그중에는 다음이 포함됩니다.
- 눈 기울기 — 눈이 위로 또는 아래로 올라가거나 처진 각도
- 얼굴 가로세로 비율 — 얼굴이 폭에 비해 얼마나 긴지
- 코 너비 비율 — 얼굴 대비 코의 너비
- 입 너비 비율 — 얼굴 대비 입의 너비
- 그 외에 눈 크기, 턱 모양, 이목구비 간격을 다루는 여러 지표들
이 값들은 상대적인 측정값이기 때문에, 같은 사람을 찍은 셀카와 전문 인물 사진은 비슷한 수치를 내야 합니다. 바로 이것이 핵심입니다. 앱은 픽셀이 아니라 비율을 읽습니다.
4단계: 동물 프로필과 매칭
WhatZoo의 모든 동물상에는 프로필이 있습니다. 그 동물이 "어떻게 생겼는지"를 정의하는 예상 수치 범위의 집합입니다. 예를 들어 여우상 프로필은 날카롭게 올라간 눈과 갸름한 얼굴을 기대하고, 곰상 프로필은 더 둥글고 넓은 얼굴을 기대합니다.
매칭 엔진은 여러분의 수치를 모든 프로필과 두 가지 방식으로 비교합니다.
- 게이트 체크(핵심 특징). 각 동물에는 반드시 갖춰야 하는 결정적인 특징이 하나씩 있습니다. 여러분의 얼굴이 그 관문을 통과하지 못하면, 해당 동물은 일찌감치 후보에서 제외됩니다.
- 가중 점수. 남은 후보들에 대해서는, 각 지표가 그 동물에게 얼마나 중요한지에 따라 점수에 기여합니다. 여러분의 비율이 프로필에 가까울수록 점수가 높아집니다.
전체 점수가 가장 높은 동물이 여러분의 결과가 되고, 그 점수 자체가 화면에 표시되는 "유사도" 퍼센트가 됩니다.
결과가 달라질 수 있는 이유
같은 사람이 사진 두 장에서 조금씩 다른 동물상을 받는 경우가 있습니다. 이는 예상된 현상이며, 보통 입력 사진 때문입니다. 고개를 기울이면 눈 기울기 수치가 달라지고, 강한 측면 조명은 턱선을 가릴 수 있으며, 활짝 웃으면 입 너비 비율이 커집니다. 모델은 보이는 그대로를 충실히 측정하므로, 더 깔끔한 사진일수록 더 깔끔한 결과가 나옵니다. (최고의 정확도를 원한다면, 완벽한 사진 찍는 법을 다룬 별도의 가이드를 참고하세요.)
한 가지 중요한 단서
이 부분만큼은 완전히 솔직하게 말씀드리고 싶습니다. 동물상 분석은 재미를 위한 것입니다. 위에서 설명한 과정은 진짜 컴퓨터 비전이고, 측정값도 실제 수치입니다. 하지만 거기에 붙는 의미—"사자상이면 리더의 성격을 가졌다"는 식의 해석—는 과학이 아니라 즐거운 상상일 뿐입니다. 얼굴 비율이 성격을 결정한다는 동료 검증을 거친 과학적 증거는 없습니다.
그러니 결과를 즐기고, 친구들과 공유하고, 성격 설명은 본래 의도된 정신으로 받아들이세요. 진단이 아니라 즐거운 거울로요.
요약하자면
- MediaPipe가 여러분의 기기에서 얼굴을 찾습니다.
- 478개의 랜드마크 점을 배치합니다.
- 그 점들이 일관된 비율과 각도로 변환됩니다.
- 그 비율을 동물 프로필과 매칭해 가장 가까운 동물상을 찾습니다.
이것이 전체 여정입니다. 한 장의 사진에서 여러분의 동물상까지, 약 1초 만에 말이죠.