Tensorflow Lite Posenet Demo APP
포즈 추정은 이미지와 동영상에서 사람의 모습을 감지하는 컴퓨터 비전 기술을 의미합니다. 예를 들어 이미지에서 누군가의 팔꿈치가 나타나는 위치를 파악할 수 있습니다. 포즈 추정은 신체의 핵심 관절이 어디에 있는지 추정 할뿐 이미지 나 비디오에 누가 있는지 인식하지 못한다는 사실을 인식하는 것이 중요합니다.
PoseNet 모델은 처리 된 카메라 이미지를 입력으로 사용하고 키포인트에 대한 정보를 출력합니다. 감지 된 키포인트는 0.0에서 1.0 사이의 신뢰도 점수로 부품 ID로 인덱싱됩니다. 신뢰도 점수는 해당 위치에 키포인트가 존재할 확률을 나타냅니다.
성능 벤치 마크
성능은 장치 및 출력 보폭 (히트 맵 및 오프셋 벡터)에 따라 다릅니다. PoseNet 모델은 이미지 크기가 변하지 않으므로 이미지가 축소되었는지 여부에 관계없이 원본 이미지와 동일한 배율로 포즈 위치를 예측할 수 있습니다. 즉, 성능을 희생하면서 더 높은 정확도를 갖도록 모델을 구성합니다.
출력 보폭은 입력 이미지 크기에 비해 출력이 축소되는 정도를 결정합니다. 레이어의 크기와 모델 출력에 영향을줍니다.
출력 보폭이 높을수록 네트워크 및 출력 레이어의 해상도와 그에 따른 정확도가 낮아집니다. 이 구현에서 출력 보폭은 8, 16 또는 32의 값을 가질 수 있습니다. 즉, 출력 보폭이 32이면 성능이 가장 빠르지 만 정확도가 가장 낮고 8은 정확도가 가장 높지만 성능이 가장 느립니다. 권장 시작 값은 16입니다.