Tensorflow Lite Posenet Demo APP
A estimativa de pose se refere a técnicas de visão computacional que detectam figuras humanas em imagens e vídeos, de modo que se possa determinar, por exemplo, onde o cotovelo de alguém aparece em uma imagem. É importante estar ciente do fato de que a estimativa de pose meramente estima onde estão as principais articulações do corpo e não reconhece quem está em uma imagem ou vídeo.
O modelo PoseNet pega uma imagem de câmera processada como entrada e fornece informações sobre os pontos-chave. Os pontos-chave detectados são indexados por um ID de peça, com uma pontuação de confiança entre 0,0 e 1,0. A pontuação de confiança indica a probabilidade de que um ponto-chave exista nessa posição.
Benchmarks de desempenho
O desempenho varia com base no dispositivo e na distância de saída (mapas de calor e vetores de deslocamento). O modelo PoseNet não varia com o tamanho da imagem, o que significa que ele pode prever posições de pose na mesma escala da imagem original, independentemente de a imagem ser reduzida ou não. Isso significa que você configura o modelo para ter uma precisão maior em detrimento do desempenho.
O passo de saída determina quanto a saída é reduzida em relação ao tamanho da imagem de entrada. Isso afeta o tamanho das camadas e as saídas do modelo.
Quanto maior for a distância de saída, menor será a resolução das camadas da rede e das saídas e, correspondentemente, sua precisão. Nesta implementação, a passada de saída pode ter valores de 8, 16 ou 32. Em outras palavras, uma passada de saída de 32 resultará no desempenho mais rápido, mas com menor precisão, enquanto 8 resultará na maior precisão, mas desempenho mais lento. O valor inicial recomendado é 16.