Tensorflow Lite Posenet Demo APP
Oszacowanie pozycji odnosi się do technik widzenia komputerowego, które wykrywają postacie ludzkie na obrazach i filmach, dzięki czemu można na przykład określić, gdzie na obrazie pojawia się czyjeś łokieć. Ważne jest, aby zdawać sobie sprawę z faktu, że oszacowanie pozowania jedynie szacuje, gdzie znajdują się kluczowe stawy ciała i nie rozpoznaje, kto jest na zdjęciu lub wideo.
Model PoseNet pobiera przetworzony obraz z kamery jako dane wejściowe i wyprowadza informacje o punktach kluczowych. Wykryte punkty kluczowe są indeksowane przez identyfikator części, z wynikiem ufności między 0,0 a 1,0. Wynik ufności wskazuje prawdopodobieństwo, że punkt kluczowy istnieje w tej pozycji.
Testy wydajności
Wydajność różni się w zależności od urządzenia i kroku wyjściowego (mapy cieplne i wektory przesunięcia). Model PoseNet jest niezmienny w rozmiarze obrazu, co oznacza, że może przewidywać pozycje ułożenia w tej samej skali, co oryginalny obraz, niezależnie od tego, czy obraz jest przeskalowany w dół. Oznacza to, że konfigurujesz model tak, aby miał wyższą dokładność kosztem wydajności.
Wartość wyjściowa określa, jak bardzo wynik jest skalowany w dół w stosunku do rozmiaru obrazu wejściowego. Wpływa na rozmiar warstw i wyniki modelu.
Im wyższy krok wyjściowy, tym mniejsza rozdzielczość warstw w sieci i wyjściach, a co za tym idzie, ich dokładność. W tej implementacji krok wyjściowy może mieć wartości 8, 16 lub 32. Innymi słowy, krok wyjściowy 32 zapewni najszybszą wydajność, ale najmniejszą dokładność, podczas gdy 8 da najwyższą dokładność, ale najwolniejsze działanie. Zalecana wartość początkowa to 16.