Apple Vision vs MediaPipe: ¿Cuál es Mejor para la Detección de Posturas de Yoga?

Una comparación técnica al construir Eight Angle, una app de yoga para iOS.

Apple Vision (izquierda) no pudo detectar esta postura de Perro Boca Abajo. MediaPipe (derecha) encontró las 19 articulaciones. Verde = alta confianza, amarillo = media, rojo = baja.

Al construir Eight Angle, necesitábamos detección de posturas confiable para identificar posturas de yoga en tiempo real. Comenzamos con el framework Vision de Apple, pero pronto notamos problemas: el detector no encontraba posturas en muchas de nuestras imágenes de entrenamiento, especialmente cuando los cuerpos estaban invertidos o parcialmente ocluidos. Así que probamos MediaPipe de Google como alternativa.

¿El resultado? MediaPipe detectó 26% más posturas y logró 4% más precisión en clasificación. Esto es lo que encontramos.

Contexto: Cómo Funciona la Detección de Posturas

La detección de posturas es la tarea de visión por computadora de encontrar la posición del cuerpo de una persona en una imagen. El detector produce un “esqueleto” — un conjunto de puntos articulares (tobillos, rodillas, caderas, hombros, muñecas, etc.) con coordenadas X/Y y puntuaciones de confianza.

Apple Vision produce 19 articulaciones. MediaPipe en realidad proporciona 33 puntos de referencia, pero usamos las 19 que corresponden a las articulaciones de Vision para mantener la comparación justa. Para cada articulación, obtienes:

Posición: Coordenadas X e Y (normalizadas 0-1)
Confianza: Qué tan seguro está el detector (0-1)

El yoga presenta desafíos únicos para los detectores de posturas:

Inversiones: Las paradas de cabeza y de manos invierten la orientación esperada del cuerpo
Oclusiones: Brazos detrás del cuerpo, piernas cruzadas entre sí
Formas inusuales: Posturas como la Rueda o Eight Angle no se parecen a posturas de pie típicas

Estos casos límite importan porque una app de yoga necesita funcionar en todo el rango de posturas, no solo posiciones de pie.

La Configuración de la Comparación

Evaluamos ambos detectores usando las mismas condiciones:

1,603 imágenes de entrenamiento en 21 clases de posturas de yoga
Misma extracción de características: 31 características geométricas (ángulos articulares, distancias, medidas de simetría)
Mismo clasificador: Random Forest con validación cruzada de 5 pliegues
Mismo hardware: Todo el procesamiento en Apple Silicon

El pipeline de características transforma las coordenadas articulares brutas en mediciones significativas como “ángulo de cadera” o “simetría de rodillas” — esto importa más para la clasificación que las posiciones brutas.

Hallazgo Clave #1: Tasa de Detección

La mayor diferencia fue cuántas posturas pudo encontrar cada detector.

Detector	Detectadas	Total	Tasa de Detección
Apple Vision	1,142	1,603	71.2%
MediaPipe	1,562	1,603	97.4%

MediaPipe detectó 420 posturas más — un aumento del 36.8% en datos de entrenamiento utilizables del mismo conjunto de imágenes.

La brecha fue mayor para posturas desafiantes:

Postura	Muestras Vision	Muestras MediaPipe	Ganancia
forward_fold	51	123	+72
crow	47	117	+70
downward_dog	63	130	+67
bridge	26	91	+65
handstand	37	91	+54

Vision tuvo más dificultades con posturas donde el cuerpo está doblado o invertido. Forward Fold, por ejemplo, tiene la cabeza debajo de las caderas con piernas potencialmente ocluyendo el torso — Vision detectó menos de la mitad de estas imágenes.

Postura Crow: Vision (izquierda) encontró solo 10 articulaciones, mayormente con baja confianza. MediaPipe (derecha) detectó las 19 articulaciones claramente.

Hallazgo Clave #2: Precisión de Clasificación

Más posturas detectadas también significaron mejor clasificación:

Detector	Precisión	Desv. Est.
Apple Vision	89.6%	±1.8%
MediaPipe	93.4%	±1.2%

La precisión de MediaPipe fue tanto más alta como más consistente (menor desviación estándar).

Ganadores Por Clase

Las mayores mejoras vinieron de posturas que Vision tuvo problemas para detectar:

Postura	Vision	MediaPipe	Cambio
low_lunge	66.7%	92.1%	+25.4%
splits	66.7%	80.0%	+13.3%
forward_fold	82.4%	95.1%	+12.8%
eight_angle	55.9%	68.1%	+12.2%
downward_dog	90.5%	100.0%	+9.5%

Low Lunge mejoró dramáticamente porque MediaPipe pudo detectar la pierna trasera incluso cuando está detrás de la pierna delantera. Con Vision, esas muestras tenían datos articulares faltantes que perjudicaban la clasificación.

El Misterio de la Parada de Cabeza

Parada de Cabeza: Ambos detectores encontraron la postura, pero nota las puntuaciones de confianza más altas de MediaPipe (verde) vs las más bajas de Vision (amarillo/rojo).

Una postura rompió la tendencia: La Parada de Cabeza pasó de 100% de precisión con Vision a 88% con MediaPipe.

Esto parecía contraintuitivo — ¿por qué mejor detección llevaría a peor clasificación?

La causa raíz: con solo 41 muestras de entrenamiento, la clase era vulnerable al ruido. Cuando investigamos las 5 imágenes mal clasificadas, encontramos dos patrones:

Variantes con brazos rectos (3 imágenes): Clasificadas como Parada de Manos porque los brazos estaban extendidos, no doblados
Posturas preparatorias con rodillas recogidas (2 imágenes): Clasificadas como Crow porque la posición del cuerpo era similar

Estos no fueron errores del detector — fueron casos límite de datos de entrenamiento. MediaPipe detectó más variación en el conjunto de entrenamiento, exponiendo posturas que estaban en el límite entre clases.

La lección: más datos exponen más casos límite. La menor tasa de detección de Vision enmascaró estas muestras ambiguas simplemente al no incluirlas.

¿Por Qué la Diferencia?

La ventaja de MediaPipe probablemente viene de varios factores:

Mejor Manejo de Oclusiones

MediaPipe tuvo dramáticamente menos articulaciones faltantes. Por ejemplo, knee_symmetry (que requiere ambas rodillas) faltaba en 17% de las muestras de Vision pero solo en 3.5% de las muestras de MediaPipe.

Umbral Efectivo Más Bajo

Encontramos que las posiciones articulares de MediaPipe son precisas incluso con puntuaciones de confianza bajas. Establecer el umbral en 0.001 (esencialmente aceptando todas las detecciones) dio los mejores resultados:

Umbral	Precisión
0.10	92.6%
0.05	92.4%
0.001	93.4%

Esto es diferente de Vision, donde las articulaciones de baja confianza a menudo son imprecisas. MediaPipe parece producir puntuaciones de confianza más conservadoramente.

Datos de Entrenamiento

MediaPipe fue entrenado en un conjunto de datos de posturas más grande y diverso. Los papers de investigación de Google mencionan manejo para oclusión, orientaciones inusuales y visibilidad parcial — exactamente los escenarios que importan para yoga.

Lo Que Elegimos

Para Eight Angle, cambiamos nuestro pipeline de entrenamiento a MediaPipe. Los factores decisivos:

La tasa de detección importaba más. Con imágenes de entrenamiento limitadas, obtener 420 muestras utilizables más fue significativo. Más datos significa mejor generalización.
Las posturas de yoga son inherentemente desafiantes. Inversiones, balances de brazos y flexiones profundas son centrales a la práctica — no podíamos ignorar el 30% de esas posturas.
La ganancia de precisión fue un bonus. Esperábamos que más datos ayudarían, pero la mejora del 4% en precisión confirmó que las posiciones articulares de MediaPipe son genuinamente más confiables para nuestro caso de uso.

Vision no es una mala elección para aplicaciones más simples — si solo estás detectando a alguien de pie o caminando, funciona bien. Pero para yoga, donde el punto es poner tu cuerpo en posiciones inusuales, MediaPipe maneja los casos límite que importan.

¿Interesado en ver cómo Eight Angle te ayuda a mejorar tu práctica de yoga? Únete a la lista de espera para obtener acceso anticipado.

Estadísticas Resumen

Métrica	Apple Vision	MediaPipe	Ganador
Tasa de Detección	71.2%	97.4%	MediaPipe (+26%)
Precisión de Clasificación	89.6%	93.4%	MediaPipe (+4%)
Desv. Est. de Precisión	±1.8%	±1.2%	MediaPipe (más consistente)
Muestras Utilizables	1,142	1,562	MediaPipe (+420)