← Volver al blog
Comparación lado a lado de Apple Vision y MediaPipe detectando la postura del Perro Boca Abajo

Apple Vision vs MediaPipe: ¿Cuál es Mejor para la Detección de Posturas de Yoga?

· por Brian

Una comparación técnica al construir Eight Angle, una app de yoga para iOS.


Comparación lado a lado de Apple Vision y MediaPipe detectando la postura del Perro Boca Abajo. Vision no pudo detectar la postura, mientras que MediaPipe encontró las 19 articulaciones con alta confianza. Apple Vision (izquierda) no pudo detectar esta postura de Perro Boca Abajo. MediaPipe (derecha) encontró las 19 articulaciones. Verde = alta confianza, amarillo = media, rojo = baja.


Al construir Eight Angle, necesitábamos detección de posturas confiable para identificar posturas de yoga en tiempo real. Comenzamos con el framework Vision de Apple, pero pronto notamos problemas: el detector no encontraba posturas en muchas de nuestras imágenes de entrenamiento, especialmente cuando los cuerpos estaban invertidos o parcialmente ocluidos. Así que probamos MediaPipe de Google como alternativa.

¿El resultado? MediaPipe detectó 26% más posturas y logró 4% más precisión en clasificación. Esto es lo que encontramos.

Contexto: Cómo Funciona la Detección de Posturas

La detección de posturas es la tarea de visión por computadora de encontrar la posición del cuerpo de una persona en una imagen. El detector produce un “esqueleto” — un conjunto de puntos articulares (tobillos, rodillas, caderas, hombros, muñecas, etc.) con coordenadas X/Y y puntuaciones de confianza.

Apple Vision produce 19 articulaciones. MediaPipe en realidad proporciona 33 puntos de referencia, pero usamos las 19 que corresponden a las articulaciones de Vision para mantener la comparación justa. Para cada articulación, obtienes:

  • Posición: Coordenadas X e Y (normalizadas 0-1)
  • Confianza: Qué tan seguro está el detector (0-1)

El yoga presenta desafíos únicos para los detectores de posturas:

  • Inversiones: Las paradas de cabeza y de manos invierten la orientación esperada del cuerpo
  • Oclusiones: Brazos detrás del cuerpo, piernas cruzadas entre sí
  • Formas inusuales: Posturas como la Rueda o Eight Angle no se parecen a posturas de pie típicas

Estos casos límite importan porque una app de yoga necesita funcionar en todo el rango de posturas, no solo posiciones de pie.

La Configuración de la Comparación

Evaluamos ambos detectores usando las mismas condiciones:

  • 1,603 imágenes de entrenamiento en 21 clases de posturas de yoga
  • Misma extracción de características: 31 características geométricas (ángulos articulares, distancias, medidas de simetría)
  • Mismo clasificador: Random Forest con validación cruzada de 5 pliegues
  • Mismo hardware: Todo el procesamiento en Apple Silicon

El pipeline de características transforma las coordenadas articulares brutas en mediciones significativas como “ángulo de cadera” o “simetría de rodillas” — esto importa más para la clasificación que las posiciones brutas.

Hallazgo Clave #1: Tasa de Detección

La mayor diferencia fue cuántas posturas pudo encontrar cada detector.

DetectorDetectadasTotalTasa de Detección
Apple Vision1,1421,60371.2%
MediaPipe1,5621,60397.4%

MediaPipe detectó 420 posturas más — un aumento del 36.8% en datos de entrenamiento utilizables del mismo conjunto de imágenes.

La brecha fue mayor para posturas desafiantes:

PosturaMuestras VisionMuestras MediaPipeGanancia
forward_fold51123+72
crow47117+70
downward_dog63130+67
bridge2691+65
handstand3791+54

Vision tuvo más dificultades con posturas donde el cuerpo está doblado o invertido. Forward Fold, por ejemplo, tiene la cabeza debajo de las caderas con piernas potencialmente ocluyendo el torso — Vision detectó menos de la mitad de estas imágenes.

Comparación lado a lado de detección de postura Crow. Vision detectó solo 10 de 19 articulaciones con baja confianza, mientras que MediaPipe detectó las 19 con alta confianza. Postura Crow: Vision (izquierda) encontró solo 10 articulaciones, mayormente con baja confianza. MediaPipe (derecha) detectó las 19 articulaciones claramente.

Hallazgo Clave #2: Precisión de Clasificación

Más posturas detectadas también significaron mejor clasificación:

DetectorPrecisiónDesv. Est.
Apple Vision89.6%±1.8%
MediaPipe93.4%±1.2%

La precisión de MediaPipe fue tanto más alta como más consistente (menor desviación estándar).

Ganadores Por Clase

Las mayores mejoras vinieron de posturas que Vision tuvo problemas para detectar:

PosturaVisionMediaPipeCambio
low_lunge66.7%92.1%+25.4%
splits66.7%80.0%+13.3%
forward_fold82.4%95.1%+12.8%
eight_angle55.9%68.1%+12.2%
downward_dog90.5%100.0%+9.5%

Low Lunge mejoró dramáticamente porque MediaPipe pudo detectar la pierna trasera incluso cuando está detrás de la pierna delantera. Con Vision, esas muestras tenían datos articulares faltantes que perjudicaban la clasificación.

El Misterio de la Parada de Cabeza

Comparación lado a lado de detección de Parada de Cabeza. Ambos detectores encontraron la postura, pero MediaPipe muestra mayor confianza (más articulaciones verdes) que Vision (más amarillas y rojas). Parada de Cabeza: Ambos detectores encontraron la postura, pero nota las puntuaciones de confianza más altas de MediaPipe (verde) vs las más bajas de Vision (amarillo/rojo).

Una postura rompió la tendencia: La Parada de Cabeza pasó de 100% de precisión con Vision a 88% con MediaPipe.

Esto parecía contraintuitivo — ¿por qué mejor detección llevaría a peor clasificación?

La causa raíz: con solo 41 muestras de entrenamiento, la clase era vulnerable al ruido. Cuando investigamos las 5 imágenes mal clasificadas, encontramos dos patrones:

  1. Variantes con brazos rectos (3 imágenes): Clasificadas como Parada de Manos porque los brazos estaban extendidos, no doblados
  2. Posturas preparatorias con rodillas recogidas (2 imágenes): Clasificadas como Crow porque la posición del cuerpo era similar

Estos no fueron errores del detector — fueron casos límite de datos de entrenamiento. MediaPipe detectó más variación en el conjunto de entrenamiento, exponiendo posturas que estaban en el límite entre clases.

La lección: más datos exponen más casos límite. La menor tasa de detección de Vision enmascaró estas muestras ambiguas simplemente al no incluirlas.

¿Por Qué la Diferencia?

La ventaja de MediaPipe probablemente viene de varios factores:

Mejor Manejo de Oclusiones

MediaPipe tuvo dramáticamente menos articulaciones faltantes. Por ejemplo, knee_symmetry (que requiere ambas rodillas) faltaba en 17% de las muestras de Vision pero solo en 3.5% de las muestras de MediaPipe.

Umbral Efectivo Más Bajo

Encontramos que las posiciones articulares de MediaPipe son precisas incluso con puntuaciones de confianza bajas. Establecer el umbral en 0.001 (esencialmente aceptando todas las detecciones) dio los mejores resultados:

UmbralPrecisión
0.1092.6%
0.0592.4%
0.00193.4%

Esto es diferente de Vision, donde las articulaciones de baja confianza a menudo son imprecisas. MediaPipe parece producir puntuaciones de confianza más conservadoramente.

Datos de Entrenamiento

MediaPipe fue entrenado en un conjunto de datos de posturas más grande y diverso. Los papers de investigación de Google mencionan manejo para oclusión, orientaciones inusuales y visibilidad parcial — exactamente los escenarios que importan para yoga.

Lo Que Elegimos

Para Eight Angle, cambiamos nuestro pipeline de entrenamiento a MediaPipe. Los factores decisivos:

  • La tasa de detección importaba más. Con imágenes de entrenamiento limitadas, obtener 420 muestras utilizables más fue significativo. Más datos significa mejor generalización.
  • Las posturas de yoga son inherentemente desafiantes. Inversiones, balances de brazos y flexiones profundas son centrales a la práctica — no podíamos ignorar el 30% de esas posturas.
  • La ganancia de precisión fue un bonus. Esperábamos que más datos ayudarían, pero la mejora del 4% en precisión confirmó que las posiciones articulares de MediaPipe son genuinamente más confiables para nuestro caso de uso.

Vision no es una mala elección para aplicaciones más simples — si solo estás detectando a alguien de pie o caminando, funciona bien. Pero para yoga, donde el punto es poner tu cuerpo en posiciones inusuales, MediaPipe maneja los casos límite que importan.


¿Interesado en ver cómo Eight Angle te ayuda a mejorar tu práctica de yoga? Únete a la lista de espera para obtener acceso anticipado.


Estadísticas Resumen

MétricaApple VisionMediaPipeGanador
Tasa de Detección71.2%97.4%MediaPipe (+26%)
Precisión de Clasificación89.6%93.4%MediaPipe (+4%)
Desv. Est. de Precisión±1.8%±1.2%MediaPipe (más consistente)
Muestras Utilizables1,1421,562MediaPipe (+420)