Detección por Wi-Fi: Seguimiento Inteligente

¿Qué pasaría si pudiéramos rastrear movimientos y acciones en interiores utilizando solo Wi-Fi, sin preocupaciones de privacidad? La solución está en la información del estado del canal (CSI, por sus siglas en inglés) impulsada por inteligencia artificial. Este enfoque hace que la detección inteligente sea más rápida, ligera y desplegable en dispositivos de uso cotidiano.

El Internet de las Cosas (IoT) está revolucionando la forma en que interactuamos con nuestro entorno, desde ajustar luces en un ambiente inteligente hasta monitorear pacientes en entornos de salud. Para interactuar con el entorno, dos elementos son esenciales: la actividad de una persona y su ubicación. Identificar la actividad se conoce como reconocimiento de actividades , mientras que determinar la posición exacta se llama localización . El seguimiento combina ambos aspectos.

Una forma de lograr esto es instalando cámaras en interiores, pero eso genera preocupaciones de privacidad y aumenta los costos. Para superar estos desafíos, podemos aprovechar las señales de dispositivos de Wi-Fi existentes. Esto elimina el costo de instalar cámaras y aborda las preocupaciones de privacidad al depender únicamente de las señales de Wi-Fi.

Tradicionalmente, el sistema de posicionamiento global (GPS) se utiliza para la localización, pero tiene un rendimiento deficiente en interiores debido a la obstrucción de señales por paredes y muebles, lo que resulta en una posición inexacta.

Para resolver este problema, utilizamos la información del estado del canal (CSI) del Wi-Fi. A medida que las señales de Wi-Fi viajan por el espacio, encuentran obstáculos como paredes, muebles y cuerpos humanos, alterando su amplitud y fase. La CSI captura estos cambios, ofreciendo detalles precisos sobre el canal inalámbrico. Al analizar estas variaciones de señal, la CSI permite la detección de movimiento, el reconocimiento de actividades e incluso la localización, sin necesidad de sensores o cámaras adicionales.

Aplicaciones Prácticas

En el contexto del reconocimiento de actividades humanas y la localización, la CSI es particularmente útil porque permite un monitoreo no intrusivo. Por ejemplo, en el cuidado geriátrico, la CSI puede detectar caídas o movimientos inusuales sin necesidad de dispositivos portátiles, asegurando un monitoreo continuo mientras se mantiene la comodidad y dignidad del paciente.

*Fig. 1: Descripción general del reconocimiento y localización de la actividad conjunta basada en CSI on edge*

De manera similar, en hogares inteligentes, la CSI puede reconocer actividades como caminar, sentarse y dormir, permitiendo que los sistemas de automatización ajusten la iluminación, la temperatura o la seguridad en consecuencia. En hospitales o residencias asistidas, la localización basada en CSI puede rastrear el movimiento de personas mayores o pacientes con deterioro cognitivo (como Alzheimer). Se pueden enviar alertas a los cuidadores si un paciente entra en áreas restringidas o abandona las instalaciones. Si una persona se desmaya en una habitación, el sistema puede identificar su ubicación exacta y activar una alerta de emergencia, reduciendo así el tiempo de respuesta.

Además, en un entorno inteligente, una actividad específica puede tener diferentes significados dependiendo del lugar. Por ejemplo, en la sala de estar, hacer un gesto hacia arriba podría indicar aumentar el volumen del televisor, mientras que el mismo gesto en el dormitorio podría significar cambiar la temperatura del aire acondicionado. Por lo tanto, es necesario identificar conjuntamente la actividad y la ubicación mediante la CSI; esto se conoce como reconocimiento conjunto de actividades y localización basado en CSI .

Aprendizaje Profundo para Reconocimiento Basado en CSI

Una vez que se obtienen los datos de CSI, es necesario entrenar un modelo que pueda utilizarse posteriormente para identificar en tiempo real la actividad y la ubicación. Se entrena un modelo basado en aprendizaje profundo, específicamente una red neuronal convolucional (CNN), para realizar esta tarea. Entrenar un modelo implica mapear los datos de entrada etiquetados a sus salidas correspondientes, y en el proceso, el modelo aprende ciertos parámetros llamados pesos y sesgos. Estos pesos y sesgos aprendidos se utilizan posteriormente para inferencia en tiempo real.

*Fig. 2: Metodología para la implementación en el borde del modelo de reconocimiento y localización de actividad conjunta basado en CSI*

Las CNN utilizan filtros para aprender información relevante en los datos para la tarea en cuestión. Estos modelos, que a menudo dependen de redes neuronales complejas, requieren una memoria y potencia de procesamiento significativas, lo que dificulta su implementación en tiempo real en dispositivos perimetrales con recursos limitados. Las redes neuronales profundas utilizadas para el análisis de CSI a menudo tienen millones de parámetros, lo que las hace inadecuadas para sistemas integrados. Además, la capacidad de procesamiento limitada en los dispositivos perimetrales ralentiza la inferencia, dificultando las aplicaciones en tiempo real.

Para superar estos desafíos al implementar este modelo basado en CNN en dispositivos perimetrales, es necesario comprimir el tamaño del modelo y reducir la complejidad computacional. El tamaño del modelo depende del número de parámetros (pesos y sesgos) que tenga, y la complejidad computacional depende del número de operaciones de punto flotante por segundo (FLOPs) que el modelo necesita realizar. Esto se puede lograr mediante la compresión del modelo. Existen dos metodologías principales de compresión de modelos:

Cuantificación
Poda

Optimización de Modelos CSI con Cuantificación y Poda

La cuantificación reduce la precisión numérica de los pesos y activaciones del modelo. En las redes neuronales, los pesos generalmente se almacenan como números de punto flotante de 32 bits (FP32). Supongamos que el valor de un peso es 0.15625; en representación FP32, se almacena como 0 01111100 01010000000000000000000, donde el primer 0 representa el signo, los siguientes 8 bits representan el exponente y los últimos 23 bits representan la mantisa. La representación FP32 ocupa 32 bits o 4 bytes.

Para reducir la precisión, realizamos la cuantificación. Para la cuantificación INT8, los valores se asignan a un rango con 2^8 = 256 valores representables. Para INT8, este rango puede ser [-128, 127].

Matemáticamente, la cuantificación se expresa como:xq=round(sx−z)
donde s es el factor de escala, z es el valor al que se asigna el cero original en menor precisión, y la función round redondea el valor al entero más cercano. El valor 0.15625 en precisión INT8 se representará como 20. La precisión INT8 ocupa solo 1 byte en comparación con los 4 bytes que usa FP32. Por lo tanto, al cuantificar los parámetros de FP32 a INT8, reducimos el tamaño del modelo en 4 veces, lo cual es significativo. Incluso podemos cuantificar los pesos a anchos de bits más bajos.

Obviamente, esta pérdida de precisión introduce algún error de cuantificación, lo que degrada la precisión del modelo, pero es necesario encontrar un equilibrio óptimo entre el tamaño del modelo y el rendimiento.

La otra técnica de compresión es la poda. Los pesos menos importantes se eliminan de la red, haciendo que el modelo sea más pequeño y eficiente. A medida que disminuye el número de parámetros, también disminuyen los FLOPs, reduciendo la complejidad computacional del modelo. Los pesos se eliminan según un criterio preestablecido, como la norma l1 o l2, o su contribución a la función de pérdida. Los pesos con magnitudes menores se consideran menos significativos y, por lo tanto, se eliminan. La cantidad de parámetros a eliminar se puede controlar ajustando la cantidad de dispersión introducida en el modelo durante la poda. Aunque los pesos eliminados son menos significativos, el rendimiento del modelo se degrada, y es necesario encontrar un equilibrio óptimo entre tamaño y precisión. La metodología utilizada se muestra en el Algoritmo 1 .

Algoritmo 1: Reconocimiento Conjunto de Actividades y Localización Basado en CSI

Entrada: Datos CSI X∈RN×K×2
Salida: Actividad Predicha A^ y Ubicación L^

Recolección de datos CSI
Recopilar datos CSI crudos de las señales Wi-Fi en el entorno.
Preprocesar los datos CSI eliminando el ruido y aplicando normalización.
Entrenamiento del modelo (aprendizaje profundo)
Entrenar una CNN utilizando datos CSI etiquetados.
Optimizar los pesos del modelo mediante retropropagación para minimizar la pérdida.
Compresión del modelo
- Poda: Eliminar pesos insignificantes para reducir el tamaño general del modelo.
- Cuantificación: Convertir los pesos del modelo a un formato de menor precisión para ahorrar memoria.
Optimización y evaluación
Evaluar el rendimiento del modelo en términos de precisión y latencia, tanto antes como después de la compresión.
Si el rendimiento disminuye significativamente:
- Ajustar los parámetros de compresión.
- Retrain el modelo.
Implementación en dispositivos perimetrales
Implementar el modelo comprimido en un dispositivo perimetral (por ejemplo, Raspberry Pi 4).
Ejecutar inferencia en datos CSI en tiempo real para predecir la actividad A^ y la ubicación L^.

*Fig. 3: Precisión del modelo con y sin compresión*

Evaluación del Rendimiento

Podemos comprimir significativamente el modelo combinando estas dos técnicas. Primero, se poda el modelo, lo que resulta en un modelo más pequeño con menos parámetros, y luego se cuantifica para reducir aún más su tamaño. El entrenamiento del modelo se plantea como una tarea de clasificación. El impacto de la compresión en la precisión se muestra en la Figura 3.

*Fig. 4a: t-SNE de la articulación, reconocimiento de actividad*

*Fig. 4b: t-SNE de la articulación, localización*

El modelo original, sin poda ni cuantificación, logra una precisión del 99,25 % en la tarea de localización y del 95,32 % en el reconocimiento de actividades. Al comprimir el modelo a un 80 % de dispersión y utilizar 7 bits para encontrar un equilibrio óptimo entre tamaño, complejidad y rendimiento, se logra una precisión del 84,89 % en localización y del 66,55 % en reconocimiento de actividades. El t-SNE (t-distributed stochastic neighbor embedding) se grafica en la Figura 4. A medida que la complejidad y el tamaño del modelo se reducen significativamente, el tiempo de inferencia también disminuye considerablemente.

El modelo comprimido se implementó en una Raspberry Pi 4 , y la velocidad de inferencia del modelo comprimido se redujo a 10,16 ms en comparación con los 49,93 ms del modelo original sin comprimir. Por lo tanto, comprimir el modelo reduce la velocidad de inferencia en casi un 80 % . Esto demuestra que la compresión del modelo ayuda a implementar modelos en dispositivos perimetrales de manera eficiente.

Reflexiones Finales

El seguimiento basado en CSI tiene potencial para evolucionar y utilizarse en ciudades inteligentes, retail e incluso en la automatización industrial. Las futuras mejoras podrían centrarse en aumentar la eficiencia del modelo, integrarlo con tecnologías inalámbricas emergentes como 6G y garantizar una mayor privacidad mediante el aprendizaje federado.

Avnish Aryan está cursando su licenciatura y realizando investigación de pregrado en Ingeniería Eléctrica y Electrónica en el Departamento de Ingeniería Eléctrica del Instituto Indio de Tecnología, Patna, India .

El Dr. Sudhir Kumar es profesor asociado en el Departamento de Ingeniería Eléctrica del Instituto Indio de Tecnología, Patna, India .

(Este trabajo fue apoyado por el Departamento de Ciencia y Tecnología del Gobierno de India, bajo la subvención NGP/GTD/Sudhir/IITPatna/BR/05/2022 en el Instituto Indio de Tecnología Patna, Bihar, India).