Guaper, ejemplo de perfilado de usuarios

Guaper - SOLUSOFT

En Solusoft aplicamos técnicas de aprendizaje automático para perfilar usuarios y contextos para caracterizar a los usuarios sin intervención explícita. El objetivo es inferir, con la mayor precisión posible, los atributos del usuario con la información disponible en el sistema (parámetros de configuración, actividad en el sistema, hábitos de uso…) y encontrar correlación entre estos y los parámetros que deban ser caracterizados.

La dificultad muchas veces recae en obtener los datos de entrenamiento para generar modelos de aprendizaje, o porque no están disponibles, o porque nadie ha explorado esta vía.En uno de estos casos, en los que no había un dataset disponible, desarrollamos una aplicación -Guaper- para generar de forma natural estos datos, con un propósito experimental. Se informaba al usuario del propósito de la información, y se anonimizada para su procesamiento.

Descripción de la aplicación

Guaper es una aplicación móvil gratuita disponible para dispositivos Android cuya finalidad era descubrir si ciertos rostros resultaban más o menos atractivos para la mayoría de los usuarios El reto, en forma de juego, consistía en puntuar el aspecto de otros usuarios que compartían su foto. Si tu valoración coincidía con la del resto de la comunidad, conseguías más puntos.

Por otro lado, los usuarios rellenaban su perfil indicando algunas características de sí mismos; los demás podían conseguir un potenciador de puntos si acertaban el rostro al que pertenecía una característica elegida al azar. Finalmente, obtenían puntos en base a cómo les puntúan y a cuánto aciertan al puntuar a otros.

Guaper - SOLUSOFT

Privacidad

Como el objetivo era diseñar mecanismos para inferir características de perfil había que analizar los datos para encontrar correlaciones entre los parámetros disponibles. Por tanto, para garantizar la privacidad, anonimizamos la información y eliminamos los elementos que permitían identificar al usuario, como la foto, el alias, etc. Tampoco capturamos información sensible ni se compartió con terceras partes.

Análisis de los datos obtenidos

Durante las primeras semanas, y empleando solo búsqueda orgánica, fueron 271 usuarios los que completaron el registro y tuvieron suficiente actividad como para resultar útiles en el estudio. Después, se analizaron un gran número de variables, como el año de nacimiento.

También analizamos el género y descubrimos que había un sesgo, ya que los datos de usuarios masculinos eran mucho mayores. Esta circunstancia tendría que ser tenida en cuenta para diseñar los modelos de aprendizaje, por ejemplo, generando datos sintéticos para igualar los conjuntos o eliminando datos del grupo mayoritario.

Los usuarios se clasificaban por hobbies, intereses y comportamiento. El histograma a continuación muestra la distribución de los usuarios según su propia percepción de sí mismos.

La inferencia de esta información es compleja y requiere del análisis de las correlaciones entre un gran número de variables que no están presentes en todos los casos; sin embargo, los algoritmos y técnicas planteados sí son aplicables a otros casos o en la inferencia de características distintas. Algunos de los análisis realizados podrían parecer, en principio, bastante creativos, como la búsqueda de relaciones entre conjuntos de usuarios en base a su edad y su configuración en Twitter.

Resultados del algoritmo

Tras trabajar con los datos, se desarrolló un algoritmo capaz de inferir los atributos demandados a partir de la configuración del dispositivo y de la actividad de los usuarios, sin tener que completar datos de perfil, por lo que era muy adecuado para los arranques en frío. Por ejemplo, el algoritmo era capaz de acertar en un gran número de muestras el grupo de edad del usuario.

También determinaba el género con gran precisión, aunque en algunos casos no fue capaz de aportar esta información, como puede verse en la segunda gráfica, donde el grupo mayoritario es la edad indefinida.

Del mismo modo, el modelo era capaz de determinar hobbies e intereses de los usuarios con precisión, aunque dependía del conjunto de datos disponibles y debía ser entrenado previamente con conjuntos de usuarios del colectivo en el que se fuese a aplicar.

Conclusión

Si bien los datos obtenidos no eran aplicables directamente a otros sectores, la experiencia en este tipo de trabajos es esencial, y en este sentido Guaper fue determinante. Demostramos que existían correlaciones concretas y claras que permitieron esquivar la necesidad de incorporar pantallas obligatorias que rellenar antes de empezar a disfrutar de una experiencia rica y personalizada.

El algoritmo y la técnica de creación del modelo de aprendizaje automático es trasladable a otros casos de uso, como una plataforma de eCommerce u aplicaciones móviles que quieran proporcionar una experiencia única y de valor desde la primera ejecución.

¿Te gusta esta página? Recomienda este sitio en tus redes sociales