La batalla contra los robots en el big data de Twitter

23 millones de usuarios en Twitter son cuentas automatizadas o robots. Además de afectar a la calidad y la experiencia de la red social, también es un problema para la investigación ¿Cómo podemos analizar Twitter sabiendo que un 8% de los usuarios analizados tienen estos comportamientos?

Esto de los robots suena espectacular y futurista pero simplemente se reduce a cuentas que programan sus tweets. Hay servicios que pueden tuitear automáticamente cosas tan útiles y sencillas como el tiempo o el tráfico y, en otros casos, cuentas que retuitean a otras para inflar los trending topics o que los tweets de su líder se cuelen entre los destacados.

Retro Robots by byronv2

Uno de los grandes retos de la investigación en redes sociales es evitar que los robots condicionen nuestras interpretaciones de lo que está pasando. En el estudio sobre la reputación de los políticos del 20D nos encontramos un problema bastante serio: una gran cantidad de tweets se publicaban desde muy pocas cuentas. Aproximadamente un 1% de usuarios “hiperactivos” publicaban casi un 20% del contenido sobre los candidatos a la presidencia del gobierno.

Hay varios problemas. Por un lado, identificar un robot no es sencillo. Aunque parece lógico que los robots publican mucho y son repetitivos, también los perfiles de los propios partidos o de militantes tienen un comportamiento similar y no se trata de robots sino de personas reales.

También hay que tener en cuenta que los robots tienen un efecto real. Hablábamos antes de que hay muchos que son considerados como servicios de utilidad, pero también aquellos que intentan generar burbujas de opinión muchas veces lo consiguen. Y como decía aquella máxima del interaccionismo simbólico, aquello que consideramos real, es real en sus consecuencias.

En el caso de la reputación online lo que queremos saber con este tipo de estudios es cómo se percibe a una persona o marca. En vez de preguntar a través de una encuesta, analizamos qué se dice de ellos. Para eso es importante que todo tipo de visiones entren en el estudio de forma ponderada y que los usuarios hiperactivos no condicionen totalmente el estudio.

Cómo lo resolvemos

En nuestros estudios aspiramos a conseguir la máxima fiabilidad, para ello utilizamos muestras que son analizadas por analistas profesionales. Mientras que las herramientas de análisis semántico todavía están muy lejos de dar datos fiables, con nuestro sistema el margen de acierto es superior al 95%.

Como decíamos hay muy pocos usuarios (robots o no) que emiten una cantidad ingente de tweets. Si analizásemos estos tweets sin más, la reputación del candidato estaría condicionada en un 20% por usuarios que no representan ni al 1% de Twitter.

Para evitar que estos robots, militantes o trolls condicionen nuestro estudio, lo que hicimos es estratificar la muestra en función de la frecuencia de publicación. Dividimos a los usuarios en 3 tipos:
A) Esporádicos: Los que sólo publican un tweet sobre el candidato en el periodo analizado.
B) Implicados: Los que publican entre 2 y 10 tweets.
C) Hiperactivos: Usuarios que publican más de 10 tweets (robots o no).

En cada candidato vimos qué porcentaje de usuarios hay de cada una de las tipologías. De forma que ese 1% de hiperactivos determinase sólo al 1% de la reputación. De ahí que nuestro estudio arroje datos diferentes a los de otros que no han tenido en cuenta estos factores.

Qué partidos políticos tienen robots

Podríamos decir que sean robots o sean cuentas “hiperactivas” todos los candidatos reciben menciones de este tipo de perfiles. Mariano Rajoy era el que tenía menor proporción (41%), por el contrario, Andrés Herzog (candidato de UPyD) recibía más de un 80% de las menciones de este tipo de cuentas, seguido por Pedro Sánchez con un 62%. En cualquier caso esto tampoco indica que los propios partidos creen estas redes. Muchas veces son militantes o activistas que, para apoyar a su candidato o dañar al adversario, son capaces de crear redes de perfiles.

Y es que no sólo hay robots positivos, sino también negativos. Esto puede hacer que una mala noticia sobre un candidato se difunda infinitamente por redes de usuarios más o menos automatizados.

Cómo podemos interpretar la reputación online

En nuestro estudio podemos afirmar que las opiniones son totalmente representativas de los usuarios de Twitter. Aunque no se pueden extrapolar los datos a la población en general por el sesgo propio de la red (edad, sexo, acceso a la tecnología, etc.) sí que valen lo mismo las opiniones de cada una de los usuarios.

Un ejemplo concreto para entenderlo. Imaginemos que un candidato recibiese 100 menciones de sólo 2 usuarios. Juan publica 99 tweets positivos sobre un candidato y Ana sólo publica 1 y es negativo. El peso que tienen en nuestro análisis de reputación Juan y Ana es exactamente igual, por lo que la reputación de este candidato tendría un 50% positivo (Juan) y un 50% negativo (Ana). Si no aplicásemos esta metodología, tendríamos que el candidato tiene un 99% de reputación positiva por los 99 tweets de Juan y sólo un 1% negativo por el tweet de Ana. Los robots habrían ganado la batalla

Como veis, de esta forma, no filtramos los robots pero sí conseguimos que la infinidad de tweets que emiten no afecte tanto a nuestro estudio. Y como decíamos, eliminarlos totalmente también puede ser un error porque los militantes, los trolls, los robots, etc. también tienen una influencia sobre el resto de usuarios que debemos tener en cuenta.

Sin duda el sistema es mejorable y sólo estamos dando los primeros pasos. La clave seguramente esté en que Twitter mejore su filtrado de usuarios y contenido. El futuro de las redes sociales depende en gran medida de que el spam se elimine mediante algoritmos tan complejos como el de Google.

La investigación de estos datos para entender los comportamientos sociales es enorme. Los datos se dan por buenos con demasiada facilidad y, a día de hoy, infinidad de marcas toman decisiones basadas en información errónea. El análisis del Big Data suena muy bien pero, para obtener conclusiones fiables, hace falta mucha innovación en la metodología.

Lee La batalla contra los robots en el big data de Twitter en CONCEPTO 05.

La batalla contra los robots en el big data de Twitter

Cómo lo resolvemos

Qué partidos políticos tienen robots

Cómo podemos interpretar la reputación online

Latest Images

Pangarap Quotes

Vimeo 10.7.0 by Vimeo.com, Inc.

HANGAD

MAKAKAALAM

Doodle Jump 3.11.30 by Lima Sky LLC

Trending Articles

Ang Nobela sa “From Darna to ZsaZsa Zaturnnah: Desire and Fantasy, Essays on...

Lola Bunny para colorear

Dino Rey para colorear

Girasoles para colorear

Dibujos de animales para imprimir

Renos para colorear

Dromedario para colorear

Love Quotes Tagalog

Mga Patama Quotes at Pamatay Banat Quotes

RE: Mutton Pies (mely)

Gwapo Quotes : Babaero Quotes

Kung Fu Panda para colorear

Libros para colorear

Mandalas de flores para colorear

Dibujos para colorear de perros

Toro para colorear

mayabang Quotes, Torpe Quotes, tanga Quotes

Long Distance Relationship Tagalog Love Quotes

Love Quotes Tagalog

Mga Tala sa “Unang Siglo ng Nobela sa Filipinas” (2009) ni Virgilio S. Almario

Alce para colorear

Letras para colorear, pintar e imprimir

Vimeo 10.6.2 by Vimeo.com, Inc.