Seleccionar página

Uno contra todos y todos contra uno

 

Para poner punto y final a esta serie de posts relacionados con las Elecciones 10-N, vamos a realizar un experimento que consiste en comparar las palabras más frecuentes del programa de un partido contra las más frecuentes del resto de programas, como si estas últimas fueran de un solo partido. De esta forma, pretendemos visualizar cómo se distingue cada partido del conjunto de resto de partidos. Suena bien, ¿verdad?

La buena noticia es que no tenemos que realizar ningún procesamiento adicional de nuestro corpus, simplemente hay que pasárselo de una forma concreta a una herramienta escrita en Python: Scattertext. Podéis encontrar el detalle teórico en este paper, y el el código fuente aquí.

Esta librería dispone de una gran variedad de visualizaciones pero nos vamos a quedar con una visualización tan sencilla como interesante que representa en un diagrama X-Y la siguiente información:

  • Las palabras más frecuentes del programa electoral de un partido político concreto (eje Y).
  • Las palabras más frecuentes de los programas electorales del conjunto del resto de partidos (eje X).

Como no podría ser de otra forma, vamos a generar 5 diagramas, correspondientes a la comparación de cada partido en particular con el resto de partidos en general. Os dejamos aquí abajo el código, por si lo queréis utilizar para vuestros propósitos.

Si te interesa el código, aquí lo tienes

¿Cómo se interpreta el gráfico? Dentro Scattertext

 

El diagrama Scattertext representa las palabras más frecuentes de los programas de los partidos:

  • Si una palabra está situada en la parte alta del eje Y, significa que es muy frecuente para el partido individual que se está analizando.
  • Si una palabra está situada en la parte derecha del eje X, significa que es muy frecuente para el conjunto de resto de partidos contra el que se está comparando el partido que se está analizando.
  • Una palabra en la diagonal del diagrama significa que es tan frecuente para el partido en concreto como para el conjunto del resto.
  • Si la palabra está situada arriba y a la izquierda, significa que es muy usada por un partido pero poco usada por el resto.
  • Una palabra situada abajo y a la derecha significa que es poco usada por el partido y muy usada por el resto.
  • La intensidad del color representa la frecuencia para el partido en análisis, y por supuesto, el color está en consonaicia con el típico color del partido en análisis.

Y después de estas notas, lo mejor es ver los resultados, y dejaros libres para hacer vuestras interpretaciones.

Cs vs Resto

 

PP vs Resto

PSOE vs Resto

UP vs Resto

VOX vs Resto

Takeaway

Sobre las bases de un corpus documental que se haya limpiado y separado en palabras (tokenizado), se pueden construir visualizaciones que nos ayuden a comprender mejor dónde están los focos conceptuales de los programas de los partidos políticos. Aún nos queda un largo camino por recorrer en el mundo del Procesamiento del Lenguaje Natural (NLP), pero queríamos cerrar este capítulo demostrando que la información simple es de grandísima utilidad si se utilizan las visualizaciones acertadas.

 



Ver en Kaggle