Photo credit: agsandrew
Ciencia de datos en español y en múltiples dimensiones
data shy ends son tres palabras que pronunciadas en inglés suenan muy parecido a data science. No nos conformamos con hacer un juego con la pronunciación, también nos proponemos el descubrirte nuevas formas de conocer el lado más tímido de los datos, aclaramos los conceptos asociados a su tratamiento y explicamos los métodos más utilizados en la ciencia de datos. Todo ello en español, con ejemplos entretenidos y prácticos, con muchas visualizaciones, con código en Python y por supuesto con sus correspondientes notebooks en Kaggle.
El espacio de nuestro blog ya ha incorporado dos dimensiones: Procesamiento de Lenguaje Natural, y Visualizaciones. En la primera nos centramos en los conceptos y métodos automáticos para tratar y analizar textos en castellano. En la segunda explicamos los detalles técnicos que hay detrás de las visualizaciones de las que hace uso la ciencia de datos.
Tenemos planes para incorporar nuevas dimensiones próximamente. Además de este blog, nos podéis encontrar en otros espacios multidimensionales: Twitter, Instagram, Facebook y Kaggle.
En esta página podéis encontrar todas las entradas de nuestro blog. Si queréis ver las entradas agrupadas por dimensión, podéis tomar esta dirección: Dimensiones.
Moción de censura: la palabra de Abascal contra la de Casado
Hemos utilizado varias técnicas de Procesamiento de Lenguaje Natural, como BOW o TF-IDF, para analizar los discursos de Abascal y Casado.
Permite que los datos te cuenten una histograma
El histograma es una visualización que requiere poca configuración, pero que al mismo tiempo proporciona información muy relevante.
Elecciones 10-N: distinguir las gotas de agua en los programas con Scattertext
Para finalizar la serie de las Elecciones 10-N, vamos a comparar las palabras más frecuentes de cada partido contra las más frecuentes del conjunto del resto de partidos.
Elecciones 10-N: los partidos dan su palabra con frecuencia
Encontrar las palabras que caracterizan un documento no es sencillo, y requiere métodos que ponderen las apariciones de las palabras de una forma consistente en los diferentes documentos que componen el corpus.
Elecciones 10-N: bolsa llena, quita las penas
El concepto de Bag of Words (BOW) es tan simple como parece: se trata de asignar un identificador único a cada palabra distinta de nuestro corpus y contar las veces que se repite esa palabra a lo largo del corpus.
Elecciones 10-N: lo que se puede contar
Vamos a analizar los programas electorales de los principales partidos que se presentan al 10-N desde un punto de vista separado de cualquier sesgo político.
Acercamos los datos
Los datos están en todos los lugares y nosotros seleccionamos los que más se identifican con nuestro día a día
Aclaramos los conceptos
Hay muchos términos en inglés y los seguiremos usando, pero hablamos español y explicamos todo en nuestro idioma
Explicamos los métodos
Unas veces con más detalle, otras veces con menos, pero siempre con el objetivo de conocer mejor los algoritmos y métodos