Ciencia de datos en español ~ Origen ~ Data shy ends ~

Photo credit: agsandrew

Ciencia de datos en español y en múltiples dimensiones

data shy ends son tres palabras que pronunciadas en inglés suenan muy parecido a data science. No nos conformamos con hacer un juego con la pronunciación, también nos proponemos el descubrirte nuevas formas de conocer el lado más tímido de los datos, aclaramos los conceptos asociados a su tratamiento y explicamos los métodos más utilizados en la ciencia de datos. Todo ello en español, con ejemplos entretenidos y prácticos, con muchas visualizaciones, con código en Python y por supuesto con sus correspondientes notebooks en Kaggle.

El espacio de nuestro blog ya ha incorporado dos dimensiones: Procesamiento de Lenguaje Natural, y Visualizaciones. En la primera nos centramos en los conceptos y métodos automáticos para tratar y analizar textos en castellano. En la segunda explicamos los detalles técnicos que hay detrás de las visualizaciones de las que hace uso la ciencia de datos.

Tenemos planes para incorporar nuevas dimensiones próximamente. Además de este blog, nos podéis encontrar en otros espacios multidimensionales: Twitter, Instagram, Facebook y Kaggle.

En esta página podéis encontrar todas las entradas de nuestro blog. Si queréis ver las entradas agrupadas por dimensión, podéis tomar esta dirección: Dimensiones.

Moción de censura: la palabra de Abascal contra la de Casado

25 Oct, 2020

Hemos utilizado varias técnicas de Procesamiento de Lenguaje Natural, como BOW o TF-IDF, para analizar los discursos de Abascal y Casado.

Permite que los datos te cuenten una histograma

12 Oct, 2020

El histograma es una visualización que requiere poca configuración, pero que al mismo tiempo proporciona información muy relevante.

Elecciones 10-N: distinguir las gotas de agua en los programas con Scattertext

8 Nov, 2019

Para finalizar la serie de las Elecciones 10-N, vamos a comparar las palabras más frecuentes de cada partido contra las más frecuentes del conjunto del resto de partidos.

Elecciones 10-N: los partidos dan su palabra con frecuencia

7 Nov, 2019

Encontrar las palabras que caracterizan un documento no es sencillo, y requiere métodos que ponderen las apariciones de las palabras de una forma consistente en los diferentes documentos que componen el corpus.

Elecciones 10-N: bolsa llena, quita las penas

5 Nov, 2019

El concepto de Bag of Words (BOW) es tan simple como parece: se trata de asignar un identificador único a cada palabra distinta de nuestro corpus y contar las veces que se repite esa palabra a lo largo del corpus.

Elecciones 10-N: lo que se puede contar

3 Nov, 2019

Vamos a analizar los programas electorales de los principales partidos que se presentan al 10-N desde un punto de vista separado de cualquier sesgo político.

Acercamos los datos

Los datos están en todos los lugares y nosotros seleccionamos los que más se identifican con nuestro día a día

Aclaramos los conceptos

Hay muchos términos en inglés y los seguiremos usando, pero hablamos español y explicamos todo en nuestro idioma

Explicamos los métodos

Unas veces con más detalle, otras veces con menos, pero siempre con el objetivo de conocer mejor los algoritmos y métodos