Ciencia de datos en español ~ Origen ~ Data shy ends ~

Photo credit: agsandrew

Ciencia de datos en español y en múltiples dimensiones

data shy ends son tres palabras que pronunciadas en inglés suenan muy parecido a data science. No nos conformamos con hacer un juego con la pronunciación, también nos proponemos el descubrirte nuevas formas de conocer el lado más tímido de los datos, aclaramos los conceptos asociados a su tratamiento y explicamos los métodos más utilizados en la ciencia de datos. Todo ello en español, con ejemplos entretenidos y prácticos, con muchas visualizaciones, con código en Python y por supuesto con sus correspondientes notebooks en Kaggle.

El espacio de nuestro blog ya ha incorporado dos dimensiones: Procesamiento de Lenguaje Natural, y Visualizaciones. En la primera nos centramos en los conceptos y métodos automáticos para tratar y analizar textos en castellano. En la segunda explicamos los detalles técnicos que hay detrás de las visualizaciones de las que hace uso la ciencia de datos.

Tenemos planes para incorporar nuevas dimensiones próximamente. Además de este blog, nos podéis encontrar en otros espacios multidimensionales: Twitter, Instagram, Facebook y Kaggle.

En esta página podéis encontrar todas las entradas de nuestro blog. Si queréis ver las entradas agrupadas por dimensión, podéis tomar esta dirección: Dimensiones.

Deja de decir palabras sin significado

2 Nov, 2019

Hay palabras que aportan poco al significado de una frase o un documento y que por contra pueden introducir ruido en el análisis de un corpus. Es habitual construir una lista con esas palabras y eliminarlas del corpus.

Necesitas un token

1 Nov, 2019

La palabra es la entidad más significativa de cualquier texto, y por esa razón dividir un corpus en palabras es un proceso comúnmente realizado como paso previo a cualquier análisis.

Moldea tu corpus documental

31 Oct, 2019

En el mundo del Procesamiento de Lenguaje Natural, el conjunto de documentos a procesar se denomina corpus. Vamos a ver cómo procesar diferentes corpus en Python, dependiendo de si hay que limpiarlos previamente o no.

Acercamos los datos

Los datos están en todos los lugares y nosotros seleccionamos los que más se identifican con nuestro día a día

Aclaramos los conceptos

Hay muchos términos en inglés y los seguiremos usando, pero hablamos español y explicamos todo en nuestro idioma

Explicamos los métodos

Unas veces con más detalle, otras veces con menos, pero siempre con el objetivo de conocer mejor los algoritmos y métodos