Photo credit: agsandrew
Ciencia de datos en español y en múltiples dimensiones
data shy ends son tres palabras que pronunciadas en inglés suenan muy parecido a data science. No nos conformamos con hacer un juego con la pronunciación, también nos proponemos el descubrirte nuevas formas de conocer el lado más tímido de los datos, aclaramos los conceptos asociados a su tratamiento y explicamos los métodos más utilizados en la ciencia de datos. Todo ello en español, con ejemplos entretenidos y prácticos, con muchas visualizaciones, con código en Python y por supuesto con sus correspondientes notebooks en Kaggle.
El espacio de nuestro blog ya ha incorporado dos dimensiones: Procesamiento de Lenguaje Natural, y Visualizaciones. En la primera nos centramos en los conceptos y métodos automáticos para tratar y analizar textos en castellano. En la segunda explicamos los detalles técnicos que hay detrás de las visualizaciones de las que hace uso la ciencia de datos.
Tenemos planes para incorporar nuevas dimensiones próximamente. Además de este blog, nos podéis encontrar en otros espacios multidimensionales: Twitter, Instagram, Facebook y Kaggle.
En esta página podéis encontrar todas las entradas de nuestro blog. Si queréis ver las entradas agrupadas por dimensión, podéis tomar esta dirección: Dimensiones.
Deja de decir palabras sin significado
Hay palabras que aportan poco al significado de una frase o un documento y que por contra pueden introducir ruido en el análisis de un corpus. Es habitual construir una lista con esas palabras y eliminarlas del corpus.
Necesitas un token
La palabra es la entidad más significativa de cualquier texto, y por esa razón dividir un corpus en palabras es un proceso comúnmente realizado como paso previo a cualquier análisis.
Moldea tu corpus documental
En el mundo del Procesamiento de Lenguaje Natural, el conjunto de documentos a procesar se denomina corpus. Vamos a ver cómo procesar diferentes corpus en Python, dependiendo de si hay que limpiarlos previamente o no.
Acercamos los datos
Los datos están en todos los lugares y nosotros seleccionamos los que más se identifican con nuestro día a día
Aclaramos los conceptos
Hay muchos términos en inglés y los seguiremos usando, pero hablamos español y explicamos todo en nuestro idioma
Explicamos los métodos
Unas veces con más detalle, otras veces con menos, pero siempre con el objetivo de conocer mejor los algoritmos y métodos