Incio de lectura del libro Practical Natural Language Processing

September 16, 2022

Hace un par de semanas empecé a leer el libro Practical Natural Language Processing: A Comprehensive Guide to Building Real-World NLP Systems, escrito por Sowmya Vajjala, Bodhisattwa Majunder, Anuj Gupta y Harshit Surana.

Ya leí los primeros cuatro capítulos.

- El primero es una introducción a NLP.

- El segundo describe los métodos actuales de pre-procesamiento de texto y su recolección de texto de diversas fuentes así como la limpieza de los mismos.

- El tercero habla de como representar el texto para que sea una entrada adecuada para entrenar un modelo usando Machine Learning, e.g. one-hot encoding, bag of words y embeddings.

- El cuarto ya entra a clasificar texto usando diferentes formas de representación de texto, como entrenar tus propios embeddings o usar embeddings pre-entrenados como word2vec, también usar redes convolucionales de una dimensión, arquitecturas Long-Short Term Memory (LSTM) que es una arquitectura Redes Neuronales Recurrentes (RNN), así como también usar modelos pre-entrenados como BERT para dichas tareas de clasificación.

Voy empezando el capítulo cinco que habla de Extracción de Información o en inglés Information Extraction (IE). En siguientes entradas les comentaré mi progreso sobre el tema.

Aquí la portada del libro.