Automatiza la Extracción de Datos o Texto en PDFs usando Expresiones Regulares y Python

Codigo Maquina 6,936 lượt xem 6 months ago

Video Not Working? Fix It Now

Este video explica cómo automatizar la extracción de texto de un repositorio de PDFs utilizando como ejemplo la extracción de correos electrónicos. Este proceso se realiza con Python usando los módulos pypdf y pymupdf.

👉 Xiperia ofrece consultoría empresarial que transforma datos en conocimiento accionable para alcanzar los objetivos de tu negocio. Conoce más en https://www.xiperia.com

ℹ️ Octavio Gutiérrez es el único responsable del contenido, afirmaciones y opiniones expresadas en este video, las cuales no están vinculadas a las organizaciones a las que está asociado.

🌐 Para conocer más sobre Octavio Gutiérrez, visita su perfil en LinkedIn https://www.linkedin.com/in/octaviogutierrez/

Para citar este recurso educativo utiliza la siguiente referencia:

Gutiérrez-García, J.O. [Código Máquina]. (2024, 7 de Octubre). Automatiza la Extracción de Datos o Texto en PDFs usando Expresiones Regulares y Python [Video]. YouTube. [Incluye aquí la URL del video]

Para guiar tu aprendizaje, en este vínculo (https://youtu.be/lomJnbN5Wnk) se encuentra una guía secuencial para aprender:

1. Programación Básica con Python;
2. Manejo de Datos;
3. Visualización de Datos;
4. Análisis de Datos; y
5. Aprendizaje de Máquina y Ciencia de Datos.

Índice del Video:

0:00 Introducción
0:45 Módulos de Python para leer PDFs
2:03 Lectura de PDFs con pymupdf y pypdf
4:30 Repositorio de PDFs
5:28 Expresión regular para e-mails
8:40 Automatización de extracción de datos
11:21 pymupdf vs pypdf

⭐ Apoya a Código Máquina dando un Like, Comentando, Compartiendo o con un Super Gracias.

⭐ De la co-fundadora de Código Máquina, productos de cosmética natural SINHAKI:
https://www.amazon.com.mx/stores/sinHaki/page/1BD34FBC-C0F9-44F5-AC69-520634334C61?ref_=ast_bln

El código se encuentra disponible en:

https://github.com/CodigoMaquina/code/blob/main/extraccion_datos/automatizacionpdf.ipynb

#NLP #analisisdedatos #CienciaDeDatos #DataScience

pymupdf

pypdf2

pypdf3

pypdf

pymupdf versus pypdf

lectura de pdfs usando python

expresión regular para email

expresión regular para e-mail

extracción automatizada de e-mails a partir de pdfs

extracción de datos de pdfs

extracción de datos de pdf usando python

recopilación de datos a partir de pdfs

lectura de pdfs con python

cómo extraer el texto de pdfs con python

Automatización de extracción de datos de pdfs

pdfs y python

Comment