GroupDocs.Parser en un vistazo

SDK de análisis de documentos para realizar análisis de documentos de alta precisión en aplicaciones Python

Illustration parser

Extraer datos de documentos

GroupDocs.Parser for Python via .NET API le permite recuperar texto, metadatos e imágenes de una amplia variedad de formatos de archivo, como documentos de Office, correos electrónicos, archivos adjuntos y archivos comprimidos. Esta herramienta potente le ayuda a acceder y procesar de manera eficiente la información valiosa contenida en estos archivos para diversas aplicaciones, como análisis de datos, indexación en motores de búsqueda o sistemas de gestión de contenidos.

Analizar documentos

Extraiga diversos elementos como hipervínculos, tablas, códigos QR, códigos de barras y datos de formularios PDF. También analice cualquier información deseada de los documentos utilizando plantillas personalizadas.

Personalizar resultados

Python API le permite recuperar datos en varios formatos, como crudo, estructurado, HTML o Markdown. Además, la API ofrece una funcionalidad de búsqueda para localizar palabras o frases específicas dentro del texto de los documentos.

Independencia de plataforma

GroupDocs.Parser for Python via .NET admite los siguientes sistemas operativos, frameworks y gestores de paquetes

Amazon
Docker
Azure
VS Code
ReSharper
macOS
Linux
NuGet

Formatos de archivo compatibles

GroupDocs.Parser for Python via .NET admite operaciones con los siguientes formatos de archivo.

Formatos de Microsoft Office

  • Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
  • Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
  • PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

Imágenes y otros formatos

  • Portátil: PDF
  • Imágenes: JPG, BMP, PNG, TIFF, GIF
  • Otros formatos de oficina: ODT, OTT, OTS, ODS, ODP, OTP, ODG

Otros formatos

  • Web: HTML, MHTML
  • Archivos: ZIP, TAR, 7Z
  • eBooks: CHM, EPUB, FB2, MOBI

Funciones de GroupDocs.Parser for Python via .NET

Extraiga datos de PDFs, documentos de Office, imágenes y otros formatos de manera rápida y precisa con nuestro SDK de análisis de documentos Python

Feature icon

Extraer texto

Extraiga información textual de varios formatos de archivo, como documentos de Office, archivos PDF e imágenes, para una fácil legibilidad y análisis.

Feature icon

Extraer imágenes

Recupere contenido visual de diversas fuentes, como documentos de Office y archivos PDF, para un acceso y uso conveniente.

Feature icon

Escanear códigos QR

Detecte y decodifique códigos QR presentes en documentos de Office, archivos PDF o contenido visual, para una recuperación de información eficiente.

Feature icon

Extraer datos de archivos adjuntos de correo electrónico y archivos comprimidos

Recopile información valiosa de mensajes de correo electrónico, archivos adjuntos y fuentes de datos comprimidos para un análisis y utilización efectivos.

Feature icon

Extraer tablas

Identifique y extraiga datos tabulares de documentos PDF para un análisis y uso organizados.

Feature icon

Extraer hipervínculos

Localice y extraiga hipervínculos y direcciones de correo electrónico dentro de documentos de Office o archivos PDF para un acceso eficiente.

Feature icon

Analizar formularios PDF

Los formularios PDF son documentos digitales que presentan campos rellenables para la interacción del usuario, permitiendo que introduzcan información electrónicamente. La API Python puede utilizarse para extraer datos de estos formularios y procesarlos de manera eficiente.

Feature icon

Analizar datos mediante plantillas

Cree plantillas personalizadas y utilícelas con la API Python para analizar información específica de archivos PDF, simplificando los procesos de extracción de datos.

Feature icon

Buscar texto en documentos

Localice rápidamente palabras o patrones específicos dentro de los documentos.

Ejemplos de código

Más allá de la extracción básica de texto, aquí están los casos de uso más comunes para la extracción rápida de texto, imágenes y metadatos.

Buscar texto en un documento

Este ejemplo muestra cómo buscar una frase específica en un documento PDF y mostrar dónde se encontró.

Buscar texto en un documento en Python

from groupdocs.parser import Parser

# Cargar el documento
with Parser("sample.pdf") as parser:
    # Imprimir el índice de página y el rectángulo donde se encontró la frase
    for area in parser.Search("Total Amount"):
        # Imprimir el índice de página y el rectángulo donde se encontró la frase
        print(f"Page {area.PageIndex}, Rectangle: {area.Rectangle}")

Extraer imágenes de un documento

Este ejemplo muestra cómo extraer imágenes de un documento PDF y guardarlas en un archivo.

Extraer imágenes de un documento en Python

from groupdocs.parser import Parser

# Cargar el documento
with Parser("sample.docx") as parser:
    # Extraer imágenes del documento
    images = parser.GetImages()

    # Guardar las imágenes en un archivo
    index = 1
    for image in images:
        image.Save(f"image_{index}.png")
        index += 1

Extraer metadatos de un documento

Este ejemplo muestra cómo extraer metadatos de un documento PDF y mostrarlos.

Extraer metadatos de un documento en Python

from groupdocs.parser import Parser

# Cargar el documento
with Parser("sample.pdf") as parser:
    # Extraer metadatos del documento
    metadata = parser.GetMetadata()

    # Imprimir los metadatos
    for item in metadata:
        print(f"{item.Name}: {item.Value}")

¿Listo para empezar?

Descargue GroupDocs.Parser gratis u obtenga una licencia de prueba para obtener acceso completo.

Recursos útiles

Explore la documentación, las muestras de código y el apoyo de la comunidad para mejorar su experiencia.

Consejos para licencias temporales

1
Regístrate con tu correo electrónico del trabajo. No se permiten servicios de correo gratuitos.
2
Utilice el botón Obtener una licencia temporal en el segundo paso.
 Español