Parser para Python

Document Parser SDK para Python

Adicione análise de documentos rápida e precisa aos seus aplicativos Python e extraia texto, imagens, metadados e dados estruturados de documentos e imagens.

Baixar PyPI Comece o teste gratuito

from groupdocs.parser import Parser

# Carregar o documento
with Parser("sample.pdf") as parser:
    # Extrair texto do documento
    text = parser.GetText()

    # Imprimir todo o texto extraído
    print(text)

pip install groupdocs-parser-net

Visão geral de GroupDocs.Parser

Document Parser SDK para realizar análise de documentos de alta precisão em aplicações Python

Extrair dados de documentos

GroupDocs.Parser for Python via .NET API permite recuperar texto, metadados e imagens de uma ampla variedade de formatos de arquivo, como documentos do Office, e‑mails, anexos e arquivos. Esta ferramenta poderosa ajuda a acessar e processar de forma eficiente informações valiosas contidas nesses arquivos para diversas aplicações, como análise de dados, indexação de mecanismos de busca ou sistemas de gerenciamento de conteúdo.

Analisar documentos

Extrair vários elementos, como hyperlinks, tabelas, códigos QR, códigos de barras e dados de formulários PDF. Também analisar qualquer informação desejada dos documentos usando modelos personalizados.

Personalizar resultados

Python API permite recuperar dados em vários formatos como bruto, estruturado, HTML ou Markdown. Além disso, a API oferece funcionalidade de pesquisa para localizar palavras ou frases específicas dentro do texto dos documentos.

Independência de Plataforma

GroupDocs.Parser for Python via .NET suporta os seguintes sistemas operacionais, frameworks e gerenciadores de pacotes

Formatos de arquivo suportados

GroupDocs.Parser for Python via .NET oferece suporte a operações com os seguintes formatos de arquivo.

Formatos Microsoft Office

Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

Imagens e Outros Formatos

Portátil: PDF
Imagens: JPG, BMP, PNG, TIFF, GIF
Outros formatos de Office: ODT, OTT, OTS, ODS, ODP, OTP, ODG

Outros formatos

Web: HTML, MHTML
Arquivos: ZIP, TAR, 7Z
e-Books: CHM, EPUB, FB2, MOBI

Recursos do GroupDocs.Parser for Python via .NET

Extraia dados de PDFs, documentos do Office, imagens e outros formatos de forma rápida e precisa com o nosso Python Document Parser SDK

Extrair texto

Extrair informações textuais de vários formatos de arquivo, como documentos do Office, arquivos PDF e imagens, para fácil leitura e análise.

Extrair imagens

Recuperar conteúdo visual de diversas fontes, como documentos do Office e arquivos PDF, para acesso e uso convenientes.

Escanear códigos QR

Detectar e decodificar códigos QR presentes em documentos do Office, arquivos PDF ou conteúdo visual para recuperação eficiente de informações.

Extrair dados de anexos de e‑mail e arquivos compactados

Coletar informações valiosas de mensagens de e‑mail, anexos de arquivos e fontes de dados compactados para análise e utilização eficazes.

Extrair tabelas

Identificar e extrair dados tabulares de documentos PDF para análise e uso organizados.

Extrair hyperlinks

Localize e extraia hiperlinks e endereços de e‑mail em documentos do Office ou arquivos PDF para acesso eficiente.

Analisar formulários PDF

Formulários PDF são documentos digitais com campos editáveis para interação do usuário, permitindo que ele insira informações eletronicamente. A API Python pode ser utilizada para extrair dados desses formulários para processamento eficiente.

Analisar dados por modelos

Crie modelos personalizados e utilize-os com a API Python para analisar informações específicas de arquivos PDF, simplificando os processos de extração de dados.

Pesquisar texto em documentos

Localize rapidamente palavras ou padrões específicos dentro de documentos.

Exemplos de código

Além da extração básica de texto, aqui estão os casos de uso mais comuns para extração rápida de texto, imagens e metadados.

Pesquisar texto em um documento

Este exemplo mostra como pesquisar uma frase específica em um documento PDF e imprimir onde ela foi encontrada.

Pesquisar texto em um documento em Python

from groupdocs.parser import Parser

# Carregar o documento
with Parser("sample.pdf") as parser:
    # Imprimir o índice da página e o retângulo onde a frase foi encontrada
    for area in parser.Search("Total Amount"):
        # Imprimir o índice da página e o retângulo onde a frase foi encontrada
        print(f"Page {area.PageIndex}, Rectangle: {area.Rectangle}")

Extrair imagens de um documento

Este exemplo mostra como extrair imagens de um documento PDF e salvá‑las em um arquivo.

Extrair imagens de um documento em Python

from groupdocs.parser import Parser

# Carregar o documento
with Parser("sample.docx") as parser:
    # Extrair imagens do documento
    images = parser.GetImages()

    # Salvar as imagens em um arquivo
    index = 1
    for image in images:
        image.Save(f"image_{index}.png")
        index += 1

Extrair metadados de um documento

Este exemplo mostra como extrair metadados de um documento PDF e imprimi‑los.

Extrair metadados de um documento em Python

from groupdocs.parser import Parser

# Carregar o documento
with Parser("sample.pdf") as parser:
    # Extrair metadados do documento
    metadata = parser.GetMetadata()

    # Imprimir os metadados
    for item in metadata:
        print(f"{item.Name}: {item.Value}")