Visão geral de GroupDocs.Parser

Document Parser SDK para realizar análise de documentos de alta precisão em aplicações Python

Illustration parser

Extrair dados de documentos

GroupDocs.Parser for Python via .NET API permite recuperar texto, metadados e imagens de uma ampla variedade de formatos de arquivo, como documentos do Office, e‑mails, anexos e arquivos. Esta ferramenta poderosa ajuda a acessar e processar de forma eficiente informações valiosas contidas nesses arquivos para diversas aplicações, como análise de dados, indexação de mecanismos de busca ou sistemas de gerenciamento de conteúdo.

Analisar documentos

Extrair vários elementos, como hyperlinks, tabelas, códigos QR, códigos de barras e dados de formulários PDF. Também analisar qualquer informação desejada dos documentos usando modelos personalizados.

Personalizar resultados

Python API permite recuperar dados em vários formatos como bruto, estruturado, HTML ou Markdown. Além disso, a API oferece funcionalidade de pesquisa para localizar palavras ou frases específicas dentro do texto dos documentos.

Independência de Plataforma

GroupDocs.Parser for Python via .NET suporta os seguintes sistemas operacionais, frameworks e gerenciadores de pacotes

Amazon
Docker
Azure
VS Code
ReSharper
macOS
Linux
NuGet

Formatos de arquivo suportados

GroupDocs.Parser for Python via .NET oferece suporte a operações com os seguintes formatos de arquivo.

Formatos Microsoft Office

  • Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
  • Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
  • PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

Imagens e Outros Formatos

  • Portátil: PDF
  • Imagens: JPG, BMP, PNG, TIFF, GIF
  • Outros formatos de Office: ODT, OTT, OTS, ODS, ODP, OTP, ODG

Outros formatos

  • Web: HTML, MHTML
  • Arquivos: ZIP, TAR, 7Z
  • e-Books: CHM, EPUB, FB2, MOBI

Recursos do GroupDocs.Parser for Python via .NET

Extraia dados de PDFs, documentos do Office, imagens e outros formatos de forma rápida e precisa com o nosso Python Document Parser SDK

Feature icon

Extrair texto

Extrair informações textuais de vários formatos de arquivo, como documentos do Office, arquivos PDF e imagens, para fácil leitura e análise.

Feature icon

Extrair imagens

Recuperar conteúdo visual de diversas fontes, como documentos do Office e arquivos PDF, para acesso e uso convenientes.

Feature icon

Escanear códigos QR

Detectar e decodificar códigos QR presentes em documentos do Office, arquivos PDF ou conteúdo visual para recuperação eficiente de informações.

Feature icon

Extrair dados de anexos de e‑mail e arquivos compactados

Coletar informações valiosas de mensagens de e‑mail, anexos de arquivos e fontes de dados compactados para análise e utilização eficazes.

Feature icon

Extrair tabelas

Identificar e extrair dados tabulares de documentos PDF para análise e uso organizados.

Feature icon

Extrair hyperlinks

Localize e extraia hiperlinks e endereços de e‑mail em documentos do Office ou arquivos PDF para acesso eficiente.

Feature icon

Analisar formulários PDF

Formulários PDF são documentos digitais com campos editáveis para interação do usuário, permitindo que ele insira informações eletronicamente. A API Python pode ser utilizada para extrair dados desses formulários para processamento eficiente.

Feature icon

Analisar dados por modelos

Crie modelos personalizados e utilize-os com a API Python para analisar informações específicas de arquivos PDF, simplificando os processos de extração de dados.

Feature icon

Pesquisar texto em documentos

Localize rapidamente palavras ou padrões específicos dentro de documentos.

Exemplos de código

Além da extração básica de texto, aqui estão os casos de uso mais comuns para extração rápida de texto, imagens e metadados.

Pesquisar texto em um documento

Este exemplo mostra como pesquisar uma frase específica em um documento PDF e imprimir onde ela foi encontrada.

Pesquisar texto em um documento em Python

from groupdocs.parser import Parser

# Carregar o documento
with Parser("sample.pdf") as parser:
    # Imprimir o índice da página e o retângulo onde a frase foi encontrada
    for area in parser.Search("Total Amount"):
        # Imprimir o índice da página e o retângulo onde a frase foi encontrada
        print(f"Page {area.PageIndex}, Rectangle: {area.Rectangle}")

Extrair imagens de um documento

Este exemplo mostra como extrair imagens de um documento PDF e salvá‑las em um arquivo.

Extrair imagens de um documento em Python

from groupdocs.parser import Parser

# Carregar o documento
with Parser("sample.docx") as parser:
    # Extrair imagens do documento
    images = parser.GetImages()

    # Salvar as imagens em um arquivo
    index = 1
    for image in images:
        image.Save(f"image_{index}.png")
        index += 1

Extrair metadados de um documento

Este exemplo mostra como extrair metadados de um documento PDF e imprimi‑los.

Extrair metadados de um documento em Python

from groupdocs.parser import Parser

# Carregar o documento
with Parser("sample.pdf") as parser:
    # Extrair metadados do documento
    metadata = parser.GetMetadata()

    # Imprimir os metadados
    for item in metadata:
        print(f"{item.Name}: {item.Value}")

Pronto para começar?

Baixe GroupDocs.Parser gratuitamente ou obtenha uma licença de teste para acesso total!

Recursos úteis

Explore a documentação, as amostras de código e o apoio da comunidade para aprimorar sua experiência.

Dicas de licença temporária

1
Cadastre-se com seu e-mail comercial. Serviços de e-mail gratuitos não são permitidos.
2
Use o botão Obter uma licença temporária na segunda etapa.
 Português