GroupDocs.Parser em resumo

API para realizar parsing de documentos em aplicações Java.

Illustration parser

Extrair dados de documentos

A API GroupDocs.Parser for Java permite que você recupere texto, metadados, e imagens de uma ampla gama de formatos de arquivo, como documentos do Office, e-mails, anexos e arquivos compactados. Esta ferramenta poderosa ajuda você a acessar e processar de forma eficiente informações valiosas contidas nesses arquivos para várias aplicações, como análise de dados, indexação de motores de busca ou sistemas de gerenciamento de conteúdo.

Analisar documentos

Extraia vários elementos, como hiperlinks, tabelas, QR codes, códigos de barras e dados de formulários PDF. Além disso, analise qualquer informação desejada de documentos usando modelos personalizados.

Personalização de resultados

A API Java permite que você recupere dados em vários formatos, como bruto, estruturado, HTML ou Markdown. Além disso, a API oferece uma funcionalidade de pesquisa para localizar palavras ou frases específicas dentro do texto dos documentos.

Independência da Plataforma

O GroupDocs.Parser for Java suporta os seguintes sistemas operacionais, frameworks e gerenciadores de pacotes.

Amazon
Docker
Azure
Eclipse
IntelliJ
Windows
Linux
Maven

Formatos de arquivo suportados

O GroupDocs.Parser for Java suporta operações com os seguintes formatos de arquivo.

Formatos Microsoft Office

  • Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
  • Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
  • PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

Imagens e Outros Formatos

  • Portátil: PDF
  • Imagens: JPG, BMP, PNG, TIFF, GIF
  • Outros formatos de escritório: ODT, OTT, OTS, ODS, ODP, OTP, ODG

Outros formatos

  • Web: HTML, MHTML
  • Arquivos: ZIP, TAR, 7Z
  • e-Books: CHM, EPUB, FB2, MOBI

Recursos GroupDocs.Parser for Java

Extraia dados de PDFs, Documentos do Office e Imagens de forma rápida e precisa.

Feature icon

Extrair texto

Extraia informações textuais de vários formatos de arquivo, como documentos do office, arquivos PDF e imagens para fácil legibilidade e análise.

Feature icon

Extrair imagens

Recupere conteúdo visual de fontes diversas, como documentos do office e arquivos PDF para acesso e uso convenientes.

Feature icon

Escanear códigos QR

Detecte e decodifique códigos QR presentes em documentos do office, arquivos PDF ou conteúdo visual para eficaz recuperação de informações.

Feature icon

Extrair dados de anexos de e-mail e arquivos compactados

Colete informações valiosas de mensagens de e-mail, anexos de arquivos e fontes de dados compactadas para análise e utilização eficaz.

Feature icon

Extrair tabelas

Identifique e extraia dados tabulares de documentos PDF para análise e uso organizados.

Feature icon

Extrair hiperlinks

Localize e extraia hiperlinks e endereços de e-mail em documentos de escritório ou arquivos PDF para acesso eficiente.

Feature icon

Analisar Formulários PDF

Formulários PDF são documentos digitais com campos preenchíveis para interação do usuário, permitindo que eles insiram informações eletronicamente. A API .NET pode ser utilizada para extrair dados desses formulários para processamento eficiente.

Feature icon

Analisar dados por modelos

Crie modelos personalizados e utilize-os com a API .NET para analisar informações específicas de arquivos PDF, simplificando os processos de extração de dados.

Feature icon

Pesquisar um texto em documentos

Localize rapidamente palavras ou padrões específicos dentro de documentos.

Exemplos de código

Alguns casos de uso das operações típicas do GroupDocs.Parser for Java.

Extrair imagens de documentos PDF

GroupDocs.Parser for Java facilita para os desenvolvedores Java a extração de imagens de documentos:

Extrair imagens de documentos PDF em Java

// Crie uma instância da classe Parser.
try (Parser parser = new Parser("source.pdf"))
{
    // Extraia imagens.
    Iterable<PageImageArea> images = parser.getImages();

    // Verifique se algo foi extraído.
    if (images == null) {
        return;
    }

    // Itere sobre as imagens.
    for (PageImageArea image : images) {
        // Imprima um índice de página, retângulo e tipo de imagem.
        System.out.println(String.format("Page: %d, R: %s, Type: %s", 
            image.getPage().getIndex(), image.getRectangle(), image.getFileType()));
    }
}

Extrair códigos de barras de imagens

Use nossa API Java para extrair códigos de barras de imagens:

Extrair códigos de barras de imagens em Java

// Carregue a imagem fonte para Parser.
try (Parser parser = new Parser("source.jpg")){

    // Verifique se o arquivo suporta extração de códigos de barras.
    if (!parser.getFeatures().isBarcodes()) {

        // Extraia códigos de barras do arquivo.
        Iterable<PageBarcodeArea> barcodes = parser.getBarcodes();

        // Itere sobre os códigos de barras.
        for (PageBarcodeArea barcode : barcodes) {
            // Imprima o índice da página.
            System.out.println("Page: " + barcode.getPage().getIndex());
            // Imprima o valor do código de barras.
            System.out.println("Value: " + barcode.getValue());
        }
    }
}

Pronto para começar?

Baixe GroupDocs.Parser gratuitamente ou obtenha uma licença de teste para acesso total!

Recursos úteis

Explore a documentação, as amostras de código e o apoio da comunidade para aprimorar sua experiência.

Dicas de licença temporária

1
Cadastre-se com seu e-mail comercial. Serviços de e-mail gratuitos não são permitidos.
2
Use o botão Obter uma licença temporária na segunda etapa.
 Português