Parser para Java

SDK de Analisador de Documentos para Java

Adicione análise de documentos rápida e precisa aos seus aplicativos Java e extraia texto, imagens, metadados e dados estruturados de documentos e imagens.

Baixar Maven Comece o teste gratuito

Versão 24.9 lançada

Veja o que há de novo

// Passe o arquivo de origem para a instância Parser
try (Parser parser = new Parser("source.pdf"))
{
    // Passe o texto do documento para TextReader
    try (TextReader reader = parser.getText())
    {
        // Processar o texto do documento
        System.out.println(reader == null 
            ? "" 
            : reader.readToEnd());
    }
}

<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>24.9</version>
</dependency>

Visão geral de GroupDocs.Parser

SDK de Analisador de Documentos para realizar análise de documentos de alta precisão em aplicativos Java

Extrair dados de documentos

GroupDocs.Parser for Java API permite recuperar texto, metadados e imagens de uma ampla variedade de formatos de arquivo, como documentos do Office, e‑mails, anexos e arquivos compactados. Esta ferramenta poderosa ajuda a acessar e processar de forma eficiente as informações valiosas contidas nesses arquivos para diversas aplicações, como análise de dados, indexação de mecanismos de busca ou sistemas de gerenciamento de conteúdo.

Analisar documentos

Extraia vários elementos, como hyperlinks, tabelas, códigos QR, códigos de barras e dados de formulários PDF. Também analise quaisquer informações desejadas de documentos usando modelos personalizados.

Personalizando resultados

Java API permite recuperar dados em vários formatos, como bruto, estruturado, HTML ou Markdown. Além disso, a API oferece funcionalidade de busca para localizar palavras ou frases específicas no texto dos documentos.

Independência de Plataforma

GroupDocs.Parser for Java suporta os seguintes sistemas operacionais, frameworks e gerenciadores de pacotes

Formatos de arquivo suportados

GroupDocs.Parser for Java oferece suporte a operações com os seguintes formatos de arquivo.

Formatos Microsoft Office

Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

Imagens e Outros Formatos

Portátil: PDF
Imagens: JPG, BMP, PNG, TIFF, GIF
Outros formatos de Office: ODT, OTT, OTS, ODS, ODP, OTP, ODG

Outros formatos

Web: HTML, MHTML
Arquivos: ZIP, TAR, 7Z
e-Books: CHM, EPUB, FB2, MOBI

GroupDocs.Parser for Java recursos

Extraia dados de PDFs, documentos do Office, imagens e outros formatos de forma rápida e precisa com o nosso SDK Java Document Parser

Extrair texto

Extraia informações textuais de vários formatos de arquivo, como documentos do Office, arquivos PDF e imagens, para fácil leitura e análise.

Extrair imagens

Recupere conteúdo visual de diversas fontes, como documentos do Office e arquivos PDF, para acesso e uso conveniente.

Digitalizar códigos QR

Detecte e decodifique códigos QR presentes em documentos do Office, arquivos PDF ou conteúdo visual para recuperação eficiente de informações.

Extrair dados de anexos de e‑mail e arquivos

Coleta informações valiosas de mensagens de email, anexos de arquivos e fontes de dados compactadas para análise e utilização eficazes.

Extrair tabelas

Identifique e extraia dados tabulares de documentos PDF para análise e uso organizados.

Extrair hiperlinks

Localize e extraia hiperlinks e endereços de email em documentos do Office ou arquivos PDF para acesso eficiente.

Analisar formulários PDF

Formulários PDF são documentos digitais com campos preenchíveis para interação do usuário, permitindo que eles insiram informações eletronicamente. A API .NET pode ser utilizada para extrair dados desses formulários para processamento eficiente.

Analisar dados com templates

Crie templates personalizados e utilize-os com a API .NET para analisar informações específicas de arquivos PDF, simplificando os processos de extração de dados.

Pesquisar texto em documentos

Localize rapidamente palavras ou padrões específicos em documentos.

Exemplos de código

Alguns casos de uso típicos das operações do GroupDocs.Parser for Java

Extrair imagens de documentos PDF

GroupDocs.Parser for Java facilita para desenvolvedores Java a extração de imagens de documentos:

Extrair imagens de documentos PDF em Java

// Crie uma instância da classe Parser
try (Parser parser = new Parser("source.pdf"))
{
    // Extrair imagens
    Iterable<PageImageArea> images = parser.getImages();

    // Verifique se algo foi extraído
    if (images == null) {
        return;
    }

    // Iterar sobre as imagens
    for (PageImageArea image : images) {
        // Imprima o índice da página, o retângulo e o tipo de imagem
        System.out.println(String.format("Page: %d, R: %s, Type: %s", 
            image.getPage().getIndex(), image.getRectangle(), image.getFileType()));
    }
}

Extrair códigos de barras de imagens

Use nossa API Java para extrair códigos de barras de imagens:

Extrair códigos de barras de imagens em Java

// Carregue a imagem fonte no Parser
try (Parser parser = new Parser("source.jpg")){

    // Verifique se o arquivo suporta extração de códigos de barras
    if (!parser.getFeatures().isBarcodes()) {

        // Extrair códigos de barras do arquivo
        Iterable<PageBarcodeArea> barcodes = parser.getBarcodes();

        // Iterar sobre os códigos de barras
        for (PageBarcodeArea barcode : barcodes) {
            // Imprima o índice da página
            System.out.println("Page: " + barcode.getPage().getIndex());
            // Imprima o valor do código de barras
            System.out.println("Value: " + barcode.getValue());
        }
    }
}