GroupDocs.Parser for Java

Extraia dados de documentos XLSX em Java

Extraia de forma eficaz conteúdo estruturado, como texto, metadados, tabelas e gráficos de documentos PDF, Word, Excel e baseados em imagem usando GroupDocs.Parser em seus aplicativos Java.

Baixar Maven

Comece o teste gratuito

Como extrair dados de Xlsx usando Java

Para extrair informações úteis de documentos XLSX em seus projetos Java usando GroupDocs.Parser, siga estas instruções:

Abra o arquivo XLSX com um objeto Parser.
Use o parser para recuperar os dados necessários (texto, tabelas, metadados, etc.).
Garanta que a saída esteja correta e completa.
Integre o conteúdo analisado em seu fluxo de dados, processos de negócios ou aplicações.

Copiar

// Inicialize seu Parser com o documento de entrada
try (Parser parser = new Parser("input.xlsx"))
{
    // Recupere todo o conteúdo textual disponível do documento
    try (TextReader reader = parser.getText())
    {
        // Se nenhum texto for encontrado, o valor retornado será nulo
        // Incorpore o conteúdo extraído em sua solução
        System.out.println(reader == null ? 
            "Este formato pode não suportar extração de texto" : reader.readToEnd());
    }
}

<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>24.9</version>
</dependency>
</dependencies>
<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://repository.groupdocs.com/repo/</url>
</repository>
</repositories>

clique para copiar

copiado

Mais exemplos Documentação

Funcionalidade versátil de análise de documentos

GroupDocs.Parser faz mais do que apenas extração de texto—ele suporta a análise completa de códigos de barras, metadados, imagens, tabelas e outros dados para impulsionar automação inteligente e aplicações orientadas a dados.

Visão geral visual da análise e extração de dados do documento

Extração de múltiplos formatos de arquivo

Acesse dados como texto, tabelas e mídia de tipos de arquivos amplamente utilizados, como PDF, Word, Excel, PowerPoint, HTML e outros.

Analise conteúdo de fontes digitais e digitalizadas

Processe conteúdo tanto de arquivos digitais nativos quanto de imagens escaneadas, utilizando OCR quando necessário para interpretar texto embutido.

Opções de configuração flexíveis

Personalize sua análise com configurações para seleção de páginas, zonas de layout e templates de campo personalizados para atender a necessidades específicas de extração.

Análise de PDF usando um template de extração de dados

Este exemplo mostra como extrair campos estruturados de um PDF usando um template personalizado através de GroupDocs.Parser.

Java

//  Abra o PDF usando a classe Parser
try (Parser parser = new Parser("input.pdf"))
{
    // Aplique o template de análise para extrair os dados definidos
    DocumentData data = parser.parseByTemplate(GetTemplate());

    // Verifique se a extração baseada em template está disponível
    if (data == null) {
        return;
    }

    // Trabalhe com os campos de dados extraídos
    for (int i = 0; i < data.getCount(); i++) {
        System.out.print(data.get(i).getName() + ": ");
        PageTextArea area = data.get(i).getPageArea() instanceof PageTextArea
                ? (PageTextArea) data.get(i).getPageArea() : null;
        System.out.println(area == null ? "Not a template field" : area.getText());
    }
}

private static Template GetTemplate()
{
    // Defina as configurações do detector para extrair a seção 'Detalhes'
    TemplateTableParameters detailsTableParameters = 
        new TemplateTableParameters(new Rectangle(new Point(35, 320), new Size(530, 55)), null);

    TemplateItem[] templateItems = new TemplateItem[]
    {
        new TemplateTable(detailsTableParameters, "details", null)
    };

    Template template = new Template(java.util.Arrays.asList(templateItems));
    return template;
}

O que é GroupDocs.Parser for Java?

GroupDocs.Parser é uma API robusta projetada para desenvolvedores Java, oferecendo funcionalidades avançadas de análise de documentos. Permite extrair e processar dados textuais, imagens, tabelas, campos estruturados e códigos de barras de diversos formatos como PDF, DOCX, XLSX, PPTX e muito mais — tudo isso sem a necessidade de instalar bibliotecas adicionais.

Saiba mais

Pronto para começar?

Baixe GroupDocs.Parser gratuitamente ou obtenha uma licença de teste para acesso total!

Baixar Maven

Comece o teste gratuito

Recursos úteis

Explore a documentação, as amostras de código e o apoio da comunidade para aprimorar sua experiência.

Tipos de arquivos suportados para extração de conteúdo

GroupDocs.Parser é compatível com uma ampla variedade de tipos de arquivos de documentos e imagens, facilitando a extração de informações de formatos comumente utilizados em cenários de análise e automação de dados.

Analisar PDF
(Formato de Documento Portátil)
Analisar DOCX
(Documento do Word Office 2007+)
Analisar PPTX
(Formato de Apresentação Open XML)
Analisar TXT
(Arquivo de texto)
Analisar RTF
(Formato de Texto Rico)
Analisar XML
(Linguagem de Marcação eXtensível)
Analisar EPUB
(Arquivo de eBook Open)