GroupDocs.Parser for Java

Recupere texto de XML usando Java

Extraia texto legível ou estruturado de arquivos como PDF, Word, Excel e mais usando GroupDocs.Parser em seus projetos de desenvolvimento Java.

Baixar Maven

Comece o teste gratuito

Como recuperar texto de Xml usando Java

Siga os passos abaixo para extrair texto de arquivos XML usando GroupDocs.Parser dentro do seu projeto Java:

Carregue o documento XML usando a classe Parser.
Realize a extração de texto do conteúdo do arquivo.
Verifique se o texto foi recuperado com sucesso.
Use os dados textuais em sistemas de pesquisa, análise ou automação.

Copiar

// Inicialize Parser com seu documento
try (Parser parser = new Parser("input.xml"))
{
    // Leia e extraia todos os dados textuais
    try (TextReader reader = parser.getText())
    {
        // Retorne nulo se o conteúdo textual estiver ausente
        // Integre o texto extraído ao seu fluxo de trabalho
        System.out.println(reader == null ? 
            "Ignore formatos de extração de texto não suportados" : reader.readToEnd());
    }
}

<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>24.9</version>
</dependency>
</dependencies>
<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://repository.groupdocs.com/repo/</url>
</repository>
</repositories>

clique para copiar

copiado

Mais exemplos Documentação

Funcionalidade avançada de extração de texto

GroupDocs.Parser vai além da extração simples de texto—suportando a recuperação de imagens, metadados e dados estruturados para aprimorar tarefas de processamento de conteúdo.

Extraia e estruture o conteúdo textual de documentos

Funciona em numerosos formatos de documentos

Capture tanto texto bruto quanto estruturado de DOCX, XLSX, PPTX, PDF, HTML e vários outros formatos.

Extraia texto de conteúdo visual e textual

Analise texto de documentos digitalizados, slides, planilhas e outros tipos de arquivos enquanto preserva a estrutura lógica.

Controle detalhado sobre o processo de extração

Configurar faixas de páginas, zonas de layout e parâmetros de precisão para uma análise de texto refinada.

Exemplo: Extraindo regiões de texto de um documento PPTX

Este exemplo demonstra a extração de blocos de texto junto com suas coordenadas espaciais de uma apresentação PowerPoint usando GroupDocs.Parser.

Java

//  Carregue seu arquivo PPTX com a API Parser
try (Parser parser = new Parser("input.pptx"))
{
    // Obtenha todas as zonas de texto retangulares
    IEnumerable<PageTextArea> areas = parser.GetTextAreas();

    // Saia se este recurso não for suportado
    if (areas == null)
    {
        return;
    }

    // Itere pelas áreas de texto por página
    for (PageTextArea a : areas)
    {
        // Processar cada bloco de texto com seu número de página e retângulo delimitador
        System.out.println(String.format("Page: %d, R: %s, Text: %s", a.getPage().getIndex(), a.getRectangle(), a.getText()));
    }
}

Apresentando a API GroupDocs.Parser for Java

GroupDocs.Parser é um parser de documentos robusto e escalável projetado para desenvolvedores Java. Ele oferece recursos para extrair com precisão texto, tabelas, imagens e componentes estruturados de vários formatos, incluindo PDF, DOCX, XLSX, PPTX e outros—sem depender de utilitários externos.

Saiba mais

Pronto para começar?

Baixe GroupDocs.Parser gratuitamente ou obtenha uma licença de teste para acesso total!

Baixar Maven

Comece o teste gratuito

Recursos úteis

Explore a documentação, as amostras de código e o apoio da comunidade para aprimorar sua experiência.

Tipos de arquivos suportados para extração de texto

GroupDocs.Parser é capaz de extrair conteúdo textual de numerosos formatos de arquivos e imagens. Abaixo estão os tipos mais comumente usados que ele suporta.

Analisar PDF
(Formato de Documento Portátil)
Analisar DOCX
(Documento do Word Office 2007+)
Analisar PPTX
(Formato de Apresentação Open XML)
Analisar XLSX
(Caderno de Trabalho Open XML)
Analisar TXT
(Arquivo de texto)
Analisar RTF
(Formato de Texto Rico)
Analisar EPUB
(Arquivo de eBook Open)