GroupDocs.Parser for .NET

Analise documentos DOCX usando C#

Extraia de forma eficiente texto, metadados, tabelas e imagens de arquivos PDF, Word, Excel e de imagem usando GroupDocs.Parser em seus projetos .NET.

Baixar NuGet

Comece o teste gratuito

Passos para extrair dados de Docx em C#

Siga estas etapas para analisar o conteúdo de documentos DOCX em seus aplicativos .NET usando GroupDocs.Parser:

Carregue o documento DOCX usando uma instância de Parser.
Extraia o conteúdo desejado, como texto, tabelas ou metadados.
Verifique se os dados extraídos são válidos.
Utilize a saída analisada em seu processamento subsequente, automação ou sistemas empresariais.

Copiar

// Carregue seu documento no Parser
using (Parser parser = new Parser("input.docx")) {

    // Extraia todo o conteúdo de texto do arquivo
    using (TextReader reader = parser.GetText()) 
    {
        // Se o texto não estiver disponível, o resultado será nulo
        // Use o texto extraído em sua aplicação
        Console.WriteLine(reader == null ? 
            "A extração de texto não é suportada para este formato" : reader.ReadToEnd());
    }
}

dotnet add package GroupDocs.Parser

clique para copiar

copiado

Mais exemplos Documentação

Capacidades abrangentes de análise de documentos

GroupDocs.Parser oferece mais do que apenas leitura de texto — ele suporta extração de códigos de barras, análise de imagens, acesso a metadados e processamento de dados estruturados para automação e análise de dados avançadas.

Capacidades de extração e análise de conteúdo do documento

Suporte a diversos tipos de conteúdo de arquivos

Extraia dados, incluindo texto, imagens, tabelas e campos de formatos de documento como PDF, Word, Excel, HTML e mais.

Trabalhe com arquivos digitalizados e digitais

Analise dados de documentos digitalizados e arquivos nativos, com suporte para OCR e extração orientada a layout.

Parâmetros de extração configuráveis

Ajuste a lógica de análise com opções flexíveis, como seleção de intervalo de páginas, direcionamento de regiões e modelos de detecção de campos.

Como analisar PDF usando templates

Este exemplo mostra como extrair dados estruturados de um PDF usando um template de análise predefinido com GroupDocs.Parser.

C#

//  Carregue o arquivo PDF com a classe Parser
using (Parser parser = new Parser("input.pdf"))
{
    // Analise o documento com base no template
    DocumentData data = parser.ParseByTemplate(GetTemplate());

    // Verifique se a extração de formulários é suportada
    if (data == null)
    {
        return;
    }

    // Processar os campos obtidos
    for (int i = 0; i < data.Count; i++)
    {
        Console.Write(data[i].Name + ": ");
        PageTextArea area = data[i].PageArea as PageTextArea;
        Console.WriteLine(area == null ? "Not a template field" : area.Text);
    }
}

private static Template GetTemplate()
{
    // Crie parâmetros de detector para a tabela 'Detalhes'
    TemplateTableParameters detailsTableParameters = 
        new TemplateTableParameters(new Rectangle(new Point(35, 320), new Size(530, 55)), null);

    TemplateItem[] templateItems = new TemplateItem[]
    {
        new TemplateTable(detailsTableParameters, "details", null)
    };

    Template template = new Template(templateItems);
    return template;
}

Sobre a API GroupDocs.Parser for .NET

GroupDocs.Parser é uma API de análise de documentos rica em recursos, projetada para desenvolvedores .NET. Ela suporta a extração de texto puro e estruturado, metadados, imagens, tabelas e códigos de barras de formatos populares como PDF, DOCX, XLSX, PPTX, entre outros — tudo isso sem dependências de software adicionais.

Saiba mais

Pronto para começar?

Baixe GroupDocs.Parser gratuitamente ou obtenha uma licença de teste para acesso total!

Baixar NuGet

Comece o teste gratuito

Recursos úteis

Explore a documentação, as amostras de código e o apoio da comunidade para aprimorar sua experiência.

Formatos suportados para extração de dados

GroupDocs.Parser permite a análise de um amplo conjunto de formatos de documentos e imagens. Explore os tipos de arquivos suportados comumente utilizados em fluxos de trabalho de extração de dados.

Analisar PDF
(Formato de Documento Portátil)
Analisar PPTX
(Formato de Apresentação Open XML)
Analisar XLSX
(Caderno de Trabalho Open XML)
Analisar TXT
(Arquivo de texto)
Analisar RTF
(Formato de Texto Rico)
Analisar XML
(Linguagem de Marcação eXtensível)
Analisar EPUB
(Arquivo de eBook Open)