GroupDocs.Parser for .NET

Extraia texto de RTF usando C#

Extraia rapidamente texto legível e estruturado de PDFs, Word, Excel e outros tipos de arquivos usando GroupDocs.Parser em suas soluções .NET.

Passos para extrair texto de Rtf em C#

Você pode extrair texto limpo e estruturado de documentos RTF em aplicativos .NET com GroupDocs.Parser seguindo estes passos:

  1. Abra o documento RTF usando uma instância de Parser.
  2. Extraia o texto do conteúdo do arquivo.
  3. Verifique o resultado para confirmar se a extração de texto foi bem-sucedida.
  4. Use o texto extraído em sua lógica de negócios, indexação ou pipelines de dados.
// Carregue seu documento no Parser
using (Parser parser = new Parser("input.rtf")) {

    // Extraia todo o conteúdo de texto do arquivo
    using (TextReader reader = parser.GetText()) 
    {
        // Se o texto não estiver disponível, o resultado será nulo
        // Use o texto extraído em sua aplicação
        Console.WriteLine(reader == null ? 
            "A extração de texto não é suportada para este formato" : reader.ReadToEnd());
    }
}
dotnet add package GroupDocs.Parser
clique para copiar
copiado
Mais exemplos Documentação

Recursos abrangentes de extração de conteúdo

Além do texto simples, GroupDocs.Parser pode extrair imagens, elementos estruturados e metadados para apoiar a análise de conteúdo, transformação e automação.

Reconhecimento de texto e análise estruturada de documentos

Extração de texto em diversos tipos de arquivos

Obtenha texto simples ou estruturado de formatos como PDF, DOCX, XLSX, PPTX, HTML e outros formatos.

Processar texto de documentos e visuais

Extraia texto de imagens digitalizadas, apresentações, planilhas e documentos digitais enquanto preserva a estrutura.

Configuração avançada de extração de texto

Personalize como o texto é detectado—defina intervalos de página, regiões de layout e ajuste a saída para máxima precisão.

Como extrair áreas de texto de um arquivo PPTX

Este exemplo de código mostra como recuperar o conteúdo de texto juntamente com as coordenadas das áreas de um arquivo PowerPoint usando GroupDocs.Parser.

C#

//  Carregue a apresentação do PowerPoint com Parser
using (Parser parser = new Parser("input.pptx"))
{
    // Extraia todos os retângulos da área de texto do documento
    IEnumerable<PageTextArea> areas = parser.GetTextAreas();

    // Saia se a extração da área de texto não estiver disponível
    if (areas == null)
    {
        return;
    }

    // Percorra as áreas de texto de cada página
    foreach (PageTextArea a in areas)
    {
        // Acesse o índice da página, retângulo da área e valor do texto
        Console.WriteLine(string.Format("Page: {0}, R: {1}, Text: {2}", a.Page.Index, a.Rectangle, a.Text));
    }
}

Sobre a API GroupDocs.Parser for .NET

GroupDocs.Parser é uma API de análise de documentos de alto desempenho para desenvolvedores .NET. Ela simplifica a extração de texto, imagens, tabelas e conteúdo estruturado de vários formatos de arquivo, incluindo PDF, DOCX, XLSX, PPTX e mais—sem depender de bibliotecas de terceiros.
Saiba mais
About illustration

Pronto para começar?

Baixe GroupDocs.Parser gratuitamente ou obtenha uma licença de teste para acesso total!

Recursos úteis

Explore a documentação, as amostras de código e o apoio da comunidade para aprimorar sua experiência.

Formatos suportados para extração de texto

GroupDocs.Parser possibilita a extração de texto de uma ampla gama de tipos de documentos e imagens. Explore os formatos comumente suportados listados abaixo.

Dicas de licença temporária

1
Cadastre-se com seu e-mail comercial. Serviços de e-mail gratuitos não são permitidos.
2
Use o botão Obter uma licença temporária na segunda etapa.
 Português