GroupDocs.Parser for .NET

Извлечение текста из RTF с использованием C#

Быстро извлекайте читаемый и структурированный текст из PDF, Word, Excel и других типов файлов с помощью GroupDocs.Parser в ваших решениях .NET.

Загрузка NuGet

Бесплатная пробная версия

Шаги для извлечения текста из Rtf в C#

Вы можете извлечь чистый и структурированный текст из документов RTF в приложениях .NET с помощью GroupDocs.Parser, следуя этим шагам:

Откройте документ RTF с помощью экземпляра Parser.
Извлеките текст из содержимого файла.
Проверьте результат, чтобы подтвердить успешность извлечения текста.
Используйте извлеченный текст в вашей деловой логике, индексировании или конвейерах данных.

Копировать

// Загрузите ваш документ в Parser
using (Parser parser = new Parser("input.rtf")) {

    // Извлеките весь текст из файла
    using (TextReader reader = parser.GetText()) 
    {
        // Если текст недоступен, результат будет null
        // Используйте извлеченный текст в вашем приложении
        Console.WriteLine(reader == null ? 
            "Извлечение текста не поддерживается для этого формата" : reader.ReadToEnd());
    }
}

dotnet add package GroupDocs.Parser

Нажмите для копирования

Скопировано

Больше примеров Документация

Полные возможности извлечения контента

Кроме обычного текста, GroupDocs.Parser может извлекать изображения, структурированные элементы и метаданные для поддержки анализа контента, преобразования и автоматизации.

Распознавание текста и структурированный разбор документов

Извлечение текста из различных типов файлов

Получите обычный или структурированный текст из таких форматов, как PDF, DOCX, XLSX, PPTX, HTML и других форматов.

Обработка текста из документов и изображений

Извлеките текст из сканированных изображений, презентаций, таблиц и цифровых документов, сохраняя структуру.

Расширенная конфигурация извлечения текста

Настройте, как обнаруживается текст — определите диапазоны страниц, области макета и настройте вывод для достижения максимальной точности.

Как извлечь текстовые области из файла PPTX

Этот пример кода показывает, как получить текстовое содержимое вместе с координатами областей из файла PowerPoint с использованием GroupDocs.Parser.

C#

//  Загрузите презентацию PowerPoint с помощью Parser
using (Parser parser = new Parser("input.pptx"))
{
    // Извлеките все текстовые прямоугольники из документа
    IEnumerable<PageTextArea> areas = parser.GetTextAreas();

    // Выйдите, если извлечение текстовых областей недоступно
    if (areas == null)
    {
        return;
    }

    // Пройдите через текстовые области каждой страницы
    foreach (PageTextArea a in areas)
    {
        // Получите индекс страницы, прямоугольник области и текстовое значение
        Console.WriteLine(string.Format("Page: {0}, R: {1}, Text: {2}", a.Page.Index, a.Rectangle, a.Text));
    }
}

О API GroupDocs.Parser for .NET

GroupDocs.Parser — это высокопроизводительный API для разбора документов для разработчиков .NET. Он упрощает извлечение текста, изображений, таблиц и структурированного контента из множества форматов файлов, включая PDF, DOCX, XLSX, PPTX и другие — без зависимости от сторонних библиотек.

Узнать больше

Готовы начать?

Загрузите GroupDocs.Parser бесплатно или получите пробную лицензию для полного доступа!

Загрузка NuGet

Бесплатная пробная версия

Полезные ресурсы

Изучите документацию, примеры кода и раздел поддержки, чтобы улучшить ваш опыт.

Поддерживаемые форматы для извлечения текста

GroupDocs.Parser позволяет извлечение текста из широкого спектра документов и изображений. Изучите общепризнанные поддерживаемые форматы, перечисленные ниже.

Парсинг PDF
(Формат переносимого документа)
Парсинг DOCX
(Документ Word 2007+)
Парсинг PPTX
(Формат презентации Open XML)
Парсинг XLSX
(Рабочая книга Open XML)
Парсинг TXT
(Текстовый файл)
Парсинг XML
(Расширяемый язык разметки)
Парсинг EPUB
(Файл открытой электронной книги)