GroupDocs.Parser for .NET

Витягніть текст з RTF за допомогою C#

Швидко витягуйте зрозумілий та структурований текст з PDF, Word, Excel та інших типів файлів, використовуючи GroupDocs.Parser у ваших рішеннях .NET.

Завантажити NuGet

Почніть безкоштовну пробну версію

Кроки для витягнення тексту з Rtf у C#

Ви можете витягти чистий і структурований текст з документів RTF у додатках .NET за допомогою GroupDocs.Parser, дотримуючись цих кроків:

Відкрийте документ RTF за допомогою екземпляра Parser.
Витягніть текст з вмісту файлу.
Перевірте результат, щоб підтвердити успішність витягнення тексту.
Використовуйте витягнений текст у вашій бізнес-логіці, індексації або даних.

Копіювати

// Завантажте ваш документ у Parser
using (Parser parser = new Parser("input.rtf")) {

    // Витягніть увесь текстовий контент з файлу
    using (TextReader reader = parser.GetText()) 
    {
        // Якщо текст недоступний, результат буде null
        // Використовуйте витягнений текст у вашому додатку
        Console.WriteLine(reader == null ? 
            "Витягнення тексту не підтримується для цього формату" : reader.ReadToEnd());
    }
}

dotnet add package GroupDocs.Parser

натисніть, щоб скопіювати

скопійовано

Більше прикладів Документація

Комплексні можливості витягнення контенту

Крім простого тексту, GroupDocs.Parser може витягати зображення, структуровані елементи та метадані для підтримки аналізу контенту, трансформації та автоматизації.

Розпізнавання тексту та структурований парсинг документів

Витягнення тексту з різних типів файлів

Отримуйте простий або структурований текст з форматів, таких як PDF, DOCX, XLSX, PPTX, HTML та інших форматів.

Обробка тексту з документів та візуальних матеріалів

Витягайте текст з відсканованих зображень, презентацій, електронних таблиць і цифрових документів, зберігаючи структуру.

Розширена конфігурація витягнення тексту

Налаштуйте спосіб, у який текст виявляється — визначте діапазони сторінок, області макету та налаштуйте вихідні дані для максимального рівня точності.

Як витягти текстові області з файлу PPTX

Цей приклад коду демонструє, як отримати текстовий контент разом із координатами областей з файлу PowerPoint, використовуючи GroupDocs.Parser.

C#

//  Завантажте презентацію PowerPoint за допомогою Parser
using (Parser parser = new Parser("input.pptx"))
{
    // Витягніть усі прямокутники текстових областей з документа
    IEnumerable<PageTextArea> areas = parser.GetTextAreas();

    // Вийдіть, якщо витягнення текстових областей недоступне
    if (areas == null)
    {
        return;
    }

    // Переберіть текстові області кожної сторінки
    foreach (PageTextArea a in areas)
    {
        // Отримайте індекс сторінки, прямокутник області та текстове значення
        Console.WriteLine(string.Format("Page: {0}, R: {1}, Text: {2}", a.Page.Index, a.Rectangle, a.Text));
    }
}

Про API GroupDocs.Parser for .NET

GroupDocs.Parser — це високопродуктивний API для парсингу документів для розробників .NET. Він спрощує витягнення тексту, зображень, таблиць і структурованого контенту з різних форматів файлів, включаючи PDF, DOCX, XLSX, PPTX та багато інших, без залежності від сторонніх бібліотек.

Дізнатися більше

Готові почати?

Завантажте GroupDocs.Parser безкоштовно або отримайте пробну ліцензію для повного доступу!

Завантажити NuGet

Почніть безкоштовну пробну версію

Корисні ресурси

Вивчіть документацію, зразки коду та підтримку спільноти для покращення вашого досвіду.

Документація

Посилання API

Зразки коду

Безкоштовна підтримка

Оплачувана підтримка

Підтримувані формати для витягнення тексту

GroupDocs.Parser забезпечує витягнення тексту з широкого спектру документів та зображень. Ознайомтеся з поширеними підтримуваними форматами, наведеними нижче.

Парсинг PDF
(Формат портативного документа)
Парсинг DOCX
(Документ Word Office 2007+)
Парсинг PPTX
(Формат відкритої XML-презентації)
Парсинг XLSX
(Відкрите XML-робочий зошит)
Парсинг TXT
(Текстовий файл)
Парсинг XML
(Мова розмітки eXtensible)
Парсинг EPUB
(Відкритий файл eBook)