GroupDocs.Parser for .NET

Витягніть текст з RTF за допомогою C#

Швидко витягуйте зрозумілий та структурований текст з PDF, Word, Excel та інших типів файлів, використовуючи GroupDocs.Parser у ваших рішеннях .NET.

Кроки для витягнення тексту з Rtf у C#

Ви можете витягти чистий і структурований текст з документів RTF у додатках .NET за допомогою GroupDocs.Parser, дотримуючись цих кроків:

  1. Відкрийте документ RTF за допомогою екземпляра Parser.
  2. Витягніть текст з вмісту файлу.
  3. Перевірте результат, щоб підтвердити успішність витягнення тексту.
  4. Використовуйте витягнений текст у вашій бізнес-логіці, індексації або даних.
// Завантажте ваш документ у Parser
using (Parser parser = new Parser("input.rtf")) {

    // Витягніть увесь текстовий контент з файлу
    using (TextReader reader = parser.GetText()) 
    {
        // Якщо текст недоступний, результат буде null
        // Використовуйте витягнений текст у вашому додатку
        Console.WriteLine(reader == null ? 
            "Витягнення тексту не підтримується для цього формату" : reader.ReadToEnd());
    }
}
dotnet add package GroupDocs.Parser
натисніть, щоб скопіювати
скопійовано
Більше прикладів Документація

Комплексні можливості витягнення контенту

Крім простого тексту, GroupDocs.Parser може витягати зображення, структуровані елементи та метадані для підтримки аналізу контенту, трансформації та автоматизації.

Розпізнавання тексту та структурований парсинг документів

Витягнення тексту з різних типів файлів

Отримуйте простий або структурований текст з форматів, таких як PDF, DOCX, XLSX, PPTX, HTML та інших форматів.

Обробка тексту з документів та візуальних матеріалів

Витягайте текст з відсканованих зображень, презентацій, електронних таблиць і цифрових документів, зберігаючи структуру.

Розширена конфігурація витягнення тексту

Налаштуйте спосіб, у який текст виявляється — визначте діапазони сторінок, області макету та налаштуйте вихідні дані для максимального рівня точності.

Як витягти текстові області з файлу PPTX

Цей приклад коду демонструє, як отримати текстовий контент разом із координатами областей з файлу PowerPoint, використовуючи GroupDocs.Parser.

C#

//  Завантажте презентацію PowerPoint за допомогою Parser
using (Parser parser = new Parser("input.pptx"))
{
    // Витягніть усі прямокутники текстових областей з документа
    IEnumerable<PageTextArea> areas = parser.GetTextAreas();

    // Вийдіть, якщо витягнення текстових областей недоступне
    if (areas == null)
    {
        return;
    }

    // Переберіть текстові області кожної сторінки
    foreach (PageTextArea a in areas)
    {
        // Отримайте індекс сторінки, прямокутник області та текстове значення
        Console.WriteLine(string.Format("Page: {0}, R: {1}, Text: {2}", a.Page.Index, a.Rectangle, a.Text));
    }
}

Про API GroupDocs.Parser for .NET

GroupDocs.Parser — це високопродуктивний API для парсингу документів для розробників .NET. Він спрощує витягнення тексту, зображень, таблиць і структурованого контенту з різних форматів файлів, включаючи PDF, DOCX, XLSX, PPTX та багато інших, без залежності від сторонніх бібліотек.
Дізнатися більше
About illustration

Готові почати?

Завантажте GroupDocs.Parser безкоштовно або отримайте пробну ліцензію для повного доступу!

Корисні ресурси

Вивчіть документацію, зразки коду та підтримку спільноти для покращення вашого досвіду.

Підтримувані формати для витягнення тексту

GroupDocs.Parser забезпечує витягнення тексту з широкого спектру документів та зображень. Ознайомтеся з поширеними підтримуваними форматами, наведеними нижче.

Поради щодо тимчасової ліцензії

1
Зареєструйтеся за допомогою вашої робочої e-mail. Безкоштовні поштові служби заборонені.
2
Скористайтеся кнопкою Отримати тимчасову ліцензію на другому кроці.
 Українська