Извлечение текста из документов в C#

Извлекайте текст из документов с помощью нескольких строк кода .NET.


Скачать бесплатную пробную версию

Как извлечь текст из файлов .NET API?

GroupDocs.Parser for .NET — это API извлечения текста, метаданных и изображений для бизнес-приложений, разработанных с использованием C#, ASP.NET и других технологий .NET. Он поддерживает извлечение необработанного, форматированного и структурированного текста, а также метаданных из файлов поддерживаемых форматов. С помощью GroupDocs.Parser для .NET ваши приложения также могут выполнять синтаксический анализ защищенных паролем документов для популярных форматов, таких как документы обработки Word, электронные таблицы Excel, презентации PowerPoint, файлы OneNote, PDF и ZIP-архивы.

GroupDocs.Parser API — правильный выбор для корпоративных решений, которым требуется функция извлечения текста из файлов. Эти API хорошо поддерживаются во всех основных операционных системах и платформах, включая Frameworks: .NET Framework, .NET Standard, .NET Core, Mono.

Извлечение текста из документов в .NET

GroupDocs.Parser for .NET позволяет разработчикам C# легко извлекать текст из документов, выполняя несколько простых шагов.

  • Создать объект Parser для исходного документа;
  • Вызовите метод GetText и получите TextReader объект;
  • Проверить, не является ли ридер null (поддерживается извлечение текста для документа);
  • Прочитайте текст от читателя.

Как извлечь текст из документов, используя пример кода C#

// Извлечение текста из документов с помощью API GroupDocs.Parser
// Создайте экземпляр класса Parser
using (Parser parser = new Parser(filePath)) {
    // Извлечь текст в ридер
    using (TextReader reader = parser.GetText()) {
        // Распечатать текст из документа
        // Если извлечение текста не поддерживается, средство чтения недействительно.
        Console.WriteLine(reader == null ? "Извлечение текста не поддерживается" : reader.ReadToEnd());
    }
}

Системные Требования

GroupDocs.Parser for .NET API поддерживаются на всех основных платформах и операционных системах. Перед выполнением приведенного ниже кода убедитесь, что в вашей системе установлены следующие предварительные компоненты.

  • Операционные системы: Microsoft Windows, Linux, MacOS
  • Среды разработки: Microsoft Visual Studio, Xamarin, MonoDevelop
  • Фреймворки
  • Загрузите последнюю версию GroupDocs.Parser for .NET из Nuget

Зачем использовать GroupDocs.Parser for .NET

  • Поддержка извлечения простого текста из любых поддерживаемых документов
  • Парсинг документов по пользовательским шаблонам
  • Полная поддержка извлечения структурированного текста
  • Текстовый поиск по ключевому слову и регулярному выражению
  • Извлечение форматированного текста, метаданных, изображений, контейнеров и вложений
  • Извлечение оглавления для некоторых поддерживаемых форматов документов
  • Парсинг данных форм из PDF-документов
  • Извлечение гиперссылок из документа

Живые демонстрации - извлечение текста из документов онлайн

Извлекайте текст из документов прямо сейчас, посетив веб-сайт GroupDocs.Parser Live Demos. Живая демонстрация имеет следующие преимущества.

Нет необходимости скачивать API

Нет необходимости писать код

Просто загрузите исходный файл

Скачать результирующий файл

Извлечение текста из других форматов документов

.NET API анализа документов и извлечения текста для форматов файлов и изображений. Извлеките данные для некоторых популярных форматов файлов, как указано ниже.

DOC

(Документ Microsoft Word)

DOCM

(Документ Microsoft Word с поддержкой макросов)

DOCX

(Документ Microsoft Word с открытым XML)

DOT

(Шаблон документа Microsoft Word)

DOTM

(Шаблон Microsoft Word с поддержкой макросов)

DOTX

(Шаблон документа Word Open XML)

EPUB

(Формат файла цифровой электронной книги)

HTML

(Язык гипертекстовой разметки)

MHT

(MIME-инкапсуляция совокупного HTML)

MHTML

(MIME-инкапсуляция совокупного HTML)

ODP

(Формат файла презентации OpenDocument)

ODS

(Открыть электронную таблицу документов)

ODT

(Открыть текст документа)

ONE

(Формат файла Microsoft OneNote)

OTP

(Шаблон графика происхождения)

OTT

(Открыть шаблон документа)

PDF

(Портативный документ)

Back to top
 Русский