Извлечь текст из PDF в C#

Извлеките текст из PDF с помощью нескольких строк кода .NET.


Скачать бесплатную пробную версию

Как извлечь текст из PDF файлов .NET API?

GroupDocs.Parser for .NET — это API извлечения текста, метаданных и изображений для бизнес-приложений, разработанных с использованием C#, ASP.NET и других технологий .NET. Он поддерживает извлечение необработанного, форматированного и структурированного текста, а также метаданных из файлов поддерживаемых форматов. С помощью GroupDocs.Parser для .NET ваши приложения также могут выполнять синтаксический анализ защищенных паролем документов для популярных форматов, таких как документы обработки Word, электронные таблицы Excel, презентации PowerPoint, файлы OneNote, PDF и ZIP-архивы.

GroupDocs.Parser API — правильный выбор для корпоративных решений, которым требуется функция извлечения текста из файлов. Эти API хорошо поддерживаются во всех основных операционных системах и платформах, включая Frameworks: .NET Framework, .NET Standard, .NET Core, Mono.

Извлечь текст из PDF в C# API?

GroupDocs.Parser for .NET позволяет разработчикам C# легко извлекать текст из файла PDF, реализуя несколько простых шаги.

  • Создать объект Parser для исходного документа;
  • Вызовите метод GetText и получите TextReader объект;
  • Проверить, не является ли ридер null (поддерживается извлечение текста для документа);
  • Прочитайте текст от читателя.

Как извлечь текст из файла PDF, используя пример кода C#

// Извлечь текст из файла PDF с помощью API GroupDocs.Parser
// Создайте экземпляр класса Parser
using (Parser parser = new Parser(filePath)) {
    // Извлечь текст в ридер
    using (TextReader reader = parser.GetText()) {
        // Распечатать текст из документа
        // Если извлечение текста не поддерживается, средство чтения недействительно.
        Console.WriteLine(reader == null ? "Извлечение текста не поддерживается" : reader.ReadToEnd());
    }
}

Системные Требования

GroupDocs.Parser for .NET API поддерживаются на всех основных платформах и операционных системах. Перед выполнением приведенного ниже кода убедитесь, что в вашей системе установлены следующие предварительные компоненты.

  • Операционные системы: Microsoft Windows, Linux, MacOS
  • Среды разработки: Microsoft Visual Studio, Xamarin, MonoDevelop
  • Фреймворки
  • Загрузите последнюю версию GroupDocs.Parser for .NET из Nuget

Зачем использовать GroupDocs.Parser for .NET

  • Поддержка извлечения простого текста из любых поддерживаемых документов
  • Парсинг документов по пользовательским шаблонам
  • Полная поддержка извлечения структурированного текста
  • Текстовый поиск по ключевому слову и регулярному выражению
  • Извлечение форматированного текста, метаданных, изображений, контейнеров и вложений
  • Извлечение оглавления для некоторых поддерживаемых форматов документов
  • Парсинг данных форм из PDF-документов
  • Извлечение гиперссылок из документа

Демонстрации в реальном времени — извлечение текста из PDF онлайн

Извлеките текст из файла PDF прямо сейчас, посетив веб-сайт GroupDocs.Parser Live Demos. Живая демонстрация имеет следующие преимущества.

Нет необходимости скачивать API

Нет необходимости писать код

Просто загрузите исходный файл

Скачать результирующий файл

Извлечение текста из других форматов документов

.NET API анализа документов и извлечения текста для форматов файлов и изображений. Извлеките данные для некоторых популярных форматов файлов, как указано ниже.

PPSX

(Слайд-шоу PowerPoint Open XML)

PPT

(Презентация PowerPoint)

PPTX

(Презентация PowerPoint Open XML)

RTF

(Расширенный текстовый формат файла)

TEX

(Исходный документ LaTeX)

VDX

(Формат файла чертежа Microsoft Visio XML)

VSDM

(Рисование Visio с поддержкой макросов)

VSDX

(Формат файла Microsoft Visio)

VSSM

(Формат файла с поддержкой макросов Microsoft Visio)

VSSX

(Формат файла трафарета Visio)

VSTM

(Шаблон чертежа Visio с поддержкой макросов)

VSTX

(Формат файла Microsoft Visio)

VSX

(Векторное скалярное расширение)

VTX

(Шаблон чертежа Microsoft Visio)

XLAM

(Надстройка Microsoft Excel с поддержкой макросов)

XLS

(Формат двоичного файла Microsoft Excel)

Back to top
 Русский