Извлечь текст из PPT в Java

Извлеките текст из PPT с помощью нескольких строк кода Java.


Скачать бесплатную пробную версию

Как извлечь текст из PPT файлов Java API?

GroupDocs.Parser for Java — это API для извлечения текста, изображений и метаданных, поддерживающий более 50 популярных типов документов, помогающий создавать бизнес-приложения с функциями парсинга необработанных данных. , структурированный и форматированный текст. Он также поддерживает анализ документов с использованием предопределенных шаблонов и позволяет быстро и точно извлекать сложные данные из счетов-фактур и других типичных документов. GroupDocs.Parser для Java позволяет извлекать текст и метаданные из защищенных паролем файлов всех популярных форматов, включая документы обработки текста, электронные таблицы Excel, презентации PowerPoint, файлы OneNote, PDF и ZIP-архивы.

GroupDocs.Parser API — правильный выбор для корпоративных решений, которым требуется функция извлечения текста из файлов. Эти API хорошо поддерживаются во всех основных операционных системах и платформах, включая Java runtime: J2SE 6.0 and above.

Извлечь текст из PPT в Java

GroupDocs.Parser for Java позволяет разработчикам Java легко извлекать текст из файла PPT, реализуя несколько простых шаги.

  • Создать объект Parser для исходного документа;
  • Вызовите метод getText и получите TextReader объект;
  • Проверить, не является ли ридер null (поддерживается извлечение текста для документа);
  • Прочитайте текст от читателя.

Как извлечь текст из файла PPT, используя пример кода Java

// Извлечь текст из файла PPT с помощью API GroupDocs.Parser
// Создайте экземпляр класса Parser
try (Parser parser = new Parser(filePath)) {
    // Извлечь текст в ридер
    try (TextReader reader = parser.getText()) {
        // Распечатать текст из документа
        // Если извлечение текста не поддерживается, средство чтения недействительно.
        System.out.println(reader == null ? "Извлечение текста не поддерживается" : reader.readToEnd());
    }
}

Системные Требования

GroupDocs.Parser for Java API поддерживаются на всех основных платформах и операционных системах. Перед выполнением приведенного ниже кода убедитесь, что в вашей системе установлены следующие предварительные компоненты.

  • Операционные системы: Microsoft Windows, Linux, MacOS
  • Среды разработки: NetBeans, Intellij IDEA, Eclipse, etc.
  • Фреймворки
  • Загрузите последнюю версию GroupDocs.Parser for Java из Maven

Зачем использовать GroupDocs.Parser for Java

  • Поддержка извлечения простого текста из любых поддерживаемых документов
  • Парсинг документов по пользовательским шаблонам
  • Полная поддержка извлечения структурированного текста
  • Текстовый поиск по ключевому слову и регулярному выражению
  • Извлечение форматированного текста, метаданных, изображений, контейнеров и вложений
  • Извлечение оглавления для некоторых поддерживаемых форматов документов
  • Парсинг данных форм из PDF-документов
  • Извлечение гиперссылок из документа

Демонстрации в реальном времени — извлечение текста из PPT онлайн

Извлеките текст из файла PPT прямо сейчас, посетив веб-сайт GroupDocs.Parser Live Demos. Живая демонстрация имеет следующие преимущества.

Нет необходимости скачивать API

Нет необходимости писать код

Просто загрузите исходный файл

Скачать результирующий файл

Извлечение текста из других форматов документов

Java API анализа документов и извлечения текста для форматов файлов и изображений. Извлеките данные для некоторых популярных форматов файлов, как указано ниже.

TEX

(Исходный документ LaTeX)

VDX

(Формат файла чертежа Microsoft Visio XML)

VSDM

(Рисование Visio с поддержкой макросов)

VSDX

(Формат файла Microsoft Visio)

VSSM

(Формат файла с поддержкой макросов Microsoft Visio)

VSSX

(Формат файла трафарета Visio)

VSTM

(Шаблон чертежа Visio с поддержкой макросов)

VSTX

(Формат файла Microsoft Visio)

VSX

(Векторное скалярное расширение)

VTX

(Шаблон чертежа Microsoft Visio)

XLAM

(Надстройка Microsoft Excel с поддержкой макросов)

XLS

(Формат двоичного файла Microsoft Excel)

XLSB

(Двоичный файл электронной таблицы Microsoft Excel)

XLSM

(Электронная таблица Microsoft Excel с поддержкой макросов)

XLSX

(Электронная таблица Microsoft Excel Open XML)

XLT

(Шаблон Microsoft Excel)

Back to top
 Русский