GroupDocs.Parser for Java

Извлечение текста из DOCX с помощью Java

Бесшовно извлекайте читаемый или структурированный текст из файлов, таких как PDF, Word, Excel и других, используя GroupDocs.Parser в ваших проектах разработки Java.

Скачать Maven

Бесплатная пробная версия

Как извлечь текст из Docx с помощью Java

Следуйте шагам ниже, чтобы извлечь текст из файлов DOCX с помощью GroupDocs.Parser в вашем проекте Java:

Загрузите документ DOCX с помощью класса Parser.
Выполните извлечение текста из содержимого файла.
Проверьте, был ли успешно извлечен текст.
Используйте текстовые данные в системах поиска, аналитики или автоматизации.

Копировать

// Инициализируйте Parser с вашим документом
try (Parser parser = new Parser("input.docx"))
{
    // Прочитайте и извлеките все текстовые данные
    try (TextReader reader = parser.getText())
    {
        // Верните null, если текстовое содержимое отсутствует
        // Интегрируйте извлеченный текст в ваш рабочий процесс
        System.out.println(reader == null ? 
            "Пропустите неподдерживаемые форматы извлечения текста" : reader.readToEnd());
    }
}

<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>24.9</version>
</dependency>
</dependencies>
<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://repository.groupdocs.com/repo/</url>
</repository>
</repositories>

Нажмите для копирования

Скопировано

Больше примеров Документация

Функционал извлечения структурированного текста

GroupDocs.Parser предлагает не только простое извлечение текста — поддерживает получение изображений, метаданных и структурированных данных для улучшения задач обработки содержимого.

Извлечение и структурирование текстового содержимого из документов

Работает с множеством форматов документов

Извлечение как неструктурированного, так и структурированного текста из DOCX, XLSX, PPTX, PDF, HTML и других форматов.

Извлечение текста из визуального и текстового контента

Парсинг текста из сканированных документов, слайдов, таблиц и других типов файлов с сохранением логической структуры.

Детальный контроль над процессом извлечения

Настройка диапазонов страниц, зон макета и параметров точности для тонкой настройки извлечения текста.

Пример: Извлечение текстовых областей из документа PPTX

Этот пример демонстрирует извлечение текстовых блоков вместе с их пространственными координатами из презентации PowerPoint с использованием GroupDocs.Parser.

Java

//  Загрузите ваш файл PPTX с помощью API Parser
try (Parser parser = new Parser("input.pptx"))
{
    // Получите все прямоугольные текстовые зоны
    IEnumerable<PageTextArea> areas = parser.GetTextAreas();

    // Выходите, если эта функция не поддерживается
    if (areas == null)
    {
        return;
    }

    // Обходите текстовые области по страницам
    for (PageTextArea a : areas)
    {
        // Обрабатывайте каждый текстовый блок с его номером страницы и ограничивающей прямоугольной областью
        System.out.println(String.format("Page: %d, R: %s, Text: %s", a.getPage().getIndex(), a.getRectangle(), a.getText()));
    }
}

Представляем API GroupDocs.Parser for Java

GroupDocs.Parser — это надежный и масштабируемый парсер документов, разработанный для разработчиков Java. Он предоставляет возможности для точного извлечения текста, таблиц, изображений и структурированных компонентов из различных форматов, включая PDF, DOCX, XLSX, PPTX и другие — без зависимости от внешних утилит.

Узнать больше

Готовы начать?

Загрузите GroupDocs.Parser бесплатно или получите пробную лицензию для полного доступа!

Скачать Maven

Бесплатная пробная версия

Полезные ресурсы

Изучите документацию, примеры кода и раздел поддержки, чтобы улучшить ваш опыт.

Поддерживаемые типы файлов для извлечения текста

GroupDocs.Parser способен извлекать текстовое содержимое из многочисленных файловых и графических форматов. Ниже приведены самые распространенные типы, которые он поддерживает.

Парсинг PDF
(Формат переносимого документа)
Парсинг PPTX
(Формат презентации Open XML)
Парсинг XLSX
(Рабочая книга Open XML)
Парсинг TXT
(Текстовый файл)
Парсинг RTF
(Формат Rich Text)
Парсинг XML
(Расширяемый язык разметки)
Парсинг EPUB
(Файл открытой электронной книги)