GroupDocs.Parser for Java

Извлечение текста из DOCX с помощью Java

Бесшовно извлекайте читаемый или структурированный текст из файлов, таких как PDF, Word, Excel и других, используя GroupDocs.Parser в ваших проектах разработки Java.

Как извлечь текст из Docx с помощью Java

Следуйте шагам ниже, чтобы извлечь текст из файлов DOCX с помощью GroupDocs.Parser в вашем проекте Java:

  1. Загрузите документ DOCX с помощью класса Parser.
  2. Выполните извлечение текста из содержимого файла.
  3. Проверьте, был ли успешно извлечен текст.
  4. Используйте текстовые данные в системах поиска, аналитики или автоматизации.
// Инициализируйте Parser с вашим документом
try (Parser parser = new Parser("input.docx"))
{
    // Прочитайте и извлеките все текстовые данные
    try (TextReader reader = parser.getText())
    {
        // Верните null, если текстовое содержимое отсутствует
        // Интегрируйте извлеченный текст в ваш рабочий процесс
        System.out.println(reader == null ? 
            "Пропустите неподдерживаемые форматы извлечения текста" : reader.readToEnd());
    }
}
<dependencies> <dependency> <groupId>com.groupdocs</groupId> <artifactId>groupdocs-parser</artifactId> <version>24.9</version> </dependency> </dependencies> <repositories> <repository> <id>repository.groupdocs.com</id> <name>GroupDocs Repository</name> <url>https://repository.groupdocs.com/repo/</url> </repository> </repositories>
Нажмите для копирования
Скопировано
Больше примеров Документация

Функционал извлечения структурированного текста

GroupDocs.Parser предлагает не только простое извлечение текста — поддерживает получение изображений, метаданных и структурированных данных для улучшения задач обработки содержимого.

Извлечение и структурирование текстового содержимого из документов

Работает с множеством форматов документов

Извлечение как неструктурированного, так и структурированного текста из DOCX, XLSX, PPTX, PDF, HTML и других форматов.

Извлечение текста из визуального и текстового контента

Парсинг текста из сканированных документов, слайдов, таблиц и других типов файлов с сохранением логической структуры.

Детальный контроль над процессом извлечения

Настройка диапазонов страниц, зон макета и параметров точности для тонкой настройки извлечения текста.

Пример: Извлечение текстовых областей из документа PPTX

Этот пример демонстрирует извлечение текстовых блоков вместе с их пространственными координатами из презентации PowerPoint с использованием GroupDocs.Parser.

Java

//  Загрузите ваш файл PPTX с помощью API Parser
try (Parser parser = new Parser("input.pptx"))
{
    // Получите все прямоугольные текстовые зоны
    IEnumerable<PageTextArea> areas = parser.GetTextAreas();

    // Выходите, если эта функция не поддерживается
    if (areas == null)
    {
        return;
    }

    // Обходите текстовые области по страницам
    for (PageTextArea a : areas)
    {
        // Обрабатывайте каждый текстовый блок с его номером страницы и ограничивающей прямоугольной областью
        System.out.println(String.format("Page: %d, R: %s, Text: %s", a.getPage().getIndex(), a.getRectangle(), a.getText()));
    }
}

Представляем API GroupDocs.Parser for Java

GroupDocs.Parser — это надежный и масштабируемый парсер документов, разработанный для разработчиков Java. Он предоставляет возможности для точного извлечения текста, таблиц, изображений и структурированных компонентов из различных форматов, включая PDF, DOCX, XLSX, PPTX и другие — без зависимости от внешних утилит.
Узнать больше
About illustration

Готовы начать?

Загрузите GroupDocs.Parser бесплатно или получите пробную лицензию для полного доступа!

Полезные ресурсы

Изучите документацию, примеры кода и раздел поддержки, чтобы улучшить ваш опыт.

Поддерживаемые типы файлов для извлечения текста

GroupDocs.Parser способен извлекать текстовое содержимое из многочисленных файловых и графических форматов. Ниже приведены самые распространенные типы, которые он поддерживает.

Советы по временной лицензии

1
Зарегистрируйтесь, используя ваш рабочий e-mail адрес. Бесплатные почтовые сервисы запрещены.
2
Используйте кнопку Получить временную лицензию на втором шаге.
 Русский