GroupDocs.Parser в кратком изложении

API для парсинга документов в приложениях Java

Illustration parser

Извлечение данных из документов

GroupDocs.Parser for Java API позволяет извлекать текст, метаданные и изображения из широкого диапазона форматов файлов, таких как офисные документы, электронные письма, вложения и архивы. Этот мощный инструмент помогает эффективно получать и обрабатывать ценные данные, содержащиеся в этих файлах для различных приложений, таких как анализ данных, индексация поисковых систем или системы управления контентом.

Парсинг документов

Извлечение различных элементов, таких как гиперссылки, таблицы, QR-коды, штрих-коды и данные из форм PDF. Также можно парсить любую необходимую информацию из документов с помощью пользовательских шаблонов.

Настройка результатов

Java API позволяет извлекать данные в различных форматах, таких как необработанные, структурированные, HTML или Markdown. Дополнительно API предлагает функциональность поиска для нахождения конкретных слов или фраз в тексте документов.

Независимость платформы

GroupDocs.Parser for Java поддерживает следующие операционные системы, фреймворки и менеджеры пакетов.

Amazon
Docker
Azure
Eclipse
IntelliJ
Windows
Linux
Maven

Поддерживаемые форматы файлов

GroupDocs.Parser for Java поддерживает операции с следующими форматами файлов.

Форматы Microsoft Office

  • Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
  • Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
  • PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

Изображения и другие форматы

  • Портативные: PDF
  • Изображения: JPG, BMP, PNG, TIFF, GIF
  • Другие офисные форматы: ODT, OTT, OTS, ODS, ODP, OTP, ODG

Другие форматы

  • Веб: HTML, MHTML
  • Архивы: ZIP, TAR, 7Z
  • Электронные книги: CHM, EPUB, FB2, MOBI

GroupDocs.Parser for Java функции

Быстро и точно извлекайте данные из PDF, офисных документов и изображений

Feature icon

Извлечение текста

Извлечение текстовой информации из различных форматов файлов, таких как офисные документы, PDF-файлы и изображения для удобства чтения и анализа.

Feature icon

Извлечение изображений

Получение визуального контента из различных источников, таких как офисные документы, PDF-файлы для удобства доступа и использования.

Feature icon

Сканирование QR-кодов

Выявление и расшифровка QR-кодов, присутствующих в офисных документах, PDF-файлах или визуальном контенте для успешного получения информации.

Feature icon

Извлечение данных из вложений электронной почты и архивов

Сбор ценной информации из электронных писем, вложений файлов и сжатых источников данных для дальнейшего анализа и использования.

Feature icon

Извлечение таблиц

Определение и извлечение табличных данных из PDF-документов для систематизированного анализа и использования.

Feature icon

Извлечение гиперссылок

Поиск и извлечение гиперссылок и адресов электронной почты в офисных документах или PDF-файлах для эффективного доступа.

Feature icon

Парсинг PDF-форм

PDF-формы - это цифровые документы с заполняемыми полями для взаимодействия с пользователем, позволяющие электронно вводить информацию. API .NET может быть использован для извлечения данных из этих форм для эффективной обработки.

Feature icon

Парсинг данных по шаблонам

Создавайте пользовательские шаблоны и используйте их с API .NET для парсинга конкретной информации из PDF-файлов, упрощая процессы извлечения данных.

Feature icon

Поиск текста в документах

Быстро находите конкретные слова или паттерны в документах.

Примеры кода

Некоторые случаи использования типичных операций GroupDocs.Parser for Java

Извлечение изображений из PDF-документов

GroupDocs.Parser for Java облегчает разработчикам Java извлечение изображений из документов:

Извлечение изображений из PDF-документов на Java

// Создайте экземпляр класса Parser
try (Parser parser = new Parser("source.pdf"))
{
    // Извлеките изображения
    Iterable<PageImageArea> images = parser.getImages();

    // Проверьте, извлечено ли что-то
    if (images == null) {
        return;
    }

    // Итерация по изображениям
    for (PageImageArea image : images) {
        // Выведите индекс страницы, прямоугольник и тип изображения
        System.out.println(String.format("Page: %d, R: %s, Type: %s", 
            image.getPage().getIndex(), image.getRectangle(), image.getFileType()));
    }
}

Извлечение штрих-кодов из изображений

Используйте наш Java API для извлечения штрих-кодов из изображений:

Извлечение штрих-кодов из изображений на Java

// Загрузите исходное изображение в Parser
try (Parser parser = new Parser("source.jpg")){

    // Проверьте, поддерживает ли файл извлечение штрих-кодов
    if (!parser.getFeatures().isBarcodes()) {

        // Извлеките штрих-коды из файла
        Iterable<PageBarcodeArea> barcodes = parser.getBarcodes();

        // Итерация по штрих-кодам
        for (PageBarcodeArea barcode : barcodes) {
            // Выведите индекс страницы
            System.out.println("Page: " + barcode.getPage().getIndex());
            // Выведите значение штрих-кода
            System.out.println("Value: " + barcode.getValue());
        }
    }
}

Готовы начать?

Загрузите GroupDocs.Parser бесплатно или получите пробную лицензию для полного доступа!

Полезные ресурсы

Изучите документацию, примеры кода и раздел поддержки, чтобы улучшить ваш опыт.

Советы по временной лицензии

1
Зарегистрируйтесь, используя ваш рабочий e-mail адрес. Бесплатные почтовые сервисы запрещены.
2
Используйте кнопку Получить временную лицензию на втором шаге.
 Русский