GroupDocs.Parser: краткий обзор

API для выполнения анализа документов в приложениях Java

Illustration parser

Извлечение данных из документов

API Java позволяет получать текст, метаданные и изображения из широкого спектра форматов файлов, таких как документы Office, электронные письма, вложения и архивы. Этот мощный инструмент помогает вам эффективно получать доступ и обрабатывать ценную информацию, содержащуюся в этих файлах, для различных приложений, таких как анализ данных, индексирование поисковыми системами или системы управления контентом.

Разбор документов

Извлекайте различные элементы, такие как гиперссылки, таблицы, QR-коды, штрих-коды и данные, из форм PDF. Также анализируйте любую желаемую информацию из документов, используя пользовательские шаблоны.

Настройка результатов

API Java позволяет получать данные в различных форматах, таких как необработанные, структурированные, HTML или Markdown. Кроме того, API предлагает функцию поиска определенных слов или фраз в тексте документов.

Независимость от платформы

GroupDocs.Parser for Java поддерживает следующие операционные системы, платформы и менеджеры пакетов.

Amazon
Docker
Azure
Eclipse
IntelliJ
Windows
Linux
Maven

Поддерживаемые форматы файлов

GroupDocs.Parser for Java поддерживает операции со следующими форматами файлов.

Microsoft Office форматы

  • Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
  • Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
  • PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

Изображения и другие форматы

  • Portable: PDF
  • Изображений: JPG, BMP, PNG, TIFF, GIF, DICOM, WEBP
  • Другие форматы офисов: ODT, OTT, OTS, ODS, ODP, OTP, ODG

Другие форматы

  • Интернет: HTML, MHTML
  • Архивы: ZIP, TAR, 7Z
  • Электронные книги: CHM, EPUB, FB2, MOBI

Возможности GroupDocs.Parser

Быстро и точно извлекайте данные из PDF, документов Office и изображений.

Feature icon

Извлечь текст

Извлекайте текстовую информацию из файлов различных форматов, таких как офисные документы, файлы PDF и изображения, для удобства чтения и анализа.

Feature icon

Извлечение изображений

Извлекайте визуальный контент из различных источников, таких как офисные документы и файлы PDF, для удобного доступа и использования.

Feature icon

Сканировать QR-коды

Обнаруживайте и декодируйте QR-коды, присутствующие в офисных документах, файлах PDF или визуальном контенте, для эффективного поиска информации.

Feature icon

Извлечение данных из вложений и архивов электронной почты

Собирайте ценную информацию из сообщений электронной почты, вложенных файлов и источников сжатых данных для эффективного анализа и использования.

Feature icon

Извлечение таблиц

Идентификация и извлечение табличных данных из документов PDF для организованного анализа и использования.

Feature icon

Извлечение гиперссылок

Находите и извлекайте гиперссылки и адреса электронной почты в офисных документах или файлах PDF для эффективного доступа.

Feature icon

Анализ форм PDF

PDF Формы представляют собой цифровые документы с заполняемыми полями для взаимодействия с пользователем, позволяющими вводить информацию в электронном виде. API Java можно использовать для извлечения данных из этих форм для эффективной обработки.

Feature icon

Парсить данные по шаблонам

Создавайте собственные шаблоны и используйте их с API Java для анализа конкретной информации из файлов PDF, упрощая процессы извлечения данных.

Feature icon

Поиск текста в документах

Быстро находите определенные слова или шаблоны в документах.

Пример кода

Некоторые варианты использования типичных операций GroupDocs.Parser for Java

Извлечение изображений из документов PDF

API Java позволяет разработчикам Java легко извлекать изображения из документов, выполнив несколько простых шагов.

Извлечение изображений из документов PDF в Java

// Create an instance of Parser class
try (Parser parser = new Parser(fileName)) {
    // Extract images
    Iterable<PageImageArea> images = parser.getImages();
    // Check if images extraction is supported
    if (images != null) {
        int imageIndex = 0;
        // Iterate over images
        for (PageImageArea image : images) {
            // Save the image to the file
            image.save(String.format("%s%s", imageIndex, image.getFileType().getExtension()));
        }
    }
}

Извлечение штрих-кодов из изображений

API Java позволяет разработчикам Java легко извлекать штрих-коды из документов, выполнив несколько простых шагов.

Извлечение штрих-кодов из изображений

// Create an instance of Parser class
try (Parser parser = new Parser(fileName)) {
    // // Check if the file supports barcode extracting
    if (!parser.getFeatures().isBarcodes()) {
        // Extract barcodes from the file.
        Iterable<PageBarcodeArea> barcodes = parser.getBarcodes();
        // Iterate over barcodes
        for (PageBarcodeArea barcode : barcodes) {
            // Print the page index
            System.out.println("Page: " + barcode.getPage().getIndex());
            // Print the barcode value
            System.out.println("Value: " + barcode.getValue());
        }
    }
}
 Русский