GroupDocs.Parser на перший погляд

API для виконання обробки документів у застосунках Java

Illustration parser

Витяг даних з документів

GroupDocs.Parser for Java API дозволяє вам отримувати текст, метадані та зображення з широкого спектра форматів файлів, таких як офісні документи, електронні пошти, вкладення та архіви. Цей потужний інструмент допомагає ефективно отримувати та обробляти цінну інформацію, що міститься в цих файлах для різних застосувань, таких як аналіз даних, індексація пошукових систем або контент-менеджмент системи.

Парсинг документів

Витягуйте різні елементи, такі як гіперпосилання, таблиці, QR-коди, штрих-коди та дані з PDF форм. Також витягуйте будь-яку необхідну інформацію з документів, використовуючи власні шаблони.

Налаштування результатів

Java API дозволяє вам отримувати дані у різних форматах, таких як сирий, структурований, HTML або Markdown. Додатково, API пропонує функцію пошуку для знаходження конкретних слів або фраз у тексті документів.

Незалежність платформи

GroupDocs.Parser for Java підтримує наступні операційні системи, фреймворки та менеджери пакетів.

Amazon
Docker
Azure
Eclipse
IntelliJ
Windows
Linux
Maven

Підтримувані формати файлів

GroupDocs.Parser for Java підтримує операції з наступними форматами файлів.

Формати Microsoft Office

  • Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
  • Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
  • PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

Зображення та інші формати

  • Портативні: PDF
  • Зображення: JPG, BMP, PNG, TIFF, GIF
  • Інші офісні формати: ODT, OTT, OTS, ODS, ODP, OTP, ODG

Інші формати

  • Веб: HTML, MHTML
  • Архіви: ZIP, TAR, 7Z
  • e-Books: CHM, EPUB, FB2, MOBI

GroupDocs.Parser for Java функції

Витягуйте дані з PDF, офісних документів та зображень швидко і точно

Feature icon

Витяг тексту

Витягуйте текстову інформацію з різних форматів файлів, таких як офісні документи, PDF файли та зображення для зручного читання та аналізу.

Feature icon

Витяг зображень

Отримуйте візуальний контент з різних джерел, таких як офісні документи, PDF файли для зручного доступу та використання.

Feature icon

Сканування QR кодів

Визначайте та декодуйте QR коди, що присутні в офісних документах, PDF файлах або візуальному контенті для ефективного отримання інформації.

Feature icon

Витяг даних з вкладень електронної пошти та архівів

Збирайте цінну інформацію з електронних листів, вкладень файлів та стиснених джерел даних для ефективного аналізу та використання.

Feature icon

Витяг таблиць

Визначайте та витягуйте табличні дані з PDF документів для організованого аналізу та використання.

Feature icon

Витяг гіперпосилань

Знаходьте та витягуйте гіперпосилання та адреси електронної пошти в офісних документах або PDF файлах для ефективного доступу.

Feature icon

Обробка PDF форм

PDF форми — це цифрові документи з заповнювальними полями для взаємодії з користувачем, що дозволяє йому вводити інформацію електронно. API .NET може бути використано для витягання даних з цих форм для ефективної обробки.

Feature icon

Парсинг даних за шаблонами

Створюйте власні шаблони та використовуйте їх з API .NET для парсингу специфічної інформації з PDF файлів, спрощуючи процеси витягання даних.

Feature icon

Пошук тексту в документах

Швидко знаходьте конкретні слова чи зразки в документах.

Приклади коду

Декілька випадків використання типових операцій GroupDocs.Parser for Java

Витягніть зображення з PDF документів

GroupDocs.Parser for Java спрощує для розробників Java витягування зображень з документів:

Витягнути зображення з PDF документів на Java

// Створіть екземпляр класу Parser
try (Parser parser = new Parser("source.pdf"))
{
    // Витягніть зображення
    Iterable<PageImageArea> images = parser.getImages();

    // Перевірте, чи щось витягнуто
    if (images == null) {
        return;
    }

    // Ітеруйте по зображеннях
    for (PageImageArea image : images) {
        // Друкуйте індекс сторінки, прямокутник та тип зображення
        System.out.println(String.format("Page: %d, R: %s, Type: %s", 
            image.getPage().getIndex(), image.getRectangle(), image.getFileType()));
    }
}

Витягання штрих-кодів з зображень

Використовуйте наш Java API для витягання штрих-кодів з зображень:

Витягнути штрих-коди з зображень на Java

// Завантажте вихідне зображення в Parser
try (Parser parser = new Parser("source.jpg")){

    // Перевірте, чи підтримує файл витягнення штрих-кодів
    if (!parser.getFeatures().isBarcodes()) {

        // Витягніть штрих-коди з файлу
        Iterable<PageBarcodeArea> barcodes = parser.getBarcodes();

        // Ітеруйте по штрих-кодах
        for (PageBarcodeArea barcode : barcodes) {
            // Друкуйте індекс сторінки
            System.out.println("Page: " + barcode.getPage().getIndex());
            // Друкуйте значення штрих-коду
            System.out.println("Value: " + barcode.getValue());
        }
    }
}

Готові почати?

Завантажте GroupDocs.Parser безкоштовно або отримайте пробну ліцензію для повного доступу!

Корисні ресурси

Вивчіть документацію, зразки коду та підтримку спільноти для покращення вашого досвіду.

Поради щодо тимчасової ліцензії

1
Зареєструйтеся за допомогою вашої робочої e-mail. Безкоштовні поштові служби заборонені.
2
Скористайтеся кнопкою Отримати тимчасову ліцензію на другому кроці.
 Українська