GroupDocs.Parser for Java

Витягніть дані з документів XLSX у Java

Безшовно витягайте структурований вміст, такий як текст, метадані, таблиці та графіку з PDF, Word, Excel та документів на основі зображень, використовуючи GroupDocs.Parser у ваших додатках Java.

Завантажити Maven

Почніть безкоштовну пробну версію

Як витягнути дані з Xlsx за допомогою Java

Щоб витягти корисну інформацію з документів XLSX у ваших проектах Java за допомогою GroupDocs.Parser, дотримуйтесь цих інструкцій:

Відкрийте файл XLSX за допомогою об’єкта Parser.
Використовуйте парсер для отримання необхідних даних (текст, таблиці, метадані тощо).
Перевірте, чи є результати коректними та повними.
Інтегруйте витягнутий вміст у ваші бізнес-процеси, потоки даних або додатки.

Копіювати

// Ініціалізуйте ваш Parser з вхідним документом
try (Parser parser = new Parser("input.xlsx"))
{
    // Отримайте всі доступні текстові вмісти з документа
    try (TextReader reader = parser.getText())
    {
        // Якщо текст не знайдено, то повернене значення буде null
        // Включіть витягнутий вміст у ваше рішення
        System.out.println(reader == null ? 
            "Цей формат може не підтримувати витягнення тексту" : reader.readToEnd());
    }
}

<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>24.9</version>
</dependency>
</dependencies>
<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://repository.groupdocs.com/repo/</url>
</repository>
</repositories>

натисніть, щоб скопіювати

скопійовано

Більше прикладів Документація

Універсальні функції парсингу документів

GroupDocs.Parser робить більше, ніж просто витягнення тексту — він підтримує повний парсинг штрих-кодів, метаданих, зображень, таблиць та інших даних для забезпечення розумної автоматизації та додатків, орієнтованих на дані.

Візуальний огляд парсингу та витягнення даних з документів

Витягуйте з кількох форматів файлів

Отримуйте дані, такі як текст, таблиці та медіа з широко використовуваних типів файлів, таких як PDF, Word, Excel, PowerPoint, HTML та інші.

Парсинг вмісту з цифрових та сканованих джерел

Обробляйте вміст як з нативних цифрових файлів, так і зі сканованих зображень, використовуючи OCR, коли це необхідно для розпізнавання вбудованого тексту.

Гнучкі параметри конфігурації

Налаштуйте свій парсинг, використовуючи параметри для вибору сторінок, зон макета та шаблонів полів для конкретних потреб витягнення.

Парсинг PDF з використанням шаблону витягнення даних

цей приклад демонструє, як витягнути структуровані поля з PDF, використовуючи спеціальний шаблон через GroupDocs.Parser.

Java

//  Відкрийте PDF за допомогою класу Parser
try (Parser parser = new Parser("input.pdf"))
{
    // Застосуйте шаблон парсингу для витягнення визначених даних
    DocumentData data = parser.parseByTemplate(GetTemplate());

    // Переконайтеся, що витягнення на основі шаблону доступне
    if (data == null) {
        return;
    }

    // Працюйте з витягнутими полями даних
    for (int i = 0; i < data.getCount(); i++) {
        System.out.print(data.get(i).getName() + ": ");
        PageTextArea area = data.get(i).getPageArea() instanceof PageTextArea
                ? (PageTextArea) data.get(i).getPageArea() : null;
        System.out.println(area == null ? "Not a template field" : area.getText());
    }
}

private static Template GetTemplate()
{
    // Визначте налаштування детектора для витягнення розділу 'Деталі'
    TemplateTableParameters detailsTableParameters = 
        new TemplateTableParameters(new Rectangle(new Point(35, 320), new Size(530, 55)), null);

    TemplateItem[] templateItems = new TemplateItem[]
    {
        new TemplateTable(detailsTableParameters, "details", null)
    };

    Template template = new Template(java.util.Arrays.asList(templateItems));
    return template;
}

Що таке GroupDocs.Parser for Java?

GroupDocs.Parser — це потужний API, створений для розробників Java, який пропонує розвинуті функції парсингу документів. Він дозволяє вам витягувати та обробляти текстові дані, зображення, таблиці, структуровані поля та штрих-коди з численних форматів, таких як PDF, DOCX, XLSX, PPTX і більше — все це без установки додаткових бібліотек.

Дізнатися більше

Готові почати?

Завантажте GroupDocs.Parser безкоштовно або отримайте пробну ліцензію для повного доступу!

Завантажити Maven

Почніть безкоштовну пробну версію

Корисні ресурси

Вивчіть документацію, зразки коду та підтримку спільноти для покращення вашого досвіду.

Документація

Посилання API

Зразки коду

Безкоштовна підтримка

Оплачувана підтримка

Типи файлів, що підтримуються для витягнення вмісту

GroupDocs.Parser сумісний з широким спектром документів та типів файлів зображень, що дозволяє легко витягувати інформацію з широко використовуваних форматів у сценаріях парсингу та автоматизації даних.

Парсинг PDF
(Формат портативного документа)
Парсинг DOCX
(Документ Word Office 2007+)
Парсинг PPTX
(Формат відкритої XML-презентації)
Парсинг TXT
(Текстовий файл)
Парсинг RTF
(Формат багатого тексту)
Парсинг XML
(Мова розмітки eXtensible)
Парсинг EPUB
(Відкритий файл eBook)