Parser для Python

Document Parser SDK для Python

Додайте швидкий і точний аналіз документів у ваші застосунки Python і вилучайте текст, зображення, метадані та структуровані дані з документів і зображень.

Завантажити PyPI Почніть безкоштовну пробну версію

from groupdocs.parser import Parser

# Завантажити документ
with Parser("sample.pdf") as parser:
    # Вилучити текст з документа
    text = parser.GetText()

    # Вивести весь вилучений текст
    print(text)

pip install groupdocs-parser-net

GroupDocs.Parser на перший погляд

Document Parser SDK для високоточного аналізу документів у застосунках Python

Вилучення даних з документів

GroupDocs.Parser for Python via .NET API дозволяє отримувати текст, метадані та зображення з широкого спектру форматів файлів, таких як офісні документи, електронні листи, вкладення та архіви. Цей потужний інструмент допомагає ефективно отримувати доступ і обробляти цінну інформацію, що міститься у цих файлах, для різних застосувань, таких як аналіз даних, індексація пошукових систем або системи керування контентом.

Аналіз документів

Вилучайте різні елементи, такі як гіперпосилання, таблиці, QR‑коди, штрих‑коди та дані з PDF‑форм. Також аналізуйте будь‑яку необхідну інформацію з документів за допомогою користувацьких шаблонів.

Налаштування результатів

Python API дозволяє отримувати дані в різних форматах, таких як необроблені, структуровані, HTML або Markdown. Крім того, API пропонує функцію пошуку для знаходження конкретних слів або фраз у тексті документів.

Платформна незалежність

GroupDocs.Parser for Python via .NET підтримує наступні операційні системи, фреймворки та менеджери пакетів

Підтримувані формати файлів

GroupDocs.Parser for Python via .NET підтримує роботу з наступними форматами файлів.

Формати Microsoft Office

Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

Зображення та інші формати

Портативний: PDF
Зображення: JPG, BMP, PNG, TIFF, GIF
Інші офісні формати: ODT, OTT, OTS, ODS, ODP, OTP, ODG

Інші формати

Веб: HTML, MHTML
Архіви: ZIP, TAR, 7Z
Електронні книги: CHM, EPUB, FB2, MOBI

Функції GroupDocs.Parser for Python via .NET

Швидко та точно витягайте дані з PDF, офісних документів, зображень та інших форматів за допомогою нашого Python Document Parser SDK

Вилучення тексту

Вилучайте текстову інформацію з різних форматів файлів, таких як офісні документи, PDF‑файли та зображення, для зручного читання та аналізу.

Вилучення зображень

Отримуйте візуальний контент з різноманітних джерел, таких як офісні документи, PDF‑файли, для зручного доступу та використання.

Сканування QR‑кодів

Виявляйте та розшифровуйте QR‑коди, що містяться в офісних документах, PDF‑файлах або візуальному контенті, для ефективного отримання інформації.

Вилучення даних з вкладень електронних листів та архівів

Збирайте цінну інформацію з електронних листів, вкладень файлів та стиснених даних для ефективного аналізу та використання.

Вилучення таблиць

Ідентифікуйте та вилучайте табличні дані з PDF‑документів для впорядкованого аналізу та використання.

Вилучення гіперпосилань

Знаходьте та вилучайте гіперпосилання та електронні адреси в офісних документах або PDF‑файлах для зручного доступу.

Розбір PDF‑форм

PDF‑форми — це цифрові документи з заповнюваними полями для взаємодії користувачів, що дозволяє вводити інформацію електронно. API Python можна використовувати для вилучення даних з цих форм для ефективної обробки.

Розбір даних за шаблонами

Створюйте користувацькі шаблони та використовуйте їх разом з API Python для розбору конкретної інформації з PDF‑файлів, спрощуючи процеси вилучення даних.

Пошук тексту в документах

Швидко знаходьте конкретні слова чи шаблони в документах.

Зразки коду

Окрім базового вилучення тексту, ось найпоширеніші випадки використання для швидкого вилучення тексту, зображень та метаданих.

Пошук тексту в документі

Цей приклад демонструє, як шукати певну фразу у PDF‑документі та виводити, де вона була знайдена.

Пошук тексту в документі на Python

from groupdocs.parser import Parser

# Завантажте документ
with Parser("sample.pdf") as parser:
    # Виведіть індекс сторінки та прямокутник, де була знайдена фраза
    for area in parser.Search("Total Amount"):
        # Виведіть індекс сторінки та прямокутник, де була знайдена фраза
        print(f"Page {area.PageIndex}, Rectangle: {area.Rectangle}")

Вилучення зображень з документа

Цей приклад показує, як вилучати зображення з PDF‑документа та зберігати їх у файл.

Вилучення зображень з документа на Python

from groupdocs.parser import Parser

# Завантажте документ
with Parser("sample.docx") as parser:
    # Вилучіть зображення з документа
    images = parser.GetImages()

    # Збережіть зображення у файл
    index = 1
    for image in images:
        image.Save(f"image_{index}.png")
        index += 1

Вилучення метаданих з документа

Цей приклад демонструє, як вилучити метадані з PDF‑документа та вивести їх.

Вилучення метаданих з документа на Python

from groupdocs.parser import Parser

# Завантажте документ
with Parser("sample.pdf") as parser:
    # Вилучіть метадані з документа
    metadata = parser.GetMetadata()

    # Виведіть метадані
    for item in metadata:
        print(f"{item.Name}: {item.Value}")