Parser для Python

Document Parser SDK для Python

Добавьте быструю и точную обработку документов в ваши приложения Python и извлекайте текст, изображения, метаданные и структурированные данные из документов и изображений.

Скачать PyPI Бесплатная пробная версия

from groupdocs.parser import Parser

# Загрузить документ
with Parser("sample.pdf") as parser:
    # Извлечь текст из документа
    text = parser.GetText()

    # Вывести весь извлеченный текст
    print(text)

pip install groupdocs-parser-net

GroupDocs.Parser в двух словах

Document Parser SDK для выполнения высокоточной обработки документов в приложениях Python

Извлечение данных из документов

GroupDocs.Parser for Python via .NET API позволяет получать текст, метаданные и изображения из широкого спектра форматов файлов, таких как офисные документы, электронные письма, вложения и архивы. Этот мощный инструмент помогает эффективно получать доступ к ценной информации, содержащейся в этих файлах, и обрабатывать её для различных приложений, таких как анализ данных, индексирование поисковых систем или системы управления контентом.

Парсинг документов

Извлекайте различные элементы, такие как гиперссылки, таблицы, QR‑коды, штрихкоды и данные из PDF‑форм. Также парсите любую необходимую информацию из документов с помощью пользовательских шаблонов.

Настройка результатов

Python API позволяет получать данные в различных форматах, таких как необработанные, структурированные, HTML или Markdown. Кроме того, API предоставляет функцию поиска для нахождения конкретных слов или фраз в тексте документов.

Независимость от платформы

GroupDocs.Parser for Python via .NET поддерживает следующие операционные системы, фреймворки и менеджеры пакетов

Поддерживаемые форматы файлов

GroupDocs.Parser for Python via .NET поддерживает работу со следующими форматами файлов.

Форматы Microsoft Office

Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

Изображения и другие форматы

Переносимый: PDF
Изображения: JPG, BMP, PNG, TIFF, GIF
Другие офисные форматы: ODT, OTT, OTS, ODS, ODP, OTP, ODG

Другие форматы

Веб: HTML, MHTML
Архивы: ZIP, TAR, 7Z
Электронные книги: CHM, EPUB, FB2, MOBI

Возможности GroupDocs.Parser for Python via .NET

Извлекайте данные из PDF, офисных документов, изображений и других форматов быстро и точно с помощью нашего Python Document Parser SDK

Извлечение текста

Извлекайте текстовую информацию из различных форматов файлов, таких как офисные документы, PDF‑файлы и изображения, для удобного чтения и анализа.

Извлечение изображений

Получайте визуальное содержимое из различных источников, таких как офисные документы и PDF‑файлы, для удобного доступа и использования.

Сканирование QR‑кодов

Обнаруживайте и расшифровывайте QR‑коды, находящиеся в офисных документах, PDF‑файлах или визуальном контенте, для эффективного извлечения информации.

Извлечение данных из вложений электронной почты и архивов

Собирайте ценную информацию из электронных писем, файлов‑вложений и сжатых источников данных для эффективного анализа и использования.

Извлечение таблиц

Определяйте и извлекайте табличные данные из PDF‑документов для упорядоченного анализа и использования.

Извлечение гиперссылок

Находите и извлекайте гиперссылки и адреса электронной почты в офисных документах или PDF‑файлах для удобного доступа.

Разбор PDF‑форм

PDF‑формы — это цифровые документы с заполняемыми полями для взаимодействия с пользователем, позволяющие вводить информацию в электронном виде. API Python можно использовать для извлечения данных из этих форм для эффективной обработки.

Разбор данных по шаблонам

Создайте пользовательские шаблоны и используйте их с API Python для разбора конкретной информации из PDF‑файлов, упрощая процессы извлечения данных.

Поиск текста в документах

Быстро находите конкретные слова или шаблоны в документах.

Примеры кода

Помимо базового извлечения текста, ниже представлены типовые сценарии быстрого извлечения текста, изображений и метаданных.

Поиск текста в документе

В этом примере показано, как выполнить поиск конкретной фразы в PDF‑документе и вывести место её нахождения.

Поиск текста в документе на Python

from groupdocs.parser import Parser

# Загрузите документ
with Parser("sample.pdf") as parser:
    # Выведите номер страницы и прямоугольник, где была найдена фраза
    for area in parser.Search("Total Amount"):
        # Выведите номер страницы и прямоугольник, где была найдена фраза
        print(f"Page {area.PageIndex}, Rectangle: {area.Rectangle}")

Извлечение изображений из документа

В этом примере показано, как извлечь изображения из PDF‑документа и сохранить их в файл.

Извлечение изображений из документа на Python

from groupdocs.parser import Parser

# Загрузите документ
with Parser("sample.docx") as parser:
    # Извлеките изображения из документа
    images = parser.GetImages()

    # Сохраните изображения в файл
    index = 1
    for image in images:
        image.Save(f"image_{index}.png")
        index += 1

Извлечение метаданных из документа

В этом примере показано, как извлечь метаданные из PDF‑документа и вывести их.

Извлечение метаданных из документа на Python

from groupdocs.parser import Parser

# Загрузите документ
with Parser("sample.pdf") as parser:
    # Извлеките метаданные из документа
    metadata = parser.GetMetadata()

    # Выведите метаданные
    for item in metadata:
        print(f"{item.Name}: {item.Value}")