Parser 用于 Python

适用于 Python 的文档解析 SDK

将快速、准确的文档解析添加到您的 Python 应用程序中，并从文档和图像中提取文本、图像、元数据和结构化数据。

from groupdocs.parser import Parser

# 加载文档
with Parser("sample.pdf") as parser:
    # 从文档中提取文本
    text = parser.GetText()

    # 打印所有提取的文本
    print(text)

pip install groupdocs-parser-net

GroupDocs.Parser 一览

用于在 Python 应用程序中执行高精度文档解析的 Document Parser SDK

从文档中提取数据

GroupDocs.Parser for Python via .NET API 使您能够从各种文件格式（如 Office 文档、电子邮件、附件和压缩包）检索文本、元数据和图像。此强大工具帮助您高效访问和处理这些文件中包含的有价值信息，可用于数据分析、搜索引擎索引或内容管理系统等各种应用。

解析文档

从 PDF 表单中提取超链接、表格、二维码、条形码和数据等各种元素。还可使用自定义模板解析文档中的任意所需信息。

自定义结果

Python API 使您能够以原始、结构化、HTML 或 Markdown 等多种格式检索数据。此外，API 还提供搜索功能，可在文档文本中定位特定单词或短语。

平台独立性

GroupDocs.Parser for Python via .NET 支持以下操作系统、框架和包管理器

支持的文件格式

GroupDocs.Parser for Python via .NET 支持以下文件格式。

Microsoft Office 格式

Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

图像及其他格式

可移植: PDF
图像: JPG, BMP, PNG, TIFF, GIF
其他办公格式: ODT, OTT, OTS, ODS, ODP, OTP, ODG

其他格式

Web: HTML, MHTML
归档文件: ZIP, TAR, 7Z
电子书: CHM, EPUB, FB2, MOBI

GroupDocs.Parser for Python via .NET 功能

使用我们的 Python Document Parser SDK，迅速且准确地从 PDF、Office 文档、图像及其他格式中提取数据

提取文本

从各种文件格式（如 Office 文档、PDF 文件和图像）中提取文本信息，便于阅读和分析。

提取图像

从 Office 文档、PDF 文件等各种来源检索可视内容，方便访问和使用。

扫描二维码

检测并解码 Office 文档、PDF 文件或视觉内容中的二维码，实现高效信息检索。

从电子邮件附件和压缩包中提取数据

从电子邮件、文件附件和压缩数据源中收集有价值的信息，以便进行有效的分析和利用。

提取表格

识别并提取 PDF 文档中的表格数据，以便进行有序的分析和使用。

提取超链接

在 Office 文档或 PDF 文件中定位并提取超链接和电子邮件地址，以实现高效访问。

解析 PDF 表单

PDF 表单是具有可填写字段的数字文档，供用户交互，可电子方式输入信息。Python API 可用于从这些表单中提取数据，以实现高效处理。

使用模板解析数据

创建自定义模板并使用 Python API 对其进行调用，以解析 PDF 文件中的特定信息，简化数据提取流程。

在文档中搜索文本

快速定位文档中的特定单词或模式。

代码示例

除基本文本提取外，这里列出最常见的快速文本、图像和元数据提取用例。

在文档中搜索文本

此示例演示如何在 PDF 文档中搜索特定短语并打印其出现位置。

使用 Python 在文档中搜索文本

from groupdocs.parser import Parser

# 加载文档
with Parser("sample.pdf") as parser:
    # 打印短语所在的页面索引和矩形区域
    for area in parser.Search("Total Amount"):
        # 打印短语所在的页面索引和矩形区域
        print(f"Page {area.PageIndex}, Rectangle: {area.Rectangle}")

从文档中提取图像

此示例演示如何从 PDF 文档中提取图像并将其保存到文件。

使用 Python 从文档中提取图像

from groupdocs.parser import Parser

# 加载文档
with Parser("sample.docx") as parser:
    # 从文档中提取图像
    images = parser.GetImages()

    # 将图像保存到文件
    index = 1
    for image in images:
        image.Save(f"image_{index}.png")
        index += 1

从文档中提取元数据

此示例演示如何从 PDF 文档中提取元数据并打印。

使用 Python 从文档中提取元数据

from groupdocs.parser import Parser

# 加载文档
with Parser("sample.pdf") as parser:
    # 从文档中提取元数据
    metadata = parser.GetMetadata()

    # 打印元数据
    for item in metadata:
        print(f"{item.Name}: {item.Value}")