GroupDocs.Parser 一览

用于在 Python 应用程序中执行高精度文档解析的 Document Parser SDK

Illustration parser

从文档中提取数据

GroupDocs.Parser for Python via .NET API 使您能够从各种文件格式(如 Office 文档、电子邮件、附件和压缩包)检索文本、元数据和图像。此强大工具帮助您高效访问和处理这些文件中包含的有价值信息,可用于数据分析、搜索引擎索引或内容管理系统等各种应用。

解析文档

从 PDF 表单中提取超链接、表格、二维码、条形码和数据等各种元素。还可使用自定义模板解析文档中的任意所需信息。

自定义结果

Python API 使您能够以原始、结构化、HTML 或 Markdown 等多种格式检索数据。此外,API 还提供搜索功能,可在文档文本中定位特定单词或短语。

平台独立性

GroupDocs.Parser for Python via .NET 支持以下操作系统、框架和包管理器

Amazon
Docker
Azure
VS Code
ReSharper
macOS
Linux
NuGet

支持的文件格式

GroupDocs.Parser for Python via .NET 支持以下 文件格式

Microsoft Office 格式

  • Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
  • Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
  • PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

图像及其他格式

  • 可移植: PDF
  • 图像: JPG, BMP, PNG, TIFF, GIF
  • 其他办公格式: ODT, OTT, OTS, ODS, ODP, OTP, ODG

其他格式

  • Web: HTML, MHTML
  • 归档文件: ZIP, TAR, 7Z
  • 电子书: CHM, EPUB, FB2, MOBI

GroupDocs.Parser for Python via .NET 功能

使用我们的 Python Document Parser SDK,迅速且准确地从 PDF、Office 文档、图像及其他格式中提取数据

Feature icon

提取文本

从各种文件格式(如 Office 文档、PDF 文件和图像)中提取文本信息,便于阅读和分析。

Feature icon

提取图像

从 Office 文档、PDF 文件等各种来源检索可视内容,方便访问和使用。

Feature icon

扫描二维码

检测并解码 Office 文档、PDF 文件或视觉内容中的二维码,实现高效信息检索。

Feature icon

从电子邮件附件和压缩包中提取数据

从电子邮件、文件附件和压缩数据源中收集有价值的信息,以便进行有效的分析和利用。

Feature icon

提取表格

识别并提取 PDF 文档中的表格数据,以便进行有序的分析和使用。

Feature icon

提取超链接

在 Office 文档或 PDF 文件中定位并提取超链接和电子邮件地址,以实现高效访问。

Feature icon

解析 PDF 表单

PDF 表单是具有可填写字段的数字文档,供用户交互,可电子方式输入信息。Python API 可用于从这些表单中提取数据,以实现高效处理。

Feature icon

使用模板解析数据

创建自定义模板并使用 Python API 对其进行调用,以解析 PDF 文件中的特定信息,简化数据提取流程。

Feature icon

在文档中搜索文本

快速定位文档中的特定单词或模式。

代码示例

除基本文本提取外,这里列出最常见的快速文本、图像和元数据提取用例。

在文档中搜索文本

此示例演示如何在 PDF 文档中搜索特定短语并打印其出现位置。

使用 Python 在文档中搜索文本

from groupdocs.parser import Parser

# 加载文档
with Parser("sample.pdf") as parser:
    # 打印短语所在的页面索引和矩形区域
    for area in parser.Search("Total Amount"):
        # 打印短语所在的页面索引和矩形区域
        print(f"Page {area.PageIndex}, Rectangle: {area.Rectangle}")

从文档中提取图像

此示例演示如何从 PDF 文档中提取图像并将其保存到文件。

使用 Python 从文档中提取图像

from groupdocs.parser import Parser

# 加载文档
with Parser("sample.docx") as parser:
    # 从文档中提取图像
    images = parser.GetImages()

    # 将图像保存到文件
    index = 1
    for image in images:
        image.Save(f"image_{index}.png")
        index += 1

从文档中提取元数据

此示例演示如何从 PDF 文档中提取元数据并打印。

使用 Python 从文档中提取元数据

from groupdocs.parser import Parser

# 加载文档
with Parser("sample.pdf") as parser:
    # 从文档中提取元数据
    metadata = parser.GetMetadata()

    # 打印元数据
    for item in metadata:
        print(f"{item.Name}: {item.Value}")

准备好开始了吗?

免费下载 GroupDocs.Parser 或获取试用许可证以获得完全访问权限!

有用的资源

探索文档,代码样本和社区支持,以增强您的体验。

临时许可提示

1
使用您的工作电子邮件地址进行注册。不允许使用免费邮件服务。
2
使用第二步中的获取临时许可证按钮。
 中国人