GroupDocs Python SDK 概览

使用一个 SDK 包即可转换、合并、比较、签名和编辑常见文档格式,如 PDF、Word 和 Excel,查看更多请参阅产品概览

Illustration total

将多个 GroupDocs 包的强大功能合并为单一企业级解决方案

GroupDocs.Total for Python via .NET 将所有主要 GroupDocs API(Conversion、Merger、Signature 和 Comparison)的功能整合到一个工具包中。

自动化复杂工作流,如将 Word 文件转换为 PDF、合并报告、应用安全数字签名或比较合同版本——全部在单一流程中完成。

这种统一的方法可节省时间,降低开发工作量,并简化组织内的文档管理。

掌握多样化文件格式

实现与 200 多种文件类型的无缝兼容,包括 Word、Excel、PDF、PowerPoint、图像、CAD 图纸,甚至电子邮件或代码文件。GroupDocs.Total 确保您的解决方案在几乎所有业务环境中使用的格式上都能完美运行。

跨平台且具可扩展性

可以自信地在 Windows、Linux 或 macOS 上部署——任何 Python 可运行的地方均可。GroupDocs.Total 基于 .NET 的架构为企业工作负载提供高性能和可扩展性,无论是在本地、容器还是云端运行。

平台独立性

GroupDocs.Total for Python via .NET 支持以下操作系统、框架和包管理器,更多详情请参阅系统要求

Amazon
Docker
Azure
VS Code
Eclipse
macOS
Linux
PyPI

支持的文件格式

GroupDocs.Total for Python via .NET 支持以下文件格式的操作。

Microsoft Office、OpenDocument 和文本格式

  • Word: DOC, DOCX, DOCM, DOT, DOTX, DOTM, RTF, TXT
  • Excel: XLS, XLSX, XLSM, XLSB, XLTM, XLT, XLTM, XLTX
  • PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM
  • Project: MPP, MPT, MPX
  • Outlook: MSG, EML, EMLX, PST, OST
  • OneNote: ONE
  • OpenDocument: ODT, OTT, ODS, ODP, OTP, OTS, ODG
  • Fixed Page Layout: PDF, TEX, XPS, OXPS
  • e-Books: EPUB, MOBI, DjVu
  • Delimiter-Separated Values: CSV, TSV

图像、图形和图表

  • 光栅图像: BMP, GIF, JPG, PNG, TIFF, WebP, DNG, DIB, Jpeg2000 family
  • Windows Icon: ICO
  • Scalable Vector Graphics: SVG, CDR, CMX, IGS, SVGZ
  • Adobe Photoshop: PSD, PSB
  • Stereo Lithography (3D Printing): STL
  • Medical Imaging: DICOM
  • Plotter Documents: PLT, HPG
  • Autodesk Design Web Formats: DWF, DWG
  • AutoCAD Drawing: DWT, IFC, STL, CF2

其他

  • 网络: HTML, MHT, MHTML, XML
  • Metafile: WMF, EMF, CGM, EMZ, WMZ
  • Visio: VSD, VDX, VSS, VSSX, VSX, VST, VSTX, VTX, VSDX, VDW, VSTM, VSSM, VSDM
  • Project: MPP, MPT, MPX
  • PostScript: PS, EPS
  • 档案: ZIP, TAR, BZ2, GZ, RAR, RAR5
  • 其他: VCF, VCARD, NUMBERS, NSF, OBJ
  • C/C++/C# Files: C, CC, C# , CPP, CXX, CS, H, HH, M, MM
  • Java/JavaScript Files: JAVA, JS, JSON, PROPERTIES

核心功能

全面的文档处理 —— 查看、转换、比较并大规模管理 PDF 与 Office 文件。查看快速入门指南了解如何将其集成到您的应用中。

Feature icon

格式转换

高保真转换,覆盖数百种文件类型,保留布局、字体和元数据。支持批处理、流式和服务器端工作流,满足生产系统需求。

Feature icon

安全文件查看

高质量渲染,支持 180+ 格式输出为 HTML、PDF、PNG 和 JPEG。可嵌入的查看器组件适用于 Web 和桌面,具备可配置的访问控制和分页功能。

Feature icon

内容比较

精准的并排和行内比较,突出显示内容、格式和布局的变化,并生成可操作的变更报告,供审查和审计使用。

Feature icon

水印控制

通过编程实现水印添加与提取,支持文本/图像水印、条件应用规则以及合规审计日志记录。

Feature icon

元数据管理

在多种格式间实现强大的元数据读取/写入和标准化,支持批量操作和基于策略的工作流,以提升可搜索性和治理能力。

Feature icon

文档合并

将多个文档(支持混合类型)合并为单一可搜索的输出,提供页面级排序、冲突解决和输出格式选项。

Feature icon

基于模板的生成

通过模板和外部数据(JSON、XML、数据库)实现自动化文档创建,支持大规模生成可重复、可审计的报告和个性化文档。

Feature icon

文本脱敏

使用正则表达式、模糊匹配和同义词感知检测实现准确且不可逆的脱敏。支持可视化脱敏以及从底层文档数据中删除。

Feature icon

签名灵活性

支持电子签名和数字签名(PKI)、图片/文本水印以及验证工作流,可整合到签署流程和审计日志中。

真实业务文档工作流

实用场景演示如何在日常文档工作流中使用 GroupDocs。

合并两个 DOCX 文件并将合并后的 DOCX 转换为 PDF

业务需求: 将多个源文档合并为单一、可移植的交付物(例如:登记表、审批表或合同章节的组合),并生成供分发或归档的最终 PDF。

使用的产品: GroupDocs.Merger + GroupDocs.Conversion

结果: 生成单一的、可直接打印和归档的 PDF,保持布局和元数据不变 —— 减少手动组装、简化审查,并确保下游系统输出的一致性。

Python

import os
from groupdocs.merger import License as MergerLicense, Merger
from groupdocs.conversion import License as ConversionLicense, Converter
from groupdocs.conversion.options.convert import PdfConvertOptions, PdfFormats

# 应用许可证
license_path = os.path.abspath("./GroupDocs.Total.lic")
if os.path.exists(license_path):
    merger_license = MergerLicense()
    merger_license.set_license(license_path)

    conversion_license = ConversionLicense()
    conversion_license.set_license(license_path)

# 将两个 DOCX 文件合并为单个文档
with Merger("./part-a.docx") as merger:
    merger.join("./part-b.docx")
    merger.save("./output-merged.docx")

# 将合并后的 DOCX 转换为 PDF(PDF/A-2b,用于归档合规)
with Converter("./output-merged.docx") as converter:
    options = PdfConvertOptions()
    options.pdf_options.pdf_format = PdfFormats.PDF_A_2B
    converter.convert("./final-delivery.pdf", options)

提取文本、缩略图和元数据用于索引

业务需求: 自动从导入的文档中提取可搜索的文本、可视化预览和结构化元数据,以驱动企业索引中的搜索、预览和内容分类。

使用的产品: GroupDocs.Viewer + GroupDocs.Metadata

结果: 实现更快速的文档检索和更丰富的搜索用户体验(文本 + 缩略图 + 元数据),提升相关性并自动化后续工作流,如标记、路由或基于机器学习的分类。

Python

import os
from groupdocs.viewer import License as ViewerLicense, Viewer
from groupdocs.viewer.options import HtmlViewOptions
from groupdocs.metadata import License as MetadataLicense, Metadata
from groupdocs.metadata.search import AnySpecification

# 应用许可证
license_path = os.path.abspath("./GroupDocs.Total.lic")

if os.path.exists(license_path):
    viewer_license = ViewerLicense()
    viewer_license.set_license(license_path)

    metadata_license = MetadataLicense()
    metadata_license.set_license(license_path)

# 将首页渲染为 HTML(或图像)用于预览/缩略图
with Viewer("bussiness-plan.docx") as viewer:
    view_options = HtmlViewOptions.for_embedded_resources()
    viewer.view(view_options, [1]) 

# 读取元数据(标题、作者、自定义属性)
with Metadata("bussiness-plan.docx") as metadata:
   props = metadata.find_properties(AnySpecification())
   for prop in props:
       print(prop.name, prop.value)

比较商务提案的两个版本,生成变更报告,并对个人信息进行编辑删除

业务需求: 商务提案通常会经历多次修订。必须快速识别更改内容,并在对外共享文档前删除敏感的联系信息,如姓名、电子邮件或电话号码。

使用的产品: GroupDocs.Comparison + GroupDocs.Redaction

结果: 结果是清晰的变更报告,突出显示提案各版本之间的所有编辑,并安全地编辑删除联系信息,以实现安全合规的分发。

Python

import os
from groupdocs.comparison import License as ComparisonLicense, Comparer
from groupdocs.redaction import License as RedactionLicense, Redactor
from groupdocs.redaction.options import SaveOptions
from groupdocs.redaction.redactions import ReplacementOptions, RegexRedaction

# 应用许可证
license_path = os.path.abspath("./GroupDocs.Total.lic")

if os.path.exists(license_path):
    comparison_license = ComparisonLicense()
    comparison_license.set_license(license_path)

    redaction_license = RedactionLicense()
    redaction_license.set_license(license_path)

# 比较文档的两个版本
with Comparer("./proposal_v1.docx") as comparer:
    comparer.add("./proposal_v2.docx")
    comparer.compare("./proposal_diffs.docx")

# 定义用于编辑删除个人和公司信息的模式
replacement_options = ReplacementOptions("[REDACTED]")
phone_pattern = r"\b(?:\+?1[-.\s]?)?(?:\(?\d{3}\)?[-.\s]?)\d{3}[-.\s]?\d{4}\b"
email_pattern = r"[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,}"

# 定义要执行的编辑删除
redactions = [
    RegexRedaction(email_pattern, replacement_options),
    RegexRedaction(phone_pattern, replacement_options),
]

# 对文档执行编辑删除
with Redactor("./proposal_diffs.docx") as redactor:
    for redaction in redactions:
        redactor.apply(redaction)

    # 设置保存选项以保持源文件格式
    save_options = SaveOptions()
    save_options.add_suffix = True
    save_options.rasterize_to_pdf = False
    save_options.redacted_file_suffix = "redacted"

    # 保存已编辑删除的文档
    redactor.save(save_options)

准备好开始了吗?

免费下载 GroupDocs.Total 或获取试用许可证以获得完全访问权限!

有用的资源

探索文档,代码样本和社区支持,以增强您的体验。

临时许可提示

1
使用您的工作电子邮件地址进行注册。不允许使用免费邮件服务。
2
使用第二步中的获取临时许可证按钮。
 中国人