Parser cho Python

Document Parser SDK cho Python

Thêm khả năng phân tích tài liệu nhanh chóng, chính xác vào các ứng dụng Python của bạn và trích xuất văn bản, hình ảnh, siêu dữ liệu và dữ liệu có cấu trúc từ tài liệu và hình ảnh.

Tải xuống PyPI Bắt đầu dùng thử miễn phí

from groupdocs.parser import Parser

# Tải tài liệu
with Parser("sample.pdf") as parser:
    # Trích xuất văn bản từ tài liệu
    text = parser.GetText()

    # In toàn bộ văn bản đã trích xuất
    print(text)

pip install groupdocs-parser-net

GroupDocs.Parser trong một cái nhìn tổng quan

Document Parser SDK để thực hiện việc phân tích tài liệu độ chính xác cao trong các ứng dụng Python

Trích xuất dữ liệu từ tài liệu

GroupDocs.Parser for Python via .NET API cho phép bạn truy xuất văn bản, siêu dữ liệu và hình ảnh từ nhiều định dạng tệp khác nhau như tài liệu Office, email, tệp đính kèm và lưu trữ. Công cụ mạnh mẽ này giúp bạn tiếp cận và xử lý thông tin quan trọng có trong các tệp này một cách hiệu quả cho các ứng dụng như phân tích dữ liệu, lập chỉ mục công cụ tìm kiếm hoặc hệ thống quản lý nội dung.

Phân tích tài liệu

Trích xuất các yếu tố khác nhau như liên kết siêu văn bản, bảng, mã QR, mã vạch và dữ liệu từ biểu mẫu PDF. Ngoài ra, phân tích bất kỳ thông tin mong muốn nào từ tài liệu bằng các mẫu tùy chỉnh.

Tùy chỉnh kết quả

Python API cho phép bạn truy xuất dữ liệu ở nhiều định dạng như thô, có cấu trúc, HTML hoặc Markdown. Ngoài ra, API còn cung cấp chức năng tìm kiếm để xác định các từ hoặc cụm từ cụ thể trong văn bản của tài liệu.

Độc lập nền tảng

GroupDocs.Parser for Python via .NET hỗ trợ các hệ điều hành, khung công tác và trình quản lý gói sau đây

Các định dạng tệp được hỗ trợ

GroupDocs.Parser for Python via .NET hỗ trợ các thao tác với định dạng tệp sau đây.

Định dạng Microsoft Office

Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

Hình ảnh & Các định dạng khác

Di động: PDF
Hình ảnh: JPG, BMP, PNG, TIFF, GIF
Các định dạng Office khác: ODT, OTT, OTS, ODS, ODP, OTP, ODG

Các định dạng khác

Web: HTML, MHTML
Lưu trữ: ZIP, TAR, 7Z
Sách điện tử: CHM, EPUB, FB2, MOBI

Tính năng của GroupDocs.Parser for Python via .NET

Trích xuất dữ liệu từ PDF, tài liệu Office, hình ảnh và các định dạng khác một cách nhanh chóng và chính xác với Document Parser SDK Python của chúng tôi

Trích xuất văn bản

Trích xuất thông tin văn bản từ nhiều định dạng tệp như tài liệu Office, tệp PDF và hình ảnh để dễ đọc và phân tích.

Trích xuất hình ảnh

Lấy nội dung hình ảnh từ các nguồn đa dạng như tài liệu Office, tệp PDF để truy cập và sử dụng thuận tiện.

Quét mã QR

Phát hiện và giải mã các mã QR có trong tài liệu Office, tệp PDF hoặc nội dung hình ảnh để truy xuất thông tin một cách hiệu quả.

Trích xuất dữ liệu từ tệp đính kèm email và lưu trữ

Thu thập thông tin giá trị từ tin email, tệp đính kèm và nguồn dữ liệu nén để phân tích và sử dụng hiệu quả.

Trích xuất bảng

Xác định và trích xuất dữ liệu bảng từ tài liệu PDF để phân tích và sử dụng có tổ chức.

Trích xuất liên kết siêu văn bản

Xác định và trích xuất siêu liên kết và địa chỉ email trong tài liệu Office hoặc tệp PDF để truy cập hiệu quả.

Phân tích biểu mẫu PDF

Biểu mẫu PDF là các tài liệu kỹ thuật số có các trường có thể điền để người dùng tương tác, cho phép họ nhập thông tin điện tử. API Python có thể được sử dụng để trích xuất dữ liệu từ các biểu mẫu này nhằm xử lý hiệu quả.

Phân tích dữ liệu bằng mẫu

Tạo các mẫu tùy chỉnh và sử dụng chúng với API Python để phân tích thông tin cụ thể từ các tệp PDF, đơn giản hóa quy trình trích xuất dữ liệu.

Tìm kiếm văn bản trong tài liệu

Nhanh chóng xác định các từ hoặc mẫu cụ thể trong tài liệu.

Mẫu code

Ngoài việc trích xuất văn bản cơ bản, dưới đây là các trường hợp sử dụng phổ biến nhất cho việc trích xuất nhanh văn bản, hình ảnh và siêu dữ liệu.

Tìm kiếm văn bản trong tài liệu

Ví dụ này cho thấy cách tìm kiếm một cụm từ cụ thể trong tài liệu PDF và in ra vị trí nó được tìm thấy.

Tìm kiếm văn bản trong tài liệu bằng Python

from groupdocs.parser import Parser

# Tải tài liệu
with Parser("sample.pdf") as parser:
    # In chỉ mục trang và hình chữ nhật nơi cụm từ được tìm thấy
    for area in parser.Search("Total Amount"):
        # In chỉ mục trang và hình chữ nhật nơi cụm từ được tìm thấy
        print(f"Page {area.PageIndex}, Rectangle: {area.Rectangle}")

Trích xuất hình ảnh từ tài liệu

Ví dụ này cho thấy cách trích xuất hình ảnh từ tài liệu PDF và lưu chúng vào tệp.

Trích xuất hình ảnh từ tài liệu bằng Python

from groupdocs.parser import Parser

# Tải tài liệu
with Parser("sample.docx") as parser:
    # Trích xuất hình ảnh từ tài liệu
    images = parser.GetImages()

    # Lưu hình ảnh vào tệp
    index = 1
    for image in images:
        image.Save(f"image_{index}.png")
        index += 1

Trích xuất siêu dữ liệu từ tài liệu

Ví dụ này cho thấy cách trích xuất siêu dữ liệu từ tài liệu PDF và in ra.

Trích xuất siêu dữ liệu từ tài liệu bằng Python

from groupdocs.parser import Parser

# Tải tài liệu
with Parser("sample.pdf") as parser:
    # Trích xuất siêu dữ liệu từ tài liệu
    metadata = parser.GetMetadata()

    # In siêu dữ liệu
    for item in metadata:
        print(f"{item.Name}: {item.Value}")