GroupDocs.Parser trong một cái nhìn tổng quan

Document Parser SDK để thực hiện việc phân tích tài liệu độ chính xác cao trong các ứng dụng Python

Illustration parser

Trích xuất dữ liệu từ tài liệu

GroupDocs.Parser for Python via .NET API cho phép bạn truy xuất văn bản, siêu dữ liệu và hình ảnh từ nhiều định dạng tệp khác nhau như tài liệu Office, email, tệp đính kèm và lưu trữ. Công cụ mạnh mẽ này giúp bạn tiếp cận và xử lý thông tin quan trọng có trong các tệp này một cách hiệu quả cho các ứng dụng như phân tích dữ liệu, lập chỉ mục công cụ tìm kiếm hoặc hệ thống quản lý nội dung.

Phân tích tài liệu

Trích xuất các yếu tố khác nhau như liên kết siêu văn bản, bảng, mã QR, mã vạch và dữ liệu từ biểu mẫu PDF. Ngoài ra, phân tích bất kỳ thông tin mong muốn nào từ tài liệu bằng các mẫu tùy chỉnh.

Tùy chỉnh kết quả

Python API cho phép bạn truy xuất dữ liệu ở nhiều định dạng như thô, có cấu trúc, HTML hoặc Markdown. Ngoài ra, API còn cung cấp chức năng tìm kiếm để xác định các từ hoặc cụm từ cụ thể trong văn bản của tài liệu.

Độc lập nền tảng

GroupDocs.Parser for Python via .NET hỗ trợ các hệ điều hành, khung công tác và trình quản lý gói sau đây

Amazon
Docker
Azure
VS Code
ReSharper
macOS
Linux
NuGet

Các định dạng tệp được hỗ trợ

GroupDocs.Parser for Python via .NET hỗ trợ các thao tác với định dạng tệp sau đây.

Định dạng Microsoft Office

  • Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
  • Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
  • PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

Hình ảnh & Các định dạng khác

  • Di động: PDF
  • Hình ảnh: JPG, BMP, PNG, TIFF, GIF
  • Các định dạng Office khác: ODT, OTT, OTS, ODS, ODP, OTP, ODG

Các định dạng khác

  • Web: HTML, MHTML
  • Lưu trữ: ZIP, TAR, 7Z
  • Sách điện tử: CHM, EPUB, FB2, MOBI

Tính năng của GroupDocs.Parser for Python via .NET

Trích xuất dữ liệu từ PDF, tài liệu Office, hình ảnh và các định dạng khác một cách nhanh chóng và chính xác với Document Parser SDK Python của chúng tôi

Feature icon

Trích xuất văn bản

Trích xuất thông tin văn bản từ nhiều định dạng tệp như tài liệu Office, tệp PDF và hình ảnh để dễ đọc và phân tích.

Feature icon

Trích xuất hình ảnh

Lấy nội dung hình ảnh từ các nguồn đa dạng như tài liệu Office, tệp PDF để truy cập và sử dụng thuận tiện.

Feature icon

Quét mã QR

Phát hiện và giải mã các mã QR có trong tài liệu Office, tệp PDF hoặc nội dung hình ảnh để truy xuất thông tin một cách hiệu quả.

Feature icon

Trích xuất dữ liệu từ tệp đính kèm email và lưu trữ

Thu thập thông tin giá trị từ tin email, tệp đính kèm và nguồn dữ liệu nén để phân tích và sử dụng hiệu quả.

Feature icon

Trích xuất bảng

Xác định và trích xuất dữ liệu bảng từ tài liệu PDF để phân tích và sử dụng có tổ chức.

Feature icon

Trích xuất liên kết siêu văn bản

Xác định và trích xuất siêu liên kết và địa chỉ email trong tài liệu Office hoặc tệp PDF để truy cập hiệu quả.

Feature icon

Phân tích biểu mẫu PDF

Biểu mẫu PDF là các tài liệu kỹ thuật số có các trường có thể điền để người dùng tương tác, cho phép họ nhập thông tin điện tử. API Python có thể được sử dụng để trích xuất dữ liệu từ các biểu mẫu này nhằm xử lý hiệu quả.

Feature icon

Phân tích dữ liệu bằng mẫu

Tạo các mẫu tùy chỉnh và sử dụng chúng với API Python để phân tích thông tin cụ thể từ các tệp PDF, đơn giản hóa quy trình trích xuất dữ liệu.

Feature icon

Tìm kiếm văn bản trong tài liệu

Nhanh chóng xác định các từ hoặc mẫu cụ thể trong tài liệu.

Mẫu code

Ngoài việc trích xuất văn bản cơ bản, dưới đây là các trường hợp sử dụng phổ biến nhất cho việc trích xuất nhanh văn bản, hình ảnh và siêu dữ liệu.

Tìm kiếm văn bản trong tài liệu

Ví dụ này cho thấy cách tìm kiếm một cụm từ cụ thể trong tài liệu PDF và in ra vị trí nó được tìm thấy.

Tìm kiếm văn bản trong tài liệu bằng Python

from groupdocs.parser import Parser

# Tải tài liệu
with Parser("sample.pdf") as parser:
    # In chỉ mục trang và hình chữ nhật nơi cụm từ được tìm thấy
    for area in parser.Search("Total Amount"):
        # In chỉ mục trang và hình chữ nhật nơi cụm từ được tìm thấy
        print(f"Page {area.PageIndex}, Rectangle: {area.Rectangle}")

Trích xuất hình ảnh từ tài liệu

Ví dụ này cho thấy cách trích xuất hình ảnh từ tài liệu PDF và lưu chúng vào tệp.

Trích xuất hình ảnh từ tài liệu bằng Python

from groupdocs.parser import Parser

# Tải tài liệu
with Parser("sample.docx") as parser:
    # Trích xuất hình ảnh từ tài liệu
    images = parser.GetImages()

    # Lưu hình ảnh vào tệp
    index = 1
    for image in images:
        image.Save(f"image_{index}.png")
        index += 1

Trích xuất siêu dữ liệu từ tài liệu

Ví dụ này cho thấy cách trích xuất siêu dữ liệu từ tài liệu PDF và in ra.

Trích xuất siêu dữ liệu từ tài liệu bằng Python

from groupdocs.parser import Parser

# Tải tài liệu
with Parser("sample.pdf") as parser:
    # Trích xuất siêu dữ liệu từ tài liệu
    metadata = parser.GetMetadata()

    # In siêu dữ liệu
    for item in metadata:
        print(f"{item.Name}: {item.Value}")

Sẵn sàng để bắt đầu?

Tải xuống GroupDocs.Parser miễn phí hoặc nhận giấy phép dùng thử để có toàn quyền truy cập!

Tài nguyên hữu ích

Khám phá tài liệu, mẫu mã và hỗ trợ cộng đồng để nâng cao trải nghiệm của bạn.

Lời khuyên về giấy phép tạm thời

1
Đăng ký bằng email công việc của bạn. Dịch vụ thư miễn phí không được phép.
2
Sử dụng nút Nhận giấy phép tạm thời ở Bước thứ hai.
 Tiếng Việt