GroupDocs.Parser trong cái nhìn tổng quan

API để thực hiện phân tích tài liệu trong các ứng dụng Java

Illustration parser

Trích xuất dữ liệu từ tài liệu

GroupDocs.Parser for Java API cho phép bạn truy xuất văn bản, siêu dữ liệu và hình ảnh từ nhiều định dạng tệp như tài liệu Office, email, tệp đính kèm và lưu trữ. Công cụ mạnh mẽ này giúp bạn truy cập và xử lý thông tin giá trị nằm trong các tệp này một cách hiệu quả cho nhiều ứng dụng như phân tích dữ liệu, lập chỉ mục công cụ tìm kiếm, hoặc hệ thống quản lý nội dung.

Phân tích tài liệu

Trích xuất các yếu tố khác nhau như siêu liên kết, bảng, mã QR, mã vạch và dữ liệu từ biểu mẫu PDF. Đồng thời phân tích bất kỳ thông tin nào mong muốn từ tài liệu bằng cách sử dụng các mẫu tùy chỉnh.

Tùy chỉnh kết quả

Java API cho phép bạn truy xuất dữ liệu ở nhiều định dạng khác nhau như thô, cấu trúc, HTML hoặc Markdown. Ngoài ra, API còn cung cấp chức năng tìm kiếm để xác định các từ hoặc cụm từ cụ thể trong văn bản của tài liệu.

Tính độc lập của nền tảng

GroupDocs.Parser for Java hỗ trợ các hệ điều hành, khung làm việc và trình quản lý gói sau

Amazon
Docker
Azure
Eclipse
IntelliJ
Windows
Linux
Maven

Các định dạng tệp được hỗ trợ

GroupDocs.Parser for Java hỗ trợ các thao tác với các định dạng tệp sau.

Định dạng Microsoft Office

  • Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
  • Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
  • PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

Hình ảnh & Các định dạng khác

  • Di động: PDF
  • Hình ảnh: JPG, BMP, PNG, TIFF, GIF
  • Các định dạng văn phòng khác: ODT, OTT, OTS, ODS, ODP, OTP, ODG

Các định dạng khác

  • Web: HTML, MHTML
  • Lưu trữ: ZIP, TAR, 7Z
  • e-Books: CHM, EPUB, FB2, MOBI

GroupDocs.Parser for Java các tính năng

Trích xuất dữ liệu từ PDFs, tài liệu Office và hình ảnh một cách nhanh chóng và chính xác

Feature icon

Trích xuất văn bản

Trích xuất thông tin văn bản từ các định dạng tệp khác nhau như tài liệu văn phòng, tệp PDF và hình ảnh để dễ dàng đọc và phân tích.

Feature icon

Trích xuất hình ảnh

Lấy nội dung hình ảnh từ nhiều nguồn như tài liệu văn phòng, tệp PDF để thuận tiện trong việc truy cập và sử dụng.

Feature icon

Quét mã QR

Phát hiện và giải mã các mã QR có trong tài liệu văn phòng, tệp PDF hoặc nội dung hình ảnh để việc truy xuất thông tin hiệu quả.

Feature icon

Trích xuất dữ liệu từ tệp đính kèm email và lưu trữ

Tập hợp thông tin quý giá từ các tin nhắn email, tệp đính kèm và nguồn dữ liệu nén để phân tích và sử dụng hiệu quả.

Feature icon

Trích xuất bảng

Xác định và trích xuất dữ liệu dạng bảng từ tài liệu PDF để phân tích và sử dụng có tổ chức.

Feature icon

Trích xuất siêu liên kết

Xác định và trích xuất siêu liên kết và địa chỉ email trong tài liệu văn phòng hoặc tệp PDF để truy cập hiệu quả.

Feature icon

Phân tích biểu mẫu PDF

Biểu mẫu PDF là tài liệu số có các trường có thể điền để tương tác của người dùng, cho phép họ nhập thông tin một cách điện tử. API .NET có thể được sử dụng để trích xuất dữ liệu từ các biểu mẫu này cho quy trình hiệu quả.

Feature icon

Phân tích dữ liệu theo mẫu

Tạo các mẫu tùy chỉnh và sử dụng chúng với API .NET để phân tích thông tin cụ thể từ các tệp PDF, đơn giản hóa quy trình trích xuất dữ liệu.

Feature icon

Tìm kiếm văn bản trong tài liệu

Nhanh chóng xác định các từ hoặc mẫu cụ thể trong tài liệu.

Ví dụ mã

Một số trường hợp sử dụng các thao tác điển hình của GroupDocs.Parser for Java

Trích xuất hình ảnh từ tài liệu PDF

GroupDocs.Parser for Java giúp các nhà phát triển Java dễ dàng trích xuất hình ảnh từ tài liệu:

Trích xuất hình ảnh từ tài liệu PDF trong Java

// Tạo một đối tượng của lớp Parser
try (Parser parser = new Parser("source.pdf"))
{
    // Trích xuất hình ảnh
    Iterable<PageImageArea> images = parser.getImages();

    // Kiểm tra xem đã trích xuất được không
    if (images == null) {
        return;
    }

    // Lặp qua các hình ảnh
    for (PageImageArea image : images) {
        // In chỉ số trang, hình chữ nhật và loại hình ảnh
        System.out.println(String.format("Page: %d, R: %s, Type: %s", 
            image.getPage().getIndex(), image.getRectangle(), image.getFileType()));
    }
}

Trích xuất mã vạch từ hình ảnh

Sử dụng API Java của chúng tôi để trích xuất mã vạch từ hình ảnh:

Trích xuất mã vạch từ hình ảnh trong Java

// Tải hình ảnh nguồn vào Parser
try (Parser parser = new Parser("source.jpg")){

    // Kiểm tra xem tệp có hỗ trợ trích xuất mã vạch không
    if (!parser.getFeatures().isBarcodes()) {

        // Trích xuất mã vạch từ tệp
        Iterable<PageBarcodeArea> barcodes = parser.getBarcodes();

        // Lặp qua các mã vạch
        for (PageBarcodeArea barcode : barcodes) {
            // In chỉ số trang
            System.out.println("Page: " + barcode.getPage().getIndex());
            // In giá trị mã vạch
            System.out.println("Value: " + barcode.getValue());
        }
    }
}

Sẵn sàng để bắt đầu?

Tải xuống GroupDocs.Parser miễn phí hoặc nhận giấy phép dùng thử để có toàn quyền truy cập!

Tài nguyên hữu ích

Khám phá tài liệu, mẫu mã và hỗ trợ cộng đồng để nâng cao trải nghiệm của bạn.

Lời khuyên về giấy phép tạm thời

1
Đăng ký bằng email công việc của bạn. Dịch vụ thư miễn phí không được phép.
2
Sử dụng nút Nhận giấy phép tạm thời ở Bước thứ hai.
 Tiếng Việt