GroupDocs.Parser for Java

Trích xuất liên kết từ XML với Java

Trích xuất các liên kết và liên kết web từ PDF, tài liệu Word, bảng tính Excel và các tài liệu khác bằng GroupDocs.Parser trong môi trường Java của bạn.

Cách trích xuất liên kết từ Xml trong Java

GroupDocs.Parser đơn giản hóa việc trích xuất liên kết từ các tệp XML trong các ứng dụng Java với các bước cơ bản sau:

  1. Mở tệp XML bằng một thể hiện của Parser.
  2. Đảm bảo khả năng trích xuất liên kết có sẵn cho định dạng tệp.
  3. Trích xuất tất cả các liên kết bằng cách sử dụng phương thức phù hợp.
  4. Lặp qua các kết quả và xử lý từng liên kết theo nhu cầu.
// Tải tệp có thể chứa các liên kết bằng cách sử dụng Parser
try (Parser parser = new Parser("input.xml")) {

    // Kiểm tra xem định dạng tài liệu có hỗ trợ phân tích liên kết không
    if (!parser.getFeatures().isHyperlinks()) {
        System.out.println("Không có khả năng trích xuất liên kết cho tệp này");
        return;
    }

    // Trích xuất và sử dụng dữ liệu liên kết từ tài liệu
    Iterable<PageHyperlinkArea> hyperlinks = parser.getHyperlinks();

    for (PageHyperlinkArea h : hyperlinks) {
        System.out.println(h.getText());
        System.out.println(h.getUrl());
    }
}
<dependencies> <dependency> <groupId>com.groupdocs</groupId> <artifactId>groupdocs-parser</artifactId> <version>24.9</version> </dependency> </dependencies> <repositories> <repository> <id>repository.groupdocs.com</id> <name>GroupDocs Repository</name> <url>https://repository.groupdocs.com/repo/</url> </repository> </repositories>
nhấp để sao chép
đã sao chép
Nhiều ví dụ hơn Tài liệu

Công cụ phân tích tài liệu toàn diện

Ngoài việc trích xuất liên kết, GroupDocs.Parser cho phép bạn thu thập các nội dung hữu ích khác như văn bản thuần, phương tiện nhúng và dữ liệu cấu trúc để sử dụng trong các quy trình tự động.

Trích xuất liên kết và phân tích tài liệu

Phát hiện liên kết chính xác

Ghi lại tất cả các loại liên kết từ các bố cục tài liệu khác nhau, bao gồm văn bản có thể nhấp và URL ẩn.

Làm việc với tài liệu và nội dung web

Kéo các liên kết từ PDF, DOCX, XLSX, HTML và các tệp hình ảnh chứa liên kết nhúng.

Hành vi trích xuất tùy chỉnh

Tinh chỉnh cách các liên kết được trích xuất bằng cách sử dụng các tùy chọn như khoảng trang, loại liên kết hoặc bộ lọc nội dung.

Ví dụ: trích xuất liên kết từ PDF với các tùy chọn tùy chỉnh

Mẫu này minh họa cách trích xuất tất cả các liên kết từ một tệp PDF bằng cách sử dụng các thiết lập trích xuất liên kết.

Java

//  Mở PDF bằng lớp Parser
try (Parser parser = new Parser("input.docx"))
{
    // Xác minh rằng hỗ trợ liên kết đã được bật cho tài liệu này
    if (!parser.getFeatures().isHyperlinks()) {
        return;
    }

    // Áp dụng các tùy chọn để lọc các liên kết
    PageAreaOptions options = new PageAreaOptions(new Rectangle(new Point(380, 90), new Size(150, 50)));

    // Sử dụng trình phân tích để lấy dữ liệu liên kết
    Iterable<PageHyperlinkArea> hyperlinks = parser.getHyperlinks(options);

    // Lặp qua các liên kết và xử lý chúng theo cách cần thiết
    for (PageHyperlinkArea h : hyperlinks) {
        System.out.println(h.getText());
        System.out.println(h.getUrl());
    }
}

Giới thiệu về API GroupDocs.Parser for Java

GroupDocs.Parser là một API trích xuất nội dung mạnh mẽ được thiết kế cho các nhà phát triển Java. Nó cung cấp các công cụ để trích xuất liên kết, dữ liệu cấu trúc, hình ảnh và văn bản từ các định dạng phổ biến như DOCX, XLSX, PDF, HTML và nhiều hơn nữa—tất cả mà không cần bất kỳ plugin bên ngoài nào.
Tìm hiểu thêm
About illustration

Sẵn sàng để bắt đầu?

Tải xuống GroupDocs.Parser miễn phí hoặc nhận giấy phép dùng thử để có toàn quyền truy cập!

Tài nguyên hữu ích

Khám phá tài liệu, mẫu mã và hỗ trợ cộng đồng để nâng cao trải nghiệm của bạn.

Các định dạng tài liệu hỗ trợ trích xuất liên kết

Với GroupDocs.Parser, bạn có thể trích xuất các liên kết từ nhiều định dạng tệp thường được sử dụng. Dưới đây là danh sách các định dạng thường được hỗ trợ.

Lời khuyên về giấy phép tạm thời

1
Đăng ký bằng email công việc của bạn. Dịch vụ thư miễn phí không được phép.
2
Sử dụng nút Nhận giấy phép tạm thời ở Bước thứ hai.
 Tiếng Việt