GroupDocs.Parser for Java

Trích xuất dữ liệu từ tài liệu RTF trong Java

Trích xuất nội dung có cấu trúc như văn bản, siêu dữ liệu, bảng biểu và đồ họa từ tài liệu PDF, Word, Excel và tài liệu dựa trên hình ảnh bằng cách sử dụng GroupDocs.Parser trong các ứng dụng Java của bạn.

Cách trích xuất dữ liệu từ Rtf bằng Java

Để trích xuất thông tin hữu ích từ các tài liệu RTF trong dự án Java của bạn bằng GroupDocs.Parser, hãy làm theo các hướng dẫn sau:

  1. Mở tệp RTF với đối tượng Parser.
  2. Sử dụng bộ phân tích để lấy dữ liệu cần thiết (văn bản, bảng, siêu dữ liệu, v.v.).
  3. Đảm bảo đầu ra là đúng và đầy đủ.
  4. Tích hợp nội dung đã phân tích vào quy trình dữ liệu, quy trình kinh doanh hoặc ứng dụng của bạn.
// Khởi tạo Parser của bạn với tài liệu đầu vào
try (Parser parser = new Parser("input.rtf"))
{
    // Lấy tất cả nội dung văn bản có sẵn từ tài liệu
    try (TextReader reader = parser.getText())
    {
        // Nếu không tìm thấy văn bản, giá trị trả về sẽ là null
        // Kết hợp nội dung đã trích xuất vào giải pháp của bạn
        System.out.println(reader == null ? 
            "Định dạng này có thể không hỗ trợ trích xuất văn bản" : reader.readToEnd());
    }
}
<dependencies> <dependency> <groupId>com.groupdocs</groupId> <artifactId>groupdocs-parser</artifactId> <version>24.9</version> </dependency> </dependencies> <repositories> <repository> <id>repository.groupdocs.com</id> <name>GroupDocs Repository</name> <url>https://repository.groupdocs.com/repo/</url> </repository> </repositories>
nhấp để sao chép
đã sao chép
Nhiều ví dụ hơn Tài liệu

Chức năng phân tích tài liệu đa dạng

GroupDocs.Parser không chỉ dừng lại ở việc trích xuất văn bản—nó hỗ trợ phân tích đầy đủ mã vạch, siêu dữ liệu, hình ảnh, bảng biểu và các dữ liệu khác để thúc đẩy tự động hóa thông minh và các ứng dụng dựa trên dữ liệu.

Tổng quan trực quan về phân tích và trích xuất dữ liệu tài liệu

Trích xuất từ nhiều định dạng tệp

Truy cập dữ liệu như văn bản, bảng biểu và phương tiện từ các loại tệp được sử dụng rộng rãi như PDF, Word, Excel, PowerPoint, HTML và nhiều loại khác.

Phân tích nội dung từ các nguồn kỹ thuật số và đã quét

Xử lý nội dung từ cả các tệp kỹ thuật số gốc và hình ảnh đã quét, sử dụng OCR khi cần thiết để giải mã văn bản nhúng.

Tùy chọn cấu hình linh hoạt

Tùy chỉnh việc phân tích của bạn với các thiết lập cho lựa chọn trang, khu vực bố trí và mẫu trường tùy chỉnh để đáp ứng các nhu cầu trích xuất cụ thể.

Phân tích PDF bằng mẫu trích xuất dữ liệu

Mẫu này cho thấy cách trích xuất các trường có cấu trúc từ một tệp PDF bằng cách sử dụng một mẫu tùy chỉnh qua GroupDocs.Parser.

Java

//  Mở PDF bằng lớp Parser
try (Parser parser = new Parser("input.pdf"))
{
    // Áp dụng mẫu phân tích để trích xuất dữ liệu đã định nghĩa
    DocumentData data = parser.parseByTemplate(GetTemplate());

    // Kiểm tra xem việc trích xuất dựa trên mẫu có khả dụng hay không
    if (data == null) {
        return;
    }

    // Làm việc với các trường dữ liệu đã trích xuất
    for (int i = 0; i < data.getCount(); i++) {
        System.out.print(data.get(i).getName() + ": ");
        PageTextArea area = data.get(i).getPageArea() instanceof PageTextArea
                ? (PageTextArea) data.get(i).getPageArea() : null;
        System.out.println(area == null ? "Not a template field" : area.getText());
    }
}

private static Template GetTemplate()
{
    // Định nghĩa cài đặt phát hiện để trích xuất phần 'Chi tiết'
    TemplateTableParameters detailsTableParameters = 
        new TemplateTableParameters(new Rectangle(new Point(35, 320), new Size(530, 55)), null);

    TemplateItem[] templateItems = new TemplateItem[]
    {
        new TemplateTable(detailsTableParameters, "details", null)
    };

    Template template = new Template(java.util.Arrays.asList(templateItems));
    return template;
}

GroupDocs.Parser for Java là gì?

GroupDocs.Parser là một API mạnh mẽ được xây dựng cho các nhà phát triển Java, cung cấp chức năng phân tích tài liệu tiên tiến. Nó cho phép bạn trích xuất và xử lý dữ liệu văn bản, hình ảnh, bảng biểu, trường có cấu trúc và mã vạch từ nhiều định dạng như PDF, DOCX, XLSX, PPTX và nhiều hơn nữa — tất cả mà không cần cài đặt thêm thư viện.
Tìm hiểu thêm
About illustration

Sẵn sàng để bắt đầu?

Tải xuống GroupDocs.Parser miễn phí hoặc nhận giấy phép dùng thử để có toàn quyền truy cập!

Tài nguyên hữu ích

Khám phá tài liệu, mẫu mã và hỗ trợ cộng đồng để nâng cao trải nghiệm của bạn.

Các loại tệp hỗ trợ trích xuất nội dung

GroupDocs.Parser tương thích với nhiều loại tệp tài liệu và hình ảnh, giúp bạn trích xuất thông tin từ các định dạng thường được sử dụng trong các kịch bản phân tích và tự động hóa dữ liệu.

Lời khuyên về giấy phép tạm thời

1
Đăng ký bằng email công việc của bạn. Dịch vụ thư miễn phí không được phép.
2
Sử dụng nút Nhận giấy phép tạm thời ở Bước thứ hai.
 Tiếng Việt