GroupDocs.Parser for Java

Trích xuất dữ liệu bảng từ PPTX bằng Java

Phát hiện và trích xuất bảng từ các định dạng như PDF, DOCX, và XLSX một cách liền mạch với GroupDocs.Parser trong quy trình Java của bạn.

Cách trích xuất bảng từ Pptx trong Java

Để phân tích bảng từ tài liệu PPTX bằng GroupDocs.Parser, hãy làm theo các bước sau trong môi trường Java của bạn:

  1. Tạo một thể hiện Parser và tải tập tin PPTX mục tiêu.
  2. Xác nhận rằng tập tin hỗ trợ việc trích xuất bảng có cấu trúc.
  3. Sử dụng API để lấy các phần tử bảng từ tài liệu.
  4. Sử dụng dữ liệu đã trích xuất trong phân tích, báo cáo, hoặc hệ thống tự động hóa.
// Tải tài liệu đầu vào với Parser bao gồm các phần tử bảng
try (Parser parser = new Parser("input.pptx"))
{
    // Xác nhận rằng loại tài liệu cho phép nhận diện bảng
    if (!parser.getFeatures().isTables()) {
        System.out.println("Thêm logic cho các tệp không hỗ trợ bảng");
        return;
    }

    // Định nghĩa quy tắc để diễn giải cấu trúc bảng
    TemplateTableLayout layout = new TemplateTableLayout(
            java.util.Arrays.asList(new Double[]{50.0, 95.0, 275.0, 415.0, 485.0, 545.0}),
            java.util.Arrays.asList(new Double[]{325.0, 340.0, 365.0, 395.0}));

    // Đặt tham số để trích xuất bảng
    PageTableAreaOptions options = new PageTableAreaOptions(layout);

    //  Chạy trích xuất bảng trên tài liệu đã tải
    Iterable<PageTableArea> tables = parser.getTables(options);

    //  Xử lý từng bảng được trích xuất từ kết quả
    for (PageTableArea t : tables) 
    {
    }
}
<dependencies> <dependency> <groupId>com.groupdocs</groupId> <artifactId>groupdocs-parser</artifactId> <version>24.9</version> </dependency> </dependencies> <repositories> <repository> <id>repository.groupdocs.com</id> <name>GroupDocs Repository</name> <url>https://repository.groupdocs.com/repo/</url> </repository> </repositories>
nhấp để sao chép
đã sao chép
Nhiều ví dụ hơn Tài liệu

Công cụ trích xuất nội dung nâng cao

Ngoài việc đọc bảng, GroupDocs.Parser còn hỗ trợ việc khôi phục văn bản thuần, các yếu tố hình ảnh, siêu dữ liệu nhúng, và các đối tượng có cấu trúc để nâng cao các nhiệm vụ xử lý tài liệu.

Trích xuất nội dung có cấu trúc và dữ liệu bảng

Phân tích bảng chính xác qua nhiều định dạng

Hỗ trợ trích xuất bảng từ các loại tài liệu tiêu chuẩn như PDF, Word, Excel, và HTML với độ chính xác cao.

Đọc cấu trúc bảng từ nhiều nguồn khác nhau

Khôi phục dữ liệu bảng từ bảng tính, tài liệu, và báo cáo trong khi vẫn bảo tồn cấu trúc và bố cục.

Thiết lập trích xuất bảng tùy chỉnh

Kiểm soát việc phát hiện bố cục, quản lý tiêu đề và chân trang, cũng như tùy chỉnh việc trích xuất với các tùy chọn cấu hình linh hoạt.

Mẫu: trích xuất bảng từ tài liệu Excel

Ví dụ này cho thấy cách trích xuất và lặp qua nội dung bảng trong tập tin Excel (XLSX) bằng cách sử dụng GroupDocs.Parser.

Java

//  Khởi tạo Parser với tệp Excel
try (Parser parser = new Parser("input.pdf"))
{
    // Thoát nếu việc trích xuất bảng không được hỗ trợ cho tài liệu này
    if (!parser.getFeatures().isTables())
    {
        return;
    }

    // Áp dụng quy tắc để xác định bố cục bảng
    TemplateTableLayout layout = new TemplateTableLayout(
            java.util.Arrays.asList(new Double[]{50.0, 95.0, 275.0, 415.0, 485.0, 545.0}),
            java.util.Arrays.asList(new Double[]{325.0, 340.0, 365.0, 395.0}));

    // Cấu hình môi trường cho việc trích xuất bảng
    PageTableAreaOptions options = new PageTableAreaOptions(layout);

    // Kích hoạt quy trình trích xuất
    Iterable<PageTableArea> tables = parser.getTables(options);

    // Lặp qua tất cả các cấu trúc bảng đã phân tích
    for (PageTableArea t : tables)
    {
        // Lặp qua từng hàng trong bảng
        for (int row = 0; row < t.getRowCount(); row++)
        {
            // Xử lý từng ô trong hàng hiện tại
            for (int column = 0; column < t.getColumnCount(); column++) 
            {
                // Truy cập và đọc nội dung của ô hiện tại
                PageTableAreaCell cell = t.getCell(row, column);
                if (cell != null)
                {
                    // Xuất giá trị văn bản của từng ô bảng
                    System.out.print(cell.getText());
                    System.out.print(" | ");
                }
            }
        }
    }
}

Giới thiệu về API GroupDocs.Parser for Java

GroupDocs.Parser là một API trích xuất nội dung phong phú tính năng dành cho các nền tảng Java. Nó cho phép các nhà phát triển phân tích chính xác bảng, văn bản, đồ họa, liên kết và dữ liệu có cấu trúc từ các tài liệu PDF, các tài liệu Word, bảng tính Excel, bài thuyết trình PowerPoint, và nhiều định dạng khác—mà không cần các plugin bên thứ ba.
Tìm hiểu thêm
About illustration

Sẵn sàng để bắt đầu?

Tải xuống GroupDocs.Parser miễn phí hoặc nhận giấy phép dùng thử để có toàn quyền truy cập!

Tài nguyên hữu ích

Khám phá tài liệu, mẫu mã và hỗ trợ cộng đồng để nâng cao trải nghiệm của bạn.

Các loại tài liệu được hỗ trợ cho việc trích xuất bảng

GroupDocs.Parser cung cấp phát hiện bảng đáng tin cậy trên nhiều loại tệp. Dưới đây là danh sách các định dạng tài liệu được hỗ trợ rộng rãi nhất cho việc trích xuất bảng.

Lời khuyên về giấy phép tạm thời

1
Đăng ký bằng email công việc của bạn. Dịch vụ thư miễn phí không được phép.
2
Sử dụng nút Nhận giấy phép tạm thời ở Bước thứ hai.
 Tiếng Việt