GroupDocs.Parser for .NET

Trích xuất bảng từ TXT bằng C#

Nhanh chóng xác định và trích xuất cấu trúc bảng từ PDF, Word, Excel và các định dạng tệp khác bằng GroupDocs.Parser trong các dự án .NET của bạn.

Các bước để trích xuất bảng từ Txt trong C#

Thực hiện các hướng dẫn sau để trích xuất bảng từ các tệp TXT bằng GroupDocs.Parser trong môi trường .NET của bạn:

  1. Khởi tạo một phiên bản Parser và tải tài liệu TXT của bạn.
  2. Kiểm tra xem việc trích xuất bảng có được hỗ trợ cho định dạng đầu vào không.
  3. Trích xuất nội dung bảng từ tệp.
  4. Sử dụng dữ liệu bảng có cấu trúc cho báo cáo, tự động hóa hoặc phân tích.
// Mở tài liệu chứa dữ liệu bảng bằng Parser
using (Parser parser = new Parser("input.txt")) {

    // Kiểm tra xem định dạng có hỗ trợ nhận diện bảng hay không
    if (!parser.Features.Tables) {
        Console.WriteLine("Xử lý các tài liệu không hỗ trợ phân tích bảng");
        return;
    }

    // Định nghĩa cách cấu trúc bảng nên được nhận diện
    TemplateTableLayout layout = new TemplateTableLayout(
        new double[] { 50, 95, 275, 415, 485, 545 },
        new double[] { 325, 340, 365, 395 });

    // Xác định các tham số trích xuất cho dữ liệu bảng
    PageTableAreaOptions options = new PageTableAreaOptions(layout);

    //  Trích xuất bảng từ nội dung tệp
    IEnumerable<PageTableArea> tables = parser.GetTables(options);

    //  Lặp qua từng bảng được phát hiện
    foreach (PageTableArea t in tables)
    {
    }
}
dotnet add package GroupDocs.Parser
nhấp để sao chép
đã sao chép
Nhiều ví dụ hơn Tài liệu

Khả năng trích xuất dữ liệu mạnh mẽ

Ngoài việc phân tích bảng, GroupDocs.Parser còn có thể trích xuất nội dung phong phú như khối văn bản, hình ảnh, metadata và các dữ liệu có cấu trúc khác để hỗ trợ tự động hóa tài liệu.

Nhận diện bảng và trích xuất nội dung

Phát hiện bảng đa định dạng chính xác

Trích xuất dữ liệu bảng từ DOCX, XLSX, PDF, HTML và các định dạng tương tự với độ chính xác cao.

Phân tích cấu trúc bảng từ các tệp

Tìm nạp dữ liệu bảng từ tài liệu và bảng tính một cách hiệu quả mà không bị mất định dạng.

Cấu hình trích xuất bảng linh hoạt

Điều chỉnh việc nhận diện bố cục, căn chỉnh cột và tùy chọn tiêu đề/chân cho kiểm soát chính xác đầu ra.

Cách trích xuất bảng từ bảng tính Excel

Ví dụ mã này cho thấy cách đọc và lặp qua dữ liệu bảng trong tệp XLSX bằng cách sử dụng GroupDocs.Parser.

C#

//  Mở tệp Excel bằng API Parser
using (Parser parser = new Parser("input.xlsx"))
{
    // Thoát nếu không thể trích xuất bảng từ tệp
    if (!parser.Features.Tables)
    {
        return;
    }

    // Sử dụng quy tắc bố cục để xác định nội dung bảng
    TemplateTableLayout layout = new TemplateTableLayout(
            new double[] { 50, 95, 275, 415, 485, 545 },
            new double[] { 325, 340, 365, 395 });

    // Thiết lập các tham số trích xuất cho bảng
    PageTableAreaOptions options = new PageTableAreaOptions(layout);

    // Thực hiện thao tác trích xuất bảng
    IEnumerable<PageTableArea> tables = parser.GetTables(options);

    // Đi qua từng cấu trúc bảng được phát hiện
    foreach (PageTableArea t in tables)
    {
        // Lặp qua từng hàng trong bảng
        for (int row = 0; row < t.RowCount; row++)
        {
            // Lặp qua các ô trong mỗi hàng
            for (int column = 0; column < t.ColumnCount; column++)
            {
                // Truy cập ô bảng hiện tại
                PageTableAreaCell cell = t[row, column];
                if (cell != null)
                {
                    // Hiển thị nội dung văn bản của mỗi ô
                    Console.Write(cell.Text);
                    Console.Write(" | ");
                }
            }
        }
    }
}

Giới thiệu về API GroupDocs.Parser for .NET

GroupDocs.Parser là một API phân tích tài liệu toàn diện, được xây dựng cho các nhà phát triển .NET. Nó cho phép trích xuất chính xác văn bản, bảng, hình ảnh, liên kết và các phần tử có cấu trúc khác từ các định dạng như PDF, DOCX, XLSX, PPTX và nhiều định dạng khác — mà không cần phần mềm bên thứ ba.
Tìm hiểu thêm
About illustration

Sẵn sàng để bắt đầu?

Tải xuống GroupDocs.Parser miễn phí hoặc nhận giấy phép dùng thử để có toàn quyền truy cập!

Tài nguyên hữu ích

Khám phá tài liệu, mẫu mã và hỗ trợ cộng đồng để nâng cao trải nghiệm của bạn.

Các định dạng được hỗ trợ cho việc trích xuất bảng

GroupDocs.Parser có thể trích xuất dữ liệu bảng từ nhiều loại tài liệu. Dưới đây là những định dạng thường được sử dụng nhất cho việc phân tích bảng có cấu trúc.

Lời khuyên về giấy phép tạm thời

1
Đăng ký bằng email công việc của bạn. Dịch vụ thư miễn phí không được phép.
2
Sử dụng nút Nhận giấy phép tạm thời ở Bước thứ hai.
 Tiếng Việt