GroupDocs.Parser for .NET

Phân tích tài liệu EPUB bằng C#

Trích xuất hiệu quả văn bản, siêu dữ liệu, bảng và hình ảnh từ các tệp PDF, Word, Excel và hình ảnh bằng cách sử dụng GroupDocs.Parser trong các dự án .NET của bạn.

Tải xuống NuGet

Bắt đầu dùng thử miễn phí

Các bước để trích xuất dữ liệu từ Epub trong C#

Thực hiện các bước sau để phân tích nội dung từ các tài liệu EPUB trong các ứng dụng .NET của bạn bằng GroupDocs.Parser:

Tải tài liệu EPUB bằng cách sử dụng một thể hiện Parser.
Trích xuất nội dung mong muốn như văn bản, bảng hoặc siêu dữ liệu.
Xác minh rằng dữ liệu đã trích xuất là hợp lệ.
Sử dụng đầu ra đã phân tích trong quy trình xử lý tiếp theo, tự động hóa hoặc hệ thống kinh doanh của bạn.

Sao chép

// Tải tài liệu của bạn vào Parser
using (Parser parser = new Parser("input.epub")) {

    // Trích xuất tất cả nội dung văn bản từ tệp
    using (TextReader reader = parser.GetText()) 
    {
        // Nếu văn bản không có sẵn, kết quả sẽ là null
        // Sử dụng văn bản đã trích xuất trong ứng dụng của bạn
        Console.WriteLine(reader == null ? 
            "Trích xuất văn bản không được hỗ trợ cho định dạng này" : reader.ReadToEnd());
    }
}

dotnet add package GroupDocs.Parser

nhấp để sao chép

đã sao chép

Nhiều ví dụ hơn Tài liệu

Khả năng phân tích tài liệu toàn diện

GroupDocs.Parser không chỉ hỗ trợ việc đọc văn bản — nó còn hỗ trợ trích xuất mã vạch, phân tích hình ảnh, truy cập siêu dữ liệu và xử lý dữ liệu có cấu trúc cho tự động hóa nâng cao và phân tích dữ liệu.

Khả năng trích xuất và phân tích nội dung tài liệu

Hỗ trợ cho nhiều loại nội dung tệp khác nhau

Trích xuất dữ liệu bao gồm văn bản, hình ảnh, bảng và trường từ các định dạng tài liệu như PDF, Word, Excel, HTML và nhiều hơn nữa.

Làm việc với cả tệp quét và kỹ thuật số

Phân tích dữ liệu từ các tài liệu quét và các tệp kỹ thuật số, với hỗ trợ cho OCR và trích xuất dựa trên bố cục.

Tham số trích xuất có thể cấu hình

Điều chỉnh logic phân tích với các tùy chọn linh hoạt như chọn phạm vi trang, nhắm mục tiêu khu vực và các mẫu phát hiện trường.

Cách phân tích PDF bằng cách sử dụng mẫu

Ví dụ này cho thấy cách trích xuất dữ liệu có cấu trúc từ một PDF bằng cách sử dụng một mẫu phân tích đã định nghĩa trước với GroupDocs.Parser.

C#

//  Tải tệp PDF bằng lớp Parser
using (Parser parser = new Parser("input.pdf"))
{
    // Phân tích tài liệu theo mẫu
    DocumentData data = parser.ParseByTemplate(GetTemplate());

    // Kiểm tra xem việc trích xuất từ biểu mẫu có được hỗ trợ hay không
    if (data == null)
    {
        return;
    }

    // Xử lý các trường đã lấy
    for (int i = 0; i < data.Count; i++)
    {
        Console.Write(data[i].Name + ": ");
        PageTextArea area = data[i].PageArea as PageTextArea;
        Console.WriteLine(area == null ? "Not a template field" : area.Text);
    }
}

private static Template GetTemplate()
{
    // Tạo tham số phát hiện cho bảng 'Chi tiết'
    TemplateTableParameters detailsTableParameters = 
        new TemplateTableParameters(new Rectangle(new Point(35, 320), new Size(530, 55)), null);

    TemplateItem[] templateItems = new TemplateItem[]
    {
        new TemplateTable(detailsTableParameters, "details", null)
    };

    Template template = new Template(templateItems);
    return template;
}

Về API GroupDocs.Parser for .NET

GroupDocs.Parser là một API phân tích tài liệu đầy đủ tính năng, được thiết kế cho các nhà phát triển .NET. Nó hỗ trợ trích xuất văn bản thường và có cấu trúc, siêu dữ liệu, hình ảnh, bảng và mã vạch từ các định dạng phổ biến như PDF, DOCX, XLSX, PPTX và nhiều hơn nữa - tất cả mà không cần các phụ thuộc phần mềm bổ sung.

Tìm hiểu thêm

Sẵn sàng để bắt đầu?

Tải xuống GroupDocs.Parser miễn phí hoặc nhận giấy phép dùng thử để có toàn quyền truy cập!

Tải xuống NuGet

Bắt đầu dùng thử miễn phí

Tài nguyên hữu ích

Khám phá tài liệu, mẫu mã và hỗ trợ cộng đồng để nâng cao trải nghiệm của bạn.

Các định dạng được hỗ trợ cho việc trích xuất dữ liệu

GroupDocs.Parser cho phép phân tích qua một loạt các định dạng tài liệu và hình ảnh. Khám phá các loại tệp được hỗ trợ thường được sử dụng trong quy trình làm việc trích xuất dữ liệu.

Phân tích PDF
(Định dạng tài liệu di động)
Phân tích DOCX
(Tài liệu Microsoft Word 2007+)
Phân tích PPTX
(Định dạng trình bày Open XML)
Phân tích XLSX
(Sổ làm việc Open XML)
Phân tích TXT
(Tập tin văn bản)
Phân tích RTF
(Định dạng văn bản phong phú)
Phân tích XML
(Ngôn ngữ đánh dấu mở rộng)