GroupDocs.Parser for .NET

Trích xuất văn bản từ PDF bằng C#

Nhanh chóng trích xuất văn bản có thể đọc và có cấu trúc từ PDFs, Word, Excel và các loại tệp khác bằng cách sử dụng GroupDocs.Parser trong các giải pháp .NET của bạn.

Các bước để trích xuất văn bản từ Pdf trong C#

Bạn có thể trích xuất văn bản sạch và có cấu trúc từ tài liệu PDF trong các ứng dụng .NET với GroupDocs.Parser bằng cách làm theo các bước sau:

  1. Mở tài liệu PDF bằng một thể hiện Parser.
  2. Trích xuất văn bản từ nội dung của tệp.
  3. Kiểm tra kết quả để xác nhận việc trích xuất văn bản thành công.
  4. Sử dụng văn bản đã trích xuất trong logic doanh nghiệp, lập chỉ mục, hoặc các pipeline dữ liệu.
// Tải tài liệu của bạn vào Parser
using (Parser parser = new Parser("input.pdf")) {

    // Trích xuất tất cả nội dung văn bản từ tệp
    using (TextReader reader = parser.GetText()) 
    {
        // Nếu văn bản không khả dụng, kết quả sẽ là null
        // Sử dụng văn bản đã trích xuất trong ứng dụng của bạn
        Console.WriteLine(reader == null ? 
            "Việc trích xuất văn bản không được hỗ trợ cho định dạng này" : reader.ReadToEnd());
    }
}
dotnet add package GroupDocs.Parser
nhấp để sao chép
đã sao chép
Nhiều ví dụ hơn Tài liệu

Các tính năng trích xuất nội dung toàn diện

Ngoài văn bản đơn giản, GroupDocs.Parser còn có thể trích xuất hình ảnh, các yếu tố có cấu trúc, và siêu dữ liệu để hỗ trợ phân tích nội dung, chuyển đổi, và tự động hóa.

Nhận diện văn bản và phân tích tài liệu có cấu trúc

Trích xuất văn bản từ nhiều loại tệp

Nhận văn bản đơn giản hoặc có cấu trúc từ các định dạng như PDF, DOCX, XLSX, PPTX, HTML và các định dạng khác.

Xử lý văn bản từ tài liệu và hình ảnh

Trích xuất văn bản từ hình ảnh quét, bài thuyết trình, bảng tính và tài liệu kỹ thuật số trong khi vẫn giữ nguyên cấu trúc.

Cấu hình trích xuất văn bản nâng cao

Tùy chỉnh cách phát hiện văn bản—xác định các khoảng trang, khu vực bố cục và điều chỉnh đầu ra để đạt độ chính xác tối đa.

Cách trích xuất các khu vực văn bản từ tệp PPTX

Mẫu mã này cho thấy cách lấy nội dung văn bản cùng với tọa độ khu vực từ một tệp PowerPoint bằng cách sử dụng GroupDocs.Parser.

C#

//  Tải bài thuyết trình PowerPoint với Parser
using (Parser parser = new Parser("input.pptx"))
{
    // Trích xuất tất cả hình chữ nhật khu vực văn bản từ tài liệu
    IEnumerable<PageTextArea> areas = parser.GetTextAreas();

    // Thoát nếu không có trích xuất khu vực văn bản
    if (areas == null)
    {
        return;
    }

    // Lặp qua các khu vực văn bản của từng trang
    foreach (PageTextArea a in areas)
    {
        // Truy cập chỉ số trang, hình chữ nhật khu vực, và giá trị văn bản
        Console.WriteLine(string.Format("Page: {0}, R: {1}, Text: {2}", a.Page.Index, a.Rectangle, a.Text));
    }
}

Giới thiệu về API GroupDocs.Parser for .NET

GroupDocs.Parser là một API phân tích tài liệu hiệu suất cao dành cho các nhà phát triển .NET. Nó đơn giản hóa việc trích xuất văn bản, hình ảnh, bảng và nội dung có cấu trúc từ nhiều định dạng tệp bao gồm PDF, DOCX, XLSX, PPTX và hơn thế nữa—không phụ thuộc vào thư viện bên thứ ba.
Tìm hiểu thêm
About illustration

Sẵn sàng để bắt đầu?

Tải xuống GroupDocs.Parser miễn phí hoặc nhận giấy phép dùng thử để có toàn quyền truy cập!

Tài nguyên hữu ích

Khám phá tài liệu, mẫu mã và hỗ trợ cộng đồng để nâng cao trải nghiệm của bạn.

Các định dạng được hỗ trợ cho việc trích xuất văn bản

GroupDocs.Parser cho phép trích xuất văn bản từ nhiều loại tài liệu và hình ảnh. Khám phá các định dạng thường được hỗ trợ được liệt kê dưới đây.

Lời khuyên về giấy phép tạm thời

1
Đăng ký bằng email công việc của bạn. Dịch vụ thư miễn phí không được phép.
2
Sử dụng nút Nhận giấy phép tạm thời ở Bước thứ hai.
 Tiếng Việt