GroupDocs.Parser for Java

Truy xuất văn bản từ PDF bằng Java

Lấy văn bản có thể đọc hoặc có cấu trúc từ các tệp như PDF, Word, Excel, và nhiều hơn nữa bằng cách sử dụng GroupDocs.Parser trong các dự án phát triển Java của bạn.

Tải xuống Maven

Bắt đầu dùng thử miễn phí

Cách truy xuất văn bản từ Pdf bằng Java

Thực hiện các bước dưới đây để trích xuất văn bản từ các tệp PDF sử dụng GroupDocs.Parser trong dự án Java của bạn:

Tải tài liệu PDF bằng lớp Parser.
Thực hiện trích xuất văn bản từ nội dung tệp.
Kiểm tra xem văn bản đã được truy xuất thành công chưa.
Sử dụng dữ liệu văn bản trong hệ thống tìm kiếm, phân tích hoặc tự động hóa.

Sao chép

// Khởi tạo Parser với tài liệu của bạn
try (Parser parser = new Parser("input.pdf"))
{
    // Đọc và trích xuất toàn bộ dữ liệu văn bản
    try (TextReader reader = parser.getText())
    {
        // Trả về null nếu nội dung văn bản không có
        // Tích hợp văn bản đã trích xuất vào quy trình làm việc của bạn
        System.out.println(reader == null ? 
            "Bỏ qua các định dạng không hỗ trợ trích xuất văn bản" : reader.readToEnd());
    }
}

<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>24.9</version>
</dependency>
</dependencies>
<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://repository.groupdocs.com/repo/</url>
</repository>
</repositories>

nhấp để sao chép

đã sao chép

Nhiều ví dụ hơn Tài liệu

Chức năng trích xuất văn bản phong phú

GroupDocs.Parser vượt ra ngoài việc trích xuất văn bản đơn giản—hỗ trợ việc truy xuất hình ảnh, siêu dữ liệu và dữ liệu có cấu trúc để nâng cao các tác vụ xử lý nội dung.

Trích xuất và cấu trúc nội dung văn bản từ các tài liệu

Hỗ trợ nhiều định dạng tài liệu

Trích xuất văn bản thô và có cấu trúc từ DOCX, XLSX, PPTX, PDF, HTML và nhiều định dạng khác.

Trích xuất văn bản từ nội dung hình ảnh và văn bản

Phân tích văn bản từ các tài liệu quét, slide, bảng tính và các loại tệp khác trong khi vẫn giữ nguyên cấu trúc logic.

Kiểm soát chi tiết quá trình trích xuất

Cấu hình phạm vi trang, vùng bố cục và các tham số độ chính xác để tối ưu hóa việc phân tích văn bản.

Mẫu: Trích xuất vùng văn bản từ tài liệu PPTX

Mẫu này minh họa việc trích xuất các khối văn bản cùng với tọa độ không gian của chúng từ một bài thuyết trình PowerPoint bằng cách sử dụng GroupDocs.Parser.

Java

//  Tải tệp PPTX của bạn với API Parser
try (Parser parser = new Parser("input.pptx"))
{
    // Lấy tất cả các vùng văn bản hình chữ nhật
    IEnumerable<PageTextArea> areas = parser.GetTextAreas();

    // Thoát nếu chức năng này không được hỗ trợ
    if (areas == null)
    {
        return;
    }

    // Lặp qua các khu vực văn bản theo trang
    for (PageTextArea a : areas)
    {
        // Xử lý từng khối văn bản với số trang và hình chữ nhật bao quanh
        System.out.println(String.format("Page: %d, R: %s, Text: %s", a.getPage().getIndex(), a.getRectangle(), a.getText()));
    }
}

Giới thiệu về API GroupDocs.Parser for Java

GroupDocs.Parser là một bộ phân tích tài liệu mạnh mẽ và có thể mở rộng dành cho các nhà phát triển Java. Nó cung cấp khả năng trích xuất chính xác văn bản, bảng biểu, hình ảnh và các thành phần có cấu trúc từ nhiều định dạng khác nhau, bao gồm PDF, DOCX, XLSX, PPTX và nhiều định dạng khác—mà không cần phụ thuộc vào các tiện ích bên ngoài.

Tìm hiểu thêm

Sẵn sàng để bắt đầu?

Tải xuống GroupDocs.Parser miễn phí hoặc nhận giấy phép dùng thử để có toàn quyền truy cập!

Tải xuống Maven

Bắt đầu dùng thử miễn phí

Tài nguyên hữu ích

Khám phá tài liệu, mẫu mã và hỗ trợ cộng đồng để nâng cao trải nghiệm của bạn.

Các loại tệp được hỗ trợ cho việc trích xuất văn bản

GroupDocs.Parser có khả năng trích xuất nội dung văn bản từ nhiều định dạng tệp và hình ảnh khác nhau. Dưới đây là những loại tệp thông dụng nhất mà nó hỗ trợ.

Phân tích DOCX
(Tài liệu Microsoft Word 2007+)
Phân tích PPTX
(Định dạng trình bày Open XML)
Phân tích XLSX
(Sổ làm việc Open XML)
Phân tích TXT
(Tập tin văn bản)
Phân tích RTF
(Định dạng văn bản phong phú)
Phân tích XML
(Ngôn ngữ đánh dấu mở rộng)
Phân tích EPUB
(Tập tin eBook mở)