GroupDocs.Parser trong cái nhìn tổng quan
API để thực hiện phân tích tài liệu trong các ứng dụng Java
Trích xuất dữ liệu từ tài liệu
GroupDocs.Parser for Java API cho phép bạn truy xuất văn bản, siêu dữ liệu và hình ảnh từ nhiều định dạng tệp như tài liệu Office, email, tệp đính kèm và lưu trữ. Công cụ mạnh mẽ này giúp bạn truy cập và xử lý thông tin giá trị nằm trong các tệp này một cách hiệu quả cho nhiều ứng dụng như phân tích dữ liệu, lập chỉ mục công cụ tìm kiếm, hoặc hệ thống quản lý nội dung.
Phân tích tài liệu
Trích xuất các yếu tố khác nhau như siêu liên kết, bảng, mã QR, mã vạch và dữ liệu từ biểu mẫu PDF. Đồng thời phân tích bất kỳ thông tin nào mong muốn từ tài liệu bằng cách sử dụng các mẫu tùy chỉnh.
Tùy chỉnh kết quả
Java API cho phép bạn truy xuất dữ liệu ở nhiều định dạng khác nhau như thô, cấu trúc, HTML hoặc Markdown. Ngoài ra, API còn cung cấp chức năng tìm kiếm để xác định các từ hoặc cụm từ cụ thể trong văn bản của tài liệu.