GroupDocs.Parser for Java adalah API ekstraktor teks, gambar, dan metadata, yang mendukung lebih dari 50 jenis dokumen populer untuk membantu membangun aplikasi bisnis dengan fitur penguraian teks mentah, terstruktur & diformat. Ini juga mendukung penguraian dokumen menggunakan templat yang telah ditentukan sebelumnya dan memungkinkan penggalian data kompleks dari faktur dan dokumen tipikal lainnya dengan kecepatan dan akurasi. GroupDocs.Parser for Java memungkinkan Anda mengekstrak teks dan metadata dari file yang dilindungi kata sandi dari semua format populer termasuk Word memproses dokumen, Excel spreadsheet, PowerPoint presentasi, OneNote, PDF file, dan ZIP arsip.
GroupDocs.Parser API adalah pilihan yang tepat untuk solusi korporat yang membutuhkan fitur ekstraksi teks file. API ini didukung dengan baik di semua sistem operasi dan platform utama termasuk Java runtime: J2SE 6.0 and above.
GroupDocs.Parser for Java memudahkan pengembang Java untuk mengekstrak teks dari dokumen dengan menerapkan beberapa langkah mudah.
// Ekstrak teks dari dokumen menggunakan GroupDocs.Parser API
// Buat instance kelas Parser
try (Parser parser = new Parser(filePath)) {
// Ekstrak teks ke pembaca
try (TextReader reader = parser.getText()) {
// Cetak teks dari dokumen
// Jika ekstraksi teks tidak didukung, pembaca adalah null
System.out.println(reader == null ? "Ekstraksi teks tidak didukung" : reader.readToEnd());
}
}
GroupDocs.Parser for Java API didukung di semua platform dan sistem operasi utama. Sebelum menjalankan kode di bawah ini, harap pastikan bahwa Anda telah menginstal prasyarat berikut di sistem Anda.
Ekstrak teks dari dokumen sekarang juga dengan mengunjungi situs web GroupDocs.Parser Demo Langsung. Demo langsung memiliki manfaat berikut.
Tidak perlu mengunduh API
Tidak perlu menulis kode apa pun
Cukup unggah file sumbernya
Dapatkan tautan unduhan untuk menyimpan file
Java mengurai dokumen & API ekstraksi teks untuk format file dan gambar. Ekstrak data untuk beberapa format file populer seperti yang dinyatakan di bawah ini.
(Microsoft Word Binary Format)
(Microsoft Word 2007 Marco File)
(Office 2007+ Word Document)
(Microsoft Word Template Files)
(Microsoft Word 2007+ Template File)
(Microsoft Word Template File )
(Open eBook File)
(Hyper Text Markup Language)
(MHTML Web Archive)
(Web Page Archive Format)
(OpenDocument Presentation Format)
(OpenDocument Spreadsheet)
(OpenDocument Text File Format)
(OneNote Document)
(OpenDocument Standard Format)
(OpenDocument Standard Format)
(Portable Document Format)