Ekstrak teks dari dokumen Di Java

Ekstrak teks dari dokumen dengan beberapa baris kode Java.


Unduh Uji Coba Gratis

Bagaimana cara mengekstrak teks dari file Java API?

GroupDocs.Parser for Java adalah API ekstraktor teks, gambar, dan metadata, yang mendukung lebih dari 50 jenis dokumen populer untuk membantu membangun aplikasi bisnis dengan fitur penguraian teks mentah, terstruktur & diformat. Ini juga mendukung penguraian dokumen menggunakan templat yang telah ditentukan sebelumnya dan memungkinkan penggalian data kompleks dari faktur dan dokumen tipikal lainnya dengan kecepatan dan akurasi. GroupDocs.Parser for Java memungkinkan Anda mengekstrak teks dan metadata dari file yang dilindungi kata sandi dari semua format populer termasuk Word memproses dokumen, Excel spreadsheet, PowerPoint presentasi, OneNote, PDF file, dan ZIP arsip.

GroupDocs.Parser API adalah pilihan yang tepat untuk solusi korporat yang membutuhkan fitur ekstraksi teks file. API ini didukung dengan baik di semua sistem operasi dan platform utama termasuk Java runtime: J2SE 6.0 and above.

Ekstrak teks dari dokumen di Java

GroupDocs.Parser for Java memudahkan pengembang Java untuk mengekstrak teks dari dokumen dengan menerapkan beberapa langkah mudah.

  • Membuat instance objek Parser untuk dokumen awal;
  • Panggil metode getText dan dapatkan TextReader objek;
  • Periksa apakah pembaca tidak null (ekstraksi teks didukung untuk dokumen);
  • Membaca teks dari pembaca.

Cara mengekstrak teks dari dokumen menggunakan kode contoh Java

// Ekstrak teks dari dokumen menggunakan GroupDocs.Parser API
// Buat instance kelas Parser
try (Parser parser = new Parser(filePath)) {
    // Ekstrak teks ke pembaca
    try (TextReader reader = parser.getText()) {
        // Cetak teks dari dokumen
        // Jika ekstraksi teks tidak didukung, pembaca adalah null
        System.out.println(reader == null ? "Ekstraksi teks tidak didukung" : reader.readToEnd());
    }
}

Persyaratan sistem

GroupDocs.Parser for Java API didukung di semua platform dan sistem operasi utama. Sebelum menjalankan kode di bawah ini, harap pastikan bahwa Anda telah menginstal prasyarat berikut di sistem Anda.

  • Sistem Operasi: Microsoft Windows, Linux, MacOS
  • Lingkungan Pengembangan: NetBeans, Intellij IDEA, Eclipse, etc.
  • Kerangka kerja
  • Unduh versi terbaru GroupDocs.Parser for Java dari Maven

Mengapa Menggunakan GroupDocs.Parser for Java

  • Dukungan ekstraksi teks biasa dari dokumen yang didukung
  • Penguraian dokumen melalui templat yang ditentukan pengguna
  • Sepenuhnya mendukung ekstraksi teks terstruktur
  • Pencarian teks melalui kata kunci serta ekspresi reguler
  • Ekstrak teks yang diformat, metadata, gambar, wadah, dan lampiran
  • Ekstrak daftar isi untuk beberapa format dokumen yang didukung
  • Mengurai data formulir dari PDF dokumen
  • Ekstrak hyperlink dari dokumen

Demo Langsung - Ekstrak teks dari dokumen Online

Ekstrak teks dari dokumen sekarang juga dengan mengunjungi situs web GroupDocs.Parser Demo Langsung. Demo langsung memiliki manfaat berikut.

Tidak perlu mengunduh API

Tidak perlu menulis kode apa pun

Cukup unggah file sumbernya

Dapatkan tautan unduhan untuk menyimpan file

Ekstrak Teks Dari Format Dokumen Lain

Java mengurai dokumen & API ekstraksi teks untuk format file dan gambar. Ekstrak data untuk beberapa format file populer seperti yang dinyatakan di bawah ini.

DOC

(Microsoft Word Binary Format)

DOCM

(Microsoft Word 2007 Marco File)

DOCX

(Office 2007+ Word Document)

DOT

(Microsoft Word Template Files)

DOTM

(Microsoft Word 2007+ Template File)

DOTX

(Microsoft Word Template File )

EPUB

(Open eBook File)

HTML

(Hyper Text Markup Language)

MHT

(MHTML Web Archive)

MHTML

(Web Page Archive Format)

ODP

(OpenDocument Presentation Format)

ODS

(OpenDocument Spreadsheet)

ODT

(OpenDocument Text File Format)

ONE

(OneNote Document)

OTP

(OpenDocument Standard Format)

OTT

(OpenDocument Standard Format)

PDF

(Portable Document Format)

Back to top
 Indonesian