GroupDocs.Parser for Java

Ekstrak data dari dokumen RTF dalam Java

Secara menyeluruh ekstrak konten terstruktur seperti teks, metadata, tabel, dan grafik dari dokumen PDF, Word, Excel, dan berbasis gambar menggunakan GroupDocs.Parser dalam aplikasi Java Anda.

Unduhan Maven

Mulai Uji Coba Gratis

Cara mengekstrak data dari Rtf menggunakan Java

Untuk mengekstrak informasi berguna dari dokumen RTF dalam proyek Java Anda menggunakan GroupDocs.Parser, ikuti instruksi berikut:

Buka file RTF dengan objek Parser.
Gunakan parser untuk mengambil data yang dibutuhkan (teks, tabel, metadata, dst.).
Pastikan outputnya benar dan lengkap.
Integrasikan konten yang diparsing ke dalam aliran data, proses bisnis, atau aplikasi Anda.

Salin

// Inisialisasi Parser Anda dengan dokumen input
try (Parser parser = new Parser("input.rtf"))
{
    // Ambil semua konten teks yang tersedia dari dokumen tersebut
    try (TextReader reader = parser.getText())
    {
        // Jika tidak ada teks yang ditemukan, nilai yang dikembalikan akan null
        // Gabungkan konten yang diekstrak ke dalam solusi Anda
        System.out.println(reader == null ? 
            "Format ini mungkin tidak mendukung ekstraksi teks" : reader.readToEnd());
    }
}

<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>24.9</version>
</dependency>
</dependencies>
<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://repository.groupdocs.com/repo/</url>
</repository>
</repositories>

klik untuk menyalin

disalin

Lebih banyak contoh Dokumentasi

Fungsionalitas pem-parsing dokumen yang serbaguna

GroupDocs.Parser lebih dari sekadar ekstraksi teks—ini mendukung pem-parsing penuh kode batang, metadata, gambar, tabel, dan data lain untuk mendukung otomatisasi cerdas dan aplikasi berbasis data.

Gambaran visual pem-parsing dan ekstraksi data dokumen

Ekstrak dari berbagai format file

Akses data seperti teks, tabel, dan media dari jenis file yang umum digunakan seperti PDF, Word, Excel, PowerPoint, HTML, dan lainnya.

Parse konten dari sumber digital dan yang dipindai

Proses konten dari baik file digital asli maupun gambar yang dipindai, menggunakan OCR bila perlu untuk menginterpretasikan teks yang tertanam.

Opsi konfigurasi yang fleksibel

Sesuaikan pem-parsing Anda dengan pengaturan untuk pemilihan halaman, zona tata letak, dan template bidang kustom untuk memenuhi kebutuhan ekstraksi yang spesifik.

Pem-parsing PDF menggunakan template ekstraksi data

Contoh ini menunjukkan bagaimana mengekstrak bidang terstruktur dari PDF menggunakan template kustom melalui GroupDocs.Parser.

Java

//  Buka PDF menggunakan kelas Parser
try (Parser parser = new Parser("input.pdf"))
{
    // Terapkan template pem-parsing untuk mengekstrak data yang ditentukan
    DocumentData data = parser.parseByTemplate(GetTemplate());

    // Periksa apakah ekstraksi berbasis template tersedia
    if (data == null) {
        return;
    }

    // Bekerja dengan bidang data yang diekstrak
    for (int i = 0; i < data.getCount(); i++) {
        System.out.print(data.get(i).getName() + ": ");
        PageTextArea area = data.get(i).getPageArea() instanceof PageTextArea
                ? (PageTextArea) data.get(i).getPageArea() : null;
        System.out.println(area == null ? "Not a template field" : area.getText());
    }
}

private static Template GetTemplate()
{
    // Tentukan pengaturan detektor untuk mengekstrak bagian 'Detail'
    TemplateTableParameters detailsTableParameters = 
        new TemplateTableParameters(new Rectangle(new Point(35, 320), new Size(530, 55)), null);

    TemplateItem[] templateItems = new TemplateItem[]
    {
        new TemplateTable(detailsTableParameters, "details", null)
    };

    Template template = new Template(java.util.Arrays.asList(templateItems));
    return template;
}

Apa itu GroupDocs.Parser for Java?

GroupDocs.Parser adalah API yang kuat dirancang untuk pengembang Java, menawarkan fungsionalitas pem-parsing dokumen yang canggih. Ini memungkinkan Anda untuk ekstrak dan proses data tekstual, gambar, tabel, bidang terstruktur, dan kode batang dari berbagai format seperti PDF, DOCX, XLSX, PPTX, dan lebih banyak lagi — semua tanpa menginstal pustaka tambahan.

Pelajari lebih lanjut

Siap untuk memulai?

Unduh GroupDocs.Parser secara gratis atau dapatkan lisensi uji coba untuk akses penuh!

Unduhan Maven

Mulai Uji Coba Gratis

Sumber daya yang berguna

Jelajahi dokumentasi, sampel kode, dan dukungan masyarakat untuk meningkatkan pengalaman Anda.

Jenis file yang didukung untuk ekstraksi konten

GroupDocs.Parser kompatibel dengan berbagai jenis file dokumen dan gambar, memungkinkan Anda untuk mengambil informasi dari format yang sering digunakan dalam skenario pem-parsing dan otomatisasi data.

Menganalisis PDF
(Format Dokumen Portabel)
Menganalisis DOCX
(Dokumen Word Office 2007+)
Menganalisis PPTX
(Format Presentasi Open XML)
Menganalisis XLSX
(Workbook Open XML)
Menganalisis TXT
(File Teks)
Menganalisis XML
(Bahasa Markup yang Dapat Diperluas)
Menganalisis EPUB
(File eBook Terbuka)