GroupDocs.Parser for Java

Ambil teks dari DOCX menggunakan Java

Dengan mulus tarik teks yang dapat dibaca atau terstruktur dari file seperti PDF, Word, Excel, dan lainnya menggunakan GroupDocs.Parser dalam proyek pengembangan Java Anda.

Unduhan Maven

Mulai Uji Coba Gratis

Cara mengambil teks dari Docx menggunakan Java

Ikuti langkah-langkah berikut untuk mengekstrak teks dari file DOCX menggunakan GroupDocs.Parser dalam proyek Java Anda:

Muat dokumen DOCX menggunakan kelas Parser.
Lakukan ekstraksi teks dari konten file.
Periksa apakah teks berhasil diambil.
Gunakan data teks dalam sistem pencarian, analitik, atau automasi.

Salin

// Inisialisasi Parser dengan dokumen Anda
try (Parser parser = new Parser("input.docx"))
{
    // Baca dan ekstrak semua data teks
    try (TextReader reader = parser.getText())
    {
        // Kembalikan null jika konten teks tidak ada
        // Integrasikan teks yang diekstrak ke dalam alur kerja Anda
        System.out.println(reader == null ? 
            "Lewati format ekstraksi teks yang tidak didukung" : reader.readToEnd());
    }
}

<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>24.9</version>
</dependency>
</dependencies>
<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://repository.groupdocs.com/repo/</url>
</repository>
</repositories>

klik untuk menyalin

disalin

Lebih banyak contoh Dokumentasi

Fungsionalitas ekstraksi teks yang kaya

GroupDocs.Parser melampaui ekstraksi teks sederhana—mendukung pengambilan gambar, metadata, dan data terstruktur untuk meningkatkan tugas pemrosesan konten.

Ekstrak dan strukturkan konten teks dari dokumen

Bekerja di berbagai format dokumen

Tangkap baik teks mentah maupun terstruktur dari DOCX, XLSX, PPTX, PDF, HTML, dan berbagai format.

Ekstrak teks dari konten visual dan tekstual

Parsing teks dari dokumen yang dipindai, slide, spreadsheet, dan tipe file lain sambil mempertahankan struktur logis.

Kontrol detail atas proses ekstraksi

Konfigurasikan rentang halaman, zona tata letak, dan parameter akurasi untuk parsing teks yang lebih tepat.

Contoh: Mengekstrak daerah teks dari dokumen PPTX

Contoh ini menunjukkan cara mengekstrak blok teks bersamaan dengan koordinat spasialnya dari presentasi PowerPoint menggunakan GroupDocs.Parser.

Java

//  Muat file PPTX Anda dengan API Parser
try (Parser parser = new Parser("input.pptx"))
{
    // Dapatkan semua zona teks berbentuk persegi
    IEnumerable<PageTextArea> areas = parser.GetTextAreas();

    // Keluar jika fitur ini tidak didukung
    if (areas == null)
    {
        return;
    }

    // Loop melalui area teks per halaman
    for (PageTextArea a : areas)
    {
        // Proses setiap blok teks dengan nomor halamannya dan batas persegi
        System.out.println(String.format("Page: %d, R: %s, Text: %s", a.getPage().getIndex(), a.getRectangle(), a.getText()));
    }
}

Memperkenalkan API GroupDocs.Parser for Java

GroupDocs.Parser adalah pengurai dokumen yang kuat dan scalable yang dirancang untuk pengembang Java. Ini menawarkan kemampuan untuk mengekstrak teks, tabel, gambar, dan komponen terstruktur secara akurat dari berbagai format termasuk PDF, DOCX, XLSX, PPTX, dan lainnya—tanpa bergantung pada utilitas eksternal.

Pelajari lebih lanjut