GroupDocs.Parser sekilas

API untuk melakukan penguraian dokumen dalam aplikasi Java

Illustration parser

Ekstrak data dari dokumen

GroupDocs.Parser for Java API memungkinkan Anda untuk mengambil teks, metadata, dan gambar dari berbagai format file seperti dokumen Office, email, lampiran, dan arsip. Alat yang kuat ini membantu Anda dengan efisien mengakses dan memproses informasi berharga yang terkandung dalam file ini untuk berbagai aplikasi seperti analisis data, pengindeksan mesin pencari, atau sistem manajemen konten.

Uraikan dokumen

Ekstrak berbagai elemen seperti hyperlink, tabel, kode QR, kode batang dan data dari formulir PDF. Juga uraikan informasi yang diinginkan dari dokumen menggunakan template kustom.

Kustomisasi hasil

Java API memungkinkan Anda untuk mengambil data dalam berbagai format seperti mentah, terstruktur, HTML, atau Markdown. Selain itu, API menawarkan fungsi pencarian untuk menemukan kata atau frasa tertentu dalam teks dokumen.

Independensi Platform

GroupDocs.Parser for Java mendukung sistem operasi, framework dan pengelola paket berikut.

Amazon
Docker
Azure
Eclipse
IntelliJ
Windows
Linux
Maven

Format file yang didukung

GroupDocs.Parser for Java mendukung operasi dengan format file berikut.

Format Microsoft Office

  • Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
  • Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
  • PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

Gambar & Format Lainnya

  • Portabel: PDF
  • Gambar: JPG, BMP, PNG, TIFF, GIF
  • Format kantor lainnya: ODT, OTT, OTS, ODS, ODP, OTP, ODG

Format Lainnya

  • Web: HTML, MHTML
  • Arsip: ZIP, TAR, 7Z
  • e-Book: CHM, EPUB, FB2, MOBI

Fitur GroupDocs.Parser for Java

Ekstrak data dari PDF, Dokumen Office, dan Gambar dengan cepat dan akurat

Feature icon

Ekstrak teks

Ekstrak informasi tekstual dari berbagai format file seperti dokumen office, file PDF, dan gambar untuk keterbacaan dan analisis yang mudah.

Feature icon

Ekstrak gambar

Dapatkan konten visual dari berbagai sumber seperti dokumen office, file PDF untuk akses dan penggunaan yang nyaman.

Feature icon

Pindai Kode QR

Deteksi dan dekode kode QR yang terdapat dalam dokumen kantor, file PDF, atau konten visual untuk pengambilan informasi yang efisien.

Feature icon

Ekstrak data dari lampiran email dan arsip

Kumpulkan informasi berharga dari pesan email, lampiran file, dan sumber data terkompresi untuk analisis dan pemanfaatan yang efektif.

Feature icon

Ekstrak tabel

Identifikasi dan ekstrak data tabel dari dokumen PDF untuk analisis dan penggunaan yang terorganisir.

Feature icon

Ekstrak hyperlink

Temukan dan ekstrak hyperlink serta alamat email dalam dokumen office atau file PDF untuk akses yang efisien.

Feature icon

Parse Formulir PDF

Formulir PDF adalah dokumen digital yang memiliki bidang isian untuk interaksi pengguna, memungkinkan mereka untuk memasukkan informasi secara elektronik. API .NET dapat digunakan untuk mengekstrak data dari formulir ini untuk pemrosesan yang efisien.

Feature icon

Parse data dengan template

Buat template kustom dan gunakan dengan API .NET untuk menguraikan informasi spesifik dari file PDF, menyederhanakan proses ekstraksi data.

Feature icon

Cari teks dalam dokumen

Dengan cepat locasikan kata atau pola tertentu dalam dokumen.

Contoh kode

Beberapa kasus penggunaan operasi GroupDocs.Parser for Java yang khas

Ekstrak gambar dari dokumen PDF

GroupDocs.Parser for Java memudahkan pengembang Java untuk mengekstrak gambar dari dokumen:

Ekstrak gambar dari dokumen PDF di Java

// Buat instance dari kelas Parser
try (Parser parser = new Parser("source.pdf"))
{
    // Ekstrak gambar
    Iterable<PageImageArea> images = parser.getImages();

    // Periksa apakah ada yang diekstrak
    if (images == null) {
        return;
    }

    // Iterasi melalui gambar
    for (PageImageArea image : images) {
        // Cetak indeks halaman, kotak pembatas, dan jenis gambar
        System.out.println(String.format("Page: %d, R: %s, Type: %s", 
            image.getPage().getIndex(), image.getRectangle(), image.getFileType()));
    }
}

Ekstrak kode batang dari gambar

Gunakan API Java kami untuk mengekstrak kode batang dari gambar:

Ekstrak kode batang dari gambar di Java

// Muat gambar sumber ke Parser
try (Parser parser = new Parser("source.jpg")){

    // Periksa apakah file mendukung ekstraksi kode batang
    if (!parser.getFeatures().isBarcodes()) {

        // Ekstrak kode batang dari file
        Iterable<PageBarcodeArea> barcodes = parser.getBarcodes();

        // Iterasi melalui kode batang
        for (PageBarcodeArea barcode : barcodes) {
            // Cetak indeks halaman
            System.out.println("Page: " + barcode.getPage().getIndex());
            // Cetak nilai kode batang
            System.out.println("Value: " + barcode.getValue());
        }
    }
}

Siap untuk memulai?

Unduh GroupDocs.Parser secara gratis atau dapatkan lisensi uji coba untuk akses penuh!

Sumber daya yang berguna

Jelajahi dokumentasi, sampel kode, dan dukungan masyarakat untuk meningkatkan pengalaman Anda.

Tip lisensi sementara

1
Daftar dengan email kantor Anda. Layanan email gratis tidak diperbolehkan.
2
Gunakan tombol Dapatkan lisensi sementara pada langkah kedua.
 Indonesian