GroupDocs.Parser Ikhtisar

API untuk melakukan penguraian dokumen di Java aplikasi

Illustration parser

Ekstrak data dari dokumen

Java API memungkinkan Anda mengambil teks, metadata, dan gambar dari berbagai format file seperti dokumen Office, email, lampiran, dan arsip. Alat canggih ini membantu Anda mengakses dan memproses informasi berharga secara efisien yang terkandung dalam file ini untuk berbagai aplikasi seperti analisis data, pengindeksan mesin pencari, atau sistem manajemen konten.

Parsing dokumen

Ekstrak berbagai elemen seperti hyperlink, tabel, kode QR, kode batang, dan data dari formulir PDF. Parsing juga informasi yang diinginkan dari dokumen menggunakan templat khusus.

Menyesuaikan hasil

Java API memungkinkan Anda mengambil data dalam berbagai format seperti mentah, terstruktur, HTML, atau Penurunan harga. Selain itu, API menawarkan fungsi pencarian untuk menemukan kata atau frasa tertentu dalam teks dokumen.

Independensi platform

GroupDocs.Parser for Java mendukung sistem operasi, kerangka kerja, dan pengelola paket berikut

Amazon
Docker
Azure
Eclipse
IntelliJ
Windows
Linux
Maven

Format file yang didukung

GroupDocs.Parser for Java mendukung operasi dengan [format file] berikut(https://docs.groupdocs.com/parser/java/supported-document-formats/).

Microsoft Office format

  • Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
  • Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
  • PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

Gambar & Format Lainnya

  • Portable: PDF
  • Gambar-gambar: JPG, BMP, PNG, TIFF, GIF, DICOM, WEBP
  • Format kantor lainnya: ODT, OTT, OTS, ODS, ODP, OTP, ODG

Format lainnya

  • jaring: HTML, MHTML
  • Arsip: ZIP, TAR, 7Z
  • Ebook: CHM, EPUB, FB2, MOBI

GroupDocs.Parser fitur

Ekstrak data dari PDF, Dokumen Office, dan Gambar dengan cepat dan akurat.

Feature icon

Ekstrak teks

Ekstrak informasi tekstual dari berbagai format file seperti dokumen office, file, dan gambar agar mudah dibaca dan dianalisis.

Feature icon

Ekstrak gambar

Ambil konten visual dari beragam sumber seperti dokumen kantor, file PDF untuk kemudahan akses dan penggunaan.

Feature icon

Pindai Kode QR

Deteksi dan dekode kode QR yang ada dalam dokumen kantor, file PDF, atau konten visual untuk pengambilan informasi yang efisien.

Feature icon

Ekstrak data dari lampiran dan arsip email

Kumpulkan informasi berharga dari pesan email, lampiran file, dan sumber data terkompresi untuk analisis dan pemanfaatan yang efektif.

Feature icon

Ekstrak tabel

Identifikasi dan ekstrak data tabel dari PDF dokumen untuk analisis dan penggunaan yang terorganisir.

Feature icon

Ekstrak hyperlink

Temukan dan ekstrak hyperlink dan alamat email dalam dokumen atau file Office untuk akses yang efisien.

Feature icon

Parsing PDF Formulir

PDF Formulir adalah dokumen digital yang menampilkan kolom yang dapat diisi untuk interaksi pengguna, sehingga memungkinkan mereka memasukkan informasi secara elektronik. Java API dapat digunakan untuk mengekstrak data dari formulir ini untuk pemrosesan yang efisien.

Feature icon

Parsing data berdasarkan templat

Buat template khusus dan gunakan dengan Java API untuk mengurai informasi spesifik dari file PDF, sehingga menyederhanakan proses ekstraksi data.

Feature icon

Cari teks dalam dokumen

Temukan kata atau pola tertentu dalam dokumen dengan cepat.

Contoh kode

Beberapa kasus penggunaan operasi umum

Ekstrak gambar dari PDF dokumen

Java API memudahkan Java pengembang mengekstrak gambar dari dokumen dengan menerapkan beberapa langkah mudah.

Ekstrak gambar dari PDF dokumen di Java

// Create an instance of Parser class
try (Parser parser = new Parser(fileName)) {
    // Extract images
    Iterable<PageImageArea> images = parser.getImages();
    // Check if images extraction is supported
    if (images != null) {
        int imageIndex = 0;
        // Iterate over images
        for (PageImageArea image : images) {
            // Save the image to the file
            image.save(String.format("%s%s", imageIndex, image.getFileType().getExtension()));
        }
    }
}

Ekstrak kode batang dari gambar

Java API memudahkan Java pengembang mengekstrak kode batang dari dokumen dengan menerapkan beberapa langkah mudah.

Ekstrak kode batang dari gambar

// Create an instance of Parser class
try (Parser parser = new Parser(fileName)) {
    // // Check if the file supports barcode extracting
    if (!parser.getFeatures().isBarcodes()) {
        // Extract barcodes from the file.
        Iterable<PageBarcodeArea> barcodes = parser.getBarcodes();
        // Iterate over barcodes
        for (PageBarcodeArea barcode : barcodes) {
            // Print the page index
            System.out.println("Page: " + barcode.getPage().getIndex());
            // Print the barcode value
            System.out.println("Value: " + barcode.getValue());
        }
    }
}
 Indonesian