GroupDocs.Parser for Java

Ambil data tabel dari PDF menggunakan Java

Dengan mulus mendeteksi dan mengekstraksi tabel dari format seperti PDF, DOCX, dan XLSX dengan GroupDocs.Parser dalam alur kerja Java Anda.

Cara mengambil tabel dari Pdf dalam Java

Untuk mem-parsing tabel dari dokumen PDF menggunakan GroupDocs.Parser, ikuti langkah-langkah berikut di lingkungan Java Anda:

  1. Buat instance Parser dan muat file PDF yang ditargetkan.
  2. Verifikasi bahwa file mendukung ekstraksi tabel terstruktur.
  3. Gunakan API untuk mengambil elemen tabel dari dokumen.
  4. Manfaatkan data yang diekstrak dalam analitik, pelaporan, atau sistem otomatisasi.
// Muat dokumen input dengan Parser yang mencakup elemen tabel
try (Parser parser = new Parser("input.pdf"))
{
    // Verifikasi bahwa tipe dokumen mendukung pengenalan tabel
    if (!parser.getFeatures().isTables()) {
        System.out.println("Tambahkan logika untuk file yang tidak mendukung tabel");
        return;
    }

    // Tentukan aturan untuk memahami struktur tabel
    TemplateTableLayout layout = new TemplateTableLayout(
            java.util.Arrays.asList(new Double[]{50.0, 95.0, 275.0, 415.0, 485.0, 545.0}),
            java.util.Arrays.asList(new Double[]{325.0, 340.0, 365.0, 395.0}));

    // Atur parameter untuk mengekstrak tabel
    PageTableAreaOptions options = new PageTableAreaOptions(layout);

    //  Jalankan ekstraksi tabel pada dokumen yang dimuat
    Iterable<PageTableArea> tables = parser.getTables(options);

    //  Proses masing-masing tabel yang diekstrak dari hasil
    for (PageTableArea t : tables) 
    {
    }
}
<dependencies> <dependency> <groupId>com.groupdocs</groupId> <artifactId>groupdocs-parser</artifactId> <version>24.9</version> </dependency> </dependencies> <repositories> <repository> <id>repository.groupdocs.com</id> <name>GroupDocs Repository</name> <url>https://repository.groupdocs.com/repo/</url> </repository> </repositories>
klik untuk menyalin
disalin
Lebih banyak contoh Dokumentasi

Alat ekstraksi konten tingkat lanjut

Selain membaca tabel, GroupDocs.Parser mendukung pengambilan teks biasa, elemen visual, metadata tertanam, dan objek terstruktur untuk meningkatkan tugas pemrosesan dokumen.

Ekstraksi konten terstruktur dan data tabular

Pemrosesan tabel yang tepat di berbagai format

Dukungan untuk mengekstrak tabel dari jenis dokumen standar seperti PDF, Word, Excel, dan HTML dengan akurasi tinggi.

Baca struktur tabular dari berbagai sumber

Ambil data tabel dari spreadsheet, dokumen, dan laporan sambil mempertahankan struktur dan penyelarasan.

Pengaturan ekstraksi tabel yang dapat disesuaikan

Mengontrol deteksi tata letak, mengelola header dan footer, serta mengatur ekstraksi dengan opsi konfigurasi yang fleksibel.

Contoh: mengekstrak tabel dari dokumen Excel

Contoh ini menunjukkan cara mengekstrak dan mengiterasi konten tabel dalam file Excel (XLSX) menggunakan GroupDocs.Parser.

Java

//  Inisialisasi Parser dengan file Excel
try (Parser parser = new Parser("input.pdf"))
{
    // Keluar jika ekstraksi tabel tidak didukung untuk dokumen ini
    if (!parser.getFeatures().isTables())
    {
        return;
    }

    // Terapkan aturan untuk menemukan tata letak tabel
    TemplateTableLayout layout = new TemplateTableLayout(
            java.util.Arrays.asList(new Double[]{50.0, 95.0, 275.0, 415.0, 485.0, 545.0}),
            java.util.Arrays.asList(new Double[]{325.0, 340.0, 365.0, 395.0}));

    // Konfigurasi pengaturan untuk ekstraksi tabel
    PageTableAreaOptions options = new PageTableAreaOptions(layout);

    // Panggil proses ekstraksi
    Iterable<PageTableArea> tables = parser.getTables(options);

    // Iterasi melalui semua struktur tabel yang diparsing
    for (PageTableArea t : tables)
    {
        // Iterasi melalui setiap baris dalam tabel
        for (int row = 0; row < t.getRowCount(); row++)
        {
            // Proses setiap sel dalam baris saat ini
            for (int column = 0; column < t.getColumnCount(); column++) 
            {
                // Akses dan baca konten sel saat ini
                PageTableAreaCell cell = t.getCell(row, column);
                if (cell != null)
                {
                    // Output nilai tekstual dari setiap sel tabel
                    System.out.print(cell.getText());
                    System.out.print(" | ");
                }
            }
        }
    }
}

Pengantar API GroupDocs.Parser for Java

GroupDocs.Parser adalah API ekstraksi konten kaya fitur untuk platform Java. Ini memungkinkan pengembang untuk secara akurat mem-parsing tabel, teks, grafik, tautan, dan data terstruktur dari PDF, dokumen Word, lembar Excel, presentasi PowerPoint, dan lainnya—tanpa memerlukan plugin pihak ketiga.
Pelajari lebih lanjut
About illustration

Siap untuk memulai?

Unduh GroupDocs.Parser secara gratis atau dapatkan lisensi uji coba untuk akses penuh!

Sumber daya yang berguna

Jelajahi dokumentasi, sampel kode, dan dukungan masyarakat untuk meningkatkan pengalaman Anda.

Tipe dokumen yang didukung untuk ekstraksi tabel

GroupDocs.Parser menyediakan deteksi tabel yang andal di berbagai jenis file. Berikut adalah daftar format dokumen yang paling umum didukung untuk ekstraksi tabel.

Tip lisensi sementara

1
Daftar dengan email kantor Anda. Layanan email gratis tidak diperbolehkan.
2
Gunakan tombol Dapatkan lisensi sementara pada langkah kedua.
 Indonesian