GroupDocs.Parser for Java

Ambil data tabel dari PDF menggunakan Java

Dengan mulus mendeteksi dan mengekstraksi tabel dari format seperti PDF, DOCX, dan XLSX dengan GroupDocs.Parser dalam alur kerja Java Anda.

Unduhan Maven

Mulai Uji Coba Gratis

Cara mengambil tabel dari Pdf dalam Java

Untuk mem-parsing tabel dari dokumen PDF menggunakan GroupDocs.Parser, ikuti langkah-langkah berikut di lingkungan Java Anda:

Buat instance Parser dan muat file PDF yang ditargetkan.
Verifikasi bahwa file mendukung ekstraksi tabel terstruktur.
Gunakan API untuk mengambil elemen tabel dari dokumen.
Manfaatkan data yang diekstrak dalam analitik, pelaporan, atau sistem otomatisasi.

Salin

// Muat dokumen input dengan Parser yang mencakup elemen tabel
try (Parser parser = new Parser("input.pdf"))
{
    // Verifikasi bahwa tipe dokumen mendukung pengenalan tabel
    if (!parser.getFeatures().isTables()) {
        System.out.println("Tambahkan logika untuk file yang tidak mendukung tabel");
        return;
    }

    // Tentukan aturan untuk memahami struktur tabel
    TemplateTableLayout layout = new TemplateTableLayout(
            java.util.Arrays.asList(new Double[]{50.0, 95.0, 275.0, 415.0, 485.0, 545.0}),
            java.util.Arrays.asList(new Double[]{325.0, 340.0, 365.0, 395.0}));

    // Atur parameter untuk mengekstrak tabel
    PageTableAreaOptions options = new PageTableAreaOptions(layout);

    //  Jalankan ekstraksi tabel pada dokumen yang dimuat
    Iterable<PageTableArea> tables = parser.getTables(options);

    //  Proses masing-masing tabel yang diekstrak dari hasil
    for (PageTableArea t : tables) 
    {
    }
}

<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>24.9</version>
</dependency>
</dependencies>
<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://repository.groupdocs.com/repo/</url>
</repository>
</repositories>

klik untuk menyalin

disalin

Lebih banyak contoh Dokumentasi

Alat ekstraksi konten tingkat lanjut

Selain membaca tabel, GroupDocs.Parser mendukung pengambilan teks biasa, elemen visual, metadata tertanam, dan objek terstruktur untuk meningkatkan tugas pemrosesan dokumen.

Ekstraksi konten terstruktur dan data tabular

Pemrosesan tabel yang tepat di berbagai format

Dukungan untuk mengekstrak tabel dari jenis dokumen standar seperti PDF, Word, Excel, dan HTML dengan akurasi tinggi.

Baca struktur tabular dari berbagai sumber

Ambil data tabel dari spreadsheet, dokumen, dan laporan sambil mempertahankan struktur dan penyelarasan.

Pengaturan ekstraksi tabel yang dapat disesuaikan

Mengontrol deteksi tata letak, mengelola header dan footer, serta mengatur ekstraksi dengan opsi konfigurasi yang fleksibel.

Contoh: mengekstrak tabel dari dokumen Excel

Contoh ini menunjukkan cara mengekstrak

dan mengiterasi konten tabel dalam file Excel (XLSX) menggunakan GroupDocs.Parser.

Java

//  Inisialisasi Parser dengan file Excel style=color:#888;font-style:italic>try (Parser parser = new Parser("input.pdf")) { // Keluar jika ekstraksi tabel tidak didukung untuk dokumen ini style=color:#888;font-style:italic>    if (!parser.getFeatures().isTables()) { return; } // Terapkan aturan untuk menemukan tata letak tabel style=color:#888;font-style:italic>    TemplateTableLayout layout = new TemplateTableLayout( java.util.Arrays.asList(new Double[]{50.0, 95.0, 275.0, 415.0, 485.0, 545.0}), java.util.Arrays.asList(new Double[]{325.0, 340.0, 365.0, 395.0})); // Konfigurasi pengaturan untuk ekstraksi tabel style=color:#888;font-style:italic>    PageTableAreaOptions options = new PageTableAreaOptions(layout); // Panggil proses ekstraksi style=color:#888;font-style:italic>    Iterable<PageTableArea> tables = parser.getTables(options); // Iterasi melalui semua struktur tabel yang diparsing style=color:#888;font-style:italic>    for (PageTableArea t : tables) { // Iterasi melalui setiap baris dalam tabel style=color:#888;font-style:italic>        for (int row = 0; row < t.getRowCount(); row++) { // Proses setiap sel dalam baris saat ini style=color:#888;font-style:italic>            for (int column = 0; column < t.getColumnCount(); column++) { // Akses dan baca konten sel saat ini style=color:#888;font-style:italic>                PageTableAreaCell cell = t.getCell(row, column); if (cell != null) { // Output nilai tekstual dari setiap sel tabel style=color:#888;font-style:italic>                    System.out.print(cell.getText()); System.out.print(" | "); } } } } }

`Pengantar API GroupDocs.Parser for Java`

GroupDocs.Parser adalah API ekstraksi konten kaya fitur untuk platform Java. Ini memungkinkan pengembang untuk secara akurat mem-parsing tabel, teks, grafik, tautan, dan data terstruktur dari PDF, dokumen Word, lembar Excel, presentasi PowerPoint, dan lainnya—tanpa memerlukan plugin pihak ketiga.

Pelajari lebih lanjut

`Siap untuk memulai?`

Unduh GroupDocs.Parser secara gratis atau dapatkan lisensi uji coba untuk akses penuh!

Unduhan Maven
Mulai Uji Coba Gratis

`Sumber daya yang berguna`

Jelajahi dokumentasi, sampel kode, dan dukungan masyarakat untuk meningkatkan pengalaman Anda.


Dokumentasi
Referensi API
Sampel kode
Dukungan gratis
Dukungan berbayar

`Tipe dokumen yang didukung untuk ekstraksi tabel`

GroupDocs.Parser menyediakan deteksi tabel yang andal di berbagai jenis file. Berikut adalah daftar format dokumen yang paling umum didukung untuk ekstraksi tabel.

Menganalisis DOCX(Dokumen Word Office 2007+)
Menganalisis PPTX(Format Presentasi Open XML)
Menganalisis XLSX(Workbook Open XML)
Menganalisis TXT(File Teks)
Menganalisis RTF(Format Teks Kaya)
Menganalisis XML(Bahasa Markup yang Dapat Diperluas)
Menganalisis EPUB(File eBook Terbuka)

Ambil data tabel dari PDF menggunakan Java

Cara mengambil tabel dari Pdf dalam Java

Alat ekstraksi konten tingkat lanjut

Pemrosesan tabel yang tepat di berbagai format

Baca struktur tabular dari berbagai sumber

Pengaturan ekstraksi tabel yang dapat disesuaikan

Contoh: mengekstrak tabel dari dokumen Excel

Java

Pengantar API GroupDocs.Parser for Java

Siap untuk memulai?

Sumber daya yang berguna

Tipe dokumen yang didukung untuk ekstraksi tabel

Tip lisensi sementara

`Pengantar API GroupDocs.Parser for Java`

`Siap untuk memulai?`

`Sumber daya yang berguna`

`Tipe dokumen yang didukung untuk ekstraksi tabel`

`Tip lisensi sementara`