Ekstrak Tabel dari Excel, Word, PDF & PowerPoint Dokumen melalui C#.NET API

GroupDocs.Parser .NET API memungkinkan programmer mengekstrak tabel dari PDF, DOC, DOCX, PPT, PPTX, EML, MSG, XLS, XLSX, CSV , ODT, RTF & EPUB dokumen atau halaman.


Unduh Uji Coba Gratis

Bagaimana cara Mengekstrak Tabel dari DOC file melalui .NET API?

Tabel adalah kumpulan sel yang disusun dalam baris dan kolom. Tabel memainkan peran yang sangat penting dalam menyimpan serta mengatur data yang terperinci atau rumit yang memungkinkan pengguna untuk dengan mudah membaca dan melihatnya. Tabel dapat digunakan dalam banyak cara, seperti membuat daftar, membandingkan informasi, menyelaraskan data, mengelompokkan informasi, menyoroti tren atau pola dalam data dan masih banyak lagi. GroupDocs.Parser for .NET adalah API berguna yang memungkinkan pemrogram perangkat lunak mengembangkan solusi untuk mengekstrak tabel, teks, dan gambar dari berbagai jenis format dokumen yang didukung, seperti PDF, Email, Ebook, Word (DOC, { 318}), PowerPoint (PPT, PPTX), Excel (XLS, XLSX), format Email (EML, MSG) dan banyak lagi. API .NET telah menyertakan beberapa fitur penting untuk bekerja dengan tabel, seperti mengekstrak semua tabel dari dokumen, mengekstrak tabel dari halaman tertentu, mendapatkan data sel tabel, mendapatkan jumlah total baris dan kolom tabel, mendapatkan tinggi baris, mencetak data tabel dan mungkin lebih.

Ekstrak tabel dari DOC di .NET

GroupDocs.Parser for .NET memudahkan pengembang C# untuk mengekstrak tabel dari file DOC dengan menerapkan beberapa langkah mudah.

Cara mengekstrak tabel dari file DOC menggunakan kode contoh C#

// Ekstrak tabel dari file DOC menggunakan GroupDocs.Parser API
// Buat instance kelas Parser
using (Parser parser = new Parser(filePath)) {
    // Periksa apakah dokumen mendukung ekstraksi tabel
    if (!parser.Features.Tables) {
        Console.WriteLine("Dokumen tidak mendukung ekstraksi tabel.");
        return;
    }
    // Membuat tata letak tabel
    TemplateTableLayout layout = new TemplateTableLayout(
        new double[] { 50, 95, 275, 415, 485, 545 },
        new double[] { 325, 340, 365, 395 });
    // Buat opsi untuk ekstraksi tabel
    PageTableAreaOptions options = new PageTableAreaOptions(layout);
    // Ekstrak tabel dari dokumen.
    IEnumerable<PageTableArea> tables = parser.GetTables(options);
    // Ulangi tabel
    foreach (PageTableArea t in tables) {
        // Ulangi baris
        for (int row = 0; row < t.RowCount; row++) {
            // Ulangi kolom
            for (int column = 0; column < t.ColumnCount; column++) {
                // Dapatkan sel tabel
                PageTableAreaCell cell = t[row, column];
                if (cell != null) {
                    // Cetak teks sel tabel
                    Console.Write(cell.Text);
                    Console.Write(" | ");
                }
            }
            Console.WriteLine();
        }
        Console.WriteLine();
    }
}

Persyaratan sistem

GroupDocs.Parser for .NET API didukung di semua platform dan sistem operasi utama. Sebelum menjalankan kode di bawah ini, harap pastikan bahwa Anda telah menginstal prasyarat berikut di sistem Anda.

  • Sistem Operasi: Microsoft Windows, Linux, MacOS
  • Lingkungan Pengembangan: Microsoft Visual Studio, Xamarin, MonoDevelop
  • Kerangka kerja
  • Unduh versi terbaru GroupDocs.Parser for .NET dari Nuget

Mengapa Menggunakan GroupDocs.Parser for .NET

  • Dukungan ekstraksi teks biasa dari dokumen yang didukung
  • Penguraian dokumen melalui templat yang ditentukan pengguna
  • Sepenuhnya mendukung ekstraksi teks terstruktur
  • Pencarian teks melalui kata kunci serta ekspresi reguler
  • Ekstrak teks yang diformat, metadata, gambar, wadah, dan lampiran
  • Ekstrak daftar isi untuk beberapa format dokumen yang didukung
  • Mengurai data formulir dari PDF dokumen
  • Ekstrak hyperlink dari dokumen

Ekstrak Tabel Dari Format Dokumen Lain

.NET API penguraian dokumen & pemindaian tabel untuk format file dan gambar. Ekstrak data untuk beberapa format file populer seperti yang dinyatakan di bawah ini.

DOCM

(Microsoft Word 2007 Marco File)

DOCX

(Office 2007+ Word Document)

DOT

(Microsoft Word Template Files)

DOTM

(Microsoft Word 2007+ Template File)

DOTX

(Microsoft Word Template File )

EPUB

(Open eBook File)

HTML

(Hyper Text Markup Language)

MHT

(MHTML Web Archive)

MHTML

(Web Page Archive Format)

ODP

(OpenDocument Presentation Format)

ODS

(OpenDocument Spreadsheet)

ODT

(OpenDocument Text File Format)

ONE

(OneNote Document)

OTP

(OpenDocument Standard Format)

OTT

(OpenDocument Standard Format)

PDF

(Portable Document Format)

Back to top
 Indonesian