GroupDocs.Parser for .NET

Mengurai dokumen PDF menggunakan C#

Ekstrak teks, metadata, tabel, dan gambar secara efisien dari file PDF, Word, Excel, dan gambar menggunakan GroupDocs.Parser dalam proyek .NET Anda.

Unduh NuGet

Mulai Uji Coba Gratis

Langkah-langkah untuk mengekstrak data dari Pdf dalam C#

Ikuti langkah-langkah ini untuk mengurai konten dari dokumen PDF dalam aplikasi .NET Anda menggunakan GroupDocs.Parser:

Muat dokumen PDF menggunakan instance Parser.
Ekstrak konten yang diinginkan seperti teks, tabel, atau metadata.
Verifikasi bahwa data yang diekstrak valid.
Gunakan output yang telah diurai dalam pemrosesan lanjutan, otomatisasi, atau sistem bisnis Anda.

Salin

// Muat dokumen Anda ke dalam Parser
using (Parser parser = new Parser("input.pdf")) {

    // Ekstrak semua konten teks dari file
    using (TextReader reader = parser.GetText()) 
    {
        // Jika teks tidak tersedia, hasilnya akan null
        // Gunakan teks yang diekstrak dalam aplikasi Anda
        Console.WriteLine(reader == null ? 
            "Ekstraksi teks tidak didukung untuk format ini" : reader.ReadToEnd());
    }
}

dotnet add package GroupDocs.Parser

klik untuk menyalin

disalin

Lebih banyak contoh Dokumentasi

Kemampuan penguraian dokumen yang komprehensif

GroupDocs.Parser tidak hanya mendukung pembacaan teks — ia mendukung ekstraksi barcode, penguraian gambar, akses metadata, dan pemrosesan data terstruktur untuk otomatisasi dan analisis data yang lebih canggih.

Ekstraksi konten dokumen dan kemampuan penguraian

Dukungan untuk berbagai jenis konten file

Ekstrak data termasuk teks, gambar, tabel, dan bidang dari format dokumen seperti PDF, Word, Excel, HTML, dan lainnya.

Bekerja dengan file hasil pemindaian dan digital

Mengurai data dari dokumen hasil pemindaian dan file digital, dengan dukungan untuk OCR dan ekstraksi yang memperhitungkan tata letak.

Parameter ekstraksi yang dapat dikonfigurasi

Sesuaikan logika penguraian dengan opsi fleksibel seperti pemilihan rentang halaman, penargetan wilayah, dan template deteksi bidang.

Cara mengurai PDF menggunakan template

Contoh ini menunjukkan cara mengekstrak data terstruktur dari PDF menggunakan template penguraian yang telah ditentukan dengan GroupDocs.Parser.

C#

//  Muat file PDF dengan kelas Parser
using (Parser parser = new Parser("input.pdf"))
{
    // Urutkan dokumen berdasarkan template
    DocumentData data = parser.ParseByTemplate(GetTemplate());

    // Periksa apakah ekstraksi formulir didukung
    if (data == null)
    {
        return;
    }

    // Proses bidang yang diperoleh
    for (int i = 0; i < data.Count; i++)
    {
        Console.Write(data[i].Name + ": ");
        PageTextArea area = data[i].PageArea as PageTextArea;
        Console.WriteLine(area == null ? "Not a template field" : area.Text);
    }
}

private static Template GetTemplate()
{
    // Buat parameter deteksi untuk tabel 'Detail'
    TemplateTableParameters detailsTableParameters = 
        new TemplateTableParameters(new Rectangle(new Point(35, 320), new Size(530, 55)), null);

    TemplateItem[] templateItems = new TemplateItem[]
    {
        new TemplateTable(detailsTableParameters, "details", null)
    };

    Template template = new Template(templateItems);
    return template;
}

Tentang API GroupDocs.Parser for .NET

GroupDocs.Parser adalah API penguraian dokumen yang kaya fitur, dirancang untuk pengembang .NET. API ini mendukung ekstraksi teks biasa dan terstruktur, metadata, gambar, tabel, dan barcode dari format populer seperti PDF, DOCX, XLSX, PPTX, dan lainnya — semua tanpa ketergantungan perangkat lunak tambahan.

Pelajari lebih lanjut

Siap untuk memulai?

Unduh GroupDocs.Parser secara gratis atau dapatkan lisensi uji coba untuk akses penuh!

Unduh NuGet

Mulai Uji Coba Gratis

Sumber daya yang berguna

Jelajahi dokumentasi, sampel kode, dan dukungan masyarakat untuk meningkatkan pengalaman Anda.

Format yang didukung untuk ekstraksi data

GroupDocs.Parser memungkinkan pemrosesan data dari berbagai format dokumen dan gambar. Jelajahi jenis file yang didukung yang umum digunakan dalam alur kerja ekstraksi data.

Menganalisis DOCX
(Dokumen Word Office 2007+)
Menganalisis PPTX
(Format Presentasi Open XML)
Menganalisis XLSX
(Workbook Open XML)
Menganalisis TXT
(File Teks)
Menganalisis RTF
(Format Teks Kaya)
Menganalisis XML
(Bahasa Markup yang Dapat Diperluas)
Menganalisis EPUB
(File eBook Terbuka)