GroupDocs.Parser Ikhtisar

API untuk melakukan penguraian dokumen di .NET aplikasi

Illustration parser

Ekstrak data dari dokumen

.NET API memungkinkan Anda mengambil teks, metadata, dan gambar dari berbagai format file seperti dokumen Office, email, lampiran, dan arsip. Alat canggih ini membantu Anda mengakses dan memproses informasi berharga secara efisien yang terkandung dalam file ini untuk berbagai aplikasi seperti analisis data, pengindeksan mesin pencari, atau sistem manajemen konten.

Parsing dokumen

Ekstrak berbagai elemen seperti hyperlink, tabel, kode QR, kode batang, dan data dari formulir PDF. Parsing juga informasi yang diinginkan dari dokumen menggunakan templat khusus.

Menyesuaikan hasil

.NET API memungkinkan Anda mengambil data dalam berbagai format seperti mentah, terstruktur, HTML, atau Penurunan harga. Selain itu, API menawarkan fungsi pencarian untuk menemukan kata atau frasa tertentu dalam teks dokumen.

Independensi platform

GroupDocs.Parser for .NET mendukung sistem operasi, kerangka kerja, dan pengelola paket berikut

Amazon
Docker
Azure
VS Code
ReSharper
macOS
Linux
NuGet

Format file yang didukung

GroupDocs.Parser for .NET mendukung operasi dengan [format file] berikut(https://docs.groupdocs.com/parser/net/supported-document-formats/).

Microsoft Office format

  • Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
  • Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
  • PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

Gambar & Format Lainnya

  • Portable: PDF
  • Gambar-gambar: JPG, BMP, PNG, TIFF, GIF
  • Format kantor lainnya: ODT, OTT, OTS, ODS, ODP, OTP, ODG

Format lainnya

  • jaring: HTML, MHTML
  • Arsip: ZIP, TAR, 7Z
  • Ebook: CHM, EPUB, FB2, MOBI

GroupDocs.Parser fitur

Ekstrak data dari PDF, Dokumen Office, dan Gambar dengan cepat dan akurat.

Feature icon

Ekstrak teks

Ekstrak informasi tekstual dari berbagai format file seperti dokumen office, file, dan gambar agar mudah dibaca dan dianalisis.

Feature icon

Ekstrak gambar

Ambil konten visual dari beragam sumber seperti dokumen kantor, file PDF untuk kemudahan akses dan penggunaan.

Feature icon

Pindai Kode QR

Deteksi dan dekode kode QR yang ada dalam dokumen kantor, file PDF, atau konten visual untuk pengambilan informasi yang efisien.

Feature icon

Ekstrak data dari lampiran dan arsip email

Kumpulkan informasi berharga dari pesan email, lampiran file, dan sumber data terkompresi untuk analisis dan pemanfaatan yang efektif.

Feature icon

Ekstrak tabel

Identifikasi dan ekstrak data tabel dari PDF dokumen untuk analisis dan penggunaan yang terorganisir.

Feature icon

Ekstrak hyperlink

Temukan dan ekstrak hyperlink dan alamat email dalam dokumen atau file Office untuk akses yang efisien.

Feature icon

Parsing PDF Formulir

PDF Formulir adalah dokumen digital yang menampilkan kolom yang dapat diisi untuk interaksi pengguna, sehingga memungkinkan mereka memasukkan informasi secara elektronik. .NET API dapat digunakan untuk mengekstrak data dari formulir ini untuk pemrosesan yang efisien.

Feature icon

Parsing data berdasarkan templat

Buat template khusus dan gunakan dengan .NET API untuk mengurai informasi spesifik dari file PDF, sehingga menyederhanakan proses ekstraksi data.

Feature icon

Cari teks dalam dokumen

Temukan kata atau pola tertentu dalam dokumen dengan cepat.

Contoh kode

Beberapa kasus penggunaan operasi umum

Ekstrak gambar dari PDF dokumen

.NET API memudahkan pengembang C# mengekstrak gambar dari dokumen dengan menerapkan beberapa langkah mudah.

Ekstrak gambar dari PDF dokumen di C#

// Create an instance of Parser class
using (var parser = new Parser(fileName))
{
    // Extract images
    var images = parser.GetImages();

    // Check if images extraction is supported
    if (images != null)
    {
        var imageIndex = 0;

        // Iterate over images
        foreach (var image in images)
        {
            // Save the image to the file
            image.Save($"{++imageIndex}{image.FileType.Extension}");
        }
    }
}

Ekstrak kode batang dari gambar

.NET API memudahkan pengembang C# mengekstrak kode batang dari dokumen dengan menerapkan beberapa langkah mudah.

Ekstrak kode batang dari gambar

// Create an instance of Parser class
using (var parser = new Parser(fileName))
{
    // Check if the file supports barcode extracting
    if (parser.Features.Barcodes)
    {
        // Extract barcodes from the file.
        var barcodes = parser.GetBarcodes();

        // Iterate over barcodes
        foreach (var barcode in barcodes)
        {
            // Print the page index
            Console.WriteLine("Page: " + barcode.Page.Index.ToString());
            // Print the barcode value
            Console.WriteLine("Value: " + barcode.Value);
        }
    }
}

Tip lisensi sementara

1
Daftar dengan email kantor Anda. Layanan email gratis tidak diperbolehkan.
2
Gunakan tombol Dapatkan lisensi sementara pada langkah kedua.
 Indonesian