GroupDocs.Parser for .NET

استخراج اسناد PDF با استفاده از C#

با استفاده از GroupDocs.Parser به‌طور کارآمد متن، متادیتا، جداول و تصاویر را از فایل‌های PDF، Word، Excel و تصاویر استخراج کنید در پروژه‌های .NET خود.

NuGet دانلود کنید

آزمایش رایگان را شروع کنید

مراحل استخراج داده از Pdf در C#

این مراحل را دنبال کنید تا محتوا را از اسناد PDF در برنامه‌های .NET خود با استفاده از GroupDocs.Parser پارس کنید:

سند PDF را با استفاده از یک نمونه Parser بارگذاری کنید.
محتوای مورد نظر مانند متن، جداول یا متادیتا را استخراج کنید.
بررسی کنید که داده‌های استخراج‌شده معتبر است.
از خروجی پارس‌شده در پردازش‌های بعدی، اتوماسیون یا سیستم‌های کسب‌وکار خود استفاده کنید.

کپی

// سند خود را به Parser بارگذاری کنید
using (Parser parser = new Parser("input.pdf")) {

    // تمام محتوای متنی را از فایل استخراج کنید
    using (TextReader reader = parser.GetText()) 
    {
        // اگر متن موجود نباشد، نتیجه نال خواهد بود
        // متن استخراج‌شده را در برنامه خود استفاده کنید
        Console.WriteLine(reader == null ? 
            "استخراج متن برای این فرمت پشتیبانی نمی‌شود" : reader.ReadToEnd());
    }
}

dotnet add package GroupDocs.Parser

برای کپی کلیک کنید

کپی شد

نمونه‌های بیشتر مستندات

قابلیت‌های جامع پارس اسناد

GroupDocs.Parser بیش از فقط خواندن متن را امکان‌پذیر می‌کند — این API از استخراج بارکد، پارس تصاویر، دسترسی به متادیتا و پردازش داده‌های ساختار یافته برای اتوماسیون و تحلیل داده‌های پیشرفته پشتیبانی می‌کند.

پشتیبانی از انواع محتواهای مختلف فایل

داده‌ها را شامل متن، تصاویر، جداول و فیلدها از فرمت‌های اسنادی مانند PDF، Word، Excel، HTML و بیشتر استخراج کنید.

کار با فایل‌های اسکن‌شده و دیجیتالی

داده‌ها را از اسناد اسکن‌شده و فایل‌های دیجیتالی استخراج کنید، با پشتیبانی از OCR و استخراج آگاه به طرح.

پارامترهای استخراج قابل تنظیم

منطق پارس را با گزینه‌های انعطاف‌پذیر مانند انتخاب محدوده صفحه، هدف‌گذاری حوزه و الگوهای تشخیص فیلد تنظیم کنید.

نحوه پارس PDF با استفاده از الگوها

این مثال نشان می‌دهد که چگونه می‌توان داده‌های ساختار یافته را از یک PDF با استفاده از یک الگوی پارس پیش‌تعریف‌شده با GroupDocs.Parser استخراج کرد.

C#

//  فایل PDF را با کلاس Parser بارگذاری کنید
using (Parser parser = new Parser("input.pdf"))
{
    // سند را بر اساس الگو پارس کنید
    DocumentData data = parser.ParseByTemplate(GetTemplate());

    // بررسی کنید که آیا استخراج فرم پشتیبانی می‌شود
    if (data == null)
    {
        return;
    }

    // فیلدهای به‌دست‌آمده را پردازش کنید
    for (int i = 0; i < data.Count; i++)
    {
        Console.Write(data[i].Name + ": ");
        PageTextArea area = data[i].PageArea as PageTextArea;
        Console.WriteLine(area == null ? "Not a template field" : area.Text);
    }
}

private static Template GetTemplate()
{
    // پارامترهای تشخیص برای جدول 'جزئیات' بسازید
    TemplateTableParameters detailsTableParameters = 
        new TemplateTableParameters(new Rectangle(new Point(35, 320), new Size(530, 55)), null);

    TemplateItem[] templateItems = new TemplateItem[]
    {
        new TemplateTable(detailsTableParameters, "details", null)
    };

    Template template = new Template(templateItems);
    return template;
}

درباره API GroupDocs.Parser for .NET

GroupDocs.Parser یک API جامع پارسر اسنادی است که برای توسعه‌دهندگان .NET طراحی شده است. این API قابلیت استخراج متن ساده و ساختار یافته، متادیتا، تصاویر، جداول و بارکدها را از فرمت‌های محبوبی همچون PDF، DOCX، XLSX، PPTX و غیره پشتیبانی می‌کند — همه اینها بدون نیاز به نرم‌افزارهای اضافی.

بیشتر بدانید

برای شروع آماده اید؟

GroupDocs.Parser را به صورت رایگان دانلود کنید یا یک مجوز آزمایشی برای دسترسی کامل دریافت کنید!

NuGet دانلود کنید

آزمایش رایگان را شروع کنید

منابع مفید

برای ارتقاء تجربه خود ، مستندات ، نمونه های کد و پشتیبانی جامعه را کاوش کنید.

فرمت‌های پشتیبانی‌شده برای استخراج داده

GroupDocs.Parser امکان پارس کردن در مجموعه وسیعی از فرمت‌های اسنادی و تصویری را فراهم می‌کند. فرمت‌های فایل‌های پشتیبانی‌شده که به‌طور معمول در گردش‌کارهای استخراج داده استفاده می‌شوند را بررسی کنید.

تحلیل DOCX
(سند Word Office 2007+)
تحلیل PPTX
(فرمت ارائه Open XML)
تحلیل XLSX
(دفتر کار Open XML)
تحلیل TXT
(فایل متنی)
تحلیل RTF
(فرمت متن غنی)
تحلیل XML
(زبان نشانه‌گذاری قابل توسعه)
تحلیل EPUB
(فایل کتاب الکترونیکی Open)