GroupDocs.Parser در یک نظر

API برای انجام تحلیل اسناد در برنامه‌های Java

Illustration parser

استخراج داده‌ها از اسناد

GroupDocs.Parser for Java API به شما این امکان را می‌دهد که متن، متاداده و تصاویر را از دامنه وسیعی از فرمت‌های فایل استخراج کنید. این ابزار قوی به شما کمک می‌کند تا به‌طور مؤثر به اطلاعات ارزشمندی که در این فایل‌ها وجود دارد برای کاربردهای مختلفی همچون تحلیل داده، ایندکس‌سازی موتور جستجو یا سیستم‌های مدیریت محتوا دسترسی و پردازش کنید.

تحلیل اسناد

استخراج عناصر مختلفی مانند هایپرلینک‌ها، جداول، بارکدها، بارکدهای QR و داده‌ها از فرم‌های PDF. همچنین می‌توانید هر اطلاعات دلخواهی را بر اساس الگوهای سفارشی استخراج کنید.

سفارشی‌سازی نتایج

Java API به شما این امکان را می‌دهد که داده‌ها را در فرمت‌های مختلفی همچون خام، ساختاریافته، HTML یا Markdown استخراج کنید.

استقلال از پلتفرم

GroupDocs.Parser for Java از سیستم‌عامل‌ها، فریم‌ورک‌ها و مدیران بسته های زیر پشتیبانی می‌کند.

Amazon
Docker
Azure
Eclipse
IntelliJ
Windows
Linux
Maven

فرمت‌های پشتیبانی شده

GroupDocs.Parser for Java از عملیات روی فرمت‌های فایل زیر پشتیبانی می‌کند.

فرمت‌های Microsoft Office

  • Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
  • Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
  • PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

تصاویر و سایر فرمت‌ها

  • قابل حمل: PDF
  • تصاویر: JPG, BMP, PNG, TIFF, GIF
  • سایر فرمت‌های اداری: ODT, OTT, OTS, ODS, ODP, OTP, ODG

سایر فرمت‌ها

  • وب: HTML, MHTML
  • آرشیوها: ZIP, TAR, 7Z
  • کتاب‌های الکترونیکی: CHM, EPUB, FB2, MOBI

ویژگی‌های GroupDocs.Parser for Java

استخراج داده‌ها از PDF ها، اسناد اداری و تصاویر به‌سرعت و به‌طور دقیق

Feature icon

استخراج متن

استخراج اطلاعات متنی از فرمت‌های مختلف فایل مانند اسناد اداری، فایل‌های PDF و تصاویر برای خوانایی و تحلیل آسان.

Feature icon

استخراج تصاویر

بازیابی محتوای بصری از منابع مختلف مانند اسناد اداری و فایل‌های PDF برای دسترسی و استفاده راحت.

Feature icon

اسکن بارکدهای QR

شناسایی و رمزگشایی بارکدهای QR موجود در اسناد اداری، فایل‌های PDF یا محتوای بصری برای بازیابی اطلاعات مؤثر.

Feature icon

استخراج داده از پیوست‌های ایمیل و آرشیوها

جمع‌آوری اطلاعات ارزشمند از پیام‌های ایمیل، پیوست‌های فایل و منابع داده‌های فشرده برای تحلیل و استفاده مؤثر.

Feature icon

استخراج جداول

شناسایی و استخراج داده‌های جدولی از اسناد PDF برای تحلیل و استفاده سازمان‌یافته.

Feature icon

استخراج هایپرلینک‌ها

شناسایی و استخراج هایپرلینک‌ها و آدرس‌های ایمیل موجود در اسناد اداری یا فایل‌های PDF برای دسترسی مؤثر.

Feature icon

تحلیل فرم‌های PDF

فرم‌های PDF اسنادی دیجیتالی هستند که دارای فیلدهای قابل پر کردن برای تعامل کاربر می‌باشند، به آن‌ها این امکان را می‌دهد که اطلاعات را به‌صورت الکترونیکی وارد کنند. API .NET می‌تواند برای استخراج داده‌ها از این فرم‌ها به‌منظور پردازش مؤثر استفاده شود.

Feature icon

تحلیل داده با الگوها

ایجاد الگوهای سفارشی و استفاده از آن‌ها با API .NET برای استخراج اطلاعات خاص از فایل‌های PDF، فرآیندهای استخراج داده را ساده می‌کند.

Feature icon

جستجوی متن در اسناد

به‌سرعت کلمات یا الگوهای خاصی را در اسناد پیدا کنید.

نمونه‌های کد

برخی از نمونه‌های معمول GroupDocs.Parser for Java

استخراج تصاویر از اسناد PDF

GroupDocs.Parser for Java فرآیند استخراج تصاویر را برای توسعه‌دهندگان Java از اسناد آسان می‌کند:

استخراج تصاویر از اسناد PDF در Java

// یک نمونه از کلاس Parser ایجاد کنید.
try (Parser parser = new Parser("source.pdf"))
{
    // تصاویر را استخراج کنید.
    Iterable<PageImageArea> images = parser.getImages();

    // بررسی کنید که آیا چیزی استخراج شده است.
    if (images == null) {
        return;
    }

    // بر روی تصاویر تکرار کنید.
    for (PageImageArea image : images) {
        // ایندکس صفحه، مستطیل و نوع تصویر را چاپ کنید.
        System.out.println(String.format("Page: %d, R: %s, Type: %s", 
            image.getPage().getIndex(), image.getRectangle(), image.getFileType()));
    }
}

استخراج بارکدها از تصاویر

از API Java ما برای استخراج بارکدها از تصاویر استفاده کنید:

استخراج بارکدها از تصاویر در Java

// تصویر منبع را به Parser بارگذاری کنید.
try (Parser parser = new Parser("source.jpg")){

    // بررسی کنید که آیا فایل از استخراج بارکد پشتیبانی می‌کند.
    if (!parser.getFeatures().isBarcodes()) {

        // بارکدها را از فایل استخراج کنید.
        Iterable<PageBarcodeArea> barcodes = parser.getBarcodes();

        // بر روی بارکدها تکرار کنید.
        for (PageBarcodeArea barcode : barcodes) {
            // ایندکس صفحه را چاپ کنید.
            System.out.println("Page: " + barcode.getPage().getIndex());
            // مقدار بارکد را چاپ کنید.
            System.out.println("Value: " + barcode.getValue());
        }
    }
}

برای شروع آماده اید؟

GroupDocs.Parser را به صورت رایگان دانلود کنید یا یک مجوز آزمایشی برای دسترسی کامل دریافت کنید!

منابع مفید

برای ارتقاء تجربه خود ، مستندات ، نمونه های کد و پشتیبانی جامعه را کاوش کنید.

نکات مجوز موقت

1
با ایمیل کاری خود ثبت نام کنید. خدمات پست الکترونیکی رایگان مجاز نیستند.
2
در مرحله دوم از دکمه دریافت مجوز موقت استفاده کنید.
 فارسی