GroupDocs.Parser for Java

استخراج داده از اسناد XLSX در Java

با استفاده از GroupDocs.Parser در برنامه‌های Java خود، محتواهای ساختاری نظیر متن، متادیتا، جداول و گرافیک‌ها را به‌طور یکپارچه از اسناد PDF، Word، Excel و اسناد مبتنی بر تصویر استخراج کنید.

Maven دانلود

آزمایش رایگان را شروع کنید

چگونه داده‌ها را از Xlsx با استفاده از Java استخراج کنیم

برای استخراج اطلاعات مفید از اسناد XLSX در پروژه‌های Java خود با استفاده از GroupDocs.Parser، این دستورالعمل‌ها را دنبال کنید:

فایل XLSX را با یک شیء Parser باز کنید.
از پارسر برای استخراج داده‌های مورد نیاز (متن، جداول، متادیتا و غیره) استفاده کنید.
اطمینان حاصل کنید که خروجی صحیح و کامل است.
محتوای تجزیه‌شده را در جریان داده‌ها، فرآیندهای تجاری یا برنامه‌های خود ادغام کنید.

کپی

// مستندات ورودی خود را با Parser راه‌اندازی کنید
try (Parser parser = new Parser("input.xlsx"))
{
    // تمام محتوای متنی موجود را از سند بازیابی کنید
    try (TextReader reader = parser.getText())
    {
        // اگر متنی پیدا نشود، مقدار برگردانده‌شده null خواهد بود
        // محتوای استخراج‌شده را در راه‌حل خود گنجانید
        System.out.println(reader == null ? 
            "این فرمت ممکن است از استخراج متن پشتیبانی نکند" : reader.readToEnd());
    }
}

<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>24.9</version>
</dependency>
</dependencies>
<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://repository.groupdocs.com/repo/</url>
</repository>
</repositories>

برای کپی کلیک کنید

کپی شد

نمونه‌های بیشتر مستندات

قابلیت‌های چندمنظوره تجزیه اسناد

GroupDocs.Parser تنها به استخراج متن محدود نمی‌شود — بلکه تجزیه کامل بارکدها، متادیتا، تصاویر، جداول و داده‌های دیگر را پشتیبانی می‌کند تا اتوماسیون هوشمند و برنامه‌های مبتنی بر داده را تقویت کند.

چشم‌انداز بصری از تجزیه و استخراج داده‌های اسناد

استخراج از فرمت‌های فایل متعدد

به داده‌هایی نظیر متن، جداول و رسانه از انواع فایل‌های پرکاربرد مانند PDF، Word، Excel، PowerPoint، HTML و غیره دسترسی پیدا کنید.

تجزیه محتوا از منابع دیجیتال و اسکن‌شده

محتوا را هم از فایل‌های دیجیتال بومی و هم از تصاویر اسکن‌شده پردازش کنید و در صورت نیاز از OCR برای تفسیر متن embedded استفاده کنید.

گزینه‌های پیکربندی انعطاف‌پذیر

تجزیه‌تان را با تنظیمات انتخاب صفحه، مناطق طرح‌نما و الگوهای فیلد سفارشی تنظیم کنید تا نیازهای خاص استخراج را برآورده کنید.

تجزیه PDF با استفاده از الگوی استخراج داده

این نمونه نشان می‌دهد که چگونه می‌توان فیلدهای ساختاری را از یک PDF با استفاده از یک الگوی سفارشی از طریق GroupDocs.Parser استخراج کرد.

Java

//  PDF را با کلاس Parser باز کنید
try (Parser parser = new Parser("input.pdf"))
{
    // الگوی تجزیه را برای استخراج داده‌های تعریف‌شده اعمال کنید
    DocumentData data = parser.parseByTemplate(GetTemplate());

    // بررسی کنید که آیا استخراج بر مبنای الگو در دسترس است
    if (data == null) {
        return;
    }

    // با فیلدهای داده استخراج‌شده کار کنید
    for (int i = 0; i < data.getCount(); i++) {
        System.out.print(data.get(i).getName() + ": ");
        PageTextArea area = data.get(i).getPageArea() instanceof PageTextArea
                ? (PageTextArea) data.get(i).getPageArea() : null;
        System.out.println(area == null ? "Not a template field" : area.getText());
    }
}

private static Template GetTemplate()
{
    // تنظیمات تشخیص‌دهنده را برای استخراج بخش 'جزئیات' تعریف کنید
    TemplateTableParameters detailsTableParameters = 
        new TemplateTableParameters(new Rectangle(new Point(35, 320), new Size(530, 55)), null);

    TemplateItem[] templateItems = new TemplateItem[]
    {
        new TemplateTable(detailsTableParameters, "details", null)
    };

    Template template = new Template(java.util.Arrays.asList(templateItems));
    return template;
}

چیست GroupDocs.Parser for Java؟

GroupDocs.Parser یک API قدرتمند ساخته شده برای توسعه‌دهندگان Java است که قابلیت‌های پیشرفته تجزیه اسناد را ارائه می‌دهد. این امکان را برای شما فراهم می‌کند که داده‌های متنی، تصاویر، جداول، فیلدهای ساختاری و بارکدها را از فرمت‌های متنوعی مانند PDF، DOCX، XLSX، PPTX و غیره استخراج و پردازش کنید — همه این موارد بدون نیاز به نصب کتابخانه‌های اضافی.

بیشتر بدانید

برای شروع آماده اید؟

GroupDocs.Parser را به صورت رایگان دانلود کنید یا یک مجوز آزمایشی برای دسترسی کامل دریافت کنید!

Maven دانلود

آزمایش رایگان را شروع کنید

منابع مفید

برای ارتقاء تجربه خود ، مستندات ، نمونه های کد و پشتیبانی جامعه را کاوش کنید.

نوع فایل‌های پشتیبانی‌شده برای استخراج محتوا

GroupDocs.Parser با طیف گسترده‌ای از نوع فایل‌های اسناد و تصاویر سازگار است و استخراج اطلاعات از فرمت‌های متداول در سناریوهای تجزیه و اتوماسیون داده را ساده می‌سازد.

تحلیل PDF
(فرمت سند قابل حمل)
تحلیل DOCX
(سند Word Office 2007+)
تحلیل PPTX
(فرمت ارائه Open XML)
تحلیل TXT
(فایل متنی)
تحلیل RTF
(فرمت متن غنی)
تحلیل XML
(زبان نشانه‌گذاری قابل توسعه)
تحلیل EPUB
(فایل کتاب الکترونیکی Open)