GroupDocs.Parser for Java

استخراج متن از PDF با استفاده از Java

به‌خوبی متن‌های قابل خواندن یا ساختاری را از فایل‌هایی مانند PDF، Word، Excel و غیره با استفاده از GroupDocs.Parser در پروژه‌های توسعه Java خود استخراج کنید.

Maven دانلود

آزمایش رایگان را شروع کنید

چگونه متن را از Pdf با استفاده از Java بازیابی کنیم

برای استخراج متن از فایل‌های PDF با استفاده از GroupDocs.Parser در پروژه Java خود مراحل زیر را دنبال کنید:

فایل PDF را با استفاده از کلاس Parser بارگذاری کنید.
استخراج متن را از محتوای فایل انجام دهید.
بررسی کنید که آیا متن با موفقیت بازیابی شده است یا خیر.
از داده‌های متنی در سیستم‌های جستجو، تحلیل یا اتوماسیون استفاده کنید.

کپی

// با Parser مستندات خود را اولیه‌سازی کنید
try (Parser parser = new Parser("input.pdf"))
{
    // تمام داده‌های متنی را بخوانید و استخراج کنید
    try (TextReader reader = parser.getText())
    {
        // اگر محتویات متنی موجود نبود، مقدار null را بازگردانید
        // متن استخراج‌شده را در جریان کاری خود ادغام کنید
        System.out.println(reader == null ? 
            "فرمت‌های استخراج متن غیرپشتیبانی را رد کنید" : reader.readToEnd());
    }
}

<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>24.9</version>
</dependency>
</dependencies>
<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://repository.groupdocs.com/repo/</url>
</repository>
</repositories>

برای کپی کلیک کنید

کپی شد

نمونه‌های بیشتر مستندات

عملکرد غنی استخراج متن

GroupDocs.Parser فراتر از استخراج متن ساده عمل می‌کند و از بازیابی تصاویر، متاداده و داده‌های ساختاری برای بهبود وظایف پردازش محتوا پشتیبانی می‌کند.

استخراج و ساختاربندی محتوای متنی از اسناد

عملکرد در فرمت‌های مختلف مستندات

متن‌های خام و ساختاری را از فرمت‌های DOCX، XLSX، PPTX، PDF، HTML و فرمت‌های دیگر استخراج کنید.

استخراج متن از محتوای بصری و متنی

متن را از اسناد اسکن‌شده، اسلایدها، صفحات گسترده و سایر نوع فایل‌ها استخراج کنید در حالی که ساختار منطقی را حفظ می‌نمایید.

کنترل دقیق بر فرآیند استخراج

محدوده‌های صفحه، مناطق طرح و پارامترهای دقت را برای تجزیه متن بهینه تنظیم کنید.

نمونه: استخراج نواحی متنی از یک سند PPTX

این نمونه نشان می‌دهد که چگونه بلوک‌های متنی همراه با مختصات فضایی آن‌ها را از یک ارائه PowerPoint با استفاده از GroupDocs.Parser استخراج کنید.

Java

//  فایل PPTX خود را با API Parser بارگذاری کنید
try (Parser parser = new Parser("input.pptx"))
{
    // تمام نواحی متنی مستطیلی را دریافت کنید
    IEnumerable<PageTextArea> areas = parser.GetTextAreas();

    // در صورت عدم پشتیبانی این ویژگی، خارج شوید
    if (areas == null)
    {
        return;
    }

    // از طریق نواحی متنی مطابق با صفحات تکرار کنید
    for (PageTextArea a : areas)
    {
        // هر بلوک متنی را با شماره صفحه و مستطیل محدودکننده‌اش پردازش کنید
        System.out.println(String.format("Page: %d, R: %s, Text: %s", a.getPage().getIndex(), a.getRectangle(), a.getText()));
    }
}

معرفی API GroupDocs.Parser for Java

GroupDocs.Parser یک تجزیه‌کننده مستندات قوی و مقیاس‌پذیر است که برای توسعه‌دهندگان Java طراحی شده است. این ابزار قابلیت‌هایی برای استخراج دقیق متن، جدول‌ها، تصاویر و مؤلفه‌های ساختاری از فرمت‌های مختلف از جمله PDF، DOCX، XLSX، PPTX و دیگر فرمت‌ها، بدون نیاز به ابزارهای خارجی ارائه می‌دهد.

بیشتر بدانید