GroupDocs.Parser در یک نگاه

SDK تجزیه‌کننده سند برای انجام تجزیه دقیق اسناد در برنامه‌های Python

Illustration parser

استخراج داده‌ها از اسناد

GroupDocs.Parser for Python via .NET API به شما امکان می‌دهد متن، متاداده و تصاویر را از انواع گسترده‌ای از قالب‌های فایل مانند اسناد Office، ایمیل‌ها، پیوست‌ها و آرشیوها بازیابی کنید. این ابزار قدرتمند به شما کمک می‌کند تا به‌صورت کارآمد به اطلاعات ارزشمند موجود در این فایل‌ها دسترسی پیدا کرده و آن‌ها را برای کاربردهای مختلفی مانند تحلیل داده، ایندکسیابی موتورهای جستجو یا سیستم‌های مدیریت محتوا پردازش کنید.

تجزیه اسناد

عناصر مختلفی مانند هایپرلینک‌ها، جداول، کدهای QR، بارکدها و داده‌ها را از فرم‌های PDF استخراج کنید. همچنین می‌توانید هر اطلاعات دلخواهی را از اسناد با استفاده از قالب‌های سفارشی تجزیه کنید.

سفارشی‌سازی نتایج

Python API به شما امکان می‌دهد داده‌ها را در قالب‌های مختلفی مانند خام، ساختاریافته، HTML یا Markdown بازیابی کنید. علاوه بر این، این API امکان جستجو برای یافتن کلمات یا عبارات خاص در متن اسناد را فراهم می‌کند.

استقلال پلتفرم

GroupDocs.Parser for Python via .NET از سیستم‌عامل‌ها، چارچوب‌ها و مدیرهای بستهٔ زیر پشتیبانی می‌کند

Amazon
Docker
Azure
VS Code
ReSharper
macOS
Linux
NuGet

قالب‌های فایل پشتیبانی شده

GroupDocs.Parser for Python via .NET عملیات را با فرمت‌های فایل زیر پشتیبانی می‌کند.

فرمت‌های Microsoft Office

  • Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
  • Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
  • PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

تصاویر و فرمت‌های دیگر

  • قابل حمل: PDF
  • تصاویر: JPG, BMP, PNG, TIFF, GIF
  • قالب‌های دیگر آفیس: ODT, OTT, OTS, ODS, ODP, OTP, ODG

فرمت‌های دیگر

  • وب: HTML, MHTML
  • آرشیوها: ZIP, TAR, 7Z
  • کتاب‌های الکترونیکی: CHM, EPUB, FB2, MOBI

امکانات GroupDocs.Parser for Python via .NET

داده‌ها را از PDFها، اسناد Office، تصاویر و سایر قالب‌ها به‌سرعت و با دقت با Python Document Parser SDK ما استخراج کنید.

Feature icon

استخراج متن

اطلاعات متنی را از انواع قالب‌های فایل مانند اسناد Office، فایل‌های PDF و تصاویر استخراج کنید تا خوانایی و تجزیه و تحلیل آسان باشد.

Feature icon

استخراج تصاویر

محتوای بصری را از منابع متنوعی مانند اسناد Office و فایل‌های PDF بازیابی کنید تا به‌راحتی دسترسی و استفاده شود.

Feature icon

اسکن کدهای QR

کدهای QR موجود در اسناد Office، فایل‌های PDF یا محتوای بصری را شناسایی و رمزگشایی کنید تا بازیابی اطلاعات به‌صورت کارآمد انجام شود.

Feature icon

استخراج داده‌ها از پیوست‌های ایمیل و آرشیوها

اطلاعات ارزشمند را از پیام‌های ایمیل، پیوست‌های فایل و منابع داده فشرده جمع‌آوری کنید تا تجزیه و تحلیل و استفاده مؤثری داشته باشید.

Feature icon

استخراج جداول

داده‌های جدول‌بندی شده را از اسناد PDF شناسایی و استخراج کنید تا برای تجزیه و تحلیل و استفاده سازمان‌یافته به کار رود.

Feature icon

استخراج هایپرلینک‌ها

در اسناد office یا فایل‌های PDF، پیوندهای ابرمتن و آدرس‌های ایمیل را شناسایی و استخراج کنید تا دسترسی کارآمد شود.

Feature icon

تجزیه فرم‌های PDF

فرم‌های PDF اسناد دیجیتالی هستند که شامل فیلدهای قابل پر شدن برای تعامل کاربر می‌باشند و امکان وارد کردن اطلاعات به صورت الکترونیکی را فراهم می‌کنند. Python API می‌تواند برای استخراج داده‌ها از این فرم‌ها جهت پردازش کارآمد مورد استفاده قرار گیرد.

Feature icon

تجزیه داده‌ها با الگوها

الگوهای سفارشی ایجاد کنید و با استفاده از Python API برای تجزیه اطلاعات خاص از فایل‌های PDF به کار ببرید تا فرآیند استخراج داده‌ها ساده شود.

Feature icon

جستجوی متن در اسناد

به‌سرعت کلمات یا الگوهای خاص را در اسناد پیدا کنید.

نمونه‌های کد

فراتر از استخراج متن پایه، در ادامه رایج‌ترین موارد استفاده برای استخراج سریع متن، تصویر و فراداده آورده شده است.

جستجوی متن در یک سند

این مثال نشان می‌دهد چگونه یک عبارت خاص را در سند PDF جستجو کرده و مکان یافتن آن را چاپ کنید.

جستجوی متن در یک سند با Python

from groupdocs.parser import Parser

# سند را بارگذاری کنید
with Parser("sample.pdf") as parser:
    # اندیس صفحه و مستطیل مکان یافتن عبارت را چاپ کنید
    for area in parser.Search("Total Amount"):
        # اندیس صفحه و مستطیل مکان یافتن عبارت را چاپ کنید
        print(f"Page {area.PageIndex}, Rectangle: {area.Rectangle}")

استخراج تصاویر از یک سند

این مثال نشان می‌دهد چگونه تصاویر را از سند PDF استخراج کرده و در فایلی ذخیره کنید.

استخراج تصاویر از یک سند با Python

from groupdocs.parser import Parser

# سند را بارگذاری کنید
with Parser("sample.docx") as parser:
    # تصاویر را از سند استخراج کنید
    images = parser.GetImages()

    # تصاویر را در یک فایل ذخیره کنید
    index = 1
    for image in images:
        image.Save(f"image_{index}.png")
        index += 1

استخراج فراداده از یک سند

این مثال نشان می‌دهد چگونه فراداده را از سند PDF استخراج کرده و چاپ کنید.

استخراج فراداده از یک سند با Python

from groupdocs.parser import Parser

# سند را بارگذاری کنید
with Parser("sample.pdf") as parser:
    # فراداده را از سند استخراج کنید
    metadata = parser.GetMetadata()

    # فراداده را چاپ کنید
    for item in metadata:
        print(f"{item.Name}: {item.Value}")

برای شروع آماده اید؟

GroupDocs.Parser را به صورت رایگان دانلود کنید یا یک مجوز آزمایشی برای دسترسی کامل دریافت کنید!

منابع مفید

برای ارتقاء تجربه خود ، مستندات ، نمونه های کد و پشتیبانی جامعه را کاوش کنید.

نکات مجوز موقت

1
با ایمیل کاری خود ثبت نام کنید. خدمات پست الکترونیکی رایگان مجاز نیستند.
2
در مرحله دوم از دکمه دریافت مجوز موقت استفاده کنید.
 فارسی