Parser برای Python

SDK تجزیه‌کننده سند برای Python

تجزیه سریع و دقیق اسناد را به برنامه‌های Python خود اضافه کنید و متن، تصاویر، متاداده و داده‌های ساختاریافته را از اسناد و تصاویر استخراج کنید.

دانلود PyPI آزمایش رایگان را شروع کنید

from groupdocs.parser import Parser

# بارگذاری سند
with Parser("sample.pdf") as parser:
    # استخراج متن از سند
    text = parser.GetText()

    # چاپ تمام متن استخراج‌شده
    print(text)

pip install groupdocs-parser-net

GroupDocs.Parser در یک نگاه

SDK تجزیه‌کننده سند برای انجام تجزیه دقیق اسناد در برنامه‌های Python

استخراج داده‌ها از اسناد

GroupDocs.Parser for Python via .NET API به شما امکان می‌دهد متن، متاداده و تصاویر را از انواع گسترده‌ای از قالب‌های فایل مانند اسناد Office، ایمیل‌ها، پیوست‌ها و آرشیوها بازیابی کنید. این ابزار قدرتمند به شما کمک می‌کند تا به‌صورت کارآمد به اطلاعات ارزشمند موجود در این فایل‌ها دسترسی پیدا کرده و آن‌ها را برای کاربردهای مختلفی مانند تحلیل داده، ایندکسیابی موتورهای جستجو یا سیستم‌های مدیریت محتوا پردازش کنید.

تجزیه اسناد

عناصر مختلفی مانند هایپرلینک‌ها، جداول، کدهای QR، بارکدها و داده‌ها را از فرم‌های PDF استخراج کنید. همچنین می‌توانید هر اطلاعات دلخواهی را از اسناد با استفاده از قالب‌های سفارشی تجزیه کنید.

سفارشی‌سازی نتایج

Python API به شما امکان می‌دهد داده‌ها را در قالب‌های مختلفی مانند خام، ساختاریافته، HTML یا Markdown بازیابی کنید. علاوه بر این، این API امکان جستجو برای یافتن کلمات یا عبارات خاص در متن اسناد را فراهم می‌کند.

استقلال پلتفرم

GroupDocs.Parser for Python via .NET از سیستم‌عامل‌ها، چارچوب‌ها و مدیرهای بستهٔ زیر پشتیبانی می‌کند

قالب‌های فایل پشتیبانی شده

GroupDocs.Parser for Python via .NET عملیات را با فرمت‌های فایل زیر پشتیبانی می‌کند.

فرمت‌های Microsoft Office

Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

تصاویر و فرمت‌های دیگر

قابل حمل: PDF
تصاویر: JPG, BMP, PNG, TIFF, GIF
قالب‌های دیگر آفیس: ODT, OTT, OTS, ODS, ODP, OTP, ODG

فرمت‌های دیگر

وب: HTML, MHTML
آرشیوها: ZIP, TAR, 7Z
کتاب‌های الکترونیکی: CHM, EPUB, FB2, MOBI

امکانات GroupDocs.Parser for Python via .NET

داده‌ها را از PDFها، اسناد Office، تصاویر و سایر قالب‌ها به‌سرعت و با دقت با Python Document Parser SDK ما استخراج کنید.

استخراج متن

اطلاعات متنی را از انواع قالب‌های فایل مانند اسناد Office، فایل‌های PDF و تصاویر استخراج کنید تا خوانایی و تجزیه و تحلیل آسان باشد.

استخراج تصاویر

محتوای بصری را از منابع متنوعی مانند اسناد Office و فایل‌های PDF بازیابی کنید تا به‌راحتی دسترسی و استفاده شود.

اسکن کدهای QR

کدهای QR موجود در اسناد Office، فایل‌های PDF یا محتوای بصری را شناسایی و رمزگشایی کنید تا بازیابی اطلاعات به‌صورت کارآمد انجام شود.

استخراج داده‌ها از پیوست‌های ایمیل و آرشیوها

اطلاعات ارزشمند را از پیام‌های ایمیل، پیوست‌های فایل و منابع داده فشرده جمع‌آوری کنید تا تجزیه و تحلیل و استفاده مؤثری داشته باشید.

استخراج جداول

داده‌های جدول‌بندی شده را از اسناد PDF شناسایی و استخراج کنید تا برای تجزیه و تحلیل و استفاده سازمان‌یافته به کار رود.

استخراج هایپرلینک‌ها

در اسناد office یا فایل‌های PDF، پیوندهای ابرمتن و آدرس‌های ایمیل را شناسایی و استخراج کنید تا دسترسی کارآمد شود.

تجزیه فرم‌های PDF

فرم‌های PDF اسناد دیجیتالی هستند که شامل فیلدهای قابل پر شدن برای تعامل کاربر می‌باشند و امکان وارد کردن اطلاعات به صورت الکترونیکی را فراهم می‌کنند. Python API می‌تواند برای استخراج داده‌ها از این فرم‌ها جهت پردازش کارآمد مورد استفاده قرار گیرد.

تجزیه داده‌ها با الگوها

الگوهای سفارشی ایجاد کنید و با استفاده از Python API برای تجزیه اطلاعات خاص از فایل‌های PDF به کار ببرید تا فرآیند استخراج داده‌ها ساده شود.

جستجوی متن در اسناد

به‌سرعت کلمات یا الگوهای خاص را در اسناد پیدا کنید.

نمونه‌های کد

فراتر از استخراج متن پایه، در ادامه رایج‌ترین موارد استفاده برای استخراج سریع متن، تصویر و فراداده آورده شده است.

جستجوی متن در یک سند

این مثال نشان می‌دهد چگونه یک عبارت خاص را در سند PDF جستجو کرده و مکان یافتن آن را چاپ کنید.

جستجوی متن در یک سند با Python

from groupdocs.parser import Parser

# سند را بارگذاری کنید
with Parser("sample.pdf") as parser:
    # اندیس صفحه و مستطیل مکان یافتن عبارت را چاپ کنید
    for area in parser.Search("Total Amount"):
        # اندیس صفحه و مستطیل مکان یافتن عبارت را چاپ کنید
        print(f"Page {area.PageIndex}, Rectangle: {area.Rectangle}")

استخراج تصاویر از یک سند

این مثال نشان می‌دهد چگونه تصاویر را از سند PDF استخراج کرده و در فایلی ذخیره کنید.

استخراج تصاویر از یک سند با Python

from groupdocs.parser import Parser

# سند را بارگذاری کنید
with Parser("sample.docx") as parser:
    # تصاویر را از سند استخراج کنید
    images = parser.GetImages()

    # تصاویر را در یک فایل ذخیره کنید
    index = 1
    for image in images:
        image.Save(f"image_{index}.png")
        index += 1

استخراج فراداده از یک سند

این مثال نشان می‌دهد چگونه فراداده را از سند PDF استخراج کرده و چاپ کنید.

استخراج فراداده از یک سند با Python

from groupdocs.parser import Parser

# سند را بارگذاری کنید
with Parser("sample.pdf") as parser:
    # فراداده را از سند استخراج کنید
    metadata = parser.GetMetadata()

    # فراداده را چاپ کنید
    for item in metadata:
        print(f"{item.Name}: {item.Value}")