Parser 対象 Python

Document Parser SDK（Python 用）

Python アプリに高速かつ正確な文書解析を追加し、ドキュメントや画像からテキスト、画像、メタデータ、構造化データを抽出します。

from groupdocs.parser import Parser

# ドキュメントを読み込む
with Parser("sample.pdf") as parser:
    # ドキュメントからテキストを抽出する
    text = parser.GetText()

    # 抽出したすべてのテキストを出力する
    print(text)

pip install groupdocs-parser-net

GroupDocs.Parser の概要

Python アプリケーションで高精度な文書解析を実行するための Document Parser SDK

ドキュメントからデータを抽出

GroupDocs.Parser for Python via .NET API を使用すると、Office ドキュメント、メール、添付ファイル、アーカイブなど、さまざまなファイル形式からテキスト、メタデータ、画像を取得できます。この強力なツールにより、データ分析、検索エンジンのインデックス作成、コンテンツ管理システムなど、様々なアプリケーションで必要となる情報を効率的にアクセス・処理できます。

ドキュメントを解析

PDF フォームからハイパーリンク、テーブル、QR コード、バーコード、およびデータなどのさまざまな要素を抽出します。また、カスタムテンプレートを使用してドキュメントから任意の情報を解析できます。

結果のカスタマイズ

Python API を使用すると、RAW、構造化、HTML、Markdown など、さまざまな形式でデータを取得できます。さらに、ドキュメントテキスト内の特定の単語やフレーズを検索する機能も提供します。

プラットフォームに依存しない

GroupDocs.Parser for Python via .NET は以下のオペレーティングシステム、フレームワーク、パッケージマネージャをサポートします

サポートされているファイル形式

GroupDocs.Parser for Python via .NET は以下のファイル形式に対応しています。

Microsoft Office 形式

Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

画像 & その他の形式

ポータブル: PDF
画像: JPG, BMP, PNG, TIFF, GIF
その他のオフィス形式: ODT, OTT, OTS, ODS, ODP, OTP, ODG

その他の形式

Web: HTML, MHTML
アーカイブ: ZIP, TAR, 7Z
電子書籍: CHM, EPUB, FB2, MOBI

GroupDocs.Parser for Python via .NET の機能

当社の Python Document Parser SDK を使用して、PDF、Office ドキュメント、画像、その他の形式からデータを迅速かつ正確に抽出します。

テキストを抽出

Office ドキュメント、PDF ファイル、画像などさまざまなファイル形式からテキスト情報を抽出し、読みやすさと分析を容易にします。

画像を抽出

Office ドキュメントや PDF ファイルなど多様なソースからビジュアルコンテンツを取得し、便利にアクセス・利用できます。

QR コードをスキャン

Office ドキュメント、PDF ファイル、またはビジュアルコンテンツ内にある QR コードを検出し、デコードして情報を効率的に取得します。

メール添付ファイルやアーカイブからデータを抽出

メールメッセージ、ファイル添付、圧縮データソースから有用な情報を収集し、効果的に分析・活用できます。

テーブルを抽出

PDF ドキュメントから表形式データを識別・抽出し、体系的な分析と活用が可能です。

ハイパーリンクを抽出

オフィス文書または PDF ファイル内のハイパーリンクとメールアドレスを検索して抽出し、効率的にアクセスできるようにします。

PDF フォームの解析

PDF フォームは、ユーザーが電子的に情報を入力できる入力可能なフィールドを備えたデジタル文書です。Python API を使用して、これらのフォームからデータを抽出し、効率的に処理できます。

テンプレートによるデータ解析

カスタムテンプレートを作成し、Python API と組み合わせて PDF ファイルから特定の情報を解析し、データ抽出プロセスを簡素化します。

文書内のテキスト検索

文書内の特定の単語やパターンを迅速に検索します。

コードサンプル

基本的なテキスト抽出に加えて、テキスト、画像、メタデータの迅速な抽出に最も一般的なユースケースをご紹介します。

文書内のテキスト検索

この例では、PDF 文書内で特定のフレーズを検索し、見つかった位置を出力する方法を示します。

Python で文書内のテキスト検索

from groupdocs.parser import Parser

# 文書をロードする
with Parser("sample.pdf") as parser:
    # フレーズが見つかったページインデックスと矩形を出力する
    for area in parser.Search("Total Amount"):
        # フレーズが見つかったページインデックスと矩形を出力する
        print(f"Page {area.PageIndex}, Rectangle: {area.Rectangle}")

文書から画像を抽出

この例では、PDF 文書から画像を抽出し、ファイルに保存する方法を示します。

Python で文書から画像を抽出

from groupdocs.parser import Parser

# 文書をロードする
with Parser("sample.docx") as parser:
    # 文書から画像を抽出する
    images = parser.GetImages()

    # 画像をファイルに保存する
    index = 1
    for image in images:
        image.Save(f"image_{index}.png")
        index += 1

文書からメタデータを抽出

この例では、PDF 文書からメタデータを抽出し、出力する方法を示します。

Python で文書からメタデータを抽出

from groupdocs.parser import Parser

# 文書をロードする
with Parser("sample.pdf") as parser:
    # 文書からメタデータを抽出する
    metadata = parser.GetMetadata()

    # メタデータを出力する
    for item in metadata:
        print(f"{item.Name}: {item.Value}")