GroupDocs.Parser の概要

Python アプリケーションで高精度な文書解析を実行するための Document Parser SDK

Illustration parser

ドキュメントからデータを抽出

GroupDocs.Parser for Python via .NET API を使用すると、Office ドキュメント、メール、添付ファイル、アーカイブなど、さまざまなファイル形式からテキスト、メタデータ、画像を取得できます。この強力なツールにより、データ分析、検索エンジンのインデックス作成、コンテンツ管理システムなど、様々なアプリケーションで必要となる情報を効率的にアクセス・処理できます。

ドキュメントを解析

PDF フォームからハイパーリンク、テーブル、QR コード、バーコード、およびデータなどのさまざまな要素を抽出します。また、カスタムテンプレートを使用してドキュメントから任意の情報を解析できます。

結果のカスタマイズ

Python API を使用すると、RAW、構造化、HTML、Markdown など、さまざまな形式でデータを取得できます。さらに、ドキュメントテキスト内の特定の単語やフレーズを検索する機能も提供します。

プラットフォームに依存しない

GroupDocs.Parser for Python via .NET は以下のオペレーティングシステム、フレームワーク、パッケージマネージャをサポートします

Amazon
Docker
Azure
VS Code
ReSharper
macOS
Linux
NuGet

サポートされているファイル形式

GroupDocs.Parser for Python via .NET は以下の ファイル形式 に対応しています。

Microsoft Office 形式

  • Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
  • Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
  • PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

画像 & その他の形式

  • ポータブル: PDF
  • 画像: JPG, BMP, PNG, TIFF, GIF
  • その他のオフィス形式: ODT, OTT, OTS, ODS, ODP, OTP, ODG

その他の形式

  • Web: HTML, MHTML
  • アーカイブ: ZIP, TAR, 7Z
  • 電子書籍: CHM, EPUB, FB2, MOBI

GroupDocs.Parser for Python via .NET の機能

当社の Python Document Parser SDK を使用して、PDF、Office ドキュメント、画像、その他の形式からデータを迅速かつ正確に抽出します。

Feature icon

テキストを抽出

Office ドキュメント、PDF ファイル、画像などさまざまなファイル形式からテキスト情報を抽出し、読みやすさと分析を容易にします。

Feature icon

画像を抽出

Office ドキュメントや PDF ファイルなど多様なソースからビジュアルコンテンツを取得し、便利にアクセス・利用できます。

Feature icon

QR コードをスキャン

Office ドキュメント、PDF ファイル、またはビジュアルコンテンツ内にある QR コードを検出し、デコードして情報を効率的に取得します。

Feature icon

メール添付ファイルやアーカイブからデータを抽出

メールメッセージ、ファイル添付、圧縮データソースから有用な情報を収集し、効果的に分析・活用できます。

Feature icon

テーブルを抽出

PDF ドキュメントから表形式データを識別・抽出し、体系的な分析と活用が可能です。

Feature icon

ハイパーリンクを抽出

オフィス文書または PDF ファイル内のハイパーリンクとメールアドレスを検索して抽出し、効率的にアクセスできるようにします。

Feature icon

PDF フォームの解析

PDF フォームは、ユーザーが電子的に情報を入力できる入力可能なフィールドを備えたデジタル文書です。Python API を使用して、これらのフォームからデータを抽出し、効率的に処理できます。

Feature icon

テンプレートによるデータ解析

カスタムテンプレートを作成し、Python API と組み合わせて PDF ファイルから特定の情報を解析し、データ抽出プロセスを簡素化します。

Feature icon

文書内のテキスト検索

文書内の特定の単語やパターンを迅速に検索します。

コードサンプル

基本的なテキスト抽出に加えて、テキスト、画像、メタデータの迅速な抽出に最も一般的なユースケースをご紹介します。

文書内のテキスト検索

この例では、PDF 文書内で特定のフレーズを検索し、見つかった位置を出力する方法を示します。

Python で文書内のテキスト検索

from groupdocs.parser import Parser

# 文書をロードする
with Parser("sample.pdf") as parser:
    # フレーズが見つかったページインデックスと矩形を出力する
    for area in parser.Search("Total Amount"):
        # フレーズが見つかったページインデックスと矩形を出力する
        print(f"Page {area.PageIndex}, Rectangle: {area.Rectangle}")

文書から画像を抽出

この例では、PDF 文書から画像を抽出し、ファイルに保存する方法を示します。

Python で文書から画像を抽出

from groupdocs.parser import Parser

# 文書をロードする
with Parser("sample.docx") as parser:
    # 文書から画像を抽出する
    images = parser.GetImages()

    # 画像をファイルに保存する
    index = 1
    for image in images:
        image.Save(f"image_{index}.png")
        index += 1

文書からメタデータを抽出

この例では、PDF 文書からメタデータを抽出し、出力する方法を示します。

Python で文書からメタデータを抽出

from groupdocs.parser import Parser

# 文書をロードする
with Parser("sample.pdf") as parser:
    # 文書からメタデータを抽出する
    metadata = parser.GetMetadata()

    # メタデータを出力する
    for item in metadata:
        print(f"{item.Name}: {item.Value}")

始める準備はできていますか?

GroupDocs.Parser を無料でダウンロードするか、フルアクセス用の試用版ライセンスを取得してください。

有用なリソース

ドキュメント、コードサンプル、コミュニティサポートを調べて、体験を向上させます。

一時ライセンスのヒント

1
職場の電子メールで登録してください。フリー メール サービスは使用できません。
2
2 番目のステップで [一時ライセンスを取得] ボタンを使用します。
 日本