GroupDocs.Parser 概要

Java アプリケーションで文書解析を実行するためのAPI

Illustration parser

文書からデータを抽出

GroupDocs.Parser for Java APIを活用して、Office文書、Eメール、添付ファイル、アーカイブなど、広範囲のファイル形式からテキスト、メタデータ、画像を取得します。この強力なツールは、データ分析、検索エンジンのインデックス作成、コンテンツ管理システムなど、さまざまなアプリケーション内でこれらのファイルに含まれる貴重な情報に効率的にアクセスし処理するのに役立ちます。

文書を解析

ハイパーリンク、表、QRコード、バーコード、PDFフォームのデータなど、さまざまな要素を抽出します。また、カスタムテンプレートを使用して任意の情報を文書から解析します。

結果のカスタマイズ

Java APIでは、生データ、構造化データ、HTML、またはMarkdownなど、さまざまな形式でデータを取得できます。さらに、文書のテキスト内に特定の単語やフレーズを見つけるための検索機能も提供しています。

プラットフォームの独立性

GroupDocs.Parser for Java は次のオペレーティングシステム、フレームワーク、パッケージマネージャーをサポートしています。

Amazon
Docker
Azure
Eclipse
IntelliJ
Windows
Linux
Maven

サポートされているファイル形式

GroupDocs.Parser for Java は次の ファイル形式に対応しています。

Microsoft Office形式

  • Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
  • Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
  • PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

画像およびその他の形式

  • ポータブル: PDF
  • 画像: JPG, BMP, PNG, TIFF, GIF
  • その他のオフィス形式: ODT, OTT, OTS, ODS, ODP, OTP, ODG

その他の形式

  • ウェブ: HTML, MHTML
  • アーカイブ: ZIP, TAR, 7Z
  • e-Book: CHM, EPUB, FB2, MOBI

GroupDocs.Parser for Java の機能

PDF、Office文書、および画像から迅速かつ正確にデータを抽出します。

Feature icon

テキストの抽出

オフィス文書、PDFファイル、画像など、さまざまなファイル形式からテキスト情報を抽出します。

Feature icon

画像の抽出

オフィス文書やPDFファイルから視覚コンテンツを抽出し、便宜上アクセス可能にします。

Feature icon

QRコードのスキャン

オフィス文書やPDFファイル、または視覚コンテンツに存在するQRコードを検出してデコードします。

Feature icon

メール添付ファイルやアーカイブからデータを抽出

メールメッセージ、ファイル添付、圧縮データソースから貴重な情報を取得します。

Feature icon

表の抽出

PDF文書内の表形式のデータを識別して抽出し、整理された分析と利用を行います。

Feature icon

ハイパーリンクの抽出

オフィス文書やPDFファイル内のハイパーリンクやメールアドレスを見つけて抽出します。

Feature icon

PDFフォームを解析

PDFフォームはユーザーが情報を電子的に入力できるようにするための入力可能なフィールドを含むデジタル文書です。 .NET APIを使用して、これらのフォームからデータを抽出し、効率的に処理します。

Feature icon

テンプレートによるデータ解析

カスタムテンプレートを作成し、.NET APIを利用してPDFファイルから特定の情報を解析します。

Feature icon

文書内のテキストを検索

文書内で特定の言葉やパターンを迅速に見つけます。

コードサンプル

典型的な GroupDocs.Parser for Java 操作のいくつかのユースケース

PDF文書から画像を抽出

GroupDocs.Parser for Java は Java 開発者が 文書 から画像を抽出するのを簡単にします:

Java でPDF文書から画像を抽出

// Parser クラスのインスタンスを作成します。
try (Parser parser = new Parser("source.pdf"))
{
    // 画像を抽出します。
    Iterable<PageImageArea> images = parser.getImages();

    // 何かが抽出されたか確認します。
    if (images == null) {
        return;
    }

    // 画像を反復処理します。
    for (PageImageArea image : images) {
        // ページインデックス、矩形、画像タイプを出力します。
        System.out.println(String.format("Page: %d, R: %s, Type: %s", 
            image.getPage().getIndex(), image.getRectangle(), image.getFileType()));
    }
}

画像からバーコードを抽出

私たちの Java APIを使用して、画像から バーコード を抽出します:

Java で画像からバーコードを抽出

// Parser にソース画像を読み込みます。
try (Parser parser = new Parser("source.jpg")){

    // ファイルがバーコード抽出をサポートしているか確認します。
    if (!parser.getFeatures().isBarcodes()) {

        // ファイルからバーコードを抽出します。
        Iterable<PageBarcodeArea> barcodes = parser.getBarcodes();

        // バーコードを反復処理します。
        for (PageBarcodeArea barcode : barcodes) {
            // ページインデックスを出力します。
            System.out.println("Page: " + barcode.getPage().getIndex());
            // バーコードの値を出力します。
            System.out.println("Value: " + barcode.getValue());
        }
    }
}

始める準備はできていますか?

GroupDocs.Parser を無料でダウンロードするか、フルアクセス用の試用版ライセンスを取得してください。

有用なリソース

ドキュメント、コードサンプル、コミュニティサポートを調べて、体験を向上させます。

一時ライセンスのヒント

1
職場の電子メールで登録してください。フリー メール サービスは使用できません。
2
2 番目のステップで [一時ライセンスを取得] ボタンを使用します。
 日本