Parser 対象 Java

ドキュメントパーサ SDK for Java

Java アプリに高速で高精度な文書解析を追加し、文書や画像からテキスト、画像、メタデータ、構造化データを抽出します。

バージョン 24.9 がリリースされました

// ソースファイルを Parser インスタンスに渡す
try (Parser parser = new Parser("source.pdf"))
{
    // 文書テキストを TextReader に渡す
    try (TextReader reader = parser.getText())
    {
        // 文書テキストを処理する
        System.out.println(reader == null 
            ? "" 
            : reader.readToEnd());
    }
}

<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>24.9</version>
</dependency>

GroupDocs.Parser の概要

Java アプリケーションで高精度な文書解析を実行するための Document Parser SDK

文書からデータを抽出

GroupDocs.Parser for Java API を使用すると、Office 文書、メール、添付ファイル、アーカイブなど、幅広いファイル形式からテキスト、メタデータ、画像を取得できます。この強力なツールは、データ分析、検索エンジンのインデックス作成、コンテンツ管理システムなど、さまざまなアプリケーション向けに、これらのファイルに含まれる貴重な情報へ効率的にアクセスし、処理するのに役立ちます。

ドキュメントを解析する

PDF フォームからハイパーリンク、表、QR コード、バーコード、データなどのさまざまな要素を抽出します。また、カスタムテンプレートを使用してドキュメントから任意の情報を解析します。

結果のカスタマイズ

Java API を使用すると、生データ、構造化データ、HTML、Markdown などのさまざまな形式でデータを取得できます。また、API はドキュメントテキスト内の特定の単語やフレーズを検索する機能も提供します。

プラットフォームに依存しない

GroupDocs.Parser for Java は以下のオペレーティングシステム、フレームワーク、パッケージマネージャーをサポートします。

サポートされているファイル形式

GroupDocs.Parser for Java は以下のファイル形式の操作をサポートします。

Microsoft Office 形式

Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

画像 & その他の形式

ポータブル: PDF
画像: JPG, BMP, PNG, TIFF, GIF
その他のオフィス形式: ODT, OTT, OTS, ODS, ODP, OTP, ODG

その他の形式

Web: HTML, MHTML
アーカイブ: ZIP, TAR, 7Z
電子書籍: CHM, EPUB, FB2, MOBI

GroupDocs.Parser for Java の機能

Java Document Parser SDK を使用して、PDF、Office ドキュメント、画像、その他の形式からデータを迅速かつ正確に抽出します。

テキストを抽出する

Office ドキュメント、PDF ファイル、画像などのさまざまなファイル形式からテキスト情報を抽出し、読みやすさと分析のしやすさを高めます。

画像を抽出する

Office ドキュメントや PDF ファイルなど、さまざまなソースから視覚コンテンツを取得し、便利にアクセス・活用できます。

QR コードをスキャンする

Office ドキュメント、PDF ファイル、またはビジュアルコンテンツ内にある QR コードを検出・デコードし、効率的に情報を取得します。

メール添付ファイルおよびアーカイブからデータを抽出する

メールメッセージ、ファイル添付、および圧縮データソースから貴重な情報を収集し、効果的な分析と活用を実現します。

テーブルを抽出

PDFドキュメントから表形式データを識別・抽出し、整理された分析と利用を可能にします。

ハイパーリンクを抽出

オフィス文書やPDFファイル内のハイパーリンクとメールアドレスを検索し抽出して、効率的にアクセスできるようにします。

PDFフォームを解析

PDFフォームは、ユーザーが入力できるフィールドを備えたデジタル文書で、情報を電子的に入力できます。.NET APIを使用してこれらのフォームからデータを抽出し、効率的に処理できます。

テンプレートでデータを解析

カスタムテンプレートを作成し、.NET APIと組み合わせてPDFファイルから特定の情報を解析することで、データ抽出プロセスを簡素化します。

ドキュメント内のテキストを検索

ドキュメント内の特定の単語やパターンを迅速に検索します。

コードサンプル

典型的な GroupDocs.Parser for Java の操作例

PDF ドキュメントから画像を抽出

GroupDocs.Parser for Java は、Java 開発者がドキュメントから画像を抽出しやすくします。

Java で PDF ドキュメントから画像を抽出する

// Parser クラスのインスタンスを作成する
try (Parser parser = new Parser("source.pdf"))
{
    // 画像を抽出する
    Iterable<PageImageArea> images = parser.getImages();

    // 何かが抽出されたか確認する
    if (images == null) {
        return;
    }

    // 画像を反復処理する
    for (PageImageArea image : images) {
        // ページインデックス、矩形、画像タイプを出力する
        System.out.println(String.format("Page: %d, R: %s, Type: %s", 
            image.getPage().getIndex(), image.getRectangle(), image.getFileType()));
    }
}

画像からバーコードを抽出

当社のJava API を使用して画像からバーコードを抽出します:

Java で画像からバーコードを抽出する

// ソース画像を Parser にロードする
try (Parser parser = new Parser("source.jpg")){

    // ファイルがバーコード抽出に対応しているか確認する
    if (!parser.getFeatures().isBarcodes()) {

        // ファイルからバーコードを抽出する
        Iterable<PageBarcodeArea> barcodes = parser.getBarcodes();

        // バーコードを反復処理する
        for (PageBarcodeArea barcode : barcodes) {
            // ページインデックスを出力する
            System.out.println("Page: " + barcode.getPage().getIndex());
            // バーコードの値を出力する
            System.out.println("Value: " + barcode.getValue());
        }
    }
}