GroupDocs.Parser 概要

Java アプリケーションでドキュメント解析を実行するための API

Illustration parser

ドキュメントからデータを抽出する

Java API を使用すると、Office ドキュメント、電子メール、添付ファイル、アーカイブなどの幅広いファイル形式からテキスト、メタデータ、画像を取得できます。この強力なツールは、データ分析、検索エンジンのインデックス作成、コンテンツ管理システムなどのさまざまなアプリケーションで、これらのファイルに含まれる貴重な情報に効率的にアクセスして処理するのに役立ちます。

文書を解析する

PDF フォームからハイパーリンク、表、QR コード、バーコード、データなどのさまざまな要素を抽出します。また、カスタム テンプレートを使用してドキュメントから必要な情報を解析します。

結果のカスタマイズ

Java API を使用すると、生、構造化、HTML、マークダウンなどのさまざまな形式でデータを取得できます。さらに、API は、ドキュメントのテキスト内の特定の単語や語句を見つけるための検索機能を提供します。

プラットフォームの独立性

GroupDocs.Parser for Java は、次のオペレーティング システム、フレームワーク、パッケージ マネージャーをサポートしています

Amazon
Docker
Azure
Eclipse
IntelliJ
Windows
Linux
Maven

サポートされているファイル形式

GroupDocs.Parser for Java は、次の ファイル形式 での操作をサポートしています。

Microsoft Office 形式

  • Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
  • Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
  • PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

画像とその他の形式

  • Portable: PDF
  • 画像: JPG, BMP, PNG, TIFF, GIF, DICOM, WEBP
  • その他のオフィス形式: ODT, OTT, OTS, ODS, ODP, OTP, ODG

その他の形式

  • ウェブ: HTML, MHTML
  • アーカイブ: ZIP, TAR, 7Z
  • 電子書籍: CHM, EPUB, FB2, MOBI

GroupDocs.Parser の機能

PDF、Office ドキュメント、画像からデータを迅速かつ正確に抽出します。

Feature icon

テキストを抽出する

オフィス文書、PDF ファイル、画像などのさまざまなファイル形式からテキスト情報を抽出し、読みやすく分析しやすくします。

Feature icon

画像の抽出

オフィス文書や PDF ファイルなどのさまざまなソースからビジュアル コンテンツを取得して、アクセスして使用するのが便利です。

Feature icon

QRコードをスキャンする

オフィス文書、PDF ファイル、またはビジュアル コンテンツ内に存在する QR コードを検出してデコードし、効率的な情報検索を実現します。

Feature icon

電子メールの添付ファイルとアーカイブからデータを抽出する

電子メール メッセージ、添付ファイル、圧縮データ ソースから貴重な情報を収集し、効果的に分析して利用します。

Feature icon

テーブルの抽出

組織的な分析と使用のために、PDF ドキュメントから表形式のデータを特定して抽出します。

Feature icon

ハイパーリンクの抽出

オフィス文書または PDF ファイル内のハイパーリンクと電子メール アドレスを見つけて抽出し、効率的にアクセスできるようにします。

Feature icon

PDF フォームを解析する

PDF フォームは、ユーザーが情報を電子的に入力できるようにするための入力可能なフィールドを備えたデジタル ドキュメントです。 Java API を利用してこれらのフォームからデータを抽出し、効率的に処理できます。

Feature icon

テンプレートによるデータの解析

カスタム テンプレートを作成し、それを Java API で利用して、PDF ファイルからの特定の情報を解析し、データ抽出プロセスを簡素化します。

Feature icon

ドキュメント内のテキストを検索する

文書内の特定の単語やパターンをすばやく見つけます。

コードサンプル

典型的な GroupDocs.Parser for Java 操作のいくつかの使用例

PDF ドキュメントから画像を抽出する

Java API を使用すると、Java 開発者はいくつかの簡単な手順を実装することで、ドキュメントから画像を簡単に抽出できます。

Java の PDF ドキュメントから画像を抽出します

// Create an instance of Parser class
try (Parser parser = new Parser(fileName)) {
    // Extract images
    Iterable<PageImageArea> images = parser.getImages();
    // Check if images extraction is supported
    if (images != null) {
        int imageIndex = 0;
        // Iterate over images
        for (PageImageArea image : images) {
            // Save the image to the file
            image.save(String.format("%s%s", imageIndex, image.getFileType().getExtension()));
        }
    }
}

画像からバーコードを抽出する

Java API を使用すると、Java 開発者はいくつかの簡単な手順を実装することで、ドキュメントからバーコードを簡単に抽出できます。

画像からバーコードを抽出する

// Create an instance of Parser class
try (Parser parser = new Parser(fileName)) {
    // // Check if the file supports barcode extracting
    if (!parser.getFeatures().isBarcodes()) {
        // Extract barcodes from the file.
        Iterable<PageBarcodeArea> barcodes = parser.getBarcodes();
        // Iterate over barcodes
        for (PageBarcodeArea barcode : barcodes) {
            // Print the page index
            System.out.println("Page: " + barcode.getPage().getIndex());
            // Print the barcode value
            System.out.println("Value: " + barcode.getValue());
        }
    }
}
 日本