GroupDocs.Parser を使用して、Java プロジェクトの RTF 文書から有用な情報を抽出するには、次の手順に従ってください:
- Parser オブジェクトで RTF ファイルを開きます。
- パーサーを使用して必要なデータ(テキスト、表、メタデータなど)を取得します。
- 出力が正確かつ完全であることを確認します。
- パースされたコンテンツをデータフロー、ビジネスプロセス、またはアプリケーションに統合します。
GroupDocs.Parser を使用して、Java プロジェクトの RTF 文書から有用な情報を抽出するには、次の手順に従ってください:
// Parser を初期化し、入力文書を設定します。
try (Parser parser = new Parser("input.rtf"))
{
// 文書から利用可能なすべてのテキストコンテンツを取得します。
try (TextReader reader = parser.getText())
{
// テキストが見つからない場合、戻り値は null になります。
// 抽出したコンテンツをソリューションに組み込みます。
System.out.println(reader == null ?
"このフォーマットはテキスト抽出をサポートしていない場合があります。" : reader.readToEnd());
}
}
<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>24.9</version>
</dependency>
</dependencies>
<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://repository.groupdocs.com/repo/</url>
</repository>
</repositories>
GroupDocs.Parser は単なるテキスト抽出以上の機能を持ち、バーコード、メタデータ、画像、表、その他のデータの完全なパースをサポートし、インテリジェントな自動化とデータ駆動型アプリケーションを推進します。
PDF、Word、Excel、PowerPoint、HTMLなど、広く使用されているファイルタイプからテキスト、表、メディアなどのデータにアクセスします。
ネイティブデジタルファイルとスキャン画像の両方からコンテンツを処理し、必要に応じてOCRを使用して埋め込まれたテキストを解釈します。
特定の抽出ニーズを満たすために、ページ選択、レイアウトゾーン、カスタムフィールドテンプレートの設定でパースを調整します。
このサンプルは、GroupDocs.Parser を使用してカスタムテンプレートからPDFの構造化フィールドを抽出する方法を示しています。
// Parser クラスを使用してPDFを開きます。
try (Parser parser = new Parser("input.pdf"))
{
// 定義されたデータを抽出するためにパーステンプレートを適用します。
DocumentData data = parser.parseByTemplate(GetTemplate());
// テンプレートベースの抽出が可能か確認します。
if (data == null) {
return;
}
// 抽出されたデータフィールドを操作します。
for (int i = 0; i < data.getCount(); i++) {
System.out.print(data.get(i).getName() + ": ");
PageTextArea area = data.get(i).getPageArea() instanceof PageTextArea
? (PageTextArea) data.get(i).getPageArea() : null;
System.out.println(area == null ? "Not a template field" : area.getText());
}
}
private static Template GetTemplate()
{
// '詳細' セクションを抽出するための検出設定を定義します。
TemplateTableParameters detailsTableParameters =
new TemplateTableParameters(new Rectangle(new Point(35, 320), new Size(530, 55)), null);
TemplateItem[] templateItems = new TemplateItem[]
{
new TemplateTable(detailsTableParameters, "details", null)
};
Template template = new Template(java.util.Arrays.asList(templateItems));
return template;
}