GroupDocs.Parserを使用してJavaプロジェクト内のPPTXファイルからテキストを抽出するために、以下の手順に従ってください:
- Parserクラスを使用してPPTXドキュメントを読み込む。
- ファイル内容からテキストを抽出する。
- テキストが正常に取得されたか確認する。
- 検索、分析、自動化システムでテキストデータを使用する。
GroupDocs.Parserを使用してJavaプロジェクト内のPPTXファイルからテキストを抽出するために、以下の手順に従ってください:
// ドキュメントでParserを初期化
try (Parser parser = new Parser("input.pptx"))
{
// すべてのテキストデータを読み取り、抽出
try (TextReader reader = parser.getText())
{
// テキストコンテンツが欠落している場合はnullを返す
// 抽出したテキストをワークフローに統合
System.out.println(reader == null ?
"サポートされていないテキスト抽出フォーマットをスキップ" : reader.readToEnd());
}
}
<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>24.9</version>
</dependency>
</dependencies>
<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://repository.groupdocs.com/repo/</url>
</repository>
</repositories>
GroupDocs.Parserは単純なテキスト抽出を超えて、コンテンツ処理タスクを強化するために画像、メタデータ、および構造化データの取得をサポートします。
DOCX、XLSX、PPTX、PDF、HTMLなどから生のテキストと構造化されたテキストの両方をキャプチャします。
論理的な構造を維持しながら、スキャンしたドキュメント、スライド、スプレッドシート、その他のファイルタイプからテキストを解析します。
ページ範囲、レイアウトゾーン、精度パラメータを設定して、テキスト解析を微調整します。
このサンプルは、GroupDocs.Parserを使用してPowerPointプレゼンテーションからテキストブロックとその空間的座標を抽出する方法を示しています。
// Parser APIでPPTXファイルを読み込む
try (Parser parser = new Parser("input.pptx"))
{
// すべての矩形テキストゾーンを取得
IEnumerable<PageTextArea> areas = parser.GetTextAreas();
// この機能がサポートされていない場合は終了
if (areas == null)
{
return;
}
// ページごとにテキスト領域をループする
for (PageTextArea a : areas)
{
// 各テキストブロックをページ番号と境界矩形で処理する
System.out.println(String.format("Page: %d, R: %s, Text: %s", a.getPage().getIndex(), a.getRectangle(), a.getText()));
}
}