GroupDocs.Parser を使用して .NET アプリ内の PDF ドキュメントからクリーンで構造化されたテキストを抽出するための手順は次のとおりです:
- Parser インスタンスを使用して PDF ドキュメントを開きます。
- ファイルコンテンツからテキストを抽出します。
- 結果を確認してテキスト抽出が成功したことを確認します。
- 抽出されたテキストをビジネスロジック、インデクシング、またはデータパイプラインで利用します。
GroupDocs.Parser を使用して .NET アプリ内の PDF ドキュメントからクリーンで構造化されたテキストを抽出するための手順は次のとおりです:
// Parser にドキュメントを読み込む
using (Parser parser = new Parser("input.pdf")) {
// ファイルからすべてのテキストコンテンツを抽出する
using (TextReader reader = parser.GetText())
{
// テキストが取得できない場合、結果は null になります
// 抽出されたテキストをアプリケーションで使用する
Console.WriteLine(reader == null ?
"この形式ではテキスト抽出はサポートされていません" : reader.ReadToEnd());
}
}
プレーンテキストに加えて、GroupDocs.Parser は、内容分析、変換、自動化をサポートするために、画像、構造化要素、およびメタデータを抽出することができます。
PDF、DOCX、XLSX、PPTX、HTML などの形式からプレーンまたは構造化テキストを取得できます。
スキャンした画像、プレゼンテーション、スプレッドシート、デジタルドキュメントからテキストを抽出し、構造を保持します。
テキストの検出方法をカスタマイズします—ページ範囲、レイアウト領域を定義し、最大精度に向けて出力を調整します。
このコードサンプルでは、GroupDocs.Parser を使用して PowerPoint ファイルからテキストコンテンツとエリア座標を取得する方法を示します。
// Parser で PowerPoint プレゼンテーションを読み込みます。
using (Parser parser = new Parser("input.pptx"))
{
// ドキュメントからすべてのテキストエリアの矩形を抽出します。
IEnumerable<PageTextArea> areas = parser.GetTextAreas();
// テキストエリア抽出ができない場合は終了します。
if (areas == null)
{
return;
}
// 各ページのテキストエリアをループ処理します。
foreach (PageTextArea a in areas)
{
// ページインデックス、エリア矩形、およびテキスト値にアクセスします。
Console.WriteLine(string.Format("Page: {0}, R: {1}, Text: {2}", a.Page.Index, a.Rectangle, a.Text));
}
}