GroupDocs.Parserを使用して、.NETアプリでEPUB文書からコンテンツを解析する手順は次のとおりです:
- Parserインスタンスを使用してEPUB文書を読み込む。
- テキスト、テーブル、メタデータなどの必要なコンテンツを抽出する。
- 抽出したデータが有効であることを確認する。
- 解析された出力を下流処理、自動化、またはビジネスシステムで使用する。
GroupDocs.Parserを使用して、.NETアプリでEPUB文書からコンテンツを解析する手順は次のとおりです:
// Parserを使って文書を読み込む
using (Parser parser = new Parser("input.epub")) {
// ファイルからすべてのテキストコンテンツを抽出する
using (TextReader reader = parser.GetText())
{
// テキストが利用できない場合、結果はnullになります
// 抽出したテキストをアプリケーションで使用する
Console.WriteLine(reader == null ?
"このフォーマットではテキスト抽出がサポートされていません" : reader.ReadToEnd());
}
}
GroupDocs.Parserは、単なるテキスト読み込み以上のことができます—バーコード抽出、画像解析、メタデータアクセス、構造化データ処理をサポートし、高度な自動化とデータ分析を実現します。
PDF、Word、Excel、HTMLなどの文書フォーマットからテキスト、画像、テーブル、フィールドを抽出します。
スキャンされた文書とデジタルファイルの両方からデータを解析し、OCRおよびレイアウトに配慮した抽出をサポートします。
ページ範囲の選択、領域ターゲティング、フィールド検出テンプレートなど、柔軟なオプションで解析ロジックを調整します。
この例では、GroupDocs.Parserを使用して、定義済みの解析テンプレートからPDFから構造化データを抽出する方法を示します。
// Parserクラスを使用してPDFファイルを読み込む
using (Parser parser = new Parser("input.pdf"))
{
// テンプレートごとに文書を解析する
DocumentData data = parser.ParseByTemplate(GetTemplate());
// フォーム抽出がサポートされているか確認する
if (data == null)
{
return;
}
// 取得したフィールドを処理する
for (int i = 0; i < data.Count; i++)
{
Console.Write(data[i].Name + ": ");
PageTextArea area = data[i].PageArea as PageTextArea;
Console.WriteLine(area == null ? "Not a template field" : area.Text);
}
}
private static Template GetTemplate()
{
// '詳細'テーブルの検出パラメータを作成する
TemplateTableParameters detailsTableParameters =
new TemplateTableParameters(new Rectangle(new Point(35, 320), new Size(530, 55)), null);
TemplateItem[] templateItems = new TemplateItem[]
{
new TemplateTable(detailsTableParameters, "details", null)
};
Template template = new Template(templateItems);
return template;
}