GroupDocs.Parser를 사용하여 .NET 앱에서 PDF 문서의 내용을 파싱하려면 다음 단계를 따르세요:
- Parser 인스턴스를 사용하여 PDF 문서를 로드합니다.
- 텍스트, 테이블 또는 메타데이터와 같은 원하는 내용을 추출합니다.
- 추출된 데이터가 유효한지 확인합니다.
- 파싱한 출력을 후속 처리, 자동화 또는 비즈니스 시스템에서 사용합니다.
GroupDocs.Parser를 사용하여 .NET 앱에서 PDF 문서의 내용을 파싱하려면 다음 단계를 따르세요:
// Parser에 문서를 로드하세요.
using (Parser parser = new Parser("input.pdf")) {
// 파일에서 모든 텍스트 콘텐츠를 추출하세요.
using (TextReader reader = parser.GetText())
{
// 텍스트를 사용할 수 없는 경우 결과는 null입니다.
// 추출된 텍스트를 애플리케이션에서 사용하세요.
Console.WriteLine(reader == null ?
"이 형식에 대한 텍스트 추출은 지원되지 않습니다." : reader.ReadToEnd());
}
}
GroupDocs.Parser는 단순 텍스트 읽기를 넘어 바코드 추출, 이미지 파싱, 메타데이터 접근 및 구조화된 데이터 처리를 지원하여 고급 자동화 및 데이터 분석을 가능하게 합니다.
PDF, Word, Excel, HTML과 같은 문서 형식에서 텍스트, 이미지, 테이블 및 필드를 포함한 데이터를 추출합니다.
스캔한 문서와 디지털 파일 모두에서 데이터를 파싱하며, OCR 및 레이아웃 인식 추출을 지원합니다.
페이지 범위 선택, 영역 타겟팅 및 필드 감지 템플릿과 같은 유연한 옵션으로 파싱 로직을 조정합니다.
이 예제에서는 GroupDocs.Parser을 사용하여 미리 정의된 파싱 템플릿으로 PDF에서 구조화된 데이터를 추출하는 방법을 보여줍니다.
// Parser 클래스로 PDF 파일을 로드하세요.
using (Parser parser = new Parser("input.pdf"))
{
// 템플릿에 따라 문서를 파싱하세요.
DocumentData data = parser.ParseByTemplate(GetTemplate());
// 양식 추출 여부를 확인하세요.
if (data == null)
{
return;
}
// 얻은 필드를 처리하세요.
for (int i = 0; i < data.Count; i++)
{
Console.Write(data[i].Name + ": ");
PageTextArea area = data[i].PageArea as PageTextArea;
Console.WriteLine(area == null ? "Not a template field" : area.Text);
}
}
private static Template GetTemplate()
{
// 'Details' 테이블을 위한 탐지기 매개변수를 생성하세요.
TemplateTableParameters detailsTableParameters =
new TemplateTableParameters(new Rectangle(new Point(35, 320), new Size(530, 55)), null);
TemplateItem[] templateItems = new TemplateItem[]
{
new TemplateTable(detailsTableParameters, "details", null)
};
Template template = new Template(templateItems);
return template;
}