GroupDocs.Parser를 사용하여 Java 프로젝트에서 RTF 문서에서 유용한 정보를 추출하려면 다음 지침을 따르세요:
- Parser 객체로 RTF 파일 열기.
- 파서를 사용하여 필요한 데이터(텍스트, 테이블, 메타데이터 등)를 검색합니다.
- 출력이 정확하고 완전한지 확인합니다.
- 파싱된 콘텐츠를 데이터 흐름, 비즈니스 프로세스 또는 애플리케이션에 통합합니다.
GroupDocs.Parser를 사용하여 Java 프로젝트에서 RTF 문서에서 유용한 정보를 추출하려면 다음 지침을 따르세요:
// 입력 문서로 Parser 초기화
try (Parser parser = new Parser("input.rtf"))
{
// 문서에서 사용 가능한 모든 텍스트 콘텐츠 검색
try (TextReader reader = parser.getText())
{
// 텍스트가 발견되지 않으면 반환 값이 null이 됩니다.
// 추출된 콘텐츠를 솔루션에 통합
System.out.println(reader == null ?
"이 형식은 텍스트 추출을 지원하지 않을 수 있습니다." : reader.readToEnd());
}
}
<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>24.9</version>
</dependency>
</dependencies>
<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://repository.groupdocs.com/repo/</url>
</repository>
</repositories>
GroupDocs.Parser는 단순한 텍스트 추출을 넘어서 바코드, 메타데이터, 이미지, 테이블 및 기타 데이터를 전체적으로 파싱하여 지능형 자동화 및 데이터 기반 애플리케이션을 지원합니다.
PDF, Word, Excel, PowerPoint, HTML 등 널리 사용되는 파일 유형에서 텍스트, 테이블 및 미디어와 같은 데이터에 접근할 수 있습니다.
원본 디지털 파일과 스캔된 이미지 모두에서 콘텐츠를 처리하며, 필요한 경우 OCR을 사용하여 내장된 텍스트를 해석합니다.
페이지 선택, 레이아웃 영역 및 특정 추출 요구 사항에 맞는 사용자 정의 필드 템플릿 설정으로 파싱을 조정하세요.
이 샘플은 GroupDocs.Parser를 통해 사용자 정의 템플릿을 사용하여 PDF에서 구조화된 필드를 추출하는 방법을 보여줍니다.
// Parser 클래스를 사용하여 PDF를 엽니다.
try (Parser parser = new Parser("input.pdf"))
{
// 정의된 데이터를 추출하기 위해 파싱 템플릿을 적용합니다.
DocumentData data = parser.parseByTemplate(GetTemplate());
// 템플릿 기반 추출이 가능한지 확인합니다.
if (data == null) {
return;
}
// 추출된 데이터 필드와 작업합니다.
for (int i = 0; i < data.getCount(); i++) {
System.out.print(data.get(i).getName() + ": ");
PageTextArea area = data.get(i).getPageArea() instanceof PageTextArea
? (PageTextArea) data.get(i).getPageArea() : null;
System.out.println(area == null ? "Not a template field" : area.getText());
}
}
private static Template GetTemplate()
{
// '세부정보' 섹션을 추출하기 위한 감지기 설정 정의
TemplateTableParameters detailsTableParameters =
new TemplateTableParameters(new Rectangle(new Point(35, 320), new Size(530, 55)), null);
TemplateItem[] templateItems = new TemplateItem[]
{
new TemplateTable(detailsTableParameters, "details", null)
};
Template template = new Template(java.util.Arrays.asList(templateItems));
return template;
}