GroupDocs.Parser를 사용하여 Java 프로젝트 내에서 PPTX 파일에서 텍스트를 추출하려면 아래 단계를 따르세요:
- Parser 클래스를 사용하여 PPTX 문서 로드.
- 파일 콘텐츠에서 텍스트 추출 수행.
- 텍스트가 성공적으로 검색되었는지 확인.
- 검색, 분석 또는 자동화 시스템에서 텍스트 데이터를 사용.
GroupDocs.Parser를 사용하여 Java 프로젝트 내에서 PPTX 파일에서 텍스트를 추출하려면 아래 단계를 따르세요:
// 문서로 Parser 초기화
try (Parser parser = new Parser("input.pptx"))
{
// 모든 텍스트 데이터 읽고 추출
try (TextReader reader = parser.getText())
{
// 텍스트 콘텐츠가 없는 경우 null 반환
// 추출된 텍스트를 워크플로우에 통합
System.out.println(reader == null ?
"지원되지 않는 텍스트 추출 형식은 건너뛰기" : reader.readToEnd());
}
}
<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>24.9</version>
</dependency>
</dependencies>
<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://repository.groupdocs.com/repo/</url>
</repository>
</repositories>
GroupDocs.Parser는 단순한 텍스트 추출을 넘어 이미지, 메타데이터 및 구조화된 데이터의 검색을 지원하여 콘텐츠 처리 작업을 향상시킵니다.
DOCX, XLSX, PPTX, PDF, HTML 등 여러 형식에서 원시 및 구조화된 텍스트를 캡처.
논리 구조를 유지하면서 스캔된 문서, 슬라이드, 스프레드시트 및 기타 파일 유형에서 텍스트 파싱.
정밀한 텍스트 파싱을 위해 페이지 범위, 레이아웃 영역 및 정확도 매개변수를 구성.
이 샘플은 GroupDocs.Parser를 사용하여 PowerPoint 프레젠테이션에서 텍스트 블록과 그 공간 좌표를 추출하는 방법을 보여줍니다.
// Parser API로 PPTX 파일 로드
try (Parser parser = new Parser("input.pptx"))
{
// 모든 직사각형 텍스트존 가져오기
IEnumerable<PageTextArea> areas = parser.GetTextAreas();
// 이 기능이 지원되지 않으면 종료
if (areas == null)
{
return;
}
// 페이지별로 텍스트 영역 반복
for (PageTextArea a : areas)
{
// 각 텍스트 블록을 페이지 번호와 경계 사각형으로 처리
System.out.println(String.format("Page: %d, R: %s, Text: %s", a.getPage().getIndex(), a.getRectangle(), a.getText()));
}
}