GroupDocs.Parser for Java

Java를 사용하여 DOCX의 텍스트를 추출하세요

GroupDocs.Parser를 사용하여 PDF, Word, Excel 등과 같은 파일에서 읽을 수 있는 텍스트 또는 구조화된 텍스트를 원활하게 추출하세요. 이를 통해 Java 개발 프로젝트를 더욱 발전시킬 수 있습니다.

Maven 다운로드

무료 평가판 시작

Java를 사용하여 Docx에서 텍스트를 추출하는 방법

GroupDocs.Parser를 사용하여 Java 프로젝트 내에서 DOCX 파일에서 텍스트를 추출하려면 아래 단계를 따르세요:

Parser 클래스를 사용하여 DOCX 문서 로드.
파일 콘텐츠에서 텍스트 추출 수행.
텍스트가 성공적으로 검색되었는지 확인.
검색, 분석 또는 자동화 시스템에서 텍스트 데이터를 사용.

복사

// 문서로 Parser 초기화
try (Parser parser = new Parser("input.docx"))
{
    // 모든 텍스트 데이터 읽고 추출
    try (TextReader reader = parser.getText())
    {
        // 텍스트 콘텐츠가 없는 경우 null 반환
        // 추출된 텍스트를 워크플로우에 통합
        System.out.println(reader == null ? 
            "지원되지 않는 텍스트 추출 형식은 건너뛰기" : reader.readToEnd());
    }
}

<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>24.9</version>
</dependency>
</dependencies>
<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://repository.groupdocs.com/repo/</url>
</repository>
</repositories>

클릭하여 복사

복사되었습니다

더 많은 예시 문서화

풍부한 텍스트 추출 기능

GroupDocs.Parser는 단순한 텍스트 추출을 넘어 이미지, 메타데이터 및 구조화된 데이터의 검색을 지원하여 콘텐츠 처리 작업을 향상시킵니다.

다양한 문서 형식에서 작동

DOCX, XLSX, PPTX, PDF, HTML 등 여러 형식에서 원시 및 구조화된 텍스트를 캡처.

시각적 및 텍스트 콘텐츠에서 텍스트 추출

논리 구조를 유지하면서 스캔된 문서, 슬라이드, 스프레드시트 및 기타 파일 유형에서 텍스트 파싱.

추출 프로세스에 대한 세부 제어

정밀한 텍스트 파싱을 위해 페이지 범위, 레이아웃 영역 및 정확도 매개변수를 구성.

샘플: PPTX 문서에서 텍스트 영역 추출

이 샘플은 GroupDocs.Parser를 사용하여 PowerPoint 프레젠테이션에서 텍스트 블록과 그 공간 좌표를 추출하는 방법을 보여줍니다.

Java

//  Parser API로 PPTX 파일 로드
try (Parser parser = new Parser("input.pptx"))
{
    // 모든 직사각형 텍스트존 가져오기
    IEnumerable<PageTextArea> areas = parser.GetTextAreas();

    // 이 기능이 지원되지 않으면 종료
    if (areas == null)
    {
        return;
    }

    // 페이지별로 텍스트 영역 반복
    for (PageTextArea a : areas)
    {
        // 각 텍스트 블록을 페이지 번호와 경계 사각형으로 처리
        System.out.println(String.format("Page: %d, R: %s, Text: %s", a.getPage().getIndex(), a.getRectangle(), a.getText()));
    }
}

GroupDocs.Parser for Java API 소개

GroupDocs.Parser는 Java 개발자를 위해 설계된 강력하고 확장 가능한 문서 파서입니다. PDF, DOCX, XLSX, PPTX 등 다양한 형식에서 텍스트, 테이블, 이미지 및 구조화된 구성 요소를 정확하게 추출할 수 있는 기능을 제공합니다—외부 유틸리티에 의존하지 않고.

더 알아보기