GroupDocs.Parser for Java

Java를 사용하여 DOCX의 텍스트를 추출하세요

GroupDocs.Parser를 사용하여 PDF, Word, Excel 등과 같은 파일에서 읽을 수 있는 텍스트 또는 구조화된 텍스트를 원활하게 추출하세요. 이를 통해 Java 개발 프로젝트를 더욱 발전시킬 수 있습니다.

Java를 사용하여 Docx에서 텍스트를 추출하는 방법

GroupDocs.Parser를 사용하여 Java 프로젝트 내에서 DOCX 파일에서 텍스트를 추출하려면 아래 단계를 따르세요:

  1. Parser 클래스를 사용하여 DOCX 문서 로드.
  2. 파일 콘텐츠에서 텍스트 추출 수행.
  3. 텍스트가 성공적으로 검색되었는지 확인.
  4. 검색, 분석 또는 자동화 시스템에서 텍스트 데이터를 사용.
// 문서로 Parser 초기화
try (Parser parser = new Parser("input.docx"))
{
    // 모든 텍스트 데이터 읽고 추출
    try (TextReader reader = parser.getText())
    {
        // 텍스트 콘텐츠가 없는 경우 null 반환
        // 추출된 텍스트를 워크플로우에 통합
        System.out.println(reader == null ? 
            "지원되지 않는 텍스트 추출 형식은 건너뛰기" : reader.readToEnd());
    }
}
<dependencies> <dependency> <groupId>com.groupdocs</groupId> <artifactId>groupdocs-parser</artifactId> <version>24.9</version> </dependency> </dependencies> <repositories> <repository> <id>repository.groupdocs.com</id> <name>GroupDocs Repository</name> <url>https://repository.groupdocs.com/repo/</url> </repository> </repositories>
클릭하여 복사
복사되었습니다
더 많은 예시 문서화

풍부한 텍스트 추출 기능

GroupDocs.Parser는 단순한 텍스트 추출을 넘어 이미지, 메타데이터 및 구조화된 데이터의 검색을 지원하여 콘텐츠 처리 작업을 향상시킵니다.

문서에서 텍스트 콘텐츠 추출 및 구조화

다양한 문서 형식에서 작동

DOCX, XLSX, PPTX, PDF, HTML 등 여러 형식에서 원시 및 구조화된 텍스트를 캡처.

시각적 및 텍스트 콘텐츠에서 텍스트 추출

논리 구조를 유지하면서 스캔된 문서, 슬라이드, 스프레드시트 및 기타 파일 유형에서 텍스트 파싱.

추출 프로세스에 대한 세부 제어

정밀한 텍스트 파싱을 위해 페이지 범위, 레이아웃 영역 및 정확도 매개변수를 구성.

샘플: PPTX 문서에서 텍스트 영역 추출

이 샘플은 GroupDocs.Parser를 사용하여 PowerPoint 프레젠테이션에서 텍스트 블록과 그 공간 좌표를 추출하는 방법을 보여줍니다.

Java

//  Parser API로 PPTX 파일 로드
try (Parser parser = new Parser("input.pptx"))
{
    // 모든 직사각형 텍스트존 가져오기
    IEnumerable<PageTextArea> areas = parser.GetTextAreas();

    // 이 기능이 지원되지 않으면 종료
    if (areas == null)
    {
        return;
    }

    // 페이지별로 텍스트 영역 반복
    for (PageTextArea a : areas)
    {
        // 각 텍스트 블록을 페이지 번호와 경계 사각형으로 처리
        System.out.println(String.format("Page: %d, R: %s, Text: %s", a.getPage().getIndex(), a.getRectangle(), a.getText()));
    }
}

GroupDocs.Parser for Java API 소개

GroupDocs.Parser는 Java 개발자를 위해 설계된 강력하고 확장 가능한 문서 파서입니다. PDF, DOCX, XLSX, PPTX 등 다양한 형식에서 텍스트, 테이블, 이미지 및 구조화된 구성 요소를 정확하게 추출할 수 있는 기능을 제공합니다—외부 유틸리티에 의존하지 않고.
더 알아보기
About illustration

시작할 준비가 되셨나요?

GroupDocs.Parser를 무료로 다운로드하거나 전체 액세스를 위한 평가판 라이센스를 받으세요!

유용한 리소스

경험을 향상시키기 위해 문서, 코드 샘플 및 커뮤니티 지원을 탐색하십시오.

텍스트 추출을 지원하는 파일 유형

GroupDocs.Parser는 수많은 파일 및 이미지 형식에서 텍스트 콘텐츠를 추출할 수 있습니다. 아래는 지원되는 가장 일반적인 유형입니다.

임시 라이센스 팁

1
직장 이메일로 가입하세요. 무료 메일 서비스는 허용되지 않습니다.
2
두 번째 단계에서 임시 라이센스 받기 버튼을 사용하세요.
 한국인