GroupDocs.Parser for Java

Java로 DOCX에서 하이퍼링크 추출

GroupDocs.Parser를 사용하여 PDFs, Word 파일, Excel 시트 및 기타 문서에서 웹 링크와 하이퍼링크를 추출하세요. Java 환경에서 가능합니다.

Maven 다운로드

무료 평가판 시작

Java에서 Docx의 하이퍼링크를 추출하는 방법

GroupDocs.Parser는 Java 애플리케이션에서 DOCX 파일의 하이퍼링크 추출을 위한 기본 단계로 다음을 제공합니다:

Parser의 인스턴스를 사용하여 DOCX 파일을 엽니다.
파일 형식에서 하이퍼링크 추출이 가능함을 확인합니다.
적절한 메서드를 사용하여 모든 하이퍼링크를 추출합니다.
결과를 반복하여 각 링크를 필요에 따라 처리합니다.

복사

// Parser를 사용하여 하이퍼링크가 포함될 수 있는 파일을 불러옵니다.
try (Parser parser = new Parser("input.docx")) {

    // 문서 형식이 하이퍼링크 파싱을 지원하는지 확인합니다.
    if (!parser.getFeatures().isHyperlinks()) {
        System.out.println("파일에 대한 하이퍼링크 추출이 불가능합니다.");
        return;
    }

    // 문서에서 하이퍼링크 데이터를 추출하고 사용합니다.
    Iterable<PageHyperlinkArea> hyperlinks = parser.getHyperlinks();

    for (PageHyperlinkArea h : hyperlinks) {
        System.out.println(h.getText());
        System.out.println(h.getUrl());
    }
}

<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>24.9</version>
</dependency>
</dependencies>
<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://repository.groupdocs.com/repo/</url>
</repository>
</repositories>

클릭하여 복사

복사되었습니다

더 많은 예시 문서화

종합적인 문서 파싱 도구

GroupDocs.Parser는 하이퍼링크 추출 외에도, 자동화된 워크플로우에 사용될 수 있는 일반 텍스트, 임베디드 미디어 및 구조화된 데이터와 같은 유용한 콘텐츠를 수집할 수 있도록 합니다.

정확한 링크 탐지

클릭 가능한 텍스트와 숨겨진 URL을 포함한 다양한 문서 레이아웃에서 모든 유형의 하이퍼링크를 캡처합니다.

문서 및 웹 콘텐츠와 호환

하이퍼링크가 포함된 PDF, DOCX, XLSX, HTML 및 이미지 파일에서 링크를 추출합니다.

사용자 정의 추출 동작

페이지 범위, 링크 유형 또는 콘텐츠 필터와 같은 옵션을 사용하여 하이퍼링크 추출 방식을 세밀하게 조정합니다.

예제: 사용자 정의 옵션이 있는 PDF에서 하이퍼링크 추출

이 샘플은 링크 추출 설정을 사용하여 PDF 파일에서 모든 링크를 추출하는 방법을 보여줍니다.

Java

//  Parser 클래스를 사용하여 PDF를 엽니다.
try (Parser parser = new Parser("input.docx"))
{
    // 이 문서에 대해 하이퍼링크 지원이 활성화되어 있는지 확인합니다.
    if (!parser.getFeatures().isHyperlinks()) {
        return;
    }

    // 링크 필터링을 위한 옵션을 적용합니다.
    PageAreaOptions options = new PageAreaOptions(new Rectangle(new Point(380, 90), new Size(150, 50)));

    // 파서를 사용하여 하이퍼링크 데이터를 가져옵니다.
    Iterable<PageHyperlinkArea> hyperlinks = parser.getHyperlinks(options);

    // 링크를 반복하고 적절히 처리합니다.
    for (PageHyperlinkArea h : hyperlinks) {
        System.out.println(h.getText());
        System.out.println(h.getUrl());
    }
}