GroupDocs.Parser for Java

Java로 DOCX에서 하이퍼링크 추출

GroupDocs.Parser를 사용하여 PDFs, Word 파일, Excel 시트 및 기타 문서에서 웹 링크와 하이퍼링크를 추출하세요. Java 환경에서 가능합니다.

Java에서 Docx의 하이퍼링크를 추출하는 방법

GroupDocs.Parser는 Java 애플리케이션에서 DOCX 파일의 하이퍼링크 추출을 위한 기본 단계로 다음을 제공합니다:

  1. Parser의 인스턴스를 사용하여 DOCX 파일을 엽니다.
  2. 파일 형식에서 하이퍼링크 추출이 가능함을 확인합니다.
  3. 적절한 메서드를 사용하여 모든 하이퍼링크를 추출합니다.
  4. 결과를 반복하여 각 링크를 필요에 따라 처리합니다.
// Parser를 사용하여 하이퍼링크가 포함될 수 있는 파일을 불러옵니다.
try (Parser parser = new Parser("input.docx")) {

    // 문서 형식이 하이퍼링크 파싱을 지원하는지 확인합니다.
    if (!parser.getFeatures().isHyperlinks()) {
        System.out.println("파일에 대한 하이퍼링크 추출이 불가능합니다.");
        return;
    }

    // 문서에서 하이퍼링크 데이터를 추출하고 사용합니다.
    Iterable<PageHyperlinkArea> hyperlinks = parser.getHyperlinks();

    for (PageHyperlinkArea h : hyperlinks) {
        System.out.println(h.getText());
        System.out.println(h.getUrl());
    }
}
<dependencies> <dependency> <groupId>com.groupdocs</groupId> <artifactId>groupdocs-parser</artifactId> <version>24.9</version> </dependency> </dependencies> <repositories> <repository> <id>repository.groupdocs.com</id> <name>GroupDocs Repository</name> <url>https://repository.groupdocs.com/repo/</url> </repository> </repositories>
클릭하여 복사
복사되었습니다
더 많은 예시 문서화

종합적인 문서 파싱 도구

GroupDocs.Parser는 하이퍼링크 추출 외에도, 자동화된 워크플로우에 사용될 수 있는 일반 텍스트, 임베디드 미디어 및 구조화된 데이터와 같은 유용한 콘텐츠를 수집할 수 있도록 합니다.

하이퍼링크 추출 및 문서 분석

정확한 링크 탐지

클릭 가능한 텍스트와 숨겨진 URL을 포함한 다양한 문서 레이아웃에서 모든 유형의 하이퍼링크를 캡처합니다.

문서 및 웹 콘텐츠와 호환

하이퍼링크가 포함된 PDF, DOCX, XLSX, HTML 및 이미지 파일에서 링크를 추출합니다.

사용자 정의 추출 동작

페이지 범위, 링크 유형 또는 콘텐츠 필터와 같은 옵션을 사용하여 하이퍼링크 추출 방식을 세밀하게 조정합니다.

예제: 사용자 정의 옵션이 있는 PDF에서 하이퍼링크 추출

이 샘플은 링크 추출 설정을 사용하여 PDF 파일에서 모든 링크를 추출하는 방법을 보여줍니다.

Java

//  Parser 클래스를 사용하여 PDF를 엽니다.
try (Parser parser = new Parser("input.docx"))
{
    // 이 문서에 대해 하이퍼링크 지원이 활성화되어 있는지 확인합니다.
    if (!parser.getFeatures().isHyperlinks()) {
        return;
    }

    // 링크 필터링을 위한 옵션을 적용합니다.
    PageAreaOptions options = new PageAreaOptions(new Rectangle(new Point(380, 90), new Size(150, 50)));

    // 파서를 사용하여 하이퍼링크 데이터를 가져옵니다.
    Iterable<PageHyperlinkArea> hyperlinks = parser.getHyperlinks(options);

    // 링크를 반복하고 적절히 처리합니다.
    for (PageHyperlinkArea h : hyperlinks) {
        System.out.println(h.getText());
        System.out.println(h.getUrl());
    }
}

GroupDocs.Parser for Java API 소개

GroupDocs.Parser는 Java 개발자를 위해 설계된 강력한 콘텐츠 추출 API입니다. 하이퍼링크, 구조화된 데이터, 이미지 및 텍스트를 DOCX, XLSX, PDF, HTML과 같은 인기 형식에서 추출하는 도구를 제공합니다. 외부 플러그인이 필요 없습니다.
더 알아보기
About illustration

시작할 준비가 되셨나요?

GroupDocs.Parser를 무료로 다운로드하거나 전체 액세스를 위한 평가판 라이센스를 받으세요!

유용한 리소스

경험을 향상시키기 위해 문서, 코드 샘플 및 커뮤니티 지원을 탐색하십시오.

하이퍼링크 추출을 지원하는 문서 형식

GroupDocs.Parser를 사용하면 일반적으로 사용되는 다양한 파일 형식에서 하이퍼링크를 추출할 수 있습니다. 일반적으로 지원되는 형식 목록은 다음과 같습니다.

임시 라이센스 팁

1
직장 이메일로 가입하세요. 무료 메일 서비스는 허용되지 않습니다.
2
두 번째 단계에서 임시 라이센스 받기 버튼을 사용하세요.
 한국인