GroupDocs.Parser는 Java 애플리케이션에서 RTF 파일의 하이퍼링크 추출을 위한 기본 단계로 다음을 제공합니다:
- Parser의 인스턴스를 사용하여 RTF 파일을 엽니다.
- 파일 형식에서 하이퍼링크 추출이 가능함을 확인합니다.
- 적절한 메서드를 사용하여 모든 하이퍼링크를 추출합니다.
- 결과를 반복하여 각 링크를 필요에 따라 처리합니다.
GroupDocs.Parser는 Java 애플리케이션에서 RTF 파일의 하이퍼링크 추출을 위한 기본 단계로 다음을 제공합니다:
// Parser를 사용하여 하이퍼링크가 포함될 수 있는 파일을 불러옵니다.
try (Parser parser = new Parser("input.rtf")) {
// 문서 형식이 하이퍼링크 파싱을 지원하는지 확인합니다.
if (!parser.getFeatures().isHyperlinks()) {
System.out.println("파일에 대한 하이퍼링크 추출이 불가능합니다.");
return;
}
// 문서에서 하이퍼링크 데이터를 추출하고 사용합니다.
Iterable<PageHyperlinkArea> hyperlinks = parser.getHyperlinks();
for (PageHyperlinkArea h : hyperlinks) {
System.out.println(h.getText());
System.out.println(h.getUrl());
}
}
<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>24.9</version>
</dependency>
</dependencies>
<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://repository.groupdocs.com/repo/</url>
</repository>
</repositories>
GroupDocs.Parser는 하이퍼링크 추출 외에도, 자동화된 워크플로우에 사용될 수 있는 일반 텍스트, 임베디드 미디어 및 구조화된 데이터와 같은 유용한 콘텐츠를 수집할 수 있도록 합니다.
클릭 가능한 텍스트와 숨겨진 URL을 포함한 다양한 문서 레이아웃에서 모든 유형의 하이퍼링크를 캡처합니다.
하이퍼링크가 포함된 PDF, DOCX, XLSX, HTML 및 이미지 파일에서 링크를 추출합니다.
페이지 범위, 링크 유형 또는 콘텐츠 필터와 같은 옵션을 사용하여 하이퍼링크 추출 방식을 세밀하게 조정합니다.
이 샘플은 링크 추출 설정을 사용하여 PDF 파일에서 모든 링크를 추출하는 방법을 보여줍니다.
// Parser 클래스를 사용하여 PDF를 엽니다.
try (Parser parser = new Parser("input.docx"))
{
// 이 문서에 대해 하이퍼링크 지원이 활성화되어 있는지 확인합니다.
if (!parser.getFeatures().isHyperlinks()) {
return;
}
// 링크 필터링을 위한 옵션을 적용합니다.
PageAreaOptions options = new PageAreaOptions(new Rectangle(new Point(380, 90), new Size(150, 50)));
// 파서를 사용하여 하이퍼링크 데이터를 가져옵니다.
Iterable<PageHyperlinkArea> hyperlinks = parser.getHyperlinks(options);
// 링크를 반복하고 적절히 처리합니다.
for (PageHyperlinkArea h : hyperlinks) {
System.out.println(h.getText());
System.out.println(h.getUrl());
}
}