GroupDocs.Parser for Java

ดึงข้อความจาก XML โดยใช้ Java

ดึงข้อความที่อ่านได้หรือมีโครงสร้างจากไฟล์เช่น PDF, Word, Excel และอื่น ๆ โดยใช้ GroupDocs.Parser ในโครงการพัฒนา Java ของคุณ

วิธีการดึงข้อความจาก Xml โดยใช้ Java

ทำตามขั้นตอนด้านล่างเพื่อดึงข้อความจากไฟล์ XML โดยใช้ GroupDocs.Parser ภายในโครงการ Java ของคุณ:

  1. โหลดเอกสาร XML โดยใช้คลาส Parser
  2. ดำเนินการดึงข้อความจากเนื้อหาไฟล์
  3. ตรวจสอบว่าข้อความถูกรับคืนอย่างถูกต้องหรือไม่
  4. ใช้ข้อมูลข้อความในระบบค้นหา การวิเคราะห์ หรือระบบอัตโนมัติ
// เริ่มต้น Parser ด้วยเอกสารของคุณ
try (Parser parser = new Parser("input.xml"))
{
    // อ่านและดึงข้อมูลข้อความทั้งหมด
    try (TextReader reader = parser.getText())
    {
        // ส่งคืน null หากไม่มีเนื้อหาข้อความ
        // รวมข้อความที่ดึงเข้าไปในกระบวนการทำงานของคุณ
        System.out.println(reader == null ? 
            "ข้ามรูปแบบการดึงข้อความที่ไม่รองรับ" : reader.readToEnd());
    }
}
<dependencies> <dependency> <groupId>com.groupdocs</groupId> <artifactId>groupdocs-parser</artifactId> <version>24.9</version> </dependency> </dependencies> <repositories> <repository> <id>repository.groupdocs.com</id> <name>GroupDocs Repository</name> <url>https://repository.groupdocs.com/repo/</url> </repository> </repositories>
คลิกเพื่อคัดลอก
คัดลอกแล้ว
ตัวอย่างเพิ่มเติม เอกสารประกอบ

ฟังก์ชันการดึงข้อความที่หลากหลาย

GroupDocs.Parser ไม่เพียงแต่ดึงข้อความแบบธรรมดา - ยังรองรับการดึงรูปภาพ เมตาและข้อมูลที่มีโครงสร้างเพื่อเสริมการทำงานกับเนื้อหา

ดึงและจัดระเบียบเนื้อหาข้อความจากเอกสาร

ทำงานกับรูปแบบเอกสารมากมาย

จับข้อความทั้งที่เป็นดิบและมีโครงสร้างจาก DOCX, XLSX, PPTX, PDF, HTML และรูปแบบต่าง ๆ

ดึงข้อความจากเนื้อหาภาพและข้อความ

วิเคราะห์ข้อความจากเอกสารที่สแกน สไลด์ สเปรดชีต และประเภทไฟล์อื่น ๆ ในขณะรักษาโครงสร้างที่เข้าใจได้

ควบคุมรายละเอียดการดึงข้อมูล

กำหนดขอบเขตหน้าที่ต้องการ โซนเลย์เอาต์ และพารามิเตอร์ความแม่นยำสำหรับการวิเคราะห์ข้อความที่ละเอียด

ตัวอย่าง: การดึงเนื้อหาข้อความจากเอกสาร PPTX

ตัวอย่างนี้แสดงถึงการดึงบล็อกข้อความพร้อมกับพิกัดเชิงพื้นที่จากการนำเสนอ PowerPoint โดยใช้ GroupDocs.Parser

Java

//  โหลดไฟล์ PPTX ของคุณด้วย API Parser
try (Parser parser = new Parser("input.pptx"))
{
    // รับเขตข้อความที่เป็นรูปทรงสี่เหลี่ยมทั้งหมด
    IEnumerable<PageTextArea> areas = parser.GetTextAreas();

    // ออกจากโปรแกรมหากฟังก์ชันนี้ไม่รองรับ
    if (areas == null)
    {
        return;
    }

    // วนลูปผ่านพื้นที่ข้อความตามหน้า
    for (PageTextArea a : areas)
    {
        // ประมวลผลบล็อกข้อความแต่ละบล็อกพร้อมหมายเลขหน้าและสี่เหลี่ยมพิมพ์
        System.out.println(String.format("Page: %d, R: %s, Text: %s", a.getPage().getIndex(), a.getRectangle(), a.getText()));
    }
}

แนะนำ API GroupDocs.Parser for Java

GroupDocs.Parser เป็นโปรแกรมจัดการเอกสารที่มีความสามารถและขยายตัวได้ ออกแบบมาสำหรับนักพัฒนาที่ใช้ Java โดยมีฟังก์ชันการทำงานที่ช่วยให้สามารถดึงข้อความ ตาราง รูปภาพ และส่วนประกอบที่มีโครงสร้างจากฟอร์แมตต่าง ๆ เช่น PDF, DOCX, XLSX, PPTX และอื่น ๆ โดยไม่ต้องพึ่งพาเครื่องมือภายนอก
เรียนรู้เพิ่มเติม
About illustration

พร้อมที่จะเริ่มต้นหรือยัง?

ดาวน์โหลด GroupDocs.Parser ฟรีหรือรับสิทธิ์การใช้งานแบบทดลองใช้เพื่อการเข้าถึงแบบเต็ม!

ทรัพยากรที่มีประโยชน์

สำรวจเอกสารตัวอย่างรหัสและการสนับสนุนชุมชนเพื่อปรับปรุงประสบการณ์ของคุณ

ประเภทไฟล์ที่รองรับสำหรับการดึงข้อความ

GroupDocs.Parser สามารถดึงเนื้อหาข้อความจากรูปแบบไฟล์และรูปภาพต่าง ๆ ได้ ด้านล่างนี้คือประเภทที่ใช้งานบ่อยที่สุดที่รองรับ

เคล็ดลับใบอนุญาตชั่วคราว

1
ลงทะเบียนด้วยอีเมลที่ทำงานของคุณ ไม่อนุญาตให้ใช้บริการอีเมลฟรี
2
ใช้ปุ่ม รับใบอนุญาตชั่วคราว ในขั้นตอนที่ 2
 ไทย