GroupDocs.Parser for Java

ดึงข้อมูลจากเอกสาร DOCX ใน Java

ดึงเนื้อหาที่มีโครงสร้าง เช่น ข้อความ ข้อมูลเมตา ตาราง และกราฟิกจากเอกสาร PDF, Word, Excel และเอกสารที่มีพื้นฐานจากภาพโดยใช้ GroupDocs.Parser ในแอพ Java ของคุณ.

ดาวน์โหลด Maven

เริ่มทดลองใช้ฟรี

วิธีการดึงข้อมูลจาก Docx โดยใช้ Java

ในการดึงข้อมูลที่เป็นประโยชน์จากเอกสาร DOCX ในโครงการ Java ของคุณโดยใช้ GroupDocs.Parser โปรดปฏิบัติตามคำแนะนำดังนี้:

เปิดไฟล์ DOCX ด้วยวัตถุ Parser.
ใช้ parser เพื่อดึงข้อมูลที่ต้องการ (ข้อความ ตาราง ข้อมูลเมตา ฯลฯ).
ตรวจสอบให้แน่ใจว่าผลลัพธ์ถูกต้องและสมบูรณ์.
รวมเนื้อหาที่แยกได้ลงในกระบวนการข้อมูล ธุรกิจ หรือแอพพลิเคชั่นของคุณ.

คัดลอก

// เริ่มต้น Parser ของคุณด้วยเอกสารนำเข้า
try (Parser parser = new Parser("input.docx"))
{
    // ดึงข้อมูลข้อความทั้งหมดที่มีอยู่จากเอกสาร
    try (TextReader reader = parser.getText())
    {
        // หากไม่พบข้อความ ค่าที่ส่งกลับจะเป็น null
        // รวมเนื้อหาที่ดึงได้ในการแก้ปัญหาของคุณ
        System.out.println(reader == null ? 
            "รูปแบบนี้อาจไม่สนับสนุนการดึงข้อความ" : reader.readToEnd());
    }
}

<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>24.9</version>
</dependency>
</dependencies>
<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://repository.groupdocs.com/repo/</url>
</repository>
</repositories>

คลิกเพื่อคัดลอก

คัดลอกแล้ว

ตัวอย่างเพิ่มเติม เอกสารประกอบ

ฟังก์ชันการแยกเอกสารที่หลากหลาย

GroupDocs.Parser ทำมากกว่าการดึงข้อความ—รองรับการแยกบาร์โค้ด ข้อมูลเมตา รูปภาพ ตาราง และข้อมูลอื่น ๆ เพื่อส่งเสริมการทำงานอัตโนมัติอย่างชาญฉลาดและแอพพลิเคชั่นที่ขับเคลื่อนข้อมูล.

ภาพรวมวิสัยทัศน์ของการแยกและการดึงข้อมูลจากเอกสาร

ดึงข้อมูลจากหลายรูปแบบไฟล์

เข้าถึงข้อมูลเช่น ข้อความ ตาราง และสื่อจากประเภทไฟล์ที่ใช้อย่างแพร่หลาย เช่น PDF, Word, Excel, PowerPoint, HTML และอื่น ๆ.

แยกเนื้อหาจากแหล่งดิจิทัลและสแกน

ประมวลผลเนื้อหาจากไฟล์ดิจิทัลพื้นฐานและภาพที่สแกน โดยใช้ OCR เมื่อจำเป็นเพื่ออ่านข้อความที่ฝังอยู่.

ตัวเลือกการกำหนดค่าที่ยืดหยุ่น

ปรับแต่งการแยกข้อมูลของคุณด้วยการตั้งค่าสำหรับการเลือกหน้า โซนเลย์เอาต์ และแม่แบบฟิลด์กำหนดเองเพื่อตอบสนองความต้องการการดึงเฉพาะ.

การแยก PDF โดยใช้แม่แบบการดึงข้อมูล

ตัวอย่างนี้แสดงวิธีการดึงฟิลด์ที่มีโครงสร้างจาก PDF โดยใช้แม่แบบกำหนดเองผ่าน GroupDocs.Parser.

Java

//  เปิด PDF โดยใช้คลาส Parser
try (Parser parser = new Parser("input.pdf"))
{
    // ใช้แม่แบบการแยกเพื่อดึงข้อมูลที่กำหนด
    DocumentData data = parser.parseByTemplate(GetTemplate());

    // ตรวจสอบว่าการดึงข้อมูลตามแม่แบบพร้อมใช้งานหรือไม่
    if (data == null) {
        return;
    }

    // ทำงานกับฟิลด์ข้อมูลที่แยกได้
    for (int i = 0; i < data.getCount(); i++) {
        System.out.print(data.get(i).getName() + ": ");
        PageTextArea area = data.get(i).getPageArea() instanceof PageTextArea
                ? (PageTextArea) data.get(i).getPageArea() : null;
        System.out.println(area == null ? "Not a template field" : area.getText());
    }
}

private static Template GetTemplate()
{
    // กำหนดการตั้งค่าตรวจจับสำหรับการดึงส่วน 'รายละเอียด'
    TemplateTableParameters detailsTableParameters = 
        new TemplateTableParameters(new Rectangle(new Point(35, 320), new Size(530, 55)), null);

    TemplateItem[] templateItems = new TemplateItem[]
    {
        new TemplateTable(detailsTableParameters, "details", null)
    };

    Template template = new Template(java.util.Arrays.asList(templateItems));
    return template;
}

GroupDocs.Parser for Java คืออะไร?

GroupDocs.Parser เป็น API ที่แข็งแกร่งสร้างขึ้นสำหรับนักพัฒนา Java โดยนำเสนอฟังก์ชันการแยกเอกสารขั้นสูง ช่วยให้คุณสามารถดึงและประมวลผลข้อมูลข้อความ รูปภาพ ตาราง ฟิลด์ที่มีโครงสร้าง และบาร์โค้ดจากหลายรูปแบบ เช่น PDF, DOCX, XLSX, PPTX และอื่น ๆ ทั้งหมดนี้โดยไม่ต้องติดตั้งไลบรารีเพิ่มเติม.

เรียนรู้เพิ่มเติม