GroupDocs.Parser for Java

Отримання тексту з TXT за допомогою Java

Безперешкодно витягайте читаємий або структурований текст з файлів, таких як PDF, Word, Excel та інших, за допомогою GroupDocs.Parser у ваших проєктах Java.

Завантажити Maven

Почніть безкоштовну пробну версію

Як отримати текст з Txt за допомогою Java

Дотримуйтесь наведених нижче кроків для витягування тексту з файлів TXT за допомогою GroupDocs.Parser у вашому проєкті Java:

Завантажте документ TXT за допомогою класу Parser.
Виконайте витягування тексту з вмісту файлу.
Перевірте, чи текст був успішно отриманий.
Використовуйте текстові дані в системах пошуку, аналітики чи автоматизації.

Копіювати

// Ініціалізуйте Parser з вашим документом
try (Parser parser = new Parser("input.txt"))
{
    // Читайте та витягайте всі текстові дані
    try (TextReader reader = parser.getText())
    {
        // Поверніть null, якщо текстовий вміст відсутній
        // Інтегруйте витягнутий текст у ваш робочий процес
        System.out.println(reader == null ? 
            "Пропустіть формати витягування тексту, які не підтримуються" : reader.readToEnd());
    }
}

<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>24.9</version>
</dependency>
</dependencies>
<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://repository.groupdocs.com/repo/</url>
</repository>
</repositories>

натисніть, щоб скопіювати

скопійовано

Більше прикладів Документація

Функціональність витягування багатого тексту

GroupDocs.Parser виходить за межі простого витягування тексту—підтримуючи отримання зображень, метаданих та структурованих даних для покращення завдань обробки вмісту.

Витягувати та структурувати текстовий вміст з документів

Працює з численними форматами документів

Збирайте як сирий, так і структурований текст з DOCX, XLSX, PPTX, PDF, HTML та різних інших форматів.

Витягування тексту з візуального та текстового вмісту

Парсити текст з відсканованих документів, слайдів, електронних таблиць та інших типів файлів, зберігаючи логічну структуру.

Детальний контроль над процесом витягування

Налаштуйте діапазони сторінок, зони розташування та параметри точності для тонкого налаштування парсингу тексту.

Приклад: Витягування текстових областей з документа PPTX

Цей приклад демонструє витягування текстових блоків разом з їх просторовими координатами з презентації PowerPoint за допомогою GroupDocs.Parser.

Java

//  Завантажте ваш файл PPTX за допомогою API Parser
try (Parser parser = new Parser("input.pptx"))
{
    // Отримайте усі прямокутні текстові зони
    IEnumerable<PageTextArea> areas = parser.GetTextAreas();

    // Виходьте, якщо ця функція не підтримується
    if (areas == null)
    {
        return;
    }

    // Перегляньте текстові області по сторінках
    for (PageTextArea a : areas)
    {
        // Обробіть кожен текстовий блок з його номером сторінки та обмежувальним прямокутником
        System.out.println(String.format("Page: %d, R: %s, Text: %s", a.getPage().getIndex(), a.getRectangle(), a.getText()));
    }
}

Презентація API GroupDocs.Parser for Java

GroupDocs.Parser є надійним і масштабованим парсером документів, розробленим для розробників Java. Він пропонує можливості точної витримки тексту, таблиць, зображень та структурованих компонентів з різноманітних форматів, включаючи PDF, DOCX, XLSX, PPTX та інші—без залежності від зовнішніх утиліт.

Дізнатися більше

Готові почати?

Завантажте GroupDocs.Parser безкоштовно або отримайте пробну ліцензію для повного доступу!

Завантажити Maven

Почніть безкоштовну пробну версію

Корисні ресурси

Вивчіть документацію, зразки коду та підтримку спільноти для покращення вашого досвіду.

Документація

Посилання API

Зразки коду

Безкоштовна підтримка

Оплачувана підтримка

Типи файлів, що підтримуються для витягування тексту

GroupDocs.Parser здатен витягувати текстовий вміст з численних форматів файлів та зображень. Нижче наведені найбільш поширені типи, які він підтримує.

Парсинг PDF
(Формат портативного документа)
Парсинг DOCX
(Документ Word Office 2007+)
Парсинг PPTX
(Формат відкритої XML-презентації)
Парсинг XLSX
(Відкрите XML-робочий зошит)
Парсинг RTF
(Формат багатого тексту)
Парсинг XML
(Мова розмітки eXtensible)
Парсинг EPUB
(Відкритий файл eBook)