Як видалити текст із файлів PDF за допомогою регулярних виразів і Java

GroupDocs.Redactions Java API дозволяє редагувати, приховувати або видаляти конфіденційний текст із текстових документів, робочих аркушів, презентацій, PDF і зображень за допомогою регулярних виразів.


Закачати безоплатну пробну версію

Що таке очищення тексту?

Редагування або очищення тексту — це процес видалення конфіденційного або небажаного тексту чи інформації з цифрових документів, залишаючи недоторканою решту документа чи абзацу, що їх містить. Редагування допомагає користувачам і організаціям захистити конфіденційну інформацію, приховавши або остаточно видаливши її. Використовуючи GroupDocs.Redaction Java API, користувачі тепер можуть редагувати, приховувати або видаляти конфіденційний текст із текстових документів, робочих аркушів, презентацій PDF і файлів растрових зображень. API надає широкий спектр опцій і методів для редагування приватної інформації в документах. Він підтримує пошук і редагування за допомогою регулярних виразів, використання текстового (коди винятків) або графічного (кольорові прямокутники) редагування та багато іншого. Тож чому б не спробувати й автоматизувати процес редагування документів, завантаживши API та ознайомившись із його основними та розширеними функціями.

Редагувати PDF за допомогою регулярних виразів у Java

GroupDocs.Redaction дозволяє легко редагувати конфіденційні або приватні дані з ваших документів. Найпопулярнішим випадком редагування є видалення тексту з документа.

Наведений нижче код можна використовувати для редагування тексту до певної частини документа за допомогою регулярного виразу. Це дозволяє користувачам замінювати всі числа, що відповідають шаблону “AA BB CCCCCC” прямокутником синього кольору,

Видалити конфіденційні дані з PDF

  • Створіть екземпляр класу Redactor і завантажте файл PDF
  • Створіть екземпляр класу RegexRedaction
  • Викликати метод redactor.apply з об’єктом класу RegexRedaction
  • Викличте метод redactor.save, щоб зберегти зміни


// For complete examples and data files, please go to https://github.com/groupdocs-search/GroupDocs.Redaction-for-Java
//Load document
Document doc = Redactor.load(Utilities.mapSourceFilePath(FilePath));
// Perform regular expression redaction
doc.redactWith(new RegexRedaction("\\d{2}\\s*\\d{2}[^\\d]*\\d{6}", new ReplacementOptions(java.awt.Color.BLUE)));
// Save the document in original format and overwriting original file
SaveOptions so = new SaveOptions();
so.setAddSuffix(false);
so.setRasterizeToPDF(false);
doc.save(so);
doc.close();

Системні вимоги

GroupDocs.Redaction for Java API підтримуються на всіх основних платформах і операційних системах. Щоб отримати повний посібник із системних вимог, відвідайте системні вимоги. Перш ніж виконувати наведений нижче код, переконайтеся, що у вашій системі встановлено такі передумови :

  • Операційні системи: Microsoft Windows, Linux, MacOS
  • Середовище розробки: NetBeans, Intellij IDEA, Eclipse тощо
  • Java Середовище виконання: J2SE 6.0 і вище
  • Отримайте останню версію GroupDocs.Redaction for Java від Maven

Навіщо використовувати GroupDocs.Redaction

  • Дозвольте користувачам додавати власні формати документів і типи редагувань
  • Для видалення конфіденційної інформації не потрібне додаткове програмне забезпечення
  • Можливість налаштувати відображення діапазону сторінок документа як PDF
  • Простий спосіб редагувати різні типи метаданих: ім’я автора, версію, назву, тему, опис та багато іншого
  • Вилучення інформації про документ - тип файлу, кількість сторінок тощо.


What is PDF File Format?

Portable Document Format (PDF) is a type of document created by Adobe back in 1990s. The purpose of this file format was to introduce a standard for representation of documents and other reference material in a format that is independent of application software, hardware as well as Operating System. PDF files can be opened in Adobe Acrobat Reader/Writer as well in most modern browsers like Chrome, Safari, Firefox via extensions/plug-ins. Most of the commercially available software suites also offer conversion of their documents to PDF file format without the requirement of any additional software component.

Read More

Популярний Редакція Вибір

Змінити CSV файли

(Comma Seperated Values)

Змінити DOC файли

(Microsoft Word Binary Format)

Змінити DOCM файли

(Microsoft Word 2007 Marco File)

Змінити DOCX файли

(Office 2007+ Word Document)

Змінити DOT файли

(Microsoft Word Template Files)

Змінити DOTM файли

(Microsoft Word 2007+ Template File)

Змінити DOTX файли

(Microsoft Word Template File )

Змінити POT файли

(Microsoft PowerPoint Template Files)

Змінити POTM файли

(Microsoft PowerPoint Template File)

Змінити PPS файли

(PowerPoint Slide Show)

Змінити PPSM файли

(Macro-enabled Slide Show)

Змінити PPSX файли

(PowerPoint Slide Show)

Змінити PPT файли

(Microsoft PowerPoint 97-2003)

Змінити PPTM файли

(Macro-enabled Presentation File)

Змінити PPTX файли

(Open XML presentation Format)

Змінити XLS файли

(Microsoft Excel Spreadsheet (Legacy))

Змінити XLSM файли

(Macro-enabled Spreadsheet)

Змінити XLT файли

(Excel 97 - 2003 Template)

Змінити XLTM файли

(Excel Macro-Enabled Template)

Back to top
 Українська