So entfernen Sie Text aus PDF-Dateien mit regulären Ausdrücken und Java

Mit der Java-API von GroupDocs.Redaction können Sie sensiblen Text aus Textverarbeitungsdokumenten, Arbeitsblättern, Präsentationen, PDFs und Bildern mithilfe regulärer Ausdrücke schwärzen, ausblenden oder entfernen.


Download kostenlose Testversion

Was ist Textbereinigung?

Textschwärzung oder -bereinigung ist der Prozess, bei dem vertrauliche oder unerwünschte Texte oder Informationen aus digitalen Dokumenten entfernt werden, während der Rest des Dokuments oder Absatzes, der sie enthält, intakt bleibt. Redaction hilft Benutzern und Organisationen, ihre sensiblen Informationen zu schützen, indem sie diese verbergen oder dauerhaft entfernen. Mithilfe der GroupDocs.Redaction Java API können Benutzer jetzt vertraulichen Text aus Textverarbeitungsdokumenten, Arbeitsblättern, Präsentationen, PDF und Rasterbilddateien schwärzen, ausblenden oder entfernen. Die API bietet eine Vielzahl von Optionen und Methoden zur Schwärzung privater Informationen in den Dokumenten. Es unterstützt die Suche und Schwärzung mithilfe regulärer Ausdrücke, die Verwendung textueller (Ausnahmecodes) oder grafischer Schwärzungen (farbige Rechtecke) und vieles mehr. Probieren Sie es also einfach aus und automatisieren Sie Ihren Dokument-Schwärzungsprozess, indem Sie die API herunterladen und ihre grundlegenden und erweiterten Funktionen erkunden.

Schwärzen Sie PDF mithilfe regulärer Ausdrücke in Java

GroupDocs.Redaction ermöglicht das einfache Entfernen vertraulicher oder privater Daten aus Ihren Dokumenten. Der häufigste Schwärzungsfall ist das Entfernen eines Textes aus einem Dokument.

Der folgende Code kann verwendet werden, um mithilfe eines regulären Ausdrucks eine Textredaktion auf einen bestimmten Teil eines Dokuments anzuwenden. Es ermöglicht Benutzern, alle Zahlen zu ersetzen und dabei das Muster „AA BB CCCCCC“ durch ein blaues Farbrechteck abzugleichen.

Sensible Daten aus PDF entfernen

  • Erstellen Sie eine Instanz der Klasse Redactor und laden Sie die Datei PDF hoch
  • Erstellen Sie eine Instanz der Klasse RegexRedaction.
  • Rufen Sie die Methode redactor.apply mit dem Objekt der Klasse RegexRedaction auf
  • Rufen Sie die Methode redactor.save auf, um die Änderungen zu speichern


// For complete examples and data files, please go to https://github.com/groupdocs-search/GroupDocs.Redaction-for-Java
//Load document
Document doc = Redactor.load(Utilities.mapSourceFilePath(FilePath));
// Perform regular expression redaction
doc.redactWith(new RegexRedaction("\\d{2}\\s*\\d{2}[^\\d]*\\d{6}", new ReplacementOptions(java.awt.Color.BLUE)));
// Save the document in original format and overwriting original file
SaveOptions so = new SaveOptions();
so.setAddSuffix(false);
so.setRasterizeToPDF(false);
doc.save(so);
doc.close();

System Anforderungen

GroupDocs.Redaction for Java APIs werden auf allen wichtigen Plattformen und Betriebssystemen unterstützt. Den vollständigen Leitfaden zu den Systemanforderungen finden Sie unter Systemanforderungen. Bevor Sie den folgenden Code ausführen, stellen Sie bitte sicher, dass die folgenden Voraussetzungen auf Ihrem System installiert sind :

  • Betriebssysteme: Microsoft Windows, Linux, MacOS
  • Entwicklungsumgebung: NetBeans, Intellij IDEA, Eclipse usw
  • Java Laufzeitumgebung: J2SE 6.0 und höher
  • Holen Sie sich die neueste Version von GroupDocs.Redaction for Java von Maven

Warum GroupDocs.Redaction verwenden?

  • Ermöglichen Sie Benutzern das Hinzufügen benutzerdefinierter Dokumentformate und Schwärzungsarten
  • Zum Entfernen sensibler Informationen ist keine zusätzliche Software erforderlich
  • Möglichkeit, das Seitenbereich-Rendering-Dokument als PDF festzulegen
  • Einfache Möglichkeit, verschiedene Arten von Metadaten zu redigieren: Autorenname, Version, Titel, Betreff, Beschreibung und vieles mehr
  • Extraktion von Dokumentinformationen – Dateityp, Seitenanzahl usw.


What is PDF File Format?

Portable Document Format (PDF) is a type of document created by Adobe back in 1990s. The purpose of this file format was to introduce a standard for representation of documents and other reference material in a format that is independent of application software, hardware as well as Operating System. PDF files can be opened in Adobe Acrobat Reader/Writer as well in most modern browsers like Chrome, Safari, Firefox via extensions/plug-ins. Most of the commercially available software suites also offer conversion of their documents to PDF file format without the requirement of any additional software component.

Read More

Beliebt Redaktion Auswahl

Schwärzen CSV Dateien

(Comma Seperated Values)

Schwärzen DOC Dateien

(Microsoft Word Binary Format)

Schwärzen DOCM Dateien

(Microsoft Word 2007 Marco File)

Schwärzen DOCX Dateien

(Office 2007+ Word Document)

Schwärzen DOT Dateien

(Microsoft Word Template Files)

Schwärzen DOTM Dateien

(Microsoft Word 2007+ Template File)

Schwärzen DOTX Dateien

(Microsoft Word Template File )

Schwärzen POT Dateien

(Microsoft PowerPoint Template Files)

Schwärzen POTM Dateien

(Microsoft PowerPoint Template File)

Schwärzen PPS Dateien

(PowerPoint Slide Show)

Schwärzen PPSM Dateien

(Macro-enabled Slide Show)

Schwärzen PPSX Dateien

(PowerPoint Slide Show)

Schwärzen PPT Dateien

(Microsoft PowerPoint 97-2003)

Schwärzen PPTM Dateien

(Macro-enabled Presentation File)

Schwärzen PPTX Dateien

(Open XML presentation Format)

Schwärzen RTF Dateien

(Rich Text Format)

Schwärzen XLS Dateien

(Microsoft Excel Spreadsheet (Legacy))

Schwärzen XLSM Dateien

(Macro-enabled Spreadsheet)

Schwärzen XLSX Dateien

(Open XML Workbook)

Schwärzen XLT Dateien

(Excel 97 - 2003 Template)

Schwärzen XLTM Dateien

(Excel Macro-Enabled Template)

Schwärzen XLTX Dateien

(Excel Template)

Back to top
 Deutsch