Cómo eliminar texto de archivos PDF usando expresiones regulares y Java

La API de GroupDocs.Redaction Java permite redactar, ocultar o eliminar texto confidencial de documentos de procesamiento de texto, hojas de trabajo, presentaciones, PDF e imágenes mediante expresiones regulares.


Descargue prueba gratis

¿Qué es la desinfección de texto?

La redacción o desinfección de texto es el proceso de eliminar el texto o la información confidencial o no deseada de los documentos digitales y dejar intacto el resto del documento o párrafo que lo contiene. La redacción ayuda a los usuarios, así como a la organización, a proteger su información confidencial ocultándola o eliminándola de forma permanente. Usando la API GroupDocs.Redaction Java, los usuarios ahora pueden redactar, ocultar o eliminar texto confidencial de documentos de procesamiento de texto, hojas de trabajo, presentaciones, PDF y archivos de imágenes rasterizadas. La API proporciona una amplia gama de opciones y métodos para la redacción de información privada en los documentos. Admite la búsqueda y la redacción mediante expresiones regulares, el uso de redacciones textuales (códigos de exención) o gráficas (rectángulos de colores) y mucho más. Entonces, ¿por qué no probarlo y automatizar el proceso de redacción de documentos descargando la API y explorando sus funciones básicas y avanzadas?

Redactar PDF usando expresiones regulares en Java

GroupDocs.Redaction permite redactar fácilmente datos de naturaleza confidencial o privada de sus documentos. El caso de redacción más popular es eliminar un texto de un documento.

El siguiente código se puede usar para aplicar redacción textual a una parte particular de un documento usando una expresión regular. Permite a los usuarios reemplazar todos los números, haciendo coincidir el patrón “AA BB CCCCCC” con un rectángulo de color azul,

Eliminar datos confidenciales de PDF

  • Cree una instancia de la clase Redactor y cargue el archivo PDF
  • Cree una instancia de la clase RegexRedaction
  • Llame al método redactor.apply con el objeto de la clase RegexRedaction
  • Llame al método redactor.save para guardar los cambios


// For complete examples and data files, please go to https://github.com/groupdocs-search/GroupDocs.Redaction-for-Java
//Load document
Document doc = Redactor.load(Utilities.mapSourceFilePath(FilePath));
// Perform regular expression redaction
doc.redactWith(new RegexRedaction("\\d{2}\\s*\\d{2}[^\\d]*\\d{6}", new ReplacementOptions(java.awt.Color.BLUE)));
// Save the document in original format and overwriting original file
SaveOptions so = new SaveOptions();
so.setAddSuffix(false);
so.setRasterizeToPDF(false);
doc.save(so);
doc.close();

Requisitos del sistema

GroupDocs.Redaction for Java Las API son compatibles con las principales plataformas y sistemas operativos. Para obtener una guía completa de requisitos del sistema, visite [requisitos del sistema] (https://docs.groupdocs.com/redaction/java/system-requirements) Antes de ejecutar el código a continuación, asegúrese de tener los siguientes requisitos previos instalados en su sistema :

  • Sistemas operativos: Microsoft Windows, Linux, MacOS
  • Entorno de desarrollo: NetBeans, Intellij IDEA, Eclipse, etc.
  • Java Entorno de tiempo de ejecución: J2SE 6.0 y superior
  • Obtenga la última versión de GroupDocs.Redaction for Java de Maven

Por qué usar GroupDocs.Redaction

  • Permita que los usuarios agreguen formatos de documentos personalizados y tipos de redacciones
  • No se requiere software adicional para eliminar información confidencial
  • Capacidad para configurar el documento de representación de rango de página como PDF
  • Manera fácil de redactar diferentes tipos de metadatos: nombre del autor, versión, título, tema, descripción y muchos más
  • Extracción de información del documento: tipo de archivo, número de páginas, etc.


What is PDF File Format?

Portable Document Format (PDF) is a type of document created by Adobe back in 1990s. The purpose of this file format was to introduce a standard for representation of documents and other reference material in a format that is independent of application software, hardware as well as Operating System. PDF files can be opened in Adobe Acrobat Reader/Writer as well in most modern browsers like Chrome, Safari, Firefox via extensions/plug-ins. Most of the commercially available software suites also offer conversion of their documents to PDF file format without the requirement of any additional software component.

Read More

Popular Redacción Opcion

Redactar CSV Archivos

(Comma Seperated Values)

Redactar DOC Archivos

(Microsoft Word Binary Format)

Redactar DOCM Archivos

(Microsoft Word 2007 Marco File)

Redactar DOCX Archivos

(Office 2007+ Word Document)

Redactar DOT Archivos

(Microsoft Word Template Files)

Redactar DOTM Archivos

(Microsoft Word 2007+ Template File)

Redactar DOTX Archivos

(Microsoft Word Template File )

Redactar POT Archivos

(Microsoft PowerPoint Template Files)

Redactar POTM Archivos

(Microsoft PowerPoint Template File)

Redactar PPS Archivos

(PowerPoint Slide Show)

Redactar PPSM Archivos

(Macro-enabled Slide Show)

Redactar PPSX Archivos

(PowerPoint Slide Show)

Redactar PPT Archivos

(Microsoft PowerPoint 97-2003)

Redactar PPTM Archivos

(Macro-enabled Presentation File)

Redactar PPTX Archivos

(Open XML presentation Format)

Redactar RTF Archivos

(Rich Text Format)

Redactar XLS Archivos

(Microsoft Excel Spreadsheet (Legacy))

Redactar XLSM Archivos

(Macro-enabled Spreadsheet)

Redactar XLSX Archivos

(Open XML Workbook)

Redactar XLT Archivos

(Excel 97 - 2003 Template)

Redactar XLTM Archivos

(Excel Macro-Enabled Template)

Redactar XLTX Archivos

(Excel Template)

Back to top
 Español