正規表現と Java を使用して PDF ファイルからテキストを削除する方法

GroupDocs.Redaction の Java API を使用すると、正規表現を使用してワープロ文書、ワークシート、プレゼンテーション、PDF および画像から機密テキストを編集、非表示、または削除できます。


無料トライアルをダウンロード

テキストのサニタイズとは何ですか?

テキストの墨消しまたは無害化は、デジタル文書から機密または不要なテキストまたは情報を削除し、それを含む文書または段落の残りの部分はそのままにするプロセスです。墨消しは、ユーザーと組織が機密情報を非表示または永久に削除することで保護するのに役立ちます。 GroupDocs.Redaction Java API を使用すると、ユーザーはワープロ文書、ワークシート、プレゼンテーション、PDF、およびラスター画像ファイルから機密テキストを編集、非表示、または削除できるようになりました。 API は、ドキュメント内の個人情報を編集するための幅広いオプションとメソッドを提供します。正規表現を使用した検索と墨消し、テキスト (免除コード) またはグラフィック (色付きの四角形) の墨消しの使用などをサポートします。 API をダウンロードしてドキュメントの編集プロセスを自動化し、その基本機能と高度な機能を試してみてはいかがでしょうか。

Java で正規表現を使用して PDF を秘匿化する

GroupDocs.Redaction を使用すると、ドキュメントから機密またはプライベートな性質のデータを簡単に編集できます。最も一般的な編集ケースは、文書からテキストを削除することです。

次のコードを使用すると、正規表現を使用してドキュメントの特定の部分にテキストの編集を適用できます。ユーザーは、パターン「AA BB CCCCCC」を青色の長方形に一致させて、すべての数字を置き換えることができます。

PDF から機密データを削除する

  • Redactor クラスのインスタンスを作成し、PDF ファイルをアップロードします
  • RegexRedaction クラスのインスタンスを作成します。
  • RegexRedaction クラスのオブジェクトで redactor.apply メソッドを呼び出す
  • redactor.save メソッドを呼び出して変更を保存します


// For complete examples and data files, please go to https://github.com/groupdocs-search/GroupDocs.Redaction-for-Java
//Load document
Document doc = Redactor.load(Utilities.mapSourceFilePath(FilePath));
// Perform regular expression redaction
doc.redactWith(new RegexRedaction("\\d{2}\\s*\\d{2}[^\\d]*\\d{6}", new ReplacementOptions(java.awt.Color.BLUE)));
// Save the document in original format and overwriting original file
SaveOptions so = new SaveOptions();
so.setAddSuffix(false);
so.setRasterizeToPDF(false);
doc.save(so);
doc.close();

システム要求

GroupDocs.Redaction for Java API は、すべての主要なプラットフォームとオペレーティング システムでサポートされています。完全なシステム要件ガイドについては、システム要件 を参照してください。以下のコードを実行する前に、次の前提条件がシステムにインストールされていることを確認してください。 :

  • オペレーティング システム: Microsoft Windows、Linux、MacOS
  • 開発環境: NetBeans、Intellij IDEA、Eclipse など
  • Java ランタイム環境: J2SE 6.0 以降
  • GroupDocs.Redaction for Java の最新バージョンを Maven から入手します。

GroupDocs.Redaction を使用する理由

  • ユーザーがカスタムのドキュメント形式と編集の種類を追加できるようにする
  • 機密情報を削除するために追加のソフトウェアは必要ありません
  • ページ範囲レンダリング ドキュメントを PDF として設定する機能
  • さまざまなタイプのメタデータを簡単に編集する方法: 著者名、バージョン、タイトル、件名、説明など
  • 文書情報の抽出 - ファイルタイプ、ページ数など。


What is PDF File Format?

Portable Document Format (PDF) is a type of document created by Adobe back in 1990s. The purpose of this file format was to introduce a standard for representation of documents and other reference material in a format that is independent of application software, hardware as well as Operating System. PDF files can be opened in Adobe Acrobat Reader/Writer as well in most modern browsers like Chrome, Safari, Firefox via extensions/plug-ins. Most of the commercially available software suites also offer conversion of their documents to PDF file format without the requirement of any additional software component.

Read More

人気 墨消し オプション

編集する CSV ファイル

(Comma Seperated Values)

編集する DOC ファイル

(Microsoft Word Binary Format)

編集する DOCM ファイル

(Microsoft Word 2007 Marco File)

編集する DOCX ファイル

(Office 2007+ Word Document)

編集する DOT ファイル

(Microsoft Word Template Files)

編集する DOTM ファイル

(Microsoft Word 2007+ Template File)

編集する DOTX ファイル

(Microsoft Word Template File )

編集する POT ファイル

(Microsoft PowerPoint Template Files)

編集する POTM ファイル

(Microsoft PowerPoint Template File)

編集する PPS ファイル

(PowerPoint Slide Show)

編集する PPSM ファイル

(Macro-enabled Slide Show)

編集する PPSX ファイル

(PowerPoint Slide Show)

編集する PPT ファイル

(Microsoft PowerPoint 97-2003)

編集する PPTM ファイル

(Macro-enabled Presentation File)

編集する PPTX ファイル

(Open XML presentation Format)

編集する XLS ファイル

(Microsoft Excel Spreadsheet (Legacy))

編集する XLSM ファイル

(Macro-enabled Spreadsheet)

編集する XLT ファイル

(Excel 97 - 2003 Template)

編集する XLTM ファイル

(Excel Macro-Enabled Template)

Back to top
 日本