Warning: count(): Parameter must be an array or an object that implements Countable in /var/www/html/wp-includes/post-template.php on line 284

Limpar Informações do PDF

   Tive um probleminha ao transformar alguns DOC para PDF recentemente… Como precisei verificar os dados dos arquivos, acabei gerando um a um com o LibreOffice Write mesmo. Só que depois de converter todos os PDF (cerca de 100), percebi que no título quando abre com o Adobe Reader aparece a descrição que vem do arquivo DOC. Provavelmente alguma informações a mais pode aparecer também, como o Autor e outros. Aí me perguntei como tirar?

   A resposta veio com um antigo script que criei para remover senha dos PDF da Linux Magazine para ler no tablet ;-P

#!/bin/bash
(…)
nome_ps=$( echo $lista | awk -F ‘[/.]’ ‘{print $(NF-1)”.ps”}’ )
pdftops -upw $senha $lista && ps2pdf $nome_ps && rm $nome_ps && echo “OK” || echo “FALHOU”
(..)

   Onde a variável $lista é um laço for com um ls nos pdf da pasta 😛

   As ferramentas usadas são pdftops e ps2pdf, que podem ser instaladas com apt-get:

pdftops: sudo apt-get install poppler-utils
ps2pdf: sudo apt-get install ghostscript

   O pdftops é uma ferramenta para converter PDF(Portable Document Format) em PS (PostScript)

Pdftops  reads the PDF file, PDF-file, and writes a PostScript file, PS-file.  If PS-file is not specified, pdftops converts file.pdf to file.ps (or file.eps with the -eps option).  If PS-file is ´-‘, the PostScript is sent to stdout.
Fonte: man

   Resumindo: O pdftops le o arquivo PDF e grava em um arquivo PS, como fosse imprimir. No caso, informações como Assunto, Autor, Descrição e outras são eliminadas no arquivo PS.

   Basicamente o que eu fiz foi tirar a opção -upw do pdftops (que é utilizado para especificar a senha de usuário do arquivo PDF), e converti tudo em PS. Em seguinda usei o ps2pdf, que converte os arquivos PS em PDF usando o ghostscript.

    A variável $nome_ps serve somente para transformar o final .PS em .PDF

   Resumindo tudo:

   pdftops <arquivo_pdf> – Gera um arquivo .PS com mesmo nome do .PDF (exemplo: “pdftops file.pdf” vai gerar um arquivo file.ps)

   ps2pdf <arquivo_ps> – Gera o arquivo PDF a partir do PS (exemplo: “ps2pdf file.ps” vai gerar um arquivo file.pdf)

   Conclusão: Basicamente o que eu fiz aqui foi reconverter o PDF, eliminando assim informações indesejadas (no meu caso), que era a Descrição, Autor, Assunto e outros que ficam armazenadas no arquivo as vezes sem a gente notar que estão lá. Como no meu caso eu tinha quase 100 arquivos PDF, foi mais fácil criar um script para automatizar isso.

Link permanente para este artigo: http://laerciomotta.com/2011/12/02/limpar-informacoes-do-pdf/

1 comentário

2 menções

  1. Obrigado, me ajudou.

  1. […] informações de um PDF convertido Um artigo que ensina a converter documentos para o formato PDF e ao mesmo tempo, limpando informações […]

  2. […] Limpar informações do PDF […]

Deixe uma resposta

Seu e-mail não será publicado.