«

»

dez
02

Limpar Informações do PDF

   Tive um probleminha ao transformar alguns DOC para PDF recentemente… Como precisei verificar os dados dos arquivos, acabei gerando um a um com o LibreOffice Write mesmo. Só que depois de converter todos os PDF (cerca de 100), percebi que no título quando abre com o Adobe Reader aparece a descrição que vem do arquivo DOC. Provavelmente alguma informações a mais pode aparecer também, como o Autor e outros. Aí me perguntei como tirar?

   A resposta veio com um antigo script que criei para remover senha dos PDF da Linux Magazine para ler no tablet ;-P

#!/bin/bash
(…)
nome_ps=$( echo $lista | awk -F ‘[/.]’ ‘{print $(NF-1)”.ps”}’ )
pdftops -upw $senha $lista && ps2pdf $nome_ps && rm $nome_ps && echo “OK” || echo “FALHOU”
(..)

   Onde a variável $lista é um laço for com um ls nos pdf da pasta 😛

   As ferramentas usadas são pdftops e ps2pdf, que podem ser instaladas com apt-get:

pdftops: sudo apt-get install poppler-utils
ps2pdf: sudo apt-get install ghostscript

   O pdftops é uma ferramenta para converter PDF(Portable Document Format) em PS (PostScript)

Pdftops  reads the PDF file, PDF-file, and writes a PostScript file, PS-file.  If PS-file is not specified, pdftops converts file.pdf to file.ps (or file.eps with the -eps option).  If PS-file is ´-‘, the PostScript is sent to stdout.
Fonte: man

   Resumindo: O pdftops le o arquivo PDF e grava em um arquivo PS, como fosse imprimir. No caso, informações como Assunto, Autor, Descrição e outras são eliminadas no arquivo PS.

   Basicamente o que eu fiz foi tirar a opção -upw do pdftops (que é utilizado para especificar a senha de usuário do arquivo PDF), e converti tudo em PS. Em seguinda usei o ps2pdf, que converte os arquivos PS em PDF usando o ghostscript.

    A variável $nome_ps serve somente para transformar o final .PS em .PDF

   Resumindo tudo:

   pdftops <arquivo_pdf> – Gera um arquivo .PS com mesmo nome do .PDF (exemplo: “pdftops file.pdf” vai gerar um arquivo file.ps)

   ps2pdf <arquivo_ps> – Gera o arquivo PDF a partir do PS (exemplo: “ps2pdf file.ps” vai gerar um arquivo file.pdf)

   Conclusão: Basicamente o que eu fiz aqui foi reconverter o PDF, eliminando assim informações indesejadas (no meu caso), que era a Descrição, Autor, Assunto e outros que ficam armazenadas no arquivo as vezes sem a gente notar que estão lá. Como no meu caso eu tinha quase 100 arquivos PDF, foi mais fácil criar um script para automatizar isso.

Link permanente para este artigo: http://laerciomotta.com/2011/12/limpar-informacoes-do-pdf/

1 comentário

2 menções

  1. Gustavo disse:

    Obrigado, me ajudou.

  1. Limpando informações de um PDF convertido | Ubuntu Dicas disse:

    […] informações de um PDF convertido Um artigo que ensina a converter documentos para o formato PDF e ao mesmo tempo, limpando informações […]

  2. Ano Novo e Novidades (Sorteio) » Blog do Laercio Motta disse:

    […] Limpar informações do PDF […]

Deixe uma resposta

Seu e-mail não será publicado.

Você pode usar estas tags e atributos HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>