Tive um probleminha ao transformar alguns DOC para PDF recentemente… Como precisei verificar os dados dos arquivos, acabei gerando um a um com o LibreOffice Write mesmo. Só que depois de converter todos os PDF (cerca de 100), percebi que no título quando abre com o Adobe Reader aparece a descrição que vem do arquivo DOC. Provavelmente alguma informações a mais pode aparecer também, como o Autor e outros. Aí me perguntei como tirar?
A resposta veio com um antigo script que criei para remover senha dos PDF da Linux Magazine para ler no tablet ;-P
#!/bin/bash
(…)
nome_ps=$( echo $lista | awk -F ‘[/.]’ ‘{print $(NF-1)”.ps”}’ )
pdftops -upw $senha $lista && ps2pdf $nome_ps && rm $nome_ps && echo “OK” || echo “FALHOU”
(..)
Onde a variável $lista é um laço for com um ls nos pdf da pasta 😛
As ferramentas usadas são pdftops e ps2pdf, que podem ser instaladas com apt-get:
pdftops: sudo apt-get install poppler-utils
ps2pdf: sudo apt-get install ghostscript
O pdftops é uma ferramenta para converter PDF(Portable Document Format) em PS (PostScript)
Pdftops reads the PDF file, PDF-file, and writes a PostScript file, PS-file. If PS-file is not specified, pdftops converts file.pdf to file.ps (or file.eps with the -eps option). If PS-file is ´-‘, the PostScript is sent to stdout.
Fonte: man
Resumindo: O pdftops le o arquivo PDF e grava em um arquivo PS, como fosse imprimir. No caso, informações como Assunto, Autor, Descrição e outras são eliminadas no arquivo PS.
Basicamente o que eu fiz foi tirar a opção -upw do pdftops (que é utilizado para especificar a senha de usuário do arquivo PDF), e converti tudo em PS. Em seguinda usei o ps2pdf, que converte os arquivos PS em PDF usando o ghostscript.
A variável $nome_ps serve somente para transformar o final .PS em .PDF
Resumindo tudo:
pdftops <arquivo_pdf> – Gera um arquivo .PS com mesmo nome do .PDF (exemplo: “pdftops file.pdf” vai gerar um arquivo file.ps)
ps2pdf <arquivo_ps> – Gera o arquivo PDF a partir do PS (exemplo: “ps2pdf file.ps” vai gerar um arquivo file.pdf)
Conclusão: Basicamente o que eu fiz aqui foi reconverter o PDF, eliminando assim informações indesejadas (no meu caso), que era a Descrição, Autor, Assunto e outros que ficam armazenadas no arquivo as vezes sem a gente notar que estão lá. Como no meu caso eu tinha quase 100 arquivos PDF, foi mais fácil criar um script para automatizar isso.
1 comentário
2 menções
Obrigado, me ajudou.
[…] informações de um PDF convertido Um artigo que ensina a converter documentos para o formato PDF e ao mesmo tempo, limpando informações […]
[…] Limpar informações do PDF […]