Como converter PDF em HTML e imagens PNG
Uma forma bem simples para extrair conteúdo de documentos em PDF ou exportar para HTML e imagens PNG, é usar a ferramenta pdftohtml que faz parte do pacote de ferramentas poppler-utils. Neste guia irei explicar como instalar e usar o pdftohtml no Sistema Operativo Ubuntu Linux.
1 - Instalar o poppler-utils
Utilize o instalador gráfico da sua preferência e instale o pacote poppler-utils
Ou em alternativa use o comando:
sudo apt-get install poppler-utils
2 - Utilizando pdftohtml
O pdftohtml tem vários parâmetros que podem ser conhecidos digitando o próprio comando:
pdftohtml
Vejamos 2 exemplos de uso do pdftohtml:
pdftohtml exemplo.pdf exemplo.html
Com este comando o retorno é um documento HTML com a informação de texto do documento PDF original. Não produz ficheiros com imagens mesmo que estas existam. Muito útil se o pretendido for somente extrair texto mantendo no HTMl uma aproximação gráfica ao PDF original.
pdftohtml -c exemplo.pdf exemplo.html
Com o parâmetro -c o resultado final estará organizado em vários ficheiros HTML, um por cada página do documento PDF. Cada página HTML terá uma referência para uma imagem PNG que será uma representação muito aproximada da página correspondente no documento PDF.
Conclusão:
Apesar de ser possível extrair texto de documentos PDF abrindo-o simplesmente e seleccionando o texto, o pdftohtml tem muitas mais vantagens como ficou exemplificado. Outra possibilidade é a de poder ser utilizado em shell script para converter em lote vários documentos PDF para HTML. Imagine a utilidade disto se por exemplo desejar publicar em HTML um vasto conjunto de documentos que estão em PDF. Outra utilização possível, é para extrair e tratar imagens que estão num PDF.
sudo apt-get install poppler-utils
2 - Utilizando pdftohtml
O pdftohtml tem vários parâmetros que podem ser conhecidos digitando o próprio comando:
pdftohtml
Vejamos 2 exemplos de uso do pdftohtml:
pdftohtml exemplo.pdf exemplo.html
Com este comando o retorno é um documento HTML com a informação de texto do documento PDF original. Não produz ficheiros com imagens mesmo que estas existam. Muito útil se o pretendido for somente extrair texto mantendo no HTMl uma aproximação gráfica ao PDF original.
pdftohtml -c exemplo.pdf exemplo.html
Com o parâmetro -c o resultado final estará organizado em vários ficheiros HTML, um por cada página do documento PDF. Cada página HTML terá uma referência para uma imagem PNG que será uma representação muito aproximada da página correspondente no documento PDF.
Conclusão:
Apesar de ser possível extrair texto de documentos PDF abrindo-o simplesmente e seleccionando o texto, o pdftohtml tem muitas mais vantagens como ficou exemplificado. Outra possibilidade é a de poder ser utilizado em shell script para converter em lote vários documentos PDF para HTML. Imagine a utilidade disto se por exemplo desejar publicar em HTML um vasto conjunto de documentos que estão em PDF. Outra utilização possível, é para extrair e tratar imagens que estão num PDF.
O pdftohtml está disponível na generalidade das distribuições Linux e para MAC OS X. É possível que exista versão nativa para MsWindows ou então usar o pdftohtml recorrendo ao Cygwin.
Mais info: http://pdftohtml.sourceforge.net/
Submeter um novo comentário