Jump to content

Manipulação de pdf usando MuPyPDF


Postagens Recomendadas

Prezados, boa tarde.

Estou desenvolvendo um projeto em python, onde necessito obter dados de arquivos pdf, estes dados são bem específico, ou seja, preciso pegar somente os dados (que são textos) que se encontram dentro de retângulos espalhados por todo o PDF e os textos que encontram-se tachados. Alguém pode me ajudar?

Link to comment
Compartilhe em outros sites

  • 2 weeks later...

Olá @cesarcfsf Você pode usar um for em uma pasta com os pdfs e para cada .pdf ele lê e varre cada página dele procurando por um texto regex, caso encontrar pode mover o pdf em outra pasta por exemplo.

for file in os.listdir(documentos):
    if not file.endswith('.pdf'):
        continue
    arq = os.path.join(documentos, file)
    doc = fitz.open(arq, filetype="pdf")
    
    texto_arquivo = ''
    for page in doc:
        texto = page.get_text('text', flags=1 + 2 + 8)
        texto_arquivo += texto
    
    regex_termo = re.compile(r'SEU PADRAO REGEX AQUI')
    resultado = regex_termo.search(texto_arquivo)
    
    if not resultado:
        continue
    else:
        doc.close()
        new = os.path.join(pasta, file)
        shutil.move(arq, new)
        

 

Link to comment
Compartilhe em outros sites

Crie uma conta ou entre para comentar 😀

Você precisa ser um membro para deixar um comentário.

Crie a sua conta

Participe da nossa comunidade, crie sua conta.
É bem rápido!

Criar minha conta agora

Entrar

Você já tem uma conta?
Faça o login agora.

Entrar agora


×
×
  • Create New...