cesarcfsf Postado Setembro 6 Compartilhar Postado Setembro 6 Prezados, boa tarde. Estou desenvolvendo um projeto em python, onde necessito obter dados de arquivos pdf, estes dados são bem específico, ou seja, preciso pegar somente os dados (que são textos) que se encontram dentro de retângulos espalhados por todo o PDF e os textos que encontram-se tachados. Alguém pode me ajudar? Link to comment Compartilhe em outros sites Outras opções de compartilhamento...
cesarcfsf Postado Setembro 9 Autor(a) Compartilhar Postado Setembro 9 Alguém tem alguma solução pra esse problema???? Link to comment Compartilhe em outros sites Outras opções de compartilhamento...
Ryan Zimerman Leite Postado Setembro 17 Compartilhar Postado Setembro 17 Olá @cesarcfsf Você pode usar um for em uma pasta com os pdfs e para cada .pdf ele lê e varre cada página dele procurando por um texto regex, caso encontrar pode mover o pdf em outra pasta por exemplo. for file in os.listdir(documentos): if not file.endswith('.pdf'): continue arq = os.path.join(documentos, file) doc = fitz.open(arq, filetype="pdf") texto_arquivo = '' for page in doc: texto = page.get_text('text', flags=1 + 2 + 8) texto_arquivo += texto regex_termo = re.compile(r'SEU PADRAO REGEX AQUI') resultado = regex_termo.search(texto_arquivo) if not resultado: continue else: doc.close() new = os.path.join(pasta, file) shutil.move(arq, new) Link to comment Compartilhe em outros sites Outras opções de compartilhamento...
Postagens Recomendadas
Crie uma conta ou entre para comentar 😀
Você precisa ser um membro para deixar um comentário.
Crie a sua conta
Participe da nossa comunidade, crie sua conta.
Criar minha conta agoraÉ bem rápido!
Entrar
Você já tem uma conta?
Entrar agoraFaça o login agora.