Consulta de Documentos PDF

README.md

Consulta de Documentos PDF

Este projeto fornece um script Python que processa um documento PDF, divide-o em pequenos pedaços de texto, cria embeddings para esses pedaços, armazena-os em um armazenamento vetorial FAISS e configura um sistema de QA baseado em recuperação usando um modelo LLM local. O script é projetado para ajudar os usuários a consultar e analisar documentos PDF de forma eficiente.

Recursos

Carregamento de PDF: Carrega e analisa documentos PDF.
Divisão de Texto: Divide o documento em pequenos pedaços de texto gerenciáveis.
Criação de Embeddings: Cria embeddings para os pedaços de texto usando modelos HuggingFace.
Armazenamento Vetorial: Armazena embeddings em um armazenamento vetorial FAISS para recuperação eficiente.
QA Baseado em Recuperação: Configura um sistema de QA baseado em recuperação usando o modelo Ollama do LangChain e modelos de prompt personalizados.

Requisitos

Python 3.8+
langchain_community
langchain
langchain_core
langchain_text_splitters
langchain_community.llms
langchain_community.embeddings
langchain_community.vectorstores
faiss-cpu ou faiss-gpu
huggingface

Instalação

Clone o repositório:

git clone https://github.com/seuusuario/interpretador-de-documentos-pdf.git
cd interpretador-de-documentos-pdf

Instale as dependências necessárias:

pip install langchain langchain_community langchain_core faiss-cpu huggingface_hub

Uso

Coloque seu documento PDF no mesmo diretório que o script e nomeie-o como meu_pdf.pdf.
Execute o script:
```
python pdfquery.py
```

Descrição do Script

Carregamento de PDF: O script usa PyPDFLoader para carregar o documento PDF.
Divisão de Texto: Os pedaços de texto são criados usando CharacterTextSplitter.
Criação de Embeddings: Embeddings são gerados usando HuggingFaceEmbeddings.
Armazenamento Vetorial: Embeddings são armazenados e recuperados de um armazenamento vetorial FAISS.
QA Baseado em Recuperação: Uma cadeia de QA é configurada usando o modelo Ollama do LangChain e modelos de prompt personalizados para responder perguntas com base no conteúdo do documento.

Personalização

Caminho do PDF: Altere a variável pdf_path para apontar para o seu arquivo PDF desejado.
Tamanho e Sobreposição dos Pedaços: Ajuste os parâmetros chunk_size e chunk_overlap no CharacterTextSplitter para atender às suas necessidades.
Consulta: Modifique a variável query para especificar diferentes perguntas ou tarefas de análise.

Licença

Este projeto é licenciado sob a Licença MIT. Veja o arquivo LICENSE para mais detalhes.

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
README.md		README.md
pdfquery.py		pdfquery.py
url_query.py		url_query.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

README.md

Consulta de Documentos PDF

Recursos

Requisitos

Instalação

Uso

Descrição do Script

Personalização

Licença

Agradecimentos

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

README.md

Consulta de Documentos PDF

Recursos

Requisitos

Instalação

Uso

Descrição do Script

Personalização

Licença

Agradecimentos

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages