Skip to content

Latest commit

 

History

History
34 lines (23 loc) · 1.1 KB

README.md

File metadata and controls

34 lines (23 loc) · 1.1 KB

uv Python 3.12

theses-scraper

Script para fazer download das teses e dissertações em repositórios de universidades brasileiras. No momento, o script suporta alguns repositórios específicos, mas a ideia é expandir para outros repositórios.

Início Rápido

  1. Instalar dependências do projeto
git clone https://github.com/ApoenaX/theses-scraper.git
cd theses-scraper && pip install .

Usando a bilioteca

  1. Download de um trabalho
from theses_scraper.parsers import ParserFactory
from theses_scraper.downloader import DocumentDownloader

url = "https://monografias.ufma.br/jspui/handle/123456789/3510"

parser = ParserFactory.get_parser(url)
document: str | list[str] = parser.get_pdf_link(url)

downloader = DocumentDownloader("./data")
downloader.download(document)