Skip to content

Código Python para encontrar domínios .br em textos

License

Notifications You must be signed in to change notification settings

turicas/dominios.br

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Domínios .br

Código escrito em Python para encontrar domínios .br em textos. O arquivo tld_br.py implementa:

  • A função br_tlds, que acessa a página de categorias de domínios do registro.br e devolve dados estruturados dos TLDs .br
  • A função br_domain_tld_regexp gera um padrão de expressões regulares em Python (a partir dos TLDs obtidos pela função acima) que encontra domínios .br em um texto (de acordo com as regras do domínio definidas pelo registro.br, incluindo caracteres acentuados)
  • A classe BRDomainMatcher extrai domínios .br de textos, devolvendo o domínio encontrado e o TLD correspondente
  • Uma interface de linha de comando (CLI) que possui os seguintes subcomandos (use python br_tlds.py subcomando --help para mais detalhes):
    • python br_tlds.py download <arquivo.csv>: baixa, extrai e salva os TLDs disponíveis
    • python br_tlds.py filter: filtra o texto vindo da entrada padrão (stdin) e mostra na saída padrão (stdout) os domínios .br encontrados. Exemplo: cat arquivo.html | python br_tlds.py filter --encoding=utf-8 > resultados.txt

O script domains-wikipedia-pt.sh é um exemplo de utilzação onde o conteúdo da Wikipédia em Português é baixado e são feitos filtros para determinar quais os domínios .br mais citados (no fim, um CSV é gerado com as contagens).

Instalando

git clone https://github.com/turicas/dominios.br
cd dominios.br
pip install -r requirements.txt

Links relevantes

About

Código Python para encontrar domínios .br em textos

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published