mg_belohorizonte #33

juniorcarvalho · 2018-05-04T20:40:12Z

spider para Belo Horizonte-MG
Data inicial = 07/05/2016

anapaulagomes · 2018-05-04T20:51:16Z

processing/data_collection/gazette/settings.py

@@ -7,4 +7,4 @@
    'gazette.pipelines.PdfParsingPipeline': 2,
    'gazette.pipelines.PostgreSQLPipeline': 3,
 }
-FILES_STORE = '/mnt/data/'
+FILES_STORE = '/home/junior/projetos/scrapy/diario-oficial/data'


Aqui tu tinha que manter o /mnt/data/. 😅

anapaulagomes · 2018-05-04T20:52:37Z

processing/data_collection/gazette/spiders/mg_belohorizonte.py

+
+    def parse_pagelink(self,response):        
+        url = response.xpath('//p[contains(@class,"dom-chamadas")]/a/@href').extract_first()
+        if url is not None:


Você pode usar também if url: (menos código é mais :)).

anapaulagomes · 2018-05-04T20:57:30Z

processing/data_collection/gazette/spiders/mg_belohorizonte.py

+            items.append(
+                Gazette(
+                    date=self.start_date,
+                    file_urls=[self.mg_belohorizonte_url + file_url],


Descobri há pouco tempo que o Scrapy tem um método pra concatenar URL (o urljoin). Seria algo tipo response.urljoin(file_url).

juniorcarvalho · 2018-05-04T21:23:18Z

Blz, nos próximos ficarei atento.

juniorcarvalho · 2018-05-06T01:57:20Z

Comecei a fazer mg_uberlandia. Estou apanhando para conseguir pegar a data do diário.
E parece que se prepararam para dificultar a raspagem. Tenho 3 variações de links.
O link do href consigo pegar, agora a data está difícil. Se alguém tiver uma ideia só falar.
Postei a dúvida em :
https://pt.stackoverflow.com/questions/296567/scrapy-xpath-href-ou-span-dentro-da-div

anapaulagomes · 2018-05-06T19:44:17Z

@juniorcarvalho eu tentei dar uma olhada na página mas parece que nesse momento site tá fora do ar. Seria bacana você abrir os spiders pra cada cidade em PRs diferentes, assim um não impede o outro de ser mergeado e também ajuda os mantenedores a ter uma boa visão do que cada PR tem.

Amanhã vou tentar novamente - se você tiver notícias que o site voltou ou tiver uma página HTML de exemplo, é só falar.

anapaulagomes · 2018-05-06T19:45:24Z

processing/data_collection/gazette/spiders/mg_uberlandia.py

+
+    def parse_ano(self, response):
+        url_meses = response.xpath('//a[contains(@target,"_blank") and contains(@href,"http://www.uberlandia.mg.gov.br")]')
+        for url in url_meses:


Dado que o código do repositório está em inglês, seria bacana manter esse padrão, mantendo todo o código em inglês também.

Vacilei neste PR. Como corrigir este duplo PR ?
A pagina do diário de uberlandia: http://www.uberlandia.mg.gov.br/?pagina=Conteudo&id=39

Não tem problema, acontece! :) Você pode criar uma nova branch (tipo mg-uberlandia) a partir da master, passar as alterações de Uberlândia pra lá e nessa branch aqui você pode:

criar um commit deletando o código de Uberlândia

fazer um rebase interativo para remover/dar squash no commit - isso faria com que o histórico ficasse limpo, sem o último commit de Uberlândia e o commit da deleção. Acho que esse passo aqui é opcional também.

Ainda não consigo carregar essa página. :(

Tenta essa: http://www.uberlandia.mg.gov.br/?pagina=Conteudo&id=3077

Deu timeout aqui. Tu tá conseguindo acessar normal?

sim..normal

@juniorcarvalho parece que não consigo acessar pq tô fora do BR (e não tenho VPN). 🙄 Rola me mandar a página inicial do diário (http://www.uberlandia.mg.gov.br) e essa página que tu mencionou? apgomes88 at gmail dot com

cuducos · 2018-05-08T15:14:41Z

@juniorcarvalho parece que não consigo acessar pq tô fora do BR (e não tenho VPN). 🙄

Que péssimo isso, @anapaulagomes – @anaschwendler e @cabral, vocês podem confirmar se isso é mesmo algo relacionado ao país do IP?

De qualquer forma eu já perguntei (informalmente) no Twitter da prefeitura. Veremos.

UPDATE a força do hábito me fez escrever em inglês sem perceber. Reescrevendo em pt-BR!

anapaulagomes · 2018-05-08T15:26:15Z

De boas! Obrigada aí pela força. @anaschwendler me deu essa força e confirmou que o problema é esse mesmo.
Boa iniciativa com a prefeitura! Eu já tava pensando em pingar eles. 😅 Absurdo demais essa restrição...

cuducos · 2018-07-10T19:21:32Z

Closed in favor of #95

juniorcarvalho added 3 commits April 26, 2018 13:52

bh

4cde718

mg-belo-horizonte

23502b4

settings

0003f7e

anapaulagomes reviewed May 4, 2018

View reviewed changes

anapaulagomes reviewed May 6, 2018

View reviewed changes

mg_belohorizonte

584c153

juniorcarvalho force-pushed the master branch from f1aa2f7 to 584c153 Compare May 8, 2018 15:47

cuducos mentioned this pull request May 8, 2018

Mg Uberlândia [WIP] #37

Closed

alfakini mentioned this pull request May 24, 2018

Cities #48

Closed

cuducos mentioned this pull request Jul 10, 2018

Refactor do PR do spider de Belo Horizonte #95

Closed

cuducos closed this Jul 10, 2018

jvanz linked an issue Jun 20, 2020 that may be closed by this pull request

Belo Horizonte spider #185

Closed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

mg_belohorizonte #33

mg_belohorizonte #33

juniorcarvalho commented May 4, 2018

anapaulagomes May 4, 2018

anapaulagomes May 4, 2018

anapaulagomes May 4, 2018

juniorcarvalho commented May 4, 2018

juniorcarvalho commented May 6, 2018

anapaulagomes commented May 6, 2018

anapaulagomes May 6, 2018

juniorcarvalho May 8, 2018 •

edited

Loading

anapaulagomes May 8, 2018

juniorcarvalho May 8, 2018

anapaulagomes May 8, 2018

juniorcarvalho May 8, 2018

anapaulagomes May 8, 2018

cuducos commented May 8, 2018 •

edited

Loading

anapaulagomes commented May 8, 2018

cuducos commented Jul 10, 2018

mg_belohorizonte #33

mg_belohorizonte #33

Conversation

juniorcarvalho commented May 4, 2018

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

juniorcarvalho commented May 4, 2018

juniorcarvalho commented May 6, 2018

anapaulagomes commented May 6, 2018

Choose a reason for hiding this comment

juniorcarvalho May 8, 2018 • edited Loading

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

cuducos commented May 8, 2018 • edited Loading

anapaulagomes commented May 8, 2018

cuducos commented Jul 10, 2018

juniorcarvalho May 8, 2018 •

edited

Loading

cuducos commented May 8, 2018 •

edited

Loading