Size: a a a

2020 October 05

AR

Andrey Rahmatullin in Scrapy
руками через reactor.call_later(), но при чём тут дубликаты-то
источник

Marat Мkhitаrуаn in Scrapy
Andrey Rahmatullin
руками через reactor.call_later(), но при чём тут дубликаты-то
рекурсия получается же
источник

AR

Andrey Rahmatullin in Scrapy
ок
источник

Marat Мkhitаrуаn in Scrapy
Сейчас я делаю yield, но как его поменять на CallLaterOnce?
источник

Marat Мkhitаrуаn in Scrapy
насколько я понял там коллбек нужен, но на что колбечить?
источник

AR

Andrey Rahmatullin in Scrapy
написать функцию, сунуть в неё spider.crawler.schedule, сунуть её в call_later
источник

AR

Andrey Rahmatullin in Scrapy
или даже прямо spider.crawler.schedule сунуть в call_later
источник

A

Andrii in Scrapy
кстати, как думаете, норм мидлварка? https://stackoverflow.com/questions/50555545/using-scrapy-on-a-google-cache-of-a-website
источник

Marat Мkhitаrуаn in Scrapy
Andrey Rahmatullin
или даже прямо spider.crawler.schedule сунуть в call_later
где получить spider.crawler.schedule? что нужно импортировать?
источник

AR

Andrey Rahmatullin in Scrapy
в объекте spider, если доступен
источник

Marat Мkhitаrуаn in Scrapy
from .spiders.synopsisspider import ClinicalSynopsisSpider
ClinicalSynopsisSpider.crawler
*** AttributeError: type object 'ClinicalSynopsisSpider' has no attribute 'crawler'
источник

AR

Andrey Rahmatullin in Scrapy
если в пауке то self.spider
источник

AR

Andrey Rahmatullin in Scrapy
тьфу
источник

AR

Andrey Rahmatullin in Scrapy
если в пауке то self конечно
источник

Marat Мkhitаrуаn in Scrapy
в мидлваре
источник

AR

Andrey Rahmatullin in Scrapy
и я там забыл один пункт, оно spider.crawler.engine.schedule
источник

AR

Andrey Rahmatullin in Scrapy
в мидлваре объект spider
источник

A

Andrii in Scrapy
@wrar42 а можно сделать, что б как-то вернуть исходнЬІй урл ? request url --> new request url --> response --> request url (https://pastebin.com/Vg3VJKki)
источник

AR

Andrey Rahmatullin in Scrapy
куда вернуть?
источник

A

Andrii in Scrapy
Andrey Rahmatullin
куда вернуть?
как-то так
def process_response(self, request, response, spider):
       source_url = str(response.url).replace('https://webcache.googleusercontent.com/search?q=cache:', '')
       response.replace(url=source_url)
       return response
источник