Size: a a a

2020 September 02

AR

Andrey Rahmatullin in Scrapy
версия скрапи какая?
источник

S

Spirit💎 in Scrapy
Andrey Rahmatullin
версия скрапи какая?
все последнее ставил
источник

S

Spirit💎 in Scrapy
Scrapy 2.3.0
источник

AR

Andrey Rahmatullin in Scrapy
"Because of its internal implementation, you must explicitly set callbacks for new requests when writing CrawlSpider-based spiders; unexpected behaviour can occur otherwise."
источник

AR

Andrey Rahmatullin in Scrapy
вообще из кода видно что CrawlSpider тут зря
источник

AR

Andrey Rahmatullin in Scrapy
тем более что если его убрать всё работает
источник

К

Кирилл in Scrapy
Только сейчас увидел, что _parse ввели вместо parse
источник

S

Spirit💎 in Scrapy
Andrey Rahmatullin
"Because of its internal implementation, you must explicitly set callbacks for new requests when writing CrawlSpider-based spiders; unexpected behaviour can occur otherwise."
а явный колбэк где вообще должен указываться?
источник

AR

Andrey Rahmatullin in Scrapy
почитай туториал
источник

S

Spirit💎 in Scrapy
Andrey Rahmatullin
почитай туториал
а, я как раз думал, что start_urls меня обережет от этого
источник

S

Spirit💎 in Scrapy
типа он по дефолту вызывает parse в итерации по ним
источник

AR

Andrey Rahmatullin in Scrapy
а, точно
источник

AR

Andrey Rahmatullin in Scrapy
да, проблема не в этом, а в том что ты никаких рулов не объявил
источник

AR

Andrey Rahmatullin in Scrapy
CrawlSpider конечно никакой коллбэк по дефолту не вызывает, он не про это
источник

AR

Andrey Rahmatullin in Scrapy
parse_start_url(response, **kwargs)[source]
This method is called for each response produced for the URLs in the spider’s start_urls attribute. It allows to parse the initial responses and must return either an item object, a Request object, or an iterable containing any of them.
источник

BL

Boris Litvyakov in Scrapy
мне нужно скачать 1000 файлов по 400 мегов с сервера. у меня есть свой сервак с широченным каналом и 100 прокси (айпи сервака в бане).

сервер постоянно рвет соединение. мне удалось докачать файл через curl с параметром -C с 3-4 заходов, но я не могу так каждый файл докачивать постоянно. что делать?

может ли скрейпи справиться с задачей или какая еще утилита есть? если я подставлю в обычный Scrapy.request ссылку на файл, скрейпи сможет докачать файл при обрыве соединения?
источник

BL

Boris Litvyakov in Scrapy
мне главное как можно быстрее получить файлы, костыльность решения значения не имеет
источник

AR

Andrey Rahmatullin in Scrapy
нет, скрейпи ничего не докачивает и он вообще не про то
источник

S

Spirit💎 in Scrapy
Andrey Rahmatullin
CrawlSpider конечно никакой коллбэк по дефолту не вызывает, он не про это
понял, спасибо
источник

BL

Boris Litvyakov in Scrapy
угу я так и думал, просто наивный вопрос
источник