Size: a a a

2020 September 15

К

Кирилл in Scrapy
Spirit💎
я че говорю, я смотрю 2 выгрузки, сделанные по одному и тому же сайту. вот когда колбэк убран в start_requests, то в выгрузке нет главной (/)
видимо ты не прописал parse_start_url
источник

i

i in Scrapy
источник

S

Spirit💎 in Scrapy
давайте сначала)
https://gist.github.com/clockdev/44188d4b1b7c8813977887dd4dab90a1 – вот стоковый код моего спайдера, до того, как я захотел его отучить от использования прокси
источник

S

Spirit💎 in Scrapy
в него передается домен и по домену работает правило с линк экстрактором
источник

S

Spirit💎 in Scrapy
обходятся все внутренние страницы сайта
источник

К

Кирилл in Scrapy
зачем у тебя экстракор в калбэке
источник

S

Spirit💎 in Scrapy
Кирилл
зачем у тебя экстракор в калбэке
внешние ссылки вытягивает
источник

S

Spirit💎 in Scrapy
со страницы
источник

К

Кирилл in Scrapy
ох
источник

S

Spirit💎 in Scrapy
есть более элегантные решения?)
источник

К

Кирилл in Scrapy
Вроде нет
источник

i

i in Scrapy
а я не очень понимаю к чему там init и вызов еще конструктора? супера и все эти переопределения, но это не от того, что код какой-то не такой,  я просто не знаю)
источник

i

i in Scrapy
и все эти self.cookies_seen = set()
источник

i

i in Scrapy
и url = 'http://%s/' % url - с надеждой что url будет без завершающего слеша. это какой-то со стековера код что-ли?
источник

i

i in Scrapy
нашел подобные включения в вопросе 13го года: https://stackoverflow.com/questions/18793904/scrapy-run-from-script-not-working
источник

S

Spirit💎 in Scrapy
i
и url = 'http://%s/' % url - с надеждой что url будет без завершающего слеша. это какой-то со стековера код что-ли?
дыа
источник

S

Spirit💎 in Scrapy
i
и все эти self.cookies_seen = set()
это шаблон из доки, вроде бы
источник

i

i in Scrapy
и вот смотри у тебя тут нет коллбека, а когда нет коллбека что делается, типа parse по-умолчанию вызывается?
extractor = LinkExtractor(deny_domains=self.allowed_domains)
источник

S

Spirit💎 in Scrapy
i
и вот смотри у тебя тут нет коллбека, а когда нет коллбека что делается, типа parse по-умолчанию вызывается?
extractor = LinkExtractor(deny_domains=self.allowed_domains)
не вызывается
источник

S

Spirit💎 in Scrapy
сейчас проверю на всякий
источник