Телеграмм чат группы scrapy

будет первая+все остальные

19:40пожаловаться #1

а сейчас у тебя только все остальные

19:40пожаловаться #2

но это я еще не проверил, используются ли прокси сами, не кормил их скрапи. решил сначала правило написать

19:41пожаловаться #3

LinkExtractor из правила будет использовать meta={'proxy': None}, который указан в start_requests?

или все таки нет

i in Scrapy

похоже хорошо, шо я еще и не добрался до этого crawlspider'a

https://stackoverflow.com/questions/48146944/how-to-use-proxy-for-specific-url-in-scrapy-spider

19:43пожаловаться #6

i in Scrapy

Stack Overflow

How to use proxy for specific url in Scrapy spider?

I want to use proxy for only few specific domain. I check this, this and this. If I understand correctly setting proxy using middleware will set the proxy for all requests.

How can I set proxy for

19:43пожаловаться #7

i in Scrapy

вот зырь там в ответе пишут чего надо делать в случае с crawlspider, хз правда насколько это актуально

19:43пожаловаться #8

Нет, старт реквестс повлияет только на запрос из start_urls. Все остальные запросы которые сгенерирует карвл спайдер будут без этой меты

19:44пожаловаться #9

i in Scrapy

о чем тебе Кирилл уже 2 раза написал

19:44пожаловаться #10

self.rules = (
    Rule(LinkExtractor(unique=True), callback='parse', follow=True, process_request='process_request'),
)

19:44пожаловаться #11

i in Scrapy

аа, ну вы видать в рассуждениях далеко ушли, я еще только в самом начале)

19:45пожаловаться #12

вроде то что нужно

19:45пожаловаться #13

Да, тот пример с process_request вроде правильно выглядит, для тех запросов которые из правил будут

19:46пожаловаться #14

Короче, основное что нужно знать про кравл паука, это то, что если нет явного калбэка оно вызовет _parse как калбэк, и там будет вся эта логика по сбору урлов и генерации новых запросов

19:48пожаловаться #15

Поэтому в старт ревестс не должно быть калбэка, чтоб оно смогло запустить свои экстракторы и т.п., а везде в других местах должен быть калбэк

19:49пожаловаться #16

Соответсвенно так как для первых запросов нельзя напрямую указать калбэк, для этого сделали отдельныйм метод который вызывается для них. Чтоб поведение было одинаковое нужно прописать

def parse_start_url(self, response, **kwargs):
    return self.parse(response, **kwargs)

Если правильно помню

19:57пожаловаться #17

Кирилл

def parse_start_url(self, response, **kwargs):
    return self.parse(response, **kwargs)

Если правильно помню

rules = [Rule(LinkExtractor(), callback='parse', follow=True, process_request='process_request')]

то есть, для первого запроса не сработает process_request?

19:58пожаловаться #18

я такие тонкости не помню, вроде нет

19:59пожаловаться #19

Нет, не сработает, нужно и там и там прописать