Телеграмм чат группы scrapy

Евгений Jen

надо куки сохранять по цепочке вызова дочерних ссылок
обычно там SessionID и он помнить какую страницу открывал

СПС, надо проверить.

11:43пожаловаться #1

ну там ещё приоритеты етсь, но тут вроде вопрос конкретно про start_requests

11:43пожаловаться #2

Михаил Синегубов

хм, я десктопник, и мне бы и в голову не пришло передавать ВСЕ (пофиг, куда угодно, на удаленный хост, в базу и т.д.), только в крайнем случае.
короче, @Bulatbulat48, мои соболезнования... :), я, к своему счастью, всего несколько раз на ASP нарывался

Да я просто помогаю с задачкой)

11:43пожаловаться #3

МС

да, пока никаких приоритетов, просто очередь общая

11:43пожаловаться #4

МС

а вот теперь главный вопрос - в какой момент пространства и времени запрос освобождает "место" в очереди?

11:44пожаловаться #5

когда ответ от сервера приходит имхо

11:44пожаловаться #6

вообще хороший вопрос

11:44пожаловаться #7

я когда пытался фикс вмонтировать туда, я запутался

11:45пожаловаться #8

и то ли фикс неправильный, то ли я его не туда вкрутил

11:45пожаловаться #9

Ability to control consumption of start_requests from spider by whalebot-helmsman · Pull Request #3237 · scrapy/scrapy

https://github.com/scrapy/scrapy/pull/3237 вот этот

GitHub

Direct implementation of #1051 (comment), related #456
Add new method start_request_with_control to spider interface. I can change method name to any proposed. By default new method uses old one an...

11:45пожаловаться #10

МС

по идее, но должно быть в мидлваре, еще до коллбека, т.е. для "обычного" прокраммиста, в начале колбека....

11:46пожаловаться #11

ну да, не позже

11:46пожаловаться #12

МС

угу, тогда у булата может быть с этим проблема, если кто-то "влезет" вне очереди...

11:48пожаловаться #13

ЕJ

Евгений Jen in Scrapy

СПС, надо проверить.

11:48пожаловаться #14

спс!

12:19пожаловаться #15

ЕJ

Евгений Jen in Scrapy

: )
если объем страниц не большой - возможно проще будет сделать на requests.Session + lxml
в N вложенных циклах
for url_lvl1 in ...:
for url_page in...:
—
и для каждой последовательности ссылок создавать свой requests.Session
тогда не прийдеться запариваться с meta и yield

12:22пожаловаться #16

Евгений Jen

нужен скрапи. Кстати там еще интересно, то что можно послать ScreenWidth > 20000. И получить все продукты без пагинации.

12:25пожаловаться #17

ЕJ

Евгений Jen in Scrapy

крутая оптимизация

12:26пожаловаться #18

Но оно ломается на больших категориях(слишком большой ответ), потом сделал запросы из келбека - все работало, но как мне сказали оно тоже ломается на большом кол-ве. Но я не тестил сам, мне уже лень. Там еще вход по логину. Предложил пока каждую категорию с новым логином/сессией, вроде должно помочь. Спасибо!

12:28пожаловаться #19

по сути самое правильное поставить asp.net и смотреть реализации 🙂 На сколько помню оно из коробки все работает. Но это не точно.