Size: a a a

2020 December 03

D

Dmitry in Scrapy
И кстати связанный вопрос - если я вызову обычный sleep, чтобы повесить весь скрапи - там ничего не сломается от этого?
источник

AR

Andrey Rahmatullin in Scrapy
все отправленные запросы могут отвалиться по таймауту как минимум
источник

AR

Andrey Rahmatullin in Scrapy
но раз они и так хотят дохлый прокси юзать то пофиг
источник

D

Dmitry in Scrapy
Сорри, неправильно выразился - прокси не дохлый, а забаненый
источник

D

Dmitry in Scrapy
Так что все запросы вернутся, но с ошибками. Они же не будут после этого переотправляться - и это проблема
источник

AR

Andrey Rahmatullin in Scrapy
да, причём не решаемая
источник

AR

Andrey Rahmatullin in Scrapy
если мы про уже отправленные
источник

D

Dmitry in Scrapy
Ну вот я и не хочу их отправлять при помощи слипа - как стопкран на весь скрапи
источник

AR

Andrey Rahmatullin in Scrapy
так они уже отправлены
источник

D

Dmitry in Scrapy
Ну те, которые отправлены, хрен с ними. Чтобы 1000 новых запросов не отправилось, пока новый прокси не оживет.
источник

G

Georgiy in Scrapy
Dmitry
Ну мне нужно перестать посылать запросы в этот момент из колбэка, и никакой индикации, что прокси поменялся я не получу. В ответ на мой запрос о смене я моментально получаю "ок", а сама смена происходит через Х секунд
Не утверждаю что этот вариант ("подкрутить" scrapy.downloader) правильный, но он вполне рабочий:
https://github.com/scrapy/scrapy/issues/802#issuecomment-500245345
источник

Ra

Ruslan aka DUDE in Scrapy
@wrar42 Andrii @SmirnovStepan  благодарю за помощь!
w3lib - да, нормально, работает, но по селекторам не умеет вроде
Html2text - чтото не то но как я понял, там можно автоматом скипнуть например картинки и другие частые теги
lxml - то что надо, по селекторам, получилось
источник

Ra

Ruslan aka DUDE in Scrapy
> Использовать css селекторы чтобы избежать пробелов в названии при использовании @class в xpath

о каких пробелах идет речь?
источник

AR

Andrey Rahmatullin in Scrapy
о разделителях имён классов
источник

Ra

Ruslan aka DUDE in Scrapy
так там вроде tag[@class="cls1"][@class="cls2"][@class="cls3"]
источник

AR

Andrey Rahmatullin in Scrapy
лол нет
источник

Ra

Ruslan aka DUDE in Scrapy
Andrey Rahmatullin
лол нет
действительно, глянул, там чтото монструзное
.//*[contains(concat(" ",normalize-space(@class)," ")," cls1 ")][contains(concat(" ",normalize-space(@class)," ")," cls2 ")][contains(concat(" ",normalize-space(@class)," ")," cls3 ")]
источник

AR

Andrey Rahmatullin in Scrapy
Да, иначе никак
источник

Ra

Ruslan aka DUDE in Scrapy
я кстати перешел на scrapy не потомучто он круче
а потомучто bs4 подвел
он съедает данные (исчезают блоки тегов) если страница немного не валидная
тогда как хром нормально справляется с ней
источник

Ra

Ruslan aka DUDE in Scrapy
до этого не видел вариантов кроме css селекторов и косо смотрел на xpath но пощупав его, не могу без него теперь)) удобно))
источник