Телеграмм чат группы scrapy

2020 August 02

💀Ҁ

ребят, вытягиваю текст из дива:

'name': response.xpath('//h1[@class="vacancy_title"]/text()').extract_first().strip()

но текст бывает не всегда, от этого strip() падает ошибкой (захламляет вывод)

как-то можно в одну строчку сделать проверку

if is not None

?

источник

19:33пожаловаться #1

К

Кирилл in Scrapy

.get(default='').strip()

источник

19:34пожаловаться #2

iz

izzz zzi in Scrapy

get(“”)

источник

19:34пожаловаться #3

💀Ҁ

💀 Ңӥҟӥҭӓ Ҁӆӑҫҭӥӿӥӊ 🐲... in Scrapy

спасиб, попробую

источник

19:34пожаловаться #4

💀Ҁ

💀 Ңӥҟӥҭӓ Ҁӆӑҫҭӥӿӥӊ 🐲... in Scrapy

    'name': response.xpath('//h1[@class="vacancy_title"]/text()').extract_first().get(default='').strip(),
AttributeError: 'str' object has no attribute 'get'

источник

19:35пожаловаться #5

💀Ҁ

💀 Ңӥҟӥҭӓ Ҁӆӑҫҭӥӿӥӊ 🐲... in Scrapy

или это get вместо extract?

К

да

💀Ҁ

💀 Ңӥҟӥҭӓ Ҁӆӑҫҭӥӿӥӊ 🐲... in Scrapy

вроде оно, спасибо

а чем
.get
от
.extract_first
отличается?

источник

19:38пожаловаться #8

К

Кирилл in Scrapy

просто устаревшее название

источник

19:39пожаловаться #9

iz

izzz zzi in Scrapy

💀 Ңӥҟӥҭӓ Ҁӆӑҫҭӥӿӥӊ 🐲

вроде оно, спасибо

а чем
.get
от
.extract_first
отличается?

Короче)

источник

19:43пожаловаться #10

iz

izzz zzi in Scrapy

get()
getall()

источник

19:43пожаловаться #11

💀Ҁ

💀 Ңӥҟӥҭӓ Ҁӆӑҫҭӥӿӥӊ 🐲... in Scrapy

о как

источник

19:44пожаловаться #12

SS

Stepan Smirnov in Scrapy

Почему на команду "scrapy shell" (с и без указания ссылки) запускаются скрипты на селениуме (без упоминания scrapy, лежат в папке с остальными пауками)?

источник

21:43пожаловаться #13

К

Кирилл in Scrapy

Stepan Smirnov

Почему на команду "scrapy shell" (с и без указания ссылки) запускаются скрипты на селениуме (без упоминания scrapy, лежат в папке с остальными пауками)?

Не знаю точно как там шэл работает, не пользуюсь им. Но скорее всего исходя из твоего описания, скрапи импортит все файлы из spiders, чтоб рэсолвить пауков, а при импорте исполняется содержимое файлов

источник

21:48пожаловаться #14

AR

Andrey Rahmatullin in Scrapy

Stepan Smirnov

Почему на команду "scrapy shell" (с и без указания ссылки) запускаются скрипты на селениуме (без упоминания scrapy, лежат в папке с остальными пауками)?

не надо класть никакие скрипты в папку с пауками, им там не место

источник

21:48пожаловаться #15

AR

Andrey Rahmatullin in Scrapy

и, дополнительно, не надо писать никакой скриптовый код в топлевел, надо заворачивать в if __name__ == '__main__'

источник

21:50пожаловаться #16

2020 August 03

V

Viktor in Scrapy

Я указываю прокси следующим образом HTTP_PROXY='http://ip:port'
В файле settings.py
Но почему-то при scrapy shell http://checkup.dyndns.org
IP не меняется, в чем может быть проблема? Заранее спасибо

источник

00:09пожаловаться #17

i

ildar in Scrapy

SoHard 🎄

вопрос по селениуму
как можно сделать чтобы браузер не ждал загрузки например счётчика яндекса и тп.?
возможно как-то блокировать соединения к опр. сайту или что то в таком духе.

можно наверно не в лоб решить, а на уровне около-системного файерволла, чтобы он сразу там слал 404 или каким-нибудь редактированием файла hosts?

источник

00:33пожаловаться #18

i

ildar in Scrapy

а вообще читал что как-то можно подключать расширения браузера, думал как-то подрубить ublock (а в нем уже можно наподрубать кучу правил), но чето у меня тогда не стартануло и я другим методом свою задачу решил в итоге.

источник

00:34пожаловаться #19

i

ildar in Scrapy

Viktor

Я указываю прокси следующим образом HTTP_PROXY='http://ip:port'
В файле settings.py
Но почему-то при scrapy shell http://checkup.dyndns.org
IP не меняется, в чем может быть проблема? Заранее спасибо

а там разве не надо этот http_proxy указывать как переменную окружения?

источник

00:38пожаловаться #20