Size: a a a

2020 November 16

m

meehalkoff✪ in Scrapy
Михаил Синегубов
finedroxy.org
proxys.io
proxy6.net
crawlera (https://www.scrapinghub.com/crawlera/)
luminati.io

их 100500, вопрос - подойдут ли они тебе
220вольт парсить
источник

B

Bulatbulat48 in Scrapy
S
такой вопрос :  есть ли аналогget().strip() но только для getall() ?
MapCompose
источник

МС

Михаил Синегубов... in Scrapy
ну, 229 вольт - тестить надо
источник

МС

Михаил Синегубов... in Scrapy
Bulatbulat48
MapCompose
не пугай человека лоадерами :)
источник

B

Bulatbulat48 in Scrapy
Михаил Синегубов
не пугай человека лоадерами :)
это процессор 🙂
источник

МС

Михаил Синегубов... in Scrapy
Bulatbulat48
это процессор 🙂
тогда "ой все", я его отдельно не использовал никогда :))
источник

B

Bulatbulat48 in Scrapy
источник

S

S in Scrapy
спасибо за совет 👍👍👍
источник

B

Bulatbulat48 in Scrapy
Михаил Синегубов
тогда "ой все", я его отдельно не использовал никогда :))
proc = MapCompose(str.strip)
proc(['hello   ', 'world  '])
['hello', 'world']
источник

AL

Alexey Lemeshevski in Scrapy
i
а зачем стока данных? если нужны сами данные, то такая задача уже сделана: https://commoncrawl.org/the-data/get-started/
Ого) прикольный датасет)) вебархив еще один, по сути) спасибо за ссылку!)

П.с. я цены с интернет-магазинов собираю... они всегда свежие нужны)
источник

i

i in Scrapy
Bulatbulat48
proc = MapCompose(str.strip)
proc(['hello   ', 'world  '])
['hello', 'world']
а как лучше обходить вещи типа proc(['hello   ', 'world  ', None]) ? get() может None возвращать. В компрехеншене я бы написал [x.strip() if x else '' for x in ololo]. А тут получается надо ValueError ловить?
источник

B

Bulatbulat48 in Scrapy
i
а как лучше обходить вещи типа proc(['hello   ', 'world  ', None]) ? get() может None возвращать. В компрехеншене я бы написал [x.strip() if x else '' for x in ololo]. А тут получается надо ValueError ловить?
Не уверен что понял, но в целом можно юзать itemloader
источник

МС

Михаил Синегубов... in Scrapy
i
а как лучше обходить вещи типа proc(['hello   ', 'world  ', None]) ? get() может None возвращать. В компрехеншене я бы написал [x.strip() if x else '' for x in ololo]. А тут получается надо ValueError ловить?
+ за ItemLoader. Оно само отсечет всякие None и прочее.
в при моем примере - это самому следить надо
источник

i

i in Scrapy
надо будет таки с ним что-то сделать, мне еще год назад сказали юзай итемлоадер, я даже прочел и мне понравилось, но так и не юзал)
источник

Юd

Юра de jure in Scrapy
Юра de jure
Кто-то пробовал запускать Selenium в OS без GUI? Именно OS без GUI а не headless режим в Selenium.
Без особых проблем получилось. Ubuntu Server 18.04, 512RAM/5Gb SSD, 1 поток.

Когда запустил программу, проц работал на 80%, и операвитка примерно так же.

Так что кто собирается делать армию ботов - берите на заметку))
источник

Юd

Юра de jure in Scrapy
Во время запуска сидел в tmux, нагрузку мониторил через htop
источник

К

Кирилл in Scrapy
Мы знаем😇
источник

Юd

Юра de jure in Scrapy
Кирилл
Мы знаем😇
Ещё раз спасибо😊👍
источник

К

Кирилл in Scrapy
Для стабильной работы  примерно 1гб оперативкии
источник

i

i in Scrapy
Юра de jure
Без особых проблем получилось. Ubuntu Server 18.04, 512RAM/5Gb SSD, 1 поток.

Когда запустил программу, проц работал на 80%, и операвитка примерно так же.

Так что кто собирается делать армию ботов - берите на заметку))
можешь еще swap раздел там сделать, если vds его автоматом не сделал. Будет меньше шансов, что придет страшный oom killer
источник