Size: a a a

2021 February 06

К

Кирилл in Scrapy
Ну конечно оно быстрее будет, если друг друга не будет стопорить, если ты рядом с запросами обрабатываешь html, то запросы будут ждать парсинг и наоборот соответсвенно
источник

МС

Михаил Синегубов... in Scrapy
Victor
Ну а чем html дерево парсить - удалить скрипты, айфреймы, счетчики и некоторые тэги? Не регулярками же
А может сам скрапи с этим справится?
источник

К

Кирилл in Scrapy
У тебя так много там данных, что нужно оптимизировать скорость?
источник

V

Victor in Scrapy
12 млн страниц
источник

V

Victor in Scrapy
если странички обрабатывать получается - 200к в день парсит. Если просто сохранять в БД - 2 млн в день.
источник

К

Кирилл in Scrapy
Ну, тебе просто нужно разделить работу с сетью и манипуляции с html, что ты частично и сделал
источник

К

Кирилл in Scrapy
Там можно всякие подпроцессы делать и очереди с воркерами, это уже насколько хорошо ты хочешь это оптимизировать
источник

V

Victor in Scrapy
Ну я не думал что обработка html настолько медленная...
источник

V

Victor in Scrapy
мне кажется сеть забъет все эти воркеры и память в итоге кончится
источник

К

Кирилл in Scrapy
От  многих факторов зависит, вполне могло быть так, что ты высталяешь большие паузы, что обойти бан, или у тебя плохой интернет и оно бы успевало html резать без тормозов
источник

МС

Михаил Синегубов... in Scrapy
Victor
если странички обрабатывать получается - 200к в день парсит. Если просто сохранять в БД - 2 млн в день.
Чет ппц как медленно😕.
Обычно такое из-за сети или сайта...
источник

К

Кирилл in Scrapy
Victor
мне кажется сеть забъет все эти воркеры и память в итоге кончится
Воркеры для обработки html, они не завсят от сети, а просто берут, что скачал скрапи
источник

A

Andrii in Scrapy
источник

V

Victor in Scrapy
Кирилл
Воркеры для обработки html, они не завсят от сети, а просто берут, что скачал скрапи
А как воркеры в скрапи называются? В документации про них нет ничего...
источник

A

Andrii in Scrapy
Как можно сделать итерацию только по етих li в БС4?)
li_results = self._html.find(id="b_results").find_all('li')
, но оно берет и вложение li
источник

К

Кирилл in Scrapy
Victor
А как воркеры в скрапи называются? В документации про них нет ничего...
Никак, это не связано с скрапи. Можешь посмотреть на rabbitmq или celery
источник

V

Victor in Scrapy
Кирилл
Никак, это не связано с скрапи. Можешь посмотреть на rabbitmq или celery
Спс
источник

AP

Alex Python in Scrapy
никогда бы не подумал что scrapy можно и в телефоне юзать)
источник

AP

Alex Python in Scrapy
источник

AP

Alex Python in Scrapy
жуть )
источник