Size: a a a

2020 January 15

AR

Andrey Rahmatullin in Scrapy
чтоб в проц не упереться, но оно такое, мерять надо нужно ли
источник

B

Bulatbulat48 in Scrapy
Andrey Rahmatullin
нет, не заменит, всё что делается - только чтобы юзер мог юзать в юзерском коде либы типа aio*
прикольно, чтобы проще запускать синхронные запросы(inline_requests)?
источник

S

Sergey in Scrapy
Andrey Rahmatullin
чтоб в проц не упереться, но оно такое, мерять надо нужно ли
в общем параметр CONCURRENT_REQUESTS мне в помощь?
источник

МС

Михаил Синегубов in Scrapy
Sergey
в скорости парсинга, нужно запустить как можно большее кол-во потоков
ммм, мое глубокое имхо, скрапи тут не подойдет.
тут надо полностью свое писать. Но это не для новичка, дохрена что надо предусмотреть и прописать.
источник

AR

Andrey Rahmatullin in Scrapy
Bulatbulat48
прикольно, чтобы проще запускать синхронные запросы(inline_requests)?
в первую очередь чтобы можно было ходить асинхронно в базу, в файлы, руками в сеть (не через requests, который синхронный), но и сделать встроенный аналог inline_requests тоже тикет есть
источник

AR

Andrey Rahmatullin in Scrapy
Sergey
в общем параметр CONCURRENT_REQUESTS мне в помощь?
CONCURRENT_REQUESTS это про очередь запросов в одном процессе, а я про несколько процессов
источник

AR

Andrey Rahmatullin in Scrapy
а про CONCURRENT_REQUESTS по моей ссылке есть
источник

S

Sergey in Scrapy
Михаил Синегубов
ммм, мое глубокое имхо, скрапи тут не подойдет.
тут надо полностью свое писать. Но это не для новичка, дохрена что надо предусмотреть и прописать.
почему не подойдет?
источник

МС

Михаил Синегубов in Scrapy
Sergey
в общем параметр CONCURRENT_REQUESTS мне в помощь?
1. читаешь что такео многопоток на многоядерных системах
2. читаешь что такое аснхрон и с чем его едят
3. читаешьчто такое "access violation at address" (наверняка в питоне такое то-же есть), ужасаешся
4. куришь бумажки, карандаши и кучу мануалов

в результате получаешь п..ц насколько шуструю систему которая выполняет конкретно твою задачу.
источник

МС

Михаил Синегубов in Scrapy
Sergey
почему не подойдет?
тебе надо обрабатывать 100500 страниц по принципу "кто первый встал того и тапки?" если да, то скрапи чуть для другого. Это универсальная система, которую пожно заточить под парсинг 99% сайтов. Но в универсальости как факта кроется куча всяких "не хорошестей".
Мне никто не докажет что полностью написанная и заточенная под конретную ситуацию система не будет быстрее чем скрапи, пускай даже оптимизированный до бровей
источник

МС

Михаил Синегубов in Scrapy
Sergey
почему не подойдет?
но, если тебе надо "прям щас что то написать", то да, можно и на скрапи "накостылить" :). как минимум, для первичной оценки темы подойдет.
хотя, х/з, может тебя устроит и как окончательный продукт :)
источник

S

Sergey in Scrapy
Михаил Синегубов
но, если тебе надо "прям щас что то написать", то да, можно и на скрапи "накостылить" :). как минимум, для первичной оценки темы подойдет.
хотя, х/з, может тебя устроит и как окончательный продукт :)
да, все верно
источник

S

Sergey in Scrapy
я тоже думал самописанное что-то, но надо щас на коленках
источник

МС

Михаил Синегубов in Scrapy
сайтов сколько?
источник

AR

Andrey Rahmatullin in Scrapy
где там чувак с тредпулом, самое то жы
источник

S

Sergey in Scrapy
ну, больше миллиона
источник

AR

Andrey Rahmatullin in Scrapy
сайтов или урлов?
источник

AR

Andrey Rahmatullin in Scrapy
вообще вот broad crawl гуглить
источник

S

Sergey in Scrapy
сайтов
источник

AR

Andrey Rahmatullin in Scrapy
со словом scrapy или без
источник