Size: a a a

2020 January 27

i

ildar in Scrapy
имя файла поменять для второго скраппера в сеттингсах
источник

AR

Andrey Rahmatullin in Scrapy
почему тогда не то?
источник

i

ildar in Scrapy
ну раннер один создается, для processcrawl когда я делал settings.set() оно жаловалось на RuntimeError: Set changed size during iteration
тут не будет?
источник

AR

Andrey Rahmatullin in Scrapy
а
источник

AR

Andrey Rahmatullin in Scrapy
сделать два раннера
источник

МС

Михаил Синегубов in Scrapy
ммм
источник

i

ildar in Scrapy
чую я там и deferred тогда не нужен и как-то легче можно сделать
источник

МС

Михаил Синегубов in Scrapy
yield runner.crawl(TripadvisorSpider, city_id=city_id)+
источник

МС

Михаил Синегубов in Scrapy
не проканает?
источник

i

ildar in Scrapy
щас я попробую сначала runner.settings.set('FEED_URI', 'file:///' + out_csv_non_ed) перед вторым yield, по-идее тоже самое, хотя да, проще в runner.crawl потом передвинуть наверное
источник

МС

Михаил Синегубов in Scrapy
кстати, я не победил пересоздание раннера, тогда времени не было, я щас "работает - не трожь" 😂
но я хотел заново создавать... похоже так нельзя....
источник

i

ildar in Scrapy
похоже то, что он ругался на изменение Set - это был баг в моем спайдере))
источник

МС

Михаил Синегубов in Scrapy
yield runner.crawl(Spider1, **settings_ed) - по идее, это же не имеет смысла. Или я не прав?
ты же эти настройки при создании раннера прописал
источник

SS

Sergey Sergey in Scrapy
Ох как же я намучился с запуском из скрипта да через Celery всей этой канители. В итоге понял, что проще запускать из кода через scrapyd сервер. По окончании работы первого парсера.
источник

i

ildar in Scrapy
Михаил Синегубов
yield runner.crawl(Spider1, **settings_ed) - по идее, это же не имеет смысла. Или я не прав?
ты же эти настройки при создании раннера прописал
в принципе да, в первой строчке да, не имеет
источник

i

ildar in Scrapy
а там где был у меня баг с Set сменил на list себе, теперь осталось понять почему оно орет на remove из Set, раньше же вроде работало
источник

МС

Михаил Синегубов in Scrapy
ildar
а там где был у меня баг с Set сменил на list себе, теперь осталось понять почему оно орет на remove из Set, раньше же вроде работало
Ремув из настроек? Может более правильно дефолтное значение?
источник

i

ildar in Scrapy
нет, там логика такая, что второй спайдер должен исключать урлы, найденные в первом спайдере, и для этого я  по базе проверяю есть ли текущий урл в базе (а в первом спайдере, соответственно, пихаю эти урлы в базу),
https://i.imgur.com/CGiwnQ0.png
и раньше работало просто
links_on_page = set(links_on_page) #был set, т.к. давало кучу дублей
источник

i

ildar in Scrapy
по-идее там можно как-то лучше переписать, но оно и так молотит 3500 айтемов в секунду на кешированных данных, так-что пофигу
источник

AR

Andrey Rahmatullin in Scrapy
в crawl же не сеттингс передаются, а аргументы спайдера
источник