Телеграмм чат группы scrapy

а что происходит вообще, он не завершается самостоятельно или из-за чего ошибка?

13:00пожаловаться #1

Andrey Rahmatullin in Scrapy

Он запускает и завершает реактор, а это нельзя делать второй раз

вообще, послать задачу, чтобы запустился краулер, собрал страницы и выгрузил в пайплайне в json, пока только это. ну и подразумевается, что таск передает параметр в виде домена краулеру

Это делает scrapyd, тебе уже его советовали

Это делает scrapyd, тебе уже его советовали

решил более гибко сделать( я почему не взял scrapyd, не понял, как джанго будет проверять, что задача выполнена

13:03пожаловаться #4

Эмм.. а ты документацию читал?

13:04пожаловаться #5

ладно, пошел еще раз почитаю)

13:06пожаловаться #6

Ладно бы ты ещё нашел как оно там делается, и решил что такой вариант не подходит. Но "не понял" и пошёл своё писать, это уж как-то слишком)

я так понял, проверять через listjobs?

я так понял, проверять через listjobs?

Да, но как видишь там есть некоторые существенные недостатки

Да, но как видишь там есть некоторые существенные недостатки

это ты о том, что после перезапуска данные пропадают?

13:10пожаловаться #10

Об этом и о том, что оно всё в одном пакете приходит, без фильтров, если у тебя будет много коротких запусков, будут относительно большие объемы данных приходить

13:11пожаловаться #11

Это уже от твое задачи зависит, подойдет ли

13:12пожаловаться #12

если не подойдет, лезть в сорцы и править scrapyd? поскольку иные варианты кажутся еще более сложными)

13:14пожаловаться #13

МП

Максим Петров... in Scrapy

Spirit💎

господа, а дружил кто scrapy с celery? отдаю таск, а мне после первого выдает twisted.internet.error.ReactorNotRestartable

CELERY_WORKER_MAX_TASKS_PER_CHILD = 1

13:14пожаловаться #14

Нет, лезть точно не нужно

13:15пожаловаться #15

Максим Петров

CELERY_WORKER_MAX_TASKS_PER_CHILD = 1

но тут все же наверное стоит еще убрать CrawlerProcess, потому что этот конфиг не помог

13:17пожаловаться #16

МП

Максим Петров... in Scrapy

Spirit💎

но тут все же наверное стоит еще убрать CrawlerProcess, потому что этот конфиг не помог

работает с ним

13:19пожаловаться #17

МП

Максим Петров... in Scrapy

в селери док можно почитать и понятть подходит ли для твоего кейса

13:21пожаловаться #18

МП

Максим Петров... in Scrapy

Spirit💎

господа, а дружил кто scrapy с celery? отдаю таск, а мне после первого выдает twisted.internet.error.ReactorNotRestartable

но эту проблему обойти поможет однозначно

13:22пожаловаться #19

https://gist.github.com/clockdev/470b61a1cf1e2bd5c433db239ffa1cfb
вот весь конфиг с пауком, все остальные конфиги дефолтные. даже при CrawlerRunner возникает та же петрушка с реактором