Size: a a a

2020 January 15

МС

Михаил Синегубов in Scrapy
тебе именно пустые? надо определить что они пустые и
sheet.delete_rows(idx, amount=1)
но это умозаключение и просто на основании документации

а что мешает просто проверять данные при чтении и пропустить лишнее? все равно max_row будет меньше 3 млн
источник

J

Jim Morrison in Scrapy
Мне нужно вывести точное количество заполненных строк
источник

J

Jim Morrison in Scrapy
Без пустых
источник

МС

Михаил Синегубов in Scrapy
опять же, "почему не посчитать"? и да, это проблема не конкретно питона+openxl, подозреваю, что это более глобальная проблема. Ибо я эту проблему раньше встречал...
источник

J

Jim Morrison in Scrapy
Посчитать как ?
источник

o

oneonwar in Scrapy
Пандас?
источник

МС

Михаил Синегубов in Scrapy
Jim Morrison
Посчитать как ?
перебрать строки до max_row и проверить заждую

кстати, насчет пандас - может эти и есть панацея, но тут я не советчик, ибо х/з :)
источник

in Scrapy
в скольки потоках работает скраппер?
источник

AR

Andrey Rahmatullin in Scrapy
1
источник

B

Bulatbulat48 in Scrapy
в скольки потоках работает скраппер?
если имеются ввиду кол-во реквестов, то
https://github.com/scrapy/scrapy/blob/master/scrapy/settings/default_settings.py#L43
источник

B

Bulatbulat48 in Scrapy
источник

AR

Andrey Rahmatullin in Scrapy
ну так это не про скрейпинг, а дополнительное всякое
источник

B

Bulatbulat48 in Scrapy
Andrey Rahmatullin
ну так это не про скрейпинг, а дополнительное всякое
понял, спс.
источник

in Scrapy
у меня в функции parse выполняется еще реквест с либой geopy чтобы получить координаты адресса и limit=60 ms, но я смотрю по логам там как-будто несколько потоков сразу отправляют туда риквест и в итоге я ловлю блок. Думаю если я geopy вынесу в Pipeline, это решит проблему?
источник

AR

Andrey Rahmatullin in Scrapy
нет
источник

AR

Andrey Rahmatullin in Scrapy
я уже высказывал это соображение: нет разницы между асинхронными коллбэками и асинхронным process_item пайплайна
источник

AR

Andrey Rahmatullin in Scrapy
а вообще нет понятия несколько запросов сразу, есть понятие чаще чем N запросов за M времени, и тут уже неважно какая у спайдера архитектура
источник

in Scrapy
Andrey Rahmatullin
а вообще нет понятия несколько запросов сразу, есть понятие чаще чем N запросов за M времени, и тут уже неважно какая у спайдера архитектура
так и в итоге, это фиксится?
источник

AR

Andrey Rahmatullin in Scrapy
так и в итоге, это фиксится?
я описания проблемы не видел, так что не знаю
источник

AR

Andrey Rahmatullin in Scrapy
если слишком часто делается запрос - ну какой-то семафор что ли юзать
источник