Телеграмм чат группы scrapy_python страница 1068

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Scrapy

380 membersпожаловаться на группу

2020 January 15

МС

Михаил Синегубов in Scrapy

тебе именно пустые? надо определить что они пустые и
sheet.delete_rows(idx, amount=1)
но это умозаключение и просто на основании документации

а что мешает просто проверять данные при чтении и пропустить лишнее? все равно max_row будет меньше 3 млн

источник

10:04пожаловаться #1

J

Jim Morrison in Scrapy

Мне нужно вывести точное количество заполненных строк

источник

10:30пожаловаться #2

J

Jim Morrison in Scrapy

Без пустых

источник

10:30пожаловаться #3

МС

Михаил Синегубов in Scrapy

опять же, "почему не посчитать"? и да, это проблема не конкретно питона+openxl, подозреваю, что это более глобальная проблема. Ибо я эту проблему раньше встречал...

источник

10:33пожаловаться #4

J

Jim Morrison in Scrapy

Посчитать как ?

источник

10:34пожаловаться #5

o

oneonwar in Scrapy

Пандас?

источник

10:34пожаловаться #6

МС

Михаил Синегубов in Scrapy

Посчитать как ?

перебрать строки до max_row и проверить заждую

кстати, насчет пандас - может эти и есть панацея, но тут я не советчик, ибо х/з :)

источник

10:36пожаловаться #7

ᅠ

в скольки потоках работает скраппер?

источник

18:56пожаловаться #8

AR

Andrey Rahmatullin in Scrapy

1

источник

19:00пожаловаться #9

B

Bulatbulat48 in Scrapy

в скольки потоках работает скраппер?

если имеются ввиду кол-во реквестов, то
https://github.com/scrapy/scrapy/blob/master/scrapy/settings/default_settings.py#L43

scrapy/scrapy

Scrapy, a fast high-level web crawling & scraping framework for Python. - scrapy/scrapy

источник

19:03пожаловаться #10

B

Bulatbulat48 in Scrapy

Andrey Rahmatullin

1

а как же REACTOR_THREADPOOL_MAXSIZE?
https://docs.scrapy.org/en/latest/topics/settings.html#reactor-threadpool-maxsize

источник

19:08пожаловаться #11

AR

Andrey Rahmatullin in Scrapy

ну так это не про скрейпинг, а дополнительное всякое

источник

19:08пожаловаться #12

B

Bulatbulat48 in Scrapy

Andrey Rahmatullin

ну так это не про скрейпинг, а дополнительное всякое

понял, спс.

источник

19:09пожаловаться #13

ᅠ

если имеются ввиду кол-во реквестов, то
https://github.com/scrapy/scrapy/blob/master/scrapy/settings/default_settings.py#L43

scrapy/scrapy

Scrapy, a fast high-level web crawling & scraping framework for Python. - scrapy/scrapy

у меня в функции parse выполняется еще реквест с либой geopy чтобы получить координаты адресса и limit=60 ms, но я смотрю по логам там как-будто несколько потоков сразу отправляют туда риквест и в итоге я ловлю блок. Думаю если я geopy вынесу в Pipeline, это решит проблему?

источник

20:02пожаловаться #14

AR

Andrey Rahmatullin in Scrapy

нет

источник

20:03пожаловаться #15

AR

Andrey Rahmatullin in Scrapy

я уже высказывал это соображение: нет разницы между асинхронными коллбэками и асинхронным process_item пайплайна

источник

20:04пожаловаться #16

AR

Andrey Rahmatullin in Scrapy

а вообще нет понятия несколько запросов сразу, есть понятие чаще чем N запросов за M времени, и тут уже неважно какая у спайдера архитектура

источник

20:05пожаловаться #17

ᅠ

Andrey Rahmatullin

а вообще нет понятия несколько запросов сразу, есть понятие чаще чем N запросов за M времени, и тут уже неважно какая у спайдера архитектура

так и в итоге, это фиксится?

источник

20:11пожаловаться #18

AR

Andrey Rahmatullin in Scrapy

так и в итоге, это фиксится?

я описания проблемы не видел, так что не знаю

источник

20:11пожаловаться #19

AR

Andrey Rahmatullin in Scrapy

если слишком часто делается запрос - ну какой-то семафор что ли юзать

источник

20:12пожаловаться #20