Телеграмм чат группы scrapy_python страница 1109

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Scrapy

380 membersпожаловаться на группу

2020 January 28

AR

Andrey Rahmatullin in Scrapy

А какого рода ошибки и зачем отследить? Скрапи обычно ретраит их

источник

17:29пожаловаться #1

V

Viktor in Scrapy

ну не загрузил он к примеру с 3 попыток страницу с пагинацией, он же не будет туда до упора ломиться?)

источник

17:30пожаловаться #2

МС

Михаил Синегубов in Scrapy

Viktor

ну не загрузил он к примеру с 3 попыток страницу с пагинацией, он же не будет туда до упора ломиться?)

1. количество попыток можно менять
2. а надо ли их именно сохранять? обычно не может скачать если: нет страницы, сервак лег, косяк в парсере, забанили. Все эти причины тянут за собой уже изменение самого парсера....

источник

17:32пожаловаться #3

AR

Andrey Rahmatullin in Scrapy

Viktor

ну не загрузил он к примеру с 3 попыток страницу с пагинацией, он же не будет туда до упора ломиться?)

5 раз по дефолту (вроде)

источник

17:32пожаловаться #4

AR

Andrey Rahmatullin in Scrapy

а отследить постфактум можно в логе

источник

17:33пожаловаться #5

V

Viktor in Scrapy

а допаршиваете сайт как? чтобы он по удачно сохраненным ссылкам не бегал больше?

источник

17:34пожаловаться #6

AR

Andrey Rahmatullin in Scrapy

от задачи зависит

источник

17:35пожаловаться #7

AR

Andrey Rahmatullin in Scrapy

зачем его нужно допарсивать?

источник

17:35пожаловаться #8

V

Viktor in Scrapy

ну прошла неделя, месяц, появился новый контент

источник

17:37пожаловаться #9

МС

Михаил Синегубов in Scrapy

Viktor

ну прошла неделя, месяц, появился новый контент

юзать что то вроде этого
https://github.com/scrapy-plugins/scrapy-deltafetch

scrapy-plugins/scrapy-deltafetch

Scrapy spider middleware to ignore requests to pages containing items seen in previous crawls - scrapy-plugins/scrapy-deltafetch

источник

17:38пожаловаться #10

AR

Andrey Rahmatullin in Scrapy

и типа новые продукты надо парсить, а старые не надо?

источник

17:38пожаловаться #11

V

Viktor in Scrapy

да, старые уже не нужны, только новые

источник

17:38пожаловаться #12

V

Viktor in Scrapy

к ид не привязаться

источник

17:38пожаловаться #13

AR

Andrey Rahmatullin in Scrapy

ну тогда вон то, точнее есть замена получше

источник

17:38пожаловаться #14

AR

Andrey Rahmatullin in Scrapy

а к урлу привязаться?

источник

17:38пожаловаться #15

МС

Михаил Синегубов in Scrapy

Andrey Rahmatullin

ну тогда вон то, точнее есть замена получше

ну, это была первая ссыль в гугле 😂
я просто не помню название второй либы

источник

17:39пожаловаться #16

V

Viktor in Scrapy

о спасибо, похоже это то что надо)

источник

17:40пожаловаться #17

МС

Михаил Синегубов in Scrapy

Viktor

о спасибо, похоже это то что надо)

ты погугли, есть какая то еще либа, может эта и "не торт" окажется

источник

17:40пожаловаться #18

AR

Andrey Rahmatullin in Scrapy

https://github.com/TeamHG-Memex/scrapy-crawl-once

TeamHG-Memex/scrapy-crawl-once

Scrapy middleware which allows to crawl only new content - TeamHG-Memex/scrapy-crawl-once

источник

17:40пожаловаться #19

V

Viktor in Scrapy

а есть кто парсит большие объемы? где итемсов набирается по 50 штук. каждую страницу в отдельный json парсить это рационально?

источник

17:42пожаловаться #20