Телеграмм чат группы scrapy_python страница 1944

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Scrapy

607 membersпожаловаться на группу

2020 August 27

К

Кирилл in Scrapy

господа, добый день! хочу понять, правильно ли я действую.

суть такая:
задача №1. нужно краулить все страницы на сайте и на них вытаскивать внешние ссылки (ну то есть те, которые не совпадают с доменом пациента).

задача №2. заходить на внешние ссылки и парсить определенные данные.

в целом, задачи примитивные до безобразия, но я пока не понял как правильно работать со скрапи.

я застопорился на первой задаче. поскольку скрапи я буду запускать по требованию сервера, то запускаю паука через CrawlerProcess, а не через CLI. краулер ходит по всем внутренним ссылкам и в коллбэке правила метод parse выдергивает все внешние ссылки. вроде все ок, но я не знаю как быть дальше))

в моем представлении, окончание работы краулера должно сопровождаться итоговым объектом, с которым я могу продолжить работать в скрипте. но, как я понял, дефолтная логика скрапи другая, то есть он делает экспорт файл с объектами, верно?

в общем, как я понял, для первой задачи мне надо сделать следующее:
1. создавать item каждой страницы в методе parse
2. в pipeline вызывать process_item под каждый item, и в этом process_item делать запись в бд

а во второй задаче уже делать селект в базе, удалять дубликаты и действовать по той же логике, что и в абзаце выше, чтобы сохранить результаты парсинга в бд.

логично или не совсем?) что бы вы поменяли, обладая опытом работы со скрапи

Вроде более менее норм, только лучше не удалять дубликаты, а не делать их. Ну и похоже тебе нужен scrapyd с его API для удобного запуска парсинга

источник

17:39пожаловаться #1

S

Spirit💎 in Scrapy

Вроде более менее норм, только лучше не удалять дубликаты, а не делать их. Ну и похоже тебе нужен scrapyd с его API для удобного запуска парсинга

спасибо! но с дубликатами там выходит обязательное условие, например:
страница 1 ссылается на A, B, C
страница 2 ссылается на B, X, Y
их придется хранить, но в целях экономии ресурсов при задаче 2 чистить дубликаты, чтоб на вход приходили A, B, C, X, Y

и по scrapyd, его же возможно с джанговской ORM подружить?

источник

17:43пожаловаться #2

SS

Stepan Smirnov in Scrapy

спасибо! но с дубликатами там выходит обязательное условие, например:
страница 1 ссылается на A, B, C
страница 2 ссылается на B, X, Y
их придется хранить, но в целях экономии ресурсов при задаче 2 чистить дубликаты, чтоб на вход приходили A, B, C, X, Y

и по scrapyd, его же возможно с джанговской ORM подружить?

у скрапи есть duplicate_filter

источник

17:45пожаловаться #3

К

Кирилл in Scrapy

спасибо! но с дубликатами там выходит обязательное условие, например:
страница 1 ссылается на A, B, C
страница 2 ссылается на B, X, Y
их придется хранить, но в целях экономии ресурсов при задаче 2 чистить дубликаты, чтоб на вход приходили A, B, C, X, Y

и по scrapyd, его же возможно с джанговской ORM подружить?

Тебе нужно получить все ссылки, или сохранить что на что ссылается?

источник

17:46пожаловаться #4

S

Spirit💎 in Scrapy

Тебе нужно получить все ссылки, или сохранить что на что ссылается?

второе важно, да. там в конечном итоге сервис отчеты будет делать по ним)

источник

17:47пожаловаться #5

К

Кирилл in Scrapy

спасибо! но с дубликатами там выходит обязательное условие, например:
страница 1 ссылается на A, B, C
страница 2 ссылается на B, X, Y
их придется хранить, но в целях экономии ресурсов при задаче 2 чистить дубликаты, чтоб на вход приходили A, B, C, X, Y

и по scrapyd, его же возможно с джанговской ORM подружить?

scrapyd это демон с http API которые запускает у себя пауков, его не нужно дружить с ORM, только с какими-то реквестами, чтоб отправлять ему задачи

источник

17:48пожаловаться #6

К

Кирилл in Scrapy

а ORM можешь как обычно в экспортерах делать или в пайплайне

источник

17:49пожаловаться #7

S

Spirit💎 in Scrapy

а ORM можешь как обычно в экспортерах делать или в пайплайне

ну я пайплайн имел в виду, да

источник

17:49пожаловаться #8

К

Кирилл in Scrapy

Ну, как-то можно)

источник

17:50пожаловаться #9

К

Кирилл in Scrapy

Поищи, я видел где-то статьи на медиуме, там скрещивали джанго с скрапи

источник

17:50пожаловаться #10

AR

Andrey Rahmatullin in Scrapy

есть scrapy-djangoitem официальный

источник

17:54пожаловаться #11

AR

Andrey Rahmatullin in Scrapy

старый правда

источник

17:54пожаловаться #12

A

Andrii in Scrapy

с чем может быть связано: с виндовс запускаю реквест с ротацией прокси - пробивается с 1-5 раза. Запускаю то самое на авс - со 100 раза пробивается (сайт защищен от ботов)

источник

21:51пожаловаться #13

МС

Михаил Синегубов... in Scrapy

прокси точно аноним?

источник

22:23пожаловаться #14

A

Andrii in Scrapy

Михаил Синегубов

прокси точно аноним?

300шт, те же прокси на виндовс ок работает, на авс нет

источник

22:23пожаловаться #15

A

Andrii in Scrapy

Думаю он в хедере еще что-то передает

источник

22:24пожаловаться #16

A

Andrii in Scrapy

Про ос

источник

22:24пожаловаться #17

МС

Михаил Синегубов... in Scrapy

это не ответ на мой вопрос :).
сайт может палить что ты с АВС работаешь, если прокся кривая. Ну и не забывай о TTL, по нему могут систему палить, если параноики

источник

22:25пожаловаться #18

A

Andrii in Scrapy

источник

22:26пожаловаться #19

A

Andrii in Scrapy

Михаил Синегубов

это не ответ на мой вопрос :).
сайт может палить что ты с АВС работаешь, если прокся кривая. Ну и не забывай о TTL, по нему могут систему палить, если параноики

Anonymous Proxy

Unlike legacy proxy providers, Webshare proxy servers are optimized to prevent detection techniques like DNS leak, header leak and open port scans.

Маркетинг он такой 😂

источник

22:27пожаловаться #20