Size: a a a

2020 August 27

r

r4khic in Scrapy
маркер?
источник

МС

Михаил Синегубов... in Scrapy
Ну, признак что технология работает на странице😁
источник

r

r4khic in Scrapy
а ну это да
источник

МС

Михаил Синегубов... in Scrapy
Ну, а вопрос то в чем?
источник

r

r4khic in Scrapy
да вопрос в том что
источник

r

r4khic in Scrapy
просто поинтересовался
источник

r

r4khic in Scrapy
может кто сталкивался с amp мб уже есть готовые решения
источник

r

r4khic in Scrapy
чтобы заново колесо не изобретать
источник

МС

Михаил Синегубов... in Scrapy
Вряд ли. Задача узкая.
источник

r

r4khic in Scrapy
попытка не пытка )
как говорится)
источник

✏d

✏️ Oleksandr dntPani... in Scrapy
А никто не подскажет, чего такое в сетингах прописать , чтоб не сильно долго парсило, но и не сильно часто банило )
источник

A

Andrii in Scrapy
Смотря от чего бан
источник

✏d

✏️ Oleksandr dntPani... in Scrapy
ну ту мени реквест, например
источник

A

Andrii in Scrapy
✏️ Oleksandr dntPanix |Worm|
ну ту мени реквест, например
С одного айпи? Купи айпишок пачку
источник

✏d

✏️ Oleksandr dntPani... in Scrapy
это есть
источник

A

Andrii in Scrapy
Сколько?
источник

A

Andrii in Scrapy
Рандом ротейтинг?
источник

A

Andrii in Scrapy
Юа тож прикрути штук 1000
источник

A

Andrii in Scrapy
вообще философия скрепингу - это сбор данных так, чтобы не повредить работе сервера.  Поэтому нужно с уважением относиться к этому
источник

S

Spirit💎 in Scrapy
господа, добый день! хочу понять, правильно ли я действую.

суть такая:
задача №1. нужно краулить все страницы на сайте и на них вытаскивать внешние ссылки (ну то есть те, которые не совпадают с доменом пациента).

задача №2. заходить на внешние ссылки и парсить определенные данные.

в целом, задачи примитивные до безобразия, но я пока не понял как правильно работать со скрапи.

я застопорился на первой задаче. поскольку скрапи я буду запускать по требованию сервера, то запускаю паука через CrawlerProcess, а не через CLI. краулер ходит по всем внутренним ссылкам и в коллбэке правила метод parse выдергивает все внешние ссылки. вроде все ок, но я не знаю как быть дальше))

в моем представлении, окончание работы краулера должно сопровождаться итоговым объектом, с которым я могу продолжить работать в скрипте. но, как я понял, дефолтная логика скрапи другая, то есть он делает экспорт файл с объектами, верно?

в общем, как я понял, для первой задачи мне надо сделать следующее:
1. создавать item каждой страницы в методе parse
2. в pipeline вызывать process_item под каждый item, и в этом process_item делать запись в бд

а во второй задаче уже делать селект в базе, удалять дубликаты и действовать по той же логике, что и в абзаце выше, чтобы сохранить результаты парсинга в бд.

логично или не совсем?) что бы вы поменяли, обладая опытом работы со скрапи
источник