Size: a a a

2020 September 21

D

Dr. Bot in Scrapy
ребят, по какому атрибуту вы делаете проверку на наличие новых "записей" (постов, товаров) ? по ссылке ?
источник

D

Dr. Bot in Scrapy
ну да
источник

К

Кирилл in Scrapy
Сверяй) в чем вопрос
источник

D

Dr. Bot in Scrapy
мне интересно что надежнее. в процентном соотношении. иногда урл меняется. а пост нет. интересно что надежнее по "заголовку" или по "ссылки на страницу"
источник

SS

Stepan Smirnov in Scrapy
Andrei Volkau
Коллеги, посдкажите пожалуйста: насколько сложен скарпинг продуктов с Амазона?

Я знаю, что скарпинг linkedin вызывает усмешку (почти невозможен).

А как обстоят дела со скрапингом продуктов с Amazon?

Понятно что будут нужны прокси, но я слышал про случайным образом возращаемую разметку как anti-scraping меру. Звучит неприятно.
достаточно использовать неспаленные прокси + поставить базовый UA. На куки, чистку url можно забить
источник

iz

izzz zzi in Scrapy
Dr. Bot
ребят, по какому атрибуту вы делаете проверку на наличие новых "записей" (постов, товаров) ? по ссылке ?
кеш включи, старые будут по кешем
источник

iz

izzz zzi in Scrapy
смотря какой периуд конечно тебе нужен
источник

D

Dr. Bot in Scrapy
так вот этого не бывает. рано или поздно что-то да изменится. пост/товар останется старый. а заголовок или ссылка на товар/статью изменится. мне интересно какой вариант надежнее
источник

iz

izzz zzi in Scrapy
Dr. Bot
так вот этого не бывает. рано или поздно что-то да изменится. пост/товар останется старый. а заголовок или ссылка на товар/статью изменится. мне интересно какой вариант надежнее
ну у товара есть же id
источник

D

Dr. Bot in Scrapy
5 разных сайтов в день. должна же быть какая та статистика. вот вы все по какому критерию делаете?
источник

iz

izzz zzi in Scrapy
Dr. Bot
5 разных сайтов в день. должна же быть какая та статистика. вот вы все по какому критерию делаете?
в базу и по нескольким параметрам проверять
источник

D

Dr. Bot in Scrapy
я всегда делал по урл. но вот недавно столкнулся с сайтом де 5 дублей некоторых постов было. и в урл было /page-slug-2/ /page-slug-3/ /page-slug-4/
источник

D

Dr. Bot in Scrapy
как я понял универсального решения нет
источник

МС

Михаил Синегубов... in Scrapy
Dr. Bot
5 разных сайтов в день. должна же быть какая та статистика. вот вы все по какому критерию делаете?
ты не думаешь, что сейчас пытаешься доказать теорему о сферическом коне в вакууме? 😂
что у каждого уникальное, по тому и фильтруем. На одном сайте это артикул, на втором - название, на третем ссылка
источник

МС

Михаил Синегубов... in Scrapy
может быть кусок URL, на этот вопрос (признак уникальности) только ты можешь ответить
источник

D

Dr. Bot in Scrapy
Михаил Синегубов
ты не думаешь, что сейчас пытаешься доказать теорему о сферическом коне в вакууме? 😂
что у каждого уникальное, по тому и фильтруем. На одном сайте это артикул, на втором - название, на третем ссылка
ну да. я это. и хотел услышать. что не парься и делай под каждый по разному ) то просто перфекционист и лентяй внутри хотел капельку волшебства 🙂
источник

МС

Михаил Синегубов... in Scrapy
Dr. Bot
ну да. я это. и хотел услышать. что не парься и делай под каждый по разному ) то просто перфекционист и лентяй внутри хотел капельку волшебства 🙂
на, ну, тогда тебе ответ "парься, универсального ответа быть не может" 🙃
источник

А

Андрей in Scrapy
scrapy.Request(url, callback=self.parse_reviews)

def parse_reviews(self, response):
источник

А

Андрей in Scrapy
какая то функция
a = {city : link}
scrapy.Request(url, callback=self.parse_reviews)


def parse_reviews(self, response):

Вопрос, как передать переменную а в следующую функцию?
источник

А

Андрей in Scrapy
или любое другое значение
источник