Size: a a a

2020 October 17

К

Кирилл in Scrapy
Там что-то стопорнулась разработка
источник

СТ

Семён Трояновский... in Scrapy
Sergey Sergey
Привет всем, кто парсит Авито! На днях (вроде вчера) парсер престал отрабатывать как должен (парсинг через апи). Теперь парсинг рабтает только если в куках есть такая строка. Кто знает, где она формируется и как? Или может есть другой вариант решения проблемы?
Слушай, у меня тоже в пятницу все валиться начало на авито. Пока не успел ещё толком подебажить, тем более что временами чот вроде работало, но если что на связи
источник

SS

Sergey Sergey in Scrapy
Семён Трояновский
Слушай, у меня тоже в пятницу все валиться начало на авито. Пока не успел ещё толком подебажить, тем более что временами чот вроде работало, но если что на связи
Найдешь причину, дай знать плиз.
источник

СТ

Семён Трояновский... in Scrapy
у тебя прям совсем все упало или раз через раз?
источник

СТ

Семён Трояновский... in Scrapy
и на каких проксях?
источник

AL

Alexey Lemeshevski in Scrapy
всем привет ) а существует ли такая библиотека, которая для элемента определяет короткий уникальный css-селектор или xpath?
источник

iz

iz zi in Scrapy
Alexey Lemeshevski
всем привет ) а существует ли такая библиотека, которая для элемента определяет короткий уникальный css-селектор или xpath?
голова и руки?)
источник

AL

Alexey Lemeshevski in Scrapy
xpath не виде //div[1]/div[21]/span[5], а //div[@id='asdf'] )
источник

AL

Alexey Lemeshevski in Scrapy
iz zi
голова и руки?)
тут задача немного другая ) я автоматически определяю нужные блоки на странице, но нужно запомнить путь до этих блоков ) если запоминать абсолютный путь - это плохая история, т.к. верстка может чуть отличаться от страницы к странице. Если запоминать только текущий класс - классы бывают не уникальные. Самое простое, что приходит в голову, примерный алгоритм:
- берем название класса
- проверяем, уникальный ли он
- если уникальный - оставляем
- если не уникальный - двигаемся вверх по дереву, пока не найдем первый уникальный в пределах страницы класс

и т.п. )

но, наверняка же кто-то это уже сделал и в виде библиотеки на github/pip выложил )
источник

AR

Andrey Rahmatullin in Scrapy
в этом в общем-то где-то 60% всей работы по скрейпингу
источник

AR

Andrey Rahmatullin in Scrapy
для простых сайтов все 90%
источник

AL

Alexey Lemeshevski in Scrapy
Andrey Rahmatullin
в этом в общем-то где-то 60% всей работы по скрейпингу
Андрей, задача в другом ) У меня есть алгоритм, который автоматически понимает, что, например, в таком-то div'е лежит цена товара (для интернет-магазина). Все, что мне нужно - это определить уникальный css-селектор этого div'а, чтобы на других страницах того же магазина, помимо применения автоматического правила, проверять расположение цены по уже известному пути :) ...просто запускать алгоритм автоматического разбора на каждой странице - накладно по вычислительным ресурсам.

Я понимаю, какой код мне нужно написать. Просто я думал, что это уже написано кем-то и выложено куда-нибудь )
источник

AR

Andrey Rahmatullin in Scrapy
"Я понимаю, какой код мне нужно написать" потому что либо понимание задачи неполное, либо юзкейс слишком частный
источник

AL

Alexey Lemeshevski in Scrapy
я же описал выше задачу ) в чем здесь неполное понимание задачи? )
источник

AR

Andrey Rahmatullin in Scrapy
в том, что кажется, что "определить уникальный css-селектор этого div'а" решаемо в общем случае
источник
2020 October 18

AL

Alexey Lemeshevski in Scrapy
да, я просто думал, что это достаточно частая задача и есть какой-нибудь простой getUniqCss(lxml etree.Element) , который делает примерно то, что я описал )
источник

AR

Andrey Rahmatullin in Scrapy
есть разница между "делает примерно то, что я описал" и "определить уникальный css-селектор этого div'а"🤷‍♂️
источник

AR

Andrey Rahmatullin in Scrapy
то что там в алгоритме про классы говорится вообще показывает очень маленький опыт в этом деле
источник

AL

Alexey Lemeshevski in Scrapy
Андрей, у вас задача оценить мой опыт, или помочь, или показать, что вы круче? )
источник

К

Кирилл in Scrapy
Alexey Lemeshevski
Андрей, у вас задача оценить мой опыт, или помочь, или показать, что вы круче? )
Все три варианта сразу)
источник