Size: a a a

2020 January 12

МС

Михаил Синегубов in Scrapy
у них английская локаль есть
я не разобрался с системой, времени не было, выглядит интересненько, не привязана к типу паука, это и хорошо и плохо. Грузить можно то угодно...
источник

МС

Михаил Синегубов in Scrapy
но у них, с того времени как я смотрел, уже штуки 3-4 релиза вышло. И, в т.ч. и с авторизацией что то поменяли (у меня с ней была проблема)
источник

Q

Qwelcer in Scrapy
Ребята посоветуйте хорошую книгу по скрапи (кроме оф.документации). Спасибо
источник

ЕJ

Евгений Jen in Scrapy
Yurii
А какая связь многопоточности и экономии дискового пространства. Я что-то не понял.
ну посыл был, скрапи быстрый поэтому стоит его изучать,
т.е. потому что скрапи экономит процессорное время - надо его юзать,
а по факту экономия на процессоре даст всего пару баксов (в случаи с парсингом)
и если еще не писал на скрапи - проще запилить многопоточный говнокод в 100-200 строк, и потратить оставшееся время на бизнес логику, на крайний случай на хранение данных (если их очень много)
т.е. в парсинге эффективность расходования процессора (асинхронность) дело 20е
поэтому аргумент "скрапи классно потому что быстрый потому что асинхронный" так себе
а вот если уже писал на скрапи - тоже так себе занятие на нем парсить, - понадобиться запускать свой спайдер через celery и все фиаско -
надо будет к своему DRF прикрутить - та же беда,
да есть scray-d scrapy-rt - но опять таки, вместо одной вьюхи, надо консилиум с сис админом куда бы там в кубы добавить контейнер че как связать шо бы оно работало
т.е. скраппи в основном нужен что бы направить клиентов на скрапи хаб

ну вот у меня такой опыт сложился работы с этой либой,
а холивар пошел с опытным scrapy кодером который запилил 1 пук однажды, и твердо утверждает что я чуш несу
источник

Y

Yurii in Scrapy
Евгений Jen
ну посыл был, скрапи быстрый поэтому стоит его изучать,
т.е. потому что скрапи экономит процессорное время - надо его юзать,
а по факту экономия на процессоре даст всего пару баксов (в случаи с парсингом)
и если еще не писал на скрапи - проще запилить многопоточный говнокод в 100-200 строк, и потратить оставшееся время на бизнес логику, на крайний случай на хранение данных (если их очень много)
т.е. в парсинге эффективность расходования процессора (асинхронность) дело 20е
поэтому аргумент "скрапи классно потому что быстрый потому что асинхронный" так себе
а вот если уже писал на скрапи - тоже так себе занятие на нем парсить, - понадобиться запускать свой спайдер через celery и все фиаско -
надо будет к своему DRF прикрутить - та же беда,
да есть scray-d scrapy-rt - но опять таки, вместо одной вьюхи, надо консилиум с сис админом куда бы там в кубы добавить контейнер че как связать шо бы оно работало
т.е. скраппи в основном нужен что бы направить клиентов на скрапи хаб

ну вот у меня такой опыт сложился работы с этой либой,
а холивар пошел с опытным scrapy кодером который запилил 1 пук однажды, и твердо утверждает что я чуш несу
А я думал скрапи это просто про спарсить данные. И не надо 100-200 строк говнокода. Как раз для фриланса лучше подойдет. И vps дешевенький можно пользовать.  А если лепить какие-то сайты тут уже явно речь не про 100-200 строк говнокода.
источник

МС

Михаил Синегубов in Scrapy
Евгений Jen
ну посыл был, скрапи быстрый поэтому стоит его изучать,
т.е. потому что скрапи экономит процессорное время - надо его юзать,
а по факту экономия на процессоре даст всего пару баксов (в случаи с парсингом)
и если еще не писал на скрапи - проще запилить многопоточный говнокод в 100-200 строк, и потратить оставшееся время на бизнес логику, на крайний случай на хранение данных (если их очень много)
т.е. в парсинге эффективность расходования процессора (асинхронность) дело 20е
поэтому аргумент "скрапи классно потому что быстрый потому что асинхронный" так себе
а вот если уже писал на скрапи - тоже так себе занятие на нем парсить, - понадобиться запускать свой спайдер через celery и все фиаско -
надо будет к своему DRF прикрутить - та же беда,
да есть scray-d scrapy-rt - но опять таки, вместо одной вьюхи, надо консилиум с сис админом куда бы там в кубы добавить контейнер че как связать шо бы оно работало
т.е. скраппи в основном нужен что бы направить клиентов на скрапи хаб

ну вот у меня такой опыт сложился работы с этой либой,
а холивар пошел с опытным scrapy кодером который запилил 1 пук однажды, и твердо утверждает что я чуш несу
там где ты напишешь 100-200 строк говнокода, я со скрапи напишу 50-100, и это будет не говнокод, а повторы при ошибках и прочие радости.
а вообще, хорош холивар разводить, не нравится - не ешь, а разводить срачь из-за того что "я такой весь из себя крутой хер с горы"....
источник

МС

Михаил Синегубов in Scrapy
и да, если ты так радуешся своему говнокоду, то мои соболезнования
источник

ЕJ

Евгений Jen in Scrapy
дык а кто холивар разводит
источник

ЕJ

Евгений Jen in Scrapy
никто себя пяткой в грудь не бъет что я крутой хацкер
источник

ЕJ

Евгений Jen in Scrapy
ну вот выше человек написал  - ему проще скрапи
источник

ЕJ

Евгений Jen in Scrapy
а дискусировать всегда хорошо
главное на личности не переходить, и не думать за других кому что нравиться
источник

Y

Yurii in Scrapy
Евгений Jen
ну вот выше человек написал  - ему проще скрапи
Так это не только про меня. Я хз что вы там террабайтами парсите и что за сервер стоит что пофиг на процессорное время. Еще вопрос оперативки не затронули. А так же в бан такая система скорее всего раньше полетит по ip
источник

МС

Михаил Синегубов in Scrapy
дискутировать - это когда диалог, а когда тебе говорят а ты уперто гнешь свою линию "патамушта", это уже не диалог
источник

AR

Andrey Rahmatullin in Scrapy
про обработку не-200 статусов отличное замечание кстати
источник

МС

Михаил Синегубов in Scrapy
Andrey Rahmatullin
про обработку не-200 статусов отличное замечание кстати
так там дохера чего, как я понял, ты этого не видишь ибо "а че, может быть по другому?" :)),
источник

AR

Andrey Rahmatullin in Scrapy
ну да
источник

M

Mikhail in Scrapy
Всем бодрого утра!
Сори за нубский вопрос, но уже несколько дней пытаюсь достать информацию (наименование товара-цена-картинка-ссылка) с ozona по одной из категорий (https://www.ozon.ru/category/nozhi-i-aksessuary-11463/), но результата нет:
class ExampleSpider(scrapy.Spider):
   name = 'price_ozon'
   allowed_domains = ['price_ozon']
   start_urls = ['https://www.ozon.ru/category/nozhi-i-aksessuary-11463/']

   def parse(self, response):
       for div in response.xpath('//div[@calss="a8p8.a8q6.a8q"]').getall(): #response.xpath('//div[@calss="a8p8.a8q6.a8q"]').getall(): response.css('div.b4z9'):
           link=div.xpath('//div[@calss="bn6.bn9"]').get()
           tittle = link.xpath('//span[@calss="bx7.by"]/text()').get()

           yield {
               'tittle': tittle,
           }
Подскажите пож-ста в чем ошибка, хотябы на примере Наименования, это мой первый "самостоятельный" парсинг :( Спасибо!!!
источник

МС

Михаил Синегубов in Scrapy
Mikhail
Всем бодрого утра!
Сори за нубский вопрос, но уже несколько дней пытаюсь достать информацию (наименование товара-цена-картинка-ссылка) с ozona по одной из категорий (https://www.ozon.ru/category/nozhi-i-aksessuary-11463/), но результата нет:
class ExampleSpider(scrapy.Spider):
   name = 'price_ozon'
   allowed_domains = ['price_ozon']
   start_urls = ['https://www.ozon.ru/category/nozhi-i-aksessuary-11463/']

   def parse(self, response):
       for div in response.xpath('//div[@calss="a8p8.a8q6.a8q"]').getall(): #response.xpath('//div[@calss="a8p8.a8q6.a8q"]').getall(): response.css('div.b4z9'):
           link=div.xpath('//div[@calss="bn6.bn9"]').get()
           tittle = link.xpath('//span[@calss="bx7.by"]/text()').get()

           yield {
               'tittle': tittle,
           }
Подскажите пож-ста в чем ошибка, хотябы на примере Наименования, это мой первый "самостоятельный" парсинг :( Спасибо!!!
тебе со страницы категории? или со страницы товара?
источник

AR

Andrey Rahmatullin in Scrapy
Mikhail
Всем бодрого утра!
Сори за нубский вопрос, но уже несколько дней пытаюсь достать информацию (наименование товара-цена-картинка-ссылка) с ozona по одной из категорий (https://www.ozon.ru/category/nozhi-i-aksessuary-11463/), но результата нет:
class ExampleSpider(scrapy.Spider):
   name = 'price_ozon'
   allowed_domains = ['price_ozon']
   start_urls = ['https://www.ozon.ru/category/nozhi-i-aksessuary-11463/']

   def parse(self, response):
       for div in response.xpath('//div[@calss="a8p8.a8q6.a8q"]').getall(): #response.xpath('//div[@calss="a8p8.a8q6.a8q"]').getall(): response.css('div.b4z9'):
           link=div.xpath('//div[@calss="bn6.bn9"]').get()
           tittle = link.xpath('//span[@calss="bx7.by"]/text()').get()

           yield {
               'tittle': tittle,
           }
Подскажите пож-ста в чем ошибка, хотябы на примере Наименования, это мой первый "самостоятельный" парсинг :( Спасибо!!!
calss опечатка
источник

AR

Andrey Rahmatullin in Scrapy
и "a8p8.a8q6.a8q" это цсс нотация, в xpath надо писать как написано в атрибуте
источник