Телеграмм чат группы scrapy_python страница 1053

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Scrapy

380 membersпожаловаться на группу

2020 January 12

МС

Михаил Синегубов in Scrapy

у них английская локаль есть
я не разобрался с системой, времени не было, выглядит интересненько, не привязана к типу паука, это и хорошо и плохо. Грузить можно то угодно...

источник

10:06пожаловаться #1

МС

Михаил Синегубов in Scrapy

но у них, с того времени как я смотрел, уже штуки 3-4 релиза вышло. И, в т.ч. и с авторизацией что то поменяли (у меня с ней была проблема)

источник

10:07пожаловаться #2

Q

Qwelcer in Scrapy

Ребята посоветуйте хорошую книгу по скрапи (кроме оф.документации). Спасибо

источник

10:53пожаловаться #3

ЕJ

Евгений Jen in Scrapy

Yurii

А какая связь многопоточности и экономии дискового пространства. Я что-то не понял.

ну посыл был, скрапи быстрый поэтому стоит его изучать,
т.е. потому что скрапи экономит процессорное время - надо его юзать,
а по факту экономия на процессоре даст всего пару баксов (в случаи с парсингом)
и если еще не писал на скрапи - проще запилить многопоточный говнокод в 100-200 строк, и потратить оставшееся время на бизнес логику, на крайний случай на хранение данных (если их очень много)
т.е. в парсинге эффективность расходования процессора (асинхронность) дело 20е
поэтому аргумент "скрапи классно потому что быстрый потому что асинхронный" так себе
а вот если уже писал на скрапи - тоже так себе занятие на нем парсить, - понадобиться запускать свой спайдер через celery и все фиаско -
надо будет к своему DRF прикрутить - та же беда,
да есть scray-d scrapy-rt - но опять таки, вместо одной вьюхи, надо консилиум с сис админом куда бы там в кубы добавить контейнер че как связать шо бы оно работало
т.е. скраппи в основном нужен что бы направить клиентов на скрапи хаб
—
ну вот у меня такой опыт сложился работы с этой либой,
а холивар пошел с опытным scrapy кодером который запилил 1 пук однажды, и твердо утверждает что я чуш несу

источник

10:55пожаловаться #4

Y

Yurii in Scrapy

Евгений Jen

ну посыл был, скрапи быстрый поэтому стоит его изучать,
т.е. потому что скрапи экономит процессорное время - надо его юзать,
а по факту экономия на процессоре даст всего пару баксов (в случаи с парсингом)
и если еще не писал на скрапи - проще запилить многопоточный говнокод в 100-200 строк, и потратить оставшееся время на бизнес логику, на крайний случай на хранение данных (если их очень много)
т.е. в парсинге эффективность расходования процессора (асинхронность) дело 20е
поэтому аргумент "скрапи классно потому что быстрый потому что асинхронный" так себе
а вот если уже писал на скрапи - тоже так себе занятие на нем парсить, - понадобиться запускать свой спайдер через celery и все фиаско -
надо будет к своему DRF прикрутить - та же беда,
да есть scray-d scrapy-rt - но опять таки, вместо одной вьюхи, надо консилиум с сис админом куда бы там в кубы добавить контейнер че как связать шо бы оно работало
т.е. скраппи в основном нужен что бы направить клиентов на скрапи хаб
—
ну вот у меня такой опыт сложился работы с этой либой,
а холивар пошел с опытным scrapy кодером который запилил 1 пук однажды, и твердо утверждает что я чуш несу

А я думал скрапи это просто про спарсить данные. И не надо 100-200 строк говнокода. Как раз для фриланса лучше подойдет. И vps дешевенький можно пользовать. А если лепить какие-то сайты тут уже явно речь не про 100-200 строк говнокода.

источник

11:04пожаловаться #5

МС

Михаил Синегубов in Scrapy

Евгений Jen

ну посыл был, скрапи быстрый поэтому стоит его изучать,
т.е. потому что скрапи экономит процессорное время - надо его юзать,
а по факту экономия на процессоре даст всего пару баксов (в случаи с парсингом)
и если еще не писал на скрапи - проще запилить многопоточный говнокод в 100-200 строк, и потратить оставшееся время на бизнес логику, на крайний случай на хранение данных (если их очень много)
т.е. в парсинге эффективность расходования процессора (асинхронность) дело 20е
поэтому аргумент "скрапи классно потому что быстрый потому что асинхронный" так себе
а вот если уже писал на скрапи - тоже так себе занятие на нем парсить, - понадобиться запускать свой спайдер через celery и все фиаско -
надо будет к своему DRF прикрутить - та же беда,
да есть scray-d scrapy-rt - но опять таки, вместо одной вьюхи, надо консилиум с сис админом куда бы там в кубы добавить контейнер че как связать шо бы оно работало
т.е. скраппи в основном нужен что бы направить клиентов на скрапи хаб
—
ну вот у меня такой опыт сложился работы с этой либой,
а холивар пошел с опытным scrapy кодером который запилил 1 пук однажды, и твердо утверждает что я чуш несу

там где ты напишешь 100-200 строк говнокода, я со скрапи напишу 50-100, и это будет не говнокод, а повторы при ошибках и прочие радости.
а вообще, хорош холивар разводить, не нравится - не ешь, а разводить срачь из-за того что "я такой весь из себя крутой хер с горы"....

источник

11:08пожаловаться #6

МС

Михаил Синегубов in Scrapy

и да, если ты так радуешся своему говнокоду, то мои соболезнования

источник

11:08пожаловаться #7

ЕJ

Евгений Jen in Scrapy

дык а кто холивар разводит

источник

11:08пожаловаться #8

ЕJ

Евгений Jen in Scrapy

никто себя пяткой в грудь не бъет что я крутой хацкер

источник

11:09пожаловаться #9

ЕJ

Евгений Jen in Scrapy

ну вот выше человек написал - ему проще скрапи

источник

11:09пожаловаться #10

ЕJ

Евгений Jen in Scrapy

а дискусировать всегда хорошо
главное на личности не переходить, и не думать за других кому что нравиться

источник

11:10пожаловаться #11

Y

Yurii in Scrapy

Евгений Jen

ну вот выше человек написал - ему проще скрапи

Так это не только про меня. Я хз что вы там террабайтами парсите и что за сервер стоит что пофиг на процессорное время. Еще вопрос оперативки не затронули. А так же в бан такая система скорее всего раньше полетит по ip

источник

11:11пожаловаться #12

МС

Михаил Синегубов in Scrapy

дискутировать - это когда диалог, а когда тебе говорят а ты уперто гнешь свою линию "патамушта", это уже не диалог

источник

11:12пожаловаться #13

AR

Andrey Rahmatullin in Scrapy

про обработку не-200 статусов отличное замечание кстати

источник

11:46пожаловаться #14

МС

Михаил Синегубов in Scrapy

Andrey Rahmatullin

про обработку не-200 статусов отличное замечание кстати

так там дохера чего, как я понял, ты этого не видишь ибо "а че, может быть по другому?" :)),

источник

12:03пожаловаться #15

AR

Andrey Rahmatullin in Scrapy

ну да

источник

12:03пожаловаться #16

M

Mikhail in Scrapy

Всем бодрого утра!
Сори за нубский вопрос, но уже несколько дней пытаюсь достать информацию (наименование товара-цена-картинка-ссылка) с ozona по одной из категорий (https://www.ozon.ru/category/nozhi-i-aksessuary-11463/), но результата нет:
class ExampleSpider(scrapy.Spider):
name = 'price_ozon'
allowed_domains = ['price_ozon']
start_urls = ['https://www.ozon.ru/category/nozhi-i-aksessuary-11463/']

def parse(self, response):
for div in response.xpath('//div[@calss="a8p8.a8q6.a8q"]').getall(): #response.xpath('//div[@calss="a8p8.a8q6.a8q"]').getall(): response.css('div.b4z9'):
link=div.xpath('//div[@calss="bn6.bn9"]').get()
tittle = link.xpath('//span[@calss="bx7.by"]/text()').get()

yield {
'tittle': tittle,
}
Подскажите пож-ста в чем ошибка, хотябы на примере Наименования, это мой первый "самостоятельный" парсинг :( Спасибо!!!

источник

12:03пожаловаться #17

МС

Михаил Синегубов in Scrapy

Mikhail

Всем бодрого утра!
Сори за нубский вопрос, но уже несколько дней пытаюсь достать информацию (наименование товара-цена-картинка-ссылка) с ozona по одной из категорий (https://www.ozon.ru/category/nozhi-i-aksessuary-11463/), но результата нет:
class ExampleSpider(scrapy.Spider):
name = 'price_ozon'
allowed_domains = ['price_ozon']
start_urls = ['https://www.ozon.ru/category/nozhi-i-aksessuary-11463/']

def parse(self, response):
for div in response.xpath('//div[@calss="a8p8.a8q6.a8q"]').getall(): #response.xpath('//div[@calss="a8p8.a8q6.a8q"]').getall(): response.css('div.b4z9'):
link=div.xpath('//div[@calss="bn6.bn9"]').get()
tittle = link.xpath('//span[@calss="bx7.by"]/text()').get()

yield {
'tittle': tittle,
}
Подскажите пож-ста в чем ошибка, хотябы на примере Наименования, это мой первый "самостоятельный" парсинг :( Спасибо!!!

тебе со страницы категории? или со страницы товара?

источник

12:04пожаловаться #18

AR

Andrey Rahmatullin in Scrapy

Mikhail

Всем бодрого утра!
Сори за нубский вопрос, но уже несколько дней пытаюсь достать информацию (наименование товара-цена-картинка-ссылка) с ozona по одной из категорий (https://www.ozon.ru/category/nozhi-i-aksessuary-11463/), но результата нет:
class ExampleSpider(scrapy.Spider):
name = 'price_ozon'
allowed_domains = ['price_ozon']
start_urls = ['https://www.ozon.ru/category/nozhi-i-aksessuary-11463/']

def parse(self, response):
for div in response.xpath('//div[@calss="a8p8.a8q6.a8q"]').getall(): #response.xpath('//div[@calss="a8p8.a8q6.a8q"]').getall(): response.css('div.b4z9'):
link=div.xpath('//div[@calss="bn6.bn9"]').get()
tittle = link.xpath('//span[@calss="bx7.by"]/text()').get()

yield {
'tittle': tittle,
}
Подскажите пож-ста в чем ошибка, хотябы на примере Наименования, это мой первый "самостоятельный" парсинг :( Спасибо!!!

calss опечатка

источник

12:05пожаловаться #19

AR

Andrey Rahmatullin in Scrapy

и "a8p8.a8q6.a8q" это цсс нотация, в xpath надо писать как написано в атрибуте

источник

12:06пожаловаться #20