Телеграмм чат группы scrapy

мне понравился этот паук:
from scrapy.spiders import SitemapSpider

class AppleSpider(SitemapSpider):
name = 'apple-spider'
sitemap_urls = ['http://www.apple.com/sitemap.xml']

def parse(self, response):
yield {
'title': response.css("title ::text").extract_first(),
'url': response.url
}
# ...
https://blog.scrapinghub.com/2016/02/24/scrapy-tips-from-the-pros-february-2016-edition

Scrapinghub

Scrapy Tips from the Pros: February 2016 Edition

источник

06:39пожаловаться #9

КБ

Константин Белов in Scrapy

и как найти путь к файлу sitemaps интересующего меня сайта?

источник

06:51пожаловаться #10

КБ

Константин Белов in Scrapy

например: https://www.drugs.com/

источник

06:51пожаловаться #11

МС

Михаил Синегубов in Scrapy

Константин Белов

например: https://www.drugs.com/

https://www.drugs.com/ -> https://www.drugs.com/robots.txt -> Sitemap: https://www.drugs.com/sitemap_index.xml.gz

я хз, умеет ли скрапи по таким сайтмапам ходить. Там внутри пачка ссылок на части сайтмапов. Это когда много страниц - делят на части

источник

08:40пожаловаться #12

МС

Михаил Синегубов in Scrapy

Константин Белов

мне понравился этот паук:
from scrapy.spiders import SitemapSpider

class AppleSpider(SitemapSpider):
name = 'apple-spider'
sitemap_urls = ['http://www.apple.com/sitemap.xml']

def parse(self, response):
yield {
'title': response.css("title ::text").extract_first(),
'url': response.url
}
# ...
https://blog.scrapinghub.com/2016/02/24/scrapy-tips-from-the-pros-february-2016-edition

Scrapinghub

Scrapy Tips from the Pros: February 2016 Edition

а как оно должно " не все совать?", надо сделать примерно так:

def parse(self, response):
    if "чего то, что должно быть в тексте" in response.text:
        yield {
            'title': response.css("title ::text").extract_first(),
            'url': response.url
        }

это примерно.

И, блин, переименуйся уже, а то кажестя что пишет мальчик альтернативной ориентации...

источник

08:43пожаловаться #13

К

Кирилл in Scrapy

Михаил Синегубов

https://www.drugs.com/ -> https://www.drugs.com/robots.txt -> Sitemap: https://www.drugs.com/sitemap_index.xml.gz

я хз, умеет ли скрапи по таким сайтмапам ходить. Там внутри пачка ссылок на части сайтмапов. Это когда много страниц - делят на части

Вроде умеет

источник

10:22пожаловаться #14

КБ

Константин Белов in Scrapy

Отдам молодому человеку его аккаунт обратно и заведу себе свой аккаунт , ну только чуть позже, никак руки не доходят

источник

12:48пожаловаться #15

М

Мак in Scrapy

Народ, подскажите как в сплеше правильно хедеры передавать, а то при пагинации страницы перестают рендериться...

источник

13:55пожаловаться #16

МС

Михаил Синегубов in Scrapy

Мак

Народ, подскажите как в сплеше правильно хедеры передавать, а то при пагинации страницы перестают рендериться...

наиглупейший вопрос - а точно сплеш нужен?

источник

15:35пожаловаться #17

М

Мак in Scrapy

Если тут такие гуру, которые вопрос считают наиглупейшим - так непонятно как ты вообще время то находишь в своём плотном графике, между решениями задач вселенского масштаба, чтоб читать форумы с глупыми вопросами.

источник

15:41пожаловаться #18

К

Кирилл in Scrapy

Я думаю он имел ввиду свой вопрос, а не твой)

источник

15:42пожаловаться #19

М

Мак in Scrapy

А, прошу пардона... Вспылил по запарке

источник

15:43пожаловаться #20