Телеграмм чат группы scrapy

Переопредели метод _parse_sitemap, скопируй оттуда всё, потом добавь после после определения it = (на строке 53, если соурс читать), возьми рандомные числа и сделай слайс итератора из itertools.islice

ошибся, нужно после elif s.type == 'urlset':

источник

16:20пожаловаться #3

Elena V in Scrapy

from scrapy.spiders import SitemapSpider


class PingSitemapSpider(SitemapSpider):
    name = "ping_sitemaps"
    BASE_URL = 'https://some-domain'

    sitemap_urls = [BASE_URL + '/sitemap.xml', ]

    def parse(self, response):

        for _ in response.css('body'):
            item = dict()
            item['link'] = str(response.url)
            item['status_code'] = response.status
            item['download_latency'] = response.request.meta['download_latency']
            yield item

источник

16:20пожаловаться #4

Elena V in Scrapy

вот в такое я тулю. щас там все гениально просто, как видете. с этого нужно сделать сложнее 😊

источник

16:20пожаловаться #5

Elisei Badanin in Scrapy

добавляешь туда def sitemap_filter(self, entries):, в нем отдаешь рандомное кол-во ссылок, если это urlset

источник

16:22пожаловаться #6

Elisei Badanin in Scrapy

if entries.type == 'urlset’

добавляешь туда def sitemap_filter(self, entries):, в нем отдаешь рандомное кол-во ссылок, если это urlset

согласен

источник

16:22пожаловаться #8

Elisei Badanin in Scrapy

return random.choices(list(entries), k=123)

источник

16:23пожаловаться #9

Elena V in Scrapy

так. стоп. так лучше чисто фильтром? тогда растерялась.

источник

16:51пожаловаться #10

Elena V in Scrapy

Elisei Badanin

добавляешь туда def sitemap_filter(self, entries):, в нем отдаешь рандомное кол-во ссылок, если это urlset

куда? просто в спайдер. верно?

источник

16:52пожаловаться #11

Кирилл in Scrapy

да

источник

16:52пожаловаться #12

Elena V in Scrapy

Elisei Badanin

return random.choices(list(entries), k=123)

и куда это там? а тоя что-то намутила уже

источник

16:54пожаловаться #13

Elena V in Scrapy

Elena V

from scrapy.spiders import SitemapSpider


class PingSitemapSpider(SitemapSpider):
    name = "ping_sitemaps"
    BASE_URL = 'https://some-domain'

    sitemap_urls = [BASE_URL + '/sitemap.xml', ]

    def parse(self, response):

        for _ in response.css('body'):
            item = dict()
            item['link'] = str(response.url)
            item['status_code'] = response.status
            item['download_latency'] = response.request.meta['download_latency']
            yield item

from scrapy.spiders import SitemapSpider


class PingSitemapSpider(SitemapSpider):
    name = "ping_sitemaps"
    BASE_URL = 'https://some-domain'

    sitemap_urls = [BASE_URL + '/sitemap.xml', ]
    
    def sitemap_filter(self, entries):
         # и вот тут что-то происходит, что выплюнет уже ограниченное кол-во ссылок с каждого вложенного сайтмапа

    def parse(self, response):

        for _ in response.css('body'):
            item = dict()
            item['link'] = str(response.url)
            item['status_code'] = response.status
            item['download_latency'] = response.request.meta['download_latency']
            yield item

источник

16:56пожаловаться #14

Elisei Badanin in Scrapy

Elisei Badanin

if entries.type == 'urlset’

источник

17:03пожаловаться #15

Elisei Badanin in Scrapy

Elisei Badanin

return random.choices(list(entries), k=123)

источник

17:03пожаловаться #16

Alexander B in Scrapy

Боже в скрапи есть re_first метод это пушка🥳🥳

источник

17:51пожаловаться #17

Evgen in Scrapy

Добро пожаловать в 2017

источник

17:52пожаловаться #18

Alexander B in Scrapy

Ну ток начал че)

источник

17:52пожаловаться #19

Elena V in Scrapy

@ebadanin единственное, при чем оно хоть что-то выплюнуло:

def sitemap_filter(self, entries):
        for entry in entries:
            return random.choices(list(entries), k=3)

но выплюнуло капельку не то, что ожидала.
в других случаях "кручения" - слало меня нафиг

источник

17:54пожаловаться #20