К
Size: a a a
EB
EV
from scrapy.spiders import SitemapSpider
class PingSitemapSpider(SitemapSpider):
name = "ping_sitemaps"
BASE_URL = 'https://some-domain'
sitemap_urls = [BASE_URL + '/sitemap.xml', ]
def parse(self, response):
for _ in response.css('body'):
item = dict()
item['link'] = str(response.url)
item['status_code'] = response.status
item['download_latency'] = response.request.meta['download_latency']
yield item
EB
def sitemap_filter(self, entries):
, в нем отдаешь рандомное кол-во ссылок, если это urlsetEB
if entries.type == 'urlset’
К
def sitemap_filter(self, entries):
, в нем отдаешь рандомное кол-во ссылок, если это urlsetEB
random.choices(list
(entries), k=
123)
EV
def sitemap_filter(self, entries):
, в нем отдаешь рандомное кол-во ссылок, если это urlsetEV
random.choices(list
(entries), k=
123)
EV
from scrapy.spiders import SitemapSpider
class PingSitemapSpider(SitemapSpider):
name = "ping_sitemaps"
BASE_URL = 'https://some-domain'
sitemap_urls = [BASE_URL + '/sitemap.xml', ]
def parse(self, response):
for _ in response.css('body'):
item = dict()
item['link'] = str(response.url)
item['status_code'] = response.status
item['download_latency'] = response.request.meta['download_latency']
yield item
from scrapy.spiders import SitemapSpider
class PingSitemapSpider(SitemapSpider):
name = "ping_sitemaps"
BASE_URL = 'https://some-domain'
sitemap_urls = [BASE_URL + '/sitemap.xml', ]
def sitemap_filter(self, entries):
# и вот тут что-то происходит, что выплюнет уже ограниченное кол-во ссылок с каждого вложенного сайтмапа
def parse(self, response):
for _ in response.css('body'):
item = dict()
item['link'] = str(response.url)
item['status_code'] = response.status
item['download_latency'] = response.request.meta['download_latency']
yield item
EB
if entries.type == 'urlset’
EB
random.choices(list
(entries), k=
123)
AB
AB