Size: a a a

2019 November 07

КБ

Константин Белов in Scrapy
и как парсить так, чтобы парсил только ту инфу, где есть ключевое слово
источник

КБ

Константин Белов in Scrapy
?
источник

КБ

Константин Белов in Scrapy
типо регулярки использовать скрапи
источник

КБ

Константин Белов in Scrapy
?
источник

C

Cyberdine Engineering🐤 in Scrapy
Константин Белов
а где можно найти пример паука, который бы в реальном времени без остановки парсил..?
While true или стейтмашина
источник

C

Cyberdine Engineering🐤 in Scrapy
Константин Белов
и как парсить так, чтобы парсил только ту инфу, где есть ключевое слово
If 'ключевое слово' in data:
источник

C

Cyberdine Engineering🐤 in Scrapy
Главное чтоб data была строкой
источник

КБ

Константин Белов in Scrapy
я думала, если пишу -о то в файл записывает все, не совсем понятно куда ставить это условие if
источник

КБ

Константин Белов in Scrapy
мне понравился этот паук:
from scrapy.spiders import SitemapSpider

class AppleSpider(SitemapSpider):
   name = 'apple-spider'
   sitemap_urls = ['http://www.apple.com/sitemap.xml']

   def parse(self, response):
       yield {
           'title': response.css("title ::text").extract_first(),
           'url': response.url
       }
       # ...
https://blog.scrapinghub.com/2016/02/24/scrapy-tips-from-the-pros-february-2016-edition
источник

КБ

Константин Белов in Scrapy
и как найти путь к файлу sitemaps интересующего меня сайта?
источник

КБ

Константин Белов in Scrapy
например: https://www.drugs.com/
источник

МС

Михаил Синегубов in Scrapy
https://www.drugs.com/ -> https://www.drugs.com/robots.txt -> Sitemap: https://www.drugs.com/sitemap_index.xml.gz

я хз, умеет ли скрапи по таким сайтмапам ходить. Там внутри пачка ссылок на части сайтмапов. Это когда много страниц - делят на части
источник

МС

Михаил Синегубов in Scrapy
Константин Белов
мне понравился этот паук:
from scrapy.spiders import SitemapSpider

class AppleSpider(SitemapSpider):
   name = 'apple-spider'
   sitemap_urls = ['http://www.apple.com/sitemap.xml']

   def parse(self, response):
       yield {
           'title': response.css("title ::text").extract_first(),
           'url': response.url
       }
       # ...
https://blog.scrapinghub.com/2016/02/24/scrapy-tips-from-the-pros-february-2016-edition
а как оно должно " не все совать?", надо сделать примерно так:
def parse(self, response):
   if "чего то, что должно быть в тексте" in response.text:
       yield {
           'title': response.css("title ::text").extract_first(),
           'url': response.url
       }


это примерно.

И, блин, переименуйся уже, а то кажестя что пишет мальчик альтернативной ориентации...
источник

К

Кирилл in Scrapy
Михаил Синегубов
https://www.drugs.com/ -> https://www.drugs.com/robots.txt -> Sitemap: https://www.drugs.com/sitemap_index.xml.gz

я хз, умеет ли скрапи по таким сайтмапам ходить. Там внутри пачка ссылок на части сайтмапов. Это когда много страниц - делят на части
Вроде умеет
источник

КБ

Константин Белов in Scrapy
Отдам молодому человеку его аккаунт обратно и заведу себе свой аккаунт , ну только чуть позже, никак руки не доходят
источник

М

Мак in Scrapy
Народ, подскажите как в сплеше правильно хедеры передавать, а то при пагинации страницы перестают рендериться...
источник

МС

Михаил Синегубов in Scrapy
Мак
Народ, подскажите как в сплеше правильно хедеры передавать, а то при пагинации страницы перестают рендериться...
наиглупейший вопрос - а точно сплеш нужен?
источник

М

Мак in Scrapy
Если тут такие гуру, которые вопрос считают наиглупейшим - так непонятно как ты вообще время то находишь в своём плотном графике, между решениями задач вселенского масштаба, чтоб читать форумы с глупыми вопросами.
источник

К

Кирилл in Scrapy
Я думаю он имел ввиду свой вопрос, а не твой)
источник

М

Мак in Scrapy
А, прошу пардона... Вспылил по запарке
источник