Телеграмм чат группы scrapy

но я пока не теряю надежды что мб как-то получится на нем сделать. иначе видимо придётся webassembly декомпилировать, искать где он этот гуид генерит 🤷‍♂

источник

18:47пожаловаться #8

2020 November 19

ЕJ

Евгений Jen in Scrapy

Bulatbulat48

на одном стриминговом сервисе получалось найти первую запись и последную и соеденив их в запросе (уже не помню как) - получить полную запись. Возможно тут тоже самое. Например ..ch/первая запись/вторая запись(ее поменять)/…

спасибо за отклик, нашел решение
1) DIM плагин качает mp2p (под windows)
2) расширение для хрома тоже парсит mp2p https://chrome.google.com/webstore/detail/stream-recorder-download/iogidnfllpdhagebkblkgbfijkbkjdmm/related

источник

00:07пожаловаться #9

Bulatbulat48 in Scrapy

ребят, ScrapingHub активно начал набирать людей, так что велкам(на правах рекламы 😅):
https://apply.workable.com/scrapinghub/?lng=en

Workable

Scrapinghub

Founded in 2010, Scrapinghub is a fast growing and diverse technology business turning web content into useful data with a cloud-based web crawling platform, off-the-shelf datasets, and turn-key web scraping services.We’re a globally distributed team o...

источник

09:21пожаловаться #10

Kuzma Le in Scrapy

Bulatbulat48

ребят, ScrapingHub активно начал набирать людей, так что велкам(на правах рекламы 😅):
https://apply.workable.com/scrapinghub/?lng=en

Workable

Scrapinghub

🍴 🙏

источник

09:22пожаловаться #11

Bulatbulat48 in Scrapy

Kuzma Le

🍴 🙏

там же как минимум 5 Remote вакансий, так что вилка может быть сильно разной. Это будет лучше с HR обсудить.

источник

09:25пожаловаться #12

AstralRomance in Scrapy

Есть у меня паук, он ходит по страницам сайта одного домена, все хорошо.
Выяснилось, что другой сайт с другим доменом такой же, как и тот, который я уже умею обходить. Сейчас все происходит примерно так:

def parse(self, response):
  <do smth>
  next_page = ''.join((<next_page_url>))
  return Request(next_page, callback=self.parse_next)

def parse_next(self, response):
  <do smth>
  yield smth

Собственно, как мне сделать развилку, которая также позволит собрать данные с главной, а потом проитерироваться по элементам другой страницы?

источник

20:12пожаловаться #13

Andrey Rahmatullin in Scrapy

зачем развилку?

источник

20:15пожаловаться #14

AstralRomance in Scrapy

Передать аргументом стартовый урл в паука?

источник

20:15пожаловаться #15

Andrey Rahmatullin in Scrapy

понятия не имею что ты вообще выше пытался сказать, но да

источник

20:16пожаловаться #16

AstralRomance in Scrapy

Почему я тут:

def __init__(self, conf_url='', *args, **kwargs):
        super(JpointSpider, self).__init__(*args, **kwargs)
        self.start_urls = [conf_url,]

ловлю ValueError: Missing scheme in request url: 2018.joker.com/en/ при выполнении.
Вызываю: scrapy crawl jpoint -a conf_url=2018.joker.com/en/

источник

21:28пожаловаться #17

МС

Михаил Синегубов... in Scrapy

 conf_url=2018.joker.com/en/

от вообще никаких мыслей?

источник

21:29пожаловаться #18

SoHard 🎄 in Scrapy

AstralRomance

Почему я тут:

def __init__(self, conf_url='', *args, **kwargs):
        super(JpointSpider, self).__init__(*args, **kwargs)
        self.start_urls = [conf_url,]

ловлю ValueError: Missing scheme in request url: 2018.joker.com/en/ при выполнении.
Вызываю: scrapy crawl jpoint -a conf_url=2018.joker.com/en/

Потому что это не url

источник

21:29пожаловаться #19

МС

Михаил Синегубов... in Scrapy

SoHard 🎄

Потому что это не url

ну вот, всю малину обломал :(

источник

21:29пожаловаться #20