Size: a a a

2020 November 18

СТ

Семён Трояновский... in Scrapy
Andrey Rahmatullin
поиск там обычным XHR, никакого селениума поди не надо
там в куках есть строка "webasm" с гуидом и без нее никак
источник

AR

Andrey Rahmatullin in Scrapy
а
источник

СТ

Семён Трояновский... in Scrapy
если её получить то все ок и на простых реквестах работает
источник

СТ

Семён Трояновский... in Scrapy
проблема в том что я не могу её получить
источник

СТ

Семён Трояновский... in Scrapy
кроме как ручками из браузера
источник

S

SoHard 🎄 in Scrapy
Семён Трояновский
кроме как ручками из браузера
а получить в селениуме и пихнуть в реквесты не выходит?
источник

СТ

Семён Трояновский... in Scrapy
SoHard 🎄
а получить в селениуме и пихнуть в реквесты не выходит?
чот не получается, такое ощущение что селениум webassembly не процессит
источник

СТ

Семён Трояновский... in Scrapy
но я пока не теряю надежды что мб как-то получится на нем сделать. иначе видимо придётся webassembly декомпилировать, искать где он этот гуид генерит 🤷‍♂
источник
2020 November 19

ЕJ

Евгений Jen in Scrapy
Bulatbulat48
на одном стриминговом сервисе получалось найти первую запись и последную и соеденив их в запросе (уже не помню как) - получить полную запись. Возможно тут тоже самое. Например ..ch/первая запись/вторая запись(ее поменять)/…
спасибо за отклик, нашел решение
1) DIM плагин качает mp2p (под windows)
2) расширение для хрома тоже парсит mp2p https://chrome.google.com/webstore/detail/stream-recorder-download/iogidnfllpdhagebkblkgbfijkbkjdmm/related
источник

B

Bulatbulat48 in Scrapy
ребят, ScrapingHub активно начал набирать людей, так что велкам(на правах рекламы 😅):
https://apply.workable.com/scrapinghub/?lng=en
источник

KL

Kuzma Le in Scrapy
🍴 🙏
источник

B

Bulatbulat48 in Scrapy
Kuzma Le
🍴 🙏
там же как минимум 5 Remote вакансий, так что вилка может быть сильно разной. Это будет лучше с HR обсудить.
источник

A

AstralRomance in Scrapy
Есть у меня паук, он ходит по страницам сайта одного домена, все хорошо.
Выяснилось, что другой сайт с другим доменом такой же, как и тот, который я уже умею обходить. Сейчас все происходит примерно так:
def parse(self, response):
 <do smth>
 next_page = ''.join((<next_page_url>))
 return Request(next_page, callback=self.parse_next)

def parse_next(self, response):
 <do smth>
 yield smth

Собственно, как мне сделать развилку, которая также позволит собрать данные с главной, а потом проитерироваться по элементам другой страницы?
источник

AR

Andrey Rahmatullin in Scrapy
зачем развилку?
источник

A

AstralRomance in Scrapy
Передать аргументом стартовый урл в паука?
источник

AR

Andrey Rahmatullin in Scrapy
понятия не имею что ты вообще выше пытался сказать, но да
источник

A

AstralRomance in Scrapy
Почему я тут:
def __init__(self, conf_url='', *args, **kwargs):
       super(JpointSpider, self).__init__(*args, **kwargs)
       self.start_urls = [conf_url,]
ловлю ValueError: Missing scheme in request url: 2018.joker.com/en/ при выполнении.
Вызываю: scrapy crawl jpoint -a conf_url=2018.joker.com/en/
источник

МС

Михаил Синегубов... in Scrapy
 conf_url=2018.joker.com/en/ 

от вообще никаких мыслей?
источник

S

SoHard 🎄 in Scrapy
AstralRomance
Почему я тут:
def __init__(self, conf_url='', *args, **kwargs):
       super(JpointSpider, self).__init__(*args, **kwargs)
       self.start_urls = [conf_url,]
ловлю ValueError: Missing scheme in request url: 2018.joker.com/en/ при выполнении.
Вызываю: scrapy crawl jpoint -a conf_url=2018.joker.com/en/
Потому что это не url
источник

МС

Михаил Синегубов... in Scrapy
SoHard 🎄
Потому что это не url
ну вот, всю малину обломал :(
источник