Size: a a a

2020 October 07

iz

izzz zzi in Scrapy
в бд)
источник

Marat Мkhitаrуаn in Scrapy
Просто перебераю по айди, и когда перезапускаю нужно чтобы состояние сохранялось. В скрапи есть встроенный такой счетчик?
источник

AR

Andrey Rahmatullin in Scrapy
встроенный счётчик чего?
источник

Marat Мkhitаrуаn in Scrapy
айди, его просто инкрементю с 1 до n
источник

AR

Andrey Rahmatullin in Scrapy
нет, в скрапи такого конечно не встроено
источник

AR

Andrey Rahmatullin in Scrapy
источник

AL

Alexey Lemeshevski in Scrapy
Andrii
ну так тяну,а вот новЬІе урл стянуть очень сложно
1) А если гуглу говорить site: и inurl: (в Яндексе так называется этот параметр, в гугле может чуть иначе) в котором подставлять разделы/подразделы + использовать команды гуглу для разной сортировки

2) а как на сайте устроена навигация по этим 1,4млн страниц? Неужели только через поиск - по названию стартапа? Должно же быть что-то вроде "похожие" и т.п.? Или разные сочетания фильтров?

3) к site: , если через поиск гугла - можно добавлять и разные слова, тем самым получая разные наборы ответов. Слова - можете из меню взять ...или сделать словарь частот, хотя бы на основе заголовков спарсенных страниц. Но это странное решение) с трудом верится, что на сайте нет возможности собрать ссылки на все страницы
источник
2020 October 08

V

Victor in Scrapy
Как из html можно вытащить все теги как они есть с атрибутами и в список засунуть? Но не через регулярки...
источник

AR

Andrey Rahmatullin in Scrapy
Циклом по response.css('*')
источник

V

Victor in Scrapy
Он вытащит в таком виде <span class="blabla" title="lala"> или атрибуты в объект распарсит ?
источник

OS

Oleg Shleiko in Scrapy
Victor
Он вытащит в таком виде <span class="blabla" title="lala"> или атрибуты в объект распарсит ?
попробуй для начала
источник

AR

Andrey Rahmatullin in Scrapy
Victor
Он вытащит в таком виде <span class="blabla" title="lala"> или атрибуты в объект распарсит ?
Атрибуты в .attrib
источник

AR

Andrey Rahmatullin in Scrapy
Или где-то там
источник

AL

Alexey Lemeshevski in Scrapy
Victor
Он вытащит в таком виде <span class="blabla" title="lala"> или атрибуты в объект распарсит ?
В объект)
источник

V

Victor in Scrapy
Мне нужно чтобы сохранялось именно в таком виде <span class="blabla" title="lala"> ибо потом буду делать замены в тексте по этим тэгам. Если делать через регулярку вроде <[^<]*?>
источник

V

Victor in Scrapy
То кривая верстка или  тэг > в кавычках ломает все...
источник

V

Victor in Scrapy
Может есть какая либа что такое умеет делать?
источник

AL

Alexey Lemeshevski in Scrapy
лучше так:
<[^>]+?>
источник

AL

Alexey Lemeshevski in Scrapy
Victor
Мне нужно чтобы сохранялось именно в таком виде <span class="blabla" title="lala"> ибо потом буду делать замены в тексте по этим тэгам. Если делать через регулярку вроде <[^<]*?>
а не проще взять все в виде объектов, и обходя дерево, просто перебирать аттрибуты и менять, что нужно, рег. выражением?
источник

AL

Alexey Lemeshevski in Scrapy
или просто сразу взять тэги вот так: <[^>]+?>
источник