Size: a a a

2019 November 25

К

Кирилл in Scrapy
Возьми докер с селениумом,  вообще проблем не будет с версиями
источник
2019 November 26

ОС

Олександр Супрун in Scrapy
А можно как-то в регулярное выражение вписать запрос в селениум?
источник

ОС

Олександр Супрун in Scrapy
myaccount-button-icon, что бы такой класс находило по слову account?
источник

i

ildar in Scrapy
ты спрашиваешь вопрос со стековерфлоу, находящийся по 3й ссылке в гугле. я верю я тебя)
источник

JW

John Wayne in Scrapy
Подскажите, открываю сайт скрепи+селениум, как обойти когда сайт меняет ссылку на страницу заменяя часть адреса на :  ?_escaped_fragment_= и там уже нет нужного js контента. Какая то защита, это обходится?
источник

B

Bulatbulat48 in Scrapy
John Wayne
Подскажите, открываю сайт скрепи+селениум, как обойти когда сайт меняет ссылку на страницу заменяя часть адреса на :  ?_escaped_fragment_= и там уже нет нужного js контента. Какая то защита, это обходится?
это хук аяксовский, для индексирования сайтов
источник

JW

John Wayne in Scrapy
Bulatbulat48
это хук аяксовский, для индексирования сайтов
а это можно обойти? как попасть на нужный сайт?
источник

B

Bulatbulat48 in Scrapy
John Wayne
а это можно обойти? как попасть на нужный сайт?
это не нужно обходить, просто вмемто !# подставляется. У гугла и яндекса есть статьи, но этот хук использовался лет 5-7 назад. https://yandex.ru/support/webmaster/robot-workings/ajax-indexing.html
источник

JW

John Wayne in Scrapy
Bulatbulat48
это не нужно обходить, просто вмемто !# подставляется. У гугла и яндекса есть статьи, но этот хук использовался лет 5-7 назад. https://yandex.ru/support/webmaster/robot-workings/ajax-indexing.html
кстати да у сайта /!#/в адресе
источник

B

Bulatbulat48 in Scrapy
все что идет после хеша, рендерится на фронте. Поэтому и сделали такое. (гугл не рендерил js)
источник

JW

John Wayne in Scrapy
Bulatbulat48
все что идет после хеша, рендерится на фронте. Поэтому и сделали такое. (гугл не рендерил js)
Окей, а как спарсить то такую страницу, нужно менять #! на что то? если удалить то 404
источник

B

Bulatbulat48 in Scrapy
какой сейчас урл?
источник

JW

John Wayne in Scrapy
Bulatbulat48
какой сейчас урл?
источник

B

Bulatbulat48 in Scrapy
это один и тот же урл должен быть
источник

B

Bulatbulat48 in Scrapy
ttps://www.fonbet.ru/?_escaped_fragment_=/live/football - а это представление для поисковых систем, первого урла
источник

КБ

Константин Белов in Scrapy
а можно warc перевести в xml, а потом с помощью этого кода в pandas dataframe ?
https://python-scripts.com/question/9829
источник
2019 November 27

JW

John Wayne in Scrapy
Bulatbulat48
это один и тот же урл должен быть
я это и нагуглил, что типа убирите из урл ?_escaped_fragment_=, и будет вам счастье, типа это одна и таже страница, вот только на деле это не так. Как я понимаю так защитились, если кто то сможет обойти это, поделитесь решением пожалуйста.
источник

МС

Михаил Синегубов in Scrapy
народ, подскажите сайтик на cloudflare... плз
проверить библиотечку хочу
источник

B

Bulatbulat48 in Scrapy
John Wayne
я это и нагуглил, что типа убирите из урл ?_escaped_fragment_=, и будет вам счастье, типа это одна и таже страница, вот только на деле это не так. Как я понимаю так защитились, если кто то сможет обойти это, поделитесь решением пожалуйста.
так в чем проблема то? у тебя две страницы одна с JS-ом, вторая без. Парси какую хочешь. Вторая _escaped_fragment_ видимо уже протухла и на нее забили, судя по торчащему коду на странице. Это не защита, это хак. который устарел.
источник

B

Bulatbulat48 in Scrapy
@Mifody вот)
источник