Size: a a a

2020 September 09

AR

Andrey Rahmatullin in Scrapy
источник

AR

Andrey Rahmatullin in Scrapy
Andrii
или можно сразу как то с
yield FormRequest.from_response(response, formdata={'csrf_token': csrf_token, 'username': '@gmail.com', 'password': 'password', 'reg_next': '/user/sign-in', 'next': '/'}, callback = self.parse_after_login
перейти на нужную мне страницу? тогда все будет ок :)
в next её передать попробуй :)
источник

AR

Andrey Rahmatullin in Scrapy
один хрен это влияет только на то какой редирект придёт
источник

YB

Yaswanth Bangaru in Scrapy
My web-scraping project(running on Ubuntu server) was totally well until yesterday, since this morning it throws an error (-- unable to find element) but at the same time it works totally as expected on my personal laptop. Any guesses on what could be the reason?
источник

A

Andrii in Scrapy
все таки проблема скрапи (походу с редиректами), реквестс все ок бегает
источник

AR

Andrey Rahmatullin in Scrapy
попробуй версию до 2.2
источник

AL

Alexey Lemeshevski in Scrapy
А дело случайно не в том, что во второй запрос вы не передаете csrf токен? Первая функция парсинга от реквеста с csrf, а следующий реквест уже без csrf ...или на сайте для второго реквеста он действитнльно не нкжен?)
источник

A

Andrii in Scrapy
нужна еще ваша помощь. https://pastebin.com/wyybJujE
источник

A

Andrii in Scrapy
на локалхосте рендерит все 300 урлов, а в скрапи только 10
источник

К

Кирилл in Scrapy
чем отличается локалхост от скрапи?
источник

A

Andrii in Scrapy
хз
источник

A

Andrii in Scrapy
http://localhost:8050/ пихаю сюда скрипт и работает
источник

К

Кирилл in Scrapy
это же ты написал, как ты хз тогда?
источник

A

Andrii in Scrapy
ну если б не хз, не писал б сюда. И если б в локалхосте не работало
источник

A

Andrii in Scrapy
а так там да, через скрапи нет
источник

К

Кирилл in Scrapy
Может быть ты имел ввиду, что результаты отличаются, когда отправляешь запросы из ? (откуда-то) в сплэш, от тех что получаются когда скрапи отправляет запросы в сплэш?
источник

A

Andrii in Scrapy
Кирилл
Может быть ты имел ввиду, что результаты отличаются, когда отправляешь запросы из ? (откуда-то) в сплэш, от тех что получаются когда скрапи отправляет запросы в сплэш?
Именно так. Когда через браузер то нажимает кнопку и видно все 300 ссылок. Через скрапи только 10
источник

A

Andrii in Scrapy
т.е. кнопку не нажимает
источник

К

Кирилл in Scrapy
Посмотри, чем отличаются запросы которые генерирует scrapy-splash от тех что ты напрямую передаёшь
источник

i

i in Scrapy
Alexey Lemeshevski
Ребята, чем вы убираете переносы строк и тэги?) ...я полжизни на Perl писал и мне привычно все делать регулярными выражениями. Но вдруг есть более быстрые (с точки зрения выполнения: нагрузки на цп, использования озу) варианты?)

Вижу, что переносы многие в питон убирают так: ' '.join( my_data.split() ) , но как-то громоздко ...и split все равно же, наверное re использует + временный массив создается в памяти ...имхо, sub(r'[\r\n\t]+', ' ') будет быстрее все же)

Тэги так: <[^>]+>
мне больше всех нравится html_text, там еще обработку переносов можно настраивать, переопределяя frozenset. Еще если надо убрать какие-нибудь &nbsp;, то можно использовать html.unescape(x), в сложных случаях можно еще (де)нормализовать utf, типа
unicodedata.normalize('NFKC', html.unescape(text))
тока надо следить за тем-то, кажется, чтобы text не был пустым.
источник