Телеграмм чат группы scrapy

Extract text from HTML. Contribute to TeamHG-Memex/html-text development by creating an account on GitHub.

https://github.com/TeamHG-Memex/html-text ещё есть

GitHub

TeamHG-Memex/html-text

09:51пожаловаться #1

Andrii

или можно сразу как то с

yield FormRequest.from_response(response, formdata={'csrf_token': csrf_token, 'username': '@gmail.com', 'password': 'password', 'reg_next': '/user/sign-in', 'next': '/'}, callback = self.parse_after_login

перейти на нужную мне страницу? тогда все будет ок :)

в next её передать попробуй :)

09:55пожаловаться #2

один хрен это влияет только на то какой редирект придёт

09:55пожаловаться #3

Yaswanth Bangaru in Scrapy

My web-scraping project(running on Ubuntu server) was totally well until yesterday, since this morning it throws an error (-- unable to find element) but at the same time it works totally as expected on my personal laptop. Any guesses on what could be the reason?

10:05пожаловаться #4

Andrii in Scrapy

все таки проблема скрапи (походу с редиректами), реквестс все ок бегает

10:11пожаловаться #5

попробуй версию до 2.2

def parse(self, response): csrf_token = response.xpath("//*[@name=' - Pastebin.com

10:14пожаловаться #6

Alexey Lemeshevski in Scrapy

Andrii

Доброе утро. В чем моя ошибка? https://pastebin.com/5W6cdwEY

Pastebin

Pastebin.com is the number one paste tool since 2002. Pastebin is a website where you can store text online for a set period of time.

А дело случайно не в том, что во второй запрос вы не передаете csrf токен? Первая функция парсинга от реквеста с csrf, а следующий реквест уже без csrf ...или на сайте для второго реквеста он действитнльно не нкжен?)

def start_requests(self): script = ''' function mai - Pastebin.com

11:08пожаловаться #7

Andrii in Scrapy

нужна еще ваша помощь. https://pastebin.com/wyybJujE

Pastebin

Pastebin.com is the number one paste tool since 2002. Pastebin is a website where you can store text online for a set period of time.

20:24пожаловаться #8

Andrii in Scrapy

на локалхосте рендерит все 300 урлов, а в скрапи только 10

20:25пожаловаться #9

чем отличается локалхост от скрапи?

20:26пожаловаться #10

Andrii in Scrapy

хз

20:26пожаловаться #11

Andrii in Scrapy

http://localhost:8050/ пихаю сюда скрипт и работает

20:26пожаловаться #12

это же ты написал, как ты хз тогда?

20:26пожаловаться #13

Andrii in Scrapy

ну если б не хз, не писал б сюда. И если б в локалхосте не работало

20:28пожаловаться #14

Andrii in Scrapy

а так там да, через скрапи нет

20:28пожаловаться #15

Может быть ты имел ввиду, что результаты отличаются, когда отправляешь запросы из ? (откуда-то) в сплэш, от тех что получаются когда скрапи отправляет запросы в сплэш?

20:33пожаловаться #16

Andrii in Scrapy

Кирилл

Именно так. Когда через браузер то нажимает кнопку и видно все 300 ссылок. Через скрапи только 10

20:36пожаловаться #17

Andrii in Scrapy

т.е. кнопку не нажимает

20:37пожаловаться #18

Посмотри, чем отличаются запросы которые генерирует scrapy-splash от тех что ты напрямую передаёшь

20:39пожаловаться #19

i in Scrapy

Alexey Lemeshevski

Ребята, чем вы убираете переносы строк и тэги?) ...я полжизни на Perl писал и мне привычно все делать регулярными выражениями. Но вдруг есть более быстрые (с точки зрения выполнения: нагрузки на цп, использования озу) варианты?)

Вижу, что переносы многие в питон убирают так: ' '.join( my_data.split() ) , но как-то громоздко ...и split все равно же, наверное re использует + временный массив создается в памяти ...имхо, sub(r'[\r\n\t]+', ' ') будет быстрее все же)

Тэги так: <[^>]+>

мне больше всех нравится html_text, там еще обработку переносов можно настраивать, переопределяя frozenset. Еще если надо убрать какие-нибудь  , то можно использовать html.unescape(x), в сложных случаях можно еще (де)нормализовать utf, типа
unicodedata.normalize('NFKC', html.unescape(text))
тока надо следить за тем-то, кажется, чтобы text не был пустым.