Телеграмм чат группы scrapy

ну там просто разделение пула запросов на ядра, через import multiprocessing, добавлением пары строчек получаем что питон сам этим занимается, а мое дело для него функцию написать, которая обрабатывает одну url'ку
lxml не обязательно, можно заюзать скрапиевский Parsel, но если прям надо скорость-скорость, то можно и его, а вообще без разницы - у меня к примеру это был хром, помушо скрапи работать не хотел, даже со splash

источник

22:28пожаловаться #13

i

ildar in Scrapy

там еще существенно важно, чтобы запускалось из-под if name == "main":
правда я уже не помню зачем, но что хорошо - никаких асинк-авайтов не надо, а все ядра заняты

источник

22:29пожаловаться #14

i

ildar in Scrapy

https://docs.python.org/3.4/library/multiprocessing.html

источник

22:30пожаловаться #15

i

ildar in Scrapy

про parsel:
from parsel import Selector
...
и дальше работаем как со стандартным респонсом из скрапи
sel = Selector(page)
companies = sel.css('.listing.listing-search.listing-data')

источник

22:33пожаловаться #16

Y

Yurii in Scrapy

Подскажите. Не получается спарсить json файл через FormRequest. Все время xml выдает. Чего-то нехватает.
yield scrapy.FormRequest(
url=url,
formdata={'page':'0', 'pageSize':'15', 'search':''},
callback=self.parse)

источник

22:38пожаловаться #17

Y

Yurii in Scrapy

headers чтоли нехватает или киньте пример как парсит json файл

источник

22:39пожаловаться #18

МС

Михаил Синегубов in Scrapy

Yurii

Подскажите. Не получается спарсить json файл через FormRequest. Все время xml выдает. Чего-то нехватает.
yield scrapy.FormRequest(
url=url,
formdata={'page':'0', 'pageSize':'15', 'search':''},
callback=self.parse)

Accept-Type? или как его там

источник

22:39пожаловаться #19

МС

Михаил Синегубов in Scrapy

глянть что браузер шлет в этом поле

источник

22:39пожаловаться #20