Size: a a a

2020 January 15

МС

Михаил Синегубов in Scrapy
а урлов?
источник

S

Sergey in Scrapy
один урл один сайт
источник

AR

Andrey Rahmatullin in Scrapy
вот кстати ещё вопрос, урлы уже есть или надо зайти на сайт из списка и ходить по нему собирать их
источник

AR

Andrey Rahmatullin in Scrapy
аа
источник

AR

Andrey Rahmatullin in Scrapy
это упрощаэ конечно
источник

S

Sergey in Scrapy
уже есть урлы
источник

МС

Михаил Синегубов in Scrapy
тю, легкотня, в масштабах мировой революции 😂
источник

S

Sergey in Scrapy
ну что-то такое
источник

МС

Михаил Синегубов in Scrapy
самое простое сделать 50 пауков и поделить список на 50 частей :)
источник

i

ildar in Scrapy
Или thread pool и самопис.
источник

i

ildar in Scrapy
вернее что-то такое:
import multiprocessing
и потом
https://i.imgur.com/hyjWrUk.png
источник

S

Sergey in Scrapy
ildar
Или thread pool и самопис.
треды и requests + lxml?
источник

i

ildar in Scrapy
ну там просто разделение пула запросов на ядра, через import multiprocessing, добавлением пары строчек получаем что питон сам этим занимается, а мое дело для него функцию написать, которая обрабатывает одну url'ку
lxml не обязательно, можно заюзать скрапиевский Parsel, но если прям надо скорость-скорость, то можно и его, а вообще без разницы - у меня к примеру это был хром, помушо скрапи работать не хотел, даже со splash
источник

i

ildar in Scrapy
там еще существенно важно, чтобы запускалось из-под if name == "main":
правда я уже не помню зачем, но что хорошо - никаких асинк-авайтов не надо, а все ядра заняты
источник

i

ildar in Scrapy
источник

i

ildar in Scrapy
про parsel:
from parsel import Selector
...
и дальше работаем как со стандартным респонсом из скрапи
sel = Selector(page)
companies = sel.css('.listing.listing-search.listing-data')
источник

Y

Yurii in Scrapy
Подскажите. Не получается спарсить json файл через FormRequest. Все время xml выдает. Чего-то нехватает.
yield scrapy.FormRequest(
                               url=url,
                                formdata={'page':'0', 'pageSize':'15', 'search':''},
                                callback=self.parse)
источник

Y

Yurii in Scrapy
headers чтоли нехватает или киньте пример как парсит json файл
источник

МС

Михаил Синегубов in Scrapy
Yurii
Подскажите. Не получается спарсить json файл через FormRequest. Все время xml выдает. Чего-то нехватает.
yield scrapy.FormRequest(
                               url=url,
                                formdata={'page':'0', 'pageSize':'15', 'search':''},
                                callback=self.parse)
Accept-Type? или как его там
источник

МС

Михаил Синегубов in Scrapy
глянть что браузер шлет в этом поле
источник