Size: a a a

2020 January 03

AR

Andrey Rahmatullin in Scrapy
Jim Morrison
Селектором легко взять первый li, но как взять второй ? 😁
Смешно
источник

J

Jim Morrison in Scrapy
источник

М

Мак in Scrapy
Есть же nth-child в css, а в xpath порядковый номера [n]
источник

J

Jim Morrison in Scrapy
Мак
Есть же nth-child в css, а в xpath порядковый номера [n]
Пасиб
источник

АН

Алексей Нагорский in Scrapy
Нахера линкедин парсить аписните?
источник

К

Кирилл in Scrapy
А нахрена фоткать монитор, если существуют скриншоты?
источник

К

Кирилл in Scrapy
Это вечные вопросы бытия
источник

МС

Михаил Синегубов in Scrapy
Кирилл
А нахрена фоткать монитор, если существуют скриншоты?
ну, вдруг человеку религия (или СБ) не позволяет поставить телегу на комп :)
источник

МС

Михаил Синегубов in Scrapy
Алексей Нагорский
Нахера линкедин парсить аписните?
данные людей -> злые спамеры -> деньги
источник
2020 January 04

АМ

Алексей Мелолян in Scrapy
я собираю инфу с сайта через сплэш, без него выдает 403, я вытаскиваю оттуда урл, по которому мне надо перейти в процессе скрапинга, чтобы вытащить оттуда инфу, этот урл редиректит на этот же сайт, но уже на конкретную страницу. через шелл попробовал зайти на http://localhost:8050/render.html?url= + исходный урл, выдает 404. код тут https://pastebin.com/rzLY0nhb , подскажите, как формировать запрос чтобы и сплэш не отвалился, и редирект нормально прошел?
источник

BL

Boris Litvyakov in Scrapy
Алексей Мелолян
я собираю инфу с сайта через сплэш, без него выдает 403, я вытаскиваю оттуда урл, по которому мне надо перейти в процессе скрапинга, чтобы вытащить оттуда инфу, этот урл редиректит на этот же сайт, но уже на конкретную страницу. через шелл попробовал зайти на http://localhost:8050/render.html?url= + исходный урл, выдает 404. код тут https://pastebin.com/rzLY0nhb , подскажите, как формировать запрос чтобы и сплэш не отвалился, и редирект нормально прошел?
во-первых если тупо сделать
headers = {'User-agent': 'Mozilla/5.0'}
url = 'https://www.sciencedirect.com/journal/mendeleev-communications/vol/29/issue/6'

r = requests.get(url, headers=headers)

то страница загрузится нормально
источник

BL

Boris Litvyakov in Scrapy
во-вторых можешь пояснить что дальше нужно выгрузить? список авторов каждой работы или что-то еще?
источник

АМ

Алексей Мелолян in Scrapy
да, на первой странице если много авторов, то сокращается несколько авторов посередине в виде "...", а мне нужны все
источник

АМ

Алексей Мелолян in Scrapy
чет про юзерагенты не догадался
источник

BL

Boris Litvyakov in Scrapy
@Mellolian дальше делаешь что-то типа
from lxml import etree
tree = etree.HTML(r.text)

papers = tree.xpath('//li[@class="js-article-list-item article-item u-padding-xs-top u-margin-l-bottom"]')

for paper in papers:
   authors = paper.xpath('.//div[@class="text-s u-clr-grey8 js-article__item__authors"]')

   if authors:
       if '...' in authors[0].text:
           get_all_authors()
источник

BL

Boris Litvyakov in Scrapy
и тупо переходишь по ссылке на страницу с более полным описанием, забираешь оттуда полный список авторов и все
источник

АМ

Алексей Мелолян in Scrapy
ого, спасибо, попробую разобраться)
источник

BL

Boris Litvyakov in Scrapy
спрашивай если чо не ясно, в authors.text лежит строка со списком авторов которую ты видишь на сайте
источник

АМ

Алексей Мелолян in Scrapy
Boris Litvyakov
спрашивай если чо не ясно, в authors.text лежит строка со списком авторов которую ты видишь на сайте
я внимательно посмотрел, оказалось что примерно это у меня и написано, у меня вот самая проблема get_all_authors() написать. суть в том, чтобы внутри функции parse_authors паука нужно как-то впихнуть articleItem и проапдейтить ее в виде articleItem['authors']=item_authors
источник

АМ

Алексей Мелолян in Scrapy
а на выдачу списка авторов скрапи ругается "ERROR: Spider must return Request, BaseItem, dict or None, got 'str' in <GET...>"
источник