Size: a a a

2020 October 04

✏d

✏️ Oleksandr dntPani... in Scrapy
обоснуй
источник

AR

Andrey Rahmatullin in Scrapy
как ты за один заход распарсил джсон?
источник

✏d

✏️ Oleksandr dntPani... in Scrapy
Andrey Rahmatullin
как ты за один заход распарсил джсон?
так там не джсон, там xml
источник

AR

Andrey Rahmatullin in Scrapy
там джсон внутри хмл, и именно об этом был исходный вопрос
источник

i

i in Scrapy
i
как он нинаю. я так выковырял навскидку:
z = xmltodict.parse(response.text, process_namespaces=False)
j = json.loads(z['ContentDetails']['Content'])
print(j)
Неделя прошла это раз, два - этот xmltodict я кинул как пример, я его вообще в первый раз видел, можно, наверное, и на xml.etree сделать, хто ж мешает,  ну и без json там не особо обойтись. Разве что лично моя рекомендация - использовать вместо него orjson, быстрее будет. А для стандартной либы пишут большой варнинг, что она " module is not secure against maliciously constructed data", я бы поостерегся.
источник

i

i in Scrapy
прикольное название атаки "billion laughs", хех
источник

i

i in Scrapy
Сайт то сохранился, можете тоже играться: https://www.1800contacts.com/api/content/FAQs
источник

✏d

✏️ Oleksandr dntPani... in Scrapy
i
Неделя прошла это раз, два - этот xmltodict я кинул как пример, я его вообще в первый раз видел, можно, наверное, и на xml.etree сделать, хто ж мешает,  ну и без json там не особо обойтись. Разве что лично моя рекомендация - использовать вместо него orjson, быстрее будет. А для стандартной либы пишут большой варнинг, что она " module is not secure against maliciously constructed data", я бы поостерегся.
этот варнинг уже года пол висит
источник

i

i in Scrapy
Предлагать лучшие решения, потом еще прогнать по таймингу, что быстрее работает)
источник

AR

Andrey Rahmatullin in Scrapy
где ж пол когда он и на 2.7 и 3.2 висит
источник

i

i in Scrapy
мое предложение пока такое (заменил json на orjson):
import orjson
z = xmltodict.parse(response.text, process_namespaces=False)
j = orjson.loads(z['ContentDetails']['Content'])
print(j)
источник

✏d

✏️ Oleksandr dntPani... in Scrapy
скажите лутчше, как получить из спайтдера настройки прокси для стороннего requests
источник

AR

Andrey Rahmatullin in Scrapy
если спайдер их взял из енвваров то взять оттуда же
источник

AR

Andrey Rahmatullin in Scrapy
а если нет то что там за настройки такие и где?
источник

i

i in Scrapy
отправляем на академика королева дом 12 (ну или в этот чат) другие решения и потом проводим тесты, что быстрее отрабатывает и насколько,
источник

✏d

✏️ Oleksandr dntPani... in Scrapy
в енварменте роайтинг прокси, который берет их из бд склайт
источник

✏d

✏️ Oleksandr dntPani... in Scrapy
i
отправляем на академика королева дом 12 (ну или в этот чат) другие решения и потом проводим тесты, что быстрее отрабатывает и насколько,
там сайт странный, джсон возвращет или хмл - по настроению
источник

i

i in Scrapy
там браузер в респонсе видит json, видать браузер шибко вумный, реквестс же питоновый получает стандартный xml (внутри поля которого лежит json)
источник

AR

Andrey Rahmatullin in Scrapy
Accept передайте, правда мне прошлый раз не помогло
источник

i

i in Scrapy
да и сайт тоже на самом деле xml получает This XML file does not appear to have any style information associated with it. The document tree is shown below.
источник