Size: a a a

2020 October 08

MP

Mikle Pazdnikov in Scrapy
Привет. Нужно спарсить немного инфы c hh.ru для себя, чтобы не делать это руками.
Интересно может быть кому-то взять. Бюджет можно предлагать.

Для анализа вакансий, требований в них и з/п нужно спарсить данные из hh.ru и вывести в эксель или в какие-то диаграммы. Пример https://office-menu.ru/python/96-api-hh

Что нужно:

1. Спарсить названия вакансий, включающие указанные слова и словосочетания. Необходимо для понимания вариантов написания нужных вакансий работодателями.

2. Спарсить наиболее употребляющиеся слова в вакансиях. Разбить по группам: обязанности, требования, условия, текст вакансии.

3. Спарсить суммы зарплат. Разбить по группам:
- по названиям вакансий;
- зависимость употребляемых слов и сумм.
источник

A

Andrii in Scrapy
Traceback (most recent call last):
 File "filter_result.py", line 116, in <module>
   for i in process(read_files(list_of_files), filter_is_in_sies):
 File "filter_result.py", line 101, in process
   for i in list(data):
 File "filter_result.py", line 61, in read_files
   data = json.loads(data)
 File "/usr/lib/python3.8/json/__init__.py", line 357, in loads
   return _default_decoder.decode(s)
 File "/usr/lib/python3.8/json/decoder.py", line 337, in decode
   obj, end = self.raw_decode(s, idx=_w(s, 0).end())
 File "/usr/lib/python3.8/json/decoder.py", line 353, in raw_decode
   obj, end = self.scan_once(s, idx)
json.decoder.JSONDecodeError: Unterminated string starting at: line 6743743 column 38 (char 306675285)
источник

A

Andrii in Scrapy
чем можно лечить джейсон ?
источник

A

Andrii in Scrapy
from ftfy import fix_text
не помог
источник

МС

Михаил Синегубов... in Scrapy
demjson - кто то советовал...
источник

A

Andrii in Scrapy
Михаил Синегубов
demjson - кто то советовал...
очень медлено( у меня джейсонов на овер 10гб
источник

МС

Михаил Синегубов... in Scrapy
а дохрена оттуда данных?
на самом деле, я в таком случае, на регулярки переходил. У меня овердохрена страниц было....
вообще, это, наверняка, хвосты от JS. Он такие JSON нормально принмает
источник

AR

Andrey Rahmatullin in Scrapy
или кавычка неэскейпнутая
источник

AR

Andrey Rahmatullin in Scrapy
или сам джсон криво декодили откуда-то
источник

A

Andrii in Scrapy
Михаил Синегубов
а дохрена оттуда данных?
на самом деле, я в таком случае, на регулярки переходил. У меня овердохрена страниц было....
вообще, это, наверняка, хвосты от JS. Он такие JSON нормально принмает
не, скрейпил в джейсон, но вот нужно щас отфилтрировать результат, а загрузить не могу, потому-что где-то файл грюкнуло(
источник

AR

Andrey Rahmatullin in Scrapy
глазами туда посмотри для начала
источник

ИБ

Иван Батурин... in Scrapy
случайно не два раза запустили scrapy в один файл? Эту проблему легко найти - файл из двух json будет состоять.
источник

A

Andrii in Scrapy
source_owler_30.09.2020_27.json:72050:32: Warning: Strings containing non-BMP characters (U+1F642) may not be portable
  |  At line 72050, column 32, offset 3286668
source_owler_30.09.2020_27.json:1842700:32: Warning: Strings longer than 65533 may not be portable
  |  At line 1842700, column 32, offset 84322315
source_owler_30.09.2020_27.json:6743828:51: Error: String literal is not terminated
  |  At line 6743828, column 51, offset 306675299 (AT-END)
  |    near text: True
  |  String started at line 6743828, column 37, offset 306675285
source_owler_30.09.2020_27.json:6743828:51: Error: String literal is not terminated with a quotation mark
  |  At line 6743828, column 51, offset 306675299 (AT-END)
  |    near text: True
  |  String started at line 6743828, column 37, offset 306675285
source_owler_30.09.2020_27.json:6743828:51: Error: Object literal (dictionary) is not terminated
  |  At line 6743828, column 51, offset 306675299 (AT-END)
  |    near text: True
  |  Object started at line 6743823, column 20, offset 306674920
source_owler_30.09.2020_27.json:6743828:51: Error: Array literal (list) is not terminated
  |  At line 6743828, column 51, offset 306675299 (AT-END)
  |    near text: True
  |  Array started at line 6743767, column 25, offset 306671469
source_owler_30.09.2020_27.json:6743828:51: Error: Object literal (dictionary) is not terminated
  |  At line 6743828, column 51, offset 306675299 (AT-END)
  |    near text: True
  |  Object started at line 6743762, column 23, offset 306671270
source_owler_30.09.2020_27.json:6743828:51: Error: Object literal (dictionary) is not terminated
  |  At line 6743828, column 51, offset 306675299 (AT-END)
  |    near text: True
  |  Object started at line 6743725, column 16, offset 306669717
source_owler_30.09.2020_27.json:6743828:51: Error: Object literal (dictionary) is not terminated
  |  At line 6743828, column 51, offset 306675299 (AT-END)
  |    near text: True
  |  Object started at line 6743692, column 4, offset 306668616
source_owler_30.09.2020_27.json:6743828:51: Error: Array literal (list) is not terminated
  |  At line 6743828, column 51, offset 306675299 (AT-END)
  |    near text: True
  |  Array started at line 1, column 0, offset 0 (AT-START)
source_owler_30.09.2020_27.json: has errors
источник

A

Andrii in Scrapy
ну ладно, ночь поработает...
источник

ИБ

Иван Батурин... in Scrapy
можно посмотреть где ошибки - координаты выдаются (строка, столбец) в сообщениях. Починить, если их всего столько, сколько привели.
источник

S

SoHard 🎄 in Scrapy
Подскажите еще пару сервисов подешевле где можно пул проксей использовать с авторотацией на каждый запрос
источник

A

Andrii in Scrapy
SoHard 🎄
Подскажите еще пару сервисов подешевле где можно пул проксей использовать с авторотацией на каждый запрос
мне тож нужно такое
источник

S

SoHard 🎄 in Scrapy
Andrii
мне тож нужно такое
я на luminati сижу, там 0,6$/gb но может чо дешевле есть
источник

V

Victor in Scrapy
Люминати как то дорого
источник

S

SoHard 🎄 in Scrapy
Victor
Люминати как то дорого
что дешевле?
источник