Size: a a a

2020 September 07

К

Кирилл in Scrapy
Andrii
Привет. Куда копать с такой ошибкой?
2020-09-07 12:06:42 [scrapy.core.scraper] ERROR: Error downloading <GET https://angel.co/company/travel-start-up>
Traceback (most recent call last):
 File "d:\scrapy\venv\lib\site-packages\twisted\internet\defer.py", line 1418, in _inlineCallbacks
   result = g.send(result)
 File "d:\scrapy\venv\lib\site-packages\scrapy\core\downloader\middleware.py", line 54, in process_response
   response = yield deferred_from_coro(method(request=request, response=response, spider=spider))
 File "d:\scrapy\venv\lib\site-packages\scrapy\downloadermiddlewares\httpcompression.py", line 39, in process_response
   decoded_body = self._decode(response.body, encoding.lower())
 File "d:\scrapy\venv\lib\site-packages\scrapy\downloadermiddlewares\httpcompression.py", line 56, in _decode
   body = gunzip(body)
 File "d:\scrapy\venv\lib\site-packages\scrapy\utils\gz.py", line 29, in gunzip
   chunk = f.read1(8196)
 File "C:\Users\work\AppData\Local\Programs\Python\Python38\lib\gzip.py", line 305, in read1
   return self._buffer.read1(size)
 File "C:\Users\work\AppData\Local\Programs\Python\Python38\lib\_compression.py", line 68, in readinto
   data = self.read(len(byte_view))
 File "C:\Users\work\AppData\Local\Programs\Python\Python38\lib\gzip.py", line 479, in read
   if not self._read_gzip_header():
 File "C:\Users\work\AppData\Local\Programs\Python\Python38\lib\gzip.py", line 427, in _read_gzip_header
   raise BadGzipFile('Not a gzipped file (%r)' % magic)
gzip.BadGzipFile: Not a gzipped file (b'<s')
Проверь какой-то другой тулзой, сжат ли ответ
источник

AL

Alexey Lemeshevski in Scrapy
Andrii
Привет. Куда копать с такой ошибкой?
2020-09-07 12:06:42 [scrapy.core.scraper] ERROR: Error downloading <GET https://angel.co/company/travel-start-up>
Traceback (most recent call last):
 File "d:\scrapy\venv\lib\site-packages\twisted\internet\defer.py", line 1418, in _inlineCallbacks
   result = g.send(result)
 File "d:\scrapy\venv\lib\site-packages\scrapy\core\downloader\middleware.py", line 54, in process_response
   response = yield deferred_from_coro(method(request=request, response=response, spider=spider))
 File "d:\scrapy\venv\lib\site-packages\scrapy\downloadermiddlewares\httpcompression.py", line 39, in process_response
   decoded_body = self._decode(response.body, encoding.lower())
 File "d:\scrapy\venv\lib\site-packages\scrapy\downloadermiddlewares\httpcompression.py", line 56, in _decode
   body = gunzip(body)
 File "d:\scrapy\venv\lib\site-packages\scrapy\utils\gz.py", line 29, in gunzip
   chunk = f.read1(8196)
 File "C:\Users\work\AppData\Local\Programs\Python\Python38\lib\gzip.py", line 305, in read1
   return self._buffer.read1(size)
 File "C:\Users\work\AppData\Local\Programs\Python\Python38\lib\_compression.py", line 68, in readinto
   data = self.read(len(byte_view))
 File "C:\Users\work\AppData\Local\Programs\Python\Python38\lib\gzip.py", line 479, in read
   if not self._read_gzip_header():
 File "C:\Users\work\AppData\Local\Programs\Python\Python38\lib\gzip.py", line 427, in _read_gzip_header
   raise BadGzipFile('Not a gzipped file (%r)' % magic)
gzip.BadGzipFile: Not a gzipped file (b'<s')
Можно попробовать в заголовке accept-encoding отправить deflate, без gzip. Это "просьба" к серверу отдавать страницу без gzip.


Accept-Encoding: deflate
источник

AR

Andrey Rahmatullin in Scrapy
Костыль конечно
источник

A

Andrii in Scrapy
еще вопрос,
2020-09-07 12:59:57 [scrapy.downloadermiddlewares.retry] DEBUG: Retrying <GET http://localhost:3000/?url=https://angel.co/company/ultrabot-innovations-1> (failed 1 times): An error occurred while connecting: [Failure instance: Tracebac
k (failure with no frames): <class 'twisted.internet.error.ConnectionLost'>: Connection to the other side was lost in a non-clean fashion: Connection lost.
источник

A

Andrii in Scrapy
requests нормально работает с етим костилем
источник

A

Andrii in Scrapy
Alexey Lemeshevski
Можно попробовать в заголовке accept-encoding отправить deflate, без gzip. Это "просьба" к серверу отдавать страницу без gzip.


Accept-Encoding: deflate
спасибо, работает :)
источник

AR

Andrey Rahmatullin in Scrapy
Andrii
еще вопрос,
2020-09-07 12:59:57 [scrapy.downloadermiddlewares.retry] DEBUG: Retrying <GET http://localhost:3000/?url=https://angel.co/company/ultrabot-innovations-1> (failed 1 times): An error occurred while connecting: [Failure instance: Tracebac
k (failure with no frames): <class 'twisted.internet.error.ConnectionLost'>: Connection to the other side was lost in a non-clean fashion: Connection lost.
сплеш?
источник

AR

Andrey Rahmatullin in Scrapy
если это сразу был сплеш, а не скрапи напрямую в сайт стучался, про это следовало сказать
источник

A

Andrii in Scrapy
источник

A

Andrii in Scrapy
такая штука
источник

A

Andrii in Scrapy
курл, реквестс норм, а скрапи не хочет
источник

AR

Andrey Rahmatullin in Scrapy
Ну в общем все вопросы к нему
источник

AR

Andrey Rahmatullin in Scrapy
Сравнивай хедеры
источник

i

i in Scrapy
Andrii
Привет. Куда копать с такой ошибкой?
2020-09-07 12:06:42 [scrapy.core.scraper] ERROR: Error downloading <GET https://angel.co/company/travel-start-up>
Traceback (most recent call last):
 File "d:\scrapy\venv\lib\site-packages\twisted\internet\defer.py", line 1418, in _inlineCallbacks
   result = g.send(result)
 File "d:\scrapy\venv\lib\site-packages\scrapy\core\downloader\middleware.py", line 54, in process_response
   response = yield deferred_from_coro(method(request=request, response=response, spider=spider))
 File "d:\scrapy\venv\lib\site-packages\scrapy\downloadermiddlewares\httpcompression.py", line 39, in process_response
   decoded_body = self._decode(response.body, encoding.lower())
 File "d:\scrapy\venv\lib\site-packages\scrapy\downloadermiddlewares\httpcompression.py", line 56, in _decode
   body = gunzip(body)
 File "d:\scrapy\venv\lib\site-packages\scrapy\utils\gz.py", line 29, in gunzip
   chunk = f.read1(8196)
 File "C:\Users\work\AppData\Local\Programs\Python\Python38\lib\gzip.py", line 305, in read1
   return self._buffer.read1(size)
 File "C:\Users\work\AppData\Local\Programs\Python\Python38\lib\_compression.py", line 68, in readinto
   data = self.read(len(byte_view))
 File "C:\Users\work\AppData\Local\Programs\Python\Python38\lib\gzip.py", line 479, in read
   if not self._read_gzip_header():
 File "C:\Users\work\AppData\Local\Programs\Python\Python38\lib\gzip.py", line 427, in _read_gzip_header
   raise BadGzipFile('Not a gzipped file (%r)' % magic)
gzip.BadGzipFile: Not a gzipped file (b'<s')
а ты используешь прокси-крутилку? там в некоторых из них приоритеты неправильно расставлены
источник

A

Andrii in Scrapy
i
а ты используешь прокси-крутилку? там в некоторых из них приоритеты неправильно расставлены
В етом случае нет. Акцепт енкодинг помог
источник

i

i in Scrapy
ну в том случае он тоже помогает, он просто вырубает gzip-сжатие же, получается костыляндро
источник

i

i in Scrapy
по-хорошему, надо следить за приоритетами в мидлварях, типа: https://github.com/TeamHG-Memex/scrapy-rotating-proxies/issues/14
источник

АК

Алексей Куделька... in Scrapy
всем привет
источник

АК

Алексей Куделька... in Scrapy
Есть ребята из Минска?
источник

AR

Andrey Rahmatullin in Scrapy
🙈
источник