Телеграмм чат группы scrapy_python страница 1891

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Scrapy

588 membersпожаловаться на группу

2020 August 08

f

fatklass in Scrapy

Нужен универсальный паук которому скармливаешь карту сайта, он проходит по страницам и ищет на их определенные признаки, если признаки найдены сопоставляет.
Парсинг не основная сложность, основной гемор в сопоставлении. Признаков много сейчас 30к в дальнейшем будет где то 600+к. А точность сопоставления нужна 99.9%))
Ищу человека имеющего опыт в работе с большими данными, переборе больших объемов информации. Нужно будет написать нормальных алгоритм сопоставления.
Подробность пм
---
p/s немного по говнокодил, написал своего паучка, но мне не особо нравится скорость его работы. Сопоставление 3к страниц с базой признаков в 30к заняло порядка 20 минут, просто парсинг этого сайта занимает меньше минуты. упрощая алгоритм увеличивается скорость но уменьшается точность сопоставления :-(

источник

16:28пожаловаться #1

i

вряд ли везде будут полные совпадения. где-то будет условно 11.22.1963 на сайтах, где-то будет "Властелин колец - братство кольца", где-то "Двенадцать стульев". Или нужны именно прям 1 в 1 совпадения в тексте?

источник

16:45пожаловаться #2

i

А сколько сайтов надо сверять? Если один еще туда-сюда, а если их больше будет, это ж огромные данные будут, там без какого-нибудь сфинкса, lucene или аля полнотекстового поиска постгреса, который заиндексирует эти объемы, вряд ли взлетит.

источник

16:48пожаловаться #3

AR

Andrey Rahmatullin in Scrapy

ну конечно нужны спецтулзы, да

источник

16:48пожаловаться #4

2020 August 09

E

Is there a recommended way to schedule spiders?

I got following error twisted.internet.error.ReactorNotRestartable. What am I doing wrong?

источник

10:14пожаловаться #5

E

I want to run different spiders more than once

источник

10:15пожаловаться #6

E

actually regularly

источник

10:15пожаловаться #7

E

but it goes well only the first time

источник

10:16пожаловаться #8

AR

Andrey Rahmatullin in Scrapy

use CrawlerRunner and manage the reactor yourself

источник

10:32пожаловаться #9

E

Alright, thank you

источник

10:34пожаловаться #10

E

I'll try

источник

10:34пожаловаться #11

f

fatklass in Scrapy

А сколько сайтов надо сверять? Если один еще туда-сюда, а если их больше будет, это ж огромные данные будут, там без какого-нибудь сфинкса, lucene или аля полнотекстового поиска постгреса, который заиндексирует эти объемы, вряд ли взлетит.

Именно поэтому я ищу человека с хорошей экспертизой в данном направлении

источник

16:34пожаловаться #12

D

Dr. Bot in Scrapy

кто в промышленных масштабах парсил выдачу гугла? есть смысл заморачиватся с google search api, или нет?

источник

21:21пожаловаться #13

SS

Stepan Smirnov in Scrapy

у кого-нибудь получалось на scrapydweb несколько проектов задеплоить?

источник

23:18пожаловаться #14

2020 August 10

V

у кого-нибудь получалось на scrapydweb несколько проектов задеплоить?

присоединяюсь к вопросу.
буду благодарен за инфу.

источник

11:15пожаловаться #15

К

Кирилл in Scrapy

Давайте без мета вопросов, конкретные проблемы описывайте

источник

11:19пожаловаться #16

l

linuxoid in Scrapy

у кого-нибудь получалось на scrapydweb несколько проектов задеплоить?

источник

12:01пожаловаться #17

l

linuxoid in Scrapy

присоединяюсь к вопросу.
буду благодарен за инфу.

источник

12:01пожаловаться #18

S

SoHard 🎄 in Scrapy

Кто парсил rozetka.com.ua, там есть где напороться на подвох? капчи какие или блокировки?

источник

12:09пожаловаться #19

VB

Vladyslav Babych in Scrapy

Там у них апиха вроде есть. Попробуй получить

источник

12:12пожаловаться #20