Size: a a a

2020 August 08

f

fatklass in Scrapy
Нужен универсальный паук которому скармливаешь карту сайта, он проходит по страницам и ищет на их определенные признаки, если признаки найдены сопоставляет.
Парсинг не основная сложность, основной гемор в сопоставлении. Признаков много сейчас 30к в дальнейшем будет где то 600+к. А точность сопоставления нужна 99.9%))
Ищу человека имеющего опыт в работе с большими данными, переборе больших объемов информации. Нужно будет написать нормальных алгоритм сопоставления.
Подробность пм
---
p/s немного по говнокодил, написал своего паучка, но мне не особо нравится скорость его работы. Сопоставление 3к страниц с базой признаков в 30к заняло порядка 20 минут, просто парсинг этого сайта занимает меньше минуты. упрощая алгоритм увеличивается скорость но уменьшается точность сопоставления :-(
источник

i

i in Scrapy
вряд ли везде будут полные совпадения. где-то будет условно 11.22.1963 на сайтах, где-то будет "Властелин колец - братство кольца", где-то "Двенадцать стульев". Или нужны именно прям 1 в 1 совпадения в тексте?
источник

i

i in Scrapy
А сколько сайтов надо сверять? Если один еще туда-сюда, а если их больше будет, это ж огромные данные будут, там без какого-нибудь сфинкса, lucene или аля полнотекстового поиска постгреса, который заиндексирует эти объемы, вряд ли взлетит.
источник

AR

Andrey Rahmatullin in Scrapy
ну конечно нужны спецтулзы, да
источник
2020 August 09

E

Edis in Scrapy
Edis
Is there a recommended way to schedule spiders?
I got following error twisted.internet.error.ReactorNotRestartable. What am I doing wrong?
источник

E

Edis in Scrapy
I want to run different spiders more than once
источник

E

Edis in Scrapy
actually regularly
источник

E

Edis in Scrapy
but it goes well only the first time
источник

AR

Andrey Rahmatullin in Scrapy
use CrawlerRunner and manage the reactor yourself
источник

E

Edis in Scrapy
Alright, thank you
источник

E

Edis in Scrapy
I'll try
источник

f

fatklass in Scrapy
i
А сколько сайтов надо сверять? Если один еще туда-сюда, а если их больше будет, это ж огромные данные будут, там без какого-нибудь сфинкса, lucene или аля полнотекстового поиска постгреса, который заиндексирует эти объемы, вряд ли взлетит.
Именно поэтому я ищу человека с хорошей экспертизой в данном направлении
источник

D

Dr. Bot in Scrapy
кто в промышленных масштабах парсил выдачу гугла? есть смысл заморачиватся с google search api, или нет?
источник

SS

Stepan Smirnov in Scrapy
у кого-нибудь получалось на scrapydweb несколько проектов задеплоить?
источник
2020 August 10

V

Vlad in Scrapy
Stepan Smirnov
у кого-нибудь получалось на scrapydweb несколько проектов задеплоить?
присоединяюсь к вопросу.
буду благодарен за инфу.
источник

К

Кирилл in Scrapy
Давайте без мета вопросов, конкретные проблемы описывайте
источник

l

linuxoid in Scrapy
Stepan Smirnov
у кого-нибудь получалось на scrapydweb несколько проектов задеплоить?
источник

l

linuxoid in Scrapy
Vlad
присоединяюсь к вопросу.
буду благодарен за инфу.
источник

S

SoHard 🎄 in Scrapy
Кто парсил rozetka.com.ua, там есть где напороться на подвох? капчи какие или блокировки?
источник

VB

Vladyslav Babych in Scrapy
Там у них апиха вроде есть.  Попробуй получить
источник