Size: a a a

2019 October 31

МС

Михаил Синегубов in Scrapy
ну, мне постгрес еще познавать и познавать. Мне sqlite нехило так подо....ал своей простотой.
все никак не вкурюсь более/меннее нормально☹️
источник

АП

Агент Печенька in Scrapy
Простота скулайта обманчива, он очень мощьный инструмент.
источник

s

serhii in Scrapy
скрапингхаб появился в гитхаб студент паке =) https://education.github.com
источник

МС

Михаил Синегубов in Scrapy
Агент Печенька
Простота скулайта обманчива, он очень мощьный инструмент.
а я и не говорил что не мощьный, но мне сейчас не хватает его чуток. все таки несколько десятков млн записей в нем не есть хорошо хранить.
сам им пользовался несколько лет, главное блокировки отлавливать что бы эксепшенов не было :)
источник

i

ildar in Scrapy
источник

i

ildar in Scrapy
И ещё поискать слово exception  по докам
источник

i

ildar in Scrapy
Типа, чего можно передавать, в коллбеках-сигналами: https://github.com/scrapy/scrapy/blob/master/docs/topics/exceptions.rst
источник

i

ildar in Scrapy
И не забывать про errback
источник

i

ildar in Scrapy
А про дальнейшую вашу мысль - есть же ещё почти с коробки на берклидб штука для итерационного пирсинга,
источник

i

ildar in Scrapy
источник

i

ildar in Scrapy
источник

i

ildar in Scrapy
Ну и я тут писал, есть клевая либа, dataset, с ней работа с любой базой превращается в 1 строчку работы с dict (с транзакциями будет 2 строчки) . Если влом базоданновые обвязки  sqlalchemy для какого-нибудь постгреса писать, можно ее использовать.
источник

i

ildar in Scrapy
Да, можно, зачем по каждому шагу спрашивать? Там же на том сайте все описано. И вроде даже ссылки на либы на гитхаб есть для научных работников, не обделенных прогерской жилкой, по загону этого добра в пандас
источник

К

Кирилл in Scrapy
ildar
Ну и я тут писал, есть клевая либа, dataset, с ней работа с любой базой превращается в 1 строчку работы с dict (с транзакциями будет 2 строчки) . Если влом базоданновые обвязки  sqlalchemy для какого-нибудь постгреса писать, можно ее использовать.
Интересная либа, я обычно если не хочу заморачиваться беру монгу, такая же работа со словарями получается
источник

i

ildar in Scrapy
Но был же и питон, причем второй строчкой под явой
источник

i

ildar in Scrapy
источник

i

ildar in Scrapy
И ещё что-то там же
источник
2019 November 01

i

ildar in Scrapy
А еще там есть куча туториалов и куча sample code  с реализациями, народ там заморочился чтоб все разжевать. Hdf5 доступен через pandas, гуглишь прост "pandas hdf5". Куча линков с sample code: http://commoncrawl.org/the-data/examples/
источник

i

ildar in Scrapy
Ну как-то так: Warc->pandas->hdf5, и это даже не шутка, мда.
источник

i

ildar in Scrapy
Просто разделяешь задачку на маленькие и последовательно гуглишь от задачи к задаче, полезно еще сесть перед этим и подумать, а не сразу бежать гуглить или stackoverflow смотреть. (А то разовьется sdd - stackoveflow driven development, это страшная болезнь, я знаю, бесполезно лечусь уже много лет, ничего не помогает(
источник