Size: a a a

2020 March 01

АЛ

Артем Лученков in SEO chat
Jacov
ПРивет коллеги
субботние размышления привели снова к #вопрос -  откуда мегаиндекс и аналогичные сервисы (кейс.со, спайвордс и т д) берут такой объем данных?
Используют ядекс xml и googlexml для сбора данных
источник

AB

Alexander Bukreev in SEO chat
Jacov
Спарсить такой объем ключей и его стабильно обновлять - никаких проксей не хватит

А тулбарами они вроде не пользуются
Как посчитали, что ресурсов не хватит парсить?
источник

ME

Mark Efimov 👑 in SEO chat
Йоу! Пришел от Букреева) Говорят надвигается буряя)))))
источник

M

Margo in SEO chat
Какая ещё буря?
источник

VS

Victor Stepankov in SEO chat
Margo
Какая ещё буря?
В стакане
источник

†R1bûñAL in SEO chat
SEO буря
источник

S

Spirit💎 in SEO chat
Victor Stepankov
В стакане
Как карандаш?
источник

M

Margo in SEO chat
И что там за сео буря?
источник

M

Margo in SEO chat
Опять новые алгоритмы "если ты не агрегатор - партнёр пс, то в топ тебе не сидеть"
источник

VS

Victor Stepankov in SEO chat
Margo
Опять новые алгоритмы "если ты не агрегатор - партнёр пс, то в топ тебе не сидеть"
Если ты хороший котик - скажи мяу
источник
2020 March 02

А

Арт in SEO chat
Подскажите пожалуйста, например, в Питере, можно ли и если да, то где, купить книгу "сео монстр 2020" или предыдущие в бумажном варианте? Или может в другом городе.
источник

А

Арт in SEO chat
И ещё, подскажите, пожалуйста, может другие какие хорошие книги по сео в книжных сейчас можно купить? В Питере или других городах?
источник

н

не Антон in SEO chat
Арт
Подскажите пожалуйста, например, в Питере, можно ли и если да, то где, купить книгу "сео монстр 2020" или предыдущие в бумажном варианте? Или может в другом городе.
О, тоже ищешь книгу? К сожалению магазины сейчас закрыты, я проверял
источник

NK

ID:0 in SEO chat
Изменение выдачи! Яндекс [02.03.20 04:00] (SERP/XML): МСК 7.7/7.2, СПб 7.7/7.1, Киев 9.2/7.9, Минск --/7.2
источник

J

Jacov in SEO chat
Артем Лученков
Используют ядекс xml и googlexml для сбора данных
Рекламная выдача вроде как в хмлке не отдается
источник

J

Jacov in SEO chat
Alexander Bukreev
Как посчитали, что ресурсов не хватит парсить?
Чисто умозрительно.
Объем данных даже самого молодого из этих сервисов, в пересчёте на количество прокси, это десятки тысяч.
Стоимость подписки была бы космической, ведь всю эту базу надо стабильно обновлять (чаще всего раз в сутки при чем)
источник

М

Максим in SEO chat
аудит без халявных крауд ссылочек - не аудит https://kwork.ru/categories/audit?sdisplay=table&s=groups&page=4
источник

М

Максим in SEO chat
>высший рейтинг >высший разум
источник

AB

Alexander Bukreev in SEO chat
Jacov
Чисто умозрительно.
Объем данных даже самого молодого из этих сервисов, в пересчёте на количество прокси, это десятки тысяч.
Стоимость подписки была бы космической, ведь всю эту базу надо стабильно обновлять (чаще всего раз в сутки при чем)
1. Умозрительно - это обычно ошибочно. Нужно хотя бы из чего-то исходить всё-таки.
2. Десять тысяч шаред прокси не так дорого стоят, в рамках бюджета сервиса. Я уверен, что можно уложиться в 100-120 тыс на неделю (достаточно для парсинга объёма), а то и меньше, учитывая объёмы закупа. Плюс можно использовать xmlproxy (там по-моему в районе 20 потоков на 1 аккаунт можно).
3. Данные обновляются вовсе не ежедневно, а 1-2 раза в пару месяцев. У части сервисов есть публичная информация от какой даты последнее обновление. Например вот по кейсо:
https://drive.google.com/uc?id=1uhr3VJZ0iyeg53ncj2wfty1C0lYj_9l8

Уверен, у остальных плюс-минус аналогично.

Так что не так страшно всё.
Ну и вы ещё одно забыли - сервера для парсинга (Процессорные мощности, быстрые харды и хорошие каналы)
источник

J

Jacov in SEO chat
Alexander Bukreev
1. Умозрительно - это обычно ошибочно. Нужно хотя бы из чего-то исходить всё-таки.
2. Десять тысяч шаред прокси не так дорого стоят, в рамках бюджета сервиса. Я уверен, что можно уложиться в 100-120 тыс на неделю (достаточно для парсинга объёма), а то и меньше, учитывая объёмы закупа. Плюс можно использовать xmlproxy (там по-моему в районе 20 потоков на 1 аккаунт можно).
3. Данные обновляются вовсе не ежедневно, а 1-2 раза в пару месяцев. У части сервисов есть публичная информация от какой даты последнее обновление. Например вот по кейсо:
https://drive.google.com/uc?id=1uhr3VJZ0iyeg53ncj2wfty1C0lYj_9l8

Уверен, у остальных плюс-минус аналогично.

Так что не так страшно всё.
Ну и вы ещё одно забыли - сервера для парсинга (Процессорные мощности, быстрые харды и хорошие каналы)
Не забыл, но они как раз не такую большую часть стоимости дают, имхо


В любом случае, спасибо за обратную связь, возможно, вы абсолютно правы
Осталось оценить объем данных, хранящихся в том же менаиндексе, и станет ясно, насколько я заблуждался
источник