Сообщество, вопрос к вам.
Тянул дед репку, называется.
В общем, у меня есть список из 5000 техносми. Мне надо его прочекать на то, кто из этих СМИ пишет про тему (Телеграма в моем случае) чаще, а кто - реже.
Для решения задачи был выбран путь проверки количества индексируемых в Гугле страниц на сайте, затем проверки количества индексируемых страниц с нужным запросом. Затем руками пробегаемся и верифицируем. Бинго. Вроде.
Но. 5000 СМИ это 10000 запросов к Гуглу, что неимоверно нудно и муторно.
Попробовал автоматизировать.
В гуглотаблицах есть метод для этого несложный, на автоматизацию
=ImportXML("
https://www.google.com/search?q=site:"xxxx";"//*[@id='resultStats']") допустим. ResultStat в нашем случае это Xpath для "Найдено X документов" в результатах.
Но таблицы вопят что такого адреса нет и говорят мне хер тебе, а не адрес. Хорошо, не рисуют.
Бился с запросом всяко, но есть подозрение что Гугл просто тупо этот метод давно прикрыл - для не гугловских адресов все работает нормально. В интернетах что-то пишут про API token и custom search, но чукча тупой и не понимает, куда это добавлять и как настраивать.
Ладно, подумал чукча и выбрал второй способ - забить домены пачками в SEO-чекер, проверяющий количество проиндексированных страниц с домена. Окей, доступные варианты берут по 5 штук или по 25 но с ограничением на пару сотен в день.
То есть 20 дней чтобы пробить список. Ну такоэ.
И кроме того, не решает вторую половину - количество проиндексированных страниц с тематическим запросом.
Внимание, уважаемые знатоки, вопросы!
1. Можно ли решить задачу без этого гемора чтобы
а) без 10к баксов в месяц за доступ к базе СМИ (у меня есть база, мне не надо) с определением ключевиков
б) без спайдера с эмуляцией JS и возней с прокси
в) Так чтобы просто забубенить запросом к Гуглу и всунуть в таблицу.
А?