коллеги, есть вариант закрыть от индексации гугла страницы со 100% гарантией (ну кроме 404)? упорно обходит robots.txt, в консоли показывает, что проиндексировано не смотря на роботс. Проставлять на каждой странице meta robots нет технической возможности. Уже и вручную исключал - все равно лезет и сканирует бот.
Речь о страницах блога типа /tag/2019/ и другие по темам. Т.е. чисто для фильтра используемые, но много лет они индексировались хотя никакой смысловой нагрузки не несут и не содержат уникального контента.
Если прямой заход на страницы не предусматривается, а только с внутренних то задача решается очень просто - Упрощенно: краулер гугла на каждую тсраницу заходит так, как будто это прямой заход. То есть такие вещи как Cookie SessionStorage LocalStorage и т.д. девственно чистые. Очевидно, что у посетителя это не так.
Если все же прямой заход на страницы предусматривается, то задача решает добавлением одного редиректа при приямом заходе.
По схеме: если скажем Cookie не содержат метку, то вернуть редирект сам на себя с установленной меткой в Cookie. Если это будет посетитель то его второй заход будет сразу идентифицирован по этой Cookie. Если бот - то будет снова все чисто. Для бота, после редиректа, в данной ситуации, лучше отдавтаь старницу с 401 кодом ответа.