Andrii
ну так тяну,а вот новЬІе урл стянуть очень сложно
1) А если гуглу говорить site: и inurl: (в Яндексе так называется этот параметр, в гугле может чуть иначе) в котором подставлять разделы/подразделы + использовать команды гуглу для разной сортировки
2) а как на сайте устроена навигация по этим 1,4млн страниц? Неужели только через поиск - по названию стартапа? Должно же быть что-то вроде "похожие" и т.п.? Или разные сочетания фильтров?
3) к site: , если через поиск гугла - можно добавлять и разные слова, тем самым получая разные наборы ответов. Слова - можете из меню взять ...или сделать словарь частот, хотя бы на основе заголовков спарсенных страниц. Но это странное решение) с трудом верится, что на сайте нет возможности собрать ссылки на все страницы