А вообще идейка следующая.
Берешь учишься питону, а именно базовым вещами, парсингу и машинному обучению (это не так сложно как звучит на самом деле).
Делаешь парсинг утилиту шо будет принтскринить главную (или основную) страницу сайта.
Список сайтов берешь с AlexaRank там же разбиваешь сайтики на кластеры.
Потом твой МЛ изучает как расположены блоки и цвета.
Затем через карту Кохонена разбиваешь по основным категориям сайты.
Выкладываешь на Elseveir, тебя нанимает McKinsey или какой нибудь биг-дата анализ компания и рубишь миллионы, ходишь на гей парады как настоящий европеец.