Если вкратце - берешь где-то набор неразмеченных данных. Долго и нудно размечаешь. Затем делишь случайным образом - 75% на обучение, 25% на тест. Прогоняешь в нейронке. Видишь, что получилась фигня. Долго крутишь нейронку. Чуда не происходит. Догадываешься, что проблема таки в датасете. Находишь подходящий, обучаешь нейронку на нем, немного подкрутив получаешь более менее адекватные результаты. Изучаешь использованный датасет.
Через несколько итераций начинаешь понимать, какие комбинации признаков тебе нужны в датасете для текущей задачи.