Пардон. Но там, вроде, куча ссылок разных запощена. Ну и html - это же не plain text, в нем все уже расструктурировано и размечено. Нужно, по большей части, просто добраться до нужного места в этой структуре. Можно, конечно, превратить все в plain text и делать NER на нем 🙂