Ребята, чем вы убираете переносы строк и тэги?) ...я полжизни на Perl писал и мне привычно все делать регулярными выражениями. Но вдруг есть более быстрые (с точки зрения выполнения: нагрузки на цп, использования озу) варианты?)
Вижу, что переносы многие в питон убирают так: ' '.join( my_data.split() ) , но как-то громоздко ...и split все равно же, наверное re использует + временный массив создается в памяти ...имхо, sub(r'[\r\n\t]+', ' ') будет быстрее все же)
Тэги так: <[^>]+>
мне больше всех нравится html_text, там еще обработку переносов можно настраивать, переопределяя frozenset. Еще если надо убрать какие-нибудь , то можно использовать html.unescape(x), в сложных случаях можно еще (де)нормализовать utf, типа
unicodedata.normalize('NFKC', html.unescape(text))
тока надо следить за тем-то, кажется, чтобы text не был пустым.