Ще один вопрос. Сделал наконец из пдф норм XML, тепер как лучше отскряпать: тег <H5> идет как нумерация, первий <p> ето тема, второй <p> университет, а все другие <p> ето текст. Все ето в теге <sect> и таких сект 200шт. И в результате все ето надо пихнуть в ексель