Телеграмм чат группы pydata

Любовь, вы уже несколько раз спрашивали про ворд и питон)
Для работы с ним есть одна либа только, python_docx. Через нее можно получить содержимое документа, очищенное от xml тегов. в содержимом можно искать любые слова.

а есть что-то нормально работающее, только с .doc, а не .docx?

источник

17:59пожаловаться #6

LK

Lyubov K. in Python для анализа данных

Как я выяснила на своём опыте нет. Только конвертировать в docx/txt

источник

18:01пожаловаться #7

СИ

Сергей Ильин... in Python для анализа данных

В общем, кто бы подсказал?
у меня задача - по ссылке получить doc-файл, прочитать его содержимое в строку (или построчно, не суть важно) и потом уже я планирую из этой строки выдернуть регуляркой нужные мне данные.
короч, проблема - нихрена не выходит. Есть решение?
я делаю примерно так:

file = req.get(url, verify=False

).content
file = BytesIO(file)
file = file.read()
file = file.decode('utf-8', 'ignore')

(понятно, что можно завернуть одно в другое, расписал для простоты понимания)

но не выходит каменный цветок - какая-то хрень, а не нормальные символы

источник

18:19пожаловаться #8

BL

Boris Litvyakov in Python для анализа данных

Сергей Ильин

В общем, кто бы подсказал?
у меня задача - по ссылке получить doc-файл, прочитать его содержимое в строку (или построчно, не суть важно) и потом уже я планирую из этой строки выдернуть регуляркой нужные мне данные.
короч, проблема - нихрена не выходит. Есть решение?
я делаю примерно так:

file = req.get(url, verify=False

).content
file = BytesIO(file)
file = file.read()
file = file.decode('utf-8', 'ignore')

(понятно, что можно завернуть одно в другое, расписал для простоты понимания)

но не выходит каменный цветок - какая-то хрень, а не нормальные символы

потому что ты бинарный файл как текстовый читаешь, чтобы считать док нужна отдельная либа

источник

21:24пожаловаться #9

KM

Konstantin Mohov in Python для анализа данных

Сергей Ильин

а есть что-то нормально работающее, только с .doc, а не .docx?

Тоже не встречал.

источник

21:40пожаловаться #10

KM

Konstantin Mohov in Python для анализа данных

Lyubov K.

Да, простите. Выделить ключевые слова нужно. Есть список.

Их найти в файле и выделить цветом. Сейчас проблема именно как цветом обозначить

Насколько знаю, когда читаете документ у него есть параграфы. то есть будет
doc = Docx('myword.docx')
for par in doc.paragraphs:
# тут у параметра par должен быть параметр "run", можно посмотреть функцией dir() - что вообще там есть
print(dir(par))
for r in par.runs:
r.font.color.rgb = RGBColor(0x3f, 0x2c, 0x36)

источник

21:48пожаловаться #11

KM

Konstantin Mohov in Python для анализа данных