Size: a a a

Python для анализа данных

2020 December 02

VM

Valerii Mamontov in Python для анализа данных
Можно добавить проверку внутри цикла. Если файл "кривой", то пропустить.
источник

@

@annykey in Python для анализа данных
нет, вчера на этой же папке отрабатывал, никакеи файлы не добавлялись в папку
источник

@

@annykey in Python для анализа данных
пробовала на разных папках, один результат
источник

@

@annykey in Python для анализа данных
оставила всего один файл в папке, не помогло
источник

А

Алексей in Python для анализа данных
docx как и xlsx могут открываться архиваторами. Возможно и библиотека открывает их как архив, а потом по известной структуре обрабатывает файлы...
Если doc переименовать в docx то Word вроде отработает, но библиотека может споткнуться и написать ошибку что это не архив. Что и случилось.
Как это проверить: Открыть вордом и пересохранить как docx (на всякий случай под другим именем). Оставить только новый файл. Если без ошибок, значит переименовали файл.
источник

@

@annykey in Python для анализа данных
там все файлы docx
источник

@

@annykey in Python для анализа данных
пересохранила под другим именем, оставила только новый файл, ошибка та же
источник

А

Алексей in Python для анализа данных
@annykey
там все файлы docx
Если расширение файла doc насильно переименовать в docx, то будет docx и ворд откроет норм. И будет казаться что это docx.
Только c 2007 офиса майкрософт сменили структуру файлов. И получается что файл старого формата выдаёт себя за файл нового формата.
источник

@

@annykey in Python для анализа данных
да ну со вчера 5000 файлов никто не менял ))) папка та же, фалы те же, скрип тот же
источник

@

@annykey in Python для анализа данных
вчера отработал, выгрузила эксельку, сегодня поняла, что регулярка не совсем корректно отрабатывает, поправила и все, не работает
источник

А

Алексей in Python для анализа данных
А точно проблема с открытием файла? Может там проблема тогда в регулярке? Перед и после строки с регуляркой выведите текст в принте что бы понять где ошибка. В открытии файла или регулярке...
источник

А

Алексей in Python для анализа данных
@annykey
вчера отработал, выгрузила эксельку, сегодня поняла, что регулярка не совсем корректно отрабатывает, поправила и все, не работает
Если меняли только регулярку, значит с большой вероятностью проблема в ней.
источник

@

@annykey in Python для анализа данных
без регулярки стопарится на этой строке
источник

@

@annykey in Python для анализа данных
os.chdir("E:\закл")

Descriptions = []
name = []
df = pd.DataFrame()
for y in glob.glob('*.docx'):
   file1 = docx2txt.process(y)
   print(file1)
источник

@

@annykey in Python для анализа данных
та же самая ошибка
источник

@

@annykey in Python для анализа данных
только на строке
file1 = docx2txt.process(y)
источник

AD

Artemiy Dubovoy in Python для анализа данных
@annykey
os.chdir("E:\закл")

Descriptions = []
name = []
df = pd.DataFrame()
for y in glob.glob('*.docx'):
   file1 = docx2txt.process(y)
   print(file1)
Вижу, у вас здесь поменялось название пути. Вы на 100% уверены, что ничего не изменилось, и скрипт видит те же файлы, что до этого?
источник

А

Алексей in Python для анализа данных
Выведите на экран y посмотрите что за файл. Гипотетически там могут быть скрытые файлы остаться
источник

@

@annykey in Python для анализа данных
да я на обеих папках пробую, результат один. В одной папке просто 5000 файлов, в другой 1 файл
источник

AD

Artemiy Dubovoy in Python для анализа данных
Пробовали другой файл?
источник