Телеграмм чат группы enogtalk страница 3509

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

ENOG

592 membersпожаловаться на группу

2020 August 19

p

Короч, парсил я наши файлики результатов, чтобы найти все измерения по Беларуси во время шатдауна, и на результаты за один час у меня ушли сутки, при том, что файлик я уже предварительно себе вытягиваю. Ok, полез смотреть. Никакой магии: каждая строка - это json, и строк очень-очень много (ну, там за час терабайты этих файликов с jsonами набегает).
Я-то знаю, что я ищу, так что выкрутился, генерируя сильно оптимизированный regex, которым сначала проверяю - есть в строке нужный префикс или нет, и только если есть, делаю парсинг этого json, проверяю уже точно его поля, и если все ок, сохраняю результаты. Ускорение на порядки.

Но вот у РКН, который хочет парсить XMLи про всё на свете, такой опции нет, ему надо таки распарсить всё. Одно из двух: или тяжко придётся РКНу и его подрядчикам, придется много денег осваивать для работы с этим XML; или в гробу они видели что-то на самом деле с этим XML делать.

но у вас там как-то бесчеловечно с json: файл пожатый bz2 весит ~ 450 мб, а при распаковке и втягивании в память питон отожрал 5гб памяти(дальше я его прибил)

источник

10:58пожаловаться #1

VS

Vitaly Shishkin in ENOG

но у вас там как-то бесчеловечно с json: файл пожатый bz2 весит ~ 450 мб, а при распаковке и втягивании в память питон отожрал 5гб памяти(дальше я его прибил)

Ага, а у РКН будет всё по другому? Думаю в их случае всё ещё хуже будет.

источник

11:01пожаловаться #2

PK

Phil Kulin in ENOG

Я думаю, что они собирают, чтобы отчитаться на совещании Правительства, чтобы потом премьер мог отчитаться перед Думой и Президентом. Я почти уверен, что они не читают и читать им нечем эти файлики сейчас. Они проверяют их своей xsd-ой и всё

источник

11:05пожаловаться #3

VK

Vartan Khachaturov in ENOG

но у вас там как-то бесчеловечно с json: файл пожатый bz2 весит ~ 450 мб, а при распаковке и втягивании в память питон отожрал 5гб памяти(дальше я его прибил)

Подыми хадуп и Спарк :)))

источник

11:07пожаловаться #4

PK

Phil Kulin in ENOG

При том, как всё вообще в госорганах устроена (в абстрактных, не только российских, но у российских конечно свой усиленный колорит), терраформирование Венеры с бомбардировками льдом, перезапуском ядра, сдвигом плоскости орбиты и шпигованием бактериями может произойти раньше, чем «сувенирка»

источник

11:07пожаловаться #5

DB

Dmitry Belyavskiy in ENOG

При том, как всё вообще в госорганах устроена (в абстрактных, не только российских, но у российских конечно свой усиленный колорит), терраформирование Венеры с бомбардировками льдом, перезапуском ядра, сдвигом плоскости орбиты и шпигованием бактериями может произойти раньше, чем «сувенирка»

Я не готов плакать по этому поводу

источник

12:44пожаловаться #6

LE

Leonid Evdokimov in ENOG

Короч, парсил я наши файлики результатов, чтобы найти все измерения по Беларуси во время шатдауна, и на результаты за один час у меня ушли сутки, при том, что файлик я уже предварительно себе вытягиваю. Ok, полез смотреть. Никакой магии: каждая строка - это json, и строк очень-очень много (ну, там за час терабайты этих файликов с jsonами набегает).
Я-то знаю, что я ищу, так что выкрутился, генерируя сильно оптимизированный regex, которым сначала проверяю - есть в строке нужный префикс или нет, и только если есть, делаю парсинг этого json, проверяю уже точно его поля, и если все ок, сохраняю результаты. Ускорение на порядки.

Но вот у РКН, который хочет парсить XMLи про всё на свете, такой опции нет, ему надо таки распарсить всё. Одно из двух: или тяжко придётся РКНу и его подрядчикам, придется много денег осваивать для работы с этим XML; или в гробу они видели что-то на самом деле с этим XML делать.

Да, grep очень быстрый. Я точно так же предфильтр для jsonl данных в питонячьих парсерах делал не раз.

источник

13:54пожаловаться #7

PK

Phil Kulin in ENOG

Dmitry Belyavskiy

Я не готов плакать по этому поводу

:))))

источник

13:59пожаловаться #8

VS

Vitaly Shishkin in ENOG

Мда, список критериев для социально значимых сайтов жжёт. Особенно про единственный статический адрес.

источник

14:06пожаловаться #9

DE

Dmitry (DAY) Ershov in ENOG

Угу, все плачут кровавыми слезами от всех документов уже, особенно те, кто большой.

источник

14:19пожаловаться #10

AS

Alex Semenyaka in ENOG

Учитывая остальную движуху, они наверняка всё сразу парсить и в базу будут класть, а не файлами оставят

Про что и речь - очень дорого это, всё парсить. Дальше-то понятно, что в базу, там уже несложно.

источник

15:18пожаловаться #11

AS

Alex Semenyaka in ENOG

но у вас там как-то бесчеловечно с json: файл пожатый bz2 весит ~ 450 мб, а при распаковке и втягивании в память питон отожрал 5гб памяти(дальше я его прибил)

Блин, я всего 20 раз сказал, что так делать вообще не надо. Нахрена ты его в памяти целиком распаковывал-то? В очередной раз напоминаю: bzip2 (как и gzip) был придуман для потокового сжатия-расжатия.

источник

15:20пожаловаться #12

VS

Vitaly Shishkin in ENOG

Про что и речь - очень дорого это, всё парсить. Дальше-то понятно, что в базу, там уже несложно.

Не факт, что перевод данных в БД упростит задачу.

источник

15:20пожаловаться #13

AS

Alex Semenyaka in ENOG

Leonid Evdokimov

Да, grep очень быстрый. Я точно так же предфильтр для jsonl данных в питонячьих парсерах делал не раз.

Я ещё ускорил, раза в 2.5, из конкатенации префикс ов сделав Trie - regex получается абсолютно нечитаемый, но. Если подстрока есть, он обрабатывает строку на пару процентов медленнее. А вот если её нет - в 2.6 раз быстрее.

источник

15:23пожаловаться #14

LE

Leonid Evdokimov in ENOG

Я ещё ускорил, раза в 2.5, из конкатенации префикс ов сделав Trie - regex получается абсолютно нечитаемый, но. Если подстрока есть, он обрабатывает строку на пару процентов медленнее. А вот если её нет - в 2.6 раз быстрее.

Занятно. Я предполагал, что при поиске подстрок через -F grep сам минимизирует автомат.

источник

15:23пожаловаться #15

AS

Alex Semenyaka in ENOG

Vitaly Shishkin

Не факт, что перевод данных в БД упростит задачу.

Смотря какую задачу, но правильно построенная и проиндексированная база проблему скорости обработки, конечно, решит. Основная-та засада тут в очень долгом парсинге, которого, когда всё красиво в базу уложено, просто нет.

источник

15:25пожаловаться #16

AS

Alex Semenyaka in ENOG

Leonid Evdokimov

Занятно. Я предполагал, что при поиске подстрок через -F grep сам минимизирует автомат.

А, ты про настоящий греп. Не, я про питонячий регекс. С grep -F не сравнивал, надо будет сравнить. С -F он может оптимизировать, конечно.

источник

15:26пожаловаться #17

VS

Vitaly Shishkin in ENOG

Смотря какую задачу, но правильно построенная и проиндексированная база проблему скорости обработки, конечно, решит. Основная-та засада тут в очень долгом парсинге, которого, когда всё красиво в базу уложено, просто нет.

Ревизору это не помогло. В определённый момент он просто перестал вовремя формировать отчёты.

источник

15:27пожаловаться #18

AS

Alex Semenyaka in ENOG

Leonid Evdokimov

Занятно. Я предполагал, что при поиске подстрок через -F grep сам минимизирует автомат.

Мне хотелось тулзу на будущее сделать, чтобы она автоматически умела всё разруливать

источник

15:27пожаловаться #19

AS

Alex Semenyaka in ENOG

Vitaly Shishkin

Ревизору это не помогло. В определённый момент он просто перестал вовремя формировать отчёты.

Смешались в кучу кони, люди...

источник

15:27пожаловаться #20