Size: a a a

2020 July 21

AE

Alexey Evdokimov in Data Engineers
мне же не просто long[] нужны, а на каждый ещё пару атрибутов навесить. хотя бы смещение от гринвича и флаг DST. память на екзекуторах не резиновая
источник

AE

Alexey Evdokimov in Data Engineers
полифилл говно у них это точно
источник

AE

Alexey Evdokimov in Data Engineers
но лучшего индекса для наших задач в природе не существует, к несчастью
источник

A

Art in Data Engineers
Alexey Evdokimov
мне же не просто long[] нужны, а на каждый ещё пару атрибутов навесить. хотя бы смещение от гринвича и флаг DST. память на екзекуторах не резиновая
А если считать на county уровне и выгружать во временную таблицу/файл?
источник

AE

Alexey Evdokimov in Data Engineers
списка таймзон по county я на сайте nist'а чего-то не нашёл. и вообще нигде не нашёл. только более-менее точные аутлайны на гитхабе наскреблись.
но если делать покрытие по county это перенесёт проблему уровнем ниже, но не уменьшит количество самих полигонов, которые потом уже придётся компактить как-то. что H3 делает так же грустно как просто полифил
источник

ПФ

Паша Финкельштейн... in Data Engineers
Потому что таймзоны по городам, очевидно
источник

ПФ

Паша Финкельштейн... in Data Engineers
Но к сожалению, этого недостаточно чтобы определить таймзону для каждой конкретной точки
источник

A

Art in Data Engineers
А если взять по всем городам(центр города) информацию, положить ее в QuadTree и запрошивать для каждого H3 индекса близлежащий город с таймзоной?
источник

ПФ

Паша Финкельштейн... in Data Engineers
Art
А если взять по всем городам(центр города) информацию, положить ее в QuadTree и запрошивать для каждого H3 индекса близлежащий город с таймзоной?
То не факт чт ополучится корректно
источник

ПФ

Паша Финкельштейн... in Data Engineers
То есть эту гипотезу надо проверять
источник

AS

Andrey Smirnov in Data Engineers
Art
А если взять по всем городам(центр города) информацию, положить ее в QuadTree и запрошивать для каждого H3 индекса близлежащий город с таймзоной?
для России точно будут некорректные данные, я как-то проверял деревни и поселки, на границах областей часто бижайший город уже в другой таймзоне
источник

AS

Andrey Smirnov in Data Engineers
тут можно через адрес, район и т.д., но я не знаю как это в штатах
источник

ПФ

Паша Финкельштейн... in Data Engineers
Я почти уверен что где-то есть прям часовые пояса расчерченные и надо находить просто свой полигон
источник

ME

Max Efremov in Data Engineers
А в osm инфы нет?
источник

АЖ

Андрей Жуков... in Data Engineers
источник

ПФ

Паша Финкельштейн... in Data Engineers
таймзон вроде 26 дложно быть
источник

A

Art in Data Engineers
Alexey Evdokimov
списка таймзон по county я на сайте nist'а чего-то не нашёл. и вообще нигде не нашёл. только более-менее точные аутлайны на гитхабе наскреблись.
но если делать покрытие по county это перенесёт проблему уровнем ниже, но не уменьшит количество самих полигонов, которые потом уже придётся компактить как-то. что H3 делает так же грустно как просто полифил
источник

M

Mironiken in Data Engineers
Привет всем. Простой вопрос 🙂 Что быстрее - фулл аутер джоин или зип партишен?
источник

GP

Grigory Pomadchin in Data Engineers
Alexey Evdokimov
но сама задача, конечно, вымораживает. предметная область — аппроксимировать таймзоны сша на выпуклые многоугольники с точностью по границе ~50 метров. всего их 8 штук, а вот с границами там в куче мест отдельные county надо обвести
проверь базы либ типа https://pypi.org/project/tzwhere/
источник

GP

Grigory Pomadchin in Data Engineers
в любом случае задача сложная в том смысле, что таймзоны меняются ввиду политических причин часто
источник