Size: a a a

2019 December 10

AZ

Anton Zadorozhniy in Data Engineers
Stanislav
нет, просто стартофсет и эндофсет
их хранить в хдфс, комитить при успешной записи
так был устроен Camus (и некоторые закрытые разработки которые вдохновились этим дизайном)
источник

AZ

Anton Zadorozhniy in Data Engineers
но это не совместимо со Spark или Flink джобом
источник

AZ

Anton Zadorozhniy in Data Engineers
а, ну и Gobblin видимо эта логика также перехала
источник

А

Алексей in Data Engineers
Stanislav
нет, просто стартофсет и эндофсет
их хранить в хдфс, комитить при успешной записи
Спс, попробую так тоже
источник

S

Stanislav in Data Engineers
Anton Zadorozhniy
но это не совместимо со Spark или Flink джобом
да, логика взята из гоблина
работает достаточно надежно
источник

S

Stanislav in Data Engineers
Anton Zadorozhniy
но это не совместимо со Spark или Flink джобом
а какая логика в самом спарке?
по внешнему виду именно такая, потому что ацкие тормоза, нормальные топики не вычитать
источник

K

KrivdaTheTriewe in Data Engineers
писать партиционно, компактить партицию на следущий день
источник

K

KrivdaTheTriewe in Data Engineers
как вариант писать в хбейз
источник

K

KrivdaTheTriewe in Data Engineers
и потом забирать оттуда, если нужны онлайн данные для запросов
источник

K

KrivdaTheTriewe in Data Engineers
аналитику можно прям в онлайне делать по данным
источник

K

KrivdaTheTriewe in Data Engineers
раз в сутки забирать данные и переносить в табличку  в уложеном виде
источник

А

Алексей in Data Engineers
Блин, попробовал сделать батчем: val df = spark.read .format("kafka") .option("kafka.bootstrap.servers", kafka_servers) .option("subscribe", kafka_topic) .option("startingOffsets", "{\"" + kafka_topic + "\":{\"0\":13304142,\"1\":-2}}") .option("endingOffsets", "{\"" + kafka_topic + "\":{\"0\":13304143,\"1\":-1}}") .load()  получаю ошибку  java.lang.AssertionError: assertion failed: If startingOffsets contains specific offsets, you must specify all TopicPartitions  вроде же все верно написано?  гугл говорит, что бага , но версия jar org.apache.spark_spark-sql-kafka-0-10_2.11-2.3.0.jar , новее для spark 2.3 ничего не нашел..
источник

А

Алексей in Data Engineers
Переносы строк съелись..
источник

GP

Grigory Pomadchin in Data Engineers
Алексей
Переносы строк съелись..
тут можно код в кавычки брать; типа мд разметки работает в телеге (убери слеши)
\```
<code here>
\```
источник

Е

Евгений in Data Engineers
Grigory Pomadchin
тут можно код в кавычки брать; типа мд разметки работает в телеге (убери слеши)
\```
<code here>
\```
ctrl-shift-M
источник

GP

Grigory Pomadchin in Data Engineers
Евгений
ctrl-shift-M
а на маке какие хоткеи?
источник

Е

Евгений in Data Engineers
что нибудь в духе command+alt+shift+fn+F11
источник

S

Stanislav in Data Engineers
Алексей
Блин, попробовал сделать батчем: val df = spark.read .format("kafka") .option("kafka.bootstrap.servers", kafka_servers) .option("subscribe", kafka_topic) .option("startingOffsets", "{\"" + kafka_topic + "\":{\"0\":13304142,\"1\":-2}}") .option("endingOffsets", "{\"" + kafka_topic + "\":{\"0\":13304143,\"1\":-1}}") .load()  получаю ошибку  java.lang.AssertionError: assertion failed: If startingOffsets contains specific offsets, you must specify all TopicPartitions  вроде же все верно написано?  гугл говорит, что бага , но версия jar org.apache.spark_spark-sql-kafka-0-10_2.11-2.3.0.jar , новее для spark 2.3 ничего не нашел..
Партиций сколько в топике?
источник
2019 December 11

С

Сюткин in Data Engineers
источник

С

Сюткин in Data Engineers
Баян но все же
источник