Телеграмм чат группы hadoopusers страница 2745

2020 September 11

AZ

Anton Zadorozhniy in Data Engineers

Повелитель Бури

mssql JSON_VALUE не успевает прожевать и распарсить поток 15 000 json в секунду

Не совсем про это, у вас в команде/компании есть промышленный опыт развертывания и поддержки Кассандры или HBase

источник

14:13пожаловаться #1

AZ

Anton Zadorozhniy in Data Engineers

Вообще чот мне кажется что PG на норм железе легко разогнать до 15К апсертов

источник

14:14пожаловаться #2

PA

Panchenko Andrey in Data Engineers

Повелитель Бури

Добрый день, коллеги! Такая фактура

есть сторонний сервис который пишет со скоростью 15 000 json в секунду
структура json город, его признаки, значение признака
летят туча дублей которые хочется фильтровать

выбираю между hbase или касандрой, но может я перезакладываюсь и можно попроще?

спасибо

У нас такое решается на apache beam с группировкой по ключу в вашем случае город

источник

14:16пожаловаться #3

PA

Panchenko Andrey in Data Engineers

Ну и окно временное поставить чтоб дубли редьюсить

источник

14:16пожаловаться #4

M

Mironiken in Data Engineers

Panchenko Andrey

Ну и окно временное поставить чтоб дубли редьюсить

А потом по ключу складывает в kv хранилище?

источник

14:17пожаловаться #5

PA

Panchenko Andrey in Data Engineers

Мы в бигквери складываем

источник

14:17пожаловаться #6

PA

Panchenko Andrey in Data Engineers

Как строку

источник

14:17пожаловаться #7

N

Nikita Blagodarnyy in Data Engineers

Повелитель Бури

mssql JSON_VALUE не успевает прожевать и распарсить поток 15 000 json в секунду

Наваливайте в какую-нибудь очередь, забирайте оттуда с комфортным рейтом.

источник

14:22пожаловаться #8

N

Nikita Blagodarnyy in Data Engineers

Дальше дедуплицируйте. Хоть по индексу в ms sql.

источник

14:22пожаловаться #9

N

Nick in Data Engineers

Всем привет. Подскажите какие пути есть для перекладывания из одного hive в другой(на другом удал серваке). Пока только есть идея чз spark по jdbc пачки получать и сохранять

источник

14:23пожаловаться #10

А

Алексей in Data Engineers

Nick

Всем привет. Подскажите какие пути есть для перекладывания из одного hive в другой(на другом удал серваке). Пока только есть идея чз spark по jdbc пачки получать и сохранять

файлами

источник

14:24пожаловаться #11

SE

Stanislav Evstratov in Data Engineers

‘’’import org.elasticsearch.spark.sql._
import org.apache.spark.sql.SparkSession
import org.apache.spark.SparkConf
val sparkConf = new SparkConf().set("es.index.auto.create", "true").set("es.port", "9200").set("es.nodes", "arm-elastic-1-vm.dev.ix.km")
val sparkSession = SparkSession.builder.config(sparkConf).appName("WriteToES").getOrCreate()
val df = sparkSession.read.format("json").json("/tmp/Gold_record.json")
df.saveToEs("spark/GR")
‘’’

вылетает ошибка : org.elasticsearch.hadoop.EsHadoopIllegalArgumentException: Cannot detect ES version - typically this happens if the network/Elasticsearch cluster is not accessible or when targeting a WAN/Cloud instance without the proper setting 'es.nodes.wan.only'

Подскажите может кто сталкивался \ как решали?arm-elastic-1-vm.dev.ix.km")
val sparkSession = SparkSession.builder.config(sparkConf).appName("WriteToES").getOrCreate()
val df = sparkSession.read.format("json").json("/tmp/Gold_record.json")
df.saveToEs("spark/GR")
‘’’

вылетает ошибка : org.elasticsearch.hadoop.EsHadoopIllegalArgumentException: Cannot detect ES version - typically this happens if the network/Elasticsearch cluster is not accessible or when targeting a WAN/Cloud instance without the proper setting 'es.nodes.wan.only'

Подскажите может кто сталкивался \ как решали?

источник

14:29пожаловаться #12

GP

Grigory Pomadchin in Data Engineers

Stanislav Evstratov

‘’’import org.elasticsearch.spark.sql._
import org.apache.spark.sql.SparkSession
import org.apache.spark.SparkConf
val sparkConf = new SparkConf().set("es.index.auto.create", "true").set("es.port", "9200").set("es.nodes", "arm-elastic-1-vm.dev.ix.km")
val sparkSession = SparkSession.builder.config(sparkConf).appName("WriteToES").getOrCreate()
val df = sparkSession.read.format("json").json("/tmp/Gold_record.json")
df.saveToEs("spark/GR")
‘’’

вылетает ошибка : org.elasticsearch.hadoop.EsHadoopIllegalArgumentException: Cannot detect ES version - typically this happens if the network/Elasticsearch cluster is not accessible or when targeting a WAN/Cloud instance without the proper setting 'es.nodes.wan.only'

Подскажите может кто сталкивался \ как решали?arm-elastic-1-vm.dev.ix.km")
val sparkSession = SparkSession.builder.config(sparkConf).appName("WriteToES").getOrCreate()
val df = sparkSession.read.format("json").json("/tmp/Gold_record.json")
df.saveToEs("spark/GR")
‘’’

вылетает ошибка : org.elasticsearch.hadoop.EsHadoopIllegalArgumentException: Cannot detect ES version - typically this happens if the network/Elasticsearch cluster is not accessible or when targeting a WAN/Cloud instance without the proper setting 'es.nodes.wan.only'

Подскажите может кто сталкивался \ как решали?

а доступен с машины эластик по адресу такому?

источник

14:31пожаловаться #13

SE

Stanislav Evstratov in Data Engineers

Доступен, по ssh

источник

14:32пожаловаться #14

GP

Grigory Pomadchin in Data Engineers

а 9200 порт?

источник