Size: a a a

2020 September 11

AZ

Anton Zadorozhniy in Data Engineers
Повелитель Бури
mssql JSON_VALUE  не успевает прожевать и распарсить поток 15 000 json в секунду
Не совсем про это, у вас в команде/компании есть промышленный опыт развертывания и поддержки Кассандры или HBase
источник

AZ

Anton Zadorozhniy in Data Engineers
Вообще чот мне кажется что PG на норм железе легко разогнать до 15К апсертов
источник

PA

Panchenko Andrey in Data Engineers
Повелитель Бури
Добрый день, коллеги! Такая фактура

есть сторонний сервис который пишет со скоростью 15 000 json в секунду
структура json город, его признаки, значение признака
летят туча дублей которые хочется фильтровать

выбираю между hbase или касандрой,  но может я перезакладываюсь и можно попроще?

спасибо
У нас такое решается на apache beam с группировкой по ключу в вашем случае город
источник

PA

Panchenko Andrey in Data Engineers
Ну и окно временное поставить чтоб дубли редьюсить
источник

M

Mironiken in Data Engineers
Panchenko Andrey
Ну и окно временное поставить чтоб дубли редьюсить
А потом по ключу складывает в kv хранилище?
источник

PA

Panchenko Andrey in Data Engineers
Мы в бигквери складываем
источник

PA

Panchenko Andrey in Data Engineers
Как строку
источник

N

Nikita Blagodarnyy in Data Engineers
Повелитель Бури
mssql JSON_VALUE  не успевает прожевать и распарсить поток 15 000 json в секунду
Наваливайте в какую-нибудь очередь, забирайте оттуда с комфортным рейтом.
источник

N

Nikita Blagodarnyy in Data Engineers
Дальше дедуплицируйте. Хоть по индексу в ms sql.
источник

N

Nick in Data Engineers
Всем привет. Подскажите какие пути есть для перекладывания из одного hive в другой(на другом удал серваке). Пока только есть идея чз spark по jdbc пачки получать и сохранять
источник

А

Алексей in Data Engineers
Nick
Всем привет. Подскажите какие пути есть для перекладывания из одного hive в другой(на другом удал серваке). Пока только есть идея чз spark по jdbc пачки получать и сохранять
файлами
источник

SE

Stanislav Evstratov in Data Engineers
‘’’import org.elasticsearch.spark.sql._
import org.apache.spark.sql.SparkSession
import org.apache.spark.SparkConf
val sparkConf = new SparkConf().set("es.index.auto.create", "true").set("es.port", "9200").set("es.nodes", "arm-elastic-1-vm.dev.ix.km")
val sparkSession = SparkSession.builder.config(sparkConf).appName("WriteToES").getOrCreate()
val df = sparkSession.read.format("json").json("/tmp/Gold_record.json")
df.saveToEs("spark/GR")
‘’’

вылетает ошибка : org.elasticsearch.hadoop.EsHadoopIllegalArgumentException: Cannot detect ES version - typically this happens if the network/Elasticsearch cluster is not accessible or when targeting a WAN/Cloud instance without the proper setting 'es.nodes.wan.only'

Подскажите может кто сталкивался \ как решали?
arm-elastic-1-vm.dev.ix.km")
val sparkSession = SparkSession.builder.config(sparkConf).appName("WriteToES").getOrCreate()
val df = sparkSession.read.format("json").json("/tmp/Gold_record.json")
df.saveToEs("spark/GR")
‘’’

вылетает ошибка : org.elasticsearch.hadoop.EsHadoopIllegalArgumentException: Cannot detect ES version - typically this happens if the network/Elasticsearch cluster is not accessible or when targeting a WAN/Cloud instance without the proper setting 'es.nodes.wan.only'

Подскажите может кто сталкивался \ как решали?
источник

GP

Grigory Pomadchin in Data Engineers
Stanislav Evstratov
‘’’import org.elasticsearch.spark.sql._
import org.apache.spark.sql.SparkSession
import org.apache.spark.SparkConf
val sparkConf = new SparkConf().set("es.index.auto.create", "true").set("es.port", "9200").set("es.nodes", "arm-elastic-1-vm.dev.ix.km")
val sparkSession = SparkSession.builder.config(sparkConf).appName("WriteToES").getOrCreate()
val df = sparkSession.read.format("json").json("/tmp/Gold_record.json")
df.saveToEs("spark/GR")
‘’’

вылетает ошибка : org.elasticsearch.hadoop.EsHadoopIllegalArgumentException: Cannot detect ES version - typically this happens if the network/Elasticsearch cluster is not accessible or when targeting a WAN/Cloud instance without the proper setting 'es.nodes.wan.only'

Подскажите может кто сталкивался \ как решали?
arm-elastic-1-vm.dev.ix.km")
val sparkSession = SparkSession.builder.config(sparkConf).appName("WriteToES").getOrCreate()
val df = sparkSession.read.format("json").json("/tmp/Gold_record.json")
df.saveToEs("spark/GR")
‘’’

вылетает ошибка : org.elasticsearch.hadoop.EsHadoopIllegalArgumentException: Cannot detect ES version - typically this happens if the network/Elasticsearch cluster is not accessible or when targeting a WAN/Cloud instance without the proper setting 'es.nodes.wan.only'

Подскажите может кто сталкивался \ как решали?
а доступен с машины эластик по адресу такому?
источник

SE

Stanislav Evstratov in Data Engineers
Доступен, по ssh
источник

GP

Grigory Pomadchin in Data Engineers
а 9200 порт?
источник

SE

Stanislav Evstratov in Data Engineers
А как это проверить?
источник

РА

Рамиль Ахмадеев... in Data Engineers
telnet
источник

РА

Рамиль Ахмадеев... in Data Engineers
)
источник

GP

Grigory Pomadchin in Data Engineers
или нетстат)
источник

SE

Stanislav Evstratov in Data Engineers
Эм... с удаленной машины на другую отправить запрос вида telnet user@ip:9200?
источник