Size: a a a

2019 November 18

S

Sergii in Data Engineers
Alexey Evdokimov
в кровавом ынторпрайзе всё просто. заказчик говорит "у нас вот такая корпоративная шина™ (какая-нибудь конкретная MQ) и вы работаете с ней. потому что наши опсы никакую другую сапортить в нашем контуре не будут". и в итоге городишь на стороне своего консумера обвязку...
Плюсую, тоже такое видел. И не только с шиной, но и с compute, monitoring, storage.
источник

AZ

Anton Zadorozhniy in Data Engineers
щас везде уже коммит лог брокеры, даже в самом кровавом энтерпрайзе, если не кафка то какой-нибудь Azure Event Hub
источник

AZ

Anton Zadorozhniy in Data Engineers
и да, multiple consumers и масштабируемость на запись при всех гарантиях решают
источник

AS

Anton Shelin in Data Engineers
Я не спец в реббите могу сказать глупость. но например если мы уже обработали кусок записей с чекпоинтами или подтверждениями то в реббите в очереди уже ничего не будет а в кафке будет как минимум указанный ретеншн период. что например позволит перезапустить вычисление за последние сутки
источник

AS

Anton Shelin in Data Engineers
наша практика в конторе показала что реббит конечно можно завернуть и приготовить но мучений слишком много. и если нужна система для обработки данных то проще взять кафку и получить кучу гарантий. а у нас бывало что реббит умирал от нагрузки
источник

AZ

Anton Zadorozhniy in Data Engineers
ну тут все от ваших требований зависит, например если вам нужен selective acking или TTL/dead letter - будете городить с велосипеды с кафкой
источник

AS

Anton Shelin in Data Engineers
Anton Zadorozhniy
ну тут все от ваших требований зависит, например если вам нужен selective acking или TTL/dead letter - будете городить с велосипеды с кафкой
я не говорю что все надо заменить на кафку. если надо сложный роутинг и другие паттерны то надо брать mq а для аналитики гораздо проще взять кафку. В общем надо знать задачу и возможности систем
источник

A

Alex in Data Engineers
ну вот про это и речь =)
если есть возможность то конечный выбор исходя из задачи, а не “Х решает все проблемы всегда”
источник

AZ

Anton Zadorozhniy in Data Engineers
pulsar кстати умеет selective acking
источник

A

Alex in Data Engineers
но там насколько помню в этом случае нельзя batch комитить
по одному подтверждения уходят
источник

AZ

Anton Zadorozhniy in Data Engineers
там и другие проблемки есть, у кафки более straight forward дизайн тут
источник

GP

Grigory Pomadchin in Data Engineers
Кстати говоря превьюха то спарка 3 запаблишена на мавен сентрал! https://mvnrepository.com/artifact/org.apache.spark/spark-core_2.12/3.0.0-preview
источник

OP

O. Petr in Data Engineers
Подкидывая дрова : В блоге Pivotal, компании, поддерживающей? RabbitMQ, Apache Kafka упоминается как хороший выбор, где требуется "поток данных от A до B без сложной маршрутизации с максимальной пропускной способностью" (англ. «Stream from A to B without complex routing, with maximal throughput»). https://content.pivotal.io/blog/understanding-when-to-use-rabbitmq-or-apache-kafka
источник

VS

Valasovich Siarhei in Data Engineers
Привет всем, кто использовал Flink и Spark Streaming? Какие впечатления и что по производительности?)
источник

РА

Рамиль Ахмадеев in Data Engineers
я после использования и того и другого, больше склоняюсь к Флинку из-за удобства в разработке
источник

РА

Рамиль Ахмадеев in Data Engineers
да и по субъективным ощущениям он стабильнее
источник

РА

Рамиль Ахмадеев in Data Engineers
но опыт был не большой совсем
источник

РА

Рамиль Ахмадеев in Data Engineers
по производительности - в инетах пишут флинк быстрее
источник

DM

Daniel Matveev in Data Engineers
смотря что под быстро понимать, отклики или пропускную способность
источник

DM

Daniel Matveev in Data Engineers
пару лет назад по откликам вроде как был лучше, по пропускной кейс от кейса
источник