Телеграмм чат группы hadoopusers страница 2656

  with beam.Pipeline(options=pipeline_options) as p:

        input = (p
             | 'ReadInput' >> beam.io.ReadFromPubSub(topic=known_args.input_topic).with_output_types(six.binary_type)
             | 'Decode' >> beam.Map(decode_message)
             | 'Parse' >> beam.Map(parse_json)
            )

        source_pipeline_name = 'source_data'
        source_data = (input
             | 'etl' >> beam.Map(etl)
                        )

        join_pipeline_name = 'ident_data'
        ident_data = (
            input
            | 'ident' >> beam.Map(identity)

        )

        identify_users = (
            ident_data
            | 'filter not exist user' >> beam.Filter(lambda x: x['is_exist'] == 0)
            | 'select additional field' >> beam.Map(write_new)
            | 'write new user to db' >> beam.io.WriteToBigQuery(
                known_args.output_table,
                schema='ident:STRING, user_id:STRING',
                write_disposition=beam.io.BigQueryDisposition.WRITE_APPEND
             )

        )

        common_key = 'ident'
        pipelines_dictionary = {source_pipeline_name: source_data,
                                join_pipeline_name: ident_data}
        test_pipeline = (pipelines_dictionary
                         | 'Left join' >> LeftJoin(
                            source_pipeline_name, source_data,
                            join_pipeline_name, ident_data, common_key)


                         | 'print' >> beam.Map(print_ln)

                         )

источник

21:00пожаловаться #10

Panchenko Andrey in Data Engineers

Переслано от Panchenko Andrey

на принт ничего не отдает

источник

21:00пожаловаться #11

Panchenko Andrey in Data Engineers

Переслано от Panchenko Andrey

вот используемые классы

источник

21:00пожаловаться #12

Panchenko Andrey in Data Engineers

Переслано от Panchenko Andrey

 class LeftJoin(beam.PTransform):
    """This PTransform performs a left join given source_pipeline_name, source_data,
     join_pipeline_name, join_data, common_key constructors"""

    def __init__(self, source_pipeline_name, source_data, join_pipeline_name, join_data, common_key):
        self.join_pipeline_name = join_pipeline_name
        self.source_data = source_data
        self.source_pipeline_name = source_pipeline_name
        self.join_data = join_data
        self.common_key = common_key

    def expand(self, pcolls):
        def _format_as_common_key_tuple(data_dict, common_key):
            return data_dict[common_key], data_dict

        """This part here below starts with a python dictionary comprehension in case you 
        get lost in what is happening :-)"""
        return ({pipeline_name: pcoll
                                | 'Convert to ({0}, object) for {1}'
                .format(self.common_key, pipeline_name)
                                >> beam.Map(_format_as_common_key_tuple, self.common_key)
                 for (pipeline_name, pcoll) in pcolls.items()}
                | 'CoGroupByKey {0}'.format(pcolls.keys()) >> beam.CoGroupByKey()
                | 'Unnest Cogrouped' >> beam.ParDo(UnnestCoGrouped(),
                                                   self.source_pipeline_name,
                                                   self.join_pipeline_name)
                )


class UnnestCoGrouped(beam.DoFn):
    """This DoFn class unnests the CogroupBykey output and emits """

    def process(self, input_element, source_pipeline_name, join_pipeline_name):
        group_key, grouped_dict = input_element
        join_dictionary = grouped_dict[join_pipeline_name]
        source_dictionaries = grouped_dict[source_pipeline_name]
        for source_dictionary in source_dictionaries:
            try:
                source_dictionary.update(join_dictionary[0])
                yield source_dictionary
            except IndexError:  # found no join_dictionary
                yield source_dictionary


class LogContents(beam.DoFn):
    """This DoFn class logs the content of that which it receives """

    def process(self, input_element):
        logging.info("Contents: {}".format(input_element))
        logging.info("Contents type: {}".format(type(input_element)))
        logging.info("Contents Access input_element['ident']: {}".format(input_element['ident']))
        return

источник

21:00пожаловаться #13

Panchenko Andrey in Data Engineers

Переслано от Panchenko Andrey

Или может есть просто готовый кусок кода для группиррвки двух сорсов по ключу и для записи в базу

источник

21:00пожаловаться #14

Panchenko Andrey in Data Engineers

Переслано от Panchenko Andrey

А то мучаюсь два дня уже

источник

21:00пожаловаться #15

El-Yaz in Data Engineers

Panchenko Andrey

Переслано от Panchenko Andrey

А то мучаюсь два дня уже

Совет как решить проблему не дам, а вот совет как код выдавать - дам: не кидай это полотно на 3 экрана в чат плз, юзай gist или pastebin

источник

22:30пожаловаться #16

Panchenko Andrey in Data Engineers

Спс

источник

22:30пожаловаться #17

2020 August 23

Panchenko Andrey in Data Engineers

Ребята привет. помогите плизз ничего у меня так и не вышло с мерджем двух словарей
https://pastebin.com/zTvpBt2r

Pastebin

import apache_beam as beamdef join_dict(ident, source): return {**ident - Pastebin.com

Pastebin.com is the number one paste tool since 2002. Pastebin is a website where you can store text online for a set period of time.

источник

13:24пожаловаться #18

Panchenko Andrey in Data Engineers

Apache beam, python

источник

13:25пожаловаться #19

El-Yaz in Data Engineers

Запускаю elastic search sink connector для kafka, указал оба .properties, с шела не стартует скрипт: java.lang.NoClassDefFoundError: com/google/common/collect/ImmutableSet
коннектор скачал с https://www.confluent.io/hub/confluentinc/kafka-connect-elasticsearch напрямую. гугл подсказал добавить гуаву к проекту: https://stackoverflow.com/a/18699682/5151861
добавил с dependencies, ошибка не исчезла и потом осознал, что раню с шела, а не мавеном, поэтому чуда и не случается.
Возможно, была у кого такая проблема и знает как ее решать?

www.confluent.io

Kafka Connect Elasticsearch

Confluent, founded by the creators of Apache Kafka, delivers a complete execution of Kafka for the Enterprise, to help you run your business in real time.

источник

21:57пожаловаться #20