Телеграмм чат группы hadoopusers страница 1708

19:22пожаловаться #4

Но в reduce не вижу сравнения ключей на схожесть, только цикл со счетчиком
Кто-нибудь может подсказать как он работает?

19:23пожаловаться #5

Alexander S in Data Engineers

В редьюсер попадают записи только с одним ключом

19:30пожаловаться #6

вот сигнатура метода reduce(Text key, Iterable<IntWritable> values, Context context)
здесь перечисление values, это все значения из словаря что-ли?

19:34пожаловаться #7

один ключ, и все значения словаря в метод попадут?

19:34пожаловаться #8

Да

19:35пожаловаться #9

Может быть попадут все values из словаря по ключу key?

19:36пожаловаться #10

иначе странно получается

19:36пожаловаться #11

стоп

19:39пожаловаться #12

что значит значения словаря

19:39пожаловаться #13

Вот словарь ключ => значение
Собака 1
Корова 1
Собака 1
Лягушка 1

19:39пожаловаться #14

Тут у одного ключа (Собака) есть два значения

19:40пожаловаться #15

2 раза по 1 придет

19:40пожаловаться #16

если я правильно помню реализацию:
делается map в мэпере, результаты пишутся в буфер, буфер СОРТИРУЕТСЯ и кидается на диск

редьюсеры забирают данные с множества мэперов, соответственно это классический sorted merge по файлам получается и на одинаковые ключи вызывается функция reduce

имеется доп оптимизация когда можно первый раз применить функцию reduce ещё на стороне map
это снижает объем записываемых и передаваемых по сети данных

19:42пожаловаться #17

https://hadoop.apache.org/docs/r1.2.1/mapred_tutorial.html#Mapper

Users can optionally specify a combiner, via JobConf.setCombinerClass(Class), to perform local aggregation of the intermediate outputs, which helps to cut down the amount of data transferred from the Mapper to the Reducer.

19:43пожаловаться #18

он называется там комбайнер и можно свой вкинуть, не обязательно от редьюсера класс

19:44пожаловаться #19

а вот в монге редьюсер и комбайнер должны иметь одинаковую сигнатуру =)