spark reduceByKey和groupbyByKey区别

reduceByKey用于对每个key对应的多个value进行merge操作,最重要的是它能够在本地先进行merge操作,并且merge操作可以通过函数自定义。

groupByKey也是对每个key进行操作,但只生成一个sequence。最后还是要利用map操作对这些sequence进一步操作.


发表评论