spark reduceByKey和groupbyByKey区别

tangzehang 大数据相关五月 11, 2018

reduceByKey用于对每个key对应的多个value进行merge操作，最重要的是它能够在本地先进行me
Read More »

JAVA动态代理

tangzehang 大数据相关五月 4, 2018

Hadoop里的RPC实现就是用动态代理实现的。现在来看下一个简单的动态代理实现： package cn.b
Read More »

tangzehang 大数据相关五月 3, 2018

Hive数据倾斜的表现就是任务处在99%或者100%，但是却没有结束（偶尔还在100%时出现OOM现象）。原
Read More »

tangzehang 大数据相关五月 3, 2018

HBase表会分成N个region进行存储（相当于分区），每个region都有start-end key。默
Read More »

tangzehang 大数据相关五月 3, 2018

1：HDFS的增强，hadoop1 namenode是单点问题，hadoop2水平扩展出standby的nam
Read More »