大数据处理Q&A
面试常见的大数据相关问题
- https://anchorety.github.io/2019/08/14/%E9%9D%A2%E8%AF%95%E5%B8%B8%E8%A7%81%E7%9A%84%E5%A4%A7%E6%95%B0%E6%8D%AE%E7%9B%B8%E5%85%B3%E9%97%AE%E9%A2%98/
海量日志数据,提取出某日访问百度次数最多的那个IP?
- http://zoeyyoung.github.io/get-most-visit-ip.html
具体做法如下:
- 按照IP地址的Hash(IP)%1024值, 把海量IP日志分别存储到1024个小文件中.
- 对于每一个小文件, 构建一个以IP为key, 出现次数为value的HashMap, 同时记录当前出现次数最多的那个IP地址;
- 得到1024个小文件中的出现次数最多的IP, 再依据常规的排序算法得到总体上出现次数最多的IP.