大数据处理Q&A

面试常见的大数据相关问题

  • https://anchorety.github.io/2019/08/14/%E9%9D%A2%E8%AF%95%E5%B8%B8%E8%A7%81%E7%9A%84%E5%A4%A7%E6%95%B0%E6%8D%AE%E7%9B%B8%E5%85%B3%E9%97%AE%E9%A2%98/

海量日志数据,提取出某日访问百度次数最多的那个IP?

  • http://zoeyyoung.github.io/get-most-visit-ip.html

具体做法如下:

  1. 按照IP地址的Hash(IP)%1024值, 把海量IP日志分别存储到1024个小文件中.
  2. 对于每一个小文件, 构建一个以IP为key, 出现次数为value的HashMap, 同时记录当前出现次数最多的那个IP地址;
  3. 得到1024个小文件中的出现次数最多的IP, 再依据常规的排序算法得到总体上出现次数最多的IP.