海量数据处理
- 海量数据处理
1.1 什么是数据处理
数据的存储 + 计算
1.2 什么是海量数据处理
数据量太大,无法在短时间内迅速解决,或者是数据太大,导致无法一次性装入内存的数据处理
1.3 海量数据处理的常用方法
-
巧用数据结构(bitmap、hash、布隆过滤器、堆)
-
分治法:把规模大的数据转化为规模小的数据,逐个击破
-
海量数据处理场景
-
40亿个QQ号,如何判断一个QQ号是否存在?
-
给定1000万个整数,内存限制1MB,如何对他们进行排序?
-
给定1GB单词,内存限制1MB,如何找到出现频率最高的100个单词?
-
内存限制4GB,如何对100亿URL查重?
-
1000万字符串,其中有些是重复的,需要去重,保留没有重复的字符串。请怎么设计和实现?
-
给定10亿个手机号,如何快速判断一个手机号是否存在?
-
海量数据处理方法应用