离线计算就是在计算开始前已知所有输入数据,输入数据不会产生变化,且在解决一个问题后就要立即得出结果的前提下进行的计算。在大数据中属于数据的计算部分,在该部分中与离线计算对应的则是实时计算。
在离线计算中,使用Hdfs存储数据,使用MapReduce做批量计算,计算完成的数据如需数据仓库的存储,直接存入Hive , 然后从Hive进行展现。
1、数据量巨大且保存时间长;
2、在大量数据上进行复杂的批量运算;
3、数据在计算之前已经完全到位,不会发生变化;
4、能够方便的查询批量计算的结果。