大数据之火热,以致身边很多人对于大数据相关热门趋势及词汇都能随口就来。但如果问他大数据和他之间的关系,却很难能说出一二三来。
究其原因,大家置身于大数据环境下,耳濡目染各种新的概念,但是真正参与实践大数据的案例少之又少,造成了对大数据整体认知的缺失。
2010开始,大数据成为了分布式技术框架的别名,Hadoop开始频繁进入大家眼中,从此以后,hive,spark,flink等分布式计算框架如雨后春笋进入大家的开发工作环境中(当然大数据的薪资也开始水涨船高,远远高于其他同类开发)。
随着大数据技术的发展,传统基于关系型数据库的BI底层逐步被大数据替代。数据采集全面进入线上化,公司开始全量采集线上数据,全量存储用户行为数据作为分析数据源。传统的基于抽样的统计方式逐步被全量统计方式替换,原有技术框架支持不了的用户行为分析也逐步成为大数据分析场景的标准流程,基于单机的数据挖掘算法逐步被替换成分布式的机器学习和深度学习替代。
随着工具及算法的逐步完成,基于大数据做到千人千面的推送及定价方案已经成为可能。
有一个非常经典的案例:为提高在主营产品上的赢利,亚马逊在2000年9月中旬开始了著名的差别定价实验。