大数据 Data Science
大数据是什么?
“大数据”时代的到来,从我们经常使用的Waze, Facebook 以及 Shopee Lazada 等购物平台都在大规模地收集及应用海量数据。
以往我们一般都是先想好目的再去获取相应信息,而大数据则是尽可能占有最多的信息,遇到问题时再从这海量信息中挖掘解决方案,颠覆人们现有的做事逻辑。
它到底会如何改变这个世界?早期亚马逊雇佣了一群书评家为读者荐书,后来通过算法,集合一群普通读者的口味而推出的书单,并将不同的书单按用户的社交网络进行推送反而能带来更多的购买人群。于是,亚马逊就把书评家们都解雇了。这就是“大数据”的应用。
预测是大数据最大的用途之一。它不仅可以像亚马逊做的那样,为用户提供书单。 它也可以预测机票价格走势,为自费旅游者省钱;还能预测交通拥堵情况,帮助人们选择更好的时段和路线节省出行时间。
《麻省理工科技创业》(MIT Technology Review)报道说,英国伯明翰大学(University of Birmingham)的研究团队甚至开发出一种算法,可以精确预测人们在一天内将要去哪里,平均误差仅为20米。而传统的预测算法预测人们出行的平均误差高达1000米。
毕业后干啥?
重视数据的机构越来越多,常见的食品制造、零售电商、医疗制造、交通检测等都需要数据分析与处理,如优化库存,降低成本,预测消费者需求等。
需要的人才主要分成三大类:大数据系统研发、大数据应用开发、大数据分析。
热门职位有:
大数据平台搭建、系统设计、基础设施。
技能:计算机体系结构、网络架构、编程范式、文件系统、分布并行处理等。
解决大数据存储问题。
不同行业中,专门从事行业数据搜集、整理、分析,并依据数据做出行业研究、评估和预测的专业人员。在工作中通过运用工具,提取、分析、呈现数据,实现数据的商业意义。
作为一名数据分析师,至少需要熟练SPSS、STATISTIC、Eviews、SAS、大数据魔镜等数据分析软件中的一门,至少能用Acess等进行数据库开发,至少掌握一门数学软件如matalab、mathmatics进行新模型的构建,至少掌握一门编程语言。总之,一个优秀的数据分析师,应该业务、管理、分析、工具、设计都不落下。
做数据挖掘要从海量数据中发现规律,这就需要一定的数学知识,最基本的比如线性代数、高等代数、凸优化、概率论等。经常会用到的语言包括Python、Java、C或者C++,我自己用Python或者Java比较多。
有时用MapReduce写程序,再用Hadoop或者Hyp来处理数据,如果用Python的话会和Spark相结合。
哪里可以学习?
厦门大学
Sepang Selangor
Heriowatt University
Sepang Selangor