新故相推舒书卷,,,,,又踏层峰望眼开。。2019年5月11日-12日,,,,,“大数据漫衍式盘算与机械学习”Workshop在pg电子模拟器1号楼101课堂举行。。pg电子模拟器治理学院商务统计与经济计量系主任王汉生教授出席活动,,,,,中央财经大学统计与数学学院副院长李丰教授受邀为加入的200余名同砚教学了大数据漫衍式盘算手艺和机械学习等前沿手艺和头脑。。

活动伊始,,,,,李丰先生首先提出了大数据带来的两个基础挑战:怎样无邪地操作海量数据?????怎样高效地从海量数据中获取价值?????漫衍式系统(包括漫衍式存储系统和漫衍式盘算系统)为这两个问题的解决搭建了桥梁。。现在普遍使用的漫衍式系统有Hadoop、Spark等。。
李先生向同砚们介绍了Hadoop的生长简史,,,,,并详细介绍了Hadoop 漫衍式存储系统(HDFS ) 和漫衍式盘算框架(MapReduce)。。Hadoop 解放了数据科学家(程序员)的双手,,,,,由于古板的并行盘算需要思量通讯、负载、存储、使命切割等多个专业的盘算机领域,,,,,资深的程序员也纷歧定能胜任。。但有了Hadoop,,,,,任何一个数据剖析问题只需要界说为一个Mapper函数和一个Reducer 函数即可。。

随后,,,,,李先生又为同砚们介绍了基于Hadoop的数据客栈工具——hive。。hive可以将结构化的数据文件映射为一张数据库表,,,,,并提供简朴的SQL盘问功效。。他还详细介绍了Hive的适用场景及基本操作。。理论解说后,,,,,李先生又向导同砚们上机实操统计词频。。

越日的分享中,,,,,李先生向同砚们解说了另一种漫衍式系统Spark以及介绍了Spark MLlib 内置的机械学习模子。。Spark是一个开源集群运算框架,,,,,使用了存储器内运算手艺,,,,,能在数据尚未写入硬盘时即在存储器内剖析运算。。Spark在存储器内运行程序的运算速率能做到比Hadoop MapReduce的运算速率快上100倍。。即即是运行程序于硬盘时,,,,,Spark也能快上10倍速率。。可是是否Spark更优于Hadoop呢?????李先生将Spark形象地比作小轿车,,,,,而Hadoop更像是自行车。。我们既需要小轿车也需要自行车。。随后,,,,,李先生向导同砚们上机实践了在Spark中实现逻辑回归。。

在短短两天的课程中,,,,,同砚们收获颇丰,,,,,并在课后纷纷交流自己的课程心得,,,,,李丰先心理论与实践相连系的教学气概深受同砚们的好评。。希望此次课程能够为同砚们翻开大数据的大门,,,,,未来仍有辽阔的数据海洋需要同砚们自己去探索。。
相关介绍:
李丰,,,,,现任中央财经大学统计与数学学院副院长,,,,,大数据剖析专业硕士导师,,,,,中国统计教育学会高等教育分会会副秘书长。。博士结业于瑞典斯德哥尔摩大学,,,,,研究领域包括贝叶斯盘算,,,,,统计预测,,,,,多元Copula模子等。。曾获瑞典皇家统计学会Cramér 奖,,,,,国际贝叶斯学会青年奖励基金,,,,,瑞典 Knut & Alice Wallenberg基金奖励,,,,,第二届天下高校经管类实验教学案例大赛二等奖。。著有《Bayesian Modeling of Conditional Densities》和《大数据漫衍式盘算与案例》,,,,,在International Journal of Forecasting,,,,,Scandinavian Journal of Statistics,,,,,Journal of Statistical Planning and Inference,,,,,BMJ Open等期刊揭晓多篇学术论文。。