中小学生培训网>

深圳CDA数据分析师中心

欢迎您!
深圳CDA数据分析师中心

位置:深圳软件系统> 深圳数据库工程师> 深圳CDA数据分析师中心>深圳CDA数据分析周末集训班

深圳CDA数据分析周末集训班

深圳CDA数据分析周末集训班

课程学时: 详询

授课类型: 详询

开班时间: 详询

课程价格: 详询

QQ咨询:点击这里给我发消息

授课学校: 深圳CDA数据分析师中心

招生对象:学生、转行欲从业人士 在职数据分析师 对Python数据分析和挖掘感兴趣的业界人士 学习前有统计基础

开班人数:详询

优惠价格: 详询

课程介绍

QQ图片20181102113428.png


课程简介


CDA大数据分析师课程以大数据分析技术为主线,以大数据分析师为培养目标,从数据分析基础、linux操作系统入门知识学起,系统介绍Hadoop、HDFS、MapReduce、hive和Hbase等理论知识和基于Spark的大数据分析和机器学习知识,详细演示Hadoop三种模式的安装配置,以案例的形式,重点讲解基于PySpark技术的回归、分类和聚类分析等大数据分析案例。课程的重点是培养学员基于Hadoop架构的大数据分析实操能力,从零开始学习Scala编程,掌握Spark,手把手带练,3个月成为行业急需的大数据开发人才。讲解案例包括但不限于金融大数据分析、气象大数据分析、Web海量日志大数据分析、智慧高速大数据分析等。

学习目标


掌握使用Hadoop架构应用于大数据分析

掌握使用Hadoop核心组件Hbase和Hive数据仓库操作方法

掌握使用Spark-SQL进行数据的规约和处理

掌握使用Pyspark进行大数据分析和机器学习

掌握企业真实的大数据分析场景案例

学习对象


大数据业务工作迟迟得不到进展人士

针对数据分析、数据挖掘岗位转型、提拔涨薪、技能优化等的职场白领

未来准备从事大数据相关工作的计算机专业大学生人群

需要有统计学基础和编程基础最佳(Java或Python

课程大纲


第一章 大数据环境搭建

1.Linux入门基础

2.Hadoop入门介绍

3.Hadoop单机环境搭建

4.Hadoop伪分布式集群搭建

5.Hadoop完全分布式集群搭建

第二章 Hadoop核心组件使用方法

1.分布式文件系统HDFS架构原理及常用指令

2.HDFS编程入门

3.分布式数据库Hbase架构原理及常用指令

4.Hbase编程入门

5.分布式数据仓库Hive架构原理及HQL语法介绍

6.分布式计算引擎MapReduce架构原理及基本使用方法

7.资源调度器YARN基本原理

8.ETL工具Sqoop使用方法

第三章 分布式计算引擎Spark入门

1.Scala语法介绍

2.Spark架构特点及基本原理

3.Spark入门及安装部署方法

4.Spark Core介绍

5.Spark SQL介绍与数据读取、保存方法

6.Spark GraphX入门及基本使用方法

7.Spark GraphX图计算算法案例

第四章 Spark核心组件使用方法

1.日志采集系统Flume和分布式消息队列Kafka入门

2.流式计算框架Spark Streaming基本原理及使用方法

3.流式计算框架Structured Streaming基本原理及使用方法

4.分布式算法库Spark MlLib入门介绍

5.Spark ML与Spark MLLib

6.机器学习工作流

第五章 Python编程基础与数据清洗(线上)

1.Python编程基础:基本数据结构

2.Python编程基础:常用控制语句

3.NumPy基本数据结构和常用操作

4.Pandas基本数据结构和常用操作

5.Python数据清洗案例

第六章 统计学基础(线上)

1.描述性统计

2.常用统计量的解释与使用

3.抽样方法

4.假设检验

5.参数估计

6.方差分析

第七章 PySpark基础

1.Spark数据结构及编程语言接口

2.PySpark开发环境搭建

3.PySpark编程入门:Spark基本数据结构

4.PySpark编程入门:PySpark常用语句

5.Spark与分布式数据库和分布式数据仓库的集成方法

6.采用PySpark读取分布式数据库中数据

7.PySpark数据清洗案例

第八章 PySpark机器学习(线上)

1.机器学习入门

2.PySpark基于Spark ML的特征抽取、转化和选择方法

3.最近邻分类器KNN基本原理及ML实现

4.聚类分析基本原理

5.K-Means快速聚类基本原理

6.K-Means快速聚类的Spark ML实现方法

7.高斯混合模型(GMM)聚类算法的Spark实现

第九章 PySpark机器学习(二)

1.Spark MLLib统计分析

2.线性回归基本原理

3.线性回归的Spark ML实现方法

4.对数几率分布于Sigmoild函数

5.逻辑回归基本原理

6.逻辑回归的Spark ML实现方法

第十章 PySpark机器学习(三)

1.决策树模型的基本原理

2.决策树的Spark ML实现方法

3.随机森林基本原理

4.随机森林的Spark ML实现方法

5.关联规则算法入门:Apriori算法基本原理

6.利用FP-Growth挖掘关联规则

7.FP-Growth算法的Spark ML实现方法

8.带时序关系的关联规则挖掘算法Pre-FixSpan基本原理

9.Pre-FixSpan的Spark ML实现方法

第十一章 PySpark机器学习(四)

1.协同过滤在Spark ML中的实现方法

2.Spark机器学习流构建方法

3.Spark机器学习模型超参数调优方法

4.Spark机器学习模型自动选择方法

5.PySpark案例

第十二章 期末答辩

权威认证


权威 经管之家CDA LEVELⅢ数据科学家认证证书,行业顶尖人才认证,已获得IBM大数据大学,中国电信,苏宁,德勤,猎聘,CDMS等企业的认可。

专业 CDA认证是根据商业数据分析专业岗位设立的一套体系化、科学化、正规化的人才标准。全国统考、专家命题、评分公平、流程严格,更具含金量。

权益 持证人享有系列特殊权益。证书皆绑定考生真实身份,可在CDA官网查询,确保唯一性与防伪性。证书三年审核一次,保证持证人的实力与权益。

QQ图片20181102104556.png


更多培训课程,学习资讯,课程优惠,课程开班,学校地址等学校信息,请进入深圳CDA数据分析师中心网站详细了解,咨询电话:13923776320 ,咨询QQ:点击这里给我发消息

你也可以留下你的联系方式,让课程老师跟你详细解答: 在线咨询

我要预约试听