关于举办大数据分析(Hadoop)与云计算实践培训班的通知
培训时间:2014年3月12日至3月17日(3月11日报到)杭州
2014年5月21日至5月26日(5月20日报到)成都
一、课程目标
本课程以大数据架构与案例为驱动,采用一个完整地案例贯穿整个课程,让学员体验大数据架构的企业价值。在课程中学员将被赋予企业架构师角色,通过剖析企业对大数据的主要需求,使学员感悟大数据架构设计的过程与价值。具体课程目标包括:
1. 全面掌握Hadoop的架构原理和使用场景;
2. 全程项目实战训练;
3. 彻底掌握使用Hadoop进行MapReduce程序开发;
4. 熟悉分布式计算领域的常用算法;
5. 掌握Hive、HBase使用与优化技巧。
6. 了解云计算的发展历史
7. 掌握云计算的实践应用
8. 学习云计算的核心技术
9. 通晓云计算的商业价值。
二、培训师资
钱兴会 大数据专家。在电信、电力、金融行业从事Java开发和架构设计的工作;资深云计算研发工程师。作为项目的主要成员和负责人参与并领导完成了多个大型复杂项目,并成功应用于行业解决方案,如海量数据匹配系统、电力行业实时数据采集分析系统等。设计并实现了实时索引系统-云搜,成功应用与某国企知识库系统。并可应用与互联网行业的搜索等应用。完成多个云计算解决方案的架构,涉及到金融韩行业海量数据分析与数据处理系统、海量日志分析系统、电力用电信息统计系统等,获得业界认可。
朱永春 十余年IT行业经验,IBM企业数据分析与大数据专家,数据中心系统架构设计,性能管理与容量评估专家,主要专业特长包括基础架构云平台设计、服务器及存储虚拟化、数据库优化、性能管理、容量评估等领域。具有丰富的教学和实践经验,对IT职业培训有深刻的理解。曾参与多家大型银行系统架构设计,在高可用性高性能大容量系统领域的虚拟化和大数据处理有深入的研究,能够结合实际,在复杂的应用环境中选择适合的分析技术来降低运维风险、缩短停机时间、提高系统及数据库性能。多次全国巡讲。授课过程理论与实践并重,深入浅出,讲课诙谐幽默、气氛活跃,深受广大学员好评。
三、学习对象
软件工程师、数据库开发人员、网络后台开发人员、运维人员;地方政府云计算物联网产业负责人;各地云计算中心负责人;云计算物联网产业规划负责人;云计算产业投资团队;云计算应用开发商;云计算硬件设备提供商;云服务运营服务提供商;高校、科研院所云计算项目负责人。
四、课程大纲
(专题:大数据分析与Hadoop开发)
日程 模块单元 模块单元
第
一
天 第1个主题:Hadoop的来源和动机
1.传统大规模系统存在的问题
2.对一种新的解决方案的需求
3.Hadoop应用案例解析
4.Hadoop 版本介绍
5.Hadoop与传统分布式环境的区别
第2个主题:Hadoop安装和部署准备
1. Hadoop系统模块组件概述
2. Hadoop试验集群的部署结构
3. Hadoop 安装依赖关系
4. Hadoop 生产环境的部署结构
第3个主题:Hadoop集群安装和部署
第4个主题:Hadoop组件详解
1. Hadoop HDFS 基本结构
2. Hadoop HDFS 副本存放策略
3. Hadoop NameNode 详解
4. Hadoop SecondaryNameNode 详解
5. Hadoop DataNode 详解
6. Hadoop JobTracker 详解 5.Mapper
6.Reducer
7.API 使用Eclipse进行快速开发
8.新MapReduce API
第4个主题:Hadoop 核心代码剖析
1. Hadoop Mapper 类核心代码剖析
2. Hadoop Reducer 类核心代码剖析
第5个主题:HDFS分布式文件系统编程
1. Hadoop HDFS 剖析
2. Hadoop NameNode 剖析
3. Hadoop DataNode 剖析
4. hadoop I/O 操作
5. 使用Hadoop HDFS API对HDFS编程
第5个主题
第
二
天
第1个主题:Hadoop MapReduce
1. Hadoop JobTracker 剖析
2.Hadoop TaskTracker 剖析
3.Hadoop 任务提交流程剖析
第2个主题: Hadoop MapReduce Streaming编程
1. Hadoop Streaming 和 Java MapReduce Api 差异
2. 使用 MapReduce 实现数据库功能
第3个主题:MapReduce分布式程序
1. MapReduce流程
2.剖析一个MapReduce程序
3.基本MapReduceAPI 概念
4.驱动代码
第4个主题:Hadoop Mapreduce高级编程
1.ToolRunner介绍
2.使用MRUnit进行测试
3.利用Combiners来减少中间数据
4.使用Configure和Close方法来进行Map/Reduce设置和关闭
5.编写Partitioner来优化负载平衡
6.直接访问Hadoop分布式文件系统(HDFS)
7.使用分布式缓存(Distributed Cache)
第5个主题:MapReduce的优化
1. map优化
2. reduce优化
3. 小文件优化
第6个主题:MapReduce的任务调度
1. Queue调度的使用
2. 公平调度的使用
3. 能力调度的使用
第7个主题Hadoop 生态系统介绍
分布式管理组件-Zookeeper
分布式数据仓库-Hive
分布式数据库-HBase
数据导入导出-Sqoop
工作流管理- Ozzie
Hadoop数据仓库-Hive
Hive基础
Hive的作用和原理说明
Hadoop仓库和传统数据仓库的协作关系;Hive与传统数据库的对接使用
Hadoop/Hive仓库数据数据流
第
三
天 Hadoop数据仓库-Hive
Hive Cli 的基本用法
HQL基本语法
自行编写数据库与Hadoop相互ETL工具的思路
Hadoop 分布式数据仓库-HBase
Hbase概念与架构
hbase核心知识点
hbase安装、部署
HBase配置优化综述
表设计优化相关参数
监控工具使用方法及注意事项
常见异常现象级处理方法
(第二专题:大数据与云计算架构)
日程 授课主题 课程安排
第
四
天
云计算概述 云的理想
云的挑战
发展的趋势
云是什么
不同工作负载适用不同的云
选择合适的云平台
几个云应用案例
我们身边的云
云架构 云多层架构视图
IaaS、PaaS与SaaS的定 位与异同
云平台的发展现状
云数据中心技术架构
IAAS云层的原理与应用 IaaS的基础:虚拟化
虚拟化相关技术
Power云部署方案介绍
VMWare云部署方案介绍
OpenStack云部署方案介绍
SONAS云存储方案介绍
应用实例
第
五
天
PaaS云层的原理与应用 PaaS的架构原理
基于WebSphere的PaaS设计实践
SaaS云层的原理与应用 SaaS的架构原理
一个公有云SaaS的设计实践
云计算的性能管理与容量规划 什么是性能容量管理
性能容量管理参考案例
压力测试基本理论
系统性能设计与调优
第
六
天 大数据云的原理与架构 存储子系统
传统文件系统
松耦合网络文件系统
共享存储文件系统
基于对象的存储子系统
大数据存储子系统
Google GFS
Haystack
Amazon Dynamo
Yahoo PNUTS
Google BigTable
云存储服务
Amazon Simple Storage Service
Google Storage for Developers
杭州云计算架构与大数据分析Hadoop开发应用培训
杭州电脑/网络相关信息
2022-04-06
2022-02-20
2022-01-07
2022-01-06
2021-12-30
2021-12-30
2021-12-28
2021-12-15
2021-12-12
2021-12-05