Hadoop大数据平台开发与案例分析

培训对象：业务支撑建设维护室、业务维护室、经营分析室人员；网络部、网管中心、网优中心从事大数据相关工作的人员

课程目标：掌握大数据处理平台（Hadoop、Spark、Storm）技术架构、以及平台的安装部署、运维配置、应用开发；掌握主流大数据Hadoop平台和Spark实时处理平台的技术架构和实际应用；利用Hadoop+Spark对行业大数据进行存储管理和分析挖掘的技术应用；讲解Hadoop生态系统组件，包括Storm，HDFS，MapReduce，HIVE，HBase，Spark，GraphX，MLib，Shark， ElasticSearch等大数据存储管理、分布式数据库、大型数据仓库、大数据查询与搜索、大数据分析挖掘

费用说明：（含教材、培训费、考证费以及学习用具等费用）

咨 / 询 / 热 / 线 18898361497

在线咨询

Hadoop大数据平台开发与案例分析所有班级

温馨提示：为了保证课程质量，每期报名人数有限，需提前预约。点击预约

免费预约

Hadoop大数据平台开发与案例分析课程介绍

（1）课程框架

时间		培训内容	教学方式
第一天	上午	第一部分：移动互联网、大数据、云计算相关技术介绍第二部分：大数据的挑战和发展方向	理论讲授案例分析
第一天	下午	第三部分：大数据文件存储系统技术和分布式文件系统平台及其应用第四部分：Hadoop文件系统HDFS** 佳实战	理论讲授案例分析小组讨论
第二天	上午	第五部分：Hadoop运维管理与性能调优第六部分：NOSQL数据库Hbase与Redis	理论讲授案例分析实战演练
第二天	下午	第七部分：类SQL语句工具——Hive 第八部分：数据挖掘SPARK建模基础介绍	理论讲授案例分析实战演练
第三天	上午	第九部分：Kafka基础介绍第十部分：大数据典型应用与开发案例分析：互联网数据运营	理论讲授案例分析
第三天	下午	第十一部分：当前数据中心的改造和转换分析-以国内外运营商、互联网公司为例第十二部分：课程总结与问题答疑评估培训	理论讲授案例分析小组讨论

详细培训内容介绍

课程模块	课程主题	主要内容及案例和演示
模块一	移动互联网、大数据、云计算相关技术介绍		1、数据中心与云计算技术应用 2、智慧城市与云计算技术应用 3、移动互联网、大数据与云计算关联技术 4、移动云计算的生态系统及产业链 5、大数据技术在运营商、金融业、银行业、电子商务行业、零售业、制造业、政务信息化、互联网、教育信息化等行业中的应用实践 6、国内外主流的大数据解决方案介绍 7、当前大数据解决方案与传统数据库方案的剖析比较 8、 Cloudera Hadoop 大数据平台方案剖析 9、开源的大数据生态系统平台剖析
模块二	大数据的挑战和发展方向		1、大数据时代的挑战 Ø 战略决策能力 Ø 技术开发和数据处理能力 Ø 组织和运营能力 2、大数据时代的发展方向 Ø 云计算是基础设施架构 Ø 大数据是灵魂资产 Ø 分析、挖掘是手段 Ø 发现和预测是**终目标 3、大数据挖掘在各行业应用情况 Ø 电信行业应用及案例分析 Ø 互联网行业应用及案例分析 Ø 金融行业应用及案例研究 Ø 销售行业应用案例分析
模块三	大数据文件存储系统技术和分布式文件系统平台及其应用		1、 Hadoop的发展历程 Ø Hadoop大数据平台架构 Ø 基于Hadoop平台的PB级大数据存储管理与分析处理的工作原理与机制 Ø Hadoop 的核心组件剖析 2、分布式文件系统HDFS Ø 概述、功能、作用、优势 Ø 应用范畴、应用现状 Ø 发展趋势 3、分布式文件系统HDFS架构及原理 Ø 核心关键技术 Ø 设计精髓 Ø 基本工作原理 Ø 系统架构 Ø 文件存储模式 Ø 工作机制 Ø 存储扩容与吞吐性能扩展 4、分布式文件系统HDFS操作 Ø SHELL命令操作 Ø I/O流式操作 Ø 文件数据读取、写入、追加、删除 Ø 文件状态查询 Ø 数据块分布机制 Ø 数据同步与一致性 Ø 元数据管理技术 Ø 主节点与从节点工作机制 Ø 大数据负载均衡技术 Ø HDFS大数据存储集群管理技术 5、 Hadoop生态系统组件 Ø Storm Ø HDFS Ø MapReduce Ø HIVE Ø HBase Ø Spark Ø GraphX Ø MLib Ø Shark
模块四	Hadoop文件系统HDFS** 佳实战		1、 HDFS的设计 2、 HDFS的概念 Ø 数据块 Ø namenode和datanode Ø 联邦HDFS Ø HDFS的高可用性 3、命令行接口 4、 Hadoop文件系统 5、 Java接口 Ø 从Hadoop URL读取数据 Ø FileSystem API读取数据 Ø 写入数据 Ø 目录 Ø 查询文件系统 Ø 删除数据 6、数据流 Ø 剖析文件读取 Ø 剖析文件写入 Ø 一致模型 7、 Flume和Sqoop导入数据 8、 **distcp并行复制 9、 Hadoop存档 Ø 使用Hadoop存档工具 Ø 不足
模块五	Hadoop运维管理与性能调优		1、第二代大数据处理框架 Ø Yarn的工作原理及 Ø DAG并行执行机制 Ø Yarn大数据分析处理案例分析 Ø Yarn 框架并行应用程序实践 2、集群配置管理 Ø Hadoop集群配置 Ø Hadoop性能调优与参数配置 Ø Hadoop机架感知策略与配置 Ø Hadoop压缩机制 Ø Hadoop任务负载均衡 Ø Hadoop 集群维护 Ø Hadoop监控管理 3、 HDFS的静态调优技巧 Ø HDFS 的高吞吐量I/O性能调优技巧 Ø MapReduce/Yarn的并行处理性能调优技巧 Ø Hadoop集群的运行故障剖析，以及解决方案 Ø 基于Hadoop大数据应用程序的性能瓶颈剖析与提 Ø Hadoop 大数据运维监控管理系统 HUE 平台的安装部署与应用配置 Ø Hadoop运维管理监控系统Ambari平台的安装部配置 Ø Hadoop 集群运维系统 Ganglia, Nagios的安装部署与应用配置
模块六	NOSQL数据库Hbase与Redis		1、 NOSQL基础 Ø CAP理论 Ø Base与ACID Ø NOSQL数据库存储类型键值存储列存储文档存储图形存储 2、 HBase分布式数据基础 3、安装Hbase 4、 Hbase应用 Ø HBase的逻辑数据模型，HBase的表、行、列族、列、单元格、版本、row key排序 Ø HBase的物理模型，命名空间（表空间）、表模式（Schema）的设计法则 Ø HBase 主节点HMaster的工作原理，HMaster的高可用配置，以及性能调优 Ø HBase 从节点RegionServer（分区服务节点）的工作原理，表分区及存储I/O高并发配置，以及性能调优 Ø HBase的存储引擎工作原理，以及HBase表数据的键值存储结构，以及HFile存储结构剖析 Ø HBase表设计与数据操作以及数据库管理操作 Ø HBase集群的安装部署、参数配置和性能优化 5、 HBase分布式数据库简介、发展历程、应用场景、工作原理、以及应用优势与不足之处 Ø HBase分布式数据库集群的主从式平台架构和关键技术剖析 Ø HBase伪分布式和物理集群分布式的控制与运行配置 Ø HBase从节点RegionServer（分区服务节点）的工作原理，表分区及存储I/O高并发配置，以及性能调优 Ø HBase的存储引擎工作原理，以及HBase表数据的键值存储结构，以及HFile存储结构剖析 Ø HBase表设计与数据操作以及数据库管理操作 Ø HBase集群的安装部署、参数配置和性能优化 Ø ZooKeeper分布式协调服务系统的工作原理、平台架构、集群部署应用实战 Ø ZooKeeper集群的原理架构，以及应用配置 6、 Redis内存数据库介绍，以及业界应用案例 Ø Redis内存数据库集群架构以及核心技术剖析 Ø Redis 集群的安装部署与应用开发实战
模块七	类SQL语句工具——Hive		1、安装Hive 2、示例 3、运行Hive Ø 配置Hive Ø Hive服务 Ø Metastore 4、 Hive与传统数据库相比 Ø 读时模式vs.写时模式 Ø 更新、事务和索引 5、 HiveQL Ø 数据类型 Ø 操作与函数 6、表 Ø 托管表和外部表 Ø 分区和桶 Ø 存储格式 Ø 导入数据 Ø 表的修改 Ø 表的丢弃 7、查询数据 Ø 排序和聚集 Ø MapReduce脚本 Ø 连接 Ø 子查询 Ø 视图 8、用户定义函数 Ø 写UDF Ø 写UDAF
模块八	数据挖掘SPARK建模基础介绍		1、 Spark简介 Ø Spark是什么 Ø Spark生态系统BDAS 2、 Spark架构 Ø Spark分布式架构与单机多核架构的异同 3、 Spark集群的安装与部署 Ø Spark的安装与部署 Ø Spark集群初试 4、 Spark硬件配置 Ø Spark硬件 Ø Spark硬件配置流程
模块九	Kafka基础介绍		1、 Kafka介绍 2、 kafka体系结构 3、 kafka设计理念简介 4、 kafka通信协议 5、 kafka的伪分布安装、集群安装 6、 kafka的shell操作、java操作 7、 kafka设计理念* 8、 kafka producer和consumer开发 9、 Kafka分布式消息订阅系统的应用介绍、平台架构、集群部署与配置应用实战 10、 Flume-NG数据采集系统的数据流模型、平台架构、集群部署与配置应用实战 11、 Hadoop与DBMS之间数据交互工具Sqoop的应用实践， 12、 Sqoop导入导出数据以及Sqoop集群部署与配置 13、 Kettle 集群的平台架构、核心技术、部署配置和应用实战 14、利用Sqoop实现 MySQL 与 Hadoop 集群之间
模块十	大数据典型应用与开发案例分析：互联网数据运营		1、案例1：贵州数据交易中心 Ø 交易所交易形式：电子交易 Ø 交易所服务：大数据交易、大数据清洗建模分析、大数据定向采购、大数据平台技术开发 Ø 大数据交易安全性探讨分析 Ø 数据交易中心商业模式探讨分析 2、案例2：大数据应用案例：公共交通线路的智能规划 Ø UrbanInsights：为公交公司提供基于订阅访问的大数据工具以及大数据咨询服务 Ø Urban Insights数据源、数据收集、数据仓库、数据分析——设计运营线路 Ø Urban Insights**互联网数据的运营 3、讨论：浙江移动大数据应用与开发方向
模块十一	当前数据中心的改造和转换分析-以国内外运营商、互联网公司为例		1、流商业大数据解决方案比较 2、主流开源云计算系统比较 3、国内外代表性大数据平台比较 4、各厂商** 新的大数据产品介绍 5、案例分析 Ø Facebook的SNS平台应用 Ø Google的搜索引擎应用 Ø Rackspace的日志处理 Ø Verizon成立精准市场营销部 Ø TelefonicaDynamicInsights推出的名为“智慧足迹”的商业服务 Ø 中国联通的“移动通信用户上网记录集中查询与分析支撑系统”
模块十二			课程总结与问题答疑

Hadoop大数据平台开发与案例分析所有班级

Hadoop大数据平台开发与案例分析课程介绍

最新课程

课程分类