您好,欢迎来到诺达名师!
客服热线:18898361497

当前位置: 首页 > 公开课 > 项目综合 > Hadoop大数据平台开发与案例分析

Hadoop大数据平台开发与案例分析

培训对象: 业务支撑建设维护室、业务维护室、经营分析室人员;网络部、网管中心、网优中心从事大数据相关工作的人员

课程目标: 掌握大数据处理平台(Hadoop、Spark、Storm)技术架构、以及平台的安装部署、运维配置、应用开发;掌握主流大数据Hadoop平台和Spark实时处理平台的技术架构和实际应用;利用Hadoop+Spark对行业大数据进行存储管理和分析挖掘的技术应用;讲解Hadoop生态系统组件,包括Storm,HDFS,MapReduce,HIVE,HBase,Spark,GraphX,MLib,Shark, ElasticSearch等大数据存储管理、分布式数据库、大型数据仓库、大数据查询与搜索、大数据分析挖掘

费用说明: (含教材、培训费、考证费以及学习用具等费用)

咨 / 询 / 热 / 线 18898361497

在线咨询

Hadoop大数据平台开发与案例分析所有班级

温馨提示:为了保证课程质量,每期报名人数有限,需提前预约。点击预约

Hadoop大数据平台开发与案例分析课程介绍

1)课程框架

时间

培训内容

教学方式

第 一 天

上午

第 一部分:移动互联网、大数据、云计算相关技术介绍

第二部分:大数据的挑战和发展方向

理论讲授 案例分析

下午

第三部分:大数据文件存储系统技术和分布式文件系统平台及其应用

第四部分:Hadoop文件系统HDFS** 佳实战

理论讲授 案例分析 小组讨论

第二天

上午

第五部分:Hadoop运维管理与性能调优

第六部分:NOSQL数据库Hbase与Redis

理论讲授 案例分析 实战演练

下午

第七部分:类SQL语句工具——Hive

第八部分:数据挖掘SPARK建模基础介绍

理论讲授 案例分析 实战演练

第三天

上午

第九部分:Kafka基础介绍

第十部分:大数据典型应用与开发案例分析:互联网数据运营

理论讲授 案例分析

下午

第十一部分:当前数据中心的改造和转换分析-以国内外运营商、互联网公司为例

第十二部分:课程总结与问题答疑

评估培训

理论讲授 案例分析 小组讨论

详细培训内容介绍

课程模块

课程主题

主要内容案例和演示

模块一

移动互联网、大数据、云计算相关技术介绍

1、 数据中心与云计算技术应用

2、 智慧城市与云计算技术应用

3、 移动互联网、大数据与云计算关联技术

4、 移动云计算的生态系统及产业链

5、 大数据技术在运营商、金融业、银行业、电子商务行业、零售业、制造业、政务信息化、互联网、教育信息化等行业中的应用实践

6、 国内外主流的大数据解决方案介绍

7、 当前大数据解决方案与传统数据库方案的剖析比较

8、 Cloudera Hadoop 大数据平台方案剖析

9、 开源的大数据生态系统平台剖析

模块二

大数据的挑战和发展方向

1、 大数据时代的挑战

Ø 战略决策能力

Ø 技术开发和数据处理能力

Ø 组织和运营能力

2、 大数据时代的发展方向

Ø 云计算是基础设施架构

Ø 大数据是灵魂资产

Ø 分析、挖掘是手段

Ø 发现和预测是**终目标

3、 大数据挖掘在各行业应用情况

Ø 电信行业应用及案例分析

Ø 互联网行业应用及案例分析

Ø 金融行业应用及案例研究

Ø 销售行业应用案例分析

模块三

大数据文件存储系统技术和分布式文件系统平台及其应用

1、 Hadoop的发展历程

Ø Hadoop大数据平台架构

Ø 基于Hadoop平台的PB级大数据存储管理与分析处理的工作原理与机制

Ø Hadoop 的核心组件剖析

2、 分布式文件系统HDFS

Ø 概述、功能、作用、优势

Ø 应用范畴、应用现状

Ø 发展趋势

3、 分布式文件系统HDFS架构及原理

Ø 核心关键技术

Ø 设计精髓

Ø 基本工作原理

Ø 系统架构

Ø 文件存储模式

Ø 工作机制

Ø 存储扩容与吞吐性能扩展

4、 分布式文件系统HDFS操作

Ø SHELL命令操作

Ø I/O流式操作

Ø 文件数据读取、写入、追加、删除

Ø 文件状态查询

Ø 数据块分布机制

Ø 数据同步与一致性

Ø 元数据管理技术

Ø 主节点与从节点工作机制

Ø 大数据负载均衡技术

Ø HDFS大数据存储集群管理技术

5、 Hadoop生态系统组件

Ø Storm

Ø HDFS

Ø MapReduce

Ø HIVE

Ø HBase

Ø Spark

Ø GraphX

Ø MLib

Ø Shark

模块四

Hadoop文件系统HDFS** 佳实战

1、 HDFS的设计

2、 HDFS的概念

Ø 数据块

Ø namenode和datanode

Ø 联邦HDFS

Ø HDFS的高可用性

3、 命令行接口

4、 Hadoop文件系统

5、 Java接口

Ø 从Hadoop URL读取数据

Ø **FileSystem API读取数据

Ø 写入数据

Ø 目录

Ø 查询文件系统

Ø 删除数据

6、 数据流

Ø 剖析文件读取

Ø 剖析文件写入

Ø 一致模型

7、 **Flume和Sqoop导入数据

8、 **distcp并行复制

9、 Hadoop存档

Ø 使用Hadoop存档工具

Ø 不足

模块五

Hadoop运维管理与性能调优

1、 第二代大数据处理框架

Ø Yarn的工作原理及

Ø DAG并行执行机制

Ø Yarn大数据分析处理案例分析

Ø Yarn 框架并行应用程序实践

2、 集群配置管理

Ø Hadoop集群配置

Ø Hadoop性能调优与参数配置

Ø Hadoop机架感知策略与配置

Ø Hadoop压缩机制

Ø Hadoop任务负载均衡

Ø Hadoop 集群维护

Ø Hadoop监控管理

3、 HDFS的静态调优技巧

Ø HDFS 的高吞吐量I/O性能调优技巧

Ø MapReduce/Yarn的并行处理性能调优技巧

Ø Hadoop集群的运行故障剖析,以及解决方案

Ø 基于Hadoop大数据应用程序的性能瓶颈剖析与提

Ø Hadoop 大数据运维监控管理系统 HUE 平台的安装部署与应用配置

Ø Hadoop运维管理监控系统Ambari平台的安装部配置

Ø Hadoop 集群运维系统 Ganglia, Nagios的安装部署与应用配置

模块六

NOSQL数据库Hbase与Redis

1、 NOSQL基础

Ø CAP理论

Ø Base与ACID

Ø NOSQL数据库存储类型

 值存储

 存储

 文档存储

 图形存储

2、 HBase分布式数据基础

3、 安装Hbase

4、 Hbase应用

Ø HBase的逻辑数据模型,HBase的表、行、列族、列、单元格、版本、row key排序

Ø HBase的物理模型,命名空间(表空间)、表模式(Schema)的设计法则

Ø HBase 主节点HMaster的工作原理,HMaster的高可用配置,以及性能调优

Ø HBase 从节点RegionServer(分区服务节点)的工作原理,表分区及存储I/O高并发配置,以及性能调优

Ø HBase的存储引擎工作原理,以及HBase表数据的键值存储结构,以及HFile存储结构剖析

Ø HBase表设计与数据操作以及数据库管理操作

Ø HBase集群的安装部署、参数配置和性能优化

5、 HBase分布式数据库简介、发展历程、应用场景、工作原理、以及应用优势与不足之处

Ø HBase分布式数据库集群的主从式平台架构和关键技术剖析

Ø HBase伪分布式和物理集群分布式的控制与运行配置

Ø HBase从节点RegionServer(分区服务节点)的工作原理,表分区及存储I/O高并发配置,以及性能调优

Ø HBase的存储引擎工作原理,以及HBase表数据的键值存储结构,以及HFile存储结构剖析

Ø HBase表设计与数据操作以及数据库管理操作

Ø HBase集群的安装部署、参数配置和性能优化

Ø ZooKeeper分布式协调服务系统的工作原理、平台架构、集群部署应用实战

Ø ZooKeeper集群的原理架构,以及应用配置

6、 Redis内存数据库介绍,以及业界应用案例

Ø Redis内存数据库集群架构以及核心技术剖析

Ø Redis 集群的安装部署与应用开发实战

模块七

类SQL语句工具——Hive

1、 安装Hive

2、 示例

3、 运行Hive

Ø 配置Hive

Ø Hive服务

Ø Metastore

4、 Hive与传统数据库相比

Ø 读时模式vs.写时模式

Ø 更新、事务和索引

5、 HiveQL

Ø 数据类型

Ø 操作与函数

6、 

Ø 托管表和外部表

Ø 分区和桶

Ø 存储格式

Ø 导入数据

Ø 表的修改

Ø 表的丢弃

7、 查询数据

Ø 排序和聚集

Ø MapReduce脚本

Ø 连接

Ø 子查询

Ø 视图

8、 用户定义函数

Ø 写UDF

Ø 写UDAF

模块八

数据挖掘SPARK建模基础介绍

1、 Spark简介

Ø Spark是什么

Ø Spark生态系统BDAS

2、 Spark架构

Ø Spark分布式架构与单机多核架构的异同

3、 Spark集群的安装与部署

Ø Spark的安装与部署

Ø Spark集群初试

4、 Spark硬件配置

Ø Spark硬件

Ø Spark硬件配置流程

模块九

Kafka基础介绍

1、 Kafka介绍

2、 kafka体系结构

3、 kafka设计理念简介

4、 kafka通信协议

5、 kafka的伪分布安装、集群安装

6、 kafka的shell操作、java操作

7、 kafka设计理念*

8、 kafka producer和consumer开发

9、 Kafka分布式消息订阅系统的应用介绍、平台架构、集群部署与配置应用实战

10、 Flume-NG数据采集系统的数据流模型、平台架构、集群部署与配置应用实战

11、 HadoopDBMS之间数据交互工具Sqoop的应用实践,

12、 Sqoop导入导出数据以及Sqoop集群部署与配置

13、 Kettle 集群的平台架构、核心技术、部署配置和应用实战

14、 利用Sqoop实现 MySQL  Hadoop 集群之间

模块十

大数据典型应用与开发案例分析:互联网数据运营

1、 案例1:贵州数据交易中心

Ø 交易所交易形式:电子交易

Ø 交易所服务:大数据交易、大数据清洗建模分析、大数据定向采购、大数据平台技术开发

Ø 大数据交易安全性探讨分析

Ø 数据交易中心商业模式探讨分析

2、 案例2:大数据应用案例:公共交通线路的智能规划

Ø UrbanInsights为公交公司提供基于订阅访问的大数据工具以及大数据咨询服务

Ø Urban Insights数据数据收集数据仓库数据分析——设计运营线路

Ø Urban Insights**互联网数据的运营

3、 讨论:浙江移动大数据应用与开发方向

模块十一

当前数据中心的改造和转换分析-以国内外运营商互联网公司为例

1、 流商业大数据解决方案比较

2、 主流开源云计算系统比较 

3、 国内外代表性大数据平台比较 

4、 各厂商** 新的大数据产品介绍

5、 案例分析

Ø Facebook的SNS平台应用

Ø Google的搜索引擎应用

Ø Rackspace的日志处理

Ø Verizon成立精准市场营销部

Ø TelefonicaDynamicInsights推出的名为“智慧足迹”的商业服务

Ø 中国联通的“移动通信用户上网记录集中查询与分析支撑系统”

模块十二

课程总结与问题答疑

最新课程

新会计法 新公司法 金四下财税合规账务清理

  • 深圳2025-03-14
  • 深圳2025-05-09
  • 深圳2025-07-04

管理者的财务思维:懂报表,通逻辑,做决策

  • 深圳2025-04-18
  • 深圳2025-06-20
  • 深圳2025-08-01

区域经理业务推动增长班

  • 广州2025-12-29
  • 成都2025-10-23
  • 杭州2025-08-14

金牌店长业绩增长破局班

  • 杭州2025-01-16
  • 成都2025-02-27
  • 广州2025-03-27

制造业全面精益生产降本增效推行策略及成功案例解析

  • 深圳2025-04-11
  • 深圳2025-05-27
  • 深圳2025-07-22

IE标准工时与劳动定额培训

  • 深圳2025-07-01
  • 深圳2025-10-27
  • 深圳2025-05-08

IE工业工程——精益现场改善利器(工厂实战版)

  • 深圳2025-03-28
  • 深圳2025-05-20
  • 深圳2025-07-16
点击在线咨询 在线咨询 电话咨询 电话咨询

咨询热线:

18898361497

扫二维码 扫二维码 二维码 返回
顶部