图书介绍

Hadoop核心技术【2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载】

Hadoop核心技术
  • 翟周伟著 著
  • 出版社: 北京:机械工业出版社
  • ISBN:9787111494683
  • 出版时间:2015
  • 标注页数:387页
  • 文件大小:45MB
  • 文件页数:405页
  • 主题词:数据处理软件

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

Hadoop核心技术PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

基础篇2

第1章 认识Hadoop2

1.1 缘于搜索的小象2

1.1.1 Hadoop的身世2

1.1.2 Hadoop简介3

1.1.3 Hadoop发展简史6

1.2 大数据、Hadoop和云计算7

1.2.1 大数据7

1.2.2 大数据、Hadoop和云计算的关系8

1.3 设计思想与架构9

1.3.1 数据存储与切分9

1.3.2 MapReduce模型11

1.3.3 MPI和MapReduce13

1.4 国外Hadoop的应用现状13

1.5 国内Hadoop的应用现状17

1.6 Hadoop发行版20

1.6.1 Apache Hadoop20

1.6.2 Cloudera Hadoop20

1.6.3 Hortonworks Hadoop发行版21

1.6.4 MapR Hadoop发行版22

1.6.5 IBM Hadoop发行版24

1.6.6 Intel Hadoop发行版24

1.6.7 华为Hadoop发行版25

1.7 小结26

第2章 Hadoop使用之初体验27

2.1 搭建测试环境27

2.1.1 软件与准备27

2.1.2 安装与配置28

2.1.3 启动与停止29

2.2 算法分析与设计31

2.2.1 Map设计31

2.2.2 Reduce设计32

2.3 实现接口32

2.3.1 Java API实现33

2.3.2 Streaming接口实现36

2.3.3 Pipes接口实现38

2.4 编译40

2.4.1 基于Java API实现的编译40

2.4.2 基于Streaming实现的编译40

2.4.3 基于Pipes实现的编译41

2.5 提交作业41

2.5.1 基于Java API实现作业提交41

2.5.2 基于Streaming实现作业提交42

2.5.3 基于Pipes实现作业提交43

2.6 小结44

第3章 Hadoop存储系统45

3.1 基本概念46

3.1.1 NameNode46

3.1.2 DateNode46

3.1.3 客户端47

3.1.4 块47

3.2 HDFS的特性和目标48

3.2.1 HDFS的特性48

3.2.2 HDFS的目标48

3.3 HDFS架构49

3.3.1 Master/Slave架构49

3.3.2 NameNode和Secondary NameNode通信模型51

3.3.3 文件存取机制52

3.4 HDFS核心设计54

3.4.1 Block大小54

3.4.2 数据复制55

3.4.3 数据副本存放策略56

3.4.4 数据组织57

3.4.5 空间回收57

3.4.6 通信协议58

3.4.7 安全模式58

3.4.8 机架感知59

3.4.9 健壮性59

3.4.10 负载均衡60

3.4.11 升级和回滚机制62

3.5 HDFS权限管理64

3.5.1 用户身份64

3.5.2 系统实现65

3.5.3 超级用户65

3.5.4 配置参数65

3.6 HDFS配额管理66

3.7 HDFS的缺点67

3.8 小结68

第4章 HDFS的使用69

4.1 HDFS环境准备69

4.1.1 HDFS安装配置69

4.1.2 HDFS格式化与启动70

4.1.3 HDFS运行检查70

4.2 HDFS命令的使用71

4.2.1 fs shell71

4.2.2 archive77

4.2.3 distcp78

4.2.4 fsck81

4.3 HDFS Java API的使用方法82

4.3.1 Java API简介82

4.3.2 读文件82

4.3.3 写文件86

4.3.4 删除文件或目录90

4.4 C接口libhdfs91

4.4.1 libhdfs介绍91

4.4.2 编译与部署91

4.4.3 libhdfs接口介绍92

4.4.4 libhdfs使用举例95

4.5 WebHDFS接口97

4.5.1 WebHDFS REST API简介97

4.5.2 WebHDFS配置98

4.5.3 WebHDFS使用98

4.5.4 WebHDFS错误响应和查询参数101

4.6 小结103

第5章 MapReduce计算框架104

5.1 Hadoop MapReduce简介104

5.2 MapReduce模型105

5.2.1 MapReduce编程模型105

5.2.2 MapReduce实现原理106

5.3 计算流程与机制108

5.3.1 作业提交和初始化108

5.3.2 Mapper110

5.3.3 Reducer111

5.3.4 Reporter和OutputCollector112

5.4 MapReduce的输入/输出格式113

5.4.1 输入格式113

5.4.2 输出格式118

5.5 核心问题124

5.5.1 Map和Reduce数量124

5.5.2 作业配置126

5.5.3 作业执行和环境127

5.5.4 作业容错机制129

5.5.5 作业调度131

5.6 有用的MapReduce特性132

5.6.1 计数器132

5 6 2 DistributedCache134

5.6.3 Tool135

5.6.4 IsolationRunner136

5.6.5 Profiling136

5.6.6 MapReduce调试136

5.6.7 数据压缩137

5.6.8 优化138

5.7 小结138

第6章 Hadoop命令系统139

6.1 Hadoop命令系统的组成139

6.2 用户命令141

6.3 管理员命令144

6.4 测试命令148

6.5 应用命令156

6.6 Hadoop的streaming命令163

6.6.1 streaming命令163

6.6.2 参数使用分析164

6.7 Hadoop的pipes命令168

6.7.1 pipes命令168

6.7.2 参数使用分析169

6.8 小结170

高级篇172

第7章 MapReduce深度分析172

7.1 MapReduce总结构分析172

7.1.1 数据流向分析172

7.1.2 处理流程分析174

7.2 MapTask实现分析176

7.2.1 总逻辑分析176

7.2.2 Read阶段178

7.2.3 Map阶段178

7.2.4 Collector和Partitioner阶段180

7.2.5 Spill阶段181

7.2.6 Merge阶段185

7.3 ReduceTask实现分析186

7.3.1 总逻辑分析186

7.3.2 Shuffle阶段187

7.3.3 Merge阶段189

7.3.4 Sort阶段190

7.3.5 Reduce阶段191

7.4 JobTracker分析192

7.4.1 JobTracker服务分析192

7.4.2 JobTracker启动分析193

7.4.3 JobTracker核心子线程分析195

7.5 TaskTracker分析201

7.5.1 TaskTracker启动分析201

7.5.2 TaskTracker核心子线程分析205

7.6 心跳机制实现分析207

7.6.1 心跳检测分析207

7.6.2 TaskTracker.transmitHeart-Beat()207

7.6.3 JobTracker.heartbeat()209

7.6.4 JobTrackerprocessHeartbeat()212

7.7 作业创建分析213

7.7.1 初始化分析214

7.7.2 作业提交分析215

7.8 作业执行分析217

7.8.1 JobTracker初始化218

7.8.2 TaskTracker.startNewTask()220

7.8.3 TaskTracker.localizeJob()220

7.8.4 TaskRunner.run()221

7.8.5 MapTask.run()222

7.9 小结223

第8章 Hadoop Streaming和Pipes原理与实现224

8.1 Streaming原理浅析224

8.2 Streaming实现架构226

8.3 Streaming核心实现机制227

8.3.1 主控框架实现227

8.3.2 用户进程管理228

8.3.3 框架和用户程序的交互229

8.3.4 PipeMapper和PiperReducer230

8.4 Pipes原理浅析231

8.5 Pipes实现架构233

8.6 Pipes核心实现机制234

8.6.1 主控类实现234

8.6.2 用户进程管理235

8.6.3 PipesMapRunner235

8.6.4 PipesReducer238

8.6.5 C++端HadoopPipes238

8.7 小结239

第9章 Hadoop作业调度系统240

9.1 作业调度概述241

9.1.1 相关概念241

9.1.2 作业调度流程242

9.1.3 集群资源组织与管理243

9.1.4 队列控制和权限管理244

9.1.5 插件式调度框架245

9.2 FIFO调度器246

9.2.1 基本调度策略246

9.2.2 FIFO实现分析247

9.2.3 FIFO初始化与停止248

9.2.4 作业监听控制249

9.2.5 任务分配算法250

9.2.6 配置与使用254

9.3 公平调度器254

9.3.1 产生背景254

9.3.2 主要功能255

9.3.3 基本调度策略255

9.3.4 FairScheduler实现分析257

9.3.5 FairScheduler启停分析258

9.3.6 作业监听控制260

9.3.7 资源池管理260

9.3.8 作业更新策略262

9.3.9 作业权重和资源量的计算266

9.3.10 任务分配算法267

9.3.11 FairScheduler配置参数268

9.3.12 使用与管理270

9.4 容量调度器272

9.4.1 产生背景272

9.4.2 主要功能272

9.4.3 基本调度策略274

9.4.4 CapacityScheduler实现分析274

9.4.5 CapacityScheduler启停分析275

9.4.6 作业监听控制277

9.4.7 作业初始化分析277

9.4.8 任务分配算法278

9.4.9 内存匹配机制279

9.4.10 配置与使用280

9.5 调度器对比分析283

9.5.1 调度策略对比283

9.5.2 队列和优先级283

9.5.3 资源分配保证283

9.5.4 作业限制284

9.5.5 配置管理284

9.5.6 扩展性支持284

9.5.7 资源抢占和延迟调度284

9.5.8 优缺点分析285

9.6 其他调度器285

9.6.1 HOD调度器285

9.6.2 LATE调度器286

9.7 小结288

实战篇290

第10章 Hadoop集群搭建290

10.1 Hadoop版本的选择290

10.2 集群基础硬件需求291

10.2.1 内存291

10.2.2 CPU292

10.2.3 磁盘292

10.2.4 网卡293

10.2.5 网络拓扑293

10.3 集群基础软件需求294

10.3.1 操作系统294

10.3.2 JVM和SSH295

10.4 虚拟化需求295

10.5 事前准备296

10.5.1 创建安装用户296

10.5.2 安装Java297

10.5.3 安装SSH并设置297

10.5.4 防火墙端口设置298

10.6 安装Hadoop298

10.6.1 安装HDFS299

10.6.2 安装MapReduce299

10.7 集群配置300

10.7.1 配置管理300

10.7.2 环境变量配置301

10.7.3 核心参数配置302

10.7.4 HDFS参数配置303

10.7.5 MapReduce参数配置306

10.7.6 masters和slaves配置313

10.7.7 客户端配置313

10.8 启动和停止314

10.8.1 启动/停止HDFS314

10.8.2 启动/停止MapReduce315

10.8.3 启动验证315

10.9 集群基准测试316

10.9.1 HDFS基准测试316

10.9.2 MapReduce基准测试317

10.9.3 综合性能测试318

10.10 集群搭建实例319

10.10.1 部署策略319

10.10.2 软件和硬件环境320

10.10.3 Hadoop安装321

10.10.4 配置core-site.xml321

10.10.5 配置hdfs-site.xml322

10.10.6 配置mapred-site.xml322

10.10.7 SecondaryNameNode和Slave324

10.10.8 配置作业队列324

10.10.9 配置第三方调度器325

10.10.10 启动与验证327

10.11 小结327

第11章 Hadoop Streaming和Pipes编程实战328

11.1 Streaming基础编程328

11.1.1 Streaming编程入门328

11.1.2 Map和Reduce数目331

11.1.3 队列、优先级及权限332

11.1.4 分发文件和压缩包333

11.1.5 压缩参数的使用336

11.1.6 本地作业的调试338

11.2 Streaming高级应用338

11.2.1 参数与环境变量传递339

11.2.2 自定义分隔符340

11.2.3 自定义Partitioner343

11.2.4 自定义计数器347

11.2.5 处理二进制数据347

11.2.6 使用聚合函数351

11.3 Pipes编程接口352

11.3.1 TaskContext352

11.3.2 Mapper353

11.3.3 Reducer354

11.3.4 Partitioner354

11.3.5 RecordReader355

11.3.6 RecordWriter356

11.4 Pipes编程应用357

11.5 小结359

第12章 Hadoop MapReduce应用开发360

12.1 开发环境准备360

12.2 Eclipse集成环境开发361

12.2.1 构建MapReduce Eclipse IDE361

12.2.2 开发示例363

12.3 MapReduce Java API编程368

12.3.1 Mapper编程接口369

12.3.2 Reducer编程接口370

12.3.3 驱动类编写372

12.3.4 编译运行373

12.4 压缩功能使用374

12.4.1 Hadoop数据压缩374

12.4.2 压缩特征与性能374

12.4.3 本地压缩库375

12.4.4 使用压缩376

12.5 排序应用378

12.5.1 Hadoop排序问题378

12.5.2 二次排序378

12.5.3 比较器和组合排序380

12.5.4 全局排序381

12.6 多路输出382

12.7 常见问题与处理方法384

12.7.1 常见的开发问题384

12.7.2 运行时错误问题386

12.8 小结387

热门推荐