- MapReduce提出了一个编程模型,该模型将问题进行抽象,并转换为一个数据集(由键值对组成)的计算。该计算由map和reduce两部分组成,提供对外的接口。
- 寻址时间的提高远远慢于传输速率的提高。MapReduce比较适合以批处理方式处理需要分析整个数据集的问题(ad-hoc),一次写入、多次读取数据。RDBMS适用于点查询和持续更新的数据集。
- MapReduce适合处理半结构化和非结构化数据,比如分析应用服务日志。
- 数据本地化、无共享、MPI自身检查和恢复。
- Yahoo! Search有4个主要组成部分:Crawler从网页服务器爬取网页,WebMap构建一个已知网页的链接图,Indexer为最佳页面构建一个反向索引,Runtime处理用户的查询。
- Hadoop项目
- Common 一组分布式文件系统和通用IO的组件与接口
- Avro 一种支持高效、跨语言的RPC以及永久存储数据的序列化系统
- MapReduce 分布式数据处理模型和执行环境
- HDFS 分布式文件系统
- Pig 一种数据流语言和运行环境,用于检索非常大的数据集
- Hive 一个分布式、按列存储的数据库,管理HDFS存储的数据,提供基于SQL的查询语言
- HBase 一个分布式、按列存储的数据库。HBase使用HDFS作为底层存储,同时支持MapReduce的批量式计算和点查询
- ZooKeeper 一个分布式、可用性高的协调服务。提供分布式锁之类的基本服务用于构建分布式应用
- Sqoop 在数据库和HDFS之间高效传输数据的工具
相关推荐
05.hadoop上课笔记之hadoop5mapreduce和yarn
Hadoop架构分析之集群结构分析,Hadoop架构分析之HDFS架构分析,Hadoop架构分析之NN和DN原生文档解读,Hadoop MapReduce原理之流程图.Hadoop MapReduce原理之核心类Job和ResourceManager解读.Hadoop MapReduce原理之...
【大数据入门笔记系列】第五节 SpringBoot集成hadoop开发环境(复杂版的WordCount)前言环境清单创建SpringBoot项目创建包创建yml添加集群主机名映射hadoop配置文件环境变量HADOOP_HOME编写代码添加hadoop依赖jar包...
hadoop学习资料下载.包括hdfs,集群,MapReduce,HBase,Hive等等.完全收录.
Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算...1、Hadoop示例程序WordCount详解及实例2、hadoop学习笔记:mapreduce框架详解3、hadoop示例程序wo
我学习hadoop的笔记,并在公司做的报告,给大家共享下
压缩文件中包含了Hadoop生态系统、体系架构及特点,三大基本组件HDFS,MapReduce,YARN的学习笔记,文件为Markdown格式,进行了详细功能介绍说明,可以帮助大家学习hadoop的三大组件或者作为一份详细资料备份,帮助...
Hadoop架构分析之集群结构分析,Hadoop架构分析之HDFS架构分析,Hadoop架构分析之NN和DN原生文档解读,Hadoop MapReduce原理之流程图.Hadoop MapReduce原理之核心类Job和ResourceManager解读.Hadoop MapReduce原理之...
Hadoop架构分析之集群结构分析,Hadoop架构分析之HDFS架构分析,Hadoop架构分析之NN和DN原生文档解读,Hadoop MapReduce原理之流程图.Hadoop MapReduce原理之核心类Job和ResourceManager解读.Hadoop MapReduce原理之...
修改mapper和reducer数量,如何使用combiner,什么时候该选择哪个writeable等。资料里很详细说明了。
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar *** 输入文件目录 输出文件目录 *** 本地运行案例 bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar ...
妳那伊抹微笑自己整理的Hadoop笔记,有以下内容: Day1 搭建伪分布实验环境 Day2 介绍HDFS体系结构及shell、java操作方式 Day3 介绍MapReduce体系结构(1) Day4 介绍MapReduce体系结构(2) Day5 介绍Hadoop集群、...
内容概要: mr执行笔记; mapreduce框架的规范; wc流程.xls; wordcount的伪代码; yarn提交job的源码流程; YARN中提交job的详细流程; 打开流的关键代码; 打开流的调用流程; 日志格式;
尚硅谷大数据技术之Hadoop笔记加代码
Haddop学习笔记,涉及HDFS的详细说明文档,MapReduce的详细说明文档
HADOOP笔记详细文档。其中包括HDFS、yarn、mapreduce、hive、Hbase等原理讲解图片与各个组件的详细说明,以及相应mapreduce代码案例实例。以及对伪分布式、全分布式通俗易懂的说明。
Hadoop学习过程中的记录笔记:如何在Eclipse下写第一个MapReduce程序