`

Hadoop笔记(一) MapReduce介绍

阅读更多

 

  1. MapReduce提出了一个编程模型,该模型将问题进行抽象,并转换为一个数据集(由键值对组成)的计算。该计算由map和reduce两部分组成,提供对外的接口。
  2. 寻址时间的提高远远慢于传输速率的提高。MapReduce比较适合以批处理方式处理需要分析整个数据集的问题(ad-hoc),一次写入、多次读取数据。RDBMS适用于点查询和持续更新的数据集。        
  3. MapReduce适合处理半结构化和非结构化数据,比如分析应用服务日志。
  4. 数据本地化、无共享、MPI自身检查和恢复。
  5. Yahoo! Search有4个主要组成部分:Crawler从网页服务器爬取网页,WebMap构建一个已知网页的链接图,Indexer为最佳页面构建一个反向索引,Runtime处理用户的查询。
  6. Hadoop项目
  • Common   一组分布式文件系统和通用IO的组件与接口
  • Avro  一种支持高效、跨语言的RPC以及永久存储数据的序列化系统
  • MapReduce 分布式数据处理模型和执行环境
  • HDFS  分布式文件系统
  • Pig  一种数据流语言和运行环境,用于检索非常大的数据集
  • Hive  一个分布式、按列存储的数据库,管理HDFS存储的数据,提供基于SQL的查询语言
  • HBase  一个分布式、按列存储的数据库。HBase使用HDFS作为底层存储,同时支持MapReduce的批量式计算和点查询
  • ZooKeeper  一个分布式、可用性高的协调服务。提供分布式锁之类的基本服务用于构建分布式应用
  • Sqoop  在数据库和HDFS之间高效传输数据的工具
       

 

  • 大小: 23.9 KB
分享到:
评论

相关推荐

    05.hadoop上课笔记之hadoop5mapreduce和yarn

    05.hadoop上课笔记之hadoop5mapreduce和yarn

    hadoop笔记

    Hadoop架构分析之集群结构分析,Hadoop架构分析之HDFS架构分析,Hadoop架构分析之NN和DN原生文档解读,Hadoop MapReduce原理之流程图.Hadoop MapReduce原理之核心类Job和ResourceManager解读.Hadoop MapReduce原理之...

    【大数据入门笔记系列】第五节 SpringBoot集成hadoop开发环境(复杂版的WordCount)

    【大数据入门笔记系列】第五节 SpringBoot集成hadoop开发环境(复杂版的WordCount)前言环境清单创建SpringBoot项目创建包创建yml添加集群主机名映射hadoop配置文件环境变量HADOOP_HOME编写代码添加hadoop依赖jar包...

    hadoop笔记打包下载(想学hadoop不下载后悔)

    hadoop学习资料下载.包括hdfs,集群,MapReduce,HBase,Hive等等.完全收录.

    初学Hadoop之图解MapReduce与WordCount示例分析

    Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算...1、Hadoop示例程序WordCount详解及实例2、hadoop学习笔记:mapreduce框架详解3、hadoop示例程序wo

    hadoop学习笔记

    我学习hadoop的笔记,并在公司做的报告,给大家共享下

    hadoop学习笔记(hdfs,mapreduce,yarn)

    压缩文件中包含了Hadoop生态系统、体系架构及特点,三大基本组件HDFS,MapReduce,YARN的学习笔记,文件为Markdown格式,进行了详细功能介绍说明,可以帮助大家学习hadoop的三大组件或者作为一份详细资料备份,帮助...

    Hadoop 培训笔记 及源码

    Hadoop架构分析之集群结构分析,Hadoop架构分析之HDFS架构分析,Hadoop架构分析之NN和DN原生文档解读,Hadoop MapReduce原理之流程图.Hadoop MapReduce原理之核心类Job和ResourceManager解读.Hadoop MapReduce原理之...

    IT十八掌_Hadoop阶段学习笔记(课堂笔记与源码流程)

    Hadoop架构分析之集群结构分析,Hadoop架构分析之HDFS架构分析,Hadoop架构分析之NN和DN原生文档解读,Hadoop MapReduce原理之流程图.Hadoop MapReduce原理之核心类Job和ResourceManager解读.Hadoop MapReduce原理之...

    提高hadoop的mapreduce job效率笔记

    修改mapper和reducer数量,如何使用combiner,什么时候该选择哪个writeable等。资料里很详细说明了。

    Hadoop学习笔记

    bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar *** 输入文件目录 输出文件目录 *** 本地运行案例 bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar ...

    妳那伊抹微笑_云计算之Hadoop完美笔记2.0

    妳那伊抹微笑自己整理的Hadoop笔记,有以下内容: Day1 搭建伪分布实验环境 Day2 介绍HDFS体系结构及shell、java操作方式 Day3 介绍MapReduce体系结构(1) Day4 介绍MapReduce体系结构(2) Day5 介绍Hadoop集群、...

    Hadoop-MapReduce-学习资料及文档.zip

    内容概要: mr执行笔记; mapreduce框架的规范; wc流程.xls; wordcount的伪代码; yarn提交job的源码流程; YARN中提交job的详细流程; 打开流的关键代码; 打开流的调用流程; 日志格式;

    尚硅谷大数据技术之Hadoop

    尚硅谷大数据技术之Hadoop笔记加代码

    hadoop笔记.zip

    Haddop学习笔记,涉及HDFS的详细说明文档,MapReduce的详细说明文档

    hadoop全部笔记.zip

    HADOOP笔记详细文档。其中包括HDFS、yarn、mapreduce、hive、Hbase等原理讲解图片与各个组件的详细说明,以及相应mapreduce代码案例实例。以及对伪分布式、全分布式通俗易懂的说明。

    Hadoop学习全程记录-在Eclipse中运行第一个MapReduce程序.docx

    Hadoop学习过程中的记录笔记:如何在Eclipse下写第一个MapReduce程序

Global site tag (gtag.js) - Google Analytics