上QQ阅读APP看书,第一时间看更新
1.3 Hadoop来源
Hadoop这个名字不是常见的几个单词的缩写,而是由道格·卡丁虚构的一个名字。道格·卡丁曾解释Hadoop的由来:“这个名字是我孩子给一个棕黄色的大象玩具起的名。命名的标准就是简短,容易发音和拼写,没有太多的意义,并且不会被用于别处。小孩子恰恰是这方面的高手”。道格·卡丁是Lucene、Nutch 、Hadoop等项目的发起人。
Hadoop的出现来自Google的两款产品:GFS和MapReduce。GFS用于存储不同设备所产生的海量数据,可以解决在网络抓取和索引过程中产生的大文件存储问题。MapReduce运行在GFS之上,负责分布式大数据的计算,可以处理海量网页的索引问题。MapReduce框架解决问题的思路就是把一个应用程序分解为许多并行的计算指令,通过大量的计算节点运行指令并产生非常巨大的数据集。后来由ASF公司于2005年秋天作为Lucene的子项目Nutch的一部分正式引入。
2006年3月份,Map/Reduce和Nutch分布式文件系统(Nutch Distributed File System,NDFS)分别被纳入称为Hadoop的项目中。Hadoop主要由HDFS、MapReduce和Hbase组成。
学习小贴士
道格·卡丁,1985年毕业于美国斯坦福大学,大学期间对IT产生浓厚的兴趣,第一份工作是在Xerox实习并开发屏幕保护平台程序。1997年,道格·卡丁发布Lucene。2004年,道格·卡丁发布Nutch。2006年受邀加入Yahoo。后来又加入Cloudera。