Apache Hadoop

Apache Hadoop
原作者	Doug Cutting, Mike Cafarella
開發者	Apache軟件基金會
首次釋出	2006年4月1日，18年前
目前版本	3.4.0（2024年3月17日）;
原始碼庫	git-wip-us.apache.org/repos/asf/hadoop.git;
程式語言	Java
作業系統	跨平台
類型	大數據、分佈式系統
特許條款	Apache特許條款 2.0
網站	hadoop.apache.org

Apache Hadoop是一款支援數據密集型分佈式應用程式並以Apache 2.0許可協定發佈的開源軟件框架，有助於使用許多電腦組成的網絡來解決數據、計算密集型的問題。基於MapReduce計算模型，它為大數據的分散式儲存與處理提供了一個軟件框架。所有的Hadoop模組都有一個基本假設，即硬件故障是常見情況，應該由框架自動處理^[3]。

Apache Hadoop的核心模組分為儲存和計算模組，前者被稱為Hadoop分散式檔案系統（HDFS），後者即MapReduce計算模型。Hadoop框架先將檔案分成數據塊並分散式地儲存在叢集的計算節點中，接着將負責計算任務的代碼傳送給各節點，讓其能夠並列地處理數據。這種方法有效利用了數據局部性，令各節點分別處理其能夠訪問的數據。與傳統的超級電腦架構相比，這使得數據集的處理速度更快、效率更高^[4]^[5]。

Apache Hadoop框架由以下基本模組構成：

Hadoop Common – 包含了其他Hadoop 模組所需的庫和實用程式；
Hadoop Distributed File System (HDFS) – 一種將數據儲存在叢集中多個節點中的分散式檔案系統，能夠提供很高的頻寬；
Hadoop YARN – （於2012年引入）一個負責管理叢集中計算資源，並實現用戶程式排程的平台^[6]^[7]；
Hadoop MapReduce – 用於大規模數據處理的MapReduce計算模型實現；
Hadoop Ozone – （於2020年引入） Hadoop的對象儲存。

Hadoop 一詞通常代指其基本模組和子模組以及生態系統^[8]，或可以安裝在 Hadoop 之上的軟件套件的集合，例如Apache Pig、Apache Hive、Apache HBase、Apache Phoenix、Apache Spark、Apache ZooKeeper、Cloudera Impala、Apache Flume、Apache Sqoop、Apache Oozie和Apache Storm^[9]。

Apache Hadoop的MapReduce和HDFS模組的靈感來源於Google的MapReduce和Google File System論文^[10]。

Hadoop 框架本身主要是用Java程式語言編寫的，也包括了一些C語言編寫的本機代碼和Shell指令碼編寫的命令列實用程式。儘管MapReduce Java代碼很常見，但任何程式語言都可以與Hadoop Streaming一起使用來實現用戶程式的map和reduce部分^[11]。Hadoop 生態系統中的其他專案實現了更為豐富的用戶介面。

主要子專案

Hadoop Common：在0.20及以前的版本中，包含HDFS、MapReduce和其他專案公共內容，從0.21開始HDFS和MapReduce被分離為獨立的子專案，其餘內容為Hadoop Common
HDFS：Hadoop分佈式檔案系統（Distributed File System）－HDFS（Hadoop Distributed File System）
MapReduce：平行計算框架，0.20前使用org.apache.hadoop.mapred舊介面，0.20版本開始引入org.apache.hadoop.mapreduce的新API

知名用戶

Hadoop在Yahoo!的應用

2008年2月19日，雅虎使用10,000個微處理器核心的Linux 電腦叢集運行一個Hadoop應用程式。^[12]

其他用戶

其他知名用戶包括^[13]：

A9.com
Facebook
Fox Interactive Media
華為
IBM
ImageShack
資訊科學研究院
Joost
Last.fm
Powerset
紐約時報
Rackspace
Veoh
中華電信
中國移動

Hadoop與Sun Grid Engine

昇陽電腦的Sun Grid Engine可以用來排程Hadoop Job。^[14]^[15]

Hadoop與Condor

威斯康辛大學麥迪遜分校的Condor計算機叢集軟件也可以用作Hadoop Job的排程。^[16]

參見

參考文獻

^ Hadoop Releases. apache.org. Apache Software Foundation. [2019-04-28]. （原始內容存檔於2019-04-28）.
^ Release 3.4.0 available. [2024年4月10日].
^ Welcome to Apache Hadoop!. hadoop.apache.org. [2016-08-25]. （原始內容存檔於2017-09-23）.
^ Malak, Michael. Data Locality: HPC vs. Hadoop vs. Spark. datascienceassn.org. Data Science Association. 2014-09-19 [2014-10-30]. （原始內容存檔於2017-09-10）.
^ Wang, Yandong; Goldstone, Robin; Yu, Weikuan; Wang, Teng. Characterization and Optimization of Memory-Resident MapReduce on HPC Systems. 2014 IEEE 28th International Parallel and Distributed Processing Symposium. IEEE. October 2014: 799–808. ISBN 978-1-4799-3800-1. S2CID 11157612. doi:10.1109/IPDPS.2014.87.
^ Resource (Apache Hadoop Main 2.5.1 API). apache.org. Apache Software Foundation. 2014-09-12 [2014-09-30]. （原始內容存檔於2014-10-06）.
^ Murthy, Arun. Apache Hadoop YARN – Concepts and Applications. hortonworks.com. Hortonworks. 2012-08-15 [2014-09-30]. （原始內容存檔於2017-09-11）.
^ Continuuity Raises $10 Million Series A Round to Ignite Big Data Application Development Within the Hadoop Ecosystem. finance.yahoo.com. Marketwired. 2012-11-14 [2014-10-30]. （原始內容存檔於2017-09-10）.
^ Hadoop-related projects at. Hadoop.apache.org. [2013-10-17]. （原始內容存檔於2017-09-23）.
^ Data Science and Big Data Analytics: Discovering, Analyzing, Visualizing and Presenting Data. John Wiley & Sons. 2014-12-19: 300 [2015-01-29]. ISBN 9781118876220.
^ nlpatumd; Adventures with Hadoop and Perl. Mail-archive.com. 2010-05-02 [2013-04-05]. （原始內容存檔於2017-08-14）.
^ Yahoo! Launches World's Largest Hadoop Production Application (Hadoop and Distributed Computing at Yahoo!). [2008-09-04]. （原始內容存檔於2008-05-14）.
^ PoweredBy. [2008-09-07]. （原始內容存檔於2012-11-29）.
^ Creating Hadoop pe under SGE. Sun Microsystems. 2008-01-16 [2008-09-04]. （原始內容存檔於2008-09-12）.
^ HDFS-Aware Scheduling With Grid Engine (PDF). Sun Microsystems. 2009-09-10. ^{[永久失效連結]}
^ Condor integrated with Hadoop's Map Reduce (PDF). 威斯康辛大學麥迪遜分校. 2010-04-15 [2011-03-15]. （原始內容存檔 (PDF)於2011-04-01）.

外部連結

Hadoop官方網站（頁面存檔備份，存於互聯網檔案館）

[1] Hadoop Releases. apache.org. Apache Software Foundation. [2019-04-28]. （原始內容存檔於2019-04-28）.

[wikidata-c8920ace5906148ec820fd4af51dc64af7c873c0-v3-2] Release 3.4.0 available. [2024年4月10日].

[homepage-3] Welcome to Apache Hadoop!. hadoop.apache.org. [2016-08-25]. （原始內容存檔於2017-09-23）.

[4] Malak, Michael. Data Locality: HPC vs. Hadoop vs. Spark. datascienceassn.org. Data Science Association. 2014-09-19 [2014-10-30]. （原始內容存檔於2017-09-10）.

[5] Wang, Yandong; Goldstone, Robin; Yu, Weikuan; Wang, Teng. Characterization and Optimization of Memory-Resident MapReduce on HPC Systems. 2014 IEEE 28th International Parallel and Distributed Processing Symposium. IEEE. October 2014: 799–808. ISBN 978-1-4799-3800-1. S2CID 11157612. doi:10.1109/IPDPS.2014.87.

[6] Resource (Apache Hadoop Main 2.5.1 API). apache.org. Apache Software Foundation. 2014-09-12 [2014-09-30]. （原始內容存檔於2014-10-06）.

[7] Murthy, Arun. Apache Hadoop YARN – Concepts and Applications. hortonworks.com. Hortonworks. 2012-08-15 [2014-09-30]. （原始內容存檔於2017-09-11）.

[8] Continuuity Raises $10 Million Series A Round to Ignite Big Data Application Development Within the Hadoop Ecosystem. finance.yahoo.com. Marketwired. 2012-11-14 [2014-10-30]. （原始內容存檔於2017-09-10）.

[9] Hadoop-related projects at. Hadoop.apache.org. [2013-10-17]. （原始內容存檔於2017-09-23）.

[10] Data Science and Big Data Analytics: Discovering, Analyzing, Visualizing and Presenting Data. John Wiley & Sons. 2014-12-19: 300 [2015-01-29]. ISBN 9781118876220.

[11] tumd; Adventures with Hadoop and Perl. Mail-archive.com. 2010-05-02 [2013-04-05]. （原始內容存檔於2017-08-14）.

[12] Yahoo! Launches World's Largest Hadoop Production Application (Hadoop and Distributed Computing at Yahoo!). [2008-09-04]. （原始內容存檔於2008-05-14）.

[13] PoweredBy. [2008-09-07]. （原始內容存檔於2012-11-29）.

[14] Creating Hadoop pe under SGE. Sun Microsystems. 2008-01-16 [2008-09-04]. （原始內容存檔於2008-09-12）.

[15] HDFS-Aware Scheduling With Grid Engine (PDF). Sun Microsystems. 2009-09-10. ^{[永久失效連結]}

[16] Condor integrated with Hadoop's Map Reduce (PDF). 威斯康辛大學麥迪遜分校. 2010-04-15 [2011-03-15]. （原始內容存檔 (PDF)於2011-04-01）.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

閱論編 Apache軟件基金會
頂級專案	Abdera（英語：Apache Abdera） Accumulo（英語：Apache Accumulo） ActiveMQ Ambari（英語：Apache Ambari） Ant Aries（英語：Apache Aries） Apache Arrow Apache HTTP Server APR Avro Axis Axis2 Beam Bloodhound（英語：Apache Bloodhound） Apache Brooklyn（英語：Apache Brooklyn） Buildr（英語：Apache Buildr） Calcite（英語：Apache Calcite） Camel Cassandra Cayenne（英語：Apache Cayenne） Chemistry（英語：Apache Chemistry） CloudStack（英語：Apache CloudStack） Cocoon（英語：Apache Cocoon） Continuum（英語：Apache Continuum） Cordova CouchDB cTAKES（英語：cTAKES） CXF Deltacloud（英語：Deltacloud） Derby Directory（英語：Apache Directory Server） Drill（英語：Apache Drill） Empire-db（英語：Apache Empire-db） ECharts Felix（英語：Apache Felix） Flex Flink Flume（英語：Apache Flume） Forrest（英語：Apache Forrest） Geronimo（英語：Apache Geronimo） Gora（英語：Apache Gora） Gump（英語：Apache Gump） Hadoop Hama（英語：Apache Hama） HBase Hive Jackrabbit（英語：Apache Jackrabbit） James（英語：Apache James） JMeter（英語：Apache JMeter） Kafka Karaf（英語：Apache Karaf） Kylin（英語：Apache Kylin） Lucene Lenya（英語：Apache Lenya） Mahout（英語：Apache Mahout） Marmotta（英語：Apache Marmotta） Maven MINA（英語：Apache MINA） mod_perl（英語：mod_perl） MyFaces（英語：Apache MyFaces） Nutch（英語：Apache Nutch） ODE（英語：Apache ODE） OFBiz（英語：Apache OFBiz） Oozie（英語：Oozie） OpenEJB（英語：Apache OpenEJB） OpenJPA（英語：Apache OpenJPA） OpenNLP OpenOffice PDFBox（英語：Apache PDFBox） Phoenix（英語：Apache Phoenix） POI Pig（英語：Pig (programming tool)） Pivot（英語：Apache Pivot） Qpid（英語：Apache Qpid） River（英語：Apache River） Roller（英語：Apache Roller） RocketMQ Samza（英語：Apache Samza） ServiceMix（英語：Apache ServiceMix） Shindig（英語：Apache Shindig） Shiro Sling（英語：Apache Sling） Spark Stanbol（英語：Apache Stanbol） Storm SpamAssassin Sqoop Apache C++標準庫（英語：stdcxx） Struts Struts 2 Subversion Tapestry Thrift Tiles（英語：Apache Tiles） Tika（英語：Apache Tika） Tomcat Trafficserver Turbine Tuscany UIMA Velocity Wave Wicket Wink（英語：Apache Wink） Xalan（英語：Xalan） Xerces（英語：Xerces） XMLBeans（英語：XMLBeans） ZooKeeper
Commons專案	Apache Commons Logging（英語：Apache Commons Logging） BCEL（英語：Byte Code Engineering Library） BSF（英語：Bean Scripting Framework） Commons Daemon（英語：Commons Daemon） Jelly（英語：Apache Jelly）
Lucene專案	Lucene Java Lucene.Net（英語：Lucene.Net） Nutch（英語：Nutch） Solr
Hadoop專案	HBase HDFS
其他專案	Batik Chainsaw（英語：Chainsaw (log file viewer)） FOP Log4j XAP（英語：Apache XAP） Log4Net Ivy（英語：Apache Ivy）
孵化器專案	XAP（英語：Apache XAP） Samza（英語：Apache Samza） Storm
Apache Attic	AxKit（英語：AxKit） Beehive（英語：Apache Beehive） Click（英語：Apache Click） Apache BlueSky（英語：BlueSky Open Platform） Cactus（英語：Jakarta Cactus） Jakarta Excalibur（英語：Apache Excalibur） Harmony HiveMind（英語：Apache HiveMind） Lenya（英語：Apache Lenya） Slide（英語：Jakarta Slide） Shale（英語：Apache Shale） Shindig（英語：Apache Shindig） stdcxx（英語：Apache C++ Standard Library） iBATIS XMLBeans（英語：XMLBeans）
特許條款標準	Apache特許條款
分類維基共用