Ang 10 Pinakahahalagang Mga Tuntunin ng Hadoop na Kailangan mong Malaman at Unawain

Nilalaman

Ngunit Una, Tingnan ang Paano Gumagana ang Hadoop
Hadoop Karaniwan
Ipinamamahagi ng File System ng Hadoop (HDFS)
MapReduce
HBase
Pugad
Walang Mga bug, Walang Stress - Ang Iyong Hakbang sa Hakbang Patnubay sa Paglikha ng Software na Pagbabago ng Buhay nang Walang Pagsira sa Iyong Buhay
Baboy ng Apache
Apache Spark
Apache Cassandra
Ngunit Ang Isa pang Mapagkukumpuni ng Tagapagtaguyod (YARN)
Impala

Pinagmulan: Trueffelpix / Dreamstime.com

Takeaway:

Upang talagang maunawaan ang malaking data, kailangan mong maunawaan nang kaunti tungkol sa Hadoop at ang wika sa paligid nito.

Malaking data, ang kaakit-akit na pangalan para sa napakalaking dami ng nakabalangkas, hindi naka-istraktura o semi-nakabalangkas na data, ay napakahirap na makunan, mag-imbak, mamahala, magbahagi, mag-aralan at maglarawan, hindi bababa sa paggamit ng tradisyonal na database at software application. Kung bakit ang malaking teknolohiya ng data ay may potensyal na pamahalaan at maproseso ang napakalaking dami ng data nang epektibo at mahusay. At ang Apache Hadoop nito na nagbibigay ng balangkas at mga nauugnay na teknolohiya upang maproseso ang malalaking set ng data sa mga kumpol ng mga computer sa isang ipinamamahagi na paraan. Kaya, upang maunawaan ang malaking data, kailangan mong maunawaan nang kaunti tungkol sa Hadoop. Narito nang mabuti tingnan ang mga nangungunang term na maririnig mo patungkol sa Hadoop - at kung ano ang ibig sabihin.

Ngunit Una, Tingnan ang Paano Gumagana ang Hadoop

Bago pumasok sa Hadoop eco-system, kailangan mong maunawaan nang malinaw ang dalawang pangunahing mga bagay. Ang una ay kung paano naka-imbak ang isang file sa Hadoop; ang pangalawa ay kung paano naproseso ang naka-imbak na data. Ang lahat ng mga teknolohiya na nauugnay sa Hadoop higit sa lahat ay gumagana sa dalawang lugar na ito at gawin itong mas madaling gamitin. (Kunin ang mga pangunahing kaalaman kung paano gumagana ang Hadoop sa Paano Nakakatulong ang Hadoop na Malutas ang Malaking Problema sa Data.)

Ngayon, sa mga termino.

Hadoop Karaniwan

Ang balangkas ng Hadoop ay may iba't ibang mga module para sa iba't ibang mga pag-andar at ang mga mody na ito ay maaaring makipag-ugnay sa bawat isa para sa iba't ibang mga kadahilanan. Ang Hadoop Karaniwang maaaring tukuyin bilang isang karaniwang library ng utility upang suportahan ang mga modyul na ito sa Hadoop the ecosystem. Ang mga utility na ito ay karaniwang batay sa Java, naka-archive (JARs) na mga file. Ang mga utility na ito ay pangunahing ginagamit ng mga programmer at developer sa panahon ng pag-unlad.

Ipinamamahagi ng File System ng Hadoop (HDFS)

Ang Hadoop ipinamamahaging File System (HDFS) ay isang sub-proyekto ng Apache Hadoop sa ilalim ng Apache Software Foundation. Ito ang backbone ng imbakan sa balangkas ng Hadoop. Ito ay isang ipinamamahagi, nasusukat at hindi mapagparaya sa sistema ng file na sumasaklaw sa maraming hardware ng kalakal na kilala bilang kumpol ng Hadoop. Ang layunin ng HDFS ay upang mag-imbak ng isang malaking dami ng data na maaasahan na may mataas na throughput access sa data ng application. Ang HDFS ay sumusunod sa arkitektura ng master / alipin, kung saan ang master ay kilala bilang NameNode at ang mga alipin ay kilala bilang DataNode.

MapReduce

Ang Hadoop MapReduce ay isa ring sub-proyekto ng Apache Software Foundation. Ang MapReduce ay talagang isang balangkas ng software na puro nakasulat sa Java. Ang pangunahing layunin nito ay upang maiproseso ang malalaking mga database sa isang ipinamamahaging kapaligiran (binubuo ng kalakal ng kalakal) sa isang ganap na kahanay. Ang balangkas ay namamahala sa lahat ng mga aktibidad tulad ng pag-iskedyul ng trabaho, pagsubaybay, pagpapatupad at muling pagpapatupad (sa kaso ng mga nabigo na gawain).

HBase

Ang Apache HBase ay kilala bilang database ng Hadoop. Ito ay isang haligi, ipinamamahagi at nasusukat na malaking data store. Ito ay kilala rin bilang isang uri ng NoSQL database na hindi isang pamamahala sa database management system. Ang mga aplikasyon ng HBase ay nakasulat din sa Java, na binuo sa tuktok ng Hadoop at tumatakbo sa HDFS. Ginagamit ang HBase kapag kailangan mo ng real-time na basahin / isulat at random na pag-access sa malaking data. Ang HBase ay modelo ayon sa mga konsepto ng Googles BigTable.

Pugad

Ang Apache Hive ay isang bukas na mapagkukunan ng data ng software ng bodega ng data. Ang Hive ay orihinal na binuo ng bago ito dumating sa ilalim ng Apache Software Foundation at naging bukas na mapagkukunan. Pinadali nito ang pamamahala at pag-query ng mga malalaking set ng data sa ipinamamahagi na nakaimbak na Hadoop. Ginagawa ng Hive ang lahat ng mga aktibidad nito sa pamamagitan ng paggamit ng isang wika na tulad ng SQL na kilala bilang HiveQL. (Matuto nang higit pa sa Isang Maikling Intro sa Apache Hive at Pig.)

Walang Mga bug, Walang Stress - Ang Iyong Hakbang sa Hakbang Patnubay sa Paglikha ng Software na Pagbabago ng Buhay nang Walang Pagsira sa Iyong Buhay

Hindi mo mapagbuti ang iyong mga kasanayan sa pagprograma kapag walang nagmamalasakit sa kalidad ng software.

Baboy ng Apache

Ang baboy ay orihinal na sinimulan ng Yahoo para sa pagbuo at pagpapatupad ng mga trabaho sa MapReduce sa isang malaking dami ng ipinamamahaging data. Ngayon ito ay naging isang bukas na mapagkukunan ng proyekto sa ilalim ng Apache Software Foundation. Ang Apache Pig ay maaaring matukoy bilang isang platform para sa pagsusuri ng napakalaking mga set ng data sa isang mahusay na paraan. Ang mga layer ng imprastraktura ng baboy ay gumagawa ng mga pagkakasunud-sunod ng mga trabaho sa MapReduce para sa paggawa ng aktwal na pagproseso. Ang layer ng wika ng baboy ay kilala bilang Pig Latin at nagbibigay ito ng mga tampok na tulad ng SQL upang maisagawa ang mga query sa mga ipinamamahaging mga hanay ng data.

Apache Spark

Ang Spark ay orihinal na binuo ng AMPLab sa UC Berkeley. Ito ay naging isang proyekto na top-level na Apache noong Pebrero 2014. Ang Apache Spark ay maaaring matukoy bilang isang bukas na mapagkukunan, pangkalahatang layunin, cluster-computing na balangkas na ginagawang mas mabilis ang mga analytics ng data. Ito ay itinayo sa tuktok ng Hadoop na ipinamamahaging File System ngunit hindi ito naka-link sa balangkas ng MapReduce. Ang pagganap ng Sparks ay mas mabilis kumpara sa MapReduce. Nagbibigay ito ng mga high-level na API sa Scala, Python at Java.

Apache Cassandra

Ang Apache Cassandra ay isa pang bukas na mapagkukunan ng database ng NoSQL. Malawakang ginagamit ang Cassandra upang pamahalaan ang malaking dami ng nakabalangkas, semi-nakabalangkas at hindi nakabalangkas na data na sumasaklaw sa maraming mga sentro ng data at imbakan ng ulap. Ang Cassandra ay dinisenyo batay sa isang "masterless" na arkitektura, na nangangahulugang hindi nito suportado ang modelo ng master / alipin. Sa arkitektura na ito, ang lahat ng mga node ay pareho at ang data ay awtomatikong ipinamahagi at pantay sa lahat ng mga node. Ang pinakamahalagang tampok ng Cassandras ay patuloy na pagkakaroon, linear scalability, built-in / napapasadyang pagtitiklop, walang solong punto ng pagkabigo at pagiging simple ng pagpapatakbo.

Ngunit Ang Isa pang Mapagkukumpuni ng Tagapagtaguyod (YARN)

Ngunit Ang Isa pang Mapagkukumpuni ng Tagapagtaguyod (YARN) ay kilala rin bilang MapReduce 2.0, ngunit talagang nahulog ito sa ilalim ng Hadoop 2.0. Ang tinutukoy ay maaaring natukoy bilang isang pag-iskedyul ng trabaho at balangkas sa pamamahala ng mapagkukunan. Ang pangunahing ideya ng YARN ay upang palitan ang mga pag-andar ng JobTracker sa pamamagitan ng dalawang magkahiwalay na daemon na responsable para sa pamamahala ng mapagkukunan at pag-iskedyul / pagsubaybay. Sa bagong balangkas na ito, magkakaroon ng isang global ResourceManager (RM) at isang master na tukoy sa application na kilala bilang ApplicationMaster (AM). Ang pandaigdigang ResourceManager (RM) at NodeManager (bawat node alipin) ay bumubuo ng aktwal na balangkas ng pagkalkula ng data. Ang umiiral na MapReduce v1 na mga aplikasyon ay maaari ring patakbuhin sa YARN, ngunit ang mga application na ito ay kailangang maibayad muli sa mga garapon ng Hadoop2.x.

Impala

Ang Impala ay maaaring matukoy bilang isang engine ng SQL query na may napakalaking kahilera na pagpoproseso (MPP) na kapangyarihan. Tumatakbo ito nang katutubong sa balangkas ng Apache Hadoop. Ang Impala ay dinisenyo bilang bahagi ng Hadoop ecosystem. Nagbabahagi ito ng parehong nababaluktot na file system (HDFS), metadata, management management at security frameworks na ginamit ng iba pang mga bahagi ng Hadoop ecosystem. Ang pinakamahalagang punto ay tandaan na ang Impala ay mas mabilis sa pagproseso ng query kumpara sa Hive. Ngunit dapat din nating tandaan na ang Impala ay inilaan para sa query / pagsusuri sa isang maliit na hanay ng data, at pangunahing dinisenyo bilang isang tool sa analytics na gumagana sa naproseso at nakabalangkas na data.

Ang Hadoop ay isang mahalagang paksa sa IT, ngunit may mga nag-aalinlangan tungkol sa pangmatagalang posibilidad nito. Magbasa nang higit pa sa Ano ang Hadoop? Isang Teorya ng Cynics.