Ano ang Mga Kalamangan ng Hadoop 2.0 (YARN) Framework?

May -Akda: Roger Morrison
Petsa Ng Paglikha: 18 Setyembre 2021
I -Update Ang Petsa: 1 Hulyo 2024
Anonim
Ano ang Mga Kalamangan ng Hadoop 2.0 (YARN) Framework? - Teknolohiya
Ano ang Mga Kalamangan ng Hadoop 2.0 (YARN) Framework? - Teknolohiya

Nilalaman


Pinagmulan: Jim Hughes / Dreamstime.com

Takeaway:

Ang pananaw ay isang makabuluhang pagpapabuti sa balangkas ng Hadoop 1.0. Narito sinusuri natin ang ilan sa mga pakinabang na mayroon nito sa hinalinhan nito.

Dahil sa oras na ipinakilala ang konsepto ng malaking data, dumaan ito sa maraming mga yugto ng ebolusyon. Ang Hadoop ay ipinakilala noong 2005 kasama ang ilang mga paunang tampok tulad ng MapReduce na pagpoproseso ng makina na nagpapahintulot sa malakihang mga data sa pagproseso ng data na ipinamamahagi sa mga kumpol. Ang Hadoop mismo ay nakaranas ng maraming mga pagbabago at nakabuo ng mga advanced na mga balangkas at pamamaraan.

Ang YARN ay isang pangunahing sangkap ng Hadoop 2.0. Karaniwang namamahala sa mga mapagkukunan sa isang clustered environment. Ang YARN broker ay nakikipag-ugnay sa mga mapagkukunang compute (sa ngalan ng mga aplikasyon) at nagtalaga ng mga mapagkukunan sa bawat aplikasyon batay sa iba't ibang pamantayan sa pag-filter.


Sa artikulong ito, titingnan natin ang nangungunang mga pakinabang ng YARN over Hadoop 1.0.

Ano ang YARN Framework?

Yet Another Resource Nang egotiator ay isang pangunahing sangkap ng Hadoop 2.0, na namamahala sa mga mapagkukunan sa isang nakapaligid na kapaligiran. Ang balangkas ng Hadoop YARN ay isang advanced na bersyon ng Hadoop 1.0 na nagbibigay ng pinahusay na pagganap, na kung saan ay kapaki-pakinabang para sa Hadoop ecosystem at ang buong hanay ng mga teknolohiya na nauugnay dito. Ngayon na kami ay isang maliit na mas pamilyar sa YARN, tingnan natin ang Hadoop 1.0 at YARN.

Mga Limitasyon ng Hadoop 1.0 Framework

Upang maunawaan ang mga pakinabang ng balangkas ng YARN, napakahalagang maunawaan kung paano gumagana ang Hadoop 1.0 at kung ano ang mga limitasyon ng balangkas na ito.

Narito ang papel ng JobTracker ay pumapasok. Pinamamahalaan nito ang parehong mga mapagkukunan ng kumpol at tinutukoy ang pagpapatupad ng trabaho sa MapReduce. Sa madaling sabi, ang mga iskedyul ng JobTracker at inilalaan ang mga puwang ng gawain, at nag-configure at sinusubaybayan ang bawat tumatakbo na gawain. Kung nabigo ang isang gawain, muling binubuo ang isang bagong puwang para magsimula ulit ang gawain. Kapag natapos ang isang gawain, inilabas ng JobTracker ang puwang para sa iba pang mga gawain at linisin ang pansamantalang mga mapagkukunan.


Mga pangunahing sagabal ng diskarte sa itaas:

  • Availability - JobTracker ay ang tanging punto ng pagkakaroon ng Hadoop 1.0. Nangangahulugan ito na kung nabigo ang JobTracker, ang lahat ng mga gawain ay mai-restart nang default.
  • Limitadong scalability - Dahil ang JobTracker ay nagsasagawa ng maraming mga gawain at tumatakbo sa isang solong makina, hindi ginagamit ang iba pang magagamit na mga makina; samakatuwid, na nagreresulta sa limitadong scalability.
  • Paggamit ng mapagkukunan - Sa itaas na diskarte, ang mga puwang ng mapa at bawasan ang mga puwang ay tinukoy na. Maaaring mangyari na ang isa sa mga puwang ay puno ngunit ang iba pang mga puwang ng makina ay walang laman. Dahil ang mga walang laman na puwang ay nakareserba, maupo sila sa halip na kompromiso para sa buong mga puwang. Ito ay maaaring maging sanhi ng isang isyu ng paggamit ng mapagkukunan.
  • Pagpapatakbo ng mga application na hindi MapReduce - Ang JobTracker ay isang application na kung saan ay binuo para sa balangkas ng MapReduce. Ang problema ay lumitaw kapag ang isang application na hindi MapReduce ay sumusubok na tumakbo sa balangkas na ito. Ang application ay kailangang umayon sa pagprograma ng balangkas ng MapReduce upang mapatakbo ang matagumpay. Ang ilan sa mga karaniwang isyu na kinakaharap dahil dito ay kasama ang mga problema sa:
    • Ad-hoc query
    • Real-time na pagsusuri
    • lumalapit na pamamaraan
  • Pagkabigo sa pag-cascading - Ang isa sa mga pangunahing isyu sa balangkas na ito ay nangyayari kapag ang bilang ng mga node ay higit pa sa 4000. Sa ganoong senaryo, isang pagkabigo ng cascading ay nagaganap, na nagreresulta sa pagkasira ng kumpletong kumpol.

Ito ang ilan sa mga pangunahing limitasyon na nahaharap habang nagtatrabaho sa balangkas na ito. Mayroong ilang iba pang mga menor de edad na mga limitasyon din, na hindi nabanggit. Ang balangkas ng YARN ay ipinakilala upang malampasan ang mga limitasyong ito.

Walang Mga bug, Walang Stress - Ang Iyong Hakbang sa Hakbang Patnubay sa Paglikha ng Software na Pagbabago ng Buhay nang Walang Pagsira sa Iyong Buhay

Hindi mo maaaring mapabuti ang iyong mga kasanayan sa pag-programming kapag walang nagmamalasakit sa kalidad ng software.

YARN Framework at mga Kalamangan nito

Ang balangkas ng YARN, na ipinakilala sa Hadoop 2.0, ay sinadya upang ibahagi ang mga responsibilidad ng MapReduce at alagaan ang gawain ng pamamahala ng kumpol. Pinapayagan nito ang MapReduce na magsagawa ng pagproseso ng data lamang at samakatuwid, i-streamline ang proseso.

Ang pananaw ay nagdadala sa konsepto ng isang pamamahala sa sentral na mapagkukunan. Pinapayagan nito ang maraming mga application na tumakbo sa Hadoop, pagbabahagi ng isang pangkaraniwang pamamahala ng mapagkukunan.

Ang ilan sa mga pangunahing sangkap ng balangkas ng YARN ay:

  • ResourceManager - Ang sangkap na ResourceManager ay ang negosador sa isang kumpol para sa lahat ng mga mapagkukunan na naroroon sa kumpol na iyon. Bukod dito, ang sangkap na ito ay naiuri sa isang application manager na may pananagutan sa pamamahala ng mga trabaho sa gumagamit. Mula sa Hadoop 2.0 ang anumang trabaho sa MapReduce ay isasaalang-alang bilang isang application.
  • ApplicationMaster - Ang sangkap na ito ay ang lugar kung saan umiiral ang isang trabaho o aplikasyon. Pinamamahalaan din nito ang lahat ng mga trabaho sa MapReduce at natapos pagkatapos makumpleto ang pagproseso ng trabaho.
  • NodeManager - Ang sangkap ng node manager ay kumikilos bilang server para sa kasaysayan ng trabaho. Ito ay responsable para sa pag-secure ng impormasyon ng mga nakumpletong trabaho. Sinusubaybayan din nito ang mga trabaho ng mga gumagamit kasama ang kanilang daloy ng trabaho para sa isang partikular na node.

Tandaan na ang balangkas ng YARN ay may iba't ibang mga sangkap upang pamahalaan ang magkakaibang mga gawain, tingnan natin kung paano nito binabalewala ang mga limitasyon ng Hadoop 1.0.

  • Mas mahusay na paggamit ng mga mapagkukunan - Ang balangkas ng YARN ay walang anumang nakapirming mga puwang para sa mga gawain. Nagbibigay ito ng isang tagapamahala ng sentral na mapagkukunan na nagbibigay-daan sa iyo upang ibahagi ang maraming mga aplikasyon sa pamamagitan ng isang karaniwang mapagkukunan.
  • Pagpapatakbo ng mga application na hindi MapReduce - Sa YARN, ang mga kakayahan sa pag-iskedyul at pamamahala ng mapagkukunan ay nahihiwalay mula sa sangkap ng pagproseso ng data. Pinapayagan nitong magpatakbo ng iba't ibang uri ng mga aplikasyon ang Hadoop na hindi umaayon sa pagprograma ng balangkas ng Hadoop. Ang mga kumpol ng Hadoop ay may kakayahang magpatakbo ng mga independiyenteng interactive na mga query at gumaganap ng mas mahusay na pagsusuri sa real-time.
  • Ang pabalik na pagiging tugma - Ang PAG-ARAL ay darating bilang isang balangkas na pabalik na katugma, na nangangahulugang ang anumang umiiral na trabaho ng MapReduce ay maaaring isagawa sa Hadoop 2.0.
  • Hindi na umiiral ang JobTracker - Ang dalawang pangunahing tungkulin ng JobTracker ay ang pamamahala ng mapagkukunan at pag-iskedyul ng trabaho. Sa pagpapakilala ng balangkas ng YARN ang mga ito ngayon ay pinaghiwalay sa dalawang magkahiwalay na sangkap, lalo:
    • NodeManager
    • MapagkukunanManager

Konklusyon

Ang pagpapakilala ng balangkas ng YARN ay naging mas madali upang bumuo ng mga aplikasyon para sa mga developer ng Hadoop. Ngayon, ang mga aplikasyon ay hindi na kinakailangan upang maipatupad gamit ang mga tool sa third-party. Ang YARN ay isang malaking pagbabago na magpapahintulot sa mga gumagamit na isaalang-alang ang Hadoop 2.0 na lumikha ng mga application at manipulahin ang data nang mas epektibo. Sa oras, magkakaroon ng karagdagang mga pag-unlad upang mapahusay ang kakayahang magamit ng Hadoop. Sa ngayon, ang balangkas ng YARN ay gagampanan ng isang mahalagang papel sa pagharap sa umiiral na mga problema at paglikha ng isang walang problema na kapaligiran na kung saan ay mas maraming nalalaman pagkatapos ang naunang bersyon ng modelo ng MapReduce.