Dapat: Isang Game Changer sa Hadoop Ecosystem?

Video.: "Data Science: Where are We Going?" - Dr. DJ Patil (Strata + Hadoop 2015)

Nilalaman

Ano ang Dapat?
Ano ang Kudus Kasalukuyang Katayuan?
Paano Makakumpleto ang Kudu HDFS / HBase?
Mga Tampok ng Dapat Framework
Paano Mababago ang Kailangang Hadoop Ecosystem?
Walang Mga bug, Walang Stress - Ang Iyong Hakbang sa Hakbang Patnubay sa Paglikha ng Software na Pagbabago ng Buhay nang Walang Pagsira sa Iyong Buhay
Konklusyon

Pinagmulan: Agsandrew / Dreamstime.com

Takeaway:

Ang Kudu ay isang open-source na proyekto na tumutulong sa pamamahala ng imbakan nang mas mahusay.

Ang Kudu ay isang bagong bukas na mapagkukunan na nagbibigay ng na-update na imbakan. Ito ay isang pandagdag sa HDFS / HBase, na nagbibigay ng sunud-sunod at pagbabasa-lamang na imbakan. Ang Narito ay mas angkop para sa mabilis na analytics sa mabilis na data, na kung saan ay kasalukuyang demand ng negosyo. Kaya Dapat ay hindi lamang isa pang Hadoop ecosystem proyekto, ngunit sa halip ay may potensyal na baguhin ang merkado. (Para sa higit pa sa Hadoop, tingnan ang 10 Ang Mahahalagang Mga Tuntunin ng Hadoop na Kailangan mong Malaman at Unawain.)

Ano ang Dapat?

Ang Kudu ay isang espesyal na uri ng sistema ng imbakan na nagtatago ng nakabalangkas na data sa anyo ng mga talahanayan. Ang bawat talahanayan ay may mga bilang ng mga haligi na tinukoy na. Ang bawat isa sa kanila ay may pangunahing susi na talagang isang pangkat ng isa o higit pang mga haligi ng talahanayan na iyon. Ang pangunahing key na ito ay ginawa upang magdagdag ng isang paghihigpit at mai-secure ang mga haligi, at gumana rin bilang isang index, na nagbibigay-daan sa madaling pag-update at pagtanggal. Ang mga talahanayan na ito ay isang serye ng mga data ng subset na tinatawag na mga tablet.

Ano ang Kudus Kasalukuyang Katayuan?

Dapat talagang mahusay na binuo at dapat na kasama ng maraming mga tampok. Gayunpaman, kakailanganin pa rin nito ang ilang buli, na maaaring gawin nang mas madali kung iminumungkahi at gumawa ng ilang mga pagbabago.

Ang Kudu ay ganap na bukas na mapagkukunan at mayroong Apache Software Lisensya 2.0. Inilaan din itong isumite sa Apache, upang maaari itong mabuo bilang isang proyektong Apache Incubator. Papayagan nito na umunlad ang pag-unlad nito kahit na mas mabilis at lalo pang palaguin ang tagapakinig nito. Matapos ang isang tiyak na tagal ng oras, ang kaunlaran ng Kudu ay gagawin nang publiko at malinaw. Maraming mga kumpanya tulad ng AtScale, Xiaomi, Intel at Splice Machine na magkasama upang mag-ambag sa pagbuo ng Kudu. Ang Kudu ay mayroon ding isang malaking pamayanan, kung saan ang isang malaking bilang ng mga madla ay nagbibigay na ng kanilang mga mungkahi at kontribusyon. Kaya, ito ang mga tao na nagmamaneho ng pasulong na pag-unlad.

Paano Makakumpleto ang Kudu HDFS / HBase?

Hindi nangangahulugang Dapat na maging kapalit sa HDFS / HBase. Ito ay talagang dinisenyo upang suportahan ang parehong HBase at HFDS at tumakbo sa tabi ng mga ito upang madagdagan ang kanilang mga tampok. Ito ay dahil ang HBase at HDFS ay mayroon pa ring maraming mga tampok na ginagawang mas malakas sa kanila kaysa sa mga tiyak na makina. Sa kabuuan, ang mga naturang makina ay makakakuha ng mas maraming mga benepisyo mula sa mga sistemang ito.

Mga Tampok ng Dapat Framework

Ang mga pangunahing tampok ng Dapat na balangkas ay ang mga sumusunod:

Lubhang mabilis na pag-scan ng mga haligi ng talahanayan - Ang pinakamahusay na mga format ng data tulad ng Parquet at ORCFile ay nangangailangan ng pinakamahusay na mga pamamaraan sa pag-scan, na maayos na tinugunan ng Kudu. Ang ganitong mga format ay nangangailangan ng mabilis na pag-scan na maaaring mangyari lamang kapag ang data ng haligi ay maayos na naka-encode.
Kahusayan ng pagganap - Ang pagtaas ng balangkas ng Dapat ay nagdaragdag ng pagiging maaasahan ng Hadoop sa pamamagitan ng pagsasara ng marami sa mga loopholes at gaps na naroroon sa Hadoop.
Madaling pagsasama sa Hadoop - Dapat madaling maisama sa Hadoop at ang iba't ibang mga sangkap para sa higit na kahusayan.
Ganap na bukas na mapagkukunan - Ang Kudu ay isang bukas na mapagkukunan ng system na may lisensya ng Apache 2.0. Mayroon itong malaking komunidad ng mga nag-develop mula sa iba't ibang mga kumpanya at background, na regular na ina-update ito at nagbibigay ng mga mungkahi para sa mga pagbabago.

Paano Mababago ang Kailangang Hadoop Ecosystem?

Kailangang itayo ang Dapat upang umangkop sa ekosistema ng Hadoop at mapahusay ang mga tampok nito. Maaari rin itong isama sa ilang mga pangunahing sangkap ng Hadoop tulad ng MapReduce, HBase at HDFS. Ang mga trabaho sa MapReduce ay maaaring magbigay ng data o kumuha ng data mula sa mga talahanayan ng Kudu. Ang mga tampok na ito ay maaaring magamit din sa Spark. Ang isang espesyal na layer ay gumagawa ng ilang mga sangkap ng Spark tulad ng Spark SQL at DataFrame naa-access sa Kudu. Kahit na Kailangang hindi pa binuo upang mapalitan ang mga tampok na ito, tinatayang na pagkatapos ng ilang taon, ito ay bubuo nang sapat upang gawin ito. Hanggang doon, ang pagsasama sa pagitan ng Hadoop at Kudu ay talagang kapaki-pakinabang at maaaring mapunan ang mga pangunahing gaps ng ecosystem ng Hadoop. (Upang malaman ang higit pa tungkol sa Apache Spark, tingnan kung Paano Tumutulong ang Apache Spark na Pag-unlad ng Application ng Rapid.)

Dapat maipatupad ang Dapat sa iba't ibang mga lugar. Ang ilang mga halimbawa ng mga nasabing lugar ay ibinibigay sa ibaba:

Walang Mga bug, Walang Stress - Ang Iyong Hakbang sa Hakbang Patnubay sa Paglikha ng Software na Pagbabago ng Buhay nang Walang Pagsira sa Iyong Buhay

Hindi mo mapagbuti ang iyong mga kasanayan sa pagprograma kapag walang nagmamalasakit sa kalidad ng software.

Ang mga pag-stream ng pag-stream sa malapit na real-time - Sa mga lugar kung saan kailangang matanggap ang mga input ng ASAP, ang Gumagawa ay maaaring gumawa ng isang kamangha-manghang trabaho. Ang isang halimbawa ng tulad ng isang lugar ay sa mga negosyo, kung saan ang malaking halaga ng mga dynamic na pagbaha ng data mula sa iba't ibang mga mapagkukunan, at kailangang magawa nang mabilis sa real time.
Mga application ng serye ng oras na may iba't ibang mga pattern ng pag-access - Dapat ay perpekto para sa mga application na batay sa time-series dahil mas simple ang mag-set up ng mga talahanayan at i-scan ang mga ito gamit ito. Ang isang halimbawa ng naturang paggamit ay sa mga department store, kung saan ang lumang data ay kailangang matagpuan nang mabilis at naproseso upang mahulaan ang katanyagan ng hinaharap ng mga produkto.
Mga sistema ng pamana - Maraming mga kumpanya na nakakakuha ng data mula sa iba't ibang mga mapagkukunan at nag-iimbak ng mga ito sa iba't ibang mga workstation ay mararamdaman sa bahay kasama ang Kudu. Ang Mabilis ay napakabilis at maaaring epektibong isama sa Impala upang maproseso ang data sa lahat ng mga makina.
Mahulaan na pagmomolde - Ang mga siyentipiko ng data na nais ng isang mahusay na platform para sa pagmomolde ay maaaring gumamit ng Kudu. Dapat malaman ang Dapat mula sa bawat hanay ng mga data na pinapakain dito. Ang siyentipiko ay maaaring tumakbo at muling patakbuhin ang modelo nang paulit-ulit upang makita kung ano ang mangyayari.

Konklusyon

Kahit na ang Kudu ay nasa yugto pa rin ng pag-unlad, mayroon itong sapat na potensyal na maging isang mahusay na add-in para sa mga karaniwang sangkap ng Hadoop tulad ng HDFS at HBase. Ito ay may sapat na potensyal na ganap na baguhin ang Hadoop ecosystem sa pamamagitan ng pagpuno sa lahat ng mga gaps at pagdaragdag din ng ilang higit pang mga tampok. Mabilis din ito at malakas at makakatulong sa mabilis na pagsusuri at pag-iimbak ng malalaking talahanayan ng data. Gayunpaman, mayroon pa ring ilang natitirang trabaho na dapat gawin para magamit ito nang mas mahusay.