Bakit Spark Ay ang Hinaharap na Big Data Platform

May -Akda: Laura McKinney
Petsa Ng Paglikha: 1 Abril 2021
I -Update Ang Petsa: 26 Hunyo 2024
Anonim
Lotus-Born Master: The Shambhala Access Code || Guru Padmasambhava, Guru Rinpoche ||
Video.: Lotus-Born Master: The Shambhala Access Code || Guru Padmasambhava, Guru Rinpoche ||

Nilalaman


Pinagmulan: Snake3d / Dreamstime.com

Takeaway:

Ang Apache Spark ay isang bukas na mapagkukunan para sa pagproseso ng malalaking data na gumagapang sa (at sa ilang mga paraan, lumalagpas) Hadoop.

Ang Apache Hadoop ay naging pundasyon para sa malalaking aplikasyon ng data sa loob ng mahabang panahon, at itinuturing na pangunahing platform ng data para sa lahat ng mga handog na may kaugnayan sa data. Gayunpaman, ang in-memory database at computation ay nakakakuha ng katanyagan dahil sa mas mabilis na pagganap at mabilis na mga resulta. Ang Apache Spark ay isang bagong balangkas na gumagamit ng mga kakayahan sa memorya na maihatid ang mabilis na pagproseso (halos 100 beses nang mas mabilis kaysa sa Hadoop). Kaya, ang produktong Spark ay lalong ginagamit sa isang mundo ng malaking data, at higit sa lahat para sa mas mabilis na pagproseso.

Ano ang Apache Spark?

Ang Apache Spark ay isang open-source framework para sa pagproseso ng malaking dami ng data (malaking data) na may bilis at pagiging simple. Ito ay angkop para sa mga aplikasyon ng analytics batay sa malaking data. Ang spark ay maaaring magamit sa isang kapaligiran ng Hadoop, nakapag-iisa o sa ulap. Ito ay binuo sa University of California at pagkatapos ay inalok sa Apache Software Foundation. Sa gayon, ito ay kabilang sa bukas na mapagkukunan na komunidad at maaaring maging napaka-epektibo, na kung saan ay karagdagang pinapayagan ang mga developer ng amateur na gumana nang madali. (Upang malaman ang higit pa tungkol sa bukas na mapagkukunan ng Hadoops, tingnan ang Ano ang Impluwensya ng Bukas na Pinagmulan sa Apache Hadoop Ecosystem?)


Ang pangunahing layunin ng Spark ay nag-aalok ito ng mga developer ng isang balangkas ng aplikasyon na gumagana sa paligid ng isang istraktura ng data na nakasentro. Spark ay din napakalakas at may likas na kakayahan upang mabilis na maproseso ang napakalaking halaga ng data sa isang maikling haba ng oras, sa gayon nag-aalok ng napakagandang pagganap.Ginagawa nitong mas mabilis kaysa sa kung ano ang sinasabing pinakamalapit nitong kakumpitensya, ang Hadoop.

Bakit Napakahalaga ng Spark sa Hadoop

Ang Apache Spark ay palaging kilala sa trumpeta ng Hadoop sa maraming mga tampok, na marahil ay nagpapaliwanag kung bakit nananatiling mahalaga ito. Ang isa sa mga pangunahing dahilan para dito ay upang isaalang-alang ang bilis ng pagproseso nito. Sa katunayan, tulad ng nakasaad sa itaas, nag-aalok ang Spark ng halos 100 beses na mas mabilis na pagproseso kaysa sa MapReduce ng Hadoop para sa parehong dami ng data. Gumagamit din ito ng makabuluhang mas kaunting mga mapagkukunan kumpara sa Hadoop, sa gayon ginagawang epektibo ang gastos.


Ang isa pang pangunahing aspeto kung saan ang itaas na kamay ay ang Spark ay sa mga tuntunin ng pagiging tugma sa isang tagapamahala ng mapagkukunan. Ang Apache Spark ay kilala na tatakbo kasama ang Hadoop, tulad ng ginagawa ng MapReduce, gayunpaman, ang huli ay kasalukuyang katugma lamang sa Hadoop. Tulad ng para sa Apache Spark, maaari itong gumana sa iba pang mga tagapamahala ng mapagkukunan tulad ng YARN o Mesos. Kadalasang binabanggit ng mga siyentipiko ng datos bilang isa sa mga pinakamalaking lugar kung saan talagang pinalampas ng Spark ang Hadoop.

Pagdating sa kadalian ng paggamit, muling nangyari ang Spark kaysa sa Hadoop. Ang Spark ay may mga API para sa maraming mga wika tulad ng Scala, Java at Python, bukod sa pagkakaroon ng kagustuhan ng Spark SQL. Ito ay medyo simple upang isulat ang mga function na tinukoy ng gumagamit. Nangyayari din ito upang ipagmalaki ang isang interactive mode para sa pagpapatakbo ng mga utos. Si Hadoop, sa kabilang banda, ay nakasulat sa Java at nagkamit ng reputasyon ng medyo mahirap na programa, bagaman mayroon itong mga tool na tumutulong sa proseso. (Upang malaman ang higit pa tungkol sa Spark, tingnan kung Paano Tumutulong ang Apache Spark na Pag-unlad ng Application ng Rapid.)

Ano ang Mga Spark na Natatanging Tampok?

Ang Apache Spark ay may ilang mga natatanging tampok na tunay na makilala ito mula sa marami sa mga katunggali nito sa negosyo ng pagproseso ng data. Ang ilan sa mga ito ay nakabalangkas ng maikli sa ibaba.

Hindi mo maaaring mapabuti ang iyong mga kasanayan sa pag-programming kapag walang nagmamalasakit sa kalidad ng software.

Ang Spark ay mayroon ding isang likas na kakayahang mag-load ng kinakailangang impormasyon sa core nito sa tulong ng mga algorithm sa pag-aaral ng machine nito. Pinapayagan nitong maging napakabilis.

Ang Apache Spark ay may kakayahang iproseso ang mga grap o kahit na impormasyon na grapikal sa kalikasan, kaya pinapagana ang madaling pagsusuri na may maraming katumpakan.

Ang Apache Spark ay mayroong MLib, na isang balangkas na inilaan para sa pag-aaral ng nakabalangkas na makina. Ito ay higit sa lahat mas mabilis sa pagpapatupad kaysa sa Hadoop. Ang MLib ay may kakayahang malutas ang maraming mga problema, tulad ng pagbabasa ng istatistika, pag-sampol ng data at pagsubok sa premise, upang pangalanan ang iilan.

Bakit Spark Ay Hindi isang Kapalit para sa Hadoop

Sa kabila ng katotohanan na ang Spark ay may ilang mga aspeto kung saan ibinabagsak ang mga kamay ng Hadoop, mayroon pa ring maraming mga kadahilanan kung bakit hindi nito talaga mapapalitan ang Hadoop.

Una, nag-aalok ang Hadoop ng isang mas malaking hanay ng mga tool kung ihahambing sa Spark. Mayroon din itong ilang mga kasanayan na kinikilala sa industriya. Ang Apache Spark bagaman, ay medyo bata pa rin sa domain at kakailanganin ng ilang oras upang makakuha ng sarili upang magkatugma sa Hadoop.

Ang Hadoop's MapReduce ay nagtakda din ng ilang mga pamantayan sa industriya pagdating sa pagpapatakbo ng buong operasyon. Sa kabilang dako, naniniwala pa rin na ang Spark ay hindi ganap na handa na gumana nang may kumpletong pagiging maaasahan. Kadalasan, ang mga organisasyon na gumagamit ng Spark ay kailangang maayos na ibagay ito, upang maihanda ito para sa kanilang hanay ng mga kinakailangan.

Ang Hadoop's MapReduce, na malapit nang mas mahaba kaysa sa Spark, ay mas madaling i-configure. Hindi ito ang kaso para sa Spark, isinasaalang-alang na nag-aalok ito ng isang buong bagong platform na hindi talaga nasubok ang mga magaspang na mga patch.

Ano ang Iniisip ng Mga Kumpanya Tungkol sa Spark at Hadoop

Maraming mga kumpanya ang nagsimula na gumamit ng Spark para sa kanilang mga pangangailangan sa pagproseso ng data, ngunit ang kuwento ay hindi magtatapos doon. Tiyak na mayroong maraming malakas na aspeto na ginagawa itong isang kamangha-manghang platform ng pagproseso ng data. Gayunpaman, ito rin ay may makatarungang bahagi ng mga drawback na kailangan ng pag-aayos.

Ito ay isang paniwala sa industriya na ang Apache Spark ay narito upang manatili at posibleng ang hinaharap para sa mga pangangailangan sa pagproseso ng data. Gayunpaman, kailangan pa ring sumailalim sa maraming gawaing pag-unlad at buli na magbibigay-daan sa tunay na magamit ang potensyal nito.

Mga Praktikal na Pagpapatupad

Ang Apache Spark ay naging at ginagawa pa rin ng maraming mga kumpanya na umaangkop sa kanilang mga kinakailangan sa pagproseso ng data. Ang isa sa mga pinakamatagumpay na pagpapatupad ay isinagawa ng Shopify, na naghahanap upang pumili ng mga karapat-dapat na tindahan para sa pakikipagtulungan sa negosyo. Gayunpaman, ang bodega ng data nito ay nagpapanatili ng oras kung kailan nais nitong maunawaan ang mga produktong ibinebenta ng mga kostumer nito. Sa tulong ng Spark, ang kumpanya ay nakapagproseso ng maraming milyong mga talaan ng data at pagkatapos ay iproseso ang 67 milyong mga tala sa loob ng ilang minuto. Natukoy din kung aling mga tindahan ang karapat-dapat.

Ginagamit ang Spark, nakikilala ng Pinterest ang pagbuo ng mga uso at pagkatapos ay ginagamit ito upang maunawaan ang pag-uugali ng mga gumagamit. Pinapayagan nito ang karagdagang halaga sa pamayanan ng Pinterest. Ginagamit din ang Spark ng TripAdvisor, isa sa pinakamalaking site ng impormasyon sa paglalakbay sa mundo, upang mapabilis ang mga rekomendasyon nito sa mga bisita.

Konklusyon

Ang isa ay hindi maaaring pagdudahan ang katapangan ng Apache Spark, kahit na sa kasalukuyan, at ang natatanging hanay ng mga tampok na dinadala nito sa talahanayan. Ang lakas at bilis ng pagproseso nito, kasama ang pagiging tugma nito ay nagtatakda ng tono para sa maraming mga bagay na darating sa hinaharap. Gayunpaman, mayroon din itong maraming mga lugar na kailangan nitong pagbutihin, kung ito ay tunay na mapagtanto ang buong potensyal nito. Habang ang Hadoop pa rin ang mga patakaran sa bubong sa kasalukuyan, ang Apache Spark ay mayroong isang magandang kinabukasan at isinasaalang-alang ng maraming magiging hinaharap na platform para sa mga kinakailangan sa pagproseso ng data.