5 Mga Pananaw Tungkol sa Malalaking Data (Hadoop) bilang isang Serbisyo

Video.: Data Deduplication vs Compression

Nilalaman

Rackspace
Masaya
Walang Mga bug, Walang Stress - Ang Iyong Hakbang sa Hakbang Patnubay sa Paglikha ng Software na Pagbabago ng Buhay nang Walang Pagsira sa Iyong Buhay
Qubole
Ang nababanat na MapReduce
Pandikdik
Buod

Pinagmulan: Info40555 / Dreamstime.com

Takeaway:

Ang Hadoop ay isang mahusay na paraan upang masulit ang malaking data, ngunit maraming iba pang mga tool na maaaring gumana sa Hadoop upang magbigay ng mas kapaki-pakinabang na mga resulta.

Sa kasalukuyang araw na nagbabago ng mundo ng teknolohiya, ang software bilang isang serbisyo (SaaS) ay naging isang karaniwang modelo. Inaalok ang serbisyo sa mga tagasuskribi sa bawat kinakailangan na batayan. Sinusunod din ng malaking data ang parehong modelo ng serbisyo. Sa artikulong ito, tatalakayin namin ang modelo ng serbisyo na sinundan sa malaking domain ng data ng data.

Narito ang ilang mga kilalang mga modelo ng serbisyo para sa malaking data bilang isang serbisyo (BDaaS):

Rackspace

Ang mga cluster ng Rackspace Hadoop ay maaaring magpatakbo ng Hadoop sa nakalaang mga server na pinamamahalaan ng Rackspace, pampublikong ulap o pribadong ulap.

Ang isang modelo para sa cloud malaking data ay ibinigay ng Rackspace para sa Apache Spark at Hadoop. Nag-aalok ito ng isang ganap na pinamamahalaang hubad-metal na platform para sa pagproseso ng memorya.

Tinatanggal ng Rackspace ang mga isyu sa pamamahala at pagpapanatili ng malalaking data nang manu-mano. Ito ay may mga sumusunod na tampok:

Binabawasan ang pasanin ng operasyon sa pamamagitan ng pagbibigay ng suporta ng 24 × 7 × 365
Nagbibigay ng buong Hortonworks Data Platforms (HDP) toolet access, kabilang ang Pig, Hive, HBase, Sqoop, Flume at HCatalog
Flexible disenyo ng network na may tradisyonal na networking hanggang sa 10GB

Ang pagpili para sa pribadong ulap ay nagbibigay sa iyo ng pampublikong ulap ng lakas at kahusayan, na may pinataas na seguridad at kontrol. Ang pangunahing kawalan ng paggamit ng pribadong ulap ay mahirap pamahalaan at kailangan ng mga eksperto na mag-upgrade, patch at monitor. Ang Rackspace ay nagbibigay ng mahusay na suporta sa mga lugar na ito, kaya hindi na kailangang mag-alala tungkol sa pamamahala sa ulap.

Masaya

Batay sa Apache Hadoop, si Joyent ay isang cloud-based na kapaligiran sa pagho-host para sa mga malaking proyekto ng data. Ang solusyon na ito ay binuo gamit ang Hortonworks Data Platform. Ito ay isang imprastraktura na may mataas na pagganap na lalagyan para sa mga pangangailangan ng mga mobile application at real-time Web. Pinapayagan nito ang pagpapatakbo ng klase ng enterprise na Hadoop sa mataas na pagganap na Masayang ulap.

Mayroon din itong mga sumusunod na pakinabang:

Walang Mga bug, Walang Stress - Ang Iyong Hakbang sa Hakbang Patnubay sa Paglikha ng Software na Pagbabago ng Buhay nang Walang Pagsira sa Iyong Buhay

Hindi mo maaaring mapabuti ang iyong mga kasanayan sa pag-programming kapag walang nagmamalasakit sa kalidad ng software.

Ang pagputol ng dalawang-katlo ng mga gastos sa imprastraktura sa pamamagitan ng mga solusyon na ibinigay ng Joyent na may parehong oras ng pagtugon
3 × mas mabilis na disk I / O oras ng pagtugon sa pamamagitan ng mga kumpol ng Hadoop sa Maligayang Cloud
Pabilisin ang mga oras ng pagtugon ng ipinamamahagi at kahanay na pagproseso
Nagpapabuti ng scaling ng mga cluster ng Hadoop na nagsasagawa ng mga masinsinang data application na analytics
Mas mabilis ang mga resulta na may mas mahusay na oras ng pagtugon

Kadalasan, ang mga malaking aplikasyon ng data ay itinuturing na mahal at mahirap gamitin. Sinusubukan ng Joyent na baguhin ito sa pamamagitan ng pagbibigay ng mas mura at mas mabilis na mga solusyon. Nagagalak ang nagbibigay ng pampubliko at hybrid na cloud infrastructure para sa real-time na web at mobile application. Kasama sa mga kliyente nito ang mga hindi kapani-paniwala tulad ng LinkedIn at Voxer.

Qubole

Para sa mga malalaking proyekto ng data, isang Hadoop na kumpol ang ibinigay ng Qubole na may mga built-in na konektor ng data at isang graphic na editor. Pinapayagan nito ang paggamit ng isang iba't ibang mga database tulad ng MySQL, MongoDB at Oracle, at itinatakda ang kumpol ng Hadoop sa auto-pilot. Nagbibigay ito ng isang editor ng query para sa Hive, Pig at MapReduce.

Nagbibigay ang Qubole ng lahat-bilang-isang-serbisyo, kabilang ang:

Query editor para sa Hive, Pig at MapReduce
Ekspresyon ng ekspresyon
Paggamit ng dashboard
I-extract ang pag-load ng transaksyon (ETL) at mga tagagawa ng mga pipeline ng data

Kasama sa mga tampok nito:

Tumatakbo nang mas mabilis kaysa sa Amazon EMR
Madaling magamit na GUI na may built-in na konektor at walang tahi na nababanat na imprastrakturang ulap
Ang pag-optimize ng paglalaan ng mapagkukunan at pamamahala ay ginagawa ng QDS Hadoop engine sa pamamagitan ng paggamit ng mga daemon, na nagbibigay ng isang advanced na Hadoop engine para sa mas mahusay na pagganap
Para sa mas mabilis na mga query, ang I / O ay na-optimize para sa imbakan ng S3. Ang S3 ay ligtas at maaasahan. Nag-aalok ang Qubole Data Service ng 5 × mas mabilis na pagpapatupad laban sa data sa S3.
Hindi na kailangang magbayad para sa mga hindi nagamit na mga tampok at aplikasyon
Pagsasama ng ulap - Ang Qubole Data Service ay hindi nangangailangan ng mga pagbabago sa iyong kasalukuyang imprastraktura, nangangahulugang mayroong kakayahang umangkop upang gumana sa anumang platform. Sinusuportahan ng mga konektor ng QDS ang pag-import at pag-export ng mga database ng ulap MongoDB, Oracle, PostgresSQL at mga mapagkukunan tulad ng Google Analytics.
Pamamahala ng Ikot ng Buhay ng Cluster na may Qubole Data Service para sa pagkakaloob ng mga kumpol sa ilang minuto, sakupin ito ng hinihingi at pinapatakbo ito sa kapaligiran para sa madaling pamamahala ng malaking pagtatasa ng data

Ang nababanat na MapReduce

Ang Amazon Elastic MapReduce (EMR) ay nagbibigay ng isang pinamamahalaang balangkas ng Hadoop para sa pagpapagaan ng malaking pagproseso ng data. Madali at magastos para sa pamamahagi at pagproseso ng malalaking halaga ng data.

Ang iba pang mga ipinamamahaging mga frameworks tulad ng Spark at Presto ay maaari ring tumakbo sa Amazon EMR upang makipag-ugnay sa data sa Amazon S3 at DynamoDB. Hinahawakan ng EMR ang mga gamit na ito na may pagiging maaasahan:

Pag-index ng web
Pag-aaral ng makina
Simulation ng pang-agham
Warehousing ng data
Pag-aaral ng pag-log
Mga Bioinformatics

Kasama sa mga kliyente nito ang Yelp, Nokia, Getty Images, Reddit at iba pa. Ang ilan sa mga tampok nito ay:

Ang kakayahang umangkop upang magamit gamit ang pag-access sa ugat sa bawat pagkakataon, ay sumusuporta sa maraming mga pamamahagi ng Hadoop at aplikasyon. Madali itong i-customize ang bawat kumpol at mag-install ng mga karagdagang application.
Madali itong mai-install ang kumpol ng EM EM.
Ang maaasahang sapat na gumastos ng mas kaunting oras sa pagsubaybay sa iyong kumpol; ang mga retry na nabigo na mga gawain at awtomatikong pinapalitan ang hindi magandang pagganap ng mga pagkakataon.
Ligtas, dahil awtomatiko nitong ini-configure ang mga setting ng firewall ng Amazon EC2 para sa pagkontrol sa pag-access sa network sa mga pagkakataon
Iproseso ang data sa anumang scale sa Amazon EMR. Ang bilang ng mga pagkakataon ay madaling madagdagan at nabawasan.
Murang presyo ng presyo na walang nakatagong gastos; magbayad nang oras-oras para sa bawat okasyong ginamit. Halimbawa, ilunsad ang isang 10-node na kumpol ng Hadoop nang kaunti sa $ 0.15 bawat oras.

Ginagamit ito upang pag-aralan ang data ng pag-click-stream para sa pag-unawa sa mga kagustuhan ng gumagamit. Maaaring pag-aralan ng mga advertiser ang mga pag-click sa mga stream at mga impression sa advertising ng advertising.

Maaari rin itong magamit upang maproseso ang malawak na dami ng genomic data at mahusay na hanay ng data. Ang data na Genomic na naka-host sa AWS ay maaaring ma-access ng mga mananaliksik nang libre.

Ang Amazon EMR ay maaaring magamit para sa pagproseso ng log at makakatulong sa kanila sa pag-alis ng mga petabytes ng hindi nakaayos at semi-nakabalangkas na data sa mga kapaki-pakinabang na pananaw.

Pandikdik

Ang mortar ay isang platform para sa high-scale data science at itinayo sa ulap ng Amazon Web Services. Ito ay itinayo sa Elastic MapReduce (EMR) upang ilunsad ang mga kumpol ng Hadoop. Ang Mortar ay nilikha ni K. Young, Jeremy Kam, at Doug Daniels noong 2011 na may motibo upang maalis ang oras, mahirap na mga gawain. Ginagawa ito upang ang mga siyentipiko ay maaaring gumugol ng kanilang oras sa paggawa ng iba pang kritikal na gawain.

Tumatakbo ito sa Java, Jython, Hadoop, atbp para sa pag-minimize ng oras na na-invest ng mga gumagamit at hayaan silang tumuon sa agham ng data.

Mayroon itong mga sumusunod na tampok:

Pinapalaya nito ang form ng iyong koponan na nakakapagod at pag-install at pagpapanatili ng oras.
Makatipid ng oras sa pamamagitan ng pagkuha ng mga solusyon sa mga operasyon sa isang maikling panahon.
Awtomatikong alerto ang mga gumagamit ng anumang mga glitches sa teknolohiya at mga aplikasyon upang matiyak na nakakakuha sila ng tumpak at real-time na impormasyon.

Mga aplikasyon ng platform ng Mortar:

Para sa pag-deploy ng isang malakas, scalable na rekomendasyon engine, ang pinakamabilis na platform ay Mortar.
Ang mortar ay ganap na awtomatiko, dahil pinapatakbo nito ang engine ng rekomendasyon mula sa dulo hanggang sa isang solong utos.
Gumagamit ito ng pamantayan sa pamantayan ng bersyon ng industriya na tumutulong sa madaling pagbagay at pagpapasadya.
Para sa pagsusuri, madaling ikonekta ang maraming mga mapagkukunan ng data sa mga bodega ng data.
Makakatipid ito ng oras ng trabaho para sa iyong koponan sa pamamagitan ng paghawak ng imprastruktura, paglawak at iba pang mga operasyon.
Hulaan ang pagtatasa sa pamamagitan ng paggamit ng data na mayroon ka. Sinusuportahan ng Mortar ang mga pamamaraang tulad ng linear regression at pag-uuri para sa pagtatasa.
Suportahan ang mga nangungunang teknolohiya sa pag-aaral ng makina tulad ng R, Baboy at Python para sa paghahatid ng walang hirap na pagkakatulad para sa mga kumplikadong trabaho.
Ang 99.9% uptime at strategic alerting ay nagsisiguro ng tiwala ng mga gumagamit at muling paghahatid ng mga pipeline ng analytics at paulit-ulit.
Ang mga mahuhulaan na algorithm ay ginagamit para sa paglaki ng negosyo tulad ng hinuhulaan ang demand at pagkilala sa mga customer na may mataas na halaga.
Ang pag-aaral ng mga malalaking dami ng madaling gawin, kung ito ay tokenization, stemming, LDA o n-gramo.

Buod

Mayroong maraming mga malaking aplikasyon ng data na magagamit ngayon, at sa hinaharap ay walang pagsala na magiging mas mabilis at mas murang mga solusyon na magagamit para sa mga gumagamit. Bukod dito, ang mga service provider ay lalabas ng mas mahusay na mga solusyon, na ginagawang mas malawak ang pag-install at pagpapanatili.