Operational Hadoop sa Next-Generation Data Architecture

May -Akda: Roger Morrison
Petsa Ng Paglikha: 20 Setyembre 2021
I -Update Ang Petsa: 1 Hulyo 2024
Anonim
Crash Course in Data Architecture
Video.: Crash Course in Data Architecture

Nilalaman



Pinagmulan: Romeo1232 / Dreamstime.com

Takeaway:

Ang Hadoop ay magiging isang pangunahing manlalaro sa arkitektura ng data sa susunod na henerasyon dahil sa kakayahang hawakan ang malawak na dami ng data.

Ang utility ni Hadoop ay nagsisimula na lampas sa malalaking pagpoproseso ng data at analytics habang ang industriya ay humihiling ng higit pa mula dito. Ang Hadoop ay patuloy na nakatutustos sa magkakaibang mga kinakailangan na may kaugnayan sa arkitektura ng data ng negosyo habang pinapanatili ang orihinal na lakas nito. Ang listahan ng kung ano ang maaaring gawin ni Hadoop at kasalukuyang ginagawa ay medyo mahaba. Nakapagproseso ngayon ng Hadoop ang malaking dami ng mga transactional workload, isang gawain na dating inaasahan ng mga tradisyunal na teknolohiya. Pagpunta sa unahan, maraming mga posibilidad para sa Hadoop sa hinaharap. Halimbawa, ang mga sistema ng transaksyon batay sa SQL ay maaaring gumamit ng isang Hadoop SQL engine at ang Hadoop ay magdagdag din ng maraming mga kakayahan sa RDBMS. Maaari mong sabihin na ang Hadoop ay nagiging isang hybrid ng data processing at analytical na mga kakayahan na may mga kakayahan sa arkitektura ng enterprise.


Ano ang Next-Generation Data Architecture?

Upang ilagay ito nang simple, ang susunod na henerasyon na arkitektura ng data ay isang nagbago na anyo ng arkitektura ng data. Ang lahat, kabilang ang mga modelo ng data, mga patakaran ng data, mga patakaran at pamantayan na namamahala kung paano nakolekta ang data, naimbak, inayos, sinuri o naproseso, isinama, ginamit at dispensyon, ay nagbago sa ilalim ng arkitektura ng data ng susunod na henerasyon.

Ang pangunahing pagkakaiba sa pagitan ng naunang arkitektura ng data at arkitektura ng data ng susunod na henerasyon ay ang kakayahang mangolekta, mag-imbak at magproseso ng napakalaking dami ng data, na kilala rin bilang malaking data, sa real time. Ang arkitektura ay gumaganap ng lahat ng mga kumplikadong gawain na walang pag-kompromiso sa mga pamantayan sa pagkapribado, seguridad at data.

Ang arkitektura ng data ng susunod na henerasyon ay nahaharap sa maraming mga hamon. Hindi madaling hawakan ang dami, bilis at iba't ibang malaking data. Idagdag sa na ang mga kinakailangan ng pag-optimize ng workload ng system, pagpapabuti ng mga pagganap, bilis at katumpakan, at pagbawas ng gastos. Hindi na kailangang sabihin, ang naunang arkitektura ng data ay hindi kailangang pamahalaan ang mga kahilingan.


Kaya, ang mga CIO at arkitekto ng impormasyon ay nais na makahanap ng isang solusyon na makakatulong sa kanila na makamit ang kanilang mga layunin. Ang Operational Hadoop ay nakatuon sa ilang oras sa con.Ang mga sumusunod na seksyon ay tatalakayin kung paano malulutas ang mga operasyong Hadoop.

Mga Inaasahan Mula sa Hadoop sa Con ng Next-Generation Architecture

Ang mga kumpanya ay nasa ilalim ng pagtaas ng presyon upang maihatid ang mas mahusay na mga resulta at ang mga epekto ay nakalusot sa mga inaasahan na inilagay sa mga teknolohiya. Kaya, ang Hadoop ay hindi na inaasahan na magproseso lamang ng data. Ang mga CIO at CTO ay nais ng higit pa mula sa Hadoop. Ibinigay sa ibaba ay isang listahan ng mga inaasahan mula sa Hadoop. Sa katunayan, naihatid na ni Hadoop ang ilan sa mga inaasahan na ito.

Inaasahan na makikipagtulungan ang Hadoop sa mga sistema ng transaksyon na batay sa SQL at gumawa, magbasa, mag-update at magtanggal ng mga kakayahan. Ang mga sistema ng transaksyon ay ang pag-agaw sa SQL engine. Ang mga system ay magkakaroon din ng buong Portable Operating System Interface (POSIX) na pagsunod at ang kakayahan ng pagproseso ng mga volume na transaksyon.

Inaasahan na suportahan ng Hadoop ang mga tampok tulad ng backup, pagpapaubaya sa kasalanan, pagbawi at pagbawi sa sakuna. Para sa Hadoop na umunlad sa isang system na may mga kakayahan sa RDBMS, kailangang maging katugma sa umiiral na mga tool sa IT.

Ang Hadoop ay nagtatrabaho sa pagtupad ng mga inaasahan, tulad ng maliwanag mula sa ilang mga pag-unlad. Ang Hadoop ay maaaring magbigay ng pagsusuri sa real-time at mabilis na mga tugon batay sa suporta sa pamamahala ng mapagkukunan na ibinigay ng YARN. Ang YARN ay isang malaking sukat at ipinamamahagi ng operating system para sa mga malalaking aplikasyon ng data bilang karagdagan sa pagiging isang tagapamahala ng mapagkukunan. Ang iba pang mga pagpapaunlad tulad ng Apache Storm, na ipinamamahagi ng mga memorya ng mga arkitektura tulad ng Apache Spark, Apache Hive, Drill at MapR-FS (isang mataas na pagganap ng HDFS kapalit), ay kilalang nagtatrabaho, upang mag-alok ng iba't ibang mga kakayahan sa database. tulad ng backup, pagbawi sa sakuna, pagpapaubaya ng kasalanan, atbp. (Para sa higit pa sa PAGTATAYA, tingnan ang Ano ang Mga Bentahe ng Hadoop 2.0 (YARN) Framework?)

Ano ang mga Halaga na Maaaring Magdagdag ng Hadoop sa Next-Generation Data Architecture?

Ang mga halagang nagpapatakbo ng Hadoop ay maaaring magdagdag sa arkitektura ng data ng susunod na henerasyon ay maaaring matingnan mula sa dalawang mga pananaw: ang isa, kung tinutupad nito ang mga inaasahan na inilarawan sa itaas, at dalawa, kung gumagawa ito ng anumang karagdagang. Ibinigay sa ibaba ay ang mga nakalulugod na halaga na maaaring magdala ng pagpapatakbo ng Hadoop.

Ang Hadoop ay nakapagbibigay ngayon ng mas maraming scalability at manageability ng data sa loob ng platform nito sa pamamagitan ng HDFS. At ang data operating system ay pinagana sa pamamagitan ng mga application ng Hadoop 'YARN. Ang diskarte na ito ay kumakatawan sa isang shift sa arkitektura ng data sa isang pangunahing antas. Ngayon, maaaring mag-imbak ang Hadoop ng iba't ibang mga uri ng data tulad ng mga database na nakabase sa transaksyon, mga database ng graph at mga database ng dokumento at ang mga data na ito ay ma-access sa pamamagitan ng mga aplikasyon ng YARN. Hindi na kailangang madoble o ilipat ang data sa iba pang mga lokasyon.

Pinahusay na Pagganap bilang isang Arkitektura ng Data ng Negosyo

Ang Operational Hadoop ay nasa daan upang maging pangunahing sistema ng arkitektura ng data ng negosyo. Habang ang Hadoop ay nakakakuha ng higit pa sa arkitektura ng data ng negosyo, ang mga data ng data ay aalisin habang ang mga linya sa pagitan ng mga ito ay tinanggal. Mayroong magiging mabilis na pagpapabuti sa halos lahat ng mga aspeto. Ang mga pagpapabuti ay magaganap sa anyo ng mas mahusay na mga format ng file, mas mahusay na pagganap ng SQL engine, pinabuting mga file system at katatagan na matutupad ang mga pangangailangan ng mga aplikasyon ng negosyo.

Pagkakaiba sa pagitan ng Hadoop at Iba pang mga Teknolohiya

Noong nakaraan, ang pangunahing pagkakaiba sa pagitan ng mga teknolohiya ng Hadoop at data ng negosyo ay ang malaking pagproseso ng data, pag-uulat at mga kakayahan ng analytics ng Hadoop. Ngayon, habang ang pagpapatakbo ng Hadoop ay nagiging higit pa at isang bahagi ng arkitektura ng data ng negosyo, ang pagkakaiba sa pagitan ng mga entidad ay lalong lumabo. Kaya, ang operational Hadoop ay umuusbong bilang isang napakahusay na alternatibo sa umiiral na arkitektura ng data ng negosyo.

Konklusyon

Dahil sa mga inaasahan at pag-unlad, ang Hadoop ay magiging pokus ng industriya sa loob ng kaunting oras. Ngunit makatuwiran na hindi masyadong mag-focus sa Hadoop at huwag pansinin ang ibang mga teknolohiya. Ito ay dahil ang iba pang mga teknolohiya ay magsusulong sa parehong mga parameter at maaaring maabutan pa ang Hadoop. Hindi maganda na magkaroon ng isang monopolyo sa merkado. Mabuti na ang mga gumagawa ng iba pang mga teknolohiya kaysa sa Hadoop ay maaaring maganyak upang maihatid ang mas mahusay na mga produkto at kahit na mga plug-in na makakatulong sa Hadoop na mapabuti ang pagganap nito.