Kapag SQL Ay Hindi Sapat: Mga Kontrol para sa Napakalaking Bagong Data Center

Video.: Lotus-Born Master: The Shambhala Access Code || Guru Padmasambhava, Guru Rinpoche ||

Nilalaman

Google File System: Isang Malaking Kaso Pag-aaral
Walang Mga bug, Walang Stress - Ang Iyong Hakbang sa Hakbang Patnubay sa Paglikha ng Software na Pagbabago ng Buhay nang Walang Pagsira sa Iyong Buhay
Isang pagtingin sa Core Technology
Paano Nakamit Ito ang Ibang Malaking Sistema?
Pagpapanatili ng isang DFS

Takeaway:

Kailangang patuloy na magtrabaho ang mga nag-develop at inhinyero upang mapabilis at mapabuti ang mga serbisyo sa mga platform na lumaki nang higit pa sa kanilang mga klasikong archetypes ng 1990s.

Sa lahat ng buzz tungkol sa napakalaking NASA data center na may hawak na mga dolyar ng mga data ng data tungkol sa aming pribadong buhay, mayroong isang bagay na hindi napag-uusapan nang marami, kahit papaano sa CNN. Nagsasangkot ito ng isang problema sa engineering na lumitaw kasama ang teknolohiya ng ulap, malaking data at ang kamangha-manghang mga pisikal na data sa pag-iimbak ng data na ngayon ay itinatayo sa buong mundo. Kaya ano ito? Buweno, kahit na sino ang nangangasiwa ng isa sa mga malalaking sistema ng IT na nagpapatakbo ng mga pasilidad na ito, mayroong pangangailangan para sa mga sistema ng software na makakatulong sa lahat ng data na makapasok nang mabilis at mabilis. Ang pangangailangan na iyon ay kumakatawan sa isa sa mga pinaka-kagiliw-giliw na mga katanungan sa IT o mga puzzle na kinakaharap ng mga propesyonal ngayon.

Tulad ng itinuturo ng maraming eksperto, ang labis na hinihiling ngayon sa pagproseso ng data ay higit pa sa tradisyunal na pamamaraan. Maglagay lamang, gamit ang mga simpleng istruktura ng database at mga tool tulad ng interface ng query ng SQL ay hindi magbibigay ng sapat na lakas o pag-andar para sa pagproseso para sa mga kagustuhan ng mga pagmamay-ari na sistema na binuo noong nakaraang mga taon. Ang mga archive ng mga malalaking kumpanya sa tech ngayon ay nangangailangan ng sobrang nasusukat na teknolohiya. Kailangan nila ang mga tool sa pagproseso ng data na maaaring mag-input at mga resulta ng output sa mas mataas na dami kaysa sa kung ano ang mapadali ng isang server. Kailangan nila ang mga solusyon na maaaring mabilis na rampa para sa paglago, mga solusyon na kasama ang mga kumplikadong antas ng artipisyal na intelihente, mga solusyon na idinisenyo para sa madaling pamamahala ng isang departamento ng IT.

Ang tanong ay, paano nasakop ng mga kumpanya at ahensya ng gobyerno ang mga limitasyon ng tradisyunal na landas ng paghawak ng data? Narito nang mabuti tingnan ang isang napaka-promising na pagpipilian: Ang software na humahawak ng malaking data at sa pangangasiwa ng maraming data center.

Google File System: Isang Malaking Kaso Pag-aaral

Ang teknolohiyang pagmamay-ari na ginagamit ng Google upang ma-access ang mga sentro ng data ay isa sa mga pinakamahusay na halimbawa ng mga karaniwang modelo para sa malaking paghawak ng data at maraming pangangasiwa ng sentro ng data. Ang Google File System (GFS), na binuo noong 2003, ay idinisenyo upang suportahan ang malaking dami ng mga pagbabago sa mataas na bilis sa mga sistema ng data na bahagi ng pagkuha ng napakaraming bagong impormasyon papasok at labas ng isang solong platform habang milyon-milyong mga gumagamit ang nag-click sa layo Parehong oras. Tinukoy ito ng mga eksperto bilang isang ipinamamahaging sistema ng file, at ginamit ang salitang "imbakan ng data object" upang ilarawan ang mga kumplikadong pamamaraan na ito. Sa katotohanan, gayunpaman, ang mga term na ito ay hindi kahit na ang mga ibabaw sa mga termino na naglalarawan kung ano ang nasa trabaho.

Indibidwal, ang mga tampok at sangkap na bumubuo ng isang sistema tulad ng GFS ay maaaring hindi na masira sa lupa, ngunit kumplikado sila. Marami sa kanila ang nasaklaw sa site na ito bilang medyo bagong mga pagbabago na bahagi ng saligan para sa isang bago, palaging, palaging konektado sa pandaigdigang sistema ng IT. Sama-sama, ang isang sistemang tulad ng GFS ay higit pa sa kabuuan ng mga bahagi nito: ito ay isang hindi kalakaran ngunit mahigpit na kumplikadong network na nakikipagkumpitensya sa mga indibidwal na piraso ng data na inihagis sa ganitong paraan at sa isang proseso na, kung ganap na modelo ng biswal, mukhang kaguluhan. Ang pag-unawa kung saan ang lahat ng data ay pupunta ay nangangailangan ng maraming lakas at pangako, dahil ang mga namamahala sa mga istasyon ng labanan ng mga sistemang ito ay kaagad na aminin.

"Napakaraming mga detalye na may malalim na epekto sa mga lugar ng kakayahang magamit - kabilang ang panlabas at panloob na pagkapira-piraso, pag-update ng log kumpara sa mga in-lugar na pag-update, at mga antas ng pagkakapare-pareho ng transaksyon - upang ipagsumite ang paraan na gumagana sa isang solong matagumpay na pangungusap , "sabi ni Momchil Michailov, CEO at co-founder ng Sanbolic.

"Ang isang ipinamamahaging sistema ng file ay alinman sa isang ipinamahagi na pinagsama-sama ng mga lokal na puwang ng pangalan at mga libreng puwang ng mga kalahok na node, o isang lokal na file system na tumatakbo sa maraming mga node na nag-access sa ibinahaging imbakan sa tulong ng isang ipinamamahaging bahagi ng tagapamahala ng lock," aniya.

Si Kerry Lebel ay senior manager ng produkto sa Automic, isang kumpanya na kilala sa mga scalable automation platform nito. Sinabi ni Lebel na habang tumpak na ilarawan ang isang DFS bilang isang sistema na simpleng nagtatalaga ng mga workload sa mga server na naka-attach sa mga murang mga piraso ng hardware, hindi talaga sinasabi nito ang buong kwento.

Walang Mga bug, Walang Stress - Ang Iyong Hakbang sa Hakbang Patnubay sa Paglikha ng Software na Pagbabago ng Buhay nang Walang Pagsira sa Iyong Buhay

Hindi mo maaaring mapabuti ang iyong mga kasanayan sa pag-programming kapag walang nagmamalasakit sa kalidad ng software.

"Ang tinatapos mo ay nawawala ang lahat ng mga cool na kadahilanan ng paano ginagawa nila ang ginagawa nila, "ani Lebel.

Kapag lumayo ka mula sa mga teknikal na detalye at mag-isip lamang tungkol sa pangunahing ideya sa likod ng ipinamamahaging file system, maliwanag ang "cool factor" na pinag-uusapan ni Lebel. Ang mga malalaking sistema ng paghawak ng data ay pinapalitan ang mga dating file / folder system na may mga istruktura na nagsasangkot hindi lamang ng maraming mga sistema ng paghahatid, ngunit isang diskarte na "orient oriented", kung saan ang isang malawak na bilang ng mga yunit ay nasusukol dito at doon upang maiwasan ang mga bottlenecks.

Isipin, halimbawa, ng isang state-of-the-art highway system, kung saan ang daan-daang libong mga kotse ay hindi lamang pinapagpasyahan ng isang multilane na diretso, ngunit lumusot sa malinis na maliit na dahon ng klouber o mga bullbow tributaries, na kung saan ay sinisiksik at ipinadala patungo sa kanilang mga patutunguhan sa iba't ibang mga daanan. Mula sa kalangitan, ang lahat ay mukhang choreographed bilang isang relo ng Switzerland. Ang mga uri ng visual na modelo na tinitingnan ng mga inhinyero kapag pinangarap nila ang mga bagong paraan upang ruta ang impormasyon sa paligid ng mga limitasyon sa pamamagitan ng "kicking" ito sa iba't ibang mga antas ng isang scema na naglalaman ng data na may maraming mga antas. Iniiwan ang mga specs, ito ang pinakamataas na antas ng layunin ng isang sistema ng paghawak: upang mapanatili ang mga bagay na may sarili na mga bagay gamit ang kanilang naka-embed na metadata na gumagalaw sa tuktok na bilis sa kung saan kailangan nila, upang maabot ang mga layunin ng pare-pareho, masiyahan ang isang end user, o kahit na ipaalam sa isang top-level na pagmamasid o pagsusuri.

Isang pagtingin sa Core Technology

Ang isang artikulo ni Sean Gallagher na lumitaw sa Ars Technica ay sumisira sa disenyo ng GFS hanggang sa medyo masayang pamahalaan, at mga pahiwatig sa kung ano ang nasa ilalim ng sheet sa Google.

Nagsisimula ang GFS sa isang kalabisan at modelo ng mapagparaya sa kasalanan para sa pagbabasa ng data at magsusulat. Ang ideya dito ay sa halip na pagsulat ng isang tukoy na pag-update sa isang solong drive, ang mga bagong sistema ay sumulat ng mga chunks ng data sa maraming mga patutunguhan. Sa ganoong paraan, kung ang isang pagsulat ay nabigo, ang iba ay mananatili. Upang mapaunlakan ito, ang isang pangunahing bahagi ng network na sakahan ang data sa paghawak ng data sa iba pang mga subordinate unit, muling pinagsama-sama ang data kapag ang isang kliyente ay "tumawag" para dito. Ang lahat ng ito ay posible sa pamamagitan ng isang metadata protocol na tumutulong upang matukoy kung saan ang ilang mga pag-update at mga resulta ng paghahatid ay nasa loob ng mas malaking sistema.

Ang isa pang napakahalagang aspeto nito ay kung paano ipinatutupad ng mga dobleng-mabibigat na sistema ang pagkakapare-pareho ng data. Tulad ng mga tala ni Gallagher, ang disenyo ng GFS ay nagsasakripisyo ng ilang pagkakapare-pareho habang "nagpapatupad ng atomicity," o protektahan ang prinsipyo kung paano mai-update ang data sa maraming mga yunit ng imbakan upang tumugma sa paglipas ng panahon. Ang "relatibong pagkakapare-pareho ng Google" ay tila sumusunod sa mahahalagang teorya ng modelo ng BASE, na nagbibigay ng higit na kakayahang umangkop bilang kapalit ng mas mahabang oras para sa pagpapatupad ng pare-pareho.

Paano Nakamit Ito ang Ibang Malaking Sistema?

"Kapag naabot ang sapat na malaking sukat, ang mga pagkakapare-pareho o pagkakasira sa data ay hindi maiiwasang mangyari," sabi ni Michailov. "Samakatuwid, ang isang pangunahing layunin ng mga ipinamamahaging file system ay dapat ang kakayahang isagawa ang maraming operasyon hangga't maaari sa pagkakaroon ng katiwalian, habang nagbibigay ng mahusay na pamamaraan upang harapin ang katiwalian nang sabay-sabay." Binanggit din ni Michailov ang pangangailangan na mapanatili ang pagganap sa pamamagitan ng maingat na pagpapatupad ng kalabisan.

"Halimbawa, ang paglikha ng metadata (data tungkol sa data) sa bawat disk ay nagbibigay-daan sa disk na muling itayo ang tamang istruktura ng data kung ang salamin nito ay nasira," sabi ni Michailov. "Bilang karagdagan, ang mga antas ng RAID ay maaaring magamit upang labanan ang mga pagkabigo sa pag-iimbak sa alinman sa file system aggregator o ang ibinahaging mga antas ng manager ng dami."

Sa pagtalakay sa isa pang modelo ng pare-pareho, si Lebel ay nakatuon sa isang sistema na tinatawag na isang Hadoop na ipinamamahagi ng file system (HDFS), na tinawag niyang "pamantayang de-facto na industriya."

Sa HDFS, sabi ni Lebel, ang bawat bloke ng data ay kinokopya ng tatlong beses sa iba't ibang mga node, at sa dalawang magkakaibang racks. Ang data ay naka-check end-to-end. Ang mga pagkabigo ay naiulat sa NameNode, isang tagahawak ng data na mapupuksa ang mga tiwaling mga bloke at lumilikha ng mga bago.

Ang lahat ng ito ay sumusuporta sa mga uri ng "malinis na data" na napakahalaga para sa integridad ng isa sa mga sistemang data ng masa na ito.

Pagpapanatili ng isang DFS

Ang isa pang kakaibang hitsura sa GFS ay nagmula sa isang artikulo ng Oktubre 2012 ng Wired na manunulat na si Steven Levy. Mas nakakaantig sa pagkilala sa diskarte ng software para sa kolektibong top-down na paghawak ng network ng Google.

"Sa paglipas ng mga taon," isinulat ni Levy, "nagtayo rin ang Google ng isang sistema ng software na nagbibigay-daan upang pamahalaan ang hindi mabilang na mga server na parang sila ay isang higanteng nilalang. Ang mga in-house na tagabuo nito ay maaaring kumilos tulad ng mga papet na masters, na nagpapadala ng libu-libong mga computer upang maisagawa mga gawain kasing dali ng pagpapatakbo ng isang solong makina. "

Ang paggawa nito ay nagsasangkot din ng mga tonelada ng cyber-based at pagpapanatili ng kapaligiran, mula sa mga dedikadong koponan ng pagsubok na sinusubukan na "masira" ang mga system ng server, upang maingat na kinokontrol ang mga temperatura sa buong mga bulwagan ng data ng data.

Binanggit din ni Levy ang mga karagdagang teknolohiya para sa GFS, tulad ng MapReduce, isang tool sa application ng ulap, at Hadoop, isang analytics engine na nagbabahagi ng ilang mga prinsipyo ng disenyo sa GFS. Ang mga tool na ito ay may sariling epekto sa kung paano ang dinisenyo ng malaking sistema ng paghawak sa sentro ng data, at kung ano ang malamang na lumitaw sa hinaharap. (Matuto nang higit pa tungkol sa mga teknolohiyang ito sa The Evolution of Big Data.)

Naniniwala si Michailov na ang MapReduce ay may potensyal na suportahan ang mga mas malawak na sistema ng data center, at pinag-uusapan ang tungkol sa isang "solong pagpapatupad" ng ibinahagi at pinagsama-samang mga file system na maaaring "panatilihin ang mga pangalan ng node ng isang pinagsama-samang file system sa isang ibinahaging kumpol na may SSD para sa imbakan . "

Para sa kanyang bahagi, nakikita ni Lebel ang isang paglayo sa pagproseso ng batch (ang pamamaraan na suportado ng Hadoop) upang mag-stream ng pagproseso, na mas mapapalapit ang mga operasyon ng data na ito nang mas malapit sa real-time.

"Ang mas mabilis na maaari naming iproseso ang data at maipagamit ito sa mga gumagawa ng desisyon sa negosyo o sa aming mga customer, ang higit pa sa isang mapagkumpitensyang kalamangan ay magkakaroon," sabi ni Lebel, na nagmumungkahi din na palitan ang terminolohiya sa pagproseso sa itaas na may mga term na nakatuon sa end user. Sa pamamagitan ng pag-iisip tungkol sa mga "kasabay" na aktibidad, o mga aktibidad na naka-sync sa mga aksyon ng end-user, at mga "asynchronous" na aktibidad na mas nababaluktot sa mga tuntunin ng pagpapatupad, sinabi ni Lebel na maaaring gumamit ang mga kumpanya ng mga SLA at iba pang mga mapagkukunan upang tukuyin kung paano gagana ang isang sistema ng serbisyo .

Ano ang lahat ng ito, kung paano, ay ang mga developer at inhinyero ay kailangang patuloy na gumana upang mapabilis at mapabuti ang mga serbisyo sa mga platform na lumago nang higit pa sa kanilang mga klasikong, 1990s-era archetypes. Nangangahulugan ito na tingnan ang kritikal sa makinarya ng data at pagbasag sa mga bottlenecks sa mga paraan na sumusuporta hindi lamang sa isang lumalagong populasyon, ngunit ang exponential na pagbabago na nangyayari sa bilis ng break-neck na tinawag ng mga pundista na "susunod na rebolusyong pang-industriya." Malamang na ang mga mas madalas na magbabanggaan sa mga harapan na ito ay magtatapos sa pangingibabaw sa mga merkado at ekonomiya ng hinaharap.