Ang Susi sa Kalidad ng Big Data Analytics: Pag-unawa sa Iba - TechWise Episode 4 Transcript - Teknolohiya

Nilalaman

Walang Mga bug, Walang Stress - Ang Iyong Hakbang sa Hakbang Patnubay sa Paglikha ng Software na Pagbabago ng Buhay nang Walang Pagsira sa Iyong Buhay

Pinagmulan: Jakub Jirsak / Dreamstime.com

Takeaway:

Tinatalakay ni Host Eric Kavanagh ang malaking data analytics sa mga dalubhasa sa industriya.

Eric: Mga kababaihan at mga ginoo, ito ay ang pagtatapos ng taon 2014 - hindi bababa sa, halos. Ito ang aming huling webcast ng taon, mga tao! Maligayang pagdating sa TechWise! Oo, naman! Ang pangalan ko ay Eric Kavanagh. Ako ang magiging moderator mo para sa isang kahanga-hangang webcast, mga tao. Ako, talagang nasasabik. Mayroon kaming dalawang kahanga-hangang mga analyst online, at dalawang mahusay na kumpanya - totoong mga innovator sa buong malaking ecosystem ng data. At pag-uusapan natin ang lahat tungkol sa susi sa malaking data analytics ay ang pagkakaiba sa pagkakaiba-iba. Kaya, sige at sumisid kaagad, mga tao.

Mayroon kaming ilang mga nagtatanghal. Tulad ng nakikita mo, nasa iyo ang tunay na nasa itaas. Si Mike Ferguson ay tumatawag sa lahat ng paraan mula sa UK, kung saan kinailangan niyang makakuha ng mga espesyal na pribilehiyo na manatili sa kanyang gusali sa opisina nitong huli. Iyon ang huli na para sa kanya. Nakuha namin si Dr. Robin Bloor, ang aming sariling Chief Analyst dito sa Bloor Group. At mayroon kaming George Corugedo, CEO at Co-tagapagtatag ng RedPoint Global, at Keith Renison, Senior Solutions Architect mula sa SAS Institute. Ito ang mga kamangha-manghang kumpanya, mga tao. Ito ang mga kumpanya na talagang makabagong. At kami ay maghuhukay sa ilan sa mga magagandang bagay sa nangyayari ngayon sa buong mundo ng malaking data. At hayaan ito, ang maliit na data ay hindi nawala. At doon, hayaan kong bigyan ang aking executive buod dito.

Kaya, mayroong isang lumang expression ng Pransya: "Kung mas mababago ang mga bagay, mas pareho silang manatiling pareho." At hayaan ang ilang mga katotohanan dito - ang malaking data ay hindi malulutas ang mga problema ng maliit na data. Ang maliit na data ng Corporate ay nasa labas pa rin. Nandiyan pa rin kahit saan. Ito ang gasolina ng operasyon para sa ekonomiya ng impormasyon ngayon. At ang malaking data ay nag-aalok ng papuri sa mga tinatawag na maliit na data ng korporasyon, ngunit hindi ito nagbibigay ng maliit na data. Pupunta pa rin ito sa paligid. Gusto ko ng maraming mga bagay tungkol sa malaking data, lalo na ang mga bagay tulad ng data na nabuo ng makina.

At ngayon, marahil ay mag-uusap kami ng kaunti tungkol sa data ng social media, na napakahusay din. At kung iisipin mo, halimbawa, kung paano nagbago ang negosyo sa lipunan, mabuti naisip mo lamang ang tungkol sa tatlong mabilis na mga website dito:, LinkedIn at. Isipin ang katotohanan na limang taon na ang nakalilipas, walang gumagawa ng ganitong uri ng mga gamit. ay isang ganap na juggernaut sa mga araw na ito. , syempre, napakalaking. Masigasig ito. At pagkatapos, ang LinkedIn ay ang de-facto standard para sa corporate networking at komunikasyon. Ang mga site na ito ay nakakahiya, at upang magamit ang data na nasa kanila, mai-revive nito ang ilang pag-andar sa pagbabago ng laro. Ito ay talagang gumawa ng maraming kabutihan para sa maraming mga organisasyon - hindi bababa sa mga na samantalahin ito.

Walang Mga bug, Walang Stress - Ang Iyong Hakbang sa Hakbang Patnubay sa Paglikha ng Software na Pagbabago ng Buhay nang Walang Pagsira sa Iyong Buhay

Hindi mo maaaring mapabuti ang iyong mga kasanayan sa pag-programming kapag walang nagmamalasakit sa kalidad ng software.

Kaya, ang pamamahala - mahalaga pa rin ang pamamahala. Muli, ang malaking data ay hindi makatangi ang pangangailangan para sa pamamahala. Medyo lantaran, mayroong isang bagong bagong pangangailangan na magtuon sa kung paano pamamahalaan ang mundo ng malaking data. Paano mo masisiguro na mayroon kang mga pamamaraan at patakaran sa lugar; na ang mga tamang tao ay nakakakuha ng access sa tamang data; mayroon kang mga contact, mayroon ka bang linya na kasangkot dito? Alam mo talaga kung saan nagmula ang data, kung ano ang nangyari dito. At lahat ay nagbabago.

Lubos na talagang humanga ako sa ilan sa mga nakita ko doon sa buong bagong sanlibutan na gumagamit ng Hadoop ecosystem, na, siyempre, higit pa kaysa sa pag-iimbak sa mga tuntunin ng pag-andar. Ang Hadoop ay isang computational engine din. At dapat malaman ng kumpanya kung paano gagamitin ang computational na kapangyarihan, na kahilera na kakayahan sa pagproseso. Gagawin talaga nila, talagang mga cool na bagay. Malalaman natin ang tungkol sa ngayon.

Ang iba pang bagay na banggitin, ito ay isang bagay na napag-usapan ni Dr. Bloor sa nagdaang nakaraan, ay hindi natapos ang pagbabago ng alon. Kaya, marami kaming nakitang, pansin, sa paligid ng Hadoop. Nakita namin ang mga kumpanya tulad ng Cloudera at Hortonworks, alam mo, na talagang gumagawa ng ilang mga alon. At bumubuo sila ng mga pakikipagsosyo sa, mabuti, ang mga kumpanya sa tawag ngayon, na lantaran. At nagkakaroon sila ng mga pakikipagsosyo sa maraming mga tao. Ngunit hindi natatapos ang alon ng pagbabago. Mayroong maraming mga proyekto na umiikot sa Apache Foundation na nagbabago hindi lamang sa pagtatapos, kung gagawin mo - ang mga aplikasyon na ginagamit ng mga tao - ngunit ang imprastraktura mismo.

Kaya, ang buong pag-unlad ng YARN - isa pang mapagkukunan na tagapayo - ay talagang tulad ng isang operating system para sa malaking data. At ito ay isang malaki, malaking pakikitungo. Kaya, matututunan natin kung paano nagbabago din ang mga bagay. Kaya, ang ilang mga piraso lamang ng malinaw na payo dito, mag-ingat sa mahabang mga kontrata na pasulong, alam mo, limang-, sampung taong kontrata ang magiging alon, ang landas na tila sa akin. Gusto mong maiwasan ang pag-lock sa lahat ng mga gastos. Malalaman natin ang tungkol sa lahat ngayon.

Kaya, ang aming unang analyst na nagsasalita ngayon - ang aming unang nagsasalita ng buong programa ay si Mike Ferguson, na tumatawag mula sa UK. Gamit nito, ibibigay ko sa iyo ang mga susi, Mike, at hayaan mong ilayo ka. Mike Ferguson, ang sahig ay iyo.

Mike, nandiyan ka ba? Maaari kang maging pipi. Hindi ko siya naririnig. Maaaring tawagan natin siya pabalik. At tumalon lang kami hanggang sa mga slide ng Robin Bloor. Robin, kukuha ako ng ranggo sa mahihirap na Mike Ferguson dito. Pupunta ako para sa isang segundo.

Ikaw ba, Mike? Naririnig mo ba kami? Nah. Sa palagay ko ay kailangan nating ituloy at puntahan muna si Robin. Kaya, hawakan ang isang segundo, mga tao. Kukuha ako ng ilang mga link sa mga slide dito nang ilang minuto din. Kaya't, hayaan kong ibigay ang mga susi kay Robin Bloor. Robin, maaari kang mauna sa halip na Mike, at tatawagin ko si Mike sa isang segundo.

Robin: O sige.

Eric: Manatili, Rob. Hayaan mo akong ituloy at ilabas ang iyong slide dito, Rob. Aabutin ng isang segundo.

Robin: O sige.

Eric: Oo. Maaari kang uri ng pag-uusap tungkol sa kung ano ang nakikipag-ugnayan sa amin, bagaman, dito sa mga tuntunin ng pamamahala. Alam kong tatalakayin mo ang tungkol sa pamamahala. Iyon ay karaniwang naisip tungkol sa maliit na data ng korporasyon. Kaya ngayon, nakuha ko na ang slide, Robin. Huwag ilipat ang anuman. At dito ka pupunta. Ang sahig ay iyo. Kunin mo na.

Robin: O sige. Oo. Ibig kong sabihin, mabuti, uri kami ng nakaayos nang una, si Mike ay pag-uusapan ang tungkol sa analytical na bahagi, at sasabihin ko ang tungkol sa pamamahala. Sa isang tiyak na sukat, ang pamamahala ay sumusunod sa analytics sa isang kahulugan na ito ay isang kadahilanan na ginagawa mo ang malaking bagay na data, at ang dahilan na pinagsama mo ang lahat ng software upang gawin ang analytics ay, kung saan ang halaga.

May isyu. At ang isyu ay, alam mo, ang data ay dapat na guluhin. Ang data ay dapat na marshaled. Ang data ay dapat na dalhin at pinamamahalaan sa isang paraan na nagbibigay-daan sa analytics na maganap nang buong kumpiyansa - sa palagay ko, ay ang salita. Kaya, naisip kong tatalakayin ko ang panig ng pamamahala ng ekwasyon. Sa palagay ko, ang sasabihin, talaga, ay, alam mo, ang pamamahala ay naging isang isyu. Ang pamamahala ay naging isang isyu, at nagsisimula itong maging isang isyu sa kabuuan ng laro ng bodega ng data.

Ang tunay na nangyari ay ito ay naging isang mas malaking isyu. At ang dahilan na ito ay naging isang mas malaking isyu pati na rin ang mas maraming data, ngunit ang ibig kong sabihin, ito ang mga dahilan, talaga. Ang bilang ng mga mapagkukunan ng data ay lumawak nang malaki. Noong nakaraan, ang mga mapagkukunan ng data na mayroon kami ay sa pamamagitan ng at malaking tinukoy ng kung ano ang nagpapakain ng bodega ng data. Ang data bodega ay karaniwang pakainin ng mga sistema ng RTP. Posible ang isang maliit na panlabas na data, hindi gaanong.

Ngayon, pumunta kami sa isang mundo kung saan, alam mo, ang isang data market ay darating ngayon, at samakatuwid, magkakaroon ng trading sa data. Mayroon ka nang mga naglo-load at maraming mga iba't ibang mga mapagkukunan ng streaming na data na maaari mong dalhin sa samahan. Mayroon kaming data sa social media na kinuha sa kanila, kinuha sa sarili nitong account, upang makapagsalita. Ibig kong sabihin, isang kakila-kilabot na, ang halaga sa mga social media site ay talagang ang impormasyon na pinagsama-sama nila at sa gayon ay mai-magagamit sa mga tao.

Natagpuan din namin, alam mo, tulad ng mayroon na sila. Mayroon kaming mga file na mag-log, alam mo, sa pagdating ng Splunk. At sa lalong madaling panahon, naging malinaw na may halaga sa isang file ng log. Kaya, mayroong data sa loob ng samahan na kung saan - kung saan maaari nating tawagan ang mga bagong mapagkukunan ng data pati na rin ang mga panlabas na mapagkukunan. Kaya, isa iyan. At talagang nangangahulugang, alam mo, anuman ang mga alituntunin ng pamamahala ng data na mayroon kami sa lugar na dati, kakailanganin nila, sa isang paraan o iba pang palugit, at patuloy na kailangang palawakin upang aktwal na mamamahala sa data. Ngunit nagsisimula na tayong magtipon sa isang paraan o sa iba pa.

At pagpunta sa listahang ito mayroon kaming streaming at ang bilis ng pagdating ng data. Isa sa, sa palagay ko, ang mga dahilan sa katanyagan ng Hadoop ay maaari itong magamit upang mahuli ang maraming data. Maaari rin itong ingest bilis ng data, na kung hindi mo talaga kailangan gamitin ito agad, ito ay isang magandang kahanay, malaking kahanay na kapaligiran. Ngunit nakuha mo rin ang katotohanan na mayroong isang makatarungang halaga ng streaming analytics na nangyayari ngayon. Ginamit lamang ito sa mga sektor ng pagbabangko na interesado sa mga aplikasyon ng streaming, ngunit ngayon hindi na ito pandaigdig. At ang lahat ay tumitingin sa mga aplikasyon ng streaming sa isang paraan o iba pa, isang potensyal na paraan ng pagkuha ng halaga mula sa data at paggawa ng analytics para sa samahan.

Nakuha namin ang data na hindi nakaayos. Ang istatistika, karaniwang bahagi ng nag-iisang 10% ng data ng mundo ay nasa mga database ng relational. Ngayon, ang isa sa mga pangunahing dahilan para sa karamihan ay talagang hindi ito nakabalangkas, at ito ay - isang mahusay na pakikitungo dito ay nasa labas ng Web, ngunit medyo nasasalat tungkol sa iba't ibang mga website. Ang datos na iyon ay napatunayan na maaari ring masuri, magagamit din. At sa pagdating ng Symantec na teknolohiya na kung saan ay unti-unting gumagapang sa sitwasyon, ay nagiging mas lalo pa.Kaya, kailangan talagang magtipon at pamahalaan ang hindi nakaayos na data, at nangangahulugang mas malaki ito kaysa sa dati. Mayroon kaming isang data sa lipunan na nasabi ko na, ngunit ang punto tungkol doon, ang pangunahing punto tungkol doon, marahil ay nangangailangan ito ng paglilinis.

Mayroon kaming data ng Internet of Things. Iyon ay isang uri ng sitwasyon. Malamang na marami iyan, ngunit marami sa mga ito ay kailangang manatiling ipinamamahagi sa isang lugar malapit sa lugar na pinapatakbo nito. Ngunit gusto mo rin, sa isang paraan o sa iba pa, hilahin ito upang gawin ang mga analytics sa loob ng samahan sa data. Kaya, naidagdag pa ang isa pang kadahilanan. At ang data na iyon ay nakabalangkas sa iba't ibang paraan, dahil marahil - marahil ay mai-format ito sa JSON o sa XML, kaya't idineklara nito ang sarili. At hindi lamang, sa isang paraan o sa iba pa, na talagang naghuhugot kami ng data at magagawa nating uri ng schema sa basahin sa partikular na piraso ng data.

Nakatanggap kami ng isyu ng napatunayan, at ito ay isang isyu sa analytics. Ang mga resulta sa anumang pagsusuri na iyong ginagawa ng data ay talagang hindi maaaring - kung gusto mo - naaprubahan ng, isinasaalang-alang, maliban kung alam mo ang napatunayan na data. Ibig kong sabihin, iyon ay propesyonalismo lamang sa mga tuntunin ng aktibidad ng mga siyentipiko. Ngunit alam mo, upang magkaroon ng napatunayan na data, nangangahulugan ito na kailangan nating pamahalaan ang data at panatilihin ang isang tala sa kanyang linya.

Mayroon kaming isyu ng kapangyarihan ng computer at kahanay at kung ano ang ginagawa ay gawing mas mabilis ang lahat. Ang problema ay malinaw naman, ang ilang mga proseso na nakuha namin ay maaaring masyadong mabagal para sa lahat. Kaya, maaaring may mga pagkakamali sa mga tuntunin ng bilis.

Mayroon kaming pagdating ng pag-aaral ng makina. Ang pag-aaral ng makina ay may epekto, talaga, ng paggawa ng analytics ng ibang laro kaysa sa nauna. Ngunit maaari mo lamang itong magamit kung nakuha mo ang kapangyarihan.

Nakatanggap kami ng katotohanan ng mga bagong pag-aansyang pag-analisa. Mayroon kaming isang magkakatulad na mundo at ang ilang mga analytical algorithm ay kailangang maisakatuparan nang magkatulad para sa maximum na epekto. At samakatuwid ang problema ay namamahala sa kung paano mo talaga, sa isang paraan o sa iba pa, itulak ang data sa paligid, gawin ang data kung magagamit sila. At kung saan mo talaga isinasagawa ang mga analytical workloads, dahil maaaring ginagawa mo iyon sa loob ng database. Kaya, maaari mong gawin ito sa loob ng mga aplikasyon ng analitikal.

Kaya, mayroong isang buong serye ng mga hamon sa pamamahala. Ang ginawa namin sa taong ito - ang pananaliksik na ginawa namin sa taong ito ay talagang nasa paligid ng malaking arkitektura ng data. At kapag sinubukan nating gawing pangkalahatan ito, ang konklusyon na napunta namin - ang diagram na napakita namin na ganito.

Hindi ako pupunta sa ganito, lalo na tulad ng gagawin ni Mike ang isang makatarungang halaga sa arkitektura ng data para sa analytics. Ngunit ang talagang gusto ko na ang mga tao lamang na nakatuon ay ang ilalim na lugar na kung saan tayo naroroon, sa isang paraan o sa iba pa, nagtitipon ng data. Mayroon kaming isang bagay na nais kong sumangguni ay ang data ng refinery o data processing hub. At kung saan nagaganap ang pamamahala. Kaya, alam mo, kung uri kami ng pokus, mukhang ganyan. Alam mo, pinapakain ito ng data mula sa panloob at panlabas na mapagkukunan. Ang hub ay dapat, sa teorya, kukuha ng lahat ng data na nalilikha. Dapat itong ma-stream at mapamahalaan tulad ng pag-stream kung kailangan mong gumawa ng mga analytics at streaming data, at pagkatapos ay ipasa sa hub. Kung hindi man, lahat ito ay pumapasok sa hub. At mayroong maraming mga bagay na pupunta - na nangyayari sa hub. At hindi ka maaaring magkaroon ng isang tiyak na halaga ng analytics at SQL na nangyayari sa hub. Ngunit nakakuha ka rin ng pangangailangan para sa virtualization ng data sa bawat cell upang itulak ang data sa iba pang mga lugar. Ngunit bago ang alinman sa nangyari, talagang kailangan mo, sa isang paraan o sa iba pa, upang gawin ang pagpipino ng paghahanda ng data. Maaari mong tawagan itong paghahanda ng data. Mas malaki ito kaysa sa. Ito ang mga bagay na sa palagay ko ay kabilang dito.

Mayroon kaming pamamahala ng sistema at pamamahala ng serbisyo, sa isang diwa, na ito ang pangunahing bahagi ng layer ng data, pagkatapos ay kailangan nating ilapat ang lahat ng mga sistema ng pamamahala ng pagsisikap ng pamamahala ng sistema ng pagpapatakbo na tradisyonal na ginawa natin sa halos lahat ng mga operating system. Ngunit kailangan din natin, sa isang paraan o sa iba pa, upang subaybayan ang iba pang mga bagay na magpapatuloy upang matiyak na ang iba't ibang mga antas ng serbisyo na ito ay natutugunan, dahil may mga nakatukoy na mga antas ng serbisyo o anumang uri ng analytics na kinikilos, o data ng BI na kumilos.

Kailangan namin ang monitoring monitoring at pamamahala. Kung mayroon man, kailangan namin upang malaman kung ano ang karagdagang mga mapagkukunan ng computer na maaaring kailanganin nating maglaan sa iba't ibang mga punto sa oras. Ngunit gayon din, ang isang kakila-kilabot na kargamento ay narito sa aktwal na katotohanan, medyo kumplikado at nakikipagkumpitensya sa bawat isa para sa mga mapagkukunan. Mayroong isang bagay na sopistikadong kailangang gawin sa lugar na iyon.

Nakakuha na kami ngayon ng siklo ng buhay ng data sa paraang hindi namin ito nakuha dati. Ang pakikitungo dito ay talagang nasa itaas at higit sa anupaman, na hindi namin tipunin ang data at itapon bago ito. Kami ay may gawi upang mangalap ng data na kailangan namin at marahil ay pinanatili ito, at pagkatapos ay i-archive namin ito. Ngunit isang kakila-kilabot na kung ano ang gagawin namin mula dito sa paggalugad ng data. At kung hindi mo gusto ang data, ilibing mo ito. Kaya, ang mga siklo ng buhay ng data ay naiiba depende sa sitwasyon, ngunit magiging isang kakila-kilabot na mas maraming pagsasama-sama ng data. Samakatuwid, alam mo, alam kung saan nagmula ang isang pinagsama-sama kung ano ang… kung ano ang mapagkukunan ng pagsasama-sama, at iba pa. Kailangan lang iyan.

Ang taludtod ng data ay natural na nagpapahiram. Kung wala ito, kailangan mong malaman ang mga problema, kaya ang data ... Kailangan nating malaman na ang data ay may bisa, ngunit sa kung gaano ito maaasahan.

Nakatanggap din kami ng pagmamapa ng data, dahil maraming data ang magiging, sa isang paraan o sa iba pa. At ito ay, kung gusto mo, nauugnay ito sa isang tiyak na lawak sa MDM. Ito ay lamang na ito ay mas kumplikado ngayon, dahil kapag nakakuha ka ng isang kakila-kilabot na data na tinukoy ni JSON o batay sa aming XML schema na basahin, pagkatapos ay kakailanganin mong, sa isang paraan o sa iba pa, ay napaka-aktibo aktibidad ng pagmamapa ng data.

May isang sitwasyon sa pamamahala ng metadata na higit pa sa MDM, dahil may pangangailangan, sa isang paraan o sa iba pa, upang mabuo ang nais kong isipin ngayon bilang isang uri ng bodega ng metadata ng lahat na mayroon kang isang interes. pagtuklas, dahil ang ilan sa mga data ay hindi kinakailangan na ipinahayag ang metadata, at nais naming gamitin ito kaagad. At pagkatapos, mayroong paglilinis ng data, na isang malaking bagay tulad ng kung paano ang mga serye ng mga bagay na maaaring gawin roon. At mayroon ding data ng seguridad. Ang lahat ng data na ito ay dapat na mai-secure sa isang katanggap-tanggap na antas, at maaaring ibig sabihin kahit na sa ilang mga pagkakataon - halimbawa, pag-encrypt ng maraming mga halaga.

Kaya, ang lahat ng gawaing ito ay talagang ang pamamahala ng emperyo. Ang lahat ng ito, sa isang paraan o sa iba pa, ay kailangang magpatuloy sa parehong oras o bago, ang lahat ng aming aktibidad sa pagsusuri. Ito ay isang malaking bilang ng mga coordinated na aplikasyon. Ito ay isang sistema sa sarili nitong karapatan. At pagkatapos, ang mga hindi gawin ito sa iba't ibang mga punto sa oras ay magdusa mula sa isang kakulangan nito habang pinapatuloy, dahil ang isang kakila-kilabot na mga bagay na ito ay hindi talagang opsyonal. Nagtatapos ka lamang sa pagtaas ng entropy kung hindi mo ito gagawin.

Kaya, sa mga tuntunin ng data analytics at pamamahala, ang bagay na sasabihin ko na, talaga, isang kamay ang naghugas ng isa. Kung walang pamamahala, ang analytics at BI ay hindi magiging flounder sa oras. At nang walang analytics at BI, hindi na kailangan ng pamamahala sa data. Kaya, ang dalawang bagay ay talagang naglalakad nang magkakasamang kamay. Tulad ng sinasabi nila sa Gitnang Silangan, "Isang kamay ang naghugas ng isa pa." At iyon talaga ang sasabihin ko. Inaasahan ko - sana, bumalik na kami ngayon ni Mike.

Eric: Kami. Mike, ipinapalagay ko na nandoon ka. Susubukan kong itulak ang iyong slide.

Mike: Ako. Okay, maririnig mo ba ako?

Eric: Oo, maaari kitang pakinggan. Napakaganda mo. Kaya, hayaan akong ipakilala ... Doon ka pupunta. At ikaw na ngayon ang nagtatanghal. Kunin mo na.

Mike: Sige, salamat! Magandang umaga, magandang hapon, magandang gabi sa inyong lahat doon. Patawad sa hiccup sa simula. Dahil sa ilang kadahilanan, napagmumultuhan ko ang aking sarili at nakikita ang lahat ngunit hindi nila ako maririnig.

Sige. Kaya, ang nais kong gawin nang mabilis ay pag-uusapan, alam mo, ang malaking data analytical ecosystem. Kung nais mong magtanong sa akin, sasabihin ko, sa session na ito o mas bago, maaari mong hawakan ako sa mga detalye ng aking contact. Tulad ng sinabi ko, sa kalagitnaan ng gabi dito sa UK.

Well, hayaan mo akong makarating sa gusto kong pag-usapan. Maliwanag, sa mga nakaraang taon, nakita namin ang paglitaw ng lahat ng uri ng mga bagong nahanap na uri ng data na nais suriin ng mga negosyo - lahat ng bagay mula sa data ng clickstream upang maunawaan ang mga online na pag-uugali, data ng social media na pinag-uusapan ni Eric sa simula ng programa dito. Sa palagay ko ay binanggit ni Robin ang JSON, BSON, XML - kaya, semi-nakabalangkas na data na naglalarawan sa sarili. Siyempre, nakakuha kami ng isang buong tonelada ng iba pang mga bagay-bagay pati na rin - lahat mula sa hindi nakaayos na data, mga tala sa imprastraktura ng IT, sensor data. Ang lahat ng ito medyo bagong mapagkukunan ng data na nakuha ng mga negosyo ngayon ng interes dahil naglalaman ito ng mahalagang pananaw na maaaring mapalalim ang nalalaman natin.

Kaya, na talaga ay nangangahulugang ang analitikal na tanawin ay lumipat na lampas sa tradisyunal na warehousing ng data. Namin istruktura pa rin ang data sa mundo ng isang kumbinasyon ng nakabalangkas at multi-nakabalangkas na data, kung saan ang data na may maraming mga nakabalangkas ay maaaring magmula sa loob o sa labas ng negosyo sa maraming mga kaso. At bilang isang resulta ng mga bagong uri ng data at mga bagong pangangailangan upang pag-aralan, nakita namin ang paglitaw ng mga bagong analytical workloads - lahat mula sa pagsusuri ng data sa paggalaw, kung aling uri ng liko ang tradisyunal na arkitektura ng warehousing ng data sa ulo nito, medyo, kung saan, kung saan, , sa tradisyonal na mga lupon, pagsamahin ang data, linisin ito, binago ito, iniimbak at sinuri ito. Ngunit pag-aaral ng paggalaw ng data, kinukuha namin ang data, pagsasama nito, inihahanda ito sa pamamagitan ng pagsusuri nito at pagkatapos ay itatago ito. Kaya, may pag-aaral na magpapatuloy sa data bago ito maiimbak kahit saan.

Kami kumplikadong pagsusuri ng nakabalangkas na data, marahil para sa pag-unlad ng modelo, pag-unlad ng istatistika at mahuhulaan na modelo, na walang bago sa ilang mga tao sa isang tradisyunal na espasyo sa warehousing ng data. Mayroon kaming exploratory analysis ng on-model data. Iyon ang halaga ng nakabalangkas na data doon. Mayroon kaming mga bagong workload sa anyo ng pagsusuri ng grapiko na para sa aking mga kliyente sa mga serbisyo sa pananalapi ay may kasamang mga bagay tulad ng pandaraya. Kasama rin dito ang seguridad sa cyber. Kasama dito ang mga social network, siyempre, pag-unawa sa mga influencer at mga bagay na tulad doon. Kahit na pinagkadalubhasaan ko ito sa pamamahala, ay may ilang mga taon ng pagsusuri ng grapiko.

Nakatanggap kami ng data sa pag-optimize ng bodega o pag-aalis ng pagpoproseso ng ETL, na higit pa sa isang uri ng kaso ng paggamit ng IT, maaaring pondohan ito ng CIO. At kahit na ang pag-archive ng data at mga bodega ng data upang mapanatili itong online sa mga bagay tulad ng Hadoop. Kaya, ang lahat ng mga bagong analytical workload na ito ay nagdagdag ng mga bagong platform, bagong mga platform ng imbakan, sa analitikal na tanawin. Kaya, kaysa sa pagkakaroon lamang ng mga tradisyunal na bodega ng data, data marts, ang nakuha namin ngayon ay ang Hadoop. Nakakuha kami ng mga database ng NoSQL tulad ng mga database ng graph na kadalasang ginagamit para sa mga analytical na mga workload. Siyempre, maaari nating gawin ang pagsusuri ng graph ngayon sa Hadoop mismo pati na rin sa isang graph ng NoSQL DBMS. Mayroon kaming streaming analytics na binanggit ni Robin. At nakuha namin - kung gusto mo - pagbuo ng mga modelo, marahil sa mga analytical data warehouse appliances din. Ngunit ang lahat ng iyon ay kumplikado ang analitikal na tanawin, maraming mga platform na kinakailangan ngayon. At sa palagay ko ang hamon mula sa, para sa anumang negosyo na may isang front office o back office, o pananalapi, pagkuha, HR at ilang uri ng operasyon, ay alamin kung aling mga proyekto ng analitikal ang nauugnay sa isang tradisyunal na eksena sa pangangalakal ng data. At sa sandaling alam mo na ang mga proyekto ng analytical ay nauugnay sa mga bagong malaking platform ng data at kung saan tatakbo, alam mo, na analytical workload, ngunit hindi mawala sa paningin ng negosyo sa kamalayan na ito - makikita mo na ngayon ang pagsasama-sama ng malaki data analytical na mga proyekto at tradisyonal na malaking data ng pangangalakal ng mga proyekto na magkasama ay kinakailangan upang palakasin ang loob sa paligid ng customer o sa paligid ng mga operasyon, sa paligid ng peligro, o pananalapi o pagpapanatili. At samakatuwid, nais naming ang lahat ng ito ay nakahanay sa aming mga pangunahing istratehiya sa negosyo, na manatili kami sa track, alam mo, itulak sa mga karayom na kailangang itulak, alam mo, upang mapabuti ang pagganap ng negosyo, upang mabawasan ang gastos, upang mabawasan ang mga panganib, atbp, alam mo, para sa aming kumpanya sa kabuuan. Kaya, hindi na ang isa ay pinapalitan ang isa pa rito ng malaking data at tradisyonal. Pareho itong ginagamit nang magkasama. At iyon ay kapansin-pansing nagbabago ng arkitektura, alam mo.

Kaya, ang mayroon ako dito ay medyo bagong arkitektura na gagamitin ko sa aking mga kliyente. At sa gayon, tulad ng nakikita mo ngayon sa ilalim, isang malawak na hanay ng mga mapagkukunan ng data, hindi lamang nakabalangkas na. Ang ilan sa mga nag-stream ng live na data tulad ng mga sensor, tulad ng data ng merkado, na uri ng bagay. Maaari itong kahit na live na data ng stream ng agos. Maaari itong maging live na data streaming video. Kaya hindi ito kailangang maayos. Kaya, maaari kaming magsagawa ng pagpoproseso ng stream sa data na iyon upang magsagawa ng awtomatikong pagkilos sa totoong oras, at ang anumang data ng interes ay maaaring mai-filter at ipasa sa isang tool ng pamamahala ng impormasyon ng enterprise na maaaring magamit upang ibahin ang mga tindahan ng data ng analitiko. Maliban kung makikita mo ang halo dito, mayroon na kaming tradisyunal na warehousing ng data, mga database ng Hadoop at NoSQL. Mayroon din kaming pamamahala ng data ng master sa halo. At naglalagay ito ng higit na presyon sa buong tool ng pamamahala ng data, hindi lamang upang mai-populasyon ang mga data store na ito ngunit upang ilipat ang data sa pagitan nila.

Sa itaas nito, kailangan nating gawing simple ang mga tool sa pag-access. Hindi lamang kami makakapunta sa gumagamit at sabihin, "kunin ang lahat ng mga data store na ito, hawakan ang mga API na ito - ang iyong problema." Ang kailangan mong gawin ay gawing simple ang pag-access. At kung gayon, uri ng mga linya na may tuldok doon, makikita mo ang data virtualization at pag-optimize ay uri ng pagtatago ng pagiging kumplikado ng maraming data storage, subukang gawing mas madali para sa mga end user na ma-access ito. At syempre, mayroong isang hanay ng mga tool sa tuktok, alam mo - lahat ng bagay mula sa tradisyonal na mga tool sa BI na may uri ng nagsimula sa tuktok ng warehousing ng data, unti-unting lumilipat patungo sa kaliwa ng iyong tsart upang uri ng kumonekta sa Hadoops at pagkatapos ang NoSQL database ng mundo.

Mayroon kaming paghahanap na nakakakuha ng bagong pag-upa sa buhay lalo na sa paligid ng nakabalangkas, hindi nakaayos na data na madalas na nakaimbak sa Hadoop. Nakakuha kami ng mga pasadyang aplikasyon ng analytic na gagawin sa isang platform ng Hadoop na may MapReduce, kaya halimbawa, ang balangkas ng Spark. Mayroon kaming mga tool sa pag-analyst ng grapiko, alam mo, na nakatuon sa mga partikular na mga workload doon. Kaya, ang isang hanay ng mga tool at mga daloy ng data ay mas kumplikado din. Hindi na ito isang one-way na kalye sa bodega ng data. Siyempre master data na ito.

Nakakuha kami ng mga bagong mapagkukunan ng data na papasok, alinman sa nakunan sa NoSQL, alam mo, ang mga tindahan ng data tulad ng MongoDB, tulad ng Cassandra, tulad ng HBase. Mayroon kaming data na dinadala nang diretso sa Hadoop para sa pagsusuri at paghahanda ng data doon. Mayroon kaming mga bagong pananaw na lumalabas sa Hadoop at mga bodega ng data. Mayroon kaming archive na darating sa mga bodega ng data sa Hadoop. Ngayon nakuha namin ang mga feed ng data na pupunta, alam mo, ang lahat ng mga database ng NoSQL at data marts. Kaya, kung ano ang makikita mo dito, mayroong higit pang aktibidad na nangyayari sa pamamahala ng data. At nangangahulugan ito na inilalagay ang software management software sa ilalim ng malaking presyon. Hindi na ito isang one-way na kalye. Ito ay two-way na paggalaw ng data. Marami pang aktibidad na nangyayari, at samakatuwid, mahalaga ang scalability sa harap ng data-management-tool pati na rin sa mapagkukunan ng data.

Kaya, ang tsart na ito ay bumalik sa arkitektura na nabanggit ko sandali. Ipinapakita nito sa iyo ang iba't ibang mga analytical workload na tumatakbo sa iba't ibang bahagi ng arkitektura na ito. Pagbukud-bukurin sa kaliwang ibaba doon, nakakuha ka ng real-time streaming, pagproseso ng stream na magpatuloy sa data na lalabas, alam mo, anumang uri ng live na data store. Mayroon kaming pagtatasa ng klase na nangyayari sa mga database ng graph ng NoSQL. Maaari rin itong mangyari sa Hadoop. Sa balangkas ng Spark, halimbawa, at GraphX doon, nakakuha kami ng pagsusuri sa pagsisiyasat at ang refinery ng data na pinag-uusapan ni Robin tungkol sa nangyayari sa Hadoop. Mayroon kaming tradisyonal na mga karga ng trabaho na nagpapatuloy at nagbebenta ng data, alam mo, ang mga gumagamit ng kapangyarihan na nagtatayo ng istatistika at mahuhulaan na mga modelo, marahil sa mga kasangkapan sa bodega ng data. At sinusubukan pa rin naming gawing simple ang pag-access sa lahat ng ito upang gawing madali para sa mga end user.

Kaya, ang tagumpay sa paligid ng buong pag-setup na ito ay higit pa sa analitikal na bahagi. Alam mo, maaari naming ilagay ang mga platform ng analitikal, ngunit kung hindi namin makuha at makita ang, alam mo, mataas na tulin at mataas na dami ng data, sa laki, hindi masyadong maraming punto. Alam mo, wala akong masuri. At sa gayon, ang tagumpay ng malaking data analytics ay nangangailangan ng mga sistema ng pagpapatakbo upang masukat. Ibig sabihin, upang suportahan ang mga bagong transaksyon, alam mo, mga taluktok. Alam mo, ang anumang data na di-transactional na nakuha doon ay maaaring, alam mo, ang anumang mga bagong rate ng pagdating, napakataas na rate ng pagdating sa mataas na bilis ng data tulad ng mga sensor o anumang ingest. Kailangan naming mag-cater para sa lahat ng iyon - upang makuha ang ganitong uri ng data at dalhin ito para sa pagsusuri. Kailangan din nating sukatin ang kanilang mga analytics, gawing simple ang pag-access sa data na nabanggit ko na. At pagkatapos, itali iyon. Alam mo, kailangan naming makapagpino muli sa mga operating system upang mabigyan ito ng isang saradong loop.

Kaya, ang pag-scale ng operational side ng bahay upang makuha ang data, alam mo, dadalhin sa mundo ng NoSQL database. Ibig kong sabihin, dito mo makikita ang limang kategorya ng NoSQL database. Ang kategorya na ito ay magiging modelo lamang ng isang kumbinasyon ng iba pang apat na nasa itaas. Sa pangkalahatan, alam mo, ang mga mahahalagang halaga, mga naka-imbak na dokumento at mga database ng pamilya ng kolum - ang unang tatlong doon - na uri ng ginagamit para sa mas uri ng mga transactional at non-transactional data.

Ang ilan sa mga database na sumusuporta bilang mga pag-aari; ang ilan sa kanila ay hindi. Ngunit gayunpaman, alam mo, nakikita namin ang pagpapakilala ng mga upang masukat ang mga uri ng application. At kaya, halimbawa, habang lumilipat kami mula sa mga empleyado lamang na pumapasok sa mga transaksyon sa mga keyboard sa ngayon mga customer at masa na gumagamit ng mga nobelang aparato upang magawa iyon. Nakita namin ang isang napakalaking pagtaas sa bilang ng mga transaksyon na ipinasok sa mga negosyo. At kaya, kailangan nating sukatin ang mga transactional application upang gawin iyon.

Ngayon, sa pangkalahatan ay nagsasalita, na maaaring gawin sa mga database ng NewSQL bilang isang database ng pamanggit tulad ng NuoDB at VoltDB na ipinakita dito. O ilan sa mga database ng NoSQL na marahil ay sumusuporta sa mga katangian ng ACID na magagarantiyahan ang pagproseso ng transaksyon ay maaaring i-play. Nalalapat din ito sa mga di-transactional data tulad ng data ng shopping cart bago ang isang transaksyon, alam mo, bago bumili ang mga tao ng mga bagay, data ng sensor, alam mo, dahil nawalan ako ng isang pagbabasa ng sensor sa gitna ng daan-daang milyong milyong mga pagbabasa ng sensor. Hindi ito malaking deal. Ang mga pag-click, alam mo, sa mundo ng clickstream - kung gumagamit ako ng isang pag-click, hindi ito malaking deal.Kaya, alam mo, hindi namin kailangang kinakailangang magkaroon ng mga katangian ng ACID doon, at madalas na kung saan naglalaro ang mga database ng NoSQL, narito - ang kakayahang gumawa ng napakataas, tamang pagproseso sa laki upang makuha ang mga bagong uri ng data.

Kasabay nito, nais naming masukat ang analytics. At sa gayon, ang paghila ng data mula sa mga tindahan ng data patungo sa mga analytical platform ay hindi na aalisin ito sapagkat ang data ay napakalaking. Ang talagang nais namin ay upang itulak ang analytics sa iba pang paraan, pababa sa bodega ng data ng negosyo sa Hadoop, sa pagproseso ng stream upang ma-push ang analytics sa data. Gayunpaman, dahil lamang sa isang tao na nagsasabing nasa database analytics o sa Hadoop analytics ay hindi nangangahulugang nangangahulugan ang pagpapatakbo ng mga analytics. At lubos na lantaran, kung magpupuhunan ka sa mga bagong magkatulad na kahanay na mga teknolohiya tulad ng Hadoop, tulad ng mga kasangkapan sa bodega ng data at ano pa, tulad ng clustered stream processing engine, kailangan namin ang analytics na tumakbo nang magkatulad.

Kaya, iyon lamang ang tseke. Alam mo, kung mayroon kaming analytics upang makatulong na mahulaan ang mga bagay para sa mga customer, para sa mga operasyon, para sa peligro, atbp, nais namin silang tumakbo nang magkatulad, hindi lamang tumakbo sa platform. Gusto naming pareho. At dahil, alam mo, ang teknolohiya ay katulad ng mga bagong visual na tool sa pagtuklas tulad ng SAS din. Ito ay isa sa aming mga sponsor dito.

Ang isang bagay na nais ng mga tao ay hindi bababa sa pagsamantalahan ng mga nasa Hadoop at pagkatapos ay sa database analytics. At nais namin ang mga tumatakbo nang magkatulad upang maihatid ang pagganap na kinakailangan sa naturang mataas na dami ng data. Kasabay nito, sinusubukan naming gawing simple ang pag-access sa lahat ng ito. At kung gayon, ang SQL ay bumalik na sa agenda. Alam mo, ang SQL ay - SQL sa Hadoop ay mainit ngayon. Sinusubaybayan ko ito sa 19 na mga inisyatibo ng SQL at Hadoop ngayon. Dagdag pa, makikita mo, makakakuha kami sa data na ito, alam mo, sa isang bilang ng mga paraan upang direktang ma-access ang SQL sa Hadoop mismo, maaari naming pumunta ang SQL sa isang search index. Sa ganoong paraan tulad ng, alam mo, ang ilan sa mga nagtitinda sa paghahanap sa puwang na iyon, maaari kaming magkaroon ng SQL access sa analytical relational database na mayroong mga talahanayan ng Excel sa Hadoop.

Maaari na kaming magkaroon ng SQL access sa isang data virtualization server na kung saan mismo ang maaaring ma-konektado sa isang bodega ng data sa Hadoop. Nagsisimula na rin akong makita ang paglitaw ng pag-access ng SQL sa live streaming data. Kaya, ang pag-access sa SQL sa lahat ng ito ay mabilis na lumalaki. At bahagi ng hamon ay, dahil lamang sa pag-access ng SQL ay nai-market out doon. Ang tanong ay, maaari bang makitungo ang SQL sa kumplikadong data? At hindi iyon dapat diretso. Mayroong lahat ng mga uri ng mga komplikasyon dito, kasama na ang katotohanan na ang data ng JSON ay maaaring nested. Maaari kaming magkaroon ng mga schema variant record. Kaya, ang unang tala ay nakakuha ng isang schema. Ang pangalawang talaan ay nakakuha ng ibang schema. Ang mga bagay na ito ay ibang-iba sa nangyayari sa isang relasyong mundo.

Kaya, kailangan nating gumawa ng mga katanungan tungkol sa kung anong uri ng data ang sinisikap nating pag-aralan, at ano ang uri ng mga katangian ng analytical. Ito ba, alam mo, panel na nais mong gawin? Ito ba ang pag-aaral ng makina? Ito ba ay pagsusuri ng graph? Maaari mong gawin iyon mula sa SQL? Alam mo, na hindi mailusob mula sa SQL? Ilan ang mga kasabay na gumagamit na nagawa natin ito? Alam mo, nakakuha kami ng daan-daang mga magkakasabay na gumagamit. Posible ba ito sa kumplikadong data? Alam mo, ang lahat ng mga bagay na ito ay mga pangunahing katanungan. Kaya, gumawa ako ng isang listahan ng ilang dito na sa palagay ko dapat mong isaalang-alang. Alam mo, anong uri ng mga format ng file? Anong uri ng mga uri ng data ang pinag-uusapan natin? Anong uri ng mga pag-andar ng analytical ang maaari nating tawagan mula sa SQL upang makakuha ng kumplikadong data? At ang uri ng mga pag-andar ay tumatakbo nang magkatulad. Ibig kong sabihin, kailangan nilang tumakbo nang magkatulad kung gugustuhin natin ito. At maaari ba akong sumali ng data sa Hadoop ngayon sa labas nito, alam mo, o hindi iyon magagawa? At ano ang gagawin ko sa lahat ng iba't ibang uri ng mga query sa pag-empleyo sa query?

At tulad ng makikita natin, alam mo, mula sa nakita ko, maraming pagkakaiba-iba sa pamamahagi ng SQL at Hadoop. Ito ang lahat ng sinusubaybayan ko. At sa pamamagitan ng paraan, purong SQL iyon sa Hadoop. Hindi rin kasama nito ang virtualization ng data sa puntong ito. At sa gayon, maraming out doon at maraming silid para sa pagsasama-sama, na sa palagay ko ay mangyayari sa susunod na taon, labing-walo buwan o higit pa. Ngunit binubuksan din nito ang isa pang bagay, na maaari kong magkaroon ng potensyal na maramihang mga SQL engine sa parehong data sa Hadoop. At iyon ay hindi mo magagawa sa relasyong ito.

Siyempre, nangangahulugan ito na kailangan mong malaman, alam mo, anong uri ng query sa trabaho ang aking pinapatakbo? Dapat ko bang patakbuhin ito sa batch sa isang partikular na SQL sa Hadoop inisyatibo? Dapat ba akong magpatakbo ng mga interactive na query sa pag-query sa pamamagitan ng isa pang SQL sa inisyatibo ng Hadoop, atbp, upang malaman ko kung alin ang makakonekta? Sa isip, siyempre, hindi natin dapat gawin iyon. Dapat lang magkaroon tayo, alam mo, nagtanong tungkol dito. Alam mo, ang ilang mga figureizer optimize ang pinakamahusay na paraan upang gawin ito. Ngunit hindi pa tayo kumpleto doon, sa aking palagay.

Ngunit gayunpaman din, ang virtualization ng data, na nabanggit ko kanina ay isang napakahalagang papel para sa pagpapagaan ng pag-access sa maraming mga tindahan ng data. At kung gumawa tayo ng mga bagong pananaw sa Hadoop, tiyak na posible para sa amin na sumali sa data-to-data at tradisyunal na bodega ng data sa pamamagitan ng data virtualization, halimbawa, nang hindi kinakailangang ilipat ang data mula sa Hadoop sa mga tradisyunal na bodega ng data. Siyempre, magagawa mo rin iyon. Posible rin kung mag-archive ako ng data mula sa tradisyunal na mga bodega ng data patungo sa Hadoop. Maaari ko pa ring makuha ito at samahan ito sa mga bagay na nasa aming bodega ng data sa virtualization ng data. Kaya, para sa akin, sa palagay ko ang data virtualization ay nakuha ng isang malaking hinaharap sa pangkalahatang arkitektura at pinasimple ang pag-access sa lahat ng mga data store na ito.

At huwag kalimutan na kapag nilikha namin ang mga bagong pananaw na ito, maging sa relational o NoSQL system, nais pa rin nating itaboy ang mga pananaw na iyon sa aming mga operasyon, upang mai-maximize ang halaga ng aming nahanap, upang maaari naming pagkilos na para sa mas mabisa, mas napapanahong mga pagpapasya sa kapaligiran na iyon upang mai-optimize ang aming negosyo.

Kaya, upang balutin iyon, kung ano ang nakikita ko, kung gayon, kailangan namin, alam mo, lumilitaw ang mga bagong mapagkukunan ng data. Mayroon kaming mga bagong platform sa isang mas kumplikadong arkitektura, kung gusto mo, upang mahawakan iyon. At ang Hadoop ay naging napaka, napakahalaga, sapat para sa paghahanda ng data para sa aming mga likidong sandbox, para sa query sa archive, archive mula sa bodega ng data, pamamahala ng data na kumakalat ng mga pakpak upang lumampas sa pangangalakal ng data sa pamamahala ng data sa lahat ng mga platform na ito, at mga bagong tool na maging magagawang pag-aralan at pag-access ng data sa mga kapaligiran na ito, upang magkaroon ng mga scalable na teknolohiya upang mas mahusay ang pag-ingest ng data, at pag-scale ng analytics sa pamamagitan ng pagtulak sa kanila pababa sa mga platform upang gawing mas kaayon sila. At pagkatapos, sana, din upang gawing simple ang pag-access sa lahat ng ito sa pamamagitan ng lumitaw na SQL na papasok sa tuktok. Kaya, binibigyan ka nito ng ideya ng uri ng kung saan kami patungo. Kaya, sa gayon, babalik ako, sa palagay ko, si Eric ngayon, ito ba?

Eric: Okay, kamangha-manghang iyon. At ang mga tao, dapat kong sabihin, sa pagitan ng kung ano lamang ang nakuha mo mula sa Robin at Mike, marahil ito ay tungkol sa komprehensibo at maigsi sa pangkalahatang-ideya ng buong tanawin mula sa pagtingin habang ikaw ay makakahanap ng kahit saan. Ipaalam ko muna at i-pila muna si George Corugedo. At nandiyan na. Hayaan akong dalhin ito nang mabilis. Sa totoo lang, George, malapit na akong ibigay sa iyo ang mga susi, at ilabas ito. Ang sahig ay iyo.

George: Mahusay! Maraming salamat, Eric, at salamat, Rob at Mike. Iyon ay mahusay na impormasyon at maraming pinagsama namin. Kaya, ang pagbabalik sa talakayan ni Robin, sapagkat, alam mo, hindi isang pagkakataon na nandito ang RedPoint at nandito ang SAS. Dahil ang RedPoint, talagang nakatuon kami sa data side nito sa pamamahala, sa pagproseso ng data at ang paghahanda para magamit sa analytics. Kaya, hayaan mo lang ako sa dalawang slide na ito. At talagang pag-usapan at kunin ang punto ng Robin tungkol sa MDM at kung gaano kahalaga ito, at kung gaano kapaki-pakinabang, sa palagay ko - at sa tingin namin - ang Hadoop ay maaaring maging sa mundo ng MDM at kalidad ng data.

Alam mo, medyo nakikipag-usap si Robin, alam mo, kung paano ito nauugnay sa data ng bodega ng data ng enterprise at darating ako - alam mo, gumugol ako ng maraming taon sa Accenture. At kung ano ang kawili-wili doon ay kung gaano karaming beses na kailangan naming pumunta sa mga kumpanya at subukang alamin kung ano ang gagawin sa bodega ng data na talaga ay inabandunang. At marami ang nangyari dahil ang data ng bodega ng bodega ay hindi talagang nakahanay sa kanilang pagbuo sa mga gumagamit ng negosyo o sa mga mamimili ng data. O kaya, matagal na itong tumagal nang sa oras na itinayo nila ang bagay na ito, ang paggamit ng negosyo o ang rasyonal ng negosyo para sa ito ay umunlad.

At ang isa sa mga bagay na sa tingin ko ay, natutuwa ako tungkol sa, ang ideya ng paggamit ng Hadoop para sa pamamahala ng data ng master, para sa kalidad ng data at para sa paghahanda ng data, ay ang katotohanan na maaari mong palaging bumalik sa data ng atom sa isang Hadoop data lake o data reservoir, o data repository, o hub, o anuman ang buzz form na nais mong gamitin. Ngunit dahil lagi mong pinapanatili ang data na iyon ng atomic, kung gayon palagi kang mayroong isang pagkakataon upang mai-realign sa mga gumagamit ng negosyo. Sapagkat, bilang isang analista - dahil sinimulan ko talaga ang aking karera bilang isang istatistika - alam mo, walang mas masahol kaysa sa, alam mo, ang mga warehouses ng data ng negosyo ay kahanga-hanga para sa pagmamaneho ng mga ulat, ngunit kung nais mong gawin talagang mahuhulaan na analytics, ang mga ito talagang hindi kapaki-pakinabang, dahil kung ano ang talagang gusto mo ay ang butil-butil na pag-uugali ng pag-uugali na kahit papaano nakuha ang buod at pinagsama sa bodega ng data. Kaya, sa palagay ko na ito ay talagang isang mahalagang tampok, at iyon ang isang bagay na sa palagay ko ay maaaring hindi ako sumasang-ayon kay Robin on ay personal kong iiwan ang data sa lawa ng data o ang data hub hangga't maaari, dahil hangga't nandiyan ang data at malinis ito, maaari mo itong tingnan mula sa isang direksyon, isa pang direksyon. Maaari mong pagsamahin ito sa iba pang data. Palagi kang may pagkakataon na makabalik dito at muling itayo, at pagkatapos ay alamin ang iyong sarili sa isang yunit ng negosyo at ang pangangailangan na maaaring makuha ng yunit na ito.

Ang isa sa iba pang uri ng mga kagiliw-giliw na bagay tungkol dito ay dahil ito ay isang napakalakas na platform ng computational, maraming gawaing iyon na pinag-uusapan natin, nakikita namin ito na dumarating sa Hadoop. At habang, sa palagay ko, pinag-uusapan ni Mike ang lahat ng iba't ibang mga teknolohiya na nasa labas doon sa mundo ng - sa ganitong uri ng malaking ekosistema ng data, sa palagay namin na ang Hadoop talaga ang workhorse na gawin ang malaking sukat sa computationally intensive processing na nangangailangan ng data ng master at kalidad ng data. Dahil kung magagawa mo ito, alam mo, ang mas manipis na ekonomiya ng paglipat ng data mula sa iyong mga mamahaling database at sa mga pangkabuhayan na database, talagang nagmamaneho ito sa labis na paggana ngayon sa mga malalaking negosyo.

Ngayon, siyempre, may ilang mga hamon, di ba? May mga hamon sa paligid ng mga teknolohiya. Marami sa kanila ay napaka-immature. Sasabihin ko, alam mo, hindi ko alam kung ilan, ngunit ang isang bilang ng mga teknolohiyang binanggit ni Mike ay nasa zero-point-releases, di ba? Kaya, ang mga teknolohiyang ito ay napakabata, napakabata, batay pa rin sa code. At talagang lumilikha ito ng isang hamon para sa mga negosyo. At talagang nakatuon kami sa paglutas ng mga problema sa antas ng negosyo. At sa gayon, sa palagay namin ay may kakaibang paraan, at iyon ang ipinanukala namin ay isang kakaibang paraan ng pagpunta tungkol sa ilan sa mga gamit sa paggamit ng ilang mga napakaraming teknolohiya.

At kaya, at pagkatapos ay ang iba pang mga kagiliw-giliw na isyu dito, na nabanggit dati na kung saan, kapag mayroon kang data na nakukuha mo sa isang kapaligiran ng Hadoop ng kahit anong uri, alam mo, kadalasan ay schema na basahin sa halip na schema on sumulat may ilang mga pagbubukod. At ang pagbabasa na iyon, marami sa mga ito ay ginagawa ng mga istatistika. At sa gayon, ang mga istatistika ay kailangang magkaroon ng mga tool na nagbibigay-daan sa kanila upang maayos na istraktura ang data para sa mga layunin ng analitiko, dahil sa pagtatapos ng araw, upang maging kapaki-pakinabang ang data, kailangang maayos ito sa ilang anyo upang makita ang ilan o sagutin ang isang katanungan o ang isang negosyo, ang ilang uri ng negosyo, lumikha ng halaga ng negosyo.

Kaya, kung saan kami pumasok, ay mayroon kaming napakalawak na batay at mature EPL, ELT data kalidad ng master key at pamamahala ng aplikasyon. Ito ay nasa merkado nang maraming taon. At mayroon itong lahat ng pag-andar o marami sa pag-andar na nakalista ng Robin sa pabilog na graph - lahat ng bagay mula lamang sa purong hilaw na data capture sa isang buong iba't ibang mga format at mga istruktura ng XML at kung ano, sa kakayahang gawin ang lahat ng paglilinis, ang pagkumpleto ng data, pagwawasto ng data, ang geospatial core bits ng data. Iyon ay isang bagay na nagiging mas at mas mahalaga sa mga araw na ito sa Internet ng mga Bagay. Alam mo, may heograpiya na nauugnay sa marami sa ginagawa namin o marami sa data na iyon. At gayon, ang lahat ng pag-parse, tokenization, paglilinis, pagwawasto, pag-format, pag-istruktura, atbp, lahat ng ito ay ginagawa sa aming platform.

At pagkatapos, at marahil, iniisip namin ang pinakamahalaga ay ang ideya ng pagpapaubos. Alam mo, sa pangunahing, kung titingnan mo ang anumang kahulugan ng pamamahala ng data ng master, ang core nito ay pagbabawas. Nagagawa nitong makilala ang mga entidad sa iba't ibang mga mapagkukunan ng data, at pagkatapos ay lumikha ng isang master record para sa nilalang na iyon. At ang nilalang na iyon ay maaaring maging isang tao. Ang entidad ay maaaring maging isang bahagi ng isang eroplano, halimbawa. Ang entidad ay maaaring maging isang pagkain tulad ng nagawa namin para sa isa sa aming kliyente sa club ng kalusugan. Lumikha kami ng isang database ng master ng pagkain para sa kanila. Kaya, anuman ang mga nilalang na pinagtatrabahuhan namin - at siyempre, dumarami, mayroong mga tao at mga proxies para sa kanilang pagkakakilanlan na mga bagay tulad ng mga pang-ugnay o mga account sa lipunan, anumang mga aparato na nauugnay sa mga tao, ilang mga bagay tulad ng mga kotse at mga telepono, at kung ano pa ang maaari mong isipin.

Alam mo, nakikipagtulungan kami sa isang kliyente na naglalagay ng lahat ng uri ng sensor sa sportswear. Kaya, ang data ay nagmumula sa bawat direksyon. At sa isang paraan o sa iba pa, ito ay isang salamin o representasyon ng pangunahing nilalang. At dumarami, na ang mga tao at ang kakayahang makilala ang mga ugnayan sa pagitan ng lahat ng mga mapagkukunan ng data at kung paano nauugnay ito sa pangunahing nilalang, at pagkatapos ay masusubaybayan ang pangunahing nilalang na iyon sa paglipas ng panahon upang maaari mong pag-aralan at maunawaan ang mga pagbabago sa pagitan ng entidad na iyon. at lahat ng iba pang mga elemento na nasa mga representasyon ng entidad na iyon, isang tunay na kritikal sa pangmatagalan at pahaba na pagsusuri ng mga tao, halimbawa. At iyon talaga ang isa sa mga talagang mahalagang benepisyo na, sa palagay ko, ang malaking data ay maaaring magdala sa amin ay mas mahusay na pag-unawa sa mga tao, at sa pangmatagalang panahon, at maunawaan ang con at kung paano kumikilos ang mga tao kapag kumikilos sila sa kung anong mga aparato, atbp .

Kaya, hayaan akong lumipat dito nang mabilis. Binanggit ni Eric ang YARN. Alam mo, itinapon ko ito para lamang sa isang maliit na segundo, dahil habang MATAPOS - pinag-uusapan ng mga tao ang tungkol sa YARN. Marami pa ring kamangmangan, sa palagay ko, tungkol sa YARN. At hindi marami sa mga tao talaga - marami pa ring hindi pagkakaunawaan tungkol sa YARN. At ang katotohanan ay kung ang iyong aplikasyon ay na-arkitektura sa tamang paraan, at mayroon kang wastong antas o paralelisasyon sa iyong arkitektura ng aplikasyon, pagkatapos ay maaari mong samantalahin ang YARN na gumamit ng Hadoop bilang iyong platform sa pag-scale. At iyon mismo ang nagawa namin.

Alam mo, muli, upang ituro ang ilan sa mga kahulugan sa paligid ng PAKSA. Sa amin, talagang kung ano ang NAKAKITA ng nagawa sa amin para sa ating sarili at iba pang mga organisasyon na maging mga kapantay sa MapReduce at Spark, at lahat ng iba pang mga tool na nasa labas. Ngunit ang katotohanan ay ang aming mga aplikasyon ay humimok ng na-optimize na code nang direkta sa YARN into Hadoop. At mayroong isang talagang kawili-wiling puna na binanggit ni Mike, dahil, alam mo, ang tanong tungkol sa analytics at aming analytics, dahil lamang sa mga kumpol, sila ba talaga ay tumatakbo? Maaari mong tanungin ang parehong katanungan tungkol sa maraming mga tool ng kalidad ng data na nandiyan.

Karamihan sa araw, ang mga kalidad ng mga tool na nasa labas doon ay kailangang kunin ang data o itulak nila ang code. At sa maraming kaso, ito ay isang solong stream ng data na naproseso dahil sa paraang kailangan mong ihambing ang mga talaan, kung minsan sa uri ng mga aktibidad na kalidad ng data. At ang katotohanan ay dahil ginagamit natin ang YARN, nagawa nating talagang samantalahin ang pagkakatulad.

At upang mabigyan ka lamang ng isang mabilis na pangkalahatang-ideya, dahil ang isa pang puna ay ginawa tungkol sa kahalagahan ng kakayahang mapalawak ang tradisyonal na mga database, mga bagong database, atbp, ipinatupad namin o nag-install kami sa labas ng kumpol. At itinutulak namin ang aming mga binaries nang direkta sa tagapamahala ng mapagkukunan, YARN. At iyon, at pagkatapos ay pinapamahagi ito ng YARN sa mga node sa kumpol. At kung ano ang ginagawa nito, ay ang YARN - pinapayagan namin ang YARN na pamahalaan at gawin ang kanyang trabaho, na kung saan ay malaman kung saan ang data ay at dalhin ang gawain sa data, ang code sa data at hindi ilipat ang data sa paligid. Kapag naririnig mo ang mga tool sa kalidad ng data at sinasabi nila sa iyo ang pinakamahusay na kasanayan ay upang ilipat ang data sa Hadoop, tumakbo para sa iyong buhay, dahil hindi lamang ito ang paraan. Gusto mong dalhin ang gawain sa data. At iyon ang una sa YARN. Aabutin ang aming mga binaries sa mga node kung saan nakatira ang data.

At dahil din sa labas tayo ng kumpol, maaari rin nating ma-access ang lahat ng tradisyonal at pangkaligirang mga database upang magkaroon kami ng mga trabaho na 100% client server sa isang tradisyunal na database, 100% Hadoop o hybrid na trabaho na dumadaan sa server ng kliyente ng Hadoop , Oracle, Teradata - anuman ang nais mo at lahat sa parehong trabaho, dahil ang isang pagpapatupad ay maaaring ma-access ang magkabilang panig ng mundo.

At pagkatapos, bumalik sa buong ideya ng hindi pagkakamali ng mga tool, nakikita mo dito, ito ay isang simpleng representasyon lamang. At ang sinusubukan nating gawin ay gawing simple ang mundo. At ang paraan na ginagawa namin ay sa pamamagitan ng pagdadala ng isang malawak na hanay ng pag-andar sa paligid ng HDFS upang gawin ito ... At hindi ito dahil sinusubukan naming alisin ang lahat ng mga makabagong teknolohiya doon. Kailangan lang ng mga negosyo ang katatagan, at hindi nila gusto ang mga solusyon na batay sa code. At kung gayon, ang sinusubukan naming gawin ay bigyan ang isang negosyo ng isang pamilyar, paulit-ulit, pare-pareho na kapaligiran ng aplikasyon na nagbibigay sa kanila ng kakayahang bumuo at magproseso ng data sa isang napaka-mahuhulaang paraan.

Mabilis, ito ang uri ng epekto na nakukuha namin sa aming aplikasyon. Nakikita mo ang MapReduce kumpara sa Baboy kumpara sa RedPoint - walang mga linya ng code sa RedPoint. Anim na oras ng pag-unlad sa MapReduce, tatlong oras ng pag-unlad sa Baboy, at 15 minuto ng pag-unlad sa RedPoint. At iyon kung saan talagang mayroon tayong malaking epekto. Ang oras ng pagproseso ay mas mabilis din, ngunit ang oras ng mga tao, ang oras ng produktibo ng mga tao, ay lubos na nadagdagan.

At ang aking pangwakas na slide dito, nais kong balikan ang ideyang ito, sapagkat ito ang aming gawin sa paggamit ng isang data lake o isang data hub, o isang refinery ng data bilang sentral na punto ng ingestion. Hindi maaring sumang-ayon sa ideyang iyon. At kasalukuyan kaming nasa mga talakayan kasama ang maraming mga punong opisyal ng data ng mga pangunahing pandaigdigang mga bangko, at ito ang arkitektura na pinili.Ang data saestion mula sa lahat ng mga mapagkukunan ay ginagawa ang pagproseso ng kalidad ng data at pamamahala ng data sa loob ng lawa ng data, at pagkatapos, itulak ang data kung saan kailangan itong pumunta upang suportahan ang mga aplikasyon, upang suportahan ang BI, kung ano man ang maaaring mangyari. At pagkatapos, kung mayroon kang analytics sa BI, maaari silang tumakbo nang direkta sa loob ng lawa ng data, kung saan ang lahat ng mas mahusay, na maaaring magsimula kaagad. Ngunit napaka nakasakay sa ideyang ito. Ang topology na ito ay isa na - na nakahanap kami ay nakakakuha ng maraming traksyon sa merkado. At, iyon lang.

Eric: Okay, mabuti. Pumunta tayo mismo dito. Sige na ako at ibigay ito kay Keith. At, Keith, nakuha mo ang tungkol sa 10, 12 minuto upang i-rock dito ang bahay. Tumagal kami nang kaunti sa mga palabas na ito. At nag-anunsyo kami ng 70 minuto para sa isang ito. Kaya, sige lang at mag-click kahit saan sa slide na iyon at gamitin ang down arrow at ilayo ito.

Keith: Oo naman. Walang problema, Eric. Pinapahalagahan ko ito. Pupunta ako sa unahan at pindutin ang ilang mga piraso tungkol sa SAS, pagkatapos ay lilipat ako, papunta sa mga arkitektura ng teknolohiya kung saan nakikipag-intact ang SAS sa malaking mundo ng data. Maraming ipaliwanag sa lahat ng bagay na ito. Maaari naming gumastos ng maraming oras sa pamamagitan ng mahusay na detalye, ngunit sampung minuto - dapat mong lumakad palayo sa isang maikling pag-unawa kung saan kinuha ng SAS ang analytics, data management at mga intelligence intelligence sa negosyo sa malaking data ng mundo.

Una, kaunti lang tungkol sa SAS. Kung hindi ka pamilyar sa organisasyong ito, naging kami, sa huling 38 taon, ay nagsasagawa ng mga advanced na analytics, katalinuhan sa negosyo at pamamahala ng data na hindi lamang malaking data, ngunit ang maliit na data at yaman ng data sa huling 38 taon. Mayroon kaming isang napakalaking umiiral na paa ng customer, tungkol sa 75,000 mga site sa buong mundo, nagtatrabaho kasama ang ilan sa mga nangungunang mga organisasyon doon. Kami ay isang pribadong organisasyon na may halos 13,000 empleyado at $ 3 bilyon na kita. At sa totoo lang, sa palagay ko, ang mahalagang bahagi ay tradisyonal na kaming nagkaroon ng matagal na kasaysayan ng muling pagsasaayos ng mga makabuluhang halaga ng aming kita pabalik sa aming R&D na samahan, na talagang dinala upang madala ang maraming mga kamangha-manghang mga teknolohiya at platform na ikaw ' muling makikita ngayon.

Kaya, tatalon ako agad sa mga talagang nakakatakot na mga diagram ng arkitektura. Magtatrabaho kami mula kaliwa hanggang kanan sa aking mga slide. Kaya, mayroong mga pamilyar na mga bagay na makikita mo sa loob ng platform na ito. Sa kaliwa, ang lahat ng mga mapagkukunan ng data na pinag-uusapan natin tungkol sa pagpasok sa mga malalaking platform ng data. At pagkatapos, nakuha mo na ang malaking platform ng data na ito.

Hindi ko lang inilalagay ang salitang Hadoop doon sa tuktok, dahil sa huli, ang mga halimbawang ibibigay ko ngayon ay partikular sa paligid ng lahat ng mga teknolohiyang pinag-iinteresan namin sa mga malalaking platform ng data. Nangyayari lamang ang Hadoop na isa sa mga kung saan mayroon kaming ilan sa mga pinaka-matatag na mga pagpipilian sa paglawak, ngunit kami din ay lumusot nang kaunti at nakabuo ng maraming mga teknolohiyang ito nang ilang oras kasama ang ilan sa aming iba pang mga kasosyo sa bodega ng data ng negosyo tulad ng Teradata, Oracle, Pivotal at iba pa. Kaya, hindi ako makapunta sa mahusay na mga detalye tungkol sa lahat ng iba't ibang mga teknolohiya ay suportado sa kung aling platform, ngunit panigurado lamang na ang lahat ng mga inilarawan ko ngayon ay halos lahat ng Hadoop at isang malawak na halaga ng mga ito ay nakikipag-ugnay sa iba pang mga kasosyo sa teknolohiya na meron kami. Kaya, nakuha namin ang malaking platform na nakaupo doon.

Ang susunod na lamang sa kanan, mayroon kaming aming SAS LASR Analytic Server. Ngayon, na mahalagang, ay isang napakalaking kahanay sa memorya ng application ng server ng analitiko. Malinaw kaming hindi ito isang database ng memorya na nasa memorya. Ito ay talagang idinisenyo mula sa ground up. Hindi ito ang query sa query, ngunit dinisenyo upang mag-serbisyo ng mga kahilingan sa analytic nang napakalaking sukat sa isang napakalaking kahanay na paraan. Kaya, iyon ang mga serbisyong susi ng serbisyo na nakikita mo doon sa kanang bahagi.

Magkakaroon kami ng kaunting mga katulad, alam mo, kung paano inilalawak ng mga tao ang mga bagay na ito. Ngunit mahalagang, ang application - nakikita mo ba doon - ang una, ay ang aming SAS na high-performance analytics. Iyon ay magiging - Gumagamit ako ng maraming umiiral na teknolohiya at platform tulad ng Enterprise Miner o isang SAS lamang, at hindi lamang paggawa ng multithreading kasama ang ilan sa mga algorithm na napatayo namin sa mga tool na nagawa namin para sa taon, ngunit din sa pangkalahatan na magkapareho sa mga iyon. Kaya, upang ilipat ang data mula sa malaking malaking platform ng data sa puwang ng memorya sa LASR Analytic Server, upang maaari naming isagawa ang mga analytic algorithm - alam mo, maraming bagong pag-aaral ng makina, mga lambat ng neural, mga random na regresyon ng kagubatan, mga uri ng mga bagay - muli, ang data na nakaupo sa memorya. Kaya, alisin ang tiyak na paradigma bottleneck ng MapReduce kung saan namin isampa sa mga platform na iyon, hindi iyon ang nais mong gawin ang gawaing analitiko. Kaya, nais naming maitaas ang data nang isang beses sa puwang ng memorya at umulit sa pamamagitan nito, alam mo, kung minsan libu-libong beses. Kaya, iyon ang konsepto ng paggamit ng mataas na pagganap na Analytic LASR Server.

Kami rin - ang iba pang mga application sa ibaba nito, ang visual analytics, na nagpapahintulot sa amin na magpatuloy sa data na iyon sa memorya at maglingkod ng isang mas malaking populasyon sa parehong data. Kaya, pinapayagan ang mga tao na gumawa ng malaking paggalugad ng data. Kaya, bago gawin ang aming mga pag-unlad ng modelo, kami ay nagsasaliksik ng data, nauunawaan ito, nagpapatakbo ng mga ugnayan, paggawa ng pagtataya o trending na mga puno ng desisyon - ang mga uri ng mga bagay - ngunit sa isang napaka visual, interactive na paraan sa data na nakaupo sa memorya platform. Nagsisilbi din ito sa aming pamayanan ng BI hanggang sa pagkakaroon ng isang malawak na mga batayan ng mga gumagamit na maaaring tumama sa platform na iyon upang gawin ang mga karaniwang uri ng pag-record na makikita mo - na kung anuman, alam mo, ang vendor ng BI doon.

Ang susunod na hakbang, lumipat kami pagkatapos sa serbisyo. At upang matulungan ang aming mga istatistika at ang aming mga tao sa analytics na magagawa ang uri ng pagmomolde ng ad-hoc na may data na nakaupo sa memorya, tinanggal mula sa visual analytics at paggalugad sa aming application sa visual statistics. Ito ay isang pagkakataon para sa mga tao na kumuha, upang hindi magpatakbo ng mga istatistika sa mga batch na dati nang uri ng pag-eehersisyo, patakbuhin ang mga modelo, tingnan ang mga resulta. Kaya, maaaring magpatakbo ng modelo, tingnan ang mga resulta. Ito ay upang biswal na mag-drag at mag-drop sa interactive na statistical modeling. Kaya, ang serbisyong ito ang aming mga istatistika at aming mga siyentipiko ng data na gumawa ng maraming na maagang pagsaliksik sa visual statistic na gawain.

At pagkatapos, hindi namin nakalimutan ang aming mga coder - ang mga tao na talagang nais, ay maaaring i-peel ang mga layer ng interface sa tapat, ay ang pagsulat ng mga aplikasyon, at isulat ang kanilang sariling code base sa SAS. At iyon ang aming mga istatistika na nasa memorya para sa Hadoop. At iyon ang - mahalagang ang layer ng code na nagpapahintulot sa amin na makipag-ugnay sa na Analytic LASR Server na mag-isyu ng mga utos nang direkta at ipasadya ang mga application batay sa aming kahilingan. Iyan ang analytic na piraso.

Paano nakalagay ang mga bagay na ito ... Oops, pasensya na ako guys. Doon tayo pupunta.

Kaya, mayroong maraming paraan kung paano natin ito ginagawa. Ang isa ay gawin ito sa malaking data - sa kasong ito, kasama ang Hadoop. At doon ay mayroon kaming SAS LASR Analytic Server na tumatakbo sa isang hiwalay na kumpol ng mga makina na na-optimize para sa mga hardcore analytics. Ito ay matatagpuan na maganda at malapit sa malaking platform ng data, na nagpapahintulot sa amin na masukat ito nang hiwalay mula sa malaking platform ng data. Kaya, nakikita namin ang mga taong gumagawa nito kapag hindi nila nais na magkaroon ng uri ng kung ano ang aking pagkilala tulad ng software ng vampire na kumakain sa bawat isa sa mga node sa kanilang kumpol na Hadoop. At hindi nila kinakailangang sukatan ang malaking platform ng data na angkop para sa paggawa ng mabibigat na pag-aangat ng mga memorya ng memorya. Kaya, maaari kang magkaroon ng 120 node ng kanilang kumpol na Hadoop, ngunit maaaring mayroon silang 16 mga node ng mga server ng analytic na idinisenyo upang gawin ang uri ng trabaho.

Pinapayagan pa rin nating mapanatili ang pagkakatulad mula sa malaking platform ng data upang hilahin ang data sa memorya. Kaya, talagang gumagamit ito ng SAS kasama ang platform ng Hadoop. Ang isang iba't ibang modelo ng appointment pagkatapos ay sabihin, well, maaari naming gamitin na ang platform ng kalakal at din itulak na - mahalagang patakbuhin ang Analytic LASR Server sa mga platform ng Hadoop. Kaya, nasaan na kami ... nagpapatakbo ka sa loob ng malaking platform ng data. Iyon din ang ilan sa aming iba pang mga nagtitinda ng appliance. Kaya, pinahihintulutan kami na gamitin ang platform ng kalakal na gawin ang gawaing iyon.

Nakita namin na mas madalas sa mga bagay tulad ng high-pagganap na analytics kung saan ito ay isang solong pagsisilbi o solong-paggamit na uri ng analytic run, mas uri ng batch oriented kung nasaan ka - hindi mo nais na kinakailangang kinakain ang memorya ng memorya sa Hadoop platform. Napakabagay kami sa ganitong uri ng modelo ng paglawak, siguradong sa aming pakikipagtulungan sa YARN sa maraming mga kasong ito upang matiyak na naglalaro kami ng magagandang kumpol.

Okay, sa gayon ang mundo ng analytic, upang maging malinaw doon kasama ang analytic application. Ngunit nabanggit ko na ang SAS sa simula pa rin ay isang platform ng pamamahala ng data. At may mga bagay na angkop upang itulak ang lohika sa platform na kung saan naaangkop. Kaya, mayroong isang pares ng mga paraan kung saan ginagawa natin iyon. Ang isa ay nasa mundo ng pagsasama ng data, ang paggawa ng data sa pagbabagong-anyo ng data sa data ay maaaring hindi magkaroon ng kahulugan upang hilahin ito muli tulad ng narinig namin dati, na nagpapatakbo ng mga kalidad ng data na nakagawian. Nais naming talagang itulak ang mga bagay tulad ng mga nakagawiang kalidad ng data pababa sa platform na iyon. At pagkatapos, ang mga bagay tulad ng pagmamarka ng modelo. Kaya, nabuo ko na ang aking modelo. Hindi ko nais na muling isulat ang bagay na iyon sa MapReduce at gawin itong mahirap at pag-ubos ng oras para sa akin na muling gawin ang trabaho sa platform ng katutubong database.

Kaya, kung titingnan mo, halimbawa, ang aming accelerator sa pagmamarka para sa Hadoop, na nagbibigay-daan sa amin na mahalagang kumuha ng isang modelo at itulak ang logikong matematika ng SAS sa platform na Hadoop at isagawa ito, gamit ang paralelismo na nasa loob ng malaking platform ng data. Kami ay mayroong aming code accelerator para sa iba't ibang mga platform kasama na ang Hadoop, at nagbibigay-daan sa amin na mahalagang patakbuhin ang SAS code na hakbang ng data sa loob ng platform sa isang napakalaking kahanay na paraan - kaya, ang paggawa ng mga uri ng pagbabago ng data ng mga gawain sa platform. At pagkatapos ay ang aming accelerator ng kalidad ng data ng SAS na nagbibigay-daan sa amin na magkaroon ng isang kalidad na base ng kaalaman na nakaupo doon na maaaring gumawa ng mga bagay tulad ng pagtutugma ng kasarian, code ng pagtutugma ng standardization - lahat ng iba't ibang mga bagay na kalidad ng data na narinig mo na ngayon.

At pagkatapos, huling piraso, mayroong Data Loader. Alam namin na ang aming mga gumagamit ng negosyo ay magagawa na hindi na kailangang sumulat ng code, gawin ang data na pagbabagong-anyo sa mga malalaking platform ng data. Ang Data Loader ay isang magandang WYSIWYG GUI na nagbibigay-daan sa amin upang balutin ang mga iba pang mga teknolohiya nang magkasama. Ito ay tulad ng isang walk-through wizard na, sabihin, magpatakbo ng isang Hive query o magpatakbo ng isang regular na kalidad ng data at hindi kailangang magsulat ng code sa kasong iyon.

Ang huling bagay na babanggitin ko ay ang front piece na ito. Mayroon kaming - tulad ng nabanggit ko dati - isang napakalaking SAS foot out doon sa mundo. At ito, hindi natin kinakailangan na gawin ang lahat ng mga platform na nasa labas doon upang makarating agad sa puwang na ito. Kaya, tiyak na mayroon kaming isang umiiral na paa ng mga gumagamit na kailangan upang makakuha ng isang data na nakaupo sa mga malalaking platform ng data tulad ng pagkuha ng data sa Teradata at ibabalik ito sa Hadoop, at kabaligtaran. Ang pagpapatakbo ng mga modelo ay alam ko na kung paano magpatakbo sa aking mga server ng SAS, ngunit kailangan kong makakuha ng isang data na inilalagay ngayon sa platform ng Hadoop. Kaya, mayroong iba pang maliit na icon doon na tinawag na "mula sa", at nagbibigay-daan sa amin upang kumonekta gamit ang aming mga SAS access engine - mga access engine sa Hadoop hanggang Cloudera sa Pola, hanggang Teradata, hanggang sa Greenplum hanggang sa ... At ang listahan ay nagpapatuloy. Pinapayagan kaming gamitin ang aming umiiral na mga platform ng SAS na nasa lugar upang makakuha ng data mula sa mga platform na ito, gawin ang gawaing kailangan nating gawin, itulak muli ang mga resulta sa mga lugar na ito.

Ang huling bagay na babanggitin ko ay ang lahat ng mga teknolohiyang ito na nakikita mo ay lahat ay pinamamahalaan ng parehong pamantayang karaniwang metadata. Kaya, pinag-uusapan namin ang tungkol sa pagkuha ng trabaho sa pagbabagong-anyo, ang patakaran ng kalidad ng data sa trabaho, paglipat nito sa memorya upang magawa ang analytics, pag-unlad ng modelo sa pagmamarka. Nakarating kami doon sa buong pamumuhay ng analitiko, lifecycle na pinamamahalaan ng karaniwang metadata, sa pamamahala, ng seguridad, sa lahat ng mga bagay na napag-usapan natin kanina.

Kaya, muling pagbabalik, mayroong tatlong mga malalaking bagay na aabutin doon. Ang isa ay, maaari naming tratuhin ang platform ng data tulad ng anumang iba pang mapagkukunan ng data, paghila mula sa kanila, itulak sa kanila kung naaangkop at maginhawa. Maaari kaming makipagtulungan sa mga malalaking platform ng data, naglista ng data sa isang advanced na binuo na analytic sa platform ng memorya. Kaya, iyon ang LASR server.

At pagkatapos, huli, maaari kaming gumana nang direkta sa mga malalaking platform ng data, na ginagamit ang kanilang mga kakayahan sa pagproseso ng pamamahagi nang hindi gumagalaw ang data.

Eric: Buweno, kamangha-manghang bagay iyon, mga tao. Oo, ito ay mahusay! Kaya, sumisid kaagad sa ilang mga katanungan. Karaniwan kaming pumunta ng mga 70 minuto o medyo mas mahaba sa mga kaganapang ito. Kaya, nakikita kong mayroon pa rin kaming isang mahusay na madla na nakaupo sa labas. George, sa palagay ko ay ihahatid ko sa iyo ang aming unang katanungan. Kung pinag-uusapan mo ang pagtulak ng iyong tunog ng binary sa Hadoop, sa palagay ko ay tunog sa akin tulad ng tunay mong na-optimize ang computational workflow. At iyon ang buong susi upang magawa ang mga ganitong uri ng pamamahala ng data sa real-time, mga tagumpay sa istilo ng kalidad ng data, dahil iyon ang halaga na nais mong makuha, di ba? Kung hindi mo nais na bumalik sa dating mundo ng MDM kung saan napaka-masalimuot at napaka-oras nito, at kailangan mong pilitin ang mga tao na kumilos sa ilang mga paraan, na halos hindi gumagana. At kaya, kung ano ang nagawa mo, pinatawad mo ang ikot ng kung ano ang dating. Tinawagan natin itong mga araw, linggo, kung minsan kahit buwan hanggang segundo, di ba? Ano ba ang nangyayari?

George: Tama iyon, dahil ang sukat na nakukuha natin at ang pagganap na lumabas sa isang kumpol ay talagang nakakapagod sa mga tuntunin, alam mo lang, lagi akong nag-aalangan tungkol sa mga benchmark. Ngunit para lamang sa pagkakasunud-sunod ng kadakilaan, kung magpapatakbo kami ng isang bilyon, 1.2 bilyong talaan at gumawa ng isang kumpletong pamantayan sa address - Sinasabi ko ang mid-range na HP machine - kukuha, tulad ng, alam mo, walong processor machine, alam mo , 2 gig ng RAM bawat core, alam mo, na tatagal ng 20 oras upang tumakbo. Maaari naming gawin iyon sa halos walong minuto ngayon sa isang, alam mo, 12-node na kumpol. At sa gayon, ang sukat ng pagproseso na magagawa natin ngayon ay kapansin-pansing naiiba na - at napakahusay na napunta sa ideya na mayroon ka ng lahat ng data na ito sa iyong pagtatapon. Kaya, hindi peligro na gawin ang pagproseso. Kung nagkamali ka, maaari mo itong gawing muli. Mayroon kang oras, alam mo. Ito ay talagang nagbago ang sukat ng mga ito kung saan, alam mo, ang mga uri ng mga panganib ay talagang naging tunay na mga problema sa negosyo para sa mga tao kapag sinusubukan nilang patakbuhin ang mga solusyon sa MDM. Kailangan mong magkaroon ng 30 mga tao sa labas ng pampang na nagsasagawa ng pamamahala ng data at lahat. At sa gayon, kailangan mo pa ring magkaroon ng ilan, ngunit ang bilis at sukat kung saan maaari mo itong iproseso ngayon, talagang nagbibigay sa iyo ng mas maraming silid sa paghinga.

Eric: Oo, talagang, talagang magandang punto. Gustung-gusto ko ang komentong iyon. Kaya, mayroon kang oras upang muling gawing muli. Hindi kapani-paniwala iyon.

George: Oo.

Eric: Well, binago nito ang dinamika, di ba? Nagbabago ito kung paano mo iniisip ang tungkol sa iyong susubukan. Ibig kong sabihin, naalala ko ito 18 taon na ang nakakaraan sa industriya ng paggawa ng mga espesyal na epekto, dahil mayroon akong isang kliyente na nasa puwang na iyon. At itutulak mo ang mga pindutan upang maibigay ito at uuwi ka na. At babalik ka, marahil sa Sabado ng hapon, upang makita kung paano ito nangyayari. Ngunit kung nagkamali ka, iyon ay napaka, napaka, napakasakit. At ngayon, hindi ito halos - hindi rin ito malapit sa pagiging masakit kaya mayroon kang pagkakataon na subukan ang mas maraming bagay. Dapat kong sabihin, sa palagay ko ay talagang, talagang magandang punto.

George: Tama iyan. Oo, at pinaputok mo ang iyong sobrang binti. Alam mo, nakakuha ka ng kalahati sa isang trabaho sa mga lumang araw at nabigo ito, pinasabog mo ang iyong SOS. Ayan yun.

Eric: Tama. At ikaw ay nasa malaking problema, oo. Tama iyan.

George: Tama iyon. Tama iyan.

Eric: Keith, hayaan mo akong itapon ng isa sa iyo. Naaalala ko ang paggawa ng isang pakikipanayam sa iyong CIL, Keith Collins, naniniwala ako, bumalik sa, sa palagay ko, 2011 marahil. At nakipag-usap siya ng isang mahusay tungkol sa direksyon na SAS ay partikular na tumatagal tungkol sa pagtatrabaho sa mga customer upang i-embed ang analytics na nagmula sa SAS sa mga operating system. At syempre, narinig namin ang pag-uusap ni Mike Ferguson tungkol sa kahalagahan ng pag-alala. Ang buong ideya dito ay nais mong magagawang itali ang mga bagay na ito sa iyong mga operasyon. Hindi mo nais ang pagsusuri sa isang vacuum, na-disconnect mula sa negosyo. Walang halaga iyon.

Kung nais mo ang pagsusuri na maaaring direktang maapektuhan at mai-optimize ang mga operasyon. At kung titingnan ko ulit - at kailangan kong sabihin, naisip ko na ito ay isang magandang ideya pabalik - parang isang talagang, talagang matalinong ideya sa pag-retrospect. At hulaan ko, iyon ay isang tunay na kalamangan na mayroon ka. At syempre, ang mahusay na pamana na ito, ang napakalaking base ng pag-install, at ang katotohanan na nakatuon ka sa pag-emote ng mga analytics na ito sa mga operating system, na nangangahulugang ngayon - at ipinagkaloob, ito ay kukuha ng ilang nagtatrabaho - Sigurado ako na ikaw ' nagtatrabaho ka sa medyo mahirap. Ngunit ngayon, maaari mong magamit ang lahat ng mga bagong makabagong ito at talagang nasa mga tuntunin ng kakayahang mapatakbo ang lahat ng bagay na iyon sa iyong mga customer. Iyon ba ang isang patas na pagtatasa?

Keith: Oo, talagang. Ang konsepto ay, makakakuha ka ng ideyang ito ng disenyo ng desisyon o mga agham ng desisyon kung saan, alam mo, sa ilang antas na exploratory, science-y uri ng bagay. Maliban kung magagawa mo ang engineering sa proseso ... Kung sa tingin mo tungkol sa pagbuo ng isang kotse, mayroon kang mga taga-disenyo na gumawa ng magandang kotse na ito, ngunit hindi hanggang sa inilagay ng mga inhinyero ang plano na iyon at gumawa ng isang tunay na mabubuhay na produkto bago ka maaari talagang ilagay ang mga bagay sa lugar, at iyon ang mahalagang kung ano ang nagawa ng SAS. Pinagsama nito ang mga pagpapasya - proseso ng pagdidisenyo ng desisyon kasama ang proseso ng desisyon-engineering nang magkasama, kaya na kapag pinag-uusapan mo ang tungkol sa mga accelerator, tiyak na alam ng pagmamarka, kung kukuha ka ng isang modelo na iyong binuo at magagawang itulak ito kay Teradata, o itulak ito sa Oracle o sa Hadoop, na may zero downtime para sa pag-unlad ng modelo, upang pag-deploy ng modelo. Iyon ang susi, dahil ang mga modelo ay nagpapababa sa oras, ang kawastuhan ng mga modelong iyon. Kaya, mas matagal na para sa iyo na dalhin iyon at ilagay ito sa paggawa, pagkawala ng kawastuhan ng modelo na iyon.

At pagkatapos, ang iba pang mga piraso ay, nais mong magagawang subaybayan at pamahalaan ang proseso sa paglipas ng panahon. Nais mong tanggalin ang mga modelo kapag sila ay tumanda at hindi tumpak. Nais mong tingnan ito, suriin ang kawastuhan ng mga ito sa paglipas ng panahon at muling itayo ang mga ito. At kung gayon, mayroon kaming mga tool sa pamamahala ng modelo na umupo sa tuktok ng iyon, din, na talagang sinusubaybayan ang metadata sa paligid ng modelo ng proseso. At sinabi ng mga tao na ang pagmomolde, alam mo, ang uri ng konsepto ay tulad ng isang pabrika ng modelo, o anuman ang nais mong tawagan ito. Ang bagay ay, ang paglalagay ng metadata at pamamahala sa proseso at kung saan ang tatlong malalaking bagay na tinamaan natin - tinutulungan namin ang mga tao na kumita ng pera, makatipid ng pera at mailalayo sila sa bilangguan.

Eric: Ang huli ay medyo malaki rin. Naghahanap ako upang maiwasan ang lahat ng iyon. Kaya, pag-usapan natin ...Nagbibigay ako ng isang pangwakas na tanong, marahil ay maaari mong pareho ang bawat uri ng pagtalon sa ito. Ang pagtaas ng heterogeneity ng ating mundo ay tataas lang, para sa akin. Sa palagay ko siguradong makikita natin ang ilang pagkikristal sa paligid ng mga mestiso na kalangitan. Ngunit gayunpaman, makikita mo ang maraming mga pangunahing manlalaro na nakadikit. Hindi pupunta kahit saan ang IBM. Oracle ay hindi pupunta saanman. Ang SAP ay hindi pupunta kahit saan. At maraming iba pang mga nagtitinda na kasangkot sa larong ito.

Gayundin, sa pagpapatakbo, kung saan mayroon kang literal na libu-libo at libu-libong iba't ibang mga application. At narinig ko - karamihan sa inyo ay pinag-uusapan ito, ngunit sa palagay ko pareho kayong sasang-ayon sa sinabi ko. Nakita namin ang kalakaran na ito ngayon sa mga tuntunin lamang ng lakas ng computational sa mga analytical engine, arkitektura. Ang mga kumpanya ay pinag-uusapan nang maraming taon na ngayon tungkol sa pagiging ma-tap sa iba pang mga makina doon at serbisyo sa isang uri ng orkestasyon. At sa palagay ko, George, itatapon ko muna ito sa iyo. Tila sa akin ay isang bagay na hindi babaguhin. Magkakaroon kami ng mahihirap na kapaligiran na nangangahulugang mayroong mga bagay tulad ng real-time na CRM at kalidad ng data at pamamahala ng data. Kakailanganin mo, bilang isang tindero, upang makipag-ugnay sa lahat ng iba't ibang mga tool. At iyon ang gusto ng mga customer. Hindi nila nais ang isang bagay na okay sa mga tool na ito at hindi okay sa mga tool na iyon. Gusto nila ang Switzerland ng MDM at CRM, di ba?

George: Tama iyon. At ito ay kawili-wili, dahil kami ay lubos na yakapin iyon. Bahagi nito ay ang kasaysayan na mayroon tayo sa kalawakan. At malinaw naman, nagtatrabaho kami sa lahat ng iba pang mga database, ang Teradatas at mga piraso ng mundo. At pagkatapos, ginawa ang - sa proseso ng pagpapatupad, partikular ang paraan na ginawa namin, para lamang ito - mayroon kang span sa lahat ng iba't ibang mga database. Ang isa sa mga bagay na natuklasan kong kawili-wili ay, mayroon kaming ilang mga kliyente na nakayuko lamang sa pagtanggal ng lahat ng mga database ng relational. At kawili-wili iyon. Alam mo, ang ibig kong sabihin, ayos ito. Ito ay kawili-wili. Ngunit hindi ko lang nakikita na nangyayari ito sa isang malaking sukat ng negosyo. Hindi ko ito nakikita nang matagal. Kaya, sa palagay ko ay narito ang hybrid dito sa isang mahabang panahon at sa kabilang panig ng aming aplikasyon kung saan mayroon kaming platform sa pagmemensahe sa aming platform ng pamamahala ng kampanya. Partikular na dinisenyo namin ito. Ngayon, naglabas kami ng isang bersyon na gumagawa nito at maaaring kumonekta ngayon sa hybrid na data sa kapaligiran at query Hadoop, o mag-query ng anumang database, anumang analytic database. Kaya, sa palagay ko iyon lang ang alon ng hinaharap. At sumasang-ayon ako na ang virtualization ay tiyak na maglaro ng isang malaking papel sa ito, ngunit kami lang - pupunta kami mismo sa data sa lahat ng aming mga aplikasyon.

Eric: Okay, mahusay. At, Keith, itatapon ko ito sa iyo. Ano sa palagay mo ang mahihinang mundo na ating kinakaharap na kumikilos bilang isang paa?

Keith: Oo, talagang kamangha-manghang Sa palagay ko, kung ano ang mas marami kaming nahanap - hindi lamang sa bahagi ng pamamahala ng data ng mga bagay - ngunit ang talagang kamangha-manghang ngayon ay ang bukas na mapagkukunan ng base ng analytics. Kaya, nakikita namin ang mga samahan, o mga teknolohiya tulad ng Spark na nakasakay, at ang mga taong gumagamit ng Python at R at lahat ng iba pang mga teknolohiyang bukas na mapagkukunan. Sa palagay ko maaari itong isalin bilang isang uri ng isang salungatan o isang banta sa ilang antas. Ngunit ang katotohanan ay, mayroon kaming ilang mga talagang kamangha-manghang papuri sa lahat ng mga teknolohiyang bukas na mapagkukunan. Ibig kong sabihin, para sa isa, nagtatrabaho kami sa tuktok ng mga open-source platform, para sa Diyos.

Ngunit din, tulad ng kakayahang pagsamahin, halimbawa, isang modelo ng R sa isang parada ng SAS na nagbibigay-daan sa iyo upang magamit ang pinakamahusay sa parehong mga mundo, di ba? Tulad ng, kaya alam namin na ang ilan sa mga pang-eksperimentong bagay sa akademikong mundo at ilan sa mga gawaing pag-unlad ng modelo ay pambihirang at sobrang kapaki-pakinabang sa proseso ng pag-unlad ng modelo. Ngunit gayunpaman, kung maaari mong ipares ang isang uri ng tool ng uri, ginagawa ito ng maraming paglilinis at kalidad at pagsuri at tiyakin na ang data na nagbibigay sa modelo ay, ito ay inihanda nang maayos upang hindi ito mabigo sa pagpapatupad. At pagkatapos, magagawa ang mga bagay tulad ng mga modelo ng kampeon ng mapaghamon na may mga modelo ng bukas na mapagkukunan. Iyon ang mga bagay na tinitingnan namin upang paganahin, at bilang bahagi ng talagang napakahusay na ekosistema ng lahat ng mga teknolohiyang ito. Oo, kaya higit pa - para sa amin, higit pa tungkol sa pagyakap sa mga teknolohiyang iyon at naghahanap ng mga papuri.

Eric: Well, ito ay kamangha-manghang mga bagay, mga tao. Nagpunta kami nang kaunti dito, ngunit nais naming makakuha ng maraming mga katanungan hangga't maaari. Ipasa namin ang Q&A file sa aming mga nagtatanghal ngayon. Kaya, kung ang anumang tanong na tinanong mo ay hindi nasagot, tiyakin naming masasagot ito. At mga tao, ito ay bumabalot para sa 2014. Iyong tunay sa DM Radio bukas at sa susunod na linggo, at pagkatapos ito ay tapos na at ito ay isang pahinga sa holiday.

Kaya maraming salamat sa inyong lahat para sa iyong oras at atensyon, para sa pagdikit sa lahat ng mga kamangha-manghang mga webcasts. Mayroon kaming isang mahusay na taon na may linya para sa 2015. At makikipag-usap kami sa iyo sa lalong madaling panahon, mga tao. Salamat ulit. Mag-iingat kami. Paalam.