5 Mga Susi na Mga Lugar Kung Saan Ang Malalaking Data ay Gumagawa ng isang Pangunahing Epekto

May -Akda: Eugene Taylor
Petsa Ng Paglikha: 9 Agosto. 2021
I -Update Ang Petsa: 22 Hunyo 2024
Anonim
7 лайфхаков с ГОРЯЧИМ КЛЕЕМ для вашего ремонта.
Video.: 7 лайфхаков с ГОРЯЧИМ КЛЕЕМ для вашего ремонта.

Nilalaman


Pinagmulan: Nmedia /Dreamstime.com

Takeaway:

Ang malaking data ay malaking negosyo sa lahat ng dako, ngunit ang ilang mga tukoy na lugar na ginagamit ang teknolohiyang ito.

Noong sinimulan ko ang artikulong ito, pinaplano kong ilista ang iba't ibang uri ng mga malaking platform ng data. Ngunit, pagkatapos ng tatlong araw ng pagtatangka upang iwaksi ang lahat ng iba't ibang mga malaking handog na datos - relational laban sa di-kaugnayan, SQL kumpara sa NoSQL at database versus na balangkas - sa ilang pagkakasunud-sunod ng pagkakasunud-sunod, nagpasya akong iwasan ang gulo.

Upang magdagdag ng pang-insulto sa pinsala, inaasahan kong ipakilala ang taong nag-ukol sa salitang "malaking data" bilang bahagi ng artikulo. Ngunit, hindi ko iyon magagawa. Walang sumang-ayon na sagot. Sa katunayan, mayroong isang buong proyekto ng pananaliksik na may ganap na pagsisiyasat kung sino ang nagmula sa malaking data na orihinal. Sa halip, Titingnan ko ang ilan sa mga pangunahing paraan na ginagamit ang malalaking data. Malayo na mas mahalaga. At ang mas kawili-wili at nakakagulat kaysa sa maaari mong isipin.


Paano Ito Nangyayari

Ang mga analista na gumagamit ng tradisyonal na pagmimina ng data ay nagmamanipula ng data sa loob ng maraming taon. Ang parehong mga analyst na ito ay nahihirapan ngayon upang makaya sa dami at iba't-ibang data na nai-save ng mga negosyo, pribadong organisasyon at mga ahensya ng gobyerno.

Ipasok ang malaking data, ang susunod na hakbang ng ebolusyon sa pagmimina ng data. Ang malaking data ay idinisenyo upang hawakan ang napakalaking database at napakaraming mga uri ng data na nilikha sa digital na mundo ngayon. Kung ang "napakalaking" ay iniisip mo ang tungkol sa Google at ang lahat ng mga data na kinokolekta nito, ikaw ay nasa ballpark. Ano ang maaaring sorpresa sa iyo na ang Google ay pang-apat lamang sa Nangungunang Sampung Listahan ng pinakamalaking database ng mundo. Noong Enero 2014, ang World Data Center para sa Klima ay nanguna sa listahan na may 220 terabytes ng data, at hulaan ng sinuman ang sukat ng mga database na kinokontrol ng ilang mga ahensya ng gobyerno.


Siyempre, ang malaking data ay naganap dahil ginagawang posible upang manipulahin ang maraming mga hindi magkakatulad na data, at matuklasan ang kamangha-manghang - at kamangha-manghang detalyado at personal na mga bagay. Si John Sumser, tagasuri ng industriya ng HR, ay nagbibigay ng sumusunod na halimbawa:

"Ngayon lumikha kami ng mga hipotesis at nangongolekta ng data. Bukas gagawin namin ang kabaligtaran. Ang palagiang, matatag na akumulasyon ng data ay magbibigay-daan sa amin upang tumingin sa mga data bago kami gumawa ng mga katanungan. Iyon ay nangangahulugang makakakuha kami ng mga sagot sa mga tanong na hindi namin ginawa alam kong magtanong. Kami ay hindi nakakaunawa ng isang buong pangkat ng mga bagay na inaakala nating mga katotohanan. "

Siyempre, narinig nating lahat ang tungkol sa ilan sa mga kakatakot na paraan na ginamit ng data na ito, tulad ng kakayahang matukoy ng Target na makilala ang isang kabataang kababaihan bago ang kanyang pamilya. Ngunit ang malaking data ay ginagamit din para sa mas kaunting masamang kadahilanan. Narito ang ilang mga samahan na pinakakamit nito:

Hindi mo maaaring mapabuti ang iyong mga kasanayan sa pag-programming kapag walang nagmamalasakit sa kalidad ng software.

Ang isang malinaw na malaking data ay makakatulong sa paghawak ng mga talaang pangkalusugan ng ligtas at tumpak sa buong mga medikal na organisasyon. Ang pagkakaroon ng tumpak na mga talaan ay magbibigay sa mga pasyente ng mas mahusay na serbisyo at bawasan ang mga error. Ang larangan ng pangangalaga sa kalusugan, para sa mga halatang kadahilanan, ay umaangkop sa malaking data sa mas mabagal na bilis upang sumunod sa mga regulasyon ng gobyerno patungkol sa pagiging kumpidensyal ng pasyente.

Tulad ng nabanggit kanina, ang malalaking data ay kilala para sa pagbibigay ng mga sagot sa mga hindi nakasulat na mga katanungan. Sa larangan ng pangangalaga sa kalusugan, maaaring nangangahulugan ito ng paghahanap ng isang bagong gamot o paggamot na hindi na natagpuan kung hindi man. Ayon sa McKinsey & Company, maaaring gawin ng malaking data ang sumusunod sa hindi napakalayong hinaharap:

  • Ang mahuhulaan na pagmomolde ng mga proseso ng biological at gamot ay nagiging mas sopistikado at laganap.
  • Ang mga pasyente ay nakilala upang magpatala sa mga klinikal na pagsubok batay sa higit pang mga mapagkukunan ng impormasyon, tulad ng social media.
  • Ang mga pagsubok ay sinusubaybayan sa totoong oras upang mabilis na matukoy ang mga isyu sa kaligtasan o pagpapatakbo.
  • Sa halip na matibay na mga data ng silos na mahirap ipagsamantalahan, ang data ay nakunan ng elektroniko at madaling dumadaloy sa pagitan ng iba't ibang mga yunit.

Malaking Data, Malaking Pagkakataon

Habang ang malaking data ay na-leverage sa ilang mga tukoy na lugar, nag-aalok ng pagkakataon para sa lahat ng mga samahan sa mga sumusunod na lugar:

Lamang tungkol sa anumang data ng pag-log ng computing at network ng aparato. Ang dami ng data na naka-log nang mabilis ay nagiging hindi mapapansin. Madaling mapamamahalaan ng malaking data ang halagang iyon ng data, na nagpapahintulot sa mga administrador na subaybayan ang aktibidad ng network, mag-diagnose ng mga problema o, sa halimbawa na ibinigay sa akin ni Rubin, hanapin ang ilang mga pattern ng trapiko sa network na magpapahiwatig ng aktibidad ng malware.

Kung binabasa mo ang artikulong ito, medyo ligtas na mapagpasyahan na alam mo ang isyu sa Puso sa paligid ng OpenSSL. Bukod sa problemang teknikal, mayroong pag-aalala na ang kahinaan ay umiral nang maraming taon. Nabanggit ni Rubin na pinapayagan ng malaking data ang mga administrator ng network, nagtatrabaho sa mga analyst ng data, upang lumikha ng isang programa na maghanap sa lahat ng mga log ng network para sa mga nakakahamak na tibok ng puso. Binanggit ng post ng EFF na ito:

"Ang sinumang mga operator ng network na may malawak na packet log ay maaaring suriin para sa mga nakakahamak na tibok ng puso, na kadalasang mayroong isang TCP payload na 18 03 02 00 03 01 o 18 03 01 00 03 01 (o marahil kahit 18 03 03 00 03 01)."

Ang sumusunod na halimbawa ay sample output mula sa utos ng pag-audit ng palabas:

Pag-audit ng palabas #

* Sep 14 18: 37: 31.535:% AUDIT-1-RUN_VERSION: Hash:

24D98B13B87D106E7E6A7E5D1B3CE0AD Gumagamit:

* Sep 14 18: 37: 31.583:% AUDIT-1-RUN_CONFIG: Hash:

4AC2D776AA6FCA8FD7653CEB8969B695 Gumagamit:

* Sep 14 18: 37: 31.595:% AUDIT-1-STARTUP_CONFIG: Hash:

95DD497B1BB61AB33A629124CBFEC0FC Gumagamit:

* Sep 14 18: 37: 32.107:% AUDIT-1-FILESYSTEM: Hash:

330E7111F2B526F0B850C24ED5774EDE Gumagamit:

* Sep 14 18: 37: 32.107:% AUDIT-1-HARDWARE_CONFIG: Hash:

32F66463DDA802CC9171AF6386663D20 Gumagamit:


Kung susundin mo ang mga selyo ng oras, ang agwat ng oras para sa lahat ng mga entry na ito ay mas mababa sa isang segundo. Hindi ko rin nais na i-extrapolate na sa labas ng isang araw, mag-isa sa dalawang taon!

Isang bagay na Panoorin

Kung susuriin mo ang mga ad ng trabaho, ang isang kagila-gilalas na pangangailangan para sa malaking dalubhasa sa data. Tinanong ko si Rubin tungkol dito. Pumayag siya, nabanggit ang kanyang mga mag-aaral na nasasabik sa kanilang mga prospect. Napagtanto ko pagkatapos na ang malalaking platform ng data, lalo na ang mga itinuturing na bukas na mapagkukunan, ay sumusunod sa isang timeline na halos kapareho sa kung paano naging mainstream ang Linux.

Ang mga unibersidad ay yakapin ang mga bukas na mapagkukunan ng mga platform ng malalaking data, sa partikular na Hadoop, sapagkat libre ito, at maaaring manipulahin ng mga mag-aaral ang source code. Kaya't ang mga nagtapos na pumupuno sa lahat ng mga pagbubukas ng trabaho ay mas gugustuhin ang magtrabaho sa mga bukas na mapagkukunan, dahil ito ang alam nila. Ito ay magiging kawili-wiling panoorin.