Paano Naayos ang Iyong Data? Sinusuri ang Nakabalangkas, Hindi Nakabalangkas at Semi-Naayos na Data

May -Akda: Roger Morrison
Petsa Ng Paglikha: 25 Setyembre 2021
I -Update Ang Petsa: 21 Hunyo 2024
Anonim
Section, Week 5
Video.: Section, Week 5

Nilalaman



Pinagmulan: monsitj / iStockphoto

Takeaway:

Alamin ang tungkol sa nakabalangkas, hindi nakabalangkas at semi-nakabalangkas na data.

Sa kasaysayan, ang mga analyst ng data ay may kakayahang mag-decrypting at kumuha ng impormasyon mula lamang sa isang uri ng data: nakabalangkas na data. Ang ganitong uri ng data ay madaling mahahanap dahil sa malinaw na mga pattern nito, ngunit kinakatawan ng isang menor de edad na porsyento ng kabuuang magagamit na data.

Kasama sa hindi nakaayos na data ang video, audio, s, at data na nagmula sa social media at mga mobile device din. Ito ay, ibinaba, ang pinakamalaking reserba ng magagamit na impormasyon, ngunit walang sinuman ang nakaka-taping ng mapagkukunang ito.

Ang mga bagay ay nagbago, gayunpaman, habang ang pagtaas ng pagkakaroon ng imbakan at higit na mahusay na mga kakayahan sa pagproseso ay nagbigay ng kapanganakan sa hindi naka-istrekturang data analytics - isang bago, at sa gayon ay hindi pa, form ng teknolohiya. Ang mas mahusay na katalinuhan ng negosyo ay sinasamantalahin ang pagkakataong ito, at ang malaking pamumuhunan ay ginagawa upang pagsamahin ang nakabalangkas at hindi naka-istraktura na data analytics upang ma-access ang tila walang katapusang ginto ng impormasyon.


Hinahayaan ang isang pagtingin sa mga dalawang mga format ng data upang maunawaan ang kanilang mga pagkakaiba-iba, at kung ano ang hinaharap na humahawak para sa lahat ng mga analyst ng data.

Ano ang Nakabalangkas na Data?

Ang nakabalangkas na data ay gawa ng tao o makina at lubos na naayos na impormasyon na madaling maiimbak sa mga istruktura ng hilera ng database na kilala bilang mga database ng pamanggit (RDB). Ito ay anumang bagay na umiiral sa isang format na madaling makunan, maiimbak at maisaayos sa isang istruktura ng RDB na masuri nang huli. (Upang malaman ang higit pa tungkol sa mga database, tingnan ang aming Introduksiyon sa Mga Databases.)

Kasama sa mga halimbawa ang mga code ng ZIP, numero ng telepono, at mga demograpiko ng gumagamit tulad ng edad o kasarian. Ang mga datos na matatagpuan sa mga database na ito ay maaaring mai-queried sa Structured Query Language (SQL) o mga function ng VLOOKUP sa loob ng mga spreadsheet ng Excel. Ang mga algorithm ay maaaring gawin upang mabilis na maghanap ng data na matatagpuan sa iba't ibang larangan gamit ang kanilang mga index, o ang kanilang mga numero at ayon sa alpabetong data. Gayunpaman, ang lahat ng data ay mahigpit na tinukoy sa mga tuntunin ng uri ng pangalan at pangalan, at ang kakayahang mag-imbak, mag-query at mag-aralan ito ay sa gayon ay pinigilan ang ilang lawak.


Ang mga karaniwang application na gumagamit ng nakabalangkas na data ay kasama ang software sa pamamahala ng ospital, mga aplikasyon ng pamamahala ng relasyon sa customer (CRM) at mga sistema ng reservation ng airline. Dahil sa maayos nitong samahan at madaling pag-access, ang nakabalangkas na data ay kapaki-pakinabang at mahusay kapag nakikitungo sa malaking dami ng impormasyon. Kapag ang pagbabarena para sa itim na langis na nakatago sa walang hanggang halaga ng data na ginawa araw-araw sa pamamagitan ng sangkatauhan, gayunpaman, ang naghahanap ng nakabalangkas na data ay walang iba kundi ang pag-scratch sa ibabaw.

Ano ang Hindi Nakabalarang Data?

Ang karamihan ng data na natagpuan sa isang samahan ay hindi nakaayos, at tinatantiya ng ilan na hanggang sa 80 porsiyento ng kabuuang data na magagamit na ngayon. Sa pamamagitan ng kahulugan, ang hindi naka-istraktura na data ay ang lahat na walang makikilalang panloob na istraktura. Gayunpaman, ang ilang mga uri ng data na nahuhulog sa kategoryang ito mayroon ilang anyo ng hindi malinaw na panloob na istraktura, subalit hindi ito umaayon sa isang database o spreadsheet.

Walang Mga bug, Walang Stress - Ang Iyong Hakbang sa Hakbang Patnubay sa Paglikha ng Software na Pagbabago ng Buhay nang Walang Pagsira sa Iyong Buhay


Hindi mo maaaring mapabuti ang iyong mga kasanayan sa pag-programming kapag walang nagmamalasakit sa kalidad ng software.

Karamihan sa data ng negosyo ay hindi nakabalangkas, mula sa mga pakikipag-ugnayan sa serbisyo ng customer, mga file, mga web log, video at iba pang nilalaman ng multimedia, automation ng benta, s at mga post sa social media. Hindi na kailangang ipaliwanag ng mga Theres kung gaano kahalaga ang data na ito kung maaari itong minahan, maayos at masuri.

Karamihan sa hindi naka-istrukturang data ay nilikha ng mga tao, at sa gayon ay ginawa upang maunawaan ng ibang mga tao. Nangangahulugan ito na hindi nauunawaan ng katalinuhan ng computer ang neater sa ganitong uri ng impormasyon mula sa napakalayo nito mula sa pagkakasunud-sunod ng linya ng makina at nakabalangkas na mga database.

Pagbagsak sa pagitan ng: Semi-Structured Data

Ang data na nakabubuo ng semi ay isang pangatlong uri ng data na kumakatawan sa isang mas maliit na piraso ng buong pie (5-10 porsyento). Sa literal na nahuli sa pagitan ng parehong mga mundo, ang mga semi-nakabalangkas na data ay naglalaman ng mga panloob na semantik na mga tag at mga marka na nagpapakilala ng magkakahiwalay na mga elemento, ngunit kulang ang istraktura na kinakailangan upang magkasya sa isang database ng pamanggit.

Halimbawa, ang parang mga nakabalangkas na data dahil maaaring mai-kategorya ayon sa petsa, laki ng file o oras. Gayunpaman, hindi sila, yamang ang pinakamahalagang impormasyon ay matatagpuan sa loob nila, sa halip na medyo simpleng label. s cant ay talagang maiayos ng nilalaman at paksa, dahil ang mga tao ay hindi nagsasalita sa ganoong mahigpit na mga pattern upang ipaalam sa isang makina na maunawaan ang mga ito nang hindi pantay. Ang iba pang mga halimbawa ng data na semi-nakabalangkas ay kinabibilangan ng mga database ng NoSQL, ang bukas na standard na JSON at ang markup language XML.

Ang data na nakaayos na semi-nakabalangkas ay karaniwang queried at nakalista para sa pagsusuri sa pamamagitan ng paggamit ng pagsusuri ng metadata. Halimbawa, ang isang X-ray scan ay binubuo ng isang malaking bilang ng mga pixel na bumubuo sa imahe - na likas na hindi naka-istruktura ng data na hindi mai-access. Gayunpaman, magsasama pa rin ang scan file ng isang metadata na bahagi na nagbibigay ng impormasyon tungkol dito, tulad ng mga annotation at user ID.

Maaari Bang Maibago ang Data na Hindi Nakabalangkas sa Nakabalangkas na Data?

Ang pangunahing hamon na dapat harapin ng bawat analyst ng data ay upang ayusin ang impormasyon sa kamay nang maayos, maayos na paraan upang ma-access at maiintindihan ito. Ang mga tool sa pagmimina ng data ay karaniwang hindi nilagyan ng impormasyon ng parse na kung saan, sa pamamagitan ng kahulugan, masyadong katulad sa wika ng tao, na nangangahulugang isang tao lamang ang makakolekta at maiugnay ito.

Gayunpaman, ang manipis na dami ng hindi naka-istraktura na data ay gumagawa ng anumang pagtatangka sa pag-iimbak o pag-aayos nito ng labis na matrabaho at mahal. Ang pool ng impormasyon na nagmumula, sabihin, ang isang search engine na nakabase sa web ay napakalaki, na ang karamihan sa mga elemento ay nangangailangan ng isang malaking pamumuhunan sa mga tuntunin ng trabaho at mapagkukunan lamang upang kunin ang mga pinaka pangunahing. Kahit na ang pinaka mahusay na mga pamamaraan ng pagmimina ng data ay nawalan pa rin ng isang malaking halaga ng impormasyon na matatagpuan sa web at, kahit na mas masahol pa, sa loob ng malalim na web.

Ngunit ang mga pamamaraan ay umiiral. At sila ay nabuo sa isang kamangha-manghang bilis. Halimbawa, ang metadata ay maaaring magamit upang magkonekta ng nakabalangkas at hindi nakaayos na data nang magkasama. Ang impormasyon na na-ani ay maaaring mai-filter at mai-index ng parehong mga gumagamit at algorithm pati na rin upang pag-aralan lamang ang may-katuturang data. Kasama sa iba pang mga solusyon ang "data wrangling," na kung saan ay isang proseso kung saan ang kumplikadong data ay unti-unting naayos ng hakbang-hakbang ng mga hindi gumagamit ng teknikal. (Para sa higit pa sa mga ordinaryong gumagamit na humahawak ng data, tingnan kung Paano Makakatulong ang Malaking Data sa Self-Service Analytics.)

Sa ilang mga punto, magagawa nating mahusay na ibahin ang anyo ng mga ito ng napakalaking hindi organisadong dami ng impormasyon sa isang mas organisado at naayos na format. Marahil hindi ngayon, marahil hindi bukas, ngunit sa lalong madaling panahon magagawa nating salakayin ang pinakamalaking vault na tao na nakita: malaking data.