Maaari bang magkaroon ng masyadong maraming data sa malaking data?

Video.: ’Fighting Back with Data’: Maria Ressa ’86

Nilalaman

T:

A:

Ang sagot sa tanong ay isang matinding OO. Mayroong ganap na maaaring masyadong maraming data sa isang malaking proyekto ng data.

Maraming mga paraan kung saan ito maaaring mangyari, at iba't ibang mga kadahilanan kung bakit kailangan ng mga propesyonal na limitahan at curate ang data sa anumang bilang ng mga paraan upang makakuha ng tamang mga resulta. (Basahin ang 10 Malaking Pabula Tungkol sa Malalaking Data.)

Sa pangkalahatan, pinag-uusapan ng mga eksperto ang pagkakaiba sa "signal" mula sa "ingay" sa isang modelo. Sa madaling salita, sa isang dagat ng malaking data, ang may-katuturang data ng pananaw ay nagiging mahirap i-target. Sa ilang mga kaso, naghahanap ka ng isang karayom sa isang haystack.

Halimbawa, ipagpalagay na ang isang kumpanya ay nagsisikap na gumamit ng malaking data upang makabuo ng mga tiyak na pananaw sa isang segment ng isang base ng customer, at ang kanilang mga pagbili sa isang tukoy na time frame. (Basahin ang ginagawa ng malalaking data?)

Ang pagkuha sa isang napakalaking halaga ng mga ari-arian ng data ay maaaring magresulta sa paggamit ng mga random na data na hindi nauugnay, o maaari pa itong makagawa ng isang bias na sumusuko sa data sa isang direksyon o sa iba pa.

Ito din ay nagpapabagal sa proseso ng kapansin-pansing, dahil ang mga sistema ng computing ay kailangang makipagbuno sa mas malaki at mas malaking hanay ng data.

Sa napakaraming iba't ibang uri ng mga proyekto, ang napakahalaga nito para sa mga inhinyero ng data upang mai-curect ang data upang higpitan at tiyak na mga set ng data - sa kaso sa itaas, iyon lamang ang magiging data para sa segment na iyon ng mga customer na pinag-aralan, tanging ang data para sa oras na iyon balangkas na pinag-aralan, at isang diskarte na nagpapalabas ng mga karagdagang pagkakakilanlan o impormasyon sa background na maaaring lituhin ang mga bagay o pabagalin ang mga system. (ReadJob Role: Data Engineer.)

Para sa higit pa, hahanapin kung paano ito gumagana sa hangganan ng pag-aaral ng makina. (Basahin ang Pag-aaral ng Makina 101.)

Ang mga dalubhasa sa pagkatuto ng makina ay nag-uusap tungkol sa isang bagay na tinatawag na "overfitting" kung saan ang isang sobrang kumplikadong modelo ay humahantong sa hindi gaanong mabisang mga resulta kapag ang programa ng pagkatuto ng makina ay nakabukas sa bagong data ng produksiyon.

Nangyayari ang pag-overfitting kapag ang isang kumplikadong hanay ng mga puntos ng data ay tumutugma sa isang paunang hanay ng pagsasanay, at huwag pinapayagan ang programa na madaling umangkop sa bagong data.

Ngayon technically, ang overfitting ay sanhi hindi sa pagkakaroon ng napakaraming mga sample ng data, ngunit sa pamamagitan ng coronation ng napakaraming puntos ng data. Ngunit maaari kang magtaltalan na ang pagkakaroon ng masyadong maraming data ay maaaring maging isang kadahilanan na nag-aambag sa ganitong uri ng problema, pati na rin. Ang pagharap sa sumpa ng dimensionalidad ay nagsasangkot ng ilan sa mga parehong pamamaraan na ginawa sa mas maagang malaking proyekto ng data habang sinubukan ng mga propesyonal na matukoy kung ano ang pinapakain nila ng mga sistema ng IT.

Ang nasa ilalim na linya ay ang malaking data ay maaaring maging malaking kapaki-pakinabang sa mga kumpanya, o maaari itong maging isang malaking hamon. Ang isang aspeto nito ay kung ang kumpanya ay may tamang data sa paglalaro. Alam ng mga eksperto na hindi ipinapayong i-dump ang lahat ng mga ari-arian ng data sa isang tipaklong at magkaroon ng mga pananaw sa ganoong paraan - sa mga bagong cloud-native at sopistikadong mga sistema ng data, ang isang pagsisikap na kontrolin at pamahalaan at curate ang data upang makakuha ng mas tumpak at mahusay na paggamit ng mga data assets.