12 Mga pangunahing Tip para sa Agham ng Pagkatuto ng Data

May -Akda: Laura McKinney
Petsa Ng Paglikha: 3 Abril 2021
I -Update Ang Petsa: 1 Hulyo 2024
Anonim
Intermittent Fasting Guide para sa 2022 | Paano Mawalan ng Timbang ng Mabilis?
Video.: Intermittent Fasting Guide para sa 2022 | Paano Mawalan ng Timbang ng Mabilis?

Nilalaman


Pinagmulan: Artinspiring / Dreamstime.com

Takeaway:

Ang mga siyentipiko ng data ay malinaw na nangangailangan ng malakas na kasanayan sa matematika at coding, ngunit ang komunikasyon at iba pang malambot na kasanayan ay mahalaga din para sa tagumpay.

Ang mga siyentipiko ng data ay ranggo bilang pinakamahusay na trabaho para sa 2019 sa America sa Glassdoor. Sa pamamagitan ng isang panggitna base na suweldo ng $ 108,000 at isang ranggo ng kasiyahan sa trabaho na 4.3 sa 5, kasama ang isang makatarungang bilang ng mga pagbubukas na hinulaan, iyon ay hindi nakakagulat. Ang tanong ay: Ano ang dapat gawin ng isa upang makaraos upang maging kwalipikado para sa trabahong ito?

Upang malaman, hinahanap namin ang payo na ibinigay sa mga naghahanap upang makakuha ng sa track ng karera na ito. Karamihan ay bumababa sa mahirap na kasanayan sa pag-cod at matematika. Ngunit ang malakas na pagkalkula lamang nito ay hindi gupitin. Ang matagumpay na mga siyentipiko ng data ay kailangan ding magsalita sa mga taong negosyante sa kanilang sariling mga termino, na nanawagan para sa mga kakayahan na nauugnay sa malambot na kasanayan at pamumuno. (Upang malaman ang higit pa tungkol sa mga tungkulin ng isang siyentipiko ng data, tingnan ang Role ng Trabaho: Scientist ng Data.)


Pagbuo ng Educational Foundation: Tatlong Pangunahing Mga Tip

Si Drace Zhan, isang scientist ng data sa NYC Data Science Academy, ay binibigyang diin ang pangangailangan para sa isang pundasyong pang-edukasyon na kasama ang mga mahahalagang coding at matematika:

  1. R / Python + SQL. Kung wala kang mga kasanayan sa pag-cod, kailangan mo ng maraming kapangyarihan sa networking at iba pang mga lugar upang mapanghawakan ang kakulangan na ito. Nakita ko ang mga siyentipiko ng data na may mahinang matematika at kaunting karanasan sa domain ngunit lagi silang dinala ng isang malakas na kakayahang mag-code. Ang Python ay mainam ngunit ang R ay isang mahusay na tool sa pag-back back. Mas mainam na magkaroon ng pareho sa iyong arsenal. Napakahalaga rin ng SQL para sa isang Data Analyst.

  2. Malakas na kasanayan sa matematika. Ang pagkakaroon ng napakahusay na pag-unawa sa ilan sa mga karaniwang ginagamit na pamamaraan: mga pangkalahatang linear na modelo, punong desisyon, K-ibig sabihin, at istatistika na pagsusuri ay mas mahusay kaysa sa pagkakaroon ng isang malawak na larawan ng iba't ibang mga modelo o dalubhasa tulad ng RNN.

Iyon ang mga pangunahing kasanayan upang maitaguyod, bagaman ang ilang mga dalubhasa ay nagdaragdag sa kanila. Halimbawa, ang isang listahan ng KDnuggets ay nagsasama ng mga sangkap na coding na binanggit ni Zhan at nagdaragdag sa ilang iba pang mga kapaki-pakinabang na bagay na malaman sa teknikal na bahagi, kabilang ang platform ng Hadoop Apache Spark, data visualization, hindi nakaayos na data, pag-aaral ng makina at AI.


Ngunit kung kukuha kami ng aming mga pahiwatig mula sa isang survey sa mga pinaka-karaniwang ginagamit na tool na natukoy para magamit sa totoong buhay sa pamamagitan ng isang survey na Kaggle, nakakakuha kami ng medyo magkakaibang mga resulta. Tulad ng nakikita mo mula sa graph ng nangungunang 15 mga pagpipilian sa ibaba, ang Python, R at SQL ay madaling gumawa ng nangungunang tatlo, ngunit ang pang-apat ay ang mga notebook ng Jupyter, na sinundan ng TensorFlow, Amazon Web Services, Unix shell, Tableau, C / C ++, NoSQL , MATLAB / Octave at Java, ang nauna sa Hadoop at Spark. Ang isa pang karagdagan na maaaring sorpresa sa mga tao, ay ang Excel Data Mining ng Microsoft.

Larawan ng kagandahang-loob ni Kaggle

Kasama rin sa listahan ng KDnuggets ang isang tip tungkol sa pormal na edukasyon. Karamihan sa mga siyentipiko ng data ay nagtataglay ng mga advanced na degree: 46 porsyento ay may PhD, at 88 porsyento ang humahawak ng hindi bababa sa antas ng master. Ang undergraduate degree na mayroon sila ay karaniwang nahahati sa mga kaugnay na lugar. Halos isang ikatlo ang nasa matematika at istatistika, na kung saan ay ang pinakasikat para sa track ng karera na ito. Ang susunod na pinakasikat ay isang degree sa computer science, na hawak ng 19 porsyento, at engineering, ang pagpili ng 16 porsyento. Siyempre, ang mga teknikal na tool na partikular sa agham ng data ay madalas na hindi pinag-aralan sa mga programa ng degree ngunit sa mga dalubhasang kampo ng boot o sa pamamagitan ng mga online na kurso.

Higit sa Mga Kurso: Dalawang Dagdag na Mga Tip

Si Hank Yun, isang katulong sa pananaliksik sa Pulmonary Department sa Weill Cornell Medicine at mag-aaral sa NYC Data Science Academy, ay nagpapayo sa mga nagnanais na siyentipiko ng data na magplano sa paligid kung ano ang kanilang gagawing trabaho at makahanap ng isang mentor. Sinabi niya:

Walang Mga bug, Walang Stress - Ang Iyong Hakbang sa Hakbang Patnubay sa Paglikha ng Software na Pagbabago ng Buhay nang Walang Pagsira sa Iyong Buhay

Hindi mo mapagbuti ang iyong mga kasanayan sa pagprograma kapag walang nagmamalasakit sa kalidad ng software.

Huwag gawin ang pagkakamali na nagawa ko sa pagsasabi sa iyong sarili na alam mo ang agham ng data dahil kumuha ka ng kurso at nakatanggap ng isang sertipiko. Iyon ay isang mahusay na pagsisimula, ngunit kapag sinimulan mo ang pag-aaral, tandaan ang isang proyekto sa isip. Pagkatapos ay maghanap ka ng isang mentor sa bukid at magsimula kaagad ng isang proyekto ng pagkahilig! Kapag bago ka, hindi mo alam kung ano ang hindi mo alam kaya nakakatulong ito kapag may tao doon upang gabayan ka kung ano ang mahalaga sa iyo at kung ano ang hindi. Hindi mo nais na gumastos ng maraming oras sa pag-aaral nang walang ipinapakita para dito!

Alam ang Aling tool na Alisin sa Iyong Toolbox: Tip upang Manatili sa Unahan ng Kurba

Dahil sa pagkakaiba-iba sa pagraranggo ng mga kasangkapan sa agham ng data, ang ilan ay maaaring mag-alala tungkol sa kung ano ang itutuon. Si Celeste Fralick, ang pangunahing data ng siyentipiko sa kumpanya ng software ng seguridad na si McAfee, ay tinalakay ang isyu sa isang artikulo ng CIO na tumitingin sa mga mahahalagang kasanayan para sa isang siyentipiko ng data, na nagpapahayag, "Ang isang siyentipiko ng data ay kailangang manatili sa harap ng curve sa pananaliksik, pati na rin maunawaan kung ano ang teknolohiyang ilalapat kapag. "Iyon ay nangangahulugang hindi naiintindihan ng" 'sexy' at bago, kapag ang aktwal na problema "ay nangangailangan ng isang bagay na mas maraming run-of-the-mill. "Ang pagkaalam ng computational na gastos sa ecosystem, interpretability, latency, bandwidth, at iba pang mga kundisyon ng hangganan ng system - pati na rin ang kapanahunan ng customer - mismo ay tumutulong sa data ng siyentipiko na maunawaan kung ano ang maiangkop sa teknolohiya."

Mahahalagang Soft Skills: Isa pang Anim na Tip

Ang punto na pinagsasama ng Fralick ay nauugnay sa mga kasanayang nontechnical na hinihiling ng job scientist ng data. Iyon ang dahilan kung bakit kasama sa listahan ng KDnuggets ang apat na ito: pag-usisa ng intelektwal, pagtutulungan ng magkakasama, kasanayan sa komunikasyon at kasangkapang pang-negosyo. Kasama rin ni Zhan ang mga pangunahing malambot na kasanayan sa kanyang mga tip para sa mga siyentipiko ng data, na kinikilala ang "mga kasanayan sa komunikasyon" tulad ng KDnugget, ngunit ang paggamit ng "domain kadalubhasaan" sa lugar ng "negosyo acumen." Anumang tinawag na ito, tumutukoy ito sa praktikal na aplikasyon ng agham ng data sa negosyo. (Upang malaman ang higit pa tungkol sa mga kasanayan sa komunikasyon, tingnan ang Kahalagahan ng Mga Kasanayan sa Komunikasyon para sa Mga Propesyonal na Teknikal.)

Inalok ni Olivia Parr-Rud ang kanyang sariling pag-ikot dito, pagdaragdag ng dalawang higit pang malambot na kasanayan, na may diin sa papel ng pagkamalikhain, iginiit, "Sa palagay ko ang data ng agham bilang isang sining hangga't isang agham," isang bagay na nangangailangan ng pagguhit sa ang lakas ng magkabilang panig ng utak. "Maraming tao ang nag-uusap tungkol sa agham ng data bilang isang karera na pangunahing gumagamit ng kaliwang utak. Natagpuan ko na upang maging matagumpay, dapat gamitin ng mga siyentipiko ang kanilang buong utak. "

Ipinaliwanag niya na ang pagsulong sa larangan ay nangangailangan ng hindi lamang kasanayan sa teknikal kundi pagkamalikhain at pangitain na kinakailangan para sa pamumuno:

Karamihan sa mga gawain sa kaliwa-utak / linear ay maaaring awtomatiko o out-sourced. Upang mag-alok ng isang mapagkumpitensyang gilid bilang mga siyentipiko ng data, dapat nating makilala ang mga pattern at synthesize ang malaking dami ng impormasyon gamit ang magkabilang panig ng ating utak. At dapat tayong maging makabagong mga nag-iisip. Marami sa mga pinakamahusay na kinalabasan ang resulta mula sa pagsasama ng kaliwa at kanang utak.

Binigyang diin din niya kung bakit mahalaga ang pakikipag-usap ng isang pangitain:

Bilang mga siyentipiko ng data, ang aming layunin ay ang paggamit ng data upang matulungan ang aming mga kliyente na mapalaki ang kanilang kita. Hindi naiintindihan ng karamihan sa mga executive ang ginagawa natin o kung paano natin ito ginagawa. Kaya kailangan nating mag-isip tulad ng mga pinuno at ibigay ang aming mga natuklasan at rekomendasyon sa wika na nauunawaan at pinagkakatiwalaan ng ating mga stakeholder.

Ang Dosenang Data

Isinasama ng mga pangunahing tip ang isang mas malaking bilang ng mga teknikal na tool, kasanayan, at kakayahan, pati na rin ang hindi gaanong natukoy na mga katangian tulad ng pagiging angkop para sa pagkamalikhain at pamumuno. Sa huli, hindi lamang ito laro. Tulad ng data ng agham ay hindi lamang tungkol sa paglikha ng mga modelo sa isang vacuum ngunit ang pagkakaroon ng mga praktikal na aplikasyon upang malutas ang mga problema sa totoong buhay para sa mga negosyo, ang mga magtatagumpay sa larangan ay hindi dapat lamang makabisado ang teknolohiya ngunit malaman ang kanilang domain ng negosyo at maunawaan ang mga pangangailangan ng ang iba't ibang mga kasapi ng koponan sa trabaho.