7 Mga Hakbang para sa Pag-aaral ng Data Pagmimina at Data Science

May -Akda: Eugene Taylor
Petsa Ng Paglikha: 12 Agosto. 2021
I -Update Ang Petsa: 22 Hunyo 2024
Anonim
SCP-4730 Earth, Crucified class class keter | extradimensional scp
Video.: SCP-4730 Earth, Crucified class class keter | extradimensional scp

Nilalaman


Pinagmulan: Paul Fleet / Dreamstime.com

Takeaway:

Ang agham ng data ay pinakamahusay na natutunan sa pamamagitan ng paggawa, ngunit isang mahusay na pundasyon ng mga istatistika at mga bagay sa pag-aaral ng machine din.

Madalas akong tinanong kung paano matutunan ang data mining at data science. Narito ang aking buod.

Maaari mong pinakamahusay na malaman ang pagmimina ng data at agham ng data sa pamamagitan ng paggawa, kaya simulan ang pagsusuri ng data sa lalong madaling panahon! Gayunpaman, huwag kalimutan na malaman ang teorya, dahil kailangan mo ng isang mahusay na istatistika at pundasyon ng pag-aaral ng makina upang maunawaan kung ano ang iyong ginagawa at makahanap ng totoong nuggets ng halaga sa ingay ng malaking data.

Narito ang pitong hakbang para sa pag-aaral ng data mining at data science. Kahit na bilang sila, maaari mong gawin ang mga ito nang magkatulad o sa ibang pagkakasunud-sunod.

  1. Mga Wika: Alamin ang R, Python at SQL
  2. Mga tool: Alamin kung paano gamitin ang mga tool sa pagmimina at paggunita ng data
  3. mga libro: Basahin ang mga panimulang aklat upang maunawaan ang mga pangunahing kaalaman
  4. Edukasyon: Panoorin ang mga webinar, kumuha ng mga kurso at isaalang-alang ang isang sertipiko o isang degree sa agham ng data (Magbasa nang higit pa sa Ben Loricas Paano Pag-aralin ang isang Scientist ng Data.)
  5. Data: Suriin ang magagamit na mga mapagkukunan ng data at makahanap ng isang bagay doon
  6. Mga kumpetisyon: Makilahok sa mga kumpetisyon sa pagmimina ng data
  7. Makipag-ugnay sa iba pang mga siyentipiko ng data, sa pamamagitan ng mga social network, grupo at mga pagpupulong

Sa artikulong ito, gumagamit ako ng data sa pagmimina at agham ng data. Tingnan ang aking pagtatanghal, Pangkalahatang-ideya ng Industriya ng Analytics, kung saan titingnan ko ang ebolusyon at katanyagan ng iba't ibang mga termino tulad ng mga istatistika, pagtuklas ng kaalaman, pagmimina ng data, mahuhusay na analytics, agham ng data at malaking data.


1. Mga Wika sa Pag-aaral

Ang isang kamakailang KDnuggets Poll ay natagpuan na ang pinakasikat na wika para sa pagmimina ng data ay R, Python, at SQL. Maraming mga mapagkukunan para sa bawat isa, halimbawa:

  • Libreng e-book sa Data Science na may R
  • Pagsisimula Sa Python Para sa Agham ng Data
  • Python para sa Pagsusuri ng Data: Agile Tools para sa Real World Data
  • Isang kailangang-kailangan na Python: Data Sourcing sa Data Science
  • W3 Mga Paaralang Pag-aaral ng SQL

2. Mga tool: Data Mining, Data Science, at Visualization Software

Maraming mga tool ng pagmimina ng data para sa iba't ibang mga gawain, ngunit mas mahusay na malaman kung paano gumamit ng isang data sa pagmimina suite na sumusuporta sa buong proseso ng pagsusuri ng data. Maaari kang magsimula sa mga open-source (libre) na mga tool tulad ng KNIME, RapidMiner at Weka.

Gayunpaman, para sa maraming mga trabaho sa analytics na kailangan mong malaman ang SAS, na siyang nangungunang komersyal na tool at malawakang ginagamit. Iba pang mga tanyag na analytics at data mining software ay kinabibilangan ng MATLAB, StatSoft STATISTICA, Microsoft SQL Server, Tableau, IBM SPSS Modeler, at Rattle.


Walang Mga bug, Walang Stress - Ang Iyong Hakbang sa Hakbang Patnubay sa Paglikha ng Software na Pagbabago ng Buhay nang Walang Pagsira sa Iyong Buhay

Hindi mo maaaring mapabuti ang iyong mga kasanayan sa pag-programming kapag walang nagmamalasakit sa kalidad ng software.

Ang Visualization ay isang mahalagang bahagi ng anumang pagsusuri ng data. Alamin kung paano gamitin ang Microsoft Excel (mabuti para sa maraming mas simpleng gawain), R graphics, (lalo na ggplot2), at din sa Tableau - isang mahusay na pakete para sa paggunita. Ang iba pang mahusay na mga tool sa paggunita ay kinabibilangan ng TIBCO Spotfire at Miner3D.

3. mga libro

Maraming mga data ng pagmimina ng data at data science na magagamit, ngunit maaari mong suriin ang mga ito:

  • Pagmimina at Pagtatasa ng Data: Mga Pangunahing Konsepto at Algorithms, libreng pag-download ng PDF (draft), nina Mohammed Zaki at Wagner Meira Jr.
  • Pagmimina ng Data: Practical Machine Learning Tools at Techniques, nina Ian Witten, Eibe Frank at Mark Hall, mula sa mga may-akda ng Weka, at malawak na ginagamit ang Weka sa mga halimbawa
  • Ang Mga Elementong Learning Learning, Data Mining, Inference at Prediction, ni Trevor Hastie, Robert Tibshirani, Jerome Friedman. Ang isang mahusay na pagpapakilala para sa oriented sa matematika
  • LIONbook: Pag-aaral at Pag-optimize ng Marunong, nina Roberto Battiti at Mauro Brunato, malayang magagamit sa Web, kabanata ayon sa kabanata
  • Pagmimina ng Massive Datasets Book, ni A. Rajaraman, J. Ullman
  • Ang libro ng StatSoft Electronic Statistics (libre), ay may kasamang maraming mga paksa sa pagmimina ng data

4. Edukasyon: Mga Webinar, Kurso, Sertipiko at Degree

Maaari kang magsimula sa pamamagitan ng panonood ng ilan sa maraming mga libreng webinar at webcasts sa pinakabagong mga paksa sa analytics, malaking data, pagmimina ng data at agham ng data.

Marami ring mga online na kurso, maikli at mahaba, marami sa kanila ang libre. (Tingnan ang KDnuggets direktoryo ng edukasyon sa edukasyon.)

Suriin ang partikular na mga kursong ito:

  • Ang Learning sa Machine, sa Coursera, na itinuro ni Andrew Ng
  • Ang pag-aaral mula sa Data sa edX, na itinuro ng propesor ng Caltech na si Yaser Abu-Mostafa
  • Buksan ang Online na Kurso sa Applied Data Science, mula sa Syracuse iSchool
  • Ang Pagmimina ng Data kasama ang Weka, libreng kurso sa online
  • Suriin din ang mga libreng online na slide mula sa aking Data Mining Course, isang semester na mahaba ang pagpapakilala na kurso sa pagmimina ng data

Sa wakas, isaalang-alang ang pagkuha ng mga sertipiko sa data mining, at data science o advanced degree, tulad ng masters degree sa data science.

5. Data

Kakailanganin mo ang data upang pag-aralan - tingnan ang direktoryo ng KDnuggets ng Datasets para sa Data Mining, kasama ang:

  • Pamahalaan, pederal, estado, lungsod, lokal at pampublikong data site at portal
  • Mga Data ng Data, hub, merkado, platform, portal at mga search engine
  • Libreng mga pampublikong datasets

6. Kumpetisyon

Muli, mas mahusay mong matutunan sa pamamagitan ng paggawa, kaya lumahok sa mga kumpetisyon sa Kaggle. Magsimula sa mga kumpetisyon ng nagsisimula, tulad ng Pagsula ng Titanic Survival Gamit Pagkatuto ng Machine.

7. Pakikipag-ugnay: Mga Pulong, Mga Grupo, at Mga Network sa Panlipunan

Maaari kang sumali sa maraming mga pangkat ng peer. Tingnan ang Nangungunang 30 Mga Grupo ng LinkedIn para sa Analytics, Malaking Data, Pagmimina ng Data, at Data Science.

Ang AnalyticBridge ay isang aktibong komunidad para sa analytics at agham ng data.

Maaari kang dumalo sa ilan sa maraming mga Pulong at Kumperensya sa Analytics, Malaking Data, Pagmimina ng Data, Data Agham, at Discovery ng Kaalaman.

Gayundin, isaalang-alang ang pagsali sa ACM SIGKDD, na nag-aayos ng taunang kumperensya ng KDD - ang nangungunang kumperensya ng pananaliksik sa larangan.

Ang artikulong ito ay tambo mula sa KDNuggets.com. Ginamit ito nang may pahintulot mula sa may-akda.