Pag-aaral ng Pagpapatibay

Video.: PAGPAPALAKAS AT PAGPAPATATAG NG KALAMNAN (PE5-Q2-Lesson1-Week1)

Nilalaman

Kahulugan - Ano ang ibig sabihin ng Reinforcement Learning Learning?
Isang Panimula sa Microsoft Azure at ang Microsoft Cloud | Sa buong gabay na ito, malalaman mo kung ano ang lahat ng cloud computing at kung paano makakatulong ang Microsoft Azure sa iyo upang lumipat at patakbuhin ang iyong negosyo mula sa ulap.
Ipinapaliwanag ng Techopedia ang Pag-aaral ng Reinforcement

Kahulugan - Ano ang ibig sabihin ng Reinforcement Learning Learning?

Ang pag-aaral ng pagpapatibay, sa con ng artipisyal na katalinuhan, ay isang uri ng dynamic na programming na nagsasanay sa mga algorithm gamit ang isang sistema ng gantimpala at parusa.

Ang isang algorithm ng pag-aaral ng pampalakas, o ahente, ay natututo sa pamamagitan ng pakikipag-ugnay sa kapaligiran nito. Ang ahente ay tumatanggap ng mga gantimpala sa pamamagitan ng paggawa ng tama at mga parusa para sa hindi maayos na pagganap. Natuto ang ahente nang walang interbensyon mula sa isang tao sa pamamagitan ng pag-maximize ng gantimpala nito at mabawasan ang parusa nito.

Isang Panimula sa Microsoft Azure at ang Microsoft Cloud | Sa buong gabay na ito, malalaman mo kung ano ang lahat ng cloud computing at kung paano makakatulong ang Microsoft Azure sa iyo upang lumipat at patakbuhin ang iyong negosyo mula sa ulap.

Ipinapaliwanag ng Techopedia ang Pag-aaral ng Reinforcement

Ang pag-aaral ng pagpapatibay ay isang diskarte sa pag-aaral ng makina na kinasihan ng sikolohiya ng pag-uugali. Ito ay katulad ng kung paano natututo ang isang bata na magsagawa ng isang bagong gawain. Ang pag-aaral ng pagpapalakas ng katumpakan ay naiiba sa iba pang mga diskarte sa pag-aaral ng makina na ang algorithm ay hindi malinaw na sinabi kung paano magsagawa ng isang gawain, ngunit gumagana sa pamamagitan ng problema sa sarili.

Bilang isang ahente, na maaaring maging isang kotse na nagmamaneho sa sarili o isang programa na naglalaro ng chess, nakikipag-ugnay sa kapaligiran nito, ay tumatanggap ng isang gantimpala na estado depende sa kung paano ito gumaganap, tulad ng pagmamaneho patungo sa patutunguhan o nanalong isang laro. Sa kabaligtaran, ang ahente ay tumatanggap ng parusa para sa hindi tama, tulad ng pagpunta sa kalsada o pag-checkmated.

Ang ahente sa paglipas ng panahon ay gumagawa ng mga pagpapasya upang ma-maximize ang gantimpala nito at mabawasan ang parusa nito gamit ang dynamic na programming. Ang bentahe ng diskarte na ito sa artipisyal na katalinuhan ay nagbibigay-daan sa isang programa ng AI na matuto nang walang isang spelling ng programmer kung paano dapat gampanan ng isang ahente ang gawain.