Paano nakakatulong ang max pooling na gawing mahusay ang AlexNet para sa pagproseso ng imahe? googletag.cmd.push (function () {googletag.display (div-gpt-ad-1562928221186-0);}); T:

Nilalaman

T:

Paano nakakatulong ang max pooling na gawing mahusay ang AlexNet para sa pagproseso ng imahe?

A:

Sa AlexNet, isang makabagong koneksyon na neural network, ang konsepto ng max pooling ay ipinasok sa isang kumplikadong modelo na may maramihang mga convolutional layer, bahagyang upang matulungan ang umaangkop at upang mai-streamline ang gawain na ginagawa ng neural network sa pakikipagtulungan sa mga imahe na tinatawag ng mga eksperto. isang "hindi linear downsampling diskarte."

Ang AlexNet ay malawak na itinuturing bilang isang mahusay na mahusay na CNN, na nanalo ng 2012 ILSVRC (ImageNet Large-Scale Visual Recognition Hamon), na kung saan ay nakikita bilang isang kaganapan ng tubig para sa pagkatuto ng makina at pag-unlad sa network ng neural (ang tawag dito ay "Olympics" ng pangitain sa computer ).

Sa balangkas ng network, kung saan ang pagsasanay ay nahahati sa dalawang GPU, mayroong limang convolutional layer, tatlong ganap na konektado na mga layer at ilang pagpapatupad ng max pooling.

Mahalaga, ang max pooling ay kukuha ng "pool" ng mga output mula sa isang koleksyon ng mga neuron at inilalapat ang mga ito sa mga halaga ng kasunod na layer. Ang isa pang paraan upang maunawaan ito ay ang isang diskarte sa max pooling ay maaaring pagsama-samahin at gawing simple ang mga halaga para sa kapakanan ng angkop na modelo.

Ang Max pooling ay makakatulong sa pagkalkula ng mga gradient. Maaaring sabihin ng isa na "binabawasan nito ang pagkarga ng computation" o "pag-urong ng sobrang pag-aayos" - sa pamamagitan ng pagbagsak, pag-maximize ang pagsali sa tinatawag na "dimensionality na pagbawas."

Ang pagbabawas ng dimensionality ay nauukol sa isyu ng pagkakaroon ng isang overcomplicated na modelo na mahirap patakbuhin sa isang neural network. Isipin ang isang kumplikadong hugis, na may maraming maliliit na mga contour, at bawat maliit na linya na ito ay kinakatawan ng isang punto ng data. Sa pagbabawas ng dimensionality, tinutulungan ng mga inhinyero ang programa sa pag-aaral ng makina upang "mag-zoom out" o mag-sample ng mas kaunting mga puntos ng data, upang gawing mas simple ang modelo. Iyon ang dahilan kung kung titingnan mo ang isang max pooling layer at ang output nito, maaari mong makita kung minsan ang isang mas simpleng pixelation na naaayon sa isang diskarte sa pagbabawas ng dimensionality.

Gumagamit din ang AlexNet ng isang function na tinatawag na mga naayos na linear unit (ReLU), at ang max pooling ay maaaring maging pantulong sa diskarteng ito sa pagproseso ng mga imahe sa pamamagitan ng CNN.

Ang mga eksperto at mga kasangkot sa proyekto ay naghatid ng masaganang visual models, equation at iba pang mga detalye upang maipakita ang tukoy na pagtatayo ng AlexNet, ngunit sa isang pangkalahatang kahulugan, maaari mong isipin ang tungkol sa max pooling bilang coalescing o pagpapatatag ng output ng maraming mga artipisyal na neuron. Ang diskarte na ito ay bahagi ng pangkalahatang pagbuo ng CNN, na kung saan ay naging magkasingkahulugan sa pangitain na pagputol ng makina at pag-uuri ng imahe.