Comment la mise en commun maximale permet-elle à AlexNet de devenir une technologie de pointe pour le traitement des images? googletag.cmd.push (function () {googletag.display (div-gpt-ad-1562928221186-0);}); Q:

Contenu

Q:
UNE:

Q:

Comment la mise en commun maximale permet-elle à AlexNet de devenir une technologie de pointe pour le traitement des images?

UNE:

Dans AlexNet, un réseau neuronal convolutionnel innovant, le concept de pooling maximum est inséré dans un modèle complexe comportant plusieurs couches convolutives, en partie pour faciliter l’adaptation et rationaliser le travail effectué par le réseau neuronal pour travailler avec des images avec ce que les experts appellent. une «stratégie de sous-échantillonnage non linéaire».

AlexNet est largement considéré comme un très bon CNN, après avoir remporté le défi ILSVRC (Défi de reconnaissance visuelle à grande échelle ImageNet) de 2012, qui est considéré comme un événement décisif pour l'apprentissage automatique et le progrès du réseau neuronal (certains l'appellent les «Olympiques» de la vision par ordinateur ).

Dans le cadre du réseau, où la formation est divisée en deux GPU, il y a cinq couches de convolution, trois couches entièrement connectées et une implémentation maximale de la mise en pool.

La mise en pool maximale prend essentiellement le «pool» de sorties d’un ensemble de neurones et les applique aux valeurs d’une couche ultérieure. Une autre façon de comprendre cela est qu’une approche de pooling maximum peut consolider et simplifier les valeurs afin d’ajuster le modèle de manière plus appropriée.

La mise en commun maximale peut aider à calculer les gradients. On pourrait dire que cela «réduit la charge de calcul» ou «réduit la sur-adaptation» - en réduisant l’échantillonnage, la mise en commun maximale entraîne ce que l’on appelle la «réduction de dimensionnalité».

La réduction de la dimensionnalité aborde la question de la mise en place d’un modèle trop compliqué, difficile à exploiter via un réseau de neurones. Imaginez une forme complexe, avec de nombreux petits contours déchiquetés et chaque petit bout de cette ligne représentée par un point de données. Grâce à la réduction de la dimensionnalité, les ingénieurs aident le programme d’apprentissage automatique à effectuer un zoom arrière ou à échantillonner moins de points de données, afin de simplifier le modèle dans son ensemble. C’est pourquoi, si vous regardez une couche de pooling maximum et sa sortie, vous pouvez parfois voir une pixellisation plus simple correspondant à une stratégie de réduction de dimensionnalité.

AlexNet utilise également une fonction appelée unités linéaires rectifiées (ReLU), et la mise en commun maximale peut être complémentaire de cette technique pour le traitement des images via CNN.

Les experts et les personnes impliquées dans le projet ont fourni de nombreux modèles visuels, équations et autres détails illustrant la construction spécifique d’AlexNet, mais de manière générale, vous pouvez envisager la mise en commun maximale en tant que coalescence ou consolidation de la sortie de plusieurs neurones artificiels. Cette stratégie fait partie de la construction globale de CNN, qui est devenu synonyme de classification de pointe en vision et en vision artificielle.