Cette thèse propose de s’intéresser au problème de la classification d’images, où l’objectif est de prédire si une catégorie sémantique (e.g. voiture) est présente dans l’image, à partir de son contenu visuel. Aujourd’hui, avec l’utilisation massive des smartphones et des réseaux sociaux, les images sont omniprésentes dans notre vie quotidienne. Pour traiter et exploiter cette masse de donnée, il est important d’avoir des systèmes de reconnaissance, pour analyser et interpréter le contenu visuel des images. Nous proposons plus particulièrement dans ce manuscrit d’apprendre des représentations localisées avec des méthodes d’apprentissage faiblement supervisé. Dans le cadre de la classification d’images, ce problème peut être vu comme un problème de pooling sur des régions. A partir du formalisme du Multiple Instance Learning, nous avons proposé SyMIL, qui est un modèle symétrique pour la classification binaire de sacs. SyMIL utilise une fonction de pooling qui recherche les instances discriminantes pour chacune des classes. Ensuite, nous avons généralisé SyMIL à des problèmes de prédiction structurée, en introduisant MANTRA. Ce modèle recherche des régions discriminatives pour la classe, mais aussi des régions montrant l’absence de la classe (preuve négative). Par la suite, nous avons intégré ce modèle de preuve négative dans une architecture profonde, ainsi qu’une extension du pooling à plusieurs régions. Dans la dernière partie, nous avons proposé une nouvelle architecture qui apprend plusieurs modalités par classe pour avoir de meilleure prédiction. Nous avons aussi proposé un modèle unifié pour le pooling, et une comparaison expérimentale sur 6 ensemble de données