De nos jours, les contenus vidéos sont omniprésents grâce à Internet et les smartphones, ainsi que les médias sociaux. De nombreuses applications de la vie quotidienne, telles que la vidéo surveillance et la description de contenus vidéos, ainsi que la compréhension de scènes visuelles, nécessitent des technologies sophistiquées permettant d'analyser et interpréter automatiquement de grandes quantités de vidéos. Dans cette thèse, nous nous intéressons à la reconnaissance d'actions dans les vidéos, c.a.d au problème d'attribution de catégories d'actions aux séquences vidéos. Cette tâche est considérée comme une étape clé pour construire la prochaine génération des systèmes visuels. Nous l'abordons avec les méthodes d'intelligence artificielle, sous le paradigme de l'apprentissage automatique et de l'apprentissage profond, notamment les réseaux de neurones convolutifs.
Les réseaux de neurones convolutifs actuels sont de plus en plus profonds, plus gourmands en données et leur succès est tributaire de l'abondance des données d'entraînement étiquetées. Les réseaux de neurones convolutifs s'appuient également sur le pooling qui réduit la dimensionnalité des couches de sortie (et donc atténue leur sensibilité au manque de données étiquetées); cependant, ce processus peut diluer l'information des couches convolutives et affecter le pouvoir discriminant des représentations vidéos obtenues, notamment lorsque les catégories d'actions apprises sont de granularités fines. Dans la première partie de cette thèse, nous introduisons une méthode d'agrégation et de pooling hiérarchique basée sur une pyramide temporelle, qui permet de contrôler la granularité des représentations apprises par rapport à la granularité réelle des catégories d'actions. En plus, les réseaux de neurones convolutifs sont essentiellement conçus pour traiter des données vectorielles (telles que les images fixes) mais leur extension aux données non vectorielles et semi-structurées (à savoir des graphes de taille variable, ayant une forte variation topologique, etc.) reste un défi majeur. Dans la deuxième partie de cette thèse, nous introduisons un réseau de neurones convolutif sur les graphes basé sur une décomposition spectrale des graphes Laplaciens. La méthode proposée consiste à apprendre des Laplaciens de graphes sous forme de combinaisons convexes d'autres Laplaciens élémentaires ou chacun est dédié à une topologie particulière des graphes en entrée. Par la suite, nous introduisons un opérateur de pooling, sur les graphes, qui est invariant par permutation des nœuds. Tous les modèles proposés sont évalués sur des jeux de données standards et les résultats obtenus sont compétitifs avec ceux de l'état de l'art.
Mots clés: Apprentissage de Représentations Vidéos, Apprentissage d'Agrégations Multiples, Pooling Hiérarchique, Construction de Graphes, Pooling et Convolution sur les Graphes, Apprentissage Profond Géométrique