Some contributions related to data clustering : robustness, high-dimensionality and intrusion detection - Archive ouverte HAL Access content directly
Theses Year : 2022

Some contributions related to data clustering : robustness, high-dimensionality and intrusion detection

Quelques problématiques autour du clustering : robustesse, grande dimension et détection d'intrusion

(1)
1
Edouard Genetay
  • Function : Author
  • PersonId : 1194045
  • IdRef : 259738069

Abstract

Clustering aims at grouping observed data into different subsets sharing similar properties. Most often this clustering is done through the optimization of a criterion chosen in advance. In this CIFRE thesis, we have studied clustering under three different aspects.In a first part, we propose a robust estimation method of K centroids based on the so-called "K-means" criterion. We also propose a robust initialization method for the procedure. On the one hand, the robustness of the proposed procedures has been tested by numerous numerical simulations. On the other hand, we have shown a theorem giving the rate of convergence of an idealized estimator in the presence of outliers and a theorem giving the breakdown point of the method.In a second part, we place ourselves in the framework of a balanced mixture of two isotropic Gaussians, centered at the origin, in order to provide the first theoretical analysis of a clustering estimator based on a conditional entropy criterion. We show that the criterion is locally convex, offering on the one hand fast learning rates and on the other hand an oracle inequality in high dimension when the mean separation vector is sparse.In a third part, more practical and devoted to graphs in cybersecurity, we investigate whether the evolution of the number of clusters obtained by a modularity optimization method can reveal anomalies caused by an intrusion in a computer system.
Le clustering vise à regrouper les données observées en différents sous-ensembles partageant des propriétés similaires. Le plus souvent ce regroupement se fait via l’optimisation d’un critère choisi à l’avance. Dans cette thèse CIFRE, nous avons étudié le clustering sous trois aspects différents.Dans une première partie, nous proposons une méthode d’estimation robuste de K centroïdes basé sur le critère, dit des « K-means ». Nous proposons également une méthode d’initialisation robuste de la procédure. D’une part, la robustesse des procédures proposées a été testée par de nombreuses simulations numériques. D’autre part, nous avons montré un théorème donnant la vitesse de convergence d’un estimateur idéalisé en présence d’outliers ainsi qu’un théorème donnant le breakdown point de la méthode. Dans une seconde partie nous nous plaçons dans le cadre d’un mélange équilibré de deux gaussiennes isotropes, centré en l’origine, afin de fournir la première analyse théorique d’un estimateur de clustering basé sur un critère d’entropie conditionnelle. Nous montrons que le critère est localement convexe, offrant d’une part des vitesses d’apprentissage rapide et d’autre part une inégalité oracle en grande dimension, lorsque le vecteur moyen de séparation est sparse.Dans une troisième partie, plus pratique et consacrée à des graphes en cybersécurité, nous regardons si l’évolution du nombre de clusters obtenus par une méthode d’optimisation de modularité peut révéler des anomalies causées par une intrusion dans un système informatique.
Fichier principal
Vignette du fichier
These_Edouard_GENETAY_finale.pdf (7.33 Mo) Télécharger le fichier
Origin : Version validated by the jury (STAR)

Dates and versions

tel-03871506 , version 1 (25-11-2022)

Identifiers

  • HAL Id : tel-03871506 , version 1

Cite

Edouard Genetay. Quelques problématiques autour du clustering : robustesse, grande dimension et détection d'intrusion. Mathématiques générales [math.GM]. Ecole Nationale de la Statistique et de l'Analyse de l'Information [Bruz], 2022. Français. ⟨NNT : 2022NSAIM001⟩. ⟨tel-03871506⟩
0 View
0 Download

Share

Gmail Facebook Twitter LinkedIn More