Ton CRM regorge de contacts, de l'historique des commandes de ta boutique en ligne, de données sur les campagnes marketing, de tickets d'assistance et peut-être même de feuilles Excel créées par différentes équipes. Tout y est. Tout est utile. Mais souvent, tout est mélangé.
Pour de nombreuses PME, le problème n'est pas le manque de données. C'est le manque de structure. Un responsable commercial souhaite identifier les clients qui ont des habitudes d'achat similaires. Un responsable des opérations souhaite voir quels produits se vendent ensemble. Une équipe financière souhaite distinguer les comportements normaux de ceux qui méritent une attention particulière. Sans méthode claire, les données restent un simple stock d'informations au lieu de devenir un guide.
C'est là qu'intervientle regroupement hiérarchique agglomératif. Il s'agit d'une technique d'apprentissage automatique qui organise les observations en groupes en construisant une hiérarchie de bas en haut. Elle n'est pas récente. Il s'agit d'une technique bien établie : introduite dans les années 1960, elle a été appliquée en Italie dès 1985 dans le cadre d'un projet portant sur des données socio-économiques qui a réduit 50 régions à 7 clusters principaux (référence indiquée ici). Cela est important car cela montre une chose simple : lorsque les données semblent chaotiques, le clustering hiérarchique peut révéler une structure lisible.
Si vous souhaitez avoir une vision plus globale de l'utilisation des données dans l'entreprise, ce guidesur l'analyse des données d'entreprise constitue un excellent complément.
Lundi matin. Le responsable commercial ouvre le CRM, le service marketing examine des campagnes dont les résultats varient considérablement, et le service logistique signale des produits dont la rotation est imprévisible. Les données sont là, mais il manque une vue d'ensemble utile pour prendre des décisions.
C'est là qu'un dirigeant de PME commence à se poser les bonnes questions. Quels clients ont réellement des comportements similaires ? Quels produits méritent une stratégie distincte ? Quels sites ou secteurs d'activité doivent être gérés selon des logiques différentes, même s'ils figurent aujourd'hui tous dans le même rapport ?
Le regroupement hiérarchique agglomératif permet de transformer ce désordre en une structure lisible. Au lieu d'imposer d'emblée des catégories définies a priori, il organise les éléments en fonction de leurs similitudes et montre comment les groupes se forment étape par étape. Le résultat n'est pas seulement un exercice statistique. C'est un outil concret pour la segmentation commerciale, la définition des priorités opérationnelles et les choix de positionnement.
Pour une entreprise, l'important n'est pas de connaître le nom de l'algorithme. L'important est de bien utiliser trois leviers pratiques : choisir le lien le plus adapté à son cas, lire un dendrogramme sans se perdre dans les détails techniques et comprendre où segmenter la hiérarchie pour obtenir des clusters utiles à l'activité.
C'est là que réside la différence entre une approche théorique et une utilisation pratique du clustering.
Si vous travaillez déjà sur la segmentation, le reporting ou l'analyse des données d'entreprise afin de prendre des décisions plus rapides et plus concrètes, cette méthode vous aide à mettre en évidence des relations qui restent cachées dans les feuilles Excel. Et grâce à des outils comme ELECTE, même une PME ne disposant pas d'une équipe de data scientists peut intégrer cette approche dans ses processus quotidiens, de l'analyse des données à la prise de décision opérationnelle.
Le regroupement hiérarchique par agrégation commence par la base. Chaque enregistrement forme initialement un groupe distinct. L'algorithme compare ensuite les similitudes, fusionne les deux éléments les plus proches et répète cette étape jusqu'à ce qu'une hiérarchie complète soit établie.
Pour une PME, cette approche est utile car elle reflète un processus décisionnel réaliste. Au début, on ne sait pas encore de combien de segments on a réellement besoin. On sait seulement que certains clients ont des comportements similaires, que certains produits présentent des tendances comparables et que certains domaines d'activité méritent d'être examinés ensemble. Le regroupement agglomératif organise ces relations sans nous obliger à fixer d'emblée un nombre de groupes.

Le fonctionnement est simple :
C'est là qu'un point source de confusion apparaît souvent. L'algorithme ne renvoie pas immédiatement « les 4 clusters appropriés » ou « les 6 segments corrects ». Il établit d'abord une carte des proximités. La décision quant au nombre de groupes à conserver intervient ensuite, lorsque vous interprétez cette hiérarchie en fonction de l'objectif commercial.
Un exemple permettra de mieux comprendre. Si vous analysez votre portefeuille de clients, vous pourriez constater que certains clients se ressemblent par leur fréquence d'achat, d'autres par leur valeur moyenne, et d'autres encore par leur saisonnalité. Le regroupement par agglomération ne vous oblige pas à choisir immédiatement le niveau de détail. Il vous permet de visualiser à la fois les micro-groupes, utiles pour des campagnes ciblées, et les macro-segments, utiles pour définir les budgets, les services et les priorités commerciales.
La différence pratique par rapport à des méthodes telles que k-means est simple. Avec k-means, vous devez d'abord décider du nombre de clusters que vous souhaitez obtenir. Avec le regroupement hiérarchique agglomératif, vous construisez une hiérarchie et vous choisissez ensuite à quel niveau vous souhaitez vous arrêter.
Pour un manager, cela change beaucoup la donne. Cela signifie pouvoir partir d'une question ouverte, et non d'une réponse présupposée. Si l'équipe commerciale soupçonne l'existence de différents profils de clients mais ne sait pas encore combien il y en a, cette méthode offre une perspective plus utile pour discuter d'une stratégie.
Elle plaît aussi pour une autre raison. Le résultat est clair. On ne se contente pas d'attribuer des étiquettes finales aux enregistrements, mais on dispose d'un parcours qui montre comment les groupes se forment étape par étape. C'est précisément cette structure hiérarchique qui rend cette méthode intéressante pour la prise de décision en entreprise, car elle relie l'analyse statistique à un choix concret : où il est judicieux de séparer les groupes pour obtenir des informations exploitables.
Règle pratique : utilisez le regroupement hiérarchique lorsque vous souhaitez explorer la structure des données avant de définir des segments opérationnels stables.
Si vous souhaitez comparer cette approche à d'autres algorithmes d'apprentissage automatique destinés à résoudre différents problèmes d'entreprise, il est judicieux de les évaluer en fonction de la décision que vous devez prendre, et pas seulement de la technique utilisée.
Deux entreprises peuvent utiliser le même algorithme et obtenir des segmentations très différentes. La raison en est presque toujours la suivante : le choix de la manière de mesurer la distance et de déterminer quels groupes fusionner.

Pour un dirigeant de PME, il ne s'agit pas là d'une subtilité technique. C'est un choix qui influe sur le résultat d'exploitation. Cela peut déboucher sur des groupes pertinents pour les campagnes commerciales et la tarification, ou au contraire sur des groupes peu clairs que l'équipe ne parvient pas à exploiter.
La métrique de distance sert à mesurer le degré de divergence entre deux observations. Que vous analysiez des clients, des produits ou des points de vente, c'est la règle selon laquelle l'algorithme compare les profils.
Les plus courantes sont :
C'est là qu'une erreur fréquente se produit. Si une variable a une amplitude bien plus grande que les autres, elle finira par dominer le calcul de la distance. En pratique, le regroupement ne tiendra compte pratiquement que de cette colonne. C'est pourquoi, avant de choisir la méthode de regroupement, il est préférable de vérifier si les données ont été normalisées.
Le couplage intervient ensuite. Il ne compare pas deux points individuels, mais deux groupes déjà formés.
Voici une bonne analogie : la métrique détermine la manière dont on mesure la distance entre deux magasins sur une carte. Le lien détermine la manière dont on évalue la distance entre deux chaînes de magasins entières. Cela change beaucoup de choses.
Les principales méthodes sont les suivantes :
| Méthode de liaison | Comment ça marche | Pro | Contre | Idéal pour |
|---|---|---|---|---|
| Liaison simple | Utilise la distance minimale entre les points de deux grappes | Capture des connexions progressives | Cela peut créer des grappes « en chaîne » peu compactes | Modèles étroitement liés, exploration préliminaire |
| Liaison complète | Utilise la distance maximale entre les points de deux grappes | Génère des grappes plus compactes | Cela risque d'éloigner des groupes qui sont naturellement proches | Des segmentations où l'homogénéité est essentielle |
| Lien moyen | Calculer la moyenne des distances entre les points des deux grappes | Un bon compromis | Moins facile à expliquer aux responsables opérationnels | Analyses équilibrées |
| Ward | Réduit au minimum l'augmentation de la variance intra-groupe | Crée des partitions stables et lisibles | Nécessite des variables numériques correctement préparées | Segmentation de la clientèle, analyse commerciale |
Le bon choix dépend de la décision que tu dois prendre au sein de l'entreprise, et non d'une préférence abstraite.
Si votre objectif est de trouver des groupes liés par des similitudes progressives, la méthode « single linkage » peut s'avérer utile lors de la phase exploratoire. Si, en revanche, vous devez définir des segments clairs à attribuer à des campagnes, des listes ou des niveaux de service, les méthodes « complete » ou « Ward » permettent souvent d'obtenir des groupes plus faciles à interpréter. La méthode « average linkage » constitue souvent un bon compromis lorsque vous ne souhaitez ni des groupes trop rigides, ni des structures trop étirées.
Règle pratique : si vous devez présenter les clusters au service commercial, au marketing ou à la direction, commencez par la méthode de Ward. Si le résultat semble trop « forcé », comparez-le avec la méthode de l'average linkage.
Dans les manuels universitaires, on s'en tient souvent à la définition. En entreprise, en revanche, il faut une logique de choix.
Utilise cette piste :
En d'autres termes, il n'existe pas de méthode idéale. Il existe simplement la méthode la plus adaptée aux besoins de l'entreprise.
Supposons que vous souhaitiez segmenter la clientèle d'une PME du secteur de la vente au détail en fonction de la fréquence d'achat, du montant moyen des commandes et du nombre de catégories achetées.
Avec un lien simple, vous pourriez obtenir un groupe très étendu, relié par des transitions progressives entre des clients assez différents les uns des autres. Cela s'avère utile si vous souhaitez observer une continuité dans le comportement, mais l'est moins si vous devez créer des actions commerciales distinctes.
Grâce au « complete linkage », les groupes deviennent plus homogènes. Les clients au sein de chaque groupe se ressemblent davantage, ce qui permet à l'équipe marketing de mettre plus facilement en place des promotions sur mesure.
Avec Ward, on obtient souvent des segments clairs et lisibles. C'est pourquoi on y a souvent recours lorsque l'objectif n'est pas seulement d'analyser, mais aussi de prendre une décision.
Le regroupement hiérarchique par agglomération peut s'avérer lourd à traiter sur des ensembles de données volumineux. Cela a des conséquences concrètes : des durées d'exécution plus longues, une consommation de mémoire plus importante et moins de marge de manœuvre pour effectuer des tests rapides sur différentes métriques et différents liens.
Pour une PME, l'important n'est pas de se perdre en théories sur les algorithmes. L'important est de savoir si l'analyse restera réalisable avec les données disponibles, le temps dont dispose l'équipe et les outils utilisés.
C'est pourquoi le choix technique devrait répondre à trois questions simples :
C'est là qu'une plateforme comme ELECTE tout son sens. Elle simplifie les aspects les plus techniques de la configuration et facilite la comparaison entre différentes options, même si vous ne disposez pas d'une équipe interne de data scientists. La valeur ajoutée ne réside pas dans le « clustering » en soi, mais dans le choix d'une segmentation que l'entreprise peut comprendre, valider et exploiter.
C'est en observant son résultat le plus courant, le dendrogramme, que l'on se rend compte de la véritable valeurdu regroupement hiérarchique agglomératif. Ce n'est pas un simple graphique décoratif. C'est une carte décisionnelle.

Sur l'axe horizontal, tu trouveras les observations, ou de petits groupes d'observations. Sur l'axe vertical, tu verras la distance ou la dissemblance à laquelle les fusions ont lieu.
La règle visuelle la plus importante est la suivante : plus la fusion a eu lieu à un niveau élevé, plus les groupes fusionnés étaient différents.
Cela vous permet de faire quelque chose que de nombreux responsables apprécient immédiatement. Vous n'acceptez pas un nombre de clusters déterminé par une formule « obscure ». Vous examinez la structure des données et décidez où il est judicieux de s'arrêter.
Par exemple :
Un dendrogramme traduit une décision statistique en une décision visuelle. C'est pourquoi il est également utile lors des réunions, et pas seulement dans un notebook Python.
Un support visuel peut aider à bien comprendre le concept :
Beaucoup s'arrêtent là. « Combien de clusters dois-je utiliser ? » La réponse honnête est : cela dépend du problème que vous souhaitez résoudre.
Si vous devez mettre en place des actions commerciales, un nombre trop élevé de clusters complique la mise en œuvre. Si vous analysez des comportements très différents, un nombre trop restreint de clusters risque de masquer des tendances utiles.
Voici un critère pratique :
Supposons que la coupe intersecte quatre branches principales. Vous obtenez quatre segments. À ce stade, le travail de gestion n'est plus une question de statistiques. Il devient une question d'interprétation.
Demande-toi :
Remarque pratique : le meilleur dendrogramme n'est pas forcément le plus élégant. C'est celui qui vous permet de justifier votre choix de segmentation auprès de ceux qui devront l'utiliser.
Vous disposez d'un ensemble de données clients, de quelques variables utiles et d'une question concrète : existe-t-il des groupes qui méritent des actions commerciales différentes ? Python sert justement à transformer cette question en un test rapide, lisible et reproductible.
Pour ce faire, on utilise généralement scikit-learn pour créer le modèle et SciPy pour tracer le dendrogramme. La partie technique est accessible. Ce qui fait la différence pour une PME, c'est de bien préparer les données et d'interpréter le résultat avec discernement.
L'erreur la plus courante survient avant même l'algorithme. Si vous intégrez dans le même modèle une variable telle que le chiffre d'affaires annuel et une autre telle que le nombre de commandes, celle qui a la plus grande ampleur risque d'avoir beaucoup plus de poids. Le cluster final reflète donc davantage les unités de mesure que les véritables similitudes entre les clients ou les produits.
La normalisation permet d'éviter ce problème. Concrètement, cela consiste à ramener les variables numériques à une échelle comparable. C'est un choix simple, mais qui modifie le résultat de manière significative, surtout si vous souhaitez utiliser le lien de Ward, qui fonctionne bien avec des données numériques bien préparées.
Avant de lancer le modèle, vérifie trois points :
Voici une analogie utile : c'est comme si vous compariez des clients en les évaluant avec la même unité de mesure. Si l'un est mesuré en euros et l'autre en chiffres bruts, la comparaison part déjà sur une base inégale.
Voici un exemple simple avec scikit-learn :
import pandas as pdfrom sklearn.preprocessing import StandardScalerfrom sklearn.cluster import AgglomerativeClustering# Esempio: dataset con variabili numerichedf = pd.DataFrame({"frequenza_acquisto": [12, 10, 2, 3, 15, 1],"scontrino_medio": [80, 75, 20, 25, 95, 15],"numero_categorie": [5, 4, 1, 2, 6, 1]})# 1. Scalingscaler = StandardScaler()X_scaled = scaler.fit_transform(df)# 2. Modellomodel = AgglomerativeClustering(n_clusters=3,linkage="ward")# 3. Assegnazione clusterlabels = model.fit_predict(X_scaled)df["cluster"] = labelsprint(df)Le code est court. Ce qui compte, c'est la lecture managériale.
Dans cet exemple, vous demandez au modèle : « Regroupe ces observations en 3 clusters, en fusionnant progressivement les cas les plus similaires ». Le résultat final est la colonne groupe, c'est-à-dire l'étiquette attribuée à chaque ligne de l'ensemble de données. C'est là que commence le travail utile pour l'entreprise : comprendre ce qui distingue le cluster 0 du cluster 1, et quelles décisions en découlent.
Si tu souhaites également afficher la structure hiérarchique complète, tu utiliseras généralement scipy.cluster.hierarchy.linkage avec dendrogramme. Scikit-learn vous aide à identifier les groupes. SciPy vous aide à comprendre comment ils se sont formés.
En entreprise, l'intérêt du clustering ne dépend pas de la complexité de l'ordinateur portable. Il dépend de la qualité de trois choix.
C'est là qu'on voit la différence entre un exercice technique et un outil d'aide à la décision. Un manager n'a pas besoin de « faire du regroupement » dans l'abstrait. Il a besoin de segments qu'il puisse nommer, expliquer et utiliser.
Si vous travaillez avec Python, ne vous arrêtez donc pas à l'étiquette attribuée par le modèle. Observez la moyenne des variables pour chaque cluster, comparez les profils qui se dégagent et posez-vous immédiatement la question suivante : ce groupe nécessite-t-il une approche différente des autres ? Si la réponse est non, le problème ne vient pas du code. Il réside généralement dans le choix des variables, de la méthode de liaison ou du seuil de coupure.
Un algorithme n'a vraiment d'intérêt que s'il entraîne un changement concret.Le regroupement hiérarchique agglomératif s'avère utile lorsqu'il transforme des lignes de base de données en segments exploitables par l'entreprise.
De nombreuses PME segmentent encore leurs clients de manière très simpliste. Âge, zone géographique, voire tranche de chiffre d'affaires. C'est un début, mais cela ne suffit souvent pas.
Grâce au regroupement hiérarchique, vous pouvez combiner des variables comportementales telles que la fréquence d'achat, le panier moyen, les catégories préférées et la réaction aux promotions. Le résultat n'est pas seulement une liste de profils. Il s'agit d'une hiérarchie qui vous montre quels groupes sont réellement proches les uns des autres et lesquels doivent, au contraire, être ciblés avec des messages différents.
Cela aide l'équipe marketing à prendre des décisions plus éclairées :
Dans le commerce de détail et le commerce électronique, le regroupement par clusters ne sert pas seulement à comprendre les personnes. Il sert également à comprendre les articles.
Vous pouvez regrouper les produits en fonction des tendances d'achat, des achats associés, de la saisonnalité ou de la réaction aux promotions. Cela permet d'améliorer diverses décisions opérationnelles :
L'avantage en termes de gestion est ici évident. Vous ne considérez pas chaque référence individuellement. Vous identifiez des groupes de produits qui peuvent être planifiés ensemble.
Lorsque les produits évoluent selon des tendances similaires, les décisions en matière de réapprovisionnement et de promotion deviennent elles aussi plus cohérentes.
Dans le domaine financier, le regroupement par clusters peut aider à distinguer les schémas normaux de ceux qui méritent une analyse plus approfondie. Il ne remplace pas les contrôles réglementaires ni les modèles spécialisés, mais peut constituer un outil utile pour classer les comportements similaires et mettre en évidence les anomalies.
Il existe également une tendance intéressante dans le domaine de la cybersécurité. Une perspective émergente concerne l'utilisation d'un AHC avancé pour le trafic réseau dans les PME italiennes. En 2025, les attaques par ransomware contre les PME italiennes du secteur informatique ont augmenté de 27 %, et les cadres AHC basés sur les produits scalaires ont amélioré la détection des valeurs aberrantes de 18 % sur des ensembles de données italiens relatifs au trafic réseau (référence JMLR mentionnée ici).
Il est utile de bien comprendre ce point. Cela ne signifie pas que chaque PME doive immédiatement mettre en place un pipeline de clustering pour la sécurité. Cela signifie toutefois que le clustering hiérarchique ne se limite pas au marketing ou au commerce de détail. Il peut devenir une structure d'analyse transversale, allant du comportement des clients à la surveillance des risques.
Vous disposez de données clients dans votre CRM, de commandes dans votre boutique en ligne, de marges dans un fichier Excel et de quelques informations opérationnelles dans votre logiciel de gestion. Tant que ces données restent cloisonnées, le regroupement par clusters reste un exercice théorique. Pour une PME, le problème n’est pas de comprendre que les clusters peuvent être utiles. Le problème est d’aboutir à des clusters lisibles, cohérents et suffisamment fiables pour guider une décision commerciale ou opérationnelle.
C'est là qu'une plateforme comme ELECTE le travail manuel et rend la méthode plus pratique pour ceux qui doivent prendre des décisions, et non pour ceux qui programment.
Dans la pratique, on recense quatre obstacles récurrents.
Le point le plus sous-estimé est justement celui-ci : l’algorithme ne suffit pas. Il faut un processus qui permette de passer des données brutes à une segmentation exploitable par l’entreprise. ELECTE dès la première étape, en reliant de manière structurée les sources de données de l’entreprise. Si vous souhaitez connaître les intégrations disponibles, vous pouvez consulter la page des sources de données connectables dans ELECTE.

Il existe ensuite une deuxième difficulté, plus stratégique que technique. Choisir une méthode de liaison inadaptée peut aboutir à des groupes peu utiles pour l'entreprise, même si le modèle a été correctement exécuté. Un responsable n'a pas besoin de connaître tous les détails mathématiques. Il doit comprendre quelle configuration génère des segments suffisamment stables pour étayer une campagne, une politique de stock ou une révision du portefeuille clients.
Grâce à un flux de travail automatisé, le processus s'apparente davantage à une chaîne de production bien organisée qu'à une série de tests effectués de manière artisanale. Les données sont saisies, traitées de manière cohérente, plusieurs configurations sont comparées et le résultat final est présenté sous une forme lisible.
Concrètement, le processus peut se dérouler comme suit :
L'avantage ne réside pas dans l'automatisation en soi. Il réside dans le fait que l'équipe peut consacrer son temps à ce qui compte le plus : interpréter le dendrogramme, choisir le niveau de segmentation approprié et décider de la suite à donner à ces groupes.
Pour une PME, cela change beaucoup la donne. Au lieu de se demander de manière abstraite s’il faut utiliser Ward, Average ou Complete, la question devient concrète : quelle méthode produit des clusters les plus clairs pour nos clients, nos produits et nos objectifs ? ELECTE cette question plus accessible, même sans équipe interne de data scientists.
L'automatisation ne remplace donc pas le jugement managérial. Elle le place à la bonne place dans le processus.
Le regroupement hiérarchique par agglomération n'est pas seulement un sujet d'étude universitaire. C'est un outil concret permettant de mettre de l'ordre dans des données qui, sans cela, resteraient fragmentées.
Les points clés à retenir sont peu nombreux, mais essentiels :
Pour une PME, c'est là que réside la véritable valeur. Mieux comprendre les clients, les produits et les processus opérationnels sans se fier uniquement à l'intuition. Si votre équipe dispose de compétences techniques, vous pouvez commencer par Python et scikit-learn. Si, en revanche, vous souhaitez obtenir plus rapidement des informations exploitables, une approche automatisée permet de réduire les obstacles et les délais.
L'important n'est pas d'utiliser un algorithme « avancé ». L'important est de prendre des décisions plus claires, en tenant davantage compte du contexte et en éliminant le bruit.
Si vous souhaitez transformer des données éparses en segments clairs et en décisions opérationnelles, découvrez comment ELECTE rend l'analyse accessible même sans équipe de data scientists. Vous pouvez connecter vos sources de données, obtenir des informations claires et passer plus rapidement de l'analyse à l'action.