Tens o CRM cheio de contactos, o histórico de encomendas do teu e-commerce, dados de campanhas de marketing, tickets de assistência e talvez até folhas de Excel criadas por diferentes equipas. Tudo existe. Tudo é útil. Mas, muitas vezes, está tudo misturado.
Para muitas PME, o problema não é a falta de dados. É a falta de estrutura. Um gestor de retalho quer perceber quais os clientes que compram de forma semelhante. Um responsável pelas operações quer ver quais os produtos que se vendem em conjunto. Uma equipa financeira quer distinguir os comportamentos normais daqueles que merecem atenção. Sem um método claro, os dados continuam a ser um arquivo, em vez de se tornarem um guia.
É aqui que entra em jogoo agrupamento hierárquico aglomerativo. Trata-se de uma técnica de aprendizagem automática que organiza as observações em grupos, construindo uma hierarquia de baixo para cima. Não é uma novidade. Trata-se de uma técnica consolidada: introduzida na década de 1960, foi aplicada em Itália já em 1985 num projeto sobre dados socioeconómicos que reduziu 50 regiões a 7 clusters principais (referência aqui). Isto é importante porque demonstra algo simples: quando os dados parecem caóticos, o agrupamento hierárquico pode revelar uma estrutura legível.
Se quiser ter uma visão mais abrangente sobre a utilização de dados na empresa, este guiasobre análise de dados empresariais é um excelente complemento.
Segunda-feira de manhã. O responsável comercial abre o CRM, o departamento de marketing analisa campanhas com resultados muito díspares, e a logística assinala produtos com rotatividade imprevisível. Os dados estão lá, mas falta um panorama útil para tomar decisões.
É aqui que um gestor de uma PME começa a fazer as perguntas certas. Que clientes apresentam realmente comportamentos semelhantes? Que produtos merecem uma estratégia específica? Que sedes ou áreas de negócio devem ser geridas com lógicas diferentes, mesmo que hoje em dia todas elas constem do mesmo relatório?
A agrupamento hierárquico aglomerativo serve para transformar essa desordem numa estrutura legível. Em vez de impor imediatamente categorias definidas a priori, organiza os elementos por semelhança e mostra como os grupos vão tomando forma passo a passo. O resultado não é apenas um exercício estatístico. É um apoio concreto para a segmentação comercial, as prioridades operacionais e as decisões de posicionamento.
Para uma empresa, o importante não é saber o nome do algoritmo. O importante é saber utilizar bem três ferramentas práticas: escolher o método de ligação adequado ao seu caso, interpretar um dendrograma sem se perder nos pormenores técnicos e compreender onde dividir a hierarquia para obter agrupamentos úteis para o negócio.
É aqui que reside a diferença entre uma abordagem académica e uma aplicação gerencial do clustering.
Se já está a trabalhar com segmentação, relatórios ou análise de dados empresariais para tomar decisões mais rápidas e concretas, este método ajuda-o a identificar relações que permanecem ocultas nas folhas de cálculo do Excel. E com ferramentas como ELECTE, mesmo uma PME sem uma equipa de cientistas de dados pode integrar esta abordagem nos seus processos diários, desde a interpretação dos dados até à tomada de decisões operacionais.
A agrupamento hierárquico aglomerativo começa a partir da base. Cada registo começa por ser um grupo independente. Em seguida, o algoritmo compara as semelhanças, une os dois elementos mais próximos e repete o mesmo passo até construir uma hierarquia completa.
Para uma PME, esta abordagem é útil porque reflete um processo de tomada de decisão realista. No início, ainda não se sabe quantos segmentos são realmente necessários. Sabe-se apenas que alguns clientes se comportam de forma semelhante, que certos produtos apresentam padrões comparáveis e que algumas áreas do negócio merecem ser analisadas em conjunto. A agrupamento aglomerativo organiza estas relações sem obrigar a definir imediatamente um número de grupos.

O mecanismo de funcionamento é simples:
É aqui que surge um ponto que muitas vezes causa confusão. O algoritmo não apresenta imediatamente «os 4 clusters certos» ou «os 6 segmentos corretos». Primeiro, constrói um mapa de proximidades. A decisão sobre quantos grupos manter surge depois, quando se analisa essa hierarquia em função do objetivo de negócio.
Um exemplo ajuda a esclarecer. Se estiver a analisar a carteira de clientes, poderá descobrir que alguns clientes se assemelham em termos de frequência de compra, outros em termos de valor médio e outros ainda em termos de sazonalidade. A agrupamento aglomerativo não o obriga a escolher imediatamente o nível de detalhe. Permite-lhe ver tanto os microgrupos, úteis para campanhas direcionadas, como os macrosegmentos, úteis para definir orçamentos, serviços e prioridades comerciais.
A diferença prática em relação a métodos como o k-means é simples. Com o k-means, é necessário decidir primeiro quantos agrupamentos se pretende encontrar. Com a agrupamento hierárquico aglomerativo, constrói-se uma hierarquia e decide-se depois onde parar.
Para um gestor, isto faz toda a diferença. Significa poder partir de uma pergunta aberta, e não de uma resposta já antecipada. Se a equipa comercial suspeita que existem diferentes perfis de clientes, mas ainda não sabe quantos são, este método oferece uma perspetiva mais útil para debater uma estratégia.
Também agrada por outro motivo. O resultado é compreensível. Não se trata apenas de rótulos finais atribuídos aos registos, mas de um percurso que mostra como os grupos se formam, passo a passo. É precisamente esta estrutura hierárquica que torna o método interessante nas decisões empresariais, pois liga a análise estatística a uma escolha concreta: onde faz sentido separar os grupos para obter insights úteis.
Regra prática: utilize o agrupamento hierárquico quando pretender explorar a estrutura dos dados antes de definir segmentos operacionais estáveis.
Se quiser comparar esta abordagem com outros algoritmos de aprendizagem automática para diferentes problemas empresariais, faz sentido avaliá-los com base na decisão que tem de tomar, e não apenas na técnica.
Duas empresas podem utilizar o mesmo algoritmo e obter segmentações muito diferentes. A razão, quase sempre, reside aqui: na escolha da forma de medir a distância e de decidir quais os grupos a fundir.

Para um gestor de uma PME, isto não é uma questão técnica. É uma escolha que altera o resultado operacional. Pode conduzir a agrupamentos úteis para campanhas comerciais e de preços, ou a grupos pouco claros que a equipa não consegue utilizar.
A métrica de distância serve para medir o grau de diferença entre duas observações. Se estiver a analisar clientes, produtos ou pontos de venda, é a regra com que o algoritmo compara os perfis.
As mais comuns são:
É aqui que surge um erro frequente. Se uma variável tiver uma escala muito mais ampla do que as outras, acabará por dominar o cálculo da distância. Na prática, a agrupamento de amostras (clustering) seguirá quase exclusivamente essa coluna. Por isso, antes de escolher o método de ligação (linkage), convém verificar se os dados foram padronizados.
A ligação entra em jogo mais tarde. Não compara dois pontos individuais, mas sim dois grupos já formados.
Uma boa analogia é a seguinte: a métrica determina como se mede a distância entre duas lojas no mapa. A ligação determina como se avalia a distância entre duas cadeias inteiras de lojas. É uma grande diferença.
Os principais métodos são:
| Método de ligação | Como funciona | Prós | Contra | Ideal para |
|---|---|---|---|---|
| Articulação simples | Utiliza a distância mínima entre pontos de dois agrupamentos | Captura de ligações progressivas | Pode criar clusters «em cadeia» pouco compactos | Padrões muito interligados, exploração inicial |
| Ligação completa | Utiliza a distância máxima entre pontos de dois clusters | Gera clusters mais compactos | Pode afastar demasiado grupos que, naturalmente, estão próximos | Segmentações em que a homogeneidade é fundamental |
| Ligação média | Média das distâncias entre os pontos dos dois agrupamentos | Um bom compromisso | Mais difícil de explicar à empresa | Análises equilibradas |
| Ward | Minimiza o aumento da variância intra-cluster | Cria partições estáveis e legíveis | Requer variáveis numéricas devidamente preparadas | Segmentação de clientes, análise de negócios |
A escolha certa depende da decisão que tem de tomar na empresa, e não de uma preferência abstrata.
Se o seu objetivo é encontrar agrupamentos ligados por semelhanças progressivas, o método «single linkage» pode ser útil na fase exploratória. Se, por outro lado, precisar de criar segmentos bem definidos para atribuir a campanhas, listas de preços ou níveis de serviço, em muitos casos os métodos «complete» ou «Ward» produzem agrupamentos mais fáceis de interpretar. O método «average linkage» é frequentemente um bom meio-termo quando não se pretende nem agrupamentos demasiado rígidos nem estruturas demasiado alongadas.
Regra prática: se tiver de apresentar os clusters ao departamento comercial, de marketing ou à direção, comece pelo método Ward. Se o resultado parecer demasiado «forçado», compare-o com o método de ligação média.
Neste contexto, os manuais académicos limitam-se frequentemente à definição. Nas empresas, por outro lado, é necessária uma lógica de escolha.
Usa esta faixa:
Por outras palavras, não existe um método que seja o melhor em termos absolutos. Existe sim o método mais adequado às necessidades do negócio.
Suponhamos que queira segmentar os clientes de uma PME do setor retalhista com base na frequência de compra, no valor médio da encomenda e no número de categorias adquiridas.
Com a ligação única, poderá obter um conjunto muito extenso, unido por transições graduais entre clientes bastante diferentes entre si. É útil se pretender observar continuidade no comportamento, mas menos se precisar de criar ações comerciais distintas.
Com a ligação completa, os grupos tornam-se mais homogéneos. Os clientes dentro de cada cluster são mais semelhantes entre si, pelo que a equipa de marketing consegue criar mais facilmente promoções específicas.
Com o Ward, obtém-se frequentemente segmentos organizados e fáceis de ler. É por isso que é uma escolha frequente quando o objetivo não é apenas analisar, mas chegar a uma decisão.
A agrupamento hierárquico por aglomeração pode tornar-se pesado em conjuntos de dados de grande dimensão. Este aspeto tem um impacto concreto: tempos de execução mais longos, maior consumo de memória e menos margem para realizar testes rápidos com diferentes métricas e ligações.
Para uma PME, o que importa não é fazer teorias sobre algoritmos. O que importa é saber se a análise será viável com os dados disponíveis, com o tempo de que a equipa dispõe e com as ferramentas em uso.
Por isso, a escolha técnica deve responder a três perguntas simples:
É aqui que uma plataforma como ELECTE útil. Ela simplifica a parte mais técnica da configuração e facilita a comparação entre diferentes opções, mesmo quando não se dispõe de uma equipa interna de cientistas de dados. O valor não está em «fazer clustering». Está em escolher uma segmentação que a empresa consiga compreender, validar e utilizar.
O verdadeiro valordo agrupamento hierárquico aglomerativo torna-se evidente quando se observa o seu resultado mais comum: o dendrograma. Não se trata de um gráfico meramente decorativo. É um mapa de decisão.

No eixo horizontal encontras as observações, ou pequenos grupos de observações. No eixo vertical vês a distância ou a dissimilaridade na qual ocorrem as fusões.
A regra visual mais importante é esta: quanto mais antiga for uma fusão, mais diferentes eram os grupos que se uniram.
Isto permite-lhe fazer algo que muitos gestores apreciam imediatamente. Não está a aceitar um número de clusters determinado por uma fórmula «misteriosa». Está a observar a estrutura dos dados e a decidir onde faz sentido parar.
Por exemplo:
Um dendrograma traduz uma decisão estatística numa decisão visual. Por isso, é útil também em reuniões, e não apenas em notebooks Python.
Um recurso visual pode ajudar a fixar o conceito:
Muitos ficam com dúvidas nesta altura. «Quantos clusters devo manter?» A resposta sincera é: depende do problema que se pretende resolver.
Se precisar de implementar ações comerciais, um número excessivo de clusters complica a execução. Se estiver a analisar comportamentos muito diferentes, um número reduzido de clusters corre o risco de ocultar padrões úteis.
Um critério prático é o seguinte:
Suponhamos que o corte intersecte quatro ramos principais. Ficamos com quatro segmentos. Nessa altura, o trabalho de gestão deixa de ser estatístico. Passa a ser interpretativo.
Pergunta a ti mesmo:
Observação prática: o melhor dendrograma não é o mais elegante. É aquele que lhe permite justificar a escolha da segmentação perante quem vai utilizá-lo.
Tens um conjunto de dados de clientes, algumas variáveis úteis e uma questão concreta: existem grupos que merecem ações comerciais diferentes? O Python serve precisamente para transformar essa questão num teste rápido, legível e replicável.
Para tal, costuma-se utilizar o scikit-learn para criar o modelo e o SciPy para desenhar o dendrograma. A parte técnica é acessível. O que faz a diferença, para uma PME, é preparar bem os dados e interpretar o resultado com critério.
O erro mais comum surge antes mesmo do algoritmo. Se introduzirmos no mesmo modelo uma variável como o volume de negócios anual e outra como o número de encomendas, a que tiver maior magnitude corre o risco de ter um peso muito maior. O agrupamento final, portanto, reflete mais as unidades de medida do que as verdadeiras semelhanças entre clientes ou produtos.
A padronização serve para evitar este problema. Na prática, coloca as variáveis numéricas numa escala comparável. É uma escolha simples, mas altera o resultado de forma significativa, sobretudo se pretender utilizar o método de ligação de Ward, que funciona bem com dados numéricos devidamente preparados.
Antes de lançar o modelo, verifica três pontos:
Uma analogia útil é a seguinte: estás a comparar clientes como se tivesses de os avaliar com a mesma unidade de medida. Se um for medido em euros e outro em números brutos, a comparação já começa desequilibrada.
Eis um exemplo básico com o scikit-learn:
import pandas as pdfrom sklearn.preprocessing import StandardScalerfrom sklearn.cluster import AgglomerativeClustering# Esempio: dataset con variabili numerichedf = pd.DataFrame({"frequenza_acquisto": [12, 10, 2, 3, 15, 1],"scontrino_medio": [80, 75, 20, 25, 95, 15],"numero_categorie": [5, 4, 1, 2, 6, 1]})# 1. Scalingscaler = StandardScaler()X_scaled = scaler.fit_transform(df)# 2. Modellomodel = AgglomerativeClustering(n_clusters=3,linkage="ward")# 3. Assegnazione clusterlabels = model.fit_predict(X_scaled)df["cluster"] = labelsprint(df)O código é curto. O que importa é a leitura gerencial.
Neste exemplo, estás a dizer ao modelo: «agrupa estas observações em 3 clusters, unindo progressivamente os casos mais semelhantes». O resultado final é a coluna cluster, ou seja, a etiqueta atribuída a cada linha do conjunto de dados. É aí que começa o trabalho útil para a empresa: compreender o que distingue o cluster 0 do cluster 1 e quais as decisões que merecem ser tomadas.
Se quiseres ver também a estrutura hierárquica completa, normalmente usarás scipy.cluster.hierarchy.linkage juntamente com dendrograma. O Scikit-learn ajuda-te a identificar os agrupamentos. O SciPy ajuda-te a perceber como é que eles se formaram.
Na empresa, o valor do clustering não depende da complexidade do portátil. Depende da qualidade de três decisões.
Aqui fica evidente a diferença entre um exercício técnico e uma ferramenta de tomada de decisão. Um gestor não precisa de «fazer agrupamentos» de forma abstrata. Precisa de segmentos que se possam nomear, explicar e utilizar.
Se estiveres a trabalhar em Python, não te limites à etiqueta atribuída pelo modelo. Observa a média das variáveis para cada cluster, compara os perfis que surgiram e pergunta-te imediatamente: este grupo requer uma ação diferente dos outros? Se a resposta for não, o problema não está no código. Normalmente, está na escolha das variáveis, na ligação ou no ponto de corte.
Um algoritmo só é realmente relevante quando leva a uma ação concreta.O agrupamento hierárquico aglomerativo torna-se útil quando transforma linhas de uma base de dados em segmentos que a empresa pode utilizar.
Muitas PME ainda segmentam os clientes de forma muito simples. Idade, área geográfica, talvez faixa de faturação. É um começo, mas muitas vezes não é suficiente.
Com um agrupamento hierárquico, pode combinar variáveis comportamentais como frequência de compra, valor médio, categorias preferidas e resposta às promoções. O resultado não é apenas uma lista de perfis. É uma hierarquia que lhe mostra quais os grupos que estão realmente próximos uns dos outros e quais, pelo contrário, devem ser abordados com mensagens diferentes.
Isto ajuda a equipa de marketing a tomar decisões mais precisas:
No retalho e no comércio eletrónico, o agrupamento por clusters não serve apenas para compreender as pessoas. Serve também para compreender os artigos.
Pode agrupar os produtos com base em padrões de venda, compras associadas, sazonalidade ou resposta às promoções. Isto permite melhorar várias decisões operacionais:
A vantagem em termos de gestão é aqui evidente. Não se está a analisar SKUs individuais de forma isolada. Está-se a identificar famílias operacionais que podem ser planeadas em conjunto.
Quando os produtos agrupam-se em conjuntos semelhantes, também as decisões relativas a novas encomendas e promoções tornam-se mais coerentes.
No setor financeiro, o clustering pode ajudar a distinguir os padrões normais daqueles que merecem uma análise mais aprofundada. Não substitui os controlos regulamentares nem os modelos especializados, mas pode ser uma ferramenta útil para agrupar comportamentos semelhantes e identificar anomalias.
Há ainda uma tendência interessante no domínio da cibersegurança. Uma perspetiva emergente diz respeito à utilização de AHC avançado para o tráfego de rede nas PME italianas. Em 2025, os ataques de ransomware contra as PME italianas do setor das tecnologias da informação aumentaram 27%, e os frameworks de AHC baseados em produtos internos melhoraram a deteção de valores atípicos em 18% em conjuntos de dados italianos de tráfego de rede (referência JMLR aqui indicada).
É importante interpretar isto da forma correta. Não significa que todas as PME devam criar imediatamente uma estrutura de agrupamento para fins de segurança. Significa, no entanto, que o agrupamento hierárquico não se limita ao marketing ou ao retalho. Pode tornar-se uma estrutura de análise transversal, desde o comportamento dos clientes até à monitorização de riscos.
Tem dados de clientes no CRM, encomendas no e-commerce, margens num ficheiro Excel e algumas informações operacionais no sistema de gestão. Enquanto estiverem separados, a agrupamento em clusters continua a ser um exercício teórico. Para uma PME, o problema não é perceber que os clusters podem ser úteis. O problema é chegar a clusters compreensíveis, coerentes e suficientemente fiáveis para orientar uma decisão comercial ou operacional.
É aqui que uma plataforma como ELECTE o trabalho manual e torna o método mais prático para quem tem de tomar decisões, e não para quem tem de programar.
Na prática, existem quatro obstáculos recorrentes.
O aspeto mais subestimado é precisamente este: o algoritmo por si só não basta. É necessário um processo que conduza dos dados brutos a uma segmentação que a empresa possa utilizar. ELECTE já ELECTE nesta primeira etapa, interligando de forma organizada as fontes da empresa. Se quiseres ver quais as integrações disponíveis, podes consultar a página das fontes de dados que podem ser integradas no ELECTE.

Há ainda uma segunda dificuldade, mais estratégica do que técnica. Escolher o método de ligação errado pode resultar em grupos pouco úteis para a empresa, mesmo que o modelo tenha sido executado corretamente. Um gestor não precisa de conhecer todos os pormenores matemáticos. Precisa de compreender qual a configuração que gera segmentos suficientemente estáveis para sustentar uma campanha, uma política de stock ou uma revisão da carteira de clientes.
Com um fluxo de trabalho automatizado, o processo assemelha-se mais a uma linha de produção bem organizada do que a uma série de testes manuais. Os dados são introduzidos, preparados de forma coerente, várias configurações são comparadas e o resultado final é apresentado de forma legível.
Na prática, o fluxo pode seguir estes passos:
A vantagem não reside na automatização em si. Reside no facto de o tempo da equipa ser redirecionado para o que realmente importa: interpretar o dendrograma, escolher o nível de segmentação adequado e decidir o que fazer com esses grupos.
Para uma PME, isto faz toda a diferença. Em vez de se questionar se deve utilizar Ward, average ou complete de forma abstrata, a comparação torna-se prática: qual o método que produz agrupamentos mais claros para os nossos clientes, os nossos produtos e os nossos objetivos? ELECTE esta questão mais acessível, mesmo sem uma equipa interna de cientistas de dados.
A automação, portanto, não substitui o discernimento gerencial. Coloca-o no ponto certo do processo.
A agrupamento hierárquico aglomerativo não é apenas um tema de um curso universitário. É uma ferramenta prática para organizar dados que, de outra forma, permaneceriam fragmentados.
Os pontos-chave a ter em conta são poucos, mas decisivos:
Para uma PME, o verdadeiro valor está aqui. Compreender melhor os clientes, os produtos e os comportamentos operacionais sem depender apenas da intuição. Se a sua equipa tiver competências técnicas, pode começar com Python e scikit-learn. Se, por outro lado, quiser chegar mais rapidamente a insights compreensíveis, uma abordagem automatizada reduz o atrito e o tempo necessário.
A questão não é usar um algoritmo «avançado». A questão é tomar decisões mais claras, com mais contexto e menos ruído.
Se quiser transformar dados dispersos em segmentos claros e decisões operacionais, descubra como ELECTE torna a análise acessível mesmo sem uma equipa de cientistas de dados. Pode ligar as suas fontes de dados, obter insights compreensíveis e passar mais rapidamente da análise à ação.