Việc kinh doanh

Phân cụm phân cấp theo phương pháp kết tụ: Hướng dẫn toàn diện năm 2026

Tìm hiểu về phương pháp phân cụm phân cấp kết dính (Agglomerative hierarchical clustering), cách thức hoạt động của nó và cách áp dụng vào doanh nghiệp của bạn. Hướng dẫn toàn diện kèm theo các ví dụ bằng Python.

Hệ thống CRM của bạn chứa đầy thông tin liên hệ, lịch sử đơn hàng từ cửa hàng trực tuyến, dữ liệu các chiến dịch tiếp thị, phiếu hỗ trợ và có thể cả các bảng tính Excel do các nhóm khác nhau tạo ra. Tất cả đều có mặt. Tất cả đều hữu ích. Nhưng thường thì mọi thứ lại bị trộn lẫn với nhau.

Đối với nhiều doanh nghiệp vừa và nhỏ, vấn đề không phải là thiếu dữ liệu. Mà là thiếu hệ thống. Một giám đốc bán lẻ muốn tìm hiểu những khách hàng nào có thói quen mua sắm tương tự nhau. Một trưởng bộ phận vận hành muốn xem những sản phẩm nào thường được mua cùng nhau. Một đội ngũ tài chính muốn phân biệt giữa các hành vi bình thường và những hành vi cần được chú ý. Nếu không có phương pháp rõ ràng, dữ liệu sẽ chỉ là một kho lưu trữ thay vì trở thành kim chỉ nam.

Đây chính là lúc phương pháp phân cụmphân cấp kết hợp (agglomerative hierarchical clustering) phát huy tác dụng. Đây là một kỹ thuật học máy giúp sắp xếp các quan sát thành các nhóm bằng cách xây dựng một hệ thống phân cấp từ dưới lên trên. Kỹ thuật này không phải mới xuất hiện ngày hôm nay. Đây là một kỹ thuật đã được khẳng định: được giới thiệu vào những năm 1960, tại Ý, nó đã được áp dụng từ năm 1985 trong một dự án về dữ liệu kinh tế-xã hội, giúp giảm 50 vùng xuống còn 7 cụm chính (tham khảo tại đây). Điều này rất quan trọng vì nó cho thấy một điều đơn giản: khi dữ liệu có vẻ hỗn loạn, phân cụm phân cấp có thể tiết lộ một cấu trúc dễ hiểu.

Nếu bạn muốn có cái nhìn tổng quan hơn về việc sử dụng dữ liệu trong doanh nghiệp, hướng dẫnvề phân tích dữ liệu doanh nghiệp này sẽ là một tài liệu bổ sung rất hữu ích.

Mục lục

  • Kết luận và những điểm chính cần ghi nhớ
  • Giới thiệu: Từ sự hỗn loạn của dữ liệu đến sự rõ ràng về chiến lược

    Sáng thứ Hai. Trưởng phòng kinh doanh mở hệ thống CRM, bộ phận tiếp thị xem xét các chiến dịch với kết quả rất khác nhau, bộ phận hậu cần báo cáo về những sản phẩm có tốc độ luân chuyển khó dự đoán. Dữ liệu thì có sẵn, nhưng lại thiếu một bản đồ hữu ích để đưa ra quyết định.

    Đây chính là lúc một nhà quản lý doanh nghiệp vừa và nhỏ bắt đầu đặt ra những câu hỏi đúng đắn. Những khách hàng nào thực sự có hành vi tương tự nhau? Những sản phẩm nào xứng đáng có một chiến lược riêng biệt? Những chi nhánh hay lĩnh vực kinh doanh nào cần được quản lý theo những cách tiếp cận khác nhau, dù hiện tại tất cả đều được tổng hợp trong cùng một báo cáo?

    Phương phápphân cụm phân cấp (Agglomerative hierarchical clustering) giúp biến sự hỗn loạn này thành một cấu trúc dễ hiểu. Thay vì áp đặt ngay các danh mục đã được xác định trước, phương pháp này sắp xếp các yếu tố theo mức độ tương đồng và cho thấy cách các nhóm hình thành từng bước một. Kết quả thu được không chỉ là một bài tập thống kê. Đó là một công cụ hỗ trợ thiết thực cho việc phân khúc thị trường, xác định ưu tiên hoạt động và đưa ra các quyết định về định vị thương hiệu.

    Đối với một doanh nghiệp, vấn đề không phải là biết tên của thuật toán. Vấn đề là phải vận dụng hiệu quả ba yếu tố thực tiễn sau: lựa chọn phương pháp liên kết phù hợp với trường hợp cụ thể, đọc biểu đồ phân nhánh mà không bị lạc vào các chi tiết kỹ thuật, và xác định điểm cắt phân cấp để thu được các cụm dữ liệu có giá trị cho hoạt động kinh doanh.

    Đây chính là điểm khác biệt giữa việc áp dụng phân cụm trong nghiên cứu học thuật và trong quản lý.

    Nếu bạn đang thực hiện phân khúc thị trường, lập báo cáo hoặc phân tích dữ liệu doanh nghiệp nhằm đưa ra các quyết định nhanh chóng và hiệu quả hơn, phương pháp này sẽ giúp bạn phát hiện ra những mối liên hệ mà các bảng tính Excel thường che giấu. Và với các công cụ như ELECTE, ngay cả một doanh nghiệp vừa và nhỏ (SME) không có đội ngũ chuyên gia dữ liệu cũng có thể áp dụng phương pháp này vào các quy trình hàng ngày, từ việc phân tích dữ liệu đến việc ra quyết định vận hành.

    Phân cụm phân cấp kết tụ là gì và hoạt động như thế nào

    Phương phápphân cụm phân cấp kết dính (Agglomerative hierarchical clustering) bắt đầu từ cấp thấp nhất. Mỗi bản ghi ban đầu là một cụm riêng biệt. Sau đó, thuật toán so sánh các điểm tương đồng, gộp hai phần tử gần nhau nhất lại với nhau và lặp lại bước này cho đến khi xây dựng được một hệ thống phân cấp hoàn chỉnh.

    Đối với một doanh nghiệp vừa và nhỏ, phương pháp này rất hữu ích vì nó phản ánh một quy trình ra quyết định thực tế. Ban đầu, bạn chưa biết chính xác mình cần bao nhiêu phân khúc. Bạn chỉ biết rằng một số khách hàng có hành vi tương tự nhau, một số sản phẩm có mô hình tương đồng và một số lĩnh vực kinh doanh cần được xem xét cùng nhau. Phương pháp phân cụm kết tụ sắp xếp các mối quan hệ này mà không bắt buộc bạn phải xác định ngay số lượng nhóm.

    Một ông già đang chọn một cuốn sách màu xanh từ kệ sách trong phòng khách được trang bị đầy đủ.

    Cơ chế hoạt động rất đơn giản:

    1. Mỗi mục quan sát là một đơn vị độc lập. Khách hàng, sản phẩm hoặc giao dịch đều là các nhóm riêng biệt.
    2. Người ta tính toán mức độ khác biệt giữa hai yếu tố hoặc hai nhóm.
    3. Các cụm gần nhau nhất sẽ được hợp nhất theo quy tắc đã chọn.
    4. Cập nhật cấu trúc và lặp lại quá trình so sánh.
    5. Tiếp tục cho đến khi thu được một cây phân cấp duy nhất thể hiện tất cả các cách nhóm lại có thể.

    Đây là điểm thường gây ra sự nhầm lẫn. Thuật toán không ngay lập tức trả về “4 cụm chính xác” hay “6 phân đoạn đúng”. Trước tiên, nó sẽ xây dựng một bản đồ lân cận. Quyết định về số lượng nhóm cần giữ lại sẽ được đưa ra sau đó, khi bạn phân tích cấu trúc phân cấp đó dựa trên mục tiêu kinh doanh.

    Một ví dụ sẽ giúp bạn hiểu rõ hơn. Nếu bạn đang phân tích danh mục khách hàng, bạn có thể nhận thấy rằng một số khách hàng có điểm chung về tần suất mua hàng, một số khác về giá trị trung bình, và một số khác nữa về tính mùa vụ. Phương pháp phân cụm kết hợp (agglomerative clustering) không bắt buộc bạn phải chọn ngay mức độ chi tiết. Phương pháp này cho phép bạn quan sát cả các nhóm nhỏ (micro-groups) – hữu ích cho các chiến dịch tiếp thị nhắm mục tiêu – lẫn các phân khúc lớn (macro-segments) – hữu ích để xác định ngân sách, dịch vụ và các ưu tiên kinh doanh.

    Điều gì khiến phương pháp này khác biệt so với các phương pháp khác

    Sự khác biệt về mặt thực tiễn so với các phương pháp như k-means rất đơn giản. Với k-means, bạn phải quyết định trước số lượng cụm muốn tìm. Với phương pháp phân cụm phân cấp tích hợp, bạn xây dựng một hệ thống phân cấp và sau đó mới quyết định dừng lại ở đâu.

    Đối với một nhà quản lý, điều này mang lại sự thay đổi lớn. Điều đó có nghĩa là có thể bắt đầu từ một câu hỏi mở, chứ không phải từ một câu trả lời đã được giả định sẵn. Nếu đội ngũ kinh doanh nghi ngờ rằng có nhiều nhóm khách hàng khác nhau nhưng chưa biết chính xác có bao nhiêu nhóm, phương pháp này sẽ cung cấp một góc nhìn hữu ích hơn để thảo luận về chiến lược.

    Nó còn được ưa chuộng vì một lý do khác. Kết quả rất dễ hiểu. Bạn không chỉ có các nhãn cuối cùng được gán cho các bản ghi, mà còn có một lộ trình cho thấy cách các nhóm được hình thành từng bước một. Chính cấu trúc phân cấp này khiến phương pháp này trở nên hữu ích trong các quyết định kinh doanh, bởi nó kết nối phân tích thống kê với một lựa chọn cụ thể: khi nào việc phân tách các nhóm là hợp lý để thu được những thông tin hữu ích.

    Quy tắc thực tiễn: Hãy sử dụng phương pháp phân cụm phân cấp khi bạn muốn khám phá cấu trúc dữ liệu trước khi xác định các phân khúc hoạt động ổn định.

    Nếu bạn muốn so sánh phương pháp này với các thuật toán học máy khác dành cho các vấn đề kinh doanh khác nhau, thì nên đánh giá chúng dựa trên quyết định mà bạn cần đưa ra, chứ không chỉ dựa vào kỹ thuật.

    Các chỉ số khoảng cách và phương pháp liên kết: Lựa chọn quyết định cấu trúc cụm của bạn

    Hai công ty có thể sử dụng cùng một thuật toán nhưng lại thu được các phân khúc rất khác nhau. Lý do, hầu như luôn luôn, nằm ở đây: ở việc lựa chọn cách đo lường khoảng cáchcách quyết định nên hợp nhất những nhóm nào.

    Biểu đồ thông tin giải thích các chỉ số khoảng cách và các phương pháp liên kết trong phân cụm phân cấp.

    Đối với một nhà quản lý của doanh nghiệp vừa và nhỏ, đây không phải là một chi tiết kỹ thuật nhỏ nhặt. Đó là một quyết định có thể thay đổi kết quả hoạt động. Nó có thể giúp bạn tạo ra các nhóm dữ liệu hữu ích cho các chiến dịch tiếp thị và định giá, hoặc dẫn đến những nhóm dữ liệu khó hiểu mà đội ngũ không thể tận dụng được.

    Câu hỏi đầu tiên: Làm thế nào để đo lường mức độ tương đồng?

    Thước đo khoảng cách được sử dụng để đánh giá mức độ khác biệt giữa hai đối tượng quan sát. Cho dù bạn đang phân tích khách hàng, sản phẩm hay các điểm bán hàng, đây chính là tiêu chí mà thuật toán sử dụng để so sánh các hồ sơ.

    Các loại phổ biến nhất là:

    • Khoảng cách Euclid. Đo khoảng cách theo đường thẳng giữa hai điểm. Phương pháp này phù hợp khi làm việc với các biến số có thể so sánh được với nhau, ví dụ như doanh thu, tần suất mua hàng và giá trị hóa đơn trung bình, sau khi đã chuẩn hóa đúng cách.
    • Khoảng cách Manhattan. Cộng các giá trị tuyệt đối của sự chênh lệch trên từng biến. Phương pháp này hoạt động hiệu quả khi bạn cần một thước đo ít nhạy cảm hơn với các sai lệch riêng lẻ và gần gũi hơn với logic “theo khối”, rất hữu ích trong một số bộ dữ liệu thực tế.

    Đây là nơi thường xảy ra một sai lầm phổ biến. Nếu một biến có phạm vi giá trị rộng hơn hẳn so với các biến khác, nó sẽ chi phối toàn bộ quá trình tính toán khoảng cách. Trên thực tế, quá trình phân cụm sẽ gần như chỉ dựa vào cột dữ liệu đó. Vì vậy, trước khi chọn phương pháp liên kết, nên kiểm tra xem dữ liệu đã được chuẩn hóa hay chưa.

    Câu hỏi thứ hai: Làm thế nào để kết hợp hai cụm máy chủ?

    Sự liên kết sẽ phát huy tác dụng sau đó. Nó không so sánh hai điểm riêng lẻ, mà là hai nhóm đã được hình thành sẵn.

    Một ví dụ minh họa hay là như thế này: hệ thống đo lường quyết định cách bạn đo khoảng cách giữa hai cửa hàng trên bản đồ. Còn hệ thống liên kết quyết định cách bạn đánh giá khoảng cách giữa hai chuỗi cửa hàng hoàn toàn khác nhau. Sự khác biệt là rất lớn.

    Các phương pháp chính là:

    • Liên kết đơn. Xem xét hai điểm gần nhau nhất giữa các cụm khác nhau.
    • Liên kết hoàn toàn. Hãy xem xét hai điểm cách xa nhau nhất.
    • Liên kết trung bình. Sử dụng giá trị trung bình của khoảng cách giữa tất cả các điểm trong hai cụm.
    • Ward. Phương pháp này ghép các cụm sao cho độ biến thiên nội tại tăng ít nhất có thể.

    So sánh các phương pháp liên kết

    Phương pháp liên kếtCách thức hoạt độngƯu điểmChống lạiRất phù hợp cho
    Liên kết đơnSử dụng khoảng cách tối thiểu giữa các điểm của hai cụmGhi lại các kết nối liên tụcNó có thể tạo ra các cụm “liên kết” không được chặt chẽCác mẫu có mối liên hệ chặt chẽ, giai đoạn khám phá ban đầu
    Liên kết toàn diệnSử dụng khoảng cách tối đa giữa các điểm của hai cụmTạo các cụm gọn gàng hơnNó có thể tách rời những nhóm vốn dĩ gần gũi với nhauCác phân khúc mà tính đồng nhất là yếu tố quan trọng
    Độ liên kết trung bìnhKhoảng cách trung bình giữa các điểm của hai cụmMột giải pháp thỏa hiệp hợp lýKhó giải thích hơn cho phía doanh nghiệpPhân tích cân bằng
    WardGiảm thiểu sự gia tăng của độ biến thiên nội cụmTạo ra các phân vùng ổn định và có thể đọc đượcYêu cầu các biến số được chuẩn bị kỹ lưỡngPhân khúc khách hàng, phân tích kinh doanh

    Lựa chọn đúng đắn phụ thuộc vào quyết định mà bạn phải đưa ra trong công ty, chứ không phải dựa trên một sở thích trừu tượng.

    Nếu mục tiêu của bạn là tìm ra các cụm có mối liên hệ dựa trên sự tương đồng tăng dần, phương pháp liên kết đơn (single linkage) có thể hữu ích trong giai đoạn khám phá. Ngược lại, nếu bạn cần xây dựng các phân đoạn rõ ràng để phân bổ cho các chiến dịch, danh sách khách hàng hoặc cấp độ dịch vụ, thì trong nhiều trường hợp, phương pháp liên kết toàn phần (complete linkage) hoặc Ward sẽ tạo ra các nhóm dễ hiểu hơn. Phương pháp liên kết trung bình (average linkage) thường là một giải pháp trung dung hợp lý khi bạn không muốn các cụm quá cứng nhắc cũng như các cấu trúc quá kéo dài.

    Quy tắc thực tiễn: Nếu bạn cần trình bày các cụm dữ liệu cho bộ phận kinh doanh, tiếp thị hoặc ban lãnh đạo, hãy bắt đầu với phương pháp Ward. Nếu kết quả có vẻ quá “gượng ép”, hãy so sánh với phương pháp liên kết trung bình.

    Cách lựa chọn dựa trên bối cảnh doanh nghiệp

    Trong các tài liệu học thuật, người ta thường chỉ dừng lại ở phần định nghĩa. Ngược lại, trong doanh nghiệp, cần phải có một cơ sở lý luận để đưa ra quyết định.

    Hãy sử dụng bản nhạc này:

    • Bạn muốn các cụm gọn gàng và dễ giải thích? Hãy bắt đầu với phương pháp Complete hoặc Ward.
    • Bạn muốn khám phá các mối liên kết yếu hay các cấu trúc rất không đều đặn? Hãy xem xét mô hình liên kết đơn.
    • Bạn muốn tìm sự cân bằng giữa tính ổn định và tính linh hoạt? Hãy thử phương pháp liên kết trung bình.
    • Bạn có các biến với các thang đo khác nhau hoặc tập hợp các chỉ số không đồng nhất? Hãy kiểm tra kỹ việc chuẩn bị dữ liệu và hệ thống đo lường trước, nếu không, quá trình liên kết sẽ bị đánh giá không công bằng.

    Nói cách khác, không có phương pháp nào là tốt nhất tuyệt đối. Chỉ có phương pháp phù hợp nhất với nhu cầu kinh doanh mà thôi.

    Một ví dụ cụ thể

    Giả sử bạn muốn phân khúc khách hàng của một doanh nghiệp vừa và nhỏ trong lĩnh vực bán lẻ dựa trên tần suất mua hàng, giá trị đơn hàng trung bình và số lượng danh mục sản phẩm được mua.

    Với mô hình liên kết đơn, bạn có thể thu được một nhóm đối tượng rất rộng, được kết nối với nhau bằng những bước chuyển tiếp dần dần giữa các khách hàng có sự khác biệt đáng kể. Điều này hữu ích nếu bạn muốn quan sát sự liên tục trong hành vi, nhưng sẽ ít hiệu quả hơn nếu bạn cần triển khai các chiến dịch tiếp thị riêng biệt.

    Với phương pháp liên kết toàn diện, các nhóm trở nên gắn kết hơn. Các khách hàng trong mỗi nhóm có nhiều điểm tương đồng hơn, do đó đội ngũ tiếp thị có thể dễ dàng xây dựng các chương trình khuyến mãi phù hợp hơn.

    Với Ward, bạn thường nhận được các phân đoạn được sắp xếp gọn gàng và dễ đọc. Chính vì vậy, đây là lựa chọn phổ biến khi mục tiêu không chỉ là phân tích, mà còn là đưa ra quyết định.

    Chi phí tính toán cũng rất quan trọng

    Phương pháp phân cụm phân cấp kết hợp (Agglomerative hierarchical clustering) có thể gây ra gánh nặng khi xử lý các tập dữ liệu lớn. Điều này có tác động thực tế: thời gian xử lý kéo dài, tiêu tốn nhiều bộ nhớ hơn và ít không gian hơn để thực hiện các thử nghiệm nhanh trên các chỉ số và phương pháp liên kết khác nhau.

    Đối với một doanh nghiệp vừa và nhỏ, vấn đề không phải là bàn luận về lý thuyết của các thuật toán. Vấn đề là phải biết liệu việc phân tích có thể thực hiện được hay không với dữ liệu hiện có, thời gian của đội ngũ và các công cụ đang sử dụng.

    Vì vậy, lựa chọn kỹ thuật cần phải trả lời được ba câu hỏi đơn giản sau:

    • Các cụm dữ liệu có đủ rõ ràng để định hướng cho hành động không?
    • Phương pháp này có phản ánh chính xác cấu trúc thực tế của dữ liệu không?
    • Quy trình này có thể duy trì được mà không cần quá nhiều lao động thủ công không?

    Đây chính là lúc một nền tảng như ELECTE tác dụng. Nền tảng này giúp đơn giản hóa phần kỹ thuật phức tạp nhất trong quá trình thiết lập và tạo điều kiện thuận lợi hơn cho việc so sánh các phương án khác nhau, ngay cả khi doanh nghiệp không có đội ngũ chuyên gia phân tích dữ liệu nội bộ. Giá trị thực sự không nằm ở việc “thực hiện phân cụm”. Mà nằm ở việc lựa chọn một phương pháp phân khúc mà doanh nghiệp có thể hiểu rõ, xác thực và áp dụng vào thực tế.

    Xây dựng và giải thích sơ đồ phân loại Chuyển đổi cây phân loại thành hành động

    Giá trị thực sựcủa phương pháp phân cụm phân cấp kết hợp (agglomerative hierarchical clustering) chỉ thực sự bộc lộ khi bạn xem xét kết quả đầu ra điển hình nhất của nó: sơ đồ cây (dendrogram). Đây không phải là một biểu đồ trang trí. Đây là một bản đồ ra quyết định.

    Một chuyên gia đang tương tác với một giao diện ba chiều hiển thị một sơ đồ cây phức tạp trong một văn phòng hiện đại.

    Cách đọc sơ đồ phân nhánh mà không cần những thuật ngữ chuyên môn rườm rà

    Trên trục ngang, bạn sẽ thấy các quan sát hoặc các nhóm nhỏ các quan sát. Trên trục dọc, bạn sẽ thấy khoảng cách hoặc mức độ khác biệt tại đó các sự hợp nhất xảy ra.

    Quy tắc trực quan quan trọng nhất là: sự hợp nhất diễn ra ở cấp độ càng cao, thì các nhóm được hợp nhất càng khác biệt.

    Điều này giúp bạn thực hiện một việc mà nhiều nhà quản lý đánh giá cao ngay lập tức. Bạn không chỉ đơn thuần chấp nhận số lượng cụm được xác định bởi một công thức “bí ẩn”. Thay vào đó, bạn đang phân tích cấu trúc dữ liệu và quyết định điểm dừng phù hợp nhất.

    Ví dụ:

    • nếu nhiều sự hợp nhất diễn ra ở độ cao thấp, dữ liệu sẽ chứa các nhóm rất giống nhau;
    • nếu tại một thời điểm nào đó xuất hiện một sự chênh lệch rõ rệt, có lẽ bạn đang kết hợp các nhóm vốn đã khá khác biệt;
    • Điểm nhảy đó thường là vị trí thích hợp để chặt cây.

    Biểu đồ phân nhánh chuyển đổi một quyết định thống kê thành một quyết định trực quan. Chính vì vậy, nó rất hữu ích trong các cuộc họp, không chỉ trong môi trường Python.

    Một hình ảnh minh họa có thể giúp ghi nhớ khái niệm này:

    Cách chọn điểm cắt

    Nhiều người thường bối rối ở bước này. “Tôi nên duy trì bao nhiêu cụm?” Câu trả lời trung thực là: điều đó phụ thuộc vào vấn đề mà bạn muốn giải quyết.

    Nếu bạn cần triển khai các hoạt động kinh doanh, quá nhiều cụm sẽ làm phức tạp quá trình vận hành. Ngược lại, nếu bạn đang phân tích các hành vi rất khác nhau, quá ít cụm có thể làm lu mờ các mẫu hành vi hữu ích.

    Một tiêu chí thực tiễn là như sau:

    1. Hãy xem các bước nhảy dọc lớn nhất trong sơ đồ phân nhánh.
    2. Hãy vẽ một đường ngang tại vị trí có sự thay đổi đáng kể.
    3. Hãy đếm số cành đã cắt. Đó chính là số cụm thu được.

    Giả sử đường cắt đó cắt ngang bốn nhánh chính. Bạn sẽ có bốn đoạn. Lúc đó, công việc quản lý không còn mang tính thống kê nữa. Nó trở thành công việc phân tích và diễn giải.

    Hãy tự hỏi bản thân:

    • Các nhóm này có ý nghĩa gì đối với bộ phận tiếp thị, bán hàng hay vận hành?
    • Tôi có thể giải thích cho mọi người hiểu được không?
    • Mỗi nhóm sẽ thực hiện một hành động khác nhau?

    Lưu ý thực tiễn: Cây phân loại tốt nhất không phải là cây có hình thức đẹp nhất. Đó là cây giúp bạn giải thích được lý do lựa chọn cách phân đoạn đó trước những người sẽ sử dụng nó.

    Hướng dẫn thực hành với Python và Scikit-learn

    Bạn có một bộ dữ liệu khách hàng, một số biến hữu ích và một câu hỏi cụ thể: liệu có những nhóm khách hàng nào cần được áp dụng các chiến lược kinh doanh khác nhau không? Python chính là công cụ giúp biến câu hỏi này thành một bài kiểm tra nhanh chóng, dễ hiểu và có thể lặp lại.

    Để làm điều này, người ta thường sử dụng scikit-learn để xây dựng mô hình và SciPy để vẽ biểu đồ phân nhánh. Phần kỹ thuật khá dễ tiếp cận. Điều thực sự tạo nên sự khác biệt đối với một doanh nghiệp vừa và nhỏ chính là việc chuẩn bị dữ liệu một cách chu đáo và phân tích kết quả một cách có căn cứ.

    Chuẩn bị dữ liệu một cách chính xác

    Sai lầm phổ biến nhất xuất phát từ giai đoạn trước khi xây dựng thuật toán. Nếu bạn đưa vào cùng một mô hình cả một biến như doanh thu hàng năm và một biến như số lượng đơn hàng, thì biến có quy mô lớn hơn có nguy cơ chiếm tỷ trọng lớn hơn nhiều. Do đó, cụm kết quả cuối cùng sẽ phản ánh các đơn vị đo lường nhiều hơn là những điểm tương đồng thực sự giữa các khách hàng hoặc sản phẩm.

    Tiêu chuẩn hóa giúp tránh được vấn đề này. Nói một cách đơn giản, bạn đưa các biến số về cùng một thang đo có thể so sánh được. Đây là một lựa chọn đơn giản, nhưng lại mang lại sự thay đổi đáng kể cho kết quả, đặc biệt là khi bạn muốn sử dụng phương pháp liên kết Ward, vốn hoạt động hiệu quả với dữ liệu số được chuẩn bị kỹ lưỡng.

    Trước khi ra mắt mẫu sản phẩm, hãy kiểm tra ba điểm sau:

    • Các biến số trên các thang đo khác nhau. Hãy chuẩn hóa chúng.
    • Biến danh mục. Chuyển đổi chúng sang định dạng mà mô hình có thể sử dụng được.
    • Thiếu giá trị. Hãy xử lý chúng trước, nếu không quá trình phân cụm sẽ trở nên không ổn định hoặc không thể sử dụng được.

    Một ví dụ minh họa hữu ích là như sau: bạn đang so sánh các khách hàng như thể phải đánh giá họ bằng cùng một đơn vị đo lường. Nếu một khách hàng được đo lường bằng euro còn khách hàng khác bằng số liệu thô, thì sự so sánh đó đã bắt đầu trong tình trạng mất cân bằng.

    Ví dụ cơ bản về việc triển khai

    Dưới đây là một ví dụ cơ bản với scikit-learn:

    import pandas as pdfrom sklearn.preprocessing import StandardScalerfrom sklearn.cluster import AgglomerativeClustering# Esempio: dataset con variabili numerichedf = pd.DataFrame({"frequenza_acquisto": [12, 10, 2, 3, 15, 1],"scontrino_medio": [80, 75, 20, 25, 95, 15],"numero_categorie": [5, 4, 1, 2, 6, 1]})# 1. Scalingscaler = StandardScaler()X_scaled = scaler.fit_transform(df)# 2. Modellomodel = AgglomerativeClustering(n_clusters=3,linkage="ward")# 3. Assegnazione clusterlabels = model.fit_predict(X_scaled)df["cluster"] = labelsprint(df)

    Mã nguồn rất ngắn gọn. Việc đọc hiểu về quản lý mới là điều quan trọng hơn.

    Trong ví dụ này, bạn đang yêu cầu mô hình: "Hãy nhóm các quan sát này thành 3 cụm, bằng cách dần dần gộp các trường hợp tương đồng nhất lại với nhau". Kết quả cuối cùng là cột cụm, tức là nhãn được gán cho mỗi hàng trong tập dữ liệu. Từ đó, công việc mang lại giá trị cho doanh nghiệp bắt đầu: tìm hiểu điều gì phân biệt cụm 0 với cụm 1, và những quyết định nào xứng đáng được đưa ra.

    Nếu bạn muốn xem cả cấu trúc phân cấp đầy đủ, bạn thường sẽ sử dụng scipy.cluster.hierarchy.linkage cùng với cây phân loại. Scikit-learn giúp bạn xác định các nhóm. SciPy giúp bạn hiểu cách các nhóm đó hình thành.

    Ba quyết định thực sự quan trọng

    Trong doanh nghiệp, giá trị của việc phân cụm không phụ thuộc vào mức độ phức tạp của hệ thống. Nó phụ thuộc vào chất lượng của ba quyết định.

    • Nên bao gồm những biến nào. Nếu bạn chọn các cột không thực sự hữu ích, bạn sẽ thu được các cụm dữ liệu khó giải thích.
    • Nên sử dụng mô hình liên kết nào. Mô hình Ward thường là một nền tảng tốt với dữ liệu số đã được chuẩn hóa, nhưng không phải lúc nào cũng là lựa chọn tối ưu cho mọi vấn đề.
    • Cần bao nhiêu cụm để kết quả đầu ra có thể sử dụng được. Một mô hình gồm 8 cụm có thể trông có vẻ chính xác, nhưng lại trở nên khó quản lý đối với các bộ phận tiếp thị, bán hàng hoặc vận hành.

    Ở đây, ta có thể thấy sự khác biệt giữa một bài tập kỹ thuật và một công cụ ra quyết định. Một nhà quản lý không cần phải "phân cụm" một cách trừu tượng. Họ cần các phân khúc có thể đặt tên, giải thích và áp dụng được.

    Vì vậy, nếu bạn đang làm việc với Python, đừng chỉ dừng lại ở nhãn được mô hình gán cho. Hãy xem xét giá trị trung bình của các biến cho từng cụm, so sánh các hồ sơ đã xuất hiện và tự hỏi ngay: liệu nhóm này có cần một cách xử lý khác so với các nhóm còn lại không? Nếu câu trả lời là không, thì vấn đề không nằm ở mã nguồn. Thông thường, vấn đề nằm ở việc lựa chọn biến, phương pháp liên kết hoặc điểm cắt.

    Các ví dụ ứng dụng giúp phát triển doanh nghiệp của bạn

    Một thuật toán chỉ thực sự có ý nghĩa khi nó mang lại một thay đổi cụ thể. Phương pháp phân cụm phân cấp kết hợp (Agglomerative hierarchical clustering ) trở nên hữu ích khi nó biến các hàng dữ liệu trong cơ sở dữ liệu thành các phân khúc mà doanh nghiệp có thể tận dụng.

    Phân khúc khách hàng thực sự hữu ích cho hoạt động tiếp thị

    Nhiều doanh nghiệp vừa và nhỏ vẫn phân khúc khách hàng theo cách rất đơn giản. Tuổi tác, khu vực địa lý, có thể là mức doanh thu. Đó là bước khởi đầu, nhưng thường là chưa đủ.

    Với phương pháp phân cụm phân cấp, bạn có thể kết hợp các biến số hành vi như tần suất mua hàng, giá trị đơn hàng trung bình, danh mục ưa thích và phản ứng với các chương trình khuyến mãi. Kết quả thu được không chỉ là một danh sách các hồ sơ. Đó là một hệ thống phân cấp giúp bạn nhận ra những nhóm nào thực sự có mối liên hệ chặt chẽ với nhau và những nhóm nào cần được tiếp cận bằng các thông điệp khác nhau.

    Điều này giúp đội ngũ tiếp thị đưa ra những quyết định chính xác hơn:

    • Khách hàng thân thiết cần được chăm sóc thông qua các chương trình khách hàng thân thiết
    • Khách hàng thỉnh thoảng mua hàng cần được kích hoạt lại thông qua các chiến dịch chuyên biệt
    • Khách hàng mới cần được hỗ trợ trong lần mua hàng thứ hai
    • Các đối tượng có dấu hiệu bất ổn cần được theo dõi trước khi họ rời đi

    Sản phẩm và hàng tồn kho

    Trong lĩnh vực bán lẻ và thương mại điện tử, phân cụm không chỉ giúp hiểu rõ khách hàng mà còn giúp hiểu rõ các sản phẩm.

    Bạn có thể phân nhóm các sản phẩm dựa trên xu hướng bán hàng, thói quen mua kèm, tính thời vụ hoặc phản ứng với các chương trình khuyến mãi. Điều này giúp cải thiện các quyết định vận hành khác nhau:

    • Phân loại. Hiểu rõ những sản phẩm nào có đặc điểm tương tự nhau.
    • Chương trình khuyến mãi. Tạo các gói sản phẩm phù hợp hơn.
    • Hàng tồn kho. Tránh đối xử như nhau với các mặt hàng có đặc điểm hoàn toàn khác biệt.

    Lợi thế về mặt quản lý ở đây là rất rõ ràng. Bạn không chỉ xem xét từng SKU riêng lẻ. Thay vào đó, bạn đang xác định các nhóm sản phẩm có thể được lập kế hoạch một cách tổng thể.

    Khi các sản phẩm được phân loại thành các nhóm tương tự nhau, các quyết định về đặt hàng lại và khuyến mãi cũng trở nên nhất quán hơn.

    Rủi ro tài chính và an ninh mạng

    Trong lĩnh vực tài chính, phân cụm có thể giúp phân biệt các mẫu dữ liệu bình thường với những mẫu cần được phân tích thêm. Phương pháp này không thể thay thế các biện pháp kiểm soát theo quy định hay các mô hình chuyên sâu, nhưng có thể là một công cụ hữu ích để nhóm các hành vi tương tự lại với nhau và phát hiện ra các bất thường.

    Ngoài ra, còn có một hướng đi thú vị trong lĩnh vực an ninh mạng. Một xu hướng mới nổi liên quan đến việc sử dụng AHC tiên tiến để phân tích lưu lượng mạng tại các doanh nghiệp vừa và nhỏ (SME) của Ý. Vào năm 2025, các cuộc tấn công ransomware nhằm vào các doanh nghiệp công nghệ thông tin (IT) vừa và nhỏ của Ý đã tăng 27%, và các khung AHC dựa trên tích nội đã cải thiện khả năng phát hiện các giá trị ngoại lệ lên 18% trên bộ dữ liệu lưu lượng mạng của Ý (tham khảo bài báo trên tạp chí JMLR được trích dẫn tại đây).

    Điều này rất hữu ích nếu được hiểu đúng cách. Điều đó không có nghĩa là mọi doanh nghiệp vừa và nhỏ đều phải ngay lập tức xây dựng một hệ thống phân cụm cho mục đích bảo mật. Tuy nhiên, điều đó có nghĩa là phân cụm theo cấp bậc không chỉ giới hạn trong lĩnh vực tiếp thị hay bán lẻ. Nó có thể trở thành một khung phân tích đa chiều, từ hành vi khách hàng cho đến việc giám sát rủi ro.

    Cách ELECTE quá trình phân cụm cho doanh nghiệp của bạn

    Bạn có dữ liệu khách hàng trong hệ thống CRM, đơn hàng trên nền tảng thương mại điện tử, tỷ suất lợi nhuận trong tệp Excel và một số thông tin vận hành trong hệ thống quản lý doanh nghiệp. Chừng nào các dữ liệu này vẫn còn tách biệt, việc phân cụm chỉ là một bài tập lý thuyết. Đối với một doanh nghiệp vừa và nhỏ, vấn đề không phải là nhận ra rằng việc phân cụm có thể hữu ích. Vấn đề là làm sao để tạo ra các cụm dữ liệu dễ hiểu, nhất quán và đủ tin cậy để làm cơ sở cho các quyết định kinh doanh hoặc vận hành.

    Chính ở điểm này, một nền tảng như ELECTE công việc thủ công và làm cho phương pháp này trở nên thiết thực hơn đối với những người cần ra quyết định, chứ không phải lập trình.

    Điều gì thực sự khiến một đội ngũ nội bộ bị đình trệ

    Trên thực tế, có bốn trở ngại thường gặp.

    • Các nguồn dữ liệu được phân tán giữa hệ thống CRM, thương mại điện tử, tệp tin cục bộ và các công cụ tài chính
    • Các biến số này khó xử lý vì chúng có các thang đo và đơn vị khác nhau
    • Việc lựa chọn mô hình liên kết không mấy trực quan, đặc biệt là khi chưa rõ nên ưu tiên tính gọn gàng, độ ổn định hay độ nhạy cảm với các giá trị ngoại lệ
    • Kết quả đầu ra khó hiểu đối với các nhà quản lý và đội ngũ vận hành không làm việc với Python hàng ngày

    Điểm thường bị đánh giá thấp nhất chính là: thuật toán thôi là chưa đủ. Cần có một quy trình chuyển đổi dữ liệu thô thành các phân khúc mà doanh nghiệp có thể tận dụng. ELECTE ngay từ bước đầu tiên bằng cách kết nối các nguồn dữ liệu của doanh nghiệp một cách có hệ thống. Nếu bạn muốn xem các tích hợp nào hiện có sẵn, hãy truy cập trang danh sách các nguồn dữ liệu có thể kết nối trong ELECTE.

    Ảnh chụp màn hình từ https://www.electe.net/placeholder-dashboard-clustering.jpg

    Ngoài ra còn có một khó khăn thứ hai, mang tính chiến lược hơn là kỹ thuật. Việc lựa chọn phương pháp liên kết không phù hợp có thể dẫn đến việc tạo ra các nhóm khách hàng không mang lại nhiều giá trị cho doanh nghiệp, ngay cả khi mô hình đã được thực hiện đúng cách. Một nhà quản lý không cần phải nắm rõ từng chi tiết toán học. Điều họ cần là hiểu được cấu hình nào sẽ tạo ra các phân khúc đủ ổn định để hỗ trợ một chiến dịch tiếp thị, chính sách tồn kho hoặc việc rà soát danh mục khách hàng.

    Những thay đổi khi áp dụng quy trình làm việc tự động

    Với quy trình làm việc tự động, quá trình này giống một dây chuyền sản xuất được tổ chức bài bản hơn là một chuỗi các thử nghiệm thủ công. Dữ liệu được nhập vào, được xử lý một cách nhất quán, các cấu hình khác nhau được so sánh với nhau và kết quả cuối cùng được trình bày dưới dạng dễ đọc.

    Cụ thể, quy trình có thể diễn ra theo các bước sau:

    1. Tập hợp dữ liệu từ các hệ thống của doanh nghiệp vào một nền tảng duy nhất.
    2. Hãy thiết lập các biến số theo các quy tắc nhất quán, để doanh thu không chiếm tỷ trọng quá lớn so với tần suất mua hàng.
    3. So sánh nhiều thiết lập phân cụm mà không cần phải lặp lại từng thử nghiệm một cách thủ công.
    4. Đọc các nhóm dữ liệu có thể giải thích được, kèm theo các nhãn và mẫu dữ liệu có ý nghĩa đối với bộ phận bán hàng, tiếp thị hoặc vận hành.
    5. Hãy chuyển các nhóm khách hàng thành các quyết định cụ thể, chẳng hạn như các ưu tiên kinh doanh, phân khúc tiếp thị hoặc chính sách đặt hàng lại.

    Lợi ích không nằm ở chính việc tự động hóa. Mà nằm ở chỗ thời gian của đội ngũ được dành cho phần quan trọng nhất: phân tích sơ đồ phân nhánh, lựa chọn mức độ phân đoạn phù hợp và quyết định cách xử lý các nhóm đó.

    Đối với một doanh nghiệp vừa và nhỏ (SME), điều này mang lại sự thay đổi lớn. Thay vì phải băn khoăn một cách trừu tượng về việc nên sử dụng phương pháp Ward, trung bình hay toàn diện, việc so sánh giờ đây trở nên thiết thực hơn: phương pháp nào sẽ tạo ra các cụm dữ liệu rõ ràng hơn cho khách hàng, sản phẩm và mục tiêu của chúng ta? ELECTE câu hỏi này ELECTE dễ dàng hơn, ngay cả khi doanh nghiệp không có đội ngũ chuyên gia dữ liệu nội bộ.

    Do đó, tự động hóa không thay thế được sự phán đoán của nhà quản lý. Nó chỉ giúp đặt sự phán đoán đó vào đúng vị trí trong quy trình.

    Kết luận và những điểm chính cần ghi nhớ

    Phương phápphân cụm phân cấp kết hợp (Agglomerative hierarchical clustering ) không chỉ là một chủ đề trong chương trình đại học. Đây là một công cụ thiết thực giúp sắp xếp dữ liệu vốn dĩ vẫn còn rời rạc.

    Có một số điểm chính cần lưu ý, tuy ít nhưng rất quan trọng:

    • Bắt đầu từ dưới lên trên. Mỗi quan sát đều bắt đầu từ riêng lẻ và dần dần được kết hợp với những quan sát tương tự khác.
    • Phương pháp này không đặt ra giới hạn k ngay từ đầu. Điều này khiến phương pháp trở nên hữu ích khi bạn chưa biết chính xác nên chia thành bao nhiêu đoạn.
    • Việc lựa chọn liên kết sẽ ảnh hưởng đến kết quả. Các loại liên kết Ward, complete, average và single không tạo ra cùng một cấu trúc.
    • Sơ đồ phân nhánh giúp đưa ra quyết định. Nó không chỉ là một hình thức trình bày trực quan. Đó là một công cụ giúp chuyển hóa cấu trúc thống kê thành các hành động quản lý.

    Đối với một doanh nghiệp vừa và nhỏ, giá trị thực sự nằm ở đây. Đó là việc hiểu rõ hơn về khách hàng, sản phẩm và các hoạt động kinh doanh mà không chỉ dựa vào trực giác. Nếu đội ngũ của bạn có kiến thức kỹ thuật, bạn có thể bắt đầu với Python và scikit-learn. Ngược lại, nếu bạn muốn nhanh chóng thu được những thông tin phân tích dễ hiểu, một phương pháp tự động hóa sẽ giúp giảm thiểu rào cản và tiết kiệm thời gian.

    Vấn đề không phải là sử dụng một thuật toán “tiên tiến”. Vấn đề là đưa ra những quyết định rõ ràng hơn, dựa trên bối cảnh cụ thể hơn và ít bị nhiễu loạn hơn.


    Nếu bạn muốn biến dữ liệu rời rạc thành các phân khúc rõ ràng và các quyết định thực tiễn, hãy tìm hiểu cách ELECTE làm cho việc phân tích trở nên dễ tiếp cận ngay cả khi không có đội ngũ chuyên gia dữ liệu. Bạn có thể kết nối các nguồn dữ liệu của mình, thu được những thông tin chi tiết dễ hiểu và chuyển từ phân tích sang hành động nhanh hơn.