COS'È LA CLUSTER ANALYSIS
Il metodo più comune per analizzare i complessi dati raccolti attraverso il card sorting è un metodo statistico chiamato cluster analysis.
La cluster analysis è un insieme di procedure (algoritmi) che si prefiggono di classificare o raggruppare elementi in classi tali che:
- al loro interno ci sia la massima somiglianza tra gli elementi che li costituiscono (gli oggetti appartenenti a ciascun cluster);
- ogni classe sia relativamente distinta dalle altre
Il criterio di classificazione utilizzato dai tool è quello gerarchico.
La struttura logica dei metodi agglomerativi può essere così sintetizzata:
1) Nello stadio iniziale ciascuna unità costituisce un gruppo separato.
2) I due gruppi che possiedono distanza minima vengono fusi; la distanza a cui avviene la fusione viene registrata.
3) Si calcola la distanza tra il nuovo gruppo, sorto dalla fusione di cui al punto precedente, e i gruppi già esistenti.
4) Vengono ripetuti i passi 2 e 3 finché non si giunge ad una configurazione in cui esiste un solo gruppo.
I metodi proposti differiscono per le modalità di calcolo della distanza tra gruppi al punto 3. Lo strumento grafico che consente di sintetizzare il processo di fusione è il dendrogramma, dal quale è anche possibile apprezzare quanto un gruppo sia separato dagli altri. Il rapporto tra il livello di distanza a cui un gruppo viene formato e quello a cui si fonde con un altro puòessere utilizzato poiché è tanto più elevato quanto più il grappolo è delimitato e separato dai rimanenti.
Gli algoritmi più comuni utilizzati per la composizione dei gruppi sono:
Legame singolo [Single-Linkage] - Vicino più prossimo [Nearest Neighbor]
La distanza tra gli elementi è la minima distanza esistente tra due elementi dei cluster.
Definizione del legame singolo
La distanza di c1 da c2 è data dalla minore distanza possibile tra un elemento di c1 e un elemento di c2.
Calcolo del legame singolo
Gli elementi che sono gli uni rispetto agli altri a distanza minima vengono assegnati ad un unico gruppo; si calcola poi la distanza tra questo gruppo appena formato e i rimanenti elementi come la minima distanza tra le unità del gruppo e le altre unità. Se si sono già formati dei gruppi si calcola la distanza tra il gruppo appena formato e gli altri gruppi come la minima distanza tra gli elementi del gruppo appena formato e gli elementi degli altri gruppi. Si ripete il procedimento fino a che tutti gli elementi sono nello stesso gruppo.
Caratteristiche del legame singolo
L'adozione di questo algoritmo per la composizione dei gruppi evidenzia in maniera netta e decisamente più accentuata rispetto agli altri due algoritmi tutte le similitudini e somiglianze tra gli elementi: privilegia la differenza tra i gruppi piuttosto che l'omogeneità degli elementi di ogni gruppo. il dendrogramma costruito su questa matrice ha i rami molto più corti ed è più compatto: questo proprio perché vengono valorizzate le somiglianze
Legame completo [Complete-Linkage] - Vicino più lontano [Furthest Neighbor]
La distanza tra gli elementi è la massima distanza esistente tra due elementi dei cluster
Definizione del legame completo
La distanza di c1 da c2 è data dalla distanza massima tra un elemento di c1 e un elemento di c2.
Calcolo del legame completo
Si basa su un algoritmo del tutto simile a quello del legame singolo con la sola differenza che la distanza tra il gruppo appena formato e ognuno dei rimanenti elementi (o gruppi) è calcolato come la massima distanza tra gli elementi del gruppo e gli elementi rimanenti
Caratteristiche del legame completo
L'adozione di questo algoritmo per la composizione dei gruppi evidenzia in maniera netta le differenze tra elementi: privilegia l'omogeneità tra gli elementi del gruppo a scapito della differenziazione netta tra gruppi. il dendrogramma costruito su questa matrice ha i rami molto più lunghi, i gruppi (e soprattutto i rami) si formano a distanze maggiori. in uno stesso range di valori, rispetto al legame singolo, gli elementi sono molto meno compatti e più diluiti.
Legame medio [Average-Linkage]
La distanza tra i cluster è la massima distanza esistente tra qualsiasi due elementi dei cluster
Definizione del legame medio
La distanza di c1 da c2 è data dalla media delle distanze di tutti i punti di c1 da tutti i punti di c2.
Calcolo del legame medio
La distanza tra gruppi è calcolata come media aritmetica semplice delle distanze tra tutti gli elementi che compongono i due gruppi.
Caratteristiche del legame medio
L'adozione di questo algoritmo per la composizione dei gruppi semplifica notevolmente la composizione dell'albero costruito con l'algoritmo completo, mente rispetto a quello costruito sull'algoritmo singolo rappresenta una movimentazione e differenziazione.
Essendo basato sulla media delle distanze, i risultati sono più attendibili e i gruppi risultano più omogenei e ben differenziati tra di loro.
Per capire meglio la differenza che intercorre tra i tre diversi metodi di calcolo delle distanze, confrontiamo i tre dendrogrammi generati.
Utilizzando il legame singolo i gruppi si formano ad una distanza minore rispetto agli altri due ed è evidente come le somiglianze vengano privilegiate.
Con il metodo del legame completo i gruppi si formano ad una distanza maggiore rispetto agli altri due dendrogrammi: in questo caso le differenze vengono amplificate.
Il metodo del legame medio permette di creare gruppi più omogenei e ben differenziati tra di loro.
|