Escala multidimensional

A escala multidimensional (também escala multidimensional , ou análise de estrutura de similaridade , abreviado: MDS ) é um conjunto de procedimentos de estatísticas multivariadas . Seu objetivo formal é organizar espacialmente os objetos de modo que as lacunas ( distâncias ) entre os objetos na sala correspondam o mais precisamente possível às dissimilaridades / semelhanças levantadas . Quanto mais distantes os objetos estão, mais diferentes eles são, e quanto mais próximos estão um do outro, mais semelhantes eles são. Informações sobre pares de objetos são, portanto, coletadas a fim de determinar informações métricas sobre os objetos dos mesmos.

A solução de escalonamento multidimensional, a chamada configuração , costuma ser estimada em duas ou três dimensões, o que facilita sua interpretação. Em princípio, a configuração pode ser determinada para objetos em até um espaço unidimensional. Além da configuração espacial dos objetos, o dimensionamento multidimensional fornece uma série de indicadores (por exemplo, Tensão1, Tensão S, ALSCAL, coeficiente de determinação , etc.) que avaliam a qualidade da configuração.

A escala multidimensional remonta ao psicólogo Warren S. Torgerson (publicações 1952–1968). Os métodos estatísticos mais importantes são escalonamento multidimensional métrico e não métrico de acordo com Kruskal.

Um exemplo de aplicação para dimensionamento multidimensional é o ajuste de propriedade em marketing .

Diferentes procedimentos de MDS

Nos vários métodos MDS, uma distinção geral pode ser feita entre aqueles para matrizes quadradas e aqueles para matrizes retangulares. No caso de dados referidos como matriz condicional, os valores máximos que podem ser comparados entre si estão dentro de uma matriz e, portanto, no caso de dados condicionais de linha, apenas os valores dentro de uma linha.

Três modelos de constelações podem ser distinguidos:

  • MDS simples: uma matriz e uma configuração (pressupõe-se um espaço perceptivo inerente a todos os assuntos, que não é verificado pelo modelo.)
  • MDS repetido: mais de uma matriz, mas também apenas uma configuração (mesma hipótese do MDS simples, mas aqui isso é verificado pelo modelo)
  • INDSCAL: mais de uma matriz e mais de uma configuração, mais precisamente, fatores de compressão e / ou alongamento são atribuídos a cada matriz individual para cada dimensão e aplicados a uma configuração geral. Assume-se um espaço perceptivo inerente a todos os sujeitos, cujas dimensões, no entanto, são avaliadas individualmente como de importância diferente, o que é verificado pelo procedimento.

Os procedimentos para dados condicionais de linha incluem:

  • Método do ponto de ancoragem: um objeto serve como ponto de referência para todos os outros objetos. A matriz é então quadrada, mas assimétrica e, portanto, condicional de linha.
  • Desdobramento multidimensional (MDU): não um objeto, mas todo sujeito é interpretado como um ponto de ancoragem.

Escala métrica multidimensional

O objetivo da escala multidimensional métrica é organizar objetos com distâncias no espaço de alta dimensão em um espaço de dimensão menor de forma que as distâncias euclidianas neste espaço sejam tão exatamente quanto possíveis as mesmas distâncias . Essa configuração pode ser facilmente interpretada usando a métrica euclidiana , uma vez que as distâncias entre os objetos correspondem às suas distâncias em linha reta.

Além das medidas de distância euclidiana, as métricas usadas em análises fatoriais também são comuns. A métrica Manhattan , entre outras coisas, é usada em modelos discretos .

Se as medidas de similaridade entre objetos são dadas como valores iniciais em vez de distâncias , então estes podem ser determinados pela transformação

traduzir em distâncias.

algoritmo

O procedimento para escalonamento multidimensional pode ser descrito em 4 etapas:

  1. Definir matriz com
  2. Definir matriz com onde denota a média da linha , a média da coluna e a média de todos os elementos de .
  3. Determinar os valores próprios e associados autovetores da matriz com a propriedade: .
  4. As coordenadas dos pontos em que os dados a ser escalado espaço dimensional são então obtidos a partir dos vectores eigen que correspondem aos maiores valores próprios: .

exemplo

As distâncias das conexões de carro mais rápidas entre diferentes cidades são fornecidas e as coordenadas das cidades são procuradas.

Berlim Frankfurt Hamburgo Colônia Munique
Berlim 0 548 289 576 586
Frankfurt 548 0 493 195 392
Hamburgo 289 493 0 427 776
Colônia 576 195 427 0 577
Munique 586 392 776 577 0

A escala multidimensional métrica para uma configuração em duas dimensões com resultados estatísticos de software

cidade X Y Configuração gráfica
Berlim 0,8585 -1,1679 Mds staedte.png
Frankfurt -0,6363 0,6660
Hamburgo 1,5036 0,0800
Colônia -0,0438 1,1760
Munique -1,6821 -0,7542

A configuração encontrada é única, exceto para rotação e dimensionamento:

  • Cada solução rotacionada fornece naturalmente as mesmas distâncias (euclidianas) entre as cidades e, portanto, essas soluções são equivalentes.
  • Devido à padronização no algoritmo , uma multiplicação uniforme da distância de todas as cidades do ponto zero fornece as mesmas coordenadas para as cidades.

Escala multidimensional não métrica

O dimensionamento multidimensional não métrico visa expandir o dimensionamento multidimensional métrico em dois aspectos:

  1. Nenhuma especificação de uma função explícita para converter (in) semelhanças em distâncias e
  2. o uso de geometrias não euclidianas para encontrar configurações.

Se as diferenças são relacionadas com as distâncias ao longo , então esta função deve ser fracamente monótona : se ele se aplica , então deve aplicar .

Portanto, os pares de dissimilaridades são classificados

então a condição de monotonia resulta

.

Algoritmo Shepard-Kruskal

O algoritmo Shepard-Kruskal determina a configuração iterativamente :

  1. Inicialização : Escolha a dimensionalidade desejada e organize os objetos aleatoriamente no espaço alvo. (Pois os resultados muitas vezes podem ser apresentados de forma clara.) Calcule as distâncias entre todos os objetos e .
  2. Etapa : Estimar as disparidades dos objetos e usando sua distância . O algoritmo Pool-Adjacent Violators (veja abaixo) pode ser usado para isso.
  3. Condição de finalização: assim que um dos critérios de finalização selecionados (consulte a seção a seguir) for alcançado para o processo iterativo, o processo iterativo termina com a configuração encontrada, que é ótima (possivelmente apenas localmente). Caso contrário, continue com o ponto 4.
  4. Ajuste das posições às disparidades: Calcule os novos valores de coordenadas para todos os pares de objetos e (veja abaixo), por ex. B. semelhante a um método gradiente . Determine as distâncias para as novas posições e continue com o ponto 2.

Algoritmo de violadores adjacentes à piscina

  • Se a condição de monotonia não for violada entre dois pontos adjacentes, usamos a respectiva distância como disparidade, ou seja .
  • Se a condição de monotonicidade entre dois ( ) ou mais ( ) pontos adjacentes for prejudicada, então usamos a média das distâncias correspondentes do que as disparidades .

Quais transformações são permitidas ao calcular as disparidades depende do nível de escala dos dados brutos. As distâncias no espaço perceptivo podem, entretanto, assumir um nível de escala diferente. A extensão em que um aumento no nível de escala é permissível é avaliada usando o quociente de compressão Q (número de semelhanças / (número de dimensões * número de objetos)). Com o MDS "simples", os dados brutos já estão disponíveis de forma agregada, portanto, representam principalmente os valores médios das respostas dos entrevistados.

Cálculo das novas posições

A nova posição é calculada como

.

É a posição do objeto no momento e um fator de ponderação (escolha não muito grande, pois o valor da tensão também pode se deteriorar - geralmente 0,2).

Se dois objetos estão muito distantes em relação à sua similaridade ( é maior que 1, o que torna a expressão entre colchetes negativa), eles são empurrados um em direção ao outro (a direção é determinada pela diferença no segundo colchete). Dois objetos bastante diferentes que estão muito próximos são afastados um do outro. Isso geralmente diminui o valor de estresse e a iteração continua com a etapa 2, o que geralmente diminui o valor de estresse novamente.

exemplo

Com base no exemplo acima , podemos classificar as distâncias e configurar a condição de monotonia:

Distância: < < < < < < < < <
Condição de monotonia: < < < < < < < < <

No início, uma configuração aleatória foi escolhida:

posição Distância para
Lugar, colocar X Y Berlim Frankfurt Hamburgo Colônia Munique
Berlim 0,9961 -1.5759 0
Frankfurt -1,1453 0,7840 3,1866 0
Hamburgo -0,7835 0,9408 3.0824 0,3942 0
Colônia -0,1025 -0,0208 1,9041 1,3172 1,1783 0
Munique 1.0352 -0,1281 1,4483 2,3635 2,1096 1,1428 0

isto resulta em:

Monotônico:
PAV
Solução de escalonamento multidimensional não métrico

As distâncias euclidianas calculadas mostram que a condição de monotonia é violada em duas áreas:

  1. e
  2. .

As disparidades são, portanto, calculadas como os valores médios (1,7546 e 1,9447) das áreas correspondentes. Com as disparidades, as posições dos pontos agora podem ser alteradas. Este procedimento é iterado e leva à solução mostrada aqui.

Rescisão ou critérios de qualidade

O objetivo do processo é uma adaptação ideal da solução MDS aos dados brutos e, portanto, o menor STRESS possível ou valor de energia ou o maior grau de certeza possível. Esses valores devem ser entendidos como a diferença entre disparidade e distância. Se os valores não mudam mais ou mudam apenas ligeiramente, o processo de iteração é encerrado.

Dimensões de STRESS

O valor de STRESS (STRESS para Standardized REsidual Sum of Squares , German: standardized residual sum of square ) é calculado (de acordo com Kruskal ) como a raiz da soma dos desvios quadrados das disparidades das distâncias, dividido pela soma dos distâncias ao quadrado. STRESS é, portanto, uma medida padronizada de variação:

Qualidade de ajuste STRESS 1 STRESS 2
baixo 0,2 0,4
suficiente 0,1 0,2
Boa 0,05 0,1
excelente 0,025 0,05
Perfeito 0 0

Uma medida alternativa de STRESS é

com a média de todas as distâncias.

Em princípio, não há especificações exatas para as quais o valor de STRESS ainda seja aceitável e que possa ser descrito como “bom”. “Para ter uma norma, examinou-se o 'zero de todas as hipóteses nulas' e escalou milhares de dados aleatórios via MDS e registrou quais valores de estresse resultaram” (cf. BORG / STAUFENBIEL 1989). Kruskal criou valores de referência para o valor STRESS que você pode usar como guia.

Coeficiente de determinação

Além do simples critério de custo STRESS, uma medida alternativa é usada como critério de qualidade para adaptar a configuração aos dados brutos. O coeficiente de determinação é a correlação quadrática das distâncias com as disparidades e pode ser visto como o nível do ajuste linear das disparidades às distâncias. Na prática, valores maiores que 0,9 são considerados aceitáveis ​​para o coeficiente de determinação.

energia

A ponderação das somas na fórmula leva a medidas de energia

Programas

O MDS pode ser executado automaticamente em programas estatísticos como o SPSS . Em R , a função cmdscale executa um MDS. É o mesmo com o Matlab , que o MDS fornece com a função mdscale .

literatura

  • Thomas A. Runkler: Métodos e algoritmos de mineração de dados para análise inteligente de dados . Vieweg + Teubner, 2010, pp. 41–47.
  • WS Torgerson: Teoria e Métodos de Escala . Wiley, New York 1958.
  • I. Borg, Th. Staufenbiel: Teorias e métodos de dimensionamento . Huber, Berna 2007.
  • Backhaus, Erichson, Plinke, Weiber: Métodos de análise multivariada . Springer Verlag, Berlim 2000
  • R. Mathar: escala multidimensional . Teubner, Stuttgart 1997
  • I. Borg, P. Groenen: Modern Multidimensional Scaling: Theory and Applications . Springer, Nova York 2005.

Evidência individual

  1. a b J. B. Kruskal. Escala multidimensional otimizando a qualidade do ajuste a uma hipótese não métrica. In: Psychometrika , 29 (1), 1964, pp. 1-27, doi : 10.1007 / BF02289565
  2. Kappelhoff: Escala multidimensional - exemplo para análise de dados. (PDF) Cadeira para Pesquisa Econômica e Social Empírica, 2001
  3. Wojciech Basalaj: Visualização de proximidade de dados abstratos . (PDF; 7,7 MB) 2001; Recuperado em 19 de junho de 2013