Métodos de estimativa robustos

Método de estimativa robusto é um termo usado em estatísticas inferenciais . Um procedimento de estimativa ou procedimento de teste é considerado robusto se não reagir com sensibilidade a outliers (valores fora de uma faixa de valores esperados com base em uma distribuição).

Os métodos clássicos de estimativa , que foram desenvolvidos na primeira metade do século 20, muitas vezes tendem a dar resultados enganosos quando há outliers na amostra . Um método de estimativa robusto é, portanto, baseado na maior parte dos dados e integra uma análise de outlier para reduzir a influência dos desvios do modelo e torná-lo próximo de zero com o aumento do desvio.

O desenvolvimento de estimadores robustos para aumentar a eficiência dos métodos de estimativa tem sido uma importante preocupação de pesquisa em estatística matemática desde a década de 1980. Os processos robustos incluem, por exemplo, o algoritmo RANSAC e processos que têm uma alta resistência ao ponto de interrupção .

exemplo

Um método de estimativa simples e robusto é a mediana (empírica) , que pode ser usada em vez da média aritmética para estimar o valor esperado de uma distribuição simétrica . A mediana empírica é obtida classificando as observações de acordo com o tamanho e, em seguida, escolhendo o valor médio da observação em ordem como o valor estimado. Um exemplo: um certo número de medições são realizadas a fim de determinar uma quantidade física (como a constante gravitacional) experimentalmente. Supõe-se que os erros de medição que ocorrem são assistemáticos e podem ir em ambas as direções, ou seja, os valores medidos às vezes são muito grandes, às vezes muito pequenos; formalmente mais preciso: observações independentes e identicamente distribuídas com distribuição simétrica e o valor verdadeiro da variável a ser determinado como o valor esperado. Ocasionalmente, existem valores medidos individuais que diferem significativamente dos outros (“outliers”, os desvios do modelo descritos acima); eles geralmente podem ser atribuídos a erros na implementação do experimento (“sacudir” o aparelho, “prescrever”, etc.). Embora desvios extremos tendam a indicar um erro e, portanto, tais observações devam ter menos influência no resultado, eles têm uma forte influência na média aritmética; quanto mais pronunciado o desvio, maior a influência. A mediana, por outro lado, é insensível a esses outliers, por isso é “robusta”. Se não houver outliers, no entanto, se houver o mesmo número de valores medidos, geralmente fornece uma estimativa mais imprecisa, uma vez que "em pequena escala" a estimativa é determinada apenas por uma única - ou seja, a média - observação.

O valor esperado de uma distribuição t com 2 graus de liberdade é estimado por uma amostra de tamanho 10.

Com variáveis ​​aleatórias normalmente distribuídas , os valores discrepantes são bastante improváveis ​​e a média aritmética fornece uma boa estimativa do valor esperado. Em contraste, no caso de uma distribuição t com um pequeno número de graus de liberdade, a probabilidade de outliers é significativamente aumentada devido às severas caudas de distribuição. Na figura à direita, ambas as estimativas são precisas em relação às expectativas , mas a mediana tem uma variância menor do que a média aritmética, o que demonstra a robustez da mediana contra outliers. À medida que o número de graus de liberdade aumenta, a distribuição t converge para a distribuição normal e os valores discrepantes tornam-se menos prováveis. Nesse caso, a variância da média aritmética é menor porque mais informações dos dados são usadas.

Veja também

literatura

  • P. Huber : Estimativa robusta de um parâmetro de localização . In: The Annals of Mathematical Statistics . 35, 1964.
  • Frank R. Hampel e outros: Robust Statistics. A abordagem baseada em funções de influência . Wiley, New York 1986, ISBN 0-471-73577-9 .
  • Helmuth Späth: Software matemático para regressão linear . Oldenbourg, Munich 1987, ISBN 3-486-20375-4 .
  • Helga Bunke, Olaf Bunke: regressão não linear, relações funcionais e métodos robustos . Volume 2: Relações funcionais não lineares e métodos robustos . Wiley, New York et al. 1989, ISBN 0-471-91239-5 .
  • Werner Stahel (Ed.): Directions in Robust Statistics and Diagnostics . 2 volumes. (Volumes 33 e 34 do The IMA Volumes in Mathematics and its Applications .) Springer, Berlin et al. 1991, ISBN 3-540-97530-6 , ISBN 3-540-97531-4 .
  • Karl-Rudolf Koch: Estimação de parâmetros e testes de hipótese . 3ª Edição. Dümmler, Bonn 1997, ISBN 3-427-78923-3 .
  • David C. Hoaglin, Frederick Mosteller, John W. Tukey: Understanding Robust and Exploratory Data Design . Wiley, New York 2000, ISBN 0-471-38491-7 .
  • Mia Hubert (Ed.): Teoria e Aplicação de Métodos Robustos Recentes . Birkhäuser, Basel et al. 2004, ISBN 3-7643-7060-2 .
  • Ricardo A. Maronna, Douglas R. Martin, Victor J. Yohai: Estatística Robusta: Teoria e Métodos . Wiley, New York et al. 2006, ISBN 0-470-01092-4 .