coeficiente de Gini

Coeficiente de Gini (em%) de distribuição de renda (Banco Mundial, 2018)
  • ≤ 30
  • 30-34,9
  • 35-39,9
  • 40-44,9
  • 45-49,9
  • 50-54,9
  • 55-59,9
  • 60-64,9
  • sem dados
  • Curva de Lorenz (vermelha) da distribuição real para o cálculo do coeficiente de Gini e distribuição uniforme ideal (preto)

    O coeficiente de Gini ou índice de Gini é uma medida estatística que foi desenvolvida pelo estatístico italiano Corrado Gini para representar as desigualdades . Ele representa a parcela de renda dos diferentes grupos populacionais e, portanto, pretende ser uma medida da desigualdade em uma sociedade. Coeficientes de distribuição de desigualdade podem ser calculados para qualquer distribuição. Por exemplo, o coeficiente de Gini é usado em economia, mas também em geografia, como um parâmetro para a distribuição de renda e riqueza em países individuais e, portanto, como uma ajuda para classificar os países e seu nível de desenvolvimento associado.

    O coeficiente de Gini é derivado da curva de Lorenz e tem um valor entre 0 (com uma distribuição uniforme) e 1 (quando apenas uma pessoa recebe toda a renda, ou seja, com distribuição desigual máxima). Com uma distribuição uniforme não é uma distribuição uniforme entendida no sentido probabilístico, mas uma distribuição com uma variância de 0. No caso de uso mais comum, a distribuição de renda em um país, significa que a renda de cada adulto é a mesma, e não que diferentes rendimentos (classes) sejam igualmente frequentes.

    Formulários

    Economia

    O coeficiente de Gini é usado em particular na economia do bem-estar para descrever, por exemplo, o grau de igualdade ou desigualdade na distribuição de riqueza ou renda. O coeficiente é uma alternativa ao rácio do quintil de rendimento S80 / S20, que é utilizado nas estatísticas da UE.

    Teoria da informação

    Na teoria da informação , é usado como uma medida da "pureza" ou "impureza" da informação.

    Aprendizado de máquina

    Na área de aprendizado de máquina , ao gerar uma árvore de decisão , o índice de Gini, ou mais precisamente a mudança no índice de Gini, também chamado de "Gini Gain", pode ser usado como critério para selecionar a regra de decisão em que os nós filhos são tão "puros" quanto possível. A ideia é que com uma decisão "pura" a árvore esteja pronta, razão pela qual alterar o índice de Gini é uma medida adequada.

    Bancário

    No setor bancário , o coeficiente de Gini é usado como uma medida de quão bem um sistema de classificação pode separar clientes bons dos ruins ( seletividade ).

    Normalização

    A escala de valores possíveis varia de 0 a 1, de 0 a 100, de 0 a 10000, dependendo da aplicação, dependendo da aplicação, o menor ou o maior valor representa uma distribuição uniforme. O valor da desigualdade absoluta geralmente só pode ser alcançado assintoticamente. Isso pode ser evitado renormalizando.

    definição

    Caso Geral

    Para uma quantidade classificada de forma ascendente e distribuída discretamente (exemplo: renda familiar), a curva de Lorenz é dada por

    Para a posição na distribuição de renda, a curva de Lorenz indica, portanto, a parcela acumulada da renda total. denota a média aritmética. Com uma distribuição uniforme, a área entre a linha de 45 graus e a curva de Lorenz corresponderia ao valor 0 e aumentaria para distribuições mais desiguais. A partir dessa consideração e do objetivo de obter uma medida normalizada ao intervalo , o coeficiente de desigualdade de Gini resulta como Decompondo geometricamente a área, obtém-se:

    Para uma distribuição real, pode-se calcular o coeficiente de Gini diretamente da seguinte forma (usando ):

    Uma formulação alternativa que não requer que os dados sejam classificados é baseada na chamada diferença média absoluta relativa . A diferença média absoluta denota a diferença média de todos os pares de observações presentes em uma população. Isso está relacionado à renda média. Para que o coeficiente de Gini assuma a faixa de valores desejada, a diferença é dividida por 2:

    Cálculo baseado em quantis

    Uma certa parte de um conjunto A é atribuída a uma parte de outro conjunto B. Isso pode, por exemplo, B. Dinheiro (A) nas pessoas (B) ou consumo de eletricidade (A) nas cidades (B). É crucial que A represente um conjunto homogêneo e facilmente divisível. Por exemplo, possuir um veículo motorizado não seria adequado porque os veículos motorizados não são homogêneos - os tipos individuais diferem consideravelmente - nem podem ser divididos em unidades pequenas.

    O coeficiente de Gini é a área normalizada para a distribuição uniforme entre as curvas de Lorenz de uma distribuição uniforme e a distribuição observada.

    com GUK como o coeficiente de desigualdade de Gini, a área sob a curva de Lorenz de uma distribuição uniforme e a área sob a curva de Lorenz para a distribuição observada.

    exemplo

    A é distribuído para B, por exemplo, a riqueza (A) é distribuída para a população (B).

    50 Prozent von B (b1) wird  2,5 Prozent von A zugeordnet (v1).
    40 Prozent von B (b2) wird 47,5 Prozent von A zugeordnet (v2).
     9 Prozent von B (b3) wird 27,0 Prozent von A zugeordnet (v3).
     1 Prozent von B (b4) wird 23,0 Prozent von A zugeordnet (v4).
    

    Em uma primeira etapa, os dados são exibidos "normalizados":

    b1 = 0,50     v1 = 0,025          v1/b1 =  0,05
    b2 = 0,40     v2 = 0,475          v2/b2 =  1,188
    b3 = 0,09     v3 = 0,270          v3/b3 =  3
    b4 = 0,01     v4 = 0,230          v4/b4 = 23
    

    Na segunda etapa, o coeficiente de Gini é calculado.

    O coeficiente de distribuição desigual de Gini (GUK) é obtido avaliando uma curva de Lorenz .

    Para realmente produzir uma curva de Lorenz, os valores acima podem ter que ser reorganizados. Todos os pares de valores devem primeiro ser pré-classificados de forma que:

    No exemplo acima, a classificação está correta, de forma que não há necessidade de reclassificar.

    A curva de Lorenz que você está procurando surge quando você insere pares (x i , y i ) como pontos em um sistema de coordenadas cartesianas e, em seguida, conecta os pontos vizinhos com uma linha reta. Os pares -resultam dos pares -de acordo com a seguinte regra de cálculo:

    Na segunda etapa, os seguintes dados são determinados a partir dos dados da primeira etapa por soma (com (0, 0) adicionado como um valor fixo no início):

    x0 = 0,00     y0 = 0
    x1 = 0,50     y1 = 0,025
    x2 = 0,90     y2 = 0,5    (da 0,5 + 0,4 = 0,9 und 0,025 + 0,475 = 0,5 ist)
    x3 = 0,99     y3 = 0,77
    x4 = 1,00     y4 = 1
    

    Com distribuição total igualitária da riqueza , a curva de Lorenz é uma linha reta do ponto (0 | 0) ao ponto (1 | 1).

    Para determinar o coeficiente de Gini, duas quantidades são determinadas primeiro, que são áreas visualizadas graficamente. Uma vez que a área sob a linha de distribuição uniforme, vamos chamar essa quantidade, por exemplo A. A segunda área é a área sob a curva de distribuição real , vamos chamar essa quantidade, por exemplo B. Com essas duas quantidades, o coeficiente de desigualdade de Gini é calculado do seguinte modo:

    B é a área cinza escuro; A é formado pelas áreas cinza claro e escuro.

    Calculando os valores y da curva de Lorenz da distribuição real:

    y0 = 0,000
    y1 = v1 = 0,025
    y2 = v1 + v2 = 0,500
    y3 = v1 + v2 + v3 = 0,770
    y4 = v1 + v2 + v3 + v4 = 1,000
    

    Cálculo da área B sob a curva de Lorenz da distribuição real (veja abaixo):

    (y1 - 0,5 · v1) · b1 = 0,00625
    (y2 - 0,5 · v2) · b2 = 0,105
    (y3 - 0,5 · v3) · b3 = 0,05715
    (y4 - 0,5 · v4) · b4 = 0,00885
    
    B = 0,17725
    

    Como uma representação padronizada é usada, a curva da distribuição uniforme total conecta os pontos de canto (0 | 0) e (1 | 1) entre si. O triângulo com área A é, portanto, 0,5. É por isso que o seguinte se aplica ao coeficiente de desigualdade de Gini:

    Visto graficamente, o coeficiente de Gini é a razão da área entre a linha de distribuição uniforme e a curva de Lorenz (AB) para a área abaixo da linha de distribuição uniforme (A).

    Explicação do cálculo

    Toda a área de Gini é um retângulo com as vezes dos lados . A área de Gini de uma distribuição uniforme é a metade da área total de Gini. Para calcular a área sob a curva, todas as áreas individuais são adicionadas. Veja, por exemplo . O retângulo com a altura e a largura (ou seja, de a ) é totalmente levado em consideração . Apenas metade do retângulo que vai de altura em altura deve ser tomada, pois a outra metade acima da linha de Gini não pertence à área de Gini. Então é

    ou

    Visão alternativa do cálculo da área: A área individual é a diferença entre a área retangular, que é determinada pelos pontos (x 1 , y 0 = 0), (x 2 , y 0 = 0), (x 2 , y 2 ), (x 1 , y 1 ) é limitado (conteúdo :) , menos a área do triângulo retângulo delimitado pelos pontos (x 1 , y 1 ), (x 2 , y 1 ), (x 1 , y 2 ) (conteúdo :), com o mesmo resultado.

    Redução de dados

    O coeficiente de Gini é uma medida estatística usada para calcular a distribuição da desigualdade. Essas medidas basicamente reduzem um conjunto de dados mais ou menos complexo a um índice simples. Essa métrica pode levar a interpretações incorretas se não for usada corretamente.

    Figura 1: Curvas de Lorenz diferentes - mesmo coeficiente de Gini

    No caso do coeficiente de Gini, por exemplo, há pelo menos uma outra curva de Lorenz com exatamente o mesmo valor de Gini para quase todas as curvas de Lorenz . Isso é obtido espelhando a curva de Lorenz original na linha que passa pelos pontos (0 | 1) e (1 | 0). Se as quantidades 10% / 90% devem ser distribuídas em 50% / 50%, isso resulta na mesma curva de Lorenz que a distribuição das quantidades de 50% / 50% a 90% / 10% dos portadores de recursos. Essas duas curvas de Lorenz são mostradas na Figura 1. As únicas exceções são as curvas de Lorenz, que são simétricas a esta linha desde o início.

    Um coeficiente de Gini comum de 0,4 resulta para as duas curvas diferentes. Na verdade, existe até um número infinito de curvas de Lorenz possíveis para um coeficiente de Gini (exceto para distribuição absoluta igual ou desigual absoluta). Neste ponto, o coeficiente de Gini é o mesmo que qualquer outra medida derivada do acúmulo de uma grande quantidade de dados. Indicadores de distribuição desigual, como o coeficiente de Gini, surgem da agregação de dados com o objetivo de reduzir a complexidade. A perda de informações associada não é, portanto, um efeito colateral indesejado. Quando se trata de reduzir a complexidade, geralmente é verdade que eles só se tornam uma desvantagem se alguém esquecer sua criação e sua função de mapeamento.

    Fonte de erro em comparações

    Afirmações em que os coeficientes de desigualdade são comparados entre si requerem uma revisão particularmente crítica do cálculo dos coeficientes individuais. Para uma comparação correta é necessário que esses coeficientes tenham sido calculados uniformemente em todos os casos. Por exemplo, a granularidade diferente dos dados de entrada leva a resultados diferentes ao calcular a distribuição desigual. Um coeficiente de Gini calculado com alguns quantis geralmente mostra uma distribuição desigual um pouco menor do que um coeficiente calculado com mais quantis, porque neste último caso, graças à resolução de medição mais alta, a distribuição desigual pode ser levada em consideração que dentro dos intervalos (ou seja, entre os quantis) no primeiro caso permanece sem avaliação devido à resolução de medição mais grosseira.

    Em termos simples: uma resolução mais alta dos dados (quase sempre) fornece uma distribuição uniforme inferior.

    Veja também

    Links da web

    Evidência individual

    1. website Eurostat ( Memento do originais de 04 de dezembro de 2016 na Internet Archive ) Info: O arquivo de ligação foi inserido automaticamente e ainda não foi marcada. Verifique o link original e o arquivo de acordo com as instruções e remova este aviso. @ 1@ 2Modelo: Webachiv / IABot / ec.europa.eu
    2. Breiman, L. e Friedman, JH e Olshen, RA e Stone, CJ: Árvores de classificação e regressão . Chapman e Hall, Nova York 1984.
    3. ↑ Série de diretrizes sobre risco de crédito: modelos e validação de rating, Banco Nacional Austríaco e Autoridade do Mercado Financeiro, 2004. Link do arquivo ( Memento de 4 de dezembro de 2011 no Arquivo da Internet )
    4. ^ PJ Lambert (2001): A distribuição e a redistribuição de renda. Manchester University Press, página 31ss.
    5. ^ Ochmann, R. e A. Peichl (2006): Measuring Distributional Effects of Fiscal Reforms. Contribuições para discussão científica financeira No. 06-9 , instituto de pesquisa científica financeira da Universidade de Colônia.
    6. Calculadora on-line: distribuição desigual
    7. Comparação: www.umversorgung.de/rechner/?quantiles=50,10|50.90 (curva azul) e www.umversorgung.de/rechner/?quantiles=90.50|10.50 (curva vermelha)