Tendencia central - Central tendency

Em estatística , uma tendência central (ou medida de tendência central ) é um valor central ou típico para uma distribuição de probabilidade . Também pode ser chamado de centro ou local de distribuição. Coloquialmente, as medidas de tendência central são freqüentemente chamadas de médias . O termo tendência central data do final dos anos 1920.

As medidas mais comuns de tendência central são a média aritmética , a mediana e a moda . Uma tendência intermediária pode ser calculada para um conjunto finito de valores ou para uma distribuição teórica, como a distribuição normal . Ocasionalmente, os autores usam a tendência central para denotar "a tendência dos dados quantitativos de se agruparem em torno de algum valor central".

A tendência central de uma distribuição é tipicamente contrastada com sua dispersão ou variabilidade ; dispersão e tendência central são as propriedades freqüentemente caracterizadas de distribuições. A análise pode julgar se os dados têm uma tendência central forte ou fraca com base em sua dispersão.

Medidas

O seguinte pode ser aplicado a dados unidimensionais. Dependendo das circunstâncias, pode ser apropriado transformar os dados antes de calcular uma tendência central. Os exemplos são a quadratura dos valores ou a obtenção de logaritmos. Se uma transformação é apropriada e o que deveria ser, depende muito dos dados que estão sendo analisados.

Média aritmética ou simplesmente, significa
a soma de todas as medições dividida pelo número de observações no conjunto de dados.
Mediana
o valor médio que separa a metade superior da metade inferior do conjunto de dados. A mediana e a moda são as únicas medidas de tendência central que podem ser usadas para dados ordinais , nos quais os valores são classificados em relação uns aos outros, mas não são medidos de forma absoluta.
Modo
o valor mais frequente no conjunto de dados. Esta é a única medida de tendência central que pode ser usada com dados nominais , que têm atribuições de categoria puramente qualitativas.
Média geométrica
o n ° raiz do produto dos valores de dados, em que existem n destes. Esta medida é válida apenas para dados medidos de forma absoluta em uma escala estritamente positiva.
Média harmônica
o recíproco da média aritmética dos recíprocos dos valores dos dados. Essa medida também é válida apenas para dados medidos de forma absoluta em uma escala estritamente positiva.
Média aritmética ponderada
uma média aritmética que incorpora ponderação para certos elementos de dados.
Média truncada ou média aparada
a média aritmética dos valores dos dados após um certo número ou proporção dos valores de dados mais altos e mais baixos terem sido descartados.
Média interquartil
uma média truncada com base em dados dentro do intervalo interquartil .
Intervalo médio
a média aritmética dos valores máximo e mínimo de um conjunto de dados.
Midhinge
a média aritmética do primeiro e terceiro quartis .
Trimeano
a média aritmética ponderada da mediana e dois quartis.
Winsorized significa
uma média aritmética em que os valores extremos são substituídos por valores mais próximos da mediana.

Qualquer uma das opções acima pode ser aplicada a cada dimensão de dados multidimensionais, mas os resultados podem não ser invariantes às rotações do espaço multidimensional. Além disso, existem os

Mediana geométrica
que minimiza a soma das distâncias aos pontos de dados. É o mesmo que a mediana quando aplicada a dados unidimensionais, mas não é o mesmo que tirar a mediana de cada dimensão independentemente. Não é invariável para diferentes redimensionamentos das diferentes dimensões.
Média quadrática (frequentemente conhecida como raiz quadrada média )
útil em engenharia, mas não costuma ser usado em estatística. Isso ocorre porque não é um bom indicador do centro da distribuição quando a distribuição inclui valores negativos.
Profundidade Simplicial
a probabilidade de que um simplex escolhido aleatoriamente com vértices da distribuição dada conterá o centro dado
Mediana de Tukey
um ponto com a propriedade de que cada meio-espaço que o contém também contém muitos pontos de amostra

Soluções para problemas variacionais

Várias medidas de tendência central podem ser caracterizadas como resolvendo um problema variacional, no sentido do cálculo das variações , nomeadamente minimizando a variação a partir do centro. Ou seja, dada uma medida de dispersão estatística , pede-se uma medida de tendência central que minimize a variação: de forma que a variação do centro seja mínima entre todas as escolhas de centro. Em uma piada, "a dispersão precede a localização". Essas medidas são inicialmente definidas em uma dimensão, mas podem ser generalizadas para várias dimensões. Este centro pode ou não ser único. No sentido de espaços L p , a correspondência é:

L p dispersão tendencia central
L 0 relação de variação modo
L 1 desvio absoluto médio mediana ( mediana geométrica )
L 2 desvio padrão média ( centróide )
L desvio máximo intervalo médio

As funções associadas são chamadas de p- normas : respectivamente 0- "norma", 1-norma, 2-norma e ∞-norma. A função correspondente ao espaço L 0 não é uma norma e, portanto, é freqüentemente mencionada entre aspas: 0- "norma".

Nas equações, para um determinado conjunto de dados (finito) X , pensado como um vetor x = ( x 1 , ..., x n ) , a dispersão sobre um ponto c é a "distância" de x ao vetor constante c = ( c , ..., c ) na norma p (normalizado pelo número de pontos n ):

Para p = 0 e p = ∞ estas funções são definidos por limites que tomam, respectivamente, como p → 0 e p → ∞ . Para p = 0 os valores limite são 0 0 = 0 e um 0 = 0 ou um ≠ 0 , de modo que a diferença torna-se simplesmente a igualdade, então as contagens de 0-norm o número de desiguais pontos. Para p = ∞ o maior número domina e, portanto, a norma ∞ é a diferença máxima.

Singularidade

A média ( centro L 2 ) e a faixa média ( centro L ) são únicos (quando existem), enquanto a mediana ( centro L 1 ) e o modo ( centro L 0 ) não são em geral únicos. Isso pode ser entendido em termos de convexidade das funções associadas ( funções coercitivas ).

A norma 2 e a norma ∞ são estritamente convexas e, portanto (por otimização convexa), o minimizador é único (se existir) e existe para distribuições limitadas. Assim, o desvio padrão sobre a média é menor do que o desvio padrão sobre qualquer outro ponto, e o desvio máximo sobre a faixa média é menor do que o desvio máximo sobre qualquer outro ponto.

A norma 1 não é estritamente convexa, enquanto a convexidade estrita é necessária para garantir a exclusividade do minimizador. Correspondentemente, a mediana (neste sentido de minimizar) não é, em geral, única e, de fato, qualquer ponto entre os dois pontos centrais de uma distribuição discreta minimiza o desvio médio absoluto.

O 0- "norma" não é convexo (portanto, não é uma norma). Correspondentemente, o modo não é único - por exemplo, em uma distribuição uniforme, qualquer ponto é o modo.

Clustering

Em vez de um único ponto central, pode-se solicitar vários pontos de forma que a variação desses pontos seja minimizada. Isso leva à análise de cluster , onde cada ponto no conjunto de dados é agrupado com o "centro" mais próximo. Mais comumente, o uso da norma 2 generaliza a média para agrupamento de k- médias , enquanto o uso da norma 1 generaliza a mediana (geométrica) para agrupamento de k- médias . Usar a norma 0 simplesmente generaliza o modo (valor mais comum) para usar os k valores mais comuns como centros.

Ao contrário das estatísticas de centro único, esse agrupamento multicêntrico não pode, em geral, ser calculado em uma expressão de forma fechada e , em vez disso, deve ser calculado ou aproximado por um método iterativo ; uma abordagem geral são os algoritmos de maximização de expectativa .

Geometria da informação

A noção de um "centro" como minimizando a variação pode ser generalizada na geometria da informação como uma distribuição que minimiza a divergência (uma distância generalizada) de um conjunto de dados. O caso mais comum é a estimativa de máxima verossimilhança , onde a estimativa de máxima verossimilhança (MLE) maximiza a probabilidade (minimiza a surpresa esperada ), que pode ser interpretada geometricamente usando entropia para medir a variação: o MLE minimiza a entropia cruzada (equivalentemente, entropia relativa , Kullback- Divergência de Leibler).

Um exemplo simples disso é para o centro de dados nominais: em vez de usar o modo (o único "centro" de valor único), costuma-se usar a medida empírica (a distribuição de frequência dividida pelo tamanho da amostra ) como um "centro" . Por exemplo, dados binários dados , digamos cara ou coroa, se um conjunto de dados consiste em 2 cara e 1 coroa, então o modo é "cara", mas a medida empírica é 2/3 cara, 1/3 coroa, o que minimiza o entropia cruzada (surpresa total) do conjunto de dados. Essa perspectiva também é utilizada na análise de regressão , onde os mínimos quadrados encontram a solução que minimiza as distâncias a partir dela, e analogamente na regressão logística , uma estimativa de máxima verossimilhança minimiza a surpresa (distância da informação).

Relações entre a média, mediana e moda

Para distribuições unimodais, os seguintes limites são conhecidos e são nítidos:

onde μ é a média, ν é a mediana, θ é a moda e σ é o desvio padrão.

Para cada distribuição,

Veja também

Notas

Referências