Tendencia central - Central tendency
Em estatística , uma tendência central (ou medida de tendência central ) é um valor central ou típico para uma distribuição de probabilidade . Também pode ser chamado de centro ou local de distribuição. Coloquialmente, as medidas de tendência central são freqüentemente chamadas de médias . O termo tendência central data do final dos anos 1920.
As medidas mais comuns de tendência central são a média aritmética , a mediana e a moda . Uma tendência intermediária pode ser calculada para um conjunto finito de valores ou para uma distribuição teórica, como a distribuição normal . Ocasionalmente, os autores usam a tendência central para denotar "a tendência dos dados quantitativos de se agruparem em torno de algum valor central".
A tendência central de uma distribuição é tipicamente contrastada com sua dispersão ou variabilidade ; dispersão e tendência central são as propriedades freqüentemente caracterizadas de distribuições. A análise pode julgar se os dados têm uma tendência central forte ou fraca com base em sua dispersão.
Medidas
O seguinte pode ser aplicado a dados unidimensionais. Dependendo das circunstâncias, pode ser apropriado transformar os dados antes de calcular uma tendência central. Os exemplos são a quadratura dos valores ou a obtenção de logaritmos. Se uma transformação é apropriada e o que deveria ser, depende muito dos dados que estão sendo analisados.
- Média aritmética ou simplesmente, significa
- a soma de todas as medições dividida pelo número de observações no conjunto de dados.
- Mediana
- o valor médio que separa a metade superior da metade inferior do conjunto de dados. A mediana e a moda são as únicas medidas de tendência central que podem ser usadas para dados ordinais , nos quais os valores são classificados em relação uns aos outros, mas não são medidos de forma absoluta.
- Modo
- o valor mais frequente no conjunto de dados. Esta é a única medida de tendência central que pode ser usada com dados nominais , que têm atribuições de categoria puramente qualitativas.
- Média geométrica
- o n ° raiz do produto dos valores de dados, em que existem n destes. Esta medida é válida apenas para dados medidos de forma absoluta em uma escala estritamente positiva.
- Média harmônica
- o recíproco da média aritmética dos recíprocos dos valores dos dados. Essa medida também é válida apenas para dados medidos de forma absoluta em uma escala estritamente positiva.
- Média aritmética ponderada
- uma média aritmética que incorpora ponderação para certos elementos de dados.
- Média truncada ou média aparada
- a média aritmética dos valores dos dados após um certo número ou proporção dos valores de dados mais altos e mais baixos terem sido descartados.
- Média interquartil
- uma média truncada com base em dados dentro do intervalo interquartil .
- Intervalo médio
- a média aritmética dos valores máximo e mínimo de um conjunto de dados.
- Midhinge
- a média aritmética do primeiro e terceiro quartis .
- Trimeano
- a média aritmética ponderada da mediana e dois quartis.
- Winsorized significa
- uma média aritmética em que os valores extremos são substituídos por valores mais próximos da mediana.
Qualquer uma das opções acima pode ser aplicada a cada dimensão de dados multidimensionais, mas os resultados podem não ser invariantes às rotações do espaço multidimensional. Além disso, existem os
- Mediana geométrica
- que minimiza a soma das distâncias aos pontos de dados. É o mesmo que a mediana quando aplicada a dados unidimensionais, mas não é o mesmo que tirar a mediana de cada dimensão independentemente. Não é invariável para diferentes redimensionamentos das diferentes dimensões.
- Média quadrática (frequentemente conhecida como raiz quadrada média )
- útil em engenharia, mas não costuma ser usado em estatística. Isso ocorre porque não é um bom indicador do centro da distribuição quando a distribuição inclui valores negativos.
- Profundidade Simplicial
- a probabilidade de que um simplex escolhido aleatoriamente com vértices da distribuição dada conterá o centro dado
- Mediana de Tukey
- um ponto com a propriedade de que cada meio-espaço que o contém também contém muitos pontos de amostra
Soluções para problemas variacionais
Várias medidas de tendência central podem ser caracterizadas como resolvendo um problema variacional, no sentido do cálculo das variações , nomeadamente minimizando a variação a partir do centro. Ou seja, dada uma medida de dispersão estatística , pede-se uma medida de tendência central que minimize a variação: de forma que a variação do centro seja mínima entre todas as escolhas de centro. Em uma piada, "a dispersão precede a localização". Essas medidas são inicialmente definidas em uma dimensão, mas podem ser generalizadas para várias dimensões. Este centro pode ou não ser único. No sentido de espaços L p , a correspondência é:
L p | dispersão | tendencia central |
---|---|---|
L 0 | relação de variação | modo |
L 1 | desvio absoluto médio | mediana ( mediana geométrica ) |
L 2 | desvio padrão | média ( centróide ) |
L ∞ | desvio máximo | intervalo médio |
As funções associadas são chamadas de p- normas : respectivamente 0- "norma", 1-norma, 2-norma e ∞-norma. A função correspondente ao espaço L 0 não é uma norma e, portanto, é freqüentemente mencionada entre aspas: 0- "norma".
Nas equações, para um determinado conjunto de dados (finito) X , pensado como um vetor x = ( x 1 , ..., x n ) , a dispersão sobre um ponto c é a "distância" de x ao vetor constante c = ( c , ..., c ) na norma p (normalizado pelo número de pontos n ):
Para p = 0 e p = ∞ estas funções são definidos por limites que tomam, respectivamente, como p → 0 e p → ∞ . Para p = 0 os valores limite são 0 0 = 0 e um 0 = 0 ou um ≠ 0 , de modo que a diferença torna-se simplesmente a igualdade, então as contagens de 0-norm o número de desiguais pontos. Para p = ∞ o maior número domina e, portanto, a norma ∞ é a diferença máxima.
Singularidade
A média ( centro L 2 ) e a faixa média ( centro L ∞ ) são únicos (quando existem), enquanto a mediana ( centro L 1 ) e o modo ( centro L 0 ) não são em geral únicos. Isso pode ser entendido em termos de convexidade das funções associadas ( funções coercitivas ).
A norma 2 e a norma ∞ são estritamente convexas e, portanto (por otimização convexa), o minimizador é único (se existir) e existe para distribuições limitadas. Assim, o desvio padrão sobre a média é menor do que o desvio padrão sobre qualquer outro ponto, e o desvio máximo sobre a faixa média é menor do que o desvio máximo sobre qualquer outro ponto.
A norma 1 não é estritamente convexa, enquanto a convexidade estrita é necessária para garantir a exclusividade do minimizador. Correspondentemente, a mediana (neste sentido de minimizar) não é, em geral, única e, de fato, qualquer ponto entre os dois pontos centrais de uma distribuição discreta minimiza o desvio médio absoluto.
O 0- "norma" não é convexo (portanto, não é uma norma). Correspondentemente, o modo não é único - por exemplo, em uma distribuição uniforme, qualquer ponto é o modo.
Clustering
Em vez de um único ponto central, pode-se solicitar vários pontos de forma que a variação desses pontos seja minimizada. Isso leva à análise de cluster , onde cada ponto no conjunto de dados é agrupado com o "centro" mais próximo. Mais comumente, o uso da norma 2 generaliza a média para agrupamento de k- médias , enquanto o uso da norma 1 generaliza a mediana (geométrica) para agrupamento de k- médias . Usar a norma 0 simplesmente generaliza o modo (valor mais comum) para usar os k valores mais comuns como centros.
Ao contrário das estatísticas de centro único, esse agrupamento multicêntrico não pode, em geral, ser calculado em uma expressão de forma fechada e , em vez disso, deve ser calculado ou aproximado por um método iterativo ; uma abordagem geral são os algoritmos de maximização de expectativa .
Geometria da informação
A noção de um "centro" como minimizando a variação pode ser generalizada na geometria da informação como uma distribuição que minimiza a divergência (uma distância generalizada) de um conjunto de dados. O caso mais comum é a estimativa de máxima verossimilhança , onde a estimativa de máxima verossimilhança (MLE) maximiza a probabilidade (minimiza a surpresa esperada ), que pode ser interpretada geometricamente usando entropia para medir a variação: o MLE minimiza a entropia cruzada (equivalentemente, entropia relativa , Kullback- Divergência de Leibler).
Um exemplo simples disso é para o centro de dados nominais: em vez de usar o modo (o único "centro" de valor único), costuma-se usar a medida empírica (a distribuição de frequência dividida pelo tamanho da amostra ) como um "centro" . Por exemplo, dados binários dados , digamos cara ou coroa, se um conjunto de dados consiste em 2 cara e 1 coroa, então o modo é "cara", mas a medida empírica é 2/3 cara, 1/3 coroa, o que minimiza o entropia cruzada (surpresa total) do conjunto de dados. Essa perspectiva também é utilizada na análise de regressão , onde os mínimos quadrados encontram a solução que minimiza as distâncias a partir dela, e analogamente na regressão logística , uma estimativa de máxima verossimilhança minimiza a surpresa (distância da informação).
Relações entre a média, mediana e moda
Para distribuições unimodais, os seguintes limites são conhecidos e são nítidos:
onde μ é a média, ν é a mediana, θ é a moda e σ é o desvio padrão.
Para cada distribuição,