Tendencia central - Central tendency

Em estatística , uma tendência central (ou medida de tendência central ) é um valor central ou típico para uma distribuição de probabilidade . Também pode ser chamado de centro ou local de distribuição. Coloquialmente, as medidas de tendência central são freqüentemente chamadas de médias . O termo tendência central data do final dos anos 1920.

As medidas mais comuns de tendência central são a média aritmética , a mediana e a moda . Uma tendência intermediária pode ser calculada para um conjunto finito de valores ou para uma distribuição teórica, como a distribuição normal . Ocasionalmente, os autores usam a tendência central para denotar "a tendência dos dados quantitativos de se agruparem em torno de algum valor central".

A tendência central de uma distribuição é tipicamente contrastada com sua dispersão ou variabilidade ; dispersão e tendência central são as propriedades freqüentemente caracterizadas de distribuições. A análise pode julgar se os dados têm uma tendência central forte ou fraca com base em sua dispersão.

Medidas

O seguinte pode ser aplicado a dados unidimensionais. Dependendo das circunstâncias, pode ser apropriado transformar os dados antes de calcular uma tendência central. Os exemplos são a quadratura dos valores ou a obtenção de logaritmos. Se uma transformação é apropriada e o que deveria ser, depende muito dos dados que estão sendo analisados.

Média aritmética ou simplesmente, significa: a soma de todas as medições dividida pelo número de observações no conjunto de dados.
Mediana: o valor médio que separa a metade superior da metade inferior do conjunto de dados. A mediana e a moda são as únicas medidas de tendência central que podem ser usadas para dados ordinais , nos quais os valores são classificados em relação uns aos outros, mas não são medidos de forma absoluta.
Modo: o valor mais frequente no conjunto de dados. Esta é a única medida de tendência central que pode ser usada com dados nominais , que têm atribuições de categoria puramente qualitativas.
Média geométrica: o n ° raiz do produto dos valores de dados, em que existem n destes. Esta medida é válida apenas para dados medidos de forma absoluta em uma escala estritamente positiva.
Média harmônica: o recíproco da média aritmética dos recíprocos dos valores dos dados. Essa medida também é válida apenas para dados medidos de forma absoluta em uma escala estritamente positiva.
Média aritmética ponderada: uma média aritmética que incorpora ponderação para certos elementos de dados.
Média truncada ou média aparada: a média aritmética dos valores dos dados após um certo número ou proporção dos valores de dados mais altos e mais baixos terem sido descartados.
Média interquartil: uma média truncada com base em dados dentro do intervalo interquartil .
Intervalo médio: a média aritmética dos valores máximo e mínimo de um conjunto de dados.
Midhinge: a média aritmética do primeiro e terceiro quartis .
Trimeano: a média aritmética ponderada da mediana e dois quartis.
Winsorized significa: uma média aritmética em que os valores extremos são substituídos por valores mais próximos da mediana.

Qualquer uma das opções acima pode ser aplicada a cada dimensão de dados multidimensionais, mas os resultados podem não ser invariantes às rotações do espaço multidimensional. Além disso, existem os

Mediana geométrica: que minimiza a soma das distâncias aos pontos de dados. É o mesmo que a mediana quando aplicada a dados unidimensionais, mas não é o mesmo que tirar a mediana de cada dimensão independentemente. Não é invariável para diferentes redimensionamentos das diferentes dimensões.
Média quadrática (frequentemente conhecida como raiz quadrada média ): útil em engenharia, mas não costuma ser usado em estatística. Isso ocorre porque não é um bom indicador do centro da distribuição quando a distribuição inclui valores negativos.
Profundidade Simplicial: a probabilidade de que um simplex escolhido aleatoriamente com vértices da distribuição dada conterá o centro dado
Mediana de Tukey: um ponto com a propriedade de que cada meio-espaço que o contém também contém muitos pontos de amostra

Soluções para problemas variacionais

Várias medidas de tendência central podem ser caracterizadas como resolvendo um problema variacional, no sentido do cálculo das variações , nomeadamente minimizando a variação a partir do centro. Ou seja, dada uma medida de dispersão estatística , pede-se uma medida de tendência central que minimize a variação: de forma que a variação do centro seja mínima entre todas as escolhas de centro. Em uma piada, "a dispersão precede a localização". Essas medidas são inicialmente definidas em uma dimensão, mas podem ser generalizadas para várias dimensões. Este centro pode ou não ser único. No sentido de espaços $L p$ , a correspondência é:

$L p$	dispersão	tendencia central
$L 0$	relação de variação	modo
$L 1$	desvio absoluto médio	mediana ( mediana geométrica )
$L 2$	desvio padrão	média ( centróide )
$L \infty$	desvio máximo	intervalo médio

As funções associadas são chamadas de $p-$ normas : respectivamente 0- "norma", 1-norma, 2-norma e ∞-norma. A função correspondente ao espaço L ⁰ não é uma norma e, portanto, é freqüentemente mencionada entre aspas: 0- "norma".

Nas equações, para um determinado conjunto de dados (finito) $X$ , pensado como um vetor $x = (x 1, ..., x n)$ , a dispersão sobre um ponto $c$ é a "distância" de $x$ ao vetor constante $c = (c, ..., c)$ na norma p (normalizado pelo número de pontos n ):

{\ displaystyle f_ {p} (c) = \ left \ | \ mathbf {x} - \ mathbf {c} \ right \ | _ {p}: = {\ bigg (} {\ frac {1} {n} } \ sum _ {i = 1} ^ {n} \ left | x_ {i} -c \ right | ^ {p} {\ bigg)} ^ {1 / p}}

Para $p = 0$ e $p = \infty$ estas funções são definidos por limites que tomam, respectivamente, como $p \to 0$ e $p \to \infty$ . Para $p = 0$ os valores limite são $00 = 0$ e $um 0 = 0$ ou $um \neq 0$ , de modo que a diferença torna-se simplesmente a igualdade, então as contagens de 0-norm o número de desiguais pontos. Para $p = \infty$ o maior número domina e, portanto, a norma ∞ é a diferença máxima.

Singularidade

A média ( centro L ² ) e a faixa média ( centro L ^∞ ) são únicos (quando existem), enquanto a mediana ( centro L ¹ ) e o modo ( centro L ⁰ ) não são em geral únicos. Isso pode ser entendido em termos de convexidade das funções associadas ( funções coercitivas ).

A norma 2 e a norma ∞ são estritamente convexas e, portanto (por otimização convexa), o minimizador é único (se existir) e existe para distribuições limitadas. Assim, o desvio padrão sobre a média é menor do que o desvio padrão sobre qualquer outro ponto, e o desvio máximo sobre a faixa média é menor do que o desvio máximo sobre qualquer outro ponto.

A norma 1 não é estritamente convexa, enquanto a convexidade estrita é necessária para garantir a exclusividade do minimizador. Correspondentemente, a mediana (neste sentido de minimizar) não é, em geral, única e, de fato, qualquer ponto entre os dois pontos centrais de uma distribuição discreta minimiza o desvio médio absoluto.

O 0- "norma" não é convexo (portanto, não é uma norma). Correspondentemente, o modo não é único - por exemplo, em uma distribuição uniforme, qualquer ponto é o modo.

Clustering

Em vez de um único ponto central, pode-se solicitar vários pontos de forma que a variação desses pontos seja minimizada. Isso leva à análise de cluster , onde cada ponto no conjunto de dados é agrupado com o "centro" mais próximo. Mais comumente, o uso da norma 2 generaliza a média para agrupamento de k- médias , enquanto o uso da norma 1 generaliza a mediana (geométrica) para agrupamento de k- médias . Usar a norma 0 simplesmente generaliza o modo (valor mais comum) para usar os k valores mais comuns como centros.

Ao contrário das estatísticas de centro único, esse agrupamento multicêntrico não pode, em geral, ser calculado em uma expressão de forma fechada e , em vez disso, deve ser calculado ou aproximado por um método iterativo ; uma abordagem geral são os algoritmos de maximização de expectativa .

Geometria da informação

A noção de um "centro" como minimizando a variação pode ser generalizada na geometria da informação como uma distribuição que minimiza a divergência (uma distância generalizada) de um conjunto de dados. O caso mais comum é a estimativa de máxima verossimilhança , onde a estimativa de máxima verossimilhança (MLE) maximiza a probabilidade (minimiza a surpresa esperada ), que pode ser interpretada geometricamente usando entropia para medir a variação: o MLE minimiza a entropia cruzada (equivalentemente, entropia relativa , Kullback- Divergência de Leibler).

Um exemplo simples disso é para o centro de dados nominais: em vez de usar o modo (o único "centro" de valor único), costuma-se usar a medida empírica (a distribuição de frequência dividida pelo tamanho da amostra ) como um "centro" . Por exemplo, dados binários dados , digamos cara ou coroa, se um conjunto de dados consiste em 2 cara e 1 coroa, então o modo é "cara", mas a medida empírica é 2/3 cara, 1/3 coroa, o que minimiza o entropia cruzada (surpresa total) do conjunto de dados. Essa perspectiva também é utilizada na análise de regressão , onde os mínimos quadrados encontram a solução que minimiza as distâncias a partir dela, e analogamente na regressão logística , uma estimativa de máxima verossimilhança minimiza a surpresa (distância da informação).

Relações entre a média, mediana e moda

Para distribuições unimodais, os seguintes limites são conhecidos e são nítidos:

{\ displaystyle {\ frac {| \ theta - \ mu |} {\ sigma}} \ leq {\ sqrt {3}},}

{\ displaystyle {\ frac {| \ nu - \ mu |} {\ sigma}} \ leq {\ sqrt {0,6}},}

{\ displaystyle {\ frac {| \ theta - \ nu |} {\ sigma}} \ leq {\ sqrt {3}},}

onde μ é a média, ν é a mediana, θ é a moda e σ é o desvio padrão.

Para cada distribuição,

{\ displaystyle {\ frac {| \ nu - \ mu |} {\ sigma}} \ leq 1.}

Languages

In other projects

Tendencia central - Central tendency

Conteúdo

Medidas

Soluções para problemas variacionais

Singularidade

Clustering

Geometria da informação

Relações entre a média, mediana e moda

Veja também

Notas

Referências