Psicometria - Psychometrics

A psicometria é um campo de estudo que se preocupa com a teoria e a técnica de medição psicológica . Conforme definido pelo Conselho Nacional de Medição em Educação dos Estados Unidos (NCME), a psicometria se refere à medição psicológica. Geralmente, refere-se aos campos especializados dentro da psicologia e educação dedicados a testes, medições, avaliações e atividades relacionadas.

O campo se preocupa com a medição objetiva de habilidades e conhecimentos, habilidades, atitudes, traços de personalidade , construções clínicas e transtornos mentais , bem como desempenho educacional . Alguns pesquisadores psicométricos se concentram na construção e validação de instrumentos de avaliação, como questionários , testes , julgamentos de avaliadores, escalas de sintomas psicológicos e testes de personalidade . Outros se concentram em pesquisas relacionadas à teoria da medição (por exemplo, teoria da resposta ao item ; correlação intraclasse ).

Os praticantes são descritos como psicometristas. Os psicometristas geralmente possuem uma qualificação específica, e a maioria são psicólogos com pós-graduação em interpretação de testes, psicometria e teoria da medição. Além das instituições acadêmicas tradicionais, muitos psicometristas trabalham para o governo ou em departamentos de recursos humanos . Outros se especializam como profissionais de aprendizagem e desenvolvimento .

Fundamento histórico

O teste psicológico veio de duas correntes de pensamento: a primeira, de Darwin , Galton e Cattell sobre a medição das diferenças individuais, e a segunda, de Herbart , Weber , Fechner e Wundt e suas medições psicofísicas de um construto semelhante. O segundo conjunto de indivíduos e suas pesquisas é o que levou ao desenvolvimento da psicologia experimental e dos testes padronizados.

Riacho vitoriano

Charles Darwin foi a inspiração por trás de Sir Francis Galton, que levou à criação da psicometria. Em 1859, Darwin publicou seu livro On the Origin of Species , que foi dedicado ao papel da seleção natural na emergência ao longo do tempo de diferentes populações de espécies de plantas e animais. O livro discutiu como os membros individuais de uma espécie diferem e como eles possuem características que são mais ou menos adaptáveis ​​ao seu ambiente. Aqueles com características mais adaptativas têm maior probabilidade de procriar e dar origem a outra geração. Aqueles com características menos adaptativas são menos propensos a procriar. Essa ideia estimulou o interesse de Galton pelo estudo dos seres humanos e como eles diferem uns dos outros e, mais importante, como medir essas diferenças.

Galton escreveu um livro intitulado Hereditary Genius sobre as diferentes características que as pessoas possuem e como essas características as tornam mais "adequadas" do que outras. Hoje, essas diferenças, como funcionamento sensorial e motor (tempo de reação, acuidade visual e força física), são domínios importantes da psicologia científica. Muito do trabalho teórico e aplicado inicial em psicometria foi realizado em uma tentativa de medir a inteligência . Galton, muitas vezes referido como "o pai da psicometria", concebeu e incluiu testes mentais entre suas medidas antropométricas . James McKeen Cattell, considerado um pioneiro da psicometria, estendeu o trabalho de Galton. Cattell também cunhou o termo teste mental e é responsável pela pesquisa e conhecimento que levaram ao desenvolvimento de testes modernos.

Fluxo alemão

A origem da psicometria também tem conexões com o campo relacionado da psicofísica . Mais ou menos na mesma época em que Darwin, Galton e Cattell estavam fazendo suas descobertas, Herbart também estava interessado em "desvendar os mistérios da consciência humana" por meio do método científico. Herbart foi responsável pela criação de modelos matemáticos da mente, que foram influentes nas práticas educacionais nos anos seguintes.

EH Weber baseou-se no trabalho de Herbart e tentou provar a existência de um limiar psicológico, dizendo que um estímulo mínimo era necessário para ativar um sistema sensorial. Depois de Weber, GT Fechner expandiu o conhecimento que obteve de Herbart e Weber, para conceber a lei de que a força de uma sensação cresce como o logaritmo da intensidade do estímulo. Um seguidor de Weber e Fechner, Wilhelm Wundt é considerado o fundador da ciência da psicologia. É a influência de Wundt que pavimentou o caminho para que outros desenvolvessem testes psicológicos.

século 20

Em 1936, o psicométrico LL Thurstone , fundador e primeiro presidente da Sociedade Psicométrica, desenvolveu e aplicou uma abordagem teórica à medição conhecida como a lei do julgamento comparativo , uma abordagem que tem conexões estreitas com a teoria psicofísica de Ernst Heinrich Weber e Gustav Fechner . Além disso, Spearman e Thurstone fizeram contribuições importantes para a teoria e aplicação da análise fatorial , um método estatístico desenvolvido e usado extensivamente em psicometria. No final dos anos 1950, Leopold Szondi fez uma avaliação histórica e epistemológica do impacto do pensamento estatístico na psicologia durante as décadas anteriores: "nas últimas décadas, o pensamento especificamente psicológico foi quase completamente suprimido e removido e substituído por um pensamento estatístico . Precisamente aqui vemos o câncer de testologia e testomania de hoje. "

Mais recentemente, a teoria psicométrica foi aplicada na medição da personalidade , atitudes e crenças e desempenho acadêmico . A mensuração desses fenômenos inobserváveis ​​é difícil, e grande parte da pesquisa e da ciência acumulada nesta disciplina foi desenvolvida na tentativa de definir e quantificar adequadamente tais fenômenos. Críticos, incluindo praticantes de ciências físicas e ativistas sociais , argumentaram que tal definição e quantificação é impossivelmente difícil e que tais medições são frequentemente mal utilizadas, como com testes psicométricos de personalidade usados ​​em procedimentos de emprego:

"Por exemplo, um empregador que deseja alguém para uma função que exige atenção consistente a detalhes repetitivos provavelmente não desejará dar esse trabalho a alguém que é muito criativo e fica entediado facilmente."

Figuras que fizeram contribuições significativas para a psicometria incluem Karl Pearson , Henry F. Kaiser, Carl Brigham , LL Thurstone , EL Thorndike , Georg Rasch , Eugene Galanter , Johnson O'Connor , Frederic M. Lord , Ledyard R Tucker , Louis Guttman e Jane Loevinger .

Definição de medição nas ciências sociais

A definição de medição nas ciências sociais tem uma longa história. Uma definição atualmente difundida, proposta por Stanley Smith Stevens (1946), é que medição é "a atribuição de numerais a objetos ou eventos de acordo com alguma regra". Essa definição foi introduzida no artigo em que Stevens propôs quatro níveis de medição . Embora amplamente adotada, esta definição difere em aspectos importantes da definição mais clássica de medição adotada nas ciências físicas, a saber, que a medição científica envolve "a estimativa ou descoberta da razão de alguma magnitude de um atributo quantitativo para uma unidade do mesmo atributo "(p. 358)

Na verdade, a definição de Stevens de medição foi apresentada em resposta ao Comitê Ferguson britânico, cujo presidente, A. Ferguson, era um físico. O comitê foi nomeado em 1932 pela Associação Britânica para o Avanço da Ciência para investigar a possibilidade de estimar quantitativamente eventos sensoriais. Embora seu presidente e outros membros fossem físicos, o comitê também incluía vários psicólogos. O relatório do comitê destacou a importância da definição de mensuração. Embora a resposta de Stevens tenha sido propor uma nova definição, que teve uma influência considerável no campo, esta não foi de forma alguma a única resposta ao relatório. Outra resposta, notavelmente diferente, foi aceitar a definição clássica, conforme refletido na seguinte declaração:

Medidas em psicologia e física não são diferentes em nenhum sentido. Os físicos podem medir quando podem encontrar as operações pelas quais podem atender aos critérios necessários; os psicólogos precisam apenas fazer o mesmo. Eles não precisam se preocupar com as diferenças misteriosas entre o significado de medição nas duas ciências (Reese, 1943, p. 49).

Essas respostas divergentes são refletidas em abordagens alternativas de medição. Por exemplo, métodos baseados em matrizes de covariância são normalmente empregados na premissa de que números, como pontuações brutas derivadas de avaliações, são medidas. Tais abordagens implicam implicitamente a definição de Stevens de medição, que requer apenas que os números sejam atribuídos de acordo com alguma regra. A principal tarefa de pesquisa, então, é geralmente considerada como a descoberta de associações entre pontuações e de fatores postulados para fundamentar tais associações.

Por outro lado, quando modelos de medição como o modelo Rasch são empregados, os números não são atribuídos com base em uma regra. Em vez disso, de acordo com a declaração de Reese acima, critérios específicos para medição são declarados e o objetivo é construir procedimentos ou operações que forneçam dados que atendam aos critérios relevantes. As medições são estimadas com base nos modelos e são realizados testes para verificar se os critérios relevantes foram atendidos.

Instrumentos e procedimentos

Os primeiros instrumentos psicométricos foram projetados para medir o conceito de inteligência . Uma abordagem histórica envolveu o teste de QI Stanford-Binet , desenvolvido originalmente pelo psicólogo francês Alfred Binet . Uma concepção alternativa de inteligência é que as capacidades cognitivas dentro dos indivíduos são uma manifestação de um componente geral, ou fator de inteligência geral , bem como a capacidade cognitiva específica de um determinado domínio.

Outro foco principal da psicometria tem sido o teste de personalidade . Tem havido uma variedade de abordagens teóricas para conceituar e medir a personalidade. Alguns dos instrumentos mais conhecidos incluem o Inventário Multifásico de Personalidade de Minnesota , o Modelo de Cinco Fatores (ou "Big 5") e ferramentas como o Inventário de Personalidade e Preferência e o Indicador de Tipo Myers-Briggs . Atitudes também foram estudadas extensivamente usando abordagens psicométricas. Um método comum na medição de atitudes é o uso da escala Likert . Um método alternativo envolve a aplicação de modelos de medição de desdobramento, sendo o mais geral o Modelo de Cosseno Hiperbólico (Andrich & Luo, 1993).

Abordagens teóricas

Os psicometristas desenvolveram várias teorias de medição diferentes. Isso inclui a teoria clássica de teste (CTT) e a teoria de resposta ao item (IRT). Uma abordagem que parece matematicamente semelhante à IRT, mas também bastante distinta, em termos de suas origens e características, é representada pelo modelo Rasch para medição. O desenvolvimento do modelo Rasch, e da classe mais ampla de modelos a que pertence, foi explicitamente fundado em requisitos de medição nas ciências físicas.

Os psicometristas também desenvolveram métodos para trabalhar com grandes matrizes de correlações e covariâncias. As técnicas nesta tradição geral incluem: análise fatorial , um método para determinar as dimensões subjacentes dos dados. Um dos principais desafios enfrentados pelos usuários da análise fatorial é a falta de consenso sobre os procedimentos adequados para determinar o número de fatores latentes . Um procedimento usual é parar a fatoração quando os valores próprios caem abaixo de um porque a esfera original encolhe. A falta de pontos de corte também diz respeito a outros métodos multivariados.

O escalonamento multidimensional é um método para encontrar uma representação simples para dados com um grande número de dimensões latentes. A análise de cluster é uma abordagem para localizar objetos que são semelhantes entre si. A análise fatorial, o escalonamento multidimensional e a análise de cluster são métodos descritivos multivariados usados ​​para destilar grandes quantidades de estruturas de dados mais simples.

Mais recentemente, a modelagem de equações estruturais e a análise de caminhos representam abordagens mais sofisticadas para trabalhar com grandes matrizes de covariância . Esses métodos permitem que modelos estatisticamente sofisticados sejam ajustados aos dados e testados para determinar se eles são adequados. Como, em um nível granular, a pesquisa psicométrica se preocupa com a extensão e a natureza da multidimensionalidade em cada um dos itens de interesse, um procedimento relativamente novo conhecido como análise bifatorial pode ser útil. A análise bifatorial pode decompor "a variância sistemática de um item em termos de, idealmente, duas fontes, um fator geral e uma fonte de variância sistemática adicional".

Conceitos chave

Os conceitos-chave na teoria clássica dos testes são confiabilidade e validade . Uma medida confiável é aquela que mede um construto de forma consistente ao longo do tempo, indivíduos e situações. Uma medida válida é aquela que mede o que se pretende medir. A confiabilidade é necessária, mas não suficiente, para a validade.

Tanto a confiabilidade quanto a validade podem ser avaliadas estatisticamente. A consistência em medidas repetidas do mesmo teste pode ser avaliada com o coeficiente de correlação de Pearson e é freqüentemente chamada de confiabilidade teste-reteste. Da mesma forma, a equivalência de diferentes versões da mesma medida pode ser indexada por uma correlação de Pearson e é chamada de confiabilidade de formas equivalentes ou um termo semelhante.

A consistência interna, que trata da homogeneidade de um único formulário de teste, pode ser avaliada correlacionando o desempenho em duas metades de um teste, o que é denominado confiabilidade dividida pela metade ; o valor deste coeficiente de correlação produto-momento de Pearson para dois meio-testes é ajustado com a fórmula de predição de Spearman-Brown para corresponder à correlação entre dois testes completos. Talvez o índice de confiabilidade mais comumente usado seja o α de Cronbach , que é equivalente à média de todos os coeficientes de divisão pela metade possíveis. Outras abordagens incluem a correlação intraclasse , que é a razão entre a variância das medidas de um determinado alvo e a variância de todos os alvos.

Existem várias formas diferentes de validade. A validade relacionada ao critério se refere à extensão em que um teste ou escala prediz uma amostra de comportamento, ou seja, o critério, que é "externo ao próprio instrumento de medição". Essa amostra externa de comportamento pode ser muitas coisas, incluindo outro teste; média de notas da faculdade como quando o SAT do segundo grau é usado para prever o desempenho na faculdade; e até mesmo o comportamento que ocorreu no passado, por exemplo, quando um teste de sintomas psicológicos atuais é usado para prever a ocorrência de vitimização passada (o que representaria com precisão a pós-condenação). Quando a medida de critério é coletada ao mesmo tempo que a medida que está sendo validada, o objetivo é estabelecer validade concorrente ; quando o critério é coletado posteriormente, o objetivo é estabelecer a validade preditiva . Uma medida tem validade de construto se estiver relacionada a medidas de outros construtos, conforme exigido pela teoria. A validade de conteúdo é uma demonstração de que os itens de um teste fazem um trabalho adequado ao cobrir o domínio que está sendo medido. Em um exemplo de seleção de pessoal, o conteúdo do teste é baseado em uma declaração definida ou conjunto de declarações de conhecimento, habilidade, habilidade ou outras características obtidas a partir de uma análise de trabalho .

A teoria da resposta ao item modela a relação entre as características latentes e as respostas aos itens de teste. Entre outras vantagens, a IRT fornece uma base para a obtenção de uma estimativa da localização de um participante do teste em uma determinada característica latente, bem como o erro padrão de medição dessa localização. Por exemplo, o conhecimento de história de um estudante universitário pode ser deduzido de sua pontuação em um teste universitário e, então, ser comparado de forma confiável com o conhecimento de um estudante de segundo grau deduzido de um teste menos difícil. As pontuações derivadas da teoria clássica do teste não têm essa característica, e a avaliação da capacidade real (em vez da capacidade relativa a outros participantes do teste) deve ser avaliada comparando-se as pontuações com as de um "grupo normal" selecionado aleatoriamente da população. Na verdade, todas as medidas derivadas da teoria clássica de teste dependem da amostra testada, enquanto, em princípio, aquelas derivadas da teoria de resposta ao item não são.

Padrões de qualidade

As considerações de validade e confiabilidade normalmente são vistas como elementos essenciais para determinar a qualidade de qualquer teste. No entanto, associações profissionais e de praticantes freqüentemente colocam essas preocupações em contextos mais amplos ao desenvolver padrões e fazer julgamentos gerais sobre a qualidade de qualquer teste como um todo em um determinado contexto. Uma consideração importante em muitos ambientes de pesquisa aplicada é se a métrica de um determinado inventário psicológico é ou não significativa ou arbitrária.

Padrões de teste

Em 2014, a American Educational Research Association (AERA), a American Psychological Association (APA) e o National Council on Measurement in Education (NCME) publicaram uma revisão dos Standards for Educational and Psychological Testing , que descreve os padrões para o desenvolvimento e avaliação de testes. E use. Os Padrões cobrem tópicos essenciais em testes, incluindo validade, confiabilidade / erros de medição e justiça nos testes. O livro também estabelece padrões relacionados às operações de teste, incluindo design e desenvolvimento de teste, pontuações, escalas, normas, vinculação de pontuação, pontuação de corte, administração de teste, pontuação, relatório, interpretação de pontuação, documentação de teste e direitos e responsabilidades de tomadores de teste e usuários de teste . Finalmente, os Padrões cobrem tópicos relacionados a aplicativos de teste, incluindo teste e avaliação psicológica , teste e credenciamento no local de trabalho , teste e avaliação educacional e teste em avaliação de programa e políticas públicas.

Padrões de avaliação

No campo da avaliação , e em particular da avaliação educacional , o Comitê Conjunto de Padrões para Avaliação Educacional publicou três conjuntos de padrões para avaliações. Os Padrões de Avaliação de Pessoal foram publicados em 1988, Os Padrões de Avaliação do Programa (2ª edição) foram publicados em 1994 e Os Padrões de Avaliação de Alunos foram publicados em 2003.

Cada publicação apresenta e elabora um conjunto de padrões para uso em uma variedade de ambientes educacionais. Os padrões fornecem diretrizes para projetar, implementar, avaliar e melhorar a forma identificada de avaliação. Cada um dos padrões foi colocado em uma das quatro categorias fundamentais para promover avaliações educacionais que são adequadas, úteis, viáveis ​​e precisas. Nestes conjuntos de padrões, as considerações de validade e confiabilidade são abordadas no tópico de precisão. Por exemplo, os padrões de precisão do aluno ajudam a garantir que as avaliações dos alunos forneçam informações sólidas, precisas e confiáveis ​​sobre o aprendizado e o desempenho do aluno.

Não humano: animais e máquinas

A psicometria aborda as habilidades humanas , atitudes, características e evolução educacional. Notavelmente, o estudo do comportamento, processos mentais e habilidades de animais não humanos é geralmente abordado pela psicologia comparativa , ou com um continuum entre animais não humanos e o resto dos animais pela psicologia evolucionária . No entanto, existem alguns defensores de uma transição mais gradual entre a abordagem adotada para os humanos e a abordagem adotada para os animais (não humanos).

A avaliação de habilidades, traços e evolução da aprendizagem de máquinas tem sido, em grande parte, alheia ao caso de humanos e animais não humanos, com abordagens específicas na área de inteligência artificial . Uma abordagem mais integrada, sob o nome de psicometria universal, também foi proposta.

Veja também

Referências

Bibliografia

  • Andrich, D. & Luo, G. (1993). "Um modelo de cosseno hiperbólico para respostas dicotômicas de estímulo único" (PDF) . Mensuração psicológica aplicada . 17 (3): 253–276. CiteSeerX  10.1.1.1003.8107 . doi : 10.1177 / 014662169301700307 . S2CID  120745971 .
  • Michell, J. (1999). Mensuração em psicologia . Cambridge: Cambridge University Press. DOI: 10.1017 / CBO9780511490040
  • Rasch, G. (1960/1980). Modelos probabilísticos para alguns testes de inteligência e desempenho . Copenhagen, Danish Institute for Educational Research), edição expandida (1980) com prefácio e posfácio de BD Wright. Chicago: The University of Chicago Press.
  • Reese, TW (1943). A aplicação da teoria da medição física à medição de magnitudes psicológicas, com três exemplos experimentais. Psychological Monographs, 55 , 1-89. doi: 10.1037 / h0061367
  • Stevens, SS (1946). "Na teoria das escalas de medição". Ciência . 103 (2684): 677–80. Bibcode : 1946Sci ... 103..677S . doi : 10.1126 / science.103.2684.677 . PMID  17750512 .
  • Thurstone, LL (1927). “Uma lei do julgamento comparativo”. Revisão psicológica . 34 (4): 278–286. doi : 10.1037 / h0070288 .
  • Thurstone, LL (1929). A medição do valor psicológico. Em TV Smith e WK Wright (Eds.), Ensaios de Filosofia por Dezessete Doutores de Filosofia da Universidade de Chicago . Chicago: Tribunal Aberto.
  • Thurstone, LL (1959). A medição de valores . Chicago: The University of Chicago Press.
  • SF Blinkhorn (1997). "Passado imperfeito, futuro condicional: cinquenta anos de teoria do teste". British Journal of Mathematical and Statistical Psychology . 50 (2): 175–185. doi : 10.1111 / j.2044-8317.1997.tb01139.x .
  • Sanford, David (18 de novembro de 2017). "Cambridge acabou de me dizer que Big Data ainda não funciona" . LinkedIn .

Notas

Leitura adicional

links externos