Validade do construto - Construct validity

Validade de construção é o acúmulo de evidências para apoiar a interpretação do que uma medida reflete. A teoria de validade moderna define a validade de construto como a preocupação abrangente da pesquisa de validade, englobando todos os outros tipos de evidências de validade, como validade de conteúdo e validade de critério .

A validade do construto é a adequação das inferências feitas com base em observações ou medições (geralmente pontuações de teste), especificamente se um teste pode ser razoavelmente considerado para refletir o construto pretendido . Construtos são abstrações que são deliberadamente criadas por pesquisadores a fim de conceituar a variável latente , que é correlacionada com pontuações em uma determinada medida (embora não seja diretamente observável). A validade do construto examina a questão: A medida se comporta como a teoria diz que uma medida desse construto deveria se comportar?

A validade de construção é essencial para a validade geral percebida do teste. A validade de construção é particularmente importante nas ciências sociais , psicologia , psicometria e estudos da linguagem.

Psicólogos como Samuel Messick (1998) têm defendido uma visão unificada da validade do construto "... como um julgamento avaliativo integrado do grau em que a evidência empírica e os fundamentos teóricos apóiam a adequação e adequação de inferências e ações baseadas em pontuações de testes. .. "Embora as opiniões de Messick sejam popularizadas na medição educacional e originadas em uma carreira em torno da explicação da validade no contexto da indústria de testes, uma definição mais em linha com a pesquisa psicológica fundamental, apoiada por estudos empíricos baseados em dados que enfatizam o raciocínio estatístico e causal foi dado por (Borsboom et al., 2004)

A chave para a validade do construto são as ideias teóricas por trás do traço em consideração, ou seja, os conceitos que organizam como os aspectos da personalidade , inteligência , etc. são vistos. Paul Meehl afirma que, "O melhor construto é aquele em torno do qual podemos construir o maior número de inferências, da maneira mais direta."

A purificação da escala, ou seja, "o processo de eliminação de itens de escalas de vários itens" (Wieland et al., 2017) pode influenciar a validade do construto. Uma estrutura apresentada por Wieland et al. (2017) destaca que os critérios estatísticos e de julgamento precisam ser levados em consideração ao tomar decisões de purificação de escala.


História

Ao longo da década de 1940, os cientistas tentaram encontrar maneiras de validar os experimentos antes de publicá-los. O resultado disso foi uma infinidade de validades diferentes ( validade intrínseca , validade de face , validade lógica , validade empírica , etc.). Isso tornava difícil dizer quais eram realmente iguais e quais não eram úteis. Até meados da década de 1950, havia muito poucos métodos universalmente aceitos para validar experimentos psicológicos. A principal razão para isso foi porque ninguém havia descoberto exatamente quais qualidades dos experimentos deveriam ser examinadas antes da publicação. Entre 1950 e 1954, o Comitê de Testes Psicológicos da APA se reuniu e discutiu as questões relacionadas à validação de experimentos psicológicos.

Por volta dessa época, o termo validade de construto foi cunhado pela primeira vez por Paul Meehl e Lee Cronbach em seu artigo seminal "Validade de construto em testes psicológicos". Eles notaram a ideia de que a validade do construto não era nova naquele ponto; em vez disso, era uma combinação de muitos tipos diferentes de validade lidando com conceitos teóricos. Eles propuseram as seguintes três etapas para avaliar a validade de construto:

  1. articulando um conjunto de conceitos teóricos e suas inter-relações
  2. desenvolver formas de medir os construtos hipotéticos propostos pela teoria
  3. testando empiricamente as relações hipotéticas

Muitos psicólogos observaram que um papel importante da validação de construto em psicometria era colocar mais ênfase na teoria do que na validação. O problema central com a validação era que um teste poderia ser validado, mas isso não mostrava necessariamente que medisse o construto teórico que pretendia medir. A validade de construção tem três aspectos ou componentes: o componente substantivo, o componente estrutural e o componente externo. Eles estão intimamente relacionados a três estágios no processo de construção do teste: constituição do pool de itens, análise e seleção da estrutura interna do pool de itens e correlação das pontuações do teste com critérios e outras variáveis.

Na década de 1970, houve um debate crescente entre os teóricos que começaram a ver a validade de construto como o modelo dominante que impulsionava uma teoria de validade mais unificada e aqueles que continuaram a trabalhar a partir de estruturas de validade múltiplas. Muitos psicólogos e pesquisadores em educação viram "validades preditivas, concorrentes e de conteúdo como essencialmente ad hoc , a validade de construto era toda a validade de um ponto de vista científico". Na versão de 1974 de The Standards for Educational and Psychological Testing, a inter-relação de os três diferentes aspectos de validade foram reconhecidos: "Esses aspectos de validade podem ser discutidos independentemente, mas apenas por conveniência. Eles estão inter-relacionados operacional e logicamente; apenas raramente um deles sozinho é importante em uma situação particular".

Em 1989, Messick apresentou uma nova conceituação de validade de construto como um conceito unificado e multifacetado. Sob essa estrutura, todas as formas de validade estão conectadas e dependem da qualidade do construto. Ele observou que uma teoria unificada não era sua própria ideia, mas sim o culminar do debate e da discussão dentro da comunidade científica nas décadas anteriores. Existem seis aspectos de validade de construto na teoria unificada de validade de construto de Messick:

  1. Consequencial - Quais são os riscos potenciais se as pontuações forem inválidas ou interpretadas de forma inadequada? O teste ainda vale a pena, dados os riscos?
  2. Conteúdo - os itens de teste parecem estar medindo o construto de interesse?
  3. Substantivo - a fundamentação teórica subjacente ao construto de interesse é sólida?
  4. Estrutural - As inter-relações das dimensões medidas pelo teste se correlacionam com o construto de interesse e as pontuações do teste?
  5. Externo - o teste tem qualidades convergentes, discriminantes e preditivas?
  6. Generalizabilidade - O teste generaliza em diferentes grupos, configurações e tarefas?

Como a validade do construto deve ser vista apropriadamente ainda é um assunto de debate para os teóricos da validade. O cerne da diferença reside em uma diferença epistemológica entre teóricos positivistas e pós- positivistas .

Avaliação

A avaliação da validade do construto requer que as correlações da medida sejam examinadas em relação a variáveis ​​que são conhecidas por estarem relacionadas ao construto (supostamente medidas pelo instrumento sendo avaliado ou para as quais há fundamentos teóricos para esperar que ele esteja relacionado). Isso é consistente com a matriz multitraço- multimétodo (MTMM) para examinar a validade do construto descrita no artigo de referência de Campbell e Fiske (1959). Existem outros métodos para avaliar a validade do construto além do MTMM. Ele pode ser avaliado por meio de diferentes formas de análise fatorial , modelagem de equações estruturais (SEM) e outras avaliações estatísticas. É importante notar que um único estudo não prova a validade de construto. Em vez disso, é um processo contínuo de avaliação, reavaliação, refinamento e desenvolvimento. As correlações que se enquadram no padrão esperado contribuem com evidências de validade do construto. A validade de construto é um julgamento baseado no acúmulo de correlações de vários estudos usando o instrumento que está sendo avaliado.

A maioria dos pesquisadores tenta testar a validade do construto antes da pesquisa principal. Para fazer isso , estudos-piloto podem ser utilizados. Os estudos-piloto são estudos preliminares de pequena escala com o objetivo de testar a viabilidade de um teste em escala real. Esses estudos-piloto estabelecem a força de suas pesquisas e permitem que façam os ajustes necessários. Outro método é a técnica de grupos conhecidos, que envolve administrar o instrumento de medição a grupos que devem ser diferentes devido a características conhecidas. O teste de relacionamento hipotético envolve uma análise lógica baseada na teoria ou em pesquisas anteriores. Os estudos de intervenção são outro método de avaliação da validade do construto. Os estudos de intervenção em que um grupo com pontuações baixas no construto é testado, ensinado o construto e depois medido novamente podem demonstrar a validade do construto de um teste. Se houver uma diferença significativa pré-teste e pós-teste, que são analisados ​​por testes estatísticos, isso pode demonstrar boa validade de construto.

Validade convergente e discriminante

Validade convergente e discriminante são os dois subtipos de validade que compõem a validade de construto. A validade convergente refere-se ao grau em que duas medidas de construtos que teoricamente deveriam estar relacionadas estão de fato relacionadas. Em contraste, a validade discriminante testa se os conceitos ou medidas supostamente não relacionados são, de fato, não relacionados. Considere, por exemplo, uma construção de felicidade geral. Se uma medida de felicidade geral tinha validade convergente, então os construtos semelhantes à felicidade (satisfação, contentamento, alegria, etc.) deveriam relacionar-se positivamente com a medida de felicidade geral. Se esta medida tiver validade discriminante, então os construtos que não deveriam estar relacionados positivamente com a felicidade geral (tristeza, depressão, desespero, etc.) não deveriam se relacionar com a medida da felicidade geral. As medidas podem ter um dos subtipos de validade de construto e não o outro. Usando o exemplo da felicidade geral, um pesquisador poderia criar um inventário onde há uma correlação positiva muito alta entre felicidade geral e contentamento, mas se também houver uma correlação positiva significativa entre felicidade e depressão, então a validade do construto da medida é questionada . O teste tem validade convergente, mas não validade discriminante.

Rede nomológica

Lee Cronbach e Paul Meehl (1955) propuseram que o desenvolvimento de uma rede nomológica era essencial para a medição da validade de construto de um teste. Uma rede nomológica define um construto ilustrando sua relação com outros construtos e comportamentos. É uma representação dos conceitos (construtos) de interesse em um estudo, suas manifestações observáveis ​​e a inter-relação entre eles. Ele examina se as relações entre construções semelhantes são consideradas com as relações entre as medidas observadas das construções. Uma observação completa das relações entre os construtos pode gerar novos construtos. Por exemplo, inteligência e memória de trabalho são consideradas construções altamente relacionadas. Por meio da observação de seus componentes subjacentes, os psicólogos desenvolveram novos construtos teóricos, tais como: atenção controlada e carga de curto prazo. A criação de uma rede nomológica também pode tornar a observação e medição de construções existentes mais eficientes ao apontar erros. Os pesquisadores descobriram que estudar as saliências no crânio humano ( frenologia ) não são indicadores de inteligência, mas o volume do cérebro é. Removendo a teoria da frenologia da rede nomológica da inteligência e acrescentando a teoria da evolução da massa cerebral, os construtos da inteligência tornam-se mais eficientes e poderosos. A tecelagem de todos esses conceitos inter-relacionados e seus traços observáveis ​​cria uma "rede" que apóia seu conceito teórico. Por exemplo, na rede nomológica para desempenho acadêmico, esperaríamos características observáveis ​​de desempenho acadêmico (ou seja, pontuações GPA, SAT e ACT) para se relacionar com as características observáveis ​​para estudo (horas gastas estudando, atenção na aula, detalhes de notas) . Se não o fizerem, haverá um problema com a medição (de desempenho acadêmico ou estudo) ou com a suposta teoria de desempenho. Se eles forem indicadores um do outro, a rede nomológica e, portanto, a teoria construída, do desempenho acadêmico é fortalecida. Embora a rede nomológica tenha proposto uma teoria de como fortalecer os construtos, ela não nos diz como podemos avaliar a validade do construto em um estudo.

Matriz multitraço-multimétodo

A matriz multitraço- multimétodo (MTMM) é uma abordagem para examinar a validade de construto desenvolvida por Campbell e Fiske (1959). Este modelo examina a convergência (evidência de que diferentes métodos de medição de um construto dão resultados semelhantes) e discriminabilidade (capacidade de diferenciar o construto de outros construtos relacionados). Ele mede seis traços: a avaliação da validade convergente, a avaliação da validade discriminante (divergente), unidades do método de traço, métodos multitraço-multimétodos, metodologias verdadeiramente diferentes e características do traço. Este projeto permite que os investigadores testem: "convergência entre diferentes medidas ... da mesma 'coisa' ... e para divergência entre medidas ... de 'coisas' relacionadas, mas conceitualmente distintas.

Ameaças de construção de validade

A validade do construto aparente pode ser enganosa devido a uma série de problemas na formulação de hipóteses e projeto experimental.

  • Adivinhação de hipóteses : se o participante sabe, ou adivinha, o resultado final desejado, as ações do participante podem mudar. Um exemplo é o efeito Hawthorne : em um estudo de ergonomia industrial de 1925 conduzido na fábrica da Hawthorne Works fora de Chicago, os pesquisadores observaram que diminuir e aumentar o brilho dos níveis de luz ambiente aumentava a produtividade do trabalhador. Eles acabaram determinando a base para esse resultado paradoxal: os trabalhadores que estavam cientes de serem observados trabalharam mais arduamente, independentemente das mudanças no ambiente.
  • Viés no desenho experimental (intencional ou não intencional). Um exemplo disso é fornecido no livro de 1981 de Stephen Jay Gould , " The Mismeasure of Man ". Entre as perguntas usadas na época da Primeira Guerra Mundial na bateria usada para medir a inteligência estava: "Em que cidade os Dodgers jogam?" (eles estavam baseados no Brooklyn). Imigrantes recentes da Europa Oriental para os EUA, não familiarizados com o esporte do beisebol, responderam erroneamente, e isso foi usado para inferir que os europeus orientais tinham inteligência inferior. A pergunta não mede inteligência: mede apenas quanto tempo alguém viveu nos Estados Unidos e se aculturou com um passatempo popular.
  • As expectativas do pesquisador podem ser comunicadas involuntariamente aos participantes, não verbalmente, provocando o efeito desejado. Para controlar essa possibilidade, projetos experimentais duplo-cegos devem ser usados ​​sempre que possível. Ou seja, o avaliador de um determinado participante não deve estar ciente de qual intervenção foi realizada naquele determinado participante ou deve ser independente do experimentador.
  • Definindo o resultado previsto de forma muito restrita . Por exemplo, usar apenas a satisfação no trabalho para medir a felicidade excluirá informações relevantes de fora do local de trabalho.
  • Variáveis ​​de confusão (covariáveis): A causa raiz dos efeitos observados pode ser devido a variáveis ​​que não foram consideradas ou medidas.

Uma exploração aprofundada das ameaças à validade do construto é apresentada em Trochim.

Veja também

Referências

links externos