Redução de dimensionalidade multifator - Multifactor dimensionality reduction

A redução de dimensionalidade multifator (MDR) é uma abordagem estatística, também usada em abordagens automáticas de aprendizado de máquina , para detectar e caracterizar combinações de atributos ou variáveis independentes que interagem para influenciar uma variável dependente ou de classe. O MDR foi projetado especificamente para identificar interações não aditivas entre variáveis discretas que influenciam um resultado binário e é considerado uma alternativa não paramétrica e sem modelo para métodos estatísticos tradicionais, como regressão logística .

A base do método MDR é uma indução construtiva ou algoritmo de engenharia de recursos que converte duas ou mais variáveis ou atributos em um único atributo. Este processo de construção de um novo atributo altera o espaço de representação dos dados. O objetivo final é criar ou descobrir uma representação que facilite a detecção de interações não lineares ou não aditivas entre os atributos, de forma que a previsão da variável de classe seja melhorada em relação à representação original dos dados.

Exemplo ilustrativo

Considere o seguinte exemplo simples usando a função exclusiva OR (XOR). XOR é um operador lógico comumente usado em mineração de dados e aprendizado de máquina como um exemplo de função que não é linearmente separável. A tabela abaixo representa um conjunto de dados simples onde a relação entre os atributos (X1 e X2) e a variável de classe (Y) é definida pela função XOR tal que Y = X1 XOR X2.

tabela 1

X1	X2	Y
0	0	0
0	1	1
1	0	1
1	1	0

Um algoritmo de aprendizado de máquina precisaria descobrir ou aproximar a função XOR para prever Y com precisão usando informações sobre X1 e X2. Uma estratégia alternativa seria primeiro alterar a representação dos dados usando indução construtiva para facilitar a modelagem preditiva. O algoritmo MDR mudaria a representação dos dados (X1 e X2) da seguinte maneira. O MDR começa selecionando dois atributos. Neste exemplo simples, X1 e X2 são selecionados. Cada combinação de valores para X1 e X2 é examinada e o número de vezes que Y = 1 e / ou Y = 0 é contado. Neste exemplo simples, Y = 1 ocorre zero vezes e Y = 0 ocorre uma vez para a combinação de X1 = 0 e X2 = 0. Com o MDR, a proporção dessas contagens é calculada e comparada a um limite fixo. Aqui, a proporção das contagens é 0/1, que é menor do que nosso limite fixo de 1. Como 0/1 <1, codificamos um novo atributo (Z) como 0. Quando a proporção é maior do que um, codificamos Z como um 1. Este processo é repetido para todas as combinações exclusivas de valores para X1 e X2. A Tabela 2 ilustra nossa nova transformação dos dados.

mesa 2

Z	Y
0	0
1	1
1	1
0	0

O algoritmo de aprendizado de máquina agora tem muito menos trabalho a fazer para encontrar uma boa função preditiva. Na verdade, neste exemplo muito simples, a função Y = Z tem uma precisão de classificação de 1. Um bom recurso dos métodos de indução construtivos, como MDR, é a capacidade de usar qualquer método de mineração de dados ou aprendizado de máquina para analisar a nova representação do dados. Árvores de decisão , redes neurais ou um classificador Bayes ingênuo podem ser usados em combinação com medidas de qualidade do modelo, como precisão balanceada e informações mútuas.

Aprendizado de máquina com MDR

Conforme ilustrado acima, o algoritmo básico de indução construtiva em MDR é muito simples. No entanto, sua implementação para padrões de mineração de dados reais pode ser computacionalmente complexa. Como acontece com qualquer algoritmo de aprendizado de máquina, sempre há preocupação com overfitting . Ou seja, os algoritmos de aprendizado de máquina são bons para encontrar padrões em dados completamente aleatórios. Freqüentemente, é difícil determinar se um padrão relatado é um sinal importante ou apenas um acaso. Uma abordagem é estimar a generalização de um modelo para conjuntos de dados independentes usando métodos como validação cruzada . Modelos que descrevem dados aleatórios geralmente não generalizam. Outra abordagem é gerar muitas permutações aleatórias dos dados para ver o que o algoritmo de mineração de dados encontra quando tem a chance de super ajuste. O teste de permutação permite gerar um valor p empírico para o resultado. A replicação em dados independentes também pode fornecer evidências para um modelo MDR, mas pode ser sensível à diferença nos conjuntos de dados. Todas essas abordagens têm se mostrado úteis para escolher e avaliar modelos MDR. Uma etapa importante em um exercício de aprendizado de máquina é a interpretação. Várias abordagens têm sido usadas com MDR, incluindo análise de entropia e análise de caminho. Dicas e abordagens para usar MDR para modelar interações gene-gene foram revisadas.

Extensões para MDR

Inúmeras extensões para MDR foram introduzidas. Isso inclui métodos baseados em família, métodos fuzzy, ajuste de covariável, odds ratios, escores de risco, métodos de sobrevivência, métodos robustos, métodos para características quantitativas e muitos outros.

Aplicações de MDR

O MDR tem sido aplicado principalmente na detecção de interações gene-gene ou epistasia em estudos genéticos de doenças humanas comuns, como fibrilação atrial , autismo , câncer de bexiga , câncer de mama , doenças cardiovasculares , hipertensão , obesidade , câncer pancreático , câncer de próstata e tuberculose . Também foi aplicado a outros problemas biomédicos, como a análise genética de resultados farmacológicos . Um desafio central é o dimensionamento de MDR para big data , como os de estudos de associação de todo o genoma (GWAS). Várias abordagens têm sido usadas. Uma abordagem é filtrar os recursos antes da análise de MDR. Isso pode ser feito usando o conhecimento biológico por meio de ferramentas como o BioFilter. Também pode ser feito usando ferramentas computacionais como o ReliefF. Outra abordagem é usar algoritmos de pesquisa estocástica , como programação genética, para explorar o espaço de pesquisa de combinações de recursos. Ainda outra abordagem é uma busca de força bruta usando computação de alto desempenho .

Implementações

www.epistasis.org fornece um pacote de software MDR de código aberto e disponível gratuitamente.
Um pacote R para MDR.
Uma implementação Python compatível com sklearn .
Um pacote R para MDR baseado em modelo.
MDR em Weka .
MDR generalizado .

Veja também

Referências

Leitura adicional

Michalski, RS, "Pattern Recognition as Knowledge-Guided Computer Induction," Department of Computer Science Reports, No. 927, University of Illinois, Urbana, junho de 1978.

Languages

In other projects