Aproximação de classificação baixa - Low-rank approximation

Em matemática, a aproximação de classificação baixa é um problema de minimização , no qual a função de custo mede o ajuste entre uma dada matriz (os dados) e uma matriz de aproximação (a variável de otimização), sujeita à restrição de que a matriz de aproximação tem classificação reduzida . O problema é usado para modelagem matemática e compressão de dados . A restrição de classificação está relacionada a uma restrição na complexidade de um modelo que se ajusta aos dados. Em aplicações, muitas vezes existem outras restrições na matriz de aproximação além da restrição de classificação, por exemplo, não negatividade e estrutura de Hankel .

A aproximação de classificação inferior está intimamente relacionada a:

Dado

  • especificação da estrutura ,
  • vetor de parâmetros de estrutura ,
  • norma , e
  • classificação desejada ,

Formulários

Problema básico de aproximação de baixa classificação

O problema não estruturado com ajuste medido pela norma Frobenius , ou seja,

tem solução analítica em termos da decomposição de valor singular da matriz de dados. O resultado é conhecido como lema de aproximação da matriz ou teorema de Eckart-Young-Mirsky . Deixar

ser a decomposição do valor singular da e de partição , e como se segue:

onde está , está e está . Em seguida, a matriz de classificação , obtida a partir da decomposição de valor singular truncado

é tal que

O minimizador é único se e somente se .

Prova do teorema de Eckart-Young-Mirsky (para norma espectral )

Let Ser uma matriz real (possivelmente retangular) com . Suponha que

é a decomposição de valor singular de . Lembre-se de que e são matrizes ortogonais , e é uma matriz diagonal com entradas tais que .

Afirmamos que a melhor aproximação de classificação na norma espectral, denotada por , é dada por

onde e denotam a ésima coluna de e , respectivamente.

Primeiro, observe que temos

Portanto, precisamos mostrar que se onde e ter colunas então .

Uma vez que tem colunas, então deve haver uma combinação linear não trivial das primeiras colunas de , ou seja,

tal que . Sem perda de generalidade, podemos dimensionar para que ou (equivalentemente) . Portanto,

O resultado segue tirando a raiz quadrada de ambos os lados da desigualdade acima.

Prova do teorema de Eckart-Young-Mirsky (para a norma de Frobenius )

Let Ser uma matriz real (possivelmente retangular) com . Suponha que

é a decomposição de valor singular de .

Afirmamos que a melhor aproximação de classificação na norma Frobenius, denotada por , é dada por

onde e denotam a ésima coluna de e , respectivamente.

Primeiro, observe que temos

Portanto, precisamos mostrar que se onde e tiver colunas, então

Pela desigualdade do triângulo com a norma espectral, se então . Suponha e denote respectivamente a aproximação de classificação para e pelo método SVD descrito acima. Então, para qualquer

Desde , quando e concluímos que para

Portanto,

como requerido.

Problemas de aproximação de classificação baixa ponderada

A norma de Frobenius pondera uniformemente todos os elementos do erro de aproximação . O conhecimento prévio sobre a distribuição dos erros pode ser levado em consideração considerando o problema de aproximação de classificação baixa ponderada

onde vetoriza a coluna da matriz e é uma dada matriz de peso positivo (semi) definido.

O problema geral de aproximação ponderada de baixo posto não admite uma solução analítica em termos de decomposição de valor singular e é resolvido por métodos de otimização local, que não fornecem garantia de que uma solução globalmente ótima seja encontrada.

No caso de pesos não correlacionados, o problema de aproximação de classificação baixa ponderada também pode ser formulado desta maneira: para uma matriz não negativa e uma matriz , queremos minimizar sobre matrizes,, de classificação no máximo .

Entrada-wise problemas de aproximação de baixo-rank

Deixe . Pois , o algoritmo mais rápido é executado no tempo. Uma das idéias importantes utilizadas é chamada Oblivious Subspace Embedding (OSE), proposta pela primeira vez por Sarlos.

Pois , sabe-se que esta norma L1 de entrada é mais robusta do que a norma de Frobenius na presença de outliers e é indicada em modelos onde as suposições gaussianas sobre o ruído podem não se aplicar. É natural buscar minimizar . Para e , existem alguns algoritmos com garantias prováveis.

Problema de aproximação de baixa classificação de distância

Deixe e seja dois conjuntos de pontos em um espaço métrico arbitrário. Deixe representar a matriz onde . Essas matrizes de distâncias são comumente calculadas em pacotes de software e têm aplicativos para aprendizado de coletores de imagens, reconhecimento de caligrafia e desdobramento multidimensional. Na tentativa de reduzir seu tamanho de descrição, pode-se estudar a aproximação de baixa classificação de tais matrizes.

Problema de aproximação de classificação baixa distribuída / streaming

Os problemas de aproximação de baixa classificação na configuração distribuída e de streaming foram considerados em.

Representações de imagem e kernel das restrições de classificação

Usando as equivalências

e

o problema de aproximação de classificação baixa ponderada torna-se equivalente aos problemas de otimização de parâmetro

e

onde está a matriz de identidade de tamanho .

Algoritmo de projeções alternadas

A representação da imagem da restrição de classificação sugere um método de otimização de parâmetro no qual a função de custo é minimizada alternativamente sobre uma das variáveis ​​( ou ) com a outra fixa. Embora a minimização simultânea sobre ambos e é um difícil otimização biconvex problema, minimização sobre uma das variáveis por si só é um linear de mínimos quadrados problema e pode ser resolvida globalmente e de forma eficiente.

O algoritmo de otimização resultante (chamado de projeções alternadas) é globalmente convergente com uma taxa de convergência linear para uma solução localmente ótima do problema de aproximação de classificação baixa ponderada. O valor inicial para o parâmetro (ou ) deve ser fornecido. A iteração é interrompida quando uma condição de convergência definida pelo usuário é satisfeita.

Implementação Matlab do algoritmo de projeções alternadas para aproximação ponderada de baixa classificação:

function [dh, f] = wlra_ap(d, w, p, tol, maxiter)
[m, n] = size(d); r = size(p, 2); f = inf;
for i = 2:maxiter
    % minimization over L
    bp = kron(eye(n), p);
    vl = (bp' * w * bp) \ bp' * w * d(:);
    l  = reshape(vl, r, n);
    % minimization over P
    bl = kron(l', eye(m));
    vp = (bl' * w * bl) \ bl' * w * d(:);
    p  = reshape(vp, m, r);
    % check exit condition
    dh = p * l; dd = d - dh;
    f(i) = dd(:)' * w * dd(:);
    if abs(f(i - 1) - f(i)) < tol, break, end
endfor

Algoritmo de projeções variáveis

O algoritmo de projeções alternadas explora o fato de que o problema de aproximação de baixo posto, parametrizado na forma de imagem, é bilinear nas variáveis ou . A natureza bilinear do problema é efetivamente usada em uma abordagem alternativa, chamada de projeções variáveis.

Considere novamente o problema de aproximação de classificação baixa ponderada, parametrizado na forma de imagem. A minimização em relação à variável (um problema de mínimos quadrados lineares) leva à expressão de forma fechada do erro de aproximação como uma função de

O problema original é, portanto, equivalente ao problema de mínimos quadrados não lineares de minimizar em relação a . Para este propósito, métodos de otimização padrão, por exemplo, o algoritmo de Levenberg-Marquardt podem ser usados.

Implementação Matlab do algoritmo de projeções variáveis ​​para aproximação ponderada de baixa classificação:

function [dh, f] = wlra_varpro(d, w, p, tol, maxiter)
prob = optimset(); prob.solver = 'lsqnonlin';
prob.options = optimset('MaxIter', maxiter, 'TolFun', tol); 
prob.x0 = p; prob.objective = @(p) cost_fun(p, d, w);
[p, f ] = lsqnonlin(prob); 
[f, vl] = cost_fun(p, d, w); 
dh = p * reshape(vl, size(p, 2), size(d, 2));

function [f, vl] = cost_fun(p, d, w)
bp = kron(eye(size(d, 2)), p);
vl = (bp' * w * bp) \ bp' * w * d(:);
f = d(:)' * w * (d(:) - bp * vl);

A abordagem de projeções variáveis ​​pode ser aplicada também a problemas de aproximação de classificação baixa parametrizados na forma de kernel. O método é eficaz quando o número de variáveis ​​eliminadas é muito maior do que o número de variáveis ​​de otimização restantes no estágio de minimização de mínimos quadrados não lineares. Tais problemas ocorrem na identificação do sistema, parametrizada na forma de kernel, onde as variáveis ​​eliminadas são a trajetória de aproximação e as demais variáveis ​​são os parâmetros do modelo. No contexto de sistemas lineares invariantes no tempo , a etapa de eliminação é equivalente à suavização de Kalman .

Uma variante: aproximação de classificação baixa restrita convexa

Normalmente, queremos que nossa nova solução não seja apenas de classificação baixa, mas também satisfaça outras restrições convexas devido aos requisitos do aplicativo. Nosso problema de interesse seria o seguinte,

Este problema tem muitas aplicações do mundo real, incluindo a recuperação de uma boa solução de um relaxamento inexato (programação semidefinida). Se a restrição adicional for linear, como exigimos que todos os elementos sejam não negativos, o problema é chamado de aproximação estruturada de baixa classificação. A forma mais geral é chamada de aproximação de classificação baixa restrita convexa.

Este problema é útil para resolver muitos problemas. No entanto, é um desafio devido à combinação das restrições convexa e não convexa (baixa classificação). Diferentes técnicas foram desenvolvidas com base em diferentes realizações de . No entanto, o Método dos Multiplicadores de Direção Alternada (ADMM) pode ser aplicado para resolver o problema não convexo com função objetivo convexa, restrições de classificação e outras restrições convexas e, portanto, é adequado para resolver nosso problema acima. Além disso, ao contrário dos problemas não convexos gerais, ADMM garantirá convergir uma solução viável, desde que sua variável dupla converta nas iterações

Veja também

Referências

  • MT Chu, RE Funderlic, RJ Plemmons, Structured low-rank aproximation, Linear Algebra and its Applications, Volume 366, 1 de junho de 2003, Páginas 157–172 doi : 10.1016 / S0024-3795 (02) 00505-0

links externos