Ligação de registro - Record linkage

A vinculação de registros (também conhecida como correspondência de dados , resolução de entidade e muitos outros termos) é a tarefa de encontrar registros em um conjunto de dados que se referem à mesma entidade em diferentes fontes de dados (por exemplo, arquivos de dados, livros, sites e bancos de dados) . A vinculação de registros é necessária ao juntar diferentes conjuntos de dados com base em entidades que podem ou não compartilhar um identificador comum (por exemplo, chave de banco de dados , URI , número de identificação nacional ), o que pode ser devido a diferenças na forma do registro, local de armazenamento ou estilo do curador ou preferência. Um conjunto de dados que passou por reconciliação orientada a RL pode ser referido como sendo reticulado . O vínculo de registro é conhecido como vínculo de dados em muitas jurisdições, mas os dois são o mesmo processo.

Convenções de nomenclatura

"Ligação de registros" é o termo usado por estatísticos, epidemiologistas e historiadores, entre outros, para descrever o processo de juntar registros de uma fonte de dados com outra que descreve a mesma entidade. No entanto, muitos outros termos são usados ​​para este processo. Infelizmente, essa profusão de terminologia levou a poucas referências cruzadas entre essas comunidades de pesquisa.

Os cientistas da computação costumam se referir a isso como "correspondência de dados" ou "problema de identidade do objeto". O correio comercial e os aplicativos de banco de dados referem-se a ele como "processamento de mesclagem / eliminação" ou "limpeza de listas". Outros nomes usados ​​para descrever o mesmo conceito incluem: "co-referência / entidade / identidade / nome / resolução de registro", "desambiguação / vinculação de entidade", "correspondência difusa", "detecção de duplicata", "desduplicação", "correspondência de registro", " (referência) reconciliação "," identificação do objeto "," integração de dados / informações "e" fusão ".

Embora compartilhem nomes semelhantes, a vinculação de registros e os dados vinculados são duas abordagens distintas para processar e estruturar dados. Embora ambos envolvam a identificação de entidades correspondentes em diferentes conjuntos de dados, a vinculação de registros normalmente iguala "entidades" a indivíduos humanos; em contraste, Linked Data é baseado na possibilidade de interligar qualquer recurso da web em conjuntos de dados, usando um conceito correspondentemente mais amplo de identificador, a saber, um URI .

História

A ideia inicial da vinculação de registros remonta a Halbert L. Dunn em seu artigo de 1946 intitulado "Record Linkage" publicado no American Journal of Public Health .

Howard Borden Newcombe então lançou as bases probabilísticas da moderna teoria de ligação de registros em um artigo de 1959 na Science . Estes foram formalizados em 1969 por Ivan Fellegi e Alan Sunter, em seu trabalho pioneiro "A Theory For Record Linkage", onde provaram que a regra de decisão probabilística que descreveram era ótima quando os atributos de comparação eram condicionalmente independentes. Em seu trabalho, eles reconheceram o crescente interesse em aplicar avanços em computação e automação a grandes coleções de dados administrativos , e a teoria de Fellegi-Sunter continua sendo a base matemática para muitas aplicações de vinculação de registros.

Desde o final dos anos 1990, várias técnicas de aprendizado de máquina foram desenvolvidas e podem, em condições favoráveis, ser usadas para estimar as probabilidades condicionais exigidas pela teoria de Fellegi-Sunter. Vários pesquisadores relataram que a suposição de independência condicional do algoritmo de Fellegi-Sunter é frequentemente violada na prática; no entanto, os esforços publicados para modelar explicitamente as dependências condicionais entre os atributos de comparação não resultaram em uma melhoria na qualidade do vínculo de registro. Por outro lado, o aprendizado de máquina ou algoritmos de rede neural que não dependem dessas suposições geralmente fornecem uma precisão muito maior, quando dados de treinamento rotulados suficientes estão disponíveis.

A vinculação de registros pode ser feita inteiramente sem o auxílio de um computador, mas os principais motivos pelos quais os computadores são freqüentemente usados ​​para completar as vinculações de registros são para reduzir ou eliminar a revisão manual e para tornar os resultados mais facilmente reproduzíveis. A correspondência por computador tem a vantagem de permitir a supervisão central do processamento, melhor controle de qualidade, velocidade, consistência e melhor reprodutibilidade dos resultados.

Métodos

Pré-processamento de dados

A vinculação de registros é altamente sensível à qualidade dos dados que estão sendo vinculados, portanto, todos os conjuntos de dados em consideração (especialmente seus campos de identificadores principais) devem ser submetidos a uma avaliação de qualidade de dados antes da vinculação de registros. Muitos identificadores de chave para a mesma entidade podem ser apresentados de forma bastante diferente entre (e até mesmo dentro) dos conjuntos de dados, o que pode complicar muito a vinculação de registros, a menos que seja entendido com antecedência. Por exemplo, os identificadores de chave de um homem chamado William J. Smith podem aparecer em três conjuntos de dados diferentes como:

Conjunto de dados Nome Data de nascimento Cidade de residência
Conjunto de dados 1 William J. Smith 1/2/73 Berkeley, Califórnia
Conjunto de dados 2 Smith, WJ 1973.1.2 Berkeley, CA
Conjunto de dados 3 Bill Smith 2 de janeiro de 1973 Berkeley, Califórnia

Neste exemplo, os diferentes estilos de formatação levam a registros que parecem diferentes, mas na verdade todos se referem à mesma entidade com os mesmos valores de identificador lógico. A maioria, senão todas, as estratégias de ligação de registro resultariam em uma ligação mais precisa se esses valores fossem primeiro normalizados ou padronizados em um formato consistente (por exemplo, todos os nomes são "Sobrenome, Nome" e todas as datas são "AAAA / MM / DD "). A padronização pode ser realizada por meio de transformações de dados baseadas em regras simples ou procedimentos mais complexos, como tokenização baseada em léxico e modelos de Markov ocultos probabilísticos. Vários dos pacotes listados na seção Implementações de software fornecem alguns desses recursos para simplificar o processo de padronização de dados.

Resolução de entidade

A resolução de entidade é um processo de inteligência operacional , normalmente alimentado por um mecanismo de resolução de entidade ou middleware , por meio do qual as organizações podem conectar fontes de dados díspares com o objetivo de compreender possíveis correspondências de entidade e relacionamentos não óbvios em vários silos de dados . Ele analisa todas as informações relacionadas a indivíduos e / ou entidades de várias fontes de dados e, em seguida, aplica a pontuação de probabilidade e probabilidade para determinar quais identidades são correspondentes e quais, se houver, relações não óbvias existem entre essas identidades.

Os mecanismos de resolução de entidade são normalmente usados ​​para descobrir riscos , fraudes e conflitos de interesse, mas também são ferramentas úteis para uso dentro dos requisitos de integração de dados do cliente (CDI) e gerenciamento de dados mestre (MDM). Os usos típicos dos mecanismos de resolução de entidades incluem triagem de terrorismo, detecção de fraude em seguros, conformidade com o USA Patriot Act , detecção de crime organizado no varejo e triagem de candidatos.

Por exemplo: Em diferentes silos de dados - registros de funcionários, dados de fornecedores, listas de observação, etc. - uma organização pode ter várias variações de uma entidade chamada ABC, que pode ou não ser o mesmo indivíduo. Essas entradas podem, na verdade, aparecer como ABC1, ABC2 ou ABC3 nessas fontes de dados. Ao comparar semelhanças entre atributos subjacentes, como endereço , data de nascimento ou número do seguro social , o usuário pode eliminar algumas correspondências possíveis e confirmar outras como correspondências muito prováveis.

Os mecanismos de resolução de entidade então aplicam regras, com base na lógica do senso comum, para identificar relacionamentos ocultos entre os dados. No exemplo acima, talvez ABC1 e ABC2 não sejam o mesmo indivíduo, mas sim duas pessoas distintas que compartilham atributos comuns, como endereço ou número de telefone.

Correspondência de dados

Embora as soluções de resolução de entidade incluam tecnologia de correspondência de dados, muitas ofertas de correspondência de dados não se enquadram na definição de resolução de entidade. Aqui estão quatro fatores que distinguem a resolução de entidade da correspondência de dados, de acordo com John Talburt, diretor do Centro de Pesquisa Avançada em Resolução de Entidades e Qualidade da Informação da UALR :

  • Trabalha com registros estruturados e não estruturados e envolve o processo de extração de referências quando as fontes são não estruturadas ou semiestruturadas
  • Usa regras de negócios elaboradas e modelos de conceito para lidar com informações ausentes, conflitantes e corrompidas
  • Utiliza informações de link declarado (associado) não correspondentes, além da correspondência direta
  • Descobre relacionamentos não óbvios e redes de associação (ou seja, quem está associado a quem)

Em contraste com os produtos de qualidade de dados, os mecanismos de resolução de identidade mais poderosos também incluem um mecanismo de regras e processo de fluxo de trabalho, que aplica inteligência de negócios às identidades resolvidas e seus relacionamentos. Essas tecnologias avançadas tomam decisões automatizadas e impactam os processos de negócios em tempo real, limitando a necessidade de intervenção humana.

Ligação determinística de registros

O tipo mais simples de vinculação de registros, denominado vinculação de registros determinística ou baseada em regras , gera links com base no número de identificadores individuais que correspondem entre os conjuntos de dados disponíveis. Diz-se que dois registros coincidem por meio de um procedimento de ligação de registro determinístico se todos ou alguns identificadores (acima de um certo limite) forem idênticos. O vínculo de registro determinístico é uma boa opção quando as entidades nos conjuntos de dados são identificadas por um identificador comum, ou quando há vários identificadores representativos (por exemplo, nome, data de nascimento e sexo ao identificar uma pessoa), cuja qualidade dos dados é relativamente Alto.

Como exemplo, considere dois conjuntos de dados padronizados, Conjunto A e Conjunto B, que contêm informações diferentes sobre os pacientes em um sistema hospitalar. Os dois conjuntos de dados identificam os pacientes usando uma variedade de identificadores: Número da Previdência Social (SSN), nome, data de nascimento (DOB), sexo e CEP (CEP). Os registros em dois conjuntos de dados (identificados pela coluna "#") são mostrados abaixo:

Conjunto de Dados # SSN Nome DOB Sexo fecho eclair
Conjunto A 1 000956723 Smith, William 02/01/1973 Masculino 94701
2 000956723 Smith, William 02/01/1973 Masculino 94703
3 000005555 Jones, Robert 14/08/1942 Masculino 94701
4 123001234 Sue, Mary 1972/11/1972 Fêmea 94109
Conjunto B 1 000005555 Jones, Bob 14/08/1942
2 Smith, Bill 02/01/1973 Masculino 94701

A estratégia de vinculação de registros determinística mais simples seria escolher um único identificador que se presume ser uma identificação exclusiva, digamos SSN, e declarar que os registros que compartilham o mesmo valor identificam a mesma pessoa, enquanto os registros que não compartilham o mesmo valor identificam pessoas diferentes. Neste exemplo, a ligação determinística com base no SSN criaria entidades com base em A1 e A2; A3 e B1; e A4. Embora A1, A2 e B2 pareçam representar a mesma entidade, B2 não seria incluído na correspondência porque falta um valor para SSN.

O tratamento de exceções, como identificadores ausentes, envolve a criação de regras adicionais de vinculação de registros. Uma dessas regras no caso de SSN ausente pode ser comparar o nome, data de nascimento, sexo e código postal com outros registros na esperança de encontrar uma correspondência. No exemplo acima, esta regra ainda não combinaria A1 / A2 com B2 porque os nomes ainda são ligeiramente diferentes: a padronização colocou os nomes no formato adequado (Sobrenome, Nome), mas não conseguiu discernir "Bill" como um apelido para " William". Correndo nomes através de um algoritmo de fonética , como Soundex , NYSIIS , ou metaphone , pode ajudar a resolver esses tipos de problemas (embora ele ainda pode tropeçar mudanças sobrenome como resultado de casamento ou divórcio), mas B2, em seguida, seria igualado apenas com A1 já que o código postal em A2 é diferente. Assim, outra regra precisaria ser criada para determinar se as diferenças em identificadores específicos são aceitáveis ​​(como o código postal) e quais não são (como a data de nascimento).

Como este exemplo demonstra, mesmo uma pequena diminuição na qualidade dos dados ou um pequeno aumento na complexidade dos dados pode resultar em um grande aumento no número de regras necessárias para vincular os registros corretamente. Eventualmente, essas regras de ligação se tornarão numerosas e inter-relacionadas demais para serem construídas sem o auxílio de ferramentas de software especializadas. Além disso, as regras de vinculação costumam ser específicas à natureza dos conjuntos de dados para os quais foram projetadas. Um estudo conseguiu vincular o Arquivo Mestre de Morte da Previdência Social com dois registros de hospitais do meio - oeste dos Estados Unidos usando SSN, nome codificado por NYSIIS, mês de nascimento e sexo, mas essas regras podem não funcionar tão bem com conjuntos de dados de outras regiões geográficas regiões ou com dados coletados sobre as populações mais jovens. Portanto, o teste de manutenção contínua dessas regras é necessário para garantir que continuem a funcionar conforme o esperado, à medida que novos dados entram no sistema e precisam ser vinculados. Novos dados que exibem características diferentes das inicialmente esperadas podem exigir uma reconstrução completa do conjunto de regras de vinculação de registros, o que pode ser uma tarefa muito demorada e cara.

Ligação probabilística de registro

A ligação probabilística de registros , às vezes chamada de correspondência difusa (também fusão probabilística ou fusão difusa no contexto da fusão de bancos de dados), tem uma abordagem diferente para o problema de ligação de registros, levando em consideração uma gama mais ampla de identificadores potenciais, calculando pesos para cada identificador com base em sua capacidade estimada de identificar corretamente uma correspondência ou não correspondência e usar esses pesos para calcular a probabilidade de que dois registros dados se refiram à mesma entidade. Pares de registros com probabilidades acima de um certo limite são considerados correspondências, enquanto pares com probabilidades abaixo de outro limite são considerados não correspondências; pares que caem entre esses dois limites são considerados "possíveis correspondências" e podem ser tratados de acordo (por exemplo, revisão humana, vinculados ou não vinculados, dependendo dos requisitos). Enquanto a ligação determinística de registros requer uma série de regras potencialmente complexas a serem programadas com antecedência, os métodos de ligação de registros probabilísticos podem ser "treinados" para um bom desempenho com muito menos intervenção humana.

Muitos algoritmos de ligação de registros probabilísticos atribuem pesos de correspondência / não correspondência a identificadores por meio de duas probabilidades chamadas u e m . A probabilidade u é a probabilidade de um identificador em dois registros não correspondentes concordar puramente por acaso. Por exemplo, a probabilidade u para o mês de nascimento (onde existem doze valores que são distribuídos aproximadamente uniformemente) é 1/12 ≈ 0,083; identificadores com valores que não são uniformemente distribuídos terão probabilidades u diferentes para valores diferentes (possivelmente incluindo valores ausentes). A probabilidade m é a probabilidade de que um identificador em pares correspondentes concorde (ou seja suficientemente semelhante, como strings com baixa distância de Jaro-Winkler ou Levenshtein ). Esse valor seria 1,0 no caso de dados perfeitos, mas como isso raramente (ou nunca) é verdade, ele pode ser estimado. Esta estimativa pode ser feita com base no conhecimento prévio dos conjuntos de dados, identificando manualmente um grande número de pares correspondentes e não correspondentes para "treinar" o algoritmo de ligação de registro probabilístico ou executando iterativamente o algoritmo para obter estimativas mais próximas de m probabilidade. Se um valor de 0,95 fosse estimado para a probabilidade m , então os pesos correspondentes / não correspondentes para o identificador do mês de nascimento seriam:

Resultado Proporção de links Proporção de não links Relação de freqüência Peso
Corresponder m = 0,95 u ≈ 0,083 m / u ≈ 11,4 ln ( m / u ) / ln (2) ≈ 3,51
Sem correspondência 1− m = 0,05 1- u ≈ 0,917 (1- m ) / (1- u ) ≈ 0,0545 ln ((1- m ) / (1- u )) / ln (2) ≈ -4,20

Os mesmos cálculos seriam feitos para todos os outros identificadores em consideração para encontrar seus pesos correspondentes / não correspondentes. Em seguida, cada identificador de um registro seria comparado com o identificador correspondente de outro registro para calcular o peso total do par: o peso de correspondência é adicionado ao total de execução sempre que um par de identificadores concorda, enquanto o peso de não correspondência é adicionado (ou seja, o total corrente diminui) sempre que o par de identificadores discorda. O peso total resultante é então comparado aos limites mencionados acima para determinar se o par deve ser vinculado, não vinculado ou reservado para consideração especial (por exemplo, validação manual).

Determinar onde definir os limites de correspondência / não correspondência é um ato de equilíbrio entre a obtenção de uma sensibilidade aceitável (ou rechamada , a proporção de registros verdadeiramente correspondentes que estão vinculados pelo algoritmo) e o valor preditivo positivo (ou precisão , a proporção de registros vinculados pelo algoritmo que realmente corresponde). Vários métodos manuais e automatizados estão disponíveis para prever os melhores limites e alguns pacotes de software de vinculação de registros têm ferramentas integradas para ajudar o usuário a encontrar os valores mais aceitáveis. Como essa pode ser uma tarefa muito exigente do ponto de vista computacional, especialmente para grandes conjuntos de dados, uma técnica conhecida como bloqueio é frequentemente usada para melhorar a eficiência. O bloqueio tenta restringir as comparações apenas aos registros para os quais um ou mais identificadores particularmente discriminantes concordam, o que tem o efeito de aumentar o valor preditivo positivo (precisão) em detrimento da sensibilidade (recall). Por exemplo, o bloqueio com base em um sobrenome e código postal foneticamente codificados reduziria o número total de comparações necessárias e aumentaria as chances de que os registros vinculados estivessem corretos (uma vez que dois identificadores já concordam), mas poderia perder registros referentes à mesma pessoa cujo sobrenome ou CEP fosse diferente (por casamento ou mudança, por exemplo). O bloqueio com base no mês de nascimento, um identificador mais estável que deveria mudar apenas no caso de erro de dados, proporcionaria um ganho mais modesto no valor preditivo positivo e perda de sensibilidade, mas criaria apenas doze grupos distintos que, por extremamente grandes conjuntos de dados, podem não fornecer muita melhoria líquida na velocidade de computação. Portanto, sistemas robustos de vinculação de registros costumam usar várias passagens de bloqueio para agrupar dados de várias maneiras, a fim de criar grupos de registros que devem ser comparados entre si.

Aprendizado de máquina

Nos últimos anos, uma variedade de técnicas de aprendizado de máquina foram usadas na vinculação de registros. Foi reconhecido que o algoritmo de Fellegi-Sunter clássico para ligação probabilística de registros descrito acima é equivalente ao algoritmo Naive Bayes no campo do aprendizado de máquina e sofre da mesma suposição de independência de seus recursos (uma suposição que normalmente não é verdade). Muitas vezes, é possível obter maior precisão usando várias outras técnicas de aprendizado de máquina, incluindo um perceptron de camada única . Em conjunto com tecnologias distribuídas, a precisão e a escala para vinculação de registros podem ser melhoradas ainda mais.

Modelo matemático

Em uma aplicação com dois arquivos, A e B, denote as linhas ( registros ) por no arquivo A e no arquivo B. Atribua características a cada registro. O conjunto de registros que representam entidades idênticas é definido por

e o complemento de conjunto , ou seja, conjunto que representa diferentes entidades é definido como

.

É definido um vetor que contém as concordâncias e discordâncias codificadas em cada característica:

onde é um subscrito para as características (sexo, idade, estado civil, etc.) nos arquivos. As probabilidades condicionais de observar um determinado vetor dado , são definidas como

e

respectivamente.

Formulários

Gerenciamento de dados mestre

A maioria dos produtos de gerenciamento de dados mestre (MDM) usa um processo de vinculação de registro para identificar registros de fontes diferentes que representam a mesma entidade do mundo real. Essa ligação é usada para criar um "registro mestre dourado" contendo os dados reconciliados e limpos sobre a entidade. As técnicas usadas no MDM são as mesmas para vinculação de registros em geral. O MDM expande essa correspondência não apenas para criar um "registro mestre dourado", mas também para inferir relacionamentos. (ou seja, uma pessoa tem um sobrenome igual / semelhante e endereço igual / semelhante, isso pode significar que ela compartilha um relacionamento familiar).

Data warehousing e business intelligence

A vinculação de registros desempenha um papel fundamental no armazenamento de dados e inteligência de negócios . Os data warehouses servem para combinar dados de vários sistemas de origem operacional diferentes em um modelo de dados lógico , que pode então ser alimentado em um sistema de inteligência de negócios para relatórios e análises. Cada sistema de origem operacional pode ter seu próprio método de identificação das mesmas entidades usadas no modelo de dados lógico, portanto, a ligação de registro entre as diferentes fontes torna-se necessária para garantir que as informações sobre uma entidade específica em um sistema de origem possam ser perfeitamente comparadas com as informações sobre a mesma entidade de outro sistema de origem. A padronização de dados e a vinculação de registro subsequente geralmente ocorrem na parte "transformar" do processo de extração, transformação e carregamento (ETL).

Pesquisa histórica

A vinculação de registros é importante para a pesquisa de história social, uma vez que a maioria dos conjuntos de dados, como registros de censo e registros paroquiais, foram registrados muito antes da invenção dos números de identificação nacionais . Quando fontes antigas são digitalizadas, a vinculação de conjuntos de dados é um pré-requisito para o estudo longitudinal . Esse processo costuma ser ainda mais complicado pela falta de grafia padrão de nomes, sobrenomes que mudam de acordo com o local de moradia, mudança de limites administrativos e problemas de verificação dos dados em relação a outras fontes. A vinculação de registros estava entre os temas mais proeminentes no campo da história e da computação na década de 1980, mas desde então tem sido objeto de menos atenção na pesquisa.

Prática médica e pesquisa

A vinculação de registros é uma ferramenta importante na criação de dados necessários para examinar a saúde do público e do próprio sistema de saúde. Ele pode ser usado para melhorar os acervos de dados, a coleta de dados, a avaliação da qualidade e a disseminação de informações. As fontes de dados podem ser examinadas para eliminar registros duplicados, para identificar subnotificação e casos perdidos (por exemplo, contagens populacionais do censo), para criar estatísticas de saúde orientadas para a pessoa e para gerar registros de doenças e sistemas de vigilância em saúde. Alguns registros de câncer vinculam várias fontes de dados (por exemplo, internações hospitalares, relatórios patológicos e clínicos e registros de óbitos) para gerar seus registros. A vinculação de registros também é usada para criar indicadores de saúde. Por exemplo, a mortalidade fetal e infantil é um indicador geral do desenvolvimento socioeconômico de um país, saúde pública e serviços materno-infantis. Se os registros de óbitos infantis forem comparados aos registros de nascimento, é possível usar variáveis ​​de nascimento, como peso ao nascer e idade gestacional, juntamente com dados de mortalidade, como causa da morte, na análise dos dados. As ligações podem ajudar em estudos de acompanhamento de coortes ou outros grupos para determinar fatores como status vital, status residencial ou resultados de saúde. O rastreamento é frequentemente necessário para o acompanhamento de coortes industriais, ensaios clínicos e pesquisas longitudinais para obter a causa da morte e / ou câncer. Um exemplo de sistema de vínculo de registros bem-sucedido e de longa data que permite pesquisas médicas de base populacional é o Rochester Epidemiology Project, com sede em Rochester, Minnesota .

Críticas às implementações de software existentes

Os principais motivos citados são:

  • Custos do projeto : custos normalmente na casa das centenas de milhares de dólares
  • Tempo : falta de tempo suficiente para lidar com software de limpeza de dados em grande escala
  • Segurança : preocupações com o compartilhamento de informações, dando a um aplicativo acesso entre sistemas e efeitos em sistemas legados
  • Escalabilidade : devido à ausência de identificadores exclusivos nos registros, a vinculação de registros é computacionalmente cara e difícil de escalar.
  • Precisão : alterar os dados de negócios e capturar todas as regras de vinculação é um exercício difícil e extenso

Veja também

Notas e referências

links externos