Combinação de dados - Data blending

A combinação de dados é um processo pelo qual big data de várias fontes são mesclados em um único data warehouse ou conjunto de dados . Ele se refere não apenas à fusão de diferentes formatos de arquivo ou fontes de dados díspares, mas também a diferentes variedades de dados. A combinação de dados permite que os analistas de negócios lidem com a expansão dos dados de que precisam para tomar decisões de negócios críticas com base em inteligência de negócios de boa qualidade .

A combinação de dados foi descrita como diferente da integração de dados devido aos requisitos dos analistas de dados para mesclar fontes muito rapidamente, muito rapidamente para qualquer intervenção prática por cientistas de dados .

Representando o aumento da demanda por analistas para combinar fontes de dados, várias empresas de software tiveram um grande crescimento e levantaram milhões de dólares, com alguns dos primeiros entrantes no mercado agora empresas de capital aberto. Os exemplos incluem AWS , Alteryx , Microsoft Power Query e Incorta , que permitem combinar dados de muitas fontes de dados diferentes, por exemplo, arquivos de texto, bancos de dados, XML, JSON e muitas outras formas de dados estruturados e semiestruturados.

A combinação de dados é semelhante ao ETL de várias maneiras. Tanto o ETL quanto a combinação de dados pegam dados de várias fontes e os combinam. No entanto, o ETL é usado para mesclar e estruturar dados em um banco de dados de destino, geralmente um data warehouse . A combinação de dados difere um pouco, pois se trata de juntar dados para um caso de uso específico em um momento específico. Com alguns softwares, os dados não são gravados em um banco de dados, o que é muito diferente do ETL. Por exemplo, com o Google Data Studio e o Tableau , a combinação de dados ocorre na camada de relatórios; não está escrito em qualquer lugar, apenas exibido.

Combinação de dados no Tableau

Em software Tableau, mistura de dados é uma técnica de combinar dados de múltiplas fontes de dados na visualização de dados . As fontes de dados são armazenadas separadamente e apenas exibidas juntas em um painel , na camada de relatório. Este é um dos principais conceitos que diferenciam uma combinação de dados do Tableau de outras definições de combinação de dados.

O outro diferenciador principal é a granularidade da junção de dados. Geralmente, ao combinar dados em um único conjunto de dados, isso usaria uma junção de banco de dados , que normalmente se juntaria no nível mais granular, usando um campo de ID sempre que possível. Uma combinação de dados no Tableau deve acontecer no nível menos granular.

Combinação de dados no Google Data Studio

No Google Data Studio , as fontes de dados são combinadas juntando os registros de uma fonte de dados com os registros de até quatro outras fontes de dados. Semelhante ao Tableau, a combinação de dados ocorre apenas na camada de relatório. Os dados combinados nunca são armazenados como uma fonte de dados combinada separada.

Desafios com combinação de dados

A pergunta mais comum sobre metadados personalizados é: "Como esse conjunto de dados pode se misturar (unir ou unir-se a) meus outros conjuntos de dados?" Um estudo de 2015 da Forrester Consulting descobriu que 52% das empresas estão combinando 50 ou mais fontes de dados e 12% estão combinando mais de 1.000 fontes.

Veja também

Referências

  1. ^ O Alteryx Analytics traz o poder de previsão e Big Data para o mercado
  2. ^ A combinação de dados é o processo de combinar dados de várias fontes em um conjunto de dados funcional
  3. ^ O guia definitivo para dados Blending
  4. ^ "Combinação de dados" . Trifacta.com . 24 de agosto de 2017.
  5. ^ O que é combinação de dados e quais ferramentas a tornam mais fácil?
  6. ^ "Incorta levanta $ 30M Série C para solução de processamento de dados livre de ETL" . TechCrunch . Recuperado em 2021-02-27 .
  7. ^ "Alteryx anuncia o preço da oferta pública inicial" . Alteryx . Recuperado em 2021-02-27 .
  8. ^ Corporation, Microsoft. "Microsoft Power Query" . powerquery.microsoft.com . Recuperado em 2021-02-27 .
  9. ^ "Software de análise direta de dados | Incorta" . www.incorta.com . Recuperado em 2021-02-27 .
  10. ^ "Fontes de dados" . docs.incorta.com . Recuperado em 2021-02-27 .
  11. ^ davidiseminger. "Moldar e combinar dados de várias fontes usando o Power Query" . docs.microsoft.com . Recuperado em 2021-02-27 .
  12. ^ "Fontes de dados com suporte - Amazon QuickSight" . docs.aws.amazon.com . Recuperado em 2021-02-27 .
  13. ^ "Fontes de dados | Ajuda do Alteryx" . help.alteryx.com . Recuperado em 2021-02-27 .
  14. ^ "Como funciona o ETL" . Databricks (em alemão) . Recuperado em 2021-02-27 .
  15. ^ "O que é combinação de dados e quais ferramentas a tornam mais fácil?" . Conselhos sobre software . 25/08/2016 . Recuperado em 2021-02-27 .
  16. ^ "Visão geral do Google Data Studio" . datastudio.google.com . Recuperado em 2021-02-27 .
  17. ^ "Combine seus dados" . help.tableau.com . Recuperado em 2021-02-27 .
  18. ^ "SQL Joins explicado" . SQL Joins explicado . Recuperado em 2021-02-27 .
  19. ^ Soluções TAR (2021-01-20). "Combinação de dados no Tableau" . Soluções TAR . Recuperado em 2021-02-27 .
  20. ^ "Sobre combinação de dados - Ajuda do Data Studio" . support.google.com . Recuperado em 2021-02-27 .
  21. ^ Heer, Jeffrey; Hellerstein, Joseph; Kandel, Sean; Rattenbury, Tye (julho de 2017). Princípios de organização de dados . O'Reilly Media.
  22. ^ "Mashups de dados para análises" . Pentaho .