Fluxo de dados - Data stream

Na comunicação orientada à conexão , um fluxo de dados é uma sequência de sinais coerentes codificados digitalmente ( pacotes de dados ou pacotes de dados ) usados ​​para transmitir ou receber informações que estão em processo de transmissão. Um fluxo de dados é um conjunto de informações extraídas de um provedor de dados. Ele contém dados brutos que foram coletados a partir do comportamento do navegador dos usuários em sites, onde um pixel dedicado é colocado. Os fluxos de dados são úteis para cientistas de dados para fornecimento de big data e algoritmos de IA . Os principais provedores de fluxo de dados são empresas de tecnologia de dados .

Definição formal

De maneira formal, um fluxo de dados é qualquer par ordenado onde:

  1. é uma sequência de tuplas e
  2. é uma sequência de intervalos de tempo real positivos .

Contente

O fluxo de dados contém diferentes conjuntos de dados, que dependem do formato de dados escolhido.

  • Atributos - cada atributo do fluxo de dados representa um certo tipo de dados, por exemplo, segmento / ID do ponto de dados, carimbo de data / hora, geodados.
  • O atributo Timestamp ajuda a identificar quando um evento ocorreu.
  • O ID do sujeito é um ID codificado por algoritmo, que foi extraído de um cookie.
  • Os dados brutos incluem informações diretamente do provedor de dados, sem serem processados ​​por um algoritmo nem por humanos.
  • Dados Processados são dados que foram preparados (de alguma forma modificados, validados ou limpos), para serem usados ​​em ações futuras.

Uso

Existem várias áreas onde os fluxos de dados são usados:

  • Detecção e pontuação de fraude - os dados brutos são usados ​​como dados de origem para um algoritmo antifraude ( técnicas de análise de dados para detecção de fraude ). Por exemplo, carimbo de data / hora ou quantidade de ocorrências de cookies ou análise de pontos de dados são usados ​​dentro do sistema de pontuação para detectar fraude ou para se certificar de que um receptor de mensagem não é um bot (o chamado Tráfego Não Humano).
  • Inteligência artificial - os dados brutos são tratados como um conjunto de trem e um conjunto de teste durante aconstrução de algoritmos deIA e aprendizado de máquina .
  • Os dados brutos são usados ​​para criação de perfil e personalização para personalizar perfis de usuário e dividi-los para segmentação, por exemplo, por gênero ou localização (com base no ponto de dados ).
  • Inteligência de negócios - dados brutos são uma fonte de informações para sistemas de BI, usados ​​para enriquecer perfis de usuários com informações detalhadas sobre eles, por exemplo, caminho de compra ou geodados. Essas informações são usadas para análise de negócios e pesquisa preditiva.
  • Segmentação - os dados processados ​​por cientistas de dados melhoram as campanhas online e são usados ​​para atingir o público-alvo.
  • Enriquecimento de CRM - os dados brutos são integrados ao sistema de gerenciamento de relacionamento com o cliente . A integração do CRM permite preencher as lacunas nos perfis dos usuários com dados demográficos, interesses ou intenções de compra.

Integração

As principais integrações com fluxos de dados são:

  • Os fluxos de dados são integrados a sistemas como plataforma de dados do cliente (CDP), gerenciamento de relacionamento com o cliente (CRM) ou plataforma de gerenciamento de dados (DMP) para enriquecer os perfis dos usuários com dados externos. É possível expandir o conhecimento sobre os usuários existentes usando fontes externas.
  • Os fluxos de dados são usados ​​para enriquecer os sistemas de inteligência de negócios e tornar as análises mais precisas e as conclusões mais precisas.
  • No caso da integração do sistema de gerenciamento de conteúdo (CMS), o Data Stream é utilizado para identificar os usuários e personalizar sua visita, mesmo que seja a primeira. Pela análise dos dados, o conteúdo real do site é adaptado ao usuário.
  • Os fluxos de dados são integrados à plataforma de demanda (DSP) dentro do ecossistema de publicidade programática. As partes (por exemplo, anunciantes) podem trocar as IDs dos usuários e concatenar com eles os perfis existentes.
  • Os fluxos de dados são usados ​​para escolher os respectivos segmentos de usuários (por exemplo, pessoas interessadas na indústria automotiva) e usá-los em uma campanha online. Os segmentos são enriquecidos com mais características do usuário fora do fluxo de dados e, em seguida, enviados ao DSP.

Fontes de dados visíveis

Em um fluxo de dados, é visível qual dispositivo foi usado pelo lado do usuário - é visível no agente do usuário :

  • móvel - quando um usuário usa um navegador móvel para explorar, ele tem resolução de tela estreita e versão do aplicativo móvel, respectivamente;
  • desktop - quando um usuário usa um navegador de desktop ou uma versão de aplicativo.

As seguintes informações são compartilhadas fora do dispositivo usado:

Formatos

Um ponto de dados é uma tag que coleta informações sobre uma determinada ação, realizada por um usuário em um site. Os pontos de dados existem em dois tipos, os valores dos quais são usados ​​para criar públicos-alvo apropriados. Esses são:

  • 'evento' com informações sobre as ocorrências do evento específico (por exemplo, clique em um link ou exibindo anúncio)
  • 'atributo' com valores numéricos ou alfanuméricos.

Segmento é uma declaração lógica, construída em pontos de dados específicos usando operadores AND, OR ou NOT.
Dados híbridos - dados brutos fora dos formatos de dados de Ponto de Dados e Segmento.
URLs - é um conjunto de informações sobre um determinado URL que foi visitado.

GDPR

As informações coletadas em sites são baseadas no comportamento do usuário. Os provedores de dados fornecem informações pessoais ou não pessoais. Existem dois tipos de dados do usuário disponíveis no fluxo de dados:

  • Informações de identificação pessoal (PII) - informações que permitem de forma clara ou combinada com métodos de identificação de dados identificar uma pessoa. Exemplos de PII são: seguro ID, endereço de e-mail, número de telefone, endereço IP , geolocalização, dados biométricos .
  • Informações não pessoalmente identificáveis (não PII) são informações que não podem ser usadas para identificar uma pessoa ou rastrear um local. Um cookie ou ID de dispositivo é um exemplo de não PII.

Referências