Jump to content

Glossário Data Science - D


Larisse Santos

Postagens Recomendadas

D

 

 

DAMA-DMBOKData Management Body of Knowledge (DAMA DMBOK®) é um framework criado pela organização DAMA International que auxilia as empresas a criarem suas diretrizes para a governança de dados. A DAMA International define as 11 áreas de conhecimento (ou funções) cobrindo áreas centrais para realizar o gerenciamento de dados. Cada uma das áreas descreve o escopo e o contexto de um conjunto de atividades de gerenciamento de dados, embutindo princípios e objetivos da gestão de dados.

 

Data augmentation é a técnica de regularização utilizada para aumentar a precisão dos modelos de aprendizado de máquina reduzindo o erro de generalização, isso é feito aumentando a base de dados gerando novos exemplos de treinamento a partir dos existentes.
 

Data Driven Culture ou data culture, refere-se às organizações, que possuem a cultura orientada a dados, ou seja, elas utilizam sua base de dados e informações como insumo para tomada de decisões.
A cultura orientada por dados nas organizações envolve a interação entre os dados que a empresa possui, as tecnologias usadas para compor a infraestrutura de dados e como as pessoas trabalham com os dados, seja para solução de problemas ou para obtenção de valor para o negócio da empresa.

 

Data hub é uma coleção simples de objetos de dados organizados de várias fontes, sendo útil quando a empresa desejam compartilhar e distribuir dados eficientemente em um ou mais formatos desejados. O Data Hub não se limita aos dados operacionais e permite navegar por diferentes níveis de granularidade dos dados.

 

Data Lake é o repositório de todos os tipos de dados, incluindo dados brutos de diferentes categorias. São fonte do Big Data. O data lake é dividido em 4 zonas:

  1. Transient Zone: zona transitória, na qual os dados serão ingeridos pelo Data Lake
  2. Raw Data Zone: zona temporária onde os dados brutos são mantidos de forma provisória antes de entrarem de vez no Data Lake
  3. Trusted Zone: zona que irá receber os dados já com algum tratamento, seja padronizando dados, tipos, uso ou não de máscaras, onde tais tratamentos são definidos pela área de negócio para seu consumo 
  4. Refined Zone: é considerada especializada, onde os dados são enriquecidos não somente pelos dados da base original, mas podendo inclusive agregar dados de outras bases a depender do seu uso. Nesta zona, os dados geralmente assumem o formato relacional, podendo inclusive se apresentar em um modelo dimensional. Seu consumo também pode ser feito por aplicações e mediante consultas via API.

 

Data Mart (DM) é um conjunto de dados específico para uma análise segmentada e departamental, sendo, portanto, o resultado da divisão do data warehouse em uma parte menor. Os DMs são subgrupos de dados que dizem respeito apenas a um determinado setor, de forma a responder perguntas específicas.

 

Data mining ou Mineração de dados é o processo de extrair informações úteis de um conjunto de dados, muitas vezes de um data warehouse ou coleta de conjuntos de dados vinculados. As ferramentas de mineração de dados incluem recursos estatísticos, matemáticos e de análise poderosos, cujo principal objetivo é examinar grandes conjuntos de dados para identificar tendências, padrões e relações para dar suporte a decisões e planejamentos informados.
 

Data Ops é uma abordagem para a gestão de pipelines de dados, baseada em práticas de DevOps, que se concentra na agilidade, qualidade e confiabilidade na entrega de dados. Através da automatização e orquestração busca formas de acelerar o gerenciamento de análises de dados.

 

Data scraping ou Raspagem de dados é uma técnica na qual um programa de computador extrai dados dos resultados gerados por outro programa. A raspagem de dados geralmente se manifesta na forma de web scraping, que é o processo de usar um aplicativo para extrair dados e informações de um site.

 

Dataset é um conjuntos de dados associados a um assunto específico armazenados em um arquivo onde os dados podem ser tabulares (organizados em um formato similar ao das tabelas, com linhas e coluna) ou coleção de arquivos ou documentos em formatos variados
 

 

Data swamp é um data lake contendo dados não estruturados e sem governança e por isso mesmo difícil de encontrar, manipular e analisar. Isso geralmente ocorre quando existe falta de processos e padrões para armazenamento de dados no data lake. Deve-se evitar que o data lake vire um data swamp.

 

Data warehouse é um depósito de dados que serve para armazenar informações relativas a uma organização em banco de dados estruturado para facilitar consultas e análises. No data warehouse os dados estão prontos para uma análise completa e também tem dados históricos.

 

Data wrangling ou Preparação de dados é o processo de limpeza, estruturação e enriquecimento dos dados brutos em um formato mais apropriado de acordo com a modelagem escolhida. Esse processo se torna mais presente, pois temos cada vez mais a presença de dados estruturados e não-estruturados que precisam ser trabalhados, antes que se possam ser feitas análises mais avançadas nos mesmos.
Possui 6 etapas básicas: 

  1. Descoberta do que está nos dados e do que será analisado
  2. Estruturação dos dados organizando-os para transformação
  3. Limpeza dos dados eliminando outliers
  4. Enriquecimento quando novo dados são gerados
  5. Validação da qualidade e consistência dos dados
  6. Publicação dos dados, disponibilizando-os para uso.

 

DDDM ou Data-Driven Decision Making significa adotar uma estratégia em que a análise de dados (de fontes internas e externas) se torne o cerne dos processos de tomada de decisões na organização em todos os níveis (estratégico, tático e operacional). Para que o DDDM funcione é necessário que haja Data Culture de forma que todos os colaboradores explorem as informações para terem novas ideias.

 

Drill down refere-se a capacidade de ver os dados com mais detalhes, é um recurso interativo que permite ao usuário navegar entre as hierarquias de uma informação, passando de uma dimensão para uma sub-dimensão da hierarquia, normalmente na interface gráfica é indicado como símbolo “+” que ao ser acionado mostra um nível maior de detalhamento daquela informação.
 

 

 

  • Amei 1
Link to comment
Compartilhe em outros sites

Crie uma conta ou entre para comentar 😀

Você precisa ser um membro para deixar um comentário.

Crie a sua conta

Participe da nossa comunidade, crie sua conta.
É bem rápido!

Criar minha conta agora

Entrar

Você já tem uma conta?
Faça o login agora.

Entrar agora


×
×
  • Create New...