Qualidade de dados - Data quality

A qualidade dos dados se refere ao estado das informações qualitativas ou quantitativas . Existem muitas definições de qualidade de dados, mas os dados são geralmente considerados de alta qualidade se forem "adequados para [seus] usos pretendidos em operações , tomada de decisão e planejamento ". Além disso, os dados são considerados de alta qualidade se representarem corretamente a construção do mundo real a que se referem. Além disso, além dessas definições, conforme o número de fontes de dados aumenta, a questão da consistência dos dados internos torna-se significativa, independentemente da adequação para uso para qualquer propósito externo específico. As opiniões das pessoas sobre a qualidade dos dados podem frequentemente divergir, mesmo quando discutem o mesmo conjunto de dados usado para o mesmo propósito. Quando for esse o caso, a governança de dados é usada para formar definições e padrões acordados para a qualidade dos dados. Nesses casos, a limpeza de dados , incluindo padronização, pode ser necessária para garantir a qualidade dos dados.

Definições

Definir a qualidade dos dados em uma frase é difícil devido aos muitos contextos em que os dados são usados, bem como às diferentes perspectivas entre os usuários finais, produtores e guardiões dos dados.

Do ponto de vista do consumidor, a qualidade dos dados é:

  • "dados que são adequados para uso por consumidores de dados"
  • dados "atendendo ou superando as expectativas do consumidor"
  • dados que "satisfaçam os requisitos de seu uso pretendido"

De uma perspectiva de negócios, a qualidade dos dados é:

  • dados que são "'adequados para uso' em suas funções operacionais, de tomada de decisão e outras funções" ou que exibem "'conformidade com os padrões' que foram definidos, de modo que a adequação para uso seja alcançada"
  • dados que "são adequados para seus usos pretendidos em operações, tomada de decisão e planejamento"
  • "a capacidade dos dados de satisfazer os requisitos técnicos, de sistema e de negócios declarados de uma empresa"

De uma perspectiva baseada em padrões, a qualidade dos dados é:

  • o "grau em que um conjunto de características inerentes (dimensões de qualidade) de um objeto (dados) atende aos requisitos"
  • "a utilidade, precisão e correção dos dados para sua aplicação"

Indiscutivelmente, em todos esses casos, "qualidade de dados" é uma comparação do estado real de um determinado conjunto de dados com um estado desejado, com o estado desejado sendo normalmente referido como "apto para uso", "de acordo com a especificação", " atendendo às expectativas do consumidor, "" livre de defeitos "ou" atendendo aos requisitos ". Essas expectativas, especificações e requisitos são geralmente definidos por um ou mais indivíduos ou grupos, organizações de padrões, leis e regulamentos, políticas de negócios ou políticas de desenvolvimento de software. Aprofundando ainda mais, essas expectativas, especificações e requisitos são declarados em termos de características ou dimensões dos dados, tais como:

  • acessibilidade ou disponibilidade
  • precisão ou correção
  • comparabilidade
  • completude ou abrangência
  • consistência, coerência ou clareza
  • credibilidade, confiabilidade ou reputação
  • flexibilidade
  • plausibilidade
  • relevância, pertinência ou utilidade
  • oportunidade ou latência
  • singularidade
  • validade ou razoabilidade

Uma revisão sistemática de escopo da literatura sugere que as dimensões e métodos de qualidade de dados com dados do mundo real não são consistentes na literatura e, como resultado, as avaliações de qualidade são desafiadoras devido à natureza complexa e heterogênea desses dados.

Em 2021, o grupo de trabalho Data Quality of DAMA Netherlands realizou pesquisas sobre as definições das dimensões da qualidade dos dados. Ele coletou definições de várias fontes e as comparou entre si. O grupo de trabalho também testou as definições em relação aos critérios derivados de uma norma para conceitos e definições: ISO 704 . O resultado é uma lista de 60 dimensões da qualidade dos dados e suas definições.

História

Antes do surgimento do armazenamento barato de dados de computador , enormes computadores de grande porte eram usados ​​para manter os dados de nome e endereço para serviços de entrega. Isso foi feito para que o e-mail pudesse ser encaminhado adequadamente ao seu destino. Os mainframes usavam regras de negócios para corrigir erros ortográficos e tipográficos comuns em dados de nome e endereço, bem como para rastrear clientes que se mudaram, morreram, foram para a prisão, casados, divorciados ou experimentaram outros eventos que mudaram sua vida. As agências governamentais começaram a disponibilizar dados postais para algumas empresas de serviço para cruzar os dados dos clientes com o Registro Nacional de Mudança de Endereço (NCOA) . Essa tecnologia economizou milhões de dólares para grandes empresas em comparação com a correção manual dos dados do cliente. Grandes empresas economizaram na postagem, à medida que contas e materiais de marketing direto chegavam ao cliente pretendido com mais precisão. Inicialmente vendida como um serviço, a qualidade dos dados mudou para dentro das corporações, à medida que uma tecnologia de servidor poderosa e de baixo custo tornou-se disponível.

As empresas com ênfase em marketing muitas vezes concentraram seus esforços de qualidade nas informações de nome e endereço, mas a qualidade dos dados é reconhecida como uma propriedade importante de todos os tipos de dados. Os princípios de qualidade de dados podem ser aplicados aos dados da cadeia de suprimentos, dados transacionais e quase todas as outras categorias de dados encontradas. Por exemplo, fazer com que os dados da cadeia de suprimentos estejam em conformidade com um determinado padrão tem valor para uma organização: 1) evitando o excesso de estoque de estoque semelhante, mas ligeiramente diferente; 2) evitar falsa falta de estoque; 3) melhorar a compreensão das compras do fornecedor para negociar descontos por volume; e 4) evitar custos de logística no estoque e envio de peças em uma grande organização.

Para empresas com esforços de pesquisa significativos, a qualidade dos dados pode incluir o desenvolvimento de protocolos para métodos de pesquisa, redução de erros de medição , verificação de limites de dados, tabulação cruzada , modelagem e detecção de outlier , verificação da integridade dos dados , etc.

Visão geral

Existem várias estruturas teóricas para compreender a qualidade dos dados. Uma abordagem teórica de sistemas influenciada pelo pragmatismo americano expande a definição de qualidade de dados para incluir qualidade de informação e enfatiza a abrangência das dimensões fundamentais de exatidão e precisão com base na teoria da ciência (Ivanov, 1972). Uma estrutura, apelidada de "Zero Defect Data" (Hansen, 1991), adapta os princípios do controle estatístico do processo à qualidade dos dados. Outra estrutura busca integrar a perspectiva do produto (conformidade com as especificações) e a perspectiva do serviço (atender às expectativas dos consumidores) (Kahn et al. 2002). Outro framework é baseado na semiótica para avaliar a qualidade da forma, significado e uso dos dados (Price e Shanks, 2004). Uma abordagem altamente teórica analisa a natureza ontológica dos sistemas de informação para definir a qualidade dos dados com rigor (Wand e Wang, 1996).

Uma quantidade considerável de pesquisas sobre qualidade de dados envolve a investigação e a descrição de várias categorias de atributos desejáveis ​​(ou dimensões) de dados. Quase 200 desses termos foram identificados e há pouca concordância em sua natureza (são esses conceitos, objetivos ou critérios?), Suas definições ou medidas (Wang et al., 1993). Os engenheiros de software podem reconhecer isso como um problema semelhante a " ilidades ".

O MIT tem um Programa de Qualidade da Informação (MITIQ), liderado pelo Professor Richard Wang, que produz um grande número de publicações e hospeda uma conferência internacional significativa neste campo (Conferência Internacional sobre Qualidade da Informação, ICIQ). Este programa surgiu do trabalho feito por Hansen na estrutura "Zero Defect Data" (Hansen, 1991).

Na prática, a qualidade dos dados é uma preocupação para os profissionais envolvidos com uma ampla gama de sistemas de informação, desde armazenamento de dados e inteligência de negócios até gestão de relacionamento com o cliente e gestão da cadeia de suprimentos . Um estudo da indústria estimou o custo total para a economia dos Estados Unidos de problemas de qualidade de dados em mais de US $ 600 bilhões por ano (Eckerson, 2002). Dados incorretos - que incluem informações inválidas e desatualizadas - podem se originar de diferentes fontes de dados - por meio de entrada de dados ou migração de dados e projetos de conversão.

Em 2002, o USPS e a PricewaterhouseCoopers divulgaram um relatório afirmando que 23,6% de todas as correspondências enviadas dos Estados Unidos são endereçadas incorretamente.

Um dos motivos pelos quais os dados de contato se tornam obsoletos muito rapidamente no banco de dados médio - mais de 45 milhões de americanos mudam de endereço a cada ano.

Na verdade, o problema é tamanha a preocupação que as empresas estão começando a montar uma equipe de governança de dados cujo único papel na corporação é ser responsável pela qualidade dos dados. Em algumas organizações, essa função de governança de dados foi estabelecida como parte de uma função mais ampla de Conformidade Regulatória - um reconhecimento da importância da Qualidade de Dados / Informações para as organizações.

Problemas com a qualidade dos dados não surgem apenas de dados incorretos ; dados inconsistentes também são um problema. Eliminar os sistemas de sombra de dados e centralizar os dados em um warehouse é uma das iniciativas que uma empresa pode tomar para garantir a consistência dos dados.

Empresas, cientistas e pesquisadores estão começando a participar de comunidades de curadoria de dados para melhorar a qualidade de seus dados comuns.

O mercado está indo de alguma forma para fornecer garantia de qualidade de dados. Vários fornecedores criam ferramentas para analisar e reparar dados de baixa qualidade in situ , os prestadores de serviços podem limpar os dados por contrato e os consultores podem aconselhar sobre como consertar processos ou sistemas para evitar problemas de qualidade de dados em primeiro lugar. A maioria das ferramentas de qualidade de dados oferece uma série de ferramentas para melhorar os dados, que podem incluir alguns ou todos os seguintes:

  1. Perfil de dados - avaliando inicialmente os dados para entender seu estado atual, muitas vezes incluindo distribuições de valor
  2. Padronização de dados - um mecanismo de regras de negócios que garante que os dados estejam em conformidade com os padrões
  3. Geocodificação - para dados de nome e endereço. Corrige os dados para os padrões geográficos dos EUA e do mundo todo
  4. Correspondência ou vinculação - uma maneira de comparar dados de forma que registros semelhantes, mas ligeiramente diferentes, possam ser alinhados. A correspondência pode usar "lógica difusa" para localizar duplicatas nos dados. Muitas vezes reconhece que "Bob" e "Bbo" podem ser a mesma pessoa. Pode ser capaz de gerenciar a "casa" ou encontrar ligações entre cônjuges no mesmo endereço, por exemplo. Finalmente, muitas vezes ele pode construir um registro do "melhor da categoria", pegando os melhores componentes de múltiplas fontes de dados e construindo um único super-registro.
  5. Monitoramento - acompanhar a qualidade dos dados ao longo do tempo e relatar variações na qualidade dos dados. O software também pode corrigir automaticamente as variações com base em regras de negócios predefinidas.
  6. Lote e tempo real - Uma vez que os dados são inicialmente limpos (lote), as empresas geralmente desejam incorporar os processos em aplicativos corporativos para mantê-los limpos.

Existem vários autores conhecidos e especialistas que se autodenominam, sendo Larry English talvez o guru mais popular . Além disso, a IQ International - Associação Internacional para Qualidade da Informação e Dados foi criada em 2004 para fornecer um ponto focal para profissionais e pesquisadores neste campo.

ISO 8000 é um padrão internacional de qualidade de dados.

Garantia de qualidade de dados

A garantia de qualidade dos dados é o processo de criação de perfil de dados para descobrir inconsistências e outras anomalias nos dados, bem como realizar atividades de limpeza de dados (por exemplo, remover outliers , interpolação de dados perdidos) para melhorar a qualidade dos dados.

Essas atividades podem ser realizadas como parte do armazenamento de dados ou como parte da administração do banco de dados de um software aplicativo existente .

Controle de qualidade de dados

O controle de qualidade de dados é o processo de controlar o uso de dados para um aplicativo ou processo. Este processo é executado antes e depois de um processo de Garantia de Qualidade de Dados (QA), que consiste na descoberta de inconsistência e correção de dados.

Antes:

  • Restringe as entradas

Após o processo de QA, as seguintes estatísticas são reunidas para orientar o processo de Controle de Qualidade (QC):

  • Gravidade da inconsistência
  • Incompletude
  • Precisão
  • Precisão
  • Ausente / Desconhecido

O processo de QC de dados usa as informações do processo de QA para decidir usar os dados para análise ou em um aplicativo ou processo de negócios. Exemplo geral: se um processo de QC de dados descobrir que os dados contêm muitos erros ou inconsistências, ele impede que os dados sejam usados ​​para o processo pretendido, o que poderia causar interrupção. Exemplo específico: fornecer medições inválidas de vários sensores ao recurso de piloto automático em uma aeronave pode causar sua queda. Portanto, estabelecer um processo de CQ fornece proteção de uso de dados.

Uso ideal da qualidade dos dados

Data Quality (DQ) é uma área de nicho necessária para a integridade do gerenciamento de dados, cobrindo lacunas de problemas de dados. Esta é uma das principais funções que auxiliam na governança de dados, monitorando os dados para encontrar exceções não descobertas pelas operações atuais de gerenciamento de dados. As verificações de qualidade de dados podem ser definidas no nível do atributo para ter controle total sobre as etapas de correção.

As verificações de DQ e as regras de negócios podem se sobrepor facilmente se uma organização não estiver atenta ao seu escopo de DQ. As equipes de negócios devem compreender o escopo DQ completamente para evitar sobreposições. As verificações de qualidade de dados são redundantes se a lógica de negócios cobrir a mesma funcionalidade e cumprir a mesma finalidade do DQ. O escopo DQ de uma organização deve ser definido na estratégia DQ e bem implementado. Algumas verificações de qualidade de dados podem ser traduzidas em regras de negócios após repetidas instâncias de exceções no passado.

Abaixo estão algumas áreas de fluxos de dados que podem precisar de verificações DQ perenes:

As verificações DQ de integridade e precisão em todos os dados podem ser realizadas no ponto de entrada para cada atributo obrigatório de cada sistema de origem. Poucos valores de atributo são criados após a criação inicial da transação; em tais casos, administrar essas verificações torna-se complicado e deve ser feito imediatamente após o evento definido da origem desse atributo e as outras condições de atributo principal da transação serem atendidas.

Todos os dados com atributos referentes a Dados de Referência na organização podem ser validados em relação ao conjunto de valores válidos bem definidos de Dados de Referência para descobrir valores novos ou discrepantes por meio da verificação DQ de validade . Os resultados podem ser usados ​​para atualizar os dados de referência administrados no Master Data Management (MDM) .

Todos os dados fornecidos por terceiros às equipes internas da organização podem passar por verificação de precisão (DQ) em relação aos dados de terceiros. Os resultados da verificação DQ são valiosos quando administrados em dados que fizeram vários saltos após o ponto de entrada desses dados, mas antes que os dados fossem autorizados ou armazenados para inteligência corporativa.

Todas as colunas de dados que se referem aos dados mestre podem ser validadas para sua verificação de consistência . Uma verificação DQ administrada nos dados no ponto de entrada descobre novos dados para o processo MDM, mas uma verificação DQ administrada após o ponto de entrada descobre a falha (não exceções) de consistência.

À medida que os dados se transformam, vários carimbos de data / hora e as posições desses carimbos de data / hora são capturados e podem ser comparados entre si e sua margem de manobra para validar seu valor, decadência, significância operacional em relação a um SLA definido (acordo de nível de serviço). Esta verificação DQ de pontualidade pode ser utilizada para diminuir a taxa de degradação do valor dos dados e otimizar as políticas do cronograma de movimentação de dados.

Em uma organização, a lógica complexa geralmente é segregada em uma lógica mais simples em vários processos. Razoabilidade DQ verifica em tal lógica complexa produzindo um resultado lógico dentro de um intervalo específico de valores ou inter-relacionamentos estáticos (regras de negócios agregadas) podem ser validados para descobrir processos de negócios complicados, mas cruciais e outliers dos dados, seu desvio de BAU (business as usual ) expectativas e podem fornecer possíveis exceções que eventualmente resultem em problemas de dados. Essa verificação pode ser uma regra de agregação genérica simples engolfada por um grande bloco de dados ou pode ser uma lógica complicada em um grupo de atributos de uma transação pertencente ao negócio principal da organização. Esta verificação de DQ requer alto grau de conhecimento de negócios e perspicácia. A descoberta de questões de razoabilidade pode ajudar nas mudanças de política e estratégia tanto de negócios quanto de governança de dados ou ambos.

As verificações de conformidade e de integridade não precisam ser cobertas por todas as necessidades de negócios; elas ficam estritamente sob o critério da arquitetura do banco de dados.

Existem muitos lugares na movimentação de dados onde as verificações DQ podem não ser necessárias. Por exemplo, a verificação DQ para integridade e precisão em colunas não nulas é redundante para os dados originados do banco de dados. Da mesma forma, os dados devem ser validados quanto à sua precisão em relação ao tempo em que os dados são agrupados em fontes distintas. No entanto, essa é uma regra de negócios e não deve estar no escopo DQ.

Infelizmente, do ponto de vista do desenvolvimento de software, o DQ costuma ser visto como um requisito não funcional. E, como tal, os principais processos / verificações de qualidade de dados não são levados em consideração na solução de software final. Em Healthcare, tecnologias vestíveis ou Body Area Networks geram grandes volumes de dados. O nível de detalhe necessário para garantir a qualidade dos dados é extremamente alto e frequentemente subestimado. Isso também é verdadeiro para a grande maioria dos aplicativos mHealth , EHRs e outras soluções de software relacionadas à saúde. No entanto, existem algumas ferramentas de código aberto que examinam a qualidade dos dados. A principal razão para isso, decorre do custo extra envolvido é adicionado um maior grau de rigor dentro da arquitetura de software.

Segurança e privacidade de dados de saúde

O uso de dispositivos móveis em saúde, ou mHealth, cria novos desafios para a segurança e privacidade dos dados de saúde , de maneiras que afetam diretamente a qualidade dos dados. A saúde móvel é uma estratégia cada vez mais importante para a prestação de serviços de saúde em países de baixa e média renda. Telefones celulares e tablets são usados ​​para coleta, relatório e análise de dados quase em tempo real. No entanto, esses dispositivos móveis também são comumente usados ​​para atividades pessoais, deixando-os mais vulneráveis ​​a riscos de segurança que podem levar a violações de dados. Sem as devidas proteções de segurança, esse uso pessoal pode comprometer a qualidade, a segurança e a confidencialidade dos dados de saúde .

Qualidade de dados em saúde pública

A qualidade dos dados tornou-se um dos principais focos dos programas de saúde pública nos últimos anos, especialmente com o aumento da demanda por prestação de contas. O trabalho em direção a metas ambiciosas relacionadas à luta contra doenças como AIDS, tuberculose e malária deve se basear em fortes sistemas de monitoramento e avaliação que produzam dados de qualidade relacionados à implementação do programa. Esses programas, e os auditores do programa, buscam cada vez mais ferramentas para padronizar e agilizar o processo de determinação da qualidade dos dados, verificar a qualidade dos dados relatados e avaliar o gerenciamento de dados subjacente e os sistemas de relatórios para indicadores. Um exemplo é a ferramenta de revisão da qualidade dos dados da OMS e da MEASURE Evaluation. A OMS, o Fundo Global, GAVI e a MEASURE Evaluation têm colaborado para produzir uma abordagem harmonizada para a garantia da qualidade dos dados em diferentes doenças e programas.

Qualidade de dados abertos

Existem vários trabalhos científicos dedicados à análise da qualidade dos dados em fontes de dados abertas , como Wikipedia , Wikidata , DBpedia e outras. No caso da Wikipedia, a análise da qualidade pode se referir a todo o artigo. A modelagem da qualidade ali é realizada por meio de vários métodos. Alguns deles usam algoritmos de aprendizado de máquina , incluindo Random Forest , Support Vector Machine e outros. Os métodos para avaliar a qualidade dos dados em Wikidata, DBpedia e outras fontes LOD diferem.

Associações profissionais

IQ International - a International Association for Information and Data Quality
A IQ International é uma associação profissional sem fins lucrativos, neutra em relação a fornecedores, formada em 2004, dedicada a desenvolver a profissão de qualidade de informação e dados.

ECCMA (Electronic Commerce Code Management Association)

A Electronic Commerce Code Management Association (ECCMA) é uma associação internacional sem fins lucrativos baseada em membros, comprometida em melhorar a qualidade dos dados por meio da implementação de padrões internacionais. A ECCMA é a atual líder de projeto para o desenvolvimento da ISO 8000 e ISO 22745, que são os padrões internacionais para qualidade de dados e intercâmbio de dados mestre de materiais e serviços, respectivamente.

ECCMA fornece uma plataforma para colaboração entre especialistas no assunto em qualidade de dados e governança de dados em todo o mundo para construir e manter dicionários globais e abertos que são usados ​​para rotular informações de forma inequívoca. A existência desses dicionários de etiquetas permite que as informações sejam passadas de um sistema de computador para outro sem perder o sentido.

Veja também

Referências

Leitura adicional

  • Baškarada, S; Koronios, A (2014). "Uma estrutura de fatores críticos de sucesso para o gerenciamento da qualidade da informação". Gestão de Sistemas de Informação . 31 (4): 1–20. doi : 10.1080 / 10580530.2014.958023 . S2CID  33018618 .
  • Baamann, Katharina, "Data Quality Aspects of Revenue Assurance", artigo
  • Eckerson, W. (2002) "Data Warehousing Special Report: Data quality and the bottom line", Artigo
  • Ivanov, K. (1972) "Controle de qualidade da informação: Sobre o conceito de exatidão da informação em bancos de dados e em sistemas de informação de gestão" . A Universidade de Estocolmo e o Royal Institute of Technology. Tese de doutorado.
  • Hansen, M. (1991) Zero Defect Data, MIT. Dissertação de mestrado [1]
  • Kahn, B., Strong, D., Wang, R. (2002) "Referências de qualidade da informação: Desempenho de produtos e serviços", Communications of the ACM, abril de 2002. pp. 184–192. Artigo
  • Price, R. e Shanks, G. (2004) A Semiotic Information Quality Framework, Proc. Conferência Internacional IFIP sobre Sistemas de Apoio à Decisão (DSS2004): Apoio à Decisão em um Mundo Incerto e Complexo, Prato. Artigo
  • Redman, TC (2008) Data Driven: Lucrando com nosso ativo comercial mais importante
  • Wand, Y. e Wang, R. (1996) "Anchoring Data Quality Dimensions in Ontological Foundations," Communications of the ACM, novembro de 1996. pp. 86-95. Artigo
  • Wang, R., Kon, H. & Madnick, S. (1993), Análise e Modelagem de Requisitos de Qualidade de Dados, Nona Conferência Internacional de Engenharia de Dados, Viena, Áustria. Artigo
  • Fournel Michel, Accroitre Ia qualité et Ia valeur des données de vos clients, éditions Publibook, 2007. ISBN  978-2-7483-3847-8 .
  • Daniel F., Casati F., Palpanas T., Chayka O., Cappiello C. (2008) "Enabling Better Decisions through Quality-aware Reports", International Conference on Information Quality (ICIQ), MIT. Artigo
  • Jack E. Olson (2003), "Data Quality: The Accuracy dimension", Morgan Kaufmann Publishers
  • Woodall P., Oberhofer M. e Borek A. (2014), "Uma Classificação de Avaliação da Qualidade de Dados e Métodos de Melhoria" . International Journal of Information Quality 3 (4), 298–321. doi: 10.1504 / ijiq.2014.068656 .
  • Woodall, P., Borek, A., e Parlikad, A. (2013), "Data Quality Assessment: The Hybrid Approach." Information & Management 50 (7), 369–382.

links externos