Processo de mineração de dados: Modelos, etapas do processo e desafios envolvidos

Este Tutorial sobre Processo de Data Mining cobre modelos, etapas e desafios envolvidos no processo de extração de dados:

Data Mining Techniques foram explicados em detalhes em nosso tutorial anterior neste Treinamento Completo de Data Mining para Todos. Data Mining é um campo promissor no mundo da ciência e tecnologia.

Data Mining, também conhecido como Knowledge Discovery in Databases é um processo de descoberta de informações úteis a partir de grandes volumes de dados armazenados em bancos de dados e data warehouses. Esta análise é feita para processos de tomada de decisão nas empresas.

Data Mining é realizada usando várias técnicas como clustering, associação e análise sequencial de padrões & árvore de decisão.

Data Mining Process

What Is Data Mining?

Data Mining é um processo de descoberta de padrões e conhecimentos interessantes a partir de grandes quantidades de dados. As fontes de dados podem incluir bancos de dados, data warehouses, a web e outros repositórios de informação ou dados que são transmitidos dinamicamente para o sistema.

Por que as empresas precisam de extração de dados?

Com o advento dos Grandes Dados, a mineração de dados se tornou mais prevalente. Grandes dados são conjuntos extremamente grandes de dados que podem ser analisados por computadores para revelar certos padrões, associações e tendências que podem ser compreendidas pelos humanos. Dados grandes têm informações extensas sobre tipos e conteúdos variados.

Assim, com essa quantidade de dados, estatísticas simples com intervenção manual não funcionariam. Esta necessidade é satisfeita pelo processo de mineração de dados. Isto leva à mudança de simples estatísticas de dados para complexos algoritmos de data mining.

O processo de data mining irá extrair informações relevantes de dados brutos, tais como transações, fotos, vídeos, arquivos planos e processar automaticamente as informações para gerar relatórios úteis para as empresas tomarem medidas.

Assim, o processo de data mining é crucial para as empresas tomarem melhores decisões descobrindo padrões & tendências nos dados, resumindo os dados e retirando informações relevantes.

Exploração de dados como um processo

Qualquer problema de negócio examinará os dados brutos para construir um modelo que descreverá as informações e trará à tona os relatórios a serem usados pelo negócio. Construir um modelo a partir de fontes de dados e formatos de dados é um processo iterativo, pois os dados brutos estão disponíveis em muitas fontes diferentes e muitos formulários.

Dados estão aumentando dia a dia, portanto quando uma nova fonte de dados é encontrada, ela pode alterar os resultados.

Below é o esboço do processo.

Olinha do processo de mineração de dados

Modelos de mineração de dados

Muitas indústrias como manufatura, marketing, química e aeroespacial estão tirando vantagem da mineração de dados. Assim, a demanda por processos de mineração de dados padrão e confiáveis é aumentada drasticamente.

Os modelos importantes de mineração de dados incluem:

#1) Cross-Industry Standard Process for Data Mining (CRISP-DM)

CRISP-DM é um modelo de mineração de dados confiável que consiste de seis fases. É um processo cíclico que fornece uma abordagem estruturada para o processo de mineração de dados. As seis fases podem ser implementadas em qualquer ordem, mas às vezes seria necessário voltar aos passos anteriores e repetir as ações.

As seis fases do CRISP-DM incluem:

#1) Entendimento do Negócio: Nesta etapa, os objetivos dos negócios são definidos e os fatores importantes que ajudarão a alcançar o objetivo são descobertos.

#2) Entendimento dos dados: Este passo irá recolher todos os dados e preencher os dados na ferramenta (se estiver usando alguma ferramenta). Os dados são listados com sua fonte de dados, localização, como são adquiridos e se algum problema for encontrado. Os dados são visualizados e consultados para verificar se estão completos.

#3) Preparação dos dados: Este passo envolve a seleção dos dados apropriados, limpeza, construção de atributos dos dados, integração de dados de múltiplos bancos de dados.

#4) Modelagem: A seleção da técnica de mineração de dados, como árvore de decisão, gerar projeto de teste para avaliar o modelo selecionado, construir modelos a partir do conjunto de dados e avaliar o modelo construído com especialistas para discutir o resultado é feito nesta etapa.

#5) Avaliação: Esta etapa determinará o grau em que o modelo resultante atende aos requisitos do negócio. A avaliação pode ser feita testando o modelo em aplicações reais. O modelo é revisado para quaisquer erros ou passos que devam ser repetidos.

#6) Implementação: Nesta etapa é feito um plano de implantação, estratégia para monitorar e manter os resultados do modelo de mineração de dados para verificar sua utilidade é formada, relatórios finais são feitos e revisão de todo o processo é feita para verificar qualquer erro e ver se algum passo é repetido.

CRISP - DM Model

#2) SEMMA (Sample, Explore, Modify, Model, Assess)

SEMMA é outra metodologia de mineração de dados desenvolvida pelo SAS Institute. A sigla SEMMA significa sample, explore, modifique, modelar, avalie.

SEMMA facilita a aplicação de estatísticas exploratórias e técnicas de visualização, seleciona e transforma as variáveis previstas significativas, cria um modelo usando as variáveis para sair com o resultado, e verifica a sua precisão. A SEMMA também é impulsionada por um ciclo altamente iterativo.

SEMMA

Passos na SEMMA

  1. Amostra: Nesta etapa, um grande conjunto de dados é extraído e uma amostra que representa os dados completos é extraída. A amostragem irá reduzir os custos computacionais e o tempo de processamento.
  2. Explorar: Os dados são explorados para qualquer outlier e anomalias para uma melhor compreensão dos dados. Os dados são visualmente verificados para descobrir as tendências e agrupamentos.
  3. Modificar: Nesta etapa, a manipulação de dados como agrupamento e subagrupamento é feita mantendo em foco o modelo a ser construído.
  4. Modelo: Baseado nas explorações e modificações, os modelos que explicam os padrões nos dados são construídos.
  5. Avaliar: A utilidade e confiabilidade do modelo construído são avaliadas nesta etapa. O teste do modelo em relação aos dados reais é feito aqui.

Bambos a abordagem SEMMA e CRISP trabalham para o Processo de Descoberta do Conhecimento. Uma vez que os modelos são construídos, eles são implantados para negócios e trabalhos de pesquisa.

Passos no Processo de Mineração de Dados

O processo de mineração de dados é dividido em duas partes, ou seja, Pré-processamento de Dados e Mineração de Dados. O pré-processamento de dados envolve limpeza de dados, integração de dados, redução de dados e transformação de dados. A parte de mineração de dados realiza mineração de dados, avaliação de padrões e representação de conhecimento de dados.

Processo de mineração de dados - Etapas

Várias etapas no processo de mineração de dados

>

Por que nós pré-processamos os dados?

Existem muitos fatores que determinam a utilidade dos dados, tais como precisão, integridade, consistência, atualidade. Os dados têm de ser de qualidade se satisfizerem o propósito pretendido. Portanto, o pré-processamento é crucial no processo de mineração de dados. Os principais passos envolvidos no pré-processamento de dados são explicados abaixo.

#1) Limpeza de Dados

A limpeza de dados é o primeiro passo no data mining. Ela tem importância como dados sujos se usados diretamente na mineração pode causar confusão nos procedimentos e produzir resultados imprecisos.

Basicamente, esta etapa envolve a remoção de dados ruidosos ou incompletos da coleta. Muitos métodos que geralmente limpam dados por si só estão disponíveis, mas não são robustos.

Esta etapa realiza o trabalho de limpeza de rotina por:

(i) Preencher os dados em falta:

Dados em falta podem ser preenchidos por métodos como:

  • Ignorar o tuple.
  • Preencher manualmente o valor em falta.
  • Utilizar a medida de tendência central, mediana ou
  • Preencher no valor mais provável.

(ii) Remover os dados ruidosos: O erro aleatório é chamado dados ruidosos.

Métodos para remover ruído são :

Binning: Os métodos de descaroçamento são aplicados ordenando os valores em baldes ou silos. O alisamento é realizado consultando os valores vizinhos.

O alisamento é feito através do alisamento por caixa, ou seja, cada caixa é substituída pela média da caixa. O alisamento é feito através de uma mediana, onde cada valor de caixa é substituído por uma mediana da caixa. Alisamento por limites de posição, ou seja, os valores mínimo e máximo na posição são limites de posição e cada valor de posição é substituído pelo valor do limite mais próximo.

  • Identificando os Outliers
  • Resolvendo Inconsistências

#2) Integração de dados

Quando múltiplas fontes de dados heterogéneas, tais como bases de dados, cubos de dados ou arquivos são combinados para análise, este processo é chamado de integração de dados. Isto pode ajudar a melhorar a precisão e velocidade do processo de mineração de dados.

As diferentes bases de dados têm diferentes convenções de nomenclatura de variáveis, causando redundâncias nas bases de dados. Limpeza adicional de dados pode ser realizada para remover as redundâncias e inconsistências da integração de dados sem afetar a confiabilidade dos dados.

A integração de dados pode ser realizada usando ferramentas de migração de dados como Oracle Data Service Integrator e Microsoft SQL etc.

#3) Redução de dados

Esta técnica é aplicada para obter dados relevantes para análise a partir da coleta de dados. O tamanho da representação é muito menor em volume enquanto se mantém a integridade. A redução de dados é realizada usando métodos como Naive Bayes, Árvores de decisão, Rede neural, etc.

Algumas estratégias de redução de dados são:

  • Redução de dimensionalidade: Redução do número de atributos no conjunto de dados.
  • Redução da Numerosidade: Substituição do volume de dados original por formas menores de representação de dados.
  • Compressão de dados: Representação comprimida dos dados originais.

#4) Transformação de dados

Neste processo, os dados são transformados em um formulário adequado para o processo de mineração de dados. Os dados são consolidados para que o processo de mineração seja mais eficiente e os padrões sejam mais fáceis de entender. A transformação de dados envolve mapeamento de dados e processo de geração de código.

Estratégias para transformação de dados são:

  • Suavização: Remoção de ruído dos dados usando agrupamento, técnicas de regressão, etc.
  • Agregação: Operações sumárias são aplicadas aos dados.
  • Normalização: Escala de dados para se enquadrar em um intervalo menor.
  • Discretização: Valores brutos de dados numéricos são substituídos por intervalos. Por exemplo, Age.

#5) Data Mining

Data Mining é um processo para identificar padrões e conhecimentos interessantes a partir de uma grande quantidade de dados. Nestes passos, padrões inteligentes são aplicados para extrair os padrões de dados. Os dados são representados na forma de padrões e modelos são estruturados usando técnicas de classificação e agrupamento.

#6) Avaliação de Padrões

Esta etapa envolve a identificação de padrões interessantes representando o conhecimento com base em medidas de interesse. Os métodos de sumarização e visualização dos dados são usados para tornar os dados compreensíveis pelo usuário.

#7) Representação do Conhecimento

Representação do Conhecimento é um passo onde as ferramentas de visualização e representação do conhecimento são usadas para representar os dados extraídos. Os dados são visualizados na forma de relatórios, tabelas, etc.

Data Mining Process In Oracle DBMS

RDBMS representa os dados na forma de tabelas com linhas e colunas. Os dados podem ser acessados escrevendo consultas a bancos de dados.

Sistemas de gerenciamento de bancos de dados relacionais como o suporte a Oracle Data Mining usando CRISP-DM. As instalações do banco de dados Oracle são úteis na preparação e compreensão de dados. Oracle suporta data mining através de interface java, interface PL/SQL, data mining automatizado, funções SQL e interfaces gráficas de usuário.

Data Mining Process In Datawarehouse

Um data warehouse é modelado para uma estrutura de dados multidimensional chamada cubo de dados. Cada célula em um cubo de dados armazena o valor de algumas medidas agregadas.

Mineração de dados em espaço multidimensional realizada em estilo OLAP (Online Analytical Processing) onde permite a exploração de múltiplas combinações de dimensões em níveis variáveis de granularidade.

Quais são as aplicações de extração de dados?

Lista de áreas onde a mineração de dados é amplamente utilizada inclui:

#1) Análise de dados financeiros: Data Mining é amplamente usado em bancos, investimentos, serviços de crédito, hipotecas, empréstimos de automóveis e seguros & serviços de investimento em ações. Os dados coletados dessas fontes são completos, confiáveis e de alta qualidade. Isto facilita a análise sistemática de dados e a mineração de dados.

#2) Varejo e Indústrias de Telecomunicações: O Setor de Varejo coleta enormes quantidades de dados sobre vendas, histórico de compras dos clientes, transporte de mercadorias, consumo e serviços. A mineração de dados de varejo ajuda a identificar comportamentos de compra de clientes, padrões de compra de clientes e tendências, melhorar a qualidade do atendimento ao cliente, melhor retenção de clientes e satisfação.

#3) Ciência e Engenharia: A ciência e engenharia da mineração de dados pode ajudar a monitorar o status do sistema, melhorar o desempenho do sistema, isolar bugs de software, detectar plágio de software e reconhecer falhas no sistema.

#4) Detecção e Prevenção de Intrusão: Intrusão é definida como qualquer conjunto de ações que ameacem a integridade, confidencialidade ou disponibilidade dos recursos da rede. Os métodos de mineração de dados podem ajudar no sistema de detecção e prevenção de intrusão para melhorar seu desempenho.

#5) Sistemas recomendados: Sistemas recomendados ajudam os consumidores fazendo recomendações de produtos que são do interesse dos usuários.

Desafios do Data Mining

A seguir estão listados os vários desafios envolvidos no Data Mining.

  1. Data Mining precisa de grandes bases de dados e coleta de dados que são difíceis de gerenciar.
  2. O processo de mineração de dados requer especialistas de domínio que são novamente difíceis de encontrar.
  3. A integração de bancos de dados heterogêneos é um processo complexo.
  4. As práticas de nível organizacional precisam ser modificadas para usar os resultados da mineração de dados. Reestruturar o processo requer esforço e custo.

Conclusão

O Data Mining é um processo iterativo onde o processo de mineração pode ser refinado, e novos dados podem ser integrados para obter resultados mais eficientes. O Data Mining atende aos requisitos de análise de dados eficaz, escalável e flexível.

Pode ser considerado como uma avaliação natural da tecnologia da informação. Como um processo de descoberta de conhecimento, as tarefas de preparação e mineração de dados completam o processo de mineração de dados.

Processos de mineração de dados podem ser realizados em qualquer tipo de dados, como dados de banco de dados e bancos de dados avançados, como séries temporais, etc. O processo de mineração de dados também vem com seus próprios desafios.

Fique atento ao nosso próximo tutorial para saber mais sobre exemplos de mineração de dados!!

PREV Tutorial | NEXT Tutorial

Deixe uma resposta

O seu endereço de email não será publicado.