Oracle Data Mining (ODM) – Instalação e Configuração

Oracle Data Mining (ODM) – Instalação e Configuração

Visão geral

O Oracle Data Mining (ODM) é um componente do Oracle Advanced Analytics Database Option. ODM contém um conjunto de algoritmos de mineração de dados que são incorporados ao banco de dados que permitem realizar análises avançadas.

O Oracle Data Miner é uma extensão do Oracle SQL Developer, um ambiente de desenvolvimento gráfico para Oracle SQL. O Oracle Data Miner usa a tecnologia de mineração de dados incorporada ao banco de dados Oracle para criar, executar e gerenciar workflows que encapsulam as operações de mineração de dados. A arquitetura do ODM é ilustrada na figura 1.

 

              Figura 1: Oracle Data Mining Architecture for Big Data

 

Os algoritmos são implementados como funções SQL e alavancam os pontos fortes do banco de dados Oracle. As funções de mineração de dados SQL podem minerar dados transacionais, agregações, dados não estruturados, p.e tipo de dados CLOB (usando Oracle Text), e dados espaciais.

As funções do ODM geralmente se enquadram em duas categorias: Supervisionadas e não-supervisionadas.

As noções de aprendizagem supervisionada e não supervisionada são derivadas do aprendizado de máquina (do inglês, Machine Learning), que é uma subárea da Inteligência Artificial.

A aprendizagem supervisionada também é conhecida como aprendizagem dirigida. O processo de aprendizagem é dirigido por um atributo ou alvo dependente previamente conhecido. A mineração de dados direcionada tenta explicar o comportamento do alvo como uma função de um conjunto de atributos ou preditores independentes.

A aprendizagem não supervisionada é não dirigido. Não há distinção entre atributos dependentes e independentes. Não há nenhum resultado conhecido anteriormente para guiar o algoritmo na construção do modelo. A aprendizagem não supervisionada pode ser usada para fins descritivos.

 

Algoritmos supervisionados do Oracle Data Mining

TécnicaAplicabilidadeAlgoritmos (breve descrição)
Classificação
Técnica mais comumente usada para prever um resultado específico, por exemplo, identificação de células tumorais cancerosas, análise de sentimento, classificação de drogas, detecção de spam.Regressão Logística de Modelos Lineares Generalizados - técnica estatística clássica disponível no banco de dados Oracle em uma implementação paralela, escalonável e de alto desempenho (aplica-se a todos os algoritmos OAA ML). Suporta texto e dados transacionais (aplica-se a quase todos os algoritmos OAA ML)

Naive Bayes - Rápido, simples, comumente aplicável.

Máquinas de Suporte Vetorial (SVM, do inglês: Support Vector Machine) - Algoritmo de aprendizado de máquina, suporta texto e dados amplos.

Árvore de decisão - algoritmo de ML popular para interpretabilidade. Fornece "regras" legíveis.
Regressão
Técnica para prever um resultado numérico contínuo, como análise de dados astronômicos, geração de percepções sobre o comportamento do consumidor - lucratividade e outros fatores de negócios, cálculo de relações causais entre parâmetros em sistemas biológicos.Regressão Logística de Modelos Lineares Generalizados - técnica estatística clássica, mas agora disponível no banco de dados Oracle como uma implementação paralela, escalonável e de alto desempenho. Suporta Ridge Regression, feature creation e feature selection. Suporta texto e dados transacionais.

Máquinas de Suporte Vetorial (SVM, do inglês: Support Vector Machine) - Suporta texto e dados amplos.
Importância do atributo
Classifica os atributos de acordo com a força de relacionamento com o atributo chave. Os casos de uso incluem encontrar os fatores que mais se associam aos clientes que respondem a uma determinada oferta, fatores que mais se associam a pacientes saudáveis.Descrição de Comprimento Mínimo (DCM) - considera cada atributo como um modelo preditivo simples da classe chave e fornece influência relativa.

Algoritmos não supervisionados do Oracle Data Mining

TécnicaAplicabilidadeAlgoritmos (breve descrição)
Clusterização
Clusterização é usado para particionar os registros de uma base de dados em subconjuntos ou clusters onde elementos em um cluster compartilham um conjunto de propriedades comuns. Os exemplos incluem encontrar novos segmentos de clientes e recomendações de filmes.K-Means - Suporta mineração de texto, clustering hierárquico, baseados em distância.

Clustering por Particionamento Ortogonal - Clustering Hierárquico, baseados em distância.

Maximização da Expectativa - Técnica de clustering que tem bom desempenho em problemas de mineração de dados mistos (densos e esparsos).
Detecção de Anomalias
A detecção de anomalias identifica pontos de dados, eventos e/ou observações que se desviam do comportamento normal de um conjunto de dados. Exemplos comuns incluem fraude bancária, defeito estrutural, problemas médicos ou erros em um textoOne-Class Support Vector Machine - treina um dado não rotulado e tenta determinar se um ponto de teste pertence à distribuição de dados de treinamento.
Seleção e extração de recursos
Produz novos atributos como combinação linear de atributos existentes. Aplicável para dados de texto, análise semântica latente (LSA), compactação de dados, decomposição e projeção de dados e reconhecimento de padrão.Fatoração de matriz não-negativa - mapeia os dados originais no novo conjunto de atributos

Análise de Componentes Principais (PCA) - cria novos atributos menos compostos que representam todos os atributos.

Decomposição de Vetor Singular (SVD) - método estabelecido de extração de recursos que possui uma ampla gama de aplicações.
Associação
Encontra regras associadas a itens com ocorrência frequente, usadas para análise de cesta de compras, venda cruzada e análise de causa raiz. Útil para empacotamento de produtos e análise de defeitos.Apriori - Utilizada um hash sobre uma árvore para coletar informações em um banco de dados

 

Habilitando a option Oracle Data Mining

A partir do 12c Release 2, a option Oracle Advanced Analytics inclui Data Mining e funcionalidades do Oracle R.

A option Oracle Advanced Analytics é habilitada por padrão durante a instalação do Oracle Database Enterprise Edition. Se você deseja habilitar ou desabilitar uma option do banco de dados, você pode usar o utilitário de linha de comando chopt.

chopt [ enable | disable ] oaa

Para ativar a option Oracle Advanced Analytics:

 

Criando Tablespace e ODM Schema

Todos os usuários exigem uma tablespace permanente e uma tablespace temporário. Pode ser muito útil ter uma área separada em seu banco de dados onde você pode criar todos os seus objetos de mineração de dados.

O esquema usr_dm_01 conterá todos os trabalhos de Mineração de Dados.

 

 

Criando o Repositório ODM

 

Você precisa criar um Oracle Data Mining Repository no banco de dados. No SQL Developer selecione Exibir -> Data Miner -> Conexões do Data Miner:

 

Uma nova guia é aberta ao lado da guia Conexões existentes:

Para adicionar o esquema usr_dm_01 a esta lista, clique em mais (+) a esquerda e em OK

 

 

Se o repositório não existir, uma mensagem será exibida perguntando se você deseja instalar o repositório. Clique no botão Sim para prosseguir com a instalação.

 

Você precisa inserir a senha SYS

Definições de instalação do Repositório

Janela de progresso do Repositório do Data Miner

Tarefa concluída com sucesso

 

Arquivo de Log

 

 

Componentes do Oracle Data Mining

 

O workflow permite que você crie uma série de nodes que executam todo o processamento necessário em seus dados.

 

Exemplo de um workflow desenvolvido para análise preditiva

 

Views de dicionário de dados do ODM

 

Você pode obter informações sobre os modelos do ODM no dicionário de dados.

As views, do dicionário de dados do ODM, podem ser resumidas da seguinte forma:

Nota: * pode ser substituído por ALL_, USER_, DBA_ e CDB_

 

*_MINING_MODELS: Informações sobre os modelos de mineração de dados que foram criados.

 

*_MINING_MODEL_ATTRIBUTES: Contém os detalhes dos atributos que foram usados para criar os modelos no Oracle Data Mining.

 

*_MINING_MODEL_SETTINGS: Retorna informações sobre as configurações dos modelos de mineração de dados.

 

Referências

Oracle Data Mining User’s Guide. Available at: https://docs.oracle.com/en/database/oracle/oracle-database/19/dmprg/lot.html

Oracle Data Mining – Scalable in-database predictive analytics. Available at: https://www.oracle.com/database/technologies/advanced-analytics/odm.html

Oracle Data Miner System Overview. Available at: https://docs.oracle.com/database/sql-developer-17.4/DMRIG/oracle-data-miner-overview.htm#DMRIG124