Data mining
Por Naidion Concencio Brovedan | 22/05/2012 | TecnologiaData Mining
Naidion Concencio Brovedan¹, Thiago Spader¹, Waldner Corneo Viola¹, Leila Laís Gonçalves².
¹Acadêmico do curso de Ciência da Computação – Universidade do Extremo Sul Catarinense (UNESC) – Criciúma, SC – Brasil.
²Professor(a) do Curso de Ciência da Computação - Unidade Acadêmica de Ciências,
Engenharias e Tecnologias - Universidade do Extremo Sul Catarinense (UNESC) – Criciúma, SC – Brasil.
{brovedan@gmail.com, thiagospader100@hotmail.com,
waldner_corneo@yahoo.com.br, llg@unesc.net}
Resumo: Atualmente, tem se falado muito sobre o Data Mining. E este artigo tem como objetivo abordar conceitos, funcionalidades e características do Data Mining, e também demonstrar o uso do sistema Weka, que é composto por um conjunto de implementações algorítmicas e de diversas técnicas de Data Mining.
Palavras-chave: Data Mining, Weka.
1. Introdução
O constante desenvolvimento das tecnologias ocorrida nos últimos anos acarretou, ao mesmo tempo, uma grande geração de dados. Estima-se que a quantidade de informação no mundo dobra a cada 20 meses e que o tamanho e a quantidade dos bancos de dados crescem com velocidade ainda maior (DILLY apud SFERRA e CORRÊA, 1999). Esse enorme aumento na quantidade de dados tem forçado a busca por novas ferramentas e técnicas, que possam transformar esses diversos dados em informação e conhecimento, que por sua vez são muito importantes para o planejamento, aumento de vendas, traçar as estratégias e as tomadas de decisão nas organizações. Informações essas que se encontram camufladas em meio a essa quantidade de dados, e que sistemas comuns de gerenciamento de dados não são capazes de encontrar. O surgimento do Data Mining (Mineração de Dados), supri essa necessidade de organização e transformação dos dados. Essa tecnologia surgiu da junção de três áreas: estatística clássica, inteligência artificial e aprendizado de máquina, sendo a primeira a mais antiga delas.
2. Data Mining
Data Mining ou Mineração de Dados é o processo de analisar grandes quantidades de dados à procura de modelos sólidos, como regras de associação ou sequências temporais, para detectar relacionamentos ordenados entre as variáveis, buscando assim novos subconjuntos de dados. É um processo que extrai informações, sem ter um conhecimento antecipado, de um amplo banco de dados. Relaciona-se com a análise de dados e o uso de ferramentas computacionais na busca de características, regras e regularidades em um grande conjunto de dados, conforme mostra a figura 1.
Figura 1 – Processo Data Mining
Mineração de dados é a aplicação de algoritmos específicos para acertar modelos, ou retirar padrões de dados analisados, como parte encontrada de conhecimento em bases de dados, que é o processo mais amplo da descoberta de conhecimentos úteis e compreensíveis a partir dos dados.
O Data Mining relaciona-se com a análise de dados e o uso de ferramentas computacionais na procura de características, regras e organização em uma grande base de dados.
2.1. Métodos utilizados pelo Data Mining
O Data Mining utiliza alguns métodos tradicionais muito importantes para que seja possível a transformação e a organização dos dados, que são:
Classificação: associa ou classifica um item a uma ou várias classes já definidas. Uma técnica para a classificação é a análise discriminante. Os objetivos dessa técnica envolvem a definição gráfica ou algébrica das características das populações. A objetivo é derivar uma regra que possa ser usada para classificar, de forma otimizada, uma nova observação a uma classe já considerada. Segundo Mattar apud Sferra e Corrêa (1998), a análise discriminante permite que dois ou mais grupos possam ser comparados, com o objetivo de determinar se diferem uns dos outros e, também, a natureza da diferença, de forma que, com base em um conjunto de variáveis independentes, seja possível classificar indivíduos ou objetos em duas ou mais categorias mutuamente exclusivas.
Modelos de Relacionamento entre Variáveis: associa um item a uma ou mais variáveis futuras de valores reais, consideradas variáveis livres. Técnicas estatísticas como regressão linear simples, múltipla e modelos lineares por transformação são utilizadas para verificar o relacionamento funcional que, eventualmente, possa existir entre duas variáveis quantitativas.
Análise de Agrupamento “Cluster”: associa um item a uma ou várias classes, em que as classes são determinadas pelos dados, diferentemente da classificação em que as classes são antecipadamente definidas. São definidos por meio do agrupamento de dados baseados em medidas de semelhança ou modelos de probabilidade. A análise de “cluster” é uma técnica que visa detectar a existência de diferentes grupos dentro de um determinado conjunto de dados e, em caso de sua existência, determinar quais são eles.
Sumarização: determina uma descrição completa para um dado subconjunto. As medidas de posição e variabilidade são exemplos simples de sumarização. Funções mais sofisticadas abrangem técnicas de visualização e a decisão de relações funcionais entre variáveis. As funções de sumarização são usadas frequentemente na análise exploratória de dados com geração automatizada de relatórios, sendo responsáveis pela definição completa de um conjunto de dados. A sumarização é utilizada, principalmente, no pré-processamento dos dados, quando valores inválidos são determinados por meio do cálculo de medidas estatísticas – como mínimo, máximo, média, moda, mediana e desvio padrão amostral –, no caso de variáveis quantitativas, e, no caso de variáveis categóricas, por meio da distribuição de freqüência dos valores.
Modelo de Dependência: existem em dois níveis: estruturado e quantitativo. O nível estruturado aponta, geralmente em forma de gráfico, quais variáveis são localmente dependentes. O nível quantitativo especifica o grau de dependência, usando alguma escala numérica. Segundo Padovani apud Sferra e Corrêa (2000), análises de dependência são aquelas que têm por objetivo o estudo da dependência de uma ou mais variáveis em relação a outras, sendo procedimentos metodológicos para tanto a análise discriminante, a de medidas repetidas, a de correlação canônica, a de regressão multivariada e a de variância multivariada.
Regras de Associação: determinam semelhanças entre campos de um banco de dados. O foco é a derivação de correlações multivariadas que permitam auxiliar as tomadas de decisão. A busca de associação entre variáveis é frequentemente, uma das finalidades das pesquisas baseadas na experiência. A possível existência de relação entre variáveis guia as análises, conclusões e evidenciação de encontrados da investigação. Medidas estatísticas como correlação e testes de hipóteses apropriados revelam a freqüência de uma regra na natureza dos dados minerados.
Análise de Séries Temporais: determina características seqüenciais, como dados que dependem do tempo. Seu objetivo é modelar o estado do processo extraindo e registrando desvios e os acontecimentos no tempo. As séries são compostas por quatro padrões: tendência, variações repetitivas, variações que ocorrem em um determinado período de tempo e variações irregulares. Existem vários modelos estatísticos que podem ser aplicados a essas situações, como os de regressão linear (simples e múltiplos), os lineares por transformação e regressões assintóticas, além de modelos com diferença, como os autoregressivos, entre outros.
O objetivo da utilização do data mining em uma organização é permitir que a mesma possa visualizar e executar operações de improviso, quando necessárias, nas mais diversas áreas como marketing, vendas e suporte ao cliente, sendo isso somente possível pelo fato da empresa conhecer bem seus clientes (AMARAL apud MARTINS, 2001).
2.2. Principais Técnicas de Data Mining
O Data Mining compreende muitas divisões importantes. Cada tipo de tecnologia tem suas próprias vantagens e desvantagens, da mesma forma que nenhuma ferramenta consegue realizar todas as necessidades em todas as aplicações. Serão apresentadas agora cada uma das técnicas do Data Mining:
• Redes Neurais Artificiais: conforme Fayyad apud Glavam (1996), essa tecnologia é a que oferece o mais profundo poder de mineração, mas é também a mais difícil de entender. As redes neurais tentam construir representações internas de modelos ou padrões encontrados nos dados, mas essas representações não são apresentadas para o usuário. Com elas, o processo de descoberta de padrões é tratado pelos programas de Data Mining. Como relata Fayyad apud Glavam (1996), estruturalmente, uma rede neural consiste em um número de elementos ligados (chamados neurônios) organizados em camadas que aprendem pela modificação da conexão firmemente conectando as camadas. Geralmente constroem superfícies complexas através de interações repetidas, cada hora ajustando os parâmetros que definem a superfície. Depois de muitas repetições, uma superfície pode ser internamente definida que se aproxima muito dos pontos dentro do grupo de dados. A função básica de cada neurônio é: (a) avaliar valores de entrada; (b) calcular o total para valores de entrada combinados; (c) comparar o total com um valor limiar; (d) determinar o que será a saída. Enquanto a operação de cada neurônio é razoavelmente simples, procedimentos complexos podem ser criados pela conexão de um conjunto de neurônios. Basicamente, as entradas dos neurônios são ligadas a uma ou várias camada intermediária que é então conectada com a camada de saída.
• Indução de Regras: é a detecção do que pode acontecer dentro de grupos de dados. Este grupo de dados é apresentado aos usuários como uma lista não encomendada. Diversos algoritmos e índices são colocados para executar esse processo, sendo que a grande maioria do processo é feito pela máquina, e uma pequena parte é feita pelo usuário.
• Árvores de Decisão: representam resultados de Data Mining na forma de árvore. Quando se possui um grupo de dados com diversas colunas e linhas, uma ferramenta de árvore de decisão pede ao usuário para escolher uma das colunas como elemento de saída, e mostra o fator correlacionado com aquele objeto de saída como o primeiro ramo (nó) da árvore de decisão. Os outros fatores são subseqüentemente classificados como nós do nó anterior. Com isso o usuário pode ver qual o fator que mais direciona o seu elemento de saída, e entender porque o fator foi escolhido. É possível também que usuário explore a árvore com quiser, do mesmo jeito que ele poderá encontrar grupos alvos que lhe interessem mais, e assim aumentar o dado associado ao seu grupo alvo. Os usuários podem, também, selecionar os dados principais em qualquer nó da árvore, movendo-o pra dentro de uma planilha ou outra ferramenta para análise futura. As árvores de decisão são, quase sempre, usadas junto com a tecnologia de Indução de Regras, mas são únicas no sentido de apresentar os resultados da Indução de Regras num formato com prioridade. A regra mais importante da árvore é o primeiro nó, e as regras menos importantes são mostradas nos nós abaixo
• Análise Estatística de Séries Temporais: é à base de todas as outras tecnologias. O usuário é muito envolvido, exigindo engenheiros experientes, para construir modelos que expõem o comportamento do dado através dos métodos antigos de matemática. Interpretar os resultados dos modelos exige especialização. A utilização de técnicas de estatística também requer um trabalho bem forte de máquinas/engenheiros.
• Visualização: muitos definem como complexas, outros como simplesmente a capacidade de geração de gráficos. Nos dois fatos, essa técnica mapeia o dado sendo minerado de acordo com dimensões especificadas. Nenhuma análise é executada pelo programa de Data Mining além de manipulação estatística básica. O usuário interpreta o dado enquanto olha para o tela. O analista pode pesquisar a ferramenta para obter diferentes visões ou outras dimensões.
• OLAP – On Line Analitical Processing: possibilita aos usuários estudar os dados de conforme o seu tamanho, podendo verificar os dados até os seus detalhes (função chamada de drill down), e também ver amostras desses dados (função slice-and-dice), do modo que desejarem, enquanto procuram as respostas. Permitindo que o usuário veja os dados de vários e diferentes aspectos, e a vários níveis de detalhe ou associação.
3. Aplicação
• Nome: WEKA;
• Fabricante: University of Waikato – Nova Zelândia;
• Ferramentas/Função: Pré-processamento, Classificação, “Clusterização”, Associação e Visualização;
• Valor: Grátis;
• Pré-requisitos: Por ser um software desenvolvido em Java, o computador deve possuir a JVM 1.6 (Java Virtual Machine) instalada, isso para a última versão do WEKA, a 3.6.4;
• Usuários: Por ser uma ferramenta free desenvolvida por uma universidade, não existem usuários específicos e/ou conhecidos. A maior fatia da utilização do software são pesquisadores que usam a ferramenta para obter amostragens, agrupamentos, etc.
• Pontos Positivos: Uma característica atraente da ferramenta é a sua simplicidade. A configuração dos parâmetros e a execução do algoritmo de mineração são feitas através de uma interface agradável e intuitiva;
• Ponto Negativo: Como principal característica negativa, encontra-se o fato de a base de dados a ser minerado precisar estar estruturada em um formato que não é muito prático (o que pode inviabilizar o uso da ferramenta em algumas aplicações reais). É preciso especificar todos os itens do domínio na seção de cabeçalho e indicar os itens ausentes em cada transação com o uso do símbolo “?”.
• Case de Sucesso: Como não é de conhecimento uma empresa que use o WEKA como ferramenta diária, o case de sucesso apresentado, será um trabalho acadêmico, onde a ferramenta foi utilizada para a atribuição de autoria de textos da literatura portuguesa. Na ocasião, foi utilizado a árvore de decisão, no WEKA, o algoritmo C4.5. O arquivo .arff, padrão suportado pelo WEKA, foi formado após o pré-processamento dos textos dados. Foram selecionados, inicialmente, dezessete atributos numéricos para realização dos testes. O arquivo foi gerado, então, contendo os dezessete atributos e as obras usadas tanto na fase de treinamento quanto na fase de classificação dos textos. Os resultados foram bons. Autores como José de Alencar (período urbano), Lima Barreto e Euclides da Cunha, possuem um estilo literário singular, o que levou a uma taxa de acerto de 100% em ambos os métodos.
• Print-Screen:
4. Conclusão
Foram apresentados neste artigo, conceitos, técnicas e aplicações sobre Data Mining, buscando destacar através de princípios e definições, a importância da Mineração de Dados nos dias atuais. Podemos verificar que através da utilização de técnicas de Data Mining, as organizações buscam meios de acesso rápido e seguro as informações, para assim concretizarem seus objetivos na descoberta de conhecimento.
Com tudo podemos esperar das ferramentas do Data Mining agilidade, confiança, prevenção, organização e transformação, fatores esses que estarão refinando as informações para as organização, que serão usadas nas tomadas de decisões.
4. Referências
SFERRA, Heloisa Helena; CORRÊA, Ângela M. C. Jorge. Conceitos e Aplicações de Data Mining.