Mineração de dados
ou Data Mining é o processo de explorar grandes
quantidades de dados na procura de padrões consistentes, como
regras de associação ou sequências temporais, para detectar
relacionamentos sistemáticos entre variáveis, detectando assim
novos subconjuntos de dados.
Visão
geral
Esta tecnologia é
formada por um conjunto de ferramentas que através do uso de
algoritmos de aprendizado ou baseados em redes neurais e
estatística, são capazes de explorar um grande conjunto de
dados, extraindo destes conhecimento na forma de hipóteses e de
regras. Diariamente as empresas acumulam diversos dados em seus
bancos de dados, inclusive com dados e hábitos de seus clientes.
Todos estes dados podem contribuir com a empresa, sugerindo
tendências e particularidades pertinentes a ela e seu meio
ambiente interno e externo, visando uma rápida ação de seus
gestores.
Com a geração de
informações e conhecimentos úteis para as empresas, os seus
negócios podem dar mais lucratividade para as mesmas. Os
recursos da Tecnologia da Informação, mais precisamente a
capacidade do hardware e software disponíveis podem efetuar
atividades em horas, o que tradicionalmente as pessoas levariam
meses. Efetivamente a Mineração de dados cumpre o papel de
descoberta de conhecimentos.
Etapas
da Mineração de Dados
Os passos
fundamentais de uma mineração bem sucedida a partir de fontes de
dados (bancos de dados, relatórios, logs de acesso, transações,
etc) efetua-se uma limpeza (consistência, preenchimento de
informações, remoção de ruído e redundâncias, etc). Disto nascem
os repositórios organizados (Data Marts e Data Warehouses).
É a partir deles
que se pode selecionar algumas colunas para atravessarem o
processo de mineração. Tipicamente, este processo não é o final
da história: de forma interativa e frequentemente usando
visualização gráfica, um analista refina e conduz o processo até
que os padrões apareçam. Observe que todo esse processo parece
indicar uma hierarquia, algo que começa em instâncias
elementares (embora volumosas) e terminam em um ponto
relativamente concentrado.
Encontrar padrões
requer que os dados brutos sejam sistematicamente
"simplificados" de forma a desconsiderar aquilo que é específico
e privilegiar aquilo que é genérico. Faz-se isso porque não
parece haver muito conhecimento a extrair de eventos isolados.
Uma loja de sua rede que tenha vendido a um cliente uma
quantidade impressionante de um determinado produto em uma única
data pode apenas significar que esse cliente em particular
procurava grande quantidade desse produto naquele exato momento.
Mas isso provavelmente não indica nenhuma tendência de mercado.
Localizando Padrões
Padrões são
unidades de informação que se repetem. A tarefa de localizar
padrões não é privilégio da Mineração de dados. Nosso cérebro
utiliza-se de processos similares, pois muito do conhecimento
que temos em nossa mente é, de certa forma, um processo que
depende da localização de padrões. Para exemplificar esses
conceitos, vamos propor um breve exercício de uma indução de
regras abstratas. Nosso objetivo é tentar obter alguma expressão
genérica para a seguinte seqüência:
Seqüência original: ABCXYABCZKABDKCABCTUABEWLABCWO
Observe
atentamente essa seqüência de letras e tente encontrar alguma
coisa relevante. Veja algumas possibilidades:
Passo 1:
A primeira etapa é perceber que existe uma seqüência de letras
que se repete bastante. Encontramos as seqüências "AB" e "ABC" e
observamos que elas ocorrem com freqüência superior à das outras
seqüências.
Passo 2:
Após determinarmos as seqüências "ABC" e "AB", verificamos que
elas segmentam o padrão original em diversas unidades
independentes:
"ABCXY"
"ABCZK"
"ABDKC"
"ABCTU"
"ABEWL"
"ABCWO"
Passo 3:
Fazem-se agora induções, que geram algumas representações
genéricas dessas unidades:
"ABC??" "ABD??" "ABE??" e "AB???",
onde '?'
representa qualquer letra
No final desse
processo, toda a seqüência original foi substituída por regras
genéricas indutivas que simplificou (reduziu) a informação
original a algumas expressões simples. Esta explicação é um dos
pontos essenciais da mineração de dados, como se pode fazer para
extrair certos padrões de dados brutos. Contudo, mais importante
do que simplesmente obter essa redução de informação, esse
processo nos permite gerar formas de predizer futuras
ocorrências de padrões.
Exemplo Prático
Vamos observar
aqui apenas um pequeno exemplo prático do que podemos utilizar
com as expressões abstratas genéricas que obtivemos. Uma dessas
expressões nos diz que toda vez que encontramos a seqüência "AB",
podemos inferir que iremos encontrar mais três caracteres e isto
completaria um "padrão". Nesta forma abstrata ainda pode ficar
difícil de perceber a relevância deste resultado. Por isso vamos
usar uma representação mais próxima da realidade.
Imagine que a
letra 'A' esteja representando um item qualquer de um registro
comercial. Por exemplo, a letra 'A' poderia significar
"aquisição de pão" em uma transação de supermercado. A letra 'B'
poderia, por exemplo, significar "aquisição de leite". A letra
'C' é um indicador de que o leite que foi adquirido é do tipo
desnatado. É interessante notar que a obtenção de uma regra com
as letras "AB" quer dizer, na prática, que toda vez que alguém
comprou pão, também comprou leite. Esses dois atributos estão
associados e isto foi revelado pelo processo de descoberta de
padrões.
Esta associação já
nos fará pensar em colocar "leite" e "pão" mais próximos um do
outro no supermercado, pois assim estaríamos facilitando a
aquisição conjunta desses dois produtos. Mas a coisa pode ir
além disso, bastando continuar nossa exploração da indução.
Suponha que a
letra X queira dizer "manteiga sem sal", e a letra 'Z'
signifique "manteiga com sal". A letra 'T' poderia significar
"margarina". Parece que poderíamos tentar unificar todas essas
letras através de um único conceito, uma idéia que resuma uma
característica essencial de todos esses itens. Introduzimos a
letra 'V', que significaria "manteiga/margarina", ou "coisas que
passamos no pão". Fizemos uma indução orientada a atributos,
substituímos uma série de valores distintos (mas similares) por
um nome só.
Ao fazer isso
estamos perdendo um pouco das características dos dados
originais. Após essa transformação, já não sabemos mais o que é
manteiga e o que é margarina. Essa perda de informação é
fundamental na indução e é um dos fatores que permite o
aparecimento de padrões mais gerais.
Qual a vantagem de
assim proceder? Basta codificar a seqüência original
substituindo a letra V em todos os lugares devidos. Assim fica
essa seqüência transformada:
ABCVYABCVKABDKCABCVUABEWLABCVO
Daqui, o sistema
de Mineração de Dados irá extrair, entre outras coisas, a
expressão "ABCV", que irá revelar algo muito interessante:
A maioria dos usuários que adquiriram pão e leite desnatado
também adquiriram manteiga ou margarina.
De posse desta
regra, fica fácil imaginar uma disposição nas prateleiras do
supermercado para incentivar ainda mais este hábito. Em
linguagem mais lógica, pode-se dizer que pão e leite estão
associados (implicam) na aquisição de manteiga:
Pão, Leite => Manteiga
Fonte: Wikipedia
Tópicos Relacionados: