Agrupamento
A estrutura de uma base de dados para um algoritmo de agrupamento como o K-Means é bem simples e pode ser entendida de forma prática. Cada linha representa uma amostra única e cada coluna contém informações específicas sobre essa amostra. O objetivo desse tipo de base é que o modelo de IA aprenda a identificar semelhanças/diferenças entre os dados.
ESTRUTURA
Linha
Representa uma amostra (um elemento que será agrupado, como um cliente, um produto, ou um registro qualquer).
Colunas (X)
Contêm as propriedades ou características dessa amostra, também chamadas de features. Cada propriedade é um dado numérico que será usado pelo algoritmo para calcular semelhanças e diferenças.
EXEMPLO
Imagine que você quer agrupar clientes de um e-commerce com base em duas características:
Quantidade de compras realizadas.
Total gasto em reais.
A base de dados ficaria assim:
5
300.50
10
1200.00
3
150.75
8
800.00
2
100.00
Linha 1 (cabeçalho): Nomes das colunas que representam as propriedades (opcional, mas recomendado).
Linhas subsequentes: Dados de cada amostra, com valores separados por vírgula.
IMPORTAÇÃO DE DADOS
Em todos os objetos do DelphAI é possível importar a base de dados por um arquivo CSV ou por um TDataset.
Por CSV:
O arquivo CSV deve conter o mesmo formato da tabela acima.
Exemplo de arquivo CSV:
Por Query:
A base de dados pode estar armazenado em um banco de dados relacional.
Exemplo de um select na tabela no banco:
Utilize uma query SQL para selecionar os dados:
REGRAS E DICAS PARA CRIAÇÃO DA BASE
Somente números:
Todas as colunas que o algoritmo usa devem conter valores numéricos (inteiros ou reais). Se você tiver textos, precisará convertê-los para números antes.
Sem valores nulos:
Certifique-se de que não há células vazias no arquivo. Preencha os valores ausentes ou remova as amostras incompletas.
BASE DE DADOS DE EXEMPLO
É possível encontrar o exemplo do arquivo CSV no repositório oficial.
Last updated