Regressão
Uma base de dados para regressão é uma tabela organizada, onde cada linha representa uma amostra única e cada coluna contém informações específicas sobre essa amostra. Essa estrutura é bastante simples de entender, especialmente para quem já trabalhou com tabelas ou planilhas, e será explicada a seguir.
ESTRUTURA
Linhas
Cada linha é uma amostra independente e representa um caso específico para o qual será previsto um valor.
Por exemplo, se você quer prever o preço de casas, cada linha na base será referente a uma casa diferente.
Colunas de Propriedades (X)
Conhecidas como variáveis de entrada ou features, usadas como base para o modelo fazer a predição. Também chamadas de "X".
Cada coluna representa uma característica ou atributo que influencia o resultado.
Exemplo: para cada casa listada, as colunas podem conter informações como:
Tamanho da casa (em m²)
Número de quartos
Idade da casa (em anos)
Localização (convertida para um valor numérico)
Coluna de Resultado (Y)
Esta é a variável de saída ou target, representa o que o modelo deve aprender a prever. Também chama de "Y".
É o valor que será previsto usando os dados de entrada.
No caso do preço de casas, essa coluna seria o preço (em reais, por exemplo).
EXEMPLO
Imagine que você está criando uma base de dados para prever o preço de uma casa, o arquivo seria semelhante a este:
120
3
10
101
450000
85
2
15
102
320000
200
4
5
103
750000
150
3
20
101
500000
Colunas X (Propriedades): Tamanho (m²), Quartos, Idade (anos), Código do Bairro.
Coluna Y (Resultado): Preço (R$).
Cada linha contém todas as informações de uma casa específica e o preço final dessa casa, que queremos que o modelo aprenda a prever.
IMPORTAÇÃO DE DADOS
Em todos os objetos do DelphAI é possível importar a base de dados por um arquivo CSV ou por um TDataset.
Por CSV:
O arquivo CSV deve conter o mesmo formato da tabela acima.
Exemplo de arquivo CSV:
Por Query:
A base de dados pode estar armazenado em um banco de dados relacional.
Exemplo de um select na tabela no banco:
Utilize uma query SQL para selecionar os dados:
REGRAS E DICAS PARA CRIAÇÃO DA BASE
Consistência nos Dados:
Todas as linhas devem ter o mesmo número de colunas.
Os valores em todas as colunas devem estar no formato numérico.
Sem Valores Faltantes:
Cada célula deve ter um valor (não pode haver "buracos").
BASE DE DADOS DE EXEMPLO
É possível encontrar o exemplo do arquivo CSV no repositório oficial.
Last updated