Regressão

Uma base de dados para regressão é uma tabela organizada, onde cada linha representa uma amostra única e cada coluna contém informações específicas sobre essa amostra. Essa estrutura é bastante simples de entender, especialmente para quem já trabalhou com tabelas ou planilhas, e será explicada a seguir.

ESTRUTURA

  1. Linhas

    • Cada linha é uma amostra independente e representa um caso específico para o qual será previsto um valor.

    • Por exemplo, se você quer prever o preço de casas, cada linha na base será referente a uma casa diferente.

  2. Colunas de Propriedades (X)

    • Conhecidas como variáveis de entrada ou features, usadas como base para o modelo fazer a predição. Também chamadas de "X".

    • Cada coluna representa uma característica ou atributo que influencia o resultado.

    • Exemplo: para cada casa listada, as colunas podem conter informações como:

      • Tamanho da casa (em m²)

      • Número de quartos

      • Idade da casa (em anos)

      • Localização (convertida para um valor numérico)

  3. Coluna de Resultado (Y)

    • Esta é a variável de saída ou target, representa o que o modelo deve aprender a prever. Também chama de "Y".

    • É o valor que será previsto usando os dados de entrada.

    • No caso do preço de casas, essa coluna seria o preço (em reais, por exemplo).

EXEMPLO

Imagine que você está criando uma base de dados para prever o preço de uma casa, o arquivo seria semelhante a este:

Tamanho (m²)
Quartos
Idade (anos)
Código do Bairro
Preço (R$)

120

3

10

101

450000

85

2

15

102

320000

200

4

5

103

750000

150

3

20

101

500000

  • Colunas X (Propriedades): Tamanho (m²), Quartos, Idade (anos), Código do Bairro.

  • Coluna Y (Resultado): Preço (R$).

Cada linha contém todas as informações de uma casa específica e o preço final dessa casa, que queremos que o modelo aprenda a prever.

IMPORTAÇÃO DE DADOS

Em todos os objetos do DelphAI é possível importar a base de dados por um arquivo CSV ou por um TDataset.

  1. Por CSV:

    • O arquivo CSV deve conter o mesmo formato da tabela acima.

    • Exemplo de arquivo CSV:

      ParamA,ParamB,ParamC,Result
      120,3,10,450000
      85,2,15,320000
      200,4,5,750000
      150,3,20,500000
  2. Por Query:

    • A base de dados pode estar armazenado em um banco de dados relacional.

    • Exemplo de um select na tabela no banco:

      ParamA | ParamB | ParamC | Result
      -------|--------|--------|--------
      120    | 3      | 10     | 450000
      85     | 2      | 15     | 320000
      200    | 4      | 5      | 750000
      150    | 3      | 20     | 500000
    • Utilize uma query SQL para selecionar os dados:

      SELECT * FROM HousingPrice;

REGRAS E DICAS PARA CRIAÇÃO DA BASE

  1. Consistência nos Dados:

    • Todas as linhas devem ter o mesmo número de colunas.

    • Os valores em todas as colunas devem estar no formato numérico.

  2. Sem Valores Faltantes:

    • Cada célula deve ter um valor (não pode haver "buracos").

BASE DE DADOS DE EXEMPLO

É possível encontrar o exemplo do arquivo CSV no repositório oficial.

Last updated