Pré-processamento de dados - Data pre-processing

O pré-processamento de dados pode se referir à manipulação ou descarte de dados antes de serem usados ​​para garantir ou aprimorar o desempenho e é uma etapa importante no processo de mineração de dados . A frase "entra lixo, sai lixo" é particularmente aplicável a projetos de mineração de dados e aprendizado de máquina . Os métodos de coleta de dados são frequentemente controlados livremente, resultando em valores fora do intervalo (por exemplo, Renda: −100), combinações de dados impossíveis (por exemplo, Sexo: Masculino, Grávida: Sim) e valores ausentes , etc. não foi cuidadosamente rastreado para tais problemas pode produzir resultados enganosos. Assim, a representação e a qualidade dos dados é antes de tudo antes de executar qualquer análise. Freqüentemente, o pré-processamento de dados é a fase mais importante de um projeto de aprendizado de máquina , especialmente em biologia computacional .

Se houver muitas informações irrelevantes e redundantes presentes ou dados barulhentos e não confiáveis, a descoberta do conhecimento durante a fase de treinamento será mais difícil. As etapas de preparação e filtragem de dados podem levar uma quantidade considerável de tempo de processamento. Exemplos de pré-processamento de dados incluem limpeza , seleção de instância , normalização , uma codificação a quente , transformação , extração e seleção de recursos , etc. O produto do pré-processamento de dados é o conjunto de treinamento final .

O pré-processamento de dados pode afetar a maneira como os resultados do processamento final de dados podem ser interpretados. Este aspecto deve ser considerado cuidadosamente quando a interpretação dos resultados for um ponto chave, como no processamento multivariado de dados químicos ( quimiometria ).

Tarefas de pré-processamento de dados

Exemplo

Neste exemplo, temos 5 adultos em nosso conjunto de dados que têm sexo masculino ou feminino e estão grávidas ou não. Podemos detectar que Adulto 3 e 5 são combinações de dados impossíveis.

Sexo Grávida
Adulto
1 Masculino Não
2 Fêmea sim
3 Masculino sim
4 Fêmea Não
5 Masculino sim

Podemos realizar uma limpeza de dados e optar por excluir esses dados de nossa tabela. Removemos esses dados porque podemos determinar que tais dados existentes no conjunto de dados são causados ​​por erros de entrada do usuário ou corrupção de dados. Uma razão pela qual pode ser necessário excluir esses dados é porque os dados impossíveis afetarão o processo de cálculo ou manipulação de dados nas etapas posteriores do processo de mineração de dados.

Sexo Grávida
Adulto
1 Masculino Não
2 Fêmea sim
4 Fêmea Não

Podemos realizar uma edição de dados e alterar o sexo do adulto sabendo que o adulto está grávido, podemos fazer a suposição de que o adulto é feminino e fazer as alterações de acordo. Editamos o conjunto de dados para ter uma análise mais clara dos dados ao executar a manipulação de dados nas etapas posteriores do processo de mineração de dados.

Sexo Grávida
Adulto
1 Masculino Não
2 Fêmea sim
3 Fêmea sim
4 Fêmea Não
5 Fêmea sim

Podemos usar uma forma de redução de dados e classificar os dados por sexo e, ao fazer isso, podemos simplificar nosso conjunto de dados e escolher em que sexo queremos nos concentrar mais.

Sexo Grávida
Adulto
2 Fêmea sim
4 Fêmea Não
1 Masculino Não
3 Masculino sim
5 Masculino sim

Mineração de dados

As origens do pré-processamento de dados estão localizadas na mineração de dados . A ideia é agregar informações existentes e pesquisar no conteúdo. Mais tarde, foi reconhecido que, para aprendizado de máquina e redes neurais, uma etapa de pré-processamento de dados também é necessária. Assim, tornou-se uma técnica universal que é usada na computação em geral.

O pré-processamento de dados permite a remoção de dados indesejados com o uso de limpeza de dados, isso permite que o usuário tenha um conjunto de dados para conter informações mais valiosas após o estágio de pré-processamento para manipulação de dados posteriormente no processo de mineração de dados. Editar esse conjunto de dados para corrigir a corrupção de dados ou erro humano é uma etapa crucial para obter quantificadores precisos como verdadeiros positivos, verdadeiros negativos, falsos positivos e falsos negativos encontrados em uma matriz de confusão que são comumente usados ​​para um diagnóstico médico. Os usuários podem juntar arquivos de dados e usar o pré-processamento para filtrar qualquer ruído desnecessário dos dados, o que pode permitir maior precisão. Os usuários usam scripts de programação Python acompanhados da biblioteca pandas, que lhes dá a capacidade de importar dados de valores separados por vírgula como um quadro de dados. O quadro de dados é então usado para manipular dados que podem ser desafiadores de outra forma no Excel. pandas (software) que é uma ferramenta poderosa que permite a análise e manipulação de dados; o que torna as visualizações de dados, operações estatísticas e muito mais, muito mais fáceis. Muitos também usam R (linguagem de programação) para fazer essas tarefas.

O motivo pelo qual um usuário transforma arquivos existentes em novos é por vários motivos. O pré-processamento de dados tem o objetivo de adicionar valores perdidos, agregar informações, rotular os dados com categorias ( Data binning ) e suavizar uma trajetória. Técnicas mais avançadas, como análise de componentes principais e seleção de recursos, funcionam com fórmulas estatísticas e são aplicadas a conjuntos de dados complexos que são registrados por rastreadores GPS e dispositivos de captura de movimento.

Pré-processamento de dados semânticos

Problemas complexos exigem técnicas de análise mais elaboradas das informações existentes. Em vez de criar um script simples para agregar diferentes valores numéricos em um, faz sentido se concentrar no pré-processamento de dados semântico. Aqui está a ideia de construir uma ontologia dedicada que explique em um nível mais alto do que se trata o problema. O Protégé (software) é a ferramenta padrão para esse fim. Uma segunda técnica mais avançada é o pré-processamento Fuzzy . Aqui está a ideia de basear valores numéricos com informações linguísticas. Os dados brutos são transformados em linguagem natural .

Referências

links externos