Mansi Priya
Hoje, os algoritmos são como palavras da moda. Todos estão a aprender diferentes tipos de algoritmos - regressão logística, florestas aleatórias, árvores de decisão, SVMs, algoritmos de aumento de gradiente, redes neuronais, etc. Mas a Data Science não está apenas a aplicar algoritmos diferentes aos dados. Antes de aplicar qualquer algoritmo, deve compreender os seus dados, pois isso irá ajudá-lo a melhorar o desempenho dos seus algoritmos mais tarde. Para qualquer problema, é necessário repetir os mesmos passos - preparação de dados, planeamento de modelos, construção de modelos e avaliação de modelos, para melhorar a precisão. Se saltarmos diretamente para a construção do modelo, ficaremos sem direção após uma iteração. negócios. Não existe nenhum cenário como: aqui estão os dados, aqui está o algoritmo e Bam! A compreensão adequada do negócio irá ajudá-lo a lidar com os dados nas próximas etapas. Por exemplo, se não tiver qualquer ideia sobre o sistema bancário, não compreenderá se uma característica como o rendimento do cliente deve ser incluída ou não. O próximo passo é recolher dados relevantes para o seu problema. Além dos dados que possui internamente na sua empresa, deve também adicionar fontes de dados externas. Por exemplo, para a previsão de vendas deve compreender o cenário de mercado para as vendas do seu produto. O PIB pode afetar as suas vendas ou pode afetar a população. Portanto, recolha este tipo de dados externos. Lembre-se também do facto de que quaisquer dados externos que utilize deverão estar disponíveis no futuro, quando o seu modelo for implementado. Por exemplo, se utilizar a população no seu modelo, no próximo ano também poderá recolher estes dados para obter previsões no próximo ano. Tenho visto muitas pessoas que utilizam apenas os seus dados internos sem se aperceberem da importância dos dados externos para o seu conjunto de dados. Mas, na realidade, os recursos externos têm um bom impacto no nosso caso de utilização. Agora que já recolheu todos os dados relevantes para o seu problema, deve dividi-los para treino e teste. Muitos cientistas de dados seguem a regra 70/30 para dividir os dados em duas partes: conjunto de treino e conjunto de teste. Embora muitos sigam a regra 60/20/20 para dividir os dados em três partes: conjunto de treino, conjunto de testes e conjunto de validação. Prefiro a segunda opção porque neste caso utiliza conjunto de testes para melhorar o seu modelo e conjunto de validação para verificação final do seu modelo no cenário real. com isso. Eu estava a trabalhar num problema de previsão de inadimplência. A minha precisão foi de 78%. Levei o meu problema à pessoa que tratava dos sistemas financeiros relacionados com empréstimos.