Projeto Data Science: Machine learning aplicado em Drug discovery

Este repositório contém um simples projeto de Data Science desenvolvido durante a terceira edição do #imersão_dados realizado pela alura. O projeto foi realizado utilizando a linguagem python e diversas bibliotecas específicas da área de Data Science e Machine Learning, sendo as principais:

Pandas - Para importação e exploração dos dados;
Seaborn - Para visualização dos dados;
Scikit-Learn - Para construção dos modelos preditivos.

A área de estudo explorado, foi o Drug discovery que consiste na descoberta de novos fármacos por meio de pesquisas científicas. No entanto, o trabalho que antes era manual, agora está sendo revolucionado graças a biotecnologia e diversas ferramentas computacionais que contribuem de forma significativa para construção e descoberta de novos compostos. Está área, também envolve massivas quantidade dados gerados durantes os experimentos e, nesse contexto, a ciência de dados surge como grande aliado no desenvolvimento da farmacologia.

Objetivo

Este projeto teve como objetivo a aplicação de técnicas de Data Science na descoberta de novos farmácos. Além disso, verificar a possibilidade de criação de um modelo preditivo capaz de descobrir ou auxiliar na descoberta desses fármacos de forma mais rápida e eficiente.

Estrutura dos dados

Os dados foram estruturados no formato tidy, isto é, de forma que cada coluna representa os atributos da base dados e cada linha representa uma amostra dos resultados obtidos para cada composto testado.

Os atributos explorados na base de dados foram:

Tipo de tratamento do experimentos;
Tempo de análise das reações aos compostos testados;
Compostos utilizados;
E diversas expressões gênicas.

Metodologia

A metodologia abordada trata-se das principais etapas de um projeto de Data Science. Inicialmente foi realizado uma análise inicial dos dados (AED) com o simples objetivo de obter insights dos dados. Em seguida, foi realizada uma breve e superfícial análise estatística dos principais atributos para coleta de informações mais detalhadas e precisas. E ao final, sintetizando todas as informações obtidas, iniciou-se a fase de prototipagem dos modelos preditivos. Testou-se alguns diferentes modelos até alcançar o modelo mais preciso.

Resultados

Para alcançar o mehor modelo preditivo utilizou-se a técnica de otimização de hiperparâmetros com o auxílio do algoritmo Randomized Search. O modelo escolhido foi o Multilayer perceptron (MLP), baseado em redes neurais artificias. A escolha desse modelo foi motivada por interesses pessoas de estudo e pela crecente aplicação, com sucesso, das redes neurais artificias, nas mais variadas áreas do conhecimento humano. O melhor modelo MLP treinado possue as seguintes configurações:

Número de neurônios na camada oculta = 8
Tipo de aprendizado = 'invscaling'
Taxa de aprendizado inicial = 0,5358867312681471
Constante de momento = 0.04927989038222336
Tamanho dos lotes = 16
Constante alfa de regularização = 0,1
Quantidade de atributos preditores = 872

Com estas configurações foi possível obter uma pontuação de aproximadamente 65% no conjunto de teste. É Importante ressaltar que em todos os processos que utilizaram sementes de valores aleatórios, utilizou-se a semente 42. Dessa forma, é possivel garantir a reprodutibilidade dos resultados em qualquer máquina, local e horário.

Conclusões

Ao analisar os resultados dos modelos preditivos foi possível perceber que os modelos desevolvidos obtiveram apenas acurácias razoáveis próximo de 50% de precisão, mesmo após aplicar otimização nos hiperparâmetros do modelo. No entanto, a área de Drug Discover necessita de precisões mais altas principalmente por se tratar de compostos que poderão ser distribuídos a pessoas no tratamento de alguma doença. Portanto, conclui-se que é necessário mais estudos e aprimoramento das técnicas utilzadas para que possa de fato contribuir no descobrimento de novos compostos de forma mais precisa.

Sugestão de trabalhos futuros

Como sugestão de trabalhos futuros propoẽm-se reduzir a dimensionalidade do modelo preditivo (quantidade de atributos de entrada), selecionando apenas os atributos mais importantes para o modelo e excluindo os demais, solucionando possíveis problemas com a chamada maldição da dimensionalidade.

Agradecimentos

Agradeço a todo time da alura que proporcionou uma semana íncrivel de muito Data Science na imersão dados ❤️

Em especial, agradeço os professores dessa edição:

Thiago Santos
Guilherme Silveira
Vanessa Leiko

Referências

Documentação: pandas
Documentação: scikit-learn
Livro: Machine Learning
Fundamentação teórica:Drug Discover

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

Projeto Data Science: Machine learning aplicado em Drug discovery

Objetivo

Estrutura dos dados

Metodologia

Resultados

Conclusões

Sugestão de trabalhos futuros

Agradecimentos

Referências

Files

README.md

Latest commit

History

README.md

File metadata and controls

Projeto Data Science: Machine learning aplicado em Drug discovery

Objetivo

Estrutura dos dados

Metodologia

Resultados

Conclusões

Sugestão de trabalhos futuros

Agradecimentos

Referências