Análise de novos compostos para utilização farmacológica
Esse projeto foi realizado durante uma imersão de dados da ALURA entres os dias 03 e 09 de Maio de 2021. A inspiração veio de um desafio do Kaggle e os dados foram fornecidos pelo Laboratory innovation science at Harvard
Realizar a predição de quais compostos são candidatos a novas drogas
Breve descrição de todas as variáveis e os tipos de cada uma. Quando se utiliza o Pandas para importar um conjunto de dados (dataset) o próprio Pandas se encarrega de atribuir os tipos de variáveis a cada atributo. Porém temos que ter atenção se corresponde ao tipo correto
id
: Identificação única
tratamento
: var dtype = categórica
-
com_droga
-
com_conrole (sem princípio ativo)
tempo
: var dtype = categórica
- 24h
- 48h
- 72h
composto (droga)
: var dtype = categórica
Identificador anonimizado do composto
Somam 3289 compostos diferentes
Genes
: Expressão do gene. var dtype float64
Viabilidade celular
: Expressão do gene. var dtype float64
id
: Identificação única e o mesmo do outro dataset
estimulante
inibidor
agonista
antagonista
Além dessas variáveis, foi adicionada duas outras variáveis ao dataset:
n_moa
: Número de mequanismos de ativação (MoA, do inglês - Mechanism of Activation)
ativo_moa
: Se o mequanismo foi ativado ou não
- 1 significa que foi ativado
- 0 significa que não foi ativado