Escolha o teste de acordo com a vaga desejada.
No link a seguir, encontra-se uma base de dados sobre características de algumas flores mapeadas em um determinado tipo: http://archive.ics.uci.edu/ml/datasets/Iris.
O desafio consiste em:
-
Criar uma base de treino (66% do total dos elementos) e uma base de teste (os 34% restantes); Os dados devem ser distribuídos aleatoriamente em ambas as bases;
-
Categorizar os exemplos da base de teste que devem ser apresentados ao classificador.
Sobre a entrega:
-
Deve-se escolher 3 diferentes classificadores, treiná-los, testá-los e reportar os resultados, comparando-os e escolhendo o melhor, justificando a escolha.
-
Para as comparações, deve-se calcular uma matriz de confusão para cada classificador.
-
Evidentemente, outras métricas adicionais que, por ventura, sejam consideradas necessárias, podem ser utilizadas.
-
Os códigos e o relatório devem ser entregues em um ipython notebook, o qual deve ser auto-suficiente para ser executado (assumindo que o computador a executar possua todas as ferramentas necessárias instaladas).
Ferramenta sugerida: scikit-learn.
Para este teste, utilize a seguinte base de dados: dados.zip
Em processamento e entendimento de linguagem natural, a análise de sentimento é uma das áreas que mais têm recebido atenção da comunidade científica. Os seus desafios encontram-se principalmente na identificação e tratamento adequado de sarcasmo, ambiguidade linguística, negação, etc. Este desafio consiste em classificar os trechos de textos opinativos sobre filmes presentes na base fornecida em 5 níveis de sentimento: negativo, um pouco negativo, neutro, um pouco positivo e positivo.
Sobre a entrega:
1. Deve-se escolher 3 diferentes algoritmos de classificação ou regressão. Deve-se utilizar apenas o arquivo train.tsv para criar as bases de treino, validação e teste, comparando os algoritmos com a base de teste e escolhendo o melhor, justificando a escolha.
-
Os códigos e o relatório devem ser entregues em um ipython notebook didático, o qual deve ser auto-suficiente para ser executado (assumindo que o computador a executar possua todas as ferramentas necessárias instaladas).
-
O relatório deve conter todas as tentativas para resolver o problema, como se estivesse contando a história da estrada percorrida para se chegar no resultado.
Para este teste, utilize a seguinte base de dados: dados.zip
Em processamento e entendimento de linguagem natural, a análise de sentimento é uma das áreas que mais têm recebido atenção da comunidade científica. Os seus desafios encontram-se principalmente na identificação e tratamento adequado de sarcasmo, ambiguidade linguística, negação, etc. Este desafio consiste em classificar os trechos de textos opinativos sobre filmes presentes na base fornecida em 5 níveis de sentimento: negativo, um pouco negativo, neutro, um pouco positivo e positivo.
Sobre a entrega:
1. Deve-se escolher 3 diferentes algoritmos de classificação ou regressão. Deve-se utilizar apenas o arquivo train.tsv para criar as bases de treino, validação e teste, comparando os algoritmos com a base de teste e escolhendo o melhor, justificando a escolha. As justificativas devem ser feitas através da análise dos dados, mas deve estar também embasada na literatura científica com referências a artigos da área.
-
Os códigos e o relatório devem ser entregues em um ipython notebook didático, o qual deve ser auto-suficiente para ser executado (assumindo que o computador a executar possua todas as ferramentas necessárias instaladas).
-
O relatório deve conter todas as tentativas para resolver o problema, como se estivesse contando a história da estrada percorrida para se chegar no resultado.
Quaisquer dúvidas podem ser enviadas para [email protected] com cópia para [email protected]. O candidato deve registrar o tempo despendido para o desenvolvimento. Não existe um escopo de tempo oficial, mas o ideal é que não ultrapasse 1 semana.