Skip to content

DaviReisVieira/Projeto-2-CDados

Repository files navigation

Projeto 2 - Ciência dos Dados

Capa

PARTICIPANTES

  • Breno Quessie Barbosa de Lima
  • Davi Reis Vieira de Souza
  • Nicolas Maciel Queiroga

INTRODUÇÃO

Este é um projeto produzido por três alunos do segundo semestre em engenharia no Insper, o qual busca fazer uma análise exploratória de um dataset com dados do ENEM 2019. Com isso, serão tiradas conclusões a partir dos conhecimentos adquiridos nas análises convenintemente escolhidas.

BIBLIOTECAS UTILIZADAS

  • NumPy - NumPy é um pacote para a linguagem Python que suporta arrays e matrizes multidimensionais, possuindo uma larga coleção de funções matemáticas para trabalhar com estas estruturas.
  • SciPy - SciPy é uma biblioteca Open Source em linguagem Python que foi feita para matemáticos, cientistas e engenheiros. Também tem o nome de uma popular conferência de programação científica com Python. A sua biblioteca central é NumPy que fornece uma manipulação conveniente e rápida de um array N-dimensional.
  • Pandas - Pandas é uma biblioteca de software criada para a linguagem Python para manipulação e análise de dados. Em particular, oferece estruturas e operações para manipular tabelas numéricas e séries temporais.
  • Scikit-learn - A scikit-learn (originalmente scikits.learn) é uma biblioteca de aprendizado de máquina de código aberto para a linguagem de programação Python. Ela inclui vários algoritmos de classificação, regressão e agrupamento incluindo máquinas de vetores de suporte, florestas aleatórias, gradient boosting, k-means e DBSCAN, e é projetada para interagir com as bibliotecas Python numéricas e científicas NumPy e SciPy.
  • Seaborn - Seaborn é uma biblioteca de visualização de dados Python baseada em matplotlib . Ele fornece uma interface de alto nível para desenhar gráficos estatísticos atraentes e informativos.
  • Matplotlib - Matplotlib é uma biblioteca abrangente para a criação de visualizações estáticas, animadas e interativas em Python.
  • Statsmodels - Statsmodels é uma biblioteca que fornece classes e funções para a estimativa de muitos modelos estatísticos diferentes, bem como para a realização de testes estatísticos e exploração de dados estatísticos. Uma extensa lista de estatísticas de resultados está disponível para cada estimador. Os resultados são testados em relação aos pacotes estatísticos existentes para garantir que estão corretos.

ARQUIVOS CONTIDOS NO REPOSITÓRIO

  • Análise Exploratória e Modelo.ipynb - Arquivo contendo o relatório final
  • Legenda das Colunas.xlsx - Arquivo em excel com o nome de todas as colunas do dataset principal
  • Criando Dataset Menor.ipynb - Arquivo que divide o dataset em "chunks" para que não seja necessário abrir todo o dataset que pussui 3.2GB
  • CE_dados.xlsx - Dataset com as informações necessárias para a análise exploratória inicial do estado do Ceará
  • MICRODADOS_ENEM_2019_SAMPLE_ESTUDO.csv - Dataset para o estudo do modelo
  • MICRODADOS_ENEM_2019_SAMPLE_TESTE.csv - Dataset de teste para o nosso modelo

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 3

  •  
  •  
  •