Привет! Это репозиторий с работами, которые я выполняю в свободное время для прокачки навыков.
Все данные были взять с открытых источников, поэтому я добавил CSV файлы в каждую папку с проектом.
Проекты делаются на основе моих текущих навыков. Поэтому, если я узнаю что-то новое и смогу применить к ранее изученным данным, я буду дополнять проекты.
Название | Описание | Стек |
---|---|---|
Анализ продаж супермаркета | Были загружены и изучены данные о продажах в неком супермаркете. Визуализированы данные о покупках, предпринята попытка применить знания статистике к данным. | Numpy, pandas, seaborn, matplotlib, scipy |
Анализ раковых заболеваний | Этот проект был направлен в основном на визуализацию данных. Были загружены и предобработаны данные. Визуализированы данные с 1990 по 2020 годы о том, какая смертность и от какого типа рака была в этом промежутке в мире. Также, отдельно была разобрана Россия. | Numpy, pandas, seaborn, matplotlib, plotly |
Анализ сериала Игра Престолов | Проведен анализ сезонов и серий сериала Игра Престолов. Посчитал самые высокие рейтинги IMDb по сезонам, какие серии получили наибольшее количество голосов на IMDb, кто написал и снял больше всего эпизодов, кто главные персонажи в Игре Престолов. | Numpy, pandas, seaborn, matplotlib |
Топ фильмов по кассовым сборам | Небольшой проект о кассовых сборах фильмов. Были предобработаны данные и визуализированы по годам. | Numpy, pandas, seaborn, matplotlib, plotly |
Топ-1000 фильмов | Проведен разведочный анализ данных. Проанализированы данные о том, какие фильмы были лучшими по metascore, по рейтингу IMDb, на основе голосов зрителей и какие фильмы были самими кассовыми в 2018-2019г. Также, все данные были визуализированы. | Numpy, pandas, seaborn, matplotlib |
E-commerce | В проекте найдены дни недели, в которые пользователи чаще всего приобретали товар, сколько покупок совершалось в неделю, проведен когортный анализ и построены RFM-кластеры для пользователей. | Numpy, pandas, matplotlib, seaborn, datetime, scipy |
RecSys | Данный проект направлен на понимание рекомендательных систем. Были использованы Popularity model, Коллаборативная фильтрация, Контентная фильтрация, Гибридный метод, Матричная факторизация. Методы применены на практике, произведено сравнение и тестирование. Лучше всего себя показал гибридные метод. | Numpy, scipy, pandas, math, random, sklearn, nltk, matplotlib |
Tweets | Пробный проект с применением ML. Еще не закончен. | Numpy, pandas, seaborn, matplotlib, re, nltk |
Основные инструменты разработки:
-
язык программирования Python3 и его библиотеки:
-
среда программирования Jupyter Notebook;
-
язык запросов (SQL).
В репозиторий karpov_courses я буду добавлять проекты, лекции и практические задания с курса дополнительного профессионального образования по направлению "Аналитик данных"
В репозиторий DataCamp_projects сохраняю проекты с ресурса www.datacamp.com.
В репозиторий Stepik_courses сохраняю пройденные курсы с ресурса www.stepik.org.
В репозиторий codewars_solutions сохраняются решения кат с ресурса www.codewars.com на языках Python, JavaScript, SQL.
Репозиторий HackerRank_solutions содержит решения проблем с ресурса www.hackerrank.com.