Skip to content

ML Course created for Bauman Moscow State Technical University

License

Notifications You must be signed in to change notification settings

averkij/mstu-nlp-course

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

29 Commits
 
 
 
 
 
 

Repository files navigation

A Dive into Natural Language Processing

градиент обреченный — телеграм канал про машинное обучение.

1. Лекция. Обзор современного машинного обучения

Расскажу про основные домены в DS, в каком состоянии они сейчас находятся и какие задачи сейчас актуальны на рынке (в ритейле, банках, промышленности, ИБ и т.д.).

Upd. 09.10.2021

🎬 https://www.youtube.com/watch?v=LT8QJcOFrwo

🗨️ https://docs.google.com/presentation/d/1YFy-Ia7qwkiQp8nlHk7__JIFeB-dAnzI

✨ Основные виды данных

  • Табличные данные и временные ряды
  • Видео и звук
  • Картинки
  • Текстовые данные

✨ Типичные задачи ML

  • Forecasting
  • Anomaly detection
  • Voice recognition
  • Text to Speech
  • Video captioning
  • Object detection
  • Segmentation
  • Style transfer
  • Image generation
  • Noise reduction
  • Super Resolution
  • Machine translation
  • NER
  • Relation extraction
  • Question answering
  • Classification (spam, sentiment, etc.)
  • Summarization
  • Topic modelling

Open Data Science community

2. Семинар. Делаем семантический поиск

Рассмотрим основные инструменты, подходы и терминологию, которые используются в ML/DS. Разберем, как переводить текстовые данные в векторное пространство. Сделаем простой семантический поиск по текстам. Начнем работать с Colab.

Update 16.10.2021

🎬 https://www.youtube.com/watch?v=VJTXBDHpsus

https://colab.research.google.com/drive/1sBavnRdQTR7NDZDgLwv6_yVnu_UY_PL2?usp=sharing

✨ Понятия и термины

  • Tokenization
  • Lemmatization
  • Stemming
  • Distributional semantics
  • Embedding
  • Word2Vec
  • GloVe
  • fastText

3. Лекция. Векторное представление текста. Embeddings.

Базовые подходы и техники, с которых начинается решение прикладных задач и часто же ими и заканчивается. Разберем основные алгоритмы. Статистические и нейросетевые подходы по переводу текстов в векторное пространство. Word2Vec.

Update 24.10.2021

🎬 https://www.youtube.com/watch?v=OV_QM_BuAhU

🗨️ https://docs.google.com/presentation/d/162aedK5-nubUV-Z59zQ5zMW5nnLyB8Gu

✨ Понятия и термины

  • One-hot encoding
  • Bag of Words
  • N-grams
  • TF-IDF
  • Distributional semantics
  • Pointwise mutual information
  • Matrix factorization
  • SVD
  • Word2Vec
  • Subsampling
  • Negative sampling

4. Семинар. Классификация текстов. Transfer learning

Upd. 30.10.2021

Применим базовые подходы для решения задач. Узнаем, что такое transfer learning и как начать просто использовать предобученные модели через huggingface.

🎬 https://www.youtube.com/watch?v=uRAsurPHycw

https://colab.research.google.com/drive/1xtkx4pj3v7lNKXJvD63nu4YGn7YFlAlC?usp=sharing

✨ Понятия и термины

  • Neural nets
  • Text classification
  • Metrics
  • Transfer learning
  • Pretrainig
  • Huggingface
  • Interview questions

⭐️ Полезные ссылки

5. Лекция. Переломный момент в ML

Upd. 10.11.2021

Как повлиял механизм внимания на развитие ML. Расскажу про трансформеры, которые сейчас являются SOTA во многих областях.

🎬 https://www.youtube.com/watch?v=6b0MXyHbILs

🗨️ https://docs.google.com/presentation/d/1rgKZaypYtjunoptDZkvoc4JDXCcNgtlU

✨ Понятия и термины

  • Механизм внимания (Attention, Self-attention)
  • RNN
  • LSTM
  • Encoder
  • Decoder
  • Transformer

6. Семинар. Знакомимся с PyTorch и PyTorch Lightning. Пишем первую нейросеть.

Поговорим, что такое PyTorch и для чего он нужен. Потренируем сеть на MNIST'е. Отрефакторим в PyTorch Lightning, чтобы было проще работать с моделью.

🎬 https://www.youtube.com/watch?v=Oc-DX3xwyFA

https://colab.research.google.com/drive/1K1hz93ceM926vyEs0Ouxbizu458GDHd0

✨ Понятия и термины

  • PyTorch
  • Tensor
  • Optimizer
  • Loss function
  • PyTorch Lightning
  • DataModule
  • TensorBoard

7. Лекция. Машинный перевод

Update 20.11.2021

Машинный перевод — движущая сила NLP. Поговорим про его развитие, про современные модели, про проблемы, связанные с их обучением.

🎬 https://youtu.be/8JqWdACYKns

🗨️ https://docs.google.com/presentation/d/1QtWcCkZQ6RqgsXohPy3Pm-t3iyIwAj5l

✨ Понятия и термины

  • Machine translation
  • BLEU, NIST, METEOR
  • Джорджтаунский эксперимент
  • ALPAC report
  • Parallel corpora
  • RBMT. Rule-based machine translation
  • EBMT. Example-based machine translation
  • SMT. Statistical machine translation
  • NMT. Neural machine translation

⭐️ Ссылки

8. Семинар. Машинный перевод

Upd. 26.11.2021

Сделаем русско-английский переводчик. Зафайнтюним модель mT5, которую можно адаптировать под множество прикладных задач. Про это тоже поговорим.

🎬 https://www.youtube.com/watch?v=vVnYib1MiYY&t=732s

https://colab.research.google.com/drive/1KEGej1rIWBGpljZSMCjj7_MFv3c7DG3L

✨ Понятия и термины

  • Машинный перевод
  • T5
  • mT5
  • Fine-tuning
  • Multitask model training

tg: @averkij @doomgrad

About

ML Course created for Bauman Moscow State Technical University

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published