Мое решение 6 задачи отбора на Тинькофф поколение
Описание модели Doc2VecLM
:
Модель представвляет собой гибрид Word2Vec (Skipgram), TF-IDF и линейного классификатора
Описание работы модели Doc2VecLM
:
Word2VecWrapper
возвращает эмбеддинги для каждого слова во входной последовательностиTFIDFWrapper
возвращает tfidf скор каждого слова во входной последовательностиWord2VecWrapper
эмбеддинги умножаются наTFIDFWrapper
скоры и усредняются, что представляет собой общий контекст предложенияClassifier
принимает на вход эмбеддинг контекста и эмбеддингиlast_n
последних слов и возвращает вероятности следующего слова
Тренировка модели:
bash train.sh
Генерация текста:
bash generate.sh