Evaluating the Effectiveness of TF-IDF and Word Embedding Models for Predicting Plot Similarity

Jean Luis Adrover Jackson Reinhart Jakob Lamber Yixiao Zhang

Read our final paper on this project here

Overview

This repository contains the code and datasets used for the research paper "Evaluating the Effectiveness of TF-IDF and Word Embedding Models with Cosine Similarity to Predict Plot Similarity Between Books and Films".

Abstract

The paper explores novel methods to engage modern audiences with books by predicting their relevance from movies. Using the CMU Movie Summary Corpus and the CMU Book Summary Corpus, we developed a baseline system utilizing Term Frequency-Inverse Document Frequency (TF-IDF) and Cosine similarity. We then enhanced this system by incorporating stricter pre-processing, Jaccard scoring, and word embeddings using Word2Vec and DistilBERT. Our findings indicate that DistilBERT combined with Cosine Similarity significantly outperforms other models in detecting narrative similarities.

Repository Contents

CMU Movie Summary Corpus and CMU Book Summary Corpus.
/sys.ipynb: Jupyter notebook used for data preprocessing, model training, and evaluation.
/main.py: Source code implementing TF-IDF, Word2Vec, and DistilBERT models.
Research paper via pdf.

Name		Name	Last commit message	Last commit date
Latest commit History 14 Commits
MovieSummaries		MovieSummaries
booksummaries		booksummaries
README.md		README.md
book_data.txt		book_data.txt
book_data_normalized.txt		book_data_normalized.txt
main.py		main.py
movie_data.txt		movie_data.txt
movie_data_normalized.txt		movie_data_normalized.txt
nyu_nlp_finalpaper (1).pdf		nyu_nlp_finalpaper (1).pdf
output.txt		output.txt
requirements.txt		requirements.txt
scoring.txt		scoring.txt
sys.ipynb		sys.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Evaluating the Effectiveness of TF-IDF and Word Embedding Models for Predicting Plot Similarity

Overview

Abstract

Repository Contents

About

Releases

Packages

Contributors 4

Languages

jladrover/mbmatchmaker

Folders and files

Latest commit

History

Repository files navigation

Evaluating the Effectiveness of TF-IDF and Word Embedding Models for Predicting Plot Similarity

Overview

Abstract

Repository Contents

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 4

Languages

Packages