Name		Name	Last commit message	Last commit date
Latest commit History 13 Commits
data		data
db		db
lib		lib
old		old
scripts		scripts
.DS_Store		.DS_Store
.gitignore		.gitignore
README.md		README.md
extract_sentences.py		extract_sentences.py
reduce_vocab.py		reduce_vocab.py
requirements.txt		requirements.txt

Repository files navigation

blog-gender-dataset

Maintains dataset generation procedure for our deep-learning project.

Author: Jim Zheng, Aric Bartle

Reduced Vocab

download frequency data
prune data to get top N%
output (word-vec => word mapping)
wordvector.txt, vocab.txt, vocab.pdb

Blog Cleanup

go through each blog
- remove unicode
- extract words without punctuation
- all lowercase
- num => DG
- unknown vocab => UUNNGG
- have param k that specifies max sent per ex

About

CS 224D Final Project

nlp machine-learning deep-learning word2vec gutenberg

Report repository

Releases

No releases published

Packages

No packages published

Languages

Python 100.0%