reddit-scan-datasets

Simple datasets pulled from reddit to do nlp on.

Current datasets:

Titles from various subreddits pulled via pushift api

- Conservative submission titles ~96k examples
- Conspiracy submission titles ~134k examples
- Politics submission titles ~120k examples
- Guitar submission titles ~40k examples

Included is a utility script to merge these text datasets together to form new datasets from base files. Below is an example command to run the script which will take the path, get all files found via the path and then merge to a new file.

python MergeDataSets.py --directory 'data_sets/submission_titles_guitar_*.txt' --output 'data_sets/submission_titles_guitar_merged.txt'

Name		Name	Last commit message	Last commit date
Latest commit History 34 Commits
data_sets		data_sets
utilities		utilities
.gitignore		.gitignore
Huggingface_finetune_gpt2.ipynb		Huggingface_finetune_gpt2.ipynb
LICENSE		LICENSE
LM_Huggingface_finetune_GPT_2.ipynb		LM_Huggingface_finetune_GPT_2.ipynb
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

reddit-scan-datasets

About

Releases

Packages

Languages

License

GeorgeDittmar/reddit-scan-datasets

Folders and files

Latest commit

History

Repository files navigation

reddit-scan-datasets

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages