English readme is here.
Датасэт беларускіх выразаў, сабраны з адкрытых крыніц Інтэрнэта.
Апошняя версія датасэта ляжыць ў фармаце .csv тут.
Датасэт быў сабраны для Notion, каб кожны дзень атрымліваць выпадковую цытату.
Версія для Notion тут:
Дадзеныя былі сабраныя з:
-
вэб-старонак:
1.1. Падборка цытат ад Радыё Свабоды
1.2. Падборка ад Нацыянальнай бібліятэкі
1.3. Цытаты з сайта dumki.org -
кніг фармата pdf:
2.1. Беларуская народная творчасць. Прыказкі і прымаўкі. У дзьвюх частках
2.2. Алесь Зайка. Прыказкі і прымаўкі з Косаўшчыны
Мне хацелася з чагосьці пачаць. Знайшоў пэўную колькасць цытат на сайтах. Але гэта падалося недастатковым, таму вырашыў яшчэ разгледзець кнігі. Абраў першыя, якія пасавалі па зместу. Даставаць нешта з кніг даволі складана, таму пакуль абмежаваўся гэтымі дзвюма.
Складанасці парсінгу і счытвання з pdf можна пабачыць у гэтым ноутбуку.
У датасэце зараз 9655 запісаў.