- There is no standard method to compare corpora.
- In other words, we still have room for trying new methods.
- How to combine existing methods and new methods?
- What characteristics do each method show?
article | token | vocaburary | token/article | token/vocab | |
---|---|---|---|---|---|
Thairath | 842,351 | 422,109,688 | 803,014 | 501.1 | 525.6 |
Dailynews | 369,783 | 131,192,911 | 295,579 | 448.2 | 443.85 |
Matichon | 76,432 | 30,262,305 | 147,374 | 205.3 | 154.16 |
Sanook | 17,931 | 6,874,537 | 60,782 | 383.4 | 113.10 |
NHK Thai | 780 |
-
Word/Document Frequency
1.5 Mann–Whitney U-test
1.7 tf-idf
tf-idf weighting has many variations. -> Stanford NLP
-
Vectorization
2.1 Cosine Similarity of Word Frequency Vector (20 - 20000 dimension)
2.2 doc2vec
2.3 corpus2vec
2.4 word2vec
-
Entropy
word frequency with stopwords
Thairath | ที่ และ ใน มี ไม่ ได้ ของ ว่า จะ เป็น การ ให้ ไป ก็ มา กับ จาก แต่ คน นาย โดย นี้ ต้อง แล้ว ไทย อยู่ ปี เพื่อ ยัง ซึ่ง เมื่อ อย่าง กัน ด้วย หรือ เพราะ น. วันที่ เรา ทีม เรื่อง ๆ ทำ ใช้ ถึง ประเทศ ส่วน อีก จึง กว่า |
Daily News | ที่ และ ใน มี ได้ ของ การ ไม่ ว่า จะ เป็น ให้ ไป ก็ มา จาก กับ โดย ซึ่ง แต่ นาย ต้อง นี้ เพื่อ คน เมื่อ ปี แล้ว อยู่ ไทย ยัง อย่าง หรือ ด้วย วันที่ เพราะ กัน เรื่อง ใช้ ประเทศ จึง ๆ ทำ ส่วน ทำให้ ถึง เรา ทาง อีก คือ |
Matichon | ที่ และ ใน มี การ ได้ ของ ว่า เป็น ไม่ จะ ให้ ไป จาก มา ก็ โดย กับ ซึ่ง นาย เพื่อ คน ต้อง แต่ ปี เมื่อ หรือ นี้ อยู่ แล้ว ยัง วันที่ ไทย อย่าง ด้วย จึง เรื่อง ใช้ คือ ทำ ทาง ทั้ง เพราะ ประเทศ พื้นที่ สามารถ กัน เรา ถึง กว่า |
Sanook | และ ได้ ไม่ ว่า มี ใน ของ เป็น ไป ก็ จะ ให้ มา การ กับ คน แล้ว แต่ อยู่ จาก เรา โดย ซึ่ง นาย นี้ ยัง เขา ปี กัน ต้อง จึง ๆ เพื่อ เพราะ เมื่อ พบ อย่าง ด้วย ถูก เลย หรือ กว่า ดังกล่าว ทาง บ้าน ตน คือ เรื่อง อีก ทำให้ |
NHK Thai | ที่ ของ ใน และ ได้ ว่า การ ญี่ปุ่น จะ มี นาย เป็น นี้ วัน สหรัฐ ให้ เมื่อ กับ จาก ซึ่ง โดย ไม่ เพื่อ ระบุ ปี คน ขึ้น ยัง จีน ต่อ กล่าวว่า เขา ไป แห่ง อย่าง ตุลาคม ด้าน ทาง เกาหลีใต้ ถูก ที่จะ หรือ พฤศจิกายน อยู่ รัฐบาล ประธานาธิบดี เดือน ใช้ กล่าว ดังกล่าว |
word frequency without stopwords
Thairath | คน ไทย ปี น. วันที่ ทีม เรื่อง ทำ ประเทศ บาท อ. ดี ์ จ. เวลา บ้าน ล้าน พื้นที่ ผม ประชาชน ที่จะ เมือง รัฐบาล ตัว สำหรับ รถ พระ เจ้าหน้าที่ งาน สร้าง ที่ผ่านมา เดือน ส อายุ ดู รายงาน จังหวัด ตำรวจ จำนวน พรรค ออกมา บริเวณ กล่าวว่า เล่น ชาติ ตรวจสอบ น้ำ เข้ามา เกม บริษัท |
Daily News | คน ปี ไทย วันที่ เรื่อง ประเทศ ทำ บาท ดี พื้นที่ ประชาชน เวลา ์ ที่จะ ล้าน ทีม จ. อ. ผม รัฐบาล น. สำหรับ ที่ผ่านมา เมือง เจ้าหน้าที่ บ้าน สร้าง ตัว งาน กล่าวว่า พระ รายงาน รถ เดือน จำนวน อายุ ตรวจสอบ โครงการ ต่อไป จังหวัด เข้ามา บริเวณ ส เดินทาง ดู ออกมา เงิน ถนน น้ำ บริษัท |
Matichon | คน ปี วันที่ ไทย เรื่อง ทำ ประเทศ พื้นที่ อ. ประชาชน บาท จ. เวลา จังหวัด ที่จะ เจ้าหน้าที่ ดี บ้าน กล่าวว่า สร้าง สำหรับ ทีม จำนวน เมือง น. ล้าน งาน น้ำ ์ ตรวจสอบ โครงการ ท่าน ที่ผ่านมา ตัว บริเวณ อายุ พระ ผม บริษัท เดือน เดินทาง เงิน รายงาน รถ พล ต่อไป รัฐบาล เข้ามา ชัย ระบบ |
Sanook | ปี บ้าน เรื่อง ผม ทำ เจ้าหน้าที่ อายุ รถ จ. ตัว แม่ อ. น้อง วันที่ ภาพ ตรวจสอบ เวลา เมือง ไทย บริเวณ ออกมา ทราบ ดี โพสต์ พื้นที่ ลูก แจ้ง บาท ที่ผ่านมา เข้ามา ดู เสียชีวิต พี่ ตำรวจ บอ จังหวัด เดินทาง สำหรับ ์ รายงาน พรรค สภ. งาน สาว ประเทศ เจ้าหน้าที่ตำรวจ ที่จะ ประชาชน เงิน เด็ก |
NHK Thai | ญี่ปุ่น สหรัฐ ระบุ ปี คน จีน กล่าวว่า ตุลาคม เกาหลีใต้ ที่จะ พฤศจิกายน รัฐบาล ประธานาธิบดี เดือน ชิ เจ้าหน้าที่ ประเทศ เกาหลีเหนือ ต่าง ๆ จังหวัด เรื่อง นา พระ ข้อตกลง ฮ่องกง เมือง ผู้นำ เรียกร้อง รัฐมนตรี กรุง โตเกียว ทรัมป์ สำหรับ รายงาน บริษัท สมเด็จ ล้าน โลก อาเบะ ฮา ราว พื้นที่ การประชุม ส บรรดา ข้อมูล ธันวาคม ชาติ นิวเคลียร์ วันที่ |
document frequency with stopwords
Thairath | ที่ ใน และ มี ได้ ของ ว่า เป็น ให้ จะ ไม่ ไป การ กับ มา จาก โดย เมื่อ นี้ แต่ ซึ่ง แล้ว วันที่ ยัง อยู่ เพื่อ ก็ อย่าง ด้วย คน ต้อง ปี ถึง หรือ กัน อีก เพราะ ส่วน นาย ทั้ง กว่า ทำให้ ไทย ทำ จึง ใช้ ขึ้น ทาง ๆ ก่อน |
Daily News | ที่ และ ใน มี ว่า ได้ ของ เป็น การ ให้ จะ ไม่ จาก ไป โดย เมื่อ กับ มา ซึ่ง เพื่อ นี้ แต่ วันที่ ยัง อยู่ แล้ว อย่าง ก็ ปี ด้วย ต้อง คน นาย หรือ ส่วน ถึง จึง อีก เพราะ ทั้ง กัน ทำให้ ใช้ ประเทศ ทาง ไทย เรื่อง กว่า นำ ทำ |
Matichon | ที่ และ ใน มี ได้ ว่า ของ เป็น การ ให้ จะ โดย เมื่อ จาก ไม่ ไป วันที่ กับ มา ซึ่ง เพื่อ นี้ ยัง แล้ว แต่ อยู่ นาย ปี ด้วย คน หรือ อย่าง ต้อง ก็ จึง ทั้ง ถึง ทาง อีก ส่วน กว่า นำ ใช้ สามารถ ทำให้ เวลา ทำ ตาม ไทย เพราะ |
Sanook | ที่ และ ว่า มี ได้ ใน เป็น ของ ไม่ ไป ให้ จะ มา การ กับ จาก โดย ซึ่ง แล้ว แต่ คน อยู่ ก็ ยัง เมื่อ นี้ ปี เพื่อ ด้วย อย่าง จึง กัน ต้อง เพราะ ดังกล่าว ถูก พบ นาย กว่า อีก ถึง หรือ ก่อน ทำให้ ทาง นำ ๆ หลัง หนึ่ง อายุ |
NHK Thai | ที่ ใน ของ และ ได้ ว่า การ มี วัน จะ เป็น นี้ เมื่อ โดย ให้ ซึ่ง ญี่ปุ่น กับ จาก เพื่อ ไม่ ระบุ ยัง นาย ต่อ ไป ปี อย่าง ขึ้น กล่าวว่า แห่ง ตุลาคม หรือ ทาง ด้าน ที่จะ คน อยู่ พฤศจิกายน สหรัฐ เดือน ถูก รัฐบาล กล่าว หนึ่ง กำลัง มา ดังกล่าว เขา ต่าง ๆ |
document frequency without stopwords
Thairath | วันที่ คน ปี ไทย ทำ เรื่อง เวลา ดี ประเทศ สำหรับ น. ที่จะ ที่ผ่านมา ์ รายงาน ตัว เมือง บาท อ. บ้าน ต่อไป จ. ออกมา สร้าง ดู ทีม พื้นที่ กล่าวว่า เดือน เข้ามา ประชาชน จำนวน ล้าน งาน เจ้าหน้าที่ |
Daily News | วันที่ ปี คน ประเทศ ไทย เรื่อง ทำ ที่ผ่านมา เวลา สำหรับ ที่จะ ดี รายงาน ต่อไป กล่าวว่า ์ บาท น. ประชาชน อ. เมือง ตัว พื้นที่ จ. สร้าง เจ้าหน้าที่ เดือน จำนวน เข้ามา บ้าน ออกมา ล้าน ดู เดินทาง งาน ตรวจสอบ อย่างไรก็ตาม รัฐบาล |
Matichon | วันที่ ปี คน เวลา ทำ ไทย เรื่อง กล่าวว่า อ. สำหรับ ประเทศ ที่จะ พื้นที่ ที่ผ่านมา น. จ. ดี ประชาชน ต่อไป จำนวน รายงาน เจ้าหน้าที่ สร้าง บาท เมือง จังหวัด ตัว บ้าน เดินทาง เข้ามา ์ บริเวณ ตรวจสอบ อายุ งาน เดือน แจ้ง รอง |
Sanook | คน ปี อายุ ทำ วันที่ เวลา ตัว ที่ผ่านมา เรื่อง จ. เจ้าหน้าที่ อ. ทราบ บ้าน ออกมา ตรวจสอบ บริเวณ ต่อไป แจ้ง รายงาน สำหรับ เข้ามา ดี เมือง ภาพ ดู เดินทาง พื้นที่ น. ที่จะ โพสต์ ระบุ บอ รถ จังหวัด เกิดขึ้น สภ. ต. หน้า สาว แม่ เข้าไป เจ้าหน้าที่ตำรวจ |
NHK Thai | ญี่ปุ่น ระบุ ปี กล่าวว่า ตุลาคม ที่จะ คน พฤศจิกายน สหรัฐ เดือน รัฐบาล ต่าง ๆ เจ้าหน้าที่ ประเทศ เรื่อง เรียกร้อง ชิ กรุง สำหรับ จีน ประธานาธิบดี บรรดา รายงาน โตเกียว จังหวัด ราว ธันวาคม วันที่ อังคาร เมือง ผู้นำ นา ศุกร์ ส พฤหัสบดี ฮา กันยายน พุธ วันอาทิตย์ โลก พื้นที่ จันทร์ รัฐมนตรี คาด ประกาศ ผู้คน ข้อตกลง ข้อมูล ทางการ บริษัท |
NHK Thai: word frequency without stopwords
Thairath
bigram count | ||
---|---|---|
ล้าน | บาท | 279255 |
ประเทศ | ไทย | 251553 |
ทีม | ชาติ | 158305 |
น. | วันที่ | 106391 |
สำนัก | ข่าวต่างประเทศ | 84361 |
อ. | เมือง | 83851 |
ข่าวต่างประเทศ | รายงาน | 82266 |
ผู้สื่อข่าว | รายงาน | 74790 |
อ. | ประยุทธ์ | 71867 |
ชาติ | ไทย | 69908 |
Daily News
bigram count | ||
---|---|---|
ล้าน | บาท | 95139 |
ประเทศ | ไทย | 85176 |
ผู้สื่อข่าว | รายงาน | 33726 |
น. | วันที่ | 27348 |
สำนัก | ข่าวต่างประเทศ | 27131 |
ทีม | ชาติ | 26970 |
ข่าวต่างประเทศ | รายงาน | 26879 |
อ. | เมือง | 22671 |
ผบ | ก. | 20013 |
อ. | ประยุทธ์ | 18580 |
Matichon
bigram count | ||
---|---|---|
ล้าน | บาท | 18277 |
ประเทศ | ไทย | 17065 |
น. | วันที่ | 12034 |
ผู้สื่อข่าว | รายงาน | 10596 |
อ. | ประยุทธ์ | 8757 |
อ. | เมือง | 8240 |
รัฐมนตรี | ว่าการ | 7500 |
จันทร์ | โอชา | 5683 |
ทีม | ชาติ | 5613 |
ประยุทธ์ | จันทร์ | 5561 |
Sanook
bigram count | ||
---|---|---|
ผู้สื่อข่าว | รายงาน | 1514 |
อ. | เมือง | 1374 |
สภ. | เมือง | 1261 |
ล้าน | บาท | 1223 |
ประเทศ | ไทย | 1042 |
ทราบ | ชื่อ | 1022 |
สอบสวน | สภ. | 1010 |
ประชา | รัฐ | 897 |
พลัง | ประชา | 857 |
เมือง | จ. | 834 |
NHK Thai
bigram count | ||
---|---|---|
สมเด็จ | พระ | 215 |
รัฐบาล | ญี่ปุ่น | 131 |
กรุง | โตเกียว | 127 |
พระ | จักรพรรดิ | 107 |
ญี่ปุ่น | ระบุ | 97 |
โดนัลด์ | ทรัมป์ | 94 |
ประธานาธิบดี | โดนัลด์ | 82 |
พระ | สันตะปาปา | 72 |
ชินโซ | อาเบะ | 70 |
รัฐมนตรี | ต่างประเทศ | 66 |
result of linear regression (log10-log10 plot)
R2 | coefficient k | coefficient b | |
---|---|---|---|
Thairath | 0.959 | 0.769 | 2.183 |
Dailynews | 0.956 | 0.778 | 2.133 |
Matichon | 0.961 | 0.758 | 2.333 |
Sanook | 0.939 | 0.695 | 4.954 |
NHK Thai | 0.882 | 0.759 | 2.152 |
χ2 score of 1000 frequent words
Thairath | Dailynews | Matichon | Sanook | |
---|---|---|---|---|
Thairath | - | 1.24e+6 | 1.05e+06 | 0.56e+06 |
Dailynews | - | - | 0.59e+06 | 0.63e+06 |
Matichon | - | - | - | 0.50e+06 |
Sanook | - | - | - | - |
χ2 score of 10000 frequent words
Thairath | Dailynews | Matichon | Sanook | |
---|---|---|---|---|
Thairath | - | 3.58e+6 | 3.00e+06 | 1.23e+06 |
Dailynews | - | - | 1.98e+06 | 1.48e+06 |
Matichon | - | - | - | 1.16e+06 |
Sanook | - | - | - | - |
cosine similarity of frequency vectors of 7000 dimensions
Thairath | Dailynews | Matichon | Sanook | NHK Thai | |
---|---|---|---|---|---|
Thairath | 1 | 0.982269 | 0.958436 | 0.868301 | 0.486154 |
Dailynews | - | 1 | 0.976292 | 0.865390 | 0.523170 |
Matichon | - | - | 1 | 0.865427 | 0.514641 |
Sanook | - | - | - | 1 | 0.430216 |
NHK Thai | - | - | - | - | 1 |
stop, punct | stop, |
|||
---|---|---|---|---|
Thairath | 11.50 | 11.45 | 12.44 | 12.58 |
Dailynews | 11.34 | 11.24 | 12.52 | 12.52 |
Matichon | 11.31 | 11.21 | 12.49 | 12.48 |
Sanook | 11.00 | 10.92 | 12.17 | 12.16 |
NHK Thai | 9.99 | 9.89 | 10.81 | 10.72 |