all of this can be the a pipeline in the transporter transfer mongo --> listening es the use terms aggs (but it makes more storage used)
keep chunk key to mongo and uses its atomic operation to decide that kinda job is done or not, { _id:"",total,batches : { 1 : ts , 2 :ts }} ,read then writes, if fail, them try until it is full of batch. the last full filled batch no will responsible to trigger other worker pool routines to make summary and make a result of 200 words and post its result to alert-graph api ??
- char filter remove @ # <> emoji ๆ ! -->''
เราคิดว่าประเทศไทยเนี่ย ดีที่สุดเลยนะ 5555 ไปๆๆๆๆ ไปเที่ยวไทยกัน #thai 555
2.1 phrase splitter (\n \s+ )
2.2) phrase selection (thai) desire sentence set ( all, expression set,noun by dict ) == ahocorasik , link rejection , reject alone stopword ดีที่สุด ( ดี แย่ น่ารัก ห่วย กาก other words that express feeling of people)
-
tokenization (by space or by lib (tha jpn) ) เรา คิด ว่า ประเทศ ไทย เนี่ย ดี ที่สุด เลย นะ 5555 ไป ไปเที่ยวไทยกัน
-
stemming presentation --> present ๒-->2 ร้าก-->รัก ฉัน-->ชั้น
-
token filter remove repeating pattern ฮือ (ออออ) (5555)
-
detokenization nGram เราคิด เราคิดว่า
desire grams set ( all, expression set, ) == ahocorasik