From 731b3c702f5e6a20aa72d52320c4c459cd7e16bf Mon Sep 17 00:00:00 2001 From: Shree Date: Thu, 28 Feb 2019 08:49:29 +0000 Subject: [PATCH] Add results of OCR of test image with tessdata_best and tessdata_fast) --- ara.Amiri.exp0-ara-Amiri-layer-best.txt | 31 ++++++++++++++++++++++++ ara.Amiri.exp0-ara-Amiri-layer-fast.txt | 31 ++++++++++++++++++++++++ ara.Amiri.exp0-ara-Amiri-layer.png | Bin 44053 -> 44053 bytes build/tesstrain_layer.sh | 6 +++-- 4 files changed, 66 insertions(+), 2 deletions(-) create mode 100644 ara.Amiri.exp0-ara-Amiri-layer-best.txt create mode 100644 ara.Amiri.exp0-ara-Amiri-layer-fast.txt diff --git a/ara.Amiri.exp0-ara-Amiri-layer-best.txt b/ara.Amiri.exp0-ara-Amiri-layer-best.txt new file mode 100644 index 0000000..82ec038 --- /dev/null +++ b/ara.Amiri.exp0-ara-Amiri-layer-best.txt @@ -0,0 +1,31 @@ +عليه السلام كله (صل الله عليه وعل آله وسلم) + +عليه السلام - صل الله عليه وس ‎١ ٠‏ صل الله عليه وآله - سلام الله عليها - كي +عن لحك وغفر فرحم ( 33 4 | صحيفة الدعوة الإسلامية + +« دبي لي أثري 4 + +وأبوس]؛ ر فعات - الترجمة إلى الفرنسية - أمثلة العربية + +مذكرات طالب ؛ بقلمك أنت ‎١16130‏ الا هوعن + +7 د اميري + +شو ناطرة ؟ + +مشروع الموسوعة الحرة التي يستطيع الجميع تحريرها. توجد الآن 6746154 مقالة بالعربية. +ويكييديا ‎١٠٠...‏ 4لا + +4. وبرغم كونها من الحواضر التي أسست في القرن العشرين» إلا + +تصفح بدون إنترنت تت رقا + +رحم الله امرأ؛ قال خيراً فقيء أو سكت فسلء + +أحب السفر كل صيف» ولكن هذا العام لن 148 أسافر بسبب انشغالي بالدراسة. +4 أبن المدير؟ المدير في المكتب. + +قال المدير: “عندنا ‎١99١‏ اجتماع بعد قليل.” ابن كابوتك» يا ساميرة؟ + +) ٠١٠860 ‏يوسف؛‎ ( + \ No newline at end of file diff --git a/ara.Amiri.exp0-ara-Amiri-layer-fast.txt b/ara.Amiri.exp0-ara-Amiri-layer-fast.txt new file mode 100644 index 0000000..21598b3 --- /dev/null +++ b/ara.Amiri.exp0-ara-Amiri-layer-fast.txt @@ -0,0 +1,31 @@ +عليه السلام يكل (صل الله عليه وعلى آله وسلم) + +عليه السلام - صلى الله عليه وسلم /ا؟ ‎١‏ صل الله عليه وآله - سلام الله عليها - وك +عن لفكم وغفر فرحم ‏ 33 4 | صحيفة الدعوة الإسلامية + +« تسن أثْري » + +وأبوس]؟ ر فعلت - الترجمة إلى الفرفسية - أمثلة العربية + +مذكات طالب ؛ بقليك أنت ‎٠1510‏ الا هو عن + +7 دأآميري + +شو ناطرة ؟ + +مشروع الموسوعة الحرة التي يستطيع الميع تحريرها. توجد الآن 6742154 مقالة بالعربية. +ويكييديا ...0.6.2.2 لآ + +4 وبرغم كونها من الحواضر التي أسست في القرن العشرين» إلا + +ا ل ل + +رحم الله امرأء قال خيراً ففنم» أو سكت فسلم. + +أحب السفر كل صيف» ولكن هذا العام لن 14/4 أسافر بسبب انشغالي بالدراسة. +أن المدير؟ المدير في المكتب. + +قال المدير: “عندنا ‎١991١‏ اجتماع بعد قليل.” اين كابوتك» يا ساميرة؟ + +(يوسف؛ ٠١٠8ه١٠١)‏ + \ No newline at end of file diff --git a/ara.Amiri.exp0-ara-Amiri-layer.png b/ara.Amiri.exp0-ara-Amiri-layer.png index 2ef4f5e8075bb5b15d4f35a9014f9864de3aef04..5881cb2ae78c549686ea6b9f2bfdfd541f9c9ddf 100644 GIT binary patch delta 59 zcmbPwgK6pwrU{8`dhE-qxBl6feq$BCiK&&Tk+y+>m4U$()`SU@{Z=c1#7rz8VrQG$ K|4go5Jq-Y?H5Qcs delta 59 zcmbPwgK6pwrU{8`e5%jqU)Z%V{l+SOLlY}w18oBXD+2@Rg#AvF{Z=c1#Ei@!Vn^ML Kq9)g`o(2G>Jry|s diff --git a/build/tesstrain_layer.sh b/build/tesstrain_layer.sh index 7e1012b..5bef2b2 100644 --- a/build/tesstrain_layer.sh +++ b/build/tesstrain_layer.sh @@ -210,10 +210,12 @@ if [ $RunEval = "yes" ]; then --eval_listfile ~/tesstutorial/aratest/$Lang.training_files.txt tesseract /home/ubuntu/tesstutorial/aratest/ara.Amiri.exp0.tif ../ara.Amiri.exp0-$ModelName --tessdata-dir $trained_output_dir --oem 1 --psm 6 -l $ModelName - + tesseract /home/ubuntu/tesstutorial/aratest/ara.Amiri.exp0.tif ../ara.Amiri.exp0-$ModelName-best --tessdata-dir ~/tessdata_best --oem 1 --psm 6 -l ara + tesseract /home/ubuntu/tesstutorial/aratest/ara.Amiri.exp0.tif ../ara.Amiri.exp0-$ModelName-fast --tessdata-dir ~/tessdata_fast --oem 1 --psm 6 -l ara + wdiff --no-common --statistics ../ara.Amiri.exp0-$ModelName.txt /home/ubuntu/tessdata_arabic/langdata/ara/ara.testdeco.training_text -cp /home/ubuntu/tesstutorial/aratest/ara.Amiri.exp0.tif ../ara.Amiri.exp0-$ModelName.tif +convert /home/ubuntu/tesstutorial/aratest/ara.Amiri.exp0.tif ../ara.Amiri.exp0-$ModelName.png cp /home/ubuntu/tessdata_arabic/langdata/ara/ara.testdeco.training_text ../ara.Amiri.exp0-$ModelName.testdeco.gt.txt tesseract /home/ubuntu/tessdata_arabic/Arabic-TOC.png /home/ubuntu/tessdata_arabic/Arabic-TOC-$ModelName --tessdata-dir ../ --oem 1 --psm 6 -l $ModelName