Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Highlighted text is not extracted #2207

Closed
morandanieli opened this issue Jan 31, 2019 · 2 comments
Closed

Highlighted text is not extracted #2207

morandanieli opened this issue Jan 31, 2019 · 2 comments

Comments

@morandanieli
Copy link

morandanieli commented Jan 31, 2019

Environment
Tesseract Version:
tesseract 4.0.0-245-g7ddc
leptonica-1.74.1
libgif 5.1.4 : libjpeg 6b (libjpeg-turbo 1.5.1) : libpng 1.6.28 : libtiff 4.0.8 : zlib 1.2.8 : libwebp 0.5.2 : libopenjp2 2.1.2
Found AVX2
Found AVX
Found SSE

Platform:
Tried on both of these environments:
Linux instance-2 4.9.0-8-amd64 #1 SMP Debian 4.9.130-2 (2018-10-27) x86_64 GNU/Linux
Darwin h-MBP-sl-mwrn 16.5.0 Darwin Kernel Version 16.5.0: Fri Mar 3 16:52:33 PST 2017; root:xnu-3789.51.2~3/RELEASE_X86_64 x86_64

Current Behavior:
Dark text is not extracted when it has light yellow background color.
When converting the image to black-and-white, text is extracted successfully but quality of image decreases, which in turn causes a low quality text extraction.

tesseract HighlightedText.jpeg out -l heb
tesseract BlackAndWhite.jpeg out -l heb

Images are attached:
BlackAndWhite.jpeg
HighlightedText.jpeg

Expected Behavior:
I expect following text, for example, to be present in the extracted text:

יתקיים ביום ראשון י"ט במרחשון תשע"ט,
28 באוקטובר 2018 בשעה 15:00 בקמפוס המזמין ברח'
מעגל בית המדרש 7, בעת הכרם, ירושלים. מקום
מפגש:ליד עמדת השומר בכניסה הראשית.

@morandanieli morandanieli changed the title Highlighted Text Is Not Extracted Highlighted text is not extracted Jan 31, 2019
@Shreeshrii
Copy link
Collaborator

$ convert 2207.jpg -fill white -fuzz 50% +opaque "#000000"  2207.png

$ tesseract 2207.png  -  -l heb

Warning: Invalid resolution 0 dpi. Using 70 instead.
Estimating resolution as 224
5 תקופת ההתקשרות

.1

.2

תקופת ההתקשרות עם נותן השירותים תחל ביום 1 בינואר 2019 ותימשך 12 חודשים (להלן:
'יתקופת ההתקשרות"). תתכן דחייה במועד בהתאם להתקדמות הליך המכרז.

המזמין יהיה רשאי להאריך את ההתקשרות, לארבע (4) תקופות נוספות של 12 חודשים כל
אחת (להלן: ייתקופות האופציה"י), בהודעה בכתב שתימסר לנותן השירותים לא יאוחר מ-30
יום לפני תום תקופת ההתקשרות או כל אחת מתקופות האופציה, עד לסך הכל חמש (5) שנים,
הכל בהתאם להוראות החוזה המצייב למסמכי המכרז.

  1. למרות האמור לעיל, המזמין יוכל בכל עת להפסיק את ההתקשרות בהודעה של 30 יום מראש,
    ללא הנמקה ובלא פיצוי ולנותן השירותים לא תהא כל טענה ו/או דרישה ו/או תביעה בנוגע
    לכך.
    6 סיווג המכרז

המכרז הינו מכרז פומבי, והוא ינוהל בהתאם לחוק חובת מכרזים, תשייע-2010 ולתקנות חובת
המכרזים (התקשרויות של מוסד להשכלה גבוהה), תשי"יע-2010 (להלן: "יהתקנות'י) החלות על

המזמין.

7 טבלת מועדי המכרו

.1

.32

סיור מציעים יתקיים ביום ראשון יייט במרחשון תשע"ט,

ההשתתפות בסיור היא תנאי סף
להגשת הצעה במכרז זה

שאלות הבהרה עד ליום שני כ'יז במרחשוון תשע'""ט, 5 בנובמבר 2018 עד

מועד אחרון להגשת הצעות למכרז | עד ליום שני ייא בכבסלו תשע'יט, 19 בנובמבר 2018 עד

תאריך תוקף ערבות ההצעה עד ליום ייד באדר א' תשע'""ט, 19 בפברואר 2019

8 באוקטובר 2018 בשעה 15:00 בקמפוס המזמין ברח
מעגל בית המדרש 7, בעת הכרם, ירושלים. מקום
מפגש:ליד עמדת השומר בכניסה הראשית.

השעה 16:00.

השעה 16:00.

במקרה של סתירה בין התאריכים המופיעים בסעיף זה לבין תאריכים אחרים המופיעים
במסמכי המכרז קובעים התאריכים המופיעים בסעיף זה.

המזמין שומר לעצמו את הזכות לדחות את המועדים שלעיל לפי שיקול דעתו, ובכלל זה לדחות
את המועד האחרון להגשת ההצעות, כל עוד לא חלף מועד זה. במידה ותתקבל החלטה כזו,
היא תופ\ בכתב לכל המשתתפים במכרז.

8 תנאי סף

רשאי להגיש הצעה מציע שימלא אחר כל תנאי הסף שלהלן, באופן מצטבר:

חתימה + חותמת:
$

@Shreeshrii
Copy link
Collaborator

@zdenop This is same as issue Tesseract thresholding eliminates text on bright background colors #1990.

Please mark as duplicate and close.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

4 participants