tesseract-ocr · zdenop · Feb 21, 2018 · Jan 13, 2016
diff --git a/lat/desired_characters b/lat/desired_characters
diff --git a/lat/lat.config b/lat/lat.config
@@ -0,0 +1,25 @@
+# Tesseract Latin training - http://ryanfb.github.io/latinocr/
+# Build from the https://github.com/ryanfb/latinocr-lat/ repository
+# commit: b6885bca0fa755fbed2bbb36d3f5cebf866a15e0
+
+# New segsearch produces better results
+enable_new_segsearch	1
+
+# Increase penalty for incorrect punctuation, important as
+# diacritics can easily be misrecognised as punctuation
+language_model_penalty_punc 0.35
+
+# Increase minimum linesize. This minimises cases of accents
+# being incorrectly recognised as separate lines.
+textord_min_linesize 2.25
+
+# Also helps to ensure that accents aren't incorrectly recognised
+# as separate lines
+textord_occupancy_threshold 0.7
+
+# Helps to ensure rows don't overlap
+textord_excess_blobsize 0.6
+
+# Disable rare, variant, macron characters
+# (can be enabled with tessedit_char_unblacklist)
+tessedit_char_blacklist ĀāĒēĪīŌōŪū