AndBible · JJK96 · Jun 6, 2024 · Oct 30, 2023 · Nov 13, 2023 · Jan 8, 2024
diff --git a/.gitignore b/.gitignore
@@ -15,3 +15,5 @@ rebel.xml
 /.gradle/
 /build/
 atlassian-ide-plugin.xml
+.DS_Store
+local.properties
diff --git a/build.gradle.kts b/build.gradle.kts
@@ -16,7 +16,7 @@ tasks.withType<Test>() {
 }
 
 group = "org.crosswire"
-version = "2.3"
+version = "2.4"
 
 repositories {
     mavenCentral()
@@ -25,11 +25,13 @@ repositories {
 dependencies {
 //    implementation("org.jetbrains.kotlin:kotlin-stdlib")
     implementation("org.apache.commons:commons-compress:1.12")
-    implementation("com.chenlb.mmseg4j:mmseg4j-analysis:1.8.6")
-    implementation("com.chenlb.mmseg4j:mmseg4j-dic:1.8.6")
 
     implementation("org.jdom:jdom2:2.0.6.1")
-    implementation("org.apache.lucene:lucene-analyzers:3.6.2")
+    implementation("org.apache.lucene:lucene-analyzers-common:8.11.2")
+    implementation("org.apache.lucene:lucene-analyzers-smartcn:8.11.2")
+    implementation("org.apache.lucene:lucene-analyzers-kuromoji:8.11.2")
+    implementation("org.apache.lucene:lucene-queryparser:8.11.2")
+
     // To upgrade Lucene, change to
     // implementation("org.apache.lucene:lucene-analyzers-common:x")
 

diff --git a/...lucene/analysis/AbstractBookAnalyzer.java → ...lucene/analysis/AbstractBookAnalyzer.java b/...lucene/analysis/AbstractBookAnalyzer.java → ...lucene/analysis/AbstractBookAnalyzer.java
@@ -17,7 +17,7 @@
  * © CrossWire Bible Society, 2007 - 2016
  *
  */
-package org.crosswire.jsword.index.lucene.analysis;
+package org.apache.lucene.analysis;
 
 import java.util.Set;
 

diff --git a/...ene/analysis/AbstractBookTokenFilter.java → ...ene/analysis/AbstractBookTokenFilter.java b/...ene/analysis/AbstractBookTokenFilter.java → ...ene/analysis/AbstractBookTokenFilter.java
@@ -17,7 +17,7 @@
  * © CrossWire Bible Society, 2008 - 2016
  *
  */
-package org.crosswire.jsword.index.lucene.analysis;
+package org.apache.lucene.analysis;
 
 import org.apache.lucene.analysis.TokenFilter;
 import org.apache.lucene.analysis.TokenStream;

diff --git a/...ndex/lucene/analysis/AnalyzerFactory.java → ...ache/lucene/analysis/AnalyzerFactory.java b/...ndex/lucene/analysis/AnalyzerFactory.java → ...ache/lucene/analysis/AnalyzerFactory.java
@@ -17,7 +17,7 @@
  * © CrossWire Bible Society, 2007 - 2016
  *
  */
-package org.crosswire.jsword.index.lucene.analysis;
+package org.apache.lucene.analysis;
 
 import java.io.IOException;
 

diff --git a/...lucene/analysis/ArabicLuceneAnalyzer.java → ...lucene/analysis/ArabicLuceneAnalyzer.java b/...lucene/analysis/ArabicLuceneAnalyzer.java → ...lucene/analysis/ArabicLuceneAnalyzer.java
@@ -17,7 +17,7 @@
  * © CrossWire Bible Society, 2009 - 2016
  *
  */
-package org.crosswire.jsword.index.lucene.analysis;
+package org.apache.lucene.analysis;
 
 import java.io.IOException;
 import java.io.Reader;
@@ -26,14 +26,14 @@
 import org.apache.lucene.analysis.StopFilter;
 import org.apache.lucene.analysis.TokenStream;
 import org.apache.lucene.analysis.ar.ArabicAnalyzer;
-import org.apache.lucene.analysis.ar.ArabicLetterTokenizer;
 import org.apache.lucene.analysis.ar.ArabicNormalizationFilter;
 import org.apache.lucene.analysis.ar.ArabicStemFilter;
+import org.apache.lucene.analysis.standard.StandardTokenizer;
 import org.apache.lucene.util.Version;
 
 /**
  * An Analyzer whose {@link TokenStream} is built from a
- * {@link ArabicLetterTokenizer} filtered with {@link LowerCaseFilter},
+ * {@link StandardTokenizer} filtered with {@link LowerCaseFilter},
  * {@link ArabicNormalizationFilter}, {@link ArabicStemFilter} (optional) and
  * Arabic {@link StopFilter} (optional).
  * 
@@ -45,50 +45,20 @@ public ArabicLuceneAnalyzer() {
         stopSet = ArabicAnalyzer.getDefaultStopSet();
     }
 
-    /* (non-Javadoc)
-     * @see org.apache.lucene.analysis.Analyzer#tokenStream(java.lang.String, java.io.Reader)
-     */
     @Override
-    public final TokenStream tokenStream(String fieldName, Reader reader) {
-        TokenStream result = new ArabicLetterTokenizer(reader);
-        result = new LowerCaseFilter(result);
+    protected TokenStreamComponents createComponents(String fieldName) {
+        Tokenizer source = new StandardTokenizer();
+        TokenStream result = new LowerCaseFilter(source);
         result = new ArabicNormalizationFilter(result);
         if (doStopWords && stopSet != null) {
-            result = new StopFilter(false, result, stopSet);
+            result = new StopFilter(result, (CharArraySet) stopSet);
         }
 
         if (doStemming) {
             result = new ArabicStemFilter(result);
         }
 
-        return result;
+        return new TokenStreamComponents(source, result);
     }
 
-    /* (non-Javadoc)
-     * @see org.apache.lucene.analysis.Analyzer#reusableTokenStream(java.lang.String, java.io.Reader)
-     */
-    @Override
-    public TokenStream reusableTokenStream(String fieldName, Reader reader) throws IOException {
-        SavedStreams streams = (SavedStreams) getPreviousTokenStream();
-        if (streams == null) {
-            streams = new SavedStreams(new ArabicLetterTokenizer(reader));
-            streams.setResult(new LowerCaseFilter(streams.getResult()));
-            streams.setResult(new ArabicNormalizationFilter(streams.getResult()));
-
-            if (doStopWords && stopSet != null) {
-                streams.setResult(new StopFilter(StopFilter.getEnablePositionIncrementsVersionDefault(matchVersion), streams.getResult(), stopSet));
-            }
-
-            if (doStemming) {
-                streams.setResult(new ArabicStemFilter(streams.getResult()));
-            }
-
-            setPreviousTokenStream(streams);
-        } else {
-            streams.getSource().reset(reader);
-        }
-        return streams.getResult();
-    }
-
-    private final Version matchVersion = Version.LUCENE_29;
 }
diff --git a/...nalysis/ConfigurableSnowballAnalyzer.java → ...nalysis/ConfigurableSnowballAnalyzer.java b/...nalysis/ConfigurableSnowballAnalyzer.java → ...nalysis/ConfigurableSnowballAnalyzer.java
@@ -17,28 +17,23 @@
  * © CrossWire Bible Society, 2007 - 2016
  *
  */
-package org.crosswire.jsword.index.lucene.analysis;
+package org.apache.lucene.analysis;
 
-import java.io.IOException;
-import java.io.Reader;
 import java.util.HashMap;
 import java.util.Map;
 import java.util.Set;
 
-import org.apache.lucene.analysis.LowerCaseTokenizer;
-import org.apache.lucene.analysis.StopAnalyzer;
-import org.apache.lucene.analysis.StopFilter;
-import org.apache.lucene.analysis.TokenStream;
+import org.apache.lucene.analysis.core.LetterTokenizer;
 import org.apache.lucene.analysis.de.GermanAnalyzer;
+import org.apache.lucene.analysis.en.EnglishAnalyzer;
 import org.apache.lucene.analysis.fr.FrenchAnalyzer;
 import org.apache.lucene.analysis.nl.DutchAnalyzer;
 import org.apache.lucene.analysis.snowball.SnowballFilter;
-import org.apache.lucene.util.Version;
 import org.crosswire.jsword.book.Book;
 
 /**
  * An Analyzer whose {@link TokenStream} is built from a
- * {@link LowerCaseTokenizer} filtered with {@link SnowballFilter} (optional)
+ * {@link LetterTokenizer} filtered with {@link SnowballFilter} and {@link org.apache.lucene.analysis.LowerCaseFilter}(optional)
  * and {@link StopFilter} (optional) Default behavior: Stemming is done, Stop
  * words not removed A snowball stemmer is configured according to the language
  * of the Book. Currently it takes following stemmer names (available stemmers
@@ -73,46 +68,20 @@ final public class ConfigurableSnowballAnalyzer extends AbstractBookAnalyzer {
     public ConfigurableSnowballAnalyzer() {
     }
 
-    /**
-     * Filters {@link LowerCaseTokenizer} with {@link StopFilter} if enabled and
-     * {@link SnowballFilter}.
-     */
     @Override
-    public final TokenStream tokenStream(String fieldName, Reader reader) {
-        TokenStream result = new LowerCaseTokenizer(reader);
+    protected TokenStreamComponents createComponents(String fieldName) {
+        Tokenizer source = new LetterTokenizer();
+        TokenStream result = new LowerCaseFilter(source);
         if (doStopWords && stopSet != null) {
-            result = new StopFilter(false, result, stopSet);
+            result = new StopFilter(result, (CharArraySet) stopSet);
         }
 
         // Configure Snowball filter based on language/stemmerName
         if (doStemming) {
             result = new SnowballFilter(result, stemmerName);
         }
 
-        return result;
-    }
-
-    /* (non-Javadoc)
-     * @see org.apache.lucene.analysis.Analyzer#reusableTokenStream(java.lang.String, java.io.Reader)
-     */
-    @Override
-    public TokenStream reusableTokenStream(String fieldName, Reader reader) throws IOException {
-        SavedStreams streams = (SavedStreams) getPreviousTokenStream();
-        if (streams == null) {
-            streams = new SavedStreams(new LowerCaseTokenizer(reader));
-            if (doStopWords && stopSet != null) {
-                streams.setResult(new StopFilter(StopFilter.getEnablePositionIncrementsVersionDefault(matchVersion), streams.getResult(), stopSet));
-            }
-
-            if (doStemming) {
-                streams.setResult(new SnowballFilter(streams.getResult(), stemmerName));
-            }
-
-            setPreviousTokenStream(streams);
-        } else {
-            streams.getSource().reset(reader);
-        }
-        return streams.getResult();
+        return new TokenStreamComponents(source, result);
     }
 
     @Override
@@ -173,8 +142,7 @@ public void pickStemmer(String languageCode) {
         defaultStopWordMap.put("fr", FrenchAnalyzer.getDefaultStopSet());
         defaultStopWordMap.put("de", GermanAnalyzer.getDefaultStopSet());
         defaultStopWordMap.put("nl", DutchAnalyzer.getDefaultStopSet());
-        defaultStopWordMap.put("en", StopAnalyzer.ENGLISH_STOP_WORDS_SET);
+        defaultStopWordMap.put("en", EnglishAnalyzer.ENGLISH_STOP_WORDS_SET);
     }
 
-    private final Version matchVersion = Version.LUCENE_29;
 }
diff --git a/src/main/java/org/apache/lucene/analysis/CzechLuceneAnalyzer.java b/src/main/java/org/apache/lucene/analysis/CzechLuceneAnalyzer.java
@@ -0,0 +1,48 @@
+/**
+ * Distribution License:
+ * JSword is free software; you can redistribute it and/or modify it under
+ * the terms of the GNU Lesser General Public License, version 2.1 or later
+ * as published by the Free Software Foundation. This program is distributed
+ * in the hope that it will be useful, but WITHOUT ANY WARRANTY; without even
+ * the implied warranty of MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.
+ * See the GNU Lesser General Public License for more details.
+ *
+ * The License is available on the internet at:
+ *      http://www.gnu.org/copyleft/lgpl.html
+ * or by writing to:
+ *      Free Software Foundation, Inc.
+ *      59 Temple Place - Suite 330
+ *      Boston, MA 02111-1307, USA
+ *
+ * © CrossWire Bible Society, 2007 - 2016
+ *
+ */
+package org.apache.lucene.analysis;
+
+import org.apache.lucene.analysis.core.LetterTokenizer;
+import org.apache.lucene.analysis.cz.CzechAnalyzer;
+
+/**
+ * An Analyzer whose {@link TokenStream} is built from a
+ * {@link LetterTokenizer} filtered with {@link LowerCaseFilter and @link StopFilter} (optional).
+ * Stemming not implemented yet
+ * 
+ * @see gnu.lgpl.License The GNU Lesser General Public License for details.
+ * @author Sijo Cherian
+ * @author DM SMITH
+ */
+final public class CzechLuceneAnalyzer extends AbstractBookAnalyzer {
+    public CzechLuceneAnalyzer() {
+        stopSet = CzechAnalyzer.getDefaultStopSet();
+    }
+
+    @Override
+    protected TokenStreamComponents createComponents(String fieldName) {
+        Tokenizer source = new LetterTokenizer();
+        TokenStream result = new LowerCaseFilter(source);
+        if (doStopWords && stopSet != null) {
+            result = new StopFilter(result, (CharArraySet) stopSet);
+        }
+        return new TokenStreamComponents(source, result);
+    }
+}
diff --git a/src/main/java/org/apache/lucene/analysis/EnglishLuceneAnalyzer.java b/src/main/java/org/apache/lucene/analysis/EnglishLuceneAnalyzer.java
@@ -0,0 +1,63 @@
+/**
+ * Distribution License:
+ * JSword is free software; you can redistribute it and/or modify it under
+ * the terms of the GNU Lesser General Public License, version 2.1 or later
+ * as published by the Free Software Foundation. This program is distributed
+ * in the hope that it will be useful, but WITHOUT ANY WARRANTY; without even
+ * the implied warranty of MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.
+ * See the GNU Lesser General Public License for more details.
+ *
+ * The License is available on the internet at:
+ *      http://www.gnu.org/copyleft/lgpl.html
+ * or by writing to:
+ *      Free Software Foundation, Inc.
+ *      59 Temple Place - Suite 330
+ *      Boston, MA 02111-1307, USA
+ *
+ * © CrossWire Bible Society, 2007 - 2016
+ *
+ */
+package org.apache.lucene.analysis;
+
+import org.apache.lucene.analysis.core.LetterTokenizer;
+import org.apache.lucene.analysis.en.EnglishAnalyzer;
+import org.apache.lucene.analysis.en.PorterStemFilter;
+
+/**
+ * English Analyzer works like lucene SimpleAnalyzer + Stemming.
+ * (LowerCaseTokenizer &gt; PorterStemFilter). Like the AbstractAnalyzer,
+ * {@link StopFilter} is off by default.
+ * 
+ * 
+ * @see gnu.lgpl.License The GNU Lesser General Public License for details.
+ * @author sijo cherian
+ */
+final public class EnglishLuceneAnalyzer extends AbstractBookAnalyzer {
+
+    public EnglishLuceneAnalyzer() {
+        stopSet = EnglishAnalyzer.ENGLISH_STOP_WORDS_SET;
+    }
+
+
+    /**
+     * Constructs a {@link LetterTokenizer} with {@link LowerCaseFilter} filtered by a language filter
+     * {@link StopFilter} and {@link PorterStemFilter} for English.
+     */
+    @Override
+    protected TokenStreamComponents createComponents(String fieldName) {
+        Tokenizer source = new LetterTokenizer();
+        TokenStream result = new LowerCaseFilter(source);
+
+        if (doStopWords && stopSet != null) {
+            result = new StopFilter(result, (CharArraySet) stopSet);
+        }
+
+        // Using Porter Stemmer
+        if (doStemming) {
+            result = new PorterStemFilter(result);
+        }
+
+        return new TokenStreamComponents(source, result);
+    }
+
+}