Skip to content

Commit

Permalink
use snowball stemmer stop words for some languages (#102)
Browse files Browse the repository at this point in the history
some words were too general
adds a README to host BSD license + steps to generate file from source
lint he + zh
  • Loading branch information
saroh authored Sep 2, 2022
1 parent 95280de commit 23a1df8
Show file tree
Hide file tree
Showing 8 changed files with 920 additions and 725 deletions.
29 changes: 29 additions & 0 deletions lnx-engine/search-index/datasets/stop_words/README.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,29 @@
# About
The following files have been sourced from https://github.com/snowballstem/snowball-website/tree/master/algorithms and are subject to the licence enclose herein.
* de.txt
* es.txt
* fr.txt
* it.txt
* ru.txt

# Conversion
Example for German:
```bash
curl https://raw.githubusercontent.com/snowballstem/snowball-website/master/algorithms/german/stop.txt | sed 's/^\([^ ]*\).*/\1/g' | grep -v '^$' | head -c -1 | sort > de.txt
```


# License
Copyright (c) 2001, Dr Martin Porter,
Copyright (c) 2002, Richard Boulton.
All rights reserved.

Redistribution and use in source and binary forms, with or without modification, are permitted provided that the following conditions are met:

1. Redistributions of source code must retain the above copyright notice, this list of conditions and the following disclaimer.

2. Redistributions in binary form must reproduce the above copyright notice, this list of conditions and the following disclaimer in the documentation and/or other materials provided with the distribution.

3. Neither the name of the copyright holder nor the names of its contributors may be used to endorse or promote products derived from this software without specific prior written permission.

THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT HOLDER OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
174 changes: 139 additions & 35 deletions lnx-engine/search-index/datasets/stop_words/de.txt
Original file line number Diff line number Diff line change
@@ -1,7 +1,23 @@
aber
alle
allem
allen
aller
alles
als
also
am
an
ander
andere
anderem
anderen
anderer
anderes
anderm
andern
anderr
anders
auch
auf
aus
Expand All @@ -10,24 +26,41 @@ bin
bis
bist
da
dadurch
daher
darum
damit
dann
das
dasselbe
dazu
daß
dass
dein
deine
deinem
deinen
deiner
deines
dem
demselben
den
denn
denselben
der
derer
derselbe
derselben
des
desselben
dessen
deshalb
dich
die
dies
diese
dieselbe
dieselben
diesem
diesen
dieser
dieses
dir
doch
dort
du
Expand All @@ -38,90 +71,161 @@ einem
einen
einer
eines
einig
einige
einigem
einigen
einiger
einiges
einmal
er
es
etwas
euch
euer
eure
eurem
euren
eurer
eures
für
gegen
gewesen
hab
habe
haben
hat
hatte
hatten
hattest
hattet
hier hinter
hier
hin
hinter
ich
ihm
ihn
ihnen
ihr
ihre
ihrem
ihren
ihrer
ihres
im
in
indem
ins
ist
ja
jede
jedem
jeden
jeder
jedes
jene
jenem
jenen
jener
jenes
jetzt
kann
kannst
kein
keine
keinem
keinen
keiner
keines
können
könnt
könnte
machen
man
manche
manchem
manchen
mancher
manches
mein
meine
meinem
meinen
meiner
meines
mich
mir
mit
muß
mußt
musst
müssen
müßt
muss
musste
nach
nachdem
nein
nicht
nichts
noch
nun
nur
ob
oder
seid
ohne
sehr
sein
seine
seinem
seinen
seiner
seines
selbst
sich
sie
sind
so
solche
solchem
solchen
solcher
solches
soll
sollen
sollst
sollt
sollte
sondern
sonst
soweit
sowie
um
und
unser unsere
uns
unse
unsem
unsen
unser
unses
unter
viel
vom
von
vor
wann
warum
war
waren
warst
was
weg
weil
weiter
weitere
welche
welchem
welchen
welcher
welches
wenn
wer
werde
werden
werdet
weshalb
wie
wieder
wieso
will
wir
wird
wirst
wo
woher
wohin
wollen
wollte
während
würde
würden
zu
zum
zur
über
zwar
zwischen
über
Loading

0 comments on commit 23a1df8

Please sign in to comment.