Hier möchte ich kurz auf aufgetauchte Fragen eingehen.
Frage: Wieso wird keine Wortstammreduzierung vorgenommen? Antwort: Aus mehrerern Gründen:
Steht im ProTerm Projekt die Performance im Vordergrund. Die
Wortstammreduzierung ist sehr rechenintensiv. Wir haben uns bewusst
dagegen entschieden. Es bewegen uns in einem Bereich, in dem wir
mehrere tausend bis millionen Dokumente analysieren. Da summieren sich
die "verlorenen" Sekunden rasch auf. Vor allem verliert man diese
Sekunden bei jedem Einlesevorgang. In unserem Fall muss ma ein
auftretendes Wort lediglich einmal als "Soppwort" definieren. Wird die
Wortstammreduzierung dennoch vom Kunden verlangt, können wir sie gerne
einbauen, die Technologie an sich dürfen wir verwenden.
Sind unsere Ressourcen beschränkt. Es sind zur Zeit 3 Personen an
der Entwicklung beteiligt, von denen lediglich 2 Codieren. Wir haben
den Fokus auf die im Bundesheer verlangte Technologie gelekt und haben
zufriedenstellende Ergebnisse im Bereich der Genauigkeit und
hervorragende im Bereich der Geschwindigkeit erreicht. Man bedenke,
dass bei unseren Referenzdokumente die Analysezeit von ca 20 Minuten
auf rund 1 Minute reduziert wurde.
Frage: Was heißt "Wortstammreduzierung" eigentlich? Antwort: Das heißt, dass Begriffe erkannt werden und auf ihren Wortstamm reduziert werden. Beispiel: "ging" wird durch "gehen" ersetzt. "Männer" wird durch "Mann" ersetzt.
Metainfo:
Author: Markus Gruber; Published by: Markus Gruber (MarkusGruber) factID: 275673.1; published on 14 Dec. 2006 19:04