Velingua – Terminologieextraktion

Terminologieextraktion in Deutsch und Englisch

 Die Terminologieextraktion berücksichtigt eine bestehende Terminologie sofern diese in einem der Formate UniTerm Pro, UniTerm Enterprise oder TBX vorliegt.

Als Textkorpora werden diese Formate unterstützt:

  • Text (Ansi oder Unicode)
  • XLIFF
  • PDF
  • XML
  • HTML

Die Ausgabe der Kandidaten erfolgt als Liste in einer CSV-Datei. Wahlweise kann die KWIC-Information mit erzeugt werden.

Die Velingua Terminologieextraktion kann als Kommandozeilen-Werkzeug in andere Umgebungen integriert werden. Die Liste der Terminkandidaten kann dann bereinigt und über CSV-Import in jede ­Terminologiedatenbank importiert werden.

Die Basismethoden für die Extraktion sind:

  • große relative Häufigkeit von Grundformen (mit Lemmatisierung)
  • Morphemanalyse (Auswertung häufiger Morpheme)
  • N-Gramm-Analyse (relativ häufig Zeichensequenzen – rein statistisches Verfahren)
  • Mehrworterkennung über Wortklassenmuster (z.B. Adjektiv-Substantiv-Sequenzen im Deutschen)

Die Terminologieextraktion ist hochgradig konfigurierbar mit

  • Schwellwerten für Mindestanzahl an Vorkommen
  • Steuerung der Ergebnismenge in Abhängigkeit von der Größe des Textkorpus
  • prozentualem Anteil der vier Basismethoden
  • Wortarten der Kandidaten
  • Wortklassenmuster für die Mehrworterkennung
  • Spalten der Ergebnisdatei

Im Velingua Organizer kann die Terminologieextraktion komfortable konfiguriert werden. Dort können auch interaktiv die Terminologie-Kandidaten in die Terminologiedatenbank übernommen werden. Dabei ist eine Klassifizierung als Vorzugsbenennung, erlaubte Benennung, verbotene Benennung oder Stoppwort möglich.