Velingua – Terminologieextraktion

Terminologieextraktion in Deutsch und Englisch

Die Terminologieextraktion berücksichtigt eine bestehende Terminologie sofern diese in einem der Formate UniTerm Pro, UniTerm Enterprise oder TBX vorliegt.

Als Textkorpora werden diese Formate unterstützt:

Text (Ansi oder Unicode)
XLIFF
PDF
XML
HTML

Die Ausgabe der Kandidaten erfolgt als Liste in einer CSV-Datei. Wahlweise kann die KWIC-Information mit erzeugt werden.

Die Velingua Terminologieextraktion kann als Kommandozeilen-Werkzeug in andere Umgebungen integriert werden. Die Liste der Terminkandidaten kann dann bereinigt und über CSV-Import in jede Terminologiedatenbank importiert werden.

Die Basismethoden für die Extraktion sind:

große relative Häufigkeit von Grundformen (mit Lemmatisierung)
Morphemanalyse (Auswertung häufiger Morpheme)
N-Gramm-Analyse (relativ häufig Zeichensequenzen – rein statistisches Verfahren)
Mehrworterkennung über Wortklassenmuster (z.B. Adjektiv-Substantiv-Sequenzen im Deutschen)

Die Terminologieextraktion ist hochgradig konfigurierbar mit

Schwellwerten für Mindestanzahl an Vorkommen
Steuerung der Ergebnismenge in Abhängigkeit von der Größe des Textkorpus
prozentualem Anteil der vier Basismethoden
Wortarten der Kandidaten
Wortklassenmuster für die Mehrworterkennung
Spalten der Ergebnisdatei

Im Velingua Organizer kann die Terminologieextraktion komfortable konfiguriert werden. Dort können auch interaktiv die Terminologie-Kandidaten in die Terminologiedatenbank übernommen werden. Dabei ist eine Klassifizierung als Vorzugsbenennung, erlaubte Benennung, verbotene Benennung oder Stoppwort möglich.

Warenkorb

Velingua – Terminologieextraktion

Kontakt

Acolada GmbH

Zusätzliche Hinweise