Terminologieextraktion in Deutsch und Englisch
Die Terminologieextraktion berücksichtigt eine bestehende Terminologie sofern diese in einem der Formate UniTerm Pro, UniTerm Enterprise oder TBX vorliegt.
Als Textkorpora werden diese Formate unterstützt:
- Text (Ansi oder Unicode)
- XLIFF
- XML
- HTML
Die Ausgabe der Kandidaten erfolgt als Liste in einer CSV-Datei. Wahlweise kann die KWIC-Information mit erzeugt werden.
Die Velingua Terminologieextraktion kann als Kommandozeilen-Werkzeug in andere Umgebungen integriert werden. Die Liste der Terminkandidaten kann dann bereinigt und über CSV-Import in jede Terminologiedatenbank importiert werden.
Die Basismethoden für die Extraktion sind:
- große relative Häufigkeit von Grundformen (mit Lemmatisierung)
- Morphemanalyse (Auswertung häufiger Morpheme)
- N-Gramm-Analyse (relativ häufig Zeichensequenzen – rein statistisches Verfahren)
- Mehrworterkennung über Wortklassenmuster (z.B. Adjektiv-Substantiv-Sequenzen im Deutschen)
Die Terminologieextraktion ist hochgradig konfigurierbar mit
- Schwellwerten für Mindestanzahl an Vorkommen
- Steuerung der Ergebnismenge in Abhängigkeit von der Größe des Textkorpus
- prozentualem Anteil der vier Basismethoden
- Wortarten der Kandidaten
- Wortklassenmuster für die Mehrworterkennung
- Spalten der Ergebnisdatei
Im Velingua Organizer kann die Terminologieextraktion komfortable konfiguriert werden. Dort können auch interaktiv die Terminologie-Kandidaten in die Terminologiedatenbank übernommen werden. Dabei ist eine Klassifizierung als Vorzugsbenennung, erlaubte Benennung, verbotene Benennung oder Stoppwort möglich.