[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: Kurzschrift Rueckuebersetzung
- Subject: Re: Kurzschrift Rueckuebersetzung
- From: Eberhard Hahn <eberhard.hahn_bEi_zdv.uni-tuebingen.de>
- Date: Wed, 10 Jun 1998 09:24:54 +0200 (MESZ)
Hallo Gerhard und der Rest der Welt!
Mit einiger Spannung habe ich Dein Kurzschriftrueckuebersetzungsprogramm
von Hasans Homepage geholt (hier auch ein Dank an Hasan fuer die
Download-Moeglichkeit!). Nachdem der "lwiederermacher" ja schon durch die
Lande geistert, habe ich mich gefragt, wie denn unser guter alter
Schiller mit Vornamen heisst. Antwort: "fragwiederrich" ...
Natuerlich, spotten laesst sich leicht. Ich will's aber nicht dabei
belassen, sondern einige Ueberlegungen zum Problem liefern. Es scheint
so, als komme man mit syntaktischer Analyse des Kurzschrifttextes nicht
sehr weit, wenn sich auch Dinge wie "lwiederermacher" oder "gstand" auf
dieser Ebene noch leicht abfangen liessen. Schwieriger wird es schon bei
"ludwenig" oder eben "fragwiederrich". Dem Programm ein echtes
Sprachverstaendnis beizubringen, ist sicher der Aufgabenstellung nicht
angemessen. Andererseits wird man, wenn das Ding etwas taugen soll, um
eine gigantische Ausnahmenliste nicht herumkommen. Nur: Wer erstellt die?
Hier ein Vorschlag zur Guete: Die Kurzschriftuebersetzer sind ja
inzwischen recht gut ausgereift. Man nehme also beliebig viele Texte, die
ja in ASCII zur Genuege vorhanden sind, uebersetze sie per Programm in
Kurzschrift, konvertiere sie nach ASCII zurueck und vergleiche die
Ergebnisse mit den Originalen. Sodann nehme man jedes differierende
Woerterpaar in die Ausnahmeliste auf, und siehe da, beim naechsten
Versuch muessten diese Texte richtig zurueckverwandelt werden. Im Prinzip
waere das ein Verfahren, das vollautomatisch ablaufen koennte. Die Arbeit
bestuende nur darin, genuegend viele Texte zum Trainieren des Programms
zusammenzusuchen. Die Frage waere dann noch: Wie organisiert man eine -
wie zu erwarten - riesengrosse Ausnahmenliste? Dieses Problem ist nicht
neu, es stellt sich beispielsweise auch fuer
Rechtschreibpruefungsprogramme. Deshalb haben sich auch schon viele
gescheite Leute geeignete Algorithmen ausgedacht. Ich verwende z.B. fuer
umfangreiche dynamische Datenstrukturen gern die huebschen AVL-Baeume. Zu
Borlands C++-Compiler (und wahrscheinlich auch zu anderen) gibt es
ausgezeichnete Hilfsmittel, um solche Datenstrukturen und Algorithmen zu
organisieren. Das Problem der Datenspeicherung muss allerdings
sorgfaeltig bedacht werden, aber auch hier muss man das Rad nicht
nochmals erfinden, denn im Zusammenhang mit Datenbanken hat sich die
Menschheit dazu auch schon sehr viel einfallen lassen.
Leider kann ich hier nur Wege aufzeigen, die vielleicht gangbar sind.
Zeit und Arbeitskraft kann ich beim besten Willen nicht auch noch in
dieses Problem investieren. Aber vielleicht koennen diese Ueberlegungen
wenigstens ein bisschen hilfreich sein.
Viele Gruesse
Eberhard