Die vollständige Arbeit ist als gzip-gepackte Postscript-Datei (214 KB) oder als PDF-Datei (612 KB) erhältlich.
Als HTML gibts hier nur die Einleitung und Zusammenfassung:
Die unerreichte Leistungsfähigkeit des Gehirns im Bereich der Mustererkennung wird deutlich, wenn Muster ohne menschliche Mitwirkung erkannt werden sollen. Erst nach jahrelanger Forschung sind Computerprogramme entwickelt worden, die au f Teilgebiete der Mustererkennung wie Schrift- und Spracherkennung oder Identifizierung von Gesichtern spezialisiert sind. Zwei verschiedene Ansätze sin d hierbei von Bedeutung: Zum einen können die Muster statistischen Betrachtungen unterzogen werden, wonach eine von Experten programmierte Entscheidungslogik die eigentliche Klassifizierung vornimmt. Zum anderen wird versucht, den besten bekannten Klassifizierer - das Gehirn - zu simulieren und somit lernfähige Syste me zu erhalten, die ohne explizite Eingabe von Expertenwissen in der Lage sind, Mustererkennung durchzuführen.
Die Einsatzmöglichkeiten für computergestützte Mustererkennungssysteme sind vielfältig. Sie können den Menschen ersetzen, wie in autonom fahrenden Fahrzeugen, oder entlasten, beispielsweise in der Qualitätskontrolle, wenn ein Klassifizierungssystem Produkte untersucht, bewertet und nur die Zweifelsfälle dem menschlichen Experten überläßt.
In der Chemie kann die Mustererkennung überall da eingesetzt werden, wo Entscheidungen auf der Basis komplexer Meßdaten getroffen werden müssen. Ist diese Probe im normalen Rahmen oder muß sie näher untersucht werden? Auf welche funktionalen Gruppen deutet dieser Bereich des Spektrums hin? Bei der Analyse von Bodenproben können leicht bis zu 1000 Einzelbestandteile erfaßt werden. Um eine Reihe von Proben miteinander zu vergleichen, ist der Einsatz von chemometrischen Methoden unerläßlich [2].
Moderne Analysenmethoden wie die GC/MS-Kopplung produzieren schnell schwer überschaubare Datenmengen. Automatische Mustererkennung und Klassifizierung können in einigen Teilbereichen schneller und verläßlicher als der Mensch arbeiten - sie ermüden nicht und sind objektiv -, in anderen Bereichen sind sie zumindest eine wertvolle Unterstützung bei der Sichtung der gesammelten Informationen [3].
In den letzten Jahren werden verstärkt künstliche neuronale Netze zur Klassifizierung eingesetzt, wo bisher klassische multivariate Methoden zum Einsa tz kamen. Gegenstand dieser Arbeit ist die exemplarische Anwendung verschiedener Arten neuronaler Netze auf ein chemisches Problem und der Vergleich mit einer multivariaten Methode. Damit dieser Vergleich aussagekräftig sein kann, sollte er an einem Beispiel durchgeführt werden, das folgende Forderungen erfüllt:
Diesen Bedingungen genügen die Spirituosen: Luftdicht verschlossen sind die meisten gut haltbar. Sie lassen sich nach dem Ausgangsmaterial in eine überschaubare Anzahl von Klassen einteilen (Obstwasser, Kräuterschnaps...). Jede dieser Klassen hat viele Mitglieder (verschiedene Hersteller, verschiedene Obst- oder Getreidearten). Alle Spirituosen sind das Ergebnis der Destillation von vergorenen, stärke- oder zuckerhaltigen pflanzlichen Stoffen, was zu einer begrenzten Auswahl in größerer Menge vorhandener Komponenten führt. Daher können auch zu verschiedenen Klassen gehörende Schnäpse eine große Ähnlichkeit zeigen.
Die Headspace-GC/MS-Kopplung bietet die Möglichkeit, Proben dieser Art ohne viel Aufwand zu messen und gleichzeitig eine enorme Menge an Informationen zu erhalten, da sie jede flüchtige Komponente qualitativ und quantitativ erfaßt.
Die enorme Datenmenge in der Größenordnung von über 10000 Informationen je Probe
(hier jeweils 550 bis 2400 Massenspektren) stellt ein Problem für
Mustererkennungssysteme dar, ist aber für moderne chemische Analysenmethoden nicht
ungewöhnlich. In dieser Arbeit soll daher gezeigt werden, wie diese Datenflut
sinnvoll reduziert und zur Klassifizierung von Proben durch autonom lernende
neuronale Netze benutzt werden kann.
Es wurden zwei Headspace-GC/MS-Meßmethoden für das GCQ entwickelt, die die reproduzierbare Gewinnung von "Fingerabdrücken" der Proben in akzeptabler Zeit und praktisch ohne Probenvorbereitung erlauben.
Um die gestellten Aufgaben zu bearbeiten, wurden folgende Programme zur Datenreduktion und -filterung sowie zur Validierung entwickelt:
Mit den gewonnenen Daten der Spirituosenproben wurden - exemplarisch für multivariate Methoden - Hauptkomponentenanalysen durchgeführt, die zeigten, daß eine automatische Klassifizierung durch neuronale Netze schwierig (da sich die sechs Klassen deutlich überschneiden), aber prinzipiell möglich ist.
Dazu wurden drei verschiedene Typen künstlicher neuronaler Netze untersucht, die jeweils in Hinsicht auf eine möglichst gute Klassifizierung nicht zum Training eingesetzter Proben optimiert wurden. Es stellte sich heraus, daß Backpropagation- und RBF-DDA-Netze für diese Anwendung praktisch gleich leistungsfähig sind, wobei die letzteren sich als deutlich leichter zu optimieren und um ein Vielfaches schneller erwiesen. Mit der langsameren GC-Meßmethode konnten 75%, mit der schnelleren um 57% der Proben im leave one out - Verfahren korrekt klassifiziert werden. Der DLVQ-Algorithmus erreichte dagegen 65% und 60% korrekter Klassifizierungen, war also mit gut aufgelösten Chromatogrammen schlechter als die Konkurrenzverfahren, mit schlecht aufgelösten Chromatogrammen besser.
Diese Systeme können nach erfolgtem Training in Sekundenschnelle unbekannte Proben bewerten, wobei prinzipiell keine Interaktion mit dem Benutzer nötig ist. Eine Klassifizierung mittels Hauptkomponentenanalyse nimmt hingegen mehrere Minuten Arbeitszeit eines erfahrenen Anwenders in Anspruch.
Die entwickelten Klassifizierungssysteme sind modular aufgebaut, schnell, vollständig automatisierbar und -- unter Berücksichtigung der sich überlappenden Klassen -- sehr leistungsfähig.