Diplomarbeit von Patrick Kursawe

Meine Diplomarbeit hat das Thema "Anwendung multivariater Methoden und künstlicher neuronaler Netze zur Klassifizierung von Spirituosen mittels Headspace-GC-MS-Kopplung".

Die vollständige Arbeit ist als gzip-gepackte Postscript-Datei (214 KB) oder als PDF-Datei (612 KB) erhältlich.

Als HTML gibts hier nur die Einleitung und Zusammenfassung:

Mustererkennung und Klassifizierung

Das Erkennen von Mustern ist eine für Menschen und Tiere überlebenswichtige Fähigkeit. Äußere Reize müssen mit Bedeutungen assoziiert werden, um eine angemessene Reaktion auslösen zu können. Daher ist es für uns selbstverständlich, daß wir in Sekundenschnelle die komplexen Wahrnehmungen unserer Sinne bewerten können und zu Schlußfolgerungen wie harmlos, gefährlich, eßbar, ungenießbar, zur korrekten Einschätzung von Bewegungen anderer, zum Erkennen von Gesichtern, Stimmen, Buchstaben, Zahlen, Automarken oder Geschmacksrichtungen fähig sind, um nur wenige Beispiele zu nennen. Dies geschieht meist ohne bewußtes Nachdenken. Wie wichtig diese Fähigkeiten sind, fällt normalerweise erst dann auf, wenn sie verloren gehen. Untersuchungen an Personen mit Schlaganfällen oder Schädelverletzungen führten zu ersten Einblicken in die Funktionsweise natürlicher neuronaler Netze [1].

Die unerreichte Leistungsfähigkeit des Gehirns im Bereich der Mustererkennung wird deutlich, wenn Muster ohne menschliche Mitwirkung erkannt werden sollen. Erst nach jahrelanger Forschung sind Computerprogramme entwickelt worden, die au f Teilgebiete der Mustererkennung wie Schrift- und Spracherkennung oder Identifizierung von Gesichtern spezialisiert sind. Zwei verschiedene Ansätze sin d hierbei von Bedeutung: Zum einen können die Muster statistischen Betrachtungen unterzogen werden, wonach eine von Experten programmierte Entscheidungslogik die eigentliche Klassifizierung vornimmt. Zum anderen wird versucht, den besten bekannten Klassifizierer - das Gehirn - zu simulieren und somit lernfähige Syste me zu erhalten, die ohne explizite Eingabe von Expertenwissen in der Lage sind, Mustererkennung durchzuführen.

Die Einsatzmöglichkeiten für computergestützte Mustererkennungssysteme sind vielfältig. Sie können den Menschen ersetzen, wie in autonom fahrenden Fahrzeugen, oder entlasten, beispielsweise in der Qualitätskontrolle, wenn ein Klassifizierungssystem Produkte untersucht, bewertet und nur die Zweifelsfälle dem menschlichen Experten überläßt.

In der Chemie kann die Mustererkennung überall da eingesetzt werden, wo Entscheidungen auf der Basis komplexer Meßdaten getroffen werden müssen. Ist diese Probe im normalen Rahmen oder muß sie näher untersucht werden? Auf welche funktionalen Gruppen deutet dieser Bereich des Spektrums hin? Bei der Analyse von Bodenproben können leicht bis zu 1000 Einzelbestandteile erfaßt werden. Um eine Reihe von Proben miteinander zu vergleichen, ist der Einsatz von chemometrischen Methoden unerläßlich [2].

Moderne Analysenmethoden wie die GC/MS-Kopplung produzieren schnell schwer überschaubare Datenmengen. Automatische Mustererkennung und Klassifizierung können in einigen Teilbereichen schneller und verläßlicher als der Mensch arbeiten - sie ermüden nicht und sind objektiv -, in anderen Bereichen sind sie zumindest eine wertvolle Unterstützung bei der Sichtung der gesammelten Informationen [3].

In den letzten Jahren werden verstärkt künstliche neuronale Netze zur Klassifizierung eingesetzt, wo bisher klassische multivariate Methoden zum Einsa tz kamen. Gegenstand dieser Arbeit ist die exemplarische Anwendung verschiedener Arten neuronaler Netze auf ein chemisches Problem und der Vergleich mit einer multivariaten Methode. Damit dieser Vergleich aussagekräftig sein kann, sollte er an einem Beispiel durchgeführt werden, das folgende Forderungen erfüllt:

Es muß eine große Anzahl von Proben verfügbar sein, die über einen längeren Zeitraum stabil sind, damit wiederholte Messungen unter unterschiedlichen Bedingungen möglich sind.
Die Proben dürfen sich nicht zu ähnlich sein, um eine Klassifizierung überhaupt durchführbar zu machen. Der Datensatz muß sich in eine Reihe von Klassen mit jeweils mehreren Mitgliedern einteilen lassen.
Die Klassen dürfen nicht extrem unterschiedlich sein, da eine zu einfache Aufgabe von allen Klassifizierern lösbar wäre und somit keinen Vergleich der Leistungsfähigkeit erlaubte.

Diesen Bedingungen genügen die Spirituosen: Luftdicht verschlossen sind die meisten gut haltbar. Sie lassen sich nach dem Ausgangsmaterial in eine überschaubare Anzahl von Klassen einteilen (Obstwasser, Kräuterschnaps...). Jede dieser Klassen hat viele Mitglieder (verschiedene Hersteller, verschiedene Obst- oder Getreidearten). Alle Spirituosen sind das Ergebnis der Destillation von vergorenen, stärke- oder zuckerhaltigen pflanzlichen Stoffen, was zu einer begrenzten Auswahl in größerer Menge vorhandener Komponenten führt. Daher können auch zu verschiedenen Klassen gehörende Schnäpse eine große Ähnlichkeit zeigen.

Die Headspace-GC/MS-Kopplung bietet die Möglichkeit, Proben dieser Art ohne viel Aufwand zu messen und gleichzeitig eine enorme Menge an Informationen zu erhalten, da sie jede flüchtige Komponente qualitativ und quantitativ erfaßt.

Die enorme Datenmenge in der Größenordnung von über 10000 Informationen je Probe (hier jeweils 550 bis 2400 Massenspektren) stellt ein Problem für Mustererkennungssysteme dar, ist aber für moderne chemische Analysenmethoden nicht ungewöhnlich. In dieser Arbeit soll daher gezeigt werden, wie diese Datenflut sinnvoll reduziert und zur Klassifizierung von Proben durch autonom lernende neuronale Netze benutzt werden kann.

[1] W. H. Calvin und K. Graubard: Styles of neuronal computation, The Neurosciences, Fourth Study Program, MIT Press 1979
[2] M. Otto: Chemometrie - Statistik und Computereinsatz in der Analytik, VCH Weinheim, 1997
[3] Strouf: Chemical Pattern Recognition, Research Studies Press Ltd., 1986

Zusammenfassung

Im Rahmen dieser Arbeit wurden mehrere, auf verschiedenen Arten von künstlichen neuronalen Netzen basierende Klassifizierungssysteme für Spirituosen entwickelt. Bei einer Meßzyklusdauer von 16 oder 29 Minuten gelang die korrekte Klassifizierung von 56 bis 75% nicht zum Training des Systems benutzter Proben. Hierzu wurden folgende Arbeitsschritte durchgeführt:

Es wurden zwei Headspace-GC/MS-Meßmethoden für das GCQ entwickelt, die die reproduzierbare Gewinnung von "Fingerabdrücken" der Proben in akzeptabler Zeit und praktisch ohne Probenvorbereitung erlauben.

Um die gestellten Aufgaben zu bearbeiten, wurden folgende Programme zur Datenreduktion und -filterung sowie zur Validierung entwickelt:

ms2txt, ms2chrom, msto3d: Konvertierung des GCQ-Datenformates in ASCII-Tabellen
Bearbeitung der so erzeugten Chromatogramme:
- baseline: einfache Basislinienkorrektur und Normierung
- killbaseline: Unterdrückung von Grundlinienschwankungen
- chrom2chrom: Datenreduktion durch Mittelwertbildung und
  Auswahl eines Teilbereiches zur Weiterverarbeitung
- digitize, log: Digitalisierung und Logarithmierung
chrom2list, chrom2pat: Erzeugung von Eingabedateien für die Programme Unscrambler (Hauptkomponentenanalyse) und SNNS (neuronale Netze)
validate: Validierung nach dem leave one out - Verfahren mit SNNS

Mit den gewonnenen Daten der Spirituosenproben wurden - exemplarisch für multivariate Methoden - Hauptkomponentenanalysen durchgeführt, die zeigten, daß eine automatische Klassifizierung durch neuronale Netze schwierig (da sich die sechs Klassen deutlich überschneiden), aber prinzipiell möglich ist.

Dazu wurden drei verschiedene Typen künstlicher neuronaler Netze untersucht, die jeweils in Hinsicht auf eine möglichst gute Klassifizierung nicht zum Training eingesetzter Proben optimiert wurden. Es stellte sich heraus, daß Backpropagation- und RBF-DDA-Netze für diese Anwendung praktisch gleich leistungsfähig sind, wobei die letzteren sich als deutlich leichter zu optimieren und um ein Vielfaches schneller erwiesen. Mit der langsameren GC-Meßmethode konnten 75%, mit der schnelleren um 57% der Proben im leave one out - Verfahren korrekt klassifiziert werden. Der DLVQ-Algorithmus erreichte dagegen 65% und 60% korrekter Klassifizierungen, war also mit gut aufgelösten Chromatogrammen schlechter als die Konkurrenzverfahren, mit schlecht aufgelösten Chromatogrammen besser.

Diese Systeme können nach erfolgtem Training in Sekundenschnelle unbekannte Proben bewerten, wobei prinzipiell keine Interaktion mit dem Benutzer nötig ist. Eine Klassifizierung mittels Hauptkomponentenanalyse nimmt hingegen mehrere Minuten Arbeitszeit eines erfahrenen Anwenders in Anspruch.

Die entwickelten Klassifizierungssysteme sind modular aufgebaut, schnell, vollständig automatisierbar und -- unter Berücksichtigung der sich überlappenden Klassen -- sehr leistungsfähig.