"Die Objektivität, Reliabilität und Validität der Wissensakquisition von Expertensystemen"
© Thimo Echtermann, Universität Dortmund, Dezember 1990





1. Vorgehensweise
 
 

In dieser Arbeit über die Objektivität, Reliabilität und Validität der Wissensakquisition von Expertensystemen wird im ersten Kapitel die Problemstellung erläutert, anschließend werden die wichtigen Begriffe definiert. Im zweiten Kapitel wird eine Übersicht der Wissenserhebungsmethoden in systematischem Zusammenhang dargestellt und erläutert. Dabei werden alle in der einschlägigen Literatur angegebenen Methoden in die Systematik eingebracht, wobei sie keinen Anspruch auf Vollständigkeit erhebt. In Kapitel Drei und Vier werden die direkten und indirekten Wissenserhebungsmethoden mit allen Untervarianten beschrieben, anschließend wird eine typische Methode oder mehrere, je nach Relevanz bezüglich der Wissenserhebung bei Expertensystemen, herausgegriffen und hinsichtlich der angesprochenen Hauptgütekriterien Objektivität, Reliabilität und Validität beurteilt. Im fünften Kapitel folgt die Vorstellung und Beurteilung der automatischen Wissensakquisition am Beispiel des Instrumentes KRITON. Kapitel Sechs beschreibt andere Einflußfaktoren, wie die verschiedenen Wissensarten und Wissensquellen. Abschließend wird eine Beurteilungsmatrix vorgestellt, die die Hauptgütekriterien aller untersuchten Erhebungsmethoden wertend zusammenfaßt.
 
 

1.1. Problemstellung

Die wachsende Verbreitung von Expertensystemen führt dazu, daß Expertensysteme immer stärker in sicherheitsrelevanten Bereichen eingesetzt werden. Neben Aufgaben der Produktionsüberwachung in Chemie- und Pharmaunternehmen, werden sie zur Unterstützung von Wartungs- und Diagnosearbeiten in der Luft- und Raumfahrt herangezogen. Geplant ist der Einsatz von Expertensystemen zur Störfalldiagnose in kerntechnischen Anlagen, ebenso für Steuer- und Überwachungsaufgaben in autonom agierenden Kampfgeräten des Militärs.

Voraussetzung für risikominimierten Einsatz ist die Korrektheit und Fehlerfreiheit dieser Expertensysteme. Ein Expertensystem besteht im wesentlichen aus den beiden Komponenten Wissensbasis und Inferenzmaschine. Die Inferenzmaschine ist der Problemlösungsmechanismus, während die Wissensbasis das Wissen eines oder mehrerer Fachexperten in Form von Fakten und Regeln umfaßt. In dieser Arbeit wird die Erhebung dieses Wissens durch ausgewählte Instrumente beschrieben und mögliche Fehlerquellen werden aufgezeigt. Die Fehlerfreiheit des gesamten Expertensystems hängt stark von der Fehlerfreiheit der Wissensbasis ab. "Das Wissen ist noch in den Köpfen menschlicher Experten gespeichert, und es herauszuholen - was AI-Forscher das Problem des Wissenserwerbs nennen - ist der ärgste Engpaß, vor dem die Wissensingenieure heute stehen".

Mögliche Fehlerquellen bei der Wissensextraktion sind mangelnde Objektivität, Reliabilität und Validität des Wissenserhebungsinstrumentariums.
 
 

1.2. Objektivität

Objektivität, als eines der hier besprochenen drei Hauptgütekriterien, beschreibt den Grad der Unabhängigkeit der Ergebnisse eines Tests vom Untersucher. Übertragen auf die Wissenserhebungssituation beschreibt Objektivität den Grad der Unabhängigkeit der Ergebnisse der Wissensakquisitionsmethoden vom Wissensingenieur. Eine Wissensakquisitionsmethode ist demnach dann vollkommen objektiv, wenn ihre Anwendung durch mehrere Wissensingenieure zu gleichen Ergebnissen führt. Im Verlauf des Wissensakquisitionsprozesses können drei Phasen unterschieden werden, in der jeweils andere Ausprägungen der Objektivität von Bedeutung sind:

In der Datenerfassungsphase, in der das Wissen des Experten extrahiert wird, ist die Durchführungsobjektivität relevant. Verhaltensvariationen des Wissensingenieurs, wie beispielsweise "harte" oder "weiche" Gesprächsführung beim Interview oder Hautfarbe, Geschlecht und Alter des Interviewers können die Ergebnisse der Befragung beeinflussen. Hohe Durchführungsobjektivität kann durch standardisierte Erhebungssituationen (standardisierte Fragebögen bei schriftlicher Befragung beispielsweise) erzielt werden.

Die Auswertungsobjektivität gewinnt in der Datenauswertungsphase an Bedeutung. Maximale Auswertungsobjektivität ist erreicht, wenn standardisierte Antwortvorgaben nur eine Auswertungsmöglichkeit zulassen. Erreicht wird dies bei schriftlichen Befragungen durch die Antwortvorgaben "richtig" oder "falsch", oder durch Ankreuzen einer für den Befragten zutreffenden Antwortalternative. Geringere Auswertungsobjektivität liegt hingegen bei offenen Fragen mit freier Antwortmöglichkeit vor.

Die Dateninterpretationsphase ist gekennzeichnet durch die Interpretationsobjektivität, die die Unabhängigkeit der Auswertungsergebnisse vom interpretierenden Untersucher (Wissensingenieur) beschreibt. Auswertungsergebnisse, die einen numerischen Wert darstellen, besitzen eine hohe Interpretationsobjektivität, wenn dieser Wert die Position des Untersuchungsobjektes auf einer Vergleichsskala eindeutig festlegt.
 
 

1.3. Reliabilität

Reliabilität oder Zuverlässigkeit beschreibt den Grad der Genauigkeit, mit dem ein Instrument das zu untersuchende Phänomen mißt. Im Falle der Wissensakquisition wird darunter die Zuverlässigkeit einer Wissenserhebungsmethode, mit der das Expertenwissen extrahiert wird, verstanden. Eine Wissenserhebungsmethode ist dann vollkommen reliabel, wenn das Wissen fehlerfrei erhoben werden kann und damit auch jederzeit reproduzierbar ist. Bei der Reliabilität eines Tests werden mehrere Aspekte unterschieden:

Die Paralleltest-Reliabilität wird bestimmt, indem der Fachexperte mittels zweier Erhebungsmethoden befragt wird, von denen eine die zu überprüfende Methode und die andere das Vergleichsnormal ist, und anschließend die Ergebnisse auf Übereinstimmung hin untersucht werden (beispielsweise durch Korrelationskoeffizienten). Je geringer die Abweichungen, desto höher die Zuverlässigkeit der zu überprüfenden Methode. Verzerrungen können dadurch entstehen, daß, bedingt durch die zeitliche Abfolge der beiden Methoden, Lerneffekte beim Experten auftreten. Ein zusätzliches Problem ist die Wahl der als Vergleichsnormal verwendeten Methode, denn sie muß bereits auf Reliabilität hin untersucht worden sein. Bei strenger Betrachtung eröffnet sich hier ein endloser Regreß.

Die Retest-Reliabilität kann dadurch bestimmt werden, daß der Experte zu einem späteren Zeitpunkt noch einmal mit derselben Wissenserhebungsmethode befragt wird. Dies führt zu zwei Ergebnissen, die nun wiederum auf Übereinstimmung getestet werden können. Problematisch sind ebenfalls Lerneffekte als Reaktion auf die erste Messung, sowie mangelnde Zeitkonstanz des Objektes, der Experte ist in der zweiten Erhebungssitzung beispielsweise stärker gestreßt oder gelangweilt.

Die innere Konsistenz eines Testes beschreibt die Einheitlichkeit der Teile des Instruments. Die Elemente des Testes (Fragen, Aufgaben) werden in zwei gleichwertige Hälften geteilt und die Ergebnisse gesondert ermittelt. Anschließend werden die Ergebnisse der beiden Hälften miteinander korreliert. Diese Korrelation ist dann ein Ausdruck für die Reliabilität. Bei der Wissensakquisition ist diese Methode nur in wenigen Fällen anwendbar (schriftliche Befragung).
 
 

1.4. Validität

Die Validität oder Gültigkeit eines Instrumentes gibt den Grad der Genauigkeit an, mit der das Merkmal gemessen wird, das es auch messen soll. Ein Wissenserhebungsinstrument ist demnach dann valide, wenn es aus dem Experten das Wissen hervorholt, das es auch wirklich extrahieren sollte. Beispielsweise neigen Experten dazu ihr Schulwissen darzubieten, während das eigentlich interessierende und davon abweichende Expertenwissen zurückgehalten wird, ebenso führen beispielsweise Suggestivfragen zu Antwortverzerrungen. Auch bei der Validität können verschiedene Aspekte unterschieden werden:

Ein Test hat eine hohe inhaltliche Validität, wenn er das zu erfassende Merkmal repräsentiert, der Test selbst das optimale Kriterium für das Merkmal ist. Beispielsweise ist eine Schreibprobe inhaltlich valide für die Erfassung der Schnelligkeit und Genauigkeit, mit der eine Sekretärin Maschine schreiben kann. Inhaltliche Validität wird in der Regel durch ein Expertenrating zugebilligt. Hierbei geht man davon aus, daß Experten aufgrund ihrer profunden Kenntnisse des zu untersuchenden Objektbereiches in der Lage sein müßten, die Abbildungsgenauigkeit der Erhebungsmethoden beurteilen zu können.

In Falle der Konstruktvalidität wird anhand theoretischer Überlegungen darüber entschieden, ob ein Test ein bestimmtes Konstrukt erfassen kann. Ein zu erfassendes Objekt wird dann als Konstrukt bezeichnet, wenn es theoretischen Charakter hat und nicht eindeutig zu operationalisieren ist. Lienert führt als Beispiel das theoretische Konstrukt "Angst" an, welches nicht direkt gemessen werden kann, sondern nur über verschiedene Merkmale beschrieben wird, die in genügender Übereinstimmung mit dem Konstrukt stehen.

Die Kriterienbezogene Validität beschreibt die Gültigkeit eines Meßinstrumentes, indem dessen Meßergebnis eines Merkmals mit dem Ergebnis der Messung eines anderen Merkmals verglichen wird. Die beiden gemessenen Merkmale sind unterschiedlich, unterliegen aber einer hohen Korrelation. Besteht beispielsweise eine hohe Korrelation zwischen sexuellen Einstellungen und Religiosität, dann kann ein Meßinstrument, welches die sexuelle Freizügigkeit mißt, als bezüglich des Außenkriteriums valide bezeichnet werden, wenn bei stark religiösen Personen eine geringe sexuelle Freizügigkeit festgestellt wird.
 
 

1.5. Wechselbeziehungen

Zwischen den genannten Hauptgütekriterien bestehen Wechselbeziehungen, gegenseitige Beeinflussungen und Abhängigkeiten. Im Folgenden werden einige wichtige Wechselbeziehungen aufgezeigt:

Die Parallel- oder Retest-Reliabilität eines Tests kann nicht höher sein als seine innere Konsistenz, da bei mangelnder Einheitlichkeit ein Vergleich mit anderen Tests oder eine Testwiederholung aussagelos ist. Außerdem ist die Reliabilität durch die Objektivität begrenzt, denn die Genauigkeit des Meßinstrumentes wird bedeutungslos, wenn der Untersucher aufgrund seiner mangelnden Objektivität zu unterschiedlichen Ergebnissen gelangt. Aus demselben Grund kann die Validität nicht höher sein als die Objektivität.

Im Umkehrschluß läßt sich demnach feststellen, daß eine hohe Validität oder Reliabilität nur bei hoher Objektivität erreichbar ist.

Ein Test mit geringer Reliabilität und geringer Validität ist praktisch wertlos.
 
 

1.6. Wissensakquisition

Der Begriff Wissensakquisition ist in der Fachliteratur nicht eindeutig definiert. In der amerikanischen Literatur wird der Begriff Knowledge Acquisition insbesondere für Bearbeitung, Spezialisierung und Verbesserung einer bestehenden Wissensbasis verwendet. Der Begriff Wissensakquisition beschreibt im deutschen Sprachgebrauch die ersten Phasen des Knowledge Engineering, von der Wissensextraktion bis zur ersten Implementation der Wissensbasis. Das amerikanische Knowledge Elicitation entspricht der Phase der Wissensextraktion, des Erwerbs des Expertenwissens.

Wissensakquisition wird als ein Teilbereich des Knowledge Engineering angesehen. Der Knowledge Engineer ist der Vermittler zwischen Experte und Computer und muß das Wissen des Experten extrahieren, aufarbeiten und in formalisierten Regeln in das Expertensystem eingeben. Die dabei notwendige Interpretation der Äußerungen und des Verhaltens des Experten stellt aufgrund der Subjektivität des Wissensingenieurs eine ständige Fehlerquelle dar. Beurteilungsfehler können daher in Form fehlerhafter Regeln in die Wissensbasis eingehen.

In dieser Arbeit wird der Begriff Wissensakquisition im Sinne des hiesigen Sprachgebrauchs benutzt, mit Schwerpunkt auf der Wissenserwerbskomponente.