Ueber DASY
==========
.
DASY oder "Daten Analyse System"ist ein kleines Statistikpaket, das
seit 1993 im Fachbereich Maschinenbau und Verfahrenstechnik der
FH-Furtwangen im Praktikum eingesetzt wird.
.
Programmierer: Stefan von Weber.
.
DASY hat folgende Highlights:
.
- KFA Konfigurations-Frequenzanalyse mit Alpha- und Beta-Schaetzung,
globaler Chi-Quadrat-Test, 6 lokale Typentests
- Multivariate kategoriale Merkmalsselektion ueber Chi-Quadrat
- Chi-Quadrat-Zerlegung nach LANCASTER
- 4-Felder-Tafel-Analyse (2x2-Tafeln) mit Alpha- und Beta-Schaetzung,
Typensuche im Zero-Order-Modell nach A.v.Eye
6 Assoziationsmasse mit Signifikanzpruefung und Betaschaetzung
Vergleich von relativen Haeufigkeitszahlen mit Binomialtest
- Kreuz- und Autokorrelationsfunktionen
- CWA-Regression mit optimaler Vorhersagegenauigkeit bei vielen
Einflussgroessen und wenig Datenpunkten
- Diskriminanz- und Clusteranalyse zur Klassifikation von Objekten
(Clusteranalyse noch in Arbeit)
- Datentransformationen verschiedenster Art
.
Neben den Highlights bietet DASY noch:
.
- Eingabe unformatierter und formatierter Daten, Kontingenztafeleingabe,
Eingabe von micromec-Datenlogger- und PREMA-Messcomputer-Daten
- Einfache lineare und einige einfache nichtlineare Regressionsmodelle
(linear, quadratisch, exponentiell, hyperbolisch)
- Schrittweise Regression
- Einfache Varianzanalyse mit 3 unterschiedlichen Mittelwertvergleichen
- Plots, als BitMaps exportierbar
.
- DASY kann mit der Tastatur allein oder mit Maus und Tastatur
gesteuert werden
.
DASY ist FREEWARE. DASY lauft seit vielen Jahren. Trotzdem uebernehmen
wir keine Haftung fuer die absolute Richtigkeit der Ergebnisse.
.
Wie bekommen Sie DASY?
.
Sie senden eine kurze Mail an webers@fh-furtwangen.de
.
Ich sende Ihnen umgehend die 4 Files README.TXT, DASY1.jpg,
DASY2.jpg und SETUP.jpg.
.
Sie benennen DASY1.jpg um in DASY1.ALL,
Sie benennen DASY2.jpg um in DASY2.ALL,
Sie benennen SETUP.jpg um in SETUP.EXE
und verfahren dann, wie unter Installation beschrieben wird.
.
Fragen und Hinweise e-mail: webers@fh-furtwangen.de
.
Installation von DASY:
======================
.
Richten Sie fuer DASY ein Directory ein (einen Folder, Ordner), z.B.
C:\PROGRAMS\DASY
.
Speichern Sie README.TXT, DASY1.ALL, DASY2.ALL und SETUP.EXE in das
Directory
.
Starten Sie SETUP.EXE in diesem Directory (Doppelclick reicht).
.
SETUP.EXE zerteilt die DASY1.ALL und DASY2.ALL in die Files, die am
Ende dieses README.TXT aufgelistet sind.
.
Setzen Sie in Windows einen Link nach C:\PROGRAMS\DASY\DASY.EXE
.
Starten Sie von Windows aus DASY.EXE
.
DASY laeuft als DOS-Programm im DOS-Fenster von Windows
.
DASY hat eine umfangreiche online Hilfe-Funktion
.
Zeilenweise Testdaten, Testtabellen fuer die KFA und Beispiele
einer Transformation sind in DASY.ALL bereits enthalten.
Testtafeln der KFA haben im Namen ein "TAB", z.B. KFA-TAB.DAT.
.
Sie koennen die Hilfedateien DA_HF_T1.DOC, DA_HF_T2.DOC, ...
mit jedem Editor lesen, kopieren, drucken, aber bitte
nicht veraendern. Einige Aenderungen koennten DASY abstuerzen
lassen.
.
EOF ist die Endekennung der nachfolgenden File-Liste (kein File)
.
-----------------------------------------------------------------
DASY.EXE
DASY.OVR
DA_HF_T1.DOC
DA_HF_T2.DOC
DA_HF_T3.DOC
DA_HF_T4.DOC
DA_HF_T5.DOC
GRAPH.TPO
ATT.BGI
CGA.BGI
EGAVGA.BGI
HERC.BGI
IBM8514.BGI
BGILINK.MAK
GOTH.CHR
LITT.CHR
SANS.CHR
TRIP.CHR
CARDS.DTA
UPGRADE.DTA
4X6.FON
8X8.FON
14X9.FON
TESTDATA.DAT
KFA-TAB.DAT
HYPERTHY.DAT
BEISPIEL.TRF
REGRESSI.TRR
HYPERTHY.TRR
EOF
-----------------------------------------------------------------
Helpfile zum Statistikpaket DASY des Fachbereichs MuV der HS Furtwangen
"Hochschule fuer Technik und Wirtschaft"
Autor: Dr. Stefan von Weber
.
DASY oder "Daten Analyse System"ist ein kleines Statistikpaket, das
seit 1993 im Fachbereich Maschinenbau und Verfahrenstechnik der
HS-Furtwangen im Praktikum eingesetzt wird.
.
DASY hat folgende Highlights:
.
- KFA Konfigurations-Frequenzanalyse mit Alpha- und Beta-Schaetzung,
globaler Chi-Quadrat-Test, 6 lokale Typentests
- Multivariate kategoriale Merkmalsselektion ueber Chi-Quadrat
- Chi-Quadrat-Zerlegung nach LANCASTER
- 4-Felder-Tafel-Analyse (2x2-Tafeln) mit Alpha- und Beta-Schaetzung,
Typensuche im Zero-Order-Modell nach A.v.Eye
Vergleich von relativen Haeufigkeitszahlen mit Binomialtest
- Kreuz- und Autokorrelationsfunktionen, Produkt-Momenten Korrelations-
koeffizienten nach Pearson-Bravais mit Scatterplots und Histogrammen
- CWA-Regression mit optimaler Vorhersagegenauigkeit bei vielen
Einflussgroessen und wenig Datenpunkten
- Diskriminanz-und Clusteranalyse zur Klassifikation von Objekten
- Datentransformationen verschiedener Art, Generierung von Merkmalen
.
Neben den Highlights bietet DASY noch:
.
- Eingabe unformatierter und formatierter Daten, Kontingenztafeleingabe,
Eingabe von micromec-Datenlogger- und PREMA-Messcomputer-Daten
- Einfache lineare und einige einfache nichtlineare Regressionsmodelle
(linear, quadratisch, exponentiell, hyperbolisch)
- Test auf Normalverteilung, Quantile, Histogramme (unter Scatterplots)
- Schrittweise Regression
- Einfache Varianzanalyse mit 3 Mittelwertvergleichen
- Alle Plots als BitMaps exportierbar als Fein- oder Dickplots
(Dickplots koennen bis auf 1/3 ihrer Groesse geschrumpft werden)
.
- DASY kann mit der Tastatur allein oder mit Maus und Tastatur
gesteuert werden
.
DASY ist FREEWARE. DASY lauft seit vielen Jahren. Trotzdem uebernehmen
wir keine Haftung fuer die absolute Richtigkeit der Ergebnisse.
.
Das Haupt-Menue wird beim Start von DASY und nach Abarbeitung eines
jeden Unterpunktes angeboten. Man waehlt den gewuenschten Unterpunkt und
bestaetigt mit der ENTER-Taste (bzw. linke Maustaste).
.
Beim Start werden nur die Unterpunkte "Stop" bis "Eingabe" angeboten.
Erst nach erfolgreicher Dateneingabe werden die weiteren Unterpunkte an-
geboten.
.
2x2-Kontingenztafelanalyse (Unterpunkt von SICFA) kann die Daten auch
direkt von der Tastatur uebernehmen. Will man nur mit dieser Moeglich-
keit arbeiten, bentigt man eigentlich keine Datei mit Daten. Da DASY
aber auf einer Datei besteht, wird empfohlen, einfach die Testdaten zu
lesen (Hauptmenue EINGABE, Unterpunkt TESTDATEN) ohne sie zu nutzen.
.
Hauptmenue mit Kurzbeschreibung der Unterpunkte
.
Stop Datenausgabemoeglichkeit und Verlassen des Programms DASY
Hilfe Globale Hilfe mit gesamtem Informationsfile des DASY
.
Eingabe Verschiedene Dateneingaben, SAVE DATA, BACKUP, Testdaten
.
Statistiken Zu allen Merkmalen Mittelwert, Standardabweichung usw.
Plots Darstellung von Merkmalen als Punktwolke oder Liniendiagramm
.
Korrelation Auto-, Kreuz-, lineare Korrelation, Scatterplots/Histogramme
EinfachReg Einfache lineare und nichtlineare Regressionsmodelle, Trend
Regression Multiple linear/nichtlinear, Stepwise und CW-Algorithmus
.
Einfach-VA Einfache Varianzanalyse mit Mittelwertvergleich
Clus-Dis Clusteranalyse, Diskriminanzanalyse
SICFA Kontingenztafelanalyse, KFA, Merkmalsauswahl, 2x2-Tafeln
.
Trafos Merkmalstransformationen und -generierung, Gruppenbildung
Sichten Protokoll bzw. Daten sichten, Sermon (Text ins Protokoll)
- - -
.
Hilfe global oder speziell. Wie starte ich DASY?
.
Hilfe wird global oder gezielt beim Anwaehlen des Menuepunktes "Hilfe"
angeboten. Das globale Hilfemenue gibt eine Uebersicht ueber das gesamte
Informationsfile. Die Unterpunkte koennen angewaehlt und mit der Enter-
taste aufgerufen werden.
.
Hilfe aus Untermenues ist immer speziell. Es wird der informativste
Unterpunkt des Informationsfiles zum speziellen Gegenstand aufgerufen.
.
Innerhalb des Hilfetextes kann beliebig gescrollt werden (innerhalb der
Dateigrenzen des Informationsfiles). RETURN beendet die
Hilfe. Das Hilfemenue der globalen Hilfe hat folgende Menuepunkte:
.
Hilfemenue
.
Das Hilfemenue verlassen
Haupt-Menue
Hilfe global oder speziell. Wie starte ich DASY?
Protokoll-File, Bitmaps und Ausgabe eines ASCII-Files
Standard-Dateneingabe von ASCII-Daten, Dateiaufbau, Namensgebung
formatierte ASCII-Daten, Info-Tabelle, FORMAT
Tafel-Eingabe von Kontingenztafeln fuer SICFA
MC8047-Daten fuer den PREMA Messcomputer
micromec-Daten des micromec-Datenloggers
Statistiken Variablenuebersicht (Mittelwert, Standardabweichung usw.)
Plots von Messpunkten ( x-y-Diagramme )
Korrelation Auto-, Kreuz-, lineare Korrelation, Scatterpl./Histogramme
EinfachReg Einfache lineare und nichtlineare Regressionsmodelle, Trend
Regression Multiple lineare/nichtlinear, Stepwise und CW-Algorithmus
Einfach-VA Einfache Varianzanalyse mit Mittelwertvergleich
Diskrimina Diskriminanzanalyse und multiple Mittelwertvergleiche
Konfigurat SICFA Konfigurationsfrequenzanalyse (KFA)
Transformationen (Umrechnung bzw. Erzeugung neuer Merkmale)
Datensichtung, Gruppierung (Klassen, Kategorien)
Merkmalsauswahl,....
- - -
.
.
Wie starte ich DASY ? Erster Versuch nur mit den Testdaten
.
Den von DASY automatisch erzeugten Protokollnamen notieren, ENTER
Es erscheint das Hauptmenue, aber nur bis zur Dateneingabe.
.
Gehen Sie zur Zeile 'Eingabe', ENTER
Gehen Sie zur Zeile 'TESTDATA', ENTER
Es erscheint Information zu den gelesenen Daten, ENTER
.
Gehen Sie zur Zeile 'Statistik', ENTER
Sie sehen eine statistische Variablenuebersicht
ENTER: Sie kommen ins Hauptmenue zurueck
.
Gehen Sie zur Zeile 'Plots', ENTER
Gehen Sie zur Zeile 'x-Mermal', ENTER
Gehen Sie zum Merkmal Aufz2, ENTER, dann nach links auf O.K., ENTER
Gehen Sie zur Zeile 'y-Mermale', ENTER
Gehen Sie zu den Merkmalen Sinu und Cosi, jeweils ENTER,
dann nach links auf O.K., ENTER
Geben Sie O.K., ENTER: Es erscheint eine Graphik. Sie koennen diese
als Bitmap ausgeben,indem Sie den Cursor auf das Feld 'Bitmap'
bringen und ENTER geben.
Geben Sie O.K., ENTER: Sie verlassen damit den Teil Plot und sind
wieder im Hauptmenue
.
Gehen Sie nach 'EinfachReg', ENTER: Es werden mehrere Modelle angeboten
Gehen Sie zur Zeile 'einfache exponentielle Regr.', ENTER
Gehen Sie nach 'x-Merkmal', ENTER, waehlen Sie 'Aufz2', ENTER,
Gehen Sie nach links auf O.K., ENTER
Gehen Sie nach 'y-Merkmal', ENTER, waehlen Sie 'Quad', ENTER,
Gehen Sie nach links auf O.K., ENTER
O.K., ENTER
Sie sehen die Daten als Graphik (eine Parabel mit Ausfaellen)
Sie koennen mit ENTER zwei Punkte markieren, z.B. den 3. von links
und den 3. von rechts. Die Kurvenanpassung erfolgt nur innerhalb
der beiden Punkte.
Gehen Sie nach O.K., ENTER: Es erscheinen die Koeffizienten des e-Modells
ENTER: Sie sehen eine Graphik mit der Kurve 'Quad ueber Aufz2' und die
angepasste e-Kurve. Auch hier ist eine Bitmap-Ausgabe moeglich
Gehen Sie nach O.K., ENTER: Sie kommen ins Hauptmenue zurueck
.
Gehen Sie im Hauptmenue nach 'Sichten', ENTER
Gehen Sie nach 'Daten', ENTER
Sie sehen links die statistische Merkmalsuebersicht.
Mit den Pfeiltasten koennen Sie jeden Datensatz anfahren.
Sie koennen die Werte von 'Quad' mit denen des Merkmals 'erQuad'
vergleichen. Merkmal 'erQuad" wurde im Teil Regression berechnet.
Gehen Sie nach 'Return' (unten Mitte), ENTER
.
Gehen Sie nach 'Stop', ENTER
Gehen Sie nach 'DASY endgueltig verlassen, ENTER
.
Wie starte ich DASY ? Erster Versuch mit eigenen Daten
.
Gehen Sie im Windows zu 'Zubehoer', dort zum 'Editor'
Tippen Sie folgende Datei ein:
.
Wachstum Wasser Kali Stickstoff Kalk
16.4 13.2 1.6 0.9 3.4
19.2 16.4 1.3 1.1 3.9
22.7 19.3 2.0 1.0 4.3
29.8 22.6 3.1 1.4 3.4
32.0 26.1 5.0 2.3 4.6
44.4 37.2 7.3 4.8 9.1
47.0 36.1 6.6 4.2 5.8
52.1 41.9 9.7 5.3 7.1
.
Gehen Sie nach 'Datei', 'Speichern unter'. Speichern Sie die Datei auf
eine Diskette; Stick oder in irgendein Directory unter dem Datei-Namen
'Wachstum.dat'
Beenden Sie den Editor und starten Sie DASY
.
Den von DASY automatisch erzeugten Protokollnamen akzeptieren, ENTER
Es erscheint das Hauptmenue, aber nur bis zur Dateneingabe.
.
Gehen Sie zur Zeile 'Eingabe', ENTER
Gehen Sie zur Zeile 'DASYDAT unformatierte ASCII-Standard-Daten', ENTER
Es erscheint ein Bild mit drei hellgrauen Fenstern:
Links unten sehen Sie immer den aktuellen Pfadnamen
Links Mitte koennen Sie das Laufwerk und die Extension anklicken
Rechts knnen Sie Dateinamen oder Directories (rot) anklicken
.
Beispiel: Ihre Datei sei auf C:\EigeneDateien
.
Klicken Sie 'C:' und '*.*', im rechten Fenster erscheinen die
Dateien und Directories der C-Platte (Directories sind rot)
.
Klicken Sie im rechten Fenster auf 'Eigene~1',
gehen Sie nach links und klicken Sie die Extension '*.DAT' an
.
Gehen Sie nach rechts und klicken Sie ihre Datei WACHSTUM.DAT an
Gehen Sie nach links und geben Sie O.K. Ihre Daten werden gelesen
.
Der weitere Verlauf einer DASY-Sitzung ist dann wie oben beschrieben.
.
.
Protokoll-File und Bitmaps
.
DASY schreibt alle Ergebnisse in ein Protokoll-File. Dieses hat den
Standard-Namen Dttmmn.PRT, z.B. D2704C.PRT (Das Protokoll C am 27.April).
Das Directory ist das aktuelle Directory (Start-Directory von DASY).
.
Bitmaps zu Graphiken haben die Namen Dttmmnk.bmp, wobei k eine laufende
Nummer von 1 bis 9, weiter von a-z ist. (Beispiel: D2704C7.BMP ist das 7.
Bitmap zum Protokoll C vom 27.April.)
- - -
.
Nach dem Verlassen von DASY koennen Sie das Protokoll-File z.B. mit
Programm "Notepad" aus Windows drucken und/oder es in MS-Word importieren
und dort weiterbehandeln.
.
Bitmaps koennen Sie mit Programm "Paint" aus Windows-Zubehoer bearbeiten
und in das guenstigere Format *.gif wandeln. Dieses laesst sich leicht in
ein Word-Dokument einfuegen und in der Groesse anpassen.
.
Daten koennen als ASCII-File ausgegeben werden. Das ist sinnvoll bei be-
rechneten Daten oder bei PREMA- und Micromec-Daten, die z.B. von EXCEL
nur schwer einzulesen sind. Es kann eine Kopfzeile mit den Merkmals-
bezeichnungen ausgegeben werden. Der einzelne Wert wird im Format f10
ausgegeben (Beispiel -3.141E+00) mit einem Blank als Trennzeichen.
.
Beispiele fuer Pfadnamen zur Ausgabe von Daten sind:
.
a:messdat.lst (Ausgabe auf Diskette)
c:\kienzle\auswert\messung2.dat (Ausgabe auf Festplatte)
d:\sgplus\data\wind.dat (Ausgabe auf Festplatte)
.
.
Datei-Extensions in DASY
.
Files, die DASY fuer den Nutzer erzeugt:
.
SAVEDATA.VAR Sicherungskopie der eingelesenen Daten (Datenbasis)
.
*.PRT Protokollfile (Diese Dateien loeschen, wenn es zu viele werden)
*.BMP Bitmaps von geplotteten Kurven (ebenfalls loeschen bei Ueberlauf)
*.BAK Temporaere Hilfsdatei (kann immer geloescht werden)
.
Files mit nutzereigenen Daten:
.
*.DAT Vorzugsweise fuer Datenfiles mit zeilenweisen Daten
*.TAB Vorzugsweise fuer Datenfiles mit Kontingenztafeln
.
*.HAD Header-File PREMA Messcomputer
*.Dii Datenfile PREMA Messcomputer, z.B. D00 oder D01
*.PRN Datenfile MICROMEC Datenlogger
.
Files mit nutzereigenen Formaten oder Transformationen:
.
*.FMA Formatanweisung fuer formatiertes Lesen einer Datei
*.FMT Formattabelle fuer formatiertes Lesen einer Datei
.
*.TRF Freie Transformation der aktuellen Datenbasis (Quelltext)
*.TRR Freie Transformation fuer multiple Regression (Quelltext)
*.TRD Freie Transformation fuer Diskriminanzanalyse (Quelltext)
.
Die folgenden Dateien gehoeren zur DASY-Software. Ihre Anzahl
ist konstant. (Bitte nicht loeschen):
.
*.EXE Ausfuehrbarer DASY-Lademodul
*.OVR Ausfuehrbarer DASY-Lademodul Overlays
*.DOC Hilfe-Text-Dateien von DASY
*.TPO Hilfs-Routine TurboPascal
.
*.PCX, *.TP, *.TAV, *.OVR, *.DTA, *.MSG, *.BGI, *.MAK, *.CHR, *.FON
Diese Dateien nicht loeschen
.
.
Menue beim Verlassen von DASY
.
Zurueck ins Hauptmenue ( Sie wollen DASY noch nicht verlassen )
Hilfe Sie wollen sich im Help-File informieren
.
Ausgabe von Merkmalen als ASCII-File (fast ueberall importierbar)
.
D A S Y endgueltig verlassen
- - -
.
Dateneingabe in verschiedenen Formen
.
Abbruch
Hilfe Sie wollen sich im Help-File informieren
.
DASYDAT unformatierte ASCII-Standard-Daten lesen
DASYFORA mit FORMAT-Anweisung formatierte Daten lesen
DASYFTAB mit FORMAT-Tabelle formatierte Daten lesen
.
DASYKFA Kontingenztafeln in kompakter Form
MC8047 Dateneingabe von Files des PREMA Messcomputers MC8047
micromec Dateneingabe eines Files des micromec-Datenloggers
.
SAVE DATA Sichern des augenblicklichen Standes der Arbeitsdaten
BACKUP DATA Wiedereinsetzen der zuletzt gesicherten Arbeitsdaten
.
TESTDATA Eingabe der Datei TESTDATA.DAT
- - -
.
Eine DASY-Sitzung beginnt immer mit der Eingabe von Daten aus einemvor-
handenen File. Das File kann mit einem Editor oder automatisch erzeugt
worden sein. DASY "versteht" eine ganze Reihe unterschiedlich aufge-
bauter Datenfiles.
.
Sie haben waehrend einer Sitzung die Moeglichkeit neue Daten zu lesen,
aber, sobald Sie eine der Dateneingabe-Moeglichkeiten gewaehlt und be-
staetigt haben, werden die zuvor gelesenen Daten im DASY-Speicher
"vergessen". Damit sind auch alle waehrend der Sitzung generierten
Merkmale weg.
.
2x2-Kontingenztafelanalyse kann die Daten auch direkt von der Tastatur
uebernehmen. In diesem Fall bentigt man eigentlich keine Datei mit
Daten. Da DASY aber darauf besteht, wird empfohlen, einfach die
"Testdaten" einzugeben ohne sie zu nutzen.
.
.
unformatierte ASCIIStandard-Daten lesen
.
Eine Datei besteht aus Datensaetzen. Datensaetze bestehen aus Zeilen.
Ein Datensatz ist ein Patient (ein Fall). Ein Datensatz kann nur eine
Zeile (Z=1 ist default) umfassen oder mehrere Zeilen. Die Zahl Z der
Zeilen muss jedoch fuer jeden Datensatz konstant sein.
.
Die Auswahl der Datei (Bestimmung des Pfadnamens) erfolgt interaktiv
mit einer Maske, die zwei Fenster hat. Das linke Fenster bietet Pfad-
bausteine wie B:, C:, aber auch Joker, wie *.* oder *.dat. Im rechten
Fenster erscheinen die mit dem aktuellen Pfadnamen erreichbaren Files.
Wollen Sie ein Directory oder schon Ihre Zieldatei waehlen, gehen Sie
ins rechte Fenster, suchen die Zeile, bestaetigen mit ENTER und gehen
zurueck ins linke Fenster. Ist der Pfadname korrekt, gehen Sie auf O.K.
und geben ENTER.
.
Hat die Datei mehr als 20 Merkmale im Datensatz, werden Sie nach dem
O.K. zu einer Auswahl aufgefordert, die maximal 20 Merkmale benennt.
.
Anklicken von PARAMS fordert zur Eingabe einer Parameterzeile auf.
Parameter sind zusaetzliche (optionale) Angaben zur Nutzung weiterer
Moeglichkeiten der Eingabe. Die Parameteranweisung hat die
Form (2 Beispiele):
.
Z=3, K, a=1, S=8 oder z.B. k,a=2
.
Leerzeichen und Gross-Kleinschreibung sind beliebig verwendbar. Die moeg-
lichen Parameter (in beliebiger Reihenfolge schreibbar) sind:
.
Z Zeilenzahl/Datensatz z.B. Z=3 heisst, dass ein Datensatz 3 Zeilen hat
Default ist 1, d.h. eine Zeile pro Datensatz (pro Fall, pro Patient).
Die Zahl der Namenszeilen mit Merkmalsnamen am Dateianfang ist jedoch
beliebig.
Jeder nachfolgende Datensatz muss auf seinen Z Zeilen insgesamt exakt
dieselbe Anzahl von Merkmalswerten enthalten, wie der erste Datensatz.
(Ausfaelle zaehlen hier wie ein Merkmalswert.)
.
A Ausfaller (bezieht sich auf die ausgewaehlten maximal 20
Merkmale)
A=0 Alle Daten, auch Ausfaelle, uebernehmen (Default)
A=1 Nur Datensaetze mit mindestens 1 gueltigem Wert
A=2 Nur Datensaetze ohne jeden Ausfall uebernehmen
.
S Skip Startzeilen uebergeht in der zu lesenden Datei die n ersten
Zeilen. S=8 uebergeht z.B. die ersten 8 Zeilen des
Datenfiles unabhaengig von ihrem Inhalt
(auch Leerzeilen und/oder Merkmalsnamen)
.
K Komma Kommas in den Datenzeilen (nicht in Namenszeilen)
werden in Punkte umgewandelt (Dezimalpunkt),
z.B. -17,34 wird gelesen als -17.34
Komma u n d Punkt in einer Zahl sind unzulaessig.
Mal Komma, mal Punkt als Dezimalzeichen in ver-
schiedenen Zahlen ist bei Parameter K zulaessig.
Komma als Trennzeichen u n d als Dezimalpunkt
ist unzulaessig.
Ist Parameter K nicht gegeben, werden Kommas grund-
saetzlich in trennende Blanks umgewandelt.
.
.
Die folgenden beiden Beispiele beschreiben das Auswaehlen einer Datei.
Sie gelten sinngemaess fuer alle Dateitypen, nicht nur fuer unformatierte
Dateneingabe.
.
Beispiel 1: Lesen der Datei "LSD.DAT", die im DASY-Directory steht:
.
-> Hauptmenue Zeile "Eingabe" anwaehlen und ENTER
-> im Menue "Dateneingabe" Zeile "Unformatierte ASCII-Standarddaten"
anwaehlen und ENTER
-> rechte Pfeiltaste
-> Datei anwaehlen oder auf Scroll gehen und mit der ENTER-Taste scrollen,
bis Dateiname "LSD.DAT" sichtbar ist, Datei anwaehlen und ENTER
-> linke Pfeiltaste
-> "O.K." anwaehlen und ENTER
-> es kommt eine Information zum Lesevorgang, ENTER
-> Datei ist als Datenbasis verfuegbar.
.
Beispiel 2: Lesen der Datei "C:\REAKTOR\MESS.DAT" :
.
-> Hauptmenue Zeile "Eingabe" anwaehlen und ENTER
-> im Menue "Dateneingabe" Zeile "Unformatierte ASCII-Standarddaten"
anwaehlen und ENTER
-> "C:" anwaehlen und ENTER
-> rechte Pfeiltaste
-> Directory (rote Schrift) "REAKTOR" anwaehlen oder auf Scroll gehen
und mit ENTER scrollen, bis das Directory sichtbar ist, anwaehlen und
ENTER
-> linke Pfeiltaste
-> "*.DAT" anwaehlen
-> rechte Pfeiltaste
-> Datei anwaehlen oder auf Scroll gehen und mit der ENTER-Taste scrollen,
bis Dateiname "LSD.DAT" sichtbar ist, Datei anwaehlen und ENTER
-> linke Pfeiltaste
-> "O.K." anwaehlen und ENTER
-> es kommt eine Information zum Lesevorgang, ENTER
-> Datei ist als Datenbasis verfuegbar.
.
.
Unformatierte Standard-Daten sind Zahlen-Matrizen in ASCII-Form mit
Trennzeichen zwischen den Zahlen. Trennzeichen sind Leerzeichen (Blanks)
und/oder Tabulatoren und/oder Kommas und/oder Doppelpunkte und/oder
Schraegstrichen zwischen den Zahlen. Wird das Komma als Dezimalzeichen
verwendet, z.B. 17,34, dann darf es nicht als Trennzeichen verwendet
werden (Siehe Parameter K).
.
Am Dateianfang duerfen Zeilen mit Merkmalsbezeichnungen auftreten. Als
Trennzeichen sind alle obigen Trennzeichen zulaessig, auch uneinge-
schraenkt das Komma.
.
Ein Datensatz (Daten zu einem Fall, einem Patienten) kann aus mehreren
Zeilen bestehen.
.
Die Zahl Z=Zeilen/Datensatz ist auf Z<=5000 beschraenkt.
Eine Zeile ist maximal 255 Zeichen lang.
.
Leerzeilen werden als Zeilen gezaehlt (z.B. bei Skip Anfangszeilen
oder bei der Ueberprufung, ob Z Zeilen pro Datensatz vorliegen.)
.
Maximal 500 Merkmale werden gelesen, der Rest uebergangen.
Bei mehr als 20 Merkmalen muessen sie 20 fuer die Datenbasis auswaehlen.
Die Daten von maximal 4000 Datensaetzen werden gespeichert.
.
Unformatierte Standard-Daten koennten wie folgt aussehen (2 Beispiele):
.
Zeit,Strom Wasser / Luft Diff oder 1 17.6 19.3 0.07 -0.56
Druck Temp 2 ---- +20.1 1.7E-3 Ausf
1 ---- +20.1; 1.7E-3: Ausf 3 .......................
0.73 27,3 4 .......................
2 4.23 20.2 1.6e-3 7.5
0.74 27,4
...............
.
Unformatierte Standard-Daten erfuellen folgende Bedingungen :
.
- Eine Datei muss mindestens 3*Z Zeilen enthalten. Z.B. bei einer
Zeile pro Datensatz (Z=1) sind das 3 Zeilen.
.
- Die Datei darf Merkmalsbezeichnungen am Anfang haben. Das erste
Zeichen ungleich Blank muss dann in jeder Namenszeile ein Buch-
stabe sein. Fehlen Namen, werden Merkmalsbezeichnungen "M001",
"M002", ... generiert. Maximal 500 Namen werden uebernommen.
DASY-Merkmalsnamen werden auf 6 Zeichen gekuerzt. Weitere Zeichen
erscheinen nur noch im Etikett.
Die erste Datenzeile (und nur diese) darf nicht mit A oder Ausf
oder einer aehnlichen Alphacodierung eines Ausfallers beginnen.
Nehmen Sie z.B. --- an dieser Stelle als Ausfallcodierung.
.
- Die eigentlichen Daten sind rein numerisch. Jeder Datensatz enthaelt
gleichviele Zahlen, die durch ein Trennzeichen (siehe oben) getrennt
sind. Diese Zahlen duerfen sich beliebig auf die Z Zeilen des Daten-
satzes verteilen, auch von Datensatz zu Datensatz in beliebiger Auf-
teilung auf die Z Zeilen. Die erste Zahl wird Merkmal 1 zugeordnet,
die zweite Merkmal 2 usw.
.
- Alles, was sich nicht eindeutig als Zahl interpretieren laesst, wird
als Ausfaller (fehlender Wert) uebernommen (intern -1E+25).
Beispiele fuer Ausfaller sind --- A a Ausf ### o fehl F f.
Leerzeichen (Blanks) oder 0 (Null) definieren k e i n e n Ausfall.
.
Zahlen koennen ein Vorzeichen, einen Punkt (bei PARAMS K auch statt
Punkt ein Komma) und/oder einen Exponenten enthalten.
Z.B. 1.7e-3 wird als 1.7 mal 10 hoch minus 3 interpretiert.
.
- Komma als Trennzeichen u n d als Dezimalzeichen ist unzulaessig.
Komma als Dezimalzeichen muss mit Parameter K unter PARAMS ange-
meldet werden.
Zahlen der Form 123.456,78 oder 123,456.78 sind unzulaessig.
- - -
.
DASYDAT-Error: Fehler beim Eroeffnen
eines Dateneingabefile
.
- Es existiert keine Datendatei des gewuenschten Namens
- Sie steht nicht im gewaehlten Directory, sondern woanders
- Sie laesst sich physisch nicht eroeffnen (Laufwerk? Diskette?)
- - -
.
DASYDAT-Fehler: Fehler bzw. Hinweise beim Lesen der Datendatei
- Physischer Lesefehler (Laufwerk? Diskette?)
- Die Anzahl der Spaltenbezeichnungen stimmt nicht ueberein
mit der Anzahl der Zahlenwerte in den folgenden Datenzeilen.
- Die Datenzeilen enthalten eine unterschiedliche Anzahl von
Zahlenwerten
- Es sind Ausfaelle aufgetreten
- Es sind ganze Spalten ausgefallen (z.B. Spalten mit alpha-
numerischer Information, wie Bezeichnungen, Uhrzeiten mit
Doppelpunkt usw.)
- Es gibt Werte ausserhalb der 3-s-Grenze. Hier besteht die Gefahr
von Datenfehlern (Kommastelle verrutscht, 7 statt 1 getippt)
- Es sind Leerzeilen in der Datei aufgetreten (werden uebergangen)
- Es sind mehr als 4000 Zeilen bzw. 20 Spalten aufgetreten. Die
ueberzaehligen Daten werden ignoriert.
- - -
.
Fehlerbehebung bzw. Diagnose
- Physischer Lesefehler: Diskette nicht eingelegt, falsches Laufwerk,
Diskette oder Laufwerk defekt
- Spaltenbezeichnungen ueberzaehlig oder zu wenig: Achten Sie auf Blanks
in den Bezeichnungen! Druck absolut zaehlt wie 2 Bezeichnungen
- Datenzeilen mit unterschiedlich vielen Werten: Trennzeichen Blank
vergessen ( 1.7-2.3 erzeugt z.B. nur einen Ausfaller), tatsaechlich
ungleich viele Werte pro Datenzeile eingetippt, Datenzeile versehent-
lich durch ENTER geteilt
- Werte ausserhalb 3-s-Grenze: Maximum oder Minimum der gelesenen Daten
liegt weiter als 3 Standardabweichungen vom Mittelwert entfernt. Es
besteht die Gefahr eines Tippfehlers oder einer Datenstoerung.
.
formatierte ASCII-Standard-Daten lesen
.
Wie man eine Datei auswaehlt, ist an zwei Beispielen am Anfang des
Kapitels "Unformatierte ASCII-Standarddaten lesen" erklaert.
.
.
Liest ein Datenfile unter Zuhilfenahme einer FORMAT-ANWEISUNG bzw.
einer FORMAT-TABELLE.
.
Formatierte Daten liegen als ASCII-Datei vor. Diese besteht aus DATEN-
SAETZEN konstanten Aufbaus. Ein Datensatz kann aus mehreren ZEILEN be-
stehen. Formatierte Daten duerfen ohne jedes Trennzeichen in der Zeile
stehen. Die gegenseitige Abtrennung der Eingabefelder wird durch das
FORMAT erklaert.
.
Die Menge der durch das FORMAT beschreibbaren Merkmale ist maximal 500.
Die Menge der Zeilen eines einzelnen Datensatzes ist maximal 100 Zeilen.
.
Beispiel: Ein Fragebogen besteht aus 4 Blaettern mit 25, 27,25,30 Fragen.
Die Antworten ergeben einen Datensatz mit 4 Zeilen. Die Datensaetze aller
Probanden haben den gleichen Aufbau, d.h., die Antwort auf Frage 22 von
Blatt 4 muss bei jedem Datensatz in Zeile 4 an genau derselben Position
in der Zeile stehen.
.
Ein einzelner eingetippter Fragebogen koennte dann so aussehen:
.
2312324a4423232323423232a
aaaa442324aaaa5451232322221
55524342311111aaaaaaa1234
3241324aa542324232431314232a13
.
Die gesamte Datei aus maximal 4000 solcher 4-er-Gruppen von Zeilen.
.
Zur Eingabe einer formatierten Datei ist eine Formatbeschreibung, kurz
ein FORMAT, noetig. DASY bietet hier zwei alternative Formatbeschreibung-
en an: Die FORMAT-Anweisung und die FORMAT-Tabelle.
.
Die FORMAT-Anweisung kann sehr kompakt (kurz) sein und auf Merkmals-
namen verzichten. Die FORMAT-Tabelle uebermittelt immer Merkmalsnamen.
Kommentar ist bei beiden Formatbeschreibungen moeglich.
.
Beide Typen von Formatbeschreibung werden als eigenstaendige Datei abge-
speichert und sind bei einer spaeteren Dateneingabe wieder verfuegbar.
Sie koennen mit einem beliebigen Texteditor oder aber mit DASY angefertigt
werden. Heisst die Daten-Datei z.B. PSYCHO.DAT, dann sollte das zuge-
hoerige FORMAT den Namen PSYCHO.FMA (Formatanweisung) oder aber PSYCO.FMT
(Formattabelle) haben.
.
(DASY sucht zuerst im Verzeichnis der Daten-Datei nach einem gleich-
namigen FORMAT.) Jedoch ist die Namensgleichheit und die Extension ".FMA"
bzw. ".FMT" nicht zwingend vorgeschrieben. Moeglich waere z.B. auch eine
Bezeichnung wie form1.txt, wenn verschiedene Daten-Dateien dasselbe
Format haben.
.
DASYFOR: Wie muessen die Daten in der Eingabedatei aussehen?
.
Dieser Abschnitt trifft gleichermassen auf die Eingabe mit FORMAT-
Anweisung als auch auf die Eingabe mit FORMAT-Tabelle zu.
.
Ein FORMAT kann bis zu 500 Merkmale in einer Datei benennen. Bei
einem Einlesevorgang kann DASY jedoch nur eine Auswahl von maximal 20
Merkmalen tatsaechlich uebernehmen. Der Anwender hat jedoch die Moeg-
lichkeit, mit ein und demselben FORMAT mehrere Auswertungen durchzu-
fuehren, indem er immer wieder Gruppen von bis zu 20 Merkmalen einliest.
Die Auswahl der maximal 20 zu lesenden Merkmalen erfolgt im Dialog.
.
Zu jedem Objekt (Proband, Patient) gehoert ein DATENSATZ. Ein Datensatz
besteht aus mindestens einer, aber maximal 100 ZEILEN. Die Einzeldaten,
z.B. das Alter, stehen in EINGABEFELDERN. Diese haben konstante Position
und Laenge in der Zeile. Ein Trennzeichen zwischen Eingabefeldern ist
unnoetig. Ein Eingabefeld ist maximal 20 Zeichen lang.
.
In jedem Eingabefeld sind Blanks erlaubt. Sie werden ignoriert. Z.B.
sind die Eingaben "832 " oder "83 2 " oder " 832" bei einem Feld der
Laenge FL=5 gleichwertig.
.
Bei metrischen Daten darf das Eingabefeld auch Vorzeichen, Dezimalpunkt
und Exponent enthalten, z.B. 0.1 -3.7 0.84 -3e-07 +22.6E12
Ein Dezimalpunkt oder ein Exponent im Eingabefeld ueberschreibt die Dezi-
malstellenangabe aus dem FORMAT, d.h. die gelesene Zahl wird so ueber-
nommen, wie vorgefunden, z.B. Gewicht "83.15" ergibt 83.15 Kg trotz An-
gabe D=1. Jede Zeichenkette, die sich nicht als Zahl interpretieren
laesst, wird als Ausfall behandelt (Z.B. " "," - ","1A4","# ").
Intern werden Ausfaelle als -1e25 gespeichert.
.
Liegt ein Eingabefeld ausserhalb der gelesenen Datenzeile (z.B.
weil diese zu kurz ist), dann wird ein Ausfall angenommen.
.
Parameter sind zusaetzliche (optionale) Angaben zur Nutzung weiterer
Moeglichkeiten der formatierten Eingabe. Die Parameteranweisung hat die
Form (Beispiel):
.
PARAMETER( Z=3, A=1 ).
.
Sie ist Bestandteil des Kommentars. Sinnvoll ist eine Anordnung am
Anfang des Kommentars.
.
Leerzeichen und Gross-Kleinschreibung sind beliebig verwendbar. Die moeg-
lichen Parameter (in beliebiger Reihenfolge) sind:
.
Z Zeilenzahl/Datensatz z.B. Z=3 heisst, dass ein Datensatz 3 Zeilen hat
Default ist die Zeilenzahl, die sich bei der Formatanweisung aus 1 +
Zahl der "/" ergibt, bei der Formattabelle die hoechste Zeilenposition.
.
A Ausfallbehandlung (bezieht sich auf die ausgewaehlten max. 20 Merkmale)
A=0 Alle Daten, auch Ausfaelle, uebernehmen (Default)
A=1 Nur Datensaetze mit mindestens 1 gueltigem Wert
A=2 Nur Datensaetze ohne jeden Ausfall uebernehmen
.
S Skip Startzeilen uebergeht in der zu lesenden Datei die n ersten Zeilen
S=8 uebergeht z.B. die ersten 8 Zeilen des Datenfiles
(Sinnvoll bei Tabellenkoepfen, Kommentaren,...)
.
Der Dialog zur Eingabe der FORMAT-Anweisung hat die Form:
.
FORMAT-Anweisung
Abbruch Sie wollen in Ruhe ueberlegen
Hilfe Sie wollen sich im Help-File informieren
FORMAT-Anw Sie wollen die FORMAT-Anweisung eintippen oder aendern
Pfad Sie wollen den Pfadnamen eintippen oder aendern
O.K. Sie wollen die eigentliche Dateneingabe starten
- - -
.
DASYFORA: Formatbeschreibung durch FORMAT-Anweisung
.
Die FORMAT-Anweisung beschreibt sehr knapp die Datenanordnung eines
Datensatzes, kann Merkmalsnamen vergeben ,Kommentar speichern und
einige spezielle Datenbehandlungen, wie Anfangszeilenskip oder
Ausfallbehandlung befehlen:
.
DASY-FORMAT-ANWEISUNG (notwendige Kennung Zeile 1)
.
FORMAT(x4,m2,m2,x3,m1/x4,m1,m5.1) (auch mehrere Zeilen)
.
NAMEN(Alter,Beruf,Geschl,Typ,Gewicht) (auch mehrere Zei.)
.
PARAMETER( A=1 )
.
Kommentar........
................. (alles zusammen maximal 500 Zeilen)
.
Dabei bedeutet in der Zeile FORMAT(...):
.
x4 uebergehe 4 Zeichen in der Datenzeile
m2 Lies ein Merkmal (2 Zeichen in der Datenzeile)
/ Gehe zum Anfang der naechsten Zeile innerhalb des Datensatzes
m5.1 Lies Merkmal (5 Zeichen. Ein gedachter Dezimalpunkt
vor der letzten Ziffer. Dezimalpunkt oder Exponentenangabe in
der Datenzeile selbst hat aber Vorrang vor dem gedachten Punkt.
Die Dezimalenstellenangabe ist auf eine Ziffer beschraenkt, d.h
m5.9 setzt den gedachten Punkt 9 Stellen vor die letzte Ziffer)
.
Weitere Moeglichkeiten des FORMATs sind Vervielfachungsfaktoren
und Klammern (Klammerungstiefe maximal 10), z.B.
.
FORMAT(2(x5,3m1,2x,2m3.1/)x5,3m1,2x,2m3.1)
.
wirkt wie FORMAT(x5,3m1,2x,2m3.1 / x5,3m1,2x,2m3.1 / x5,3m1,2x,2m3.1)
.
Kommata und Blanks koennen beliebig zusaetzlich gesetzt werden. Klammern
und Schraegstriche muessen nicht (duerfen aber) von Kommata bzw. Blanks
begleitet werden.
.
Die Formatdatei beginnt mit der Kennung DASY-FORMAT-ANWEISUNG in Zeile
1, Spalte 1.
Das FORMAT beginnt mit FORMAT( und endet mit )
Die Namen beginnen mit NAMEN( und enden mit )
Sonstige Zeilen sind Kommentar.
.
Gross- oder Kleinschreibung ist nicht relevant (FORMAT( oder format(
wirken gleich). Die Kennung DASY-FORMAT-ANWEISUNG muss immer die erste
Zeile bilden, die Reihenfolge von FORMAT, NAMEN, Kommentar ist beliebig.
Leerzeilen zwischen den Bestandteilen Kennung, FORMAT, NAMEN und
Kommentar sind erlaubt. Der Kommentar ist voellig freier Text.
.
Die Angabe von NAMEN ist optional. Fehlen die Namen, werden Kunstnamen
M001,M002,... erzeugt.
.
Zu den Parametern PARAMETER(...) siehe einfuehrenden Text weiter oben.
.
Bei der Eingabe der Formatanweisung mittels DASY sind folgende Tasten
wirksam:
.
- Texttasten: Ziffern, Buchstaben, Sonderzeichen (ASCII-Code 32 bis 126
und 128-254)
.
- Pfeil nach oben: Im Text nach oben. Maximal bis Zeile 1
.
- Pfeil nach unten: Im Text nach unten. Es werden Leerzeilen hinzuge-
fuegt, wenn die letzte vorhandene Zeile ueberschritten wird
.
- Links-Loeschen: Das Zeichen links vom Kursor wird geloescht
Links-Loeschen am Zeilenanfang verbindet zwei Zeileninhalte
.
- Einfuegen: Vor der Kursorzeile wird eine Leerzeile eingefuegt und diese
zur Kursorzeile
.
- Entfernen: Die Kursorzeile wird geloescht. Die nachfolgende Zeile wird
Kursorzeile. Wenn nur noch eine Zeile vorhanden ist, bleibt die Taste
unwirksam.
.
- Pfeile links und rechts, um Zeichen innerhalb der Zeile zu loeschen
.
- ENTER teilt die Zeile am Kursor
.
- Escape: fuehrt ins Menue zurueck
.
.
FORMAT-Menue zur Eingabe einer FORMAT-Anweisung
Abbruch Sie wollen in Ruhe ueberlegen
Hilfe Sie wollen sich im Help-File informieren
Text Sie wollen FORMAT, NAMEN, Kommentar eingeben oder aendern
Pfad Sie wollen den Pfadnamen des FORMAT-Files aendern
O.K. FORMAT-File abspeichern und Dateneingabe fortsetzen
- - -
.
.
DASYFTAB: Formatbeschreibung durch FORMAT-Tabelle
.
Beispiel: (Die Querstriche gehoeren nicht zur FORMAT-Datei, Gross- und
Kleinschreibung beliebig erlaubt, Vornullen z.B. bei ZEILEN/DATENSATZ
nicht notwendig, wohl aber das Blank als Trennzeichen zum nachfolgenden
Schluesselwort):
.
DASY-FORMAT-TABELLE {notwendige Kennung fuer DASY in Zeile 1}
.
parameter( A=1 ) {optionale Parameterangabe }
.
{Leerzeilen sind optional und zaehlen ebenfalls zum Kommentar }
Kommentar (mit Parameteranweisung zusammen) kann 500 Zeilen lang sein.
.
Gewoehnlicher Kommentar besteht aus Text. Man hat hier die
Moeglichkeit, eine genaue Beschreibung der Daten, z.B. die Fragen des
Fragebogens und die Codierung der Antworten zu erklaeren. Die Zeilen des
Kommentars duerfen ungleich lang sein. Der Kommentar kann aber auch ganz
fehlen. Er kann zur besseren Lesbarkeit mit Leerzeilen gegliedert sein
bzw. mit einer solchen enden. Die Zeilenlaenge ist auf 74 Zeichen be-
schraenkt.
.
Die Start-Zeile der TABELLE beginnt mit *NAME* in Position 1-6 der Zei-
le. Ausser dem vorgeschriebenen Zeilenanfang *Name* ist der Rest dieser
Zeile beliebig. Sinnvoll ist jedoch eine sinngemaesse Spaltenbenennung,
wie sie hier zu sehen ist. Maximal 500 Merkmale duerfen deklariert
werden.
.
*name* Zei Spa Typ FL D Skip ETIKETT {Kopfzeile der Tabelle}
Alter 1 5 m 2 0 0 Alter-in-Jahren
Beruf 0 0 m 2 0 3 Beruf-codiert
Geschl 0 0 m 1 0 0 Geschlecht.codiert.w=1.m=2
Frag1 2 5 m 1 0 0 Bedeutung.Kommunikation.0-5
Gewich 0 0 m 5 1 0 Gewicht-mit-1-Dez.-in-Kg
..... ... .. .. .. .. ...................
.
PARAMETER(...) siehe einfuehrender Text zur formatierten Eingabe
.
.
NAME max. 6-stelliger Merkmalsname. Beginnt mit Buchstaben. Moeg-
lichst keine Sonderzeichen innerhalb des Namens verwenden. Auf
keinen Fall Blanks. Unbedenklich ist das Zeichen "_"
.
ZEI SPA Positionsangabe des Eingabefeldes. Null "0" steht fuer Default.
Default beim ersten Merkmal ist 1/1, d.h. Zeile 1 und Spalte 1.
0 bei weiteren Merkmalen heisst, dass sich die Position aus der
Position und Laenge des vorangegangenen Eingabefeldes und einer
eventuellen Angabe bei SKIP ergibt. So hat Beruf Position (1,7)
oder Gewicht die Position (2,6)
.
TYP Typ des Merkmals: Es gibt nur den Typ "m"
.
FL Laenge des Eingabefelds. Maximal 20
2 zwei Zeichen werden gelesen
5 fuenf Zeichen werden gelesen
.
D Dezimalstellenzahl. Maximal 9. Nur bei metrischen Merkmalen
voll. Enthaelt die gelesene Zeichenkette keinen Dezimalpunkt und
keinen Exponenten, dann wird die gewandelte Zahl mit 10^-D
multipliziert. Beispiel Gewicht: Die 5 Character im Eingabefeld
" 832 " ergeben 83.2 nach der Eingabe, ebenso " 832".
.
SKIP Uebergang zum naechsten Eingabefeld
3 bedeutet z.B., dass 3 Zeichen zu uebergehen sind, um vom
Ende des aktuellen Eingabefeldes zur Anfangsposition des
naechsten Eingabefeldes zu gelangen.
.
Die Arbeit mit SKIP ist oft einfacher, als staendig die
Position Zei/Spa zu berechnen.
.
ETIKETT Maximal 24 Zeichen fuer den Langnamen des Merkmals. Er darf
im Namen keine Blanks enthalten. Auffuellen mit "." oder "-".
In den meisten Ausgabetabellen von DASY wird jedoch nur ein
Teil des Etiketts angezeigt (aus Platzgruenden).
.
.
FORMAT-Dialog Wie wird die FORMAT-Datei bereitgestellt?
.
Abbruch Sie wollen den Zusammenhang Datei und FORMAT in Ruhe ueberlegen
Hilfe Sie wollen sich im Help-File informieren
.
Suchen Die FORMAT-Datei hat einen speziellen Pfadnamen
Anlegen Sie wollen eine neue FORMAT-Datei anlegen
- - -
.
FORMAT-Maske zur Eingabe einer FORMAT-Tabelle
Abbruch Sie wollen in Ruhe ueberlegen
Hilfe Sie wollen sich im Help-File informieren
Kommentar Sie wollen Kommentar/Parameter eingeben oder aendern
Tabelle Sie wollen die FORMAT-Tabelle eingeben oder aendern
Pfad Sie wollen den Pfadnamen des FORMAT-Files aendern
O.K. FORMAT-File abspeichern und Dateneingabe fortsetzen
- - -
.
Bei der Kommentareingabe sind folgende Tasten wirksam:
.
- Texttasten: Ziffern, Buchstaben, Sonderzeichen (ASCII-Code 32 bis 126
und 128-254)
.
- Pfeil nach oben: Im Kommentartext nach oben. Maximal bis Zeile 1
.
- Pfeil nach unten: Im Text nach unten. Es werden Leerzeilen hinzuge-
fuegt, wenn die letzte vorhandene Kommentarzeile ueberschritten wird
.
- Links-Loeschen: Das Zeichen links vom Kursor wird geloescht
Links-Loeschen am Zeilenanfang verbindet zwei Zeileninhalte
.
- Einfuegen: Vor der Kursorzeile wird eine Leerzeile eingefuegt und
diese zur Kursorzeile
.
- Entfernen: Die Kursorzeile wird geloescht. Die nachfolgende Zeile wird
Kursorzeile. Wenn nur noch eine Zeile vorhanden ist, bleibt die Taste
unwirksam.
.
- Pfeile links und rechts, um Zeichen innerhalb der Zeile zu loeschen
.
- ENTER teilt die Zeile am Kursor
.
- Escape: fuehrt ins Menue zurueck
.
Bei der Eingabe der Format-Tabelle sind folgende Tasten wirksam:
.
- Texttasten wie beim Kommentar
.
- Pfeil nach oben: In der Tabelle nach oben, maximal bis Zeile 1
.
- Pfeil nach unten: Es werden neue Tabellenzeilen angefuegt, wenn
das augenblickliche Tabellenende ueberschritten wird
.
- Links-Loeschen: Das Zeichen links vom Kursor wird geloescht
.
- Einfuegen: Vor die Kursorzeile wird eine neue Zeile eingefuegt und
diese zur Kursorzeile
.
- Entfernen: Die Kursorzeile wird geloescht. Die nachfolgende Zeile wird
Kursorzeile. Wenn nur noch eine Zeile vorhanden ist, bleibt die Taste
unwirksam.
.
- Escape: fuehrt ins Menue zurueck
.
Bei der Eingabe des Pfadnamens: Texttasten, Links-Loeschen, Escape
Bei der Eingabe Zeilen/Datensatz: Zifferntasten, Links-Loeschen, Escape
.
FORM-Merkmals-Auswahl-Maske
.
Die Datei hat ueber 20 Merkmale Markierte Merkmale erscheinen
Sie muessen eine Auswahl treffen rot, unmarkierte schwarz.
Markieren Sie die Merkmale mit Markierung loeschen: Einfach
ENTER oder Mausklick nochmals anklicken
.
Abbruch Sie wollen ueberlegen Wenn Sie O.K. geben, muss
Hilfe Sie wollen Information mindestens 1 Merkmal, aber
O.K. Sie haben gewaehlt maximal 20, markiert sein.
- - -
.
Tafel-Eingabe einer Kontingenztafel
.
Wie man eine Datei auswaehlt, ist an zwei Beispielen am Anfang des
Kapitels "Unformatierte ASCII-Standarddaten lesen" erklaert.
.
Liegt eine Kontingenztafel schon ausgezaehlt vor, dann kann sie einge-
lesen werden. 2-dimensionale Tabellen (2 Merkmale) koennen als Zellen
oder zeilenweise vorliegen. Tabellen mit mehr als 2 Merkmalen koennen
nur als Zellen vorliegen. Den unterschiedlichen Aufbau zeigt die
Beispieldatei mit 3 Tafeln. {Kommentare} gehoeren nicht zur Datei:
.
TAFEL Butzmann und Lederer (Angst und Verdraengung, PSU 6, 2001, 94
1 : 14 7 3 9 {Zeilenenweise 2x4-Tafel
2 : 0 11 1 34 Doppelpunkt ist hier wichtig}
.
Table Butzmann und Lederer (Angst und Verdraengung, PSU 6, 2001, 94
NAMEN(Angst,Verdraengung) {Merkmalsnamen statt M01, M02}
1 : 14 7 3 9 {Zeilenenweise 2x4-Tafel
2 : 0 11 1 34 Doppelpunkt ist hier wichtig}
.
TABLE Winterer, Allgeier und Bank, Schuld und Suehne 4.2
Namen(Schuld, Suehne, Opfer) {Merkmalsnamen statt M01,M02,M03}
1 1 1 : 17 { 2x2x2-Tafel als Zellen
2 1 1 114 Doppelpunkt hier unwichtig
1 2 1 3 Letzte Spalte die Frequenz
2 2 1 0 Diese 0-Zeile darf fehlen
2 1 2 : 3 Zeilen duerfen beliebig
2 2 2 15 sortiert auftreten
1 1 2 182 Zahl der trennenden Blanks
1 2 2 5 beliebig ( >0 ) }
.
- Es koennen bis zu 500 Tabellen in einer Datei sein
.
- Jede Tabelle muss mit einer Kennzeile beginnen
.
- Die Kennzeile beginnt in Spalte 1 mit TAFEL oder TABLE in beliebiger
Gross/Kleinschreibung (auch tAbLe oder TAfeL moeglich) und sollte einen
Hinweis auf die Herkunft der Daten geben
.
- Fehlt die Zeile NAMEN(...), werden Merkmalsnamen M01,M02,...
ala Default angenommen
.
- Merkmalsnamen koennen bis 24 Zeichen lang sein. Die ersten 6 Zeichen
ergeben die Merkmalsbezeichnung, die gesamte Zeichenkette das Etikett.
Blanks innerhalb von Namen sind nicht erlaubt, wohl aber "_"
.
- Alle Merkmalsnamen muessen auf einer NAMEN-Zeile Platz haben
.
_ Spaltenkategorien bei zeilenweiser Eingabe sind automatisch 1,2,..
.
- Leerzeilen sind nur zwischen einem Tabellenende und der naechsten
Kennzeile erlaubt
.
- Bei der zeilenweisen Eingabe muss nach der Zeilenkategorie unbedingt
ein Doppelpunkt kommen, danach die Frequenzen der Zeile.
.
- Bei der Eingabe als Zellen duerfen leere Zellen (Frequenz 0) wegge-
lassen werden.
.
- Intern wird eine Tabelle aus n Merkmalen als n (kategoriale) Merkmale
und einem (metrischen) Merkmal FRQUNZ (Frequenz) gespeichert.
.
- maximal 4000 Zellen koennen gelesen werden
.
- maximal 20 Merkmale insgesamt zusammen mit FRQUNZ
.
.
Dateneingabe von Files des PREMA Messcomputers MC8047-Daten
.
Es werden Daten des Messcomputers MC8047 gelesen.
.
.
Wie man eine Datei auswaehlt, ist an zwei Beispielen am Anfang des
Kapitels "Unformatierte ASCII-Standarddaten lesen" erklaert.
.
Die Files des PREMA Messcomputers heissen MRii.HAD (Headerfile) und
MRii.D00, MRii.D01, ... Dabei ist ii eine Messreihnnummer (00,01,...).
.
Zu einer Messung der Messreihe 00 mit den Kanaelen 0,1,2 gehoeren somit
die 4 Dateien MR00.HAD, MR00.D00, MR00.D01, MR00.D02. Das Headerfile
enthaelt als wichtigste Information das Zeitintervall zwischen zwei
Messungen. Die Datenfiles enthalten die nackten Messwerte.
.
Bei Messung mit den Frontbuchsen heisst das Datenfile MRii.DAT.
.
Die Merkmale heissen in DASY "Zeit", "AA", "BB", "CC", ...
.
Dateneingabe von Files des micromec-Datenloggers
.
Es werden micromec-Daten gelesen.
.
Wie man eine Datei auswaehlt, ist an zwei Beispielen am Anfang des
Kapitels "Unformatierte ASCII-Standarddaten lesen" erklaert.
.
Die Files heissen *.prn, z.B. GAS.PRN. Sie bestehen aus einem Informati-
onsteil (Zeile 1-10) und den Datenzeilen.
.
Der Informationsteil enthaelt z.B. Sensorbezeichnungen, Einheiten,
Kanalnummern. Diese werden, soweit vorhanden, als Merkmalsbezeichnungen
und im Etikett eines Merkmals verwendet.
.
Die Zeit steht in der Form tt:mm:ss als erste Datenspalte einer Daten-
zeile. Es folgen die eigentlichen Messwerte nach steigender Kanalnummer.
.
Die Merkmale heissen in DASY "Zeit", "AA", "BB", ..., wenn keine
Sensorbezeichnungen gefunden werden. Das ist z.B. bei der
"Simultanmessung" der Fall.
.
Merkmalsbezeichnungen wie T_1, T_2, Wi1, U_1 usw. werden benutzt, wenn
Sensorbezeichnungen erkannt werden, die auf Temperatur, Wind, Spannung
usw. hinweisen. Bei Daten, die im Datenlogger gespeichert waren, sind
die Sensorbezeichnungen z.B. vorhanden.
.
.
SAVE-DATAs und BACKUP DATAs
.
SAVE DATA: DASY kopiert die Arbeitsdaten (maximal 20 Merkmale) auf zwei
Hilfsfiles mit den Namen SAVEDATA.VAR und SAVEDATA.DAT. SAVEDATA.VAR
enthaelt Information zu Datum, Uhrzeit, Herkunft, Variablennamen usw.
File SAVEDATA.DAT enthaelt als Kopfzeile die maximal 6-stelligen Merk-
malsbezeichnungen und weiter je Datenzeile einen Vektor mit maximal
20 Gleitkommazahlen im Format +1.2345E+12. Durch die Konvertierung
zwischen intern binaer und extern ASCII geht die Genauigkeit auf 6
Stellen in der Mantisse zurueck.
.
BACKUP DATA: Beide Files bleiben bis zum naechsten SAVEDATA, d.h. auch
nach der Sitzung, erhalten und koennen jederzeit, d.h. waehrend der lau-
fenden Sitzung oder auch auch in einer spaeteren Sitzung mit BACKUP DATA
wieder aktiviert werden.
.
Das File SAVEDATA.DAT kann auch mit der normalen unformatierten Daten-
eingabe gelesen werden. In diesem Falle koennen eventuell einige (eher
unwichtige) Informationen verloren gehen (urspruenglicher Pfadname der
originalen Datei, Datum des SAVEDATA, Etiketten, Plotinformation fuer
Ergebnisvariablen der einfachen Regression).
.
Datenflussdiagramm
==> Generieren, Transformieren, Loeschen
^ von Mermalen !
! v
Eingabe eines ======> Arbeitsdaten <==============================
Originalfiles ! ^
! Save Data !
v !
Files SAVEDATA ==> Backup ======
.
Menue-SAVE-DATA
.
Abbruch Sie haben es sich anders ueberlegt
Hilfe Sie wollen sich informieren
.
SAVE DATA Sie wollen die Arbeitsdaten sichern
- - -
.
Menue-BACKUP-DATA
.
Abbruch Sie haben es sich anders ueberlegt
Hilfe Sie wollen sich informieren
.
BACKUP Sie wollen die alten Arbeitsdaten wiederherstellen
- - -
TESTDATA Eingabe der Datei TESTDATA.DAT
.
Eine Datei mit 50 Zeilen und 12 Spalten und zufllig verteilten Ausfael-
len wird eingelesen. Die Bedeutung der 12 Merkmale M01 bis M12 ist:
.
M01 = Aufz1 Nummern 1,2, ..., 50
M02 = Aufz2 Wie M01, aber mit kleinen zufaelligen Abweichungen
M03 = Quad Quadrat von M02
M04 = Wurz Quadratwurzel von M02
M05 = Exp1 Exp(+M02/10) bzw. e^(+Mo2/10)
M06 = Exp2 Exp(-M02/10) bzw. e^(-M02/10)
M07 = Sinu Sin( M02/3)
M08 = Cosi Cos( M02/3)
M09 = rRand1 Gleichverteilte Zufallszahlen [ 0, 1]
M10 = rRand2 Gleichverteilte Zufallszahlen [-1, 1]
M11 = iRand1 Ganze Zufallszahlen 0, 1, 2
M12 = iRand2 Ganze Zufallszahlen 0, 1, 2, 3, 4
.
Aufz1 Aufz2 Quad Wurz ..... iRand1 iRand2
1.000E+00 1.017E+00 1.034E+00 1.008E+00 ..... -1.000E+25 1.000E+00
2.000E+00 2.042E+00 4.168E+00 1.429E+00 ..... 1.000E+00 1.000E+00
3.000E+00 2.954E+00 8.728E+00 1.719E+00 ..... 0 1.000E+00
4.000E+00 4.017E+00 1.614E+01 2.004E+00 ..... 0 -1.000E+25
5.000E+00 4.961E+00 2.461E+01 2.227E+00 ..... 1.000E+00 0
6.000E+00 5.955E+00 3.546E+01 2.440E+00 ..... 1.000E+00 2.000E+00
........................................................................
........................................................................
4.800E+01 4.802E+01 2.306E+03 6.930E+00 ..... 2.000E+00 0
4.900E+01 4.904E+01 2.405E+03 7.003E+00 ..... 1.000E+00 1.000E+00
5.000E+01 4.996E+01 2.496E+03 7.068E+00 ..... 0 0
.
.
Statistiken
.
Zu jedem belegtem Merkmal werden statistische Daten ausgegeben. Als be-
legt gilt ein Merkmal mit einem Namen ungleich Blank. Die Statistiken
werden auch fuer kategoriale Merkmale berechnet, obwohl hier nur Anzahl,
Ausfaelle, Minimum(=0) und Maximum(=Kategorienzahl) relevant sind.
.
Statistik-Menue
.
Abbruch Sie haben es sich anders ueberlegt
Hilfe Sie wollen sich informieren
.
Einfache Je Merkmal Mittelwert, Standardabweichung, Minimum, Max.
Quantile Je Merkmal die Quantile Q10, Q25, Q50=Median, Q25, Q90
Boxplots Boxplots fuer waehlbare Merkmalskombinationen
Tests Je Merkmal Tests auf Normalverteilung
.
O.K. Sie wollen die gewaehlten Statistiken sehen
.
Klicken Sie die Punkte im Menue an, die Sie berechnet haben wollen.
Nochmaliges Anklicken macht die Auswahl rueckgaengig.
Die Ausgaben erscheinen nach dem O.K. auf Bildschirm & Protokoll.
- - -
.
.
Die einfachen Statistiken zu einem Merkmal sind:
.
Nr Die laufende Merkmalsnummer 1,2,...
Name Merkmalsbezeichnung
Mittel Das arithmetische Mittel der vorhandenen Werte
Stdabw Die Standardabweichung Sigma(n-1) der vorhandenen Werte
Anz Die Anzahl n der vorhandenen Werte
Ausf Die Anzahl der ausgefallenen Werte
Maximum Der groesste vorhandene Wert
Minimum Der kleinste vorhandene Wert
Etikett Die ersten 12 Zeichen eines max. 24 Byte langen Textes
.
.
Quantile
.
Quantile sind Werte auf der Zahlengeraden fr das Merkmal. Die Wahr-
scheinlichkeit fuer das Auftreten eines Variablenwertes links vom
Quantil gibt dem Quantil seinen Namen, z.B. Q10 ==> 10%. Quantile werden
erst berechnet, wenn mindestens 5 zahlenmaessig ungleiche Merkmalswerte
vorliegen, von denen keiner ein Ausreisser ist.
.
Zur Berechnung der Quantile werden die Merkmalswerte sortiert und das
kumulative Histogramm gebildet. Zwischen den Stuetzstellen (den Daten-
punkten) wird linear interpoliert. Der Nullpunkt der Geraden zum ersten
Datenpunkt beginnt bei x = mittelwert - Sigma * u , wobei u aus der
Restwahrscheinlichkeit Rw=1/(7.5*Anz) berechnet wird. Fuer die letzte
Interpolationsgerade, die zum 1-Punkt fuehrt, gilt als Endpunkt
x = mittelwert + Sigma * u .
.
Ausreisser
.
Als Ausreisser wird ein Variablenwert eingestuft, wenn die Restwahr-
scheinlichkeit Rw unter Normalverteilung kleiner als p=1/(7.5*Anz) ist,
wobei Anz die Zahl der Merkmalswerte ist. Bei einem Wert x>Mittelwert
berechnet sich Rw aus dem Zwickel der Normaldichtekurve rechts vom x,
bei x<Mittelwert links vom x. Nach der 3-Sigma-Regel und Anz=100 ist
RW=0.00135. Obige Regel ergibt als kritischen Wert in diesem Fall
P=0.00133, entspricht also der 3-Sigma-Regel bei Anz=100, verhaelt sich
jedoch adaptiv fuer andere Werteanzahlen (z.B. fuer Anz=1000 muesste
eigentlich die 4-Sigma-Regel gelten).
.
Die Ausreissersuche fuer ein Merkmal wird abgebrochen, wenn weniger als
6 gueltige Werte (kein Ausfall, kein Ausreisser) vorhanden sind. Da ein
Ausreisser den naechsten "maskieren" kann, werden die Ausreisser ent-
fernt und dann erneut gesucht, bis keiner mehr vorhanden ist oder die
Anzahl der verbliebenen Werte unter 6 gesunken ist.
.
Die gefundenen Ausreisser werden sowohl auf dem Bildschirm als auch im
Protokoll in der Reihenfolge ihres Auffindens angezeigt.
.
Quantil-Dru: Druckbilderlaeuterung zu den Quantilen
.
Q10 Links von Q10 erwartet man 10% der Merkmalswerte,
Q25 Links von Q25 erwartet man 25% der Merkmalswerte,
Q50 Links von Q50 50% der Merkmalswerte (Median), usw.
AAnz Zahl der Ausreisser unter den Merkmalswerten
- - -
.
Boxplot-Menue
.
Abbruch Sie wollen die Boxplots beenden oder nicht beginnen
Hilfe Sie wollen sich informieren
.
Merkmale Waehlen Sie die Merkmale zu den Boxplots der Graphik
.
Feinplot Maximal 20 Boxplots in einer Graphik sind moeglich
Dickplot Maximal 10 Boxplots in einer Graphik sind moeglich
.
O.K. Sie wollen die Graphik sehen
- - -
.
Aus dem Boxplotmenue kommen Sie mit "Abbruch" ins Hauptmenue zurueck.
.
Boxplots fussen auf den Quantilen. Es sind kleine Kisten der Breite
Q75-Q25, geteilt am Median (Q50). Die kleinen T-foermigen Whiskers
links und rechts markieren Q10 und Q90. Maximum und Minimum werden
durch einen kleinen Kreis angedeutet. Interessant werden Boxplots
durch das Gegenueberstellen. In DASY koennen nur die Boxplots ganzer
Merkmale nebeneinander gestellt werden. Es macht nur Sinn, wenn die
Merkmale verwandt sind (z.B. systolischer Blutdruck gegen diasto-
lischen, oder Jodwert vor Medikamenteneinnahme, Jodwert 1 Stunde nach
Einnahme, 2 Stunden nach usw.)
.
.
Test auf Normalverteilung
,
Der Test auf Normalverteilung erfolgt mit 2 Methoden abhaengig von der
Zahl n der Merkmalswerte des geprueften Merkmals:
.
- Mit dem Kolmogorov-Smirnov Test fuer n = 5, 6, ...
- Mit dem Chiquadrat-Anpassungstest fuer n > 24
.
Mittels einer Voruntersuchung, die die beobachtete Haeufigkeitsver-
teilung und die beobachtete kumulative Verteilung betrachtet, wird
entschieden, welcher der beiden Teste fuer das anstehende Merkmal am
besten geeignet ist. Kriterium ist die Aehnlichkeit zur theoretischen
Haeufigkeitsverteilung (Normalverteilung) bzw. zu ihrer Summenkurve.
.
Wenn berechenbar, werden jedoch beide Teststatistiken ausgegeben.Die
Entscheidung "Ja - Normalverteilung angenommen" oder "Nein - Normal-
verteilung abgelehnt" wird von DASY immer nur auf dem Alphalevel 5%
gefaellt. Der dafuer verwendete Test wird angezeigt.
.
Der Kolmogorov-Smirnov Test (KS-Test) berechnet das relative kumulative
Histogramm cum(x) des Merkmals X, und berechnet anschliessend den Be-
trag des maximalen Abstandes D des Histogramms von der Verteilungs-
funktion F(x) der angenommenen Normalverteilung, d.h.
.
D = abs ( maximum( cum(x) - F(x) ) )
.
Die Teststatistik wird mit dem Sicherheitspunkt der Kolmogorov'schen
d-Verteilung verglichen. Die Sicherheitspunkte sind in DASY hinterlegt.
Man findet sie z.B. in K. Bosch: Formelsammlung der Wahrscheinlichkeits-
rechnung und Statistik, Oldenbourg, 1987. Naeheres zum Kolmogorov-
Smirnov Test findet man z.B. in R. J. Barlow: Statistics, Wiley, 1989.
.
Der Chiquadrat-Anpassungstest berechnet mit dem Mittelwert und der
Standardabweichung der Variablenwerte sowie den Werten u=0.253 und
u=0.842 die Intervallgrenzen fuer k=5 Klassen, in die bei Normalver-
teilung exakt je 20% der Werte fallen muessten. Die u-Werte stammen
aus dem F(u)-Fehlerintegral (Gausssches Fehlerintegral).
.
Anschliessend werden die beobachteten Haeufigkeiten Hi zu jeder der
5 Klassen ausgezaehlt und das Chi-Quadrat berechnet. Erwartungswerte
sind Ei = n/k. Die Verteilung einer Variablen wird als "nicht signifi-
kant von der Normalverteilung abweichend" eingestuft, wenn
Chi^2 < 7.81
ist, d.h. das Chi^2 kleiner als der Sicherheitspunkt der Chiquadrat-
verteilung fuer einen Freiheitsgrad FG=3 und Alpha=5% ist. Ist das
Chi^2 groesser oder gleich 7.81, wird die Verteilung als "signifikant
von der Normalverteilung abweichend" eingestuft. In jedem Fall wird die
Irrtumswahrscheinlichkeit P=KIW ausgegeben.
.
Normal-Dru: Druckbilderlauterung zum Test auf Normalverteilung
.
Anz Zahl der im Test verwendeten Merkmalswerte ohne Ausreisser
h1.. Klassenfrequenzen zum Chiquadrat-Anpassungstest
E Erwartungswert der unter NV gleichwahrscheinlichen Klassen
Chi2 Chiquadrat mit Freiheitsgrad FG=3 (5 Klassen)
D Teststatistik D=Max(abs(Cum(x)-F(x))) nach Kolmogorov
T Verwendeter Test: K=Kolmogorov-Smirnov, C=Chiquadrat
KIW Kritische Irrtumswahrscheinlichkeit bei Ablehnung der NV
--- keine Aussage aus Mangel an Daten ( Anz<5 )
NV? Ja =Normalverteilung wird angenommen, wenn KIW > 0.05
Nein=Normalverteilung wird abgelehnt, wenn KIW <= 0.05
- - -
.
.
In DASY sind die Sicherheitspunkte fuer Alpha=0.01, 0.02, 0.05, 0.1,
und 0.2 hinterlegt. KIW-Werte dazwischen werden linear interpoliert.
KIW-Werte <0.01 oder >=0.2 werden nicht quantifiziert, sondern durch
"<0.01" oder ">=0.2" gekennzeichnet. Das gilt fuer den Kolmogorov-
Smirnov-Test und fuer den Chiquadrat Test.
.
Beispiel fuer die Ausgabe der Statistiken, Quantile, Tests auf NV
Datenfile D:\L\DASY\CWAREG.DAT
mit 100 Datenzeilen und 16 Spalten gelesen
Statistische Datenuebersicht der belegten Merkmale
Nr Name Mittelwert Stand.Abw. Anz. Ausf Maximum Minimum
1 g 5.000E-01 5.025E-01 100 0 1.000E+00 0
2 y 5.177E+00 1.179E+00 100 0 7.042E+00 1.928E+00
3 xa -2.884E-02 7.670E-01 90 10 1.042E+00 -1.040E+00
4 xb -1.175E-01 7.529E-01 91 9 1.045E+00 -1.049E+00
..................................................................
12 xj -5.610E-02 5.041E-01 100 0 1.037E+00 -1.012E+00
13 xk -5.913E-02 5.055E-01 100 0 1.004E+00 -9.970E-01
14 xl -6.012E-02 5.082E-01 100 0 9.689E-01 -1.020E+00
15 xm 1.604E-01 1.175E+00 100 0 1.940E+00 -1.923E+00
16 xn 2.718E-01 1.976E+00 100 0 3.464E+00 -3.434E+00
Ausreisserkontrolle: Keine Ausreisser in den Daten
Nr Merkmal Anz Q10 Q25 Q50=Median Q75 Q90 AAZ
1 g 100 0 0 5.000E-01 1.000E+00 1.000E+00 0
2 y 100 3.297E+00 4.569E+00 5.406E+00 6.090E+00 6.477E+00 0
3 xa 90 -9.754E-01 -8.279E-01 -9.217E-02 7.297E-01 9.384E-01 0
4 xb 91 -9.943E-01 -9.333E-01 -1.025E-01 6.015E-01 9.355E-01 0
........................................................................
12 xj 100 -7.193E-01 -4.313E-01 -4.431E-02 1.724E-01 7.481E-01 0
13 xk 100 -7.217E-01 -4.393E-01 -5.105E-02 1.761E-01 7.242E-01 0
14 xl 100 -7.344E-01 -4.469E-01 -3.763E-02 2.103E-01 7.317E-01 0
15 xm 100 -1.538E+00 -9.415E-01 2.541E-01 1.193E+00 1.709E+00 0
16 xn 100 -2.553E+00 -1.432E+00 5.101E-01 2.017E+00 2.782E+00 0
Nr Merkmal Anz h1 h2 h3 h4 h5 E Chi2 D T KIW NV?
1 g 100 50 0 0 0 51 20.0 99.99 0.335 K <0.01 Nein
2 y 100 20 10 24 26 21 20.0 7.65 0.122 K =0.10 Ja
3 xa 90 30 12 6 11 32 18.0 31.61 0.141 K =0.06 Ja
4 xb 91 29 14 9 14 26 18.2 16.34 0.145 K =0.04 Nein
........................................................................
12 xj 100 21 19 28 10 23 20.0 8.75 0.093 C =0.04 Nein
13 xk 100 23 15 27 13 23 20.0 7.05 0.087 C =0.07 Ja
14 xl 100 23 15 30 10 23 20.0 12.15 0.079 K <0.01 Nein
15 xm 100 28 11 14 21 27 20.0 11.55 0.088 K <0.01 Nein
16 xn 100 26 16 13 16 30 20.0 10.85 0.095 C =0.01 Nein
.
.
Plots Darstellung von Merkmalen als Punktwolke oder Liniendiagramm
.
Es gibt zwei Plot-Typen in DASY (beide mit nur einer y-Skala):
.
- der Feinplot mit feinen Linien und kleiner Schrift
- der Dickplot mit dicken Linien und grosser Schrift
.
Der Feinplot kann in einem Dokument nur unwesentlich verkleinert werden,
ansonsten verlieren sich die Details. Der Dickplot ist fuer verkleinerte
Darstellung in Artikeln oder fuer die Darstellung im Web besser
geeignet. Die Farben sind so, wie sie etwa im WORD-Dokument bzw. im Web
auch erscheinen. Die Ausgabe erfolgt als Bitmap. Der DASY-Nutzer sollte
das Format *.bmp jedoch besser in *.gif umwandeln. Das geht leicht mit
Programm "Paint" aus dem "Zubehoer" von Windows.
.
Sobald eine Graphik sichtbar wird, erscheint links oben folgendes
kleines Menue:
.
HILFE Sie bekommen einen Hilfetext angeboten
IDENT Punktidentifikation, z.B. Ausreisser, Knickstellen
BITMAP Ausgabe Bitmap zur Einbindung in WORD-Dokumente z.B.
EDIT Aenderung von Farbe, Linien- und Punktart, Positionieren
von Texten in der Graphik
O.K. Sie wollen die Graphikdarstellung verlassen
.
Es ist moeglich, bis zu 8 Kurven in ein Diagramm zu legen. Die x-Achse
(das x-Merkmal) ist fuer alle Kurven dasselbe. Im Falle mehrerer Kurven
wird der y-Massstab so gewaehlt, dass alle Kurven sichtbar sind. Manche
koennen dabei jedoch in der Hoehe sehr klein ausfallen.
.
Klickt man im Dickplot den ersten Buchstaben einer Merkmalsbezeichnung
in der Graphik an, dann springt der Kursor auf einen Punkt der zuge-
hoerigen Kurve. Auf diese Weise kann man im Dickplot die Zuordnung
Kurve-Merkmalsbezeichnung erkennen, und die Bezeichnung anschliessend
gezielt in Kurvennaehe positionieren. Beim Feinplot erfolgt die Zuord-
nung Merkmal-Kurve direkt ueber Kurvenfarbe und Punktform.
.
Folgende Darstellungsarten sind fuer ein Merkmal moeglich:
.
. 1 2 3 4 5
Ŀ Ŀ Ŀ Ŀ Ŀ
o . ij
o o o ._./ \ * * Ŀ
o o oo / \. \ ** *
o **/ * *
Punkte Polygon Polygon mit Fehlerbalken Funktion
Fehlerbalken
.
Darstellungsart Funktion ist fuer berechnete Kurven reserviert. Diese ent-
stehen als Resultat einer einfachen Regressions- oder Trendanalyse. Die
Darstellungsart "Funktion" kann nicht geaendert werden.
.
Funktionen werden nur in dem x-Bereich dargestellt, in dem sie auch durch
Ausgleichsrechnung bestimmt wurden. Dieser Bereich liegt immer im darge-
stellten x-Bereich, wenn bei der Ausgleichsrechnung und beim Plotten
dasselbe Merkmal fuer x benutzt wird.
.
Fehlerbalken sind dann sinnvoll, wenn zu einem x-Wert mehrere y-Werte auf-
treten oder sehr viele Datenpunkte vorliegen (etwa >200). Bei Polygonen
und Fehlerbalken koennen kleine Wartezeiten auftreten. Zu kleine Fehler-
balken werden nicht gezeichnet (ab 10 Pixel).
.
Sinnvoll ist z.B. die paarweise Darstellung von Messdaten als Punkte oder
Fehlerbalken zusammen mit einer Ausgleichskurve, z.B. einem linearen
oder nichtlinearen Trend.
.
IDENT: Ist das erste und einzige y-Merkmal eine Punktdarstellung, dann
lassen sich Punkte markieren. Die Punktnummern erscheinen im Protokoll.
Hat y den Merkmalsnamen "abc", dann wird ein neues Merkmal mit dem Namen
idABC erzeugt, in dem die y-Werte der ausgewaehlten Punkte eingetragen
sind. An Stelle der nicht gewaehlten Punkte stehen Ausfaller
(intern -1e25).
.
Mit IDENT lassen sich z.B. Ausreisser, Extremwerte oder Knickstellen des
Verlaufs markieren. Es wird der Punkt markiert, der der Cursorspitze am
naechsten liegt (innerhalb eines Feldes von 5x5 Pixeln um die Spitze).
Die Funktion IDENT gibt es nur im Feinplot.
.
BITMAP: Der Dateiname ergibt sich aus dem Protokollnamen und einer lau-
fenden Nummer der Bitmap. Die Extension ist ".BMP". Es koennen maximal 35
Bitmaps in einer Sitzung ausgegeben werden. Weitere Ausgaben werden ohne
Meldung ignoriert. Eine Bitmap benoetigt 154 KByte Speicher. Die Ausgabe
dauert einige Sekunden - also etwas Geduld.
.
Bitmaps koennen z.B. in MS-WORD-Dokumente mit "Einfuegen Graphik" einge-
bunden, verkleinert und je nach verfuegbarem Drucker farbig oder schwarz-
weiss gedruckt werden. Es ist jedoch sinnvoll, sie vorher mit dem Pro-
gramm "Paint" aus "Zubehoer" von Windows in das Format *.gif zu wandeln.
Das Format *.gif hat erhebliche Vorteile (weniger Speicherplatz, ein-
facheres Handling in WORD).
.
EDIT: Sie koennen Farben, Linien, Punktsymbole, Texte editieren
.
Ansicht: Die Graphik ohne das linke Randmenue besichtigen
.
Kurve: Sie waehlen die Kurve, die Sie editieren wollen
.
Form: Punktwolke, Polygon, Polygon & Fehlerbalken, nur
Fehlerbalken sind Darstellungsarten von Kurven. Hinzu
kommt "Funktion" bei berechneten Ausgleichsfunktionen.
Die Darstellungsart "Funktion" ist nicht veraenderbar.
.
Farben: Es stehen 8 Kurvenfarben zur Auswahl
.
Linien: Es stehen 4 Linienarten zur Auswahl
.
Punkte: Es stehen 10 Punktsymbole zur Auswahl
.
Text: Im Feinplot stehen 11 Texte zur freien Verfuegung. Sie
koennen sie belegen, einfaerben und beliebig plazieren.
Im Dickplot werden die Texte K (Kopftitel), F (Fusstitel),
X (X-Text) und Y (Y-Text) automatisch plaziert. Sie sind
vorbelegt mit "X-Y-Plot", Name der x-Variablen, "X" bzw.
"Y". Die weiteren Texte 1,2,..., 8 sind mit den Namen der
Y-Variablen vorbelegt, soweit vorhanden.
.
Position: Sie Plazieren einen Text durch Mausklick oder Enter
.
QuitEdit: Sie verlassen den Edit-Modus (nicht den Graphikmodus).
.
Plot-Menue
.
Abbruch Sie haben es sich anders ueberlegt
Hilfe Sie wollen sich informieren
.
x-Merkmal Sie wollen das x-Merkmal festlegen (Abszisse)
y-Merkmale Sie wollen ein oder mehrere y-Merkmale auswaehlen (Ordinate)
Fein/Dick Sie wollen Feinplot- / Dickplot-Darstellung
O.K. Sie wollen die Plot-Darstellung sehen
- - -
.
Plot-Menu2
.
Abbruch Sie haben es sich anders ueberlegt
Hilfe Sie wollen sich informieren
.
Fein Sie wollen Feinplot-Darstellung
Dick Sie wollen Dickplot-Darstellung
.
O.K. Sie wollen die Plot-Darstellung sehen
- - -
.
.
EinfachPlots Darstellung einer Punktwolke mit Markierungsmoeglichkeit
.
Z.B. in der einfachen Regression wird die Daten-Punktwolke durch ein ver-
einfachtes x-y-Plot dargestellt, um entscheiden zu koennen, ob eine Ein-
schraenkung des Auswerteintervalls vorzunehmen ist. Wird keine Ein-
schraenkung gewuenscht, dann gibt man sofort O.K.
.
Die Einschraenkung des Auswertebereichs erfolgt im angezeigten xy-Plot der
Daten, indem am Anfang und am Ende des gewuenschten Auswertebereichs je
ein Punkt markiert wird. Werden mehr als zwei Punkte markiert, gilt das
aeussere Punktepaar. Daran anschliessend gibt man O.K.
.
.
.
Korrelation Auto- und Kreuzkorrelation, Scatterplots, Histogramme
.
Als Korrelation bezeichnet man einen uebereinstimmenden Verlauf zweier
Zeitkurven oder die Uebereinstimmung von zwei Merkmalen einer Gruppe.
Beispiel 1: Der Kursverlauf der BASF-Aktie und der der BAYER-Aktie sind
sich sehr aehnlich. Es liegt eine zeitliche Korrelation vor.
.
Beispiel 2: Der systolische Blutdruck einer Patientengruppe vor dem Ergo-
metertest (Merkmal 1) ist mit dem systolischen Blutdruck nach dem Ergo-
metertest (Merkmal 2) korreliert, denn Patienten mit Hochdruck haben die-
sen vor und nach dem Test. Aehnliches gilt fuer Patienten mit niedrigem
Druck.
.
Der lineare Korrelationskoeffizient r ist auf das Intervall -1 <= r <= +1
normiert. Dabei bedeutet r=+1 bis auf eine lineare Verschiebung voelligen
Gleichlauf zweier Zeitkurven bzw. Uebereinstimmung von zwei Merkmalen.
r=-1 bedeutet bis auf eine lineare Verschiebung voellig exakten Gegenlauf
(z.B. y=-x oder y=a-b*x mit den Konstanten a und b).
r=0 bedeutet, dass zumindest bei linearer Betrachtung keine Korrelation
vorliegt. Werte 0 < r < 1 bzw. -1 < r < 0 bedeuten mehr oder we-
niger hohe Korrelation.
.
Autokorrelation
.
Die Autokorrelationsfunktion ak(LAG) entsteht, wenn man eine Zeitfunktion
x(t) mit sich selbst korreliert und die "Kopie" der Kurve nach und nach
immer weiter gegen das "Original" verschiebt. Fuer jede Verschiebung wird
der Korrelationskoeffizient r berechnet und ueber der Verschiebung aufge-
tragen. Dabei ist "LAG" die zeitliche Verschiebung zwischen x(t) und der
zeitlich verschobenen Kurve x(t-LAG).
.
Liegt x(t) im Zeitintervall [t1,t2] vor, dann kann LAG maximal t2-t1 sein,
da sonst keine Wertepaare mehr aufeinandertreffen. In der Praxis berechnet
man ak(LAG) maximal bis zum Wert (t2-t1)/2. ak(LAG) ist eine gerade Funk-
tion, d.h. es gilt ak(LAG)=ak(-LAG).
.
Aus der Lage der Maxima der Autokorrelationsfunktion, d.h. aus dem "LAG"
eines Maximums, kann man Periodizitaeten der Funktion x(t) ablesen.
Wiederholt sich ein Kurvenbild in x(t) nach einer Periode, dann steigt der
Korrelationskoeffizient bei einer Verschiebung um diese Periode stark an.
Das "LAG" eines Maximums ist gleich der Periodendauer .
.
Als Ergebnis der Autokorrelation werden zwei Merkmale mit den Namen akXYZ
und lagUVW bzw. lag123 erzeugt. Dabei ist xyz die Merkmalsbezeichnung des
x-Merkmals. Das Merkmal akXYZ enthaelt die Werte von ak(LAG) fuer ein LAG
im Intervall [-((n/2)-1)*dt,+(n/2)*dt]. dt ist der Zeitabstand zwischen
zwei Punkten der Kurve x(t), n die Zahl der Zeitpunkte.
.
Im Merkmalsnamen "lagUVW" steht UVW fuer die ersten 3 Zeichen aus dem
Namen des Zeitmerkmals. Wurde kein Zeitmerkmal angegeben, dann steht 123
statt UVW. Das LAG-Merkmal enthaelt die Abszissenwerte (LAGs) zur Auto-
korrelationsfunktion ak(LAG).
.
Kreuzkorrelation
.
Die Kreuzkorrelationsfunktion kk(LAG) entsteht wenn man zwei Zeitfunkti-
onen x(t) und y(t) miteinander korreliert und y(t) nach und nach gegen-
ueber x(t) verschiebt. Fuer jede Verschiebung wird der lineare Korre-
lationskoeffizient r berechnet und ueber der Verschiebung aufgetragen.
Dabei ist "LAG" die zeitliche Verschiebung zwischen x(t) und der zeitlich
verschobenen Kurve y(t-LAG).
.
Liegen x(t) und y(t) im Zeitintervall [t1,t2] vor, dann kann LAG maximal
t2-t1 (positives LAG oder Linkssverschiebung von y(t) gegenueber x(t) )
sein bzw. maximal t1-t2 (negatives LAG oder Rechtsverschiebung), da sonst
keine Wertepaare mehr aufeinandertreffen. In der Praxis berechnet man
kk(LAG) maximal im Intervall [-(t2-t1)/2 , +(t2-t1)/2]. kk(LAG) ist im
Allgemeinen keine gerade Funktion, d.h. es gilt fast immer kk(LAG) un-
gleich kk(-LAG).
.
Aus der Lage der Maxima der Kreuzkorrelationsfunktion kk(LAG) laesst sich
eine zeitliche Verschiebung zwischen den Kurven x(t) und y(t) ablesen.
Wiederholt sich naemlich nach der Zeit dt in y(t) ein Kurvenbild aus x(t),
dann steigt fuer diese Verschiebung die Korrelation an. Das "LAG" eines
Maximums ist die gesuchte Verschiebung dt. Ein positives dt (LAG>0) bedeu-
tet, dass y(t) der Kurve x(t) zeitlich nachhinkt. Man muss y(t) nach links
verschieben, um die beiden Kurven besser zur Deckung zu bringen. Umgekehrt
bedeutet ein negatives dt (LAG<0), dass y(t) der Kurve x(t) zeitlich
vorauseilt.
.
Als Ergebnis der Kreuzkorrelation werden zwei Merkmale mit den Namen
kkXXYY und lagUVW bzw. lag123 erzeugt. Dabei sind XX die ersten beiden
Zeichen der Merkmalsbezeichnung des x-Merkmals, YY die des y-Merkmals. Das
Merkmal kkXXYY enthaelt die Werte von kk(LAG) fuer ein LAG im Intervall
[-((n/2)-1)*dt,+(n/2)*dt]. dt ist der Zeitabstand zwischen zwei Punkten
der Kurve x(t) bzw. y(t), n die Zahl der Zeitpunkte.
.
Im Merkmalsnamen "lagUVW" steht UVW fuer die ersten 3 Zeichen aus dem
Namen des Zeitmerkmals. Wurde kein Zeitmerkmal angegeben, dann steht 123
statt UVW. Das LAG-Merkmal enthaelt die Abszissenwerte (LAGs) zur Kreuz-
korrelationsfunktion kk(LAG).
.
Kor-Druck: In der Auto- bzw- Kreuzkorrelation bedeuten
.
t Merkmal mit den Werten der aequidistanten Zeitpunkte
X Merkmal mit einem punktweise gegebenen zeitlichen Verlauf
Y Merkmal mit einem punktweise gegebenen zeitlichen Verlauf
LAG Zeitliche Verschiebung zu einem Korrelationswert
r die Korrelation fuer ein bestimmtes LAG
Minima und Maxima werden als relativ (rel.) oder absolut (abs.)
eingestuft. Wurde kein Zeitmerkmal angegeben, ist der LAG-Massstab
die Zahl der punktweisen Verschiebungen ...,-3,-2,-1,0,+1,+2,+3,..
- - -
.
.
Scatterplots (Korrelationen, Histogramme)
.
Scatterplots sind kleine x-y-Diagramme von Merkmalspaaren. Jedes Werte-
paar (x,y) wird im Plot durch einen Punkt repraesentiert. Es koennen
maximal 10 Merkmale simultan gepaart werden (jedes mit jedem). Da die
Korrelation symmetrisch ist gilt cor(y,x)=cor(x,y).
.
Im Scatterplot ist die x-Achse (Abszisse) die Variable, die links vom
Plot auf der Diagonalen steht, die y-Achse (Ordinate) die Variable, die
unter dem Plot auf der Diagonalen steht.
.
Ein Histogramm stellt die Haeufigkeitsverteileung e i n e r Variablen
dar. Problematisch ist das Finden der geeigneten Klasseneinteilung, d.h.
der Klassenzahl und Klassengrenzen. In DASY ist nicht immer gesichert,
dass bei einer kategorialen Variablen Kategorienzahl und Klassenzahl
uebereinstimmen. Bei metrischen Merkmalen wird k=Wurzel(n) als Richt-
schnur fuer die Wahl der Klassenzahl k genommen.
.
Der lineare Produkt-Momenten-Korrelationskoeffizient r nach Pearson-
Bravais quantifiziert die "Verwandtdschaft" zweier Merkmale. Diese kann
sich in einem aehnlichen Verlauf zweier Messgroessen ueber die Zeit
ausdruecken, oder aber ueber ein aehnliches Verhalten paarweise
gewonnener Messwerte unabhaengig von Zeit und Ort.
.
Beispiel fuer eine zeitliche Korrelation ist die Abnahme von Temperatur
u n d Waermestrahlung eines anfaenglich gluehenden Stahlblocks.
.
Beispiel fuer eine paarweise Korrelation von Messwerten ist der dia-
stolische und systolische Blutdruck von Patienten. Bei Hypertonikern
sind beide Werte hoch, bei Hypotonikern beide Werte niedrig.
.
Von negativer Korrelation sprechen wir, wenn sich die Werte zweier
Merkmale gegenlaefig verhalten: Ein grosser Wert paart sich bevorzugt
mit einem kleinen und umgekehrt, mittlere mit mittleren Werten.
.
Welcher Art die Verwandschaft der Merkmale ist, d.h. direkte Abhaengig-
keit des einen Merkmals vom anderen, Abhaengigkeit beider Merkmale von
einem dritten Merkmal (einem Faktor), oder rein zufaelliger Gleichlauf,
laesst sich mit statistischen Mitteln nicht feststellen. Hier muessen
fachliche Argumente den Beweis erbringen.
.
Aus der Form der "Punktwolke" kann man ablesen, ob
.
- ueberhaupt eine Korrelation vorhanden ist. Formlose "Kugelhaufen" oder
"Ellipsen ohne erkennbare Neigung" signalisieren, dass die paarweise
lineare Korrelation Null ist
.
- "Flache Ellipsen" oder "ziemlich gerade Punktbaender" mit deutlicher
Neigung signalisieren eine lineare Korrelation zwischen den Merkmalen
.
- u-, v- oder s-foermige Punktanordnungen signalisieren nichtlineare Zu-
sammenhaenge. Lineare Korrelation liefert hier kein gutes Resultat.
.
Zusaetzlich zu den Scatterplots und Histogrammen wird fuer jede Merk-
malspaarung der lineare Korrelationskoeffizient r, Pruefgroesse t,
Freiheitsgrad FG und Irrtumswahrscheinlichkeit P=KIW angegeben ("P" aus
Platzgruenden in der Graphik, KIW im Protokoll). Im Protokoll erscheinen
keine Graphiken, sondern nur die zuletzt genannten
Angaben r, t, FG, KIW.
.
Sind unter den beteiligten Merkmalen kategoriale Merkmale (mit Ausnahme
binaerer Merkmale oder ranggeordneter kategorialer Merkmale), dann sind
die Angaben r,t,FG,KIW fuer diejenigen Paarungen unbrauchbar, die die
kategorialen Merkmale enthalten. Bei nichtberechenbarer Korrelation
(zu wenig Punkte bzw. keine Spannweite eines oder beider Merkmale) ist
r=t=KIW=0 gesetzt.
.
Der Korrelationskoeffizient r ist immun gegen lineare Transformationen
der Form "ax+b" bzw. "cy+d" der beteiligten Merkmale x und y.
.
Menue-Scatterplots und Histogramme
.
Abbruch Sie wollen die Scatterplots beenden oder nicht beginnen
Hilfe Sie wollen sich informieren
.
Merkmale Waehlen Sie die Merkmale zum Scatterplot & Histogramme
.
Feinplot Maximal 10 Merkmale in einer Graphik sind moeglich
Dickplot Maximal 5 Merkmale in einer Graphik sind moeglich
.
O.K. Sie wollen die Graphik sehen
- - -
.
Vom Scatterplotmenue kommen Sie mit "Abbruch" ins Hauptmenue zurueck.
.
.
Scat-Druck: Im Ausdruck der Scatterplots bedeutet
.
r Linearer Produkt-Momenten-Korrelationskoeffizient
t t-verteilte Pruefgroesse zur Hypothese Ho:r=0, HA:r<>0
FG Freiheitsgrad FG=n-2 zur Pruefgroesse
KIW Irrtumswahrscheinlichkeit bei Ablehnung von Ho
Signif * (KIW<=0.025) ** (KIW<=0.005) *** (KIW<=0.0005)
.
Max, Min Histogrammgrenzen, k=Klassenzahl, h=Klassenfrequenzen
- - -
.
Menue der Autokorrelation, Kreuzkorrelation, Scatterplots ( KorMenue )
.
Abbruch
Hilfe
.
Autokorrelationsfunktion fuer eine Zeitfunktion x(t)
.
Kreuzkorrelationsfunktion fuer zwei Zeitfunktionen x(t) und y(t)
.
Simultane Scatterplots & Histogramme fuer 2-10 Merkmale
- - -
.
.
EinfachReg Einfache lineare und nichtlineare Regressionsmodelle, Trend
.
Regressionsmodelle mit nur einer Einflussgroesse. Man unterscheidet
lineare und nichtlineare Modelle. Ist die Zeit Einflussgroesse, dann
spricht man von Trend oder Wachstumskurven.
.
Das allgemeine Modell ist: y = f(x) + e
Dabei ist y die Zielgroesse (abhaengiges Merkmal), x die Einflussgroesse
(unabhaengiges Merkmal) und e der Fehler. Je nach Modell haengt f(x)
ausser von der Einflussgroesse noch von den als konstant angenommenen
Regressionskoeffizienten ab. Diese koennen als lineare Koeffizienten oder
als nichtlineare Koeffizienten (oft auch Parameter genannt) auftreten.
.
Ziel der einfachen Regression ist es, eine Kurve (Gerade, Parabel,...)
so durch die x-y-Punktwolke zu legen, dass die Restvarianz zum Minimum
wird, d.h. eine beste Anpassung von Punktwolke und Kurve in y-Richtung
erfolgt (Fit).
.
Das 95%-Konfidenzintervall der "wahren Geraden der Population" und das
95%-Konfidenzintervall der Einzelwerte wird nur fuer die einfache lineare
Regression berechnet.
.
Die exponentielle Regression z.B. mit dem Modell y = a + b exp( c x ) + e
besitzt zwei lineare Regressionskoeffizienten (a,b) und einen nichtline-
aren Koeffizienten (c). Der Wert der nichtlinearen Koeffizienten wird
iterativ bestimmt, so dass kleine Wartezeiten auftreten koennen.
.
Eine erfolgreiche Kurvenanpassung liefert ein neues Merkmal (eine metri-
sche Funktion). Hat die Zielgroesse die Merkmalsbezeichnung "abc" und hat
das Modell das Kuerzel "xy", dann heisst das neue Merkmal "xyABC". Das
neue Merkmal xyABC enthaelt die Ausgleichskurve, d.h. die Erwartungswerte
fuer y(x) an den Stellen, die durch die Einflussgroesse x vorgegeben
werden. Wird mit einem eingeschraenkten Auswertebereich gearbeitet und
liegt x nicht im ausgewaehlten Intervall, dann enthaelt das neue Merkmal
fuer diese Punkte Ausfallwerte (intern -1e25).
.
Eine gewuenschte Einschraenkung des Auswertebereichs (eingeschraenkter
x-Bereich) erfolgt im angezeigten xy-Plot der Daten, indem am Anfang und
am Ende des gewuenschten Auswertebereichs je ein Punkt markiert wird.
Werden mehr als zwei Punkte markiert, gilt das aeussere Punktepaar.
.
.
LinReg-Dr: In der Ausgabe der Einfachregression bedeutet
.
Wert den optimalen Wert des Modellparameters fuer die Stich-
probe und Schaetzwert des Modellparameters fuer die
Grundgesamtheit
Standardabw den Standardfehler des geschaetzten Modellparameters bei
wiederholter Ziehung gleichartiger Stichproben
T-Wert den Quotienten Wert/Standardabw, d.h. die t-verteilte
Pruefgroesse fuer den Test der Nullhypothese Ho:Koef=0.
Der Freiheitsgrad ist FG=Punktzahl-Koeffizientenzahl.
KIW Die Irrtumswahrscheinlichkeit bei zweiseitigem Test fuer
die Ablehnung der Nullhypothese Ho:Koef=0 (HA:Koef0).
Sign KIW ist bei * kleiner 5%, bei ** kleiner 1%, bei ***
kleiner 0.1%. Kein Stern bedeutet, wir nehmen Ho an.
- - -
.
Menue der einfachen linearen und nichtlinearen Regressionsmodelle
.
Abbruch
Hilfe
.
Einfache lineare Regression (lr) y = a + b x + e mit Konf.intervall
.
Einfache lineare Regression (lr) y = a + b x + e ohne Konf.intervall
.
Einfache quadratische Regr. (qr) y = b + c ( x - a ) + d ( x - a )^2 +e
.
Einfache exponentielle Regr. (er) y = a + b exp( c x ) + e
.
Einfache hyperbolische Regr. (eh) y = c / x + e
- - -
.
Regression Multiple lineare und quasilineare Regression
.
Die multiple Regression verknuepft p Einflussgroessen X1,X2,...,Xp mit
einer Zielgroesse Y. Das Modell kann mit oder ohne Regressionskonstante
bo sein:
Y = bo + b1*X1 + b2*X2 + ... + bp*Xp + e
.
Die Regressionskoeffizienten b1,b2,...,bp (und bo) werden nach der
Methode der kleinsten Quadrate (Summe e^2 = Minimum) geschaetzt.
e ist der zufaellige Fehler oder Residuum (Abweichung).
.
Beispiel Parameterpreisbildung: Der durchsetzbare Marktpreis eines neu
zu entwickelnden Elektromotors soll geschaetzt werden. Man benoetigt
dazu die technischen Kennzahlen des Motors (Gewicht, Leistung, Drehzahl,
Spannung) sowie die verfuegbaren Marktpreise und Kenndaten schon ver-
fuegbarer aehnlicher Motore. Zielgroesse ist der Marktpreis, Einfluss-
groessen sind die Kenndaten. Das lineare Modell (ohne Fehler) lautet:
.
Marktpreis = bo + b1*Gewicht + b2*Leistung + b3* Drehzahl + bp*Leistung
.
Die multiple Regression schaetzt aus den vorhandenen Preisen und Kenn-
zahlen die Regressionskoeffizienten. Setzt man die "extra Daten" des
eigenen geplanten Motors ein, dann erhaelt man eine Schaetzung des Er-
wartungswertes fuer dessen Preis.
.
Von einem quasilinearen Modell spricht man, wenn sich unter den Ein-
flussgroessen X1, X2, ..., Xp nicht nur originale Einflussgroessen
befinden, sondern auch berechnete Einflussgroessen, z.B. Produkte,
Quadrate oder sonstwie gestaltete Funktionen von einer oder mehreren
originalen Einflussgroessen. Das Modell ist linear. Traegt man jedoch
die Zielgroesse Y ueber den originalen Einflussgroessen auf, dann er-
gibt sich eine nichtlineare Funktion.
.
Beispiel: Erkennt man, dass der Preis z.B. quadratisch von der Drehzahl
abhaengt (ein signifikanter Einfluss des Terms "Drehzahl*Drehzahl), dann
wird man das Modell abaendern in
.
Marktpreis = bo + b1*Gewicht + ... + b3*Drehzahl + b4*Drehzahl^2 + ..
.
Von gewichteter Regression spricht man, wenn jedem Datenpunkt i ein Ge-
wicht Gi zugeordnet wird. Die Zahl der Freiheitsgrade wird dudurch nicht
veraendert.
.
Es gibt drei Hauptaufgaben der multiplen Regression:
.
1. Prognose (Vorhersage) von Y-Werten ausserhalb des durch die x-Werte
vorgegebenen Bereichs und/oder fuer neue Datenpunkte innerhalb des
vorgegebenen X-Bereichs.
.
Beispiele:
.
- Parameterpreisbildung
.
- Schaetzung der Energiekosten im naechsten Jahr auf der Basis der
Produktionszahlen und Verbraeuche in den vergangenen Jahren.
.
- Der Schadstoffausstoss einer Produktionsanlage wurde in Abhaengig-
keit von vertretbaren Druck- und Temperaturaenderungen aus Kosten-
gruenden fuer recht wenige Druck-Temperatur-Punkte gemessen. Ge-
sucht ist eine feiner gerasterte Darstellung der Schadstoffemmis-
sion, um die Position des Minimums exakter positionieren zu koennen.
.
2. Reproduktion von Y-Werten exakt auf den Punkten des beobachteten
X-Bereichs (Stuetzstellen). Es handelt sich hier um eine reine
Datenreduktion (Regressionsparameter statt einzelner Y-Werte)
.
Beispiel: Speicherung der Sicherheitspunkte der t-Verteilung fuer
die Freiheitsgrade FG>5 mit einem Regressionsmodell der
Form t = b0 + b1*(1/FG) +b2*(1/FG^2)
.
3. Finden von signifikanten Einflussgroessen X
.
Beispiel: Welches sind die Haupteinflussgroessen auf den Ertrag
einer neu entwickelten Rapssorte (Temperatur? Regenmenge? Kalk?
Stickstoff?, ...)
.
.
Entsprechend den Hauptaufgaben sind verschiedene Regressionsalgorithmen
zu empfehlen:
.
- Fuer Prognose bei hoher Merkmalszahl, wenig vorhandenen Datenpunkten
und stark streuenden Zielgroessenwerten Y wird die faktorisierende
"CWA-Regression" empfohlen
.
- Fuer Prognose (Vorhersage) mit wenigen Einflussgroessen und/oder wenig
streuenden Zielgroessenwerten wird das "Schrittweise Aufbauverfahren"
oder das "Schrittweise Abbauverfahren" empfohlen
.
- Fuer die exakte Reproduktion der Y-Werte an den Stuetzstellen wird
die "Regression mit allen Einflussgroessen" empfohlen
.
- Fuer das Auffinden signifikanter Einflussgroessen wird das "Schritt-
weise Aufbauverfahren" oder das "Schrittweise Abbauverfahren"
empfohlen
.
Bei der Prognose (Vorhersage) interessiert die Genauigkeit der prognos-
tizierten Y-Werte. Nicht die kleinste Reststreuung ist gefragt, sondern
der kleinste Prognosefehler. Zur Bestimmung benutzt man Jackknife- oder
Bootstrap-Methoden (in DASY nur Jackknife) bzw. eine Teilung der vor-
handenen Daten in einen Lern- und einen Arbeitsteil. Die Frage nach der
Signifikanz der Einflussgroessen stellt sich nicht bzw. ist unterge-
ordnet.
.
Die exakte Reproduktion (Datenverdichtung) erfordert ein besonders gutes
Regressionsmodell, das die Reststreuung bei moeglichst wenigen Einfluss-
groessen minimiert. Bei ungeschickter Wahl des Modells ist es moeglich,
dass Sie bei X-Werten ausserhalb der benutzten Stuetzstellen Phantasie-
werte erhalten, die weit jenseits von gut und boese liegen. Ein Prog-
nosefehler oder die Signifikanz der Einflussgroessen ist von unterge-
ordneter Bedeutung.
.
Das Auffinden signifikanter Einflussgroessen ist oft von wissenschaft-
lichem oder praktischem Wert. Das Ergebnis kann kausale Zusammenhaenge
erkennbar machen, oder aber den Erhebungsaufwand fuer Prognosedaten
erheblich reduzieren helfen. Probleme beim Auffinden der signifikanten
Einflussgroessen sind:
.
Aus einer Gruppe untereinander hoch korrelierter Einflussgroessen wird
zumeist nur ein Merkmal mehr oder weniger zufaellig ausgewaehlt. Es ist
durchaus moeglich, dass eine ganze Reihe von Merkmalen denselben sig-
nifikanten Einfluss haben, wie das zufaellig gewaehlte Merkmal. Das
kann dann ein Hinweis daruf sein, dass ein versteckter Faktor alle
diese Merkmale steuert. Seltener tritt der Faktor selbst als Merkmal
auf. Es waere in diesem Falle sinnvoll, eine Faktoranalyse vorzuschal-
ten (in DASY nicht moeglich) und mit den Faktoren als Einflussgroessen
zu arbeiten
.
Liegen sehr viele Einflussgroessen vor, dann muss eine Alpha-Adjus-
tierung, z.B. nach Holms Prozedur oder nach Bonferroni vorgenommen wer-
den (DASY bietet hier nur Bonferroni an), da sonst Zufallsmerkmale
eine Chance bekommen, als signifikant gemeldet zu werden (bei Alpha=5%
wuerden von 100 Zufallsmerkmalen immerhin 5 akzeptiert werden, wenn
keine Alpha-Adjustierung vorgenommen wird.)
.
.
"CWA-Regression" ist ein faktorisierendes Verfahren, das die Regressions-
koeffizienten iterativ nach einem speziellen Abstiegsverfahren zur Mini-
mierung der Reststreuung berechnet (Cierzynski/v.Weber). Die Vorteile
sind:
.
- Hochkorrelierte Merkmale schliessen sich nicht gegenseitig aus, sondern
werden zu einer Art Faktor gemittelt (man spart die Faktorregression)
- Die Iteration wird abgebrochen, wenn der Prognosefehler wieder ansteigt
- Es entsteht eine "robuste Loesung", die auch bei moderaten Veraende-
rungen in der Datenbasis (X-Werte) noch Bestand hat
"Schrittweises Aufbauverfahren" bzw. "Schrittweises Abbauverfahren" ist
ein Verfahren, bei dem ein Signifikanztest (t-Test) ueber die Aufnahme
oder den Verbleib einer Einflussgroesse im Modell entscheidet. Die
Vorteile sind:
.
- Nur Einflussgroessen mit einem statistisch gesicherten Einfluss auf die
Reduktion der Reststreuung werden in das Modell aufgenommen
( Ausnahme: Ist kein Merkmal signifikant, wird das mit dem hoechsten
t-Wert genommen )
- Eine Gruppe hoch korrelierter Merkmale wird durch ein Merkmal vertreten
- Es entsteht eine robuste Loesung, die auch bei moderaten Veraenderungen
in der Datenbasis noch Bestand hat
"Regression mit allen Einflussgroessen" ist ein Verfahren, bei dem nur
Merkmale aus dem Modell entfernt werden, wenn eine so starke lineare
Abhengigkeit der Mermale diagnostiziert wird, dass numerische Instabili-
taeten auftreten. Der Vorteil ist:
.
- Fuer die Stuetzstellen (und nur fuer diese) laesst sich die Rest-
streuung maximal minimieren. Es haengt sehr vom Modell ab, ob die
Zielgroessenschaetzung auch fuer Werte ausserhalb der Stutzstellen
noch vernuenftige Zahlen liefert. Am besten testet man dieses aus,
indem man selbst einmal die X-Werte leicht variiert und in das be-
rechnete Modell einsetzt.
.
.
Datenaufbau fuer eine multiple Regressionsanalyse
.
- Sie benoetigen eine Z i e l variable (abhaengige Variable)
und eine oder mehrere E i n f l u s s variablen (unabhaengige
Variablen).
.
- Falls Sie genuegend Daten haben, koennen Sie diese in eine Lern- und
eine Arbeitsstichprobe teilen. Die Schaetzung des Vorhersagefehlers
wird so sicherer. Dafuer benoetigen Sie jedoch eine zusaetzliche
G r u p p i e r u n g s variable, die einen Wert >0 und <256, z.B. 1
fuer alle Datenpunkte der Lernstichprobe aufweist, und den Wert =0
fuer die Arbeitsstichprobe, an der die Regression getestet wird.
.
"Trennung der Daten in Lern- und Arbeitsstichprobe" und "Berechnung
der Zielgroesse fuer extra Datenpunkte" schliessen sich aus.
.
- Falls sie die Zielgroessenwerte fuer "extra Datenpunkte" vorhersagen
wollen, an denen die Zielgroesse nicht bekannt ist, dann benoetigen Sie
ebenfalls die G r u p p i e r u n g s v a r i a b l e . Sie muss fuer
die "extra Datenpunkte" den Wert 0 aufweisen. Der Wert der Zielgroesse
fuer die "extra Datenpunkte" ist beliebig (z.B. Null), darf aber kein
Ausfall sein. Bei den Lerndaten muss der Wert der Gruppierungsvariablen
zwischen 1 und 255 liegen.
.
- Bei gewichteter Regression benoetigen Sie eine G e w i c h t s -
variable. Gewichte sind Zahlen Gi>=0.001 und Gi<1000. Fuer extra
Datensaetze bzw. fuer Arbeitsdatensaetze darf Gi=0 sein.
.
Der Ablauf einer Regressionsanalyse:
.
- Uebernahme der ausgewaehlten "originalen" X- und der Y-Variablen
und eventuell einer Gruppierungsvariablen
- Wenn verlangt, dann Ausfuehrung einer programmierten lokalen Merkmals-
transformation in "sekundaere" Variablen
- Wenn verlangt, dann Anwendung eines "Polynomialen Standardmodells"
- Ausblenden aller Datenpunkte y, x1, x2,..., xp mit Ausfaellen
- Bei Vorhersage zufaellige Gruppenbildung der Datenpunkte
- Berechnen der Kovarianzmatrix und daraus Berechnung der Koeffizienten
- Bestimmung der Reststreung, bei vorhandener Arbeitsstichprobe auch
die Bestimmung der Reststreuung der Arbeitsstichprobe
- Bei Vorhersage Berechnung des Prognosefehlers
- Ausgabe der Ergebnisse (Koeffizienten, statistische Kennzahlen)
- Ausgabe der Erwartungswerte der Zielgroesse als neue Variable
.
.
Die lokale Merkmalstransformation ist Optional und erfordert ein Trans-
formationsprogramm *.trr, das im Programmteil "Transformationen" erstellt
und auf formale Richtigkeit getestet wird. Fehler, die erst zur Laufzeit
des Programms auftreten, koennen nur hier in der Regressionsanalyse er-
kannt werden. Die berechneten Merkmale sind lokal, d.h. sie werden nach
Ausfuehrung der Regressionsanalyse sofort wieder "vergessen". Sie koennen
die X-Variablen und/oder die Y-Variable transformieren und die Anzahl der
X-Variablen verringern, belassen oder erhoehen.
.
.
Polynomiale Standardmodelle sind:
.
- Einfach Polynomial: Zu jedem im Modell vorhandenen X-Mermal wird bei
Polynomgrad PG=2 ein X*X-Merkmal zusaetzlich erzeugt, bei
Polynomgrad PG=3 ein Merkmalspaar X*X und X*X*X zusaetzlich erzeugt
usw.
.
- Vollstaendig Polynomial: Wie einfach Polynomial, aber zusaetzlich
noch alle Produkte der vorhanden X-Merkmale, z.B. bei
PG=2 und X1,X2 entstehen zusaetzlich X1*X1, X2*X2, X1*X2, bei
PG=3 und X1,X2 entstehen zusaetzlich X1*X1, X1*X1*X1, X2*X2, X2*X2*X2,
X1*X2, X1*X1*X2, X1*X2*X2
.
Das einfach polynomiale Standardmodell ist auf PG=2,3,4,5 beschraenkt
Das vollstaendige Polynomiale Modell ist auf PG=2,3 beschraenkt.
.
Uebersteigt die erzeugte gesamte Merkmalszahl die Beschraenkungen von
DASY (maximal 95 X-Merkmale), dann wird das Modell abgelehnt.
.
Immer das zuletzt angegebene Polynomiale Modell gilt. Haben Sie ver-
sehentlich ein polynomiales Modell gewaehlt, koennen sie es durch die
Eingabe einer 0 als Polynomgrad wieder entfernen.
.
.
Alle Zahlen, deren Betrag groesser als 10^12 ist, werden als Ausfaelle
betrachtet. Das gilt sowohl fuer die originalen Ausfaelle (intern -1E25)
als auch fuer Daten, die erst durch die Transformation oder durch das
polynomiale Standardmodell erzeugt wurden.
.
.
Die Schaetzung des Vorhersagefehlers erfordert eine mehrfache Berechnung
der Regressionskoeffizienten. Die Datenpunkte werden zufaellig in moeg-
lichst gleich grosse Gruppen unterteilt. Es wird 10-mal die Regression
berechnet, wobei immer eine der Gruppen nicht zur Berechnung der Koeffi-
zienten benutzt wird, aber zur Fehlerschaetzung der Prognose
(Jack-knife-Methode). Bei der CWA-Regression ist diese Methode inbe-
griffen, da die optimale Iterationszahl ueber den minimalen Vorhersage-
fehler bestimmt wird.
.
.
Eine erfolgreiche Regressionsanalyse liefert neben den Regressionskoeffi-
zienten und statistischen Kennzahlen ein neues metrisches Merkmal.
Hat die Zielgroesse Y die Merkmalsbezeichnung "abc", dann heisst das neue
Merkmal "mr1ABC", wenn Y mit dem CWA-Algorithmus (Alg. 1) berechnet wurde.
Entsprechend Aufbau=2, Abbau=3, Alle=3 heisst das neue Mermal mr2ABC,
mr3ABC bzw. mr4ABC.
.
Das neue Merkmal mr#ABC enthaelt die Erwartungswerte fuer Y an den
Stellen, die durch die Einflussgroessen X1,X2,...,Xp vorgegeben
werden. Faellt einer der x-Werte oder der Zielgroessenwert aus, dann
enthaelt das neue Merkmal fuer diesen Datenpunkt den Ausfallwert
(intern -1e25).
.
.
Druckbilderklaerung der Regression
.
Regress-Dr: In der Ausgabe der multiplen Regression bedeutet
.
Y Das Zielgroessenmerkmal
Xj Ein Einflussgroessenmerkmal (j = 1, 2, 3,...)
N Auswertbare Punktzahl (Datensaetze ohne Ausfall)
.
B Multiples Bestimmtheitsmass (multiples r-Quadrat)
F-Wert F-Testwert Nullhypothese Ho:B=0 (Kein modellmaessiger
Zusammenhang zwischen Y und den Xj nachweisbar)
FG FG=N-K, Freiheitsgrad der Reststreuung
KIW(B) Die Irrtumswahrscheinlichkeit bei einseitigem Test fuer
die Ablehnung der Nullhypothese Ho:B=0 (HA:B>0)
.
Koeffizient Der Zahlenwert des Regressions-Koeffizienten
Stdabw. Die geschaetzte Standardabweichung des Koeffizienten,
T-Wert t-verteilte Pruefgroesse zum Test der Nullhypothese
Ho:bj=0 (Koeffizient in der Grundgesamtheit Null?)
KIW Irrtumswahrscheinlichkeit bei zweiseitigem Test fuer
die Ablehnung der Nullhypothese Ho:bj=0 (HA:bj<>0)
.
Sr Reststreuung oder mittleres Residuum
Sj Prognosefehler/Vorhersagefehler nach Jackknife-Methode
Sw Prognosefehler/Vorhersagefehler mit Arbeitsstichprobe
- - -
.
Startmenue der multiplen linearen und quasilinearen Regression
.
Abbruch Sie wollen zurueck ins Hauptmenue
Hilfe Sie wollen sich ueber multiple Regression informieren
.
CWA CWA-Regression (sehr oft optimal fuer Prognose)
Auf Schrittweiser Aufbau (Merkmalsauswahl und Prognose)
Abb Schrittweiser Abbau (Merkmalsauswahl und Prognose)
All Regression mit allen Einflussgroessen (Datenkompression)
.
Konstante Mit oder ohne Regressionskonstante bo im Modell
Alpha Festlegung des multiplen Signifikanzniveaus (0.05 / 0.01)
Bonferroni Alpha-Adjustierung nach Bonferroni bei Auf- oder Abbau
.
O.K. Weiter im Menue
- - -
.
Fortsetzung Menue der multiplen linearen und quasilinearen Regression
.
Abbruch Sie wollen zurueck ins Hauptmenue
Hilfe Sie wollen sich ueber multiple Regression informieren
.
Y Sie wollen die Zielgroesse Y auswaehlen
X..X Sie wollen die Einflussgroesse(n) X auswaehlen
G Sie haben eine Gewichtsvariable (optional)
.
Trafo Lokale frei programmierbare Transformation anwenden?
Einfach Pol. Einfaches Polynomiales Standardmodell anwenden? PG=2-5
Vollst. Pol. Vollstaendiges Polynomiales Standardmodell? PG=2,3
.
Jack-knife Vorhersagefehler bei Auf/Abbau mit Jack-knife schaetzen?
Working sample Vorhersagefehler an einer Arbeitsstichprobe schaetzen?
Prognose Vorhersage fuer extra Daten berechnen lassen?
.
O.K. Ausfuehren der Regressionsanalyse
- - -
.
Beispiel einer multiplen quasilinearen Regression mit den Testdaten
.
Hier ein Ausschnitt der Testdaten:
.
Aufz1 Aufz2 Quad Wurz ..... iRand1 iRand2
1.000E+00 1.017E+00 1.034E+00 1.008E+00 ..... -1.000E+25 1.000E+00
2.000E+00 2.042E+00 4.168E+00 1.429E+00 ..... 1.000E+00 1.000E+00
........................................................................
........................................................................
4.900E+01 4.904E+01 2.405E+03 7.003E+00 ..... 1.000E+00 1.000E+00
5.000E+01 4.996E+01 2.496E+03 7.068E+00 ..... 0 0
.
Zielgroesse Quad (das Quadrat von Aufz2) soll durch durch die Einfluss-
groessen Aufz1, Wurz und iRand1 geschaetzt werden. In einer Trafo wird
zusaetzlich das Merkmal ln(Aufz2) erzeugt. Die originalen Merkmale Y und
X sind:
.
Y = Quad, X1 = Aufz1, X2 = Wurz, X3 = iRand1
.
Nach der Transformation:
.
Y = Quad, X1 = Aufz1, X2 = Wurz, X3 = iRand1, X4=lnAufz
.
Nach dem Aufbau des vollstaendigen polynomialen Modells 2-ten Grades:
.
Y = Quad, X1 = Aufz1, X2 = Wurz, X3 = iRand1, X4=lnAufz,
X5 = X1*X1, X6 = X2*X2, X7 = X3*X3, X8=X4*X4,
X9 = X1*X2, X10= X1*X3, X11= X1*X4,
X12= X2*X3, X13= X2*X4,
X14= X3*X4
.
Das Transformationsprogramm muessen Sie im Menuepunkt Trafo --> freie
Transformation editieren und compilieren. Der Programmname ist frei
waehlbar, 3/4 des Textes wird automatisch erzeugt. Fuer dieses Beispiel
lautet das Programm:
.
==========================================================================
Erwin$$$.trr(N,i,M,Q,S,ANZ,Y,p,X,Grup,Gew)
var M(20), Q(20), S(20), ANZ(20), X(100)
.
{ N = Zahl der Datenzeilen in der Datenbasis }
{ i = Nummer der aktuelle Datenzeile }
{ M = Datenzeile mit Merkmalswerten aus der Datenbasis }
{ Q = Vektor mit den Mittelwerten der belegten Merkmale }
{ S = Vektor mit den Standardabweichungen der belegten Merkmale }
{ ANZ = Vektor mit den Werteanzahlen der belegten Merkmale }
{ Y = Wert der Zielgroesse ( Default: Originale Zielgroesse ) }
{ p = Anzahl der berechneten Einflussgroessen X(1), X(2), ..., X(p)}
{ X = Vektor der Einflussgroessen X(1), X(2),... Default: Ausfall }
{ Ist vorbelegt mit den originalen Einflussgroessen }
{ Grup= Wert der Gruppierungsvariable ( Default: Orig. GrV. oder 1 ) }
{ Gew = Wert der Gewichtsvariablen ( Default: Originale GewV. oder 1)}
.
{ Bei freien Merkmalen sind die betreffenden Elemente der Vektoren }
{ M, Q, S, ANZ mit Ausfaellen belegt. X ist beim Aufruf vollstaendig }
{ mit Ausfaellen belegt. Die Werte sind zu berechnen und p zu setzen }
.
{ Ende des vorgefertigten Programmkopfes }
.
assign Aufz2=2 { Merkmal M(2) als lokale Groesse "Aufz2" verfuegbar
x(4)=ln(Aufz2) { berechnet das neue Merkmal X4 mit Funktion Logarith.
p=4 { meldet, dass insgesamt 4 Einflussgroessen existieren
writeln(i,Aufz2,x(4)) { Kontrollausgabe waehrend der Transformation
end
==========================================================================
.
Wirklich neu zu programmieren sind hier nur die letzten 5 Zeilen. Alles
davor ist ein vorgefertigter Programmkopf, der von DASY bereit gestellt
wird und auch nicht veraendert werden kann.
.
Auch wenn im Transformationsprogramm das Y-Merkmal rechnerisch erzeugt
wird, muss trotzdem beim Aufruf der Regression ein (beliebiges) Merkmal
als Y-Merkmal gewaehlt werden. Werden alle X-Merkmale berechnet, so muss
beim Aufruf der Regression ebenfalls ein (beliebiges) Merkmal als X-Merk-
mal gewaelt werden. (Dummy-Variable)
.
Wird in der Transformation die Variable GEW berechnet, dann wird diese
Gewichtung automatisch benutzt, auch wenn keine Gewichtsvariable in der
Datenbasis beim Aufruf der Regression ausgewaehlt wurde, d.h. hier ist
keine Dummy-Variable notwendig.
.
Wird die Variable GRUP in der Transformation berechnet, wird sie auto-
matisch als Gruppierungsvariable fuer den Menuepunkt WORKING SAMPLE inter-
pretiert (keine Dummy-Variable noetig). Will man sie jedoch zur Kenn-
zeichnung von Extradaten benutzen, muss beim Aufruf der Regression der
Menuepunkt PROGNOSE FUER EXTRADATEN angeklickt und ein (beliebiges) Merk-
mal als Gruppierungsvariable gewaehlt werden (Dummy-Variable).
.
.
Einfach-VA Einfache Varianzanalyse mit Mittelwertvergleich
.
Die Varianzanalyse ist eine statistische Methode zur Beurteilung gruppier-
ter metrischer oder ranggeordneter Daten. Die Gruppierung erfolgt mit
Hilfe eines kategorialen oder nominalen Merkmals. Das Gruppierungsmerkmal
wird in der Literatur auch "Faktor" genannt. Seine Werte werden als
"Faktorstufen" bezeichnet und im Computer als ganze Zahlen behandelt
(kategoriales Merkmal). Die Werte des metrischen Merkmals zu einer Faktor-
stufe bilden eine Gruppe.
.
Die Literatur (EISENHART) unterscheidet zwei Modelle der Varianzanalyse:
.
Modell 1: Die Gruppierung der Daten ist durch den Versuchsplan vorgegeben.
Wir sprechen von einem "festen Modell". Hier interessiert vor allem, ob
Mittelwertunterschiede zwischen den Datengruppen statistisch gesichert
sind. Beispiel: Reissfestigkeit eines textilen Gewebes [N/m] nach
14-taegiger Exposition mit UVB-Bestrahlung in Abhaengigkeit von einer
Oberflaechenbeschichtung. Zielgroesse ist die Reissfestigkeit, Faktor
die Beschichtung mit den Stufen 1="unbeschichtet", 2="8 g Al/qm",
3="12 g TiO2/qm".
.
Modell 2: Die Gruppierung wird beobachtet, ist also zufaellig. Wir
sprechen vom "zufaelligen Modell". Hier interessiert, ob die Werte der
Zielgroesse innerhalb der Gruppen staerker oder schwaecher streuen, als
die Gruppenmittelwerte untereinander. Beispiel: Eine Herde Kuehe wird in
Gruppen eingeteilt. Gruppierungsmerkmal ist der Vater. Kuehe vom gleichen
Vater bilden eine Gruppe. Faktor ist Merkmal "Vater" mit den Stufen
1="Anton", 2="Bogumil", 3=... Zielgroesse ist die Jahresmilchleistung,
die eine Kuh bringt. Streuen diese Werte in den Gruppen weniger, als die
Mittelwerte zwischen den Gruppen, dann vermutet man einen genetischen
Einfluss des Vaters auf die Milchleistung durch Vererbung eines "Milch-
leistungsgens".
.
Ein Sonderfall ist der "Mittelwertvergleich korrelierter Gruppen".
Beispiel: Eine Patientengruppe wird vor und nach einer 14-taegigen Kur
untersucht und dabei der Blutdruck bestimmt. Frage: Gab es eine Ver-
aenderung des Gruppenmittels. Rechnet man nach Modell 1, dann ueber-
decken die grossen Unterschiede von Patient zu Patient die kleinen
Veraenderungen des Gruppenmittels. Wir haetten kaum eine Chance, die
Veraenderung statistisch zu sichern. Testet man jedoch den Mittelwert
der Einzeldifferenzen gegen Null, dann fallen die Patientenunterschiede
heraus und die eigentliche Veraenderung des Blutdrucks auf Grund der Kur
treten hervor.
.
Globaler Test: Ist die mittlere Varianz zwischen den Gruppen signifikant
groesser als die mittlere Varianz innerhalb der Gruppen, d.h. gibt es
einen signifikanten Einfluss des Faktors bzw. signifikante Unterschiede
in den Gruppenmitteln? Die Formeln werden hier nur kurz angedeutet:
.
Xges = Mittelwert aller n beteiligten x-Werte (metrisches Merkmal)
Xi = Mittelwert der x-Werte aus Gruppe i, i=1,..g, g=Gruppenzahl
.
SAQges = Summe der Abweichungsquadrate der x-Werte von Xges
SAQinn = Summe der Abw.quadrate innerhalb der Gruppen, d.h. ueber alle
g Gruppen die Abw.quadrate der x von ihrem zustaendigen Xi
SAQzwi = SAQges-SAQinn, die Summe der Abw.quadrate zwischen den Gruppen
.
MQzwi = SAQzwi/FGzwi Mittleres Quadrat mit Freiheitsgrad FGzwi=g-1
MQinn = SAQinn/FGinn Mittleres Quadrat mit Freiheitsgrad FGinn=n-g
.
Fgl = MQzw/MQinn globaler Fwert mit Freiheitsgraden (FGzwi, FGinn)
.
KIWgl = Kritische Irrtumswahrscheinlichkeit, d.h. die Wahrscheinlich-
keit, dass dieser oder groessere Fwerte auftreten koennen
unter der Nullhypothese (kein Einfluss des Faktors). Der Wert
wird mit der vorgegebenen Irrtumswahrscheinlichkeit Alpha ver-
glichen (einseitiger F-Test, da ein negativer Faktoreffekt
ohne Natur- oder Datenmanipulation nicht moeglich ist).
.
Der Mittelwertvergleich erfolgt paarweise, jedes Xi mit jedem Xj, d.h. es
werden h=g(g-1)/2 Einzelhypothesen getestet. Der Einzeltest erfolgt mit
.
Fij = ((Xi-Xj)^2 n1 n2) / (MQinn (n1 + n2)) Einzel-Fwert mit den Frei-
heitsgraden (1, FGinn)
KIWij= Kritische Irrtumswahrscheinlichkeit. Sie wird mit Alpha' ver-
glichen (entspricht in dieser Konstellation dem zweiseitigen
t-Test). Alpha' ist das adjustierte Alpha aus Holms Prozedur.
.
Holm's Prozedur sichert, dass die vorgegebene Irrtumswahrscheinlichkeit
Alpha fuer die Gesamtheit aller geprueften Hypothesen gilt. Je mehr Hypo-
thesen h, desto schaerfer der einzelen Test. Die Fij werden nach der
Groesse absteigend sortiert: F1, F2, ... Fh. Das KIW1 wird mit
Alpa'=Alpa/h verglichen, KIW2 mit Alpa'=Alpha/(h-1), KIW3 mit
Alpha'=Alpha/(h-2) usw. Sobald ein Vergleich nicht signifikant ausfaellt,
bricht Holms Prozedur ab. Alle weiteren Vergleiche sind ebenfalls nicht
signifikant.
.
Ein Sonderfall: Nach PERLI kann man den ersten Test (Maximales F=F1) auch
durch den globalen Test ersetzen. Zeigt der globale F-Test einen signifi-
kanten Faktoreinfluss an, dann wird der am hoechsten bewertete Mittelwert-
unterschied ebenfalls als signifikant erachtet, auch wenn Holms Prozedur
ihn verwerfen sollte. DASY meldet mit den Kuerzeln "gl"=globaler F-Test
bzw. "ei"=Einzel-F-Test, wie die Signifikanz des groessten Mittelwert-
unterschieds ermittelt wurde.
.
.
Datenanordnung der Messwerte und Faktoren beim Mittelwertvergleich und VA
.
Modell 1 und 2 : Wir benoetigen ein metrisches Zielmerkmal und ein
kategoriales Gruppierungsmerkmal (Faktor). Es werden
maximal 20 Faktorstufen verarbeitet. Sind es mehr,
werden die restlichen Faktorstufen bergangen.
.
korrel. Gruppen: Wir benoetigen 2 oder mehr gleichartige metrische
Merkmale. Jedes Merkmal entspricht einer Faktorstufe
(z.B. "Blutdruck vor der Kur", "Blutdruck nach der Kur")
.
.
Dr-Mittelwertvergleich: Im Druck zum Mittelwertvergleich bedeutet:
.
Mittel Arithmetischer Mittelwert
Anzahl Anzahl der im Mittelwert summierten Einzelwerte
Gruppe/Kat Gruppe bzw. Kategorie, d.h. die Faktorstufe
F-Wert Testgroesse F-verteilt mit FG1=1, FG2=n-g Freiheitsgraden
Ni, Nj sind die Gruppenumfaenge der verglichenen Gruppen
"gl" nach dem 1. F-Wert bedeutet "globaler F-Wert" be-
nutzt, "ei" bedeutet Einzel-F-Wert benutzt.
KIW Kritische Irrtumswahrscheinlichkeit zum F-Wert
Vergleich erfolgt nach Holms Prozedur mit Alpha'
Signif. Signifikanzniveau entsprechend >5%, <=5%, <=1%, <=0.1%
- - -
Dr-korr-Mittelwertvergleich: In der Ausgabe bedeutet:
.
Gesamtanzahl Alle Werte aller beteiligten Merkmale
mittel-1 Mittelwert des links aufgefuehrten Merkmals (Gruppe)
mittel-2 Mittelwert des rechts aufgefuehrten Merkmals (Gruppe)
k Zahl der gueltigen Wertepaare (ohne Ausfaelle)
F-Wert Testgroesse F-verteilt mit FG1=1, FG2=k-1
"gl" nach dem 1. F-Wert bedeutet "globaler F-Wert"
"ei" bedeutet
KIW Kritische Irrtumswahrscheinlichkeit zum F-Wert
Signif. Signifikanzniveau entsprechend >5%, <=5%, <=1%, <=0.1%
- - -
Dr-einf-VA: In der Ausgabe der einfachen Varianzanalyse bedeutet:
.
Mittel Arithmetischer Mittelwert
Anzahl Anzahl der im Mittelwert summierten Einzelwerte
Gruppe/Kat Gruppe bzw. Kategorie, d.h. die Faktorstufe
SAQ zwischen Summe der Abweichungsquadrate zwischen den Gruppen
(Faktorstufen) mit FG=g-1. g=Gruppenzahl
SAQ innerhalb Summe der Abweichungsquadrate innerhalb aller Gruppen
mit FG=N-g. N=Gesamtzahl aller Werte
SAQ gesamt Summe der Abweichungsquadrate aller Werte vom
Gesamtmittel mit FG=N-1
MQ Mittleres Abweichungsquadrat, d.h. MQ=SAQ/FG
Fwert Testgroesse testet MQzwischen>MQinnerhalb (signifikante
Gruppenunterschiede?) mit FG1=g-1, FG2=N-g
KIW Kritische Irrtumswahrscheinlichkeit zu F-Wert
Signif. Signifikanzniveau entsprechend >5%,<=5%,<=1%,<=0.1%
- - -
.
.
Menue des Mittelwertvergleichs und der Varianzanalyse
.
Abbruch
Hilfe
.
Mittelwertvergleich unkorrelierter normalverteilter Grundgesamtheiten
.
Mittelwertvergleich korrelierter normalverteilter Grundgesamtheiten
.
Einfaktorielle Varianzanalyse
- - -
.
Menue VA-Boxplots
.
Abbruch Sie wollen die Boxplots nicht sehen
Hilfe Sie wollen sich informieren
.
Feinplot Feinlinige Graphik bis 20 Boxplots
Dickplot Groblinige Graphik bis 10 Boxplots
.
O.K. Sie wollen die Boxplots jetzt sehen
- - -
.
Die Boxplot-Graphik erscheint nur beim Mittelwertvergleich unkorre-
lierter Gruppen. Sie zeigt die Gruppen gemaess der Faktorwerte
(maximal 20) und ihre gegenseitige Lage. Faktorwert 3 wird als FW3.00
vor den Boxplot gesetzt. Bei Faktorwerten>9999 fehlt das "FW". Bei
Faktorwerten >999999 wird die Gruppennummer, z.B. GR0003 ausgegeben.
Faktorwerte, die sich nur in kleineren Nachkommastellen unterscheiden,
sollte der Anwender vermeiden, den Faktorwerte 2.777 und 2.778 erschei-
nen beide als FW2.78 in der Graphik.
.
Die Boxplots bestehen aus dem Korpos (links das 25%, rechts das 75%-
Quantil, geteilt durch den Median). Whiskers links (10%), rechts 90%-
Quantil. Minimum und Maximum als "o". Das Gruppenmittel ist eine Raute.
Ist der Gruppenumfang <5, erscheinen nur die Einzelwerte als "o".
.
.
Auswahlmenue Cluster-/Diskriminanzanalyse
.
Abbruch Sie wollen zurueck ins Hauptmenue
Hilfe Sie wollen sich informieren
.
Cluster Sie wollen die Clusteranalyse durchfuehren
Diskrimi Sie wollen die Diskriminanzanalyse durchfuehren
- - -
.
Die Clusteranalyse benutzen Sie, wenn Sie noch keinerlei Klassenein-
teilung fuer Ihre Daten haben. Die von der Clusteranalyse gefundene
Klassenstruktur ist spekulativ und muss mit fachbezogenen Untersuch-
ungen bestaetigt oder verworfen werden.
.
Die Diskriminanzanalyse nehmen Sie, wenn bereits klassifizierte Objekte
vorliegen und Sie
.
- neue Objekte klassifizieren wollen
- effektive Klassifikationsmerkmale finden wollen
- den Klassifikationsfehler schaetzen wollen
- multiple Mittelwertvergleiche durchfuehren wollen
.
.
Clusteranalyse
.
Der Begriff Clusteranalyse wurde 1939 von Tryon gepraegt.
.
Die Clusteranalyse hat die Aufgabe, in bislang unstrukturierten Daten
Cluster (Klassen) zu erkennen. Jeder Datenzeile (Objekt) wird somit eine
Klassennummer zugeordnet und in einem neuen Merkmal abgespeichert.
.
Die Clusteranalyse ist eine Basismethode der Klassifikation, wenn man
nichts ueber die Klassenstruktur der Daten weiss. Die Diskriminanz-
analyse, die DASY auch anbietet, ist im Anschluss an eine Clusteranalyse
nuetzlich zur graphischen Darstellung und zum Test der gefundenen
Klassenstruktur.
.
Das Ergebnis der Clusteranalyse ist entweder eine eindeutige Zuordnung
der Objekte zu Klassen (Clustern) oder eine Wahrscheinlichkeitsangabe
fuer die Klassenzuordnung (EM-Algorithm). DASY liefert nur die Klassen-
zuordnung mit der hoechsten Wahrscheinlichkeit.
.
Hat die Clusteranalyse eine Klassifikation der Daten vorgenommen, dann
kann die Diskriminanzanalyse auch die besten Trennvariablen suchen.
.
.
Literatur: Hans-Joachim Mucha, "Clusteranalyse mit Mikrocomputern",
Akademieverlag Berlin 1992.
.
Aus diesem Buch stammen auch die Testdaten "Diday.dat" von E. Diday.
.
Nr R SG Arb Weg Hau Kin Ein Pfl Ess Sch TV Fre
01 1 1 610 140 60 10 120 95 115 760 175 315
02 1 2 475 90 250 30 140 120 100 775 115 305
...............................................
28 4 7 434 86 297 21 129 102 94 799 58 380
.
Diese Daten stammen von 4x7 Personen aus den Regionen R=1=USA, R=2=West-
europa, R=3=Jugoslawien und R=4=Osteuropa. Die 10 Merkmale sind Zeitauf-
wendungen in Stunden*100 fuer
.
1. Arbeit, 2. Arbeitsweg, 3, Haushalt,
4. Kinder, 5. Einkauf, 6. persnliche Pflege,
7. Mahlzeiten, 8. Schlaf, 9. Fernsehen,
10. Freizeit
.
Die 7 sozialen Gruppen sind
.
SG=1 Berufstaetige Maenner SG=2 Berufstaetige Frauen
SG=3 Nichtberufstaetige Frauen SG=4 verheiratete Maenner
SG=5 verheiratete Frauen SG=6 unverheiratete Frauen
SG=6 unverheiratete Frauen
.
Der Autor von DASY war 1983-1991 Teamkollege von Hans-Joachim Mucha am
Karl-Weierstrass Institut zu Berlin, und hat viel von dieser Zusammen-
arbeit profitiert. Hans-Joachim Mucha sei hier besonders gedankt fuer
seine damalige Unterstuetzung und die zahlreichen Diskussionen zur
Clusteranalyse.
.
"Data Mining" ist eine Methodensammlung zur Identifikation von Mustern.
Hierunter fallen u. a. die Methoden:
.
Assoziationsanalyse (siehe Chi-Quadrat-Zerlegung nach LANCASTER)
Sequenzmusteranalyse (teilweise mit der KFA moeglich)
C l u s t e r analyse
R e g r e s s i o n s verfahren (siehe einfache und multiple Regr.)
Graphentheoretische Methoden
Entscheidungsbaeume
.
.
Beispiele Klassifikation:
.
Klassifikation der Daten eines Microarrays ueber die Konzentrationen der
Additive und der Leuchtreaktion
.
Klassifikation von Schneckenpopulationen in Badischen Weinbergen
z.B. nach den Merkmalen Farbe, Groesse, Windungszahl.
.
Entdeckung der Weissen Zwerge und Roten Riesen durch Hertzsprung und
Russel, als sie den Logarithmus der Helligkeit und den Logarithmus der
Temperatur von Sternen als Plottvariablen benutzten.
.
.
Startmenue der Clusteranalyse
.
Abbruch Sie haben es sich anders ueberlegt
Hilfe Sie wollen sich informieren
.
Ranking Sie wollen ein Ranking der Clustermerkmale
Kein Rank Sie wollen kein Ranking der Clustermerkmale
.
O.K. Sie wollen in der Clusteranalyse fortfahren
- - -
.
Das Merkmalsranking geht auf eine Untersuchung von A. von Eye, H.-J.
Mucha und S. von Weber aus dem Jahre 2005/2006 zurueck. Merkmale, die
einen hohen Rang erhalten, werden bei der Berechnung des Mahalanobis-
abstands hoeher gewichtet. In vielen Beispielen ergab sich eine bessere
Klassifikation.
.
Bei wenigen, sehr guten Clustermerkmalen arbeitet man ohne Ranking.
Empfehlung: Ab 8-10 Merkmale das Ranking einsetzen.
.
Fortsetzung Menue der Clusteranalyse
.
Abbruch Sie wollen zurueck ins Hauptmenue
Hilfe Sie wollen sich ueber die Clusteranalyse informieren
.
M...M Sie wollen die Merkmale fuer die Clusterung auswaehlen
.
.
Trafo Lokale frei programmierbare Transformation anwenden?
Einfach Pol. Einfaches Polynomiales Standardmodell anwenden? PG=2-5
Vollst. Pol. Vollstaendiges Polynomiales Standardmodell? PG=2,3
.
Linkage Linkage zwischen Single und Complete Linkage einstellen
Kernobjekte Kernobjekte der Klassen nach Methode 1, 2, 3 waehlen
Klassen Vorgabe der Klassenzahl fuer das Linkage
.
O.K. Ausfuehren der Clusteranalyse
- - -
.
Die Parameter im Menue bedeuten:
.
M..M sind die Clustermerkmale, die die Klassentrennung bewerkstelligen
sollen. Ihr Informationsgehalt ist entscheidend fuer die Guete
der Clusterung.
.
Trafo Sie haben die Moeglichkeit, durch ein kleines Programm neue
Clustermerkmale aus den vorhandenen zu berechnen oder die
vorhandenen zu transformieren. Diese Merkmalstransformation
ist temporaer, d.h. diese Merkmale werden nicht gespeichert.
Siehe unten "interner Ablauf". Weitere Hinweise zum Transfor-
mationsprogramm entnehmen Sie der Beschreibung der Diskriminanz-
analyse und dem Kapitel "freie Transformation".
.
Pol. Einfach polynomiales Standardmodell erzeugt die Potenzen zu den
vorhandenen Merkmalen, maximal bis zur 5. Potenz. Das voll-
staendig polynomiale Modell erzeugt auch alle Produkte bis zur
3. Potenz. Die Gesamtzahl der Merkmale darf jedoch 60 nicht
ueberschreiten (einfach ausprobieren).
.
Link Der Parameter Linkage hat Werte von 10 - 30 und steuert die
Anwendung und Mischung der 3 Linkage-Methoden Single Linkage=10,
Zentroid-Methode=20 und Complete Linkage=30. Default ist
Linkage=20, d.h. die reine Zentroidmethode.
.
Kernob. Methode 1: Das mittelste Objekt der Auswahl, dann das Objekt mit
dem weitesten Abstand von der Mitte, dann das Objekt mit dem
weitesten Abstand zu den beiden schon ausgewaehlten Objekten usw.
.
Methode 2: Wie Methode 1, aber ohne das mittelste Objekt.
.
Methode 3: Es wird eine maximal 5-dimensionale Dichtelandschaft
aufgebaut aus den ersten Merkmalen. In dieser Dichtelandschaft
wird das Objekt unter dem hoechsten Maximum als erstes Kernobjekt
genommen. Die weiteren Kernobjekte werden wie bei Methode 1
bestimmt.
.
Im Anschluss an Methode 1-3 erfolgt noch ein Austausch-
verfahren, bei dem Die Distanzsumme der Kernobjekte
maximiert wird.
.
Klass Der Parameter Klassen erlaubt, eine Vorgabe zur Klassenzahl
zu machen. Default ist k=5. Im Diskriminationsteil der
Clusteranalyse koennen Sie graphische interaktiv die Klassen-
zahl aendern, indem Sie Klassen vereinen oder teilen. Geben
Sie lieber ein paar Klassen zu viel an und reduzieren Sie dann
auf die gewuenschte Zahl.
.
.
Der interne Ablauf der Clusteranalyse:
.
1. Dateneingabe aus der Datenbasis. Durchfhrung einer eventuellen
lokalen Merkmalstransformation *.trr.
Die lokale Merkmalstransformation ist optional und erfordert ein
Transformationsprogramm *.trr, das im Programmteil "Transformationen"
erstellt und auf formale Richtigkeit getestet wird. Fehler, die erst
zur Laufzeit des Programms auftreten, koennen nur hier in der Cluster-
analyse erkannt werden (ein Beispiel siehe Diskriminanzanalyse).
.
Die berechneten Merkmale sind lokal, d.h. sie werden nach
Ausfuehrung der Clusteranalyse sofort wieder "vergessen". Sie
koennen die X-Variablen transformieren und die Anzahl der X-Variablen
verringern, belassen oder erhoehen.
.
Im Gegensatz zur Regressions- und Diskriminanzanalyse gilt jedoch:
- Es werden keine Y-Merkmalswerte benoetigt, und damit auch kein
Y-Merkmal. Da die Regression und die Diskriminanzanalyse ein
Y-Merkmal benoetigen, wird aus formalen Gruenden die Y-Variable
intern mitgeschleppt und immer Null gesetzt, egal was Sie pro-
grammieren (am besten, die Y-Berechnung einfach weglassen. Sie
koennen dann exakt dasselbe *.trr-Programm fuer eine nachfolgende
Diskriminanzanalyse unveraendert weiterverwenden).
- Es gibt keine Gewichts- und keine Gruppierungsvariable. Beide Werte
werden intern 1 gesetzt, egal, was Sie programmieren.
.
Berechnung zusaetzlicher Merkmale nach einem polynomialen Modell,
falls Sie ein solches angegeben haben. Maximal 60 Merkmale duerfen
insgesamt entstehen.
.
2. Dieser Schritt wird nur bei "Rankingverfahren" durchgefuehrt.
Ziehen einer Datenstichprobe bei zu vielen Daten.
Bildung dichotomer Variabler. Binaere Variable bleiben unveraendert.
Metrische Variable werden mit 2 Klassen dichotomisiert, wobei der
Median die Klassengrenze bildet. Kategoriale Merkmale mit k Klassen
muessen vom Anwender bereits im Vorfeld in k-1 binaere Merkmale umko-
diert werden, z.B. Merkmal Farbe (1=Rot, 2=Gruen, 3=Blau) in z.B.
Merkmal Rot (0=Nein, 1=Ja) und Merkmal Gruenblau (0=Gruen, 1=Blau).
.
3. Dieser Schritt wird nur bei "Ranking" durchgefuehrt.
Bildung der Kontingenztafel und Rangordnung der Merkmale, die mit
einem Informationsmass erfolgt. Das benutzte Informationsmass ist
I=Summe( f*f * e*e ). Hierbei ist f die Zellfrequenz und e der Erwart-
ungswert der Kontingenztafelzelle. Summiert wird ber alle Zellen.
.
4. Bildung der Korrelationsmatrix aller Merkmale, wobei jedoch die
in Schritt 2 erhaltene Reihenfolge (Rangordnung) eingehalten wird.
Es wird schrittweise die inverse Matrix berechnet und der Algorithmus
gestoppt, wenn kein Diagonalelement>EPSILON mehr vorhanden ist bzw.
wenn die gesamte Matrix invertiert ist.
Die Menge der Clustermerkmale nach dem Rankingverfahren und der In-
vertierung der Korrelationsmatrix ist die Menge der bei der nachfol-
genden Diskrimination zugelassenen Merkmale.
.
5. Ziehen einer Datenstichprobe, wenn die Speicherkapazitaet ueber-
schritten wird. Z-Transformation der Daten. Bei der Berechnung des
Mahalanobisabstands zwischen zwei Objekten werden die Beitraege
rangniedriger Merkmale heruntergewichtet (nur bei Rankingverfahren).
.
Suche von Kernobjekten, die als Ausgangspunkte der Klassen dienen
(Kondensationskeime). Default ist Methode 2. Im Anschluss an Methode
1-3 erfolgt noch ein Austauschverfahren, bei dem Die Distanzsumme
der Kernobjekte maximiert wird.
.
6. Bildung von k Clustern nach dem eingestellten Linkage-Verfahrensmix
(siehe Linkage-Verfahren). Parameter k gibt die gewunschte Klassen-
zahl vor (Default k=5) und jann in den Grenzen 2 - 20 vorgegeben
werden.
.
7. Falls eine Stichprobe gezogen wurde, werden die ueberzaehligen Objekte
den Clustern zugeordnet, zu denen sie den kleinsten Zentroid-Abstand
haben.
.
8. Diskrimination, Zuordnung der "fehlklassifizierten" Objekte zu ihren
"neuen" Klassen, Test auf Isoliertheit der Klassen und Fusion der am
wenigsten isolierten beiden Klassen (F-Test). Schritt 8 wird solange
wiederholt, bis entweder alle Klassen isoliert sind, oder der Anwender
die Iteration abbricht. Die Variablenauswahl in der Diskriminanz-
analyse wird mit Alpha=0.2 und die Teste auf Isoliertheit werden mit
ALPHA=0.05 ausgefuehrt
.
Die interaktive Arbeit mit der Graphik erlaubt:
- Akzeptanz des Vorschlags von DASY zum Zusammenlegen von Klassen
- Zusammenlegen zweier Klassen auf Anwenderwunsch hin
- Aufteilen einer Klasse in zwei Klassen auf Anwenderwunsch hin
- Zurueckgehen zu einer vorangegangenen Klasseneinteilung
- Beenden der Iteration.
.
.
Nach der "flexiblen Strategie" von Lance und Williams besteht eine Stu-
fenleiter von Methoden, deren Ergebnisse von langestreckten, ausgefrans-
ten Clustern ueber kompaktere Cluster zu kugelfoermigen Clustern reichen.
.
.
1. Single Linkage (Linkage=10)
Ein Verfahren, bei dem ein Objekt einem Cluster zugeordnet wird, falls
das Distanzmass minimal ist zu einem Objekt dieses Clusters. Es ent-
stehen langgezogene Ketten bzw. ausgefranste Cluster (Sterne).
.
2. Zentroid-Methode (Schwerpunktmethode) (Linkage=20)
.
Bei euklidischem Abstandsmass kann man den Schwerpunkt (Zentroid) jeder
Klasse bilden. Ein neues Objekt wird dem Cluster zugeordnet, dessen Zen-
troid am naechsten liegt. Das Gewicht des Clusters geht nicht in diese
Auswahlregel ein. Man kann mit dieser Methode Klassen mit sehr unter-
schiedlicher Objektzahl aufdecken. Ein neues Objekt im Cluster kann
dessen Minimalabstand zu seinen Nachbarzentroiden verringern oder ver-
groessern.
.
Ward-Methode (Minimalvarianzmethode)
Die Ergebnisse der Ward-Methode sind denen der Zentroid-Methode aehnlich.
Bei euklidischem Abstandsmass kann man Schwerpunkt und Varianz jeder
Klasse bilden. Ein neues Objekt wird dem Cluster zugeordnet, dessen
Varianz am wenigsten ansteigt. DASY verwendet die Clustervarianz nicht.
.
3. Complete Linkage (Linkage=30)
.
Ein Verfahren, bei dem ein Objekt dem Cluster zugeordnet wird, dessen
maximaler klasseninterner Abstand seiner Objekte am wenigsten ansteigt.
Es werden kompakte Cluster gebildet. Ausreisser und natuerliche Fransen
werden garnicht oder sehr spaet in den Cluster eingebunden.
.
.
Der Parameter " L i n k a g e " kann Werte von 10 bis 30 annehmen, auch
Zwischenwerte. So bedeutet z.B. Linkage=13, dass 70% vom Abstand nach
"Single Linkage" und 30% vom Abstand nach "Zentroidmethode" addiert
werden, und so den Abstand fuer die Fusionsregel ergeben.
.
Linkage=26 bedeutet z.B., dass 40% des Zentroidmethodenabstands und
60% der Aenderung des Complete-Linkage-Abstands addiert werden.
.
Neben den agglomerativen Methoden gibt es noch partitionierende Cluster-
methoden. Diese werden in DASY jedoch durch die Diskriminanzanalyse
ersetzt.
.
.
Abstandsmasse und Klassifikation
.
Der Abstand zweier Objekte x-y ist ein wesentliches Kriterium fuer die
Einordnung in denselben Cluster.
.
Man benutzt sehr oft den Euklidischen Abstand, nachdem man die Merkmale
z-transformiert hat, d.h. auf Mittelwert 0 und Varianz 1.
.
Besser, aber etwas aufwendiger zu berechnen, ist das Quadrat des
Mahalanobisabstands
.
d^2 = (x-y)' S^-1 (x-y).
.
Dabei sind x dbzw. y die Merkmalsvektoren der Objekte und S^-1 die
inverse Kovarianzmatrix. Die Clusteranalyse und die Diskriminanzanalyse
in DASY benutzen immer den Mahalanobisabstand.
.
Die Linkage-Prozedur wird mit einer Auswahl der Objekte durchfgefuehrt,
wenn die Obejektzahl N>150 ist. Die verbleibenden Objekte werden in
einem Diskriminationsschritt nach der Zentroidmethode den gefundenen
Clusterkernen der Auswahl zugeordnet.
.
Der nachfolgende Diskriminanzanalyseteil der Clusteranalyse berechnet
t nichtelementare Diskriminanzmerkmale W1, W2, ... nach Ahrens/Laeuter
und benutzt den von ihnen aufgespannten Raum fuer die graphische Dar-
stellung und fuer die weitere Bearbeitung der Cluster. Die Merkmalsaus-
wahl im Diskriminanzteil erfolgt hier i m m e r nach dem Aufbau-
verfahren.
.
Die Diskrimination benutzt den minimalen Mahalanobisabstand zu den
Klassenmitteln, wobei dieser noch mit der apriori-Wahrscheinlichkeit
der Klassen, Pj=Nj/N, gewichtet wird. Nj ist der Klassenumfang vor der
Neuklassifikation, N die Zahl aller Objekte.
.
Nach einer Klassenzusammenlegung oder Klassenteilung entstehen neue
Clustermittel. Die Objekte werden erneut klassifiziert, und, da ja
a-priori keine Klassifikation gegeben ist, wieder neu den Klassen zu-
geordnet. Wundern Sie sich also nicht, wenn nach einer Klassenteilung
ein ganz anderes Bild herauskommt, als Sie erwartet haben. Notfalls
gehen Sie einen Schritt zurueck.
.
Werden Daten clusteranalysiert, die schon klassifiziert sind, dann kann
es bei greren Klassenzahlen ein Puzzle sein, die bereits vorhandenen
Klassennummern den von der Clusteranalyse vergebenen Klassennummern
zuzuordnen. Das Problem ist nicht immer eindeutig lsbar. Eine Hilfe
bieten die charakteristischen Objekte, deren Satznummer in der Ausgabe
erscheint.
.
Datenaufbau fuer eine lineare Clusteranalyse
.
- Sie benoetigen eine oder mehrere C L u s t e r variablen Xj. Diese
koennen metrisch, binaer oder ranggeordnet sein. Maximal 19 Variable.
.
Es koennen aus den eingelesenen Variablen Xj durch Potenzieren
und/oder Multiplikation weitere X-Merkmale gewonnen werden (polyno-
miale Modelle). Die Gesamtzahl der X-Merkmale einschliesslich der er-
zeugten polynomialen Merkmale wird von DASY auf p=60 begrenzt.
Werden Zahlenwerte eines Merkmals dabei generell > 10^12, dann fallen
a l l e Daten aus! (Fehler "Weniger als 4 ausfallfreie Datensaetze")
.
- Ein kategoriales X-Merkmal mit k Kategorien muss durch eine Datentrans-
formationin in k-1 binaere Merkmale umcodiert werden (Beispiel Merk-
mal Haarfarbe mit den 3 Kategorien: K1=schwarz, K2=rot, K3=blond muss
in zwei binaere Merkmale umcodiert werden: M1=schwarz/nichtschwarz,
M2=rot/nichtrot). Diese Transformation wird nicht automatisch durchge-
fuehrt, sondern liegt beim Anwender.
.
Cluster-Plot
.
Die Graphik zur Clusteranalys zeigt den Diskriminanzraum mit der
Klasseneinteilung (blaue Trennlinien), die Klassenmittel (grosse Buch-
staben in grau oder heller Farbe: A, B, C, ... fuer die Klassen 1, 2,
3, ... ), die Objekte als kleine Buchstaben (a, b, c ....), wobei "a"
ein Objekt der Klasse A ist.
.
Ist der nichtelementare Merkmalsraum 1-dimensional, wird ausser der w1-
Koordinate eine knstliche w2-Koordinate (Zufallszahl) angelegt, damit
nicht alle Objekte auf der w1-Geraden kleben.
.
Links in der Graphik erscheint ein Menue. Die Felder werden durch An-
klicken aktiviert (rot umrandet) und durch nochmaliges Anklicken
deaktiviert. Unter dem Menue steht die Klasse, auf die der Cursor gerade
zeigt (wenn er in der Graphik positioniert ist). Unten links ist das
Nachrichtenfenster. Ueber der Graphik erscheinen die Empfehlungen.
Im Menue bedeutet:
.
- HILFE Es kommt dieser Text
.
- ABBRUCH Sie wollen die Clusteranalyse abbrechen. Es wird nichts
in das Protokoll ausgegeben und auch kein Zielmerkmal
erzeugt.
.
- W1-W3 Sie wollen die W1-W3-Projektionsebene sehen. W1, W2, W3, ...
sind die nichtlinearen Diskriminazmerkmale, die den Raum
aufspannen. W1-W2 ist die uebliche (beste) Projektion. Ob
Klassen sich durchdringen oder "uebereinander" angeordnet
sind, kann man dann mit der W1-W3-Projektion eventuell er-
kennen. Bei 1- oder 2-dimensionalem Diskriminanzraum gibt
es keine W1-W3-Projektion.
.
- TRENNLIN Die Trennlinien werden bei jeder Bilderneuerung gezeichnet
.
- BITMAP Gibt die Graphik als schwarz-weisse Bitmap aus (16 Farben).
Durch Umwandlung in eine echte Schwarz-Weiss-Graphik und
Umsetzung vom bmp- in das gif-Format ist eine erhebliche
Platzreduzierung und einfachere Einbindung in WORD-
Dokumente moeglich.
.
- PROJEKTI Voreingestellte Trennliniendarstellung ist die Berechnung
von Klassenbereichen i n der gewaehlten W-Ebene. Diese
Darstellung ist ein Kompromiss, um allen Klassen einen
Bereich in der W-Ebene zu geben.
.
Wird PROJEKTI aktiviert, dann wird als Klassenbereich die
Schnittflaeche des multidimensionalen Hyperbereichs der Klasse
mit der W-Ebene angezeigt. In dieser Darstellung koennen
Klassen, die zu weit von der W-Ebene entfernt liegen, keine
Schnittflaeche und damit auch keinen darstellbaren Klassen-
bereich haben. Man sieht eventuell weniger Bereiche, als
Klassen vorhanden sind.
.
Empfehlung: Arbeiten Sie moeglichst lange mit der voreinge-
stellten Projektion. Erst wenn die Klassenzahl reduziert ist
versuchen Sie die PROJEKTI-Darstellung. Diese wird auch in der
Diskriminanzanalyse benutzt.
.
- DICKPLOT Es wird der groessere Schriftsatz fuer die Skala und die Dar-
stellung der Objekte genommen. Beim Verkleinern fuer ein
Artikel bleibt die Graphik noch lesbar.
.
- VEREINE Sie klicken zuerst auf das Feld VEREINE. Wenn keine Trenn-
linien da sind, werden sie jetzt gezeichnet. Sie klicken dann
auf die Trennlinie zwischen den zwei Klassen, die Sie ver-
einigen moechten. Die Klassen werden zu einer Klasse zu-
sammengefasst.
Sind insgesamt nur noch zwei Klassen vorhanden, wird nicht
vereinigt. 2 ist die Mindestklassenzahl.
.
- TEILE Sie wuenschen die Aufteilung einer Klasse in zwei Klassen.
Das geht nur, wenn im Augenblick weniger als 20 Klassen
existieren. Geteilt wird mit einer Trennlinie, die Sie selbst
festlegen, indem Sie zwei Punkte innerhalb der Klasse
markieren, durch die die Linie verlaufen soll. Die Linie wird
dann von DASY automatisch verlaengert.
.
Sie klicken zuerst auf das Feld TEILE. Sind keine Trennlinien
da, dann werden sie jetzt gezeichnet. Dann klicken Sie auf
eine beliebige Stelle innerhalb der gewuenschten Klasse, die
Sie aufteilen wollen. Am linken Rand steht die Klassenbe-
zeichnung der von Ihnen ausgewaehlten Klasse.
.
Sie machen einen weiteren Klick innerhalb der gewaehlten
Klasse, um den ersten Punkt zu markieren, durch den die neue
Trennlinie verlaufen soll. Die Position wird rot markiert.
.
Ein weiterer Klick innerhalb der gewaehlten Klasse markiert
einen zweiten Punkt der Geraden. Die Gerade wird gezeichnet.
(Dieser zweite Klick entfaellt bei 1-dimensionalem Diskrimi-
nanzraum)
.
Durch einen letzten Klick markieren Sie die Haelfte der
Klasse, die die gerade bestehende Klassennummer behalten soll.
Fuer die andere Haelfte sucht DASY automatisch eine freie
Klassennummer.
.
Die Klassentrennung erfolgt in der gewaehlten Projektionsebene
W1-W2 bzw. W1-W3 genau an diesem Trennstrich, ohne andere
Dimensionen des Diskriminanzraums zu beachten.
.
- ZURUECK Sie wollen die vorangegangene Klasseneinteilung wiederhaben.
Maximal 2 Schritte koennen Sie zurueckgehen. Gehen Sie weiter
zurueck, landen Sie wieder bei der Anfangsklassifikation.
.
- ANFANG Sie wollen zur ersten urspruenglichen Klasseneinteilung der
Clusteranalyse zurueck (Anfangsklassifikation).
.
- AKZEPT Sie akzeptieren den Vorschlag des Programms zur Zusammenlegung
der beiden vom Programm ausgewaehlten Klassen (Klassenpaar
mit minimaler Isoliertheit nach Ahrens/Laeuter).
.
- O.K. Beenden des Programms Clusteranalyse. Die letzte Klassenein-
teilung wird als Zielmerkmal in die Datenbasis ausgegeben.
Sie knnen anschlieend mit der Diskriminanzanalyse weitere
Tests und eine graphische Ausgabe der Klassenbelegung vor-
nehmen. Dabei geben Sie als Y-Merkmal dieses neu erzeugte
Merkmal an.
.
Druckbilderklaerung der Clusteranalyse
.
Cluster-Dr: In der Ausgabe der Diskriminanzanalyse bedeutet
.
A,B,.. kuenstliche Namen der Clustermerkmale nach Eingabe und
eventueller lokaler Transformation.
M01,.. Numerierung der Merkmale im Modell vor Merkmalsauswahl.
A 1 Fortlaufende Kennzeichnung A,B,C,... der Klassen, da-
hinter eine nicht unbedingt fortlaufende Klassennummer.
N Auswertbare Objektzahl (Datensaetze ohne Ausfall).
k Klassenzahl.
Nj Objektzahl in Klasse j, Klassenumfang.
Charakteristisches Objekt liegt am dichtestn am Klassenmittel.
In der Klassentabelle erscheint seine Zeilennummer.
W1,.. W-Koordinaten der Klassenmittel, maximal bis W5. - - -
- - -
.
.
Diskriminanzanalyse
.
Literatur: Heinz Ahrens und Juergen Laeuter: "Mehrdimensionale Varianz-
analyse", Akademieverlag Berlin 1981.
.
Aus diesem Buch stammen auch die Testdaten Hyperthy.dat von
Dr. H. Deckart, Nuklearmedizinische Klinik Berlin-Buch. Von insgesamt
23 Personen, die wegen Hyperthyreose (eine Schilddrsen-berfunktion)
behandelt wurden, liegen Messungen vor. Die Patienten sind in 3 Klassen
eingeteilt:
.
Klasse 1 Behandlung erfolgreich
Klasse 2 Behandlung ohne Erfolg
Klasse 3 Erst Erfolg, dann Rueckfall
.
Die ersten 5 Messungen y1-y5 sind Radio-Jod-Werte vor der Behandlung
mit einem Medikament, die Messungen y6-y10 nach Abschluss der Therapie.
.
Der Autor von DASY war 1983-1991 Mitarbeiter von Prof. Dr. Juergen
Laeuter am Karl-Weierstrass Institut zu Berlin, und hat viel von dieser
Zusammenarbeit profitiert. Prof. Laeuter sei hier besonders gedankt fuer
seine damalige Unterstuetzung und die zahlreichen Diskussionen.
.
.
Die Diskriminanzanalyse hat folgende Hauptaufgaben:
.
- Klassifikationsregeln fuer Objekte auf der Grundlage einer Lernstich-
probe bereits klassifizierter Lernobjekte aufstellen und den zu er-
wartenden Klassifikationsfehler schaetzen
.
- Klassifikation neuer Objekte (Arbeitsobjekte) mit den aufgestelleten
Klassifikationsregeln durchfuehren und graphisch oder tabellarisch
darstellen
.
- Aufsuchen von signifikanten Trennmerkmalen zur Reduktion des Erfas-
sungsaufwandes von Klassifikationsdaten
.
- Test auf multivariate Mittelwertunterschiede zwischen Objektklassen.
.
- Test auf Isoliertheit von Objektklassen, insbesondere in Verbindung
mit der Clusteranalyse.
.
.
Beispiel Klassifikation:
.
Ein Computerprogramm soll lernen, die GC-Kurven (Gas-Chromatographie)
von 10 verschiedenen Farbstoffloesungsmitteln sicher zu unterscheiden.
Man gibt von jeder GC-Kurve 10 bis 30 Werte aus charakteristischen
Bereichen des Chromatogramms als Datensatz ein. Um die Redundanz zu
verbessern, nimmt man pro Loesungsmittel mindestens 10 Chromatogramme
unterschiedlicher Proben desselben Loesungsmittels.
.
Die lineare Diskriminanzanalyse berechnet aus den 10-30 originalen
GC-Merkmalen ein oder mehrere Diskriminanzmerkmale sowie die Klassen-
grenzen. Die Klassengrenzen trennen im Diskriminanzraum, der von den
Diskriminanzmerkmalen aufgespannt wird, die Klassen voneinander ab.
.
Ein neues Chromatogramm ergibt einen Punkt im Diskriminanzraum. Man
nimmt die Klasse an, in deren Gebiet der neue Punkt liegt. Auf diese
Weise ist das Loesungsmittel ueber seine GC-Werte klassifizierbar.
.
Beispiel Merkmalsauswahl:
.
Fuer die Klassifikation von Produktionsfehlern soll die Anzahl der
Messpunkte aus Zeitgruenden minimiert werden. An einer Stichprobe
von Teilen mit bekannten Fehlern werden genuegend viele Messungen
gemacht, um jeden Fehler eindeutig klassifizieren zu koennen. Jetzt
erfolgt eine automatische Reduktion der Merkmale auf die wesentlichen
Diskriminanzmerkmale, d.h. die Merkmalsmenge, die gerade noch eine
sichere Klassifikation erlaubt.
.
Beispiel Mittelwertvergleich:
.
Unterscheiden sich Neugeborene aus Grossstaedten von Neugeborenen aus
laendlichen Gebieten. Zu jedem Neugeborenen werden Messdaten erhoben,
z.B. Gewicht, Laenge, Temperatur usw., aber auch die Herkunft (Gross-
stadt oder laendlicher Raum).
.
Das Programm berechnet den Mahalanobisabstand der beiden Klassen
(Stadt / Land), eine Art gewichteter Mittelwertabstand ueber alle
gemessenen Merkmale, und testet diesen Abstand auf Signifikanz.
.
Begriffe der Diskriminanzanalyse:
.
Trennvariable: Ein messbares metrisches oder beobachtbares kategori-
ales Merkmal, das sich als besonders effektiv bei der Trennung von
Objektklassen zeigt.
.
Lernobjekt: Objekt mit bekannter Klassenzugehoerigkeit (im Gegensatz
zum Arbeitsobjekt, dessen Klassenzugehoerigkeit zu bestimmen ist).
.
Diskriminanzmerkmale: Kuenstlich erzeugte Merkmale (jedes ist eine
Linearkombination von Trennvariablen), die den Diskriminanzraum auf-
spannen. Die Diskriminanzmerkmale stehen senkrecht aufeinander.
.
Multivariate Mittelwertunterschiede: Klassenunterschiede nicht nur bei
einer Variablen beobachten, z.B. beim Gewicht, sondern bei vielen Merk-
malen simultan, z.B. Gewicht, Alter, Blutdruck, Geschlecht usw.
.
Diskriminanzraum: Von den Diskriminanzmerkmalen aufgespannter Raum.
Die Trennleistung der Diskriminanzmerkmale nimmt mit ihrer Nummer ab.
Die Ebene, die die beiden ersten Diskriminanzmerkmale aufspannen, wird
als Projektionsebene fuer die graphische Darstellung genommen, da in
ihr (fast immer) die Klassen am weitesten voneinander getrennt erschei-
nen.
.
Klassifikationsregel: Berechnung der Position eines Objektes im Dis-
kriminanzraum und Berechnung der Wahrscheinlichkeit, mit der es einer
Klasse zugeordnet werden kann. Im allgemeinen nimmt man die Klasse, die
die grte Wahrscheinlichkeit hat. In der medizinischen Diagnostik sind
aber auch andere Klassenzuordnungen interessant (Diagnose 1, Diagnose 2
usw.). Die Zuordnung wird vom Mahalanobisabstand Objekt-Klassenmittel
und vom Klassenumfang beeinflusst.
.
Der Klassifikationsfehler, d.h. die Zahl der falsch klassifizierten
Objekte im Verhaeltnis zur Gesamtzahl N der Objekte, sollte immer ent-
weder an einer Arbeitsstichprobe ermittelt werden oder mit einer Jack-
knife bzw. Bootstrap-Methode (in DASY nur Jack-knife mglich).
.
Eine Arbeitsstichprobe erhaelt man bei ausreichend vielen Lerndaten
durch Teilung der Lerndaten in zwei Haelften, die eigentlichen Lern-
daten und die Arbeitsstichprobe zur Ermittlung des Klassifikations-
fehlers.
.
Die Jack-knife Methode teilt die Lernstichprobe in k Teilmengen, lernt
an k-1 Teilmengen und verifiziert an der verbliebenen einen Teilmenge.
Durch k-malige Wiederholung ist jede Teilstichprobe dann einmal
Arbeitsstichprobe.
.
Der Reklassifikationsfehler, d.h. der Klassifikationsfehler, der aus
der Lernstichprobe selbst berechnet werden kann, ist wenig aussage-
faehig. Bei genuegend vielen Merkmalen geht dieser immer gegen Null,
waehrend der tatsaechliche Klassifikationsfehler bei zu vielen Merk-
malen wieder ansteigt.
.
Der Mahalanobisabstand zwischen zwei Punkten im Diskriminanzraum be-
ruecksichtigt nicht nur den formalen euklidischen Abstand zweier
Punkte, z.B. zweier Klassenmittel, im n-dimensionalen Merkmalsraum,
sondern auch die Metrik. Die Metrik wird durch zwei Eigenschaften der
Daten bestimmt:
.
- Die Vektoren vom Gesamtmittel zu den K einzelnen Klassenmitteln
spannen einen n-1-dimensionalen Raum auf. Diese Vektoren stehen im
Allgemeinen nicht senkrecht aufeinander. Die Koordinatenachsen des
Raumes werden durch eine Hauptachsentransformation aus den im Allge-
meinen untereinander korrelierten Distanzvektoren berechnet.
.
- Die einzelnen Klassen werden als Streuellipsoide aufgefasst, d.h. die
Objekte, die ja Punkte im Raum sind, liegen verstreut um das Klassen-
mittel. Aus allen Streuellipsoiden der K Klassen wird ein gemitteltes
(gepooltes) Streuellipsoid berechnet. Dieses wird in Kugelform trans-
formiert, wodurch die Metrik des Raumes, in dem die Distanzvektoren
definiert sind, bestimmt wird.
.
Merkmalsauswahl:
.
Entsprechend den Hauptaufgaben sind verschiedene Diskriminanzalgorithmen
zu empfehlen. Das erste Unterscheidungsmerkmal der Algorithmen ist die
Merkmalsauswahl:
.
- Bei hoher Merkmalszahl und wenig Lernobjekten wird immer das schritt-
weise Aufbauverfahren empfohlen. Ebenso bei der Suche nach signifi-
kanten Trennvariablen. Als Alternative gibt es das Abbauverfahren.
- Bei geringer Merkmalszahl und vielen Lernobjekten wird die Analyse
mit allen Merkmalen empfohlen. DASY entfernt jedoch automatisch
strende (extrem hoch korrelierte) Merkmale. Welches Merkmal aus einer
Gruppe extrem hoch korrelierter Merkmale entfernt wird, ist eher
zufllig.
.
Bei der Klassifikation neuer Objekte interessiert die Genauigkeit der
prognostizierten Klassifikation. Nicht der kleinste Reklassifikations-
fehler ist gefragt, sondern der kleinste Klassifikationsfehler bei neuen,
noch nicht klassifizierten Objekten. Zur Bestimmung benutzt man Jack-
knife- oder Bootstrap-Methoden (in DASY nur Jackknife) bzw. eine
Teilung der vorhandenen Daten in einen Lern- und einen Arbeitsteil. Die
Frage nach der Signifikanz der Trennvariablen stellt sich nicht bzw.
ist untergeordnet.
.
Das Auffinden signifikanter Einflussgroessen ist oft von wissenschaft-
lichem oder praktischem Wert. Das Ergebnis kann kausale Zusammenhaenge
erkennbar machen, oder aber den Erhebungsaufwand fuer Trennvariable
erheblich reduzieren helfen. Probleme beim Auffinden der signifikanten
Trenngroessen sind:
.
Aus einer Gruppe untereinander hoch korrelierter Trenngroessen wird
zumeist nur ein Merkmal mehr oder weniger zufaellig ausgewaehlt. Es ist
durchaus moeglich, dass eine ganze Reihe von Merkmalen dieselbe sig-
nifikante Trennschaerfe haben, wie das zufaellig gewaehlte Merkmal. Das
kann dann ein Hinweis daruf sein, dass ein versteckter Faktor alle
diese Merkmale steuert. Seltener tritt der Faktor selbst als Merkmal
auf. Es waere in diesem Falle sinnvoll, eine Faktoranalyse vorzuschal-
ten (in DASY nicht moeglich) und mit den Faktoren als Trennmerkmale
zu arbeiten
.
Liegen sehr viele Trennvariablen vor, dann muss eine Alpha-Adjus-
tierung, z.B. nach Holms Prozedur oder nach Bonferroni vorgenommen wer-
den (DASY bietet hier nur Bonferroni an), da sonst Zufallsmerkmale
eine Chance bekommen, als signifikant gemeldet zu werden (bei Alpha=5%
wuerden von 100 Zufallsmerkmalen immerhin 5 akzeptiert werden, wenn
keine Alpha-Adjustierung vorgenommen wird.)
.
"Schrittweises Aufbauverfahren oder Abbauverfahren" ist ein Verfahren,
bei dem ein Signifikanztest (F-Test) ueber die Aufnahme oder den Verbleib
einer Trennvariablen im Modell entscheidet. Die Vorteile sind:
.
- Nur Trennvariablen mit einem statistisch gesicherten Einfluss auf die
Reduktion des Reklassifikationsfehlers werden in das Modell aufgenommen
( Ausnahme: Ist kein Merkmal signifikant, wird das mit dem hoechsten
F-Wert genommen )
- Eine Gruppe hoch korrelierter Merkmale wird durch ein Merkmal vertreten
- Es entsteht eine robuste Loesung, die auch bei moderaten Veraenderungen
in der Datenbasis noch Bestand hat
"Diskriminanzanalyse mit allen Einflussgroessen" ist ein Verfahren, bei
dem nur Merkmale aus dem Modell entfernt werden, wenn eine so starke
lineare Abhengigkeit der Mermale diagnostiziert wird, dass numerische
Instabilitaeten auftreten. Der Vorteil ist:
.
- Fuer die Arbeitsstichprobe (und nur fuer diese) laesst sich der Re-
klassifikationsfehler maximal minimieren. Es haengt sehr vom Modell
ab, ob die Klassifikation auch fuer neue Objekte ausserhalb der Lern-
stichprobe noch vernuenftige Zahlen liefert. Am besten testet man das
Verhalten aus, indem man die Trennvariablen per Editor leicht variiert
und die so gewonnenen "neuen Objekte" klassifizieren laesst
.
.
Mittelwertvergleiche
.
- Es wird ein globaler F-Test ausgefuehrt (Ahrens/Laeuter S.106, Gl.7.12)
Er zeigt an, ob es insgesamt "irgendwelche" Mittelwertunterschiede
gibt.
.
- Der Sumultanvergleich jeder Klasse i gegen jede andere Klasse j fuehrt
auf eine Matrix Fij von F-Werten, die mit einem gemeinsamen Sicher-
heitspunkt Fsim verglichen werden. Hier kann ebenfalls eine Alpha-
Adjustierung nach Bonferroni verlangt werden (Menue). Ebenso kann der
Anwender waehlen, ob er gnadenlos alle k(k-1) Einzelteste ausgelistet
bekommt, oder aber eine "kurze Liste". d.h. nur die signifikanten bzw.
fast signifikanten Mittelwertvergleiche.
.
- Gleichzeitig mit dem Mittelwertvergleich wird auch ein paarweiser Test
auf Isoliertheit (Ahrens/Laeuter S.138, Gl. 7.73) der Klassen durchge-
fuehrt. Nicht isolierte Klassen lassen sich schlecht trennen. Im Zu-
sammenhang mit der Clusteranalyse sind sie ein Indiz fuer eine moeg-
liche Klassenzusammenlegung. Bonferroni-Adjustierung und "kurze Liste"
wie beim Simultanvergleich.
.
.
Klassifikationsstrategien
.
- ohne Aprioriwahrscheinlichkeit:
Die Einordnung in eine Klasse ist im Diskriminanzraum nur vom Quadrat
k des Euklidischen Abstand des Objektes zum naechstgelegenen Klassen-
mittel abhaengig, abgesehen von einem Faktor Nj/(Nj+1), der sich kaum
von 1 unterscheidet. Nj ist der Klassenumfang (Objektzahl in der Lern-
klasse).
.
- mit Aprioriwahrscheinlichkeit:
.
Die Einordnung in eine Klasse ist im Diskriminanzraum sowohl vom Qua-
drat d^2 des Euklidischen Abstands d als auch der Wahrscheinlichkeit
Pj der Klasse abhaengig. (Ahrens/Laeuter S. 131, Gl. 7.63).
.
Als Aprioriwahrscheinlichkeit wird die relative Haeufigkeit Pj=Nj/N
in den Klassen der Lerndaten genommen. Eine groe Lernklasse hat damit
automatisch eine groessere Wahrscheinlichkeit, dass benachbarte
Objekte ihr zugeordnet werden.
.
Wann mann ohne oder wann man mit Aprioriwahrscheinlichkeit arbeitet,
dafuer gibt es kein Rezept. Richtschnur ist nur die Guete der Klas-
sifikation, die durch die Fehlerschaetzung bewertet wird.
.
.
Fehlerschaetzung der Klassifikation
.
Wird ein Objekt einer falschen Klasse zugeordnet, liegt ein Klassifi-
kationsfehler vor. Wir unterscheiden in DASY:
.
- Reklassifikationsfehler: Die Objekte der Lernstichprobe werden reklas-
sifiziert, d.h. einer Klasse zugeordnet. Mit steigender Merkmalszahl p
nimmt dieser Fehler ab. Man darf sich davon jedoch nicht taeuschen
lassen. Eine Klassifikation von Objekten, die nicht in der Lernstich-
probe waren, werden desto schlechter klassifiziert, je mehr unnoetige
Merkmale verwendet werden.
.
- Jackknife-Fehler: Die Lernstichprobe wird in viele zufaellig ausge-
wuerfelte Teile unterteilt (meist 10). Neun werden als Lernstichprobe
benutzt fuer die Merkmalsauswahl, dann werden die Objekte der 10. Teil-
stichprobe klassifiziert. Das Ganze wird 10 mal durchgefuehrt, bis jede
Teilstichprobe einmal klassifiziert wurde. Diese Art der Fehler-
schaetzung ist recht realistisch, was die Fehlerrate bei voellig neuen
Objekten betrifft.
.
- Working-Sample Fehler: Hat man sehr viele Daten, kann man die Daten
in Lern- und Arbeitsdaten teilen. An der Lernstichprobe wird die Merk-
malsauswahl vorgenommen, an der Arbeitsstichprobe wird die richtige
Klassifikation ueberprueft. Diese Art der Fehlerschaetzung ist die
realistischste, was die Fehlerrate bei voellig neuen Objekten betrifft.
.
Viele Daten liegen vor, wenn jede Klasse im Schnitt mit mehr als 30
Objekten besetzt ist. Das Teilen der Daten gelingt mit einer 0-1-Grup-
pierungsvariablen (Gehen Sie ins DASY-Hauptmenue, waehlen Sie Trafos,
dann das zufaelliges 0-1-Merkmal und dieses dann als Gruppierungsvari-
able in der Diskriminanzanalyse angeben )
.
.
Datenaufbau fuer eine lineare Diskriminanzanalyse
.
- Sie benoetigen eine kategoriale Z i e l variable Y mit Klassennummern
und eine oder mehrere T r e n n variablen Xj. Diese koennen metrisch,
binaer oder ranggeordnet sein.
.
DASY akzeptiert maximal K=20 Klassen. Die Klassen muessen nicht fort-
laufend durchnumeriert sein. Als Klassennummern sind alle Zahlen
0<k<250 zugelassen. In der Graphik erscheinen statt der Klassennummern
die Buchstaben A,B,C,...,T.
.
Es koennen aus den eingelesenen Trennvariablen Xj durch Potenzieren
und/oder Multiplikation weitere Trennmerkmale gewonnen werden (polyno-
miale Modelle). Die Gesamtzahl der X-Merkmale einschliesslich der er-
zeugten polynomialen Merkmale wird von DASY auf p=60 begrenzt.
.
- Ein kategoriales X-Merkmal mit k Kategorien muss durch eine Datentrans-
formationin in k-1 binaere Merkmale umcodiert werden (Beispiel Merk-
mal Haarfarbe mit den 3 Kategorien: K1=schwarz, K2=rot, K3=blond muss
in zwei binaere Merkmale umcodiert werden: M1=schwarz/nichtschwarz,
M2=rot/nichtrot). Diese Transformation wird nicht automatisch durchge-
fuehrt, sondern liegt beim Anwender.
.
.
- Falls Sie genuegend Daten haben, koennen Sie diese in eine Lern- und
eine Arbeitsstichprobe teilen. Die Schaetzung des Klassifikations-
fehlers wird so sicherer. Dafuer benoetigen Sie jedoch eine zusaetz-
liche G r u p p i e r u n g s variable, die einen Wert >0 und <=250,
z.B. 1 fuer alle Datenpunkte der Lernstichprobe aufweist, und den
Wert =0 fuer die Arbeitsstichprobe, an der die richtige Klassifikation
getestet wird.
.
"Trennung der Daten in Lern- und Arbeitsstichprobe" und "Berechnung
der Zielgroesse fuer neue Objekte" schliessen sich in DASY aus.
.
- Falls sie die Zielgroessenwerte (Klassennummern) fuer "neue Objekte"
vorhersagen wollen, von denen die Klassennummer nicht bekannt ist,
dann benoetigen Sie ebenfalls die G r u p p i e r u n g s variable.
Sie muss fuer die "neuen Objekte" den Wert 0 aufweisen. Der Wert der
Zielgroesse Y fuer die "neuen Objekte" ist beliebig (z.B. Null), darf
aber kein Ausfall sein. Bei den Lerndaten muss der Wert der Gruppier-
ungsvariablen zwischen 1 und 250 liegen, z.B. 1.
.
- Bei gewichteter Diskriminanzanalyse benoetigen Sie eine Gewichts-
variable. Gewichte sind Zahlen Gi>=0.001 und Gi<1000. Fuer extra
Objekte (neue Objekte) bzw. fuer Arbeitsdatensaetze darf Gi=0 sein.
.
Noch einmal tabellarisch kurz:
.
Lernobjekte haben Klassennummer 1-250, Gruppierungsvariable=1
Arbeitsobjekte haben Klassennummer 1-250, Gruppierungsvariable=0
Extra Objekte haben Klassennummer 0 , Gruppierungsvariable=0
.
Arbeitsobjekte und extra Objekte knnen nicht in eine Datei
.
Der Ablauf einer Diskriminanzanalyse:
.
- Uebernahme der ausgewaehlten "originalen" X- und der einen Y-Variablen
und eventuell einer Gruppierungsvariablen und/oder Gewichtsvariablen
- Wenn verlangt, dann Ausfuehrung einer programmierten lokalen Merkmals-
transformation *.trr in "sekundaere" Variablen
- Wenn verlangt, dann Anwendung eines "Polynomialen Standardmodells"
- Ausblenden aller Datenpunkte y, x1, x2,..., xp mit Ausfaellen oder zu
grossen Zahlenwerten (>1e12)
- Bei verlangter Jack-knife Fehlerschaetzung zufaellige Gruppenbildung
der Datenpunkte
- Berechnen der Kovarianzmatrizen, Eigenwerte, Diskriminanzmerkmale
- Bestimmung des Reklassifikationsfehlers, bei vorhandener Arbeitsstich-
probe auch die Bestimmung des Klassifikationsfehlers der Arbeitsstich-
probe
- Bei verlangter Jack-knife Fehlerschaetzung Berechnung des Fehlers
- Ausgabe der Ergebnisse und statistischen Kennzahlen
- Graphische Darstellung der Klasseneinteilung und Zuordnung
- Ausgabe der Erwartungswerte der Zielgroesse als neue Variable, d.h.
die neuen Klassennummern, und eventuell Ausgabe einer Ident-Variablen
mit Objekten, die in der Graphik markiert wurden.
.
.
Die lokale Merkmalstransformation ist Optional und erfordert ein Trans-
formationsprogramm *.trr, das im Programmteil "Transformationen" erstellt
und auf formale Richtigkeit getestet wird. Fehler, die erst zur Laufzeit
des Programms auftreten, koennen nur hier in der Diskriminanzanalyse er-
kannt werden.
.
Die berechneten Merkmale sind lokal, d.h. sie werden nach
Ausfuehrung der Diskriminanzanalyse sofort wieder "vergessen". Sie koennen
die X-Variablen und/oder die Y-Variable transformieren und die Anzahl der
X-Variablen verringern, belassen oder erhoehen. Ebenso sind die Werte
einer Gruppierungs- und/oder Gewichtsvariablen setzbar.
.
Das folgende Beispiel transformiert die Hyperthyerose-Daten so, dass aus
jeder Variablen die Wurzel gezogen wird. Datenausfaelle werden wieder zu
Datenausfaellen. Negative Werte wuerden ebenfalls zu Ausfaellen werden.
.
Diskrimi.trr(N,i,M,Q,S,ANZ,Y,p,X,Grup,Gew)
var M(20), Q(20), S(20), ANZ(20), X(100)
{ N = Zahl der Datenzeilen in der Datenbasis }
{ i = Nummer der aktuelle Datenzeile }
{ M = Datenzeile mit Merkmalswerten aus der Datenbasis }
{ Q = Vektor mit den Mittelwerten der belegten Merkmale }
{ S = Vektor mit den Standardabweichungen der belegten Merkmale }
{ ANZ = Vektor mit den Werteanzahlen der belegten Merkmale }
{ Y = Wert der Zielgroesse ( Default: Originale Zielgroesse ) }
{ p = Anzahl der berechneten Einflussgroessen X(1), X(2), ..., X(p)}
{ X = Vektor mit den berechneten Einflussgroessen X(1), X(2),... }
{ Grup= Wert der Gruppierungsvariable ( Default: Orig. GrV. oder 1 ) }
{ Gew = Wert der Gewichtsvariablen ( Default: Originale GewV. oder 1)}
{ Bei freien Merkmalen sind die betreffenden Elemente der Vektoren }
{ M, Q, S, ANZ mit Ausfaellen belegt. X ist beim Aufruf vollstaendig }
{ mit Ausfaellen belegt. Die Werte sind zu berechnen und p zu setzen }
{ Ende des vorgefertigten Programmkopfes }
{ Aus den 10 Merkmalen M03-M12 der Hyperthyerose-Daten soll
{ die Wurzel gezogen werden, das Y-Merkmal (Klassennummern) wird
{ nicht veraendert
assign aa=3, bb=4, cc=5, dd=6, ee=7, ff=8, gg=9, hh=10, ii=11, jj=12
x(1)=sqrt(aa)
x(2)=sqrt(bb)
x(3)=sqrt(cc)
x(4)=sqrt(dd)
x(5)=sqrt(ee)
x(6)=sqrt(ff)
x(7)=sqrt(gg)
x(8)=sqrt(hh)
x(9)=sqrt(ii)
x(10)=sqrt(jj)
p=10 { 10 X-Mermale nach der Transformation
write(i,aa,x(1)) { Kontrollausgabe
end
.
Der Programmkopf (20 Zeilen) wird vom Trafo-Editor automatisch eingesetzt.
Der Anwender programmiert nur die Anweisungen von Kopfende bis "end".
.
.
Polynomiale Standardmodelle sind:
.
- Einfach Polynomial: Zu jedem im Modell vorhandenen X-Mermal wird bei
Polynomgrad PG=2 ein X*X-Merkmal zusaetzlich erzeugt, bei
Polynomgrad PG=3 ein Merkmalspaar X*X und X*X*X zusaetzlich erzeugt usw.
.
- Vollstaendig Polynomial: Wie einfach Polynomial, aber zusaetzlich
noch alle Produkte der vorhanden X-Merkmale, z.B. bei
PG=2 und X1,X2 entstehen zusaetzlich X1*X1, X2*X2, X1*X2, bei
PG=3 und X1,X2 entstehen zusaetzlich X1*X1, X1*X1*X1, X2*X2, X2*X2*X2,
X1*X2, X1*X1*X2, X1*X2*X2
.
Das einfach polynomiale Standardmodell ist auf PG=2,3,4,5 beschraenkt
Das vollstaendige Polynomiale Modell ist auf PG=2,3 beschraenkt.
.
Uebersteigt die erzeugte gesamte Merkmalszahl die Beschraenkungen von
DASY (maximal 60 Merkmale), dann wird das Modell abgelehnt.
.
Immer das zuletzt angegebene Polynomiale Modell gilt. Haben Sie ver-
sehentlich ein polynomiales Modell gewaehlt, koennen sie es durch die
Eingabe einer 0 als Polynomgrad wieder entfernen.
.
.
Alle Zahlen, deren Betrag groesser als 10^12 ist, werden als Ausfaelle
betrachtet. Das gilt sowohl fuer die originalen Ausfaelle (intern -1E25)
als auch fuer Daten, die erst durch die Transformation oder durch das
polynomiale Standardmodell erzeugt werden.
.
.
Die Schaetzung des Klassifikationsfehlers mittels Jack-knife erfordert
eine mehrfache Berechnung der Diskriminanzanalyse. Die Datenpunkte werden
zufaellig in moeglichst gleich grosse Gruppen unterteilt. Es wird 10-mal
die Diskriminanzanalyse berechnet, wobei immer eine der Gruppen nicht zur
Berechnung der Koeffizienten benutzt wird, aber zur Fehlerschaetzung der
Jack-knife-Methode.
.
.
Eine erfolgreiche Diskriminanzanalyse liefert die zugeordneten Klassen-
nummern der Objekte. War ein Ausfall aufgetreten, ist auch die Klassen-
nummer ein Ausfall. Es entsteht dabei ein neues kategoriales Merkmal. Hat
die Zielgroesse Y die Merkmalsbezeichnung "abc", dann heisst das neue
Merkmal "disABC". Die Klassennummern stammen aus derselben Menge, wie die
Klassennummern der Lernobjekte. Bei extra Objekten wird die originale
Klassennummer fehlen, da sie ja nicht bekannt ist.
.
.
Druckbilderklaerung der Diskriminanzanalyse
.
Diskrim-Dr: In der Ausgabe der Diskriminanzanalyse bedeutet
.
Y Das Zielgroessenmerkmal mit den originalen Klassennummern
A,B,.. kuenstliche Namen der Trennmerkmale nach Eingabe und
eventueller lokaler Transformation
A007,..Fortlaufende Kennzeichnung A,B,C,... der Klassen, dahinter
die originale Klassennummer 7, 23, 49, ... aus den Daten
M01,.. Numerierung der Merkmale im Modell vor Merkmalsauswahl
N Auswertbare Objektzahl (Datensaetze ohne Ausfall)
Nj Objektzahl in Klasse j
Gesamt-F fuer den globalen F-Test auf Mittelwertunterschied
mit den Freiheitsgraden FG1 und FG2
KIW Irrtumswahrscheinlichkeit (P-Value) bei Ablehnung von Ho
F-Wert fuer jeden Einzelvergleich wird mit dem Sicherheitspunkt
der F-Verteilung verglichen
Signif Ein * bedeutet einen signifikanten Mittelwertunterschied
oder eine signifikante Isoliertheit der beiden Klassen
Matrix In der Diagonalen stehen die Azahlen der richtig klassifi-
zierten Objekte, im Rest der Zeile die Anzahlen der falsch
klassifizierten Objekte
- - -
.
Startmenue der linearen Diskriminanzanalyse
.
Abbruch Sie wollen zurueck ins Hauptmenue
Hilfe Sie wollen sich ueber die Diskriminanzanalyse informieren
.
Auf Schrittweiser Aufbau (Merkmalsauswahl und Klassifikation)
Abb Schrittweiser Abbau (Merkmalsauswahl und Klassifikation)
All Diskriminanzanalyse mit allen Trenngroessen
.
Alpha Festlegung multiples Signifikanzniveau (0.1 /.../ 0.01)
Bonferroni Alpha-Adjustierung nach Bonferroni bei Auf- oder Abbau
.
Vergleiche Mit oder ohne Mittelwertvergleiche der Klassenmittel
Bonferroni Alpha-Adjustierung nach Bonferroni bei Mittelwertvergleich
Kurzliste Kurze Liste (nur signifikante) der Mittelwertvergleiche
.
O.K. Weiter im Menue
- - -
.
Fortsetzung Menue der linearen Diskriminanzanalyse
.
Abbruch Sie wollen zurueck ins Hauptmenue
Hilfe Sie wollen sich ueber die Diskriminanzanalyse informieren
.
Y Sie wollen die Zielgroesse Y auswaehlen
X..X Sie wollen die Trenngroesse(n) X auswaehlen
G Sie haben eine Gewichtsvariable (optional)
.
Trafo Lokale frei programmierbare Transformation anwenden?
Einfach Pol. Einfaches Polynomiales Standardmodell anwenden? PG=2-5
Vollst. Pol. Vollstaendiges Polynomiales Standardmodell? PG=2,3
Jack-knife Klassifikationsfehler mit Jack-knife schaetzen?
Working sample Klassifikationsfehler an einer Arbeitsstichprobe schaetzen?
Kl. neue Obj. Klassifikation neuer Objekte
Apriori Klassifikation mit Aprioriwahrscheinlichkeit
.
O.K. Ausfuehren der Diskriminanzanalyse
- - -
.
Beispiel einer Diskriminanzanalyse mit den Hyperthyreose-Daten
.
DASY-Protokoll DASY FH Furtwangen
14.04.05 17:59:57
.
Datenfile D:\L\DASY\HYPERTHY.DAT
mit 23 Datenzeilen und 12 Spalten gelesen
.
Diskriminanzanalyse mit der Zielgroesse y=M01=Kl
Trennmerkmale: A=M03=y1 B=M04=y2 C=M05=y3 D=M06=y4
E=M07=y5 F=M08=y6 G=M09=y7 H=M10=y8 I=M11=y9
J=M12=y10
.
Optionen: Vergleich,
Jk, ap,
.
Eigenwerte: 9.094 0.547
Objektzahlen, Gesamt- und Klassenmittel im w-Raum
Ges/Klasse N/Nj W1 W2
Gesamt 23 -1.455 -1.510
A 101 16 -2.482 -1.890
B 102 4 4.574 -1.239
C 103 3 -4.011 0.157
.
Gesamt-F= 5.302 mit FG1=1, FG2=11, KIW=0.0418
.
Simultanvergleich der Klassen:
gemeinsamer Sicherheitspunkt F= 2.854, FG1=10 FG2=11
Klasse mit Klasse F-Wert Signifikanz
A 001 B 002 8.837 *
A 001 C 003 0.907
B 002 C 003 7.133 *
.
Simultanvergleich auf Isoliertheit:
gemeinsamer Sicherheitspunkt F= 3.522, FG1=2 FG2=19
.
Klasse mit Klasse F-Wert Signifikanz
A 001 B 002 5.165 *
A 001 C 003 0.649
B 002 C 003 6.957 *
.
Berechnete-Klassen-Merkmal disKL ist Merkmal M13.
Diskrim.-Ident-Merkmal didKL ist Merkmal M14.
mit 2 identifizierten Objekten.
.
Matrix Reklassifikation: Fehler 8.70 % (2 von 23)
.
orig\ber: A001 B002 C003
A001 15 0 1
B002 0 4 0
C003 1 0 2
.
Jackknife-Klassifikation: Fehler 34.78 % (8 von 23)
.
orig\ber: A001 B002 C003
A001 10 1 5
B002 2 2 0
C003 0 0 3
.
Koeffizienten der nichtlinearen Diskriminanzmerkmale
.
Trennmerkmal W1 W2
01=y1 =A -2.140E-02 -2.739E-02
02=y2 =B -7.720E-02 1.069E-01
03=y3 =C 7.209E-02 -1.918E-01
04=y4 =D -1.145E-02 7.420E-02
05=y5 =E -5.277E-02 1.852E-01
06=y6 =F 1.083E-01 -6.495E-02
07=y7 =G 3.859E-02 7.171E-02
08=y8 =H -2.044E-02 2.254E-02
09=y9 =I -7.463E-02 -8.533E-03
10=y10 =J 1.819E+00 2.357E-01
.
.
Diskrim-Plot
.
Die Graphik zur Diskriminanzanalys zeigt den Diskriminanzraum mit der
Klasseneinteilung (blaue Trennlinien), die Klassenmittel (grosse Buch-
staben in grau oder heller Farbe: A, B, C, ... fuer die Klassen 1, 2,
3, ... ), die Objekte als kleine Buchstaben (a, b, c ....), wobei "a"
ein Objekt der Klasse A ist.
.
Ist der nichtelementare Merkmalsraum 1-dimensional, wird ausser der w1-
Koordinate eine knstliche w2-Koordinate (Zufallszahl) angelegt, damit
nicht alle Objekte auf der w1-Geraden kleben.
.
Links in der Graphik erscheint ein Menue. Die Felder IDENT und EDIT
werden durch Anklicken aktiviert (rot umrandet) und durch nochmaliges
Anklicken deaktiviert. IDENT und EDIT schliessen sich gegenseitig aus.
Im Menue bedeutet:
.
- Hilfe: Es kommt dieser Text
.
- Ident: Identifizieren von Objekten heisst, dass eine Ident-Variable
erzeugt wird, die die w1-Koordinate der identifizierten Objekte
enthaelt. Nicht identifizierte Objekte haben einen Ausfallwert
(-1e25 intern). Identifizierte Objekte werden zudem in der
Graphik pink gefaerbt und ihre Objektnummer im Ident-Fenster
mit Minus markiert.
.
Erst Klick auf Ident, dann Klick auf die Graphik. Im Ident-
Fenster links unten erscheint die scrollbare Liste aller Objekte
(fortlaufende Objektnummern) im Umkreis von einigen Pixeln um
die Kursorspitze. Durch Klick auf "IdentAll" werden alle Objekte
in der Ident-Liste (auch gerade im Ident-Fenster nicht sicht-
bare) identifiziert.
.
Wird nicht identifiziert oder alles rueckgaengig gemacht, dann
wird auch kein Ident-Merkmal erzeugt.
.
Nochmaliges Anklicken eines identifizierten Objektes entfernt
das Objekt wieder aus der Ident-Variablen.
Wurde mit "IdentAll" die gesamte Liste indentifiziert, dann
reicht nochmaliges Anklicken von IdentAll, um die gesamte Liste
rueckgaengig zu machen.
.
- Bitmap Ausgabe der gerade vorliegenden Graphik als Bitmap (aber ohne
das linke Randmenue und ohne das Kursorbild)
.
- Edit Es erscheint das Edit-Menue (durch nochmaliges Anklicken
kann man es deaktivieren):
.
Dickplot Grosse Schrift (nur bei kleiner Objektzahl geeignet)
.
W1-W3 Darstellung in der W1-W3-Ebene, falls 3 oder mehr
nichtelementare Diskriminanzmerkmale berechnet
werden.
.
OA 1 2 3 Objektauswahl (2,3 nur bei vorhandener Gruppier-
ungsvariablen anwaehlbar)
.
1 Es werden alle Objekte gezeigt
2 Es werden nur Lernobjekte gezeigt
3 Nur Arbeitsobjekte bzw. extra Objekte
. .
Ansicht Ansicht der Graphik ohne stoerende Menueleiste
.
Farbfelder Erst Farbe anklicken, dann Text1, Text2, ... oder
Klasse a,b,... anklicken
.
a . . . Objektdarstellung durch Kleinbuchstabe, Karo gro,
Karo klein, Punkt
.
a,b,... Klassensymbole zum Einfaerben der Klassen
.
Text 1,2,.. Eingabe, Korrektur oder Faerben eines Textes
.
Position Erst auf "Position", dann in die Graphik klicken.
Der aktivierte Text wird dort positioniert.
.
- O.K. Beenden des Programms Diskriminanzanalyse
.
.
SICFA:Kontingenztafelanalyse mittels Konfigurationsfrequenzanalyse (KFA)
.
Der Begriff Konfigurationsfrequenzanalyse wurde 1968 von G.A.Lienert ge-
praegt (KFA oder englisch Configuration Frequency Analysis CFA). Leider
war es dem Autor nicht mehr vergoennt, Prof. Lienert persoenlich zu
sprechen, wohl aber seinen engsten Mitstreiter, Prof. Joachim Krauth, der
sowohl zusammen mit Lienert als auch allein Buecher und Artikel zur KFA
veroeffentlicht hat. Des weiteren ist der Autor in staendigem Kontakt zu
Prof. Alexander von Eye und Prof. Erwin Lautsch, beides Autoren und
Forscher auch auf dem Gebiet der KFA.
.
SICFA ist die Abkuerzung von "Simulation CFA" und der Name der Software,
die zusammen mit dem Buch von Lautsch/v.Weber: Methoden und Anwendungen
der KFA, Beltz Psychologie Verlags Union, Weinheim 1995, ausgeliefert
wurde. Die SICFA-Software ist seit 2001 integraler Bestandteil von DASY.
.
Viele Merkmale aus Psychologie, Paedagogik, Medizin usw. sind nominal oder
kategorial. Beispiel eines nominalen Merkmals ist der Beruf. Er laesst
sich nicht aus anderen Daten ermitteln. Beispiel eines kategorialen Merk-
mals ist der Koerperbautyp: Athletisch, leptosom, pyknisch. Hier liegen
messbare Merkmale zu Grunde, die zu einer solchen Einteilung in Kategorien
fuehren.
.
Nominale und kategoriale Merkmale werden statistisch gesehen meist gleich
behandelt, d.h. kurz als kategorial bezeichnet.
.
Kontingenztafeln (oder Kreuzklassifikationstabellen) sind ein Mittel, um
Beziehungen zwischen kategorialen Merkmalen zu analysieren. Die Kon-
figurationsfrequenzanalyse (KFA) nach G.A.Lienert (1969) hat sich hierbei
als universelle Analysemethode fuer Kontingenztafeln bewaehrt.
.
Kategoriale Merkmale (Symptome) sind z.B. Geschlecht (w,m), Beruf (Arzt,
Baecker,...) oder Bildung (ohne, Lehre, ...). Die einzelnen Werte eines
Merkmals heissen Auspraegungen. Ein Proband (Fall, Punkt, Patient) liefert
einen Datensatz. Alle N Probanden liefern die Daten (File, Datei).
.
Durch Auszaehlen einer Datei entsteht die Kontingenztafel, z.B.
.
Beruf \ Geschlecht | w | m | Randsummen
Arzt | 17 | 12 | 29
Baecker | 0 | 9 | 9
... : .. : .. : ..
Randsummen | 117 | 67 | 184 (N=184)
.
Die einzelen Haeufigkeit Nij (Frequenz) heisst Konfiguration oder Zelle.
Zellen werden durch die Indizes i,j,k,.. bezeichnet. So hat die Zelle
(Arzt,w) die Indizes (1,1) und die Frequenz N11=17. Kontingenztafeln
koennen dim=2,3, 4,... Dimensionen haben, d.h. aus der gemeinsamen Aus-
zaehlung von 2, 3, 4, ... Merkmalen entstehen. Das Beispiel ist 2-dimen-
sional (2 Merkmale: Beruf und Geschlecht)
.
Rohdaten und fertige Tafeln
.
Kontingenztafeln koennen als fertige Tafeln (siehe Eingabe Kontingenz-
tafeln) gelesen werden oder aus gelesenen Daten ausgezaehlt werden.
.
2x2-Tafeln koennen ebenfalls aus Rohdaten ausgezaehlt werden oder als
Kontingenztafeln eingelesen werden, jedoch im Programmzweig SICFA 2x2-
Tafeln auch direkt ueber die Tastatur eingetippt werden.
.
Nur kategoriale Merkmale sind zur Auszaehlung geeignet. Man kann jedoch
metrische Merkmale in kategoriale umwandeln (z.B. Transformation in ein
dichotomes Merkmal). Die Kategorien eines Merkmals muessen als Nummern
1, 2, 3, ... ,98 kodiert sein. 99 ist der kategoriale Ausfaller-Code.
.
Einschraenkung der Tafelgroesse beim Test auf Typen: Die maximal 5 Merk-
male duerfen in der Reihenfolge ihrer Vorgabe nur folgende Kategorien-
zahlen erreichen: 10, 5, 3, 2, 2, d.h. die maximale 5-d-Tafel hat
600 Zellen.
.
Zweidimensionale Tafeln bis 10 x 5 werden auch als Matrix dargestellt.
.
Kann DASY auch durch Umsortieren der Merkmalsreihenfolge die obige
Bedingung nicht erfuellen, wird die Bearbeitung der Tafel mit einer
Warnung abgebrochen. Fuer die LANCASTER-Zerlegung duerfen nur 2^d-Tafeln
verwendet werden. Fuer die Merkmalsreduktion ist die Tafelgroesse be-
liebig.
.
Kollabierte Kontingenztafel: Die Auspraegungen jedes beteiligten Merkmals
werden auf 2 reduziert (Beispiel: Beruf (Arzt, Nichtarzt), Bildung( ohne,
mit) ). Die dann ausgezaehlte Tafel heisst kollabiert.
.
Reduzierte Kontingenztafel: Z.B. aus einer 3-dimensionalen Tafel wird
durch Weglassen eines Merkmals eine 2-dimensionale Tafel.
.
Was leistet Menuepunkt SICFA in DASY?
.
- Auszaehlen von Kontingenztafeln, Bildung der Randsummen
- 2-dimensionale Tafeln bis 10 x 5 werden als Matrix dargestellt.
- Globaler Chi-Quadrat-Test (Chi-Quadrat-Test) auf Unabhaengigkeit bzw.
Abhaengigkeit von kategorialen Merkmalen
- Typensuche nach G.A.Lienert mit verschiedenen Tests
- Typensuche nach Victor
- Chi-Quadrat-Zerlegung einer Kontingenztafel nach LANCASTER
- Merkmalsselektion durch stufenweise Reduktion einer n-dimensionalen
Tafel
- Analyse von 2x2-Tafeln (Zusammenhangsmasse bzw. Assoziationsmasse,
Typensuche nach dem Zero-Order-Modell von A.v.Eye,
Vergleich relativer Haeufigkeitszahlen)
.
.
KFA-Menue. (SICFA)
.
Abbruch
Hilfe
.
TEST Globaler CHI-Quadrat-Test und lokale Tests auf Typ / Antityp
SIMULATION wie TEST, aber zusaetzlich Bootstrapsimulation von Tafeln
.
SELECT Merkmalsselektion - Suche der signifikantesten Tafeln
LANCASTER Chi-Quadrat-Zerlegung nach LANCASTER, Zusammenhangsstruktur
.
2x2-Tafeln Zusammenhangsmasse, Typensuche, Test relativer Haeufigkeiten
- - -
.
Hypothesen: Grundlage konfirmatorischer Statistik ist das Hypothesenpaar
Ho und Ha. Die Nullhypothese Ho unterstellt, dass alle Abweichungen zu-
faellig sind. Die Alternativhypothese Ha unterstellt eine Ursache fuer
auftretende Abweichungen.
.
Ho beim Globaltest: Die Merkmale sind unabhaengig - kein Zusammenhang.
.
Ha beim Globaltest: Die Merkmale sind abhaengig - es gibt einen Zusammen-
hang. Der Test erfolgt mit Chi-Quadrat und testet
einseitig auf Ueberschreitung des oberen Sicherheits-
punktes der Chi-Quadrat-Verteilung mit FG Freiheits-
graden.
.
Ho beim Einzeltest: Die Zelle ist kein Typ - Abweichungen vom Erwartungs-
wert unter der Unabhaengigkeitshypothese sind
zufaellig.
.
Ha beim Einzeltest: Die Zelle ist Typ oder Antityp - Abweichungen sind
ursaechlich und reproduzierbar vorhanden. Fuer den
Test gibt es mehrere Moeglichkeiten. DASY bietet 4
verschiedene Tests.Die Absicherung der multiplen
Hypothese erfolgt immer mit Holms Alpha-Adjustierung.
.
Alpha oder Fehler 1.Art: Irrtumswahrscheinlichkeit bei Ablehnung von Ho,
d.h. die Wahrscheinlichkeit Ha faelschlich anzunehmen. Ein typischer Wert
ist Alpha=0.05 (5%). Achtung! Bei einseitigem Test auf Typen wird das ge-
samte Alpha am rechten Sicherheitspunkt der Testverteilung realisiert,
beim Test auf Antitypen am linken Sicherheitspunkt. Beim zweiseitigen
Test wird jeweils Alpha/2 am linken und am rechten Sicherheitspunkt
realisiert.
.
Alpha' oder adjustiertes Alpha: Bei 100 Hypothesenpaaren (Ho,Ha) und Vor-
gabe Alpha=0.05 (5%) fuer die Einzelhypothese wuerde man etwa 5 (5%)
signifikante Ablehnungen von Ho erhalten auch in Faellen, in denen
garantiert alle Nullhypothesen gelten. Fazit: Man verschaerft die
Einzeltests so, dass das Auftreten auch nur einer faelschlichen Ablehnung
von Ho nur mit der vorgegebenen Wahrscheinlichkeit Alpha stattfindet
(siehe Testprozedur).
.
Beta oder Fehler 2.Art: Irrtumswahrscheinlichkeit bei Annahme von Ho,
d.h. die Wahrscheinlichkeit Ha faelschlich abzulehnen. Ein typischer Wert
ist Beta=0.3 (30%). Das Beta wird durch Tests nicht kontrolliert. DASY
schaetzt das Beta. Diese Schaetzung beruht auf zwei Simulationsrechnungen:
.
- Schaetzung des maximalen Typgewichts Tg durch Vergleich der Tmax-Sta-
tistik der vorliegenden Tafel mit der Tmax-Statistik simulierter
Tafeln mit bekanntem Typgewicht. Das Typgewicht sagt, um wieviel
der Zellerwartungswert E sich durch die Eigenschaft "Typ" gegenueber
dem Erwartungswert Ev bei Unabhaengigkeit erhoeht. Vijk heisst auch
VICTOR-Erwartungswert. Es gilt Eijk=Vijk(1+Tg). Typgewicht Tg=1 ver-
doppelt demnach den Erwartungswert, Tg=2 verdreifacht ihn usw.
.
Die Tmax-Statistik: MAX (Nijk-Eijk)/mBl
.
MAX heisst Maximum von allen Zellen
Nijk Zellfrequenz der Zelle (ijk)
Eijk Unabhaengigkeitserwartungswert der Zelle
.
- Durch Simulation vieler Tafeln mit bekannten Typzellen mit dem
geschaetzten Typgewicht gewinnt man eine Schaetzung des Fehlers 2.Art
Beta, d.h. welcher Anteil an vorhandenen Typen wird nicht gefunden.
Beta=0.3 (30%) sagt, dass von 10 vorhandenen Typzellen nur 7 die
Chance haben, gefunden zu werden. Beta haengt vom Alpha ab, denn ein
zu kleines Alpha verhindert das Auffinden von Typen durch "zu scharfes
Selektieren". Umgekehrt, wenn man auch "falsche Typen" in Kauf nimmt
(grosses Alpha), findet man auch mehr richtige Typen.
.
Totale Unabhaengigkeit: Der Erwartungswert Eijk der Zelle (i,j,k) ist
Eijk = Pi Pj Pk. Pi ist die Wahrscheinlichkeit fuer die Auspraegung i des
ersten beteiligten Merkmals, Pj fuer Auspraegung j des zweiten Merkmals
usw. Merkmale sind abhaengig, wenn die beobachteten Frequenzen von den
erwarteten Frequenzen signifikant abweichen. Die Pi, Pj, Pk werden ge-
woehnlich aus den Randsummen geschaetzt (Beispiel Arzt: P1=29/184=0.158)
.
Globaler Chi-Quadrat-Test: Summation der Terme (Nijk-Eijk)^2/Eijk ergibt
Chi-Quadrat-ges. Der Wert Chi-Quadrat-gesamtges ist unter der Unab-
haengigkeitshypothese chiquadrat-verteilt mit FG=T-I-J-K+3-1 Freiheits-
graden. (FG-Formel fuer dim=3 Dimensionen der Tafel). Zellenzahl ist
T=I J K, wobei I,J,k die Anzahl der Auspraegungen der (hier) 3 Merkmale
sind. Sind Merkmale unabhaengig, erwartet man auch keine Typen.
.
Typ/Antityp nach G.A.Lienert: Ist die beobachtete Zellfrequenz Nijk
signifikant groesser, als der Erwartungswert Eijk, dann ligt ein
KontingenzTyp vor. Bei signifikanter Unterschreitung Nijk<Eijk sprechen
einige Autoren von einem Antityp. Die Definition und Existenz von Anti-
typen ist jedoch umstritten. Beruf-Geschlecht-Typen koennten z.B. sein
(Kosmetikerin weiblich) oder (Kraftfahrer maennlich). Moeglicher
Antityp: (Geruestbauerin weiblich)
.
Typen nach Victor: Ist die beobachtete Zellfrequenz Nijk signifikant
groesser, als ein speziell berechneter Erwartungswert Vijk (Victor-Er-
wartungswert), dann liegt ein Typ nach Victor vor. Das Vijk wird zwar
auch aus den Randsummen geschaetzt, aber vermindert um den Haeufigkeits-
ueberhang der Typzellen. Das "Zuviel" an Haeufigkeit bei einer Typzelle
soll nicht in die Berechnung des Erwartungswertes eingehen. Das Problem
ist nur iterativ zu loesen, da die Typzellen a priori nicht bekannt sind.
.
Lokale-KFA-Tests und Testprozedur
.
Lokale TESTs bewerten durch eine Testgroesse (Teststatistik) den Abstand
Hijk-Eijk einer jeden Zelle. Z.B. berechnet der Chi-Quadrat-Komponenten-
test die Testgroessen X2ijk=(Hijk-Eijk)^2/Eijk fuer jede Zelle (i,j,k).
Der Freiheitsgrad der einzelnen Komponente ist (nach Perli u.a.) FG=1.
Ist der Abstand signifikant, liegt ein Typ (oder Antityp) vor.
.
Einseitiger Test: Man testet einseitig auf Typen, wenn Nijk>Eijk bzw.
Nijk>Vijk ist. Man testet einseitig auf Antitypen, wenn Nijk<Eijk bzw.
Nijk<Vijk ist. Die gesamte vorgegebene Irrtumswahrscheinlichkeit Alpha
wird einseitig angenommen und verringert so die erforderliche Testgroesse,
die einen signifikanten Typ anzeigt. Moegliche Begruendung: Eine deutliche
Abweichung der Frequenz Nijk von ihrem Erwartungswert in die eine oder
andere Richtung ist im Bayes'schen Sinne eine Vorinformation, die die
Einschraenkung der Hypothesenzahl rechtfertigt.
.
Zweiseitiger Test: Man laesst fuer jede Zelle beide alternativen Hypo-
thesen (Typ oder Antityp) offen. Die Irrtumswahrscheinlichkeit wird zu
gleichen Teilen auf Typ und Antityp verteilt. Die Signifikanzschwelle
liegt hoeher, als beim einseitigen Test. Der zweiseitige Test bedarf
keiner Begruendung.
.
Stetigkeitskorrektur: Kleine Zellwahrscheinlichkeiten (Eijk<5) fuehren
leicht auf antikonservative Ergebnisse. Man reduziert die Testgroesse ge-
zielt (was sich bei kleinen Frequenzen besonders auswirkt) und beugt so
Irrtuemern vor. Eine bekannte Stetigkeitskorrektur stammt von Kuechenhoff
und Perli. Sie verwendet im Zaehler der Testgroessenformel statt
(Nijk-Eijk) den Wert (Nijk-Eijk-0.5), wenn Nijk>Eijk ist, und
(Nijk-Eijk+0.5), wenn Nijk<Eijk ist. DASY kombiniert sie mit dem
Lehmachertest. Eine aehnliche Stetigkeitskorrektur zum Victortest stammt
von Dunkl und v.Eye.
.
Nach einer Studie von E.Lautsch und S.von Weber aus dem Jahre 2001 zeigt
jeder Test entweder antikonservatives (liefert zu viele Typen) oder kon-
servatives Verhalten (liefert zu wenig Typen). Eine fuer die vorliegende
Tafel zugeschnittene Korrekturkonstante K sorgt in DASY dafuer, dass
asymptotisch das vorgegebene Alpha eingehalten, aber auch ausgeschoepft
wird. Nur so kann auch das Beta minimiert werden.
.
Die TESTPROZEDUR beruecksichtigt, dass in einer Kontingenztafel viele Test
(einer zu jeder Zelle) durchgefuehrt werden. Je mehr Tests, desto groesser
wird die Wahrscheinlichkeit Fehlern zu unterliegen, indem zufaellige
Abweichungen als signifikant getestet werden. Die Testprozedur begegnet
dieser Gefahr mit einer gezielten Verringerung (Adjustierung) des fuer
den Einzeltest gueltigen Alphas. DASY verwendet immer Holms sequentielle
Prozedur.
.
Holms Prozedur: Zu allen Einzeltests werden die Testgroessen und die
daraus resultierenden kritischen Irrtumswahrscheinlichkeiten KIW
berechnet. Die KIW werden aufsteigend nach ihrer Groesse sortiert. Haben
wir h Hypothesen, dann wird das kleinste KIW mit Alpha'=Alpha/h ver-
glichen. Ist KIW<=Alpha', dann liegt fuer die entsprechende Zelle
Signifikanz vor und man testet das naechstgroessere KIW mit
Alpha'=Alpha/(h-1). Ist ein Test nicht signifikant (KIW>Alpha'), dann
bricht Holms Prozedur ab und dieser Test und alle noch ausstehenden
Tests sind nicht signifikant.
.
Bootstrap-Simulation: liefert die am haeufigsten auftretenden Signifi-
kanzmuster einer Tafel. Man waehlt wie unter Menuepunkt TEST einen der
angebotenen Teste (z.B. Combinatoric Search, Gradientenverfahren, Chi-
Quadrat-Komponententest, Perli). Die KFA wird durchgefuehrt, und an-
schliessend werden nach der Bootstrap-Methode aehnliche Tafeln mit dem-
selben Gesamt-N gezogen, nach dem gewaehlten Test ausgewertet und das
Signifikanzmuster der Tafel, z.B. "1 0 0 1 0 0 0 0 1 0 " bei einer Tafel
mit 10 Zellen, bestimmt. Diese Signifikanzmuster werden gezaehlt und die
10 haeufigsten gelistet. Zu jeder Zelle wird zudem die Wahrscheinlich-
keit (1-beta) fuer das Auftreten eines Typen bzw. Antitypen berechnet.
.
Null-Haeufigkeiten in der Originaltafel werden bei der Bootstrap-Simu-
lation nicht als strukturelle Nullen nach N. VICTOR aufgefasst, sondern
als zufaellige Nullen einer multinomialen Binomialverteilung. Entsprech-
end koennen bei der Simulation hin und wieder Haeufigkeiten >0 in diesen
Zellen auftreten und das Gesamt-N leicht ueberschritten werden (maximal
um 10% des originalen Wertes).
.
Die geschaetzten (1-beta)-Werte der Bootstrapsimulation fuer das Auf-
treten eines Typen bzw. Antitypen duerfen nicht mit den Betawerten der
Korrekturkonstantenschaetzung verglichen werden. Bei der Bootstrap-
simulation werden Tafeln gezogen, die der Originaltafel sehr viel
aehnlicher sind, denn im Prinzip werden die vorhandenen Zellfrequenzen
nur stochastisch variiert. Bootstrap heisst, dass aus der Probandenmenge
Stichproben vom Umfang N gezogen werden, mit Zuruecklegen. Ein Proband
kenn mehmals gezogen werden oder auch nicht. Bei der Korrekturkonstant-
enschaetzung werden hingegen Tafeln generiert, die nur im Gesamt-N, in
der Tafeldimension und im Typgewicht mit der Originaltafel ueberein-
stimmen.
.
Die (1-beta)-Werte der Bootstrapsimulation geben die Wahrscheinlichkeit,
in einer Wiederholung derselben Untersuchung diesen Typen (Antitypen)
wieder zu finden. Die Beta-Werte der Korrekturkonstantenschaetzung geben
die Wahrscheinlichkeit insgesamt fuer die Tafel, vorhandene Typen bzw.
Antitypen entdecken zu koennen.
.
KFA-Teste-Menue
.
Abbruch Sie haben es sich anders ueberlegt
Hilfe Sie wollen sich zuerst etwas belesen
.
1-seitig Einseitiger Test nur auf Typen
2-seitig Zweiseitiger Test auf Typen und Antitypen
.
Test 1 Combinatoric Search nach Dunkl, Eye, Lautsch, Victor, Weber
Test 2 Gradientenverfahren nach Dunkl, Eye, Lautsch, Victor, Weber
Test 3 CHI-Quadrat-Komponententest nach G.A.Lienert
Test 4 Asymptotischer Test nach Perli, Hommel, Lehmacher
.
Alpha 5% Sie wollen mit Alpha=0.05 (5%) arbeiten
Alpha 1% Sie wollen mit Alpha=0.01 (1%) arbeiten (rechnet laenger)
.
O.K. Sie wollen die KFA starten
- - -
.
Der Ablauf der KFA mit Typensuche erfolgt in den folgenden Schritten:
.
- Angabe der beteiligten kategorialen Merkmale (2 bis maximal 5).
Das Merkmal FRQUNZ, das bei der Eingabe von fertigen Kontingenz-
tafeln erzeugt wird, zaehlt nicht zu den Merkmalen, die anzugeben
sind. DASY benutzt es automatisch, wenn es vorhanden ist.
.
- Die Kontingenztafel wird bereitgestellt.
.
- Der globale Chi-Quadrat-Test wird durchgefuehrt und bewertet.
.
- Das maximale Typgewicht Tg wird durch Simulation geschaetzt. Schaetz-
werte >6 werden auf 6 heruntergesetzt.
.
- Es wird mittels vorliegender Daten (v.Eye, Lautsch/ v.Weber 2004)
eine Empfehlung gegeben, welcher Test fuer die vorliegende Tafel
am besten geeignet erscheint.
.
- Der Anwender kann die Empfehlung akzeptieren oder aber einen Test
aus dem Menue waehlen. Ebenso kann er einseitig testen.
(Default ist zweiseitiger Typ-Antityp-Test).
.
- Mittels Simulation wird fuer das gewaehlte Alpha die Korrektur-
konstante K und das zu erwartende Beta geschaetzt. Bei dieser Simu-
lation wird der gewaehlte Test und die gewaehlte Testform (einseitig/
zweiseitig) verwendet. Es werden Tafeln verwendet, die von der
Groesse und vom Aufbau der zu testenden Tafel gleichen.
.
- Die lokalen Zelltests werden fuer das gewaehlte Alpha durchgefuehrt
. und mittels Holms Prozedur multipel gesichert.
.
SICFA-Dru: In der Tabelle der zellenweisen Typentests bedeutet:
.
ijklm Zellindizes
Eijk Unabhaengigkeits-Erwartungswerte aus den Randsummen berechnet.
Vijk VICTOR-Erwartungswerte bei der kombinatorischen Suche und
beim Gradientenverfahren. Sonst ist Eijk=Vijk gesetzt.
Ein Eijk bzw. Vijk kleiner 3 wird im Test auf 3 hochgesetzt
koTw Testwerte mit Stetigkeitskorrektur nach Lautsch und v. Weber
KIW Einseitige Irrtumswahrscheinlichkeiten zum Testwert koTw
A/AT Eine 1 bedeutet Typ, eine -1 Antityp, eine 0 weder/noch.
* bedeutet ein KIW um 0.05, ** um 0.01, *** um 0.001
- - -
.
.
Die in DASY implementierten Typentests (einseitig, zweiseitig) sind:
.
Cs Combinatoric search nach Dunkl, Eye, Lautsch, Victor, Weber
Gr Gradientenverfahren von Lautsch/Weber
Li Chi-Komponententest von G.A.Lienert
Pe Test von Perli, Hommel, Lehmacher
.
Bei allen Testen wird ein zu kleiner Erwartungswert im Nenner der Test-
formel auf 3 hochgesetzt, wenn er kleiner 3 ist. (Beim Perli-Test ist es
die geschaetzte Standardabweichung im Nenner der Testformel.)
.
Chi-Komponententest von G.A.Lienert (1969)
.
Testgroesse Xijk=(Nijk-Eijk)/sqrt(Eijk(1-K))
.
ist asymptotisch normal verteilt mit Freiheitsgrad FG=1,
.
K=Stetigkeitskorrektur nach Lautsch/v.Weber
Ein Eijk bzw. Eijk kleiner 3 wird im Nenner auf 3 hochgesetzt
.
.
.
Vereinfachter asymptotischer Test von Perli et al. (1985)
.
Perli (1985) sowie Perli, Hommel, Lehmacher (1987) entwickelten Tests,
die asymptotisch das vereinbarte Alpha einhalten. Sie nehmen fuer alle
Zellen (ijk) die Wahrscheinlichkeit Pijk=Pi Pj Pk bei allgemeiner
multinomialer Verteilung an.
.
Testgroesse Wijk=(Nijk-Eijk)/(Sijk(1-K)) ist asymptotisch normalver-
teilt. K=Stetigkeitskorrektur nach Lautsch/v.Weber. Man vergleicht
deshalb mit einem Sicherheitspunkt U der Normalverteilung zur Rest-
wahrscheinlichkeit Alpha'/2 (zweiseitiger Test) bzw. zu Alpha'
(einseitig). Ein Sijk kleiner 3 wird im Test auf 3 hochgesetzt.
.
Sijk=SQRT(N*Vo) ist die Standardabweichung aus dem Nenner
.
Fuer Dimension dim=2 ist die Varianz Vo=Pij (1 - Pij -Pi. -P.j)
.
Fuer dim=3 ist Vo=Pijk[1 + 2Pijk - (Pi..P.j. + Pi..P..k + P.j.P..k)]
.
dim=4 gibt Vo=Pijkl[1+3Pijkl-(Pi...P.j..P..k. + Pi...P.j..P...l +
P.j..P...k.P...l)]
.
Test Dunkl/v.Eye mit Victor-Erwartungswerten nach Lautsch/v.Weber
.
Victor definiert Koinzidenztypen. Sie sind singulaer und entsprechen
einem Generalfaktor der Faktorenanalyse. Die Lienertschen Kontingenz-
typen dagegen muessen nicht singulaer sein, sind oft aber komplemen-
taer ( Beispiel: Dyslexie - Eulexie )
.
Victor moniert hauptsaechlich, dass typverdaechtige Zellen in die
Schaetzung der Zellwahrscheinlichkeiten Pijk voll eingehen, da doch
ein Haeufigkeitsueberhang zur Erwartung unter der Unabhaengigkeits-
hypothese besteht. Dieses vereinfachte Vorgehen ruft Phantomtypen
und Antitypen hervor, die real nicht existieren. Die gleiche Wirkung
haben strukturelle Nullen, d.h. Konfigurationen, die durch Negativ-
auslese in der Population bzw. bei der Datenerfassung entstehen.
.
Die Victorerwartungswerte Vijk werden in DASY durch das Gradienten-
verfahren nach Lautsch/vWeber und durch die Combinatoric Search
Procedure nach v.Eye, Lautsch, v.Weber geschaetzt. Im Gradientenver-
fahren mit Bayes'scher Uebergewichtung stark frequentierter Zellen
wird das Chi-Quadrat der "bereinigten" Frequenzen minimiert. In der
Combinatoric Search Procedure werden alle Typkombinationen mit einer
Chi-Quadratstatistik bewertet. Die am besten bewertete Typenkombina-
tion wird konfirmatorisch getestet. Auch hier werden im Sinne von
Bayes Korrekturterme angebracht, die das Erkennen von Antitypen ver-
bessern, und, wie im Gradientenverfahren, stark frequentierte Zellen
mit einem zustzlichen Typenbonus belegen.
.
Der verwendete Kleingruppentest nach Dunkl und v.Eye beinhaltet eine
Stetigkeitskorrektur, die bei kleinen Erwartungswerten Evijk be-
sonders wirksam ist.
.
Die Testgroesse Dijk=(Nijk-Vijk)/(Svijk(1-K)) mit dem Nenner
.
Svijk=((Vijk+0.5)*Vijk)/(Vijk-0.5)
.
ist asymptotisch normal verteilt. K ist die Stetigkeitskorrektur nach
Lautsch/v.Weber. Ein Vijk<3 in der Formel fuer Svijk wird auf 3
hochgesetzt.
.
.
Empfehlung welcher Test bei welcher Kontingenztafel optimal ist
.
Nach einer Untersuchung von v.Eye, Lautsch und v.Weber (2004) werden
folgende Tests in dieser Reihenfolge empfohlen:
.
Cs = Combinatoric Search nach Dunkl, Eye, Lautsch, Victor, Weber
ist die absolute 1. Wahl. Die Combinatoric Search war bei allen
Tests mit unterschiedlichen Tafeltypen immer die Nummer 1.
.
Gr = Gradientenverfahren von Lautsch und v.Weber.
Falls die Rechenzeiten der Combinatoric Search zu lang werden,
ist das Gradientenverfahren die nchstbeste Wahl (2. Wahl).
Die erreichbaren Beta-Werte sind jedoch um 10-20% schlechter,
als die der Combinatoric Search.
.
Li = Chi-Quadrat-Test nach Lienert
Pe = Asymptotischer Test nach Perli et al.
.
Den Chi-Quadrat-Test nach Lienert oder den Asymptotischen Test
nach Perli et al. empfehlen wir neben der Combinatoric Search
und neben dem Gradientenverfahren nur bei zweidimensionalen
Tafeln (d=2), groen Freiheitsgraden (df>20) und kleinen
mittleren Zellbelegungen (mZb<15). Nur in diesem Fall sind die
Ergebnisse vergleichbar gut mit der Combinatoric Search bzw.
dem Gradientenverfahren.
.
.
Zur Umrechnung der 'normal verteilten' Testwerte in Irrtumswahrschein-
lichkeiten dient die folgende Tabelle, in der DASY interpoliert.
.
Fehlerintegral von Gauss PHI(u) - Integral von u bis oo
.
u PHI(u)
.
0.0- 0.4 0.5000000, 0.4601722, 0.4207402, 0.3820885, 0.3445783,
0.5- 0.9 0.3085375, 0.2742531, 0.2419636, 0.2118554, 0.1840601,
.
1.0- 1.4 0.1586552, 0.1356661, 0.1150697, 0.0968006, 0.0807567,
1.5- 1.9 0.0668073, 0.0547994, 0.0445655, 0.0359304, 0.0287166,
.
2.0- 2.4 0.0227502, 0.0178644, 0.0139035, 0.0107241, 0.0081975,
2.5- 2.9 0.0062097, 0.0046612, 0.0034670, 0.0025551, 0.0018658,
.
3.0- 3.4 0.0013499, 0.0009676, 0.0006871, 0.0004834, 0.0003369,
3.5- 3.9 0.0002326, 0.0001591, 0.0001078, 0.0000723, 0.0000481,
.
4.0- 4.4 3.168E-05, 2.066E-05, 1.335E-05, 8.542E-06, 5.414E-06,
4.5- 4.9 3.398E-06, 2.113E-06, 1.301E-06, 7.935E-07, 4.793E-07,
.
5.0- 5.4 2.867E-07, 1.699E-07, 9.967E-08, 5.792E-08, 3.333E-08,
5.5- 5.9 1.899E-08, 1.072E-08, 5.992E-09, 3.317E-09, 1.818E-09,
.
6.0- 6.4 9.869E-10, 5.305E-10, 2.824E-10, 1.489E-10, 7.771E-11,
6.5- 6.9 4.017E-11, 2.056E-11, 1.042E-11, 5.233E-12, 2.601E-12,
.
7.0- 7.4 1.280E-12, 6.240E-13, 3.012E-13, 1.439E-13, 6.812E-14,
7.5- 7.9 3.192E-14, 1.481E-14, 6.806E-15, 3.097E-15, 1.395E-15,
.
8.0- 8.4 6.223E-16, 2.749E-16, 1.202E-16, 5.208E-17, 2.233E-17,
8.5- 8.9 9.484E-18, 3.988E-18, 1.660E-18, 6.844E-19, 2.794E-19,
.
9.0- 9.4 1.129E-19, 4.518E-20, 1.790E-20, 7.023E-21, 2.727E-21,
9.5- 9.9 1.049E-21, 3.997E-22, 1.507E-22, 5.629E-23, 2.081E-23,
.
10.0-10.4 7.620E-24, 2.762E-24, 9.914E-25, 3.523E-25, 1.239E-25,
10.5-10.9 4.319E-26, 1.490E-26, 5.089E-27, 1.721E-27, 5.763E-28,
.
11.0-11.4 1.910E-28, 6.272E-29, 2.038E-29, 6.561E-30, 2.090E-30,
11.5-11.9 6.596E-31, 2.060E-31, 6.373E-32, 1.951E-32, 5.918E-33,
.
12.0-12.4 1.776E-33, 5.281E-34, 1.554E-34, 4.529E-35, 1.306E-35,
12.5-12.9 3.733E-36, 1.055E-36, 2.956E-37, 8.198E-38, 2.250E-38,
.
13.0 6.117E-39
.
Diese Tabelle ist die Grundlage fuer die Interpolation der u-Werte bei
vorgegebener Wahrscheinlichkeit P (bzw. Alpha) in DASY. Die Bewertung
fast aller Teste erfolgt ueber die Tafel PHI(u).
.
.
Beispielprotokolle
.
Die beruehmten LSD-Daten von G.A.Lienert aus dem Jahre 1970 zeigen das
psychotoxische Syndrom, das Leuner 1962 beschrieben hat. 65 Studenten
nahmen freiwillig Lysergsaeurediethylamid (LSD) ein und unterzogen sich,
soweit noch faehig, verschiedenen Tests. Das Leuner'sche Syndrom ist
eine Kombination aus
M01 = Bewusstseinseinschraenkung (clouded consciouness)
M02 = Denkstoerung (disturbed thinking)
M03 = Affektivitaetsbeeinflussung (altered affectivity)
.
Die Typensuche mit der Combinatoric Search:
.
DASY-Protokoll DASY FH Furtwangen
03.12.04 10:13:39
.
Datenfile D:\L\DASY\LSD-DATA.DAT
TABLE 3 2 2 2 Lienerts LSD-Daten von 1970
mit 8 Datenzeilen und 4 Spalten gelesen
.
Typensuche in Kontingenztafel mit den Merkmalen:
1 M01 Kategorie mit 2 Kategorien
2 M02 Kategorie mit 2 Kategorien
3 M03 Kategorie mit 2 Kategorien
und FRQUNZ Zellfrequenz Kontingenzt
65 Probanden, 8 Zellen, mBl= 8.13 mittlere Belegung
37.92 Chi-Quadrat-Gesamt mit FG=4
6.346E-06 (***) einseitige Irrtumswahrscheinlichkeit
6.00 geschaetztes maximales Typgewicht
Test: Combinatoric Search (Weber et al.) Zweiseitig
Geschaetzter Korrekturwert= -1.11
Geschaetztes Beta = 34.03 %
Sie arbeiten mit Alpha = 0.05
.
Nr. i j k l m Nijk Eijk Vijk koTw KIW T/AT Signif
.
001 1 1 1 . . 20 12.51 0.69 4.47 0.00000 1 ***
002 1 1 2 . . 1 6.85 2.12 -0.26 0.39743 0
003 1 2 1 . . 4 11.40 3.65 0.08 0.47006 0
004 1 2 2 . . 12 6.24 11.24 0.10 0.45887 0
005 2 1 1 . . 3 9.46 2.92 0.02 0.49232 0
006 2 1 2 . . 10 5.18 8.97 0.15 0.43883 0
007 2 2 1 . . 15 8.63 15.44 -0.05 0.47935 0
008 2 2 2 . . 0 4.73 47.51 -3.24 0.00060 -1 ***
.
.
Die Combinatoric Search findet den Typen (1,1,1) und den Antitypen
(2,2,2). Ueberraschend gross ist der Victorerwartungswert Vijk=47.51
zum Antitypen (2,2,2) und der kleine Wert Vijk=0.69 zum Typen (1,1,1).
.
Die Summe der Vijk muss nicht die Probandenzahl N=65 ergeben, wie wir
von der Summe der Eijk gewohnt sind.
.
Die 6 Zellen 002-007 definieren ein mittleres LSD-Wirkungsniveau. Man
sieht, dass die Victorerwartungswerte sehr genau den gefundenen Fre-
quenzen Nijk entsprechen.
.
Zelle 001 ist ein Ausreisser in dem Sinne, dass sich die Wirkungen
der Droge bei diesem Probandentyp extrem verstaerken, so dass keine
normale Reaktion mehr erkennbar ist. Zelle 008 ist ein Ausreisser in
dem Sinne, dass eigentlich viel mehr Probanden mit voellig unbeein-
flussten Reaktionen erwartet werden. Die beiden Ausreisser zeigen, dass
die LSD-Wirkung keinem log-linearem Modell folgt.
.
.
Da bei beobachteten Daten die wahre Typenstruktur nie mit Sicherheit
zu beweisen ist, wurde ein Beispiel mit 2 bekannten Typen konstruiert.
Die 3 Merkmale haben die Randwahrscheinlichkeiten M01=(0.4, 0.6),
M02=(0.7, 0.3), M03=(0.45, 0.55). Die Erwartungswerte unter Unabhaengig-
keit sind dann (5.04, 7.56, 2.16, 3.24, 6.16, 9.24, 2.64, 3.96), z.B.
ergibt sich der erste Erwartungswert E111= (0.4 * 0.7 * 0.45)*40 = 5.04.
Probandenzahl ohne Typenaufstockung ist N=40.
.
Gesetzter Typ (1,1,2) mit Typgewicht 2 erheht 7.56 auf 7.56(1+2)=22.68.
Gesetzter Typ (1,2,1) mit Typgewicht 6 erheht 2.16 auf 2.16(1+6)=15.12.
Die Probandenzahl erhoeht sich dadurch auf N=68.
.
Datenfile D:\L\DASY\VICTEST.DAT
TABLE VICTOR-Test, 2 Typen, ohne Varianz
mit 8 Datenzeilen und 4 Spalten gelesen
.
Typensuche in Kontingenztafel mit den Merkmalen:
1 M01 Kategorie mit 2 Kategorien
2 M02 Kategorie mit 2 Kategorien
3 M03 Kategorie mit 2 Kategorien
und FRQUNZ Zellfrequenz Kontingenzt
68 Probanden, 8 Zellen, mBl= 8.51 mittlere Belegung
20.01 Chi-Quadrat-Gesamt mit FG=4
7.773E-04 (***) einseitige Irrtumswahrscheinlichkeit
6.00 geschaetztes maximales Typgewicht
Test: Combinatoric Search (Weber et al.) Zweiseitig
Geschaetzter Korrekturwert= -1.48
Geschaetztes Beta = 39.76 %
Sie arbeiten mit Alpha = 0.05
.
Nr. i j k l m Nijk Eijk Vijk koTw KIW T/AT Signif
.
001 1 1 1 . . 5 12.42 5.04 0.00 0.50001 0
002 1 1 2 . . 23 16.77 7.56 2.07 0.01903 0 *
003 1 2 1 . . 15 7.19 2.16 2.55 0.00541 1 **
004 1 2 2 . . 3 9.71 3.24 0.00 0.50001 0
005 2 1 1 . . 6 5.93 6.16 -0.00 0.50002 0
006 2 1 2 . . 9 8.01 9.24 0.00 0.50001 0
007 2 2 1 . . 3 3.43 2.64 -0.00 0.50001 0
008 2 2 2 . . 4 4.63 3.96 -0.00 0.50002 0
.
Test: Gradientenverfahren (Lautsch/Weber) Zweiseitig
Geschaetzter Korrekturwert= -0.13
Geschaetztes Beta = 45.52 %
Sie arbeiten mit Alpha = 0.05
.
Nr. i j k l m Nijk Eijk Vijk koTw KIW T/AT Signif
.
001 1 1 1 . . 5 12.42 6.86 -0.57 0.28396 0
002 1 1 2 . . 23 16.77 10.49 3.17 0.00075 1 ***
003 1 2 1 . . 15 7.19 2.89 5.23 0.00000 1 ***
004 1 2 2 . . 3 9.71 4.43 -0.45 0.32795 0