Ueber DASY

                     ==========

.

DASY oder "Daten Analyse System"ist ein kleines Statistikpaket, das

seit 1993 im Fachbereich Maschinenbau und Verfahrenstechnik der

FH-Furtwangen im Praktikum eingesetzt wird.

.

Programmierer: Stefan von Weber.

.

DASY hat folgende Highlights:

.

- KFA Konfigurations-Frequenzanalyse mit Alpha- und Beta-Schaetzung,

  globaler Chi-Quadrat-Test, 6 lokale Typentests

- Multivariate kategoriale Merkmalsselektion ueber Chi-Quadrat

- Chi-Quadrat-Zerlegung nach LANCASTER

- 4-Felder-Tafel-Analyse (2x2-Tafeln) mit Alpha- und Beta-Schaetzung,

  Typensuche im Zero-Order-Modell nach A.v.Eye

  6 Assoziationsmasse mit Signifikanzpruefung und Betaschaetzung

  Vergleich von relativen Haeufigkeitszahlen mit Binomialtest

- Kreuz- und Autokorrelationsfunktionen

- CWA-Regression mit optimaler Vorhersagegenauigkeit bei vielen

  Einflussgroessen und wenig Datenpunkten

- Diskriminanz- und Clusteranalyse zur Klassifikation von Objekten

  (Clusteranalyse noch in Arbeit)

- Datentransformationen verschiedenster Art

.

Neben den Highlights bietet DASY noch:

.

- Eingabe unformatierter und formatierter Daten, Kontingenztafeleingabe,

  Eingabe von micromec-Datenlogger- und PREMA-Messcomputer-Daten

- Einfache lineare und einige einfache nichtlineare Regressionsmodelle

  (linear, quadratisch, exponentiell, hyperbolisch)

- Schrittweise Regression

- Einfache Varianzanalyse mit 3 unterschiedlichen Mittelwertvergleichen

- Plots, als BitMaps exportierbar

.

- DASY kann mit der Tastatur allein oder mit Maus und Tastatur

  gesteuert werden

.

DASY ist FREEWARE. DASY lauft seit vielen Jahren. Trotzdem uebernehmen

wir keine Haftung fuer die absolute Richtigkeit der Ergebnisse.

.

Wie bekommen Sie DASY?

.

Sie senden eine kurze Mail an webers@fh-furtwangen.de

.

Ich sende Ihnen umgehend die 4 Files README.TXT, DASY1.jpg,

DASY2.jpg und SETUP.jpg.

.

Sie benennen DASY1.jpg um in DASY1.ALL,

Sie benennen DASY2.jpg um in DASY2.ALL,

Sie benennen SETUP.jpg um in SETUP.EXE

und verfahren dann, wie unter Installation beschrieben wird.

.

Fragen und Hinweise e-mail: webers@fh-furtwangen.de

.

Installation von DASY:

======================

.

Richten Sie fuer DASY ein Directory ein (einen Folder, Ordner), z.B.

C:\PROGRAMS\DASY

.

Speichern Sie README.TXT, DASY1.ALL, DASY2.ALL und SETUP.EXE in das

Directory

.

Starten Sie SETUP.EXE in diesem Directory (Doppelclick reicht).

.

SETUP.EXE zerteilt die DASY1.ALL und DASY2.ALL in die Files, die am

Ende dieses README.TXT aufgelistet sind.

.

Setzen Sie in Windows einen Link nach C:\PROGRAMS\DASY\DASY.EXE

.

Starten Sie von Windows aus DASY.EXE

.

DASY laeuft als DOS-Programm im DOS-Fenster von Windows

.

DASY hat eine umfangreiche online Hilfe-Funktion

.

Zeilenweise Testdaten, Testtabellen fuer die KFA und Beispiele

einer Transformation sind in DASY.ALL bereits enthalten.

Testtafeln der KFA haben im Namen ein "TAB", z.B. KFA-TAB.DAT.

.

Sie koennen die Hilfedateien DA_HF_T1.DOC, DA_HF_T2.DOC, ...

mit jedem Editor lesen, kopieren, drucken, aber bitte

nicht veraendern. Einige Aenderungen koennten DASY abstuerzen

lassen.

.

EOF ist die Endekennung der nachfolgenden File-Liste (kein File)

.

-----------------------------------------------------------------

DASY.EXE

DASY.OVR

DA_HF_T1.DOC

DA_HF_T2.DOC

DA_HF_T3.DOC

DA_HF_T4.DOC

DA_HF_T5.DOC

GRAPH.TPO

ATT.BGI

CGA.BGI

EGAVGA.BGI

HERC.BGI

IBM8514.BGI

BGILINK.MAK

GOTH.CHR

LITT.CHR

SANS.CHR

TRIP.CHR

CARDS.DTA

UPGRADE.DTA

4X6.FON

8X8.FON

14X9.FON

TESTDATA.DAT

KFA-TAB.DAT

HYPERTHY.DAT

BEISPIEL.TRF

REGRESSI.TRR

HYPERTHY.TRR

EOF

-----------------------------------------------------------------

Helpfile zum Statistikpaket DASY des Fachbereichs MuV der HS Furtwangen

               "Hochschule fuer Technik und Wirtschaft"

                    Autor: Dr. Stefan von Weber

.

DASY oder "Daten Analyse System"ist ein kleines Statistikpaket, das

seit 1993 im Fachbereich Maschinenbau und Verfahrenstechnik der

HS-Furtwangen im Praktikum eingesetzt wird.

.

DASY hat folgende Highlights:

.

- KFA Konfigurations-Frequenzanalyse mit Alpha- und Beta-Schaetzung,

  globaler Chi-Quadrat-Test, 6 lokale Typentests

- Multivariate kategoriale Merkmalsselektion ueber Chi-Quadrat

- Chi-Quadrat-Zerlegung nach LANCASTER

- 4-Felder-Tafel-Analyse (2x2-Tafeln) mit Alpha- und Beta-Schaetzung,

  Typensuche im Zero-Order-Modell nach A.v.Eye

  Vergleich von relativen Haeufigkeitszahlen mit Binomialtest

- Kreuz- und Autokorrelationsfunktionen, Produkt-Momenten Korrelations-

  koeffizienten nach Pearson-Bravais mit Scatterplots und Histogrammen

- CWA-Regression mit optimaler Vorhersagegenauigkeit bei vielen

  Einflussgroessen und wenig Datenpunkten

- Diskriminanz-und Clusteranalyse zur Klassifikation von Objekten

- Datentransformationen verschiedener Art, Generierung von Merkmalen

.

Neben den Highlights bietet DASY noch:

.

- Eingabe unformatierter und formatierter Daten, Kontingenztafeleingabe,

  Eingabe von micromec-Datenlogger- und PREMA-Messcomputer-Daten

- Einfache lineare und einige einfache nichtlineare Regressionsmodelle

  (linear, quadratisch, exponentiell, hyperbolisch)

- Test auf Normalverteilung, Quantile, Histogramme (unter Scatterplots)

- Schrittweise Regression

- Einfache Varianzanalyse mit 3 Mittelwertvergleichen

- Alle Plots als BitMaps exportierbar als Fein- oder Dickplots

  (Dickplots koennen bis auf 1/3 ihrer Groesse geschrumpft werden)

.

- DASY kann mit der Tastatur allein oder mit Maus und Tastatur

  gesteuert werden

.

DASY ist FREEWARE. DASY lauft seit vielen Jahren. Trotzdem uebernehmen

wir keine Haftung fuer die absolute Richtigkeit der Ergebnisse.

.

Das Haupt-Menue wird beim Start von DASY und nach Abarbeitung eines

jeden Unterpunktes angeboten. Man waehlt den gewuenschten Unterpunkt und

bestaetigt mit der ENTER-Taste (bzw. linke Maustaste).

.

Beim Start werden nur die Unterpunkte "Stop" bis "Eingabe" angeboten.

Erst nach erfolgreicher Dateneingabe werden die weiteren Unterpunkte an-

geboten.

.

2x2-Kontingenztafelanalyse (Unterpunkt von SICFA) kann die Daten auch

direkt von der Tastatur uebernehmen. Will man nur mit dieser Moeglich-

keit arbeiten, bentigt man eigentlich keine Datei mit Daten. Da DASY

aber auf einer Datei besteht, wird empfohlen, einfach die Testdaten zu

lesen (Hauptmenue EINGABE, Unterpunkt TESTDATEN) ohne sie zu nutzen.

.

           Hauptmenue mit Kurzbeschreibung der Unterpunkte

           

.

Stop        Datenausgabemoeglichkeit und Verlassen des Programms DASY

Hilfe       Globale Hilfe mit gesamtem Informationsfile des DASY

.

Eingabe     Verschiedene Dateneingaben, SAVE DATA, BACKUP, Testdaten

.

Statistiken Zu allen Merkmalen Mittelwert, Standardabweichung usw.

Plots       Darstellung von Merkmalen als Punktwolke oder Liniendiagramm

.

Korrelation Auto-, Kreuz-, lineare Korrelation, Scatterplots/Histogramme

EinfachReg  Einfache lineare und nichtlineare Regressionsmodelle, Trend

Regression  Multiple linear/nichtlinear, Stepwise und CW-Algorithmus

.

Einfach-VA  Einfache Varianzanalyse mit Mittelwertvergleich

Clus-Dis    Clusteranalyse, Diskriminanzanalyse

SICFA       Kontingenztafelanalyse, KFA, Merkmalsauswahl, 2x2-Tafeln

.

Trafos      Merkmalstransformationen und -generierung, Gruppenbildung

Sichten     Protokoll bzw. Daten sichten, Sermon (Text ins Protokoll)

                           - - -

.

Hilfe      global oder speziell. Wie starte ich DASY?

 

.

Hilfe wird global oder gezielt beim Anwaehlen des Menuepunktes "Hilfe"

angeboten. Das globale Hilfemenue gibt eine Uebersicht ueber das gesamte

Informationsfile. Die Unterpunkte koennen angewaehlt und mit der Enter-

taste aufgerufen werden.

.

Hilfe aus Untermenues ist immer speziell. Es wird der informativste

Unterpunkt des Informationsfiles zum speziellen Gegenstand aufgerufen.

.

Innerhalb des Hilfetextes kann beliebig gescrollt werden (innerhalb der

Dateigrenzen des Informationsfiles). RETURN beendet die

Hilfe. Das Hilfemenue der globalen Hilfe hat folgende Menuepunkte:

.

             Hilfemenue

             

.

Das Hilfemenue verlassen

Haupt-Menue

Hilfe global oder speziell. Wie starte ich DASY?

Protokoll-File, Bitmaps und Ausgabe eines ASCII-Files

Standard-Dateneingabe von ASCII-Daten, Dateiaufbau, Namensgebung

formatierte ASCII-Daten, Info-Tabelle, FORMAT

Tafel-Eingabe von Kontingenztafeln fuer SICFA

MC8047-Daten fuer den PREMA Messcomputer

micromec-Daten des micromec-Datenloggers

Statistiken  Variablenuebersicht (Mittelwert, Standardabweichung usw.)

Plots        von Messpunkten ( x-y-Diagramme )

Korrelation  Auto-, Kreuz-, lineare Korrelation, Scatterpl./Histogramme

EinfachReg   Einfache lineare und nichtlineare Regressionsmodelle, Trend

Regression   Multiple lineare/nichtlinear, Stepwise und CW-Algorithmus

Einfach-VA   Einfache Varianzanalyse mit Mittelwertvergleich

Diskrimina   Diskriminanzanalyse und multiple Mittelwertvergleiche

Konfigurat   SICFA Konfigurationsfrequenzanalyse (KFA)

Transformationen (Umrechnung bzw. Erzeugung neuer Merkmale)

Datensichtung, Gruppierung (Klassen, Kategorien)

Merkmalsauswahl,....

                           - - -

.

.

      Wie starte ich DASY ? Erster Versuch nur mit den Testdaten

     

.

Den von DASY automatisch erzeugten Protokollnamen notieren, ENTER

      Es erscheint das Hauptmenue, aber nur bis zur Dateneingabe.

.

Gehen Sie zur Zeile 'Eingabe', ENTER

Gehen Sie zur Zeile 'TESTDATA', ENTER

      Es erscheint Information zu den gelesenen Daten, ENTER

.

Gehen Sie zur Zeile 'Statistik', ENTER

      Sie sehen eine statistische Variablenuebersicht

      ENTER: Sie kommen ins Hauptmenue zurueck

.

Gehen Sie zur Zeile 'Plots', ENTER

Gehen Sie zur Zeile 'x-Mermal', ENTER

Gehen Sie zum Merkmal Aufz2, ENTER, dann nach links auf O.K., ENTER

Gehen Sie zur Zeile 'y-Mermale', ENTER

Gehen Sie zu den Merkmalen Sinu und Cosi, jeweils ENTER,

dann nach links auf O.K., ENTER

Geben Sie O.K., ENTER: Es erscheint eine Graphik. Sie koennen diese

      als Bitmap ausgeben,indem Sie den Cursor auf das Feld 'Bitmap'

      bringen und ENTER geben.

Geben Sie O.K., ENTER: Sie verlassen damit den Teil Plot und sind

      wieder im Hauptmenue

.

Gehen Sie nach 'EinfachReg', ENTER: Es werden mehrere Modelle angeboten

Gehen Sie zur Zeile 'einfache exponentielle Regr.', ENTER

Gehen Sie nach 'x-Merkmal', ENTER, waehlen Sie 'Aufz2', ENTER,

Gehen Sie nach links auf O.K., ENTER

Gehen Sie nach 'y-Merkmal', ENTER, waehlen Sie 'Quad', ENTER,

Gehen Sie nach links auf O.K., ENTER

O.K., ENTER

      Sie sehen die Daten als Graphik (eine Parabel mit Ausfaellen)

      Sie koennen mit ENTER zwei Punkte markieren, z.B. den 3. von links

      und den 3. von rechts. Die Kurvenanpassung erfolgt nur innerhalb

      der beiden Punkte.

Gehen Sie nach O.K., ENTER: Es erscheinen die Koeffizienten des e-Modells

ENTER: Sie sehen eine Graphik mit der Kurve 'Quad ueber Aufz2' und die

      angepasste e-Kurve. Auch hier ist eine Bitmap-Ausgabe moeglich

Gehen Sie nach O.K., ENTER: Sie kommen ins Hauptmenue zurueck

.

Gehen Sie im Hauptmenue nach 'Sichten', ENTER

Gehen Sie nach 'Daten', ENTER

      Sie sehen links die statistische Merkmalsuebersicht.

      Mit den Pfeiltasten koennen Sie jeden Datensatz anfahren.

      Sie koennen die Werte von 'Quad' mit denen des Merkmals 'erQuad'

      vergleichen. Merkmal 'erQuad" wurde im Teil Regression berechnet.

Gehen Sie nach 'Return' (unten Mitte), ENTER

.

Gehen Sie nach 'Stop', ENTER

Gehen Sie nach 'DASY endgueltig verlassen, ENTER

.

      Wie starte ich DASY ? Erster Versuch mit eigenen Daten

     

.

Gehen Sie im Windows zu 'Zubehoer', dort zum 'Editor'

Tippen Sie folgende Datei ein:

.

Wachstum  Wasser Kali Stickstoff Kalk

 16.4       13.2  1.6    0.9     3.4

 19.2       16.4  1.3    1.1     3.9

 22.7       19.3  2.0    1.0     4.3

 29.8       22.6  3.1    1.4     3.4

 32.0       26.1  5.0    2.3     4.6

 44.4       37.2  7.3    4.8     9.1

 47.0       36.1  6.6    4.2     5.8

 52.1       41.9  9.7    5.3     7.1

.

Gehen Sie nach 'Datei', 'Speichern unter'. Speichern Sie die Datei auf

eine Diskette; Stick oder in irgendein Directory unter dem Datei-Namen

'Wachstum.dat'

Beenden Sie den Editor und starten Sie DASY

.

Den von DASY automatisch erzeugten Protokollnamen akzeptieren, ENTER

      Es erscheint das Hauptmenue, aber nur bis zur Dateneingabe.

.

Gehen Sie zur Zeile 'Eingabe', ENTER

Gehen Sie zur Zeile 'DASYDAT unformatierte ASCII-Standard-Daten', ENTER

      Es erscheint ein Bild mit drei hellgrauen Fenstern:

      Links unten sehen Sie immer den aktuellen Pfadnamen

      Links Mitte koennen Sie das Laufwerk und die Extension anklicken

      Rechts knnen Sie Dateinamen oder Directories (rot) anklicken

.

      Beispiel: Ihre Datei sei auf C:\EigeneDateien

.

      Klicken Sie 'C:' und '*.*', im rechten Fenster erscheinen die

      Dateien und Directories der C-Platte (Directories sind rot)

.

      Klicken Sie im rechten Fenster auf 'Eigene~1',

      gehen Sie nach links und klicken Sie die Extension '*.DAT' an

.

      Gehen Sie nach rechts und klicken Sie ihre Datei WACHSTUM.DAT an

      Gehen Sie nach links und geben Sie O.K. Ihre Daten werden gelesen

.

Der weitere Verlauf einer DASY-Sitzung ist dann wie oben beschrieben.

.

 

.

            Protokoll-File und Bitmaps

            

.

DASY schreibt alle Ergebnisse in ein Protokoll-File. Dieses hat den

Standard-Namen Dttmmn.PRT, z.B. D2704C.PRT (Das Protokoll C am 27.April).

Das Directory ist das aktuelle Directory (Start-Directory von DASY).

.

Bitmaps zu Graphiken haben die Namen Dttmmnk.bmp, wobei k eine laufende

Nummer von 1 bis 9, weiter von a-z ist. (Beispiel: D2704C7.BMP ist das 7.

Bitmap zum Protokoll C vom 27.April.)

                           - - -

.

Nach dem Verlassen von DASY koennen Sie das Protokoll-File z.B. mit

Programm "Notepad" aus Windows drucken und/oder es in MS-Word importieren

und dort weiterbehandeln.

.

Bitmaps koennen Sie mit Programm "Paint" aus Windows-Zubehoer bearbeiten

und in das guenstigere Format *.gif wandeln. Dieses laesst sich leicht in

ein Word-Dokument einfuegen und in der Groesse anpassen.

.

Daten koennen als ASCII-File ausgegeben werden. Das ist sinnvoll bei be-

rechneten Daten oder bei PREMA- und Micromec-Daten, die z.B. von EXCEL

nur schwer einzulesen sind. Es kann eine Kopfzeile mit den Merkmals-

bezeichnungen ausgegeben werden. Der einzelne Wert wird im Format f10

ausgegeben (Beispiel -3.141E+00) mit einem Blank als Trennzeichen.

.

Beispiele fuer Pfadnamen zur Ausgabe von Daten sind:

.

  a:messdat.lst                            (Ausgabe auf Diskette)

  c:\kienzle\auswert\messung2.dat          (Ausgabe auf Festplatte)

  d:\sgplus\data\wind.dat                  (Ausgabe auf Festplatte)

.

.

       Datei-Extensions in DASY

      

.

       Files, die DASY fuer den Nutzer erzeugt:

.

SAVEDATA.VAR  Sicherungskopie der eingelesenen Daten (Datenbasis)

.

*.PRT  Protokollfile (Diese Dateien loeschen, wenn es zu viele werden)

*.BMP  Bitmaps von geplotteten Kurven (ebenfalls loeschen bei Ueberlauf)

*.BAK  Temporaere Hilfsdatei (kann immer geloescht werden)

.

       Files mit nutzereigenen Daten:

.

*.DAT  Vorzugsweise fuer Datenfiles mit zeilenweisen Daten

*.TAB  Vorzugsweise fuer Datenfiles mit Kontingenztafeln

.

*.HAD  Header-File PREMA    Messcomputer

*.Dii  Datenfile   PREMA    Messcomputer, z.B. D00 oder D01

*.PRN  Datenfile   MICROMEC Datenlogger

.

       Files mit nutzereigenen Formaten oder Transformationen:

.

*.FMA  Formatanweisung fuer formatiertes Lesen einer Datei

*.FMT  Formattabelle fuer formatiertes Lesen einer Datei

.

*.TRF  Freie Transformation der aktuellen Datenbasis (Quelltext)

*.TRR  Freie Transformation fuer multiple Regression (Quelltext)

*.TRD  Freie Transformation fuer Diskriminanzanalyse (Quelltext)

.

Die folgenden Dateien gehoeren zur DASY-Software. Ihre Anzahl

ist konstant. (Bitte nicht loeschen):

.

*.EXE  Ausfuehrbarer DASY-Lademodul

*.OVR  Ausfuehrbarer DASY-Lademodul Overlays

*.DOC  Hilfe-Text-Dateien von DASY

*.TPO  Hilfs-Routine TurboPascal

 

.

*.PCX, *.TP, *.TAV, *.OVR, *.DTA, *.MSG, *.BGI, *.MAK, *.CHR, *.FON

Diese Dateien nicht loeschen

.

.

           Menue beim Verlassen von DASY

          

.

Zurueck ins Hauptmenue ( Sie wollen DASY noch nicht verlassen )

Hilfe  Sie wollen sich im Help-File informieren

.

Ausgabe von Merkmalen als ASCII-File (fast ueberall importierbar)

.

D A S Y  endgueltig verlassen

                           - - -

.

           Dateneingabe in verschiedenen Formen

           

.

Abbruch

Hilfe       Sie wollen sich im Help-File informieren

.

DASYDAT     unformatierte ASCII-Standard-Daten lesen

DASYFORA    mit FORMAT-Anweisung formatierte Daten lesen

DASYFTAB    mit FORMAT-Tabelle   formatierte Daten lesen

.

DASYKFA     Kontingenztafeln in kompakter Form

MC8047      Dateneingabe von Files des PREMA Messcomputers MC8047

micromec    Dateneingabe eines Files des micromec-Datenloggers

.

SAVE DATA   Sichern des augenblicklichen Standes der Arbeitsdaten

BACKUP DATA Wiedereinsetzen der zuletzt gesicherten Arbeitsdaten

.

TESTDATA    Eingabe der Datei TESTDATA.DAT

                           - - -

.

Eine DASY-Sitzung beginnt immer mit der Eingabe von Daten aus einemvor-

handenen File. Das File kann mit einem Editor oder automatisch erzeugt

worden sein. DASY "versteht" eine ganze Reihe unterschiedlich aufge-

bauter Datenfiles.

.

Sie haben waehrend einer Sitzung die Moeglichkeit neue Daten zu lesen,

aber, sobald Sie eine der Dateneingabe-Moeglichkeiten gewaehlt und be-

staetigt haben, werden die zuvor gelesenen Daten im DASY-Speicher

"vergessen". Damit sind auch alle waehrend der Sitzung generierten

Merkmale weg.

.

2x2-Kontingenztafelanalyse kann die Daten auch direkt von der Tastatur

uebernehmen. In diesem Fall bentigt man eigentlich keine Datei mit

Daten. Da DASY aber darauf besteht, wird empfohlen, einfach die

"Testdaten" einzugeben ohne sie zu nutzen.

.

.

            unformatierte ASCIIStandard-Daten lesen

           

.

Eine Datei besteht aus Datensaetzen. Datensaetze bestehen aus Zeilen.

Ein Datensatz ist ein Patient (ein Fall). Ein Datensatz kann nur eine

Zeile (Z=1 ist default) umfassen oder mehrere Zeilen. Die Zahl Z der

Zeilen muss jedoch fuer jeden Datensatz konstant sein.

.

Die Auswahl der Datei (Bestimmung des Pfadnamens) erfolgt interaktiv

mit einer Maske, die zwei Fenster hat. Das linke Fenster bietet Pfad-

bausteine wie B:, C:, aber auch Joker, wie *.* oder *.dat. Im rechten

Fenster erscheinen die mit dem aktuellen Pfadnamen erreichbaren Files.

Wollen Sie ein Directory oder schon Ihre Zieldatei waehlen, gehen Sie

ins rechte Fenster, suchen die Zeile, bestaetigen mit ENTER und gehen

zurueck ins linke Fenster. Ist der Pfadname korrekt, gehen Sie auf O.K.

und geben ENTER.

.

Hat die Datei mehr als 20 Merkmale im Datensatz, werden Sie nach dem

O.K. zu einer Auswahl aufgefordert, die maximal 20 Merkmale benennt.

.

Anklicken von PARAMS fordert zur Eingabe einer Parameterzeile auf.

Parameter sind zusaetzliche (optionale) Angaben zur Nutzung weiterer

Moeglichkeiten der Eingabe. Die Parameteranweisung hat die

Form (2 Beispiele):

.

      Z=3, K, a=1, S=8         oder z.B.            k,a=2

.

Leerzeichen und Gross-Kleinschreibung sind beliebig verwendbar. Die moeg-

lichen Parameter (in beliebiger Reihenfolge schreibbar) sind:

.

Z  Zeilenzahl/Datensatz z.B. Z=3 heisst, dass ein Datensatz 3 Zeilen hat

   Default ist 1, d.h. eine Zeile pro Datensatz (pro Fall, pro Patient).

   Die Zahl der Namenszeilen mit Merkmalsnamen am Dateianfang ist jedoch

   beliebig.

    Jeder nachfolgende Datensatz muss auf seinen Z Zeilen insgesamt exakt

   dieselbe Anzahl von Merkmalswerten enthalten, wie der erste Datensatz.

   (Ausfaelle zaehlen hier wie ein Merkmalswert.)

.

A  Ausfaller        (bezieht sich auf die ausgewaehlten maximal 20

                     Merkmale)

                    A=0 Alle Daten, auch Ausfaelle, uebernehmen (Default)

                    A=1 Nur Datensaetze mit mindestens 1 gueltigem Wert

                    A=2 Nur Datensaetze ohne jeden Ausfall uebernehmen

.

S  Skip Startzeilen uebergeht in der zu lesenden Datei die n ersten

                    Zeilen. S=8 uebergeht z.B. die ersten 8 Zeilen des

                    Datenfiles unabhaengig von ihrem Inhalt

                    (auch Leerzeilen und/oder Merkmalsnamen)

.

K  Komma            Kommas in den Datenzeilen (nicht in Namenszeilen)

                    werden in Punkte umgewandelt (Dezimalpunkt),

                    z.B. -17,34  wird gelesen als  -17.34

                    Komma  u n d  Punkt in einer Zahl sind unzulaessig.

                    Mal Komma, mal Punkt als Dezimalzeichen in ver-

                    schiedenen Zahlen ist bei Parameter K zulaessig.

                    Komma als Trennzeichen  u n d  als Dezimalpunkt

                    ist unzulaessig.

                    Ist Parameter K nicht gegeben, werden Kommas grund-

                    saetzlich in trennende Blanks umgewandelt.

.

.

Die folgenden beiden Beispiele beschreiben das Auswaehlen einer Datei.

Sie gelten sinngemaess fuer alle Dateitypen, nicht nur fuer unformatierte

Dateneingabe.

.

Beispiel 1: Lesen der Datei "LSD.DAT", die im DASY-Directory steht:

.

-> Hauptmenue Zeile "Eingabe" anwaehlen und ENTER

-> im Menue "Dateneingabe" Zeile "Unformatierte ASCII-Standarddaten"

   anwaehlen und ENTER

-> rechte Pfeiltaste

-> Datei anwaehlen oder auf Scroll gehen und mit der ENTER-Taste scrollen,

   bis Dateiname "LSD.DAT" sichtbar ist, Datei anwaehlen und ENTER

-> linke Pfeiltaste

-> "O.K." anwaehlen und ENTER

-> es kommt eine Information zum Lesevorgang, ENTER

-> Datei ist als Datenbasis verfuegbar.

.

Beispiel 2: Lesen der Datei "C:\REAKTOR\MESS.DAT" :

.

-> Hauptmenue Zeile "Eingabe" anwaehlen und ENTER

-> im Menue "Dateneingabe" Zeile "Unformatierte ASCII-Standarddaten"

   anwaehlen und ENTER

-> "C:" anwaehlen und ENTER

-> rechte Pfeiltaste

-> Directory (rote Schrift) "REAKTOR" anwaehlen oder auf Scroll gehen

   und mit ENTER scrollen, bis das Directory sichtbar ist, anwaehlen und

   ENTER

-> linke Pfeiltaste

-> "*.DAT" anwaehlen

-> rechte Pfeiltaste

-> Datei anwaehlen oder auf Scroll gehen und mit der ENTER-Taste scrollen,

   bis Dateiname "LSD.DAT" sichtbar ist, Datei anwaehlen und ENTER

-> linke Pfeiltaste

-> "O.K." anwaehlen und ENTER

-> es kommt eine Information zum Lesevorgang, ENTER

-> Datei ist als Datenbasis verfuegbar.

.

.

Unformatierte Standard-Daten sind Zahlen-Matrizen in ASCII-Form mit

Trennzeichen zwischen den Zahlen. Trennzeichen sind Leerzeichen (Blanks)

und/oder Tabulatoren und/oder Kommas und/oder Doppelpunkte und/oder

Schraegstrichen zwischen den Zahlen. Wird das Komma als Dezimalzeichen

verwendet, z.B. 17,34, dann darf es nicht als Trennzeichen verwendet

werden (Siehe Parameter K).

.

Am Dateianfang duerfen Zeilen mit Merkmalsbezeichnungen auftreten. Als

Trennzeichen sind alle obigen Trennzeichen zulaessig, auch uneinge-

schraenkt das Komma.

.

Ein Datensatz (Daten zu einem Fall, einem Patienten) kann aus mehreren

Zeilen bestehen.

.

Die Zahl Z=Zeilen/Datensatz ist auf Z<=5000 beschraenkt.

Eine Zeile ist maximal 255 Zeichen lang.

.

Leerzeilen werden als Zeilen gezaehlt (z.B. bei Skip Anfangszeilen

oder bei der Ueberprufung, ob Z Zeilen pro Datensatz vorliegen.)

.

Maximal 500 Merkmale werden gelesen, der Rest uebergangen.

Bei mehr als 20 Merkmalen muessen sie 20 fuer die Datenbasis auswaehlen.

Die Daten von maximal 4000 Datensaetzen werden gespeichert.

.

Unformatierte Standard-Daten koennten wie folgt aussehen (2 Beispiele):

.

Zeit,Strom  Wasser / Luft   Diff      oder     1 17.6 19.3  0.07   -0.56

  Druck Temp                                   2 ---- +20.1 1.7E-3 Ausf

 1    ----   +20.1; 1.7E-3: Ausf               3 .......................

 0.73 27,3                                     4 .......................

 2    4.23   20.2   1.6e-3  7.5

 0.74 27,4

 ...............

.

Unformatierte Standard-Daten erfuellen folgende Bedingungen :

.

- Eine Datei muss mindestens 3*Z Zeilen enthalten. Z.B. bei einer

  Zeile pro Datensatz (Z=1) sind das 3 Zeilen.

.

- Die Datei darf Merkmalsbezeichnungen am Anfang haben. Das erste

  Zeichen ungleich Blank muss dann in jeder Namenszeile ein Buch-

  stabe sein. Fehlen Namen, werden Merkmalsbezeichnungen "M001",

  "M002",  ... generiert. Maximal 500 Namen werden uebernommen.

  DASY-Merkmalsnamen werden auf 6 Zeichen gekuerzt. Weitere Zeichen

  erscheinen nur noch im Etikett.

  Die erste Datenzeile (und nur diese) darf nicht mit  A  oder  Ausf

  oder einer aehnlichen Alphacodierung eines Ausfallers beginnen.

  Nehmen Sie z.B.  ---  an dieser Stelle als Ausfallcodierung.

.

- Die eigentlichen Daten sind rein numerisch. Jeder Datensatz enthaelt

  gleichviele Zahlen, die durch ein Trennzeichen (siehe oben) getrennt

  sind. Diese Zahlen duerfen sich beliebig auf die Z Zeilen des Daten-

  satzes verteilen, auch von Datensatz zu Datensatz in beliebiger Auf-

  teilung auf die Z Zeilen. Die erste Zahl wird Merkmal 1 zugeordnet,

  die zweite Merkmal 2 usw.

.

- Alles, was sich nicht eindeutig als Zahl interpretieren laesst, wird

  als Ausfaller (fehlender Wert) uebernommen (intern -1E+25).

  Beispiele fuer Ausfaller sind  ---  A  a  Ausf  ###   o  fehl  F  f.

  Leerzeichen (Blanks) oder 0 (Null) definieren  k e i n e n  Ausfall.

.

  Zahlen koennen ein Vorzeichen, einen Punkt (bei PARAMS K auch statt

  Punkt ein Komma) und/oder einen Exponenten enthalten.

  Z.B. 1.7e-3 wird als 1.7 mal 10 hoch minus 3 interpretiert.

.

- Komma als Trennzeichen  u n d  als Dezimalzeichen ist unzulaessig.

  Komma als Dezimalzeichen muss mit Parameter K unter PARAMS ange-

  meldet werden.

  Zahlen der Form  123.456,78  oder  123,456.78  sind unzulaessig.

                           - - -

.

DASYDAT-Error: Fehler beim Eroeffnen

   eines Dateneingabefile

.

- Es existiert keine Datendatei des gewuenschten Namens

- Sie steht nicht im gewaehlten Directory, sondern woanders

- Sie laesst sich physisch nicht eroeffnen (Laufwerk? Diskette?)

                           - - -

.

DASYDAT-Fehler: Fehler bzw. Hinweise beim Lesen der Datendatei

 

- Physischer Lesefehler (Laufwerk? Diskette?)

- Die Anzahl der Spaltenbezeichnungen stimmt nicht ueberein

  mit der Anzahl der Zahlenwerte in den folgenden Datenzeilen.

- Die Datenzeilen enthalten eine unterschiedliche Anzahl von

  Zahlenwerten

- Es sind Ausfaelle aufgetreten

- Es sind ganze Spalten ausgefallen (z.B. Spalten mit alpha-

  numerischer Information, wie Bezeichnungen, Uhrzeiten mit

  Doppelpunkt usw.)

- Es gibt Werte ausserhalb der 3-s-Grenze. Hier besteht die Gefahr

  von Datenfehlern (Kommastelle verrutscht, 7 statt 1 getippt)

- Es sind Leerzeilen in der Datei aufgetreten (werden uebergangen)

- Es sind mehr als 4000 Zeilen bzw. 20 Spalten aufgetreten. Die

  ueberzaehligen Daten werden ignoriert.

                           - - -

.

 Fehlerbehebung bzw. Diagnose

 

- Physischer Lesefehler: Diskette nicht eingelegt, falsches Laufwerk,

  Diskette oder Laufwerk defekt

- Spaltenbezeichnungen ueberzaehlig oder zu wenig: Achten Sie auf Blanks

  in den Bezeichnungen!   Druck absolut   zaehlt wie 2 Bezeichnungen

- Datenzeilen mit unterschiedlich vielen Werten: Trennzeichen Blank

  vergessen ( 1.7-2.3 erzeugt z.B. nur einen Ausfaller), tatsaechlich

  ungleich viele Werte pro Datenzeile eingetippt, Datenzeile versehent-

  lich durch ENTER geteilt

- Werte ausserhalb 3-s-Grenze: Maximum oder Minimum der gelesenen Daten

  liegt weiter als 3 Standardabweichungen vom Mittelwert entfernt. Es

  besteht die Gefahr eines Tippfehlers oder einer Datenstoerung.

.

            formatierte ASCII-Standard-Daten lesen

            

.

Wie man eine Datei auswaehlt, ist an zwei Beispielen am Anfang des

Kapitels "Unformatierte ASCII-Standarddaten lesen" erklaert.

.

.

Liest ein Datenfile unter Zuhilfenahme einer FORMAT-ANWEISUNG bzw.

einer FORMAT-TABELLE.

.

Formatierte Daten liegen als ASCII-Datei vor. Diese besteht aus DATEN-

SAETZEN konstanten Aufbaus. Ein Datensatz kann aus mehreren ZEILEN be-

stehen. Formatierte Daten duerfen ohne jedes Trennzeichen in der Zeile

stehen. Die gegenseitige Abtrennung der Eingabefelder wird durch das

FORMAT erklaert.

.

Die Menge der durch das FORMAT beschreibbaren Merkmale ist maximal 500.

Die Menge der Zeilen eines einzelnen Datensatzes ist maximal 100 Zeilen.

.

Beispiel: Ein Fragebogen besteht aus 4 Blaettern mit 25, 27,25,30 Fragen.

Die Antworten ergeben einen Datensatz mit 4 Zeilen. Die Datensaetze aller

Probanden haben den gleichen Aufbau, d.h., die Antwort auf Frage 22 von

Blatt 4 muss bei jedem Datensatz in Zeile 4 an genau derselben Position

in der Zeile stehen.

.

Ein einzelner eingetippter Fragebogen koennte dann so aussehen:

.

2312324a4423232323423232a

aaaa442324aaaa5451232322221

55524342311111aaaaaaa1234

3241324aa542324232431314232a13

.

Die gesamte Datei aus maximal 4000 solcher 4-er-Gruppen von Zeilen.

.

Zur Eingabe einer formatierten Datei ist eine Formatbeschreibung, kurz

ein FORMAT, noetig. DASY bietet hier zwei alternative Formatbeschreibung-

en an: Die FORMAT-Anweisung und die FORMAT-Tabelle.

.

Die FORMAT-Anweisung kann sehr kompakt (kurz) sein und auf Merkmals-

namen verzichten. Die FORMAT-Tabelle uebermittelt immer Merkmalsnamen.

Kommentar ist bei beiden Formatbeschreibungen moeglich.

.

Beide Typen von Formatbeschreibung werden als eigenstaendige Datei abge-

speichert und sind bei einer spaeteren Dateneingabe wieder verfuegbar.

Sie koennen mit einem beliebigen Texteditor oder aber mit DASY angefertigt

werden. Heisst die Daten-Datei z.B. PSYCHO.DAT, dann sollte das zuge-

hoerige FORMAT den Namen PSYCHO.FMA (Formatanweisung) oder aber PSYCO.FMT

(Formattabelle) haben.

.

(DASY sucht zuerst im Verzeichnis der Daten-Datei nach einem gleich-

namigen FORMAT.) Jedoch ist die Namensgleichheit und die Extension ".FMA"

bzw. ".FMT" nicht zwingend vorgeschrieben. Moeglich waere z.B. auch eine

Bezeichnung wie form1.txt, wenn verschiedene Daten-Dateien dasselbe

Format haben.

.

DASYFOR:  Wie muessen die Daten in der Eingabedatei aussehen?

 

.

Dieser Abschnitt trifft gleichermassen auf die Eingabe mit FORMAT-

Anweisung als auch auf die Eingabe mit FORMAT-Tabelle zu.

.

Ein FORMAT kann bis zu 500 Merkmale in einer Datei benennen. Bei

einem Einlesevorgang kann DASY jedoch nur eine Auswahl von maximal 20

Merkmalen tatsaechlich uebernehmen. Der Anwender hat jedoch die Moeg-

lichkeit, mit ein und demselben FORMAT mehrere Auswertungen durchzu-

fuehren, indem er immer wieder Gruppen von bis zu 20 Merkmalen einliest.

Die Auswahl der maximal 20 zu lesenden Merkmalen erfolgt im Dialog.

.

Zu jedem Objekt (Proband, Patient) gehoert ein DATENSATZ. Ein Datensatz

besteht aus mindestens einer, aber maximal 100 ZEILEN. Die Einzeldaten,

z.B. das Alter, stehen in EINGABEFELDERN. Diese haben konstante Position

und Laenge in der Zeile. Ein Trennzeichen zwischen Eingabefeldern ist

unnoetig. Ein Eingabefeld ist maximal 20 Zeichen lang.

.

In jedem Eingabefeld sind Blanks erlaubt. Sie werden ignoriert. Z.B.

sind die Eingaben "832  " oder "83 2 " oder "  832" bei einem Feld der

Laenge FL=5 gleichwertig.

.

Bei metrischen Daten darf das Eingabefeld auch Vorzeichen, Dezimalpunkt

und Exponent enthalten, z.B.  0.1  -3.7  0.84  -3e-07  +22.6E12

Ein Dezimalpunkt oder ein Exponent im Eingabefeld ueberschreibt die Dezi-

malstellenangabe aus dem FORMAT, d.h. die gelesene Zahl wird so ueber-

nommen, wie vorgefunden, z.B. Gewicht "83.15" ergibt 83.15 Kg trotz An-

gabe D=1. Jede Zeichenkette, die sich nicht als Zahl interpretieren

laesst, wird als Ausfall behandelt (Z.B. "   "," - ","1A4","#  ").

Intern werden Ausfaelle als -1e25 gespeichert.

.

Liegt ein Eingabefeld ausserhalb der gelesenen Datenzeile (z.B.

weil diese zu kurz ist), dann wird ein Ausfall angenommen.

.

Parameter sind zusaetzliche (optionale) Angaben zur Nutzung weiterer

Moeglichkeiten der formatierten Eingabe. Die Parameteranweisung hat die

Form (Beispiel):

.

   PARAMETER( Z=3, A=1  ).

.

Sie ist Bestandteil des Kommentars. Sinnvoll ist eine Anordnung am

Anfang des Kommentars.

.

Leerzeichen und Gross-Kleinschreibung sind beliebig verwendbar. Die moeg-

lichen Parameter (in beliebiger Reihenfolge) sind:

.

Z  Zeilenzahl/Datensatz z.B. Z=3 heisst, dass ein Datensatz 3 Zeilen hat

   Default ist die Zeilenzahl, die sich bei der Formatanweisung aus 1 +

   Zahl der "/" ergibt, bei der Formattabelle die hoechste Zeilenposition.

.

A  Ausfallbehandlung (bezieht sich auf die ausgewaehlten max. 20 Merkmale)

                     A=0 Alle Daten, auch Ausfaelle, uebernehmen (Default)

                     A=1 Nur Datensaetze mit mindestens 1 gueltigem Wert

                     A=2 Nur Datensaetze ohne jeden Ausfall uebernehmen

.

S  Skip Startzeilen uebergeht in der zu lesenden Datei die n ersten Zeilen

                     S=8 uebergeht z.B. die ersten 8 Zeilen des Datenfiles

                         (Sinnvoll bei Tabellenkoepfen, Kommentaren,...)

.

Der Dialog zur Eingabe der FORMAT-Anweisung hat die Form:

.

             FORMAT-Anweisung

             

Abbruch      Sie wollen in Ruhe ueberlegen

Hilfe        Sie wollen sich im Help-File informieren

FORMAT-Anw   Sie wollen die FORMAT-Anweisung eintippen oder aendern

Pfad         Sie wollen den Pfadnamen eintippen oder aendern

O.K.         Sie wollen die eigentliche Dateneingabe starten

                           - - -

.

        DASYFORA:   Formatbeschreibung durch FORMAT-Anweisung

        

.

Die FORMAT-Anweisung beschreibt sehr knapp die Datenanordnung eines

Datensatzes, kann Merkmalsnamen vergeben ,Kommentar speichern und

einige spezielle Datenbehandlungen, wie Anfangszeilenskip oder

Ausfallbehandlung befehlen:

.

           DASY-FORMAT-ANWEISUNG        (notwendige Kennung Zeile 1)

.

           FORMAT(x4,m2,m2,x3,m1/x4,m1,m5.1)   (auch mehrere Zeilen)

.

           NAMEN(Alter,Beruf,Geschl,Typ,Gewicht) (auch mehrere Zei.)

.

           PARAMETER( A=1 )

.

           Kommentar........

           .................  (alles zusammen maximal 500 Zeilen)

.

Dabei bedeutet in der Zeile FORMAT(...):

.

  x4    uebergehe 4 Zeichen in der Datenzeile

  m2    Lies ein Merkmal (2 Zeichen in der Datenzeile)

  /     Gehe zum Anfang der naechsten Zeile innerhalb des Datensatzes

  m5.1  Lies Merkmal (5 Zeichen. Ein gedachter Dezimalpunkt

        vor der letzten Ziffer. Dezimalpunkt oder Exponentenangabe in

        der Datenzeile selbst hat aber Vorrang vor dem gedachten Punkt.

        Die Dezimalenstellenangabe ist auf eine Ziffer beschraenkt, d.h

        m5.9 setzt den gedachten Punkt 9 Stellen vor die letzte Ziffer)

.

Weitere Moeglichkeiten des FORMATs sind Vervielfachungsfaktoren

und Klammern (Klammerungstiefe maximal 10), z.B.

.

       FORMAT(2(x5,3m1,2x,2m3.1/)x5,3m1,2x,2m3.1)

.

wirkt wie FORMAT(x5,3m1,2x,2m3.1 / x5,3m1,2x,2m3.1 / x5,3m1,2x,2m3.1)

.

Kommata und Blanks koennen beliebig zusaetzlich gesetzt werden. Klammern

und Schraegstriche muessen nicht (duerfen aber) von Kommata bzw. Blanks

begleitet werden.

.

Die Formatdatei beginnt mit der Kennung DASY-FORMAT-ANWEISUNG in Zeile

1, Spalte 1.

Das FORMAT beginnt mit FORMAT( und endet mit )

Die Namen beginnen mit NAMEN( und enden mit )

Sonstige Zeilen sind Kommentar.

.

Gross- oder Kleinschreibung ist nicht relevant (FORMAT(  oder format(

wirken gleich). Die Kennung DASY-FORMAT-ANWEISUNG muss immer die erste

Zeile bilden, die Reihenfolge von FORMAT, NAMEN, Kommentar ist beliebig.

Leerzeilen zwischen den Bestandteilen Kennung, FORMAT, NAMEN und

Kommentar sind erlaubt. Der Kommentar ist voellig freier Text.

.

Die Angabe von NAMEN ist optional. Fehlen die Namen, werden Kunstnamen

M001,M002,... erzeugt.

.

Zu den Parametern PARAMETER(...) siehe einfuehrenden Text weiter oben.

.

Bei der Eingabe der Formatanweisung mittels DASY sind folgende Tasten

wirksam:

.

- Texttasten: Ziffern, Buchstaben, Sonderzeichen (ASCII-Code 32 bis 126

  und 128-254)

.

- Pfeil nach oben: Im Text nach oben. Maximal bis Zeile 1

.

- Pfeil nach unten: Im Text nach unten. Es werden Leerzeilen hinzuge-

  fuegt, wenn die letzte vorhandene Zeile ueberschritten wird

.

- Links-Loeschen: Das Zeichen links vom Kursor wird geloescht

  Links-Loeschen am Zeilenanfang verbindet zwei Zeileninhalte

.

- Einfuegen: Vor der Kursorzeile wird eine Leerzeile eingefuegt und diese

  zur Kursorzeile

.

- Entfernen: Die Kursorzeile wird geloescht. Die nachfolgende Zeile wird

  Kursorzeile. Wenn nur noch eine Zeile vorhanden ist, bleibt die Taste

  unwirksam.

.

- Pfeile links und rechts, um Zeichen innerhalb der Zeile zu loeschen

.

- ENTER teilt die Zeile am Kursor

.

- Escape: fuehrt ins Menue zurueck

.

.

           FORMAT-Menue zur Eingabe einer FORMAT-Anweisung

           

Abbruch     Sie wollen in Ruhe ueberlegen

Hilfe       Sie wollen sich im Help-File informieren

Text        Sie wollen FORMAT, NAMEN, Kommentar eingeben oder aendern

Pfad        Sie wollen den Pfadnamen des FORMAT-Files aendern

O.K.        FORMAT-File abspeichern und Dateneingabe fortsetzen

                           - - -

.

.

      DASYFTAB:    Formatbeschreibung durch FORMAT-Tabelle

      

.

Beispiel: (Die Querstriche gehoeren nicht zur FORMAT-Datei, Gross- und

Kleinschreibung beliebig erlaubt, Vornullen z.B. bei ZEILEN/DATENSATZ

nicht notwendig, wohl aber das Blank als Trennzeichen zum nachfolgenden

Schluesselwort):

.

DASY-FORMAT-TABELLE             {notwendige Kennung fuer DASY in Zeile 1}

.

parameter( A=1 )                {optionale Parameterangabe             }

.

{Leerzeilen sind optional und zaehlen ebenfalls zum Kommentar }

Kommentar (mit Parameteranweisung zusammen) kann 500 Zeilen lang sein.

.

Gewoehnlicher Kommentar besteht aus Text. Man hat hier die

Moeglichkeit, eine genaue Beschreibung der Daten, z.B. die Fragen des

Fragebogens und die Codierung der Antworten zu erklaeren. Die Zeilen des

Kommentars duerfen ungleich lang sein. Der Kommentar kann aber auch ganz

fehlen. Er kann zur besseren Lesbarkeit mit Leerzeilen gegliedert sein

bzw. mit einer solchen enden. Die Zeilenlaenge ist auf 74 Zeichen be-

schraenkt.

.

Die Start-Zeile der TABELLE beginnt mit *NAME* in Position 1-6 der Zei-

le. Ausser dem vorgeschriebenen Zeilenanfang *Name* ist der Rest dieser

Zeile beliebig. Sinnvoll ist jedoch eine sinngemaesse Spaltenbenennung,

wie sie hier zu sehen ist. Maximal 500 Merkmale duerfen deklariert

werden.

.

*name* Zei Spa Typ FL D Skip ETIKETT           {Kopfzeile der Tabelle}

Alter  1   5   m   2  0 0    Alter-in-Jahren

Beruf  0   0   m   2  0 3    Beruf-codiert

Geschl 0   0   m   1  0 0    Geschlecht.codiert.w=1.m=2

Frag1  2   5   m   1  0 0    Bedeutung.Kommunikation.0-5

Gewich 0   0   m   5  1 0    Gewicht-mit-1-Dez.-in-Kg

.....  ...     ..      ..   ..   ..    ...................

.

PARAMETER(...) siehe einfuehrender Text zur formatierten Eingabe

.

.

NAME     max. 6-stelliger Merkmalsname. Beginnt mit Buchstaben. Moeg-

         lichst keine Sonderzeichen innerhalb des Namens verwenden. Auf

         keinen Fall Blanks. Unbedenklich ist das Zeichen "_"

.

ZEI SPA  Positionsangabe des Eingabefeldes.  Null "0" steht fuer Default.

         Default beim ersten Merkmal ist 1/1, d.h. Zeile 1 und Spalte 1.

         0 bei weiteren Merkmalen heisst, dass sich die Position aus der

         Position und Laenge des vorangegangenen Eingabefeldes und einer

         eventuellen Angabe bei SKIP ergibt. So hat Beruf Position (1,7)

         oder Gewicht die Position (2,6)

.

TYP      Typ des Merkmals: Es gibt nur den Typ "m"

.

FL       Laenge des Eingabefelds. Maximal 20

           2   zwei Zeichen werden gelesen

           5   fuenf Zeichen werden gelesen

.

D        Dezimalstellenzahl. Maximal 9. Nur bei metrischen Merkmalen

         voll. Enthaelt die gelesene Zeichenkette keinen Dezimalpunkt und

         keinen Exponenten, dann wird die gewandelte Zahl mit 10^-D

         multipliziert. Beispiel Gewicht: Die 5 Character im Eingabefeld

         " 832 " ergeben 83.2 nach der Eingabe, ebenso "  832".

.

SKIP     Uebergang zum naechsten Eingabefeld

         3     bedeutet z.B., dass 3 Zeichen zu uebergehen sind, um vom

               Ende des aktuellen Eingabefeldes zur Anfangsposition des

               naechsten Eingabefeldes zu gelangen.

.

               Die Arbeit mit SKIP ist oft einfacher, als staendig die

               Position Zei/Spa zu berechnen.

.

ETIKETT  Maximal 24 Zeichen fuer den Langnamen des Merkmals. Er darf

         im Namen keine Blanks enthalten. Auffuellen mit "." oder "-".

         In den meisten Ausgabetabellen von DASY wird jedoch nur ein

         Teil des Etiketts angezeigt (aus Platzgruenden).

.

.

         FORMAT-Dialog  Wie wird die FORMAT-Datei bereitgestellt?

         

.

Abbruch  Sie wollen den Zusammenhang Datei und FORMAT in Ruhe ueberlegen

Hilfe    Sie wollen sich im Help-File informieren

.

Suchen   Die FORMAT-Datei hat einen speziellen Pfadnamen

Anlegen  Sie wollen eine neue FORMAT-Datei anlegen

                           - - -

.

             FORMAT-Maske zur Eingabe einer FORMAT-Tabelle

             

Abbruch      Sie wollen in Ruhe ueberlegen

Hilfe        Sie wollen sich im Help-File informieren

Kommentar    Sie wollen Kommentar/Parameter eingeben oder aendern

Tabelle      Sie wollen die FORMAT-Tabelle eingeben oder aendern

Pfad         Sie wollen den Pfadnamen des FORMAT-Files aendern

O.K.         FORMAT-File abspeichern und Dateneingabe fortsetzen

                           - - -

.

Bei der Kommentareingabe sind folgende Tasten wirksam:

.

- Texttasten: Ziffern, Buchstaben, Sonderzeichen (ASCII-Code 32 bis 126

  und 128-254)

.

- Pfeil nach oben: Im Kommentartext nach oben. Maximal bis Zeile 1

.

- Pfeil nach unten: Im Text nach unten. Es werden Leerzeilen hinzuge-

  fuegt, wenn die letzte vorhandene Kommentarzeile ueberschritten wird

.

- Links-Loeschen: Das Zeichen links vom Kursor wird geloescht

  Links-Loeschen am Zeilenanfang verbindet zwei Zeileninhalte

.

- Einfuegen: Vor der Kursorzeile wird eine Leerzeile eingefuegt und

  diese zur Kursorzeile

.

- Entfernen: Die Kursorzeile wird geloescht. Die nachfolgende Zeile wird

  Kursorzeile. Wenn nur noch eine Zeile vorhanden ist, bleibt die Taste

  unwirksam.

.

- Pfeile links und rechts, um Zeichen innerhalb der Zeile zu loeschen

.

- ENTER teilt die Zeile am Kursor

.

- Escape: fuehrt ins Menue zurueck

.

Bei der Eingabe der Format-Tabelle sind folgende Tasten wirksam:

.

- Texttasten wie beim Kommentar

.

- Pfeil nach oben: In der Tabelle nach oben, maximal bis Zeile 1

.

- Pfeil nach unten: Es werden neue Tabellenzeilen angefuegt, wenn

  das augenblickliche Tabellenende ueberschritten wird

.

- Links-Loeschen: Das Zeichen links vom Kursor wird geloescht

.

- Einfuegen: Vor die Kursorzeile wird eine neue Zeile eingefuegt und

  diese zur Kursorzeile

.

- Entfernen: Die Kursorzeile wird geloescht. Die nachfolgende Zeile wird

  Kursorzeile. Wenn nur noch eine Zeile vorhanden ist, bleibt die Taste

  unwirksam.

.

- Escape: fuehrt ins Menue zurueck

.

Bei der Eingabe des Pfadnamens: Texttasten, Links-Loeschen, Escape

Bei der Eingabe Zeilen/Datensatz: Zifferntasten, Links-Loeschen, Escape

.

 FORM-Merkmals-Auswahl-Maske

 

.

Die Datei hat ueber 20 Merkmale        Markierte Merkmale erscheinen

Sie muessen eine Auswahl treffen       rot, unmarkierte schwarz.

Markieren Sie die Merkmale mit         Markierung loeschen: Einfach

ENTER oder Mausklick                   nochmals anklicken

.

Abbruch Sie wollen ueberlegen          Wenn Sie O.K. geben, muss

Hilfe   Sie wollen Information         mindestens 1 Merkmal, aber

O.K.    Sie haben gewaehlt             maximal 20, markiert sein.

                           - - -

.

            Tafel-Eingabe einer Kontingenztafel

           

.

Wie man eine Datei auswaehlt, ist an zwei Beispielen am Anfang des

Kapitels "Unformatierte ASCII-Standarddaten lesen" erklaert.

.

Liegt eine Kontingenztafel schon ausgezaehlt vor, dann kann sie einge-

lesen werden. 2-dimensionale Tabellen (2 Merkmale) koennen als Zellen

oder zeilenweise vorliegen. Tabellen mit mehr als 2 Merkmalen koennen

nur als Zellen vorliegen. Den unterschiedlichen Aufbau zeigt die

Beispieldatei mit 3 Tafeln. {Kommentare} gehoeren nicht zur Datei:

.

   TAFEL Butzmann und Lederer (Angst und Verdraengung, PSU 6, 2001, 94

   1 : 14  7  3  9                   {Zeilenenweise 2x4-Tafel

   2 :  0 11  1 34                    Doppelpunkt ist hier wichtig}

.

   Table Butzmann und Lederer (Angst und Verdraengung, PSU 6, 2001, 94

   NAMEN(Angst,Verdraengung)         {Merkmalsnamen statt M01, M02}

   1 : 14  7  3  9                   {Zeilenenweise 2x4-Tafel

   2 :  0 11  1 34                    Doppelpunkt ist hier wichtig}

.

   TABLE   Winterer, Allgeier und Bank, Schuld und Suehne 4.2

     Namen(Schuld, Suehne, Opfer)   {Merkmalsnamen statt M01,M02,M03}

     1  1  1 :   17                 { 2x2x2-Tafel als Zellen

     2  1  1   114                   Doppelpunkt hier unwichtig

     1  2  1   3                     Letzte Spalte die Frequenz

     2  2  1    0                    Diese 0-Zeile darf fehlen

     2  1  2 :  3                    Zeilen duerfen beliebig

     2  2  2    15                    sortiert auftreten

     1  1  2    182                  Zahl der trennenden Blanks

     1  2  2   5                      beliebig ( >0 ) }

.

- Es koennen bis zu 500 Tabellen in einer Datei sein

.

- Jede Tabelle muss mit einer Kennzeile beginnen

.

- Die Kennzeile beginnt in Spalte 1 mit TAFEL oder TABLE in beliebiger

  Gross/Kleinschreibung (auch tAbLe oder TAfeL moeglich) und sollte einen

  Hinweis auf die Herkunft der Daten geben

.

- Fehlt die Zeile NAMEN(...), werden Merkmalsnamen M01,M02,...

  ala Default angenommen

.

- Merkmalsnamen koennen bis 24 Zeichen lang sein. Die ersten 6 Zeichen

  ergeben die Merkmalsbezeichnung, die gesamte Zeichenkette das Etikett.

  Blanks innerhalb von Namen sind nicht erlaubt, wohl aber "_"

.

- Alle Merkmalsnamen muessen auf einer NAMEN-Zeile Platz haben

.

_ Spaltenkategorien bei zeilenweiser Eingabe sind automatisch 1,2,..

.

- Leerzeilen sind nur zwischen einem Tabellenende und der naechsten

  Kennzeile erlaubt

.

- Bei der zeilenweisen Eingabe muss nach der Zeilenkategorie unbedingt

  ein Doppelpunkt kommen, danach die Frequenzen der Zeile.

.

- Bei der Eingabe als Zellen duerfen leere Zellen (Frequenz 0) wegge-

  lassen werden.

.

- Intern wird eine Tabelle aus n Merkmalen als n (kategoriale) Merkmale

  und einem (metrischen) Merkmal FRQUNZ (Frequenz) gespeichert.

.

- maximal 4000 Zellen koennen gelesen werden

.

- maximal 20 Merkmale insgesamt zusammen mit FRQUNZ

.

.

     Dateneingabe von Files des PREMA Messcomputers MC8047-Daten

    

.

Es werden Daten des Messcomputers MC8047 gelesen.

.

.

Wie man eine Datei auswaehlt, ist an zwei Beispielen am Anfang des

Kapitels "Unformatierte ASCII-Standarddaten lesen" erklaert.

.

Die Files des PREMA Messcomputers heissen MRii.HAD (Headerfile) und

MRii.D00, MRii.D01, ... Dabei ist ii eine Messreihnnummer (00,01,...).

.

Zu einer Messung der Messreihe 00 mit den Kanaelen 0,1,2 gehoeren somit

die 4 Dateien  MR00.HAD, MR00.D00, MR00.D01, MR00.D02. Das Headerfile

enthaelt als wichtigste Information das Zeitintervall zwischen zwei

Messungen. Die Datenfiles enthalten die nackten Messwerte.

.

Bei Messung mit den Frontbuchsen heisst das Datenfile MRii.DAT.

.

Die Merkmale heissen in DASY "Zeit", "AA", "BB", "CC", ...

.

     Dateneingabe von Files des micromec-Datenloggers

    

.

Es werden micromec-Daten gelesen.

.

Wie man eine Datei auswaehlt, ist an zwei Beispielen am Anfang des

Kapitels "Unformatierte ASCII-Standarddaten lesen" erklaert.

.

Die Files heissen *.prn, z.B. GAS.PRN. Sie bestehen aus einem Informati-

onsteil (Zeile 1-10) und den Datenzeilen.

.

Der Informationsteil enthaelt z.B. Sensorbezeichnungen, Einheiten,

Kanalnummern. Diese werden, soweit vorhanden, als Merkmalsbezeichnungen

und im Etikett eines Merkmals verwendet.

.

Die Zeit steht in der Form tt:mm:ss als erste Datenspalte einer Daten-

zeile. Es folgen die eigentlichen Messwerte nach steigender Kanalnummer.

.

Die Merkmale heissen in DASY "Zeit", "AA", "BB", ..., wenn keine

Sensorbezeichnungen gefunden werden. Das ist z.B. bei der

"Simultanmessung" der Fall.

.

Merkmalsbezeichnungen wie T_1, T_2, Wi1, U_1 usw. werden benutzt, wenn

Sensorbezeichnungen erkannt werden, die auf Temperatur, Wind, Spannung

usw. hinweisen. Bei Daten, die im Datenlogger gespeichert waren, sind

die Sensorbezeichnungen z.B. vorhanden.

.

.

     SAVE-DATAs und BACKUP DATAs

    

.

SAVE DATA: DASY kopiert die Arbeitsdaten (maximal 20 Merkmale) auf zwei

Hilfsfiles mit den Namen SAVEDATA.VAR und SAVEDATA.DAT. SAVEDATA.VAR

enthaelt Information zu Datum, Uhrzeit, Herkunft, Variablennamen usw.

File SAVEDATA.DAT enthaelt als Kopfzeile die maximal 6-stelligen Merk-

malsbezeichnungen und weiter je Datenzeile einen Vektor mit maximal

20 Gleitkommazahlen im Format +1.2345E+12. Durch die Konvertierung

zwischen intern binaer und extern ASCII geht die Genauigkeit auf 6

Stellen in der Mantisse zurueck.

.

BACKUP DATA: Beide Files bleiben bis zum naechsten SAVEDATA, d.h. auch

nach der Sitzung, erhalten und koennen jederzeit, d.h. waehrend der lau-

fenden Sitzung oder auch auch in einer spaeteren Sitzung mit BACKUP DATA

wieder aktiviert werden.

.

Das File SAVEDATA.DAT kann auch mit der normalen unformatierten Daten-

eingabe gelesen werden. In diesem Falle koennen eventuell einige (eher

unwichtige) Informationen verloren gehen (urspruenglicher Pfadname der

originalen Datei, Datum des SAVEDATA, Etiketten, Plotinformation fuer

Ergebnisvariablen der einfachen Regression).

.

Datenflussdiagramm

                             ==> Generieren, Transformieren, Loeschen

                             ^   von Mermalen                       !

                             !                                      v

   Eingabe eines ======> Arbeitsdaten <==============================

   Originalfiles             !                           ^

                             ! Save Data                 !

                             v                           !

                          Files SAVEDATA ==> Backup ======

.

            Menue-SAVE-DATA

           

.

Abbruch     Sie haben es sich anders ueberlegt

Hilfe       Sie wollen sich informieren

.

SAVE DATA   Sie wollen die Arbeitsdaten sichern

                           - - -

.

            Menue-BACKUP-DATA

           

.

Abbruch     Sie haben es sich anders ueberlegt

Hilfe       Sie wollen sich informieren

.

BACKUP      Sie wollen die alten Arbeitsdaten wiederherstellen

                           - - -

 

            TESTDATA    Eingabe der Datei TESTDATA.DAT

           

.

Eine Datei mit 50 Zeilen und 12 Spalten und zufllig verteilten Ausfael-

len wird eingelesen. Die Bedeutung der 12 Merkmale M01 bis M12 ist:

.

     M01 = Aufz1      Nummern 1,2, ..., 50

     M02 = Aufz2      Wie M01, aber mit kleinen zufaelligen Abweichungen

     M03 = Quad       Quadrat von M02

     M04 = Wurz       Quadratwurzel von M02

     M05 = Exp1       Exp(+M02/10)    bzw.  e^(+Mo2/10)

     M06 = Exp2       Exp(-M02/10)    bzw.  e^(-M02/10)

     M07 = Sinu       Sin( M02/3)

     M08 = Cosi       Cos( M02/3)

     M09 = rRand1     Gleichverteilte Zufallszahlen [ 0, 1]

     M10 = rRand2     Gleichverteilte Zufallszahlen [-1, 1]

     M11 = iRand1     Ganze Zufallszahlen 0, 1, 2

     M12 = iRand2     Ganze Zufallszahlen 0, 1, 2, 3, 4

.

  Aufz1       Aufz2      Quad       Wurz     .....    iRand1     iRand2

 1.000E+00  1.017E+00  1.034E+00  1.008E+00  .....  -1.000E+25  1.000E+00

 2.000E+00  2.042E+00  4.168E+00  1.429E+00  .....   1.000E+00  1.000E+00

 3.000E+00  2.954E+00  8.728E+00  1.719E+00  .....           0  1.000E+00

 4.000E+00  4.017E+00  1.614E+01  2.004E+00  .....           0 -1.000E+25

 5.000E+00  4.961E+00  2.461E+01  2.227E+00  .....   1.000E+00          0

 6.000E+00  5.955E+00  3.546E+01  2.440E+00  .....   1.000E+00  2.000E+00

 ........................................................................

 ........................................................................

 4.800E+01  4.802E+01  2.306E+03  6.930E+00  .....   2.000E+00          0

 4.900E+01  4.904E+01  2.405E+03  7.003E+00  .....   1.000E+00  1.000E+00

 5.000E+01  4.996E+01  2.496E+03  7.068E+00  .....           0          0

.

.

           Statistiken

           

.

Zu jedem belegtem Merkmal werden statistische Daten ausgegeben. Als be-

legt gilt ein Merkmal mit einem Namen ungleich Blank. Die Statistiken

werden auch fuer kategoriale Merkmale berechnet, obwohl hier nur Anzahl,

Ausfaelle, Minimum(=0) und Maximum(=Kategorienzahl) relevant sind.

.

            Statistik-Menue

           

.

Abbruch     Sie haben es sich anders ueberlegt

Hilfe       Sie wollen sich informieren

.

Einfache    Je Merkmal Mittelwert, Standardabweichung, Minimum, Max.

Quantile    Je Merkmal die Quantile Q10, Q25, Q50=Median, Q25, Q90

Boxplots    Boxplots fuer waehlbare Merkmalskombinationen

Tests       Je Merkmal Tests auf Normalverteilung

.

O.K.        Sie wollen die gewaehlten Statistiken sehen

.

Klicken Sie die Punkte im Menue an, die Sie berechnet haben wollen.

Nochmaliges Anklicken macht die Auswahl rueckgaengig.

Die Ausgaben erscheinen nach dem O.K. auf Bildschirm & Protokoll.

                           - - -

.

.

Die einfachen Statistiken zu einem Merkmal sind:

.

  Nr       Die laufende Merkmalsnummer 1,2,...

  Name     Merkmalsbezeichnung

  Mittel   Das arithmetische Mittel der vorhandenen Werte

  Stdabw   Die Standardabweichung Sigma(n-1) der vorhandenen Werte

  Anz      Die Anzahl n der vorhandenen Werte

  Ausf     Die Anzahl der ausgefallenen Werte

  Maximum  Der groesste vorhandene Wert

  Minimum  Der kleinste vorhandene Wert

  Etikett  Die ersten 12 Zeichen eines max. 24 Byte langen Textes

.

.

Quantile

.

Quantile sind Werte auf der Zahlengeraden fr das Merkmal. Die Wahr-

scheinlichkeit fuer das Auftreten eines Variablenwertes links vom

Quantil gibt dem Quantil seinen Namen, z.B. Q10 ==> 10%. Quantile werden

erst berechnet, wenn mindestens 5 zahlenmaessig ungleiche Merkmalswerte

vorliegen, von denen keiner ein Ausreisser ist.

.

Zur Berechnung der Quantile werden die Merkmalswerte sortiert und das

kumulative Histogramm gebildet. Zwischen den Stuetzstellen (den Daten-

punkten) wird linear interpoliert. Der Nullpunkt der Geraden zum ersten

Datenpunkt beginnt bei  x = mittelwert - Sigma * u , wobei u aus der

Restwahrscheinlichkeit Rw=1/(7.5*Anz) berechnet wird. Fuer die letzte

Interpolationsgerade, die zum 1-Punkt fuehrt, gilt als Endpunkt

x = mittelwert + Sigma * u .

.

Ausreisser

.

Als Ausreisser wird ein Variablenwert eingestuft, wenn die Restwahr-

scheinlichkeit Rw unter Normalverteilung kleiner als p=1/(7.5*Anz) ist,

wobei Anz die Zahl der Merkmalswerte ist. Bei einem Wert x>Mittelwert

berechnet sich Rw aus dem Zwickel der Normaldichtekurve rechts vom x,

bei x<Mittelwert links vom x. Nach der 3-Sigma-Regel und Anz=100 ist

RW=0.00135. Obige Regel ergibt als kritischen Wert in diesem Fall

P=0.00133, entspricht also der 3-Sigma-Regel bei Anz=100, verhaelt sich

jedoch adaptiv fuer andere Werteanzahlen (z.B. fuer Anz=1000 muesste

eigentlich die 4-Sigma-Regel gelten).

.

Die Ausreissersuche fuer ein Merkmal wird abgebrochen, wenn weniger als

6 gueltige Werte (kein Ausfall, kein Ausreisser) vorhanden sind. Da ein

Ausreisser den naechsten "maskieren" kann, werden die Ausreisser ent-

fernt und dann erneut gesucht, bis keiner mehr vorhanden ist oder die

Anzahl der verbliebenen Werte unter 6 gesunken ist.

.

Die gefundenen Ausreisser werden sowohl auf dem Bildschirm als auch im

Protokoll in der Reihenfolge ihres Auffindens angezeigt.

.

Quantil-Dru: Druckbilderlaeuterung zu den Quantilen

.

Q10  Links von Q10 erwartet man 10% der Merkmalswerte,

Q25  Links von Q25 erwartet man 25% der Merkmalswerte,

Q50  Links von Q50 50% der Merkmalswerte (Median), usw.

AAnz Zahl der Ausreisser unter den Merkmalswerten

                           - - -

.

            Boxplot-Menue

           

.

Abbruch     Sie wollen die Boxplots beenden oder nicht beginnen

Hilfe       Sie wollen sich informieren

.

Merkmale    Waehlen Sie die Merkmale zu den Boxplots der Graphik

.

Feinplot    Maximal 20 Boxplots in einer Graphik sind moeglich

Dickplot    Maximal 10 Boxplots in einer Graphik sind moeglich

.

O.K.        Sie wollen die Graphik sehen

                           - - -

.

Aus dem Boxplotmenue kommen Sie mit "Abbruch" ins Hauptmenue zurueck.

.

Boxplots fussen auf den Quantilen. Es sind kleine Kisten der Breite

Q75-Q25, geteilt am Median (Q50). Die kleinen T-foermigen Whiskers

links und rechts markieren Q10 und Q90. Maximum und Minimum werden

durch einen kleinen Kreis angedeutet. Interessant werden Boxplots

durch das Gegenueberstellen. In DASY koennen nur die Boxplots ganzer

Merkmale nebeneinander gestellt werden. Es macht nur Sinn, wenn die

Merkmale verwandt sind (z.B. systolischer Blutdruck gegen diasto-

lischen, oder Jodwert vor Medikamenteneinnahme, Jodwert 1 Stunde nach

Einnahme, 2 Stunden nach usw.)

.

.

Test auf Normalverteilung

,

Der Test auf Normalverteilung erfolgt mit 2 Methoden abhaengig von der

Zahl n der Merkmalswerte des geprueften Merkmals:

.

- Mit dem Kolmogorov-Smirnov Test fuer   n = 5, 6, ...

- Mit dem Chiquadrat-Anpassungstest fuer n > 24

.

Mittels einer Voruntersuchung, die die beobachtete Haeufigkeitsver-

teilung und die beobachtete kumulative Verteilung betrachtet, wird

entschieden, welcher der beiden Teste fuer das anstehende Merkmal am

besten geeignet ist. Kriterium ist die Aehnlichkeit zur theoretischen

Haeufigkeitsverteilung (Normalverteilung) bzw. zu ihrer Summenkurve.

.

Wenn berechenbar, werden jedoch beide Teststatistiken ausgegeben.Die

Entscheidung "Ja - Normalverteilung angenommen" oder "Nein - Normal-

verteilung abgelehnt" wird von DASY immer nur auf dem Alphalevel 5%

gefaellt. Der dafuer verwendete Test wird angezeigt.

.

Der Kolmogorov-Smirnov Test (KS-Test) berechnet das relative kumulative

Histogramm cum(x) des Merkmals X, und berechnet anschliessend den Be-

trag des maximalen Abstandes D des Histogramms von der Verteilungs-

funktion F(x) der angenommenen Normalverteilung, d.h.

.

             D = abs ( maximum( cum(x) - F(x) ) )

.

Die Teststatistik wird mit dem Sicherheitspunkt der Kolmogorov'schen

d-Verteilung verglichen. Die Sicherheitspunkte sind in DASY hinterlegt.

Man findet sie z.B. in K. Bosch: Formelsammlung der Wahrscheinlichkeits-

rechnung und Statistik, Oldenbourg, 1987. Naeheres zum Kolmogorov-

Smirnov Test findet man z.B. in R. J. Barlow: Statistics, Wiley, 1989.

.

Der Chiquadrat-Anpassungstest berechnet mit dem Mittelwert und der

Standardabweichung der Variablenwerte sowie den Werten u=0.253 und

u=0.842 die Intervallgrenzen fuer k=5 Klassen, in die bei Normalver-

teilung exakt je 20% der Werte fallen muessten. Die u-Werte stammen

aus dem F(u)-Fehlerintegral (Gausssches Fehlerintegral).

.

Anschliessend werden die beobachteten Haeufigkeiten Hi zu jeder der

5 Klassen ausgezaehlt und das Chi-Quadrat berechnet. Erwartungswerte

sind Ei = n/k. Die Verteilung einer Variablen wird als "nicht signifi-

kant von der Normalverteilung abweichend" eingestuft, wenn

                   Chi^2 < 7.81

ist, d.h. das Chi^2 kleiner als der Sicherheitspunkt der Chiquadrat-

verteilung fuer einen Freiheitsgrad FG=3 und Alpha=5% ist. Ist das

Chi^2 groesser oder gleich 7.81, wird die Verteilung als "signifikant

von der Normalverteilung abweichend" eingestuft. In jedem Fall wird die

Irrtumswahrscheinlichkeit P=KIW ausgegeben.

.

Normal-Dru: Druckbilderlauterung zum Test auf Normalverteilung

.

Anz   Zahl der im Test verwendeten Merkmalswerte ohne Ausreisser

h1..  Klassenfrequenzen zum Chiquadrat-Anpassungstest

E     Erwartungswert der unter NV gleichwahrscheinlichen Klassen

Chi2  Chiquadrat mit Freiheitsgrad FG=3 (5 Klassen)

D     Teststatistik D=Max(abs(Cum(x)-F(x))) nach Kolmogorov

T     Verwendeter Test: K=Kolmogorov-Smirnov, C=Chiquadrat

KIW   Kritische Irrtumswahrscheinlichkeit bei Ablehnung der NV

---   keine Aussage aus Mangel an Daten  ( Anz<5 )

NV?   Ja  =Normalverteilung wird angenommen, wenn  KIW  > 0.05

      Nein=Normalverteilung wird abgelehnt,  wenn  KIW <= 0.05

                           - - -

.

.

In DASY sind die Sicherheitspunkte fuer Alpha=0.01, 0.02, 0.05, 0.1,

und 0.2 hinterlegt. KIW-Werte dazwischen werden linear interpoliert.

KIW-Werte <0.01 oder >=0.2 werden nicht quantifiziert, sondern durch

"<0.01" oder ">=0.2" gekennzeichnet. Das gilt fuer den Kolmogorov-

Smirnov-Test und fuer den Chiquadrat Test.

.

 

Beispiel fuer die Ausgabe der Statistiken, Quantile, Tests auf NV

 

Datenfile D:\L\DASY\CWAREG.DAT

mit 100 Datenzeilen und 16 Spalten gelesen

 

Statistische Datenuebersicht der belegten Merkmale

Nr Name   Mittelwert Stand.Abw. Anz. Ausf    Maximum    Minimum

 1 g       5.000E-01  5.025E-01  100    0  1.000E+00          0

 2 y       5.177E+00  1.179E+00  100    0  7.042E+00  1.928E+00

 3 xa     -2.884E-02  7.670E-01   90   10  1.042E+00 -1.040E+00

 4 xb     -1.175E-01  7.529E-01   91    9  1.045E+00 -1.049E+00

..................................................................

12 xj     -5.610E-02  5.041E-01  100    0  1.037E+00 -1.012E+00

13 xk     -5.913E-02  5.055E-01  100    0  1.004E+00 -9.970E-01

14 xl     -6.012E-02  5.082E-01  100    0  9.689E-01 -1.020E+00

15 xm      1.604E-01  1.175E+00  100    0  1.940E+00 -1.923E+00

16 xn      2.718E-01  1.976E+00  100    0  3.464E+00 -3.434E+00

 

Ausreisserkontrolle: Keine Ausreisser in den Daten

 

Nr Merkmal Anz     Q10        Q25    Q50=Median     Q75        Q90   AAZ

 1 g       100          0          0  5.000E-01  1.000E+00  1.000E+00  0

 2 y       100  3.297E+00  4.569E+00  5.406E+00  6.090E+00  6.477E+00  0

 3 xa       90 -9.754E-01 -8.279E-01 -9.217E-02  7.297E-01  9.384E-01  0

 4 xb       91 -9.943E-01 -9.333E-01 -1.025E-01  6.015E-01  9.355E-01  0

........................................................................

12 xj      100 -7.193E-01 -4.313E-01 -4.431E-02  1.724E-01  7.481E-01  0

13 xk      100 -7.217E-01 -4.393E-01 -5.105E-02  1.761E-01  7.242E-01  0

14 xl      100 -7.344E-01 -4.469E-01 -3.763E-02  2.103E-01  7.317E-01  0

15 xm      100 -1.538E+00 -9.415E-01  2.541E-01  1.193E+00  1.709E+00  0

16 xn      100 -2.553E+00 -1.432E+00  5.101E-01  2.017E+00  2.782E+00  0

 

Nr Merkmal  Anz  h1  h2  h3  h4  h5      E   Chi2      D  T    KIW   NV?

 1 g        100  50   0   0   0  51   20.0  99.99  0.335  K  <0.01  Nein

 2 y        100  20  10  24  26  21   20.0   7.65  0.122  K  =0.10   Ja

 3 xa        90  30  12   6  11  32   18.0  31.61  0.141  K  =0.06   Ja

 4 xb        91  29  14   9  14  26   18.2  16.34  0.145  K  =0.04  Nein

........................................................................

12 xj       100  21  19  28  10  23   20.0   8.75  0.093  C  =0.04  Nein

13 xk       100  23  15  27  13  23   20.0   7.05  0.087  C  =0.07   Ja

14 xl       100  23  15  30  10  23   20.0  12.15  0.079  K  <0.01  Nein

15 xm       100  28  11  14  21  27   20.0  11.55  0.088  K  <0.01  Nein

16 xn       100  26  16  13  16  30   20.0  10.85  0.095  C  =0.01  Nein

.

.

Plots     Darstellung von Merkmalen als Punktwolke oder Liniendiagramm

.

Es gibt zwei Plot-Typen in DASY (beide mit nur einer y-Skala):

.

- der Feinplot mit feinen Linien und kleiner Schrift

- der Dickplot mit dicken Linien und grosser Schrift

.

Der Feinplot kann in einem Dokument nur unwesentlich verkleinert werden,

ansonsten verlieren sich die Details. Der Dickplot ist fuer verkleinerte

Darstellung in Artikeln oder fuer die Darstellung im Web besser

geeignet. Die Farben sind so, wie sie etwa im WORD-Dokument bzw. im Web

auch erscheinen. Die Ausgabe erfolgt als Bitmap. Der DASY-Nutzer sollte

das Format *.bmp jedoch besser in *.gif umwandeln. Das geht leicht mit

Programm "Paint" aus dem "Zubehoer" von Windows.

.

Sobald eine Graphik sichtbar wird, erscheint links oben folgendes

kleines Menue:

.

      HILFE   Sie bekommen einen Hilfetext angeboten

      IDENT   Punktidentifikation, z.B. Ausreisser, Knickstellen

      BITMAP  Ausgabe Bitmap zur Einbindung in WORD-Dokumente z.B.

      EDIT    Aenderung von Farbe, Linien- und Punktart, Positionieren

              von Texten in der Graphik

      O.K.    Sie wollen die Graphikdarstellung verlassen

.

Es ist moeglich, bis zu 8 Kurven in ein Diagramm zu legen. Die x-Achse

(das x-Merkmal) ist fuer alle Kurven dasselbe. Im Falle mehrerer Kurven

wird der y-Massstab so gewaehlt, dass alle Kurven sichtbar sind. Manche

koennen dabei jedoch in der Hoehe sehr klein ausfallen.

.

Klickt man im Dickplot den ersten Buchstaben einer Merkmalsbezeichnung

in der Graphik an, dann springt der Kursor auf einen Punkt der zuge-

hoerigen Kurve. Auf diese Weise kann man im Dickplot die Zuordnung

Kurve-Merkmalsbezeichnung erkennen, und die Bezeichnung anschliessend

gezielt in Kurvennaehe positionieren. Beim Feinplot erfolgt die Zuord-

nung Merkmal-Kurve direkt ueber Kurvenfarbe und Punktform.

.

Folgende Darstellungsarten sind fuer ein Merkmal moeglich:

.

.     1            2           3             4            5

 Ŀ  Ŀ  Ŀ  Ŀ  Ŀ

         o       .                               ij

  o  o  o   ._./ \    *       *        Ŀ

 o o  oo    /      \.  \ **    *     

    o                    **/     *  *     

                                                

        

   Punkte       Polygon    Polygon mit  Fehlerbalken  Funktion

                           Fehlerbalken

.

Darstellungsart Funktion ist fuer berechnete Kurven reserviert. Diese ent-

stehen als Resultat einer einfachen Regressions- oder Trendanalyse. Die

Darstellungsart "Funktion" kann nicht geaendert werden.

.

Funktionen werden nur in dem x-Bereich dargestellt, in dem sie auch durch

Ausgleichsrechnung bestimmt wurden. Dieser Bereich liegt immer im darge-

stellten x-Bereich, wenn bei der Ausgleichsrechnung und beim Plotten

dasselbe Merkmal fuer x benutzt wird.

.

Fehlerbalken sind dann sinnvoll, wenn zu einem x-Wert mehrere y-Werte auf-

treten oder sehr viele Datenpunkte vorliegen (etwa >200). Bei Polygonen

und Fehlerbalken koennen kleine Wartezeiten auftreten. Zu kleine Fehler-

balken werden nicht gezeichnet (ab 10 Pixel).

.

Sinnvoll ist z.B. die paarweise Darstellung von Messdaten als Punkte oder

Fehlerbalken zusammen mit einer Ausgleichskurve, z.B. einem linearen

oder nichtlinearen Trend.

.

IDENT: Ist das erste und einzige y-Merkmal eine Punktdarstellung, dann

lassen sich Punkte markieren. Die Punktnummern erscheinen im Protokoll.

Hat y den Merkmalsnamen "abc", dann wird ein neues Merkmal mit dem Namen

idABC erzeugt, in dem die y-Werte der ausgewaehlten Punkte eingetragen

sind. An Stelle der nicht gewaehlten Punkte stehen Ausfaller

(intern -1e25).

.

Mit IDENT lassen sich z.B. Ausreisser, Extremwerte oder Knickstellen des

Verlaufs markieren. Es wird der Punkt markiert, der der Cursorspitze am

naechsten liegt (innerhalb eines Feldes von 5x5 Pixeln um die Spitze).

Die Funktion IDENT gibt es nur im Feinplot.

.

BITMAP: Der Dateiname ergibt sich aus dem Protokollnamen und einer lau-

fenden Nummer der Bitmap. Die Extension ist ".BMP". Es koennen maximal 35

Bitmaps in einer Sitzung ausgegeben werden. Weitere Ausgaben werden ohne

Meldung ignoriert. Eine Bitmap benoetigt 154 KByte Speicher. Die Ausgabe

dauert einige Sekunden - also etwas Geduld.

.

Bitmaps koennen z.B. in MS-WORD-Dokumente mit "Einfuegen Graphik" einge-

bunden, verkleinert und je nach verfuegbarem Drucker farbig oder schwarz-

weiss gedruckt werden. Es ist jedoch sinnvoll, sie vorher mit dem Pro-

gramm "Paint" aus "Zubehoer" von Windows in das Format *.gif zu wandeln.

Das Format *.gif hat erhebliche Vorteile (weniger Speicherplatz, ein-

facheres Handling in WORD).

.

EDIT: Sie koennen Farben, Linien, Punktsymbole, Texte editieren

.

      Ansicht: Die Graphik ohne das linke Randmenue besichtigen

.

      Kurve:   Sie waehlen die Kurve, die Sie editieren wollen

.

      Form:    Punktwolke, Polygon, Polygon & Fehlerbalken, nur

               Fehlerbalken sind Darstellungsarten von Kurven. Hinzu

               kommt "Funktion" bei berechneten Ausgleichsfunktionen.

               Die Darstellungsart "Funktion" ist nicht veraenderbar.

.

      Farben:  Es stehen 8 Kurvenfarben zur Auswahl

.

      Linien:  Es stehen 4 Linienarten zur Auswahl

.

      Punkte:  Es stehen 10 Punktsymbole zur Auswahl

.

      Text:    Im Feinplot stehen 11 Texte zur freien Verfuegung. Sie

               koennen sie belegen, einfaerben und beliebig plazieren.

 

               Im Dickplot werden die Texte K (Kopftitel), F (Fusstitel),

               X (X-Text) und Y (Y-Text) automatisch plaziert. Sie sind

               vorbelegt mit "X-Y-Plot", Name der x-Variablen, "X" bzw.

               "Y". Die weiteren Texte 1,2,..., 8 sind mit den Namen der

               Y-Variablen vorbelegt, soweit vorhanden.

.

      Position: Sie Plazieren einen Text durch Mausklick oder Enter

.

      QuitEdit: Sie verlassen den Edit-Modus (nicht den Graphikmodus).

.

            Plot-Menue

           

.

Abbruch     Sie haben es sich anders ueberlegt

Hilfe       Sie wollen sich informieren

.

x-Merkmal   Sie wollen das x-Merkmal festlegen (Abszisse)

y-Merkmale  Sie wollen ein oder mehrere y-Merkmale auswaehlen (Ordinate)

 

Fein/Dick   Sie wollen Feinplot- / Dickplot-Darstellung

 

O.K.        Sie wollen die Plot-Darstellung sehen

                           - - -

.

            Plot-Menu2

           

.

Abbruch     Sie haben es sich anders ueberlegt

Hilfe       Sie wollen sich informieren

.

Fein        Sie wollen Feinplot-Darstellung

Dick        Sie wollen Dickplot-Darstellung

.

O.K.        Sie wollen die Plot-Darstellung sehen

                           - - -

.

.

EinfachPlots  Darstellung einer Punktwolke mit Markierungsmoeglichkeit

.

Z.B. in der einfachen Regression wird die Daten-Punktwolke durch ein ver-

einfachtes x-y-Plot dargestellt, um entscheiden zu koennen, ob eine Ein-

schraenkung des Auswerteintervalls vorzunehmen ist. Wird keine Ein-

schraenkung gewuenscht, dann gibt man sofort O.K.

.

Die Einschraenkung des Auswertebereichs erfolgt im angezeigten xy-Plot der

Daten, indem am Anfang und am Ende des gewuenschten Auswertebereichs je

ein Punkt markiert wird. Werden mehr als zwei Punkte markiert, gilt das

aeussere Punktepaar. Daran anschliessend gibt man O.K.

.

.

.

Korrelation  Auto- und Kreuzkorrelation, Scatterplots, Histogramme

.

Als Korrelation bezeichnet man einen uebereinstimmenden Verlauf zweier

Zeitkurven oder die Uebereinstimmung von zwei Merkmalen einer Gruppe.

 

Beispiel 1: Der Kursverlauf der BASF-Aktie und der der BAYER-Aktie sind

sich sehr aehnlich. Es liegt eine zeitliche Korrelation vor.

.

Beispiel 2: Der systolische Blutdruck einer Patientengruppe vor dem Ergo-

metertest (Merkmal 1) ist mit dem systolischen Blutdruck nach dem Ergo-

metertest (Merkmal 2) korreliert, denn Patienten mit Hochdruck haben die-

sen vor und nach dem Test. Aehnliches gilt fuer Patienten mit niedrigem

Druck.

.

Der lineare Korrelationskoeffizient r ist auf das Intervall -1 <= r <= +1

normiert. Dabei bedeutet r=+1 bis auf eine lineare Verschiebung voelligen

Gleichlauf zweier Zeitkurven bzw. Uebereinstimmung von zwei Merkmalen.

r=-1 bedeutet bis auf eine lineare Verschiebung voellig exakten Gegenlauf

(z.B. y=-x oder y=a-b*x mit den Konstanten a und b).

r=0 bedeutet, dass zumindest bei linearer Betrachtung keine Korrelation

vorliegt. Werte  0 < r < 1 bzw. -1 < r < 0 bedeuten mehr oder we-

niger hohe Korrelation.

.

      Autokorrelation

      

.

Die Autokorrelationsfunktion ak(LAG) entsteht, wenn man eine Zeitfunktion

x(t) mit sich selbst korreliert und die "Kopie" der Kurve nach und nach

immer weiter gegen das "Original" verschiebt. Fuer jede Verschiebung wird

der Korrelationskoeffizient r berechnet und ueber der Verschiebung aufge-

tragen. Dabei ist "LAG" die zeitliche Verschiebung zwischen x(t) und der

zeitlich verschobenen Kurve x(t-LAG).

.

Liegt x(t) im Zeitintervall [t1,t2] vor, dann kann LAG maximal t2-t1 sein,

da sonst keine Wertepaare mehr aufeinandertreffen. In der Praxis berechnet

man ak(LAG) maximal bis zum Wert (t2-t1)/2. ak(LAG) ist eine gerade Funk-

tion, d.h. es gilt ak(LAG)=ak(-LAG).

.

Aus der Lage der Maxima der Autokorrelationsfunktion, d.h. aus dem "LAG"

eines Maximums, kann man Periodizitaeten der Funktion x(t) ablesen.

Wiederholt sich ein Kurvenbild in x(t) nach einer Periode, dann steigt der

Korrelationskoeffizient bei einer Verschiebung um diese Periode stark an.

Das "LAG" eines Maximums ist gleich der Periodendauer .

.

Als Ergebnis der Autokorrelation werden zwei Merkmale mit den Namen akXYZ

und lagUVW bzw. lag123 erzeugt. Dabei ist xyz die Merkmalsbezeichnung des

x-Merkmals. Das Merkmal akXYZ enthaelt die Werte von ak(LAG) fuer ein LAG

im Intervall [-((n/2)-1)*dt,+(n/2)*dt]. dt ist der Zeitabstand zwischen

zwei Punkten der Kurve x(t), n die Zahl der Zeitpunkte.

.

Im Merkmalsnamen "lagUVW" steht UVW fuer die ersten 3 Zeichen aus dem

Namen des Zeitmerkmals. Wurde kein Zeitmerkmal angegeben, dann steht 123

statt UVW. Das LAG-Merkmal enthaelt die Abszissenwerte (LAGs) zur Auto-

korrelationsfunktion ak(LAG).

.

      Kreuzkorrelation

      

.

Die Kreuzkorrelationsfunktion kk(LAG) entsteht wenn man zwei Zeitfunkti-

onen x(t) und y(t) miteinander korreliert und y(t) nach und nach gegen-

ueber x(t) verschiebt. Fuer jede Verschiebung wird der lineare Korre-

lationskoeffizient r berechnet und ueber der Verschiebung aufgetragen.

Dabei ist "LAG" die zeitliche Verschiebung zwischen x(t) und der zeitlich

verschobenen Kurve y(t-LAG).

.

Liegen x(t) und y(t) im Zeitintervall [t1,t2] vor, dann kann LAG maximal

t2-t1 (positives LAG oder Linkssverschiebung von y(t) gegenueber x(t) )

sein bzw. maximal t1-t2 (negatives LAG oder Rechtsverschiebung), da sonst

keine Wertepaare mehr aufeinandertreffen. In der Praxis berechnet man

kk(LAG) maximal im Intervall [-(t2-t1)/2 , +(t2-t1)/2]. kk(LAG) ist im

Allgemeinen keine gerade Funktion, d.h. es gilt fast immer kk(LAG) un-

gleich kk(-LAG).

.

Aus der Lage der Maxima der Kreuzkorrelationsfunktion kk(LAG) laesst sich

eine zeitliche Verschiebung zwischen den Kurven x(t) und y(t) ablesen.

Wiederholt sich naemlich nach der Zeit dt in y(t) ein Kurvenbild aus x(t),

dann steigt fuer diese Verschiebung die Korrelation an. Das "LAG" eines

Maximums ist die gesuchte Verschiebung dt. Ein positives dt (LAG>0) bedeu-

tet, dass y(t) der Kurve x(t) zeitlich nachhinkt. Man muss y(t) nach links

verschieben, um die beiden Kurven besser zur Deckung zu bringen. Umgekehrt

bedeutet  ein negatives dt (LAG<0), dass y(t) der Kurve x(t) zeitlich

vorauseilt.

.

Als Ergebnis der Kreuzkorrelation werden zwei Merkmale mit den Namen

kkXXYY und lagUVW bzw. lag123 erzeugt. Dabei sind XX die ersten beiden

Zeichen der Merkmalsbezeichnung des x-Merkmals, YY die des y-Merkmals. Das

Merkmal kkXXYY enthaelt die Werte von kk(LAG) fuer ein LAG im Intervall

[-((n/2)-1)*dt,+(n/2)*dt]. dt ist der Zeitabstand zwischen zwei Punkten

der Kurve x(t) bzw. y(t), n die Zahl der Zeitpunkte.

.

Im Merkmalsnamen "lagUVW" steht UVW fuer die ersten 3 Zeichen aus dem

Namen des Zeitmerkmals. Wurde kein Zeitmerkmal angegeben, dann steht 123

statt UVW. Das LAG-Merkmal enthaelt die Abszissenwerte (LAGs) zur Kreuz-

korrelationsfunktion kk(LAG).

.

Kor-Druck: In der Auto- bzw- Kreuzkorrelation bedeuten

.

t       Merkmal mit den Werten der aequidistanten Zeitpunkte

X       Merkmal mit einem punktweise gegebenen zeitlichen Verlauf

Y       Merkmal mit einem punktweise gegebenen zeitlichen Verlauf

LAG     Zeitliche Verschiebung zu einem Korrelationswert

r       die Korrelation fuer ein bestimmtes LAG

 

Minima und Maxima werden als relativ (rel.) oder absolut (abs.)

eingestuft. Wurde kein Zeitmerkmal angegeben, ist der LAG-Massstab

die Zahl der punktweisen Verschiebungen ...,-3,-2,-1,0,+1,+2,+3,..

                           - - -

.

.

      Scatterplots (Korrelationen, Histogramme)

      

.

Scatterplots sind kleine x-y-Diagramme von Merkmalspaaren. Jedes Werte-

paar (x,y) wird im Plot durch einen Punkt repraesentiert. Es koennen

maximal 10 Merkmale simultan gepaart werden (jedes mit jedem). Da die

Korrelation symmetrisch ist gilt cor(y,x)=cor(x,y).

.

Im Scatterplot ist die x-Achse (Abszisse) die Variable, die links vom

Plot auf der Diagonalen steht, die y-Achse (Ordinate) die Variable, die

unter dem Plot auf der Diagonalen steht.

.

Ein Histogramm stellt die Haeufigkeitsverteileung  e i n e r  Variablen

dar. Problematisch ist das Finden der geeigneten Klasseneinteilung, d.h.

der Klassenzahl und Klassengrenzen. In DASY ist nicht immer gesichert,

dass bei einer kategorialen Variablen Kategorienzahl und Klassenzahl

uebereinstimmen. Bei metrischen Merkmalen wird k=Wurzel(n) als Richt-

schnur fuer die Wahl der Klassenzahl k genommen.

.

Der lineare Produkt-Momenten-Korrelationskoeffizient  r  nach Pearson-

Bravais quantifiziert die "Verwandtdschaft" zweier Merkmale. Diese kann

sich in einem aehnlichen Verlauf zweier Messgroessen ueber die Zeit

ausdruecken, oder aber ueber ein aehnliches Verhalten paarweise

gewonnener Messwerte unabhaengig von Zeit und Ort.

.

Beispiel fuer eine zeitliche Korrelation ist die Abnahme von Temperatur

u n d   Waermestrahlung eines anfaenglich gluehenden Stahlblocks.

.

Beispiel fuer eine paarweise Korrelation von Messwerten ist der dia-

stolische und systolische Blutdruck von Patienten. Bei Hypertonikern

sind beide Werte hoch, bei Hypotonikern beide Werte niedrig.

.

Von negativer Korrelation sprechen wir, wenn sich die Werte zweier

Merkmale gegenlaefig verhalten: Ein grosser Wert paart sich bevorzugt

mit einem kleinen und umgekehrt, mittlere mit mittleren Werten.

.

Welcher Art die Verwandschaft der Merkmale ist, d.h. direkte Abhaengig-

keit des einen Merkmals vom anderen, Abhaengigkeit beider Merkmale von

einem dritten Merkmal (einem Faktor), oder rein zufaelliger Gleichlauf,

laesst sich mit statistischen Mitteln nicht feststellen. Hier muessen

fachliche Argumente den Beweis erbringen.

.

Aus der Form der "Punktwolke" kann man ablesen, ob

.

- ueberhaupt eine Korrelation vorhanden ist. Formlose "Kugelhaufen" oder

  "Ellipsen ohne erkennbare Neigung" signalisieren, dass die paarweise

  lineare Korrelation Null ist

.

- "Flache Ellipsen" oder "ziemlich gerade Punktbaender" mit deutlicher

  Neigung signalisieren eine lineare Korrelation zwischen den Merkmalen

.

- u-, v- oder s-foermige Punktanordnungen signalisieren nichtlineare Zu-

  sammenhaenge. Lineare Korrelation liefert hier kein gutes Resultat.

.

Zusaetzlich zu den Scatterplots und Histogrammen wird fuer jede Merk-

malspaarung der lineare Korrelationskoeffizient r, Pruefgroesse t,

Freiheitsgrad FG und Irrtumswahrscheinlichkeit P=KIW angegeben ("P" aus

Platzgruenden in der Graphik, KIW im Protokoll). Im Protokoll erscheinen

keine Graphiken, sondern nur die zuletzt genannten

Angaben r, t, FG, KIW.

.

Sind unter den beteiligten Merkmalen kategoriale Merkmale (mit Ausnahme

binaerer Merkmale oder ranggeordneter kategorialer Merkmale), dann sind

die Angaben r,t,FG,KIW fuer diejenigen Paarungen unbrauchbar, die die

kategorialen Merkmale enthalten. Bei nichtberechenbarer Korrelation

(zu wenig Punkte bzw. keine Spannweite eines oder beider Merkmale) ist

r=t=KIW=0 gesetzt.

.

Der Korrelationskoeffizient r ist immun gegen lineare Transformationen

der Form "ax+b" bzw. "cy+d" der beteiligten Merkmale x und y.

.

            Menue-Scatterplots und Histogramme

           

.

Abbruch     Sie wollen die Scatterplots beenden oder nicht beginnen

Hilfe       Sie wollen sich informieren

.

Merkmale    Waehlen Sie die Merkmale zum Scatterplot & Histogramme

.

Feinplot    Maximal 10 Merkmale in einer Graphik sind moeglich

Dickplot    Maximal  5 Merkmale in einer Graphik sind moeglich

.

O.K.        Sie wollen die Graphik sehen

                           - - -

.

Vom Scatterplotmenue kommen Sie mit "Abbruch" ins Hauptmenue zurueck.

.

.

Scat-Druck: Im Ausdruck der Scatterplots bedeutet

.

r        Linearer Produkt-Momenten-Korrelationskoeffizient

t        t-verteilte Pruefgroesse zur Hypothese Ho:r=0, HA:r<>0

FG       Freiheitsgrad FG=n-2 zur Pruefgroesse

KIW      Irrtumswahrscheinlichkeit bei Ablehnung von Ho

Signif   * (KIW<=0.025)   ** (KIW<=0.005)   *** (KIW<=0.0005)

.

Max, Min Histogrammgrenzen, k=Klassenzahl, h=Klassenfrequenzen

                           - - -

 

.

Menue der Autokorrelation, Kreuzkorrelation, Scatterplots ( KorMenue )

.

Abbruch

Hilfe

.

Autokorrelationsfunktion fuer eine Zeitfunktion x(t)

.

Kreuzkorrelationsfunktion fuer zwei Zeitfunktionen  x(t) und y(t)

.

Simultane Scatterplots & Histogramme fuer 2-10 Merkmale

                           - - -

.

.

EinfachReg  Einfache lineare und nichtlineare Regressionsmodelle, Trend

.

Regressionsmodelle mit nur einer Einflussgroesse. Man unterscheidet

lineare und nichtlineare Modelle. Ist die Zeit Einflussgroesse, dann

spricht man von Trend oder Wachstumskurven.

.

Das allgemeine Modell ist:   y = f(x) + e

Dabei ist y die Zielgroesse (abhaengiges Merkmal), x die Einflussgroesse

(unabhaengiges Merkmal) und e der Fehler. Je nach Modell haengt f(x)

ausser von der Einflussgroesse noch von den als konstant angenommenen

Regressionskoeffizienten ab. Diese koennen als lineare Koeffizienten oder

als nichtlineare Koeffizienten (oft auch Parameter genannt) auftreten.

.

Ziel der einfachen Regression ist es, eine Kurve (Gerade, Parabel,...)

so durch die x-y-Punktwolke zu legen, dass die Restvarianz zum Minimum

wird, d.h. eine beste Anpassung von Punktwolke und Kurve in y-Richtung

erfolgt (Fit).

.

Das 95%-Konfidenzintervall der "wahren Geraden der Population" und das

95%-Konfidenzintervall der Einzelwerte wird nur fuer die einfache lineare

Regression berechnet.

.

Die exponentielle Regression z.B. mit dem Modell y = a + b exp( c x ) + e

besitzt zwei lineare Regressionskoeffizienten (a,b) und einen nichtline-

aren Koeffizienten (c). Der Wert der nichtlinearen Koeffizienten wird

iterativ bestimmt, so dass kleine Wartezeiten auftreten koennen.

.

Eine erfolgreiche Kurvenanpassung liefert ein neues Merkmal (eine metri-

sche Funktion). Hat die Zielgroesse die Merkmalsbezeichnung "abc" und hat

das Modell das Kuerzel "xy", dann heisst das neue Merkmal "xyABC". Das

neue Merkmal xyABC enthaelt die Ausgleichskurve, d.h. die Erwartungswerte

fuer y(x) an den Stellen, die durch die Einflussgroesse x vorgegeben

werden. Wird mit einem eingeschraenkten Auswertebereich gearbeitet und

liegt x nicht im ausgewaehlten Intervall, dann enthaelt das neue Merkmal

fuer diese Punkte Ausfallwerte (intern -1e25).

.

Eine gewuenschte Einschraenkung des Auswertebereichs (eingeschraenkter

x-Bereich) erfolgt im angezeigten xy-Plot der Daten, indem am Anfang und

am Ende des gewuenschten Auswertebereichs je ein Punkt markiert wird.

Werden mehr als zwei Punkte markiert, gilt das aeussere Punktepaar.

.

.

LinReg-Dr: In der Ausgabe der Einfachregression bedeutet

.

Wert        den optimalen Wert des Modellparameters fuer die Stich-

            probe und Schaetzwert des Modellparameters fuer die

            Grundgesamtheit

Standardabw den Standardfehler des geschaetzten Modellparameters bei

            wiederholter Ziehung gleichartiger Stichproben

T-Wert      den Quotienten  Wert/Standardabw, d.h. die t-verteilte

            Pruefgroesse fuer den Test der Nullhypothese Ho:Koef=0.

            Der Freiheitsgrad ist FG=Punktzahl-Koeffizientenzahl.

KIW         Die Irrtumswahrscheinlichkeit bei zweiseitigem Test fuer

            die Ablehnung der Nullhypothese Ho:Koef=0 (HA:Koef0).

Sign        KIW ist bei * kleiner 5%, bei ** kleiner 1%, bei ***

            kleiner 0.1%. Kein Stern bedeutet, wir nehmen Ho an.

                           - - -

.

Menue der einfachen linearen und nichtlinearen Regressionsmodelle

.

Abbruch

Hilfe

.

Einfache lineare Regression  (lr)  y = a + b x + e  mit Konf.intervall

.

Einfache lineare Regression  (lr)  y = a + b x + e  ohne Konf.intervall

.

Einfache quadratische Regr.  (qr)  y = b + c ( x - a ) + d ( x - a )^2 +e

.

Einfache exponentielle Regr. (er)  y = a + b exp( c x ) + e

.

Einfache hyperbolische Regr. (eh)  y = c / x + e

                           - - -

.

Regression  Multiple lineare und quasilineare Regression

.

Die multiple Regression verknuepft p Einflussgroessen X1,X2,...,Xp mit

einer Zielgroesse Y. Das Modell kann mit oder ohne Regressionskonstante

bo sein:

           Y = bo + b1*X1 + b2*X2 + ... + bp*Xp + e

.

Die Regressionskoeffizienten b1,b2,...,bp (und bo) werden nach der

Methode der kleinsten Quadrate (Summe e^2 = Minimum) geschaetzt.

e ist der zufaellige Fehler oder Residuum (Abweichung).

.

Beispiel Parameterpreisbildung: Der durchsetzbare Marktpreis eines neu

zu entwickelnden Elektromotors soll geschaetzt werden. Man benoetigt

dazu die technischen Kennzahlen des Motors (Gewicht, Leistung, Drehzahl,

Spannung) sowie die verfuegbaren Marktpreise und Kenndaten schon ver-

fuegbarer aehnlicher Motore. Zielgroesse ist der Marktpreis, Einfluss-

groessen sind die Kenndaten. Das lineare Modell (ohne Fehler) lautet:

.

  Marktpreis = bo + b1*Gewicht + b2*Leistung + b3* Drehzahl + bp*Leistung

.

Die multiple Regression schaetzt aus den vorhandenen Preisen und Kenn-

zahlen die Regressionskoeffizienten. Setzt man die "extra Daten" des

eigenen geplanten Motors ein, dann erhaelt man eine Schaetzung des Er-

wartungswertes fuer dessen Preis.

.

Von einem quasilinearen Modell spricht man, wenn sich unter den Ein-

flussgroessen X1, X2, ..., Xp nicht nur originale Einflussgroessen

befinden, sondern auch berechnete Einflussgroessen, z.B. Produkte,

Quadrate oder sonstwie gestaltete Funktionen von einer oder mehreren

originalen Einflussgroessen. Das Modell ist linear. Traegt man jedoch

die Zielgroesse Y ueber den originalen Einflussgroessen auf, dann er-

gibt sich eine nichtlineare Funktion.

.

Beispiel: Erkennt man, dass der Preis z.B. quadratisch von der Drehzahl

abhaengt (ein signifikanter Einfluss des Terms "Drehzahl*Drehzahl), dann

wird man das Modell abaendern in

.

    Marktpreis = bo + b1*Gewicht + ... + b3*Drehzahl + b4*Drehzahl^2 + ..

.

Von gewichteter Regression spricht man, wenn jedem Datenpunkt i ein Ge-

wicht Gi zugeordnet wird. Die Zahl der Freiheitsgrade wird dudurch nicht

veraendert.

.

Es gibt drei Hauptaufgaben der multiplen Regression:

.

  1. Prognose (Vorhersage) von Y-Werten ausserhalb des durch die x-Werte

     vorgegebenen Bereichs und/oder fuer neue Datenpunkte innerhalb des

     vorgegebenen X-Bereichs.

.

     Beispiele:

.

   - Parameterpreisbildung

.

   - Schaetzung der Energiekosten im naechsten Jahr auf der Basis der

     Produktionszahlen und Verbraeuche in den vergangenen Jahren.

.

   - Der Schadstoffausstoss einer Produktionsanlage wurde in Abhaengig-

     keit von vertretbaren Druck- und Temperaturaenderungen aus Kosten-

     gruenden fuer recht wenige Druck-Temperatur-Punkte gemessen. Ge-

     sucht ist eine feiner gerasterte Darstellung der Schadstoffemmis-

     sion, um die Position des Minimums exakter positionieren zu koennen.

.

  2. Reproduktion von Y-Werten exakt auf den Punkten des beobachteten

     X-Bereichs (Stuetzstellen). Es handelt sich hier um eine reine

     Datenreduktion (Regressionsparameter statt einzelner Y-Werte)

.

     Beispiel: Speicherung der Sicherheitspunkte der t-Verteilung fuer

               die Freiheitsgrade FG>5 mit einem Regressionsmodell der

               Form t = b0 + b1*(1/FG) +b2*(1/FG^2)

.

  3. Finden von signifikanten Einflussgroessen X

.

     Beispiel: Welches sind die Haupteinflussgroessen auf den Ertrag

     einer neu entwickelten Rapssorte (Temperatur? Regenmenge? Kalk?

     Stickstoff?, ...)

.

.

Entsprechend den Hauptaufgaben sind verschiedene Regressionsalgorithmen

zu empfehlen:

.

- Fuer Prognose bei hoher Merkmalszahl, wenig vorhandenen Datenpunkten

  und stark streuenden Zielgroessenwerten Y wird die faktorisierende

  "CWA-Regression" empfohlen

.

- Fuer Prognose (Vorhersage) mit wenigen Einflussgroessen und/oder wenig

  streuenden Zielgroessenwerten wird das "Schrittweise Aufbauverfahren"

  oder das "Schrittweise Abbauverfahren" empfohlen

.

- Fuer die exakte Reproduktion der Y-Werte an den Stuetzstellen wird

  die "Regression mit allen Einflussgroessen" empfohlen

.

- Fuer das Auffinden signifikanter Einflussgroessen wird das "Schritt-

  weise Aufbauverfahren" oder das "Schrittweise Abbauverfahren"

  empfohlen

.

Bei der Prognose (Vorhersage) interessiert die Genauigkeit der prognos-

tizierten Y-Werte. Nicht die kleinste Reststreuung ist gefragt, sondern

der kleinste Prognosefehler. Zur Bestimmung benutzt man Jackknife- oder

Bootstrap-Methoden (in DASY nur Jackknife) bzw. eine Teilung der vor-

handenen Daten in einen Lern- und einen Arbeitsteil. Die Frage nach der

Signifikanz der Einflussgroessen stellt sich nicht bzw. ist unterge-

ordnet.

.

Die exakte Reproduktion (Datenverdichtung) erfordert ein besonders gutes

Regressionsmodell, das die Reststreuung bei moeglichst wenigen Einfluss-

groessen minimiert. Bei ungeschickter Wahl des Modells ist es moeglich,

dass Sie bei X-Werten ausserhalb der benutzten Stuetzstellen Phantasie-

werte erhalten, die weit jenseits von gut und boese liegen. Ein Prog-

nosefehler oder die Signifikanz der Einflussgroessen ist von unterge-

ordneter Bedeutung.

.

Das Auffinden signifikanter Einflussgroessen ist oft von wissenschaft-

lichem oder praktischem Wert. Das Ergebnis kann kausale Zusammenhaenge

erkennbar machen, oder aber den Erhebungsaufwand fuer Prognosedaten

erheblich reduzieren helfen. Probleme beim Auffinden der signifikanten

Einflussgroessen sind:

.

  Aus einer Gruppe untereinander hoch korrelierter Einflussgroessen wird

  zumeist nur ein Merkmal mehr oder weniger zufaellig ausgewaehlt. Es ist

  durchaus moeglich, dass eine ganze Reihe von Merkmalen denselben sig-

  nifikanten Einfluss haben, wie das zufaellig gewaehlte Merkmal. Das

  kann dann ein Hinweis daruf sein, dass ein versteckter Faktor alle

  diese Merkmale steuert. Seltener tritt der Faktor selbst als Merkmal

  auf. Es waere in diesem Falle sinnvoll, eine Faktoranalyse vorzuschal-

  ten (in DASY nicht moeglich) und mit den Faktoren als Einflussgroessen

  zu arbeiten

.

  Liegen sehr viele Einflussgroessen vor, dann muss eine Alpha-Adjus-

  tierung, z.B. nach Holms Prozedur oder nach Bonferroni vorgenommen wer-

  den (DASY bietet hier nur Bonferroni an), da sonst Zufallsmerkmale

  eine Chance bekommen, als signifikant gemeldet zu werden (bei Alpha=5%

  wuerden von 100 Zufallsmerkmalen immerhin 5 akzeptiert werden, wenn

  keine Alpha-Adjustierung vorgenommen wird.)

.

.

"CWA-Regression" ist ein faktorisierendes Verfahren, das die Regressions-

koeffizienten iterativ nach einem speziellen Abstiegsverfahren zur Mini-

mierung der Reststreuung berechnet (Cierzynski/v.Weber). Die Vorteile

sind:

.

- Hochkorrelierte Merkmale schliessen sich nicht gegenseitig aus, sondern

  werden zu einer Art Faktor gemittelt (man spart die Faktorregression)

- Die Iteration wird abgebrochen, wenn der Prognosefehler wieder ansteigt

- Es entsteht eine "robuste Loesung", die auch bei moderaten Veraende-

  rungen in der Datenbasis (X-Werte) noch Bestand hat

 

"Schrittweises Aufbauverfahren" bzw. "Schrittweises Abbauverfahren" ist

ein Verfahren, bei dem ein Signifikanztest (t-Test) ueber die Aufnahme

oder den Verbleib einer Einflussgroesse im Modell entscheidet. Die

Vorteile sind:

.

- Nur Einflussgroessen mit einem statistisch gesicherten Einfluss auf die

  Reduktion der Reststreuung werden in das Modell aufgenommen

  ( Ausnahme: Ist kein Merkmal signifikant, wird das mit dem hoechsten

    t-Wert genommen )

- Eine Gruppe hoch korrelierter Merkmale wird durch ein Merkmal vertreten

- Es entsteht eine robuste Loesung, die auch bei moderaten Veraenderungen

  in der Datenbasis noch Bestand hat

 

"Regression mit allen Einflussgroessen" ist ein Verfahren, bei dem nur

Merkmale aus dem Modell entfernt werden, wenn eine so starke lineare

Abhengigkeit der Mermale diagnostiziert wird, dass numerische Instabili-

taeten auftreten. Der Vorteil ist:

.

-  Fuer die Stuetzstellen (und nur fuer diese) laesst sich die Rest-

   streuung maximal minimieren. Es haengt sehr vom Modell ab, ob die

   Zielgroessenschaetzung auch fuer Werte ausserhalb der Stutzstellen

   noch vernuenftige Zahlen liefert. Am besten testet man dieses aus,

   indem man selbst einmal die X-Werte leicht variiert und in das be-

   rechnete Modell einsetzt.

.

.

Datenaufbau fuer eine multiple Regressionsanalyse

.

- Sie benoetigen eine  Z i e l variable  (abhaengige Variable)

  und eine oder mehrere  E i n f l u s s variablen (unabhaengige

  Variablen).

.

- Falls Sie genuegend Daten haben, koennen Sie diese in eine Lern- und

  eine Arbeitsstichprobe teilen. Die Schaetzung des Vorhersagefehlers

  wird so sicherer. Dafuer benoetigen Sie jedoch eine zusaetzliche

  G r u p p i e r u n g s variable,  die einen Wert >0 und <256, z.B. 1

  fuer alle Datenpunkte der Lernstichprobe aufweist, und den Wert =0

  fuer die Arbeitsstichprobe, an der die Regression getestet wird.

.

  "Trennung der Daten in Lern- und Arbeitsstichprobe" und "Berechnung

  der Zielgroesse fuer extra Datenpunkte" schliessen sich aus.

.

- Falls sie die Zielgroessenwerte fuer "extra Datenpunkte" vorhersagen

  wollen, an denen die Zielgroesse nicht bekannt ist, dann benoetigen Sie

  ebenfalls die  G r u p p i e r u n g s v a r i a b l e .  Sie muss fuer

  die "extra Datenpunkte" den Wert 0 aufweisen. Der Wert der Zielgroesse

  fuer die "extra Datenpunkte" ist beliebig (z.B. Null), darf aber kein

  Ausfall sein. Bei den Lerndaten muss der Wert der Gruppierungsvariablen

  zwischen 1 und 255 liegen.

.

- Bei gewichteter Regression benoetigen Sie eine  G e w i c h t s -

  variable. Gewichte sind Zahlen Gi>=0.001 und Gi<1000. Fuer extra

  Datensaetze bzw. fuer Arbeitsdatensaetze darf Gi=0 sein.

.

Der Ablauf einer Regressionsanalyse:

.

- Uebernahme der ausgewaehlten "originalen" X- und der Y-Variablen

  und eventuell einer Gruppierungsvariablen

- Wenn verlangt, dann Ausfuehrung einer programmierten lokalen Merkmals-

  transformation in "sekundaere" Variablen

- Wenn verlangt, dann Anwendung eines "Polynomialen Standardmodells"

- Ausblenden aller Datenpunkte y, x1, x2,..., xp mit Ausfaellen

- Bei Vorhersage zufaellige Gruppenbildung der Datenpunkte

- Berechnen der Kovarianzmatrix und daraus Berechnung der Koeffizienten

- Bestimmung der Reststreung, bei vorhandener Arbeitsstichprobe auch

  die Bestimmung der Reststreuung der Arbeitsstichprobe

- Bei Vorhersage Berechnung des Prognosefehlers

- Ausgabe der Ergebnisse (Koeffizienten, statistische Kennzahlen)

- Ausgabe der Erwartungswerte der Zielgroesse als neue Variable

.

.

Die lokale Merkmalstransformation ist Optional und erfordert ein Trans-

formationsprogramm *.trr, das im Programmteil "Transformationen" erstellt

und auf formale Richtigkeit getestet wird. Fehler, die erst zur Laufzeit

des Programms auftreten, koennen nur hier in der Regressionsanalyse er-

kannt werden. Die berechneten Merkmale sind lokal, d.h. sie werden nach

Ausfuehrung der Regressionsanalyse sofort wieder "vergessen". Sie koennen

die X-Variablen und/oder die Y-Variable transformieren und die Anzahl der

X-Variablen verringern, belassen oder erhoehen.

.

.

Polynomiale Standardmodelle sind:

.

- Einfach Polynomial: Zu jedem im Modell vorhandenen X-Mermal wird bei

  Polynomgrad PG=2 ein X*X-Merkmal zusaetzlich erzeugt, bei

  Polynomgrad PG=3 ein Merkmalspaar X*X und X*X*X zusaetzlich erzeugt

  usw.

.

- Vollstaendig Polynomial: Wie einfach Polynomial, aber zusaetzlich

  noch alle Produkte der vorhanden X-Merkmale, z.B. bei

  PG=2 und X1,X2 entstehen zusaetzlich  X1*X1, X2*X2, X1*X2,    bei

  PG=3 und X1,X2 entstehen zusaetzlich  X1*X1, X1*X1*X1, X2*X2, X2*X2*X2,

       X1*X2, X1*X1*X2, X1*X2*X2

.

  Das einfach polynomiale Standardmodell ist auf PG=2,3,4,5  beschraenkt

  Das vollstaendige Polynomiale Modell ist auf PG=2,3 beschraenkt.

.

  Uebersteigt die erzeugte gesamte Merkmalszahl die Beschraenkungen von

  DASY (maximal 95 X-Merkmale), dann wird das Modell abgelehnt.

.

  Immer das zuletzt angegebene Polynomiale Modell gilt. Haben Sie ver-

  sehentlich ein polynomiales Modell gewaehlt, koennen sie es durch die

  Eingabe einer 0 als Polynomgrad wieder entfernen.

.

.

Alle Zahlen, deren Betrag groesser als 10^12 ist, werden als Ausfaelle

betrachtet. Das gilt sowohl fuer die originalen Ausfaelle (intern -1E25)

als auch fuer Daten, die erst durch die Transformation oder durch das

polynomiale Standardmodell erzeugt wurden.

.

.

Die Schaetzung des Vorhersagefehlers erfordert eine mehrfache Berechnung

der Regressionskoeffizienten. Die Datenpunkte werden zufaellig in moeg-

lichst gleich grosse Gruppen unterteilt. Es wird 10-mal die Regression

berechnet, wobei immer eine der Gruppen nicht zur Berechnung der Koeffi-

zienten benutzt wird, aber zur Fehlerschaetzung der Prognose

(Jack-knife-Methode). Bei der CWA-Regression ist diese Methode inbe-

griffen, da die optimale Iterationszahl ueber den minimalen Vorhersage-

fehler bestimmt wird.

.

.

Eine erfolgreiche Regressionsanalyse liefert neben den Regressionskoeffi-

zienten und statistischen Kennzahlen ein neues metrisches Merkmal.

Hat die Zielgroesse Y die Merkmalsbezeichnung "abc", dann heisst das neue

Merkmal "mr1ABC", wenn Y mit dem CWA-Algorithmus (Alg. 1) berechnet wurde.

Entsprechend Aufbau=2, Abbau=3, Alle=3 heisst das neue Mermal mr2ABC,

mr3ABC bzw. mr4ABC.

.

Das neue Merkmal mr#ABC enthaelt die Erwartungswerte fuer Y an den

Stellen, die durch die Einflussgroessen X1,X2,...,Xp vorgegeben

werden. Faellt einer der x-Werte oder der Zielgroessenwert aus, dann

enthaelt das neue Merkmal fuer diesen Datenpunkt den Ausfallwert

(intern -1e25).

.

.

Druckbilderklaerung der Regression

.

Regress-Dr: In der Ausgabe der multiplen Regression bedeutet

.

Y            Das Zielgroessenmerkmal

Xj           Ein Einflussgroessenmerkmal (j = 1, 2, 3,...)

N            Auswertbare Punktzahl (Datensaetze ohne Ausfall)

.

B            Multiples Bestimmtheitsmass (multiples r-Quadrat)

F-Wert       F-Testwert Nullhypothese Ho:B=0 (Kein modellmaessiger

             Zusammenhang zwischen Y und den Xj nachweisbar)

FG           FG=N-K, Freiheitsgrad der Reststreuung

KIW(B)       Die Irrtumswahrscheinlichkeit bei einseitigem Test fuer

             die Ablehnung der Nullhypothese Ho:B=0 (HA:B>0)

.

Koeffizient  Der Zahlenwert des Regressions-Koeffizienten

Stdabw.      Die geschaetzte Standardabweichung des Koeffizienten,

T-Wert       t-verteilte Pruefgroesse zum Test der Nullhypothese

             Ho:bj=0 (Koeffizient in der Grundgesamtheit Null?)

KIW          Irrtumswahrscheinlichkeit bei zweiseitigem Test fuer

             die Ablehnung der Nullhypothese Ho:bj=0 (HA:bj<>0)

.

Sr           Reststreuung oder mittleres Residuum

Sj           Prognosefehler/Vorhersagefehler nach Jackknife-Methode

Sw           Prognosefehler/Vorhersagefehler mit Arbeitsstichprobe

                           - - -

.

Startmenue der multiplen linearen und quasilinearen Regression

.

Abbruch      Sie wollen zurueck ins Hauptmenue

Hilfe        Sie wollen sich ueber multiple Regression informieren

.

CWA          CWA-Regression (sehr oft optimal fuer Prognose)

Auf          Schrittweiser Aufbau (Merkmalsauswahl und Prognose)

Abb          Schrittweiser Abbau (Merkmalsauswahl und Prognose)

All          Regression mit allen Einflussgroessen (Datenkompression)

.

Konstante    Mit oder ohne Regressionskonstante bo im Modell

Alpha        Festlegung des multiplen Signifikanzniveaus (0.05 / 0.01)

Bonferroni   Alpha-Adjustierung nach Bonferroni bei Auf- oder Abbau

.

O.K.         Weiter im Menue

                           - - -

.

Fortsetzung Menue der multiplen linearen und quasilinearen Regression

.

Abbruch         Sie wollen zurueck ins Hauptmenue

Hilfe           Sie wollen sich ueber multiple Regression informieren

.

Y               Sie wollen die Zielgroesse Y auswaehlen

X..X            Sie wollen die Einflussgroesse(n) X auswaehlen

G               Sie haben eine Gewichtsvariable (optional)

.

Trafo           Lokale frei programmierbare Transformation anwenden?

Einfach Pol.    Einfaches Polynomiales Standardmodell anwenden? PG=2-5

Vollst. Pol.    Vollstaendiges Polynomiales Standardmodell? PG=2,3

.

Jack-knife      Vorhersagefehler bei Auf/Abbau mit Jack-knife schaetzen?

Working sample  Vorhersagefehler an einer Arbeitsstichprobe schaetzen?

Prognose        Vorhersage fuer extra Daten berechnen lassen?

.

O.K.            Ausfuehren der Regressionsanalyse

                           - - -

.

Beispiel einer multiplen quasilinearen Regression mit den Testdaten

.

Hier ein Ausschnitt der Testdaten:

.

  Aufz1       Aufz2      Quad       Wurz     .....    iRand1     iRand2

 1.000E+00  1.017E+00  1.034E+00  1.008E+00  .....  -1.000E+25  1.000E+00

 2.000E+00  2.042E+00  4.168E+00  1.429E+00  .....   1.000E+00  1.000E+00

 ........................................................................

 ........................................................................

 4.900E+01  4.904E+01  2.405E+03  7.003E+00  .....   1.000E+00  1.000E+00

 5.000E+01  4.996E+01  2.496E+03  7.068E+00  .....           0          0

.

Zielgroesse Quad (das Quadrat von Aufz2) soll durch durch die Einfluss-

groessen Aufz1, Wurz und iRand1 geschaetzt werden. In einer Trafo wird

zusaetzlich das Merkmal ln(Aufz2) erzeugt. Die originalen Merkmale Y und

X sind:

.

         Y  = Quad,  X1 = Aufz1,  X2 = Wurz,  X3 = iRand1

.

Nach der Transformation:

.

         Y  = Quad,  X1 = Aufz1,  X2 = Wurz,  X3 = iRand1,  X4=lnAufz

.

Nach dem Aufbau des vollstaendigen polynomialen Modells 2-ten Grades:

.

         Y  = Quad,  X1 = Aufz1,  X2 = Wurz,  X3 = iRand1,  X4=lnAufz,

                     X5 = X1*X1,  X6 = X2*X2, X7 = X3*X3,   X8=X4*X4,

                     X9 = X1*X2,  X10= X1*X3, X11= X1*X4,

                                  X12= X2*X3, X13= X2*X4,

                                              X14= X3*X4

.

Das Transformationsprogramm muessen Sie im Menuepunkt Trafo --> freie

Transformation editieren und compilieren. Der Programmname ist frei

waehlbar, 3/4 des Textes wird automatisch erzeugt. Fuer dieses Beispiel

lautet das Programm:

.

==========================================================================

    Erwin$$$.trr(N,i,M,Q,S,ANZ,Y,p,X,Grup,Gew)

    var M(20), Q(20), S(20), ANZ(20), X(100)

.

    { N   = Zahl der Datenzeilen in der Datenbasis                       }

    { i   = Nummer der aktuelle Datenzeile                               }

    { M   = Datenzeile mit Merkmalswerten aus der Datenbasis             }

    { Q   = Vektor mit den Mittelwerten der belegten Merkmale            }

    { S   = Vektor mit den Standardabweichungen der belegten Merkmale    }

    { ANZ = Vektor mit den Werteanzahlen der belegten Merkmale           }

    { Y   = Wert der Zielgroesse ( Default: Originale Zielgroesse )      }

    { p   = Anzahl der berechneten Einflussgroessen X(1), X(2), ..., X(p)}

    { X   = Vektor der Einflussgroessen X(1), X(2),... Default: Ausfall  }

    {       Ist vorbelegt mit den originalen Einflussgroessen            }

    { Grup= Wert der Gruppierungsvariable ( Default: Orig. GrV. oder 1 ) }

    { Gew = Wert der Gewichtsvariablen ( Default: Originale GewV. oder 1)}

.

    { Bei freien Merkmalen sind die betreffenden Elemente der Vektoren   }

    { M, Q, S, ANZ mit Ausfaellen belegt. X ist beim Aufruf vollstaendig }

    { mit Ausfaellen belegt. Die Werte sind zu berechnen und p zu setzen }

.

    { Ende des vorgefertigten Programmkopfes                             }

.

    assign Aufz2=2  { Merkmal M(2) als lokale Groesse "Aufz2" verfuegbar

    x(4)=ln(Aufz2)  { berechnet das neue Merkmal X4 mit Funktion Logarith.

    p=4             { meldet, dass insgesamt 4 Einflussgroessen existieren

    writeln(i,Aufz2,x(4))  { Kontrollausgabe waehrend der Transformation

    end

==========================================================================

.

Wirklich neu zu programmieren sind hier nur die letzten 5 Zeilen. Alles

davor ist ein vorgefertigter Programmkopf, der von DASY bereit gestellt

wird und auch nicht veraendert werden kann.

.

Auch wenn im Transformationsprogramm das Y-Merkmal rechnerisch erzeugt

wird, muss trotzdem beim Aufruf der Regression ein (beliebiges) Merkmal

als Y-Merkmal gewaehlt werden. Werden alle X-Merkmale berechnet, so muss

beim Aufruf der Regression ebenfalls ein (beliebiges) Merkmal als X-Merk-

mal gewaelt werden. (Dummy-Variable)

.

Wird in der Transformation die Variable GEW berechnet, dann wird diese

Gewichtung automatisch benutzt, auch wenn keine Gewichtsvariable in der

Datenbasis beim Aufruf der Regression ausgewaehlt wurde, d.h. hier ist

keine Dummy-Variable notwendig.

.

Wird die Variable GRUP in der Transformation berechnet, wird sie auto-

matisch als Gruppierungsvariable fuer den Menuepunkt WORKING SAMPLE inter-

pretiert (keine Dummy-Variable noetig). Will man sie jedoch zur Kenn-

zeichnung von Extradaten benutzen, muss beim Aufruf der Regression der

Menuepunkt PROGNOSE FUER EXTRADATEN angeklickt und ein (beliebiges) Merk-

mal als Gruppierungsvariable gewaehlt werden (Dummy-Variable).

.

.

Einfach-VA  Einfache Varianzanalyse mit Mittelwertvergleich

.

Die Varianzanalyse ist eine statistische Methode zur Beurteilung gruppier-

ter metrischer oder ranggeordneter Daten. Die Gruppierung erfolgt mit

Hilfe eines kategorialen oder nominalen Merkmals. Das Gruppierungsmerkmal

wird in der Literatur auch "Faktor" genannt. Seine Werte werden als

"Faktorstufen" bezeichnet und im Computer als ganze Zahlen behandelt

(kategoriales Merkmal). Die Werte des metrischen Merkmals zu einer Faktor-

stufe bilden eine Gruppe.

.

Die Literatur (EISENHART) unterscheidet zwei Modelle der Varianzanalyse:

.

Modell 1: Die Gruppierung der Daten ist durch den Versuchsplan vorgegeben.

Wir sprechen von einem "festen Modell". Hier interessiert vor allem, ob

Mittelwertunterschiede zwischen den Datengruppen statistisch gesichert

sind. Beispiel: Reissfestigkeit eines textilen Gewebes [N/m] nach

14-taegiger Exposition mit UVB-Bestrahlung in Abhaengigkeit von einer

Oberflaechenbeschichtung. Zielgroesse ist die Reissfestigkeit, Faktor

die Beschichtung mit den Stufen 1="unbeschichtet", 2="8 g Al/qm",

3="12 g TiO2/qm".

.

Modell 2: Die Gruppierung wird beobachtet, ist also zufaellig. Wir

sprechen vom "zufaelligen Modell". Hier interessiert, ob die Werte der

Zielgroesse innerhalb der Gruppen staerker oder schwaecher streuen, als

die Gruppenmittelwerte untereinander. Beispiel: Eine Herde Kuehe wird in

Gruppen eingeteilt. Gruppierungsmerkmal ist der Vater. Kuehe vom gleichen

Vater bilden eine Gruppe. Faktor ist Merkmal "Vater" mit den Stufen

1="Anton", 2="Bogumil", 3=... Zielgroesse ist die Jahresmilchleistung,

die eine Kuh bringt. Streuen diese Werte in den Gruppen weniger, als die

Mittelwerte zwischen den Gruppen, dann vermutet man einen genetischen

Einfluss des Vaters auf die Milchleistung durch Vererbung eines "Milch-

leistungsgens".

.

Ein Sonderfall ist der "Mittelwertvergleich korrelierter Gruppen".

Beispiel: Eine Patientengruppe wird vor und nach einer 14-taegigen Kur

untersucht und dabei der Blutdruck bestimmt. Frage: Gab es eine Ver-

aenderung des Gruppenmittels. Rechnet man nach Modell 1, dann ueber-

decken die grossen Unterschiede von Patient zu Patient die kleinen

Veraenderungen des Gruppenmittels. Wir haetten kaum eine Chance, die

Veraenderung statistisch zu sichern. Testet man jedoch den Mittelwert

der Einzeldifferenzen gegen Null, dann fallen die Patientenunterschiede

heraus und die eigentliche Veraenderung des Blutdrucks auf Grund der Kur

treten hervor.

.

Globaler Test: Ist die mittlere Varianz zwischen den Gruppen signifikant

groesser als die mittlere Varianz innerhalb der Gruppen, d.h. gibt es

einen signifikanten Einfluss des Faktors bzw. signifikante Unterschiede

in den Gruppenmitteln? Die Formeln werden hier nur kurz angedeutet:

.

   Xges   = Mittelwert aller n beteiligten x-Werte (metrisches Merkmal)

   Xi     = Mittelwert der x-Werte aus Gruppe i,   i=1,..g,  g=Gruppenzahl

.

   SAQges = Summe der Abweichungsquadrate der x-Werte von Xges

   SAQinn = Summe der Abw.quadrate innerhalb der Gruppen, d.h. ueber alle

            g Gruppen die Abw.quadrate der x von ihrem zustaendigen Xi

   SAQzwi = SAQges-SAQinn, die Summe der Abw.quadrate zwischen den Gruppen

.

   MQzwi  = SAQzwi/FGzwi   Mittleres Quadrat mit Freiheitsgrad FGzwi=g-1

   MQinn  = SAQinn/FGinn   Mittleres Quadrat mit Freiheitsgrad FGinn=n-g

.

   Fgl    = MQzw/MQinn   globaler Fwert mit Freiheitsgraden (FGzwi, FGinn)

.

   KIWgl  = Kritische Irrtumswahrscheinlichkeit, d.h. die Wahrscheinlich-

            keit, dass dieser oder groessere Fwerte auftreten koennen

            unter der Nullhypothese (kein Einfluss des Faktors). Der Wert

            wird mit der vorgegebenen Irrtumswahrscheinlichkeit Alpha ver-

            glichen (einseitiger F-Test, da ein negativer Faktoreffekt

            ohne Natur- oder Datenmanipulation nicht moeglich ist).

.

Der Mittelwertvergleich erfolgt paarweise, jedes Xi mit jedem Xj, d.h. es

werden h=g(g-1)/2 Einzelhypothesen getestet. Der Einzeltest erfolgt mit

.

   Fij = ((Xi-Xj)^2 n1 n2) / (MQinn (n1 + n2))  Einzel-Fwert mit den Frei-

                                                heitsgraden (1, FGinn)

   KIWij=   Kritische Irrtumswahrscheinlichkeit. Sie wird mit Alpha' ver-

            glichen (entspricht in dieser Konstellation dem zweiseitigen

            t-Test). Alpha' ist das adjustierte Alpha aus Holms Prozedur.

.

Holm's Prozedur sichert, dass die vorgegebene Irrtumswahrscheinlichkeit

Alpha fuer die Gesamtheit aller geprueften Hypothesen gilt. Je mehr Hypo-

thesen h, desto schaerfer der einzelen Test. Die Fij werden nach der

Groesse absteigend sortiert: F1, F2, ... Fh. Das KIW1 wird mit

Alpa'=Alpa/h verglichen, KIW2 mit Alpa'=Alpha/(h-1), KIW3 mit

Alpha'=Alpha/(h-2) usw. Sobald ein Vergleich nicht signifikant ausfaellt,

bricht Holms Prozedur ab. Alle weiteren Vergleiche sind ebenfalls nicht

signifikant.

.

Ein Sonderfall: Nach PERLI kann man den ersten Test (Maximales F=F1) auch

durch den globalen Test ersetzen. Zeigt der globale F-Test einen signifi-

kanten Faktoreinfluss an, dann wird der am hoechsten bewertete Mittelwert-

unterschied ebenfalls als signifikant erachtet, auch wenn Holms Prozedur

ihn verwerfen sollte. DASY meldet mit den Kuerzeln "gl"=globaler F-Test

bzw. "ei"=Einzel-F-Test, wie die Signifikanz des groessten Mittelwert-

unterschieds ermittelt wurde.

.

.

Datenanordnung der Messwerte und Faktoren beim Mittelwertvergleich und VA

.

Modell 1 und 2 : Wir benoetigen ein metrisches Zielmerkmal und ein

                 kategoriales Gruppierungsmerkmal (Faktor). Es werden

                 maximal 20 Faktorstufen verarbeitet. Sind es mehr,

                 werden die restlichen Faktorstufen bergangen.

.

korrel. Gruppen: Wir benoetigen 2 oder mehr gleichartige metrische

                 Merkmale. Jedes Merkmal entspricht einer Faktorstufe

                 (z.B. "Blutdruck vor der Kur", "Blutdruck nach der Kur")

.

.

Dr-Mittelwertvergleich: Im Druck zum Mittelwertvergleich bedeutet:

.

Mittel     Arithmetischer Mittelwert

Anzahl     Anzahl der im Mittelwert summierten Einzelwerte

Gruppe/Kat Gruppe bzw. Kategorie, d.h. die Faktorstufe

F-Wert     Testgroesse F-verteilt mit FG1=1, FG2=n-g Freiheitsgraden

           Ni, Nj sind die Gruppenumfaenge der verglichenen Gruppen

           "gl" nach dem 1. F-Wert bedeutet "globaler F-Wert" be-

           nutzt, "ei" bedeutet Einzel-F-Wert benutzt.

KIW        Kritische Irrtumswahrscheinlichkeit zum F-Wert

           Vergleich erfolgt nach Holms Prozedur mit Alpha'

Signif.    Signifikanzniveau entsprechend >5%, <=5%, <=1%, <=0.1%

                           - - -

Dr-korr-Mittelwertvergleich: In der Ausgabe bedeutet:

.

Gesamtanzahl Alle Werte aller beteiligten Merkmale

mittel-1     Mittelwert des links  aufgefuehrten Merkmals (Gruppe)

mittel-2     Mittelwert des rechts aufgefuehrten Merkmals (Gruppe)

k            Zahl der gueltigen Wertepaare (ohne Ausfaelle)

F-Wert       Testgroesse F-verteilt mit FG1=1, FG2=k-1

             "gl" nach dem 1. F-Wert bedeutet "globaler F-Wert"

             "ei" bedeutet

KIW          Kritische Irrtumswahrscheinlichkeit zum F-Wert

Signif.      Signifikanzniveau entsprechend >5%, <=5%, <=1%, <=0.1%

                           - - -

Dr-einf-VA: In der Ausgabe der einfachen Varianzanalyse bedeutet:

.

Mittel        Arithmetischer Mittelwert

Anzahl        Anzahl der im Mittelwert summierten Einzelwerte

Gruppe/Kat    Gruppe bzw. Kategorie, d.h. die Faktorstufe

SAQ zwischen  Summe der Abweichungsquadrate zwischen den Gruppen

              (Faktorstufen) mit FG=g-1. g=Gruppenzahl

SAQ innerhalb Summe der Abweichungsquadrate innerhalb aller Gruppen

              mit FG=N-g. N=Gesamtzahl aller Werte

SAQ gesamt    Summe der Abweichungsquadrate aller Werte vom

              Gesamtmittel mit FG=N-1

MQ            Mittleres Abweichungsquadrat, d.h. MQ=SAQ/FG

Fwert         Testgroesse testet MQzwischen>MQinnerhalb (signifikante

              Gruppenunterschiede?) mit FG1=g-1, FG2=N-g

KIW           Kritische Irrtumswahrscheinlichkeit zu F-Wert

Signif.       Signifikanzniveau entsprechend >5%,<=5%,<=1%,<=0.1%

                           - - -

.

.

Menue des Mittelwertvergleichs und der Varianzanalyse

.

Abbruch

Hilfe

.

Mittelwertvergleich unkorrelierter normalverteilter Grundgesamtheiten

.

Mittelwertvergleich   korrelierter normalverteilter Grundgesamtheiten

.

Einfaktorielle Varianzanalyse

                           - - -

.

Menue VA-Boxplots

.

Abbruch      Sie wollen die Boxplots nicht sehen

Hilfe        Sie wollen sich informieren

.

Feinplot     Feinlinige Graphik bis 20 Boxplots

Dickplot     Groblinige Graphik bis 10 Boxplots

.

O.K.         Sie wollen die Boxplots jetzt sehen

                           - - -

.

Die Boxplot-Graphik erscheint nur beim Mittelwertvergleich unkorre-

lierter Gruppen. Sie zeigt die Gruppen gemaess der Faktorwerte

(maximal 20) und ihre gegenseitige Lage. Faktorwert 3 wird als FW3.00

vor den Boxplot gesetzt. Bei Faktorwerten>9999 fehlt das "FW". Bei

Faktorwerten >999999 wird die Gruppennummer, z.B. GR0003 ausgegeben.

Faktorwerte, die sich nur in kleineren Nachkommastellen unterscheiden,

sollte der Anwender vermeiden, den Faktorwerte 2.777 und 2.778 erschei-

nen beide als FW2.78 in der Graphik.

.

Die Boxplots bestehen aus dem Korpos (links das 25%, rechts das 75%-

Quantil, geteilt durch den Median). Whiskers links (10%), rechts 90%-

Quantil. Minimum und Maximum als "o". Das Gruppenmittel ist eine Raute.

Ist der Gruppenumfang <5, erscheinen nur die Einzelwerte als "o".

.

.

Auswahlmenue Cluster-/Diskriminanzanalyse

.

Abbruch      Sie wollen zurueck ins Hauptmenue

Hilfe        Sie wollen sich informieren

.

Cluster      Sie wollen die Clusteranalyse durchfuehren

Diskrimi     Sie wollen die Diskriminanzanalyse durchfuehren

                           - - -

.

Die Clusteranalyse benutzen Sie, wenn Sie noch keinerlei Klassenein-

teilung fuer Ihre Daten haben. Die von der Clusteranalyse gefundene

Klassenstruktur ist spekulativ und muss mit fachbezogenen Untersuch-

ungen bestaetigt oder verworfen werden.

.

Die Diskriminanzanalyse nehmen Sie, wenn bereits klassifizierte Objekte

vorliegen und Sie

.

- neue Objekte klassifizieren wollen

- effektive Klassifikationsmerkmale finden wollen

- den Klassifikationsfehler schaetzen wollen

- multiple Mittelwertvergleiche durchfuehren wollen

.

.

Clusteranalyse

.

Der Begriff Clusteranalyse wurde 1939 von Tryon gepraegt.

.

Die Clusteranalyse hat die Aufgabe, in bislang unstrukturierten Daten

Cluster (Klassen) zu erkennen. Jeder Datenzeile (Objekt) wird somit eine

Klassennummer zugeordnet und in einem neuen Merkmal abgespeichert.

.

Die Clusteranalyse ist eine Basismethode der Klassifikation, wenn man

nichts ueber die Klassenstruktur der Daten weiss. Die Diskriminanz-

analyse, die DASY auch anbietet, ist im Anschluss an eine Clusteranalyse

nuetzlich zur graphischen Darstellung und zum Test der gefundenen

Klassenstruktur.

.

Das Ergebnis der Clusteranalyse ist entweder eine eindeutige Zuordnung

der Objekte zu Klassen (Clustern) oder eine Wahrscheinlichkeitsangabe

fuer die Klassenzuordnung (EM-Algorithm). DASY liefert nur die Klassen-

zuordnung mit der hoechsten Wahrscheinlichkeit.

.

Hat die Clusteranalyse eine Klassifikation der Daten vorgenommen, dann

kann die Diskriminanzanalyse auch die besten Trennvariablen suchen.

.

.

Literatur: Hans-Joachim Mucha, "Clusteranalyse mit Mikrocomputern",

Akademieverlag Berlin 1992.

.

Aus diesem Buch stammen auch die Testdaten "Diday.dat" von E. Diday.

.

   Nr R SG Arb Weg Hau Kin Ein Pfl Ess Sch TV  Fre

   01 1 1  610 140  60  10 120  95 115 760 175 315

   02 1 2  475  90 250  30 140 120 100 775 115 305

   ...............................................

   28 4 7  434  86 297  21 129 102  94 799  58 380

.

Diese Daten stammen von 4x7 Personen aus den Regionen R=1=USA, R=2=West-

europa, R=3=Jugoslawien und R=4=Osteuropa. Die 10 Merkmale sind Zeitauf-

wendungen in Stunden*100 fuer

.

   1. Arbeit,        2. Arbeitsweg,       3, Haushalt,

   4. Kinder,        5. Einkauf,          6. persnliche Pflege,

   7. Mahlzeiten,    8. Schlaf,           9. Fernsehen,

   10. Freizeit

.

Die 7 sozialen Gruppen sind

.

   SG=1 Berufstaetige Maenner      SG=2 Berufstaetige Frauen

   SG=3 Nichtberufstaetige Frauen  SG=4 verheiratete Maenner

   SG=5 verheiratete Frauen        SG=6 unverheiratete Frauen

   SG=6 unverheiratete Frauen

.

Der Autor von DASY war 1983-1991 Teamkollege von Hans-Joachim Mucha am

Karl-Weierstrass Institut zu Berlin, und hat viel von dieser Zusammen-

arbeit profitiert. Hans-Joachim Mucha sei hier besonders gedankt fuer

seine damalige Unterstuetzung und die zahlreichen Diskussionen zur

Clusteranalyse.

.

"Data Mining" ist eine Methodensammlung zur Identifikation von Mustern.

Hierunter fallen u. a. die Methoden:

.

   Assoziationsanalyse (siehe Chi-Quadrat-Zerlegung nach LANCASTER)

   Sequenzmusteranalyse (teilweise mit der KFA moeglich)

   C l u s t e r analyse

   R e g r e s s i o n s verfahren (siehe einfache und multiple Regr.)

   Graphentheoretische Methoden

   Entscheidungsbaeume

.

.

Beispiele Klassifikation:

.

Klassifikation der Daten eines Microarrays ueber die Konzentrationen der

Additive und der Leuchtreaktion

.

Klassifikation von Schneckenpopulationen in Badischen Weinbergen

z.B. nach den Merkmalen Farbe, Groesse, Windungszahl.

.

Entdeckung der Weissen Zwerge und Roten Riesen durch Hertzsprung und

Russel, als sie den Logarithmus der Helligkeit und den Logarithmus der

Temperatur von Sternen als Plottvariablen benutzten.

.

.

Startmenue der Clusteranalyse

.

Abbruch    Sie haben es sich anders ueberlegt

Hilfe      Sie wollen sich informieren

.

Ranking    Sie wollen ein Ranking der Clustermerkmale

Kein Rank  Sie wollen kein Ranking der Clustermerkmale

.

O.K.       Sie wollen in der Clusteranalyse fortfahren

                           - - -

.

Das Merkmalsranking geht auf eine Untersuchung von A. von Eye, H.-J.

Mucha und S. von Weber aus dem Jahre 2005/2006 zurueck. Merkmale, die

einen hohen Rang erhalten, werden bei der Berechnung des Mahalanobis-

abstands hoeher gewichtet. In vielen Beispielen ergab sich eine bessere

Klassifikation.

.

Bei wenigen, sehr guten Clustermerkmalen arbeitet man ohne Ranking.

Empfehlung: Ab 8-10 Merkmale das Ranking einsetzen.

.

 

Fortsetzung Menue der Clusteranalyse

.

Abbruch         Sie wollen zurueck ins Hauptmenue

Hilfe           Sie wollen sich ueber die Clusteranalyse informieren

.

M...M           Sie wollen die Merkmale fuer die Clusterung auswaehlen

.

.

Trafo           Lokale frei programmierbare Transformation anwenden?

Einfach Pol.    Einfaches Polynomiales Standardmodell anwenden? PG=2-5

Vollst. Pol.    Vollstaendiges Polynomiales Standardmodell? PG=2,3

.

Linkage         Linkage zwischen Single und Complete Linkage einstellen

Kernobjekte     Kernobjekte der Klassen nach Methode 1, 2, 3 waehlen

Klassen         Vorgabe der Klassenzahl fuer das Linkage

.

O.K.            Ausfuehren der Clusteranalyse

                           - - -

.

Die Parameter im Menue bedeuten:

.

M..M    sind die Clustermerkmale, die die Klassentrennung bewerkstelligen

        sollen. Ihr Informationsgehalt ist entscheidend fuer die Guete

        der Clusterung.

.

Trafo   Sie haben die Moeglichkeit, durch ein kleines Programm neue

        Clustermerkmale aus den vorhandenen zu berechnen oder die

        vorhandenen zu transformieren. Diese Merkmalstransformation

        ist temporaer, d.h. diese Merkmale werden nicht gespeichert.

        Siehe unten "interner Ablauf". Weitere Hinweise zum Transfor-

        mationsprogramm entnehmen Sie der Beschreibung der Diskriminanz-

        analyse und dem Kapitel "freie Transformation".

.

Pol.    Einfach polynomiales Standardmodell erzeugt die Potenzen zu den

        vorhandenen Merkmalen, maximal bis zur 5. Potenz. Das voll-

        staendig polynomiale Modell erzeugt auch alle Produkte bis zur

        3. Potenz. Die Gesamtzahl der Merkmale darf jedoch 60 nicht

        ueberschreiten (einfach ausprobieren).

.

Link    Der Parameter Linkage hat Werte von 10 - 30 und steuert die

        Anwendung und Mischung der 3 Linkage-Methoden Single Linkage=10,

        Zentroid-Methode=20 und Complete Linkage=30. Default ist

        Linkage=20, d.h. die reine Zentroidmethode.

.

Kernob. Methode 1: Das mittelste Objekt der Auswahl, dann das Objekt mit

        dem weitesten Abstand von der Mitte, dann das Objekt mit dem

        weitesten Abstand zu den beiden schon ausgewaehlten Objekten usw.

.

        Methode 2: Wie Methode 1, aber ohne das mittelste Objekt.

.

        Methode 3: Es wird eine maximal 5-dimensionale Dichtelandschaft

        aufgebaut aus den ersten Merkmalen. In dieser Dichtelandschaft

        wird das Objekt unter dem hoechsten Maximum als erstes Kernobjekt

        genommen. Die weiteren Kernobjekte werden wie bei Methode 1

        bestimmt.

.

        Im Anschluss an Methode 1-3 erfolgt noch ein Austausch-

        verfahren, bei dem Die Distanzsumme der Kernobjekte

        maximiert wird.

.

Klass   Der Parameter Klassen erlaubt, eine Vorgabe zur Klassenzahl

        zu machen. Default ist k=5. Im Diskriminationsteil der

        Clusteranalyse koennen Sie graphische interaktiv die Klassen-

        zahl aendern, indem Sie Klassen vereinen oder teilen. Geben

        Sie lieber ein paar Klassen zu viel an und reduzieren Sie dann

        auf die gewuenschte Zahl.

.

.

Der interne Ablauf der Clusteranalyse:

.

1. Dateneingabe aus der Datenbasis. Durchfhrung einer eventuellen

   lokalen Merkmalstransformation *.trr.

 

   Die lokale Merkmalstransformation ist optional und erfordert ein

   Transformationsprogramm *.trr, das im Programmteil "Transformationen"

   erstellt und auf formale Richtigkeit getestet wird. Fehler, die erst

   zur Laufzeit des Programms auftreten, koennen nur hier in der Cluster-

   analyse erkannt werden (ein Beispiel siehe Diskriminanzanalyse).

.

   Die berechneten Merkmale sind lokal, d.h. sie werden nach

   Ausfuehrung der Clusteranalyse sofort wieder "vergessen". Sie

   koennen die X-Variablen transformieren und die Anzahl der X-Variablen

   verringern, belassen oder erhoehen.

.

   Im Gegensatz zur Regressions- und Diskriminanzanalyse gilt jedoch:

   - Es werden keine Y-Merkmalswerte benoetigt, und damit auch kein

     Y-Merkmal. Da die Regression und die Diskriminanzanalyse ein

     Y-Merkmal benoetigen, wird aus formalen Gruenden die Y-Variable

     intern mitgeschleppt und immer Null gesetzt, egal was Sie pro-

     grammieren (am besten, die Y-Berechnung einfach weglassen. Sie

     koennen dann exakt dasselbe *.trr-Programm fuer eine nachfolgende

     Diskriminanzanalyse unveraendert weiterverwenden).

   - Es gibt keine Gewichts- und keine Gruppierungsvariable. Beide Werte

     werden intern 1 gesetzt, egal, was Sie programmieren.

.

   Berechnung zusaetzlicher Merkmale nach einem polynomialen Modell,

   falls Sie ein solches angegeben haben. Maximal 60 Merkmale duerfen

   insgesamt entstehen.

.

2. Dieser Schritt wird nur bei "Rankingverfahren" durchgefuehrt.

   Ziehen einer Datenstichprobe bei zu vielen Daten.

   Bildung dichotomer Variabler. Binaere Variable bleiben unveraendert.

   Metrische Variable werden mit 2 Klassen dichotomisiert, wobei der

   Median die Klassengrenze bildet. Kategoriale Merkmale mit k Klassen

   muessen vom Anwender bereits im Vorfeld in k-1 binaere Merkmale umko-

   diert werden, z.B. Merkmal Farbe (1=Rot, 2=Gruen, 3=Blau) in z.B.

   Merkmal Rot (0=Nein, 1=Ja) und Merkmal Gruenblau (0=Gruen, 1=Blau).

.

3. Dieser Schritt wird nur bei "Ranking" durchgefuehrt.

   Bildung der Kontingenztafel und Rangordnung der Merkmale, die mit

   einem Informationsmass erfolgt. Das benutzte Informationsmass ist

   I=Summe( f*f * e*e ). Hierbei ist f die Zellfrequenz und e der Erwart-

   ungswert der Kontingenztafelzelle. Summiert wird ber alle Zellen.

.

4. Bildung der Korrelationsmatrix aller Merkmale, wobei jedoch die

   in Schritt 2 erhaltene Reihenfolge (Rangordnung) eingehalten wird.

   Es wird schrittweise die inverse Matrix berechnet und der Algorithmus

   gestoppt, wenn kein Diagonalelement>EPSILON mehr vorhanden ist bzw.

   wenn die gesamte Matrix invertiert ist.

   Die Menge der Clustermerkmale nach dem Rankingverfahren und der In-

   vertierung der Korrelationsmatrix ist die Menge der bei der nachfol-

   genden Diskrimination zugelassenen Merkmale.

.

 

5. Ziehen einer Datenstichprobe, wenn die Speicherkapazitaet ueber-

   schritten wird. Z-Transformation der Daten. Bei der Berechnung des

   Mahalanobisabstands zwischen zwei Objekten werden die Beitraege

   rangniedriger Merkmale heruntergewichtet (nur bei Rankingverfahren).

.

   Suche von Kernobjekten, die als Ausgangspunkte der Klassen dienen

   (Kondensationskeime). Default ist Methode 2. Im Anschluss an Methode

   1-3 erfolgt noch ein Austauschverfahren, bei dem Die Distanzsumme

   der Kernobjekte maximiert wird.

.

6. Bildung von k Clustern nach dem eingestellten Linkage-Verfahrensmix

   (siehe Linkage-Verfahren). Parameter k gibt die gewunschte Klassen-

   zahl vor (Default k=5) und jann in den Grenzen  2 - 20  vorgegeben

   werden.

.

7. Falls eine Stichprobe gezogen wurde, werden die ueberzaehligen Objekte

   den Clustern zugeordnet, zu denen sie den kleinsten Zentroid-Abstand

   haben.

.

8. Diskrimination, Zuordnung der "fehlklassifizierten" Objekte zu ihren

   "neuen" Klassen, Test auf Isoliertheit der Klassen und Fusion der am

   wenigsten isolierten beiden Klassen (F-Test). Schritt 8 wird solange

   wiederholt, bis entweder alle Klassen isoliert sind, oder der Anwender

   die Iteration abbricht. Die Variablenauswahl in der Diskriminanz-

   analyse wird mit Alpha=0.2 und die Teste auf Isoliertheit werden mit

   ALPHA=0.05 ausgefuehrt

.

   Die interaktive Arbeit mit der Graphik erlaubt:

   - Akzeptanz des Vorschlags von DASY zum Zusammenlegen von Klassen

   - Zusammenlegen zweier Klassen auf Anwenderwunsch hin

   - Aufteilen einer Klasse in zwei Klassen auf Anwenderwunsch hin

   - Zurueckgehen zu einer vorangegangenen Klasseneinteilung

   - Beenden der Iteration.

.

.

Nach der "flexiblen Strategie" von Lance und Williams besteht eine Stu-

fenleiter von Methoden, deren Ergebnisse von langestreckten, ausgefrans-

ten Clustern ueber kompaktere Cluster zu kugelfoermigen Clustern reichen.

.

.

1. Single Linkage (Linkage=10)

 

Ein Verfahren, bei dem ein Objekt einem Cluster zugeordnet wird, falls

das Distanzmass minimal ist zu einem Objekt dieses Clusters. Es ent-

stehen langgezogene Ketten bzw. ausgefranste Cluster (Sterne).

.

2. Zentroid-Methode (Schwerpunktmethode) (Linkage=20)

.

Bei euklidischem Abstandsmass kann man den Schwerpunkt (Zentroid) jeder

Klasse bilden. Ein neues Objekt wird dem Cluster zugeordnet, dessen Zen-

troid am naechsten liegt. Das Gewicht des Clusters geht nicht in diese

Auswahlregel ein. Man kann mit dieser Methode Klassen mit sehr unter-

schiedlicher Objektzahl aufdecken. Ein neues Objekt im Cluster kann

dessen Minimalabstand zu seinen Nachbarzentroiden verringern oder ver-

groessern.

.

Ward-Methode (Minimalvarianzmethode)

 

Die Ergebnisse der Ward-Methode sind denen der Zentroid-Methode aehnlich.

Bei euklidischem Abstandsmass kann man Schwerpunkt und Varianz jeder

Klasse bilden. Ein neues Objekt wird dem Cluster zugeordnet, dessen

Varianz am wenigsten ansteigt. DASY verwendet die Clustervarianz nicht.

.

3. Complete Linkage (Linkage=30)

.

Ein Verfahren, bei dem ein Objekt dem Cluster zugeordnet wird, dessen

maximaler klasseninterner Abstand seiner Objekte am wenigsten ansteigt.

Es werden kompakte Cluster gebildet. Ausreisser und natuerliche Fransen

werden garnicht oder sehr spaet in den Cluster eingebunden.

.

.

Der Parameter " L i n k a g e " kann Werte von 10 bis 30 annehmen, auch

Zwischenwerte. So bedeutet z.B. Linkage=13, dass 70% vom Abstand nach

"Single Linkage" und 30% vom Abstand nach "Zentroidmethode" addiert

werden, und so den Abstand fuer die Fusionsregel ergeben.

.

Linkage=26 bedeutet z.B., dass 40% des Zentroidmethodenabstands und

60% der Aenderung des Complete-Linkage-Abstands addiert werden.

.

Neben den agglomerativen Methoden gibt es noch partitionierende Cluster-

methoden. Diese werden in DASY jedoch durch die Diskriminanzanalyse

ersetzt.

.

.

Abstandsmasse und Klassifikation

.

Der Abstand zweier Objekte x-y ist ein wesentliches Kriterium fuer die

Einordnung in denselben Cluster.

.

Man benutzt sehr oft den Euklidischen Abstand, nachdem man die Merkmale

z-transformiert hat, d.h. auf Mittelwert 0 und Varianz 1.

.

Besser, aber etwas aufwendiger zu berechnen, ist das Quadrat des

Mahalanobisabstands

.

          d^2 = (x-y)' S^-1 (x-y).

.

Dabei sind x dbzw. y die Merkmalsvektoren der Objekte und S^-1 die

inverse Kovarianzmatrix. Die Clusteranalyse und die Diskriminanzanalyse

in DASY benutzen immer den Mahalanobisabstand.

.

Die Linkage-Prozedur wird mit einer Auswahl der Objekte durchfgefuehrt,

wenn die Obejektzahl N>150 ist. Die verbleibenden Objekte werden in

einem Diskriminationsschritt nach der Zentroidmethode den gefundenen

Clusterkernen der Auswahl zugeordnet.

.

Der nachfolgende Diskriminanzanalyseteil der Clusteranalyse berechnet

t nichtelementare Diskriminanzmerkmale W1, W2, ... nach Ahrens/Laeuter

und benutzt den von ihnen aufgespannten Raum fuer die graphische Dar-

stellung und fuer die weitere Bearbeitung der Cluster. Die Merkmalsaus-

wahl im Diskriminanzteil erfolgt hier  i m m e r  nach dem Aufbau-

verfahren.

.

Die Diskrimination benutzt den minimalen Mahalanobisabstand zu den

Klassenmitteln, wobei dieser noch mit der apriori-Wahrscheinlichkeit

der Klassen, Pj=Nj/N, gewichtet wird. Nj ist der Klassenumfang vor der

Neuklassifikation, N die Zahl aller Objekte.

.

Nach einer Klassenzusammenlegung oder Klassenteilung entstehen neue

Clustermittel. Die Objekte werden erneut klassifiziert, und, da ja

a-priori keine Klassifikation gegeben ist, wieder neu den Klassen zu-

geordnet. Wundern Sie sich also nicht, wenn nach einer Klassenteilung

ein ganz anderes Bild herauskommt, als Sie erwartet haben. Notfalls

gehen Sie einen Schritt zurueck.

.

Werden Daten clusteranalysiert, die schon klassifiziert sind, dann kann

es bei greren Klassenzahlen ein Puzzle sein, die bereits vorhandenen

Klassennummern den von der Clusteranalyse vergebenen Klassennummern

zuzuordnen. Das Problem ist nicht immer eindeutig lsbar. Eine Hilfe

bieten die charakteristischen Objekte, deren Satznummer in der Ausgabe

erscheint.

.

Datenaufbau fuer eine lineare Clusteranalyse

.

- Sie benoetigen eine oder mehrere C L u s t e r variablen Xj. Diese

  koennen metrisch, binaer oder ranggeordnet sein. Maximal 19 Variable.

.

  Es koennen aus den eingelesenen Variablen Xj durch Potenzieren

  und/oder Multiplikation weitere X-Merkmale gewonnen werden (polyno-

  miale Modelle). Die Gesamtzahl der X-Merkmale einschliesslich der er-

  zeugten polynomialen Merkmale wird von DASY auf p=60 begrenzt.

  Werden Zahlenwerte eines Merkmals dabei generell > 10^12, dann fallen

  a l l e  Daten aus! (Fehler "Weniger als 4 ausfallfreie Datensaetze")

.

- Ein kategoriales X-Merkmal mit k Kategorien muss durch eine Datentrans-

  formationin in k-1 binaere Merkmale umcodiert werden (Beispiel Merk-

  mal Haarfarbe mit den 3 Kategorien: K1=schwarz, K2=rot, K3=blond muss

  in zwei binaere Merkmale umcodiert werden: M1=schwarz/nichtschwarz,

  M2=rot/nichtrot). Diese Transformation wird nicht automatisch durchge-

  fuehrt, sondern liegt beim Anwender.

.

Cluster-Plot

.

Die Graphik zur Clusteranalys zeigt den Diskriminanzraum mit der

Klasseneinteilung (blaue Trennlinien), die Klassenmittel (grosse Buch-

staben in grau oder heller Farbe: A, B, C, ... fuer die Klassen 1, 2,

3, ... ), die Objekte als kleine Buchstaben (a, b, c ....), wobei "a"

ein Objekt der Klasse A ist.

.

Ist der nichtelementare Merkmalsraum 1-dimensional, wird ausser der w1-

Koordinate eine knstliche w2-Koordinate (Zufallszahl) angelegt, damit

nicht alle Objekte auf der w1-Geraden kleben.

.

Links in der Graphik erscheint ein Menue. Die Felder werden durch An-

klicken aktiviert (rot umrandet) und durch nochmaliges Anklicken

deaktiviert. Unter dem Menue steht die Klasse, auf die der Cursor gerade

zeigt (wenn er in der Graphik positioniert ist). Unten links ist das

Nachrichtenfenster. Ueber der Graphik erscheinen die Empfehlungen.

 

Im Menue bedeutet:

.

- HILFE    Es kommt dieser Text

.

 

- ABBRUCH  Sie wollen die Clusteranalyse abbrechen. Es wird nichts

           in das Protokoll ausgegeben und auch kein Zielmerkmal

           erzeugt.

.

- W1-W3    Sie wollen die W1-W3-Projektionsebene sehen. W1, W2, W3, ...

           sind die nichtlinearen Diskriminazmerkmale, die den Raum

           aufspannen. W1-W2 ist die uebliche (beste) Projektion. Ob

           Klassen sich durchdringen oder "uebereinander" angeordnet

           sind, kann man dann mit der W1-W3-Projektion eventuell er-

           kennen. Bei 1- oder 2-dimensionalem Diskriminanzraum gibt

           es keine W1-W3-Projektion.

.

- TRENNLIN Die Trennlinien werden bei jeder Bilderneuerung gezeichnet

.

- BITMAP   Gibt die Graphik als schwarz-weisse Bitmap aus (16 Farben).

           Durch Umwandlung in eine echte Schwarz-Weiss-Graphik und

           Umsetzung vom bmp- in das gif-Format ist eine erhebliche

           Platzreduzierung und einfachere Einbindung in WORD-

           Dokumente moeglich.

.

- PROJEKTI Voreingestellte Trennliniendarstellung ist die Berechnung

           von Klassenbereichen  i n  der gewaehlten W-Ebene. Diese

           Darstellung ist ein Kompromiss, um allen Klassen einen

           Bereich in der W-Ebene zu geben.

.

           Wird PROJEKTI aktiviert, dann wird als Klassenbereich die

           Schnittflaeche des multidimensionalen Hyperbereichs der Klasse

           mit der W-Ebene angezeigt. In dieser Darstellung koennen

           Klassen, die zu weit von der W-Ebene entfernt liegen, keine

           Schnittflaeche und damit auch keinen darstellbaren Klassen-

           bereich haben. Man sieht eventuell weniger Bereiche, als

           Klassen vorhanden sind.

.

           Empfehlung: Arbeiten Sie moeglichst lange mit der voreinge-

           stellten Projektion. Erst wenn die Klassenzahl reduziert ist

           versuchen Sie die PROJEKTI-Darstellung. Diese wird auch in der

           Diskriminanzanalyse benutzt.

.

- DICKPLOT Es wird der groessere Schriftsatz fuer die Skala und die Dar-

           stellung der Objekte genommen. Beim Verkleinern fuer ein

           Artikel bleibt die Graphik noch lesbar.

.

- VEREINE  Sie klicken zuerst auf das Feld VEREINE. Wenn keine Trenn-

           linien da sind, werden sie jetzt gezeichnet. Sie klicken dann

           auf die Trennlinie zwischen den zwei Klassen, die Sie ver-

           einigen moechten. Die Klassen werden zu einer Klasse zu-

           sammengefasst.

           Sind insgesamt nur noch zwei Klassen vorhanden, wird nicht

           vereinigt. 2 ist die Mindestklassenzahl.

.

- TEILE    Sie wuenschen die Aufteilung einer Klasse in zwei Klassen.

           Das geht nur, wenn im Augenblick weniger als 20 Klassen

           existieren. Geteilt wird mit einer Trennlinie, die Sie selbst

           festlegen, indem Sie zwei Punkte innerhalb der Klasse

           markieren, durch die die Linie verlaufen soll. Die Linie wird

           dann von DASY automatisch verlaengert.

.

           Sie klicken zuerst auf das Feld TEILE. Sind keine Trennlinien

           da, dann werden sie jetzt gezeichnet. Dann klicken Sie auf

           eine beliebige Stelle innerhalb der gewuenschten Klasse, die

           Sie aufteilen wollen. Am linken Rand steht die Klassenbe-

           zeichnung der von Ihnen ausgewaehlten Klasse.

.

           Sie machen einen weiteren Klick innerhalb der gewaehlten

           Klasse, um den ersten Punkt zu markieren, durch den die neue

           Trennlinie verlaufen soll. Die Position wird rot markiert.

.

           Ein weiterer Klick innerhalb der gewaehlten Klasse markiert

           einen zweiten Punkt der Geraden. Die Gerade wird gezeichnet.

           (Dieser zweite Klick entfaellt bei 1-dimensionalem Diskrimi-

           nanzraum)

.

           Durch einen letzten Klick markieren Sie die Haelfte der

           Klasse, die die gerade bestehende Klassennummer behalten soll.

           Fuer die andere Haelfte sucht DASY automatisch eine freie

           Klassennummer.

.

           Die Klassentrennung erfolgt in der gewaehlten Projektionsebene

           W1-W2 bzw. W1-W3 genau an diesem Trennstrich, ohne andere

           Dimensionen des Diskriminanzraums zu beachten.

.

- ZURUECK  Sie wollen die vorangegangene Klasseneinteilung wiederhaben.

           Maximal 2 Schritte koennen Sie zurueckgehen. Gehen Sie weiter

           zurueck, landen Sie wieder bei der Anfangsklassifikation.

.

- ANFANG   Sie wollen zur ersten urspruenglichen Klasseneinteilung der

           Clusteranalyse zurueck (Anfangsklassifikation).

.

- AKZEPT   Sie akzeptieren den Vorschlag des Programms zur Zusammenlegung

           der beiden vom Programm ausgewaehlten Klassen (Klassenpaar

           mit minimaler Isoliertheit nach Ahrens/Laeuter).

.

- O.K.     Beenden des Programms Clusteranalyse. Die letzte Klassenein-

           teilung wird als Zielmerkmal in die Datenbasis ausgegeben.

           Sie knnen anschlieend mit der Diskriminanzanalyse weitere

           Tests und eine graphische Ausgabe der Klassenbelegung vor-

           nehmen. Dabei geben Sie als Y-Merkmal dieses neu erzeugte

           Merkmal an.

.

Druckbilderklaerung der Clusteranalyse

.

Cluster-Dr: In der Ausgabe der Diskriminanzanalyse bedeutet

.

A,B,.. kuenstliche Namen der Clustermerkmale nach Eingabe und

       eventueller lokaler Transformation.

M01,.. Numerierung der Merkmale im Modell vor Merkmalsauswahl.

A  1   Fortlaufende Kennzeichnung A,B,C,... der Klassen, da-

       hinter eine nicht unbedingt fortlaufende Klassennummer.

N      Auswertbare Objektzahl (Datensaetze ohne Ausfall).

k      Klassenzahl.

Nj     Objektzahl in Klasse j, Klassenumfang.

Charakteristisches Objekt liegt am dichtestn am Klassenmittel.

       In der Klassentabelle erscheint seine Zeilennummer.

W1,..  W-Koordinaten der Klassenmittel, maximal bis W5.                           - - -

                           - - -

.

.

 

Diskriminanzanalyse

.

Literatur: Heinz Ahrens und Juergen Laeuter: "Mehrdimensionale Varianz-

analyse", Akademieverlag Berlin 1981.

.

Aus diesem Buch stammen auch die Testdaten Hyperthy.dat von

Dr. H. Deckart, Nuklearmedizinische Klinik Berlin-Buch. Von insgesamt

23 Personen, die wegen Hyperthyreose (eine Schilddrsen-berfunktion)

behandelt wurden, liegen Messungen vor. Die Patienten sind in 3 Klassen

eingeteilt:

.

   Klasse 1  Behandlung erfolgreich

   Klasse 2  Behandlung ohne Erfolg

   Klasse 3  Erst Erfolg, dann Rueckfall

.

Die ersten 5 Messungen y1-y5 sind Radio-Jod-Werte vor der Behandlung

mit einem Medikament, die Messungen y6-y10 nach Abschluss der Therapie.

.

Der Autor von DASY war 1983-1991 Mitarbeiter von Prof. Dr. Juergen

Laeuter am Karl-Weierstrass Institut zu Berlin, und hat viel von dieser

Zusammenarbeit profitiert. Prof. Laeuter sei hier besonders gedankt fuer

seine damalige Unterstuetzung und die zahlreichen Diskussionen.

.

.

Die Diskriminanzanalyse hat folgende Hauptaufgaben:

.

- Klassifikationsregeln fuer Objekte auf der Grundlage einer Lernstich-

  probe bereits klassifizierter Lernobjekte aufstellen und den zu er-

  wartenden Klassifikationsfehler schaetzen

.

- Klassifikation neuer Objekte (Arbeitsobjekte) mit den aufgestelleten

  Klassifikationsregeln durchfuehren und graphisch oder tabellarisch

  darstellen

.

- Aufsuchen von signifikanten Trennmerkmalen zur Reduktion des Erfas-

  sungsaufwandes von Klassifikationsdaten

.

- Test auf multivariate Mittelwertunterschiede zwischen Objektklassen.

.

- Test auf Isoliertheit von Objektklassen, insbesondere in Verbindung

  mit der Clusteranalyse.

.

.

Beispiel Klassifikation:

.

  Ein Computerprogramm soll lernen, die GC-Kurven (Gas-Chromatographie)

  von 10 verschiedenen Farbstoffloesungsmitteln sicher zu unterscheiden.

  Man gibt von jeder GC-Kurve 10 bis 30 Werte aus charakteristischen

  Bereichen des Chromatogramms als Datensatz ein. Um die Redundanz zu

  verbessern, nimmt man pro Loesungsmittel mindestens 10 Chromatogramme

  unterschiedlicher Proben desselben Loesungsmittels.

.

  Die lineare Diskriminanzanalyse berechnet aus den 10-30 originalen

  GC-Merkmalen ein oder mehrere Diskriminanzmerkmale sowie die Klassen-

  grenzen. Die Klassengrenzen trennen im Diskriminanzraum, der von den

  Diskriminanzmerkmalen aufgespannt wird, die Klassen voneinander ab.

.

  Ein neues Chromatogramm ergibt einen Punkt im Diskriminanzraum. Man

  nimmt die Klasse an, in deren Gebiet der neue Punkt liegt. Auf diese

  Weise ist das Loesungsmittel ueber seine GC-Werte klassifizierbar.

.

Beispiel Merkmalsauswahl:

.

  Fuer die Klassifikation von Produktionsfehlern soll die Anzahl der

  Messpunkte aus Zeitgruenden minimiert werden. An einer Stichprobe

  von Teilen mit bekannten Fehlern werden genuegend viele Messungen

  gemacht, um jeden Fehler eindeutig klassifizieren zu koennen. Jetzt

  erfolgt eine automatische Reduktion der Merkmale auf die wesentlichen

  Diskriminanzmerkmale, d.h. die Merkmalsmenge, die gerade noch eine

  sichere Klassifikation erlaubt.

.

Beispiel Mittelwertvergleich:

.

  Unterscheiden sich Neugeborene aus Grossstaedten von Neugeborenen aus

  laendlichen Gebieten. Zu jedem Neugeborenen werden Messdaten erhoben,

  z.B. Gewicht, Laenge, Temperatur usw., aber auch die Herkunft (Gross-

  stadt oder laendlicher Raum).

.

  Das Programm berechnet den Mahalanobisabstand der beiden Klassen

  (Stadt / Land), eine Art gewichteter Mittelwertabstand ueber alle

  gemessenen Merkmale, und testet diesen Abstand auf Signifikanz.

.

Begriffe der Diskriminanzanalyse:

.

  Trennvariable: Ein messbares metrisches oder beobachtbares kategori-

  ales Merkmal, das sich als besonders effektiv bei der Trennung von

  Objektklassen zeigt.

.

  Lernobjekt: Objekt mit bekannter Klassenzugehoerigkeit (im Gegensatz

  zum Arbeitsobjekt, dessen Klassenzugehoerigkeit zu bestimmen ist).

.

  Diskriminanzmerkmale: Kuenstlich erzeugte Merkmale (jedes ist eine

  Linearkombination von Trennvariablen), die den Diskriminanzraum auf-

  spannen. Die Diskriminanzmerkmale stehen senkrecht aufeinander.

.

  Multivariate Mittelwertunterschiede: Klassenunterschiede nicht nur bei

  einer Variablen beobachten, z.B. beim Gewicht, sondern bei vielen Merk-

  malen simultan, z.B. Gewicht, Alter, Blutdruck, Geschlecht usw.

.

  Diskriminanzraum: Von den Diskriminanzmerkmalen aufgespannter Raum.

  Die Trennleistung der Diskriminanzmerkmale nimmt mit ihrer Nummer ab.

  Die Ebene, die die beiden ersten Diskriminanzmerkmale aufspannen, wird

  als Projektionsebene fuer die graphische Darstellung genommen, da in

  ihr (fast immer) die Klassen am weitesten voneinander getrennt erschei-

  nen.

.

  Klassifikationsregel: Berechnung der Position eines Objektes im Dis-

  kriminanzraum und Berechnung der Wahrscheinlichkeit, mit der es einer

  Klasse zugeordnet werden kann. Im allgemeinen nimmt man die Klasse, die

  die grte Wahrscheinlichkeit hat. In der medizinischen Diagnostik sind

  aber auch andere Klassenzuordnungen interessant (Diagnose 1, Diagnose 2

  usw.). Die Zuordnung wird vom Mahalanobisabstand Objekt-Klassenmittel

  und vom Klassenumfang beeinflusst.

.

  Der Klassifikationsfehler, d.h. die Zahl der falsch klassifizierten

  Objekte im Verhaeltnis zur Gesamtzahl N der Objekte, sollte immer ent-

  weder an einer Arbeitsstichprobe ermittelt werden oder mit einer Jack-

  knife bzw. Bootstrap-Methode (in DASY nur Jack-knife mglich).

.

  Eine Arbeitsstichprobe erhaelt man bei ausreichend vielen Lerndaten

  durch Teilung der Lerndaten in zwei Haelften, die eigentlichen Lern-

  daten und die Arbeitsstichprobe zur Ermittlung des Klassifikations-

  fehlers.

.

  Die Jack-knife Methode teilt die Lernstichprobe in k Teilmengen, lernt

  an k-1 Teilmengen und verifiziert an der verbliebenen einen Teilmenge.

  Durch k-malige Wiederholung ist jede Teilstichprobe dann einmal

  Arbeitsstichprobe.

.

  Der Reklassifikationsfehler, d.h. der Klassifikationsfehler, der aus

  der Lernstichprobe selbst berechnet werden kann, ist wenig aussage-

  faehig. Bei genuegend vielen Merkmalen geht dieser immer gegen Null,

  waehrend der tatsaechliche Klassifikationsfehler bei zu vielen Merk-

  malen wieder ansteigt.

.

  Der Mahalanobisabstand zwischen zwei Punkten im Diskriminanzraum be-

  ruecksichtigt nicht nur den formalen euklidischen Abstand zweier

  Punkte, z.B. zweier Klassenmittel, im n-dimensionalen Merkmalsraum,

  sondern auch die Metrik. Die Metrik wird durch zwei Eigenschaften der

  Daten bestimmt:

.

  - Die Vektoren vom Gesamtmittel zu den K einzelnen Klassenmitteln

    spannen einen n-1-dimensionalen Raum auf. Diese Vektoren stehen im

    Allgemeinen nicht senkrecht aufeinander. Die Koordinatenachsen des

    Raumes werden durch eine Hauptachsentransformation aus den im Allge-

    meinen untereinander korrelierten Distanzvektoren berechnet.

.

  - Die einzelnen Klassen werden als Streuellipsoide aufgefasst, d.h. die

    Objekte, die ja Punkte im Raum sind, liegen verstreut um das Klassen-

    mittel. Aus allen Streuellipsoiden der K Klassen wird ein gemitteltes

    (gepooltes) Streuellipsoid berechnet. Dieses wird in Kugelform trans-

    formiert, wodurch die Metrik des Raumes, in dem die Distanzvektoren

    definiert sind, bestimmt wird.

.

Merkmalsauswahl:

.

Entsprechend den Hauptaufgaben sind verschiedene Diskriminanzalgorithmen

zu empfehlen. Das erste Unterscheidungsmerkmal der Algorithmen ist die

Merkmalsauswahl:

.

- Bei hoher Merkmalszahl und wenig Lernobjekten wird immer das schritt-

  weise Aufbauverfahren empfohlen. Ebenso bei der Suche nach signifi-

  kanten Trennvariablen. Als Alternative gibt es das Abbauverfahren.

 

- Bei geringer Merkmalszahl und vielen Lernobjekten wird die Analyse

  mit allen Merkmalen empfohlen. DASY entfernt jedoch automatisch

  strende (extrem hoch korrelierte) Merkmale. Welches Merkmal aus einer

  Gruppe extrem hoch korrelierter Merkmale entfernt wird, ist eher

  zufllig.

.

Bei der Klassifikation neuer Objekte interessiert die Genauigkeit der

prognostizierten Klassifikation. Nicht der kleinste Reklassifikations-

fehler ist gefragt, sondern der kleinste Klassifikationsfehler bei neuen,

noch nicht klassifizierten Objekten. Zur Bestimmung benutzt man Jack-

knife- oder Bootstrap-Methoden (in DASY nur Jackknife) bzw. eine

Teilung der vorhandenen Daten in einen Lern- und einen Arbeitsteil. Die

Frage nach der Signifikanz der Trennvariablen stellt sich nicht bzw.

ist untergeordnet.

.

Das Auffinden signifikanter Einflussgroessen ist oft von wissenschaft-

lichem oder praktischem Wert. Das Ergebnis kann kausale Zusammenhaenge

erkennbar machen, oder aber den Erhebungsaufwand fuer Trennvariable

erheblich reduzieren helfen. Probleme beim Auffinden der signifikanten

Trenngroessen sind:

.

  Aus einer Gruppe untereinander hoch korrelierter Trenngroessen wird

  zumeist nur ein Merkmal mehr oder weniger zufaellig ausgewaehlt. Es ist

  durchaus moeglich, dass eine ganze Reihe von Merkmalen dieselbe sig-

  nifikante Trennschaerfe haben, wie das zufaellig gewaehlte Merkmal. Das

  kann dann ein Hinweis daruf sein, dass ein versteckter Faktor alle

  diese Merkmale steuert. Seltener tritt der Faktor selbst als Merkmal

  auf. Es waere in diesem Falle sinnvoll, eine Faktoranalyse vorzuschal-

  ten (in DASY nicht moeglich) und mit den Faktoren als Trennmerkmale

  zu arbeiten

.

  Liegen sehr viele Trennvariablen vor, dann muss eine Alpha-Adjus-

  tierung, z.B. nach Holms Prozedur oder nach Bonferroni vorgenommen wer-

  den (DASY bietet hier nur Bonferroni an), da sonst Zufallsmerkmale

  eine Chance bekommen, als signifikant gemeldet zu werden (bei Alpha=5%

  wuerden von 100 Zufallsmerkmalen immerhin 5 akzeptiert werden, wenn

  keine Alpha-Adjustierung vorgenommen wird.)

.

 

"Schrittweises Aufbauverfahren oder Abbauverfahren" ist ein Verfahren,

bei dem ein Signifikanztest (F-Test) ueber die Aufnahme oder den Verbleib

einer Trennvariablen im Modell entscheidet. Die Vorteile sind:

.

- Nur Trennvariablen mit einem statistisch gesicherten Einfluss auf die

  Reduktion des Reklassifikationsfehlers werden in das Modell aufgenommen

  ( Ausnahme: Ist kein Merkmal signifikant, wird das mit dem hoechsten

    F-Wert genommen )

- Eine Gruppe hoch korrelierter Merkmale wird durch ein Merkmal vertreten

- Es entsteht eine robuste Loesung, die auch bei moderaten Veraenderungen

  in der Datenbasis noch Bestand hat

 

"Diskriminanzanalyse mit allen Einflussgroessen" ist ein Verfahren, bei

dem nur Merkmale aus dem Modell entfernt werden, wenn eine so starke

lineare Abhengigkeit der Mermale diagnostiziert wird, dass numerische

Instabilitaeten auftreten. Der Vorteil ist:

.

-  Fuer die Arbeitsstichprobe (und nur fuer diese) laesst sich der Re-

   klassifikationsfehler maximal minimieren. Es haengt sehr vom Modell

   ab, ob die Klassifikation auch fuer neue Objekte ausserhalb der Lern-

   stichprobe noch vernuenftige Zahlen liefert. Am besten testet man das

   Verhalten aus, indem man die Trennvariablen per Editor leicht variiert

   und die so gewonnenen "neuen Objekte" klassifizieren laesst

.

.

Mittelwertvergleiche

.

- Es wird ein globaler F-Test ausgefuehrt (Ahrens/Laeuter S.106, Gl.7.12)

  Er zeigt an, ob es insgesamt "irgendwelche" Mittelwertunterschiede

  gibt.

.

- Der Sumultanvergleich jeder Klasse i gegen jede andere Klasse j fuehrt

  auf eine Matrix Fij von F-Werten, die mit einem gemeinsamen Sicher-

  heitspunkt Fsim verglichen werden. Hier kann ebenfalls eine Alpha-

  Adjustierung nach Bonferroni verlangt werden (Menue). Ebenso kann der

  Anwender waehlen, ob er gnadenlos alle k(k-1) Einzelteste ausgelistet

  bekommt, oder aber eine "kurze Liste". d.h. nur die signifikanten bzw.

  fast signifikanten Mittelwertvergleiche.

.

- Gleichzeitig mit dem Mittelwertvergleich wird auch ein paarweiser Test

  auf Isoliertheit (Ahrens/Laeuter S.138, Gl. 7.73) der Klassen durchge-

  fuehrt. Nicht isolierte Klassen lassen sich schlecht trennen. Im Zu-

  sammenhang mit der Clusteranalyse sind sie ein Indiz fuer eine moeg-

  liche Klassenzusammenlegung. Bonferroni-Adjustierung und "kurze Liste"

  wie beim Simultanvergleich.

.

.

Klassifikationsstrategien

.

- ohne Aprioriwahrscheinlichkeit:

 

  Die Einordnung in eine Klasse ist im Diskriminanzraum nur vom Quadrat

  k des Euklidischen Abstand des Objektes zum naechstgelegenen Klassen-

  mittel abhaengig, abgesehen von einem Faktor Nj/(Nj+1), der sich kaum

  von 1 unterscheidet. Nj ist der Klassenumfang (Objektzahl in der Lern-

  klasse).

.

- mit  Aprioriwahrscheinlichkeit:

.

  Die Einordnung in eine Klasse ist im Diskriminanzraum sowohl vom Qua-

  drat d^2 des Euklidischen Abstands d als auch der Wahrscheinlichkeit

  Pj der Klasse abhaengig. (Ahrens/Laeuter S. 131, Gl. 7.63).

.

  Als Aprioriwahrscheinlichkeit wird die relative Haeufigkeit Pj=Nj/N

  in den Klassen der Lerndaten genommen. Eine groe Lernklasse hat damit

  automatisch eine groessere Wahrscheinlichkeit, dass benachbarte

  Objekte ihr zugeordnet werden.

.

  Wann mann ohne oder wann man mit Aprioriwahrscheinlichkeit arbeitet,

  dafuer gibt es kein Rezept. Richtschnur ist nur die Guete der Klas-

  sifikation, die durch die Fehlerschaetzung bewertet wird.

.

.

Fehlerschaetzung der Klassifikation

.

Wird ein Objekt einer falschen Klasse zugeordnet, liegt ein Klassifi-

kationsfehler vor. Wir unterscheiden in DASY:

.

- Reklassifikationsfehler: Die Objekte der Lernstichprobe werden reklas-

  sifiziert, d.h. einer Klasse zugeordnet. Mit steigender Merkmalszahl p

  nimmt dieser Fehler ab. Man darf sich davon jedoch nicht taeuschen

  lassen. Eine Klassifikation von Objekten, die nicht in der Lernstich-

  probe waren, werden desto schlechter klassifiziert, je mehr unnoetige

  Merkmale verwendet werden.

.

- Jackknife-Fehler: Die Lernstichprobe wird in viele zufaellig ausge-

  wuerfelte Teile unterteilt (meist 10). Neun werden als Lernstichprobe

  benutzt fuer die Merkmalsauswahl, dann werden die Objekte der 10. Teil-

  stichprobe klassifiziert. Das Ganze wird 10 mal durchgefuehrt, bis jede

  Teilstichprobe einmal klassifiziert wurde. Diese Art der Fehler-

  schaetzung ist recht realistisch, was die Fehlerrate bei voellig neuen

  Objekten betrifft.

.

- Working-Sample Fehler: Hat man sehr viele Daten, kann man die Daten

  in Lern- und Arbeitsdaten teilen. An der Lernstichprobe wird die Merk-

  malsauswahl vorgenommen, an der Arbeitsstichprobe wird die richtige

  Klassifikation ueberprueft. Diese Art der Fehlerschaetzung ist die

  realistischste, was die Fehlerrate bei voellig neuen Objekten betrifft.

.

  Viele Daten liegen vor, wenn jede Klasse im Schnitt mit mehr als 30

  Objekten besetzt ist. Das Teilen der Daten gelingt mit einer 0-1-Grup-

  pierungsvariablen (Gehen Sie ins DASY-Hauptmenue, waehlen Sie Trafos,

  dann das zufaelliges 0-1-Merkmal und dieses dann als Gruppierungsvari-

  able in der Diskriminanzanalyse angeben )

.

.

Datenaufbau fuer eine lineare Diskriminanzanalyse

.

- Sie benoetigen eine kategoriale  Z i e l variable Y mit Klassennummern

  und eine oder mehrere  T r e n n variablen Xj. Diese koennen metrisch,

  binaer oder ranggeordnet sein.

.

  DASY akzeptiert maximal K=20 Klassen. Die Klassen muessen nicht fort-

  laufend durchnumeriert sein. Als Klassennummern sind alle Zahlen

  0<k<250 zugelassen. In der Graphik erscheinen statt der Klassennummern

  die Buchstaben A,B,C,...,T.

.

  Es koennen aus den eingelesenen Trennvariablen Xj durch Potenzieren

  und/oder Multiplikation weitere Trennmerkmale gewonnen werden (polyno-

  miale Modelle). Die Gesamtzahl der X-Merkmale einschliesslich der er-

  zeugten polynomialen Merkmale wird von DASY auf p=60 begrenzt.

.

- Ein kategoriales X-Merkmal mit k Kategorien muss durch eine Datentrans-

  formationin in k-1 binaere Merkmale umcodiert werden (Beispiel Merk-

  mal Haarfarbe mit den 3 Kategorien: K1=schwarz, K2=rot, K3=blond muss

  in zwei binaere Merkmale umcodiert werden: M1=schwarz/nichtschwarz,

  M2=rot/nichtrot). Diese Transformation wird nicht automatisch durchge-

  fuehrt, sondern liegt beim Anwender.

.

.

- Falls Sie genuegend Daten haben, koennen Sie diese in eine Lern- und

  eine Arbeitsstichprobe teilen. Die Schaetzung des Klassifikations-

  fehlers wird so sicherer. Dafuer benoetigen Sie jedoch eine zusaetz-

  liche  G r u p p i e r u n g s variable,  die einen Wert >0 und <=250,

  z.B. 1 fuer alle Datenpunkte der Lernstichprobe aufweist, und den

  Wert =0 fuer die Arbeitsstichprobe, an der die richtige Klassifikation

  getestet wird.

.

  "Trennung der Daten in Lern- und Arbeitsstichprobe" und "Berechnung

  der Zielgroesse fuer neue Objekte" schliessen sich in DASY aus.

.

- Falls sie die Zielgroessenwerte (Klassennummern) fuer "neue Objekte"

  vorhersagen wollen, von denen die Klassennummer nicht bekannt ist,

  dann benoetigen Sie  ebenfalls die  G r u p p i e r u n g s variable.

  Sie muss fuer die "neuen Objekte" den Wert 0 aufweisen. Der Wert der

  Zielgroesse Y fuer die "neuen Objekte" ist beliebig (z.B. Null), darf

  aber kein Ausfall sein. Bei den Lerndaten muss der Wert der Gruppier-

  ungsvariablen zwischen 1 und 250 liegen, z.B. 1.

.

- Bei gewichteter Diskriminanzanalyse benoetigen Sie eine  Gewichts-

  variable. Gewichte sind Zahlen Gi>=0.001 und Gi<1000. Fuer extra

  Objekte (neue Objekte) bzw. fuer Arbeitsdatensaetze darf Gi=0 sein.

.

  Noch einmal tabellarisch kurz:

.

       Lernobjekte haben Klassennummer    1-250, Gruppierungsvariable=1

       Arbeitsobjekte haben Klassennummer 1-250, Gruppierungsvariable=0

       Extra Objekte haben Klassennummer    0  , Gruppierungsvariable=0

       .

       Arbeitsobjekte und extra Objekte knnen nicht in eine Datei

.

Der Ablauf einer Diskriminanzanalyse:

.

- Uebernahme der ausgewaehlten "originalen" X- und der einen Y-Variablen

  und eventuell einer Gruppierungsvariablen und/oder Gewichtsvariablen

 

- Wenn verlangt, dann Ausfuehrung einer programmierten lokalen Merkmals-

  transformation *.trr in "sekundaere" Variablen

 

- Wenn verlangt, dann Anwendung eines "Polynomialen Standardmodells"

 

- Ausblenden aller Datenpunkte y, x1, x2,..., xp mit Ausfaellen oder zu

  grossen Zahlenwerten (>1e12)

 

- Bei verlangter Jack-knife Fehlerschaetzung zufaellige Gruppenbildung

  der Datenpunkte

 

- Berechnen der Kovarianzmatrizen, Eigenwerte, Diskriminanzmerkmale

 

- Bestimmung des Reklassifikationsfehlers, bei vorhandener Arbeitsstich-

  probe auch die Bestimmung des Klassifikationsfehlers der Arbeitsstich-

  probe

 

- Bei verlangter Jack-knife Fehlerschaetzung Berechnung des Fehlers

 

- Ausgabe der Ergebnisse und statistischen Kennzahlen

 

- Graphische Darstellung der Klasseneinteilung und Zuordnung

 

- Ausgabe der Erwartungswerte der Zielgroesse als neue Variable, d.h.

  die neuen Klassennummern, und eventuell Ausgabe einer Ident-Variablen

  mit Objekten, die in der Graphik markiert wurden.

.

.

Die lokale Merkmalstransformation ist Optional und erfordert ein Trans-

formationsprogramm *.trr, das im Programmteil "Transformationen" erstellt

und auf formale Richtigkeit getestet wird. Fehler, die erst zur Laufzeit

des Programms auftreten, koennen nur hier in der Diskriminanzanalyse er-

kannt werden.

.

Die berechneten Merkmale sind lokal, d.h. sie werden nach

Ausfuehrung der Diskriminanzanalyse sofort wieder "vergessen". Sie koennen

die X-Variablen und/oder die Y-Variable transformieren und die Anzahl der

X-Variablen verringern, belassen oder erhoehen. Ebenso sind die Werte

einer Gruppierungs- und/oder Gewichtsvariablen setzbar.

.

Das folgende Beispiel transformiert die Hyperthyerose-Daten so, dass aus

jeder Variablen die Wurzel gezogen wird. Datenausfaelle werden wieder zu

Datenausfaellen. Negative Werte wuerden ebenfalls zu Ausfaellen werden.

.

    Diskrimi.trr(N,i,M,Q,S,ANZ,Y,p,X,Grup,Gew)

    var M(20), Q(20), S(20), ANZ(20), X(100)

 

    { N   = Zahl der Datenzeilen in der Datenbasis                       }

    { i   = Nummer der aktuelle Datenzeile                               }

    { M   = Datenzeile mit Merkmalswerten aus der Datenbasis             }

    { Q   = Vektor mit den Mittelwerten der belegten Merkmale            }

    { S   = Vektor mit den Standardabweichungen der belegten Merkmale    }

    { ANZ = Vektor mit den Werteanzahlen der belegten Merkmale           }

    { Y   = Wert der Zielgroesse ( Default: Originale Zielgroesse )      }

    { p   = Anzahl der berechneten Einflussgroessen X(1), X(2), ..., X(p)}

    { X   = Vektor mit den berechneten Einflussgroessen X(1), X(2),...   }

    { Grup= Wert der Gruppierungsvariable ( Default: Orig. GrV. oder 1 ) }

    { Gew = Wert der Gewichtsvariablen ( Default: Originale GewV. oder 1)}

 

    { Bei freien Merkmalen sind die betreffenden Elemente der Vektoren   }

    { M, Q, S, ANZ mit Ausfaellen belegt. X ist beim Aufruf vollstaendig }

    { mit Ausfaellen belegt. Die Werte sind zu berechnen und p zu setzen }

 

    { Ende des vorgefertigten Programmkopfes                             }

 

    { Aus den 10 Merkmalen M03-M12 der Hyperthyerose-Daten soll

    { die Wurzel gezogen werden, das Y-Merkmal (Klassennummern) wird

    { nicht veraendert

 

    assign aa=3, bb=4, cc=5, dd=6, ee=7, ff=8, gg=9, hh=10, ii=11, jj=12

 

    x(1)=sqrt(aa)

    x(2)=sqrt(bb)

    x(3)=sqrt(cc)

    x(4)=sqrt(dd)

    x(5)=sqrt(ee)

    x(6)=sqrt(ff)

    x(7)=sqrt(gg)

    x(8)=sqrt(hh)

    x(9)=sqrt(ii)

    x(10)=sqrt(jj)

 

    p=10                       { 10 X-Mermale nach der Transformation

 

    write(i,aa,x(1))           { Kontrollausgabe

 

    end

.

Der Programmkopf (20 Zeilen) wird vom Trafo-Editor automatisch eingesetzt.

Der Anwender programmiert nur die Anweisungen von Kopfende bis "end".

.

.

Polynomiale Standardmodelle sind:

.

- Einfach Polynomial: Zu jedem im Modell vorhandenen X-Mermal wird bei

  Polynomgrad PG=2 ein X*X-Merkmal zusaetzlich erzeugt, bei

  Polynomgrad PG=3 ein Merkmalspaar X*X und X*X*X zusaetzlich erzeugt usw.

.

- Vollstaendig Polynomial: Wie einfach Polynomial, aber zusaetzlich

  noch alle Produkte der vorhanden X-Merkmale, z.B. bei

  PG=2 und X1,X2 entstehen zusaetzlich  X1*X1, X2*X2, X1*X2,    bei

  PG=3 und X1,X2 entstehen zusaetzlich  X1*X1, X1*X1*X1, X2*X2, X2*X2*X2,

       X1*X2, X1*X1*X2, X1*X2*X2

.

  Das einfach polynomiale Standardmodell ist auf PG=2,3,4,5  beschraenkt

  Das vollstaendige Polynomiale Modell ist auf PG=2,3 beschraenkt.

.

  Uebersteigt die erzeugte gesamte Merkmalszahl die Beschraenkungen von

  DASY (maximal 60 Merkmale), dann wird das Modell abgelehnt.

.

  Immer das zuletzt angegebene Polynomiale Modell gilt. Haben Sie ver-

  sehentlich ein polynomiales Modell gewaehlt, koennen sie es durch die

  Eingabe einer 0 als Polynomgrad wieder entfernen.

.

.

Alle Zahlen, deren Betrag groesser als 10^12 ist, werden als Ausfaelle

betrachtet. Das gilt sowohl fuer die originalen Ausfaelle (intern -1E25)

als auch fuer Daten, die erst durch die Transformation oder durch das

polynomiale Standardmodell erzeugt werden.

.

.

Die Schaetzung des Klassifikationsfehlers mittels Jack-knife erfordert

eine mehrfache Berechnung der Diskriminanzanalyse. Die Datenpunkte werden

zufaellig in moeglichst gleich grosse Gruppen unterteilt. Es wird 10-mal

die Diskriminanzanalyse berechnet, wobei immer eine der Gruppen nicht zur

Berechnung der Koeffizienten benutzt wird, aber zur Fehlerschaetzung der

Jack-knife-Methode.

.

.

Eine erfolgreiche Diskriminanzanalyse liefert die zugeordneten Klassen-

nummern der Objekte. War ein Ausfall aufgetreten, ist auch die Klassen-

nummer ein Ausfall. Es entsteht dabei ein neues kategoriales Merkmal. Hat

die Zielgroesse Y die Merkmalsbezeichnung "abc", dann heisst das neue

Merkmal "disABC". Die Klassennummern stammen aus derselben Menge, wie die

Klassennummern der Lernobjekte. Bei extra Objekten wird die originale

Klassennummer fehlen, da sie ja nicht bekannt ist.

.

.

Druckbilderklaerung der Diskriminanzanalyse

.

Diskrim-Dr: In der Ausgabe der Diskriminanzanalyse bedeutet

.

Y      Das Zielgroessenmerkmal mit den originalen Klassennummern

A,B,.. kuenstliche Namen der Trennmerkmale nach Eingabe und

       eventueller lokaler Transformation

A007,..Fortlaufende Kennzeichnung A,B,C,... der Klassen, dahinter

       die originale Klassennummer 7, 23, 49, ... aus den Daten

M01,.. Numerierung der Merkmale im Modell vor Merkmalsauswahl

N      Auswertbare Objektzahl (Datensaetze ohne Ausfall)

Nj     Objektzahl in Klasse j

Gesamt-F fuer den globalen F-Test auf Mittelwertunterschied

       mit den Freiheitsgraden FG1 und FG2

KIW    Irrtumswahrscheinlichkeit (P-Value) bei Ablehnung von Ho

F-Wert fuer jeden Einzelvergleich wird mit dem Sicherheitspunkt

       der F-Verteilung verglichen

Signif Ein * bedeutet einen signifikanten Mittelwertunterschied

       oder eine signifikante Isoliertheit der beiden Klassen

Matrix In der Diagonalen stehen die Azahlen der richtig klassifi-

       zierten Objekte, im Rest der Zeile die Anzahlen der falsch

       klassifizierten Objekte

                           - - -

.

Startmenue der linearen Diskriminanzanalyse

.

Abbruch      Sie wollen zurueck ins Hauptmenue

Hilfe        Sie wollen sich ueber die Diskriminanzanalyse informieren

.

Auf          Schrittweiser Aufbau (Merkmalsauswahl und Klassifikation)

Abb          Schrittweiser Abbau (Merkmalsauswahl und Klassifikation)

All          Diskriminanzanalyse mit allen Trenngroessen

.

Alpha        Festlegung multiples Signifikanzniveau (0.1 /.../ 0.01)

Bonferroni   Alpha-Adjustierung nach Bonferroni bei Auf- oder Abbau

.

Vergleiche   Mit oder ohne Mittelwertvergleiche der Klassenmittel

Bonferroni   Alpha-Adjustierung nach Bonferroni bei Mittelwertvergleich

Kurzliste    Kurze Liste (nur signifikante) der Mittelwertvergleiche

.

O.K.         Weiter im Menue

                           - - -

.

Fortsetzung Menue der linearen Diskriminanzanalyse

.

Abbruch         Sie wollen zurueck ins Hauptmenue

Hilfe           Sie wollen sich ueber die Diskriminanzanalyse informieren

.

Y               Sie wollen die Zielgroesse Y auswaehlen

X..X            Sie wollen die Trenngroesse(n) X auswaehlen

G               Sie haben eine Gewichtsvariable (optional)

.

Trafo           Lokale frei programmierbare Transformation anwenden?

Einfach Pol.    Einfaches Polynomiales Standardmodell anwenden? PG=2-5

Vollst. Pol.    Vollstaendiges Polynomiales Standardmodell? PG=2,3

Jack-knife      Klassifikationsfehler mit Jack-knife schaetzen?

Working sample  Klassifikationsfehler an einer Arbeitsstichprobe schaetzen?

Kl. neue Obj.   Klassifikation neuer Objekte

Apriori         Klassifikation mit Aprioriwahrscheinlichkeit

.

O.K.            Ausfuehren der Diskriminanzanalyse

                           - - -

.

Beispiel einer Diskriminanzanalyse mit den Hyperthyreose-Daten

.

 

DASY-Protokoll                              DASY FH Furtwangen

                             14.04.05   17:59:57

.

Datenfile D:\L\DASY\HYPERTHY.DAT

mit 23 Datenzeilen und 12 Spalten gelesen

.

Diskriminanzanalyse mit der Zielgroesse y=M01=Kl

Trennmerkmale:  A=M03=y1      B=M04=y2      C=M05=y3      D=M06=y4

  E=M07=y5      F=M08=y6      G=M09=y7      H=M10=y8      I=M11=y9

  J=M12=y10

.

Optionen: Vergleich,

          Jk, ap,

.

Eigenwerte:     9.094     0.547

 

Objektzahlen, Gesamt- und Klassenmittel im w-Raum

Ges/Klasse  N/Nj       W1         W2

  Gesamt      23    -1.455    -1.510

  A 101       16    -2.482    -1.890

  B 102        4     4.574    -1.239

  C 103        3    -4.011     0.157

.

Gesamt-F=     5.302     mit FG1=1, FG2=11, KIW=0.0418

.

Simultanvergleich der Klassen:

   gemeinsamer Sicherheitspunkt F=     2.854, FG1=10 FG2=11

 

      Klasse mit Klasse       F-Wert    Signifikanz

       A 001     B 002       8.837        *

       A 001     C 003       0.907

       B 002     C 003       7.133        *

.

Simultanvergleich auf Isoliertheit:

   gemeinsamer Sicherheitspunkt F=     3.522, FG1=2 FG2=19

.

      Klasse mit Klasse       F-Wert    Signifikanz

      A 001      B 002       5.165        *

      A 001      C 003       0.649

      B 002      C 003       6.957        *

.

Berechnete-Klassen-Merkmal disKL  ist Merkmal M13.

Diskrim.-Ident-Merkmal didKL  ist Merkmal M14.

mit 2 identifizierten Objekten.

.

Matrix Reklassifikation: Fehler   8.70 % (2 von 23)

.

orig\ber: A001 B002 C003

 A001       15    0    1

 B002        0    4    0

 C003        1    0    2

.

Jackknife-Klassifikation: Fehler  34.78 % (8 von 23)

.

orig\ber: A001 B002 C003

 A001       10    1    5

 B002        2    2    0

 C003        0    0    3

.

Koeffizienten der nichtlinearen Diskriminanzmerkmale

.

Trennmerkmal         W1         W2

01=y1    =A      -2.140E-02 -2.739E-02

02=y2    =B      -7.720E-02  1.069E-01

03=y3    =C       7.209E-02 -1.918E-01

04=y4    =D      -1.145E-02  7.420E-02

05=y5    =E      -5.277E-02  1.852E-01

06=y6    =F       1.083E-01 -6.495E-02

07=y7    =G       3.859E-02  7.171E-02

08=y8    =H      -2.044E-02  2.254E-02

09=y9    =I      -7.463E-02 -8.533E-03

10=y10   =J       1.819E+00  2.357E-01

.

.

Diskrim-Plot

.

Die Graphik zur Diskriminanzanalys zeigt den Diskriminanzraum mit der

Klasseneinteilung (blaue Trennlinien), die Klassenmittel (grosse Buch-

staben in grau oder heller Farbe: A, B, C, ... fuer die Klassen 1, 2,

3, ... ), die Objekte als kleine Buchstaben (a, b, c ....), wobei "a"

ein Objekt der Klasse A ist.

.

Ist der nichtelementare Merkmalsraum 1-dimensional, wird ausser der w1-

Koordinate eine knstliche w2-Koordinate (Zufallszahl) angelegt, damit

nicht alle Objekte auf der w1-Geraden kleben.

.

Links in der Graphik erscheint ein Menue. Die Felder IDENT und EDIT

werden durch Anklicken aktiviert (rot umrandet) und durch nochmaliges

Anklicken deaktiviert. IDENT und EDIT schliessen sich gegenseitig aus.

 

Im Menue bedeutet:

.

- Hilfe: Es kommt dieser Text

.

- Ident: Identifizieren von Objekten heisst, dass eine Ident-Variable

         erzeugt wird, die die w1-Koordinate der identifizierten Objekte

         enthaelt. Nicht identifizierte Objekte haben einen Ausfallwert

         (-1e25 intern). Identifizierte Objekte werden zudem in der

         Graphik pink gefaerbt und ihre Objektnummer im Ident-Fenster

         mit Minus markiert.

         .

         Erst Klick auf Ident, dann Klick auf die Graphik. Im Ident-

         Fenster links unten erscheint die scrollbare Liste aller Objekte

         (fortlaufende Objektnummern) im Umkreis von einigen Pixeln um

         die Kursorspitze. Durch Klick auf "IdentAll" werden alle Objekte

         in der Ident-Liste (auch gerade im Ident-Fenster nicht sicht-

         bare) identifiziert.

         .

         Wird nicht identifiziert oder alles rueckgaengig gemacht, dann

         wird auch kein Ident-Merkmal erzeugt.

         .

         Nochmaliges Anklicken eines identifizierten Objektes entfernt

         das Objekt wieder aus der Ident-Variablen.

         Wurde mit "IdentAll" die gesamte Liste indentifiziert, dann

         reicht nochmaliges Anklicken von IdentAll, um die gesamte Liste

         rueckgaengig zu machen.

         .

- Bitmap Ausgabe der gerade vorliegenden Graphik als Bitmap (aber ohne

         das linke Randmenue und ohne das Kursorbild)

.

- Edit   Es erscheint das Edit-Menue   (durch nochmaliges Anklicken

         kann man es deaktivieren):

         .

         Dickplot    Grosse Schrift (nur bei kleiner Objektzahl geeignet)

         .

         W1-W3       Darstellung in der W1-W3-Ebene, falls 3 oder mehr

                     nichtelementare Diskriminanzmerkmale berechnet

                     werden.

                     .

         OA 1 2 3    Objektauswahl (2,3 nur bei vorhandener Gruppier-

                     ungsvariablen anwaehlbar)

                     .

                1    Es werden alle Objekte gezeigt

                2    Es werden nur Lernobjekte gezeigt

                3    Nur Arbeitsobjekte bzw. extra Objekte

         .           .

         Ansicht     Ansicht der Graphik ohne stoerende Menueleiste

         .

         Farbfelder  Erst Farbe anklicken, dann Text1, Text2, ... oder

                     Klasse a,b,... anklicken

         .

         a . . .     Objektdarstellung durch Kleinbuchstabe, Karo gro,

                     Karo klein, Punkt

         .

         a,b,...     Klassensymbole zum Einfaerben der Klassen

         .

         Text 1,2,.. Eingabe, Korrektur oder Faerben eines Textes

         .

         Position    Erst auf "Position", dann in die Graphik klicken.

                     Der aktivierte Text wird dort positioniert.

.

- O.K.   Beenden des Programms Diskriminanzanalyse

.

.

SICFA:Kontingenztafelanalyse mittels Konfigurationsfrequenzanalyse (KFA)

.

Der Begriff Konfigurationsfrequenzanalyse wurde 1968 von G.A.Lienert ge-

praegt (KFA oder englisch Configuration Frequency Analysis CFA). Leider

war es dem Autor nicht mehr vergoennt, Prof. Lienert persoenlich zu

sprechen, wohl aber seinen engsten Mitstreiter, Prof. Joachim Krauth, der

sowohl zusammen mit Lienert als auch allein Buecher und Artikel zur KFA

veroeffentlicht hat. Des weiteren ist der Autor in staendigem Kontakt zu

Prof. Alexander von Eye und Prof. Erwin Lautsch, beides Autoren und

Forscher auch auf dem Gebiet der KFA.

.

SICFA ist die Abkuerzung von "Simulation CFA" und der Name der Software,

die zusammen mit dem Buch von Lautsch/v.Weber: Methoden und Anwendungen

der KFA, Beltz Psychologie Verlags Union, Weinheim 1995, ausgeliefert

wurde. Die SICFA-Software ist seit 2001 integraler Bestandteil von DASY.

.

Viele Merkmale aus Psychologie, Paedagogik, Medizin usw. sind nominal oder

kategorial. Beispiel eines nominalen Merkmals ist der Beruf. Er laesst

sich nicht aus anderen Daten ermitteln. Beispiel eines kategorialen Merk-

mals ist der Koerperbautyp: Athletisch, leptosom, pyknisch. Hier liegen

messbare Merkmale zu Grunde, die zu einer solchen Einteilung in Kategorien

fuehren.

.

Nominale und kategoriale Merkmale werden statistisch gesehen meist gleich

behandelt, d.h. kurz als kategorial bezeichnet.

.

Kontingenztafeln (oder Kreuzklassifikationstabellen) sind ein Mittel, um

Beziehungen zwischen kategorialen Merkmalen zu analysieren. Die Kon-

figurationsfrequenzanalyse (KFA) nach G.A.Lienert (1969) hat sich hierbei

als universelle Analysemethode fuer Kontingenztafeln bewaehrt.

.

Kategoriale Merkmale (Symptome) sind z.B. Geschlecht (w,m), Beruf (Arzt,

Baecker,...) oder Bildung (ohne, Lehre, ...). Die einzelnen Werte eines

Merkmals heissen Auspraegungen. Ein Proband (Fall, Punkt, Patient) liefert

einen Datensatz. Alle N Probanden liefern die Daten (File, Datei).

.

Durch Auszaehlen einer Datei entsteht die Kontingenztafel, z.B.

.

       Beruf \ Geschlecht  |    w   |     m  |   Randsummen

      

       Arzt                |   17   |    12  |       29

       Baecker             |    0   |     9  |        9

       ...                 :   ..   :    ..  :       ..

      

       Randsummen          |  117   |    67  |      184     (N=184)

.

Die einzelen Haeufigkeit Nij (Frequenz) heisst Konfiguration oder Zelle.

Zellen werden durch die Indizes i,j,k,.. bezeichnet. So hat die Zelle

(Arzt,w) die Indizes (1,1) und die Frequenz N11=17. Kontingenztafeln

koennen dim=2,3, 4,... Dimensionen haben, d.h. aus der gemeinsamen Aus-

zaehlung von 2, 3, 4, ... Merkmalen entstehen. Das Beispiel ist 2-dimen-

sional (2 Merkmale: Beruf und Geschlecht)

.

Rohdaten und fertige Tafeln

.

Kontingenztafeln koennen als fertige Tafeln (siehe Eingabe Kontingenz-

tafeln) gelesen werden oder aus gelesenen Daten ausgezaehlt werden.

.

2x2-Tafeln koennen ebenfalls aus Rohdaten ausgezaehlt werden oder als

Kontingenztafeln eingelesen werden, jedoch im Programmzweig SICFA 2x2-

Tafeln auch direkt ueber die Tastatur eingetippt werden.

.

Nur kategoriale Merkmale sind zur Auszaehlung geeignet. Man kann jedoch

metrische Merkmale in kategoriale umwandeln (z.B. Transformation in ein

dichotomes Merkmal). Die Kategorien eines Merkmals muessen als Nummern

1, 2, 3, ... ,98 kodiert sein. 99 ist der kategoriale Ausfaller-Code.

.

Einschraenkung der Tafelgroesse beim Test auf Typen: Die maximal 5 Merk-

male duerfen in der Reihenfolge ihrer Vorgabe nur folgende Kategorien-

zahlen erreichen:   10, 5, 3, 2, 2, d.h. die maximale 5-d-Tafel hat

600 Zellen.

.

Zweidimensionale Tafeln bis 10 x 5 werden auch als Matrix dargestellt.

.

Kann DASY auch durch Umsortieren der Merkmalsreihenfolge die obige

Bedingung nicht erfuellen, wird die Bearbeitung der Tafel mit einer

Warnung abgebrochen. Fuer die LANCASTER-Zerlegung duerfen nur 2^d-Tafeln

verwendet werden. Fuer die Merkmalsreduktion ist die Tafelgroesse be-

liebig.

.

Kollabierte Kontingenztafel: Die Auspraegungen jedes beteiligten Merkmals

werden auf 2 reduziert (Beispiel: Beruf (Arzt, Nichtarzt), Bildung( ohne,

mit) ). Die dann ausgezaehlte Tafel heisst kollabiert.

.

Reduzierte Kontingenztafel: Z.B. aus einer 3-dimensionalen Tafel wird

durch Weglassen eines Merkmals eine 2-dimensionale Tafel.

.

Was leistet Menuepunkt SICFA in DASY?

.

- Auszaehlen von Kontingenztafeln, Bildung der Randsummen

- 2-dimensionale Tafeln bis 10 x 5 werden als Matrix dargestellt.

- Globaler Chi-Quadrat-Test (Chi-Quadrat-Test) auf Unabhaengigkeit bzw.

  Abhaengigkeit von kategorialen Merkmalen

- Typensuche nach G.A.Lienert mit verschiedenen Tests

- Typensuche nach Victor

- Chi-Quadrat-Zerlegung einer Kontingenztafel nach LANCASTER

- Merkmalsselektion durch stufenweise Reduktion einer n-dimensionalen

  Tafel

- Analyse von 2x2-Tafeln (Zusammenhangsmasse bzw. Assoziationsmasse,

  Typensuche nach dem Zero-Order-Modell von A.v.Eye,

  Vergleich relativer Haeufigkeitszahlen)

.

.

KFA-Menue. (SICFA)

.

Abbruch

Hilfe

.

TEST        Globaler CHI-Quadrat-Test und lokale Tests auf Typ / Antityp

SIMULATION  wie TEST, aber zusaetzlich Bootstrapsimulation von Tafeln

.

SELECT      Merkmalsselektion - Suche der signifikantesten Tafeln

LANCASTER   Chi-Quadrat-Zerlegung nach LANCASTER, Zusammenhangsstruktur

.

2x2-Tafeln  Zusammenhangsmasse, Typensuche, Test relativer Haeufigkeiten

                           - - -

.

Hypothesen: Grundlage konfirmatorischer Statistik ist das Hypothesenpaar

Ho und Ha. Die Nullhypothese Ho unterstellt, dass alle Abweichungen zu-

faellig sind. Die Alternativhypothese Ha unterstellt eine Ursache fuer

auftretende Abweichungen.

.

Ho beim Globaltest: Die Merkmale sind unabhaengig - kein Zusammenhang.

.

Ha beim Globaltest: Die Merkmale sind abhaengig - es gibt einen Zusammen-

                    hang. Der Test erfolgt mit Chi-Quadrat und testet

                    einseitig auf Ueberschreitung des oberen Sicherheits-

                    punktes der Chi-Quadrat-Verteilung mit FG Freiheits-

                    graden.

.

Ho beim Einzeltest: Die Zelle ist kein Typ - Abweichungen vom Erwartungs-

                    wert unter der Unabhaengigkeitshypothese sind

                    zufaellig.

.

Ha beim Einzeltest: Die Zelle ist Typ oder Antityp - Abweichungen sind

                    ursaechlich und reproduzierbar vorhanden. Fuer den

                    Test gibt es mehrere Moeglichkeiten. DASY bietet 4

                    verschiedene Tests.Die Absicherung der multiplen

                    Hypothese erfolgt immer mit Holms Alpha-Adjustierung.

.

Alpha oder Fehler 1.Art: Irrtumswahrscheinlichkeit bei Ablehnung von Ho,

d.h. die Wahrscheinlichkeit Ha faelschlich anzunehmen. Ein typischer Wert

ist Alpha=0.05 (5%). Achtung! Bei einseitigem Test auf Typen wird das ge-

samte Alpha am rechten Sicherheitspunkt der Testverteilung realisiert,

beim Test auf Antitypen am linken Sicherheitspunkt. Beim zweiseitigen

Test wird jeweils Alpha/2 am linken und am rechten Sicherheitspunkt

realisiert.

.

Alpha' oder adjustiertes Alpha: Bei 100 Hypothesenpaaren (Ho,Ha) und Vor-

gabe Alpha=0.05 (5%) fuer die Einzelhypothese wuerde man etwa 5 (5%)

signifikante Ablehnungen von Ho erhalten auch in Faellen, in denen

garantiert alle Nullhypothesen gelten. Fazit: Man verschaerft die

Einzeltests so, dass das Auftreten auch nur einer faelschlichen Ablehnung

von Ho nur mit der vorgegebenen Wahrscheinlichkeit Alpha stattfindet

(siehe Testprozedur).

.

Beta oder Fehler 2.Art: Irrtumswahrscheinlichkeit bei Annahme von Ho,

d.h. die Wahrscheinlichkeit Ha faelschlich abzulehnen. Ein typischer Wert

ist Beta=0.3 (30%). Das Beta wird durch Tests nicht kontrolliert. DASY

schaetzt das Beta. Diese Schaetzung beruht auf zwei Simulationsrechnungen:

.

 - Schaetzung des maximalen Typgewichts Tg durch Vergleich der Tmax-Sta-

   tistik der vorliegenden Tafel mit der Tmax-Statistik simulierter

   Tafeln mit bekanntem Typgewicht. Das Typgewicht sagt, um wieviel

   der Zellerwartungswert E sich durch die Eigenschaft "Typ" gegenueber

   dem Erwartungswert Ev bei Unabhaengigkeit erhoeht. Vijk heisst auch

   VICTOR-Erwartungswert. Es gilt Eijk=Vijk(1+Tg). Typgewicht Tg=1 ver-

   doppelt demnach den Erwartungswert, Tg=2 verdreifacht ihn usw.

.

   Die Tmax-Statistik:  MAX (Nijk-Eijk)/mBl

.

                        MAX  heisst Maximum von allen Zellen

                        Nijk Zellfrequenz der Zelle (ijk)

                        Eijk Unabhaengigkeitserwartungswert der Zelle

.

 - Durch Simulation vieler Tafeln mit bekannten Typzellen mit dem

   geschaetzten Typgewicht gewinnt man eine Schaetzung des Fehlers 2.Art

   Beta, d.h. welcher Anteil an vorhandenen Typen wird nicht gefunden.

   Beta=0.3 (30%) sagt, dass von 10 vorhandenen Typzellen nur 7 die

   Chance haben, gefunden zu werden. Beta haengt vom Alpha ab, denn ein

   zu kleines Alpha verhindert das Auffinden von Typen durch "zu scharfes

   Selektieren". Umgekehrt, wenn man auch "falsche Typen" in Kauf nimmt

   (grosses Alpha), findet man auch mehr richtige Typen.

.

Totale Unabhaengigkeit: Der Erwartungswert Eijk der Zelle (i,j,k) ist

Eijk = Pi Pj Pk.  Pi ist die Wahrscheinlichkeit fuer die Auspraegung i des

ersten beteiligten Merkmals, Pj fuer Auspraegung j des zweiten Merkmals

usw. Merkmale sind abhaengig, wenn die beobachteten Frequenzen von den

erwarteten Frequenzen signifikant abweichen. Die Pi, Pj, Pk werden ge-

woehnlich aus den Randsummen geschaetzt (Beispiel Arzt: P1=29/184=0.158)

.

Globaler Chi-Quadrat-Test: Summation der Terme (Nijk-Eijk)^2/Eijk ergibt

Chi-Quadrat-ges. Der Wert Chi-Quadrat-gesamtges ist unter der Unab-

haengigkeitshypothese chiquadrat-verteilt mit FG=T-I-J-K+3-1 Freiheits-

graden. (FG-Formel fuer dim=3 Dimensionen der Tafel). Zellenzahl ist

T=I J K, wobei I,J,k die Anzahl der Auspraegungen der (hier) 3 Merkmale

sind. Sind Merkmale unabhaengig, erwartet man auch keine Typen.

.

Typ/Antityp nach G.A.Lienert: Ist die beobachtete Zellfrequenz Nijk

signifikant groesser, als der Erwartungswert Eijk, dann ligt ein

KontingenzTyp vor. Bei signifikanter Unterschreitung Nijk<Eijk sprechen

einige Autoren von einem Antityp. Die Definition und Existenz von Anti-

typen ist jedoch umstritten. Beruf-Geschlecht-Typen koennten z.B. sein

(Kosmetikerin weiblich) oder (Kraftfahrer maennlich). Moeglicher

Antityp: (Geruestbauerin weiblich)

.

Typen nach Victor: Ist die beobachtete Zellfrequenz Nijk signifikant

groesser, als ein speziell berechneter Erwartungswert Vijk (Victor-Er-

wartungswert), dann liegt ein Typ nach Victor vor. Das Vijk wird zwar

auch aus den Randsummen geschaetzt, aber vermindert um den Haeufigkeits-

ueberhang der Typzellen. Das "Zuviel" an Haeufigkeit bei einer Typzelle

soll nicht in die Berechnung des Erwartungswertes eingehen. Das Problem

ist nur iterativ zu loesen, da die Typzellen a priori nicht bekannt sind.

.

Lokale-KFA-Tests und Testprozedur

.

Lokale TESTs bewerten durch eine Testgroesse (Teststatistik) den Abstand

Hijk-Eijk einer jeden Zelle. Z.B. berechnet der Chi-Quadrat-Komponenten-

test die Testgroessen X2ijk=(Hijk-Eijk)^2/Eijk fuer jede Zelle (i,j,k).

Der Freiheitsgrad der einzelnen Komponente ist (nach Perli u.a.) FG=1.

Ist der Abstand signifikant, liegt ein Typ (oder Antityp) vor.

.

Einseitiger Test: Man testet einseitig auf Typen, wenn Nijk>Eijk bzw.

Nijk>Vijk ist. Man testet einseitig auf Antitypen, wenn Nijk<Eijk bzw.

Nijk<Vijk ist. Die gesamte vorgegebene Irrtumswahrscheinlichkeit Alpha

wird einseitig angenommen und verringert so die erforderliche Testgroesse,

die einen signifikanten Typ anzeigt. Moegliche Begruendung: Eine deutliche

Abweichung der Frequenz Nijk von ihrem Erwartungswert in die eine oder

andere Richtung ist im Bayes'schen Sinne eine Vorinformation, die die

Einschraenkung der Hypothesenzahl rechtfertigt.

.

Zweiseitiger Test: Man laesst fuer jede Zelle beide alternativen Hypo-

thesen (Typ oder Antityp) offen. Die Irrtumswahrscheinlichkeit wird zu

gleichen Teilen auf Typ und Antityp verteilt. Die Signifikanzschwelle

liegt hoeher, als beim einseitigen Test. Der zweiseitige Test bedarf

keiner Begruendung.

.

Stetigkeitskorrektur: Kleine Zellwahrscheinlichkeiten (Eijk<5) fuehren

leicht auf antikonservative Ergebnisse. Man reduziert die Testgroesse ge-

zielt (was sich bei kleinen Frequenzen besonders auswirkt) und beugt so

Irrtuemern vor. Eine bekannte Stetigkeitskorrektur stammt von Kuechenhoff

und Perli. Sie verwendet im Zaehler der Testgroessenformel statt

(Nijk-Eijk) den Wert (Nijk-Eijk-0.5), wenn Nijk>Eijk ist, und

(Nijk-Eijk+0.5), wenn Nijk<Eijk ist. DASY kombiniert sie mit dem

Lehmachertest. Eine aehnliche Stetigkeitskorrektur zum Victortest stammt

von Dunkl und v.Eye.

.

Nach einer Studie von E.Lautsch und S.von Weber aus dem Jahre 2001 zeigt

jeder Test entweder antikonservatives (liefert zu viele Typen) oder kon-

servatives Verhalten (liefert zu wenig Typen). Eine fuer die vorliegende

Tafel zugeschnittene Korrekturkonstante K sorgt in DASY dafuer, dass

asymptotisch das vorgegebene Alpha eingehalten, aber auch ausgeschoepft

wird. Nur so kann auch das Beta minimiert werden.

.

Die TESTPROZEDUR beruecksichtigt, dass in einer Kontingenztafel viele Test

(einer zu jeder Zelle) durchgefuehrt werden. Je mehr Tests, desto groesser

wird die Wahrscheinlichkeit Fehlern zu unterliegen, indem zufaellige

Abweichungen als signifikant getestet werden. Die Testprozedur begegnet

dieser Gefahr mit einer gezielten Verringerung (Adjustierung) des fuer

den Einzeltest gueltigen Alphas. DASY verwendet immer Holms sequentielle

Prozedur.

.

Holms Prozedur: Zu allen Einzeltests werden die Testgroessen und die

daraus resultierenden kritischen Irrtumswahrscheinlichkeiten KIW

berechnet. Die KIW werden aufsteigend nach ihrer Groesse sortiert. Haben

wir h Hypothesen, dann wird das kleinste KIW mit Alpha'=Alpha/h ver-

glichen. Ist KIW<=Alpha', dann liegt fuer die entsprechende Zelle

Signifikanz vor und man testet das naechstgroessere KIW mit

Alpha'=Alpha/(h-1). Ist ein Test nicht signifikant (KIW>Alpha'), dann

bricht Holms Prozedur ab und dieser Test und alle noch ausstehenden

Tests sind nicht signifikant.

.

Bootstrap-Simulation: liefert die am haeufigsten auftretenden Signifi-

kanzmuster einer Tafel. Man waehlt wie unter Menuepunkt TEST einen der

angebotenen Teste (z.B. Combinatoric Search, Gradientenverfahren, Chi-

Quadrat-Komponententest, Perli). Die KFA wird durchgefuehrt, und an-

schliessend werden nach der Bootstrap-Methode aehnliche Tafeln mit dem-

selben Gesamt-N gezogen, nach dem gewaehlten Test ausgewertet und das

Signifikanzmuster der Tafel, z.B. "1 0 0 1 0 0 0 0 1 0 " bei einer Tafel

mit 10 Zellen, bestimmt. Diese Signifikanzmuster werden gezaehlt und die

10 haeufigsten gelistet. Zu jeder Zelle wird zudem die Wahrscheinlich-

keit (1-beta) fuer das Auftreten eines Typen bzw. Antitypen berechnet.

.

Null-Haeufigkeiten in der Originaltafel werden bei der Bootstrap-Simu-

lation nicht als strukturelle Nullen nach N. VICTOR aufgefasst, sondern

als zufaellige Nullen einer multinomialen Binomialverteilung. Entsprech-

end koennen bei der Simulation hin und wieder Haeufigkeiten >0 in diesen

Zellen auftreten und das Gesamt-N leicht ueberschritten werden (maximal

um 10% des originalen Wertes).

.

Die geschaetzten (1-beta)-Werte der Bootstrapsimulation fuer das Auf-

treten eines Typen bzw. Antitypen duerfen nicht mit den Betawerten der

Korrekturkonstantenschaetzung verglichen werden. Bei der Bootstrap-

simulation werden Tafeln gezogen, die der Originaltafel sehr viel

aehnlicher sind, denn im Prinzip werden die vorhandenen Zellfrequenzen

nur stochastisch variiert. Bootstrap heisst, dass aus der Probandenmenge

Stichproben vom Umfang N gezogen werden, mit Zuruecklegen. Ein Proband

kenn mehmals gezogen werden oder auch nicht. Bei der Korrekturkonstant-

enschaetzung werden hingegen Tafeln generiert, die nur im Gesamt-N, in

der Tafeldimension und im Typgewicht mit der Originaltafel ueberein-

stimmen.

.

Die (1-beta)-Werte der Bootstrapsimulation geben die Wahrscheinlichkeit,

in einer Wiederholung derselben Untersuchung diesen Typen (Antitypen)

wieder zu finden. Die Beta-Werte der Korrekturkonstantenschaetzung geben

die Wahrscheinlichkeit insgesamt fuer die Tafel, vorhandene Typen bzw.

Antitypen entdecken zu koennen.

.

KFA-Teste-Menue

.

Abbruch   Sie haben es sich anders ueberlegt

Hilfe     Sie wollen sich zuerst etwas belesen

.

1-seitig  Einseitiger Test nur auf Typen

2-seitig  Zweiseitiger Test auf Typen und Antitypen

.

Test 1    Combinatoric Search nach Dunkl, Eye, Lautsch, Victor, Weber

Test 2    Gradientenverfahren nach Dunkl, Eye, Lautsch, Victor, Weber

Test 3    CHI-Quadrat-Komponententest nach G.A.Lienert

Test 4    Asymptotischer Test nach Perli, Hommel, Lehmacher

.

Alpha 5%  Sie wollen mit Alpha=0.05 (5%) arbeiten

Alpha 1%  Sie wollen mit Alpha=0.01 (1%) arbeiten (rechnet laenger)

.

O.K.      Sie wollen die KFA starten

                           - - -

.

Der Ablauf der KFA mit Typensuche erfolgt in den folgenden Schritten:

.

 - Angabe der beteiligten kategorialen Merkmale (2 bis maximal 5).

   Das Merkmal FRQUNZ, das bei der Eingabe von fertigen Kontingenz-

   tafeln erzeugt wird, zaehlt nicht zu den Merkmalen, die anzugeben

   sind. DASY benutzt es automatisch, wenn es vorhanden ist.

.

 - Die Kontingenztafel wird bereitgestellt.

.

 - Der globale Chi-Quadrat-Test wird durchgefuehrt und bewertet.

.

 - Das maximale Typgewicht Tg wird durch Simulation geschaetzt. Schaetz-

   werte >6 werden auf 6 heruntergesetzt.

.

 - Es wird mittels vorliegender Daten (v.Eye, Lautsch/ v.Weber 2004)

   eine Empfehlung gegeben, welcher Test fuer die vorliegende Tafel

   am besten geeignet erscheint.

.

 - Der Anwender kann die Empfehlung akzeptieren oder aber einen Test

   aus dem Menue waehlen. Ebenso kann er einseitig testen.

   (Default ist zweiseitiger Typ-Antityp-Test).

.

 - Mittels Simulation wird fuer das gewaehlte Alpha die Korrektur-

   konstante K und das zu erwartende Beta geschaetzt. Bei dieser Simu-

   lation wird der gewaehlte Test und die gewaehlte Testform (einseitig/

   zweiseitig) verwendet. Es werden Tafeln verwendet, die von der

   Groesse und vom Aufbau der zu testenden Tafel gleichen.

.

 - Die lokalen Zelltests werden fuer das gewaehlte Alpha durchgefuehrt

.  und mittels Holms Prozedur multipel gesichert.

.

SICFA-Dru: In der Tabelle der zellenweisen Typentests bedeutet:

.

ijklm Zellindizes

Eijk  Unabhaengigkeits-Erwartungswerte aus den Randsummen berechnet.

Vijk  VICTOR-Erwartungswerte bei der kombinatorischen Suche und

      beim Gradientenverfahren. Sonst ist Eijk=Vijk gesetzt.

      Ein Eijk bzw. Vijk kleiner 3 wird im Test auf 3 hochgesetzt

koTw  Testwerte mit Stetigkeitskorrektur nach Lautsch und v. Weber

KIW   Einseitige Irrtumswahrscheinlichkeiten zum Testwert koTw

A/AT  Eine 1 bedeutet Typ, eine -1 Antityp, eine 0 weder/noch.

      * bedeutet ein KIW um 0.05, ** um 0.01, *** um 0.001

                           - - -

.

.

Die in DASY implementierten Typentests (einseitig, zweiseitig) sind:

.

  Cs  Combinatoric search nach Dunkl, Eye, Lautsch, Victor, Weber

  Gr  Gradientenverfahren von Lautsch/Weber

  Li  Chi-Komponententest von G.A.Lienert

  Pe  Test von Perli, Hommel, Lehmacher

.

Bei allen Testen wird ein zu kleiner Erwartungswert im Nenner der Test-

formel auf 3 hochgesetzt, wenn er kleiner 3 ist. (Beim Perli-Test ist es

die geschaetzte Standardabweichung im Nenner der Testformel.)

.

Chi-Komponententest von G.A.Lienert  (1969)

.

    Testgroesse Xijk=(Nijk-Eijk)/sqrt(Eijk(1-K))

.

    ist asymptotisch normal verteilt mit Freiheitsgrad FG=1,

.

    K=Stetigkeitskorrektur nach Lautsch/v.Weber

    Ein Eijk bzw. Eijk kleiner 3 wird im Nenner auf 3 hochgesetzt

.

.

 

.

Vereinfachter asymptotischer Test von Perli et al. (1985)

.

    Perli (1985) sowie Perli, Hommel, Lehmacher (1987) entwickelten Tests,

    die asymptotisch das vereinbarte Alpha einhalten. Sie nehmen fuer alle

    Zellen (ijk) die Wahrscheinlichkeit Pijk=Pi Pj Pk bei allgemeiner

    multinomialer Verteilung an.

.

    Testgroesse  Wijk=(Nijk-Eijk)/(Sijk(1-K)) ist asymptotisch normalver-

    teilt. K=Stetigkeitskorrektur nach Lautsch/v.Weber. Man vergleicht

    deshalb mit einem Sicherheitspunkt U der Normalverteilung zur Rest-

    wahrscheinlichkeit Alpha'/2 (zweiseitiger Test) bzw. zu Alpha'

    (einseitig). Ein Sijk kleiner 3 wird im Test auf 3 hochgesetzt.

.

    Sijk=SQRT(N*Vo)   ist die Standardabweichung aus dem Nenner

.

    Fuer Dimension dim=2 ist die Varianz   Vo=Pij (1 - Pij -Pi. -P.j)

.

    Fuer dim=3 ist Vo=Pijk[1 + 2Pijk - (Pi..P.j. + Pi..P..k + P.j.P..k)]

.

    dim=4 gibt Vo=Pijkl[1+3Pijkl-(Pi...P.j..P..k. + Pi...P.j..P...l +

                                                     P.j..P...k.P...l)]

.

 

Test Dunkl/v.Eye mit Victor-Erwartungswerten nach Lautsch/v.Weber

.

    Victor definiert Koinzidenztypen. Sie sind singulaer und entsprechen

    einem Generalfaktor der Faktorenanalyse. Die Lienertschen Kontingenz-

    typen dagegen muessen nicht singulaer sein, sind oft aber komplemen-

    taer ( Beispiel: Dyslexie - Eulexie )

.

    Victor moniert hauptsaechlich, dass typverdaechtige Zellen in die

    Schaetzung der Zellwahrscheinlichkeiten Pijk voll eingehen, da doch

    ein Haeufigkeitsueberhang zur Erwartung unter der Unabhaengigkeits-

    hypothese besteht. Dieses vereinfachte Vorgehen ruft Phantomtypen

    und Antitypen hervor, die real nicht existieren. Die gleiche Wirkung

    haben strukturelle Nullen, d.h. Konfigurationen, die durch Negativ-

    auslese in der Population bzw. bei der Datenerfassung entstehen.

.

    Die Victorerwartungswerte Vijk werden in DASY durch das Gradienten-

    verfahren nach Lautsch/vWeber und durch die Combinatoric Search

    Procedure nach v.Eye, Lautsch, v.Weber geschaetzt. Im Gradientenver-

    fahren mit Bayes'scher Uebergewichtung stark frequentierter Zellen

    wird das Chi-Quadrat der "bereinigten" Frequenzen minimiert. In der

    Combinatoric Search Procedure werden alle Typkombinationen mit einer

    Chi-Quadratstatistik bewertet. Die am besten bewertete Typenkombina-

    tion wird konfirmatorisch getestet. Auch hier werden im Sinne von

    Bayes Korrekturterme angebracht, die das Erkennen von Antitypen ver-

    bessern, und, wie im Gradientenverfahren, stark frequentierte Zellen

    mit einem zustzlichen Typenbonus belegen.

.

    Der verwendete Kleingruppentest nach Dunkl und v.Eye beinhaltet eine

    Stetigkeitskorrektur, die bei kleinen Erwartungswerten Evijk be-

    sonders wirksam ist.

.

    Die Testgroesse  Dijk=(Nijk-Vijk)/(Svijk(1-K))   mit dem Nenner

.

                   Svijk=((Vijk+0.5)*Vijk)/(Vijk-0.5)

.

    ist asymptotisch normal verteilt. K ist die Stetigkeitskorrektur nach

    Lautsch/v.Weber. Ein Vijk<3 in der Formel fuer Svijk wird auf 3

    hochgesetzt.

.

.

Empfehlung welcher Test bei welcher Kontingenztafel optimal ist

.

Nach einer Untersuchung von v.Eye, Lautsch und v.Weber (2004) werden

folgende Tests in dieser Reihenfolge empfohlen:

.

  Cs  = Combinatoric Search nach Dunkl, Eye, Lautsch, Victor, Weber

        ist die absolute 1. Wahl. Die Combinatoric Search war bei allen

        Tests mit unterschiedlichen Tafeltypen immer die Nummer 1.

.

  Gr  = Gradientenverfahren von Lautsch und v.Weber.

        Falls die Rechenzeiten der Combinatoric Search zu lang werden,

        ist das Gradientenverfahren die nchstbeste Wahl (2. Wahl).

        Die erreichbaren Beta-Werte sind jedoch um 10-20% schlechter,

        als die der Combinatoric Search.

.

  Li  = Chi-Quadrat-Test nach Lienert

  Pe  = Asymptotischer Test nach Perli et al.

.

        Den Chi-Quadrat-Test nach Lienert oder den Asymptotischen Test

        nach Perli et al. empfehlen wir neben der Combinatoric Search

        und neben dem Gradientenverfahren nur bei zweidimensionalen

        Tafeln (d=2), groen Freiheitsgraden (df>20) und kleinen

        mittleren Zellbelegungen (mZb<15). Nur in diesem Fall sind die

        Ergebnisse vergleichbar gut mit der Combinatoric Search bzw.

        dem Gradientenverfahren.

.

.

Zur Umrechnung der 'normal verteilten' Testwerte in Irrtumswahrschein-

lichkeiten dient die folgende Tabelle, in der DASY interpoliert.

.

       Fehlerintegral von Gauss PHI(u) - Integral von u bis oo

      

.

      u                        PHI(u)

.

  0.0- 0.4   0.5000000, 0.4601722, 0.4207402, 0.3820885, 0.3445783,

  0.5- 0.9   0.3085375, 0.2742531, 0.2419636, 0.2118554, 0.1840601,

.

  1.0- 1.4   0.1586552, 0.1356661, 0.1150697, 0.0968006, 0.0807567,

  1.5- 1.9   0.0668073, 0.0547994, 0.0445655, 0.0359304, 0.0287166,

.

  2.0- 2.4   0.0227502, 0.0178644, 0.0139035, 0.0107241, 0.0081975,

  2.5- 2.9   0.0062097, 0.0046612, 0.0034670, 0.0025551, 0.0018658,

.

  3.0- 3.4   0.0013499, 0.0009676, 0.0006871, 0.0004834, 0.0003369,

  3.5- 3.9   0.0002326, 0.0001591, 0.0001078, 0.0000723, 0.0000481,

.

  4.0- 4.4   3.168E-05, 2.066E-05, 1.335E-05, 8.542E-06, 5.414E-06,

  4.5- 4.9   3.398E-06, 2.113E-06, 1.301E-06, 7.935E-07, 4.793E-07,

.

  5.0- 5.4   2.867E-07, 1.699E-07, 9.967E-08, 5.792E-08, 3.333E-08,

  5.5- 5.9   1.899E-08, 1.072E-08, 5.992E-09, 3.317E-09, 1.818E-09,

.

  6.0- 6.4   9.869E-10, 5.305E-10, 2.824E-10, 1.489E-10, 7.771E-11,

  6.5- 6.9   4.017E-11, 2.056E-11, 1.042E-11, 5.233E-12, 2.601E-12,

.

  7.0- 7.4   1.280E-12, 6.240E-13, 3.012E-13, 1.439E-13, 6.812E-14,

  7.5- 7.9   3.192E-14, 1.481E-14, 6.806E-15, 3.097E-15, 1.395E-15,

.

  8.0- 8.4   6.223E-16, 2.749E-16, 1.202E-16, 5.208E-17, 2.233E-17,

  8.5- 8.9   9.484E-18, 3.988E-18, 1.660E-18, 6.844E-19, 2.794E-19,

.

  9.0- 9.4   1.129E-19, 4.518E-20, 1.790E-20, 7.023E-21, 2.727E-21,

  9.5- 9.9   1.049E-21, 3.997E-22, 1.507E-22, 5.629E-23, 2.081E-23,

.

 10.0-10.4   7.620E-24, 2.762E-24, 9.914E-25, 3.523E-25, 1.239E-25,

 10.5-10.9   4.319E-26, 1.490E-26, 5.089E-27, 1.721E-27, 5.763E-28,

.

 11.0-11.4   1.910E-28, 6.272E-29, 2.038E-29, 6.561E-30, 2.090E-30,

 11.5-11.9   6.596E-31, 2.060E-31, 6.373E-32, 1.951E-32, 5.918E-33,

.

 12.0-12.4   1.776E-33, 5.281E-34, 1.554E-34, 4.529E-35, 1.306E-35,

 12.5-12.9   3.733E-36, 1.055E-36, 2.956E-37, 8.198E-38, 2.250E-38,

.

 13.0        6.117E-39

.

Diese Tabelle ist die Grundlage fuer die Interpolation der u-Werte bei

vorgegebener Wahrscheinlichkeit P (bzw. Alpha) in DASY. Die Bewertung

fast aller Teste erfolgt ueber die Tafel PHI(u).

.

.

Beispielprotokolle

.

Die beruehmten LSD-Daten von G.A.Lienert aus dem Jahre 1970 zeigen das

psychotoxische Syndrom, das Leuner 1962 beschrieben hat. 65 Studenten

nahmen freiwillig Lysergsaeurediethylamid (LSD) ein und unterzogen sich,

soweit noch faehig, verschiedenen Tests. Das Leuner'sche Syndrom ist

eine Kombination aus

     M01 = Bewusstseinseinschraenkung  (clouded consciouness)

     M02 = Denkstoerung                (disturbed thinking)

     M03 = Affektivitaetsbeeinflussung (altered affectivity)

.

Die Typensuche mit der Combinatoric Search:

.

DASY-Protokoll                             DASY FH Furtwangen

                              03.12.04   10:13:39

.

Datenfile D:\L\DASY\LSD-DATA.DAT

TABLE 3 2 2 2 Lienerts LSD-Daten von 1970

mit 8 Datenzeilen und 4 Spalten gelesen

.

Typensuche in Kontingenztafel mit den Merkmalen:

    1  M01     Kategorie                 mit  2 Kategorien

    2  M02     Kategorie                 mit  2 Kategorien

    3  M03     Kategorie                 mit  2 Kategorien

  und  FRQUNZ  Zellfrequenz Kontingenzt

        65 Probanden,    8 Zellen,    mBl=    8.13 mittlere Belegung

     37.92 Chi-Quadrat-Gesamt mit FG=4

 6.346E-06 (***) einseitige Irrtumswahrscheinlichkeit

      6.00 geschaetztes maximales Typgewicht

Test:  Combinatoric Search (Weber et al.)     Zweiseitig

Geschaetzter Korrekturwert=  -1.11

Geschaetztes Beta         =  34.03 %

Sie arbeiten mit Alpha    =   0.05

.

Nr.  i j k l m   Nijk     Eijk      Vijk      koTw    KIW    T/AT Signif

.

001  1 1 1 . .     20     12.51      0.69     4.47   0.00000   1   ***

002  1 1 2 . .      1      6.85      2.12    -0.26   0.39743   0

003  1 2 1 . .      4     11.40      3.65     0.08   0.47006   0

004  1 2 2 . .     12      6.24     11.24     0.10   0.45887   0

005  2 1 1 . .      3      9.46      2.92     0.02   0.49232   0

006  2 1 2 . .     10      5.18      8.97     0.15   0.43883   0

007  2 2 1 . .     15      8.63     15.44    -0.05   0.47935   0

008  2 2 2 . .      0      4.73     47.51    -3.24   0.00060  -1   ***

.

.

Die Combinatoric Search findet den Typen (1,1,1) und den Antitypen

(2,2,2). Ueberraschend gross ist der Victorerwartungswert Vijk=47.51

zum Antitypen (2,2,2) und der kleine Wert Vijk=0.69 zum Typen (1,1,1).

.

Die Summe der Vijk muss nicht die Probandenzahl N=65 ergeben, wie wir

von der Summe der Eijk gewohnt sind.

.

Die 6 Zellen 002-007 definieren ein mittleres LSD-Wirkungsniveau. Man

sieht, dass die Victorerwartungswerte sehr genau den gefundenen Fre-

quenzen Nijk entsprechen.

.

Zelle 001 ist ein Ausreisser in dem Sinne, dass sich die Wirkungen

der Droge bei diesem Probandentyp extrem verstaerken, so dass keine

normale Reaktion mehr erkennbar ist. Zelle 008 ist ein Ausreisser in

dem Sinne, dass eigentlich viel mehr Probanden mit voellig unbeein-

flussten Reaktionen erwartet werden. Die beiden Ausreisser zeigen, dass

die LSD-Wirkung keinem log-linearem Modell folgt.

.

.

Da bei beobachteten Daten die wahre Typenstruktur nie mit Sicherheit

zu beweisen ist, wurde ein Beispiel mit 2 bekannten Typen konstruiert.

Die 3 Merkmale haben die Randwahrscheinlichkeiten M01=(0.4, 0.6),

M02=(0.7, 0.3), M03=(0.45, 0.55). Die Erwartungswerte unter Unabhaengig-

keit sind dann (5.04, 7.56, 2.16, 3.24, 6.16, 9.24, 2.64, 3.96), z.B.

ergibt sich der erste Erwartungswert E111= (0.4 * 0.7 * 0.45)*40 = 5.04.

Probandenzahl ohne Typenaufstockung ist N=40.

.

Gesetzter Typ (1,1,2) mit Typgewicht 2 erheht 7.56 auf 7.56(1+2)=22.68.

Gesetzter Typ (1,2,1) mit Typgewicht 6 erheht 2.16 auf 2.16(1+6)=15.12.

Die Probandenzahl erhoeht sich dadurch auf N=68.

.

Datenfile D:\L\DASY\VICTEST.DAT

TABLE  VICTOR-Test, 2 Typen, ohne Varianz

mit 8 Datenzeilen und 4 Spalten gelesen

.

Typensuche in Kontingenztafel mit den Merkmalen:

    1  M01     Kategorie                 mit  2 Kategorien

    2  M02     Kategorie                 mit  2 Kategorien

    3  M03     Kategorie                 mit  2 Kategorien

  und  FRQUNZ  Zellfrequenz Kontingenzt

        68 Probanden,    8 Zellen,    mBl=    8.51 mittlere Belegung

     20.01 Chi-Quadrat-Gesamt mit FG=4

 7.773E-04 (***) einseitige Irrtumswahrscheinlichkeit

      6.00 geschaetztes maximales Typgewicht

Test:  Combinatoric Search (Weber et al.)     Zweiseitig

Geschaetzter Korrekturwert=  -1.48

Geschaetztes Beta         =  39.76 %

Sie arbeiten mit Alpha    =   0.05

.

Nr.  i j k l m   Nijk     Eijk      Vijk      koTw    KIW    T/AT Signif

.

001  1 1 1 . .      5     12.42      5.04     0.00   0.50001   0

002  1 1 2 . .     23     16.77      7.56     2.07   0.01903   0   *

003  1 2 1 . .     15      7.19      2.16     2.55   0.00541   1   **

004  1 2 2 . .      3      9.71      3.24     0.00   0.50001   0

005  2 1 1 . .      6      5.93      6.16    -0.00   0.50002   0

006  2 1 2 . .      9      8.01      9.24     0.00   0.50001   0

007  2 2 1 . .      3      3.43      2.64    -0.00   0.50001   0

008  2 2 2 . .      4      4.63      3.96    -0.00   0.50002   0

.

Test:  Gradientenverfahren (Lautsch/Weber)    Zweiseitig

Geschaetzter Korrekturwert=  -0.13

Geschaetztes Beta         =  45.52 %

Sie arbeiten mit Alpha    =   0.05

.

Nr.  i j k l m   Nijk     Eijk      Vijk      koTw    KIW    T/AT Signif

.

001  1 1 1 . .      5     12.42      6.86    -0.57   0.28396   0

002  1 1 2 . .     23     16.77     10.49     3.17   0.00075   1   ***

003  1 2 1 . .     15      7.19      2.89     5.23   0.00000   1   ***

004  1 2 2 . .      3      9.71      4.43    -0.45   0.32795   0