Analysieren Sie Ihre Daten – Schritt 3: Analyse

Analysieren Sie Ihre Daten – Schritt 3: Analyse

von 25. Oktober 2017

Der Schritt Measure im Rückblick

Beitrag 4 – Ausgehend vom Schritt Define mit der Erarbeitung der Zielstellung einer Datenanalyse haben wir uns im letzten Beitrag den Schritt Measure, also die Datenerfassung näher angesehen. Durch die Zusammenstellung verschiedener Fragen konnten Sie hoffentlich einen Einblick gewinnen, welche Daten für Sie in Frage kommen und welche Kriterien sie erfüllen sollten. Wichtig ist, dass Sie für die folgende Analyse möglichst viele vollständige Datensätze mit ausreichender Auflösung und guter Qualität haben. Sofern Sie auch alle notwendigen Informationen für eine kausalrichtige Zuordnung der Daten und alle weiteren wichtigen Informationen aus Dokumentationen zusammengetragen haben, können Sie endlich richtig loslegen.

Los geht’s: Der Schritt Analyse

Jetzt geht’s an die Analyse Ihrer Daten, den eigentlichen Kern der Aufgabe.

Schaubild 5 Schritte einer Datenanalyse

Als ich mir überlegt habe, diese Reihe zu starten, habe ich mir – wie es halt so ist – nur grobe Gedanken über die Inhalte der einzelnen Beiträge gemacht. Nun sitze ich hier vor meinem Post und stelle fest: Puh, ganz schön viel. Wo fange ich an, wo höre ich auf? Wenn ich Ihnen hier so detailreiche Infos wie zuvor gebe, hören Sie spätestens nach der Hälfte auf zu lesen. Außerdem gibt es so viele Methoden und jeder hat hier seine eigenen Vorlieben und Vorstellungen. Daher habe ich mich entschieden, Ihnen einen Überblick über das grundsätzliche Vorgehen mit Schwerpunkt Datenaufbereitung zu geben. Denn eine strukturierte Herangehensweise an den Schritt Analyse halte ich für mindestens genauso wichtig wie die Auswahl des richtigen Analysewerkzeugs. Viele praktische Tipps und Methoden können Sie auch im VDI-Statusreport finden, auf den ich Sie bei weiterführendem Interesse an dieser Stelle noch einmal verweisen möchte.

Eine kleine Anmerkung noch: Sofern ich auf Methoden verweise, habe ich mich bemüht, Ihnen gut verständliche und knappe Links rauszusuchen, damit Sie schnell einen Eindruck bekommen. Ich habe die Inhalte aber nicht bis ins Detail geprüft, außerdem bieten sie nicht zwingend eine vollständige Beschreibung der jeweiligen Methoden.

Der Weg ist das Ziel

Der Schritt Analyse lässt sich selbst noch einmal in einzelne Schritte zerlegen, die ich für Sie in einem vereinfachten Schaubild zusammengefasst habe.

 

schritte_analyse-intextgrafik_2

Vorgehen beim Schritt Analyse (nach VDI-Statusreport)

Das große Datenpuzzle

Je nach Zielsetzung haben Sie ja bereits im Schritt Measure die für die Analyse notwendigen Daten zusammengetragen. Da Sie diese mit hoher Wahrscheinlichkeit aus verschiedenen Quellen geholt haben, beginnt für Sie nun das große Datenpuzzle. Verschiedene Quellen, verschiedene Formate, viel Spaß! Zynismus beiseite, aber ehrlich gesagt, ist dies häufig ein Schritt zum Haare raufen. Dank sei dem, der sich schon vorab Gedanken über die Vereinbarkeit von Datenquellen gemacht hat. Nichtsdestotrotz sollten Sie am Ende zu einer Datenbank kommen, in der alle Parameter eine eigene Spalte erhalten und eine eindeutige zeilenweise Zuordnung mit Zeitstempel, Batchnummer und/oder Stücknummer sichergestellt ist. Wohlgemerkt mit möglichst wenig Datenlücken.

Die Zeit spielt eine Rolle

Sie haben nun eine einheitliche Datenbank. “Problem”: Jedes Produkt durchläuft einen Prozess, so dass Ursache und Wirkung nicht in einem Datensatz zu finden sind. Diese ist für die Analyse aber zwingende Voraussetzung, denn sonst untersuchen Sie mit hoher Wahrscheinlichkeit falsche Korrelationen zwischen Ihren Parametern. Betrachten Sie daher den Prozess aus Sicht Ihrer Zielgröße(n), d.h. der Wirkungen und ordnen Sie diesem Zeitpunkt die Eingangsgrößen, also die Ursachen zu, die sich aus der Produktverfolgung ergeben. Dieses werden in der Regel keine reinen Messwerte mehr sein, sondern aus den Zeitreihen zurückliegender Messwerte berechnete Größen.

Bei Stückgut- oder Batchprozessen fassen Sie die einzelnen Fertigungs- bzw. Prozessabschnitte zu sogenannten Fingerprints zusammen. Im einfachsten Fall sind das Mittelwerte, Steigungen oder Schwankungsbreiten. Auch die Dauer eines Abschnitts stellt sehr häufig eine wichtige charakteristische Größe dar. Es lassen sich aber auch kompliziertere Kenngrößen bestimmen, die den Prozess bestmöglich charakterisieren. Beispielsweise enthalten geregelte Größen durch ihre Konstanz zunächst einmal keine für eine Analyse verwertbare Information. Überlegen Sie daher immer spezifische Größen zu berechnen, die Ihnen zusätzliche Informationen liefern, wie beispielsweise der gewichtsbezogene Energieeintrag bei einer auf einen konstanten Wert eingestellten Temperatur.

Bei kontinuierlichen Prozessen verschieben Sie die einzelnen Datenspalten entsprechend der Verweilzeiten in den einzelnen Prozessabschnitten gegeneinander. Handelt es sich um variable Totzeiten, berechnen Sie diese im Idealfall, beispielsweise aus Behältervolumina und Durchflüssen. Bei wenig dynamischen Prozessen können Sie auch nur die stationären Daten in der Datenbank belassen und Übergangsbereiche löschen.

Prüfen Sie Ihre Daten

Bevor Sie endlich mit der Datenanalyse beginnen können, prüfen Sie Ihre Daten auf Plausibilität. Inkonsistente Datensätze entstehen durch fehlende Parameter, Messfehler oder Fehler bei der Probenahme. Alle nicht plausiblen Datensätze müssen Sie aus Ihrer Datenbasis entfernen. Abweichungen können jedoch auch prozessbedingt auftreten, meist erkennbar an systematisch wiederkehrenden Ereignissen. Ist dies der Fall, haben Sie bereits erste Hinweise für eine Ursachenanalyse.

Hier gibt es verschiedene Möglichkeiten wie Prüfen der Bilanzgleichungen oder die Anwendung statistischer Plausibilitätsfilter. So sollten Sie sich die Verteilung der Daten in Histogrammen oder Box-Plots ansehen und bekannte Korrelationen prüfen. Außerdem gibt es eine Reihe statistischer Ausreißertests oder Sie wenden Regeln der statistischen Prozesskontrolle (SPC Regeln) an. Sie sollten dabei immer im Hinterkopf behalten, dass Daten aus industriellen Prozessen nur selten streng normalverteilt sind, wodurch statistische Methoden oft an ihre Grenzen stoßen.

Fassen Sie zusammen

Vor der Analyse ist eine Clusterung der Daten von Vorteil, vor allem wenn Zeitreihen mit stetig wiederkehrenden Mustern zu erwarten sind. Sie reduzieren hierdurch zum einen den Einfluss des Messrauschens. Zum anderen fassen Sie Prozesszustände, die immer wieder angefahren werden, zu einem Muster zusammen, so dass der gesamte Datenraum möglichst gleichmäßig abgedeckt wird. Dieses ist notwendig bei der Modellierung Ihres Prozesses, da so auch seltenere Zustände mit bestmöglicher Genauigkeit abgebildet werden können.

Starten Sie mit der Analyse

Endlich ist es soweit. Nicht dass ich Sie jetzt abschrecken will, aber an dieser Stelle werden Sie vermutlich bereits 70 % bis 80 % Ihrer Bearbeitungszeit verbraten haben. Ich will Ihnen hiermit nur ein Gefühl dafür geben, wie aufwändig die Datenerfassung und -aufbereitung im Vergleich zur eigentlichen Analyse sein kann.

Aber nun zur Analyse: Hier kommt es etwas auf Ihre Zielrichtung an. Bei einer Korrelationsanalyse untersuchen Sie statistisch in den Daten vorhandene Zusammenhänge und leiten hieraus Informationen über Ursachen und Wirkungen hinsichtlich Ihrer Fragestellung aus dem Schritt Define ab. Bei der Modellierung geht es darum, einen funktionalen Zusammenhang zwischen den Eingangs- und Ausgangsgrößen zu finden und damit ein Abbild des Prozesses zu schaffen. Diese Modelle können und sollten Sie natürlich auch analysieren, das Hauptaugenmerk liegt hier aber im späteren Online-Einsatz.

Ich persönlich mache mir erst einmal viele bunte Bildchen, wenn ich mit einer Datenanalyse beginne. Mir hilft es, zunächst visuell mögliche Zusammenhänge zu identifizieren und ein Gefühl für Korrelationen und die Varianz des Prozesses zu bekommen. Mit Trends in Verbindung mit Streudiagrammen oder Parallelkoordinaten, idealerweise kategorisiert, bekommen Sie schon einen guten Überblick über Ihre Daten. Ich finde das intuitiver als auf Zahlenkolonnen zu schauen, aber natürlich können Sie beispielsweise auch erstmal mit einer Korrelationsmatrix loslegen.

Methoden gibt es viele

Analysemethoden gibt es wie gesagt viele, alle mit ihren spezifischen Vor- und Nachteilen. So können Ihnen Entscheidungsbäume helfen, Entscheidungsregeln aus Ihren Daten abzuleiten, die Sie interpretieren und in konkrete Betriebsanweisungen umwandeln können. Sind wichtige Betriebszustände jedoch nicht eindeutig zuordenbar, können Regeln schnell unübersichtlich oder ungenau werden.

Im Prozess wird vieles gemessen. Daher können Sie davon ausgehen, dass Sie nicht alle Variablen zur Beschreibung Ihres Problems benötigen. Durch eine Hauptkomponentenanalyse bzw. Principal Component Analysis (PCA) können Sie die Variablen identifizieren, die den größten Teil der Varianz in Ihrem vieldimensionalen Raum abbilden. Auf diese Weise können Sie die Analyse durch die Einschränkung auf die relevanten Einflussgrößen vereinfachen. Allerdings sind die resultierenden Variablen nicht immer einfach interpretierbar. Außerdem setzt die PCA wie alle multivarianten statistischen Verfahren das Vorhandensein einer symmetrischen Verteilung der Daten voraus, was bei industriellen Prozessen häufig nicht gegeben ist.

Hier sind beispielsweise künstliche neuronale Netze deutlich robuster. Auch können Sie eine höhere Zahl an Eingangsgrößen verarbeiten und jeglichen funktionalen Zusammenhang abbilden. Sie erhalten also ein Modell Ihres Prozesses und können damit durch Manipulation der Eingangsgrößen Dinge ausprobieren, die Sie in Ihrem Prozess so erst einmal nicht tun würden. Allerdings benötigen Sie für eine hinreichende Genauigkeit eine ausreichende Zahl an Datensätzen, die mit der Zahl der Freiheitsgrade exponentiell steigt. Außerdem ist die Konfiguration nicht ganz so einfach.

Process Data Analytics made by Yokogawa

Wir bei Yokogawa nutzen unter anderem die von uns entwickelte Software Process Data Analytics, die auf der Mahalanobis-Taguchi-Methode, einem Mustererkennungsverfahren basiert. Durch die Berechnung der sogenannten Mahalanobis-Distanz lassen sich Anomalien im Prozess detektieren. Zusätzlich bekommen Sie einen Hinweis, welcher der betrachteten Parameter wie stark zur Mahalanobis Distanz beiträgt. Durch Kombination mit den ebenfalls integrierten Darstellungen von Trends, Streudiagrammen und Histogrammen sowie statistischer Kenngrößen können auf diese Weise die Ursachen für die Anomalien wie beispielsweise Qualitätsprobleme oder Prozessschwankungen aufgedeckt werden.

Datenanalyse mit der Software Process Data Analytics

Datenanalyse mit der Software Process Data Analytics

Für mehr Informationen, lesen Sie den Gastbeitrag von Xiao Wei.

Augen und Ohren auf bei der Interpretation

Wichtig ist bei allen Analysen: lassen Sie nie ein intensives Prozesswissen außer Acht. Wenn Sie es selbst nicht mitbringen, reden Sie mit den Wissensträgern! Denn nur durch die Verknüpfung der geeigneten Analysemethode mit dem notwendigen Prozesswissen werden Sie Ihre Ergebnisse zielgerichtet interpretieren und Lösungen erarbeiten können.

Außerdem seien Sie sich immer bewusst, dass mit einer Analyse immer statistisch in den Daten vorhandene Zusammenhänge aufgedeckt werden. Diese sind als Hinweise, nicht als Beweise für eine reale Wirkung zu verstehen! Diese Tatsache kann Sie nämlich im Falle der Interpretation von Ursache und Wirkung in Bezug auf manipulierbare Variablen schnell einholen. Nämlich dann, wenn Sie eine manipulierbare Variable im Prozess anpassen und dort genau das Gegenteil von dem passiert, das sie aus der Datenanalyse eigentlich erwarten. Passen Sie manipulierbare Variablen daher bitte immer mit Bedacht und schrittweise sowie dem notwendigen Prozessverständnis an!

Fassen wir zusammen

Zusammenfassung des Schritts Analyse

Zusammenfassung des Schritts Analyse

Das war nun ein zugegebenermaßen – inhaltlich, nicht textmäßig – kurzer Abriss zum Schritt Analyse. Sollten Sie Fragen oder Anregungen haben oder Interesse an einer ausführlicheren Beschreibung des ein oder anderen Themas, lassen Sie es mich wissen! Schreiben Sie einen Kommentar, ich nehme Ihre Wünsche, natürlich aber auch Ihre Kritik gerne entgegen.

Alles klar soweit? Dann geht’s hier weiter mit dem Schritt Improve. Was machen aus den Ergebnissen der Analyse? Ob Prozessüberwachung, Soft-Sensoren oder Online-Optimierer. Die Möglichkeiten sind vielfältig. Seien Sie wieder dabei! Und wie immer: Nutzen Sie den Kommentar!


Einen Beitrag verpasst?
Kein Problem, hier finden Sie alle Serienbeiträge aufgelistet:
– 1. Beitrag: “Analysieren Sie Ihre Daten – in 5 Schritten zum Erfolg
– 2. Beitrag: “Analysieren Sie Ihre Daten – Schritt 1: Define”
– vorheriger Beitrag: “Analysieren Sie Ihre Daten – Schritt 2: Measure
– nächster Beitrag: “Analysieren Sie Ihre Daten – Schritt 4: Improve
– 6. Beitrag: Analysieren Sie Ihre Daten – Schritt 5: Control

Keine Kommentare

Schreibe einen Kommentar

Noch keine Kommentare

Seien Sie der Erste, der einen Kommentar schreibt.

Ihre Daten sind sicher!Ihre E-Mail wird nicht veröffentlicht. Es werden keine Daten mit Dritten geteilt.