Lebenszyklus von Maschinendaten

Lebenszyklus von Maschinendaten

Der Lebenszyklus von Maschinendaten ist ein entscheidender Aspekt bei der Planung der Datenerfassung. Häufig macht man sich zu wenig Gedanken wie viele Daten übe die Zeit zusammenkommen und was man überhaupt langfristig damit anstellen will.

Nach den Prinzipien der Maschinendatenerfassung beschäftigen wir uns nun also mit dem Lebenszyklus der mühsam erhobenen Daten.

Der Lebenszyklus

Die Betrachtung des vollständigen Lebenszyklus der erhobenen Maschinendaten ist für einen effizienten Einsatz von hoher Bedeutung. Ansonsten können überhöhte Betriebskosten dazu führen, dass die MDE im Verhältnis zu ihrem Nutzen unrentabel wird.

Für den Lebenszyklus ist es entscheidend zu definieren, welche Daten für welchen Zweck verwendet werden sollen und wie lange sie hierfür vorgehalten werden müssen. Speicherplatz wird tendenziell zwar immer günstiger, aber dennoch ist es niemals wirtschaftlich, Daten langfristig verfügbar zu halten, wenn sie doch nie wieder genutzt werden.

Die Erfassung von Maschinendaten ist der Beginn im Lebenszyklus der erhobenen Daten. Im weiteren Verlauf ihrer Existenz muss sichergestellt werden, dass die Daten im Sinne ihres Verwendungszwecks nicht wieder verloren gehen. Die Resilienz gegen Datenverlust muss auf jeder Ebene der MDE sichergestellt sein.

Warteschlangen für Daten

Um Daten nach der Erfassung nicht zu verlieren, ist der erste Schritt, die Daten in einer Warteschlange für die weitere Verarbeitung zu speichern. Dieses puffern verhindert einen Datenverlust, wenn Systeme zeitweise ausfallen und neu gestartet werden müssen. Die Verarbeitung kann auf Basis der Warteschlange immer an dem Punkt fortgeführt werden, an dem zuletzt gestoppt wurde.

Mit Hilfe der Warteschlange können die Daten in einem Strom verarbeitet werden, der es zum einen erlaubt, immer die aktuellsten Werte zu verarbeiten und zum anderen sicherstellt, bei Bedarf auch die Historie zur Verfügung zu haben.

Warteschlangen und Puffer werden immer bei der Datenübermittlung zwischen zwei Systemen verwendet. Nur so kann sichergestellt werden, dass während der Wanderung der Daten durch unterschiedliche Systeme in ihrem Lebenszyklus keine Daten verloren gehen.

Auch Warteschlangen haben selbstverständlich eine begrenzte Kapazität. Daher ist hier eine Technologie zu wählen, die mit den Anforderungen an die Masse der erfassten Daten und der benötigten Speicherkapazität wachsen kann. Auch die Sicherung der Warteschlange selbst vor Datenverlust, z.B. durch redundante Speicher, ist ein zu betrachtender Aspekt.

Live Daten

Ein typischer Verwendungszweck im Lebenszyklus ist die Betrachtung von Live-Daten, um die Jetzt-Situation zu erfassen und zum Beispiel auf Status-Monitoren darzustellen. Sind die Maschinendaten nur für einen solchen Anwendungsfall von Interesse, ist nur eine temporäre Speicherung notwendig. Für die Live-Betrachtung spricht man auch von „heißen Daten“, die einen schnellen Zugriff und Abfrage erlauben.

Häufig ist die Live-Betrachtung jedoch nur ein Verwendungszweck und die Daten werden zusätzlich verwendet, um sie mit unterschiedlichen Verfahren zu analysieren. Hierzu werden die Daten in Werkzeuge geladen, die diese zum Beispiel in Graphen und Charts veranschaulichen. Die Analyse kann sich auf unterschiedliche Zeiträume erstrecken, aber häufig ist nur ein Zeitraum von wenigen Wochen oder Monaten von Interesse.

KI im Datenstrom

Die Analyse des Live-Datenstroms ist ein großes Anwendungsfeld für Algorithmen der künstlichen Intelligenz (KI), die mit Hilfe von maschinellen Lernverfahren versuchen statistische Muster in den Daten zu finden und hieraus Informationen abzuleiten. An dieser Stelle ergeben sich für die Qualitätskontrolle innerhalb eines Prozesses neue Möglichkeiten, da die Produktion in Echtzeit überwacht und lückenlos kontrolliert werden kann. Die MDE muss die entsprechenden Daten für diese Anwendungen als kontinuierlichen Datenstrom bereitstellen können.

Im weiteren Verlauf des Lebenszyklus stellt sich die Frage, ob die Daten beispielsweise nach einem Jahr nicht mehr genutzt werden und dann gelöscht werden können. Oder sollen die Daten zum Beispiel aufgrund von Dokumentationspflichten langfristig aufbewahrt und archiviert werden.

Archivierte Daten

Für die langfristige Archivierung der Daten werden so genannte Archivrichtlinien festgelegt, die beschreiben, wie lange welche Daten aufzubewahren sind. Neben der Dauer der Speicherung ist zu überlegen, ob Daten ggf. verdichtet abgelegt werden sollen, um Speicherplatz zu sparen.

Es kann von Interesse sein, die Live-Daten für einen relativ kurzen Zeitraum vorzuhalten, aber aus den Live-Daten abgeleitete Werte längerfristig zu speichern. Der Gedanke ist, dass durch Verdichtung der Werte zum Beispiel durch Mittelwertsbildung, die zu speichernde Datenmenge sinkt und dadurch die Daten länger vorgehalten werden können. Außerdem sind für spätere Betrachtungen die Mittelwerte ggf. ausreichend und man kann auf die originalen Rohdaten verzichten.

Je nach Richtlinie sind die Daten im Archiv durch geeignete technische Maßnahmen vor Verlust zu schützen. Erst nach Ablauf der definierten Aufbewahrungsdauer werden die Daten schließlich auch aus dem Archiv gelöscht und vernichtet.

Archivierte Daten haben aufgrund ihrer technischen Speicherung den Nachteil, dass sie nicht im unmittelbaren Zugriff stehen, da sie eben für langfristige Zwecke auf langsamen Medien mit viel Kapazität wie Magnetbändern gesichert sind. Man spricht hier auch von „kalten Daten“. Für diese Daten muss es einen Weg zurück aus dem Archiv in den direkten Zugriff geben. Aus den kalten Daten müssen wieder heiße Daten werden können.

Beispielsweise könnten Daten aus dem Archiv aufgrund einer Reklamation relevant werden und müssen so für eine erneute Analyse zur Verfügung gestellt werden. Daten müssen dementsprechend dem Archiv entnommen bzw. aus diesem kopiert werden können.

Daten in der Retrospektive

Die Betrachtung der Daten aus dem Archiv oder eine nachträgliche Analyse dieser Daten bezeichnen wir als Retrospektive. Das Archiv muss es ermöglichen, Daten eines bestimmten Zeitraums zu extrahieren und für Analysewerkzeuge zum Beispiel aus dem Bereich der Business Intelligence (BI) verfügbar zu machen.
Ist die Datenmenge zu groß, um sie durch eine Kopieroperation extrahieren zu können, sollte das Archiv so organisiert sein, dass Abfragen oder Analysen direkt auf dem Archiv stattfinden können. In diesem Bereich der Big Data Analyse dreht sich das Paradigma, indem die Analyse zu den Daten kommen muss, da die Daten aufgrund ihres Volumens nicht für eine Analyse kopiert und transportiert werden können.

Die genutzte Technologie zur Archivierung sollte also insbesondere dahingehend geprüft werden, wie die Daten aus dem Archiv in den produktiven Nutzen zurückfließen können.

Ist zu erwarten, dass das Archiv eine Größe erreichen wird, die es unmöglich macht die Daten einfach zu kopieren, müssen die Daten so abgelegt sein, dass moderne Technologien aus dem Big-Data Bereich direkt auf den Archivdaten operieren können ohne zuvor die Daten zu übertragen.

Auch der Transfer eines kompletten Archives sollte als Anwendungsfall in Betracht gezogen werden. Viele Angebote für Cloud-Speicher sind zum Beispiel einseitig ausgerichtet. Das Übertragen von Daten in eine Cloud-Plattform ist in der Regel sehr günstig und es fallen nur geringe Gebühren an. Der Download der Daten aus einer Cloud-Plattform wird hingegen deutlich stärker bepreist und kann zu hohen Kosten führen, wenn das Archiv abgezogen werden soll.