Freitag, 18. Juni 2021

Process Mining

Das „Data Mining“ hatte ich schon letztes Jahr in einem Blogeintrag über die Künstliche Intelligenz erwähnt. Die Wikipedia meint, es handelt es sich bei der Bezeichnung um einen „misnomer“, weil es beim Data Mining nicht um den Abbau von Daten, sondern um das Entdecken von Mustern in Daten geht. Ich hatte Anwendungsbeispiele wie die Warenkorbanalyse und die Kundensegmentierung genannt. Bei der Warenkorbanalyse wäre der Klassiker für ein entdecktes Muster die Erkenntnis, daß der Kauf von Artikel X häufig im Zusammenhang mit dem Kauf von Artikel Y steht. Bei der Kundensegmentierung entsprächen den erkannten Mustern die aus den vorhandenen Kundendaten erkannten Kundengruppen und Angaben, mit welchen Merkmalen sich diese Gruppen voneinander abgrenzen lassen.

Die Wikipedia sortiert Data Mining lesenswert in eine größere zeitliche Entwicklung ein. Aus der Formulierung, daß um 1990 die Bezeichnung „Data Mining“ in der „database community“ auftauchte, möge man aber nicht schließen, daß seinerzeit hierzulande schon eine größere Zahl von Datenbankleuten mit dieser Bezeichnung etwas anfangen konnte. Eine „breitere Bekanntheit“ dürfte erst mit einem Artikel wie „Schwarze Magie - Knowledge Discovery: Suche nach verborgenen Schätzen“ in der iX vom August 1997 begonnen haben. Die Bezeichnung „Knowledge Discovery“ wurde in diesem Artikel synonym zu „Data Mining“ verwendet. Im Artikel wurde als Anlaufpunkt im Netz die Website www.kdnuggets.com genannt. Die spielt heute noch eine prominente Rolle. Und die „Nuggets“ bringen auch gut auf den Punkt, was man in den Daten sucht.

Ich hatte letztes Jahr erwähnt, daß bei meinem Erstversuch mit dem Algorithmus für die Warenkorbanalyse ausschließlich uninteressante Regeln herauskamen. Als Testdaten hatte ich aber auch nur wenige hundert Datensätze verwendet. Ein geeigneteres Biotop für solche Algorithmen dürften stattdessen die immensen Mengen von Verkaufsdaten derjenigen Firmen gewesen sein, die damals in großem Umfang versuchten ihre Kundschaft mit Kundenkarten zu beglücken. Man sollte in solchen Firmen auch an das direkte Umfeld um die Datenanalyse herum denken. Es mußten damals Personen involviert gewesen sein, die sich über Änderungen bei den Angeboten Gedanken machten, damit sich die Datenanalysten auch lohnten. Das Management mußte wissen, um was es geht und hinter der Sache stehen. Man kann zu dem großen Rad, das sich damals zu drehen begann, auch die Welt außerhalb der direkt betroffenen Firmen hinzunehmen, die sich mittels Artikeln darüber informierte, was man mit so großen Datenmengen machen kann.

Wie auch schon erwähnt, ist der Einstieg in das Data Mining aber relativ einfach. Damals schon hatte ich eine Demodiskette mitbekommen, bald darauf konnte man ganze Anwendungspakete herunterladen. Ich könnte mir vorstellen, daß man bei passender Datenlage selbst mit schnell erworbenen Data-Mining-Fähigkeiten Anfangserfolge erzielen kann. Man hat ja professionelle Algrorithmen zur Verfügung. Für einen substanzielleren Schritt in die Zukunft müßte aber aus meiner Sicht schon ein irgendwie ausgestaltetes größeres Rad gedreht werden. Ich weiß nicht, wie da die Aussichten in meinem bebloggten Bereich sind. Hinsichtlich dem Interesse drumherum ist für mich ein frühes virtuelles Museum ein Menetekel. Man könnte auf eine Vorreiterrolle stolz sein und versuchen darauf aufzubauen, aber dieses virtuelle Museum hing schon vor Jahren in den Seilen, momentan ist es anscheinend gar nicht mehr erreichbar. Vor Jahren hatte ich schon das Gefühl, daß dieses Projekt niemand mehr von dem Museum, dem es zugeordnet war, kannte. In diesem Sinne fände ich jedenfalls ganz interessant, etwas über die Resonanz von anderen Museen auf ein Projekt des Hasso-Plattner-Instituts (HPI) mit dem Museum Barberini zu erfahren. Es gibt zum Projekt einen sehr hörenswerten Podcast „Wie Museumserlebnisse dank Daten-Analysen verbessert werden können“. Das Museum Barberini hatte hier zwar gegenüber anderen Museen den Vorteil des kompetenten und sehr arbeitsstundenintensiven Anschubs durch das Hasso-Plattner-Institut (HPI). Anderseits sind die Ergebnisse auf Github offen gelegt. Andere Museen könnten da reinsehen und darauf aufbauen.

Ab Minute 7:37 geht es im verlinkten Podcast um die Museumsapp des Museums Barberini, die auch als Audioguide nutzbar ist und mit der man dann sehen kann, wie die Leute durch das Museum laufen und wie lange sie wo stehen bleiben. Abstrahiert gesagt erhält man durch die Museumsapp ein Event-Log und kann dieses mittels Process-Mining-Algorithmen auswerten. Wesentlich ist da die Orientierung an dem Prozess, für dessen Event-Log man ggf. auf unterschiedliche Quellen zugreifen muß. Im Falle des Prozesses „Museumsbesuch“ reichen die über die Museumsapp erhaltenen Daten. Bei einem Geschäftsprozess, der mit einem Posteingang beginnt und mit einer Sachbearbeitung weitergeht und zu einem Antwortschreiben oder einer weiteren Bearbeitung führt, müßte man auf unterschiedliche Quellen zugreifen. Man kann dann aus dem Event-Log wie für die Museumsapp beschrieben verfolgen, wie sich der Prozess in der Praxis abspielt. Je nach Gegebenheiten kann damit Unterschiedliches entdeckt werden. Man wird sich meist vorab überlegt haben, wie die Prozesse verlaufen werden. Durch Auswertungen könnte sich das bestätigen, man könnte nicht planbare Ergänzungen wie etwa Zahlenverteilungen zum Geplanten finden, man könnte aber auch wesentliche Abweichungen entdecken.

Zum Process Mining wird schon länger ein MOOC bei Coursera angeboten. Eventuell ist dieser Kurs in jüngerer Vergangenheit nicht mehr upgedatet worden, denn Wil van der Aalst ist laut Wikipedia nun Professor an der RWTH Aachen und war früher Professor an der Technischen Universität Eindhoven, während Coursera noch die Universität Eindhoven angibt.

Anlaß für diesen Blogeintrag über das Process Mining war aber nun der neue OpenHPI-Kurs „A Step-by-Step Introduction to Process Mining“ von Prof. Mathias Weske und Prof. Henrik Leopold. In den wollte ich aber erst selbst hineinsehen, bevor ich etwas über ihn schreibe. Das habe ich inklusive der Hausarbeiten erst auf den letzten Drücker geschafft. D.h. der Kurs ist seit ein paar Wochen zuende. Das Kursmaterial steht aber weiterhin kostenlos für ein Selbststudium verfügbar.

Den Kurs von Prof. van der Aalst dürfte, falls fehlende Aktualisierungen keine zu großen Schwierigkeiten machen, aus mehreren Gründen die interessantere Option sein: zum einen ist der Lehrumfang deutlich umfangreicher als beim OpenHPI-Kurs (deutlich mehr Lehrmaterial pro Woche und vier statt zwei Wochen Kursdauer). Zum anderen gibt es von Prof. van der Aalst ein Lehrbuch, das auch im OpenHPI-Kurs empfohlen wird.

Hinsichtlich dem OpenHPI-Kurs ist noch seine Nähe zu der Spezifikationssprachen für Geschäftsprozesse „Business Process Model and Notation“ (BPMN) zu erwähnen. Prozesse kann man auf unterschiedliche Weise darstellen. Der Aufwand, sich in die Darstellungsform einzuarbeiten, hält sich für Kurszwecke üblicherweise in Grenzen. Der OpenHPI-Kurs ist bei der Sprache auf BPMN hin orientiert und ergänzt damit eine Reihe von BPMN-Kursen von Prof. Weske, die in den vergangenen Jahren von OpenHPI angeboten wurden und noch für das Selbststudium zur Verfügung stehen.

Keine Kommentare: