Citizen Data Science mit der Alteryx Intelligence Suite
Data Science und Machine Learning
In den vergangenen Jahren ist ein regelrechter Hype rund um das Thema „Data Science und Machine Learning“ entstanden. Kein Wunder, denn allein die weltweite Datenmenge wird bis zum Jahr 2025 auf rund 175 Zetabyte steigen, was in etwa 2 Billionen Filmen entspricht [1]. Zusätzlich dazu hat die Bundesregierung am 15. November 2018 die „Strategie Künstliche Intelligence“, ein KI-Förderpaket in Höhe von insgesamt rund 5 Milliarden Euro bis 2025, verabschiedet [2].
Wo die Nachfrage nach individuellen bzw. auf den jeweiligen Use-Case maßgeschneiderten Lösungen zunimmt, so steigt ebenfalls die Nachfrage nach einem einfacheren Zugang zu eben diesen statistischen Auswertungen.
In diesem Beitrag zeige ich, wie man mit der Alteryx Intelligence Suite ohne tiefgehende Programmier-Kenntnisse eine vollumfängliche Klassifizierungs-Analyse durchführen kann.
Data Science in Alteryx
Mit dem „Alteryx Designer“ bietet Alteryx von Haus aus eine sehr leistungsstarke und benutzerfreundliche Plattform, die Datenverarbeitungen und Modellierungen jeglicher Art für den bestimmten Anwendungsfall deutlich einfacher und intuitiver gestaltet. Zudem kommt hinzu, dass die Phase der Daten-Modellierung und Vorbereitung (Data Engineering) in einem Data Science Projekt oftmals unterschätzt wird, jedoch in vielen Projekten 70-80 % des Aufwands verschlingt.
Grundsätzlich hat man die Möglichkeit, das gesamte Projekt, inklusive Datenaufbereitung, Modellierung und Validierung in Alteryx durchzuführen. Sollten die Standard-Tools, nicht ausreichen, können durch die Integration von Python oder R alle Funktionalitäten externer Bibliotheken auch in Alteryx genutzt und eingebettet werden.
Im Folgenden zeige ich ein paar Beispiele auf, wie man Alteryx in einem Data Science Projekt verwenden kann:
Citizen Data Scientist | Data Scientist (intermediate) | Data Scientist (expert) | |
Datenvorbereitung |
Die sonst aufwändige Vorbereitung der Rohdaten kann über eine umfangreiche Palette an Standard Tools intuitiv und schnell umgesetzt werden. |
||
ML |
Durch Tools wie z.B. Auto-ML oder Assisted Modelling können verschiedene ML-Algorithmen einfach in den Workflow integriert werden. Im Assisted Modelling-Tool bekommt man zudem grundlegende Informationen zu den einzelnen Verarbeitungsschritten. |
Neben den Auto-ML und Assisted Modelling-Tools können zusätzlich die Prognose-Tools verwendet werden, um weitere Statistische Analysen zu fahren, die aktuell nicht durch die beiden vorher genannten Tools abgedeckt werden. |
Sollten sowohl die Auto-ML, Assisted Modelling sowie Prognose-Tools nicht ausreichen, dann kann über einen Python- oder R-Knoten entsprechender Code eingebunden werden, der das entsprechende Modell enthält. So können z.B. auch Deep Learning Modelle in Alteryx verwendet werden. |
Ausgabe |
Die Ausgabe der Modelle sowie der Modell-Metriken erfolgt in den jeweiligen Tools. Besonders im Assisted Modelling-Tool können die verschiedenen Algorithmen überschaubar miteinander verglichen werden. Die ausgegebenen Daten können daraufhin in eine Datenbank geschrieben oder exportiert werden. |
Die Ausgabe der verschiedenen Modelle erfolgt ebenfalls durch die jeweiligen Tools. Durch die zusätzlichen Prognose-Tools hat man hier weiterreichende Möglichkeiten verschiedene Metriken miteinander zu vergleichen oder zu bewerten. Die ausgegebenen Daten können daraufhin in eine Datenbank geschrieben oder exportiert werden. |
Die Ausgabe erfolgt jedoch grundsätzlich in Alteryx. Die ausgegebenen Daten können daraufhin in eine Datenbank geschrieben oder exportiert werden. |
Vorteile | Die Alteryx Intelligence Suite bietet gerade Citizen Data Scientists eine hervorragende Plattform um diverse Machine-Learning Tools oder Statistische Modelle zu verproben. Die Eintrittsbarrieren sind ebenso sehr niedrig, da für z.B. Tools wie Auto-ML oder vor Allem Assisted Modelling wenige bis keine Vorkenntnisse notwendig sind. | Die Vorteile für einen fortgeschrittenen Data Scientisten liegen vor Allem in dem schnellen Prototyping von diversen Algorithmen bzw. statistischen Modellen. Vorhandene Workflows können schnell und einfach „recycled“ werden und auf einen neuen Use-Case angewandt werden. So kann man vorab ein erstes Gefühl für die Daten bekommen und schnell feststellen, ob noch weitere Metriken verwendet werden sollten, oder ob sich eine umfangreichere Analyse überhaupt lohnt. Zudem lassen sich Daten in Alteryx je nach Anwendungsfall einfacher im Workflow verarbeiten, ohne dass in der IDE die einzelnen Datenpunkte manuell verarbeitet werden müssen. |
Für einen Data Scientist Experten bietet Alteryx vor Allem in der Vorverarbeitung sowie im Prototyping diverse Vorteile. Vorhandene Workflows können z.B. relativ schnell und einfach auf einen neuen Use-Case angewendet werden, ohne dass es einer umfangreichen Anpassung des Codes bedarf. Man hat zudem die Möglichkeit an verschiedenen Stellen einen Python oder R-Knoten einzubinden, sollten die von Alteryx bereitgestellten Tools nicht ausreichen. |
Praxisbeispiel Klassifizierung mit den Citizen Data Science Werkzeugen
In diesem Praxisbeispiel liegt der Fokus auf der Vorhersage der Kundenabwanderung (Churn) im Telekommunikationsbereich. Ziel ist es, auf Basis verschiedener Parameter wie z.B. der Anschlussart, der Bezahlmethode, der monatlichen Gebühr und der Anzahl der Jahre, die der Kunde bereits Leistungen durch den Telekommunikationsanbieter bezieht, festzustellen, ob der jeweilige Kunde in naher Zukunft den Vertrag kündigen wird oder nicht. Mit Hilfe eines trainierten Modells kann man daraufhin für aktuelle Kunden eine Wahrscheinlichkeitsverteilung für Churn/Nicht Churn berechnen und so mit gezielten Maßnahmen der Kundenabwanderung entgegenwirken.
In den folgenden Beispielen wird davon ausgegangen, dass sich die Rohdaten schon in einem relativ guten Zustand befinden und keine sonderlich aufwändigen Verarbeitungen im Voraus notwendig sind. Das bedeutet jedoch nicht, dass dies nicht auch in Alteryx möglich ist. Der Fokus liegt hier lediglich auf der Verwendung der Alteryx Intelligence Suite bzw. dem AutoML-Tool sowie dem Assisted-Modelling Tool.
Klassifizierung mit dem AutoML-Tool (geeignet für Anwender mittlerer DS Kenntnisse)
Das folgende Schaubild (Abbildung 1) zeigt die Modellierung mit Hilfe des AutoML-Tools in Alteryx. Durch das „Feature-Typen“ (1) Tool werden zunächst die Datentypen der jeweiligen Features analysiert und automatisch angepasst.
Hier kann man entsprechend Änderungen vornehmen, wenn manche Features nicht korrekt zugeordnet werden. Bevor die Daten mit dem AutoML-Tool analysiert werden, sollte zunächst die Prädiktionsgüte der Features mit dem Tool „Datengesundheit“ (siehe Abbildung 1: (2)) geprüft werden. Mit Hilfe dieses Tools wird jedes Feature auf 6 verschiedene Metriken (Column Score, Missing Values, Unique Values, Sparsity Id und Unary) analysiert und ein Rating, ein Score sowie eine Empfehlung ausgegeben. In diesem Fall hat das Tool erkannt, dass die Spalte bzw. das Feature „CustomerID“ einen sehr niedrigen Column Score aufweist. Tatsächlich verwendet man IDs grundsätzlich nicht in Machine Learning Modellen und daher sollte diese für die weitere Analyse aus dem Datensatz entfernt werden (siehe Abbildung 1: (3)).
Im Folgenden werden die Daten in einen Trainings- und Testdatensatz aufgeteilt (siehe Abbildung 1: (4)). Sind die Eingangsdaten vollständig, können diese nun durch das AutoML-Tool modelliert werden (siehe Abbildung 1: (5)). Hier hat man die Möglichkeit die Zielvariable festzulegen, zwischen Regression und Klassifizierung wählen, eine Zielfunktion bzw. Verlustfunktion sowie einen oder mehrere der genannten Algorithmen aussuchen. Die Modellgüte der verschiedenen Algorithmen wird daraufhin automatisch miteinander verglichen und das beste Modell samt diverser Metriken für die weitere Verarbeitung ausgegeben.
Im Folgenden wird das Modell verwendet, um Vorhersagen auf den Testdatensatz zu treffen (siehe Abbildung 1: (6)). Nun können verschiedene Metriken zur Evaluation wie z.B. die Trefferquote, eine Konfusionsmatrix, der AUC oder sonstige Kennzahlen berechnet werden (siehe Abbildung 1: (7)).
Klassifizierung mit dem Assisted Modeling Tool (präferiert für Citizen Data Scientists)
Bei der Assistierten Modellierung übernimmt das Tool automatisiert (sofern man sich für die Modellierung „mit Assistenz“ entscheidet) einen Großteil der Schritte, die im vorherigen Beispiel noch notwendig waren. Zunächst wird das Tool „Assistierte Modellierung“ in den Workflow integriert (Siehe Abbildung 4: (1)) – Input hierfür sind die Rohdaten.
Vor dem erstmaligen Ausführen des Workflows kann man in dem Tool zwischen „Assistenz“ und „Experte“ wählen. Im Assistenz-Modus wird man durch den gesamten Modellierungs-Prozess geleitet. Im Experten-Modus muss man die jeweiligen Tools eigenständig in den Workflow integrieren und die Daten, ähnlich wie im vorherigen Fall, vorher veredeln und ein geeignetes Modell auswählen.
Startet man nun die Assistierte Modellierung, so öffnet sich ein Pop-Up-Fenster in dem man Schritt-für-Schritt durch den gesamten Modellierungsprozess geführt wird.
Im ersten Schritt wird die Zielvariable sowie die Machine Learning-Methode (Klassifizierung oder Regression) definiert. Daraufhin kann man zwischen zwei Automatisierungsstufen wählen – Schritt für Schritt oder Automatisch. Wählt mal hier „Automatisch“, so entfallen die Schritte 3 bis 6. Die Assistierte Modellierung erstellt eigenständig die Machine Learning-Pipeline: Sie legt Datentypen fest, bereinigt fehlende Werte, wählt Eigenschaften aus und legt einen Algorithmus fest.
In Schritt 3 werden nun die Datentypen festgelegt bzw. geändert. Wo man im vorherigen Beispiel mit Hilfe des Datengesundheit-Tools noch manuell überprüfen musste, ob die jeweiligen Features mehr oder weniger gut für das Modell geeignet sind und ob ggf. manche Features entfernt werden müssen, übernimmt das Tool diesen Schritt hier automatisch. Das Tool erkennt ebenfalls korrekt, dass das Feature „CustomerID“ entfernt werden sollte.
Die jeweilige Konfiguration kann man, sollte man mit der vorgegebenen Auswahl unzufrieden sein, manuell anpassen. Im nächsten Schritt werden fehlende Werte bereinigt und durch eine ausgewählte Methode ersetzt. In diesem Fall enthält das Feld „TotalCharges“ 11 Datensätze mit Null-Werten. Für diese wird eine automatische Ersetzung durch den Median-Wert empfohlen.
In Schritt 5 werden die einzelnen Features auf die ihre Prädiktionsgüte hin untersucht. Die Assistierte Modellierung verwendet hier den GKT (Goodman-Kruskal Tau) sowie Gini-Score, um zu bestimmen, ob das jeweilige Feature ein guter Prädikator ist oder nicht.
Die Eigenschaft „PhoneService“ wird in diesem Fall aus dem Trainingsdatensatz entfernt, da Sie mit einem Gini-Score von 0.57 eine sehr schwache Assoziation mit der Zielvariablen aufweist. Im finalen Schritt wählt man nun einen oder mehrere Algorithmen für die Analyse der Daten aus.
Die einzelnen Modelle werden daraufhin auf den bereinigten Trainingsdatensatz angewendet und miteinander verglichen. Als Resultat erhält man ein Dashboard mit allen wichtigen Informationen auf einen Blick.
Auf den Reitern „Vergleich“, „Überblick“, „Interpretation“ sowie „Konfiguration“ findet man weitere Statistiken zu den ausgewählten Algorithmen bzw. Modellen. Nun hat man die Möglichkeit, ein bestimmtes Modell zum Workflow hinzuzufügen. Dafür wählt man einfach das entsprechende Modell aus und klickt auf das Feld „Modelle hinzufügen und mit dem Workflow fortfahren“. Der Workflow wird dann wie folgt automatisch aufgebaut:
Es werden automatisch jeweils 4 Transformations-Tools sowie ein Klassifizierungs-, Anpassen- und Vorhersagen-Tool hinzugefügt (siehe Abbildung 14: (2)). Die Einstellungen innerhalb der Tools können auch nach dem Hinzufügen in den Workflow unabhängig voneinander verändert werden. Als finaler Schritt werden nun die Testdaten aus der Stichprobenerstellung mit dem Vorhersagen-Tool verbunden und es können wie auch im vorherigen Beispiel (AutoML) diverse Metriken zur Modellgüte berechnet werden (siehe Abbildung 14: (3)).
Fazit
Die Praxisbeispiele zeigen, wie man Alteryx und insbesondere die Alteryx Intelligence Suite in einem Data Science Projekt verwenden kann und welche Möglichkeiten die verwendeten Tools darüber hinaus bieten. Für unterschiedliche Anwendergruppen ergeben sich hieraus unterschiedliche Lösungen. Möchte man nun lediglich die Vorverarbeitung vereinfachen oder vielleicht sogar automatisieren, ein schnelles Prototyping verschiedener Algorithmen/Methoden nutzen oder gar Teilprozesse auslagern, bietet Alteryx für so gut wie jeden Schritt eine Lösung. Sollten die hauseigenen Tools dennoch nicht ausreichen, hat man stets die Möglichkeit Python oder R direkt in den Workflow zu integrieren und individuelle Anpassungen vorzunehmen. Damit bietet die Intelligence Suite eine optimale Basis für statistische Auswertungen und adressiert gleichermaßen Citizen Data Scientists als auch fortgeschrittene Data Scientisten.
Gerne helfen wir auch Ihnen, Ihren Data Science Use Case mit Alteryx umzusetzen. Sprechen Sie uns einfach an!
Quellen
[1] https://www.iwd.de/artikel/datenmenge-explodiert-431851/
[2] https://www.bmwi.de/Redaktion/DE/Artikel/Technologie/kuenstliche-intelligenz.html