| von Julia & Patricia

Migrieren zum neuen Tableau Datenmodell? Eine Guideline

Einleitung

Die Tableau Desktop Version 2020.2 brachte eine bedeutende Neuerung im Bereich Datenmodellierung mit sich: Relationships. Wie verändern sich die Abfragen, die Tableau an die Datenbank schickt und wann lohnt es sich, bereits vorhandene Modelle umzubauen? Diese Fragen beantworten wir jetzt! Viele Kunden arbeiten bereits umfassend mit Tableau und haben bereits erstellte Datenmodelle im Einsatz. Eine Umstellung auf das neue Datenmodell kostet Zeit und Ressourcen – unter Umständen lohnt sich ein Umbau, um die Effizienz des Workbooks zu optimieren.

Umbau Datenmodell Tableau

Drei Modellierungsszenarien

Je nach Datenmodellierung geben wir eine Empfehlung, ob sich dieser Umbau lohnt. Dazu haben wir drei verschiedene Modellierungsszenarien nachgebaut.

  • Die Verbindung von Daten auf gleicher Aggregationsebene
  • Die Verbindung von Daten auf unterschiedlicher Aggregationsebene wobei einmal
  • das Verbindungsfeld beider Tabellen in einer Tabelle eindeutig ist und das andere Mal
  • das Verbindungsfeld beider Tabellen jeweils mehrfach vorkommt.


Bei einer Verbindung auf gleicher Aggregationsebene handelt es sich um eine 1:1 Beziehung zwischen den Daten. Diese Verbindung erfolgt durch einen Join: Dabei werden zwei Tabellen über die gleichen Ausprägungen einer Spalte, dem Join-Kriterium, miteinander verbunden. Bei einer 1:1 Beziehung ist das Join-Kriterium in beiden Tabellen eindeutig.

Bisher wurden 1:1 Verbindungen in Tableau über einen physischen Join umgesetzt, bei welchem eine große, flache Tabelle gebildet wird. Im neuen Datenmodell wird eine Beziehung auf der logischen Ebene gebildet. Die Aggregationsebene der Tabellen ist in der Standard-Einstellung nicht festgelegt: Durch Performance Optionen kann allerdings eingestellt werden, ob das Merkmal ein-/oder mehrdeutig ist und ob referentielle Integrität besteht. Die Aussage über die referentielle Integrität bestimmt, ob Tableau von vornherein einen Full Outer Join ausschließt oder auch direkt einen Inner Join ausprägt.

Datenmodell mit Bildung logischer Beziehung

Verbindungen auf gleicher Aggregationsebene

Für den Vergleich von Verbindungen auf gleicher Aggregationsebene wird 1. ein Join auf physischer Ebene, 2. eine Beziehung auf logischer Ebene in der Default-Einstellung und 3. eine Beziehung auf logischer Ebene inkl. Performance Options einander gegenübergestellt, woraus sich folgende Erkenntnisse ableiten lassen:

  • Die SQL Hauptabfragen der drei Modelle sind gleich.
  • Die Anzahl der Abfragen unterscheidet sich nur hinsichtlich der Performance Optimierung in Beziehungen (eine Abfrage weniger).

Ein Datenmodell mit einer 1:1 Beziehung kann sowohl als Join im physischen als auch als Beziehung im logischen Layer gebaut werden. Wenn möglich, sollten Performance Optionen eingestellt werden (diese sind auch bei einem physischen Join möglich). Eine Anpassung des Datenmodells mit 1:1 Joins ist demnach nicht notwendig. Allerdings trifft diese Aussage nur zu, wenn im Report immer alle Tabellen genutzt werden! Ein Join auf der physischen Ebenen wird immer ausgeprägt, auch wenn nur Felder aus einer Tabelle abgerufen werden. Nicht jedoch auf der logischen Ebene: Dort wird nur die Tabelle angesprochen, welche tatsächlich in der Visualisierung benutzt wird. Dementsprechend wird der Join nur bei Bedarf ausgeprägt.

Verbindungen auf unterschiedlicher Aggregationsebene

Verbindungen auf unterschiedlicher Aggregationsebene können sowohl auf einer 1:n Beziehung, ein Datensatz in Tabelle A entspricht mehreren Datensätzen in Tabelle B, als auch auf einer n:n Beziehung, mehrere Datensätze aus Tabelle A entsprechen mehreren Datensätzen aus Tabelle B, basieren. Bei einer 1:n Beziehung muss die Tabelle mit feinerer Granularität auf die Ebene der zweiten Tabelle aggregiert werden. Bisher wurde das in Tableau entweder über Data Blending oder über Level of Detail (LoD) Berechnungen gelöst. Das neue Datenmodell von Tableau übernimmt diese Aggregation automatisch für den Nutzer, sodass dieser nicht mehr selbst sicherstellen muss, dass die Kennzahlen auf der richtigen Aggregationsebene berechnet werden. Dies ist wichtig, damit es nicht zu ungewollten Vervielfachungen der Daten und damit zu falschen Zahlen im Bericht kommt.

Folgend werden die Abfragen von drei möglichen Datenverbindungen verglichen und die Ergebnisse analysiert:
1. Data Blending, 2. LoD Berechnungen und 3. das Data Model

  • Die Abfragen der drei Datenmodellierungen sind sehr unterschiedlich.
  • Blending scheint durch die unabhängigen Tabellen-Abfragen bei kleinen Datenmengen sehr performant zu sein, kann aber durch die dabei genutzte Filter Bedingung bei großen Datenmengen sehr langsam werden. Es ist wichtig zu beachten, dass mit Data Blending auch immer technische Einschränkungen einhergehen.
  • LoDs triggern verschachtelte und sehr komplexe Abfragen, die bei großen Datenmengen voraussichtlich eine schlechte Performanz aufweisen.
  • Bei der Nutzung einer Relationship zeigt die Analyse kurze und effiziente Abfragen auf beide Tabellen, durch die Aggregation der entsprechenden Kennzahlen. Anschließend werden die Ergebnisse gejoint.

Bei 1:n Beziehungen empfiehlt es sich, auf das neue Datenmodell von Tableau zu wechseln, da die Abfragen auch bei großen Datenmengen effizient sind und es keine technischen Einschränkungen bei der Dashboard-Erstellung gibt. Im Gegensatz zu Data Blending, bei welchem die Tabellen separat veröffentlicht werden, ist es außerdem möglich, eine Datenquelle zur Verfügung zu stellen, welche alle logischen Verbindungen zwischen den Tabellen enthält.

Im dritten Szenario werden n:n Beziehungen untersucht. Hier ist das Join-Kriterium in beiden Tabellen mehrdeutig und muss auf beiden Seiten aggregiert werden. Die Untersuchung der SQL-Abfragen eines Data Blendings und einer Beziehung ließen folgende Schlüsse zu:

  • Blending verursacht eine große Anzahl von Abfragen, außerdem erfolgt ein Vergleich zwischen dem Minimum und Maximum der übrigen genutzten und somit ggf. fein-granulareren Felder, was ggf. zu längeren Abfragezeiten führen könnte.
  • Die Beziehung ergibt eine zweifach verschachtelte Abfrage durch die nötigen Aggregationen beider Tabellen auf die entsprechenden Kennzahlen, insgesamt lassen sich zwei (sehr ähnliche) Tabellenabfragen dokumentieren.

Bei n:n Beziehungen empfiehlt es sich ebenfalls, auf das neue Datenmodell von Tableau zu wechseln, da die Tabellenabfragen in einer Abfrage zusammengefasst und dementsprechend effizient sind und es auch hier keine technischen Einschränkungen bei der Dashboard-Erstellung gibt.

Zusammenfassung und Empfehlung

Unsere Empfehlung zusammengefasst: Bei einer 1:1 Beziehung lohnt es sich nicht, auf das neue Tableau Datenmodell zu wechseln, da die Abfragen weitestgehend identisch sind. Werden in einem Dashboard zum großen Teil nur Visualisierung mit Verbindung zu einer der beiden Tabellen (bzw. ausgewählten Tabellen in einem Datenmodell) benötigt, ist auch hier das neue Datenmodell effizienter.

Bei einer Datenmodellierung mit Tabellen unterschiedlicher Aggregationsebenen empfiehlt es sich, auf das neue Datenmodell zu wechseln, da hier weniger und effizientere Abfragen gebildet werden. Wichtig ist dabei, dass keinerlei technische Einschränkungen bei der Erstellung des Dashboards vorliegen und eine gekapselte Datenquelle veröffentlicht werden kann, in welcher die Verbindungen zwischen den Tabellen bereits definiert sind. Es ist außerdem sinnvoll, wenn möglich die Performance Optionen zu nutzen, da diese die Anzahl der Abfragen verringern und die Datenverbindung entsprechend effizienter gestalten: Unnötige Aggregationen werden eingespart und gewünschte Join-Typen sind vorausgewählt.

Teile diesen Artikel mit anderen

Über den Autor

Julia Büchting beschäftigt sich als Data Artist mit dem Entwerfen, Umsetzen und Überarbeiten von BI Dashboards. Sie ist studierte Künstlerin und setzt ihre gestalterischen Fähigkeiten bei der Front End Gestaltung ein, um komplexe Information einfach verständlich zu machen. Julia betreut Kunden aus den Bereichen Banken, Pharmazie und Fertigung. Neben dem Bau von Dashboards gibt sie Tableau Trainings, Tableau Coaching Sessions und Workshops zu Layout und Farbwahl in BI-Dashboards.

Patricia Bobe beschäftigt sich als Tableau-Expertin insbesondere mit BI Anforderungen, Erstellung von Dashboards und Visual Analytics. Als Solution Expert bringt sie mehrjährige Projekterfahrung in verschiedenen Industriezweigen und Branchen, u.a. im Banking, Produktion und Retail, sowie Expertise im Bereich Data Discovery & Reporting bei der Woodmark ein.


Zur Übersicht Blogbeiträge