DATEN – BASIS DIGITALER PROZESSE
Jegliche digitale Transformation beruht im Kern auf einem datengestützten Prozess. Das unterscheidet Digitalisierung vom generellen Einsatz technischer Neuerungen. Entfällt die datengestützte Komponente sind auch digitalisierungsnahe Technologien ersteinmal nur interessante Gadgets, die sich aber kaum von analogen Alternativen unterscheiden. Ein wirklicher Schritt in die Digitalisierung wird damit erst vollzogen, wenn durch den Einsatz der Technologie Daten gesammelt werden und/oder Daten zu deren Nutzung einbezogen werden.
Viele Ansätze zur digitalen Transformation werden leider verworfen, weil man meint, nicht über ausreichende Daten zu verfügen. Tatsächlich dürfte es viel häufiger vorkommen, dass Daten vorhanden sind oder in Nutzungsprozessen von selbst anfallen. Ohne die Grenze zu personenbezogenen Daten zu berühren, gibt es unendlich viele Datenquellen, Statistiken, Ergebnisse aus Studien und Marktforschung, Sensoren und automatisierte Verfahren, um Daten zu erheben.
Ein weiterer, elementarer Fehler ist, Daten nur unter einer bestimmten Prämisse zu sammeln. Es geschieht dann schnell, dass bei der Erfassung alle Parameter, Indikatoren oder Objekteigenschaften eliminiert werden, die für die spätere Auswertung irrelevant erscheinen. So konzentriert man sich auf vermeintliche Zielgruppen, ohne deren Marktrelevanz zu kennen oder es werden Nutzungszusammenhänge in der Untersuchung vorausbestimmt, die eigentlich zu hinterfragen wären. Auf diese Weise werden Daten nicht nur für zukünftige Fragestellungen mit anderer Perspektive unbrauchbar, nein, sie sind es auch schon für die Klärung der angestrebten Fragestellung. Sofern Aussagebedarf, Auswertungsmethode und Erhebung nicht klar voneinander getrennt sind, fehlt den Daten jegliche statistische Relevanz.
KLASSISCHE IRRTÜMER
- Wir wissen schon, was uns die Daten sagen werden
- Unsere Daten sind lückenhaft, daher haben sie keine ausreichende Aussagekraft
- Wenn wir Google oder Amazon wären, dann hätten wir Zugang zu wichtigen Daten, die uns weiterhelfen
- Daten bilden bloß die Vergangenheit ab; sie nützen nichts für kommende Entscheidungen
- Uns sind durch den Datenschutz leider die Hände gebunden
Wenn Sie sich im einen oder anderen Statement wiederfinden, sollten Sie prüfen, ob die Erhebung und Auswertung von Daten doch vorteilhaft für Ihre Organisation sein könnte. Zunächsteinmal dürfen Sie sicher sein, dass niemand multiple lineare Regressionsrechnungen im Kopf durchführt und daher sagen kann, was Ihre Daten bedeuten. Es gibt zahlreiche Möglichkeiten Daten auszuwerten, sie wechselseitig in Zusammenhang zu bringen und nach Verbindungen und Häufigkeiten zu suchen. Nur wenn Sie sich auf diesen Weg einlassen, können Sie auch unerwartete Erkenntnisse gewinnen.
ENTSCHEIDUNGEN OPTIMIEREN
Ohne zu viel versprechen zu wollen: der wichtigste Erkenntnisgewinn, sich auf datengestützte Entscheidungsmodelle einzulassen, kann darin liegen, dass jahrelange interne Streitpunkte sich plötzlich in Luft auflösen. Wohl begründete Positionen zur Bedeutung von Zielgruppen, über optimalen technische Verfahren oder beste organisatorische Gestaltung erledigen sich von selbst, wenn statistische Verfahren oder Modellbildung zeigen, dass von diesen Eigenschaften, deren repräsentativen Parametern kein Einfluss auf die Gesamtperformance ausgeht.
Daten werden niemals vollständig sein. Ein exzellenter Umgang liegt darin, die Datenlücken logisch oder mittels mathematisch-statistischen Verfahren „zu schließen“ bzw. die Minderung im Aussagegehalt deutlich zu machen. Versuchen Sie nicht, Datenlücken durch vermehrten Aufwand oder strengere Erfassungsregeln zu beseitigen. Hier stehen Kosten und Nutzen niemals im Verhältnis. Wesentlich sinnvoller sind automatisierte Erfassungsformen, eine grundlegende Beachtung der unterschiedlichen Datentypen bei der Erfassung und deren Parametrisierung.
Vermeiden Sie den fatalen Fehler, Datenerhebung und Auswertung zu vermischen! Oftmals werden Daten nur so erfasst, dass sie für einen Handhabungsbereich Aussagekraft entwickeln. Diese Insellösungen sind sicher pragmatisch, verhindern aber die Verbindung und Verknüpfung mit Daten aus anderen Bereichen. Wo immer möglich sollten daher nicht nur übergreifende raum-zeitliche Parameter zu jeder Datenerfassung gehören, sondern auch interne Anknüpfungpunkte, alle verfügbaren ID-Nummern (z.B. Artikelnummern, Warengruppen-Bezeichner, Vorgangsnummer etc.) oder Referenztabellen, die solche Inselerfassungen verbinden helfen.
PERSONENBEZOGENE DATEN
Wer gezielt personenbezogene Daten sammelt, soll sich ohne Frage an die entsprechenden gesetzlichen Regelungen halten. Probate Mittel sind dann die sachgerechte Anonymisierung der Daten vor Weiterverarbeitung oder gleich die Trennung kritischer Datenpools. Für die breite Masse verwertbarer Daten gelten datenschutzbezogene Einschränkungen jedoch nicht. Wirklich kritisch ist allerdings die ungewollte Erfassung von Persönlichkeitsprofilen, die sich aufgrund kleiner Datenmengen mit typischen Merkmalen im Umkehrschluss ergeben kann. Auch dies ist durch die Datenschutzregeln untersagt.
ANALYSEMÖGLICHKEITEN
Arbeiten Sie sich in die Welt der Daten ein. Ein durchschnittlicher Computer und einfach Tabellenkalkulationen lassen heute Probleme lösen, die vor 20-30 Jahren noch Supercomputern vorbehalten waren. Multiple lineare Regressionsrechnungen, Ermittlung von Varianzen und Covarianzen, Matrizenrechnung, Lösungen komplexer linerarer Gleichungen nach Lagrange oder eine Portfoliooptimierung nach Markowitz – das ist inzwischen alles am Heim-PC lösbar. Hochprofessionelle Statistikprogramme mit fantastischen Visualisierungsmöglichkeiten sind als Freeware am Markt verfügbar. Und auch das Problem von Unvollständigkeit, Ungenauigkeit oder Datenwahrheit lässt sich mit statistischen Verfahren in den Griff bekommen.
Cleve, Jürgen; Lämmel, Uwe (2020): Data Mining. 3. Auflage: Berlin Boston : De Gruyter.