Data-Set
Vertieftes Wissen  |
Vertieftes Wissen
Lesedauer: 12 Min

Data Breaches – Ein Data Storyteller Case

André Wehr
In deiner Rolle als Data Analyst ist es ein Leichtes, Stakeholder und andere Informationsempfänger:innen mit Daten zu erschlagen. Teile durch gesammelte Daten doch besser Erkenntnisse und Kontext.

Denn nicht jede:r ist so versiert darin, Diagramme auf Anhieb zu verstehen. Hier eine Einführung ins Data Storytelling, anschaulich an einem real existierenden Beispiel, gezeigt.

Hier zunächst eine kurze Gliederung, sodass du an jeden Punkt gezielt springen kannst. 

Data Storyteller Case zu Data Breaches - ein Überblick

Inhaltsverzeichnis

Kürzlich stieß ich auf einen spannenden Datensatz von Informationisbeautiful. Dieser geht zurück bis ins Jahr 2004 und hat eine große Vielzahl sogenannter Data Breaches, oder auf deutsch Verletzungen der Datensicherheit, aufgelistet. 

Ein Auszug aus diesem Data-Set siehst du im nachfolgenden Bild. Natürlich gibt es Tabellen-, Excel- und Spreadsheet-Nerds unter uns. Diese erkennen schon Trends, Prognosen, Auffälligkeiten etc. beim bloßen daraufblicken. 

Anders verhält sich das im Normalfall bei Stakeholdern, z.B. aus dem Management, welche die Informationen und den Kontext leicht verständlich und als Vorbereitung für eine Entscheidung brauchen. 

Im Nachfolgenden fokussiere ich bewusst die Möglichkeiten und Schritte zum Ausführen einer verständlichen Daten-Story und spare die Prozess-Schritte des Data Cleanings etc. aus. Dabei nutze ich drei typische Tools, auch zum Vergleich der Wirkung. 

In jedem Unternehmen herrschen andere Voraussetzungen und Möglichkeiten. Mit diesen 3 Beispielen dürfte aber für so ziemlich jeden Analysten etwas dabei sein. 

Interessiert dich nur ein spezifisches Tool, dann springe gerne über die Links hier in der Aufzählung oder über das Inhaltsverzeichnis an die entsprechende Stelle im Artikel. 

Tableau: Der advanced und Software-kostenintensivere Weg

Aus dem tabellarischen Datensatz forme ich zunächst ein Bubble-Chart, mit dem ich verschiedene Dimensionen auf einen Blick greifbar bekomme. 

  • Die Größe der Bubbles zeigt die Anzahl der verlorenen Datensätze in Relation zueinander
  • Die Farbe der Blasen repräsentiert die Verlust-Methode
  • Die größten Fälle zeigen zudem noch den Namen der Organisation, die betroffen war
  • In der Hover-Over kannst du weitere Detailinformationen erfahren, die auf den ersten Blick aber deutlich zu viel und erschlagend wären. 
Um es gleich aufzuklären: Diese Visualisierung ist für mich auch genau NUR das. Eine Visualisierung. Sie erzählt keine Story für sich und ich kann damit weiterhin die Konsumentin oder den Konsumenten meiner Daten deutlich überfordern.

Im ersten wirklichen Storytelling-Schritt will ich dem Konsumenten meines Datensatzes die Frage anschaulich beantworten: Welche Branchen sind stark betroffen von Verletzung der Datensicherheit. 
So habe ich die Branchen auf der X-Achse aufgetragen und auf der Y-Achse die Summe über die verlorenen Datensätze gezogen. Um es nicht bei einer reinen Datenvisualisierung zu belassen, selektiere ich die Top 3 Branchen vor, um diese in den Vordergrund meiner Insight zu rücken. 

Die Kernaussage ist: Organisationen in den Branchen Web, Telekommunikation und Finanzen sind die Top 3 betroffenen, wobei Web um mehr als den Faktor 3 stärker betroffen ist als alle anderen. 

Nun will ich die Frage beantworten: Welche Methoden führten zu den meisten verlorenen Datensätzen?
Zur leichteren Lesbarkeit habe ich hier waagerecht verlaufende Bars verwendet, insbesondere, weil die Zahl der unterschiedlichen Methoden überschaubar klein war.

Die in dem Datensatz vorkommenden englischsprachigen Methoden des Datenverlustes erfordern eine kurze Erklärung, zumindest aber eine Übersetzung: 

  • hacked: Gehackt. Unbefugter Zugriff auf Systeme oder Daten durch Ausnutzung von Sicherheitslücken, oft durch externe Angreifer. Dies kann durch verschiedene Techniken erfolgen, einschließlich Phishing, Malware oder Exploiting von Software-Schwachstellen.
  • poor security: Mangelhafte Sicherheit. Datenlecks, die aufgrund unzureichender Sicherheitsmaßnahmen eintreten. Dies kann schlecht konfigurierte Server, veraltete Software, fehlende Datenverschlüsselung oder schwache Passwörter umfassen, die es Angreifern leicht machen, Zugang zu sensiblen Informationen zu erhalten.
  • oops!: Versehen!. Datenverluste, die durch menschliche Fehler oder technische Fehlfunktionen verursacht wurden, ohne böswillige Absichten. Beispiele hierfür sind das versehentliche Senden von sensiblen Daten an die falsche Person, Datenfreigaben durch Fehlbedienungen oder falsch konfigurierte Zugriffsrechte.
  • inside job: Interner Angriff. Datenpannen, die durch Personen innerhalb der betroffenen Organisation verursacht wurden. Dies schließt Mitarbeiter ein, die ihre Zugriffsrechte missbrauchen, um sensiblen Content zu stehlen, zu löschen oder freizugeben, oft aus Motiven wie Rache, Profit oder Sabotage.
  • lost device: Verlorenes Gerät. Verlust von Datenträgern wie Laptops, Smartphones, externen Festplatten oder USB-Sticks, die sensible Informationen enthalten. Der physische Verlust kann durch Diebstahl, Vergessen oder Verlegen des Gerätes auftreten und stellt ein erhebliches Sicherheitsrisiko dar, falls das Gerät unzureichend gesichert war (z.B. fehlende Verschlüsselung).
  • hacked, poor security: Kombination der beiden zuvor bereits genannten Methoden

Die Kernaussage ist: Hacking und Schwachstellen in der (IT-)Sicherheit sind mit großem Abstand die Methoden beim Verlust von Daten. 

Jetzt gehen wir einen logischen Schritt weiter und verknüpfen die beiden vorigen Perspektiven. Mit einer Korrelations-Matrix erlangen wir Kenntnis darüber, welche Branchen anfälliger für bestimmte Methoden der Datenentwendung sind bzw. welche Methoden gänzlich unüblich in Branchen sind. 

Die Kernaussage ist: In der am meisten betroffenen Branche Web dominiert das Verfahren Hacking und Sicherheits-Schwächen. 

Als letzte exemplarische Frage und damit verbundene Insights gehe ich dem nach, welche Unternehmen mehr als einmal von einem Datenverlust betroffen waren, bzw. ob sie sogar mehrfach auf die gleiche Art und Weise Daten (z.B. ihrer Nutzer:innen) verloren haben. 

So filtere ich hier nur die Unternehmen, die mehr als 1 Eintrag vorweisen, sortiere diese Absteigend, und gruppiere wiederum Balken, für unterschiedliche Methoden, die auf das Unternehmen Anwendung fanden. Zum leichteren Verständnis selektiere ich in der Darstellung nur die Top 5 mehrfach betroffener Unternehmen, um diese in den Fokus zu rücken. 

Die Kernaussage ist: Yahoo hatte sowohl den größten Verlust an Daten überhaupt, und zugleich gingen ihnen die Daten immer wieder durch Hacking verloren. 

Anzeige

tractionwise Logo

Ja, Daten sollen die Entscheidungsfindung in unserem Unternehmen beschleunigen und vereinfachen.

Google Looker Studio (vormals Google Data Studio): Der simple und Low-Cost Weg

Mit Google Looker Studio steige ich direkt in den ersten Storytelling-Schritt ein und gehe in den Branchen-Vergleich. 

In diesem Schritt will ich dem Empfänger meiner Data-Story verdeutlichen, welche Industriezweige besonders von Datenverletzungen betroffen sind. Dazu habe ich die verschiedenen Branchen auf der X-Achse dargestellt und die Gesamtzahl der betroffenen Datensätze auf der Y-Achse abgetragen. 

Die wesentliche Erkenntnis hierbei ist, dass die Branchen Web, Telekommunikation und Finanzwesen am häufigsten betroffen sind, wobei die Web-Branche mehr als dreimal so stark betroffen ist wie die anderen Branchen.

Sidenote: Eine technische Auffälligkeit ist, dass Google Looker Studio mir hier im Vergleich zu Tableau nicht auf einem einfachen Weg erlaubt, für das Teilen des Berichts, die Top 3 Bars zu markieren und dies so herauszustellen. Dies wäre nur mit nachträglichen manuellen Anpassungen möglich. 

Du siehst gerade einen Platzhalterinhalt von Google Looker Studio. Um auf den eigentlichen Inhalt zuzugreifen, klicke auf die Schaltfläche unten. Bitte beachte, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Informationen

Nun möchte ich klären, welche Methoden zu den umfangreichsten Datenverlusten geführt haben. Für eine verbesserte Lesbarkeit habe ich mich für horizontale Balkendiagramme entschieden, da die Anzahl der verschiedenen Methoden recht begrenzt ist.

Die in dem Datensatz vorkommenden englischsprachigen Methoden des Datenverlustes erfordern eine kurze Erklärung, mindestens jedoch eine Übersetzung:

  • hacked: Gehackt. Dies bezeichnet den illegalen Zugriff auf Daten oder Systeme durch Ausnutzung technischer Schwächen. Hacker nutzen oft Methoden wie Phishing, die Installation von Malware oder das Ausnutzen von Sicherheitslücken in der Software, um sich Zugriff zu verschaffen.
  • poor security: Mangelhafte Sicherheit. Diese Ursache für Datenlecks liegt in der ungenügenden Absicherung von Systemen. Häufige Probleme sind schlecht konfigurierte Server, veraltete Sicherheitssoftware, nicht vorhandene Datenverschlüsselung oder einfache Passwörter, welche die Systeme anfällig für Angriffe machen.
  • oops!: Versehen! Hierunter fallen Datenverluste, die ohne Absicht durch menschliches Versagen oder technische Fehler entstanden sind. Typische Beispiele sind das irrtümliche Versenden von Daten an die falschen Empfänger oder das ungewollte Freigeben von Daten durch falsche Handhabung der Systemeinstellungen.
  • inside job: Interner Angriff. Bei dieser Methode sind Mitarbeiter der eigenen Organisation die Täter, die bewusst Zugriffsrechte missbrauchen, um Daten zu manipulieren, zu stehlen oder zu zerstören. Motive können Rache, finanzieller Gewinn oder auch Sabotage sein.
  • lost device: Verlorenes Gerät. Der Verlust von Geräten wie Laptops, Smartphones oder USB-Sticks, die wichtige persönliche oder betriebliche Daten enthalten. Solche Vorfälle resultieren oft aus Diebstahl, Vergesslichkeit oder dem Verlegen der Geräte und können erhebliche Sicherheitsrisiken darstellen, besonders wenn die Geräte nicht verschlüsselt waren.
  • hacked, poor security: Kombination aus Hacking und mangelhafter Sicherheit. Diese Doppelnennung unterstreicht Fälle, wo durch schlechte Sicherheitsvorkehrungen externe Angriffe erleichtert wurden.

     

Es zeigt sich deutlich, dass Hacking und Sicherheitslücken in der IT die häufigsten Ursachen für Datenverluste darstellen, und zwar mit weitem Abstand zu anderen Methoden.

Du siehst gerade einen Platzhalterinhalt von Google Looker Studio. Um auf den eigentlichen Inhalt zuzugreifen, klicke auf die Schaltfläche unten. Bitte beachte, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Informationen

Wir vertiefen nun unsere Analyse, indem ich die zuvor betrachteten Aspekte miteinander verknüpfe. Durch die Nutzung einer Korrelationsmatrix identifiziere ich, welche Branchen besonders anfällig für bestimmte Methoden der Datendiebstahl sind und welche Methoden in bestimmten Branchen eher unüblich sind.

Die wesentliche Erkenntnis hierbei ist, dass in der Branche mit den meisten Vorfällen, dem Web, vor allem Hacking und IT-Sicherheitslücken vorherrschen.

Du siehst gerade einen Platzhalterinhalt von Google Looker Studio. Um auf den eigentlichen Inhalt zuzugreifen, klicke auf die Schaltfläche unten. Bitte beachte, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Informationen

Abschließend widme ich mich der Frage, welche Unternehmen wiederholt von Datenverlusten betroffen waren und ob diese Verluste mehrfach auf dieselbe Weise – beispielsweise durch Verlust von Nutzerdaten – erfolgten. Ich konzentriere mich auf Unternehmen, die mehr als einen Vorfall gemeldet haben, ordne diese absteigend nach der Anzahl der Vorfälle und gruppiere die Datenverlustmethoden in einem Balkendiagramm. Für eine klarere Darstellung hebe ich nur die fünf am häufigsten betroffenen Unternehmen hervor.

Die entscheidende Erkenntnis dabei ist, dass Yahoo nicht nur den größten Datenverlust erlitt, sondern dass diese Verluste auch konsequent durch Hacking verursacht wurden.

Sidenote: In Looker Studio ist es wiederum nur durch größeren Aufwand möglich, die Balken optisch leicht verständlich nochmals voneinander zu trennen, um diese jeweils den Unternehmen zuzuordnen. Die vertikalen Trennlinien sind daher entfallen. 

Du siehst gerade einen Platzhalterinhalt von Google Looker Studio. Um auf den eigentlichen Inhalt zuzugreifen, klicke auf die Schaltfläche unten. Bitte beachte, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Informationen

R / Shiny: Der technische und anpassbare Weg

Mit R und Shiny steige ich ebenfalls direkt in den ersten Storytelling-Schritt ein und gehe in den Branchen-Vergleich. 

In der initialen Phase des Storytellings möchte ich verdeutlichen, welche Sektoren besonders von Datenverletzungen heimgesucht werden. Hierfür sind die verschiedenen Branchen entlang der X-Achse angeordnet, während die Y-Achse die Gesamtsumme der kompromittierten Datensätze zeigt. Um die Analyse über eine simple Datenpräsentation hinaus zu erweitern, fokussiere ich auf die drei am stärksten betroffenen Branchen, die ich besonders hervorhebe.

Die zentrale Botschaft ist, dass die Sektoren Web, Telekommunikation und Finanzwesen als Top 3 der am meisten betroffenen Branchen identifiziert wurden, mit der Webbranche, die mehr als dreimal so stark betroffen ist wie die nächstfolgenden.

Integrierte Shiny App

Du siehst gerade einen Platzhalterinhalt von shinyapps. Um auf den eigentlichen Inhalt zuzugreifen, klicke auf die Schaltfläche unten. Bitte beachte, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Informationen

Jetzt untersuche ich, durch welche Methoden die meisten Datensätze verloren gingen. Um die Darstellung übersichtlicher zu gestalten, verwendete ich horizontale Balken, besonders passend wegen der geringen Vielfalt an Methoden.

Die in dem Datensatz vorkommenden englischsprachigen Methoden des Datenverlustes erfordern eine kurze Erklärung, mindestens jedoch eine Übersetzung:

  • hacked: Gehackt. Ein unautorisiertes Eindringen in Systeme, das durch das Ausnutzen von Sicherheitslücken erfolgt. Hacker verwenden dabei Techniken wie Phishing, Einsatz von Malware oder das Ausnutzen alter Sicherheitslücken, um sich Zugang zu verschaffen.
  • poor security: Mangelhafte Sicherheit. Dies beschreibt Situationen, in denen Datenverluste durch nicht adäquate Sicherheitsmaßnahmen verursacht werden. Typisch sind hier schlecht eingestellte Server, überholte Sicherheitssysteme, fehlender Verschlüsselungsschutz und schwache Passwörter, die leicht zu knacken sind.
  • oops!: Versehen! Dieser Ausdruck bezieht sich auf Datenverluste, die durch Fehler entstehen, die weder beabsichtigt noch durch externe Angriffe verursacht wurden. Beispiele hierfür sind das versehentliche Verschicken sensibler Informationen an die falschen Empfänger oder Fehlkonfigurationen, die zu ungewollten Datenfreigaben führen.
  • inside job: Interner Angriff. Datenverluste, die durch das Fehlverhalten von Organisationsmitgliedern entstehen, indem sie ihre Berechtigungen für unerlaubte Handlungen nutzen. Die Gründe hierfür können vielfältig sein, darunter Rache, Profit oder die Absicht zur Sabotage.
  • lost device: Verlorenes Gerät. Beschreibt den Verlust von Daten tragenden Geräten wie Laptops, Smartphones oder tragbaren Medien. Die Risiken sind besonders hoch, wenn diese Geräte gestohlen werden oder verloren gehen und keine adäquate Sicherheitsmaßnahmen wie Verschlüsselung bestehen.
  • hacked, poor security: Kombination der beiden zuvor genannten Methoden. Diese Kombination weist darauf hin, dass sowohl aktives Eindringen (Hacking) als auch passive Sicherheitsmängel (Poor Security) zu einem Datenverlust geführt haben.

Die Haupterkenntnis ist, dass Hacking sowie Schwachstellen in der IT-Sicherheit führende Ursachen für den Verlust von Daten sind, weit vor anderen Risikofaktoren.

Integrierte Shiny App

Du siehst gerade einen Platzhalterinhalt von shinyapps. Um auf den eigentlichen Inhalt zuzugreifen, klicke auf die Schaltfläche unten. Bitte beachte, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Informationen

Als logische Fortsetzung unserer Untersuchung verbinden wir die bisherigen Perspektiven mithilfe einer Korrelationsmatrix. Diese ermöglicht es uns zu erkennen, welche Branchen für spezifische Entwendungsmethoden besonders vulnerabel sind bzw. bei welchen Branchen bestimmte Methoden kaum vorkommen.

Im Fokus steht die Erkenntnis, dass in der besonders betroffenen Webbranche hauptsächlich Hacking und Schwächen in der Sicherheitsinfrastruktur die dominierenden Probleme darstellen.

Integrierte Shiny App

Du siehst gerade einen Platzhalterinhalt von shinyapps. Um auf den eigentlichen Inhalt zuzugreifen, klicke auf die Schaltfläche unten. Bitte beachte, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Informationen

Zuletzt untersuche ich, welche Unternehmen mehrfach Datenverluste erleiden mussten, und ob dieselben Methoden – zum Beispiel bei Nutzerdaten – wiederholt zum Tragen kamen. Hier filtere ich die Firmen heraus, die mehr als einmal betroffen waren, sortiere sie nach der Häufigkeit ihrer Vorfälle und visualisiere die verschiedenen Entwendungsmethoden pro Unternehmen mittels Balkendiagrammen. In der Analyse fokussiere ich auf die Top 5 der häufig betroffenen Unternehmen, um diese besonders zu beleuchten.

Die hauptsächliche Feststellung ist, dass Yahoo den umfangreichsten Datenverlust verzeichnete, wobei wiederholt Hacking die Ursache war.

Sidenote: Ähnlich wie bei Looker Studio ist auch in Shiny und dem verwendeten Plotly das Einbringen von vertikalen Trennlinien zum besseren Auseinanderhalten der Unternehmen und deren Methodiken nicht in einem vertretbaren Aufwand umzusetzen. Das kann beim Empfänger der Daten-Repräsentation zu Verständnis-schwierigkeiten führen. 

Integrierte Shiny App

Du siehst gerade einen Platzhalterinhalt von shinyapps. Um auf den eigentlichen Inhalt zuzugreifen, klicke auf die Schaltfläche unten. Bitte beachte, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Informationen

Fazit

Data Storytelling ist mit verschiedenen Werkzeugen möglich. Hier habe ich exemplarisch einige davon gezeigt. 

In der Erarbeitung eines Data-Storytelling Datensatzes bin ich mit den eingebauten Möglichkeiten in Tableau am schnellsten zu vorzeigbaren Ergebnissen gekommen, ausgehend aus meinen vorbereiteten Fragestellungen an den Datensatz. 

Quellen

André Wehr
André Wehr

MD tractionwise | Strategy, Data & Conversion