
"Persönlich identifizierbare Informationen in Universal Analytics Report"
(Quelle: Universal Analytics)
Digital Analytics/30. Oktober 2023 -Aktualisiert am 17. Januar 2024/6 Min. Lesezeit
In diesem Blogartikel werden wir über die Handlungen und Ursachen sprechen, die zu Datenschutzverletzungen in Digitalem Marketing führen, und gleichzeitig die Schritte zur Verringerung dieser Risiken beleuchten.
Es gibt viele Arten von Daten, und Datenschutzverletzungen können verschiedene Arten von Daten betreffen. Wir werden uns in diesem Artikel explizit auf Persönliche Identifizierbare Informationen (PII) fokussieren, weil diese eine besonders hohe Sensibilität aufweisen und ein wesentliches Angriffsziel für Datenschutzverletzungen darstellen.
PII sind Daten, die dazu verwendet werden können, eine bestimmte Person zu identifizieren oder Kontakt mit ihr aufzunehmen. Dies können Informationen wie Name, E-Mail-Adresse, Telefonnummer, Geburtsdatum oder andere Angaben sein, die allein oder in Kombination dazu führen können, dass eine Person eindeutig identifiziert wird. Der Schutz von PII ist von entscheidender Bedeutung, um die Privatsphäre und den Datenschutz von Einzelpersonen zu wahren.
In der Analyse von personenbezogenen Daten in Google Analytics können folgende Dimensionen in die PII-Kategorie fallen:
Besonders relevant sind hier die URL-Bestandteile, da sie von Google Analytics erfasst werden. Eine der Hauptmethoden zur Identifizierung persönlicher Informationen besteht darin, gezielt nach bestimmten Merkmalen zu suchen. Ein häufiges Merkmal ist das "@"-Symbol, das in E-Mail-Adressen vorkommt.
Die beigefügte Abbildung zeigt verschiedene Beispiel-URLs, die das "@"-Symbol enthalten und an Google Analytics übermittelt wurden. Auf diese Weise lässt sich schnell erkennen, dass diese URLs persönliche Informationen enthalten.
"Persönlich identifizierbare Informationen in Universal Analytics Report"
(Quelle: Universal Analytics)
Diese Abbildung wurde als Beispiel konstruiert und darf nicht als echte Situation verstanden werden.
Bei den Untersuchungen zu Datenlecks haben wir festgestellt, dass in einigen Fällen E-Mail-Adressen in Google Analytics gespeichert wurden.
Eine mögliche Bedingung für das Sammeln von E-Mails in Google Analytics ist, wenn ein Benutzer oder eine Benutzerin sein/ihr Passwort für die Website vergessen hat. In diesem Fall erhält er/sie eine E-Mail mit einem Link zur Passwortwiederherstellung. Wenn der Benutzer oder Benutzerin auf diesen Link klickt und die neue Seite öffnet, werden möglicherweise weitere Daten erfasst.
Genau dieser Moment, wenn das neue "Fenster" der Webseite aufgemacht wird, wird oft für die Webanalyse verfolgt.
Für diesen Zweck wird eine Datenschicht an Analysetools gesendet, wobei Google Analytics als Beispiel hier verwendet werden kann. Ein Element in dieser Datenschicht ist der URL-Bestandteil. Durch einen fehlerhaften Aufbau der URLs können möglicherweise E-Mail-Adressen erfasst und an Drittanbieter weitergeleitet werden, ohne dass dies bemerkt wird, was zu Datenschutzproblemen führen kann.
Eine weitere Bedingung, wenn die URL-Daten übermittelt werden könnten, ist bei der Nutzung von Kontakt- oder Beschwerdeformularen. In diesem Ereignis werden zusammen mit anderen anonymisierten Daten auch URLs übertragen, um nachzuverfolgen, auf welcher Seite die Aktion ausgeführt wurde (zum Beispiel www.testseite.de/formular).
In der oberen Abbildung kann man solche URLs finden, wo die URL-Daten genutzt wurden, um die Zeit eines Ereignisses zu dokumentieren, was wiederum weitere Erkenntnisse ermöglichte, beispielsweise zur Popularität von bestimmten Zeiträumen. Allerdings wurden neben nicht als personenbezogen geltenden Daten auch verbotene Informationen wie E-Mail-Adressen, Telefonnummern und Namen erfasst.
Im Folgenden werden praktische Schritte und Empfehlungen vorgestellt, die dazu beitragen können, personenbezogene Daten in Webanalyse-Anwendungen zu erkennen und zu schützen.
Um zu verhindern, dass personenbezogene Daten an Drittanbieter gelangen, ist es ratsam, zusätzliche Tools wie den Google Tag Manager (GTM) zu verwenden. GTM ermöglicht es, relevante Daten vor der Übertragung an Analysetools zu modifizieren oder zu löschen und so einen Großteil der personenbezogenen Informationen zu filtern.
Hier wird auf die Arbeiten von Clifton (verified-data.com) und Ahava (simoahava.com) verwiesen, die beschreiben, wie Variablen im Google Tag Manager angepasst werden können, um personenbezogene Daten durch anonymen Text zu ersetzen. Es ist auch erwähnenswert, dass Bruns (metrika.de) eine Variable entwickelt hat, die auf den Arbeiten von Clifton basiert, aber an deutsche Postleitzahlen und Telefonnummern angepasst ist. Diese angepassten JavaScript-Variablen müssen dann in sogenannte Trigger oder Tags in GTM integriert werden. Mit Hilfe des Analytics-Seiten-Tags werden Seiten-URLs und -Titel aller aufgerufenen Seiten erfasst und geändert, bevor sie an Analysetools gesendet werden.
Eine weitere hilfreiche Methode ist die Verwendung von RegEx-Parametern. Dieser reguläre Ausdruck wird in das "Custom Task"-Feld eines Universal Analytics- oder Google Analytics 4-Tags eingefügt. Die Variable durchsucht die gesamte Datenschicht nach Übereinstimmungen mit den im Konfigurations-Array angegebenen regulären Ausdrücken. Wenn Übereinstimmungen gefunden werden, können diese bearbeitet werden. Ein mögliches RegEx-Beispiel könnte folgendermaßen aussehen:
1((\?|\&)(firstname|lastname|username|password|vorname|nachname|surname|email|searchhelper|cid|mail|gv_v|gv_n|anrede|g_tag|g_monat|g_jahr|strasse|hausnr|plz|ort)\=)|.+(@|%40).+
Die Webanalyse ist zweifellos ein leistungsstarkes Werkzeug für Unternehmen, um wertvolle Erkenntnisse über das Verhalten der Online-User zu gewinnen. Doch Organisationen sollten sich der Risiken von Datenlecks bewusst sein und angemessene Schutzmaßnahmen implementieren, um die Sicherheit der gesammelten Daten zu gewährleisten. Datenschutz und Datensicherheit sollten im Mittelpunkt jeder Webanalysestrategie stehen.
Es ist wichtig zu beachten, dass das Problem der Datenlecks in jedem Fall individuell betrachtet werden muss, da die Umstände sehr spezifisch sein können. Wir haben mögliche Bedingungen beschrieben und deren Konsequenzen aufgezeigt. Unsere Schlussfolgerung ist, dass die Datengewinnung für Webanalyse zusätzliche Kontrollen erfordert.