Geister-Leads: Hinter den Kulissen der B2B-Besuchererkennung
In unserem aktuellen Vergleichstest der B2B-Besuchererkennungs-Plattformen von Leadfeeder, Leadinfo und SalesViewer stießen wir auf ein beunruhigendes Phänomen: Hohe nominelle Erkennungsraten gehen oft mit erheblichen Fehlerquoten einher. Während SalesViewer im Test durch eine hohe Datenpräzision überzeugte, tauchten in den Dashboards von Leadinfo und Leadfeeder plötzlich Firmen auf, die unsere Website faktisch nie besucht hatten. Doch wie kommen solche „Geister-Leads“ technisch überhaupt zustande? In diesem Blogpost gehen wir der Frage nach, welche Erkennungsmechanismen diese Fehler verursachen können. Wir werfen einen Blick auf die komplexe Datenübermittlung und zeigen, wie die Branche versucht, anonymen Traffic zu de-anonymisieren.

Der Homeoffice-Test: Wenn Mitarbeitende zu italienischen Firmen werden
Der Ausgangspunkt unserer forensischen Analyse war ein kontrolliertes Testszenario: 18 Mitarbeitende aus dem Publicare-Team griffen zu exakt definierten Zeitpunkten aus dem Homeoffice auf spezifische Blogbeiträge unserer Website zu. Da diese Zugriffe über klassische, dynamische IP-Adressen (Telekom, Vodafone etc.) erfolgten, hätten B2B-Tools diese Besuche schlichtweg ignorieren müssen. (Lesen Sie hier den detaillierten Test-Bericht)
Das Ergebnis war jedoch ein anderes: Leadfeeder registrierte vier dieser Homeoffice-Zugriffe fehlerhaft als Besuche von Drittfirmen. Leadinfo wies zwei der gezielten Besuche fälschlicherweise existierenden Unternehmen zu. SalesViewer erkannte diese Zugriffe hingegen korrekterweise nicht als auswertbare B2B-Unternehmen und produzierte somit keine Geister-Leads. Dies wirft die Frage auf: Auf welche brüchigen Datenquellen und Algorithmen greifen manche Anbieter zurück, die zu solch gravierenden Fehlern führen?
Die technische Basis: Statische IPs und der OSI-Layer
Der klassische Ankerpunkt jeder B2B-Identifikation ist die IP-Adresse. Nutzen Organisationen statische IP-Adressen, die fest in den Datenbanken der regionalen Internet-Registrare hinterlegt sind, können SaaS-Lösungen diese über einen Reverse-IP-Lookup der Firma und dem Standort direkt zuordnen. Das Problem beginnt bei Mitarbeitenden im Homeoffice, die über dynamische IP-Adressen regulärer Internet-Service-Provider surfen. Ein einfacher Lookup liefert hier nur den Provider. Auch bei grundsätzlich statischen IP-Adress-Pools bekommt man nicht immer die gewünschte Antwort aus Reverse Lookups. Um diesen Traffic dennoch Firmen zuzuordnen, müssen Lösungen zur Besuchererkennung auf weitaus tiefgreifendere und oft fehleranfällige Methoden zurückgreifen.
Veraltete IP-Listen und das Phänomen der "Daten-Erosion"
Die Fehlerkennungen unseres Homeoffice-Tests legen den Verdacht nahe, dass Teile der Branche, um auch bei dynamischen Adressen Zuordnungen vornehmen zu können, auf zugekaufte, historisch gewachsene IP-Adressdatenbanken zurückgreifen.
Das Hauptproblem hierbei ist die sogenannte „Daten-Erosion“. Statistiken zeigen, dass in einem durchschnittlichen Monat etwa 16 Prozent der IPv4-Adressen ihren Standort oder ihre Zuordnung ändern. Wenn eine dynamische IP-Adresse – ob durch alte Formulareinträge oder Leaks aus Drittquellen – in der Vergangenheit einmal fälschlicherweise einem Unternehmen zugeordnet wurde, bleibt sie oft jahrelang als scheinbare "Firmen-IP" in diesen Systemen hängen. Günstige Anbieter beziehen ihre Daten teils aus WHOIS-Einträgen, in denen Unternehmen ihre Netzwerknutzung nicht in Echtzeit dokumentieren. Wenn Algorithmen auf derart veraltete oder unsaubere Datenbanken zurückgreifen, würde dies eine plausible Erklärung für unser Testergebnis liefern. Die dynamische IP-Adresse eines Homeoffice-Mitarbeiters* ist nur kurzfristig einem Endnutzer zugewiesen, doch das Tool zeigt beharrlich ein veraltetes Unternehmen aus der Datenbank an.
Ein weiteres Phänomen sind Ungenauigkeiten, die aufgrund von sonstigen Anonymisierungsmaßnahmen wie der Streichung der letzten Stellen von IP-Adressen entstehen. Viele allgemeine Analytics-Lösungen und Datenquellen streichen die letzten Stellen einer IP, damit diese nicht mehr klar zuzuordnen ist. Teilweise scheinen solche ungenauen Daten aber als Grundlage genutzt zu werden. Ein solcher Pool lässt aber bei Streichung des letzten Bytes einer IPv4-Adresse 256 Möglichkeiten offen. Das bedeutet: Werden solche Daten verwendet, hat eine Erkennung potenziell 255 „Nachbarn“, die fälschlich ebenfalls zugeordnet werden können.
Identity Graphs und das Homeoffice-Rätsel
Eine weitere technische Erklärungsmöglichkeit für die absurden Zuordnungen in unserem Homeoffice-Test liegt im möglichen Einsatz sogenannter "Identity Graphs". Da der reine IP-Lookup bei dynamischen Adressen ins Leere läuft, könnten Anbieter auf zugekaufte Datenbanken zurückgreifen, die Milliarden von Verknüpfungen zwischen verschiedenen Identifikatoren speichern. Dafür müssten sie Kooperationen mit Ad-Tech-Netzwerken oder Fach-Publishern eingehen. Das Prinzip: Loggt sich ein Nutzer auf einer Partnerseite (z. B. einem IT-Portal) mit seiner Firmen-E-Mail ein, verknüpft der Identity Graph diesen Login mit der derzeitigen dynamischen IP-Adresse. Besucht einige Zeit später ein völlig anderer Nutzer, der zufällig dieselbe dynamische IP vom Provider zugewiesen bekommen hat, die Website, schlägt der veraltete Identity Graph an. Das System stellt eine falsche historische Verknüpfung her und weist den Besuch fälschlicherweise dem Unternehmen des ersten Nutzers zu.
Cloud-Proxys und manipulierte Header
Eine weitere Fehlerquelle, die die signifikante Zahl an Falscherkennungen begünstigen könnte, entsteht durch Netzwerk-Intermediäre. In großen Organisationen leiten Cloud-Sicherheitslösungen (wie Zscaler, Netskope und Palo Alto Networks) die Anfragen tausender Firmen über gebündelte, gemeinsame IP-Pools weiter. Um die ursprüngliche Herkunft dennoch zu erkennen, lesen B2B-Tools HTTP-Header wie "X-Forwarded-For" aus. Diese dokumentieren eine IP-Kette des Anfragepfads. Da dieser Header jedoch leicht manipuliert werden kann oder Enterprise-Firewalls teils eigene Header injizieren, müssen Identifikationstools entscheiden, welcher IP sie vertrauen. Verlässt sich ein Erkennungsalgorithmus blind auf den ersten Eintrag oder wertet Proxy-IPs aufgrund veralteter Datenbanken oder unscharfer Zuordnungen falsch aus, werden Besucher permanent einer völlig falschen Firma zugeschrieben.
Tiefer in die Protokoll-Trickkiste: ETags und HTTP/3
Da herkömmliche Tracking-Cookies zunehmend blockiert oder von Nutzern über das Consent-Banner abgelehnt werden, weicht die Tracking-Industrie teilweise auf tiefgreifende Protokoll-Besonderheiten als versteckten Cookie-Ersatz aus. Es liegt nahe, dass im Wettlauf um die höchsten Erkennungsraten auch solche Graubereich-Methoden von verschiedenen Anbietern auf dem Markt erprobt werden.
Um Bandbreite zu sparen, validieren Browser beispielsweise Ressourcen über den Cache (mittels ETags oder Zeitstempeln). Wenn ein SaaS-Tool serverseitig auswertet, ob eine Ressource noch im Cache des Nutzers liegt, können diese Header wie ein eindeutiger Identifikator wirken. Ebenso nutzen moderne Protokolle wie HTTP/3 (QUIC) sogenannte "Connection IDs". Diese ermöglichen es, eine Verbindung aufrechtzuerhalten, selbst wenn der Nutzer das Netzwerk wechselt – ein mächtiger Anker, um die Kontinuität eines Besuchs lückenlos zu garantieren, selbst wenn die IP-Adresse wechselt.
Browser-Fingerprinting: Eindeutigkeit durch Auslesen der Hardware
Um Endgeräte gänzlich ohne Cookies wiederzuerkennen, können Identifikationssysteme clientseitige Skripte für das Browser- oder Device-Fingerprinting nutzen. Dabei wird eine Kombination von Systemmerkmalen ausgelesen, die in ihrer Summe oft einzigartig ist. Zu den ausgelesenen Attributen gehören Hardware-Konfigurationen (Prozessorkerne, Arbeitsspeicher), die Liste lokal installierter Systemschriftarten oder das Canvas-Rendering, bei dem subtile Unterschiede der Grafikkarten gemessen werden. Die Entropie dieses Fingerabdrucks ermöglicht eine extrem präzise Zuordnung.
Aus Datenschutzperspektive ist dieses Verfahren jedoch hochgradig sensibel. Da das Fingerprinting meist im Hintergrund und ohne aktive Kenntnis der Nutzer abläuft, mangelt es oft an der erforderlichen Transparenz. Nach der europäischen DSGVO und dem deutschen TDDDG ist das Auslesen von Informationen vom Endgerät – auch ohne den Einsatz klassischer Cookies – in der Regel an eine explizite Einwilligung gebunden, sofern es nicht technisch zwingend erforderlich ist. Problematisch ist daher nicht nur die Gefahr veralteter Identity Graphs, die fälschlicherweise mit einer fremden Firma verknüpft sind, sondern auch der Eingriff in die digitale Souveränität, da Nutzer kaum Möglichkeiten haben, dieses „stille“ Tracking effektiv zu unterbinden oder zu kontrollieren.
Fazit: Warum der menschliche Faktor entscheidend bleibt
Die technologische Analyse zeigt: Die Identifikation von B2B-Besuchern ist hochkomplex. Während die Zuordnung über statische IP-Adressen bei echten Firmennetzwerken hervorragend funktioniert, führen die algorithmischen Hilfskonstrukte der Branche bei Remote-Workern oder geteilten Netzwerken unweigerlich zu massiven Problemen.
Die potenzielle Nutzung von gekauften IP-Adressdatenbanken und Identity Graphs, fehleranfälligen Proxy-Auswertungen oder aggressiven Protokoll-Trackern könnten erklären, warum manche Lösungen erstaunlich viele “False Positive”-Erkennungen produzieren. Aus unserer Sicht ist eine konservativere, auf hohe Präzision ausgelegte Datenvalidierung der sicherere und empfehlenswertere Weg, auch wenn sie nominell zunächst weniger Firmen ausweist. Für den B2B-Vertrieb gilt: Das blinde Vertrauen in automatisierte Identifikationsalgorithmen ersetzt keinesfalls die menschliche Validierung und den Fokus auf echte Qualität.
* Soweit im Text Bezeichnungen für natürliche Personen nur in männlicher Form angeführt sind, beziehen sie sich auf alle Geschlechter in gleicher Weise. Die Wahl der Formulierung erfolgt ausschließlich aus Gründen der Textlogik und Übersichtlichkeit.










