Referrer-Spam in Google Analytics filtern (free-share-buttons, buy-cheap-online, Get-Free-Traffic-Now, pornhub-forum etc.)

Aus aktuellem Anlass ist das Thema des heutigen Artikels Referrer-Spam, und wie man Google Analytics so konfiguriert, dass diese unerwünschten Aufrufe gefiltert werden. Da unsere Webseite seit einigen Wochen von Referrer-Spam überflutet wird, musste schnellstmöglich eine Lösung gefunden werden. Nach einer ausgiebigen Recherche haben wir das Problem mit zwei kleinen Änderungen an Google Analytics gelöst.

Was ist Referrer-Spam?

Referer Spam ist eine besondere Art von Suchmaschinen-Spam und basiert darauf, dass die Log-Dateien von gewissen Webseiten für Suchmaschinen-Crawler zugänglich sind. Ein Bot ruft nun hunderttausende oder gar Millionen von Webseiten auf. Als Absender für den Aufruf gib er die (Täter-) Webseite an. Diese Webseite bekommt nun einen Link von allen aufgerufenen Webseiten, welche ihre Log-Dateien nicht geschützt haben. Denn wenn der Bot eine Webseite aufruft, wird dies in einer Log-Datei gespeichert, und wenn der Absender dieses Aufrufs eine Webseite ist, steht diese dann ebenfalls in der Log-Datei. So entsteht ein Link auf einigen Webseiten. Des Weiteren gibt es verschiedenste Web-Crawler, welche Webseiten sehr oft besuchen und damit die Statistiken verfälschen.

Referrer-Spam Beispiel (Klicken zum Vergrössern)
Typisches Bild bei Referrer-Spam in Google Analytics

Welche Probleme entstehen durch Referrer-Spam?

Durch die massenhaften Aufrufe einer Webseite werden alle wichtigen Statistiken, wie zum Beispiel die Conversion Rate, die Bounce Rate etc. stark verfälscht und dadurch nutzlos. Besonders bei kleineren Webseiten ist das Problem schwerwiegend, da diese weniger Traffic als grössere haben und somit die Verfälschung prozentual höher ist. Auf dem Bild links erkennt man dies gut. Eine extrem hohe Absprungrate, zusammen mit einer kurzen durchschnittlichen Sitzungsdauer sind die Folge von Referrer-Spam. Zusätzlich ruft der Bot jeweils nur die Startseite einer Webseite auf, darum ist Seiten/Sitzung sehr tief.

Welche Gegenmassnahmen können getroffen werden?

Diese unerwünschten Spam-Versuche müssen gefiltert werden. Mit zwei kleinen Anpassungen an Google Analytics lassen sich diese zukünftig und auch rückwirkend aus den Statistiken entfernen. Wir brauchen ein neues Segment, um die Statistik rückwirkend zu bereinigen, sowie einen Filter, um damit zukünfige Spam-Versuche direkt zu filtern.

Ein neues Segment erstellen und Spam rückwirkend filtern

Um einen rückwirkenden Filter einzurichten, muss man die Verwaltung der Webseite in Google Analytics aufrufen. Dazu loggt man sich ein, klickt auf die gewünschte Datenansicht und dann oben rechts auf „Verwalten„.

Rechts unten, unter dem Titel „PERSÖNLICHE TOOLS UND ASSETS“ klickt man auf „Segmente“ und dann auf den Button „+ NEUES SEGMENT„. Damit wird eine neues Segment erstellt.

Nun zu den Einstellungen des Segments. Zuerst muss es benannt werden. Einfachheitshalber habe ich den Namen „Referrer-Spam Filter“ gewählt. Danach muss das Segment so angepasst werden, dass es die Spam-Versuche filtert. Dazu klicken wir unter „Erweitert“ auf „Bedingungen“ und stellen folgendes ein:

Filter „Sitzungen„, „Ausschliessen„,

Quelle/Medium„, „stimmt mit regulärem Ausdruck überein„,

.*((darodar|priceg|semalt|buttons\-for\-website|makemoneyonline|blackhatworth|hulfingtonpost|bestwebsitesawards|o\-o\-6\-o\-o|(social|simple\-share)\-buttons)\.com)|((ilovevitaly|econom)(\.co(m)?|\.ru))|((humanorightswatch|4webmasters)\.org).*“ Ohne „“

Dann noch speichern, und schon ist der rückwirkende Filter erstellt. Um ihn zu aktivieren, kann er als zusätzliches oder einziges Segment in der Datenansicht ausgewählt werden.

Dazu einfach in der Datenansicht auf das Segment „Alle Sitzungen“ klicken, und dort das neu erstellte (Filter-) Segment auswählen.

Schon sind die ungewünschten Aufrufe gefiltert.

Edit: 01.06.2015

Falls nicht der gesamte Spam gefiltert wird, könnte dieser zusätzliche Filter (erstellt von Karsten Zachary) helfen:

„^(microsoft corp(oration)?|inktomi corporation|yahoo! inc.|google inc.| stumbleupon inc.)$|gomez“ Ohne „“

Gegebenenfalls müssen auch noch weitere Wörter in die Regex aufgenommen werden, um den gesamten Spam zu filtern.

Richtige Konfiguration des Segments
Anwendung des Segments
Konfiguration des ersten Filters
Konfiguration des zweiten Filters

Einen Filter erstellen und Spam direkt filtern

Referrer-Spam direkt zu filtern, so dass die Zugriffe gar nicht gespeichert werden, ist ebenfalls möglich, allerdings nicht rückwirkend. Dazu muss ein Filter erstellt werden. Um das zu machen loggt man sich ein, klickt auf die gewünschte Datenansicht und dann oben rechts auf „Verwalten„.

Rechts unten, unter dem Titel „DATENANSICHT“ klickt man auf „Filter“ und dann auf den Button „+ NEUER FILTER„.

Hier erstellen einen neuen Filter. Es gibt zwei  verschiedene Möglichkeiten, von welchen jede seine Vor- und Nachteile hat:

Filter 1: „Nur eigener Hostname“

Dieser Filter sperrt alle Hostnamen, aus dem Eigenen. Für kleinere bis mittlere Webseiten ist diese Möglichkeit gut. Das Problem ist gelöst und auch in Zukunft müssen keine Anpassungen gemacht werden. Besucher, welche von anderen Webseiten kommen, werden natürlich nicht gefiltert.

Filtertyp: „Benutzerdefiniert„, „Einschliessen„, „Filterfeld: Hostname„, „.*venio\.ch.*Ohne „“ (Venio mit Ihrer Webseite ersetzen und \ nicht vergessen). Speichern, und fertig ist der erste Filter.

Filter 2: „Spam Crawlers“

Dieser Filter sperrt gewisse, mit Regex definierte Hostnamen. Für grössere Webseiten ist diese Möglichkeit gut. Da immer wieder Anpassungen nötig sind, erfordert diese Art und Weise mehr Arbeit, jedoch werden Zugriffe von Hostnamen grundsätzlich erlaubt und nur solche gefiltert, welche mit Sicherheit Spam sind.

Filtertyp: „Benutzerdefiniert„, „Ausschliessen„, „Filterfeld: Kampagnenquelle„, „Filtermuster„:

.*((best(websitesawards|\-seo\-(solution|offer))|Get\-Free\-Traffic\-Now|googlsucks|theguardlan|webmaster\-traffic)\.com|(domination|torture)\.ml|((rapidgator\-)?(general)?porn(hub(\-)?forum)?|4webmasters)\.(ga|tk|org|uni)|(buy\-cheap\-online)\.info).*“ Ohne „“

Der Filter kann mit einem Klick auf „Filter überprüfen“ getestet werden, allerdings werden nur die Daten der letzten sieben Tage für den Test benutzt. Wenn es in dieser Zeitspanne kein Referrer-Spam gab, funktioniert der Test nicht.

Dann die Einstellungen speichern, und fertig ist auch der zweite Filter.

Erweitern der Filter

Natürlich kommen ab und zu neue Spam Hostnamen dazu. Darum muss der zweite Filter immer wieder angepasst werden (der erste Filter nicht, denn dieser blockiert alle Hostnamen). Die Anpassung geschieht mithilfe einer Änderung am Regex Code.

Liste der bekannten Referrer-Spam Webseiten

.com
semalt
buttons-for-website
buttons-for-your-website
darodar
priceg
makemoneyonline
blackhatworth
hulfingtonpost
bestwebsitesawards
o-o-6-o-o
ilovevitaly
simple-share-buttons
free-share-buttons
social-buttons
best-seo-solution
best-seo-offer
Get-Free-Traffic-Now
googlsucks
theguardlan
webmaster-traffic
event-tracking

.co
econom
ilovevitaly
.ru
ilovevitaly
.org
humanorightswatch
4webmasters
generalporn
guardlink
.info
buy-cheap-online
.ml
domination
torture
.ga
pornhub-forum
youporn-forum
rapidgator-porn
depositfiles-porn
.tk
pornhubforum
.uni.me
pornhub-forum

Related Posts
Showing 5 comments
  • Karsten Zachary

    Hallo, ich bin auch von Spam befallen und durch Google auf diese Seite hier gestoßen. Es ist nachvollziehbar erklärt (Lesezeichen gesetzt) das finde ich gut und ich habe es direkt auch umgesetzt. Jetzt habe noch eine Frage: Der rückwirkende Filter mit dem Segment, verstehe ich das richtig, dass das Segment wenn man es aktiviert nicht den Spam auschließt sondern nur die Anzahl des Spams anzeigt? Weil wenn ich den nur für die letzten beide Tage anzeige, habe ich beim Spamfilter Segment die gleiche Anzahl wie mit Allen Sitzungen, obwohl ich mir sicher bin dass nicht alles Spam war.

    Ich hoffe ich habe mich nicht nicht allzu umständlich ausgedrückt. :)

    Über eine Antwort wäre ich sehr dankbar.

    Viele Grüße, Karsten

    • Venio.ch

      Hallo Karsten

      Es freut mich, dass du den Artikel nützlich findest. Der rückwirkende Filter (also das neue Segment) sollte den Spam ausschliessen (Wenn das Segment aktiviert ist, sollten alle Sitzugen angezeigt werden, ausser Spam-Sitzungen). Du kannst testen ob der Filter funktioniert, indem du das neue Filter-Segment aktivierst und zusätzlich das Segment „Alle Sitzungen“. Nun hast du zwei aktive Segmente.

      Wenn du nun den Zeitraum oben rechts in Google Analytics auf ca. die letzten drei Monate einstellst (je länger desto besser), und dann unter „Zielgruppe -> Allgemein“ den Graphen mit der blauen und der orangen Linie anschaust, siehst du, ob der Filter funktioniert. Denn wenn er funktioniert, wird die eine Linie an gewissen Tagen tiefer als die Andere sein (die Linien stellen die Anzahl Sitzungen dar). Wenn die Linie für das Filter-Segment tiefer ist, als die Linie für das „Alle Sitzungen“-Segment (welches Spam enthält), bedeutet das, das einige Spam-Sitzungen gefiltert wurden.

      Wenn die Linien an allen Tagen der letzten drei Monaten genau aufeinanderliegen, kann dies folgendes bedeuten:
      – Das Filter-Segment wurde nicht korrekt erstellt (bitte nochmal überprüfen und die Schritte genaustens befolgen)
      – Es ist kein Referrer-Spam vorhanden
      – Der Referrer-Spam wurde nicht erkannt, da er von einem unbekannten Hostnamen kommt, der noch nicht gefiltert wird (In diesem Fall bitte den Spam-Hostnamen hier posten, dann erweitere ich die Regex, damit er gefiltert werden kann)

      Viele Grüsse,

      Christoph

      • Karsten Zachary

        Hallo Christopf,

        vielen Dank für Deine rasche Antwort. Mit den Infos würde ich sagen der Spamfiltert arbeitet richtig. Habe es nur andersrum verstande gehabt.

        Nur was mich nach wie vor erstaunt ist folgendes: Ich habe eine relativ wenig besuchte private HP und habe trotzdem aus den USA über 10 mal so viele Aufrufe als aus D. In etwa die gleiche Zahl nutzt Google Inc. als „Internetanbieter“, hier muss doch was faul sein. Insgesamt werden davon ca. 10% als Spam rausgefiltert. Was auch auffällt, ich habe eine mehrsprachige HP, auf der man entweder auf .de/de landet oder .de/en und die Aussteigerzahl ist auf nur .de/ in etwa so hoch wie die USA „Besucher“ und „Googler“…

        Vllt habe ich einen der bei Euch noch nicht drin steht: „to use this feature visit: EVENT-TRACKING.COM“ ist bei mir unter Verhalten, Ereignis gelistet.

        Vielen Dank und Grüße, Karsten

  • Karsten Zachary

    Hallo Christoph,

    ich konnte es lösen, und zwar habe ich das Segment mit einem Filter erweitert: “ ^(microsoft corp(oration)?|inktomi corporation|yahoo! inc.|google inc.| stumbleupon inc.)$|gomez „, damit sollte man vorerst Ruhe haben vor den Bots.

    Viele Grüße, Karsten

    • Venio.ch

      Hallo Karsten,

      Super! Das nehme ich gleich in den Artikel auf!

      Viele Grüsse,

      Christoph

onpage seo tipps