Was ich an WDF*IDF liebe – und was nicht

Dieses „WDF*IDF“ wird – wie alle komplexen Konzepte – leider häufig falsch interpretiert. Dieser Algorithmus ist weder Humbug noch der heilige Gral der Texterei. Sondern ein Konzept, das nicht nur beim Ranking in der Suchmaschine helfen kann – wenn es richtig angewendet wird. Und mit „richtig“ meine ich lebensnah und nicht unbedingt mathematisch.  

Textanalyse: kein leicher Weg... (Photo by Denys Nevozhai on Unsplash)

Textanalyse: kein leicher Weg… (Photo by Denys Nevozhai on Unsplash)

Was hat es mit diesem WDF*IDF eigentlich auf sich?

Zunächst einmal gilt: Es könnte sein, dass die korrektere Schreibweise „TF*IDF“ lautet – aber darüber müsste man eine Detail-Diskussion führen. Und das empfehle ich nicht, ich nehme mir die Freiheit zu sagen: Details und Kommazahlen sind für die Entwickler von Tools mathematisch wesentlich – aber in der Lebensrealität eines Texters nahezu egal.

Ganz kurz, was die WDF*IDF-Analyse eigentlich tut: Von den besten (meist 10) Top-Ergebnissen für ein Keyword werden alle (!) Wörter in einen Topf geworfen und nach Vorkommen duchgezählt. Die Anzahl der Begriffe (oder auch „Terme““) wird dann mit ihrer „IDF“ (Inverse Document Frequenzy, also ihrer „Seltenheit“ im Internet) multipliziert. Ein (im Internet) SELTENES Wort, das (in diesem Dokumentkorpus) HÄUFIG auftraucht ist also eine höhere Relevanz als ein häufies Wort, das selten auftaucht. Diese Berechnung macht für Suchmaschinen natürlich Sinn, weil nicht nur die Anzahl sondern durch die Seltenheit auch eine Art „Autorität“ ins Raning mit einfließt.

Denn drei Rahmenbedingungen zerstören in der Praxis jede Detailliebe ohnehin:

  1. Die Entscheidung, ob ein Wort in den Text genommen wird oder nicht, ist eine binäre Entscheidung: Entweder kommt es rein oder nicht. Bei längeren Texten auch drei mal oder zwei mal. Doch  in dieser Abstufung (0, 1, 2, 3) ist das Ergebnis deutlich unschärfer als es die manche formeltreuen Tool-Hersteller in ihren Zahlen abbilden. Man kann ja auch nicht „ein bisschen schwanger“ sein…
  2. Welcher Text wird mit welcher Gewichtung überhaupt herangezogen? Ist die Boilerplate (also z.B. der Text in der Randspalte oder im Footer) im untersuchen Text enthalten? Werden hervorgehobene oder per Javascript weg geklappte Inhalte unterschiedlich behandelt? Wie werden Headlines, wie ausgehende Links behandelt? Da hat jeder sein eigenes Konzept und Können. Und jeder hat mehr oder weniger recht und unrecht.
  3. Denn Google rechnet noch mal anders: Die WDF*IDF-Analyse wird – wenn überhaupt – von Google ohnehin mit einer angepassten Formel auf einer ganz anderen (viel größeren) Datenbasis gerechnet und ist nur einer von vielen content-bezogenen und nicht content-bezogenen Faktoren zum Ranking. Und das auch noch bezogen auf unterschiedliche Seitenarten und Suchmotivationen.

Es hat also KEIN Toolanbieter DIE eine richtige Formel bzw. Berechnungsgrundlage. Deshalb der erste Merksatz für alle Texter: WDF*IDF ist kein mathematisches Gesetz für den Umgang mit Wörtern – sondern liefert „nur“ großartige Empfehlungen für den Inhalt. 

Beispielhafte WDF*IDF-Analyse bei Ryte.com: Die empfohlenen Termine in gelb, meine Verwendung davon als grüne Kurve.

So schauts aus: Beispielhafte WDF*IDF-Analyse bei Ryte.com: Die empfohlenen Termine in gelb, meine Verwendung (auf seo-book.de) als grüne Kurve. Sofort fällt mir auf, dass ich „Termgewichtung“ und „Textoptimierung“ nicht verwendet habe. Das wäre aber auch aus Nicht-SEO-Sicht sinnvoll…

Ich bin jedem (!) für seine Arbeit in diesem Bereich dankbar: Karl Kratz, weil er uns dieses Thema im karlsCORE überhaupt geschenkt hat, Thomas Mindnich, der in termlabs.io gleich noch zig weitere Betrachtungsweisen auf Content hinzu schraubt, Marcus Tandler und Marcus Tober, die in ihren Tools (Ryte.com und Searchmetrics) eine WDF*IDF-Analyse als zusätzliches Texter-Tool hinzu genommen haben. Und ich bin sogar den Machern von kostenlosen WDF*IDF-Werbetools dankbar. Weil sie uns mit ihrer miesen Leistung zeigen, wie aufwändig Textanalysen sind und dass es keinen Sinn macht, diese kostenlos zu erwarten.

Ich habe gelernt, dass die WDF*IDF-Idee der Ausgangspunkt für eine sehr strukturierte und clevere Herangehensweise an Texte sein kann. Eine Idee, die im Zentrum in Zukunft noch wachsenden Optimierungs- und Tool-Ideen steht. Deshalb, liebe SEO-Gemeinde: Diskutiert nicht über Kommawerte im Dokumentenkorpus sondern über nützliche Erweiterungen.

Was „Textanalyse“ könnte

Auch, wenn es manchmal den Eindruck macht: WDF*IDF ist nicht die einzige Text-Qualitäts-Analyse, die es gibt. Eigentlich ist es auch mehr eine „Keywordoptimierung“ als eine „Textoptimierung“ und analysiert nicht einmal den Inhalt oder gar die Qualität von Texten sondern, nun ja, den WDFIDF-Wert. Denn es werden lediglich Wörter im vorliegenden Dokument, in den zehn top-rankenden Dokumenten und im ganzen Internet gezählt und die Ergebnisse miteinander verglichen. Man könnte das auchmit einer aus dem Koreanischen automatisch übersetzten Bedienungsanleitung machen. Die wäre dann zwar unlesbar – aber die richtgen Wörter wären drin…

Weitere Textanalysen könnten sein:

  • Textlänge (und nein: Länger ist nicht zwingend besser…)
  • Strukturierung / Scanbarkeit
  • Wortwahl / Wortschatz (um zwischen „Fachsprachen“ unterscheiden zu können)
  • Signifikante Nachbarn, Bedeutungsgruppen, Flexionsformen u.s.w.
  • Signalwörter (die z.B. auf die Suchmotivation hindeuten)
  • Lesbarkeits-Indizes (wo meist die Länge/Kürze von Wörtern und Sätzen gezählt wird)
  • Korrektheit (zumindest Rechtschreibung und Grammatik)
So sieht der Wortschatz der Universität Leipzig das Umfeld von "Grafikdesign".

So sieht der Wortschatz der Universität Leipzig das Umfeld von „Grafikdesign“.

Wer Lust auf die umfassenden Betrachtungen hat, kann sich beim Wortschatz der Uni Leipzig die Zeit vertreiben.  Entwickler finden da die eine oder andere API. Und wer dem dem Kai Spriesterbach auf Facebook folgt, erfährt momentan viel über so ein Zeugs – da der sich sehr intensiv auf seine Bachelor-Arbeit zum Thema vorbereitet.

Jedenfalls wirken am Ende die Texte auch auf die Leser – die dann die eigentliche Entscheidung über ihre Qualität treffen. Ein Jurist erwartet vermutlich superkorrekte Texte und ist Komplexität gewohnt, der Kunde eines Baumarktes will über die Vorteile einer Bohrmaschine einfache und klare Worte lesen. Es kommt also auf die Zielgruppe an.

Ich weiß nicht, was Google rechentechnisch so alles drauf hat. Aber ich weiß: Google wird immer klüger und in Mountain View arbeiten vermutlich die besten Techniker UND die besten Sprachwissenschaftler der Welt. Deshalb lohnt es sich anzuschauen, was eine Suchmaschine *eigentlich* braucht – denn der Weg wird dorthin gehen.

Was eine Suchmaschine wollen muss

Das ist wieder recht einfach: Dokumente, die schon Top-Rankings haben, können diese nur verteidigen, indem sie beweisen, dass die User sie mögen. CTR, Verweildauer, Interaktion mit der Seite und Rückkehr zur Suchanfrage sind sicher bessere Indizien als Lesbarkeits-Indizes oder Textlänge. ABER: Damit eine URL überhaupt die Chance hat, sich in den Top-10 zu beweisen, geht es ums Vertrauen. Da sind einmal die Signale, die Google von der Domain empfängt (ein neuer Artikel über Donald Trump auf Spiegel Online wird immer schneller aufsteigen als einer der hier erscheint).

Doch auch der Text an sich kann Vertrauen ausstrahlen. Und zwar mit einigen der oben genannten Faktoren wie Lesbarkeits-Indizies (je nach Zielgruppe), Korrektheit, Scanbarkeit und Signalwörter (wenn „kaufen“ und „online bestellen“ auf einer Seite steht, ist die Wahrscheinlichkeit groß, dass es sich hierbei um einen Shop handelt). Aber auch die Wortwahl kann eine Rolle spielen. Da gibt es:

  1. Ich behaupte mal: Wer einige dieser "Nebenkeywords" in seinem Text verwendet, erhällt von Google einen Vertrauensbonus, weil er ähnliche Begriffe verwendet wie die User.

    Ich behaupte mal: Wer einige dieser „Nebenkeywords“ in seinem Text verwendet, erhällt von Google einen Vertrauensbonus,weil er ähnliche Begriffe verwendet wie die User.

    Die Sprache, die die User verwenden. Diese kennt Google z.B. über Google Suggest oder die ähnlichen Suchanfragen. Denn das sind Wortverbindungen, die echte Nutzer bei Google eingegeben haben.

  2. Die Sprache, die Autoren verwenden, zu denen Google schon Vertrauen hat. Und die ist an den Texten der Top-10 der Suchergebnisse zu erkennen. Hier sind wir bei der WDF*IDF.

Je nach Rechenfähigkeit und Eleganz dürfte Google diese sogar für unterschiedliche Zielgruppen errechnen. Das heißt: Wenn du für „Grafikdesigner“ ranken willst und durch deine Sprache signalisierst, dass du dich nicht mit Visitenkarten und Briefpapier sondern mit Magazinen und Werbung beschäftigst, dann trittst du nicht gegen den Grafiker ums Eck sondern nur gegen die anderen „elaborierten“ Seiten an. Ich weiß, es ist fraglich, ob Google das wirklich (schon) drauf hat. Aber ich würde wetten, dass an so etwas gearbeitet wird. Dafür muss ich keine Patente studieren…

Also: Es geht der Suchmaschine um einen Vertrauensbeweis und ausdrücklich NICHT darum, dass ein Text 100%ig in die Top-10-WDF*IDF-Kurve passt. Im Gegenteil: Wäre ein Text komplett „angepasst“, würde man ihn vermutlich gar nicht in den Suchergebnissen benötigen – er würde ja nur mehr oder weniger das sagen, was da schon steht. Ein neuer oder bisher unbeachteter Aspekt würde sich schließlich in der Wortwahl ausdrücken. Und da eine Suchmaschine immer eine ausgewogene Auswahl von verschiedenen Aspekten zum Thema anbieten. will, ist es vermutlich entscheidend, dass du zusätzlich zur Standard-Optimierung „dein eigenes Ding“ machst.

Zweiter Merksatz: Die WDF*IDF-Analyste ist ein toller Hinweis für Google, ob ein Text zum (Keyword-)Thema passt. Aber das reicht noch nicht für ein Top-Ranking. 

Jetzt sind wir mitten im Thema.

Zeit, über einige Aspekte nachzudenken

Hier noch ein paar Gedanken, die jedenfalls mir helfen, den Nutzen und die Grenzen der WDF*IDF-Analyse abzuwägen:

  • Die WDF*IDF-Analyse ist eine Momentaufnahme der in diesem Moment top rankenden Seiten. Wenn eine neue Seite (vielleicht deine) in die Top-10 kommt, sieht diese Analyse anders aus.
  • Eine Suchmaschine wird sich immer noch weitere sinntragende Begriffe als die in der WDF*IDF-Analyse wünschen – da du damit neue, interessante Aspekte versprichst.
  • Google wird sicherlich auch die unterschiedliche Gewichtung von Text-Elementen unterschiedlich werten. Ein Wort in der Headline wird anders berechnet als eines in den Zwischenheadlines, im Vorspann, in den Bilduntschriften oder im Fazit.
  • Welcher Text wird überhaupt analysiert? Dies alles setzt voraus, dass sich Google den Artikel und nicht (oder doch ein bisschen) die Inhalte drumrum in der Randspalte, dem Footer oder sonstwo anschaut. Oder spielt der doch eine Rolle?
  • Google geht mit Signalwörtern, Stemming, Synonymen, Homonymen und anderen linguistischen Details garantiert anders um als alle Tool-Anbieter. Vielleicht genauer, vielleicht lässiger, vielleicht klüger, vielleicht schlechter. Wir wissen es nicht. Niemand weiß das.
  • Die Text-Analyse innerhalb der drei Suchmotivationen („Do“, „Know“, „Go“) wird vermutlich unterschiedlich gewertet werden. Mindestens. Vielleicht gibt es für unterschiedliche Positionen in den Rankings verschiedene Ranking-Faktoren. Wer kann das schon ausschließen…
  • Und wenn du in den Top-10 bist, spielt die Textanalyse vermutlich eine geringere Rolle als die User-Signale. Selbst, wenn das (noch) nicht so wäre, müsste es das Ziel von Google sein.

Was heißt das nun? Weg mit der WDF*IDF-Analse? NEIN! Ich bin so dankbar dafür, dass es sie gibt. Allerdings unter zwei Voraussetzungen: Erstens erwarte ich von jedem, der sich auf eine zahlenbasierte Analyse verlässt, dass er bereit ist, diese auch in ihrer Funktion zu akzeptieren. Die WDF*IDF-Analyse ist KEIN SEO-Gral sondern eine sehr schnelle aber etwas ungenaue Analyse auf die Wortwahl der aktuellen (!) Top-Rankins für ein Keyword. Zweitens erwarte ich, dass auch andere Text-Faktoren eine Rolle spielen. Damit meine ich z.B. die Text-Strukturierung, Wortschatz, Länge (und Kürze) u.s.w.. Wie unsinnig ist der Textauftrag „Schreibe 300 Kategorie-Texte in der Länge von mindestens 1.500 Wörtern und WDF*IDF-optimiert“.

Was die Tools können

Auf jeden Fall brauchen wir für die WDF*IDF-Analyse ein Tool. Und damit hört der Spaß leider auch schon auf. Zwar ist es mittlerweile etwas ruhiger geworden, aber die Tool-Anbieter halten allesamt nicht viel voneinander. Momentan sind mir folgende ernst zu nehmenden Anbieter bekannt:

  • karlsCORE
  • ryte.com
  • Searchmetrics
  • SEOlyze
  • termlabs.io
  • Xovi
  • SEObility (neu)

Dann gibt es noch einige kostenlose, die ich aber nicht empfehlen kann. Einige davon machen sogar nur die WDF-Analyse (also ohne Gewichtung nach „Seltenheit“ des Begriff im Web) – und das ist nicht viel besser als die Keyword-Density – oder so.

Wen habe ich vergessen? Ich freue mich über Hinweise. Das ist übrigens eine alphabetische Aufzählung. Nur, damit ich das erwähnt habe 😉

Also: Was kann so ein WDFIDF-Tool anbieten? Ich denke, es geht um einen Dreikampf, in dem er sich beweisen kann/muss:

  1. Genauigkeit der Berechnung: Ich habe zwar geschrieben, dass es gar nicht um die Nachkommastelle geht. Aber wenn man mit einem Tool arbeitet, weiß man es zu schätzen, wenn nicht bei jeder Analyse „Datenschutz“ drin steht – weil das nun mal auf jeder Seite steht. Außerdem brauche ich exakte Daten darüber, ob ein Wort x-mal auf nur zwei der zehn Top-Seiten auftaucht oder x-mal auf allen zehn Seiten verteilt. Das kann mich so (weil es dann stärker meine Kompetenz beweist) oder so (weil ich damit einen noch nicht so belichteten Aspekt einbringe) entsprechend beeinflussen. Je nach Wort und je nach Gesamtzusammenhang.
  2. Bedienung: Bei SEOlyse schätze ich unter anderem die Einfachkeit der Tabelle mit den Wörtern, die noch verstärkt bzw. eingefügt werden sollen. Bei termlabs.io liebe ich die Möglichkeit, ganz tief in viele Aspekte der Textanalyse eintauchen zu können. Ryte.com hat einen schönen Echtzeit-Editor und karlsCORE erläutert jeden Punkt sehr schön und hat noch viel Zusatzmaterial. Searchmetrics ist mit der bisherigen Content-Analyse sehr praxisnah und zeigt mit der Content Experience, wohin die Reise (auch beim Workflows) gehen kann. Alles sehr unterschiedliche Konzepte.
  3. Zusatz-Informationen: Bei Searchmetrics erhalte ich neben der WDF*IDF-Analyse einen Hinweis, welche der Top-10-Texte meinem ähneln. So kann ich darüber grübeln, wer von wem abgeschrieben hat. Und bei ryte.com gefällt mir die Konkurrenz-Analyse, die grafisch zeigt, welcher Wettbewerber in welchen Keywords die Nase vorne hat. Bei SEOlyze bekomme ich einige Linkdaten zu den verglichenen URLs sowie W-Fragen und Kooperationsmöglichkeiten mit Texter. Und karlsCORE und termlabs.io sind ohnehin umfangreiche „Textanalyse-Suites“ mit W-Fragen und Synonymen und einer Menge Zusatzmaterial.

Ja, ich finde tatsächlich, dass es Geschmacksache ist, für welches Tool man sich entscheidet. Ich habe meine klaren Favoriten – aber vielleicht auch nur aus Unwissenheit. Ich bin kein professioneller Tool-Tester und habe zum Beispiel null Interesse, mir auch noch Xovi anzuschauen. Aber vielleicht können die Kollegen auch was?

Also: Welches Tool nehmen?

Diese Top-10-Keywords empfehlen die Tools bei einer WDF*IDF-Analyse für das Keyword "WDF*IDF".

Diese Top-Keywords empfehlen die Tools bei einer WDF*IDF-Analyse für das Keyword „WDF*IDF“. Scheint so, dass man da etwas tiefer graben muss…

Ich will hier keine Tool-Beratung machen, das traue ich mir nicht zu. Und bevor ich die Tools zu sehr lobe, rechts eine Tabelle der jeweiligen Top-10-WDF*IDF-Keywords von fünf Tools für den Begriff „WDF*IDF“. Na, was fällt dir auf?

Ich habe diese Daten an einem einzigen Vormittag erhoben und lasse bewusst die Namen der Tools weg – weil ich denke, man könnte das falsch verstehen. Denn wer bisher aufmerksam gelesen hat, wird wissen, dass die Top-10-Keywords nicht unbedingt der größte Nutzen einer WDF*IDF-Analse sind. Und trotzdem: Es ist etwas bestürzend, dass die Nennungen derart unterschiedlich ausfallen. Es gibt nur neun von 33 Keywords, die mehr als von nur einem Tool genannt wurden. Und nur eines (!) wurde von allen genannt („wdf“). Nun wird vermutlich jeder Anbieter sagen, dass das kein Wunder ist, weil ja alle anderen falsch rechnen. Und wenn man sich mehr Keywords anschaut, nähern sich die proessionellen Tools einander an.

Was ich aber damit sagen will: Liebe Text-Agenturen und Text-Auftraggeber, bitte nehmt die Daten nicht sooooo genau. Der eine misst die Boilerplate (also den Inhalt rund um den Artikel) mit, der andere nicht. Der eine arbeitet mit Stopp-Wörtern, der andere nicht. Und trotzdem: Bisher konnte ich von fast jedem Tool wichtige Impulse bekommen. Deshalb werde ich auch nicht sagen, mit welchem wir regelmäßig arbeiten. Ich will aber dafür sorgen, dass die Tools überhaupt verwendet werden – und das mit wacher Aufmerksamkeit. Also: Wenn ein Text-Auftraggeber verlangt, dass unbedingt die Top-Keywords im Text sein MÜSSEN – dann zeige ihm diese Tabelle und verrate ihm, dass es für die Sichtbarkeit nicht ganz so genau genommen werden muss.

Vielleicht ist mal jemanden bereit, alle WDF*IDF-Tools in eine große Feature-Übersicht zu bringen. Oder gibt es das schon? Warum ist das dann für WDF*IDF Tool nicht auf Platz eins? 😉

Und nun? Was ist der nächste Schritt?

Falls du bisher als Autor oder Textagentur der Meinung warst, dass WDF*IDF völliger Mist sei, dann habe ich dich hoffentlich vom Gegenteil überzeugt.

Wenn du bisher der Meinung warst, dass WDF*IDF dich unmittelbar auf ein Top-Ranking setzt – hoffentlich auch.

Ich würde mich freuen, wenn du versuchst, das eine oder andere Tool anzuschauen um dir eines auszuwählen, mit dem du zurecht kommst. Das einzige, was man man falsch machen kann, ist diese Chance gar nicht zu nutzen.

Und wenn du dir in einer entspannten, achtsamen Geisteshaltung die WDF*IDF-Analse DEINES Tools anschaust, die vorhandenen Zusatzinformationen ernst nimmst und dich darauf konzentrierst, einen großartigen Text zu schreiben, der einige bis viele dieser beweisführenden und relevanzfördernden Keywords enthält – und trotzdem großartig bleibt – dann haben sich mein Schreiben und dein Lesen dieses Artikels gelohnt.

So, und jetzt zum Feedback. Du bist dran!

Ein Kommentar

  1. Also, am Anfang als Wdf*Idf neu war, hab ich meinen eigenen Content auf Toolbasis erstellt. Habe aber häufig festgestellt, dass die Empfehlungen der Tools für bestimmte Wörter unsinnig waren.
    Ich hab dann eigentlich immer die Texte an einer mir sehr gut bekannten Zielgruppe ausgerichtet und entsprechend gut recherchierten Content für den Leser erstellt. Diese Texte habe ich anschließend über so ein wdf-idf Tool laufen lassen und siehe da, das Tool hat den Text positiv bewertet.
    Heute benutze ich solche Tools gar nicht mehr. Lege Wert auf profunde Recherche, gehe bei Kategorientexte für Produkte gern mal auf Amazon und lese mir Bewertungen durch, oder auf gutefrage.net.
    wdf-idf ist für mich ein Mythos, der mehr und mehr an Blässe gewinnt.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.