TF-IDF Termgewichtung mit Termlabs

Start > SEO Blog > TF-IDF Termgewichtung mit Termlabs
Interesse?
Rufen Sie an
0351 31446588

oder schreiben Sie
  30. Juli 2024

Dieser Beitrag beschreibt, was man bei der Erstellung und Optimierung digitaler Web-Inhalte beachten sollte. Er stellt eine hilfreiche und in der Suchmaschinenoptimierung oft verwendete Methode vor, um bessere Texte mit Mehrwert zu schreiben: die TF-IDF Termgewichtung.

TF-IDF Termgewichtung - Titelbild

Der Mehrwert für den Besucher ist wichtig

Website-Inhalte sollen für Menschen geschrieben werden und Mehrwerte bieten. Hilfreiche Inhalte honoriert der Besucher. Er verweilt länger auf der Seite, klickt auf interne Links und besucht weitere Seiten, stellt eine Anfrage, kauft ein Produkt, abonniert den Newsletter, teilt die Seite in Social Media, etc. Moderne Suchmaschinen versuchen menschliches Verhalten zu simulieren. Sie versuchen Seiteninhalte wie Menschen zu verstehen, um bessere Suchergebnisse zu liefern.

Nur die besten Seiten generieren Top-Rankings in den SERPs. Dabei ist nicht zwingend der Umfang des Seiteninhalts relevant, sondern

  • die thematische Relevanz einer Seite zur Suchanfrage,
  • der Informationsgehalt und Mehrwert für den Besucher,
  • die Autorität von Website und Verfasser des Inhalts, usw.

Beispielsweise erwartet ein Google-Nutzer bei der Suche nach einem lokalen Fotografen andere Seiteninhalte, als bei der Online-Recherche nach wahrheitsgemäßen Fakten über ein medizinisches Thema.

Damit Suchmaschinen eine Seite in ihrem Suchindex aufnehmen können, muss sie gecrawlt (robots.txt) und indexiert (Meta Robots Tag, Canonical Tag) werden können.

Google interessiert vor allem der Main-Content, also der Kerninhalt einer Seite. Hauptnavigation, Footer, Widgets und weitere Inhaltselemente der Seite spielen für die Content-Bewertung eine untergeordnete Rolle. Moderne Suchmaschinen versuchen den thematischen Inhalt der Seite also isoliert zu betrachten. Ein sauberer HTML-Code und die richtige Verwendung von JavaScript helfen der Suchmaschine dabei, den Main-Content einer Seite richtig extrahieren zu können.

Was muss man beim Texten für Webseiten beachten?

Der Kerninhalt von jeder Seite sollte immer ein unmissverständliches Signal besitzen: Was ist der thematische Fokus der Seite?

Der Besucher muss das Thema von einer Seite bereits beim Überfliegen (Scannen) erfassen können.

Wenn das Thema der Seite festgelegt ist, empfehle ich zu ermitteln, welche Inhalte der Seiteninhalt „braucht“: Kann der digitale Inhalt seinen thematischen Fokus beweisen? Dafür eignet sich eine populäre Methode der Suchmaschinenoptimierung: Die TF-IDF Termgewichtung.

Was bedeutet TF-IDF Termgewichtung?

Die TF-IDF Termgewichtung hat seinen Ursprung in der Informationsbeschaffung, um zu bewerten, wie wichtig ein Ausdruck für ein Dokument in einer Dokumentensammlung ist. Es wird vermutet, dass Google selbst Methoden der Termgewichtung anwendet, um bessere Suchergebnisse zu liefern.

Wie funktioniert TF-IDF?

Die Berechnung erfolgt in zwei Teilen: Bei der TF (Term Frequency/Termfrequenz) wird berechnet, welche Terme in einem Dokument am häufigsten vorkommen. Ergänzend dazu berechnet die IDF (Inverse Document Frequency/Inverse Dokumenthäufigkeit) die Besonderheit eines Terms für die Gesamtmenge der betrachteten Dokumente.

Berechnung der Termfrequenz (TF)

Erstmals erwähnte Donna Harman die Berechnung dieses Maßes im Jahre 1992 in ihrem Beitrag „Ranking Algorithms“. Er ist Teil des Sammelbandes „Information Retrieval: Data Structures & Algorithms“.

Ziel der Berechnung dieser Häufigkeit ist, einem Ausdruck (Term) innerhalb eines Dokuments eine Gewichtung zu geben. Ein frühes Praxis-Beispiel dafür sind Bibliotheken, deren große digitale Datenbestände so leichter und effizienter durchsucht werden konnten.

Formel zur Berechnung der Termfrequenz (TF)
Formel zur Berechnung der Termfrequenz (TF)


i = Term
j = Dokument
L = Gesamtzahl aller Terme im Dokument j
Freq(i,j) = Häufigkeit des Terms i im Dokument j

Berechnung der Inversen Dokumenthäufigkeit (IDF)

Mathematisch betrachtet wird für einen Term (IDFt) die Anzahl der Dokumente der Dokumentensammlung (ND) durch die Anzahl der Dokumente derselben Sammlung geteilt, die diesen Term enthalten (ft):

Inverse Dokumenthäufigkeit (IDF)
Inverse Dokumenthäufigkeit (IDF)


ND = Anzahl aller Dokumente
ft = Anzahl aller Dokumente in denen der Term "t" vorkommt

Welchen Nutzen hat TF-IDF in der SEO?

Adaptieren wir die Erkenntnisse in die SEO: Durch eine TF-IDF Termgewichtung erfährt man, welche Terme in einem Dokument die größte Bedeutung besitzen. Wenn man zum Beispiel die Top-10 Suchergebnisse für das Hauptkeyword als Dokumentensammlung definierst, dann erfährt man, welche Terme bei den Konkurrenzseiten bedeutend sind. Diese Daten miteinander verglichen zeigen, welche Terme im Dokument fehlen, bzw. zu häufig/zu selten vorkommen. So kann man den Inhalt zielführend optimieren und die Mehrwerte für die Website-Besucher steigern ohne Plagiate zu erstellen.

Beispiel: Reise nach Paris

Angenommen man plant mit der Familie eine Reise nach Paris. Vorab möchte man sich über den Eiffelturm informieren. Was bietet sich besser an, als Google zu befragen? Man sucht nach: Eiffelturm Paris. In den Google-Suchergebnissen klickt man spontan auf einen Treffer und man landet auf einer sehr einfach gestalteten Seite mit wenig Text:

Der Eiffelturm ist das höchste Bauwerk in Paris. Er besteht aus Eisen und zählt jährlich viele Millionen Besucher aus aller Welt.

Diese Informationen sind nicht hilfreich. Der Informationsgehalt ist viel zu gering, denn man erfährt nichts Neues.

Also kehrt man zu den Suchergebnissen zurück und klickst auf einen anderen Treffer. Die Zielseite besitzt ein ansprechendes, modernes Design und der Main-Content wirkt auf den ersten Blick gut strukturiert. Im Seiteninhalt erfährt man beispielsweise:

Der Eiffelturm ist mit einer Höhe von 324 Metern das größte Bauwerk von Paris. Er befindet sich im 7. Arrondissement am Ufer der Seine. Seine Bauzeit dauerte etwas über zwei Jahre an – von 1887 bis 1889. Er wurde ursprünglich als Aussichtsturm für die Weltausstellung zur Erinnerung an den 100. Jahrestag der Französischen Revolution errichtet.

Wer das erste Stockwerk des 10.100 Tonnen schweren Wahrzeichens erklimmen möchte, muss genau 364 Stufen überwinden. Weitere 381 Stufen und man erreicht das zweite Stockwerk. Agile Besucher müssen also insgesamt 745 Stufen bis zur zweiten Aussichtsplattform steigen. Die Aufzüge halten übrigens nicht im ersten Stockwerk, sondern fahren vom Boden direkt in das 2. Stockwerk …

Diese und viele weitere Informationen auf der Seite beweisen nicht nur, dass der Kerninhalt thematisch für den Eiffelturm optimiert ist. Als Besucher der Seite bestätigt man unbewusst auch bereits bekannte Informationen (Eiffelturm = Paris) und schenkst automatisch neuen Informationen auf dieser Seite Vertrauen. Dadurch erhöht sich die Besuchsdauer und vielleicht lädt man weitere Seiten auf der Website.

Google möchte hilfreiche Seiten mit Mehrwert in den Top-Suchergebnissen platzieren. Der digitaler Inhalt sollte also ein unmissverständliches Signal (Eiffelturm Paris) besitzen und den thematischen Fokus beweisen (Paris, Wahrzeichen, Weltausstellung, usw.) können. Durch eine TF-IDF Termgewichtung erfährt man, wie man den digitalen Seiteninhalt optimieren sollte.

TF-IDF Termgewichtung: Eiffelturm Paris (Termlabs.io)
TF-IDF Termgewichtung: Eiffelturm Paris (Termlabs.io)

Wie wird eine TF-IDF Termgewichtung durchgeführt?

Im Internet gibt es eine Vielzahl kostenfreier und kostenpflichtiger TF-IDF-Tools. Viele habe ich getestet. Das Problem: Statt den Main-Content einer Seite zu extrahieren und nur diesen digitalen Inhalt für die TF-IDF Termgewichtung zu nutzen, fliest häufig der komplette HTML-Code der Seite bei der Berechnung ein. So werden Wörter aus der Hauptnavigation, dem Footer, aus Widgets, usw. mit gewertet und die Berechnung enorm verzerrt.

Um eine professionelle TF-IDF Termgewichtung durchzuführen, sollte die Software für die Berechnung der Term Frequency (TF) ausschließlich den Main-Content bewerten. Ich empfehle Termlabs.io, auch wenn die Software hin und wieder Probleme damit hat, den Main-Content einer Seite korrekt auszulesen. Oft liegt das an einem verschachtelten, komplizierten HTML-Code der Seite.

Wie funktioniert eine Termgewichtung mit Termlabs.io?

Termlabs.io bietet eine Vielzahl von Tools zur Content-Optimierung, unter anderem eine klassische TF-IDF Termgewichtung.

Termlabs.io Logo

Zunächst bestimmt man die Anforderungen der TF-IDF-Analyse: Man gibt also das Hauptkeyword der Seite an (thematischer Fokus) und optional als Referenz die URL der Seite oder den HTML-Code oder den digitalen Inhalt, falls die Seite online noch nicht verfügbar ist.

Die Ergebnisse der TF-IDF Termgewichtung sind bei Termlabs.io komplex. Bei Bedarf erhält man vom Support eine umfangreiche Einführung über die Tools und deren Verwendung.

Der Screenshot (s. u.) zeigt ein Beispiel einer TF-IDF Termgewichtung für die Suchanfrage bilder seo. Die Terme sind auf Basis einer durchschnittlichen Gewichtung (Avg) absteigend sortiert. Das heißt, je weiter oben ein Term in der Tabelle notiert ist, desto wichtiger scheint er zu sein (Relevanz). Ich empfehle als „Score Term Count“ den Wert „Termgewichtung“ zu wählen und die Top-50 Zeilen darzustellen. Für jeden Term kann man nun ermitteln, ob er in Deinem digitalen Inhalt seltener bzw. häufiger vorkommen sollte. Ist ein Term nicht relevant, dann ignoriert man ihn einfach. Besitzt ein Term den Score „good“ oder „perfect“, kann man von einer Optimierung absehen.

TF-IDF Termgewichtung: Bilder SEO (Termlabs.io)
TF-IDF Termgewichtung: Bilder SEO (Termlabs.io)

Abschlussbemerkungen

Digitale Inhalte ins Blaue zu schreiben und zu hoffen, dass sie bei Google Top-Rankings erzielen, ist illusorisch. Ein TF-IDF optimierter Text besitzt ebenfalls keine Garantie, in der Google-Suche beste Platzierungen zu generieren. Denn neben der Content-Qualität sind viele weitere Qualitätsfaktoren wichtig. Trotzdem empfehle ich für wichtige Seiten eine TF-IDF Termgewichtung durchzuführen.

  30. Juli 2024   Jens Fröhlich  

Kommentare(0)

Kommentar verfassen

DSGVO Cookie Consent mit Real Cookie Banner