Benutzerspezifische Werkzeuge

Suchmaschinen

Dieser Beitrag beschreibt den Aufbau, die Funktionen und die Problembereiche von Suchmaschinen im World Wide Web.

Definition

Eine Suchmaschine ist ein Computersystem, das Inhalte aus dem World Wide Web mittels Crawling erfasst und über eine Benutzerschnittstelle durchsuchbar macht, wobei die Ergebnisse in einer nach systemseitig angenommener Relevanz geordneten Darstellung aufgeführt werden.

Aufbau algorithmischer Suchmaschinen

Komponenten

Die Aufgabe des Crawlers ist es, neue Dokumente aufzufinden, indem Hyperlinks innerhalb bereits bekannter Dokumente verfolgt werden. Der Crawling-Vorgang findet kontinuierlich statt. 

Das System zur Syntaxanalyse (parsing module) zerlegt die gefundenen Dokumente in indexierbare Einheiten (einzelne Wörter, Wortstämme oder N-Gramme) und verzeichnet deren Vorkommen innerhalb des Dokuments.

Der Indexer speichert die Wort-Speicherstelle-Paare ab. So werden zwei Indizes erstellt, erstens derjenige der Wörter mit den Nummern der Dokumente, in denen diese vorkommen und zweitens ein Index mit den Dokumentnummern und denen ihnen zugeordneten Wörtern.

Gibt der Nutzer eine Suchanfrage ein, so wird mittels des Query Module der Index abgefragt. Das Anfragemodul (query module) setzt die eingegebene Suchanfrage in eine weiterverarbeitbare Form um. Dabei werden beispielsweise besondere Befehle und Operatoren so aufgelöst, dass sie entsprechend im Index abgefragt werden können. Die Index Stream Readers dienen dazu, die umgesetzte Suchanfrage mit dem Index abzugleichen und die passenden Dokumente an das Anfragemodul zurückzugeben. Von dort aus werden die Informationen zu den gefundenen Dokumenten an den Nutzer ausgegeben [ausführlich zu den Komponenten: Lewandowski 2005, S. 26-30].

Ranking

Kernkomponente jeder Suchmaschine ist das Ranking, welches auf die gefundene Treffermenge angewendet wird. Vor allem bedingt durch das Nutzerverhalten im Web, welches durch wenig elaborierte Anfragen und die starke Fokussierung auf die ersten Trefferplätze der Ergebnisliste gekennzeichnet ist [Spink&Jansen 2004; Schmidt-Mänz 2007], ist ein Ranking nötig, welches sich vor allem auf die Präzision der Suchergebnisse konzentriert. Die Vollständigkeit der Treffermenge (Recall) steht demgegenüber im Hintergrund.

Auch wenn die Rankingverfahren der Suchmaschinen nicht offengelegt werden und es sich, wenn man jeden einzelnen Faktor berücksichtigt, um ein Zusammenspiel von hunderten von Faktoren handelt, so haben sich doch vier Bereiche herausgebildet, die für das Ranking der Ergebnisse bestimmend sind.

  • Mittels textspezifischer Faktoren wird abgeglichen, welche Wörter der Suchanfrage in den zu durchsuchenden Dokumenten vorkommen und daher in die Treffermenge mit aufgenommen werden sollen. Das Vorkommen der Suchbegriffe kann sich auch auf im Dokument vorkommende Varianten der Suchbegriffe oder Wörter aus auf das Zieldokument verweisenden Dokumenten (aus den Ankertexten) beziehen [Lewandowski 2005, S. 70]. Neben dem Vorkommen der Suchbegriffe wird mittels Textstatistik ein Vorkommen an exponierter Stelle (z.B. Überschrift, Beginn des Dokuments, besondere Hervorhebung) höher gewichtet.
  • Zweiter bestimmender Bereich im Ranking ist die Messung der Popularität von Dokumenten, meist durch deren Verlinkung (Beispiele für Algorithmen: PageRank, HITS), aber auch durch das Klickverhalten der Nutzer (Erfassung über Logfiles, Toolbars).
  • Dritter Rankingbereich ist die Aktualität. Je nach Zweck der Anfrage kann es sinnvoll sein, entweder besonders aktuelle Dokumente oder statische, dafür populäre Dokumente anzuzeigen. Da linktopologische Algorithmen tendenziell ältere Dokumente bevorzugen, wird Aktualität auch als Ausgleichsfaktor herangezogen. In der Praxis sind meist durchmischte Trefferlisten zu finden, in die einige besonders aktuelle Dokumente eingestreut werden.
  • Lokalität berücksichtigt den Standort des Nutzers. Ein Beispiel ist die Bevorzugung von Dokumenten aus Deutschland, wenn der Standort des Nutzers dort identifiziert wird.

Problembereiche

Suchmaschinen werden vor allem kritisch betrachtet hinsichtlich der Qualität der Ergebnisse (kein Verständnis der Intention der Suchanfrage), des Datenschutzes (in der Regel werden umfangreiche Datensammlungen, die bedingt einem individuellen Nutzer zugeordnet werden können, angelegt) und hinsichtlich der angenommenen Meinungsmacht von Suchmaschinen gesehen.

Suchmaschinenmarkt

Der Suchmaschinenmarkt wird von wenigen Anbietern dominiert; international bedeutsam sind die Suchmaschinen Google, Yahoo, Live.com (auch: MSN Search) und Ask.com. Besonders in Europa ist der Suchmaschinenmarkt stark durch Google bestimmt, welches teils Marktanteile von mehr als 90 Prozent erreicht. Portale beziehen ihre Suchergebnisse in der Regel von einer der großen Suchmaschinen.

Literatur

Levene, Mark: An Introduction to Search Engines and Web Navigation. Harlow: Pearson Education Limited, 2006

Lewandowski, Dirk: Web Information Retrieval: Technologien zur Informationssuche im Internet. Frankfurt am Main: DGI, 2005

Lewandowski, Dirk (Hrsg.): Handbuch Internet-Suchmaschinen: Nutzerorientierung in Wissenschaft und Praxis. Berlin: Akademische Verlagsgesellschaft AKA, 2009

Lewandowski, Dirk; Höchstötter, Nadine: Qualitätsmessung bei Suchmaschinen: System- und nutzerbezogene Evaluationsmaße. In: Informatik Spektrum 30 (2007), Nr. 3, S. 159-169

Machill, Marcel; Beiler, Markus (Hrsg.): Die Macht der Suchmaschinen/ The Power of Search Engines. Köln: Herbert von Halem Verlag, 2007

Schmidt-Mänz, Nadine: Untersuchung des Suchverhaltens im Web: Interaktion von Internetnutzern mit Suchmaschinen. Hamburg: Verlag Dr. Kovac, 2007

 


Einordnung: ,
Zuletzt bearbeitet: 19.01.2009 18:13
Letzter Abruf: 24.05.2012 17:40
Artikelaktionen