SuchmaschinenDieser Beitrag beschreibt den Aufbau, die Funktionen und die Problembereiche von Suchmaschinen im World Wide Web. Definition
Eine Suchmaschine (auch: Web-Suchmaschine; Universalsuchmaschine) ist ein Computersystem, das Inhalte aus dem World Wide Web mittels Crawling erfasst und über eine Benutzerschnittstelle durchsuchbar macht, wobei die Ergebnisse in einer nach systemseitig angenommener Relevanz geordneten Darstellung aufgeführt werden. Aufbau algorithmischer Suchmaschinen
Komponenten
Die Aufgabe des Crawlers ist es, neue Dokumente aufzufinden und die Existenz bestehender zu überprüfen, indem Hyperlinks innerhalb bereits bekannter Dokumente verfolgt werden. Der Crawling-Vorgang findet kontinuierlich statt. Das System zur Syntaxanalyse (parsing module) zerlegt die gefundenen Dokumente in indexierbare Einheiten (einzelne Wörter, Wortstämme oder N-Gramme) und verzeichnet deren Vorkommen innerhalb des Dokuments. Der Indexer speichert die Wort-Speicherstelle-Paare ab. So werden zwei Indizes erstellt, erstens derjenige der Wörter mit den Nummern der Dokumente, in denen diese vorkommen und zweitens ein Index mit den Dokumentnummern und denen ihnen zugeordneten Wörtern. Gibt der Nutzer eine Suchanfrage ein, so wird mittels des Query Module der Index abgefragt. Das Anfragemodul (query module) setzt die eingegebene Suchanfrage in eine weiterverarbeitbare Form um. Dabei werden beispielsweise besondere Befehle und Operatoren so aufgelöst, dass sie entsprechend im Index abgefragt werden können. Die Index Stream Readers dienen dazu, die umgesetzte Suchanfrage mit dem Index abzugleichen und die passenden Dokumente an das Anfragemodul zurückzugeben. Von dort aus werden die Informationen zu den gefundenen Dokumenten an den Nutzer ausgegeben [ausführlich zu den Komponenten: Lewandowski 2005, S. 26-30]. Ranking
Kernkomponente jeder Suchmaschine ist das Ranking, welches auf die gefundene Treffermenge angewendet wird. Vor allem bedingt durch das Nutzerverhalten im Web, welches durch wenig elaborierte Anfragen und die starke Fokussierung auf die ersten Trefferplätze der Ergebnisliste gekennzeichnet ist [Spink&Jansen 2004; Hochstotter & Koch], ist ein Ranking nötig, welches sich vor allem auf die Präzision der Suchergebnisse konzentriert. Die Vollständigkeit der Treffermenge (Recall) steht demgegenüber im Hintergrund. Auch wenn die Rankingverfahren der Suchmaschinen nicht offengelegt werden und es sich, wenn man jeden einzelnen Faktor berücksichtigt, um ein Zusammenspiel von hunderten von Faktoren handelt, so haben sich doch vier Bereiche herausgebildet, die für das Ranking der Ergebnisse bestimmend sind.
Während klassisch in Suchmaschinen gerankte Trefferlisten angezeigt werden, bei denen jeder Treffer in gleicher Weise präsentiert wird, verfolgen Suchmaschinen inzwischen den sog. Universal-Search-Ansatz, bei dem zwar die Listendarstellung grundsätzlich bestehen bleibt, jedoch um Treffer aus sog. vertikalen Suchen (gesonderten thematischen Datenbeständen) angereichert wird [Quirmbach 2009]. Hinzu kommt die Abkehr von Dokumenten als Suchergebnissen und die Hinwendung zu Fakteninformationen, die die Suchanfragen direkt auf der Suchergebnisseite beantworten sollen (z.B. bei Google mit dem sog. Knowledge Graph). Problembereiche
Suchmaschinen werden vor allem kritisch betrachtet hinsichtlich der Qualität der Ergebnisse, des Datenschutzes (vor allem für die Personalisierung von Suchergebnissen und Werbung werden umfangreiche Datensammlungen, die bedingt einem individuellen Nutzer zugeordnet werden können, angelegt), hinsichtlich der angenommenen Meinungsmacht von Suchmaschinen sowie hinsichtlich der bevorzugten Präsentation der von den Suchmaschinenbetreibern bzw. ihrer Partner bereitgestellten Angebote in den Trefferlisten (Verletzung der sog. Such-Neutralität). Suchmaschinenmarkt
Der Suchmaschinenmarkt wird von wenigen Anbietern dominiert; international bedeutsam sind vor allem die Suchmaschinen Google und Bing. Besonders in Europa ist der Suchmaschinenmarkt stark durch Google bestimmt, welches in den meisten Ländern Marktanteile von mehr als 90 Prozent erreicht. Portale (wie Yahoo oder T-Online) beziehen ihre Suchergebnisse in der Regel von einer der großen Suchmaschinen (sog. Partnerindex-Modell). Literatur
Höochstotter, Nadine & Koch, Martina. Standard parameters for searching behaviour in search engines and their empirical evaluation. Journal of Information Science, 35(1), 45–65, 2009 Levene, Mark: An Introduction to Search Engines and Web Navigation. Harlow: Pearson Education Limited, 2006 Lewandowski, Dirk: Suchmaschinen verstehen. Berlin Heidelberg: Springer, 2015 Lewandowski, Dirk (Hrsg.): Handbuch Internet-Suchmaschinen. 3 Bände (2009-2013). Berlin: Akademische Verlagsgesellschaft AKA Lewandowski, Dirk; Höchstötter, Nadine: Qualitätsmessung bei Suchmaschinen: System- und nutzerbezogene Evaluationsmaße. In: Informatik Spektrum 30 (2007), Nr. 3, S. 159-169 Machill, Marcel; Beiler, Markus (Hrsg.): Die Macht der Suchmaschinen/ The Power of Search Engines. Köln: Herbert von Halem Verlag, 2007 Quirmbach, Sonja: Universal Search. In: Lewandowski, Dirk (Hrsg.): Handbuch Internet-Suchmaschinen. Heidelberg. AKA Verlag, 2009
Autor![]() Prof. Dr. Dirk Lewandowski, Hochschule für Angewandte Wissenschaften Hamburg, Fakultät DMI, Department Information, Berliner Tor 5, 20249 Hamburg |