netplanet - Dienste im Internet - World Wide Web - Suchen und Finden im World Wide Web

Die Dezentralität des World Wide Web und der somit fast unendlich wirkende Informationsraum haben einen herausragenden architektonischen Nachteil: Wer etwas haben möchte, muss genau finden, wo er es finden kann, da es eben kein zentrales Web-Verzeichnis gibt. Diesen Nachteil stopfen Suchmaschinen, die automatisch oder manuell gepflegte Hyperlink-Verzeichnisse darstellen und nach Stichworten durchsucht werden können.

Was ist eine Suchmaschine?

Eine Suchmaschine ist, schematisch gesehen, nichts anderes wie ein großes Hyperlink-Verzeichnis, das Verweise auf Ressourcen im World Wide Web beinhaltet und von Benutzern über eine Suchfunktion nach Stichworten oder Themen durchsucht werden kann. Eine Suchmaschine "lebt" also von zwei Dingen: Seiten suchen und in die eigene Datenbank aufnehmen und eine Schnittstelle bieten, damit Benutzer diese Datenbank abfragen können. Diese zwei Dinge sind jedoch auch genau das, was alle Suchmaschinen voneinander unterscheidet.

Unterschieden wird zwischen vier grundsätzlichen Arten von Suchmaschinen:

Kataloge
Als Kataloge werden Suchmaschinen bezeichnet, deren Verzeichnis redaktionell erstellt wird. Will ein Anbieter einen Eintrag in einem Katalog, so muss er meist in einem speziellen Aufnahmeformular die einzutragende Website und die gewünschte Rubrik auswählen, sowie nähere Informationen zum Inhalt angeben. Redakteure des Katalogs überprüfen das Vorhandensein der Website und die übermittelten Angaben und fügen dann einen Link in die gewünschte Rubrik des Katalogs ein. Durch diese manuelle Pflege des Verzeichnisses ist eine Suche in einem Katalog meist sehr Erfolg versprechend, jedoch sind Einträge teilweise veraltet, da eventuelle Aktualisierungen sich meist auf das Vorhandensein der Website beschränken, inhaltliche Änderungen des Link-Textes jedoch immer von Hand vorgenommen werden müssen.
Indexe
Indexe sind Suchmaschinen, deren Verzeichnis nicht per Hand, sondern von einem Roboter, also automatisch, erstellt werden, Dazu "wühlt" sich ein Suchroboter permanent durch das World Wide Web und speichert von allen besuchten Seiten einen Eintrag in seine Datenbank, der in der Regel aus dem Dokumententitel, Inhalten aus META-Befehlen und den ersten Textzeilen der Seite besteht. Gleichzeitig verfolgt der Suchroboter alle Hyperlinks der gerade besuchten Seite. Um den Suchroboter einer Suchmaschine auf seine eigene Website zu lenken, genügt bei den meisten Suchmaschinen das Warten, bis der Suchroboter anhand eines Hyperlinks auf die Website trifft. Bei einer sehr neuen Website kann dem Besuchswunsch aber auch nachgeholfen werden, in dem auf der Homepage der Suchmaschine in einem speziellen Formular die Adresse der Website manuell eingegeben wird, die der Suchroboter für gewöhnlich dann auch besucht. Verzeichnisse von Index-Suchmaschinen sind für gewöhnlich recht aktuell, da die Seiten im Verzeichnis automatisiert erstellt und so auch sehr schnell überprüft werden können. Aufgrund der maschinellen Indizierung ist aber die Sortierung in Rubriken nicht sehr einfach, weshalb die meisten Index-Suchmaschinen nur eine Stichwortsuche anbieten.
Hybride
Hybride Suchmaschinen sind ein Versuch, in einer Suchmaschine sowohl Katalog-, als auch Index-Suchmaschine zu vereinen. Im Detail funktioniert das so, dass zu einem bestimmten Suchwort beide Typen von Suchmaschine abgefragt und die Ergebnisse gemeinsam auf der Antwortseite interpretiert werden. Mit so einem System lassen sich die Nachteile von Katalogen und Indexen weitgehend ausmerzen, allerdings ist die Implementierung so einer hybriden Suchmaschine nicht sehr einfach, weshalb es zur Zeit von dieser Sorte von Suchmaschinen auch noch relativ wenige gibt.
Metasuchmaschinen
Metasuchmaschinen sind an sich keine eigenständigen Suchmaschinen, sondern stellen eine zentrale Plattform dar, in der eine Suchanfrage gestartet wird. Im Hintergrund sendet dann diese Metasuchmaschine die Anfrage an verschiedene Suchmaschinen, empfängt und interpretiert die einzelnen Antworten und stellt sie wieder auf einer einheitlichen Antwortseite dem Benutzer dar. So können mit einer einzelnen Anfrage bequem gleich mehrere Suchmaschinen abgefragt werden, ohne jede einzelne direkt aufrufen zu müssen.

Bedienung einer Suchmaschine

Die grundlegende Bedienung einer Suchmaschine ist denkbar einfach. Sie geben ein oder mehrere Stichworte an und die Suchmaschine liefert Ihnen eine Antwortseite, in der Hyperlinks auf Ressourcen im World Wide Web verzeichnet sind, die im Zusammenhang mit Ihren eingegebenen Stichworten stehen.

Mit dieser, zweifellos am häufigsten angewendeten, Methode bekommen Sie sicherlich bei vielen Stichworten passende Ergebnisse. In vielen Fällen kann es jedoch notwendig sein, die Suche zu verfeinern, um treffendere Ergebnisse zu erzielen:

Aneinanderreihung mehrerer Stichworte
Die Aneinanderreihung von mehreren Stichworten liefert zunächst Seiten, die alle angegebenen Stichworte enthalten und danach, in absteigender Reihenfolge, Seiten, die noch mindestens einige Stichworte enthalten.
Aneinanderreihung mehrerer Stichworte in Anführungszeichen
Werden mehrere Stichworte in Anführungszeichen gesetzt, so genannte Wortgruppen, werden explizit Seiten als Ergebnisse angezeigt, die diese Stichworte in der angegebenen Reihenfolge beinhalten. Suchen Sie beispielsweise nach "flughafen stuttgart", werden auch nur Seiten gefunden, die die Abfolge "Flughafen Stuttgart" beinhalten.
Ausschließen von Stichworten
Wird direkt vor ein Wort ein Minuszeichen platziert, gilt dies als Zeichen, dass dieses Wort explizit aus den Suchergebnissen ausgeschlossen werden soll. Suchen Sie also nach "flughafen -stuttgart", so werden Seiten als Ergebnis geliefert, die zwar das Wort "Flughafen" enthalten, nicht aber das Wort "Stuttgart".

Viele Suchmaschinen bieten darüber hinaus weitere Suchverfeinerungen an, etwa das Ausschließen von bestimmten Website-Adressen oder nur die Suche innerhalb einer Website. Diese Verfeinerungen sind jedoch meist suchmaschinenabhängig, es lohnt sich deshalb in Spezialfällen, die Dokumentation der entsprechenden Suchmaschine zu konsultieren.

Eigene Site in eine Suchmaschine aufnehmen

Praktisch alle Suchmaschinen bieten auf ihrer Website die Möglichkeit, Website-Adressen anzugeben, die für eine Aufnahme in die Suchmaschine überprüft werden sollen. Bei Index-Suchmaschinen handelt es sich meist um sehr einfache Eingabeformulare, die Suchmaschine benötigt hier lediglich die Adresse und besucht diese dann beim nächsten "Wühlvorgang" durch das World Wide Web.

Etwas anders sieht es bei Katalogen aus. Dort müssen Sie bei den meisten Katalogen nähere Hinweise zu Ihrer Website manuell bei der Anmeldung angeben, beispielsweise die gewünschte Rubrik, in der Sie Ihre Website gern sehen möchten und einen entsprechenden erläuternden Text zu Ihrem Eintrag. Diese Angaben sind wichtige Angaben für den Redakteur, der ihren Eintragswunsch bearbeitet und sollten deshalb ausführlich und wahrheitsgetreu verfasst sein.

Viele Kataloge, insbesondere spezielle Kataloge mit einem eng umrissenen Themenbereich, bieten verschiedene Eintragsarten an, ähnlich wie Sie es vielleicht von den Gelben Seiten her kennen: Kostenlose und kostenpflichtige Einträge. Sie sollten jeweils im Einzelfall entscheiden, ob Ihnen ein ausführlicherer Eintrag in einem bestimmten Katalog mehr wert ist oder nicht und die Angebote entsprechend vergleichen. Bei kleineren Katalogen ist vor allem die Akzeptanz des Kataloges wichtig. Der beste, auffällige Eintrag nützt Ihnen wenig, wenn der Katalog nur von wenigen Benutzern genutzt wird.

META-Tags in Web-Seiten für Suchmaschinen

Das wichtigste für eine Suchmaschine, besonders für eine Index-Suchmaschine, ist der Inhalt einer Web-Seite, also der Text. Es ist deshalb enorm wichtig, dass eine Web-Seite nicht nur auf Grafiken oder Flash-Animationen besteht, sondern auch Text vorhanden ist, den eine Suchmaschine verwerten kann.

Zusätzlich können Suchrobotern jedoch noch weitere Informationen mithilfe von META-Tags mitgegeben werden, die in den Dateikopf einer HTML-Seite eingefügt werden können. Die meisten Suchmaschinen suchen explizit nach solchen META-Tags und verwenden die dort hinterlegten Angaben als zusätzliches Kriterium zur Ermittlung der Rangfolge.

Der Aufbau eines META-Tags sieht in allen Fällen folgendermaßen aus:

Das Schlüsselwort attribut enthält hierbei das gewünschte META-Attribut und wert den entsprechenden Wert, der für das Attribut gelten soll. Die gebräuchlichsten META-Attribute seien an dieser Stelle kurz erläutert:

Steuerung von Zugriffen von Suchrobotern
Ob Suchmaschinen die HTML-Seite in ihren Suchindex aufnehmen dürfen oder nicht, wird über das META-Attribut "robots" gesteuert. Werte gibt es bei diesem Attribut zwei; einer für die Steuerung, ob eine Suchmaschine die Seite indexieren darf (entweder "index" oder "noindex" und einer für die Frage, ob Hyperlinks auf der HTML-Seite von der Suchmaschine weiterverfolgt werden dürfen (entweder "follow" oder "nofollow"). Getrennt werden beide Werte durch ein Komma.
Schlüsselwörter
Besondere Schlüsselwörter für eine HTML-Seite können durch das META-Attribut "keywords" angegeben werden. Die einzelnen Schlüsselwörter werden dann durch Kommata getrennt angegeben. Die Zahl der Schlüsselwörter ist in der Regel durch die Gesamtzeichenzahl beschränkt, die liegt bei den meisten Suchmaschinen derzeit bei 1.000 Zeichen (inklusive der Kommata).
Seitenbeschreibung
Eine Seitenbeschreibung kann durch das META-Attribut "description" hinzugefügt werden. Die Seitenbeschreibung sollte dabei einen erklärenden Text zur entsprechenden HTML-Seite enthalten, der sich möglichst auch mit dem Text auf der HTML-Seite deckt und insgesamt eine Länge von 256 Zeichen nicht überschreiten. Dieser Seitenbeschreibungstext wird von den meisten Suchmaschinen auch für den Textausschnitt verwendet, der bei den Suchergebnissen angezeigt wird.
Seitenautor
Der Seitenautor wird mit dem META-Attribut "author" angegeben und ist die Person, die die Seite beziehungsweise den Text geschrieben hat. Dies kann eine natürliche, aber auch eine juristische Person, beispielsweise ein Unternehmen, sein.
Herausgeber
Für den Herausgeber einer Seite gibt es das META-Attribut "publisher" und hier wird als Wert ebenfalls eine natürliche oder juristische Person erwartet.
Organisation
Die Organisation wird durch das META-Attribut "organisation" berücksichtigt und enthält den Namen der Organisation beziehungsweise des Unternehmens.
Sprache
Das META-Attribut "language" ist für Informationen bezüglich der verwendeten Sprache reserviert. Es enthält hierbei die internationale Abkürzung der verwendeten Sprache nach der Norm ISO 3166.
Wiederholungsrhythmus
Einem Suchroboter kann mit dem META-Attribut "revisit-after" ein Wiederholungsrhythmus vorgeschlagen werden. Der angegebene Wert steht für die Zahl der Tage, nach denen der Suchroboter die Seite nochmals indexieren soll.
Copyright
Für Copyright-Angaben gibt es das META-Attribut "copyright".
Zielgruppe
Mit dem META-Attribut "audience" kann die Zielgruppe angegeben werden, an die sich der Inhalt der Seite richtet. Als Zielgruppenbezeichnungen haben sich hierbei folgende Gruppen verbreitet (wobei diese Liste keinen Anspruch auf Vollständigkeit oder allgemeine Gültigkeit hat): all (alle), beginner (Anfänger), expert (Experte), adults (Erwachsene), fans (Fans), advanced (erweitert, fortgeschritten), men (Männer), women (Frauen), teens (Teenager), children (Kinder), professionals (Berufstätige), pupils (Schüler), students (Studenten).

Neben diesen hauptsächlich verwendeten META-Attributen gibt es noch eine Vielzahl weiterer, die jedoch meist nur von wenigen Suchmaschinen genutzt werden. HTML-Programmierer sollten hier durchaus kritisch sein und nicht jedem Hasen hinterherlaufen, der den Weg kreuzt.

Genau dieses Problem möchte die Organisation Dublin Core mit ihrer Metadata-Initiative umgehen. Dazu hat Dublin Core einen eigenen Satz von META-Attributen entwickelt, für die es genau definierte Werte zur Auswahl gibt. Bei korrekter Anwendung lassen sich hiermit sehr genau Inhalte klassifizieren.

Wieso Optimieren nicht Optimieren ist

Sie kennen sicherlich die vielen Angebote von Dienstleistern, die Ihnen anbieten, Ihre Website in Suchmaschinen problemlos für mehr oder weniger viel Geld in die Top 10 zu bringen. Oder andere Dienstleister bieten Ihnen Verlinkungen auf Seiten an, die angeblich in Suchmaschinen mit bestimmten Begriffen top-positioniert sind, auch schon jede Menge Besucher haben, die praktisch nur noch auf Ihr Angebot warten. Wieso, fragen Sie sich vielleicht, fallen solche Geschäftsideen nur kleinen, unbekannten Firmen ein, die niemand kennt? Und was antworten solche Unternehmen auf die Frage, was wohl passiert, wenn mehr als zehn Unternehmen einen Vertrag für die gleichen Suchworte unterschreiben würden und alle in die Top 10 gehievt werden wollen?

Sie ahnen es bereits: Solche Angebote sind dunkel, oftmals unlauter und ohne jegliche Basis. Vielleicht sind Seiten, die beispielsweise mit verdeckten, hundertfach vorhandenen Stichwörtern im HTML-Text oder entsprechend manipulierten Suchworten tatsächlich bei einigen Suchmaschinen top- positioniert, aber was bringt das, wenn diese Seite zwar ganz oben dabei ist und von vielen Benutzern besucht wird, dennoch aber nicht die gewünschte Information enthält? Ein Besucher, der einmal kommt und veräppelt wird, kommt so schnell nicht wieder. Zudem sind auch die Betreiber von Suchmaschinen daran interessiert, ihre Datenbasis so korrekt wie nur möglich zu halten und ständig an der Arbeit, genau solche Manipulationen zu erkennen und zukünftig zu verhindern. Die Chance also, mit so einer manipulierten Seite tatsächlich eine höhere Zahl von Besuchern zu "ernten", kann auch eine sehr kurze sein.

Ein vernünftiger Dienstleister, der Suchmaschinenoptimierungen anbietet, wird mit Ihnen zusammen Ihre Website analysieren, eine Liste von thematisch passenden Suchmaschinen zusammenstellen, Ihnen erklären, wie Sie mit META-Tags den Inhalt besser indexierbar für Suchmaschinen machen können und Ihnen auch die einzelnen Anmeldevorgänge bei den Suchmaschinen abnehmen. Er wird Ihnen jedoch mit Sicherheit keine Garantie geben, dass Ihre Website danach auf den ersten Platz bei bestimmten Suchwörtern kommt, und er wird Ihnen auch nicht vorschlagen, irgendwelchen Manipulationen vorzunehmen, um auf diese Weise eine Suchmaschine hereinzulegen.

Was aber ist das Geheimnis einer optimierten Seite für Suchmaschinen? Nun, es klang bereits an einigen Stellen dieses Artikels schon an: Das Geheimnis ist, dass der Inhalt stimmt, die Suchworte und die Beschreibung in den META-Tags zum Inhalt passt, die Seite einmal bei Suchmaschinen angemeldet wird und Sie einfach warten. Die meisten modernen Suchmaschinen bewerten Seiten nämlich nicht nur anhand des Inhaltes und der META-Tags, sondern auch am Grad der Verlinkung zur Seite hin. Sprich: Wird Ihre Seite von möglichst vielen Nutzern für sinnvoll gehalten, wird sie früher oder später auch als Hyperlink auf anderen Seiten im World Wide Web auftauchen. Genau diesen "Beliebtheitsgrad" registrieren auch Suchmaschinen und nehmen es als starkes Kriterium für die Sortierung. Auch dieses System lässt sich im Kleinen sicherlich manipulieren, dennoch ist diese Messart der Inhaltsrelevanz deutlich zuverlässiger, als rein nach der Häufigkeit bestimmter Worte im Seiteninhalt.

Suchmaschine, lasse die Finger weg!

Es gibt durchaus Web-Angebote oder Teile von Web-Sites, bei denen der Autor nicht möchte, dass diese in Suchmaschinen erscheinen. Bei Katalogen ist dies recht einfach, denn da trägt man sich in so einem Falle einfach nicht ein. Bei Index-Suchmaschinen ist einfaches "Aussitzen" jedoch nicht möglich, da ein Suchroboter problemlos im Laufe der Zeit durch einen externen Hyperlink auf das Angebot könnte. Einzelne Seiten in einer Website lassen sich mit dem META-Tag "robots" von einer Indexierung ausschließen, wenn eine entsprechende Zeile mit den richtigen Attributen (siehe vorherigen Textblock) versehen ist.

Es geht jedoch auch universeller mit dem so genannten Robots Exclusion Standard, an den sich alle gängigen Suchmaschinen halten. Mit diesem Standard können Sie angeben, dass einzelne Seiten oder die gesamte Website von allen oder nur bestimmten Suchmaschinen nicht besucht werden sollen. Bewerkstelligt wird dies mit einer simplen Textdatei namens "robots.txt", die in der obersten Verzeichnishierarchie der Website liegen muss und nach folgendem Schema aufgebaut ist:

# netplanet n_3G - Robots Exclusion File
# http://www.netplanet.org/robots.txt

Sitemap: http://www.netplanet.org/sitemap.xml.gz

robots.txt von netplanet

Die Zeilen, die mit einem Gatter ("#") beginnen, sind zunächst reine Kommentarzeilen, die nicht verarbeitet werden, sondern nur zur Information dienen.

Der grundlegende Aufbau eines Sperreintrages besteht aus einer User-agent- und einer oder mehreren folgenden Disallow-Zeile(n). Die erste Zeile gibt an, für welche Suchmaschine die folgenden Disallow-Zeilen gelten sollen. In jeder Disallow-Zeile werden dann die einzelnen Unterverzeichnisse angegeben, die für die betreffende Suchmaschine gesperrt sein sollen.

Die User-agent-Zeile erlaubt einen Platzhalter in Form eines Sternchens ("*"), der besagt, dass die nachfolgenden Disallow-Zeilen für alle Suchmaschinen gelten sollen. In so einem Falle ist bei mehreren User-agent-Einträgen die Reihenfolge zu beachten, damit nicht schon mit einem allgemeinen Eintrag Unterverzeichnisse für alle Suchmaschinen gesperrt werden, bevor in weiteren Einträgen für einzelne Suchmaschinen eigene Ausnahmeregeln definiert werden.

Ein einzelner Schrägstrich in einer Disallow-Zeile hat ebenfalls eine allgemeine Wirkung, damit gilt für die betreffende Suchmaschine ein komplettes Indexierungsverbot der Website.

Weiterführende Links

http://www.suchfibel.de/
Die Suchfibel

http://www.dublincore.org/
Dublin Core Metadata-Initiative