Archie gehört zu den ersten organisierenden Internet-Diensten, deren einzige Aufgabe es ist, große Datenmengen zur sinnvollen Recherche bereitzuhalten. Bei Archie handelt es sich dabei um ein Suchwerkzeug zur Suche auf FTP-Server.
Was ist Archie?
Archie ist ein Suchwerkzeug für öffentlich zugängliche FTP-Server (siehe hierzu auch File Transfer Protocol). Ein Archie-Server ist vergleichbar mit einem Inhaltsverzeichnis, das alle Dateinamen der FTP-Server enthält, in denen gesucht werden kann. Mit gezielten Suchaktionen auf einem Archie-Server lassen sich auf diese Weise bestimmte Dateien finden, ohne direkt auf dem jeweiligen FTP-Server suchen zu müssen. Da Archie-Server in der Regel von vielen FTP-Servern Inhaltsverzeichnisse gleichzeitig führen, lassen sich so gleiche Dateien auf näheren FTP-Servern finden und so ressourcensparender und schneller Dateien herunterladen.
Diese Intention war es auch, die Archie den Weg begründete. Die Recherche nach Dateien mit Archie war grundsätzlich von einer Recherche direkt auf einem FTP-Server abgekoppelt und schonte damit die FTP-Server.
Geschichtliches
Die initiale Idee zu Archie stammt von Alan Emtage, der an der School of Computer Science der McGill University in Montreal/Kanada studierte. Emtage war regelmäßig auf der Suche nach Software für die Rechner der Universität und recherchierte hierzu vor allem nach Freeware auf FTP-Server im Internet. Um sich die Arbeit zu erleichtern, schrieb er einige Scripte, die automatisiert nachts auf FTP-Server nach Stichworten in Dateinamen suchen konnten, so dass er morgens schon gewünschte Suchergebnisse hatte.
Peter Deutsch war sein Chef in der Leiter der Systemgruppe, in der Emtage arbeitete, und regte an, diese Scripte auch anderen Benutzern zur Verfügung zu stellen. Mit Bill Heelan wurde noch ein ausgewiesen guter Programmierer mit ins Boot geholt und aus den Scripten ein Dienst entwickelt. Aus dem englischen Begriff "Archive" wurde nach Wegnahme eines Buchstabens der Begriff Archie.
Eine bedeutende Erweiterung erfuhr Archie durch die Arbeit von Clifford Neuman, einem Doktoranden an der University of Washington, der die Langsamkeit von Archie beklagte. Er kombinierte sein eigenes Projekt namens Prospero mit Archie, um eine bessere Übersichtlichkeit zu erreichen. Prospero kannte keine einzelnen Server, sondern ordnete Ressourcen aus verschiedenen FTP-Server in eine einheitliche Verzeichnisstruktur, die auf diese Weise auf vielen Archie-Servern abgebildet werden konnte. Auf diese Weise konnte die Recherchelast auf viele Archie-Server verteilt werden. Emtage und Deutsch waren zunächst von dieser Idee nicht sehr angetan, ließen sich dann aber doch davon überzeugen, dass Prospero ein richtiger Weg war, Archie zu unterstützen.
Deutsch und Emtage gründeten später ein gemeinsames Unternehmen namens Bunyip Information Systems und entwickelten Archie zu einem kommerziellen Produkt weiter. Dennoch wurde Archie auch für nichtkommerzielle Institutionen weiterverwendet und fand vor allem bei Universitäten eine große Beliebtheit, obwohl es verhältnismäßig kompliziert zu bedienen war. Die Beliebtheit ging so weit, dass dem Rektor der Universität von Kollegen zu diesem Dienst herzlich gratuliert wurde. Freilich wusste dieser zunächst gar nicht, weshalb ihm da gratuliert wurde, da ihm die Entwicklungen von Archie gar nicht mitgeteilt wurden.
Inzwischen spielt Archie im Internet nur noch eine untergeordnete Rolle und ist nur noch sehr selten zu finden. Zur Durchsuchung von Datenbeständen auf Serversystemen existieren viele, sehr ausgereifte Softwareprodukte, die sich über Webinterfaces bequem in einem Webbrowser bedienen lassen, die eine reine Stichwortsuche nach Softwaretiteln nicht mehr notwendig machen.
Technisches
Archie basiert vor allem auf Datenbanken, die die Inhaltsverzeichnisse der öffentlichen FTP-Server enthalten. Diese Datenbanken können dann vom Nutzer entsprechend nach einem Befehlssatz (siehe unten) abgefragt werden. Um mit einem Archie-Server Verbindung aufzunehmen, genügte eine Telnet-Verbindung zum Archie-Server und die Eingabe entsprechender Kommandos.
Benutzung
Für die Benutzung von Archie-Servern wird ein Befehlssatz verwendet, der den heutigen WWW-Suchmaschinen verblüffend ähnlich sieht. Dies hat natürlich den relativ einfach zu verstehenden Hintergrund, dass die ersten Programmierer von WWW-Suchmaschinen unter anderem auch bei Archie-Server Inspirationen gesucht und offensichtlich auch gefunden haben. ;-)
Bei der Suche mit Archie wird zwischen vier Suchoptionen unterschieden:
- Exakte Übereinstimmung mit dem Suchbegriff
- Teilzeichenkette
- Teilzeichenkette mit Unterscheidung zwischen Groß- und Kleinschreibung
- Verwendung von regulären Ausdrücken
Teilweise werden jedoch nicht von allen Archie-Server alle diese vier Suchoptionen gleichzeitig angeboten.
Exakte Übereinstimmung mit dem Suchbegriff
Bei dieser Suchoption wird nach dem kompletten, eingegebenen Suchbegriff gesucht. Dies ist zum Beispiel bei der Suche nach einem genauen Dateinamen brauchbar. Da hier auch zwischen der Groß- und Kleinschreibung unterschieden wird, ist es unbedingt notwendig, auf die genaue Schreibweise zu achten.
Der Suchbegriff "testdatei.txt" würde beispielsweise alle Dateien auflisten, die genau "testdatei.txt" heißen, nicht Dateien, die "Testdatei.txt" oder "Testdatei.gif" heißen.
Teilzeichenkette
Bei der Suche mit einer Teilzeichenkette wird nach Dateien und Verzeichnissen gesucht, die den Suchbegriff enthalten. Zwischen Groß- und Kleinschreibung wird hier nicht unterschieden.
Der Suchbegriff "test" würde beispielsweise die Dateien "testdatei.txt", "Testdatei.txt", "Testdatei.gif", aber auch "Getestetedatei.txt" finden.
Teilzeichenkette mit Unterscheidung zwischen Groß- und Kleinschreibung
Diese Suchform ähnelt der vorherigen Suchform; es werden Dateien und Verzeichnisse gesucht, die den Suchbegriff enthalten. Zusätzlich wird bei dieser Suchoption jedoch zwischen Groß- und Kleinschreibung unterschieden.
Der Suchbegriff "test" würde beispielsweise die Dateien "testdatei.txt" und "Getestetedatei.txt", nicht aber die Dateien "Testdatei.txt" und "Testdatei.gif" finden.
Verwendung von regulären Ausdrücken
Mit regulären Ausdrücken lassen sich sehr gezielte und komplexe Suchen gestalten. Da sich reguläre Ausdrücke auch kombinieren lassen, führen solche Anfragen am effektivsten zu gesuchten Dateien und Verzeichnissen.
"$"
Der Suchbegriff vor dem Dollarzeichen soll am Ende des gesuchten Wortes auftreten. Der Suchbegriff "test$" würde beispielsweise die Dateien "dateientest", nicht aber die Dateien "testdatei" oder "test.txt" finden.
"^"
Der Suchbegriff nach dem Zirkumflexzeichen soll am Anfang des gesuchten Wortes auftreten. Der Suchbegriff "^test" würde beispielsweise die Dateien "testdatei.txt", nicht aber die Datei "dateientest" finden.
"."
Der Punkt steht als Platzhalter für ein beliebiges Zeichen. Der Suchbegriff ".test" würde beispielsweise die Dateien "btest" finden.
"*"
Der Stern steht hinter einem Ausdruck als Zeichen, dass der davor stehende Begriff beliebig oft im Suchergebnis stehen kann (auch überhaupt nicht). Der Suchbegriff "test.*" würde beispielsweise die Dateien "test" oder "testdatei" finden, nicht aber "einetestdatei".
"\"
Der umgekehrte Schrägstrich dient zur Maskierung eines dahinter stehenden Zeichens im Suchbegriff, der ansonsten im regulären Ausdruck vorkommt. Wenn Sie beispielsweise als Suchbegriff den regulären Ausdruck "test.txt" eingeben, würde der Punkt als Platzhalter für beliebige Zeichen interpretiert werden. Die Suchanfrage sollte deshalb "test\.txt" heißen, um alle Dateien zu finden, die genau "test.txt" heißen.
"[" und "]"
Die eckigen Klammern dienen zur Angabe von einzelnen Zeichen, die an der markierten Stelle des Suchbegriffes auftauchen können. Der Suchbegriff "[ab]test" würde beispielsweise die Dateien "atest" und "btest" finden, nicht aber die Datei "ctest".
"[^" und "]"
Das Zirkumflexzeichen nach der einführenden eckigen Klammer bewirkt genau das Gegenteil als die obigen Anfrage. Der Suchbegriff "[^ab]test" würde beispielsweise die Datei "ctest" finden, nicht aber die Dateien "atest" und "btest".