Indexierung multimedialer Inhalte

08.01.2018 | mit David Linden

Wie ich in einem Teil unserer Reihe „Architektur von Suchmaschinen“ erklärt habe, kann Indexierung auch als „Schaffung durchsuchbarer Datenstrukturen“ umschrieben werden. Die Indexierung von Webinhalten bezeichnet demnach den Vorgang, bei dem die Inhalte des Webs durchsucht und geordnet werden, um sie bei Bedarf den Usern zu präsentieren. Das hört sich zunächst einmal einfach an, ist in der Realität jedoch sehr kompliziert. Das liegt daran, dass die Inhalte ja erst einmal verstanden und im Idealfall auch interpretiert und überhaupt gelesen werden müssen, um sie vernünftig in einen Index zu bringen, der durchsucht werden kann. Da die großen Suchmaschinen darauf basieren, dass sie die Webinhalte automatisch indexieren, stehen sie vor anderen Problemen, als zum Beispiel manuell arbeitende Webkataloge. Menschen können verschiedene Inhalte schließlich deutlich besser erkennen, verstehen, interpretieren und einordnen als Automaten bzw. Maschinen. Menschen sind vielseitiger, dafür aber deutlich langsamer. Die großen Suchmaschinen mit ihrer automatischen Indexierung sind hingegen unglaublich schnell. Und mittlerweile werden sie sogar immer besser darin, die Inhalte der Websites zu verstehen. Das gilt zumindest so lange, wie es sich um html-Dokumente und textliche Inhalte handelt. Denn Text ist das, was Suchmaschinen verstehen. Und das ist auch die Sprache, mit der sie mit den Usern kommunizieren. Man gibt in Textform eine Suchphrase ein und danach wird dann gesucht, in der Regel in Dokumenten, die ebenfalls in Textform vorliegen.

Die Indexierung multimedialer Inhalte ist hoch komplex

Bei multimedialen Inhalten, im Volksmund also Bilder, Videos und Audiodateien, aber eben auch anderen Dokumenten, stellt sich die Indexierung noch deutlich schwieriger dar. Das liegt mittlerweile jedoch nicht mehr daran, dass Bild- oder Spracherkennung technisch generell nicht möglich sind. Nein, entsprechende Software dürfte jedem schon in der ein oder anderen Form begegnet sein. Jedoch reicht es selbstverständlich nicht, festzustellen, was auf einem Bild im Einzelnen zu sehen ist, um es vernünftig einordnen zu können. Und selbst das dürfte momentan nur noch schwer möglich sein. Viel schwieriger wird es dann jedoch, die Sinnebene eines Bildes zu erfassen. Auch bei Texten ist das Verständnis der Suchmaschinen für die Semantik noch relativ gering, auch wenn sich das stetig verbessert. Da in den Suchmaschinen aber mit Suchbegriffen gesucht wird, ist es besonders wichtig, dass der Sinn eines Bildes verstanden wird. Denn die Suchmaschine müsste sich das Dargestellte selbst beschreiben und es in Textform übersetzen können und dann in den Index einordnen. Dabei müsste sie sich dann die relevanten Keywords selbst suchen. Denn wenn der User einen Suchbegriff eingibt und nach Bildern sucht, möchte er natürlich ein Bild angezeigt bekommen, das genau das zeigt, wonach er gesucht hat. Von diesem Ziele sind wir aber noch weit entfernt. Gleiches gilt, teilweise in noch viel größerem Ausmaß, für andere Multimedia-Inhalte, wie Videos oder Audiodateien.

Metadaten als Indexierungshilfe für die Suchmaschinen

Obwohl das also alles so schwierig ist, zeigt mir Google in der Suche (meistens) die richtigen Bilder und Videos, wenn ich einen Suchbegriff eingebe. Und in der Regel passen die sogar ziemlich gut. Wie ist das möglich?

Das liegt in erster Linie daran, dass diese Bilder bereits beschrieben wurden. Den Suchmaschinen wird also von denjenigen, die die Bilder einstellen, ein großer Teil der Indexierung abgenommen. Eine gute Beschreibung von multimedia Inhalten ist daher enorm wichtig. Darauf sind wir auch bereits in unseren Beiträgen zur Optimierung von Bildern und Videos eingegangen. So lassen sich Bilder gut mit dem Alt- und Title-Attribut beschreiben und auch Definitionslisten eignen sich dazu.

Eine weitere gute Indexierungshilfe für Suchmaschinen bilden die schon häufiger erwähnten Sitemaps, insbesondere die XML-Sitemaps. Darunter gibt es dann wieder die speziellen XML-Sitemaps, die hervorragend dazu geeignet sind, Google Multimedia-Inhalte zu erklären, die es sonst nicht indexieren könnte.

Bisher bin ich vor allem auf Bilder und Videos eingegangen, weil sie wohl diejenigen Inhalte sind, die die meisten unter „Multimedia“ verstehen würden. Hinzu kommt, dass diese Inhalte besonders beliebt und für Websites auch sehr wichtig sind. Und das obwohl sie selbst nicht von den Suchmaschinen gecrawlt werden können. Viele Websites enthalten jedoch auch noch andere Dateitypen, die man ebenfalls als Multimedia-Inhalte bezeichnen kann, von diesen können einige auch indexiert werden.

Welche Dateiformate indexiert werden können

Wenn ich bisher von „Text“ geschrieben habe, der indexiert werden kann, so war dabei stets von solchem Text die Rede, der im normalen HTML Code enthalten ist. Viele Websites beinhalten jedoch auch sogenannte Textdokumente. Solche Dokumente können in den verschiedensten Dateiformaten indexiert werden. Google hat hierzu eine Liste veröffentlicht, mit den wichtigsten unterstützten Formaten. Im Grunde werden alle gängigen Office-Formate unterstützt, egal ob .doc- oder .odt-Dateien, die entsprechenden Tabellenformate oder Präsentationen. Ebenfalls indexiert werden kann das PDF-Format. Selbstverständlich können auch in diesen Dateien enthaltene Grafiken nicht indexiert werden.

Ein weiteres wichtiges Thema für Multimedia-Inhalte ist Flash. Flashdateien (also mit der Endung .swf) können seit einiger Zeit von Google indexiert werden, allerdings hier natürlich auch nur der Text-Content. Dennoch wird von Google selbst empfohlen, Flash „nur zu dekorativen Zwecken“ einzusetzen bzw. „für Inhalte und Navigation eher HTML zu verwenden“.

Größere Probleme gibt es dann jedoch bei anderen Rich-Media-Formaten, wie zum Beispiel Silverlight. Zwar kann Google hier einzelne, textuelle Inhalte crawlen und indexieren, jedoch nicht wenn diese in Grafiken eingebettet sind, was bei Rich-Media ja häufig der Fall ist. Generell sind die Rich-Media-Formate schwierig zu indexieren, da sie generell visueller sind und selbst wenn sie gecrawlt werden können, ist eine vollständige Erfassung des Inhalts eher unwahrscheinlich. Aus diesen Gründen ist von der Verwendung dieser Inhalte, insbesondere von Silverlight oder IFrames, eher abzuraten. Mindestens aber sollte, wie von Google empfohlen, HTML zur Navigation verwendet werden. Wenn auf diese Formate nicht verzichtet werden soll/will/kann, sollte auch eine textbasierte Version dieser Seite erstellt werden, die über einen normalen HTML-Link erreicht werden kann.