Der Teufel macht Computerlinguistik: Gedanken zu einem komplexen Thema
Letzte Woche hat ein Gastbeitrag von Malte Landwehr im Sistrix Blog für Furore gesorgt. Der Titel war: Computerlinguistik als Google-Rankingfaktor? .
Wenn ich das richtig verstanden habe, war es Maltes Intention mit dem Artikel die SEOs in Deutschland mit der Nase auf das Thema zu drücken. Denn die Computerlinguistik ist für Suchmaschinen und damit auch für SEOs extrem wichtig, findet aber trotzdem bisher kaum Beachtung (zumindest vordergründig). Ich möchte heute ergründen, warum Malte recht hat, warum es die Themen wie Computerlinguistik trotzdem schwer haben, und wieso das alles am Ende doch nicht so wild ist.
Warum Malte recht hat
Computerlinguistik als Rankingfaktor? Das ist Titel und These des Beitrags. Ich kenne die Comnputerlinguistik noch als linguistische Datenverarbeitung, ein Fach, das an der Uni Trier angeboten wurde, wo ich studiert habe, und das ein paar meiner Freunde dort belegt haben. Ich hingegen nicht, worüber ich mich nach Erfahrungen wie dem Lesen von Maltes Artikel ein bisschen ärgere. Aber zu dem Zeitpunkt hatte ich da einfach noch überhaupt keinen Zugangspunkt.
Wenn wir uns heute und auch schon in den letzten Jahren mit Suchmaschinen befassen, dann geht es dabei oft um semantische Aspekte, um intelligente Suchmaschinen, die Zusammenhänge und Intentionen und irgendwann auch Texte verstehen. Darüber wird seit Jahren geredet, aber es fallen manchmal eher Science-Fiction Begriffe als der der Computerlinguistik. Dabei bildet sie und die Erkenntnisse aus dieser Wissenschaft die Grundlagen der künstlichen Intelligenz im Bereich Sprach- und Texterkennung.
In seinem Artikel nennt Malte einige sehr beeindruckende Arbeiten, die zeigen, wozu diese Wissenschaft in der Lage ist. Diese Grundlagenforschung ist es aus der später wirklich echte Dienste, Apps und Programme entstehen. Und sie stellen Google Erkenntnisse bereit, mit denen sie irgendwann wirklich in der Lage sein könnten, Texte automatisch zu lesen, zu verstehen, und in einen Kontext zu verschiedenen Themen zu setzen, und am Ende auch zum Suchenden.
Computerlinguistik ist längst da
Das passiert auch schon. Wenn wir in den letzten Jahren von Termgewichtung oder Co-Occurrence und Co-Citation sprechen, dann stehen dahinter auch linguistische oder computerlinguistische Erkenntnisse. Wenn Apple einen Sprachassistenten oder Google die Voice Search startet, dann ebenso. Auch denke ich dabei einerseits an Big Data, an Data Mining oder negativ an die automatische Auswertung von Telekommunikation durch Geheimdienste. Und wenn wir im Rahmen vom Hummingbird an die kontextbasierte Suche denken, an Entitäten, dann ist das Verstehen und automatische Verarbeiten von Sprache der Schlüssel dazu. Da SEOs daran interessiert sind zu erfahren, wie und warum die Suchmaschinen zu einem bestimmten Ergebnis/Ranking kommen, sollten sie die Linguistik und Computerlinguistik mittelfristig auf dem Schirm haben. An die Möglichkeiten, die sich für diverse Tools bieten könnten, will ich mal gar nicht denken.
Warum hat es die Computerlinguistik trotzdem so schwer?
Computerlinguistik oder linguistische Datenverarbeitung: Das haben viele vielleicht einmal gehört, sich ernsthaft damit auseinandergesetzt haben aber nur die wenigsten. In meinem Fall hatte das zumindest damit zu tun, dass beide Fächer, nun ja, erstmal langweilig klingen. Und hinzu kommt: sie sind kompliziert. Linguistik im Allgemeinen ist ein Teil der Sprachwissenschaften, mit dem viele nicht zurecht kommen – das Stieffach der meisten Germanisten. Wenn dann zu kryptischer Sprache auch noch mathematische Formeln und die Logik elektronischer Systeme dazu kommen, ist bei den meisten Ende. Und zwar im vorhinein, aus einer inneren Angst heraus. Diese Angst vor Formeln oder was auch immer, hat sich auch damals in der Diskussion um WDF*IDF gezeigt. Man konnte zwischendurch beinahe glauben, dass es sich um magisches Teufelszeug handelt, was Karl Kratz da verbreitet hat. Gegen das, was in der Computerlinguistik passiert, ist es allerdings wohl eher Kindergarten. Und genau deswegen hatten es solche Themen schwer und werden es auch weiterhin schwer haben.
Das Wesentliche im Fokus
Das ist aber alles auch erstmal weiter nicht schlimm. Um Computerlinguistik zu verstehen muss man sie vermutlich studiert haben, oder wenigstens etwas artverwandtes. Aber es geht auch gar nicht darum, sie zu verstehen. Es geht letztlich nur um die Zusammenhänge. Außerdem handelt es sich dabei schließlich um Grundlagen, die nicht unbedingt eingesetzt werden. Aber sie erweitern unseren Horizont, zeigen was möglich ist, worauf man vielleicht achten könnte. Für den SEO geht es aber letztlich darum: Was aus dieser Grundlagenforschung setzt Google so oder so ähnlich um? Worauf muss eine Website achten um von Google für relevant zu einem Thema gehalten zu werden? Inhaltlich wird hier die Bedeutung sprachwissenschaftlicher Erkenntnisse zunehmen, in dem Maße in dem sich das Textverständnis von Google verbessert (hier ein kleines Beispiel zu dem, was bereits möglich ist). Google wird uns auch in Zukunft nicht verraten, mit welchen Algorithmen sie arbeiten. Die Zeit der einfachen Gleichungen, dem mehr = besser, ist jedenfalls vorbei. Die Schrauben an denen man drehen kann werden kleiner, aber dafür zahlreicher. Es macht also wenig Sinn, an jeder einzelnen kleinen Schraube zu drehen, sondern es gilt den Fokus auf das große Ganze zu richten.
Spannender Beitrag David! Studiere selbst Informationswissenschaft im 6 Semester und bin freiberuflich im SEO unterwegs. Habe mich innerhalb des Studiums viel mit automatischem Text Mining, Semantischen Netzwerken und Information Retrieval beschäftigt und kenne zur Genüge so einige Gruselgeschichten in dem Bereich! ;-)
Grüße Patrick