Zum Hauptinhalt springen

Heinold, Spiller und Partner im Interview mit Norbert Weitkämper

Neue Geschäftsmodelle für STM Publisher durch NoSQL Suchtechnologien: Erhardt Heinold im Interview mit Norbert Weitkämper

Unternehmensberatung Heinold, Spiller und Partner im Interview mit Norbert Weitkämper

Neue Suchtechnologien ermöglichen neue Geschäftsmodelle für Verlage: Inhalte können nach unterschiedlichen Kriterien gefiltert und neu zusammengestellt werden. Dabei können auch Benutzer-zentrierte Informationen mit Inhalten verknüpft werden. Wie das funktioniert, erläutert Norbert Weitkämper, Geschäftsführer der Weitkämper Technology GmbH und Referent auf dem nächsten CrossMediaForum, im folgenden Interview.

Dem NoSQL-Ansatz wird nachgesagt, dass er die Suchtechnologie revolutioniert und bekannte Tools wie Lucene überflüssig macht. Stimmt das? 

Norbert Weitkämper: Datenbank und Text-Suche sind zunächst voneinander unabhängige Technologien. Egal ob SQL oder NoSQL, für die schnelle (Volltext) Suche werden andere Indexstrukturen, Funktionen und Algorithmen als für herkömmliche Datenbankabfragen benötigt. Auch sind die Anforderungen unterschiedlich. In einer herkömmlichen Datenbank sucht man meist nach recht kurzen Strings wie z.B. Datum, Preis oder Namen. Für eine Suche in Text erwarten wir jedoch ein hervorragendes  Ranking und Funktionen wie Phrasensuche, Nahe Operator, Facettennavigation, Linguistik, Thesauri oder Klassifikation. Diese speziellen Techniken sind für eine klassische Datenbank nicht so relevant und daher auch nicht vorgesehen. Viele Datenbankanbieter haben daher für Textsuche zusätzliche Software entwickelt oder eingekauft, die sie explizit für diese Anforderung anbieten, z.B. Oracle Text, SAP TREX oder DB2 Text Search. Auch Amazon hat ja mit A9.com Inc. seine eigene Firma speziell für Suchesoftware. 
Dokument-orientierte NoSQL Datenbanken integrieren diese Textsuchfunktionen etwas besser, da sie generell für Text sehr gut geeignet sind und die Anbieter mehr Augenmerk hierauf legen. Aber bei weitem nicht in dem Maße, wie wir es von professionellen Lösungen gewohnt sind. 
Egal ob SQL, NoSQL oder ECM, für eine gute Textsuche braucht man immer eine zusätzliche Komponente. Auch wir kombinieren daher in unserer PubEngine unsere NoSQL Datenbank mit unserer bewährten XSEARCH Retrieval.

Welche neuen Suchemöglichkeiten und vielleicht sogar Geschäftsmodelle werden durch diesen Ansatz möglich?

Norbert Weitkämper: Die Textsuche unserer Retrieval können wir mit speziellen Suchfunktionen kombinieren, die wiederum eine NoSQL Datenbank besser kann: Suche in allen Zeitungsartikeln nach den Begriffen „Tierschutzverein“ und „Sitzung“ nicht älter als 6 Monate im Umkreis von 20 km meines Heimatortes. Die Textsuche  mit der Textretrieval gemacht, die Zeiteinschränkung könnte man performant auch mit der Datenbank machen, die Abfrage der Geokoordinaten hingegen ist auf jeden Fall mit der NoSQL Datenbank besser. 
Für erfolgreiche Geschäftsmodelle im Bereich ePublishing ist die Kombination aus erstklassiger Textsuche und NoSQL Datenbank ideal. Dokumente und Dateien, egal ob XML, PDF, ePub, MP3 oder TIFF, werden zuverlässig in der NoSQL Datenbank verwaltet und organisiert. Aber auch alle Abo- und Preisinformationen, Lizenzmodelle oder das Rechtemanagement werden bei der PubEngine über die Datenbank gehandelt und sind direkt mit den Dokumenten verknüpft. Somit ist es möglich, Angebote anhand von Themen, Metadaten und Zielgruppen immer wieder neu zu kombinieren und Inhalte sehr flexibel zusammenzustellen, zu vermarkten und somit auf verändernde Märkte sehr schnell zu reagieren. 
Sehr schön sind auch die Erweiterungsmöglichkeiten, die diese Technologie bietet. Über weitere Module wie Newsletter oder Blog bis hin zu User-Foren können Verlage nicht nur Content, sondern auch weitere Benutzer-zentrierte Portalfunktionen anbieten und diese direkt mit dem Content verknüpfen.  Sie erleichtern somit Auf- und Ausbau einer Community Plattform, um Verlagen rund um ihre Inhalte ein Maximum an Kundenbindung und –loyalität zu ermöglichen.

Wie funktioniert eine Suche in einer NoSQL-Datenbank?

Norbert Weitkämper: Der Unterschied zu SQL ist nicht so groß. Wesentliches Merkmal ist, dass die Daten keiner festen Struktur folgen müssen und NoSQL somit mehr Flexibilität bietet, gerade mit Dokumenten. Über getaggte Bereiche können Feldabfragen und Sortierungen erfolgen (Zoning), die über herkömmliche Indexstrukturen beschleunigt werden. Auch relationale Abfragen sind selbstverständlich möglich. Eine einfache Suche nach Text ist bei nahezu allen Systemen vorhanden, doch wird sie in unserer PubEngine durch unsere erheblich leistungsstärkere Retrieval ersetzt, um professionelle Funktionen wie DrillDown, Fehlertoleranz oder Linguistik anzubieten.

Wie müssen Inhalte aufbereitet sein, um so durchsuchbar zu werden?

Norbert Weitkämper: Dank der hohen Flexibilität von NoSQL gibt es weniger Ansprüche an den Inhalt. Aber auch hier gilt natürlich, dass von Nichts auch Nichts kommt. Metadaten wie Titel, Autor oder Jahrgang sollten vorhanden sein, um sie gezielt für Trefferliste oder Facetten anzuzeigen. Sie können automatisiert aus den Dokumenten ausgelesen, importiert oder auch direkt in unserem System vom Redakteur bearbeitet werden.  

Ist NoSQL immer die Antwort, oder machen SQL-Lösungen auch in Zukunft Sinn?

Norbert Weitkämper: NoSQL ist für weniger stringente Daten wie Dokumente, Tweeds, Blogs oder Foren sehr charmant und überlegen. Auch sind die Systeme leichter zu skalieren und sehr performant. Dies zusammen macht sie für BigData sehr interessant. Für Anwendungen im Bereich strukturierter Daten mit starker relationaler Abhängigkeit, beispielsweise Warenwirtschaft, sehe ich keine Vorteile. 

Ihr Vortrag, den Sie auf dem CrossMediaForum gemeinsam mit Thomas Kleffner halten, lautet: „Cross Media Publishing mit der PubEngine am Beispiel der Fachzeitschriften des Klett-Cotta Verlags“. Was wird die Kernbotschaft sein?

Norbert Weitkämper: Wir zeigen den kompletten Workflow von den Satzdaten bis hin zum Online Publishing. Die PubEngine bietet das Web basierte Managen der Dokumente, Lizenzen und Rechte im Backend bis hin zur Freigabe für die Online Aktualisierung.

_________________________________________________________________________________________________

Das Interview führte Erhardt F. Heinold, Geschäftsführer der Heinold, Spiller & Partner Unternehmensberatung GmbH