ChatLibrary
Der KI Discovery Assistant
für Ihre eBooks und eJournals
PubEngine ChatLibrary
Die ChatLibrary ist die neue, KI-gestützte Wissens-Lösung, die als persönlicher Discovery Assistant in der PubEngine eLibrary neue Standards definiert. Mit präzisen Antworten und exklusivem Verlagswissen bietet sie einen neuartigen, zielgerichteten und inspirierenden Zugang zu Wissen.
Dank der ChatLibrary wird der Umgang mit eBooks und eJournals natürlich und intuitiv - perfekt zugeschnitten auf die Bedürfnisse akademischer Einrichtungen und Verlage.
ChatLibrary DeepDive*
Die akademischen Prinzipien Vertrauen, Transparenz und Sicherheit sind die drei Säulen der PubEngine KI-Initiative.
- Vertrauen: Ihre Inhalte bilden die Wissensbasis der KI, maßgeschneidert für jeden einzelnen Publisher. Alle Fakten und Informationen stammen ausschließlich aus Ihren eigenen Inhalten. Das Large Language Model (LLM) wird lediglich zur Formulierung und Sprachverarbeitung eingesetzt.
- Transparenz: Jede Aussage der KI wird durch Quellenangaben aus Ihren Inhalten belegt. Jede Zitierung verweist direkt auf das entsprechende Dokument aus Ihrer individuellen Knowledge Base.
- Sicherheit: Ihr Content, Ihre KI. Kein Training mit Ihren Daten. Kein Datentransfer in die USA. Die gesamte Architektur inkl. LLM befindet sich in Deutschland, für 100% GDPR Compliance.
Wachsende KI mit jedem Erwerb
Ähnlich einem lebenden Gehirn wächst mit jedem Erwerb die Wissensbasis Ihrer Kunden - individuell angepasst auf jede einzelne Institution. So entsteht eine starke Kundenbindung und nachhaltige Loyalität.
Quellenangaben aus Ihren Inhalten
ChatLibrary greift ausschließlich auf das Wissen aus Ihrem eigenen Content zurück. Antworten sind mit Zitaten und Quellenangaben versehen, die direkt überprüft und aufgerufen werden können. Externes Wissen, etwa aus dem Internet, wird dabei nicht verwendet.
Minimale Halluzination und Verzerrung
Die ChatLibrary integriert spezielle LLMs, die für das Zusammenspiel mit einer eigenen Knowledge Base prädestiniert sind. Ihr Fokus liegt auf Genauigkeit und Transparenz und sie werden lediglich für das versierte Formulieren eingesetzt. Sollte eine Antwort im Inhalt nicht zu finden sein, wird dies unmissverständlich mitgeteilt – ganz einfach.
Out of the box
Das Training eines LLM ist aufwendig und kostspielig[1], ebenso wie Betrieb und Bereitstellung. Das trainierte Basismodell ist oft bereits veraltet, noch bevor es einsatzbereit ist. Aktuelle LLMs sind mittlerweile hochentwickelt, beinhalten umfassende wissenschaftliche Quellen[4] und sind sprachlich äußerst versiert. Die PubEngine ChatLibrary liefert präzise Antworten direkt aus Ihren eigenen Inhalten – und das ohne jeglichen Trainingsaufwand.
LLM der zweiten Generation
Ein LLM mit einer Transformer-Architektur wie ChatGPT muß immer individuell und aufwendig trainiert werden, um belastbare Resultate liefern zu können[2][3].
ChatLibrary integriert daher das LLM der zweiten Generation, das speziell mit dem Ziel der Genauigkeit konstruiert wurde und zusammen mit seiner Knowledge Base für maximale Zuverlässigkeit sorgt.
Immer up-to-date
LLM-Anbieter befinden sich in einem erbitterten Wettstreit. Update-Zyklen werden immer kürzer, die Modelle werden zunehmend zu Spezialisten für bestimmte Aufgaben. Die PubEngine ChatLibrary nutzt stets das aktuellste LLM.
Tuning
ChatLibrary lässt sich optimal anpassen: Parameter wie Genauigkeit, Antwortlänge und Ranking können flexibel nach Bedarf eingestellt werden.
Intelligente Verknüpfung mit PubEngine eLibrary
Ihre Knowledge Base ist in die PubEngine eLibrary integriert und arbeitet nahtlos mit ihr zusammen. So können Antworten gezielt gefiltert, bewertet und angereichert werden.
Multilingual
ChatEngine unterstützt eine Vielzahl von Sprachen. Dies ist nicht nur für Studierende eine wertvolle Hilfe bei der Erstellung von fremdsprachigen Aufsätzen, sondern auch ein überzeugendes Argument für den internationalen Vertrieb der eLibrary.
Streng vertraulich
Sämtliche Inhalte, egal ob Content oder Chat, bleiben stets vertraulich und werden niemals offengelegt. Die Knowledge Base und das Sprachmodell sind konzeptionell strikt voneinander getrennt, und Ihre Daten werden unter keinen Umständen zu Trainingszwecken verwendet. Ihre KI gehört ausschließlich Ihnen und ist nach außen hin hermetisch abgeschottet.
100% Deutschland, 100% DSGVO-konform
Die gesamte Architektur samt LLM liegen ausschließlich in Deutschland. Auch das Hosting und der Betrieb erfolgen aussschließlich in Deutschland.
Clarivate's AI for Academia
Wir haben die Aktivitäten unseres Partners Clarivate beim Aufbau einer KI-Lösung zur Erfüllung akademischer Standards und Grundsätze von Anfang an begleitet. Durch die Grundpfeiler Vertrauen, Transparenz und Sicherheit entstand eine Architektur, die der von Clarivates "AI for Academia" stark ähnelt – und in ihrer Kernstruktur nahezu identisch ist.
Doch die ChatLibrary geht noch einen Schritt weiter: Dank ihres Frage-Antwort-Formats ermöglicht sie eine noch intensivere, direkte Auseinandersetzung mit den Inhalten. Unser Motto „keine Antwort ohne Quellenangabe“ gewährleistet dabei maximale Zuverlässigkeit und schafft Vertrauen, das die Nutzung nachhaltig steigert.
Die ChatLibrary wird die Art und Weise, wie Studenten mit Inhalten der eLibrary umgehen, massiv verändern.
Beispiel: Keine Halluzination
Natürlich kennt z.B. ChatGPT den längsten Fluss Chinas.
Die PubEngine ChatLibrary hingegen fokussiert sich ausschließlich auf die bereitgestellten Dokumente und kann keine Antwort geben.
Beispiel: Quellenangaben, Reasoning
Alle Aussagen sind mit Quellen aus den Inhalten Ihrer Wissensbasis belegt, die direkt anklickbar und einsehbar sind.
Beachten Sie auch die Fähigkeit, logische Schlussfolgerungen zu ziehen (Reasoning Intelligence).
Beispiel: Erweiterung der Wissensbasis
Der Kunde hat ein zusätzliches eBook lizenziert, wodurch die KI-Wissensbasis automatisch erweitert wird. Das neue eBook enthält präzisere Informationen zu derselben Frage und sorgt so für eine genauere Beantwortung.
Bei der Entwicklung unserer KI-Initiative stehen ethische Grundsätze, regulatorische Vorgaben und eine nachhaltige Architektur im Mittelpunkt. So stellen wir sicher, dass unsere Produkte – insbesondere im akademischen Umfeld – verantwortungsvoll und zukunftssicher eingesetzt werden können. Der am 1. August in Kraft getretene AI Act der Europäischen Union, das weltweit erste Gesetz zur Förderung eines verantwortungsvollen Umgangs mit Künstlicher Intelligenz, schafft hierfür einen maßgeblichen Rahmen.
Fragen und Antworten
Mit ChatGPT zu arbeiten ist kinderleicht. ChatGPT ging von Anfang mit einer intuitiven Oberfläche an den Start. Noch nie war es so einfach, z.B. eine Textzusammenfassung oder die wichtigsten Keywords zu einem Dokument zu generieren.
GPT-4o hat in der Standardversion ein Kontextfenster von 8192 Token, das sind rund 7000 Wörter oder 15 Seiten Text. Auch das Hochladen von PDF oder Word Dokumenten ist möglich. Die einfachste Methode für z.B. eine Textzusammenfassung ist also, das Dokument hochzuladen und nach einer Zusammenfassung zu fragen.
Die API von ChatGPT ist sehr einfach zu benutzen. Es ist ein Kinderspiel, Anwendungen wie Summarizer, Keyword Extractor, Übersetzer oder Frage-Antwort Agenten zu entwerfen und in eigene Applikationen einzubinden.
Halluzination ist ein großes Problem. Dies liegt zum einen an der Art der Transformer-Architektur[1] und zum anderen an der nicht zu kontrollierenden riesigen Datenmenge, mit denen das LLM für eine Vielzahl von Aufgaben trainiert wurde. Laut Sam Altman hat das Trainieren von ChatGPT-4 100 Millionen Dollar gekostet[2] - das zeigt die Dimension dieses Modells. Halluzination war schon bei ChatGPT-3 einer der größten Kritikpunkte[3]. Version 4 ist zwar hier durch den Versuch, einen eigenen Faktencheck durchzuführen, z.B. in der Wikipedia, viel besser geworden, aber unserer Meinung nach für den akademischen Bereich so ohne weiteres nicht einsetzbar.
[1] 2023, What are AI hallucinations?, IBM
[2] Katharina Buchholz, August 2024, The Extreme Cost Of Training AI Models. Forbes
[3] Alkaissi, H. & McFarlane, S. I. (2023). Artificial Hallucinations in ChatGPT: Implications in Scientific Writing. Cureus, 15(2), e35179. DOI: 10.7759/cureus.35179
Öffentlich hochgeladene Daten werden für das Training des LLMs benutzt.
Bei der Nutzung der Enterprise Edition macht OpenAI zwar gewisse Zusagen, doch für uns ist Datenverarbeitung in US-amerikanischen Datencentern per se ein No-Go, genauso wie für nahezu alle öffentlichen Behörden und Institutionen, die ja letztendlich als Kunden die KI nutzen sollen. Hosting in den USA war und ist eigentlich immer schon ein Ausschlusskriterium für einen Kontrakt mit einer europäischen Institution, da ist die Nutzung von KI auf Servern in den USA erst recht tabu[1].
Gem. der Herausgabeverpflichtungen nach FISA, dem CLOUD-Act u.a. US-amerikanischen Regelungen gilt:
US-amerikanische Sicherheitsbehörden können US-amerikanische Unternehmen verpflichten, Daten und Informationen, auf die sie rechtlich und tatsächlich zugreifen können.....herauszugeben[2].
[1] Neuerer, Dietmar (May 2023): Anwendungen wie Teams sind für Behörden tabu, weil Daten in die USA gelangen könnten. Handelsblatt
[2] Wissenschaftlicher Dienst des Deutschen Bundestags (April 2024): Herausgabepflichten von Daten und Informationen an US-amerikanische Sicherheitsbehörden
Bei Nutzung der Enterprise Edition gilt:
Überprüft OpenAi meine Daten?
Wir können alle Daten, die an die Dienste von OpenAI übermittelt werden, durch automatische Inhaltsklassifizierer und Sicherheitstools laufen lassen, auch um besser zu verstehen, wie unsere Dienste genutzt werden. Die erstellten Klassifizierungen sind Metadaten über die Daten, enthalten aber keine Daten selbst. Die Daten werden nur einer menschlichen Überprüfung unterzogen, wie unten für jeden einzelnen Dienst beschrieben.
Wer ist Eigentümer der Inputs und Outputs?
Nein, die ChatLibrary nutzt nicht ChatGPT. Wir haben uns für ein führendes LLM mit einem Transformer-Modell der zweiten Generation entschieden, das für belastbare Frage-Antwort Aufgaben wesentlich besser geeignet ist.
Die gesamte Architektur mit allen Komponenten inkl. des LLMs hosten wir in Deutschland. Sie entspricht zu 100% der DSGVO. Das LLM wird mit keinen Daten trainiert. Jede Knowledge Base ist für jeden Verlag individuell.
Die Architektur von ChatLibrary geht weit über die Nutzung eines LLM hinaus. Das LLM ist nur ein Baustein der ChatLibrary und wird lediglich für das Formulieren und Sprechen benutzt - auch KI Reasoning lassen wir zu. Aber alle Informationen kommen ausschließlich aus der eLibrary, also aus den verlagseigenen eBooks und eJournals, und nicht aus dem LLM. Hiermit erreichen wir nahezu einen Ausschluss von Halluzination.
Unser Ansatz ist die Nutzung der kompletten eLibrary oder beliebiger Teile davon als ausschliessliche Wissensbasis. Der Nutzer kann also der eLibrary Fragen stellen und erhält Antworten aus allen eLibrary Inhalten, die er beispielsweise lizenziert hat. Mit Angabe von Zitierung und Quellen in jeder Antwort, die direkt angesprungen und verifiziert werden können.
Die ChatLibrary besteht sehr vereinfacht gesagt aus den Bausteinen
- Content (eBooks und eJournals)
- Natürliche Sprachverarbeitung NLP
- Knowledge Base
- LLM.
Eine wesentliche Herausforderung ist neben dem Design der Architektur und der Auswahl und Evaluierung das Feintuning und Abstimmung aller einzelnen Komponenten und Dienste, um das optimale Ergebnisse hinsichtlich Transparenz, Zuverlässigkeit, Performance, Nutzerfreundlichkeit und Kosten zu erzielen.
SearchEngine und NoSQL Datenbank der eLibrary sind mit der ChatLibrary Knowledge Base intelligent verknüpft, um auf Metadaten und Informationen blitzschnell zugreifen und sie für das Filtern, Bewerten und Anreichern verwenden zu können.
Wir sind Pionier rund um die Intelligente Suche. Vor ca. 15 Jahren entwickelten wir den Intelligent Classifier, der für das Lernen von Fachdomänen das automatische Training mit menschlicher Expertise kombiniert - ganz so, wie Knowledge Worker heute ein LLM trainieren.
Wir wisssen daher sehr genau, wie aufwendig das sinnvolle Trainieren von Modellen ist und welche Verbesserungen es bringen kann[1].
Für eine sehr spezielle Fach- und Sprachdomäne wie z.B. das Chat-Book Frag den Grüneberg (Palandt), zumal einziger Inhalt dieser Chat-Book KI, macht Training nicht nur Sinn, sondern ist ein Muss. Für eine eLibrary mit ihren sehr unterschiedlichen Themenspektren wie Medizin, Wirtschaft, Psychologie, Altertum, Chemie, IT etc. steht der Aufwand[2] hingegen eher nicht im Verhältnis zum Ertrag. Die Kosten für die Bereitstellung eines trainierten LLMs im Datencenter liegen zudem im mittleren 6-stelligen Euro-Bereich p.a.
Heutige LLMs sind äußerst mächtig und bereits mit umfassendem Fachwissen trainiert[3][4][5]. Die ChatLibrary mit ihrer KnowledgeBase Architektur ist so konzipiert, dass das LLM immer Up-to-Date gehalten und nicht trainiert werden muss und andere Parameter zum Feintuning eingesetzt werden können.
[1] Weitkämper, Felix (2023): One-shot Learning, The Reasoner 17 (1) S. 8. University of Milano Press
[2] David Rosenberg(2023): Podcast über das Training des Bloomberg LLMs. Die Gesamtkosten betrugen ca. 1 Millionen Dollar, die finale Rechenlaufzeit für die Modellerstellung fast 2 Monate und das Team besteht aus 9 Mitarbeitern
[3] Battersby, Matilda (July 2024): Academic authors 'shocked' after Taylor & Francis sells access to their research to AI. The Bookseller
[4] Pacifici, Sabrina I. (August 2024): Wiley set to earn $44m from AI rights deals, ‘no opt-out’ for authors. Berkeley Law Library
[5] Leiter, Brian (May 2024): Cambridge University Press now asking authors whether they want to license their publications for LLMs. Philosophy Blog
Sie haben Fragen zur ChatLibrary oder allgemein zum Einsatz von KI? Vereinbaren Sie einen Gesprächstermin mit unserem KI-Experten und Geschäftsführer Dr. Alex Stolz.
* Podcast synthetisch generiert mit den unter www.pubengine.de öffentlich bereitgestellten Informationen. Inhalt ist in Teilen inakkurat. Video erstellt mit AI Creator. Darstellung ist artifiziell.
[1] David Rosenberg (2023): Podcast über das Training des Bloomberg LLMs. Die Gesamtkosten betrugen ca. 1 Millionen Dollar, die finale Rechenlaufzeit für die Modellerstellung fast 2 Monate und das Team besteht aus 9 Mitarbeitern.
[2] Konstantinos C Siontis, Zachi I Attia, Samuel J Asirvatham, Paul A Friedman, ChatGPT hallucinating: can it get any more humanlike?, European Heart Journal, Volume 45, Issue 5, 1 February 2024, Pages 321–323, https://doi.org/10.1093/eurheartj/ehad766
[3] IBM International Business Machines Corporation (2023): What are AI hallucinations?
[4] Ithaka S+R (2024): Generative AI Licensing Agreement Tracker