Forschende sehen sich mit einer immer größeren Menge an relevanten Dokumenten aus den unterschiedlichsten Bereichen konfrontiert. Damit besteht ein wachsender Bedarf an Werkzeugen, die es Forschenden ermöglichen, verwandte Texte in verschiedenen Bereichen schnell zu identifizieren. Bestehende Lösungen erlauben keine Verknüpfung von Dokumenten aus Textkorpora, die verschiedenen Domänen entstammen. Sie sind zudem nicht skalierbar oder verwenden Algorithmen, die nicht quelloffen und allgemein zugänglich sind.
Logic Mill – ein neues Software-System und Forschungstool
Logic Mill ist ein neues Software-System und Forschungstool, das von einer Forschungsgruppe der wirtschaftswissenschaftlichen Abteilung unter Leitung von Dietmar Harhoff entwickelt wurde, um Dokumente zu identifizieren, die einem bestimmten Text in anderen Textkorpora ähnlich sind. Es besteht aus einer Reihe von quelloffenen Software-Komponenten und besitzt eine öffentliche Schnittstelle für die Anwendungsprogrammierung (API), die von der wissenschaftlichen Gemeinschaft genutzt werden kann.
Die Lösung
Die Logic Mill-Software analysiert große Teile von Texten, die ja nicht nur aus Wörtern, sondern auch Struktur und Kontext bestehen, mit Hilfe modernster maschineller Lernverfahren. Im Gegensatz zu früheren Versuchen, die Ähnlichkeit von Texten zu schätzen, berücksichtigt Logic Mill die semantische Struktur als zusätzliche Dimension der Ähnlichkeit. Logic Mill sucht nicht nur nach dem Vorkommen gleicher Wörter, sondern auch danach, in welchem Kontext (d.h. relativ zum Satz und Absatz) diese vorkommen. Spezielle Modelle für maschinelles Lernen kodieren den Text numerisch und lassen so die Berechnung verschiedener Ähnlichkeitsmaße zu.
Bisherige Versuche, Textdokumente zu vergleichen, beschränkten sich meist auf Texte der gleichen Kategorie, z.B. Patente mit Patenten oder Publikationen mit Publikationen. Nun kann man Dokumente aus verschiedenen Domänen untereinander und miteinander vergleichen.
Bisher arbeitet Logic Mill mit Datensätzen von Semantic Scholar, EPO, USTPO und WIPO. Eine Einbindung von Wikipedia ist in Vorbereitung.
Die Anwendungsmöglichkeiten
Logic Mill ermöglicht schnell umfangreiche Literaturrecherchen. Es erlaubt, semantisch ähnliche Patentdokumente zu finden, was wichtig für Recherchen zum Stand der Technik bei der Patentprüfung oder für die Abschätzung der Wahrscheinlichkeit von Patentstreitigkeiten ist. Zudem kann eine Verbindung von Patenten zu entsprechenden wissenschaftlichen Publikationen hergestellt werden. Logic Mill kann sowohl Referenzen für neue Dokumente als auch gerade neu veröffentlichte Publikationen empfehlen. Es erlaubt zudem, die Neuheit von Patenten und Publikationen zu bewerten. Darüber hinaus können Wissensströme über verschiedene Bereiche hinweg verfolgt und neue Trends und die Verbreitung neuer Konzepte aufgespürt werden.
Der Name des Projekts Logic Mill ist durch die Romane des “Barock Cycle” des britischen Schriftstellers Neal Stephenson inspiriert. Darin entwirft der deutsche Universalgelehrte Gottfried Wilhelm Leibniz eine Maschine, die das gesamte menschliche Wissen auf der Grundlage eines Abrufsystems organisiert, das auf Primzahlen basiert. Diese Maschine ist zwar fiktiv, aber Leibniz’ Gedanken klingen in der modernen Informatik nach, insbesondere im Hinblick auf das Problem der numerischen Darstellung jeglicher Art von Daten.
Weitere Informationen:
Wenn Sie über die Fortschritte bei Logic Mill informiert werden möchten oder am Testprogramm teilnehmen möchten, können Sie sich auf der Logic Mill-Website registrieren.
Direkt zur Publikation Logic Mill – A Knowledge Navigation System.