Erweiterte Textanalyse
mit IBM Watson

Jeden Tag werden 2,5 Quintillionen Bytes an neuen Daten generiert, ein Großteil davon in Form nicht strukturierter Dokumente in natürlicher Sprache, wie zum Beispiel: Anträge, Berichte, Reklamationen, ärztliche Rezepte oder Schadensmeldungen, die in verschiedenen Sprachen abgefasst sind. Schätzungen gehen davon aus, dass nur 8 Prozent des Informationsgehalts dieser unstrukturierten Daten in Unternehmen nutzbar sind.

Heute erlebt der Bereich der künstlichen Intelligenz dank des durch die Cloud eröffneten Rechenpotenzials ein starkes Wachstum. Die Verarbeitung natürlicher Sprache gehört seit jeher zu den vielversprechendsten Anwendungsbereichen künstlicher Intelligenz. Im Sektor der auf künstlicher Intelligenz basierenden Technologien haben sich rund ein Dutzend Lösungen etabliert, die heute zu den Marktführern gehören. Blue Reply hat sich für die Nutzung der Technologien von IBM Watson entschieden: Gegenüber den primären Wettbewerbern zeichnen sich diese durch eine hohe Reife des Machine Learning aus sowie durch ein breites Produktangebot (sowohl in der Cloud als auch am Standort), mit zahlreichen fertig einsatzbereiten Funktionalitäten, Internationalisierung und großer Flexibilität in der Zusammenstellung der Lösungen.

Blue Reply bietet hochgradig spezialisierte Kompetenzen und Profile für die Beratung und Begleitung der Kunden, ihre Unterstützung bei der Auswahl von Software sowie für die Definition von Architekturen und Lösungen zur Gewinnung des Mehrwerts aus in natürlicher Sprache geschriebenen Dokumenten mithilfe von Erkennungstechnologien.

In natürlicher Sprache vorliegende Dokumente können so verarbeitet werden, dass bestimmte Elemente aus ihnen extrahiert werden, wie beispielsweise Personen, spezifische Produkte, geografische Angaben, Organisationen und deren Beziehungen zueinander, und zwar sowohl auf allgemeiner Ebene als auch in spezifischen Geschäftsbereichen. Geschriebene Texte sind für einen Rechner nur eine Abfolge von Elementen ohne Bedeutung. Das System ist nicht in der Lage, zu verstehen, ob diese einen Satz, ein Wort oder Zahlen darstellen: Das System muss erst darin geschult werden, dass es bestimmte Muster erkennt, die den Inhalt bestimmen. Im Text müssen daher die Beziehungen zwischen den einzelnen Elementen ermittelt werden, um zu gewährleisten, dass die Bedeutung im jeweiligen Kontext möglichst exakt erkannt wird. So wird ein Modell aus verschiedenen Elementen und Beziehungen erstellt.

Die von Blue Reply konzipierten Lösungen zur Extrahierung von Informationen aus Daten ermöglichen es, das System mithilfe manueller Regeln, mit Machine Learning oder einer hybriden Form aus beidem zu schulen.
Diese drei Ansätze weisen unterschiedliche Merkmale.
RULES-BASED-ANSATZ
  • Verwendet vorab definierte Regeln zur Analyse der natürlichen Sprache.
  • Ermöglicht ein einfaches Tracking und Debugging.
  • Erfordert menschliches Eingreifen zur Programmierung komplexer Regeln.
  • Ist bei zunehmender Komplexität schwer beizubehalten.
MACHINE-LEARNING-ANSATZ
  • Verwendet Interferenzen und statistische Modelle zur Analyse natürlicher Sprache.
  • Lernt anhand von Beispielen, erfordert kein Schreiben von Code.
  • Geeignet für Prozesse mit großem Datenvolumen.
  • Kann für den Entwickler wenig nachvollziehbar sein und erschwert das Debugging.
  • Erfordert das Erstellen einer Wissensbasis (Ground Truth).
HYBRIDER ANSATZ
  • Kombiniert die Ansätze Rules Based und Machine Learning.
  • Ermöglicht einen Anfang mit dem Rules-Based-Ansatz und den anschließenden Wechsel zu Machine Learning.
  • Verwendet Regeln, um das Lernen zu beschleunigen und die Genauigkeit der ML-Modelle zu verbessern.
  • Erfordert die Entwicklung einer Lösung zur Integration der beiden Ansätze.

Es muss besondere Sorgfalt beim Erstellen des Datasets aufgewandt werden, der Auswahl an Musterdokumenten zur Schulung des Systems. Die prozentuale Performance kann durch menschliches Eingreifen anhand einer kleinen Auswahl von manuell kommentierten Dokumenten bewertet werden. Wenn komplett manuelle Verfahren zum Extrahieren von Informationen verwendet werden, arbeiten Fachleute für Softwareentwicklung und Domänenexperten isoliert und haben Schwierigkeiten, sich untereinander auszutauschen, bedingt durch die unterschiedliche Kenntnis der Domäne bzw. in Bezug auf die Untersuchung der Sprache, die häufig doppeldeutig sein kann. Dank der Watson-Technologien kann dieser Prozess vereinfacht und intuitiver gestaltet werden, da Softwarespezialisten und Domänenexperten über eine gemeinsam zur Zusammenarbeit genutzte Plattform Produkte und API integrieren können, so dass eine automatisierte Lösung entsteht, die in der Lage ist, große Datenvolumen zu verarbeiten.

Die Erstellung des Datasets mithilfe von Watson ist daher:
  • Intuitiv: Nuancen der natürlichen Sprache werden erfasst, ohne dass dafür ein Code geschrieben werden muss.
  • Kollaborativ: Zwei Benutzer mit unterschiedlichen Kompetenzen können das Instrument gleichzeitig nutzen, um ihre jeweilige Arbeit auszuführen.
  • Kostengünstig: Die Schnelligkeit des Prozesses und die SaaS-Bereitstellung ermöglichen es, nur die jeweils benötigten Elemente zu erwerben, so dass die Lösung auch im Hinblick auf die Kosten äußerst effizient ist.

Die Lösung eignet sich für alle, die in natürlicher Sprache abgefasste Dokumente verarbeiten müssen, um Informationen zu extrahieren und so die Absicht bzw. Bedeutung eines Dokuments zu erkennen. Dieses Angebot kann für Kunden beispielsweise aus den Sektoren Insurance, Healthcare, Telco, Retail, Banking und Manufacturing von Interesse sein.