Eine der herausfordernden Aufgaben in der Informatik besteht heute im Umgang mit großen Textmengen und der Extraktion von relevanten Daten aus Dokumenten mit unterschiedlicher und uneinheitlicher Formatierung. Das Text Mining macht sich moderne Ansätze im Maschine Learning und der künstlichen Intelligenz zunutze, um an die gewünschten Daten im Rahmen eines automatisierten Prozesses zu gelangen.
Definition: Text Mining
Das Text Mining umfasst verschiedene Algorithmen für die Analyse von unstrukturierten oder nur schwach strukturierten Textdaten. Das Text Mining verbindet Ansätze aus der Linguistik und der Statistik, um aus den Textdaten Kerninformationen zu extrahieren und damit zu einer schnelleren Textverarbeitung beizutragen.
Wie funktioniert Text Mining?
Bei der automatischen Verarbeitung von Textdaten handelt es sich um eine nicht triviale Aufgabe. Das Hauptproblem stellen die in unstrukturierter Form vorliegenden, hochdimensionalen Daten dar. Es ist erforderlich, die Daten in einem ersten Schritt zu strukturieren und danach die hochdimensionalen Ausprägungen zu reduzieren. Bei der Betrachtung der verwendeten Methoden sind daher Ansätze zur Textnormalisierung und der Dimensionsreduzierung zu unterscheiden.
Welche Text Mining-Methoden gibt es?
Die beiden entscheidenden Methoden für das Text Mining sind das Informational Retrieval und die Information Extraction:
- Informational Retrieval: Das Informational Retrieval bezieht sich auf das Durchsuchen verschiedener Quellen nach für den Nutzer relevanten Daten. Dieser Ansatz ist besonders wirksam, weil er nicht nur die Ausgangsdatenbasis betrachtet. Stattdessen zieht das Programm weitere Datenquellen hinzu, um die Analysequalität zu verbessern. Das bietet Vorteile zum Beispiel in Hinblick auf die Mustererkennung, da mehr Daten für Vergleiche vorhanden sind. Dem Programm fällt es aufgrund dieser vorbereitenden Schritte leichter, Strukturen zu erkennen, die gewünschten Daten herauszufinden und diese aus den Textdaten zu extrahieren.
- Information Extraction: Dieser Ansatz konzentriert sich auf die Ermittlung von Daten, die in den Textdokumenten vorhanden sind. Dazu ist ein gewisses Textverständnis erforderlich. Bei der Information Extraction kommt daher das Natural Language Processing hinzu. Das Natural Language Processing bewegt sich an der Schnittstelle von Informatik und Sprachwissenschaft und ermöglicht die maschinelle Verarbeitung natürlicher Sprache. Das Natural Language Processing setzt sich aus verschiedenen Analyseschritten zusammen, zu denen auch eine semantische Analyse gehört. Diese ordnet Sätzen und Satzteilen Bedeutungen zu. Das Programm erlangt dadurch ein Textverständnis und baut darauf seine weitere Analyse auf.
Ablauf eines Text Mining-Prozesses
Das Text Mining durchläuft in der Praxis einen bestimmten Ablauf, der sich in mehrere Schritte unterteilen lässt. Zuerst erfolgt das oben beschriebene Information Retrieval. Das Programm legt fest, welche Datenquellen es für die Analyse heranziehen möchte. Dazu gehören die Inputdaten, weitere offline zur Verfügung gestellte Datensätze sowie zum Beispiel aus dem Web hinzugezogene Textdaten.
Ihr persönlicher KI-Chatbot
Danach beginnt die Vorverarbeitung der Textdaten. Hier ist das Verfahren der Information Extraction relevant. Zu den Vorverarbeitungsschritten gehören die Textaufbereitung, die Bereinigung der Textdaten und die sogenannte Tokenisierung. Die Tokenisierung umfasst die Segmentierung von Buchstabenketten in einzelne Absätze, Wörter und Sätze. Danach erfolgen die Erstellung der Dokumentenmatrix und die Strukturierung des Textes. Diesen Schritt bezeichnet die Wissenschaft als Transformation.
Erst danach beginnt eine inhaltlichere Analyse des Textes. Die Algorithmen ermitteln in der Selektion im Text vorkommende Themen, extrahieren aus den Datensätzen Konzepte und bilden Dokumentengruppen. Im vierten und letzten Schritt erfolgt das eigentliche Data Mining beziehungsweise die Extraktion von Information, die Gewinnung von neuen Erkenntnissen und das Herausfinden von Mustern in den Textdaten. Alle diese Schritte bauen aufeinander auf und sind auf komplexe Weise miteinander verbunden.
Anwendungsbeispiele für Text Mining
Wo immer eine automatisierte Aufbereitung von Textdaten Vorteile bietet, kommt das Text Mining in der Praxis zum Einsatz. Einsatzbereiche ergeben sich prinzipiell überall dort, wo Textverarbeitungen bisher durch Menschen erforderlich waren.
- Marketing: Im Marketing ist es entscheidend, die Werbemaßnahmen zielgruppengenau zu steuern. In der Vergangenheit hat das Online-Marketing sich vor allem auf Informationen aus Cookies konzentriert, die auf der Festplatte des Nutzers abgelegt sind und im Wesentlichen Informationen zum Browsing-Verlauf enthalten. Dank Text Mining lassen sich alle Textinformationen auf einer Seite verarbeiten, die der Nutzer gerade betrachtet und nach Schlagwörtern und Themen durchsuchen, die für das Schalten von Werbung relevant sind. Damit fällt es leichter, jedem Nutzer Werbung anzuzeigen, die für ihn gerade aktuell ist.
- Social Media: Social Media bietet einen reichen Schatz an unstrukturierten Daten. Dazu gehören Nutzerkommentare ebenso wie verschiedene Beiträge, Mitteilungen oder Bildunterschriften. Für die Kunden- und Marktanalyse sind diese Daten besonders wertvoll, deren Menge und Struktur macht eine Verarbeitung jedoch schwierig. Hier können automatisierte Prozesse entscheidende Vorteile bieten.
- Risikomanagement: Die Anwendung von automatisierter Textverarbeitung lohnt sich in allen Bereichen, in denen Risiken zu managen sind. Die Ergebnisse lassen sich verbessern, wenn das Risikomanagement auf einer besseren Datenbasis erfolgt. Diese verbesserte Datenbasis liefert das Text Mining, das selbst größte Datenmengen mit tausenden Textdateien im Petabyte-Umfang analysiert. Das ist nützlich bei der Verarbeitung von Finanzdaten, um zum Beispiel Zahlungsfähigkeiten besser abschätzen zu können.
- Medizin: In der Medizin können automatische Textverarbeitungsprozesse dem Personal wertvolle Entscheidungshilfen bieten. Weltweite Forschungsergebnisse in unterschiedlichen Sprachen aus einer Vielzahl von Datenbanken sowie bereits erprobte Behandlungsansätze und deren Dokumentationen lassen sich per Text Mining automatisch nach Inhalten durchsuchen, die für die aktuelle Behandlung relevant sind. Damit sind bessere Diagnosen möglich und es lassen sich wirksamere Diagnosen ableiten. Dank Maschinenlernen und künstlicher Intelligenz sind mehr Quellen verarbeitbar, als dieses durch menschliches Personal alleine zu leisten wäre.
- Spam-Filterung: Spam tritt insbesondere in Form unerwünschter E-Mail-Sendungen auf. Viele E-Mail- und Internet-Provider betreiben einen hohen Aufwand für die Filterung von Spam. Die automatisierte Text-Analyse hilft dabei, unnatürliche Sprache oder Inhalte mit geringem Wert zu erkennen.
Weitere Quellen
- Wikipedia, abgerufen 28.05.2020
- TU Dortmund, abgerufen 28.05.2020
- Uni Paderborn, abgerufen 28.05.2020
- Expertsystem.com, abgerufen 28.05.2020