Textdatenanalyse mit NLP und maschinellem Lernen (Einführungskurs)
Textdaten auf relevante Inhalte "zwischen den Zeilen" untersuchen
Ein Großteil der weltweit verfügbaren Informationen liegt in Textform vor. Relevant sind hierbei neben den Textinhalten an sich die Textthemen oder Stimmungen im Text. Auch Schreibstile können aufschlussreich sein. Herausforderungen hierbei sind Unstrukturiertheit von Texten oder das Fehlen von Metadaten.
Um trotzdem relevante Informationen aus Texten abzuleiten, lernen Sie in unserem Seminar Methoden der Natürlichen Sprachverarbeitung (NLP) und des maschinellen Lernens (ML) kennen.
Zunächst lernen Sie die Grundlagen des NLP kennen, mit denen Sie Textdaten im Internet crawlen und sie dann maschinenlesbar bereinigen und strukturieren. Im Anschluss lernen Sie, wie bekannte Standardmethoden des ML (z.B. Clustering, Classification) im Kontext von Textanalyse funktionieren. Ebenso lernen Sie die Grundlagen der Techniken kennen, mit denen Sie anschließend Autorenstile erkennen oder im Text präsente Themen (topics) und Stimmungen (sentiments) herauslesen. Außerdem lernen Sie, wie Sie die Entstehung der ML-Ergebnisse interpretieren und die Güte der Verfahren evaluieren können.
Zielgruppe
- Ermittler und Ermittlerinnen
- Data Scientists
- Forensiker und Forensikerinnen
Inhalte
- Crawling nach Textdaten im Internet
- Korpuserstellung und -strukturierung
- Datenbereinigung
- Preprocessing
- Grundlagen des ML
- Interpretierbarkeit von ML-Modellen
- Evaluierung Ihrer Ergebnisse
- Überblick über Autorschaftsanalyse, Topic Modeling und Sentiment-Analyse
- Tipps zu Literatur und Software
Nach dem Seminar können Sie...
- verstehen, wie Sie grundlegende Problemstellungen hinsichtlich der Verarbeitung von Textdaten lösen
- nachvollziehen, wie man diese Methoden praktisch in Python umsetzt
Dieses Seminar bietet Ihnen...
- Vermittlung gängiger Methoden und Werkzeuge der forensischen Textuntersuchung
- Erkenntnisse aus dem aktuellen Forschungsstand in NLP und ML
- Austausch mit Expertinnen und Experten sowie Vernetzung mit anderen Anwenderinnen und Anwendern der Computerlinguistik und der Textforensik
Voraussetzungen
- Grundkenntnisse in der Programmiersprache Python; alternativ: Beherrschung einer anderen Hochsprache (z.B. Java, C, C++, C#)
Ablauf des Online-Kurses
Dieser Kurs besteht aus Live-Vorträgen im Online-Seminar und läuft über vier Tage:
Tag 1 - 3: 10 - 15.30 Uhr (jeweils eine Stunde Mittagspause)
Tag 4: 10 - 15 Uhr (eine Stunde Mittagspause)
Der Umfang des Seminares entspricht einer 1,5 Tages Schulung. Dieser werden angereichert durch eine Reihe von interaktiven Live-Demos in der Programmiersprache Python.