Home
Über uns
Mitglieder
Arbeitsgruppen
Projekte
Produkte
Publikationen
Stellungnahmen
News
Interviews und Namensbeiträge
Newsletter
Presse
Termine
Stellenmarkt
Online-Services
 

 

Text-Mining ist eine vielversprechende Methode

Rund 80 Experten diskutierten auf dem TMF-Workshop den Status Quo von Text-Mining in der Medizin

09.02.2015. Wo stehen wir im Bereich von Text-Mining in der medizinischen Forschung? – das war die zentrale Frage beim TMF-Workshop zum Text-Mining am 28. Januar 2015 in Berlin. Im Rahmen des Workshops tauschten sich Forscher, Antragsteller, Fördermittelgeber, Industriepartner und Datenschützer zu den neuen Entwicklungen beim Einsatz von Text-Mining in der aktuellen klinischen Forschung aus. „Wir müssen in der Forschung darauf achten, den Mehrwert von Text-Mining transparenter herauszustellen und ihn besser zu kommunizieren“, betonte Prof. Dr. Ulrich Sax (Universitätsmedizin Göttingen) in seinem Abschluss-Statement zur Veranstaltung. Dabei sei es wichtig, Anwendungsszenarien zu definieren, für die die Effektivität der syntaktischen und semantischen Erschließung klinischer Texte dargestellt und auch beziffert werden kann.

Text-Mining beschleunigt Arbeitsprozesse, darüber waren sich die Referenten und Teilnehmer einig. Deutlich wurde dies auch anhand der von Dr. Philipp Daumke (Averbis) einführend vorgestellten Ergebnisse und Anwendungsfälle des cloud4health-Projekts, an dem die TMF beteiligt ist. Die Sekundärnutzung klinischer Daten ist ein wichtiges Feld für die medizinische Forschung. Viele Informationen sind aber vor allem in den unstrukturierten Freitexten zu finden. Aufgabe des cloud4health-Projekts war es deshalb, einen Ansatz für die Nutzung unstrukturierter Daten durch den Einsatz von Text-Mining zu entwickeln. „Das Ergebnis zeigte uns, dass cloud4health Smart-Data-Auswertungen auf medizinischen Daten ermöglicht und hierfür eine sichere Cloud-Architektur bereitstellt“, so Daumke.
 

Spezielle Anforderung der Forschung: Anonymisierung von Texten mit Text-Mining-Methoden

Philip Senger beim TMF-Workshop  
Dr. Philip Senger berichtete über die Studienergebnisse vom cloud4health-Projekt

Im Rahmen des cloud4health-Projekts wurde ein De-Identifikationstool (DeID) entwickelt. Die Software ermöglicht, dass personenbezogene Daten in klinischen Texten mit hoher Trefferquote halb-automatisch gefunden und für die Anonymisierung vollständig eliminiert werden können. Krankenhäuser können mit Hilfe des De-Identifikations-Werkzeugs Arztbriefe anonymisieren und für die Verwendung außerhalb der Klinik rechtskonform aufbereiten. Datenschützer hätten das Programm insgesamt positiv bewertet, halten aber die Ergänzung weiterer Schutzmaßnahmen für notwendig, betonte Daumke.

Auch wenn die Sekundärnutzung klinischer Daten für die Forschung oder Qualitätssicherung nichts Neues ist, so steht die elektronische Auswertung von unstrukturierten Texten hierfür, das Text-Mining, noch relativ am Anfang seiner Entwicklung. Dr. Philipp Senger vom Fraunhofer-Institutfür Algorithmen und Wissenschaftliches Rechnen SCAI bescheinigte der Methode jedoch großes Potential. Er stellte die im Rahmen des Projekts cloud4health erarbeiteten Anwendungsbeispiele vor, in denen mit Text-Mining der Aufbau eines Endoprothesenregisters, die Plausibilitätsprüfung von Medikamentenverordnungen oder der Aufbau von Biodatenbanken unterstützt werden konnte. Er resümierte, dass vollständige funktionelle Workflows für alle Anwendungsszenarien erarbeitet werden konnten. Seiner Einschätzung nach können solche Anwendungen mehr oder weniger „Out of the Box“ von anderen Kliniken übernommen werden.
 

Datenschutz und Datensicherheit sind zentrale Themen beim Text-Mining

Anonymisierung und Pseudonymisierung sind einige der wichtigen Bestandteile des im Projekt cloud4health von der TMF entwickelten Datenschutzkonzepts. Ein weiterer zentraler Baustein war die Implementierung einer sicheren Cloud-Infrastruktur entlang eines speziell hierfür entwickelten IT-Sicherheitskonzepts. Wichtige Vorgaben waren die manuelle Freigabe der Daten durch die Kliniken nach interner Abstimmung, die sichere Transport- und Dokumentenverschlüsselung, eine mandantenfähige Cloud und die sichere Löschung aller Daten in der Cloud nach der Prozessierung. Die Erfahrungen zeigten, dass eine sichere Nutzung einer solchen Cloud möglich ist, betonte Steffen Claus vom Institut SCAI, welches für das Sicherheitskonzept und die Umsetzung der Cloud im Projekt verantwortlich zeichnete.
 

Anwendung von Ontologiesystemen und Informationsextraktion

Studienprojekte am Institut Fraunhofer FOKUS arbeiten bei der syntaktischen und semantischen Erschließung klinischer Texte mit Ontologie-Diensten. Diese dienen seit langem der Klassifikation von unstrukturierten und semi-strukturierten Dokumenten. Das klassische Dokumenten-Retrieval bereichern sie um eine semantische Suche, die es beispielsweise ermöglicht, dass bei einer Suche nach dem Begriff „Gehirn“ auch Dokumente gefunden werden, in denen dieser Begriff nicht vorkommt, die aber von Alzheimer- oder Schlaganfall-Patienten handeln. Hierfür müssen die Ontologie-Dienste die semantischen Beziehungen zwischen den verschiedenen Begriffen und damit auch eine „semantische Nähe“ abbilden können. Erste Studien hätten zu sehr guten Ergebnissen bei der Klassifikation und dem Retrieval von eHealth-Dokumenten auf dieser Basis geführt, so Dr. Andreas Billig vom Fraunhofer FOKUS.

Martin Toepfer vom Lehrstuhl für Künstliche Intelligenz und Angewandte Informatik der Universität Würzburg berichtete vom Einsatz der Informationsextraktion aus semi-strukturierten Befundberichten zur Unterstützung eines klinischen Data Warehouse. Notwendig sei die Hinzunahme der aufwändigen Texterschließung, da wichtige Informationen für Anwendungsfälle, wie beispielsweise die Rekrutierungsunterstützung in klinischen Studien, nicht in den bereits strukturiert erfassten Daten vorlägen. Neben einer regelbasierten Segmentierung der Dokumente sei jedoch auch die Implementierung domänenspezifischer Terminologien notwendig, um z.B. in einem Bereich wie der transthorakalen Echokardiographie die notwendigen Informationen aus den Dokumenten extrahieren zu können. Für die eigentliche Volltextsuche setze man Apache Lucene ein. Hinsichtlich der Genauigkeit der extrahierten Informationen habe man sehr gute Erfahrungen gemacht, allerdings immer nur bezogen auf die jeweilige, durch eine selbst entwickelte Terminologie abgedeckte, klinische Subdomäne.
 

Text-Mining in anderen Bereichen

Einen „Blick über den (medizinischen) Tellerrand“ hinaus bot Oliver Schmitt von der Gesellschaft für wissenschaftliche Datenverarbeitung Göttingen mit der Vorstellung der Integration der Open Source Software Elasticsearch in die digitale Forschungsinfrastruktur der Göttinger eResearch Alliance. Elasticsearch ermögliche es auf Basis von Apache Lucene große Mengen an Volltexten aus Originalquellen zu verarbeiten und in einer skalierbaren (Cloud-)Umgebung rasch durchsuchbar zu machen. Forschungsprojekte wie "TextGrid" (virtuelle Forschungsumgebung für Geistes- und Kulturwissenschaftler) erzielten durch Elasticsearch gute Textprocessing-Ergebnisse.

Der Bereitschaft von Softwareanbietern, die medizinische Forschung durch kommerzielle Produkte zu unterstützen, verliehen Lothar Zimmermann von 3M, Mark Neumann von ID, Christian Seebode von ORTEC und Peter Langkafel von SAP Ausdruck. Die gezeigten Beispielanwendungen waren allerdings nur zum Teil dem Bereich der medizinischen Forschung zuzuordnen. In der Diskussion wurde dies seitens der Softwareanbieter darauf zurückgeführt, dass Kliniken eher zu investieren bereit seien, wenn es um Erlösoptimierung als um Forschungsunterstützung gehe. Die Entwicklung der Geschäftsmodelle gerade im Bereich der Forschung sei noch nicht konsolidiert und habe bisher nicht zu den erwarteten, beziehungsweise notwendigen, Umsätzen geführt.
 

Abschlussdiskussion


  Teilnehmer der Podiumsdiskussion stellten den Mehrwert von Text-Mining in den Mittelpunkt
Als Moderator der abschließenden Podiumsdiskussion zog Prof. Dr. Ulrich Sax, Sprecher der Arbeitsgruppe „IT-Infrastruktur und Qualitätsmanagement“ der TMF, das Fazit, dass der Workshop eindrucksvoll zeigen konnte, dass Text-Mining in der Unterstützung der Forschung eine sehr wichtige Rolle spielen könne. Allerdings sei es gerade in der medizinischen Forschung wichtig, den Mehrwert und die Effizienz von Text-Mining konkret zu bestimmen und diese auch den relevanten Entscheidungsträgern in den Kliniken verständlich zu vermitteln. Denn nur mit bewusster Zielsetzung und sicheren finanziellen Ressourcen könne das Potenzial, das Text-Mining bietet, ausgeschöpft werden.


Weiterführende Informationen:

  1. Download des Programmflyers [pdf | 758 KB]
  2. www.cloud4health.de
  3. Workshop zum Datenschutz bei der Sekundärnutzungklinischer Daten in der Cloud

 

Vortragsfolien zum Download:

  1. Dr. Philipp Daumke (Averbis)
    Vorstellung cloud4health-Projekt
  2. Dr. Philipp Daumke (Averbis)
    Deidentifizierung frei-textlicher Daten
  3. Dr. Philipp Senger (Fraunhofer SCAI)
    Text-Mining in cloud4health - Ansätze und Ergebnisse 
  4. Steffen Claus (Fraunhofer SCAI)
    Architektur und Sicherheits- aspekte des Text-Mining in der Cloud
  5. Dr. Andreas Billig (Fraunhofer FOKUS)
    Klassifikation und Retrieval von eHealth-Dokumenten auf der Basis von Ontologie-Diensten 
  6. Martin Toepfer (IKIAI, Universität Würzburg)
    Informationsextraktion aus semi- strukturierten Befundberichten
  7. Oliver Schmitt (eResearch Alliance, GWDG)
    Skalierbare Suche in der Forschung mit Beispielen aus Bibliotheks- und Sozialwissenschaften

News Archiv

Juli 2020 (2)

Juni 2020 (2)

Mai 2020 (2)

April 2020 (4)

März 2020 (4)

Februar 2020 (3)

Januar 2020 (1)

Dezember 2019 (3)

November 2019 (5)

Oktober 2019 (3)

September 2019 (8)

August 2019 (2)

Juli 2019 (4)

Juni 2019 (4)

Mai 2019 (5)

April 2019 (3)

März 2019 (5)

Februar 2019 (2)

Januar 2019 (2)

Dezember 2018 (6)

November 2018 (5)

Oktober 2018 (9)

September 2018 (5)

August 2018 (3)

Juli 2018 (2)

Juni 2018 (7)

Mai 2018 (1)

April 2018 (1)

März 2018 (7)

Februar 2018 (2)

Januar 2018 (7)

Dezember 2017 (6)

November 2017 (2)

Oktober 2017 (3)

September 2017 (4)

August 2017 (1)

Juli 2017 (8)

Juni 2017 (9)

Mai 2017 (4)

April 2017 (2)

März 2017 (5)

Februar 2017 (2)

Januar 2017 (4)

Dezember 2016 (8)

November 2016 (5)

Oktober 2016 (4)

September 2016 (7)

August 2016 (5)

Juli 2016 (8)

Juni 2016 (5)

Mai 2016 (3)

April 2016 (11)

März 2016 (5)

Februar 2016 (3)

Januar 2016 (8)

Dezember 2015 (6)

November 2015 (3)

Oktober 2015 (8)

September 2015 (5)

August 2015 (4)

Juli 2015 (7)

Juni 2015 (7)

Mai 2015 (5)

April 2015 (2)

März 2015 (6)

Februar 2015 (7)

Januar 2015 (8)

Dezember 2014 (6)

November 2014 (9)

Oktober 2014 (10)

September 2014 (3)

Juli 2014 (6)

Juni 2014 (5)

Mai 2014 (4)

April 2014 (8)

März 2014 (8)

Februar 2014 (6)

Januar 2014 (7)

Dezember 2013 (8)

November 2013 (6)

Oktober 2013 (5)

September 2013 (10)

August 2013 (4)

Juli 2013 (8)

Juni 2013 (7)

Mai 2013 (4)

April 2013 (9)

März 2013 (9)

Februar 2013 (5)

Januar 2013 (5)

Dezember 2012 (7)

November 2012 (5)

Oktober 2012 (5)

September 2012 (5)

August 2012 (3)

Juli 2012 (4)

Juni 2012 (4)

Mai 2012 (3)

April 2012 (3)

März 2012 (5)

Januar 2012 (7)

Dezember 2011 (2)

November 2011 (8)

Oktober 2011 (10)

September 2011 (2)

August 2011 (5)

Juli 2011 (3)

Juni 2011 (5)

Mai 2011 (8)

April 2011 (4)

März 2011 (5)

Februar 2011 (3)

Januar 2011 (5)

Dezember 2010 (3)

November 2010 (3)

Oktober 2010 (5)

September 2010 (9)

August 2010 (5)

Juli 2010 (6)

Juni 2010 (12)

Mai 2010 (3)

April 2010 (4)

März 2010 (4)

Februar 2010 (4)

Januar 2010 (1)

Dezember 2009 (1)

November 2009 (1)

Oktober 2009 (5)

September 2009 (8)

August 2009 (1)

Juli 2009 (8)

Juni 2009 (6)

Mai 2009 (2)

April 2009 (6)

März 2009 (5)

Februar 2009 (4)

Januar 2009 (2)

Dezember 2008 (3)

November 2008 (6)

Oktober 2008 (3)

September 2008 (5)

August 2008 (3)

Juli 2008 (5)

Juni 2008 (4)

Mai 2008 (3)

April 2008 (6)

März 2008 (3)

Februar 2008 (1)

Januar 2008 (2)

Dezember 2007 (2)

November 2007 (4)

Oktober 2007 (4)

September 2007 (5)

Juni 2007 (2)

Mai 2007 (1)

April 2007 (6)

Januar 2007 (1)

Dezember 2006 (8)

November 2006 (4)

Oktober 2006 (1)

September 2006 (4)

August 2006 (1)

Juli 2006 (1)

Juni 2006 (3)

Mai 2006 (1)

April 2006 (3)

März 2006 (1)

Februar 2006 (1)

Januar 2006 (2)

Dezember 2005 (3)

November 2005 (1)

Oktober 2005 (1)

September 2005 (2)

August 2005 (2)

Juli 2005 (3)

Juni 2005 (2)

April 2005 (4)

November 2004 (1)

Oktober 2004 (1)

September 2004 (1)

August 2004 (1)

Juni 2004 (2)

Mai 2004 (1)

Presseschau

Termine

4. TMF-Sitzungswoche 2020 (Berlin)

14.09.2020 - 17.09.2020



MDR-Symposium (Online)

30.09.2020




Interviews

Aus der Krise lernen: Die Digitalisierung in der medizinischen Forschung nachhaltig gestalten

Meinungsbeitrag von Sebastian C. Semler im Handelsblatt Digital Health


 
© TMF e.V. Glossar     Datenschutzhinweis     Info an den Webmaster     Seite drucken      Seitenanfang