Skip to content
Snippets Groups Projects
Commit 353805e9 authored by Seifert, Prof. Dr. Stephan's avatar Seifert, Prof. Dr. Stephan
Browse files

erste Version des Abschnitts
parent 97511d4f
No related branches found
No related tags found
No related merge requests found
File added
Notizen 0 → 100644
Review:
SERS mikroskopie DUNCAN GRAHAM
neulich Cecilia nanoscale --> weiter Stadium in Literaturrecherche, kein Konzept
CHEMSERV Rev
guter Absatz: Machine learning und SERS
wesentliche schreiben über Zellen, VEsna paper, mein paper, intrinsisches SERS, gute Situation: Ich mache ML und SERS
Random Forest erwähnen
chemsocrev
nicht nur machine learning
herausforderungen von intrinsischem SERS
Probleme gibts und 1 davin sind die Daten
25 / 75 %
notwendigkeit zu simulieren
nanoscale zellorganellen, hierarchische Daten, Substrate, Verstärkung, FTTD, Mehrphotonen,
Prozessierung der Daten --> wie gehe ich mit leeren Spektren um
kleine Konkrete aufgabe --> Basislinie
Fachmann machine learning, mason review
machine learning literaturbasis -->
arpat FDTD Simulation
Nanoscale review von janina Datenabschnitt in Review Goodaccre schon seit jahren
Bibliothek als Xml
pollen
Substrate
relation analysis
Kombination aus SERS und maschinellen Lernverfahren, insbesondere ANN prädestiniert da viele Daten vorliegen
Deshalb viele Anwendungen in denen ANN für diesen Zweck angewendet werden, z.B. ... Zitat unser erstes paper
Ein Problem hier ist, wie häufig bei der Anwendung von ANN, dass wir BlackBox Modelle vorliegen haben (und nicht bei PLS der häufig angewendeten Methode für Analyse schwingungsspektroskopischer Daten) und nicht genau wissen, wieso entsprechende Ergebnisse erreicht werden.
Eine mögliche Lösung ist die Anwendung von Variablenselektionsverfahren, welche allerdings in zusammenhang mit ANN recht komplex sind (autoencoder zb).
Deshalb macht es besonders Sinn hier nach alternativen maschinellen Lernverfahren zu suchen, die dies ermöglichen.
Random Forest zeigte hier sehr vielversprechende Ansätze, da in simulierten Datensätzen genau die Inforamtionen extrahiert werden konnten, die für spezifische Unterschiede verschieder Klassen relevant waren. Dabei wurde ein SMD angewendet, ein Verfahren, welches nicht nur relevante Variablen selektieren, sondern auch deren gemeinsame auswirkung auf die Forschungsfrage analysiert werden kann. Die Anweudng dieses Verfahrens ist besonders vielversprechend, was durch die Analyse von Lipid-Antidepressiva Wechselwirkungen in Zellen auch experimentell bestätigt wurde.
Prinzipiell ist es aber bei der Analyse von SERS Daten mit maschinellen Lernverfahren, wie bei der Analyse vieler analytischen Daten (wie Metabolomics Zitat Gromski, Goodaccre) auch sinnvoll die verschiedenen Verfahren zu kennen (Grmoski paper zeigt für ein paar eine sehr gute Übersicht der Eigenschaften) und diese für deren Anwendung in der spezifischen Situation zu vergleichen.
Einerseits weil es immer sinnvoll ist diese Vergleiche, besonders bei neu entwickelten Verfahren durchzuführen (Zitat Boelesteix)
Insbesondere aber auch deshalb weil SERS Daten sehr spezifische Eigenschaften haben, die sehr anders als andere analytische Daten sind. Solche vergleiche gibt es aktuell für SERS Daten nur vereinzelt und damit viel zu selten. Um diesen Vergleich objektiv und sinnvoll, d.h. mit vollständiger Kentniss der angestrebten Ergebnisse durchführen zu können, sind Analysen simulierter Daten, wie es im Bereich der bioinforamtik bereits üblicher ist, unerlässlich. Hier habe ich letzlich einen Ansatz für die Simualtion von SERS Daten veröffentlicht, welcher in Abb x gezeigt ist. Dieser ist aber sehr rudimentär und verbesserte Simulationsmodelle für objektive Methodenvergleiche werden dringend benötigt.
Eine weitere Herausforderung bei der Anwendung maschineller Lernverfahren auf SERS Daten ist die verwendete Präprozessierung. Hier ist es notwendig die Daten sinnvoll und automatisiert zu präprozessieren, um z.B. die Basislinie zu entfernen und eine Normalisierung durchzuführen. Bei komplexen Mischungen müssen allerdings auch leere Spektren, die den Erfolg der Analyse verringern können entfernt werden. Für Letzters gibt es aktuell keine Standardmethode. Es sind aber verschiedene Ansätze denkbar, z.B. anhand von Peak-Finding Algorithmen und auch durch die Entwicklung spezifischer Modelle, die leere Spektren identifizieren.(Zitat Vesna)
Email Florian:
Moin Stephan,
hier einmal wie besprochen einige erste Paper und Textpassagen aus diesen.
10.1016/j.trac.2019.115796 :: Deep learning and artificial intelligence methods for Raman and surface-enhanced Raman scattering
"However, the limited performance of various machine learning models depends mostly on the quality of the features that were presented to the model to perform its classification operation, consequently requiring extensive features extraction and selection. Such limitation was recently overcome using deep learning, a representation-learning based method which autonomously extracts relevant features, and then uses this information to perform classification or regression tasks."
10.3390/bios11120490 :: SERSNet: Surface-Enhanced Raman Spectroscopy Based Biomolecule Detection Using Deep Neural Network
Hier wird angesprochen, dass es wenig Untersuchungen zum Einfluss von Präprozessierung auf ML/DL mit SERS-Daten gibt.
"Furthermore, there is limited discussion about the relationship between preprocessing of the SERS dataset and the performance of the ML and DL models. Therefore, it is often difficult to choose appropriate techniques for specific models to perform new molecule detection tasks. Although a recent study discusses a statistical approach for background removal for the SERS dataset, it is specialized in flow-based SERS sensor combined with the LC-MS [23] and did not provide an in-depth discussion about the relationship between ML/DL models and preprocessing techniques."
10.1002/jrs.6447 :: Machine learning using convolutional neural networks for SERS analysis of biomarkers in medical diagnostics
"A potential problem with deep learning, including CNNs, is their need for large sets of training data, which can be impractical or difficult to obtain. However, when the SERS spectra of each mixture component are known, training data can be simulated by virtually mixing SERS spectra of individual components. Zhu et al. used such simulated datasets to train a CNN for pesticide detection utilizing SERS.[47] To the best of our knowledge, CNNs using simulated datasets have not previously been explored for spectral unmixing analysis of multiplexed, dye-labeled SERS spectra. We demonstrate for the first time that CNN trained with simulated datasets can successfully decompose multiplexed SERS spectra from mixtures of seven distinct dye-labeled, SERS-active metallic nanoparticles."
Dieses Paper hat auch eine Beschreibung wie sie ihre simulierten Mixturen berechnet haben. Sie vergleichen CNN mit PLSR, SVR, RF(R), je mit Hyperparameteroptimierung bzw. Strukturoptimierung beim NN. Dazu machen sie einen guten Punkt über die "black-box" von CNN (schließen aber RF implizit als ein black-box-Verfahren aus), v.a. bei Anwendung auf komplexe Datensätze, bei denen einzelne spectral contributions nicht bekannt sind.
"Although CNN is touted as a “black box,” visualization of filters and outputs after each filter can be used to make sense of CNN operation (see supporting information Figures S8–S11). In the case where reference spectral shapes were known, interpretability is less crucial. However, classification tasks based on non-dye-labeled spectra where spectral contributions are unknown may require more interpretable models such as the above-mentioned methods."
10.3390/bios13030328 :: Recent Trends in SERS-Based Plasmonic Sensors for Disease Diagnostics, Biomolecules Detection, and Machine Learning Techniques
Hat einige Abbildungen, aber keine welche ich als wirklich hervorragend für den Review bezeichnen würde.
10.1021/acs.analchem.2c01450 :: Visualization of a Machine Learning Framework toward Highly Sensitive Qualitative Analysis by SERS
Verwendet data augmentation um mehr Spektren für das Training von Modellen zu erhalten
Keines der Paper die ich bisher angeschaut habe, hat das Entfernen von leeren Spektren als Präprozessierungsschritt erwähnt.
Ich glaube man kann einen guten Punkt machen, in Bezug auf die Nutzung von NN als hochperformante aber (noch) schlecht erklärbare Systeme. Andere "klassische"(re) Methoden wie PLS(R/-DA), SVM, und RF(R) finden Anwendung, und haben eine bessere Erklärbarkeit, werden aber in favor of den besseren Genauigkeiten von (C)NN verwendet. (Ein Trend der nicht besonders SERS-spezifisch ist, aber auch hier beobachtet werden kann.)
File added
Simulation.jpg

406 KiB

File added
File added
File added
File added
File added
This diff is collapsed.
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Please register or to comment