In meiner Forschung beschäftige ich mich mit Fragestellungen der nichtparametrischen Statistik. Ziel derselben ist es, unter möglichst allgemeinen Bedingungen Rückschlüsse aus beobachteten Daten zu ziehen, die unter dem Einfluss des Zufalls entstanden sind. Die betrachteten Verfahren werden sowohl theoretisch untersucht als auch in konkreten Anwendungen angewendet.
Aktuelle Schwerpunkte meiner Forschung sind:
Jegliche Entwicklung technischer Systeme durch Ingenieure basiert heutzutage auf irgendwelchen mathematischen Modellen dieser Systeme. Diese Modelle beschreiben die Realität niemals perfekt, deshalb muss man bei ihrer Analyse eine Art von Unsicherheit mit berücksichtigen. Diese Unsicherheit kann z.B. darauf beruhen, dass man nicht alle Parameter des verwendeten Modells (die z.B. das verwendete Material charackterisieren) genau kennt, dass man die späteren Nutzungsbedingungen des Systems nicht genau kennt, oder dass das ganze Modell eine Vielzahl von Vereinfachungen macht und daher die Realität nicht genau beschreibt. Die Aufgabe der Quantifizierung von Unsicherheit besteht darin, diese Unsicherheit schon beim Entwurf des Systems zu beschreiben bzw. zu schätzen. Dazu wird oft ein stochastisches Modell des technischen Systems verwendet, in dem die auftretende Unsicherheit durch zufällige gewählte Werte bestimmt ist. Mittels sogenannter Computerexperimente kann man (z.B. durch Lösen von partiellen Differentialgleichungen) zu den auftretenden zufälligen Werten dann das Verhalten des technischen Systems bestimmen. Mit Hilfe von Monte-Carlo-Schätzungen kann man dann daraus das Verhalten des Systems charackterisieren, z.B. durch Schätzung von Dichten oder Quantilen.
Diese Computerexperimente sind aber häufig sehr zeitaufwendig, weshalb es sich anbietet, ausgehend von einigen wenigen Computerexperimenten mit Hilfe von Verfahren zur Schätzung von Funktionen sogenannte Erstazmodelle zu konstruieren, dann für diese Ersatzmodelle Monte-Carlo-Daten zu erzeugen und damit Dichten bzw. Quantile zu schätzen. Wie man solche Ersatzmodelle sinnvollerweise wählt, und wie sich deren Fehler auf die Schätzung von Dichten bzw. Quantile auswirkt habe ich in einer Reihe von Arbeiten untersucht. Dabei stellt sich angesichts der Tatsache, dass Modelle der Realität immer unvollständig bzw. fehlerbehaftet sind, auch die Frage, ob und wie man beim zusätzlichen Vorliegen von beobachteten Werten des realen technischen Systems die auf Ersatzmodellen beruhende Schätzung verbessern kann.
Beispiele für Arbeiten aus diesem Bereich:
G. Enss, M. Kohler, A. Krzyzak und R. Platz. Nonparametric quantile estimation based on surrogate models. Herunterladbar als pdf-file. IEEE Transaction on Information Theory 62, pp. 5727-5739, 2016.
M. Kohler, A. Krzyzak, S. Mallapur und R. Platz . Uncertainty Quantification in Case of Imperfect Models: A Non-Bayesian Approach. Herunterladbar als pdf-file.
M. Kohler und A. Krzyzak. Estimation of a density from an imperfect simulation model. Herunterladbar als pdf-file.
M. Kohler und A. Krzyzak. Improving a surrogate model in uncertainty quantification by real datal. Herunterladbar als pdf-file.
In der Regressionsschätzung versucht man, ausgehend von dem Wert einer Prädiktorvariablen X den zugehörigen Wert einer abhängenden reellen Variablen Y vorherzusagen. Im Sinne einer Minimierung des mittleren quadratischen Vorhersagefehlers ist die optimale Vorhersagefunktion die sogenannte Regressionsfunktion m(x)=E{Y | X=x} . In Anwendungen ist diese aber, genauso wie die Verteilung von (X,Y), üblicherweise unbekannt, und man steht vor dem Problem, die Regressionsfunktion ausgehend von einer Stichprobe (bestehend aus in der Vergangenheit beobachteten Werten von (X,Y)) zu schätzen. Häufig hat man dabei keinerlei Vorkenntnisse über die Bauart der zu schätzenden Regressionsfunktion, was den Einsatz von nichtparametrischen Verfahren notwendig macht.
Schwerpunkt der Untersuchungen zur nichtparametrischen Regressionsschätzung ist die Untersuchung von Schätzern unter möglichst allgemeinen Voraussetzungen. Die Verwendung von möglichst wenigen Voraussetzungen stellt hierbei sicher, dass die erzielten Resultate bei möglichst vielen praktischen Problemstellungen anwendbar sind. Schwerpunkte der Untersuchungen sind unter anderem Fragestellungen der universellen Konsistenz, der Bestimmung der optimalen Konvergenzgeschwindigkeit, der automatischen Anpassung (Adaption) von Schätzverfahren an diese optimale Konvergenzgeschwindigkeit sowie der Dimensionsreduzierung.
In vielen medizinischen Anwendungen ist es nicht möglich, Werte der zugrundeliegenden Verteilung von (X,Y) zu beobachten. Hierbei enthält X eine Beschreibung eines Patienten, und statt der zugehörigen Überlebenszeit Y kann in der Regel nur das Minimum von Überlebenszeit und einer Zensierungszeit C (z.B. Zeit bis zum Ende der Studie) beobachtet werden. Verfahren zur Schätzung von Regressionsfunktionen ausgehend von solchen zensierten Daten (d.h. beobachteten Werten von (X, min{Y,C}) werden ebenfalls untersucht.
Beispiele für Arbeiten aus diesem Bereich:
M. Kohler, A. Krzyzak und H. Walk. Optimal global rates of convergence for nonparametric regression with unbounded data. Herunterladbar als ps- und pdf-file. Journal of Statistical Planning and Inference 123, pp. 1286-1296, 2009.
A. M. Bagirov, C. Clausen und M. Kohler. Estimation of a regression function by maxima of minima of linear functions. Herunterladbar als ps- und pdf-file. IEEE Transactions on Information Theory 55, pp. 833-845, 2009.
M. Kohler. Multivariate orthogonal series estimates for random design regression. Herunterladbar als ps- und pdf-file. Journal of Statistical Planning and Inference 138, pp. 3217-3237, 2008.
B. Bauer und M. Kohler. On deep learning as a remedy for the curse of dimensionality in nonparametric regression. Herunterladbar als pdf-file
Schwerpunkt der Forschung in diesem Bereich sind Anwendungen der Statistik in den Ingenieurwissenschaften. In der Vergangenheit habe ich mich in diesem Zusammenhang z.B. mit der Analyse von dreidimensionalen Strömungsfeldern mittels particle tracking velocimetry (die auf Probleme der nichtparametrischen Schätzung von Regressionsfunktionen führt, die sich auch noch zeitlich verändern) sowie mit Untersuchungen im Zusammenhang mit dem SFB 666 zur Spaltprofilierung beschäftigt. Dabei werden Materialparameter, die die Belastbarkeit von Materialien beschreiben, mittels einfach messbarer Parameter des Materials vorhergesagt.
Beispiele für Arbeiten aus diesem Bereich:
M. Kohler und A. Krzyzak. Nonparametric estimation of non-stationary velocity fields from 3D particle tracking velocimetry data. Preprint herunterladbar als ps- und pdf-file. Computational Statistics and Data Analysis 56, pp. 1566-1580, 2012.
M. Hansmann und M. Kohler. Estimation of quantiles from data with additional measurement errors. Herunterladbar als pdf-file. Erscheint in Statistica Sinica.
M. Hansmann und M. Kohler. Estimation of conditional quantiles from data with additional measurement errors. Herunterladbar als pdf-file.
Weitere Schwerpunkte meiner Forschung in der Vergangenheit waren:
Eine Option dient zur Absicherung des Kursrisikos bei Schwankungen des Kurses in Finanzinvestitionen (z.B. in Aktien, Fremdwährungen, etc.). Bei einer amerikanischen Option kann sich der Besitzer jederzeit die Differenz des aktuellen Kurses zu einem festen vorgegebenen Betrag auszahlen lassen, sofern der Kurs unter diesem Wert liegt. Bei gegebenen stochastischem Verhalten des Kurses (z.B. geschätzt mit Hilfe der Black-Scholes-Theorie) kann der Wert einer solchen Option mit Hilfe von Monte-Carlo-Verfahren bestimmt werden. Diese erzeugen künstlich eine Stichprobe für das zufällig Verhalten des Kurses (sog. Monte-Carlo-Stichprobe) und schätzen ausgehend von dieser Stichprobe den Wert der Option. In diesem Zusammenhang wurden bereits neue Verfahren zur Bewertung amerikanischer Optionen entwickelt, theoretische hinsichtlich Konsistenz und Konvergenzgeschwindigkeit untersucht und für endlichen Stichprobenumfang, mit Hilfe von simulierten Daten, analysiert. Für die Zukunft geplant ist, diese Resultate durch die Herleitung von oberen Schranken für die Preise und durch den Einsatz von schnell berechenbaren Regressionsschätzern zu erweitern. Desweiteren sollen die zugrunde liegenden Preisprozesse unter möglichst schwachen Annahmen an die zugrunde liegenden stochastischen Strukturen geschätzt werden.
Beispiele für Arbeiten aus diesem Bereich:
D. Egloff, M. Kohler und N. Todorovic. A dynamic look-ahead Monte Carlo algorithm for pricing American options. Herunterladbar als ps- and pdf-file. Annals of Applied Probability 17, pp. 1138-1171, 2007.
M. Kohler. A regression based smoothing spline Monte Carlo algorithm for pricing American options. Herunterladbar als ps- und pdf-file. AStA Advances in Statistical Analysis 92, pp. 153-178, 2008.
M. Kohler, A. Krzyzak und N. Todorovic. Pricing of high-dimensional American options by neural networks. Herunterladbar als ps- und pdf-file. Mathematical Finance 20, pp. 383-410, 2010.
Die Computerlinguistik beschäftigt sich mit der maschinellen Verarbeitung natürlicher Sprache. Ein Ansatz ist hier die Verwendung statistischer Modelle. Konkret untersucht wird zur Zeit die automatische Klassifikation von Texten. Ziel ist die Verbesserung von Suchmaschinen. Dabei sollen die Ergebnisse von Suchanfragen nach linguistisch beschreibbaren Kriterien (z.B. objektiv bzw. subjektiv geschrieben) gefiltert werden. Dies soll durch den Einsatz von statistischen Klassifikatoren auf (halb-)automatisch generierte Trainingsdaten erreicht werden.
Beispiele für eine Arbeit aus diesem Bereich:
J. Eckle-Kohler, M. Kohler und J. Mehnert. Automatic recognition of German news focussing on future-directed beliefs and intentions. Herunterladbar als ps- und pdf-file. Computer Speech and Language 22, pp. 394-414, 2008.