Data Science
Inhaltsverzeichnis
Data Science ist eine Wissenschaft, die sich mit der Extraktion von Wissen aus großen Datenmengen beschäftigt.
Dabei werden Techniken und Methoden aus der Mathematik, Statistik, Stochastik und Informatik angewandt.
Früher noch als Synonym für Informatik verwendet, ist Data Science seit 2001 eine eigene Disziplin, die man sowohl im Bachelor als auch im Master studieren kann.
Grundlagen von Data Science
Die Grundlage dafür, dass Data Science sich zu einem eigenen Forschungsgebiet etabliert hat, ist Big Data. Durch die zunehmende Digitalisierung der Gesellschaft, den Aufstieg sozialer Netzwerke und neue Methoden zur Datenerfassung und -speicherung werden in fast allen Branchen große Datenmengen angesammelt.
Diese Daten sind allerdings komplex, schnelllebig und schwach strukturiert, sodass sich die Aufbereitung und Analyse als schwierig darstellt. An dieser Stelle setzt Data Science an: Mit verschiedenen Methoden aus der Datenanalyse und Visualisierung werden die gesammelten Informationen erfasst und die relevanten Informationen extrahiert.
Anschließend können auf Basis der Wahrscheinlichkeitslehre und Statistik Trends beobachtet und Prognosen aufgestellt werden. Das ermöglicht es Unternehmen, eine sinnvolle Handlungsstrategie zu finden.
Anwendungen der Data Science
Data Science
ist in vielen verschiedenen Branchen ein relevantes Thema. Insbesondere die Techniken Klassifizierung, Similarity Matching und Regression spielen heutzutage eine große Rolle, beispielsweise zur Prognose von Verkaufszahlen, Produktionskosten und für erfolgreiches Marketing.
Klassifizierung in Data Science
Durch Klassifizierung oder Klassenwahrscheinlichkeit werden Personen in Klassen eingeteilt. Möchte ein Unternehmen ein neues Produkt auf den Markt bringen, stellt sich die Frage, ob ein Kunde das Produkt kaufen wird oder nicht.
Indem man ein Wahrscheinlichkeitsmodell anhand gesammelter Daten aufstellt, lässt sich diese Frage für einzelne Individuen beantworten. Hat ein Kunde beispielsweise ähnliche Produkte bereits mehrfach gekauft, ist die Chance, dass er Interesse am neuen Produkt hat, hoch und die Frage wird mit "ja" beantwortet.
Similarity Matching
Ähnlich zu Klassifizierung ist das Similarity Matching
. Mit dieser Methode werden Gemeinsamkeiten zwischen Personen oder zwei disjunkten Einzeldingen gesucht. Auf Basis der Gemeinsamkeiten versucht man anschließend, weitere Gemeinsamkeiten abzuleiten bzw. eine Prognose für zukünftiges Verhalten aufzustellen.
Ist in einem Unternahmen bekannt, welche Kunden besonders oft bestimmte Produkte einkaufen, kann man versuchen, weitere Kunden mit ähnlichen Eigenschaften zu finden, und so eine gezielte Kampagne starten.
Regression
Eine letzte Methode, die in vielen Branchen eine wichtige Rolle spielt, ist die Regressionsanalyse. Dabei werden Beziehungen zwischen voneinander potentiell abhängigen Variablen modelliert und als Funktion dargestellt. Diese Funktion eignet sich zum einen, um ein Vorhersagemodell aufzustellen, und zum anderen, um die Stärke des Zusammenhangs der Variablen besser einschätzen zu können.
Dadurch können Unternehmen beispielsweise Produktionskosten oder Gewinnabschätzungen auf Basis anderer Ereignisse vornehmen.