Moving Average Outlier Erkennung


Ich benutze einen gleitenden durchschnittlichen Filter, um Daten für die Ausreißerentfernung zu glätten. Durch die Änderung der Anzahl der Durchschnittspunkte bekomme ich ein anderes Ergebnis. Meine Daten sind multidimensionale Merkmalsvektoren. Ich habe den gleitenden Durchschnitt auf die gesamte Matrix und dann auf einzelne Variablen angewendet. Sie geben verschiedene Ergebnisse. So, wie zu wählen, erraten die Anzahl der Punkte im Durchschnitt über und sollte es auf die gesamte Matrix oder auf einer von einer Basis angewendet werden. Schritt 1. November 13 um 21 44.Glenb 163k 20 274 ​​557. Ein Ansatz zur Auswahl eines Glättungsparameters wäre es, einstufige Vorhersagefehler zu optimieren, wie z. B. Summen von Quadraten von Vorstufenvorhersagefehlern Wenn Sie versuchen, Ausreißer zu identifizieren, möchten Sie ein anderes Maß an Vorhersagefehler - Eins Vernünftig robust für Ausreißer und dann bewegte Durchschnitte scheinen eine seltsame Wahl - warum nicht etwas robuster für die Ausreißer Glenb Nov 2 13 bei 1 11. weder beides All. Sorry Aber ich denke, das ist ein weiterer Versuch, wenn auch ein kluger zu automatisieren was kann T wirklich automatisiert Natürlich verschiedene Methoden geben unterschiedliche Ergebnisse die einzige Zeit, die sie wouldn t ist, wo der Ausreißer ist so offensichtlich, dass Sie don t brauchen einen Test. Meine Vorschlag ist es, eine Vielzahl von Methoden verwenden, um mögliche Ausreißer zu identifizieren, dann untersuchen diese Ausreißer Auf einer individuellen basis. Ich arbeite mit einer großen Menge an Zeitreihen Diese Zeitreihen sind grundsätzlich Netzwerk-Messungen kommen alle 10 Minuten, und einige von ihnen sind periodisch dh die Bandbreite, während einige andere Aren binden die Menge an Routing-Verkehr. Ich würde Wie ein einfacher Algorithmus für eine Online-Outlier-Erkennung Grundsätzlich möchte ich im Speicher oder auf Festplatte die ganze historische Daten für jede Zeitreihe zu halten, und ich möchte jeden Ausreißer in einem Live-Szenario jedes Mal, wenn eine neue Probe erfasst wird, was ist Der beste Weg, um diese Ergebnisse zu erzielen. Ich bin derzeit mit einem gleitenden Durchschnitt, um etwas Lärm zu entfernen, aber dann was als nächstes Einfache Dinge wie Standardabweichung, verrückt gegen den ganzen Datensatz doesn t funktioniert gut Ich kann nicht annehmen die Zeitreihen sind Stationär, und ich möchte etwas genauer, idealerweise eine schwarze box like. wo vector ist das Array von doppelten mit den historischen Daten, und der Rückgabewert ist die Anomalie Punktzahl für die neue Sample value. asked Aug 2 10 am 18 03. Ich schlage vor, das Schema unten, die implementierbar sein sollte in einem Tag oder so. Collect so viele Proben, wie Sie im Gedächtnis halten können. Entfernen Sie offensichtliche Ausreißer mit der Standardabweichung für jedes Attribut. Calculate und speichern Sie die Korrelationsmatrix und auch der Mittelwert von jedem Attribut. Calculate und speichern Sie die Mahalanobis Entfernungen von all Ihren Proben. Calculating outlierness. For die einzige Probe, von denen Sie wissen wollen, seine outlierness. Retrieve die Mittel, Kovarianz Matrix und Mahalanobis Abstand s aus training. Calculate die Mahalanobis Abstand d für Ihre Probe. Return das Perzentil, in dem d fällt mit den Mahalanobis Entfernungen von training. That wird Ihr Outlier Score 100 ist ein extremer outlier. PS Bei der Berechnung der Mahalanobis Entfernung verwenden Sie die Korrelationsmatrix, nicht die Kovarianzmatrix Dies ist robuster, wenn die Probe Messungen Variieren in Einheit und Anzahl. Automatic Outlier Erkennung Blessing oder Curse. One der verwirrten Fragen, die Demand Planer in unseren Trainings-Workshops fragen, warum ihre Software produziert eine flache Prognose 90 der Zeit Eine teure Software, die eine Armee und ein paar Jahre nahm Zu implementieren typischerweise vorgeschlagen ein konstantes Modell oder gleitenden durchschnittlichen Modell Dies führte zu einer flachen Prognose. Obwohl das bloße Auge kann grafisch sehen, ob Graphen zur Verfügung gestellt werden, um den Benutzer ein schönes Saisonmuster, die Experten Auswahl in der Software produziert eine konstante Prognose in die Ewigkeit Es gibt viele Tricks, die diesem endgültigen Ergebnis zugrunde liegen, von denen einige bekannt sind und einige von ihnen versteckt sind. Einer der Schuldigen ist der Ausreißer-Erkennungsprozess. Die Software kann intelligent Ausreißer für eine gegebene Einstellung und Ausreißer-Erkennungsmethode erkennen. Typischerweise verwenden Sie einen K-Faktor, um sich zu entwickeln Toleranzbänder um den Ex-post-Faktor, um Ausreißer zu identifizieren Was sind K-Faktoren und wie man die K-Faktor-Einstellungen einsetzt, um gute Prognosemodelle zu produzieren. Wir haben in einer Vielzahl von Fällen beobachtet, verwenden die Menschen niedrige K-Faktoren, die dann alle auswerfen Saisonale Gipfel und Mulden Ein niedriger K-Faktor ist super wachsam Es lässt kein Muster zu entkommen, um die Modellierung Motor Alle Motor sieht nur ein Cluster von ein paar Datenpunkte, die eng verstreut um die Ex-post-Prognose oder einfach nur Ein historisches mean. See das Bild unten. A k-Faktor von 1 beseitigen alle Muster im Nachfrage-Profil gesehen Es hält nur einen Bruchteil der ursprünglichen Datensatz, dass alle auf das historische Mittel als eine heftig genaue Prognose Dies hat nichts zu Tun mit der Macht der statistischen Motor zur Verfügung, um die Software. In unserem up kommenden dreitägigen Workshop werden wir diskutieren die Gefahren der automatischen Ausreißer Erkennung und haben die Teilnehmer durch eine praktische Übung, die eine bessere Sicht auf die gesamte Ausreißer Erkennung geben wird Prozess Wir werden die Features unter der Kapuze des SAP APO Demand Planungsmoduls erklären, um durch diesen gefährlichen Prozess zu navigieren. Day 3 wird alle SAP APO mit praktischem Training auf der Softwareplattform Teilnehmer im September 2011 Workshop konnten direkt modellieren Und Parameteränderungen zu ihren Live-Prognosen im Workshop. Visit für weitere Details zum Workshop Bitte erreichen Sie mich, wenn Sie weitere Fragen haben oder den Outlier Detection Prozess in APO DP diskutieren möchten.

Comments