Friday, 24 February 2017

Winsorize Ausreißer In Stata Forex

Ich versuche herauszufinden, wie man Beobachtungen winsorize von Personen in einem Längsschnitt Datensatz gruppiert. Ich begann mit dieser hervorragenden Antwort über das Entfernen von Daten 2 Standardabweichungen vom Mittelwert einer Variablen. Der Autor zeigt auch, wie dies in Kategorien zu tun. Mein Anwendungsfall ist etwas anders: Ich habe einen Longitudinal-Datensatz, und ich möchte Personen entfernen, die im Laufe der Zeit systematisch als Ausreißer ausgewiesen werden. Anstatt die extremen Beobachtungen innerhalb von Objekten herauszunehmen, möchte ich, dass man diese Individuen ganz ausschließt (die Daten schneidet) oder den unteren und oberen 2,5 durch den geschnittenen Wert (winsorizing, siehe: en. wikipedia. orgwikiWinsorising) ersetzen. Zum Beispiel könnten meine Langformdaten so aussehen: Wenn ich die extremen Beobachtungen in Punkten innerhalb von Individuen entfernen wollte (Name), würde mein Code sein: Aber was ich wirklich tun möchte, schließt das INDIVIDUAL aus, das extrem ist (in Dieser Fall, MJ). Wie würde ich gehen, dies zu tun (PS - hier einfügen alle die Vorbehalte darüber, wie man nicht entfernen Ausreißer. Dies ist nur ein Robustheitstest) Dies könnte nicht für Ihre Daten geeignet sein, aber Im werde versuchen, eine allgemeine Lösung zu bekommen Sie begannen zu denken. Ich schlage vor, robuste Statistiken wie Median und Median absolute Abweichung (MAD), um Ihre Ausreißer zu definieren. Sie können anfangen, indem Sie den Anteil der Punkte, die Ausreißer sind (im Vergleich zu allen Punkten) für jede Person: Lassen Sie df Ihr Datenrahmen Die letzte Zeile gibt die folgenden (für Ihre Beispieldaten): Also alle Punkte für MJ Sind Ausreißer, während 12,5 Ausreißer für alle anderen Personen sind. Sie können jetzt einen Schwellenwert festlegen, um festzulegen, welche Personen entfernt werden sollen. Zum Beispiel für normal verteilte Daten, würden Sie erwarten, dass etwa 4,55 außerhalb des Bereichs Median 2 x MAD fallen. Antwort # 2 am: Februar 26, 2010, um 1:23 Uhr Ihre Antwort 2017 Stack Exchange, IncNOTICE: Die IDRE Statistical Consulting-Gruppe wird die Migration der Website auf die WordPress CMS im Februar zu erleichtern Wartung und Erstellung neuer Inhalte. Einige unserer älteren Seiten werden entfernt oder archiviert, so dass sie nicht länger erhalten bleiben. Wir werden versuchen, die Weiterleitungen so zu halten, dass die alten URLs weiterhin so gut funktionieren, wie wir können. Willkommen beim Institut für digitale Forschung und Bildung Helfen Sie der Stat Consulting Group, indem Sie ein Geschenk geben Stata FAQ Wie verwenden Sie den wincorr Befehl Der wincorr Befehl ist für Situationen, in denen einige Beobachtungen scheinen, die Korrelation zwischen zwei Variablen verzerrt zu sein scheinen. Betrachten Sie die folgende Streudiagramm und Korrelation: Es ist klar, dass die Mehrheit der Punkte eine starke positive Beziehung haben, jedoch aufgrund einiger extremer Punkte die Pearson-Korrelation negativ ist. Wenn wir jede der Variablen winsorisieren und korrelieren würden, würde sich der Einfluss der Extrempunkte verringern. Die gewichtete Korrelation beträgt 0,69, was näher an der tatsächlichen Beziehung liegt. Sie können wincorr herunterladen, indem Sie findit wincorr eingeben und Sie können winsor erhalten, indem Sie findit winsor eingeben (sehen Sie, wie ich den findit Befehl benutzen kann, um nach Programmen zu suchen und zusätzliche Hilfe für mehr Informationen über usingit zu erhalten). Hinweis: Der Befehl wincorr erfordert winsor. ado von N. Cox. Referenz Wilcox, R. (2001) Grundlagen moderner statistischer Methoden. New York: Springer. Der Inhalt dieser Website sollte nicht als eine Bestätigung für eine bestimmte Website, ein Buch oder ein Softwareprodukt der Universität von Kalifornien verstanden werden.


No comments:

Post a Comment