10 Häufige Data Mining Fehler (die Sie nicht machen werden)

10 Häufige Data Mining Fehler (die Sie nicht machen werden) - Dummies

Das Data Mining erfolgt durch Versuch und Irrtum, und für Data Miner ist es daher nur natürlich, Fehler zu machen. Fehler können, zumindest unter bestimmten Bedingungen, wertvoll sein. Nicht alle Fehler sind jedoch gleich. Einige sind einfach besser vermieden. Die folgende Liste bietet zehn solche Fehler. Wenn Sie sie sorgfältig durchlesen und in Erinnerung behalten, können Sie einige Einbußen auf der Lernkurve vermeiden:

  • Überspringen von Datenqualitätsprüfungen: Die meisten Data Miner glauben, dass die Entwicklung von Vorhersagemodellen mehr Spaß macht als die Überprüfung von Daten auf Qualitätsprobleme. Wenn Sie jedoch Datenqualitätsprobleme nicht erkennen und korrigieren, könnten Sie am Ende mit wertlosen Vorhersagen enden.

  • Den Punkt verpassen: Sie haben etwas Faszinierendes entdeckt! Das ist nett, aber wenn es nicht auch für das Geschäftsproblem relevant ist, das Sie lösen wollen, ist es überhaupt nicht relevant. Geh zurück auf die Spur.

  • In der Annahme, dass ein Muster in den Daten eine Ursache-Wirkungs-Beziehung beweist: Sie untersuchen einen Datensatz und stellen fest, dass auch die Variable B zunimmt, wenn die Variable A zunimmt. Dies könnte auftreten, weil Variable A Variable B beeinflusst oder weil Variable B Variable A beeinflusst. Andererseits könnte es sein, dass beide von einer anderen Variablen beeinflusst werden, die Sie nicht berücksichtigt haben. Oder es könnte ein einmaliger Zufall sein. Wer kann das schon sagen?

  • Schlussfolgerungen zu weit ziehen: Nehmen Sie nicht an, dass die Beziehungen, die Sie in Daten beobachten, unter anderen Umständen wiederkehren. Wenn Ihre Daten in einer kühlen Umgebung gesammelt wurden, gehen Sie nicht davon aus, dass die Dinge in einer heißen Werkseinstellung gleich funktionieren.

  • Wetten auf Ergebnisse, die keinen Sinn ergeben: Data-Mining-Methoden sind informell und werden normalerweise nicht durch wissenschaftliche Methoden und Theorien untermauert, so dass Ihre Ergebnisse zumindest wirtschaftlich sinnvoll sind. Wenn es keine vernünftigen Erklärungen für die Ergebnisse gibt, die Sie präsentieren, wird Ihre Geschäftsführung dies wahrscheinlich nicht ernst nehmen, und sie sollten es auch nicht.

  • Sich in eine bestimmte Modellierungsmethode verlieben: Es gibt keine einzige Art von Data Mining-Modellen, die für jede Situation geeignet ist.

  • Ein Modell ohne angemessene Tests in die Produktion einführen: Setzen Sie Ihr Unternehmen nicht auf ein Vorhersagemodell, bis Sie es mit Holdout-Daten und in kleinem Maßstab im Feld getestet haben.

  • Ergebnisse ignorieren, die Ihnen nicht gefallen: Wenn Sie Ihre Daten jetzt ignorieren, wird es eines Tages zurückkommen und sagen: "Ich habe es Ihnen gesagt. "

  • Verwenden von Data Mining, um alle Datenanalysebedürfnisse zu erfüllen: Data Mining hat einen enormen Wert, dennoch erfordern einige Anwendungen immer noch rigorose Datenerfassungsmethoden, formale statistische Analysen und wissenschaftliche Methoden.

  • Vorausgesetzt, dass traditionelle Datenanalysetechniken keine Rolle mehr spielen: Siehe vorhergehendes Bullet.