Vad är Data Mining processen?

Processen data mining är ett verktyg för att upptäcka statistiskt signifikant mönster i en stor mängd data. Det innebär vanligtvis fem steg, som omfattar förberedelse, data prospektering, modellbygge, installation och översyn. Varje steg i processen innebär en annan uppsättning tekniker, men de flesta använder någon form av statistisk analys.

Innan data mining processen kan börja, forskarna som typiskt forskningsmål. Denna beredning steg vanligtvis avgör vilka typer av data behöver studeras, vad data mining teknik bör användas, och vilken form resultaten kommer att ta. Detta första steg i processen kan vara avgörande för att samla in användbar information.

Nästa steg i data mining processen är prospektering. Detta steg vanligtvis innebär samla in den begärda uppgifter från en information lager eller insamling enhet. Då, gruvdrift experter förbereda normalt rå datamängder för analys. Detta steg består vanligen av att samla in, städning, organisera och kontrollera alla uppgifter för fel.

Detta banade data, som normalt sedan går in i tredje steget i data mining processen, modellbygge. För att åstadkomma detta, forskare har vanligtvis små prover av data och tillämpa olika data mining för dem. Modelleringen steg används ofta för att fastställa den bästa metoden för statistisk analys krävs för att uppnå önskat resultat.

Det finns fyra huvudsakliga tekniker som kan tillämpas i data mining processen. Den första är klassificering, som arrangerar data till fördefinierade grupper eller kategorier. I den andra metoden, som kallas kluster, forskare låta datorn att organisera data i grupper, som det vill. En tredje data mining teknik söker samband mellan variabler. Den fjärde typiskt utseende för olika sekventiella mönster i data som kan användas för att förutsäga framtida trender.

Det sista steget i data mining processen är utplacerade. För att göra detta, den teknik som valts i modellen tillämpas på de större uppsättning data, och resultaten analyseras. I rapporten som kommer från detta steg vanligen visar de mönster som finns i hela processen, inklusive eventuella klassificeringar, kluster, föreningar eller sekventiella mönster som finns inom datamängden.

Review är ofta en viktig sista steg. Denna fas i processen innebär vanligen att upprepa gruvdrift modeller med en ny uppsättning data för att säkerställa att det viktigaste som var representativ för hela populationen av data. Resultaten kan inte förutse trender i den större populationen om uppgifterna provet inte ger en rättvisande bild det.


Kommentarer

  • Om oss
  • Reklam
  • Kontakta redaktören
  • Få nyhetsbrev
  • RSS-feed

Redaktör: Beáta Megyesi
Nyheter redaktör: Christiane Schaefer

Kundservice: Mats Schaefer,
Helena Löthman

Tel: +46 00 79 22 00
Fax: +46 00 79 22 01

© Copyright 2014 Debok.net - All rights reserved.