ડેટા માઇનીંગમાં વર્ગીકરણ

વર્ગીકરણ એ એક ડેટા માઇનિંગ ટેકનીક છે જે વધુ સચોટ આગાહીઓ અને વિશ્લેષણમાં સહાય કરવા માટે ડેટાનું સંગ્રહ કરવા માટેની શ્રેણીઓને સોંપે છે. તેને ક્યારેક ક્યારેક નિર્ણય વૃક્ષ કહેવામાં આવે છે, વર્ગીકરણ એ ઘણી બધી પદ્ધતિઓ પૈકી એક છે જેનો હેતુ ખૂબ મોટા ડેટાસેટ્સને અસરકારક બનાવવાનો છે.

શા માટે વર્ગીકરણ?

આજે મોટા પાયે ડેટાબેઝ "મોટા ડેટા" ની દુનિયામાં ધોરણ બની રહ્યું છે. ડેટાબેઝની બહુવિધ ટેરાબાઇટ્સ સાથે ડેટાબેઝની કલ્પના કરો- એક ટેરાબાઇટ ડેટાના એક ટ્રિલિયન બાઇટ્સ છે.

એકલા ફેસબુક દરરોજ એક દિવસના 600 ટેરાબાઈટના નવા ડેટાને કૂદકો કરે છે (2014 ની સાલમાં, આ સ્પેક્સની છેલ્લી ઘડીની માહિતી) મોટી માહિતીનો મુખ્ય પડકાર એ છે કે તેનો અર્થ કેવી રીતે કરવો.

અને તીવ્ર વોલ્યુમ એ માત્ર એક જ સમસ્યા નથી: મોટા ડેટા પણ વિવિધ, અનૌપચારિક અને ઝડપથી બદલાતી રહે છે. ઑડિઓ અને વિડિઓ ડેટા, સામાજિક મીડિયા પોસ્ટ્સ, 3 ડી ડેટા અથવા ભૂ-સ્થાનિક ડેટાને ધ્યાનમાં લો. આ પ્રકારની માહિતી સરળતાથી વર્ગીકૃત અથવા સંગઠિત નથી.

આ પડકારને પહોંચી વળવા માટે, ઉપયોગી માહિતી કાઢવા માટે સ્વયંસંચાલિત પદ્ધતિઓની શ્રેણી વિકસાવવામાં આવી છે, તેમાંના વર્ગીકરણમાં .

વર્ગીકરણ કેવી રીતે કાર્ય કરે છે

ટેક્ચ-સ્પીચમાં ખૂબ આગળ વધી જવાના જોખમમાં, ચાલો વર્ગીકરણ કેવી રીતે કામ કરે છે તે અંગે ચર્ચા કરીએ. ધ્યેય વર્ગીકરણ નિયમોનો સમૂહ બનાવવાનું છે જે એક પ્રશ્નનો જવાબ આપશે, નિર્ણય લેશે અથવા વર્તનની આગાહી કરશે. શરૂ કરવા માટે, તાલીમ ડેટાનો સમૂહ વિકસિત કરવામાં આવ્યો છે જેમાં વિશિષ્ટ સમૂહ તેમજ સંભવિત પરિણામનો સમાવેશ થાય છે.

વર્ગીકરણ અલ્ગોરિધમની નોકરી એ શોધવાનું છે કે કેવી રીતે લક્ષણોનો સેટ તેના નિષ્કર્ષ પર પહોંચે છે.

પરિદ્દશ્ય : કદાચ ક્રેડિટ કાર્ડ કંપની એ નક્કી કરવાનો પ્રયાસ કરી રહી છે કે કઈ પ્રોસ્પેકટ્સને ક્રેડિટ કાર્ડ ઓફર પ્રાપ્ત થવી જોઈએ.

આ તેના તાલીમ ડેટાનો સમૂહ હોઈ શકે છે:

તાલીમ ડેટા
નામ ઉંમર જાતિ વાર્ષિક આવક ક્રેડિટ કાર્ડ ઓફર
જોહ્ન ડો 25 એમ $ 39,500 ના
જેન ડો 56 એફ $ 125,000 હા

"આગાહી કરનાર" કૉલમ્સ ઉંમર , જાતિ અને વાર્ષિક આવક ક્રેડિટ કાર્ડ ઑફર "મૂલ્યાંકનકાર" ની કિંમત નક્કી કરે છે. તાલીમ સેટમાં, આગાહી કરનાર લક્ષણ જાણીતું છે. વર્ગીકરણ એલ્ગોરિધમ પછી તે નિર્ધારિત કરવાનો પ્રયાસ કરે છે કે કેવી રીતે આગાહી કરનાર લક્ષણની કિંમત પર પહોંચી હતી: કયા સંબંધો આગાહીઓ અને નિર્ણય વચ્ચે અસ્તિત્વ ધરાવે છે? તે પૂર્વાનુમાન નિયમોનો સમૂહ વિકસિત કરશે, સામાન્ય રીતે IF / THEN નિવેદન, ઉદાહરણ તરીકે:

જો (ઉંમર> 18 અથવા ઉંમર <75) અને વાર્ષિક આવક> 40,000 THEN ક્રેડિટ કાર્ડ ઑફર = હા

દેખીતી રીતે, આ એક સરળ ઉદાહરણ છે, અને અહીં બતાવવામાં આવેલા બે રેકોર્ડ કરતા અલ્ગોરિધમને વધુ મોટા ડેટા સેમ્પલિંગની જરૂર પડશે. વધુમાં, આગાહીના નિયમો વિશેષ વિગતો મેળવવા માટે ઉપ-નિયમો સહિત, વધુ જટિલ હોઇ શકે છે.

આગળ, અલ્ગોરિધમનો વિશ્લેષણ કરવા માટે ડેટાના "પૂર્વાનુમાન સેટ" આપવામાં આવે છે, પરંતુ આ સેટમાં આગાહીના લક્ષણ (અથવા નિર્ણય) નો અભાવ છે:

આગાહી કરનાર ડેટા
નામ ઉંમર જાતિ વાર્ષિક આવક ક્રેડિટ કાર્ડ ઓફર
જેક ફ્રોસ્ટ 42 એમ $ 88,000
મેરી મરે 16 એફ $ 0

આ આગાહી કરનાર માહિતી આગાહીના નિયમોની ચોકસાઈનો અંદાજ કાઢે છે, અને તે પછી વિકાસકર્તાઓ અસરકારક અને ઉપયોગી પૂર્વાવલોકનને ધ્યાનમાં લે ત્યાં સુધી નિયમો ત્વરિત કરવામાં આવે છે.

વર્ગીકરણની રોજિંદા ઉદાહરણો

વર્ગીકરણ, અને અન્ય માહિતી ખાણકામ તકનીકો, અમારા રોજિંદા જીવનનો અનુભવ ગ્રાહકોની જેમ પાછળ છે.

હવામાન આગાહીઓ દિવસના વરસાદી, સની અથવા વાદળછાયું હશે કે નહીં તે જાણ કરવા માટે વર્ગીકરણનો ઉપયોગ કરી શકે છે તબીબી વ્યવસાય તબીબી પરિણામોની આગાહી કરવા આરોગ્ય સ્થિતિઓનું પૃથક્કરણ કરી શકે છે. એક પ્રકારની વર્ગીકરણ પદ્ધતિ, નેઇવ બાયસેયન, સ્પામ ઇમેઇલ્સને વર્ગીકૃત કરવા માટે શરતી સંભાવનાનો ઉપયોગ કરે છે. છેતરપિંડી તપાસથી ઉત્પાદન ઑફર માટે, વર્ગીકરણ દરરોજ ડેટાના વિશ્લેષણ અને આગાહીઓ ઉત્પન્ન કરે છે.