તમે Bayesian સ્પામ ફિલ્ટરિંગ વિશે શું જાણવાની જરૂર છે

by હેઇન્ઝ ત્સ્કબિટસ્કર

આંકડા કેવી રીતે તમારા ઇનબૉક્સને સ્વચ્છ રાખવામાં મદદ કરે છે તે શોધો

બેસેનિયન સ્પામ ફિલ્ટર્સ તેના સમાવિષ્ટોના આધારે સ્પામ હોવાના સંદેશાની સંભાવનાની ગણતરી કરે છે. સરળ સામગ્રી-આધારિત ફિલ્ટર્સથી વિપરીત, બેસેન સ્પામ ફિલ્ટરિંગ સ્પામ અને સારા મેઇલથી શીખે છે, પરિણામે, ખૂબ જ મજબૂત, અનુકૂળ અને કાર્યક્ષમ વિરોધી સ્પામ અભિગમ છે, જે તમામમાંથી શ્રેષ્ઠ, કોઈ પણ ખોટા ધનો આપે છે.

તમે જંક ઇમેઇલ કેવી રીતે ઓળખી શકશો?

તમે સ્પામ કેવી રીતે શોધી શકો છો તે વિશે વિચારો. એક ઝડપી નજરમાં ઘણી વાર પૂરતી છે તમને ખબર છે કે સ્પામ શું જુએ છે, અને તમને ખબર છે કે સારા મેઇલ કેવી દેખાય છે.

સારા મેલની જેમ સ્પામની સંભાવના આસપાસ છે ... શૂન્ય

સામગ્રી-આધારિત ગાળકોને સ્કોરિંગ અનુકૂલન કરશો નહીં

જો તે સ્પામ ફિલ્ટર્સે કામ કર્યું હોય તો તે સારું નહીં થાય?

સામગ્રી-આધારિત સ્પામ ફિલ્ડ્સને સ્કોર કરવાનું ફક્ત તે જ પ્રયાસ કરે છે. તેઓ સ્પામનાં શબ્દો અને અન્ય લાક્ષણિકતાઓને જુએ છે. પ્રત્યેક લાક્ષણિક તત્વને એક સ્કોર સોંપવામાં આવે છે, અને સમગ્ર સંદેશ માટેનો સ્પામ સ્કોર વ્યક્તિગત સ્કોર્સથી ગણતરી કરવામાં આવે છે. કેટલાક સ્કોરિંગ ફિલ્ટર્સ કાયદેસર મેઇલની લાક્ષણિક્તાઓ પણ જુએ છે, સંદેશાની અંતિમ સ્કોર ઘટાડીને.

સ્કોરિંગ ફિલ્ટર્સ અભિગમ કાર્ય કરે છે, પરંતુ તેમાં ઘણી ખામીઓ છે:

લાક્ષણિકતાઓની સૂચિ ફિલ્ટરના ઇજનેરો માટે ઉપલબ્ધ સ્પામ (અને સારા મેઇલ) માંથી બનેલી છે. લાક્ષણિક સ્પામ કોઇપણ વિચાર કરી શકે છે તે સારી મૂંઝવણ મેળવવા માટે, સેંકડો ઇમેઇલ સરનામાં પર મેલ એકત્રિત થવો આવશ્યક છે. આ ફિલ્ટર્સની કાર્યક્ષમતાને નબળી પાડે છે, ખાસ કરીને કારણ કે સારા મેલની લાક્ષણિકતાઓ દરેક વ્યક્તિ માટે અલગ હશે , પરંતુ આને ધ્યાનમાં લેવામાં આવતી નથી.
પથ્થરમાં જોવા માટેની લાક્ષણિકતાઓ વધુ કે ઓછા સેટમાં છે . જો સ્પામર્સ અનુકૂલન કરવાનો પ્રયાસ કરે છે (અને તેમના સ્પામને ફિલ્ટર્સને સારા મેઇલ જેવો દેખાય છે), તો ફિલ્ટરિંગ લાક્ષણિકતાઓને મેન્યુઅલી ઝટકો કરવાની જરૂર છે - એક મોટું પ્રયત્ન પણ.
દરેક શબ્દને સોંપેલું સ્કોર કદાચ એક સારા અંદાજ પર આધારીત છે, પરંતુ તે હજુ પણ મનસ્વી છે. અને લાક્ષણિકતાઓની સૂચિની જેમ, તે સામાન્ય રીતે સ્પામની બદલાતી દુનિયામાં અથવા વ્યક્તિગત વપરાશકર્તાની જરૂરિયાતોને અનુરૂપ નથી.

બેઈઝિયન સ્પામ ફિલ્ટર્સ પોતાને ઝટકો, બેટર અને બેટર મેળવવી

બાયસેનિયન સ્પામ ફિલ્ટર્સ એક પ્રકારની સામગ્રી-આધારિત ફિલ્ટર્સ છે, પણ. તેમનો અભિગમ સરળ સ્કોરિંગ સ્પામ ફિલ્ટર્સની સમસ્યાને દૂર કરે છે, જો કે, અને તે આવું ધરમૂળથી કરે છે. સ્કોરિંગ ફિલ્ટર્સની નબળાઇઓ મેન્યુઅલી મેન્યુફેક્ચર્ડ સૂચિની લાક્ષણિકતાઓ અને તેમના સ્કોર્સમાં હોવાથી આ સૂચિને દૂર કરવામાં આવે છે.

તેના બદલે, Bayesian સ્પામ ફિલ્ટર પોતાને યાદી બનાવવા. આદર્શરીતે, તમે ઇમેલ જે તમે સ્પામ તરીકે વર્ગીકૃત કરી છે, અને સારા મેઇલના અન્ય ટોળું (મોટા) સમૂહ સાથે પ્રારંભ કરો છો. આ ફિલ્ટર્સ બન્નેને જુએ છે અને સ્પામમાં દેખાતા વિવિધ લાક્ષણિકતાઓની સંભાવનાની ગણતરી કરવા માટે તેમજ સારા મેઇલમાં કાયદેસર મેઇલ તેમજ સ્પામનું વિશ્લેષણ કરે છે.

બાયસેનિયન સ્પામ ફિલ્ટર કઈ રીતે ઇમેઇલની ચકાસણી કરે છે

Bayesian સ્પામ ફિલ્ટર લાક્ષણિકતાઓ જોઈ શકે છે:

સંદેશાના શરીરમાં શબ્દો, અલબત્ત, અને
તેના હેડરો (પ્રેષકો અને મેસેજ પાથ , ઉદાહરણ તરીકે!), પણ
અન્ય પાસાં જેમ કે HTML / CSS કોડ (જેમ કે રંગો અને અન્ય ફોર્મેટિંગ), અથવા તો
શબ્દ જોડીઓ, શબ્દસમૂહો અને
મેટા માહિતી (ઉદાહરણ તરીકે, કોઈ ચોક્કસ શબ્દસમૂહ દેખાય છે).

જો કોઈ શબ્દ, "કાર્ટેઝિયન" ઉદાહરણ તરીકે, સ્પામમાં ક્યારેય દેખાતો નથી પરંતુ તે કાયદેસર ઇમેઇલમાં તમને મળે છે, તો સંભાવના છે કે "કાર્ટેઝિયન" સૂચવે છે કે સ્પામ શૂન્ય નજીક છે. "ટોનર", બીજી તરફ, ફક્ત સ્પામમાં, અને ઘણી વાર દેખાય છે. "ટોનર" સ્પામમાં જોવાની ખૂબ જ ઊંચી સંભાવના છે, 1 (100%) થી ઓછી નહીં.

જ્યારે એક નવો મેસેજ આવે છે, ત્યારે તેને બેસેનિયન સ્પામ ફિલ્ટર દ્વારા વિશ્લેષણ કરવામાં આવે છે, અને સ્પામ હોવાના સંપૂર્ણ સંદેશાની સંભાવના વ્યક્તિગત લાક્ષણિકતાઓનો ઉપયોગ કરીને ગણવામાં આવે છે.

ધારો કે સંદેશ "કાર્ટેઝિયન" અને "ટોનર" બંનેમાં છે. આ શબ્દોમાંથી એકલા તે હજુ સુધી સ્પષ્ટ નથી કે અમારી પાસે સ્પામ અથવા કાયદેસર મેલ છે. અન્ય લાક્ષણિકતાઓ (આશા અને સૌથી વધુ સંભવિત) સંભાવનાને સૂચવે છે જે ફિલ્ટરને સ્પામ અથવા સારા મેઇલ તરીકે વર્ગીકૃત કરે છે.

Bayesian સ્પામ ગાળકો આપોઆપ જાણી શકો છો

હવે અમારી પાસે એક વર્ગીકરણ છે, સંદેશનો ઉપયોગ કરીને ફિલ્ટરને વધુ સારી રીતે તાલીમ આપવા માટે તેનો ઉપયોગ કરી શકાય છે. આ કિસ્સામાં, ક્યાં તો "કાર્ટેઝિયન" ની સંભાવના સારી મેઈલ સૂચવે છે (જો "કાર્ટેસિયન" અને "ટોનર" બંનેને સ્પામ હોવાનું સંદેશ છે), અથવા "ટોનર" ની સંભાવના દર્શાવે છે કે સ્પામને ફરી વિચારવું જોઇએ.

આ સ્વતઃ અનુકૂલનશીલ તકનીકનો ઉપયોગ કરીને Bayesian ફિલ્ટર બંને પોતાના અને વપરાશકર્તાનાં નિર્ણયો (જો તે ફિલ્ટર્સ દ્વારા જાતે જ ખોટી બનાવે છે) થી શીખી શકે છે. Bayesian ફિલ્ટરિંગની અનુકૂલનક્ષમતા એ પણ સુનિશ્ચિત કરે છે કે તેઓ વ્યક્તિગત ઇમેઇલ વપરાશકર્તા માટે સૌથી અસરકારક છે. જ્યારે મોટા ભાગના લોકોના સ્પામની સમાન લાક્ષણિકતાઓ હોઈ શકે છે, કાયદેસર મેલ દરેક વ્યક્તિ માટે લાક્ષણિક રીતે અલગ છે.

સ્પામર્સ કેવી રીતે છેલ્લા બાયોસેયન ગાળકો મેળવી શકે છે?

કાયદેસર મેલની લાક્ષણિકતાઓ સ્પામ તરીકે થતી બાયેસિયન સ્પામ ફિલ્ટરિંગ પ્રક્રિયા માટે જ મહત્વપૂર્ણ છે. જો ગાળકો ખાસ કરીને દરેક વપરાશકર્તા માટે તાલીમ પામે છે, તો સ્પામર્સ પાસે બધા લોકો (અથવા તો મોટા ભાગના લોકો) સ્પામ ફિલ્ટર્સમાં કામ કરવા માટે એક સખત સમય હશે, અને ફિલ્ટર્સ લગભગ તમામ સ્પામર્સ દ્વારા પ્રયાસ કરી શકે છે.

સ્પામર્સ માત્ર તે સારી રીતે તાલીમ પામેલા બેસેન ફિલ્ટર્સને બનાવશે જો તેઓ તેમના સ્પામ સંદેશાઓને સામાન્ય ઇમેઇલ જેમ બધાને મળી શકે તે રીતે સંપૂર્ણ રીતે દેખાશે.

સ્પામર્સ સામાન્ય રીતે આવા સામાન્ય ઇમેઇલ્સ મોકલતા નથી. ચાલો ધારો કે આ ઇમેઇલ્સ જંક ઇમેઇલ તરીકે કામ કરતું નથી. તેથી, સંભવ છે કે જ્યારે તે સામાન્ય, કંટાળાજનક ઇમેઇલ્સ છે, ત્યારે તેને તે સ્પામ ફિલ્ટર્સ બનાવવાની એકમાત્ર રીત છે.

જો સ્પામર્સ મોટેભાગે સામાન્ય દેખાતી ઇમેઇલ્સ પર સ્વિચ કરે છે, તેમ છતાં, અમે ફરીથી અમારા ઇનબૉક્સમાં ઘણો સ્પામ જોશું અને ઇમેઇલ બિયોસેનિયનના પૂર્વ દિવસોમાં (અથવા તો વધુ ખરાબ) હોવાથી નિરાશાજનક બનશે. તે મોટાભાગના પ્રકારના સ્પામ માટે બજારને પણ બરબાદ કરી દેશે, જોકે, અને આમ લાંબા સમય સુધી ચાલશે નહીં.

મજબૂત સૂચકાંકો બાયસેનિયન સ્પૅમ ફિલ્ટરની અકિલિસ 'હોઇ શકે છે. હીલ

એક અપવાદને સ્પામર્સ માટે બાયોસેયન ફિલ્ટર્સ દ્વારા તેમના સામાન્ય સામગ્રી સાથે પણ કામ કરવા માટે દેખી શકાય છે. તે Bayesian આંકડાઓની પ્રકૃતિ છે કે જે એક શબ્દ અથવા લાક્ષણિકતા કે જે સારા મેલમાં ખૂબ જ વારંવાર દેખાય છે તે એટલા નોંધપાત્ર હોઈ શકે છે કે સ્પામ ફિલ્ટર દ્વારા હેમ તરીકે રેટ કરવા માટે જોઈ શકાય છે.

જો સ્પામર્સ તમારા ખાતરી-આગમાં સારા-મેલ શબ્દોને નક્કી કરવા માટે માર્ગ શોધે છે- HTML રીટર્ન રિસિટ્સનો ઉપયોગ કરીને તમે જે સંદેશા ખોલ્યા છે તે જોવા માટે, ઉદાહરણ તરીકે-, તેઓ તેમાંની એક જંક મેઇલમાં શામેલ કરી શકે છે અને તમને એક સારી- તાલીમ બાયોસેન ફિલ્ટર

જ્હોન ગ્રેહામ-કમિંગે બે બેસીયન ફિલ્ટર્સને એકબીજા સામે કામ કરવા દેવાનો પ્રયાસ કર્યો છે, "સારા" ફિલ્ટરમાંથી સંદેશા પ્રાપ્ત કરવા માટે "ખરાબ" એક અનુકૂળ છે. તેઓ કહે છે કે તે કાર્ય કરે છે, જોકે પ્રક્રિયા સમય માંગી અને સંકુલ છે. અમે નથી વિચારીએ કે આમાંના મોટાભાગના બનાવો અમે જોશું, ઓછામાં ઓછા મોટા પાયે નહીં, અને વ્યક્તિની ઇમેઇલ લાક્ષણિકતાઓ અનુસાર નહીં. સ્પામર્સ સંસ્થાઓ માટે કેટલાક કીવર્ડ્સ (આઇબીએમ પર કેટલાક લોકો માટે "એલામાડેન" કંઈક) ને બદલે (કદાચ) પ્રયાસ કરી શકે છે?

સામાન્ય રીતે, સ્પામ હંમેશાં (નોંધપાત્ર રીતે) નિયમિત મેઇલથી અલગ હશે અથવા તે સ્પામ નહીં હોય, છતાં.

બોટમ લાઇન: બાયેસિયન ફિલ્ટરિંગની સ્ટ્રેન્થ તેની કમજોર બની શકે છે

Bayesian સ્પામ ફિલ્ટર્સ સામગ્રી આધારિત ફિલ્ટર્સ છે જે:

ખાસ કરીને વ્યક્તિગત ઇમેઇલ વપરાશકર્તાની સ્પામ અને સારા મેઇલને ઓળખવા માટે તાલીમ આપવામાં આવે છે, તેમને સ્પામર્સ માટે અનુકૂલન કરવું અત્યંત અસરકારક અને મુશ્કેલ બનાવે છે.
સ્પામર્સની નવીનતમ યુક્તિઓ સાથે અનુકૂલન અને ખૂબ પ્રયત્નો અથવા જાતે વિશ્લેષણ વિના સતત
વ્યક્તિગત વપરાશકર્તાની સારી મેલને ધ્યાનમાં લો અને ખોટા હકારાત્મકતાના અત્યંત નીચો દર ધરાવે છે .
કમનસીબે, જો તે Bayesian એન્ટી સ્પામ ફિલ્ટર્સમાં આંધળો ટ્રાંસલેશન કરે છે, તો તે પ્રસંગોપાત ભૂલને વધુ ગંભીર બનાવે છે . ખોટા નેગેટિવ્સની વિપરીત અસર (સ્પામ કે જે નિયમિત મેઇલની જેમ બરાબર જુએ છે) પાસે વપરાશકર્તાઓને વિક્ષેપ અને નિરાશા કરવાની ક્ષમતા છે.