લીનક્સ વોઇસ ઓળખ રાજ્ય

પરિચય

હું લેખો માટે સંશોધન કરવા ઘણો સમય પસાર કરું છું અને ઘણી વાર હું ટ્રેન સ્ટેશન પર અથવા જ્યારે બહાર અને સામાન્ય રીતે વૉકિંગ કરતી વખતે એક લેખ માટે વિષય બાબત વિશે વિચારો.

મારા સાંજના સ્ટેશનથી 1.5 માઇલ સુધી ચાલતું એક સાંજે મેં વિચાર્યું હતું કે, "હું શું કહેવા માગતો હતો તે રેકોર્ડ કરી શકું તે સારું ન હોત અને પછી તે ટેક્સ્ટ ફાઇલમાં આપમેળે લિક્વિડ હોત, જેને હું સંપાદિત કરી શકું અને પાછળથી ફોર્મેટ કરી શકું." .

મેં ઘણાં લાંબા સમય સુધી ઘણાં ખર્ચ્યા છે જે અવાજ ઓળખ અને શ્રુતલેખન માટે ઉપલબ્ધ છે, જેમાં લીનક્સમાં ડિક્ટેશન સૉફ્ટવેરનો ઉપયોગ કરીને માઇક્રોફોન દ્વારા સીધી રેકોર્ડીંગ, ફાઇલને એમ.પી. 3 અથવા ડબલ્યુએવી (WAV) ફોર્મેટમાં રેકોર્ડ કરવા અને તેને આદેશ વાક્ય દ્વારા રૂપાંતરિત કરવામાં તેમજ ક્રોમ અને Android કાર્યક્રમો

આ લેખ હાર્ડ મજૂરના દિવસો પછી મારા તારણો પર પ્રકાશ ફેંકે છે.

Linux વિકલ્પો

લિનક્સમાં શ્રુતલેખન અને વૉઇસ ઓળખ સૉફ્ટવેર શોધવાનો પ્રયત્ન કરવો તેટલું સરળ નથી અને ઉપલબ્ધ વિકલ્પો તે ચપળ નથી.

આ વિકિપીડિયા પૃષ્ઠમાં સંભવિત વિકલ્પોની સૂચિ છે જેમાં CMU સ્ફિંક્સ, જુલિયસ અને સિમોનનો સમાવેશ થાય છે.

હું SparkyLinux નો ઉપયોગ કરું છું જે આ ક્ષણે ડેબિયન પરીક્ષણ પર આધારિત છે અને હું તમને કહી શકું છું કે રિપોઝીટરીમાં ઉપલબ્ધ એક માત્ર વૉઇસ ઓળખ પેકેજ સ્ફીન્ક્સ છે.

નેટીવ લિનક્સ પ્રોગ્રામ્સ મેં પ્રયાસ કર્યો હતો, પોકેટસ્ફિનક્સ હતા, જેનો ઉપયોગ હું WAV ફાઇલોને ટેક્સ્ટ અને ફ્રીસ્પીઇક-વીઆરમાં રૂપાંતરિત કરવા માટે કરતો હતો જે એક અજગર એપ્લીકેશન છે જે તમને માઇક્રોફોનથી સીધા રેકોર્ડ કરવા દે છે.

મેં વૉઇસનોટ II અને ડિક્ટેનટ સહિતના કેટલાક Chrome એપ્લિકેશન્સને પણ અજમાવી.

અંતે મેં "ડિક્ટેશન એન્ડ ઈમેલ" અને "ટોક એન્ડ ટોક ડિક્ટેટેશન", Android એપ્લિકેશન્સનો પ્રયાસ કર્યો.

ફ્રીસ્પીઇક-વીઆર

ફ્રીસ્પીક-વીઆર સ્ટાન્ડર્ડ રિપોઝીટરીઝમાં ઉપલબ્ધ નથી. મેં અહીંથી ફાઇલો ડાઉનલોડ કરી છે.

ઝિપ ફાઇલની સામગ્રીઓ ડાઉનલોડ અને બહાર કાઢ્યા પછી મેં એક ટર્મિનલ ખોલ્યું અને ફોલ્ડરમાં નેવિગેટ કર્યું જ્યાં ફાઇલોને એક્સટ્રેક્ટ કરવામાં આવી હતી.

મેં open_freepeech-vr ખોલવા માટે નીચેનો આદેશ લખ્યો.

sudo python freespeech-vr

મારી પાસે હેડફોનની એક જોડી છે જે એકદમ યોગ્ય માઇક્રોફોન અને એકદમ સ્પષ્ટ દક્ષિણ ઇંગ્લીશ ઉચ્ચાર છે.

નીચેના લખાણ freespeech-vr વિન્ડોમાં દેખાયા:

પરિણામના એકમ શ્વાન પર આપનું સ્વાગત છે આજે મેનેજિંગ ટેસ્ટ કેવી રીતે કરવી તેની ખાતરી કરવી જોઈએ જ્યારે ટેક્સ્ટનો ઉપયોગ સિસ્ટમની રીતનો ઉપયોગ કરે છે સ્પીચ I એ દરેકને ફક્ત એક જ રહેવાની આશા હતી અને એક મરઘીના અર્થમાં સિસ્ટમ તરીકે સુવર્ણ તરીકે Ea જ્યારે તે મારું નામ આગળનું ઓલ ફોન કરે છે આ ફાઇલ તરત જ પૂરતી કિસ્સાઓ ફોન હેન્ડ્સ- સ્પેસિંક્સ ગોઇંગ તે ફોન નથી શેર કરવામાં આવશે એક પ્રશિક્ષિત અને અને સાધનો બોલતા ઉપયોગ કરો જ્યારે તમે સમાપ્ત થાય ત્યારે વપરાયેલી ફાઇલ છેલ્લું એ વાર્તા એ અને એ દ્વારા ઉપયોગ કરીને જ્યારે તે ખૂબ જ કેવી રીતે સફળતા છે આ Linux ને હતી જેમ તમે ટાળવા છે

હું હમણાં જ કહેવા માંગું છું કે આ ડોગ્સની વેબસાઇટનું એકમ નથી અને કોઈ પણ સમયે મેં ગોલ્ડન ચિકન સાથે કોઈ સંબંધનો ઉલ્લેખ કર્યો નથી. હું વાસ્તવમાં વૉઇસ ઓળખ સૉફ્ટવેરનો ઉપયોગ કરવાની પ્રક્રિયાને વર્ણવવાનો પ્રયાસ કરી રહ્યો હતો.

મેં વિવિધ પિચ અને સ્પીડ સહિત સોફટવેરનો પ્રયાસ કર્યો હતો પરંતુ ચોકસાઈ નબળી હતી

પોકેટસ્ફિંક્સ

પોકેટસ્ફિંક્સ WAV ફાઇલ લઇ શકે છે અને આદેશ વાક્યની મદદથી તેને ટેક્સ્ટમાં રૂપાંતરિત કરી શકે છે.

પોકેટસ્ફિંક્સ ડેબિયન રીપોઝીટરીઓ મારફતે ઉપલબ્ધ છે અને મોટાભાગના વિતરણો માટે ઉપલબ્ધ હોવા જોઈએ.

પોકેટસ્ફિંક્સ સાથે મને મળેલું મુખ્ય મુદ્દો એ છે કે તમે વોઇસ ઓળખ, ભાષા ફાઇલો, શબ્દકોષો અને કેવી રીતે સિસ્ટમને તાલીમ આપવી તે અંગેના ખ્યાલમાં વર્ચ્યુઅલ ડિગ્રીની જરૂર છે.

PocketSphinx ઇન્સ્ટોલ કર્યા પછી તમે CMU સ્ફિન્ક્સ વેબસાઇટ પર જાઓ અને શક્ય તેટલી વધુ માહિતી વાંચી શકો છો. તમારે નીચેની મોડેલ ફાઇલ ડાઉનલોડ કરવાની જરૂર છે.

(જો તમે મૂળ અંગ્રેજી વક્તા ન હોય તેવા ભાષા મોડલ પસંદ કરો છો જે તમારા માટે યોગ્ય છે).

પોકેટસ્ફિંક્સ અને સ્ફીન્કસ માટે દસ્તાવેજીકરણ સામાન્ય રીતે લેનાર વ્યક્તિ માટે સમજવું મુશ્કેલ છે, પરંતુ હું જે કરી શકું તેમાંથી શબ્દકોશ ફાઇલો સંભવિત શબ્દોની યાદી પ્રદાન કરવા માટે ઉપયોગમાં લેવાય છે અને ભાષા મોડેલો સંભવિત ઉચ્ચારણોની સૂચિ ધરાવે છે.

પોકેટસ્ફીનક્ષને ચકાસવા માટે મેં "ધ ડેવિલ્સ એડવોકેટ" માં અલ પૅકીનોની સ્નિપેટ અને "મોર્ગન ફ્રીમેન" ના સ્નિપેટનો પોતાનો અવાજ રેકોર્ડિંગનો ઉપયોગ કર્યો હતો. આ બિંદુએ વિવિધ અવાજો અજમાવવાનો હતો અને મારા માટે કોઈ એવી વ્યક્તિ નથી જે મોર્ગન ફ્રીમેન તરીકે સ્પષ્ટપણે વાર્તા કહી શકે છે અને કોઇએ અલ પૅકીનોની જેમ કોઈ રેખા આપવાની જરૂર નથી.

પોકેટસ્ફિન્ક્સ માટે કામ કરવા માટે તેને WAV ફાઇલની જરૂર છે અને તે ચોક્કસ ફોર્મેટમાં હોવી જરૂરી છે. જો ફાઇલ એમપી 3 ફોર્મેટમાં છે તો તેને FWPG આદેશને WAV ફોર્મેટમાં કન્વર્ટ કરવા માટે ઉપયોગમાં લે છે:

ffmpeg -i inputfilename.mp3 -acodec pcm_s16le -ar 16000 outputfilename.wav

PocketSphinx ચલાવવા માટે નીચેનો આદેશ વાપરો:

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile voice2.wav -lm cmusphinx-5.0-en-us.lm 2> વૉઇસ 2.log

pocketsphinx_continuous WAV ફાઇલ લે છે અને તેને ટેક્સ્ટમાં રૂપાંતરિત કરે છે.

Pocketsphinx ઉપરના આદેશમાં "/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic" નામના શબ્દકોશ ફાઇલનો ઉપયોગ કરવા માટે ભાષા મોડલ "cmusphinx-5.0-en-us.lm" સાથે કહેવામાં આવે છે. ટેક્સ્ટમાં રૂપાંતરિત કરવામાં આવેલી ફાઇલને voice2.wav કહેવામાં આવે છે (જે હું મારી વૉઇસ સાથે બનાવેલ રેકોર્ડીંગ છે). છેલ્લે 2> તમામ વર્બોઝ આઉટપુટને મૂકે છે જે તમને જરૂરી છે કે voice2.log નામની કોઈ ફાઇલમાં નથી. ટેસ્ટના વાસ્તવિક પરિણામો ટર્મિનલ વિન્ડોમાં પ્રદર્શિત થાય છે.

મારા અવાજનો ઉપયોગ નીચે મુજબ છે:

એક અઠવાડિયામાં માન્યતા સૉફ્ટવેર વિશેના આ અઠવાડિયે આજની કોઈ પણ સારી બાબત વિશે આવતીકાલે તમારું સ્વાગત છે

પરિણામો ફ્રીસ્પેક-વીઆર સાથે હજી ભયંકર નથી પરંતુ હજુ પણ ઉપયોગમાં લેવા યોગ્ય નથી. મેં પછી અલ પૅકીનો સાથે પોકેટસ્ફિંક્સનો ઉપયોગ કરવાનો પ્રયાસ કર્યો, પરંતુ તે કોઈ પરિણામ મળ્યા નહીં.

છેલ્લે મેં ફિલ્મ "બ્રુસ ઓલમાઇટી" માંથી મોર્ગન ફ્રીમેનના અવાજનો ઉપયોગ કરવાનો પ્રયાસ કર્યો અને અહીં પરિણામો છે:

000000000: અમે તેના પર કરીશું
000000001: હા, તે અઘરા દિવસ છે, હા, હા, હમણાં જ આ સૌથી વધુ જીવંત છે હું ગરમ ​​છું
000000002: એલિવેટરમાં જે બેઝબોલ વાગ્યે થોડુંક ચાવી છે અથવા જીવનમાં શું કરવું તે જાણો
000000003: જે પુનઃપ્રાપ્ત થશે તે શું છે?
000000004: તેઓએ તેને લખ્યું નથી
000000005: તેઓ મારા પર અધિકાર બહાર છે
000000006: તમારે નિયમો હોવા જોઈએ
000000007: હું તમને અપેક્ષા કરું છું
000000008: અને તે અહીં શીખી ગયા હતા તે એક ચિત્ર હતું કે કિલર ક્રિસમસ પાર્ટી છે
000000009: તે ઓ લખવાનો એક માર્ગ છે. ગર્દભ હું કેટલાક હંમેશા એક પહેરે છે વિચાર્યું
000000010: જેવી સમસ્યા એકઠું તે સારી ન આપશે તે સમયે હું તેનો અંદાજ લઉં છું જ્યારે અમે એવું ન કરીએ કે હું દુનિયામાં છું અને હું તે જોઈશ.
000000011: એક પિતા જે તેને ધરાવે છે
000000012: આ વિશે ઘણું બધું શું છે
000000013: તે આપેલ છે
000000014: તમે જે બધું ઘણાં બધાં ન આવતી હોય તે બધું જ
000000015: પાનખરમાં જ
000000016: માત્ર મારા માટે જ પકડી રાખો
000000017: જો હું એવું વિચારીશ તો તે નાખુશ છે કે તેઓ પાસે તે જ હશે કે જે તે બધા પર લગ્ન કરે છે તે કોઈ ન હતી, હું જે રીતે વિપરીત છું

મારા પરીક્ષણને ભાગ્યે જ વૈજ્ઞાનિક માનવામાં આવે છે અને PocketSphinx ના વિકાસકર્તાઓ જણાવે છે કે હું સૉફ્ટવેરનો ઉપયોગ યોગ્ય રીતે કરી રહ્યો નથી. વૉઇસ તાલીમ નામની એક તકનીક પણ છે જેનો ઉપયોગ વધુ સારી શબ્દકોશો અને ભાષા ફાઇલો બનાવવા માટે થાય છે.

મારા ઓવરરાઈડીંગ અભિપ્રાય એ છે કે પ્રમાણભૂત રોજિંદા ઉપયોગ માટે તે ખૂબ મુશ્કેલ છે.

વૉઇસ નોટ II

વોઈસ નોટ II એક ક્રોમ એપ્લિકેશન છે જે Google Voice ઓળખ API નો ઉપયોગ કરે છે.

જો તમે Chrome અથવા Chromium બ્રાઉઝર્સનો ઉપયોગ કરી રહ્યાં છો, તો તમે વેબ દુકાન દ્વારા વૉઇસનૉટ II ઇન્સ્ટોલ કરી શકો છો.

વોઇસનોટ II પરના ચિહ્નોને વિચિત્ર ફેશનમાં રજૂ કરવામાં આવે છે કારણ કે તમારે વિંડોની નીચે ભાષા સેટ કરવાની જરૂર છે અને સંપાદન બટન તળિયે છે, જો કે, રેકોર્ડ બટન ટોચની જમણી સ્થિતિમાં છે.

તમારે જે પ્રથમ વસ્તુ કરવાની જરૂર છે તે ભાષા પસંદ કરો અને આ વિશ્વ ચિહ્ન પર ક્લિક કરીને પ્રાપ્ત કરી શકાય છે.

રેકોર્ડિંગ શરૂ કરવા માટે, માઇક્રોફોન ચિહ્ન પર ક્લિક કરો અને તમારા માઇક્રોફોનમાં બોલવાનું શરૂ કરો. શ્રેષ્ઠ પરિણામો માટે મને લાગ્યું કે ધીમે ધીમે બોલવું એ ચાવીરૂપ છે જેથી સોફ્ટવેરને ચાલુ રાખવાની તક મળશે.

પરિણામો નીચે જોઇ શકાતા નથી તેટલા મહાન ન હતા:

જોડાવા માટે હેલો અને તમારું સ્વાગત છે ટેક્સ્ટ કન્વર્ઝન ડનલમ રેરેલ મંદી 2008 ને રૂપાંતરણ માટે વૉઇસ વિશેના લેખો, રૂપાંતરણો તરીકે 2008 અને તે જણાવ્યું હતું કે, 2014 ડેબિયન અથવા આરપીએમ પેકેજને બતાવવા માટે વૉઇસ ટેક્સ્ટ એડન મળી તે શ્રેષ્ઠ માર્ગને ટેકો આપ્યો હતો. જો તમે પસંદ કરો વિ એઇડિનબર્ગ ફ્રેન્ચ જર્મન માં પસંદ કરો તમે યુનાઈટેડ kingdomstart માં દરિયામાં માઇક્રોફોનમાં સમય મેળવશો તો તમે ટેક્સ્ટ ફાઇલ તરીકે તમારી ટેક્સ્ટને લખાણમાં લખવાનું સમાપ્ત કરી શકો છો, જે તેના માટે શ્રેષ્ઠ છે જે ઇંગ્લેન્ડની દક્ષિણેથી ખૂબ જ સ્ટાન્ડર્ડ અંગ્રેજી ઉચ્ચાર છે પરંતુ હું આ ટેક્સ્ટમાં જાઉં છું. વાસ્તવિક દસ્તાવેજ સાથે અને તમે એવી ભૂલો માટે જોઈ શકો છો કે જે તમને સભાગૃહો માટે ઉત્સાહ કરે છે

ડિક્ટેનૉટ

ડિક્ટેનૉટ એ અન્ય ક્રોમ એપ્લિકેશન છે જેનો ઉપયોગ શ્રુતલેખન હેતુઓ માટે થઈ શકે છે અને તે વધુ અંતર્ગત છે તેમ છતાં તે પરિણામો વૉઇસનૉટ II કરતાં વધુ સારી ન હતા.

મેં ફક્ત ડિક્ટેનૉટના ડેમો સંસ્કરણનો ઉપયોગ કર્યો છે જે તમને નવા દસ્તાવેજો બનાવવાથી અટકાવે છે પરંતુ તે તમને ટેક્સ્ટ પર વાત કરવા દે છે જે પહેલાથી સંપાદકમાં છે. હું વૉઇસ ઓળખ ચકાસવા માટે સક્ષમ હતી પરંતુ પરિણામો વૉઇસનૉટ II કરતાં વધુ સારી ન હતા અને તેથી મેં પ્રો આવૃત્તિ માટે સાઇન અપ કર્યું નથી

ડિક્ટેશન એન્ડ મેઇલ

"ડિક્ટેશન એન્ડ મેઇલ" એક Android એપ્લિકેશન છે જે મૂળ Google વૉઇસ ઓળખ API નો ઉપયોગ કરે છે.

આ બિંદુ સુધીના પ્રયાસમાંના કોઈપણ કાર્યક્રમ કરતાં "ડિકિટિશન અને મેઇલ" ના પરિણામો ખૂબ સારા હતા.

હેલ્લો લિનક્સ વિશે સ્વાગત છે., આજે આપણે અવાજને લખાણમાં રૂપાંતરિત કરવા વિશે વાત કરીએ છીએ

"ડિક્ટેશન એન્ડ મેઇલ" સાથેની યુક્તિ, ધીમે ધીમે અને ઉચ્ચારણ તેમજ તમે ઉચ્ચારણ સાથે પણ કરી શકો છો.

તમે વાત કરવાનું સમાપ્ત કર્યા પછી, તમે તમારા માટે પરિણામોને ઇમેઇલ કરી શકો છો.

ટોક એન્ડ ટોક ડિક્ટેટેશન

અન્ય એન્ડ્રોઇડ એપ્લિકેશન જે મેં કરવાનો પ્રયાસ કર્યો હતો તે "ટોક એન્ડ ટોક ડિક્ટેટેશન" હતો.

આ એપ્લિકેશન માટેનું ઇન્ટરફેસ ટોળું શ્રેષ્ઠ હતું અને વૉઇસ રિવ્યુને ખરેખર ખૂબ જ સારી રીતે કામ કર્યું હતું. શ્રુતલેખન રેકોર્ડ કર્યા પછી હું પરિણામો દ્વારા ઇમેઇલ દ્વારા વિવિધ રીતોને શેર કરી શક્યો.

લીનક્સ about.com પર આપનું સ્વાગત છે આજે આપણે ભાષણને લખાણમાં રૂપાંતરિત કરવા વિશે વાત કરીએ છીએ

જેમ તમે જોઈ શકો છો કે ઉપરોક્ત લખાણ સ્પષ્ટ છે તે પ્રમાણે તમે શક્ય તેટલું વિચાર કરી શકો છો. ધીમે ધીમે વાત એ કી છે

સારાંશ

નેટિવ લિનક્સ પાસે વૉઇસની ઓળખ અને ખાસ કરીને શ્રુતલેખનના સંદર્ભમાં જવાની કેટલીક રીત છે. ત્યાં કેટલાક એપ્લિકેશન્સ છે જે Google Voice API નો ઉપયોગ કરે છે પરંતુ તે હજી રિપોઝીટરીઓમાં સૂચિબદ્ધ નથી.

ChromeOS એપ્લિકેશન્સ થોડી વધુ સારી છે પરંતુ અત્યાર સુધીમાં શ્રેષ્ઠ પરિણામો મારા Android ફોનથી પ્રાપ્ત થયા છે. કદાચ ફોનમાં વધુ સારી માઇક્રોફોન છે અને તેથી વૉઇસ ઓળખ સૉફ્ટવેર રૂપાંતરણની વધુ સારી તક છે.

વૉઇસ ઓળખને ખરેખર ઉપયોગી બનવા માટે તે આવશ્યક ઓછા સુયોજન સાથે વધુ સાહજિક હોવું જરૂરી છે. તેને બુદ્ધિગ્રાહ્ય બનાવવા માટે તમારે ભાષા મોડેલો અને શબ્દકોશો સાથે આસપાસની વાતો કરવાની જરૂર નથી.

હું પ્રશંસા કરું છું કે અવાજ ઓળખની આખી કલા ખૂબ જ પડકારજનક છે કારણ કે દરેકની પાસે અલગ અવાજ છે અને સમગ્ર દેશમાં વપરાયેલી સેંકડો ભાષાઓ વિશે ચિંતા કરવાની કોઈ સમસ્યા નથી.

મારું વિશ્લેષણ એ છે કે વૉઇસ ઓળખ સૉફ્ટવેર હજી પણ પ્રગતિમાં કાર્યરત છે.