الدولة من التعرف على صوت لينكس

by غاري نيويل

المقدمة

أقضي الكثير من الوقت في البحث عن المقالات وكثيراً ما أفكر في موضوع مقال أثناء السير إلى محطة القطار أو عند الخروج بشكل عام.

في إحدى الأمسيات أثناء السير على مسافة 1.5 ميل إلى المحطة من أعمالي ، فكرت في أنه "لن يكون من الجيد أن أتمكن من تسجيل ما أريد أن أقوله ، ثم نقلته تلقائيًا إلى ملف نصي يمكنني تحريره وتنسيقه لاحقًا" .

لقد قضيت العديد من الساعات الطويلة أبحث في الخيارات المختلفة المتاحة للتعرف على الصوت والإملاء بما في ذلك التسجيل مباشرة من خلال الميكروفون باستخدام برنامج الإملاء في Linux ، وتسجيل الملف إلى تنسيق MP3 أو WAV وتحويله عبر سطر الأوامر ، بالإضافة إلى استخدام Chrome وتطبيقات الروبوت.

هذا المقال يسلط الضوء على النتائج التي توصلت إليها بعد أيام من العمل الشاق.

خيارات لينكس

إن محاولة العثور على برنامج الإملاء والتعرف على الصوت في لينكس ليس سهلاً كما هو ، والخيارات المتاحة ليست ذكية.

تحتوي صفحة ويكيبيديا هذه على قائمة من الخيارات المحتملة بما في ذلك CMU Sphinx و Julius و Simon.

أنا أستخدم SparkyLinux الذي يعتمد على اختبار Debian في الوقت الحالي ويمكنني أن أقول لك أن حزمة التعرف على الصوت الوحيدة المتوفرة في المستودعات هي Sphinx.

كانت برامج لينكس الأصلية التي انتهى بها المطاف بمحاولة هي PocketSphinx ، التي اعتدت على تحويل ملفات WAV إلى نص و Freespeech-VR وهو تطبيق python الذي يتيح لك التسجيل مباشرة من الميكروفون.

جربت أيضًا بعض تطبيقات Chrome بما في ذلك VoiceNote II و Dictanote.

أخيرا حاولت "الإملاء والبريد الإلكتروني" و "الحديث والتحدث Dictation" تطبيقات أندرويد.

Freespeech-VR

لا يتوفر Freespeech-VR في المستودعات القياسية. قمت بتنزيل الملفات من هنا.

بعد تنزيل واستخراج محتويات الملف المضغوط ، فتحت مطرافًا وانتقلت إلى المجلد الذي تم فيه استخراج الملفات.

أنا كتبت الأمر التالي لفتح freespeech-vr.

sudo python freespeech-vr

لدي زوج من سماعات الرأس مع ميكروفون لائق إلى حد ما ولغة إنجليزية جنوبية واضحة إلى حد ما.

يظهر النص التالي في إطار freespeech-vr:

مرحبًا بكم في وحدة الكلاب الخاصة بالنتيجة اليوم تأكد من كيفية إجراء الاختبارات المُدارة يجب أن تختبر متى تستخدم للنص طريقة نظام الكلام كلامي كان لكل واحد فقط في أأمل البقاء و إلى جانب دجاج واحد ذهبي كنظام ال Ea عندما اسمي الهاتف التالي يتصل هاتفيا هذا الملف قريباً ما يكفي من هاتف الحالات اليدين - سبيس أبو الهول Going That لن تتم مشاركة الهواتف A مدربة و أدوات استخدم التحدث عند انتهائك من استخدام ملف Say A Last قصة واستخدامها من قبل متى هو النجاح جدا هذا كان لينكس كما تفعل هو تجنب

أود فقط أن أقول الآن إن هذا ليس موقع وحدة الكلاب ، ولم أذكر على الإطلاق أي شيء يتعلق بالدجاج الذهبي. كنت أحاول في الواقع وصف عملية استخدام برنامج التعرف على الصوت.

جربت البرنامج عدة مرات بما في ذلك درجة الصوت والسرعة المتفاوتة ولكن الدقة كانت ضعيفة.

PocketSphinx

PocketSphinx قادر على أخذ ملف WAV وتحويله إلى نص باستخدام سطر الأوامر.

يتوفر PocketSphinx عبر مستودعات دبيان ، ويجب أن يكون متاحًا لمعظم التوزيعات.

القضية الرئيسية التي وجدتها مع PocketSphinx هي أنك تحتاج فعليًا إلى درجة في مفاهيم التعرف على الصوت وملفات اللغة والقواميس وكيفية تدريب النظام.

بعد تثبيت PocketSphinx يجب عليك الذهاب إلى موقع CMU Sphinx وقراءة أكبر قدر ممكن من المعلومات. تحتاج أيضًا إلى تنزيل ملف النموذج التالي.

نموذج اللغة الإنجليزية العامة الأمريكية

(إذا لم تكن متحدثًا باللغة الإنجليزية الأصلية ، فاختر نموذج اللغة المناسب لك).

من الصعب فهم الوثائق الخاصة بـ PocketSphinx و Sphinx بشكل عام بالنسبة للشخص العادي ، ولكن من ما يمكنني إجراؤه من ملفات القاموس يتم استخدامها لتوفير قائمة بالكلمات المحتملة ونماذج اللغة التي تحتوي على قائمة بالكلمات المنطقية المحتملة.

لاختبار PocketSphinx ، استعملتُ تسجيل صوتي ، ومقتطفًا من آل باتشينو في "The Devils Advocate" ومقتطف من "Morgan Freeman". كان الهدف من ذلك هو تجربة أصوات مختلفة وبالنسبة لي لا يوجد أحد يستطيع أن يروي قصة بوضوح مثل مورغان فريمان ولا أحد يسلم خطًا مثل آل باتشينو.

لكي يعمل PocketSphinx يحتاج إلى ملف WAV ويجب أن يكون بتنسيق معين. إذا كان الملف بتنسيق MP3 ، استخدم الأمر ffmpeg لتحويله إلى تنسيق WAV:

ffmpeg -i inputfilename.mp3 -acodec pcm_s16le -ar 16000 outputfilename.wav

لتشغيل PocketSphinx استخدم الأمر التالي:

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile voice2.wav -lm cmusphinx-5.0-أون-us.lm 2> voice2.log

يأخذ pocketsphinx_continuous ملف WAV ويحوله إلى نص.

في يروي الأمر أعلاه pocketsphinx لاستخدام ملف القاموس يسمى "/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic" مع نموذج اللغة "cmusphinx-5.0-أون-us.lm". يسمى الملف الذي يتم تحويله إلى نص بـ Voice2.wav (وهو تسجيل قمت به باستخدام صوتي). أخيراً ، يضع 2> كل المخرجات المطولة التي لا تحتاج بالضرورة إلى ملف يسمى voice2.log. يتم عرض النتائج الفعلية للاختبار داخل نافذة طرفية.

النتائج باستخدام صوتي هي كما يلي:

مرحبا بكم في القادم حول هذا الموضوع لا حول هذا الاسبوع حول أي برنامج الاعتراف في دقيقة واحدة

النتائج ليست مروعة كما هو الحال مع freespeech-vr ولكن لا تزال غير صالحة للاستعمال. ثم حاولت استخدام PocketSphinx مع آل باتشينو ولكن هذا لم يعط أية نتائج على الإطلاق.

أخيرا حاولت استخدام صوت مورجان فريمان من فيلم "بروس سبحانه وتعالى" وهنا النتائج:

000000000: سنقوم عليها
000000001: كل هذا صعب نعم اليوم الذي هو الآن نعم هذا هو أكثر ما كنا على قيد الحياة أنا جزء من الساخنة
000000002: في المصعد الذي يخرج من جزء صغير من لعبة البيسبول أو يعرف ما يجب القيام به في الحياة
000000003: ما هي تلك التي سوف تسترد
000000004: لم يكتبوه
000000005: لديهم على حق خارج
000000006: يجب أن تكون القواعد
000000007: لقد كنت أتوقع منك
000000008: وتعلم هنا أن كان التوضيح هو حفلة عيد الميلاد القاتل
000000009: اتضح أن أحد الطرق لكتابة o. الحمار اعتقدت قليلة دائما ارتداء واحدة
000000010: كالمشكلة المتحدة لن تعطيه الخير أنا أقدرهم في تلك اللحظة عندما لم نكن كل ما تظن أنني في العالم سوف منازل وأنا شاهدت ذلك
000000011: الأب الذي لديه
000000012: ما الكثير عن هذا
000000013: هل هذا معطى
000000014: كل ما لديك تلك التي لا تقع الكثير
000000015: الحق في الخريف
000000016: تمسك جيدا بالنسبة لي فقط
000000017: إنه أمر غير سعيد إذا كنت أعتقد أيضا أنهم سيحصلون على ذلك بأن كل ذلك سوف يتزوج على أي أننا لا أحب على عكس الطريق

لا يمكن اعتبار اختباري علميًا ، وقد يوضح مطورو PocketSphinx أنني لا أستخدم البرنامج بشكل صحيح. هناك أيضًا تقنية تسمى التدريب الصوتي والتي يمكن استخدامها لإنشاء قواميس وملفات لغوية أفضل.

رأسي الغالب على الرغم من أنه من الصعب للغاية بالنسبة للاستخدام اليومي القياسي.

VoiceNote II

VoiceNote II هو تطبيق Chrome يستخدم واجهة برمجة تطبيقات التعرف على Google Voice.

إذا كنت تستخدم متصفحات Chrome أو Chromium ، فيمكنك تثبيت VoiceNote II عبر السوق الإلكتروني .

يتم وضع الرموز على VoiceNote II بطريقة غريبة حيث تحتاج إلى إعداد اللغة في أسفل النافذة وزر التحرير هو أيضا في أسفل ، ولكن زر التسجيل في أعلى الموضع الصحيح.

أول ما عليك فعله هو اختيار لغة ويمكن تحقيق ذلك من خلال النقر على أيقونة العالم.

لبدء التسجيل ، انقر فوق رمز الميكروفون وابدأ التحدث إلى الميكروفون. للحصول على أفضل النتائج ، وجدت أن التحدث ببطء هو أمر أساسي حتى يتسنى للبرنامج الحصول على فرصة للاستمرار.

النتائج لم تكن رائعة كما يمكن رؤيتها أدناه:

أهلا ومرحبا بكم في الاتصال. About.com مقالات اليوم حول تحويل الصوت إلى نص dunelm farrell الركود عام 2008 كتحويلات ، وقال أنه يدعم بشكل جيد أفضل طريقة وجدت ملحق النص الصوتي لإظهار 2014debian أو حزمة rpm فتح نوع الصوت إلى الكلام إلى نص فتحه إذا كنت تريد أن تختار vs choose in edinburgh french german get you the time in united kingdomstart at sea microphonewhat you finished write your text as a text file to itsuccess well that this standard standard standard for الإنجليزية from south of england best for it it 'أنا ذاهب إلى textvia this torrentalong مع الوثيقة الفعلية ويمكنك ان ترى عن الأخطاء التي makethank لك ل listengerfriends

Dictanote

Dictanote هو تطبيق آخر من تطبيقات Chrome يمكن استخدامه لأغراض الإملاء ويظهر على أنه أكثر سهولة ، ولكن النتائج لم تكن أفضل من VoiceNote II.

لقد استخدمت فقط الإصدار التجريبي من Dictanote الذي يمنعك من إنشاء مستندات جديدة لكنه يتيح لك التحدث عن النص الموجود بالفعل في المحرر. لقد تمكنت من اختبار التعرف على الصوت ولكن النتائج لم تكن أفضل من VoiceNote II ولذا لم أسجل في النسخة الموالية.

الاملاء والبريد

"Dictation And Mail" هو تطبيق Android يستخدم واجهة برمجة تطبيقات التعرف على الصوت في Google.

كانت نتائج "الإملاء والبريد" أفضل بكثير من أي برنامج آخر حاول حتى هذه اللحظة.

مرحبا مرحبا بكم في لينكس ، اليوم نتحدث عن تحويل الصوت إلى نص

الخدعة مع "الإملاء والبريد" هي أن تتحدث ببطء وأن تتحدث كما يمكنك بلكنة متساوية.

بعد الانتهاء من التحدث ، يمكنك إرسال النتائج بالبريد الإلكتروني لنفسك.

الحديث والتحدث الإملاء

تطبيق Android الآخر الذي حاولت هو "Talk And Talk Dictation".

كانت واجهة هذا التطبيق الأفضل من بين مجموعة ، وكان التعرف على الصوت يعمل جيدًا جدًا. بعد تسجيل الإملاء ، تمكنت من مشاركة النتائج بطرق مختلفة بما في ذلك عبر البريد الإلكتروني.

مرحبا بكم في linux about.com اليوم نحن نتحدث عن تحويل الكلام إلى نص

كما ترى ، فإن النص أعلاه واضح بقدر ما يمكنك توقعه. التحدث ببطء هو المفتاح.

ملخص

لدى Native Linux طريقة للانتقال إلى التعرف على الصوت وتحديدًا الإملاء. هناك بعض التطبيقات التي تستخدم Google Voice API ولكنها لم يتم إدراجها بعد في المستودعات.

تعتبر تطبيقات ChromeOS أفضل قليلاً ولكن تم تحقيق أفضل النتائج باستخدام هاتفي بنظام Android. ربما يحتوي الهاتف على ميكروفون أفضل ، وبالتالي فإن برنامج التعرف على الصوت يمثل فرصة أفضل للتحويل.

لكي يصبح التعرف على الصوت قابلاً للاستخدام بالفعل ، يجب أن يكون أكثر سهولة مع إعداد أقل مطلوب. لا يجب أن تتعثر مع نماذج لغوية وقواميس لجعلها مفهومة.

ومع ذلك ، فإنني أقدّر أن فن التعرف على الصوت بأكمله يمثل تحديًا كبيرًا لأن الجميع يمتلكون صوتًا مختلفًا ، وهناك العديد من اللهجات من منطقة إلى أخرى في بلد ما ، مما يثير القلق حول مئات اللغات المستخدمة في جميع أنحاء العالم.

لذلك ، فإن تحليلي هو أن برنامج التعرف على الصوت لا يزال قيد العمل.