SpeechOS يجلب إدخال الصوت بنمط Wispr Flow إلى أي تطبيق ويب

📋

حقائق رئيسية

SpeechOS هو مجموعة تطوير برمجيات (SDK) لإدخال الصوت قابلة للدمج، طورها المطور ديفيد هوي لدمجها في تطبيقات الويب.
نُسِبَت الإلهام إلى تدفق عمل Wispr Flow، ولكن تم تصميمه خصيصاً لتطبيقات الأعمال مثل أنظمة إدارة علاقات العملاء (CRMs) وأدوات الدعم.
كشفت دراسة واسعة النطاق شملت 37,370 مشاركًا أن متوسط سرعة الكتابة هو 36.2 كلمة في الدقيقة بمعدل خطأ غير مصحح قدره 2.3%.
أظهرت تقنية التعرف على الصوت أنها أسرع بثلاث مرات تقريبًا من إدخال لوحة المفاتيح مع معدل خطأ أقل بشكل ملحوظ.
يدعم المنصة مفردات مخصصة لنقل المصطلحات المحددة للمجال، وأسماء المنتجات، والاختصارات بدقة.
SpeechOS حاليًا في مرحلة تجريبية مجانية، ويمكن الوصول إليها عبر عملية تسجيل محددة كانت موجهة في الأصل لمجتمع Hacker News.

تدفق العمل الموجه بالصوت يصل

تهدف مجموعة تطوير برمجيات جديدة إلى تحويل طريقة تفاعل المستخدمين مع تطبيقات الويب من خلال الصوت. SpeechOS، الذي أطلقه المطور ديفيد هوي، يقدم حلاً قابلاً للدمج يدمج إدخال الصوت المتطور مباشرة في أي حقل نص على الويب.

على عكس أدوات التسجيل المنفصلة، تم تصميم SpeechOS للعمل ضمن تدفقات العمل المعقدة لتطبيقات الأعمال. يأتي الإلهام من التجربة المبسطة لـ Wispr Flow، ولكن يتم تطبيقها في بيئات تكون فيها الإنتاجية في المقام الأول.

الوعد الأساسي بسيط: استبدال أو إكمال كتابة لوحة المفاتيح بالكلام الطبيعي، ومعالجته إلى نص مصقول وجاهز للاستخدام. للمطورين والشركات، يمثل تغييراً محتملاً في كيفية التعامل مع إدخال البيانات وإنشاء المحتوى داخل مجموعات البرامج الحالية.

كيف يعمل SpeechOS

يتطلب دمج SpeechOS حداً أدنى من التكاليف التقنية. يحتاج المطورون فقط إلى إضافة بضعة أسطر من JavaScript مع مفتاح API لتفعيل الخدمة. بمجرد التنفيذ، تظهر أداة صغيرة للميكروفون في كل حقل نص داخل تطبيق الويب.

تمتد الوظيفة إلى ما هو أبعد من التسجيل البسيط. تم بناء SpeechOS حول ثلاث قدرات أساسية مصممة لمحاكاة التفاعل الطبيعي بين الإنسان والحاسوب:

التسجيل: التحدث بشكل طبيعي، مع التحويل في الوقت الفعلي إلى نص مصقول يتضمن علامات ترقيم تلقائية وإزالة الكلمات المليئة أو الأخطاء الإملائية.
التحرير: إصدار أوامر صوتية مثل "اجعله أقصر"، "أصلح القواعد النحوية"، أو "ترجم" لتحسين النص المولد.
الأمر: تعريف إجراءات مخصصة على غرار Siri مثل "إرسال النموذج" أو "وضع علامة مكتمل"، والتي يطابقها النظام مع نوايا محددة.

علاوة على ذلك، تدعم المنصة مفردات مخصصة لضمان نقل المصطلحات المحددة للمجال، وأسماء المنتجات، والاختصارات بدقة. كما تسمح بـ مقتطفات نصية، مما يمكّن المستخدمين من إدراج كتل نصية قابلة لإعادة الاستخدام - مثل التوقيعات أو التحفظات - باستخدام أوامر صوتية.

"كان التعرف على الصوت أسرع بحوالي 3 مرات من إدخال لوحة المفاتيح وكان له معدل خطأ أقل بنسبة ~20.4% لإدخال النص الإنجليزي."
— أبحاث HCI ستانفورد

إلحاح الإنتاجية

يعتمد تطوير SpeechOS على البيانات المتعلقة بكفاءة إدخال النص. تشير الأبحاث إلى أنه على الرغم من التقدم التكنولوجي، تظل سرعة ودقة إدخال النص عائقًا حاسمًا في أدوات الإنتاجية.

كشفت دراسة واسعة النطاق شملت 37,370 مشاركًا أن متوسط سرعة الكتابة هو تقريبًا 36.2 كلمة في الدقيقة، بمعدل خطأ غير مصحح قدره حوالي 2.3%. في المقابل، أظهرت تقنية التعرف على الصوت مزايا كبيرة.

كان التعرف على الصوت أسرع بحوالي 3 مرات من إدخال لوحة المفاتيح وكان له معدل خطأ أقل بنسبة ~20.4% لإدخال النص الإنجليزي.

تسلط هذه الإحصاءات الضوء على التأثير المحتمل لدمج إدخال الصوت القوي مباشرة في تطبيقات الأعمال. من خلال تقليل احتكاك إدخال البيانات، تهدف أدوات مثل SpeechOS إلى استعادة الوقت الثمين للعاملين بالمعرفة.

التوفر الحالي والوصول

SpeechOS متاح حاليًا في مرحلة تجريبية، مقدمًا مجانًا للمستخدمين الأوائل. تسمح هذه الفترة للمطور بجمع الملاحظات وتحسين أداء النظام قبل إصدار محتمل أوسع نطاقاً.

الوصول إلى النسخة التجريبية يتم من خلال عملية تسجيل محددة. يمكن للأطراف المهتمة التسجيل عبر الرابط المقدم، مع أن الدخول يتطلب رمز تجريبي تم توزيعه في الأصل على مجتمع Hacker News. يشير هذا الوصول المقيد إلى التركيز على جمع الملاحظات الفنية من جمهور يركز على المطورين في البداية.

المشروع صريح حول مرحلته التطويرية، ويطلب بنشاط المدخلات في عدة مجالات رئيسية. يتم البحث عن الملاحظات حول أكثر حالات الاستخدام قيمة في مجموعات البرامج، والتفضيلات لتكوين الأوامر الصوتية، ومتطلبات الخصوصية والأمان والتأخير لضمان التبني المريح في بيئات الإنتاج.

التنفيذ التقني

للمطورين الذين يرغبون في التجربة أو دمج التكنولوجيا، تكون الموارد متاحة للجمهور. مستودع SDK مستضاف على GitHub، ويقدم الكود الضروري للعميل للتنفيذ.

يتوفر عرض توضيحي حي في موقع المشروع الرئيسي. يسمح العرض التوضيحي للمستخدمين بالتفاعل مباشرة مع نظام إدخال الصوت: النقر على مربع نص يكشف عن أداة الميكروفون، وفتح أيقونة الترس إعدادات المفردات المخصصة وتكوين المقتطفات.

أعرب ديفيد هوي، المبتكر، عن انفتاحه للتعاون مع الآخرين الذين يبنون في مجال الذكاء الاصطناعي للصوت والتسجيل. وهو يبحث بنشاط عن الملاحظات حول فائدة الأداة، ويسأل تحديدًا عن أفضل مكان لتناسبها في تدفقات العمل الحالية - سواء في أخذ الملاحظات، وتحرير المستندات، وإدخال بيانات CRM، أو أتمتة الدعم.

النظر إلى الأمام

يمثل SpeechOS خطوة نحو واجهات أكثر طبيعية وموجهة بالصوت داخل نظام الإنتاجية المعتمد على المتصفح. من خلال معالجة الاحتياجات المحددة لتطبيقات الأعمال، يتجاوز أدوات التسجيل العامة لتقديم وظائف تدرك السياق.

من المرجح أن يحدد نجاح المرحلة التجريبية مساره، خاصة فيما يتعلق بمخاوف المستخدمين حول الخصوصية، التأخير، وأخيرًا نماذج التسعير. مع نضوج الذكاء الاصطناعي للصوت، يمكن أن تصبح عمليات الدمج مثل هذه ميزات قياسية بدلاً من إضافات جديدة.

في الوقت الحالي، يقدم SpeechOS لمحة مستقبلية حيث لم تعد الكتابة هي الطريقة الوحيدة للإدخال في تطبيقات الويب، مما قد يعيد تشكيل معايير الكفاءة عبر مختلف الصناعات الرقمية.

أسئلة متكررة

ما هو SpeechOS؟

SpeechOS هو مجموعة تطوير برمجيات (SDK) قابلة للدمج لإدخال الصوت لتطبيقات الويب، طورها ديفيد هوي. يسمح للمطورين بإضافة قدرات التسجيل والتحرير والأوامر إلى أي حقل نص باستخدام بضعة أسطر من JavaScript.

كيف يحسن من طرق الكتابة الحالية؟

بناءً على بيانات البحث، يكون التعرف على الصوت أسرع بحوالي 3 مرات من إدخال لوحة المفاتيح ويقدم معدل خطأ أقل بشكل ملحوظ. يهدف SpeechOS إلى الاستفادة من هذه الكفاءة لتوفير الوقت في تدفقات العمل.

ما هي الميزات المحددة التي يقدمها SDK؟

يدعم SDK التسجيل في الوقت الفعلي مع علامات ترقيم تلقائية، وأوامر صوتية لتحرير النص (مثل "اجعله أقصر")، ومفردات مخصصة للمصطلحات التقنية، ومقتطفات نصية قابلة لإعادة الاستخدام.