M
MercyNews
Home
Back
SpeechOS يجلب إدخال الصوت بنمط Wispr Flow إلى أي تطبيق ويب
تكنولوجيا

SpeechOS يجلب إدخال الصوت بنمط Wispr Flow إلى أي تطبيق ويب

Hacker News19h ago
3 دقيقة قراءة
📋

حقائق رئيسية

  • SpeechOS هو مجموعة تطوير برمجيات (SDK) لإدخال الصوت قابلة للدمج، طورها المطور ديفيد هوي لدمجها في تطبيقات الويب.
  • نُسِبَت الإلهام إلى تدفق عمل Wispr Flow، ولكن تم تصميمه خصيصاً لتطبيقات الأعمال مثل أنظمة إدارة علاقات العملاء (CRMs) وأدوات الدعم.
  • كشفت دراسة واسعة النطاق شملت 37,370 مشاركًا أن متوسط سرعة الكتابة هو 36.2 كلمة في الدقيقة بمعدل خطأ غير مصحح قدره 2.3%.
  • أظهرت تقنية التعرف على الصوت أنها أسرع بثلاث مرات تقريبًا من إدخال لوحة المفاتيح مع معدل خطأ أقل بشكل ملحوظ.
  • يدعم المنصة مفردات مخصصة لنقل المصطلحات المحددة للمجال، وأسماء المنتجات، والاختصارات بدقة.
  • SpeechOS حاليًا في مرحلة تجريبية مجانية، ويمكن الوصول إليها عبر عملية تسجيل محددة كانت موجهة في الأصل لمجتمع Hacker News.

تدفق العمل الموجه بالصوت يصل

تهدف مجموعة تطوير برمجيات جديدة إلى تحويل طريقة تفاعل المستخدمين مع تطبيقات الويب من خلال الصوت. SpeechOS، الذي أطلقه المطور ديفيد هوي، يقدم حلاً قابلاً للدمج يدمج إدخال الصوت المتطور مباشرة في أي حقل نص على الويب.

على عكس أدوات التسجيل المنفصلة، تم تصميم SpeechOS للعمل ضمن تدفقات العمل المعقدة لتطبيقات الأعمال. يأتي الإلهام من التجربة المبسطة لـ Wispr Flow، ولكن يتم تطبيقها في بيئات تكون فيها الإنتاجية في المقام الأول.

الوعد الأساسي بسيط: استبدال أو إكمال كتابة لوحة المفاتيح بالكلام الطبيعي، ومعالجته إلى نص مصقول وجاهز للاستخدام. للمطورين والشركات، يمثل تغييراً محتملاً في كيفية التعامل مع إدخال البيانات وإنشاء المحتوى داخل مجموعات البرامج الحالية.

كيف يعمل SpeechOS

يتطلب دمج SpeechOS حداً أدنى من التكاليف التقنية. يحتاج المطورون فقط إلى إضافة بضعة أسطر من JavaScript مع مفتاح API لتفعيل الخدمة. بمجرد التنفيذ، تظهر أداة صغيرة للميكروفون في كل حقل نص داخل تطبيق الويب.

تمتد الوظيفة إلى ما هو أبعد من التسجيل البسيط. تم بناء SpeechOS حول ثلاث قدرات أساسية مصممة لمحاكاة التفاعل الطبيعي بين الإنسان والحاسوب:

  • التسجيل: التحدث بشكل طبيعي، مع التحويل في الوقت الفعلي إلى نص مصقول يتضمن علامات ترقيم تلقائية وإزالة الكلمات المليئة أو الأخطاء الإملائية.
  • التحرير: إصدار أوامر صوتية مثل "اجعله أقصر"، "أصلح القواعد النحوية"، أو "ترجم" لتحسين النص المولد.
  • الأمر: تعريف إجراءات مخصصة على غرار Siri مثل "إرسال النموذج" أو "وضع علامة مكتمل"، والتي يطابقها النظام مع نوايا محددة.

علاوة على ذلك، تدعم المنصة مفردات مخصصة لضمان نقل المصطلحات المحددة للمجال، وأسماء المنتجات، والاختصارات بدقة. كما تسمح بـ مقتطفات نصية، مما يمكّن المستخدمين من إدراج كتل نصية قابلة لإعادة الاستخدام - مثل التوقيعات أو التحفظات - باستخدام أوامر صوتية.

"كان التعرف على الصوت أسرع بحوالي 3 مرات من إدخال لوحة المفاتيح وكان له معدل خطأ أقل بنسبة ~20.4% لإدخال النص الإنجليزي."

— أبحاث HCI ستانفورد

إلحاح الإنتاجية

يعتمد تطوير SpeechOS على البيانات المتعلقة بكفاءة إدخال النص. تشير الأبحاث إلى أنه على الرغم من التقدم التكنولوجي، تظل سرعة ودقة إدخال النص عائقًا حاسمًا في أدوات الإنتاجية.

كشفت دراسة واسعة النطاق شملت 37,370 مشاركًا أن متوسط سرعة الكتابة هو تقريبًا 36.2 كلمة في الدقيقة، بمعدل خطأ غير مصحح قدره حوالي 2.3%. في المقابل، أظهرت تقنية التعرف على الصوت مزايا كبيرة.

كان التعرف على الصوت أسرع بحوالي 3 مرات من إدخال لوحة المفاتيح وكان له معدل خطأ أقل بنسبة ~20.4% لإدخال النص الإنجليزي.

تسلط هذه الإحصاءات الضوء على التأثير المحتمل لدمج إدخال الصوت القوي مباشرة في تطبيقات الأعمال. من خلال تقليل احتكاك إدخال البيانات، تهدف أدوات مثل SpeechOS إلى استعادة الوقت الثمين للعاملين بالمعرفة.

التوفر الحالي والوصول

SpeechOS متاح حاليًا في مرحلة تجريبية، مقدمًا مجانًا للمستخدمين الأوائل. تسمح هذه الفترة للمطور بجمع الملاحظات وتحسين أداء النظام قبل إصدار محتمل أوسع نطاقاً.

الوصول إلى النسخة التجريبية يتم من خلال عملية تسجيل محددة. يمكن للأطراف المهتمة التسجيل عبر الرابط المقدم، مع أن الدخول يتطلب رمز تجريبي تم توزيعه في الأصل على مجتمع Hacker News. يشير هذا الوصول المقيد إلى التركيز على جمع الملاحظات الفنية من جمهور يركز على المطورين في البداية.

المشروع صريح حول مرحلته التطويرية، ويطلب بنشاط المدخلات في عدة مجالات رئيسية. يتم البحث عن الملاحظات حول أكثر حالات الاستخدام قيمة في مجموعات البرامج، والتفضيلات لتكوين الأوامر الصوتية، ومتطلبات الخصوصية والأمان والتأخير لضمان التبني المريح في بيئات الإنتاج.

التنفيذ التقني

للمطورين الذين يرغبون في التجربة أو دمج التكنولوجيا، تكون الموارد متاحة للجمهور. مستودع SDK مستضاف على GitHub، ويقدم الكود الضروري للعميل للتنفيذ.

يتوفر عرض توضيحي حي في موقع المشروع الرئيسي. يسمح العرض التوضيحي للمستخدمين بالتفاعل مباشرة مع نظام إدخال الصوت: النقر على مربع نص يكشف عن أداة الميكروفون، وفتح أيقونة الترس إعدادات المفردات المخصصة وتكوين المقتطفات.

أعرب ديفيد هوي، المبتكر، عن انفتاحه للتعاون مع الآخرين الذين يبنون في مجال الذكاء الاصطناعي للصوت والتسجيل. وهو يبحث بنشاط عن الملاحظات حول فائدة الأداة، ويسأل تحديدًا عن أفضل مكان لتناسبها في تدفقات العمل الحالية - سواء في أخذ الملاحظات، وتحرير المستندات، وإدخال بيانات CRM، أو أتمتة الدعم.

النظر إلى الأمام

يمثل SpeechOS خطوة نحو واجهات أكثر طبيعية وموجهة بالصوت داخل نظام الإنتاجية المعتمد على المتصفح. من خلال معالجة الاحتياجات المحددة لتطبيقات الأعمال، يتجاوز أدوات التسجيل العامة لتقديم وظائف تدرك السياق.

من المرجح أن يحدد نجاح المرحلة التجريبية مساره، خاصة فيما يتعلق بمخاوف المستخدمين حول الخصوصية، التأخير، وأخيرًا نماذج التسعير. مع نضوج الذكاء الاصطناعي للصوت، يمكن أن تصبح عمليات الدمج مثل هذه ميزات قياسية بدلاً من إضافات جديدة.

في الوقت الحالي، يقدم SpeechOS لمحة مستقبلية حيث لم تعد الكتابة هي الطريقة الوحيدة للإدخال في تطبيقات الويب، مما قد يعيد تشكيل معايير الكفاءة عبر مختلف الصناعات الرقمية.

أسئلة متكررة

ما هو SpeechOS؟

SpeechOS هو مجموعة تطوير برمجيات (SDK) قابلة للدمج لإدخال الصوت لتطبيقات الويب، طورها ديفيد هوي. يسمح للمطورين بإضافة قدرات التسجيل والتحرير والأوامر إلى أي حقل نص باستخدام بضعة أسطر من JavaScript.

كيف يحسن من طرق الكتابة الحالية؟

بناءً على بيانات البحث، يكون التعرف على الصوت أسرع بحوالي 3 مرات من إدخال لوحة المفاتيح ويقدم معدل خطأ أقل بشكل ملحوظ. يهدف SpeechOS إلى الاستفادة من هذه الكفاءة لتوفير الوقت في تدفقات العمل.

ما هي الميزات المحددة التي يقدمها SDK؟

يدعم SDK التسجيل في الوقت الفعلي مع علامات ترقيم تلقائية، وأوامر صوتية لتحرير النص (مثل "اجعله أقصر")، ومفردات مخصصة للمصطلحات التقنية، ومقتطفات نصية قابلة لإعادة الاستخدام.

هل SpeechOS متاح للاستخدام العام؟

نعم، SpeechOS حاليًا في مرحلة تجريبية مجانية. ومع ذلك، يتطلب الوصول عملية تسجيل استخدمت في الأصل رمزًا تجريبيًا تم توزيعه على مجتمع Hacker News.

Continue scrolling for more

الذكاء الاصطناعي يحول البحث والبراهين الرياضية
Technology

الذكاء الاصطناعي يحول البحث والبراهين الرياضية

لقد انتقل الذكاء الاصطناعي من وعد متقطع إلى واقع ملموس في الرياضيات، حيث تستخدم نماذج التعلم الآلي الآن لدعم استنباط براهين أصلية. يجبر هذا التطور على إعادة تقييم طرق البحث والتدريس في هذا التخصص.

Just now
4 min
342
Read Article
ما مدى دوام هجوم ترامب على العمل المناخي؟
Politics

ما مدى دوام هجوم ترامب على العمل المناخي؟

من الانسحاب من اتفاقية باريس إلى حظر الرياح البحرية، أطلق الرئيس ترامب هجوماً شاملاً على سياسة المناخ. ومع ذلك، فإن العديد من خطواته قابلة للعكس، وسجله التشريحي ضئيل.

1h
5 min
6
Read Article
ترامب يعلن إطار عمل لغرينلاند بعد خلاف مع حلف الناتو
Politics

ترامب يعلن إطار عمل لغرينلاند بعد خلاف مع حلف الناتو

أعلن ترامب إطار عمل لغرينلاند وتخلى عن تهديدات غزو الجزيرة القطبية بعد خلاف مع حلف الناتو حول النشاط الروسي والصيني المتزايد في القطب الشمالي.

2h
5 min
6
Read Article
تايلاند تطلق صناديق الاستثمار المتداولة بالعملات الرقمية وتجارة العقود الآجلة
Cryptocurrency

تايلاند تطلق صناديق الاستثمار المتداولة بالعملات الرقمية وتجارة العقود الآجلة

تستعد هيئة الأوراق المالية والبورصات في تايلاند لتقديم صناديق الاستثمار المتداولة بالعملات الرقمية وتجارة العقود الآجلة هذا العام، بهدف تعزيز سلامة المستثمرين ونضج السوق.

2h
5 min
6
Read Article
أدوبي تكشف عن ميزات جديدة للتحرير الصوتي والرواية الصوتية المدعومة بالذكاء الاصطناعي
Technology

أدوبي تكشف عن ميزات جديدة للتحرير الصوتي والرواية الصوتية المدعومة بالذكاء الاصطناعي

أدوبي أطلقت ميزات جديدة مدعومة بالذكاء الاصطناعي لمنصة Acrobat Studio، تشمل تحرير متقدم لملفات PDF، والرواية الصوتية، وإنشاء العروض التقديمية التلقائي، وهي متاحة الآن حصريًا للمشتركين المدفوعين.

2h
5 min
6
Read Article
ميرتز يعلن عن حقبة جديدة في دافوس
Politics

ميرتز يعلن عن حقبة جديدة في دافوس

حذّر ميرتز من تفكك النظام العالمي القديم بسرعة مذهلة، ووضع أولويات مستقبلية خلال كلمته أمام قادة العالم في دافوس 2026.

2h
5 min
6
Read Article
جدار الطائرات المسيرة الجديد لأوروبا: حماية أجواء الناتو
Politics

جدار الطائرات المسيرة الجديد لأوروبا: حماية أجواء الناتو

توجد أوروبا في حالة تأهب قصوى بعد سلسلة من الانتهاكات في أجواء الناتو، مما دفع القادة إلى الاتفاق على تطوير "جدار طائرات مسيرة" لتحسين الكشف عنها وتتبعها واعتراضها.

2h
5 min
12
Read Article
خلل في هاتف Pixel يكشف عن صوت المستخدمين عبر ميزة 'Take a Message'
Technology

خلل في هاتف Pixel يكشف عن صوت المستخدمين عبر ميزة 'Take a Message'

خلل نادر في ميزة 'Take a Message' لهاتف Pixel يرسل صوت المستخدمين للمتصلين، مما يثير مخاوف جادة بشأن الخصوصية لعدد قليل من المستخدمين.

2h
5 min
12
Read Article
دليل عطلة المدارس في ريو دي جانيرو: الأنشطة وورش العمل
Lifestyle

دليل عطلة المدارس في ريو دي جانيرو: الأنشطة وورش العمل

تُقدم ريو دي جانيرو متنوعة من أنشطة عطلة المدارس للأطفال والعائلات، بما في ذلك ورش العمل الفنية، وبرامج الحدائق المجانية، والتجارب الثقافية عبر المدينة.

2h
5 min
12
Read Article
بريتاني تحت الماء: فيضانات عنيفة تضرب المنطقة
Accidents

بريتاني تحت الماء: فيضانات عنيفة تضرب المنطقة

أدت الأمطار الغزيرة إلى فيضانات عنيفة عبر بريتاني، مع تحمل أقسام فينيستر وموربيان للعبء الأكبر من الأزمة منذ يوم الأربعاء.

2h
5 min
15
Read Article
🎉

You're all caught up!

Check back later for more stories

العودة للرئيسية