شهد العامان الأخيران قفزة هائلة في نماذج الذكاء الاصطناعي التوليدي الصوتي (Generative Audio)، مع تنافس محتدم بين مدرستين رئيسيتين: “سونو إيه آي” (Suno AI) التي تركز على المحاكاة الهيكلية للأغنية، و”غوغل ديب مايند” (Google DeepMind) عبر نموذجها “ليريا” (Lyria) الذي يركز على النمذجة الموجية الدقيقة. استكشفت الجزيرة نت التطورات في هذه التقنية، وأجرت مقارنة بين النهجين لتسليط الضوء على نقاط القوة والضعف لكل منهما في إنتاج المحتوى الصوتي.
خلصت المقارنة إلى أن كل نموذج يخدم أغراضًا مختلفة، حيث يتميز “سونو” بقدرته على توليد أغاني كاملة الهيكل ومتماسكة لحنياً، بينما يتفوق “ليريا” في جودة الصوت ونقائه ودقته التشريحية للموجة الصوتية. يأتي هذا التطور في وقت يتزايد فيه الطلب على أدوات إنتاج موسيقي مبتكرة وسهلة الاستخدام.
البنية التحتية ونمذجة الصوت (Architecture)
“سونو”.. نمذجة التوكنات والأنماط
يعتمد “سونو” في معالجته على مفهوم مشابه للنماذج اللغوية الكبيرة (LLMs)، حيث يتنبأ بـ “التوكنات” الصوتية التالية بناءً على تحليل هيكلي واسع النطاق للبيانات. يتميز بقدرته على فهم “تراتبية الأغنية”، لتمييز مقاطع مثل الآيات (Verse) واللازمة (Chorus) والجسر (Bridge)، مما يتيح له توليد مقاطع طويلة ومتماسكة لحنياً قد تصل إلى 4 دقائق. ومع ذلك، قد ينتج عن هذه الطريقة أحياناً “ضجيج رقمي” (Artifacts) نتيجة تداخل الترددات، مما يصعب عملية فصل الآلات موسيقياً.
“ليريا 3” النمذجة الموجية والنقاء
في المقابل، يستخدم “ليريا”، الذي طورته غوغل ديب مايند، تقنيات متقدمة في معالجة الإشارات الرقمية (DSP) والشبكات العصبية التي تتعامل مباشرة مع الموجة الصوتية (Waveform) بجودة احترافية. يتفوق “ليريا” في معدل العينة (Sample Rate) وعمق البت (Bit Depth)، ليحقق صوتاً عالي النقاء يضاهي جودة الاستوديو. كما يتميز بتقنية “سينث آي دي” (SynthID)، وهي علامة مائية غير مسموعة تدمج في الصوت لحماية الحقوق وتحديد المصدر.
معالجة الموسيقى العربية.. المقامات والإيقاع
عند معالجة الموسيقى العربية، تظهر التحديات المتعلقة بالربع تون (Quarter Tones) والإيقاعات المركبة. يمتلك “سونو” قاعدة بيانات واسعة من الموسيقى العربية الحديثة، مما يمكنه من محاكاة الروح والتعبير الصوتي ببراعة، لا سيما في الأنماط الشعبية والبوب. بينما يركز “ليريا” على “فيزيائية الآلة”، حيث يحاكي رنين الآلات الوترية بدقة، مما يجعله الخيار الأمثل للمقطوعات الآلية والموسيقى التصويرية التي تتطلب نقاءً صوتياً عالياً. تسعى هذه التطبيقات لمحاكاة المقامات الشرقية عبر ضبط الترددات، لكن التنفيذ يظل معتمداً على الأنماط الإحصائية، مما قد لا يلامس روح الارتجال الشرقي الأصيل.
نموذج تطبيقي
للاستفادة من “سونو” في مشروع عربي، يُنصح بالتركيز على “الوصف الذكي” (Prompt)، باستخدام الوضع المخصص (Custom Mode) لتحديد الكلمات باستخدام وسوم المقاطع مثل [Intro] و[Verse] و[Chorus]. عند وصف نمط الموسيقى، يجب التفصيل في الشعور والآلات، مثل: “بوب عربي أكوستيك، عود، عاطفي، إيقاع بطيء، غناء نسائي، جودة عالية”. ويمكن استخدام خاصية (Extend) لتمديد الأغنية وإكمالها.
أما لإنتاج عمل فني دقيق في “ليريا”، فالتركيز يكون على “النسيج الصوتي”. على سبيل المثال، يمكن وصف العمل بـ “تخت عربي أصيل، ناي منفرد بصدى عميق، ميكروفون عتيق، دفء تناظري، جودة صوت 4 كيه”. يُفضل توليد مقاطع قصيرة أولاً لتجنب التداخل، ثم إضافة الكلمات تدريجياً. بينما يتيح “سونو” توليد أغاني كاملة بعاطفة وانتشار، يركز “ليريا” على الاحترافية والدقة الصوتية.
من المتوقع أن تستمر هذه التقنيات في التطور، مع إمكانية توفير “ليريا” لواجهات برمجية (APIs) لإنتاج أغاني كاملة، وتحسين “سونو” لضغط الصوت. بالنسبة للمستخدم العربي، يعتمد الاختيار بين التطبيقين على الهدف، فـ “سونو” أقرب للعاطفة والانتشار، و”ليريا” إلى الاحترافية والإبداع الصوتي.

