این درحالی است که استارتآپهایی مانند «ران وی» و شرکتهای بزرگتری مانند متا فناوریهایی را نمایش دادهاند که قادر به تولید صوت یا ویدئو براساس متن است. نسخه هوش مصنوعی انویدیا براساس متن نوشتاری جلوههای صوتی و موسیقی از جمله صداهایی جدید تولید میکند. البته نکته متمایز این فناوری از دیگر سیستمهای هوش مصنوعی مشابه توانایی آن برای اصلاح اصوات موجود است. به عنوان مثال هوش مصنوعی مذکور میتواند آهنگی که با پیانو نواخته شده را به آهنگی با صدای انسان تبدیل کند یا آنکه لهجه و حالت کلمات بیان و ثبت شده را تغییر دهد. برایان کاتانزارو، نایبرئیس بخش تحقیقات یادگیری عمیق کاربردی در انویدیا در این باره میگوید: «اگر نگاهی به اصوات مصنوعی در ۵۰ سال اخیر بیندازیم، موسیقی فعلی به دلیل رایانهها و... متفاوت است. تصور میکنم هوش مصنوعی مولد قابلیتهای جدیدی به موسیقی و بازیهای ویدئویی میافزاید و به مردم عادی که خواستار تولید محتوا هستند نیز کمک میکند.» مدل هوش مصنوعی جدید این شرکت براساس دادههای منبع باز آموزش دیده و هنوز مشخص نیست بهطور عمومی عرضه میشود یا خیر.