شرکت انویدیا از ایده جدیدی در زمینه فناوریهای هوش مصنوعی رونمایی کرده است. شبکه عصبی Video LDM به کاربران امکان میدهد تا بر اساس توضیحات متنی، ویدیوهایی با رزولوشن بالا را تولید نمایند.
متخصصان انویدیا و توسعهدهندگانی از دانشگاه کرنل در این پروژه مشارکت دارند. شایان به ذکر است که شبکه عصبی مورد اشاره قادر به خلق ویدیوهایی با حداکثر رزولوشن 1280×2048 پیکسل و سرعت 24 فریم بر ثانیه است.
مدل هوش مصنوعی دارای 4.1 میلیارد پارامتر بوده و از این تعداد، 2.7 میلیارد عدد برای ویدیوها مورد استفاده قرار گرفته است. فرآیند آموزش شبکه عصبی نیز با استفاده از همین پارامترها انجام شده است.
مکانیسم مدلهای انتشار پنهان (Latent Diffusion Models) که در شبکه عصبی مورد استفاده قرار میگیرد؛ امکان تولید ویدیو بدون نیاز به سختافزارهای قدرتمند و گرانقیمت را فراهم میکند.
بدین منظور از موتور Stable Diffusion استفاده میشود. بنابراین شبکه عصبی Video LDM، کلیپهای مختلف را بهصورت فریم به فریم تولید میکند.