شما تایپ کنید؛ شبکه عصبی جدید انویدیا بر اساس توصیفات شما فیلم می‌سازد!

شرکت انویدیا از ایده جدیدی در زمینه فناوری‌های هوش مصنوعی رونمایی کرده است. شبکه عصبی Video LDM به کاربران امکان می‌دهد تا بر اساس توضیحات متنی، ویدیوهایی با رزولوشن بالا را تولید نمایند.

متخصصان انویدیا و توسعه‌دهندگانی از دانشگاه کرنل در این پروژه مشارکت دارند. شایان به ذکر است که شبکه عصبی مورد اشاره قادر به خلق ویدیوهایی با حداکثر رزولوشن 1280×2048 پیکسل و سرعت 24 فریم بر ثانیه است.

مدل هوش مصنوعی دارای 4.1 میلیارد پارامتر بوده و از این تعداد، 2.7 میلیارد عدد برای ویدیوها مورد استفاده قرار گرفته است. فرآیند آموزش شبکه عصبی نیز با استفاده از همین پارامترها انجام شده است.

مکانیسم مدل‌های انتشار پنهان (Latent Diffusion Models) که در شبکه عصبی مورد استفاده قرار می‌گیرد؛ امکان تولید ویدیو بدون نیاز به سخت‌افزارهای قدرتمند و گران‌قیمت را فراهم می‌کند.

بدین منظور از موتور Stable Diffusion استفاده می‌شود. بنابراین شبکه عصبی Video LDM، کلیپ‌های مختلف را به‌صورت فریم به فریم تولید می‌کند.

نوشته‌های مرتبط

دیدگاه‌ خود را بنویسید لغو پاسخ