«میدجرنی» متخصص تبدیل ذهنیات به تصویر

تاریخ : 4 دی 1402, 16:42 نظرات : 0 موضوع : سرویس وبگردی

«میدجرنی» یک برنامه هوش مصنوعی مولد تصویر است که رقبای بسیاری دارد. اگر تمایل دارید با نحوه کارکرد این برنامه، ویژگی‌ها و هزینه آن آشنا شوید، این گزارش را مطالعه کنید.

به گزارش سرویس وبگردی تلوزون به نقل از اندروید اتوریتی، به لطف برنامه‌های هوش مصنوعی مولد تصویر مانند «میدجرنی»(Midjourney) در حال حاضر می‌توانید تصویری را در عرض چند دقیقه مستقیما از تصورات خود تداعی کنید. مهم نیست که مهارت‌های هنری ندارید یا در زندگی خود حتی یک قلم‌مو به دست نگرفته‌اید زیرا هوش مصنوعی می‌تواند هنر دیجیتال را در عرض چند ثانیه ایجاد کند. تنها چیزی که نیاز دارید، کمی متن است تا تصویر نقش‌بسته در ذهن شما را توصیف کند.
این گزارش به نکاتی می‌پردازد که باید در مورد هوش مصنوعی میدجرنی بدانید.
میدجرنی چیست؟
میدجرنی یک نمونه از هوش مصنوعی مولد است که می‌تواند گفته‌های زبان طبیعی را به تصاویر تبدیل کند. این تنها یکی از انواع متعدد مولدهای تصویر مبتنی بر یادگیری ماشینی است که اخیرا ظهور کرده‌اند. به ‌رغم وجود داشتن مدل‌های یادگیری ماشینی مانند «دال-ئی»(DALL-E) شرکت «OpenAI» و «استیبل دیفیوژن»(Stable Diffusion) متعلق به «استبیلیتی ای‌آی»(Stability AI)، میدجرنی به یکی از بزرگ‌ترین نام‌های هوش مصنوعی تبدیل شده است.
با میدجرنی می‌توانید تصاویر با کیفیت بالا را از اعلان‌های ساده مبتنی بر متن ایجاد کنید. برای استفاده کردن از میدجرنی، به سخت‌افزار یا نرم‌افزار تخصصی نیاز ندارید زیرا این برنامه کاملا از طریق اپلیکیشن چت «دیسکورد»(Discord) کار می‌کند. تنها نقطه ضعف میدجرنی این است که پیش از آغاز کردن تولید تصاویر باید کمی هزینه بپردازید. این برخلاف روند کاری بسیاری از رقباست که معمولا حداقل چند تصویر را به صورت رایگان ارائه می‌دهند.
با وجود این، موانع ورود به میدجرنی بسیار کم هستند و هر کسی می‌تواند از آن برای تولید تصاویر واقعی در عرض چند دقیقه استفاده کند. بسته به درخواست کاربر، نتایج می‌توانند غیرعادی یا خیره‌کننده باشند.
در برخی موارد، تصاویر میدجرنی حتی کارشناسان عکاسی و سایر حوزه‌ها را فریب داده‌اند. بنابراین، ممکن است تصاویر بسیار قانع‌کننده‌ای را که توسط هوش مصنوعی میدجرنی تولید شده‌اند، در رسانه‌های اجتماعی دیده باشید.
نمونه‌هایی از این تصاویر، «پاپ فرانسیس»(Pope Francis) پوشیده در کاپشن پف‌دار یا «دونالد ترامپ»(Donald Trump) دستگیرشده پیش از رویداد واقعی هستند. برخی از این تصاویر، صحنه‌های خلاقانه‌ای مانند صحنه‌های فیلم «جنگ ستارگان»(Star Wars) را به نمایش می‌گذارند.
برخلاف دال-ئی که توسط شرکت OpenAI خالق چت‌بات «ChatGPT» پشتیبانی می‌شود، میدجرنی خود را به عنوان یک پروژه مستقل و با سرمایه خود معرفی می‌کند. علاوه بر این، میدجرنی تا به امروز هیچ بودجه‌ای را از بیرون دریافت نکرده است. در مقابل، OpenAI بالغ بر ۱۰ میلیارد دلار از شرکت «مایکروسافت»(Microsoft) و تعدادی سرمایه‌گذار دیگر جمع‌آوری کرده است. بنابراین، با توجه به این موضوعات، نتایج میدجرنی کاملا چشمگیر هستند.

میدجرنی چطور کار می‌کند؟
ما همه چیز را در مورد عملکرد داخلی میدجرنی نمی‌دانیم زیرا این یک برنامه منبع بسته است و با کد اختصاصی اجرا می‌شود. با وجود این، ما به اندازه کافی در مورد فناوری زیربنای آن می‌دانیم تا یک توضیح کلی را ارائه دهیم.
میدجرنی بر دو فناوری نسبتا جدید یادگیری ماشینی، یعنی مدل‌های زبانی بزرگ و مدل‌های انتشاری متکی است. اگر از چت‌بات‌های هوش مصنوعی مانند ChatGPT استفاده کرده‌اید، ممکن است با حالت اول آشنا باشید. ابتدا یک مدل زبانی بزرگ به میدجرنی کمک می‌کند تا معنای کلماتی را که شما در دستورات خود تایپ کرده‌اید، درک کند. سپس، این به یک گرافیک برداری تبدیل می‌شود که می‌توانید آن را به عنوان یک نسخه عددی از دستور خود تصور کنید. در نهایت، این گرافیک برداری به هدایت کردن فرآیند پیچیده دیگری به نام انتشار کمک می‌کند.
مدل انتشاری که فقط در حدود یک دهه گذشته رایج شده است، موج ناگهانی تولیدکنندگان تصویر هوش مصنوعی را توضیح می‌دهد. در یک مدل انتشاری، شما یک رایانه دارید که نویز تصادفی را به تدریج به مجموعه داده آموزشی خود اضافه می‌کند. با گذشت زمان، رایانه یاد می‌گیرد که چگونه با معکوس کردن نویز، تصویر اصلی را به دست بیاورد. ایده این است که چنین مدلی با آموزش کافی می‌تواند یاد بگیرد چگونه تصاویر کاملا جدید را تولید کند.
بنابراین، باید دید که این از منظر یک هوش مصنوعی مولد تصویر چگونه به نظر می‌رسد. وقتی یک پیام متنی را به برنامه وارد می‌کنید، کار آن با میدانی از نویز بصری آغاز می‌شود. می‌توانید گام اول را معادل تلویزیون ثابت در نظر بگیرید. تصویر در این مرحله شبیه به چیزی نیست که شما خواسته‌اید. سپس یک مدل هوش مصنوعی آموزش‌دیده، از مدل انتشاری پنهان برای کم کردن نویز در مراحل استفاده می‌کند. در نهایت، تصویری شبیه به اشیاء و ایده‌ها در دنیای واقعی به دست می‌آید.
به همین دلیل است که معمولا باید یک یا دو دقیقه منتظر بمانید تا تصویر تولیدشده توسط هوش مصنوعی کامل شود. اگر این فرآیند را زودتر متوقف کنید، یک تصویر پر از نویز را دریافت خواهید کرد که مراحل حذف نویز را به اندازه کافی طی نکرده است.
هزینه میدجرنی چقدر است؟
اگرچه پیشتر شاهد بودیم که چت‌بات‌هایی مانند ChatGPT و «بینگ چت»(Bing Chat)، استفاده تقریبا نامحدود را به صورت رایگان ارائه می‌دهند اما این موضوع در مورد تولیدکنندگان تصویر صدق نمی‌کند. تقریبا همه آنها محدودیت‌هایی دارند و میدجرنی حتی یک آزمایش رایگان ارائه نمی‌دهد. دلیل این است که تولید تصویر به قدرت محاسباتی و به ویژه «واحدهای پردازش گرافیکی»(GPU) زیادی نیاز دارد. علاوه بر این، هر پردازنده گرافیکی دارای حافظه ویدئویی محدودی است که مقدار زیادی از آن برای فرآیند حذف نویز استفاده می‌شود. بنابراین با در نظر گرفتن این موضوع، جای تعجب نیست که یک هوش مصنوعی مولد تصویر پیشرفته، مقداری هزینه برای کاربر داشته باشد.
یک راهنمای اختصاصی در مورد سطوح قیمت‌گذاری و اکانت اشتراک میدجرنی وجود دارد اما کاربران باید ماهانه حداقل ۱۰ دلار به صورت ثابت بپردازند. این مبلغ، ۳.۳ ساعت زمان پردازش گرافیکی را فراهم می‌کند که برای تقریبا ۲۰۰ تصویر خوب است. گران‌ترین طرح، ۶۰ ساعت زمان پردازش گرافیکی سریع را با ۱۲۰ دلار در ماه فراهم می‌کند.
برنامه‌های پیشرفته میدجرنی، تصاویر نامحدودی را در «حالت آرام»(Relaxed mode) به شما می‌دهد اما باید تا ۱۰ دقیقه صبر کنید. اگر به بهترین کیفیت نیاز ندارید، توصیه می‌شود جایگزین‌های متعدد میدجرنی را بررسی کنید. تقریبا همه شرکت‌های فناوری، از «گوگل» گرفته تا «متا» اکنون دارای مولدهای تصویر رقیب هستند که بسیاری از آنها یک سکه هم هزینه ندارند.

نظر دهید :

نام شما :*
ایمیل شما :
نظر شما :
کد را وارد کنید : *
عکس خوانده نمی‌شود