یہ نئی ٹیکنالوجی، جی پی ٹی-4 اور ہم اس کی طرح چیزوں کو تجاوز کرنے کے قابل ہو سکتی ہے

چیٹ بوٹ آئی پروگرام، جو ChatGPT کے نام سے مشہور ہے، اور اس کا جدید فناں GPT-4، بنیادی طور پر صرف سافٹ ویئر ایپلیکشن ہیں۔ اور ہر ایپلیکشن کی طرح، ان کے پاس تکنیکی حدود ہوتے ہیں جو ان کی کارکردگی کو فروتن بنا سکتے ہیں۔

مارچ میں شائع شدہ ایک تحقیقی مضمون میں سٹینفورڈ یونیورسٹی اور کینیڈا کے ملی انٹیلیجنس انسٹی ٹیوٹ برائے اصناف خادمی علمی ماہرین نے ایک ٹیکنالوجی کی تجاویز کیں ہیں جو GPT-4 -- یا اس سے مماثل کچھ -- کے مقابلے میں زیادہ کارآمد ہوسکتی ہے۔ جو بڑی تعداد کی ڈیٹا کو سانس لینے اور اسے جواب میں تبدیل کرنے کیلئے استعمال ہوسکتی ہے۔

علاوہ ازھے: یہ سابق ایپل کے ملازمین یہ ڈیوائس اسمارٹ فونز کی جگہ لانا چاہتے ہیں

پچھواڑے کے نام سے مشہور، یہ ٹیکنالوجی بینچمارک ٹیسٹس پر مساوی درستگی حاصل کر سکتی ہے، جیسے سوال جواب کرتے وقت، لیکن صرف کمپیوٹنگ پاور کا ایک حصہ استعمال کرتی ہے. کچھ مواقع میں، پچھواڑے کوڈ وہ مقدار کے متن سے نمٹ سکتا ہے جس کی وجہ سے GPT-سٹائل ٹیکنالوجی بس ایموری کی کمی کی وجہ سے کام کرنا چھوڑ دیتی ہے۔

"ہمارے نما نتائج سب ملیارڈ زد پیر میں اتنی نہیں ہیں کہ توانائی ضروری ہو سکتی ہے"، تحریر کرنے والے مصنفین نے لکھا ہے۔ یہ تبصرہ 2017 کے ایک عظیم AI رپورٹ کی عنوان سے متعلق ہے، 'توجہ سب کی ضرورت ہے'. اس پیپر میں، گوگل کے سائنسدان اشیش وسوانی اور ساتھیوں نے دنیا کو گوگل کے ٹرانسفارمر AI پروگرام کی تشکیل سے واقف کروایا۔ ٹرانسفارمر تازہ ترین لمبی زبانی ماڈلز کے لئے بنیاد بن گئی۔

لیکن ٹرانسفارمر کا ایک بڑا خامی ہے۔ یہ کچھ "توجہ" کا استعمال کرتا ہے، جہاں کمپیوٹر پروگرام الفاظ جیسی ایک گروہ کی معلومات کو ایک نئے گروہ میں منتقل کرتا ہے، جیسا کہ آپ چیٹ جی پی ٹی سی سے دیکھتے ہیں جو جواب ہے۔

بھی آخر کار:جی پی ٹی -4 کیا ہے؟ یہاں تمام چیزوں کو جاننے کی ضرورت ہے

یہ توجہ کارروائی عام طور پر بڑے زبانی پروگراموں کا اہل اوزار ہوتی ہے، جن میں چیٹ جیپی ٹی اور جی پی ٹی-4 بھی شامل ہیں۔ اس عمل کی مطالعہ کرنے کے لئے وقتی پیچیدگی "اعتدالی" ہوتی ہے (ویکی "وقتی پیچیدگی کا وقت" کا تفصیل)۔ یہ پیچیدگی مطلب ہوتی ہے کہ اگرچہ چیٹ جیپی ٹی کوئی جواب پیدا کرنے کے لئے مزید ڈیٹا کو ان پسند کیا جا رہا ہو تو اس کے اندر قابلِ حوالہ۔ میں وقت کی مقدار بمطابقت اضافہ ہوتی ہے۔

کبھی نہ کبھی، اگر کچھ زیادہ خوراک ہو جائے، یعنی پرومٹ میں بہت سارے الفاظ ہوں، یا گفتگو کے اسمبلیوں کی بڑھتی تعداد کا نتیجہ ہو کہ ساتھی پروگرام جواب دینے میں پھنس جاتا ہے، یا اسے تیزی سے تیز چلانے کے لئے اسے زیادہ GPU چپس دیے جائیں، جس سے حساب کی تقاضہ میں اضافہ ہوتا ہے۔

نئے مضامین میں ، جو "ہائینا ہائیرارکھیئں: ذرا بڑے کنوالشنل زبان ماڈلز کی جانب" عرض ہوتے ہیں ان میں ، arXiv پر-پرنٹ سرور پر شائع کیا گیا ہے ، مقدمہ میں سٹینفرڈ کے لیڈ مصنف مائکل پولی اور ان کے ساتھیوں نے ترنسفارمر کی توجہ تفال کو کچھ زیر-ترتیبی کے ساتھ منتقل کرنے کا تجویز کیا ہے ، جس کو ہائینا نام دیا گیا ہے۔

بھی: آٹو-جی پی ٹی کیا ہے؟ اگلے قادر AI ٹول کے بارے میں جاننے کے لئے سب[/strong]

لوگوں نے نام کی وضاحت نہیں کی ہے، لیکن ایک "Hyena" پروگرام کے لئے کئی وجوہات تصور کی جا سکتی ہیں۔ ہیانا خواتین ہیں جو افریقہ میں رہتی ہیں اور میلوں دور تک شکار کرسکتی ہیں۔ ایک وجہ سمجھنے کے لئے، بہت طاقتور زبان ماڈل ایک ہیانا کی طرح ہوسکتا ہے جو میلوں دور شکار کے لئے چلے جاتا ہے۔

لیکن مصنفین "نظم" سے بہت پریشان ہیں، جیسا عنوان پہلے سے ہی پہچاندیتا ہے، اور ہائینا خاندانوں کا معمول کی خاصیت سے تعلق رکھتا ہے جس کے تحت مقامی ہائیینہ کلین ممبرز کا عقیدتی سطح پایا جاتا ہے جو برتری کی بنیاد رکھتی ہے۔ کچھ مشابہ طریقے سے، ہائینا پروگرام بہت سادہ عملیات لگاتا ہے، جیسا کہ آپ دیکھیں گے، بار بار، تاکہ وہ ڈیٹا پروسیسنگ کی نوعیت کا نظام شکل میں ایک نظم کے طور پر مل جائیں۔ یہ تجمیعی جز، پروگرام کو اس کا ہائینا نام دیتی ہے۔

بھی:بین گورٹزل کے مطابق، مستقبل کے چیٹ جی پی ٹی ورژن آج کے دور میں لوگوں کا اکثریتی کام تبدیل کر سکتے ہیں

اس مضمون کے تشریکی مصنفین میں تمغہ یافتہ AI عالموں میں چمکدار شخصیات ہیں، جیسے یوشؤا بینگیو، ملا کے سائنسی ڈائریکٹر، جو کہ نوبل پرائز کی طرح کمپیوٹنگ کا ایک 2019 ٹورنگ انعام کا حامل ہیں۔ بینگیو کو وسوانی اور اس کی ٹیم کے ٹرانس فارمر کے لئے اس کو مختلف کرنے سے پہلے توجہ آلیت کا تشکیل دینے کا وسعت سے شکریہ حاصل ہے۔

ہم مصنفین میں سے ایک ہیں ہم جیسے سالوں سے AI کے تصور کو "سافٹ ویئر 2.0" کے طور پر ترقی دلوانے میں مدد کرنے والے ایسوسی ایشیٹ پروفیسر کرسٹفر ری ہیں۔

attention کا سب-مربعی بدل تلاش کرنے کے لئے، پولی اور ٹیم نے یہ دیکھنے کے لئے کہ attention میکینزم وہ کیا کر رہا ہے، اس کا جائزہ لینے کے لئے۔ اگر وہ کام کو مزید کارآمد طریقے سے کیا جا سکتا تھا تو وہ سامانے تشکیل دیتے۔

ایک حالیہ عمل، جو AI سائنس میں معروف ہو گیا ہے، میکانیتی فہم پذیری کے نام سے، نیرون نیٹ ورک کے اندر کیا ہورہا ہوتا ہے، خوردوں کی حسابی "سرکٹس" کی میں نقل کرتی ہے۔ آپ اس کو ایک گھڑی یا ایک پی سی کے حصوں کو دیکھنے اور سمجھنے کے لئے برقرار کرنے کی طرح سافٹ ویئر کو الگ الگ کرنے کے طریقے کی طرح سمجھ سکتے ہیں۔

بھی:میں نے چیٹ جی پی ٹی کو استعمال کیا تھا تاکہ میں 12 افضل پروگرامنگ زبانوں میں ایک ہی روٹین لکھ سکوں۔ یہاں تفصیلات ہیں کہ یہ کس طرح کام کیا

پولی اور ٹیم دریافت کردہ کام کی مطالعے کی صورت میں نیلسن الہاج کا تجزیاتی سیٹ ہے جو آرٹیفیشل انٹیلیجنس کی شروعاتی سٹارٹ اپ اینتھروپک کے تحقیقاتی تجزیات ہیں۔ یہ تجرباتٍ ٹرانسفارمر پروگرامز کو مکمل طور پر تماشہ بناتے ہیں تاکہ یہ دیکھ سکیں کہ توجہ کیا کر رہا ہے۔

بنیادی طور پر، جو کچھ الہاج اور ٹیم نے دریافت کیا ہے وہ یہ ہے کہ توجہ بہت سادہ کمپیوٹر آپریشنز پر مشتمل ذریعوں سے اپنی بنیادی سطح پر عمل کرتی ہے، جیسے م؛ حالیہ ان پٹ سے ایک لفظ کا کاپی کرنا اور اسے اوٹ پٹ میں پیسٹ کرنا۔

مثلاً، اگر کوئی شخص ایک لمبی زبانی نمونہ کے ماڈل پروگرام مثلاً چیٹجی پی ٹی میں ہری پوٹر اور پرشھاوں کے پتھر کی ایک جملہ کو ٹائپ کرنا شروع کرتا ہے، جیسے "مسٹر ڈرسلے ایک کاروبار جو گرنینگز کے نام سے جڑا ہوتا ہے" تو بس "ڈی-یو-آر-اِس" لکھنا، نام کی شروعات ہی، پروگرام کو پورے نام "ڈرسلے" کو کمپلیٹ کرنے کے لئے ترغیب دی سکتی ہے کیونکہ یہ نام اس نے پہلے کسی جملے میں سورسررر کا پتھر میں دیکھا ہوتا ہے۔ یہ نظام یادداشت میں سے پڑتے کے حروف "ل- اِ- وَائی" کو کاپی کرے تاکہ جملہ پورا ہوجائے۔

علاوہ ازیں: فیوچر کے ماہر کے مطابق چیٹ گی پی ٹی، ایک انسانی دماغ کی بجائے کسی 'بیگانہ عقل' کی طرح ہے

تاہم ، توجہ عملیت کی توازنی پیچیدگی کی مسئلے کا سامنا کرتی ہے جب تعداد الفاظ بڑھتی ہے۔ زیادہ الفاظ کو "وزن" یا پیرامیٹر کی طرف مزید توجہ عملیت کی ضرورت ہوتی ہے۔

اصلان مصنفین لکھتے ہیں: "ٹرانسفارمر بلاک تسلسل نموڈیلنگ کے لئے ایک طاقتور ٹول ہے، لیکن اس کے کچھ حدود بھی ہیں. ان میں سے ایک سب سے اہم مسئلہ کمپیوٹن مشکل ہے، جو شروع کرنے والے تسلسل کی لمبائی بڑھنے سے تیزی سے بڑھتی ہے۔"

تا حال کہ اوپن ای آئی نے چیٹ گیپی ٹی اور جی پی ٹی-4 کی معنون تفصیلات نہیں بتائی ہیں، کچھ لوگ یقین کرتے ہیں کہ ان کے پارامیٹرس ایک ٹریلین یا اس سے زیادہ ہو سکتے ہیں. ان پارامیٹرز کو چلانے کے لئے نووڈیا کے GPU چپس کی مزید ضرورت ہوتی ہے، جس کی وجہ سے کمپیوٹ لاگت بڑھ جاتی ہے.

اس مربع نمونہ کی کمی کو کم کرنے کے لئے، پولی اور ٹیم نے توجہ عمل کو "کنوالشن" کے نام سے جوڑتے ہیں، جو ای ای پروگرامز میں سب سے پرانے عملوں میں سے ایک ہے، جو 1980 کے دہائیوں میں پرکشش کیا گیا تھا۔ کنوالشن صرف ایک فلٹر ہے جو ڈیٹا میں اشیا کو تشکیل دیتا ہے، سمنجتا ہوا ڈیجیٹل فوٹو میں پکسل یا جملے میں الفاظ کے ہوں۔

علاوہ: چیٹ جی پی ٹی کی کامیابی ای ای میں رازداری کی طرف بڑھ پای؛ ای ای کے مداخلت کار بینجو کا کہنا ہے

پولی اور ٹیم ایک قسم کا میش اپ کرتے ہیں: وہ سٹینفورڈ ریسرچر ڈینیئل وائی فو اور ٹیم کے دوہرے کی بھی استعمال کرتے ہیں کہ وہ الفاظ کی تسلسل کے لئے کنوولوشن فلٹرز کو لاگو کرتے ہیں، اور اس سےحاصل کا کام ہوتا ہے ڈیوڈ رومیرو کے تدریسی ادیارے کا اور وہ آزاد یونیورسٹی آمسٹرڈام کے کالج میں ہے کہ جس کی وجہ سے پروگرام فلٹر سائز کو فوری طور پر تبدیل کر سکتا ہے۔ یہ اختیار پیدا کرنے والی صلاحیت مہنگے پیرامیٹرز کی تعداد کو کم کرتی ہے، یعنی، پروگرام کو ہونے کی ضرورت ہوتی ہے۔

مشاپ کے نتیجے میں یہ ہوتا ہے کہ غیر محدود تعداد کے متن پر کوئی واپس چھپائی کرنے کے لئے مزید پارامیٹرز کی ضرورت نہیں ہوتی۔ یہ مصنفین کے کہنے کے مطابق ایک "توجہ سے آزاد" ترکیب ہے۔

"ہائینا آپریٹرز توجہ کے ساتھ معیار کی فاصلہ کو کم کرنے کی صلاحیت رکھتے ہیں،" پولی اور ٹیم لکھتے ہیں، "کمپیوٹیشنل بجٹ کے ساتھ مماثل پلکسٹی اور ڈاؤنسٹریم کارکردگی تک پہنچتے ہیں۔" پلکسٹی توصیفی اصطلاح ہے جو چیٹ جی پی ٹی جیسے پروگرام کی طرف سے تخلیق کیا جانے والا جواب کی توثیقات کی تعقلی خاصیت ہے۔

Hyena کی قابلیت کو ظاہر کرنے کے لئے، تصنیف کار ایک سلسلہ کے لئے ٹیسٹ کرتا ہےجو کہ ایک زبان کے پروگرام کو مختلف AI کا مہارت حاصل کرنے والے ٹاسکس کے لئے کتنا اچھا ثابت ہوتا ہے۔

علاوہ کے ساتھ: پروفیسر کرس رے ، سٹینفورڈ AI ہو شکتی کا کہتے ہیں 'سافٹ ویئر میں عجیب نئے چیزیں ہو رہی ہیں'

ایک ٹیسٹ "The Pile" ہے جو 2020 میں غیر منافع بخش ای اےئی تحقیقی بیرونی دستہ بنا گڈ ہے۔ ان متنوں کو میںے کیا گیا ہے جنہیں "اعلی کوالٹی" سے منبعز پر جمع کرا گیا ہے جیسے کہ پیوبم، ارکزیو، گٹ ہب، یوایس پیٹنٹ آفس اور دیگر منابعارہ ہیں۔ ایسا کیا گیا ہے تاکہ منبعوں کی ذمہداری ریڈٹ مباحثات کی صورت میں سے زیادہ ساختہ ہو۔

برنامج کے لئے کلیدی چیلنج تھا کہ نئے جملوں کو دستیاب کرتے وقت اگلے لفظ کا انتخاب کرنا تھا۔ ہائینا پروگرام نے اوپن اے آئی کے 2018ء کے اصل GPT پروگرام کی طرح برابر اسکور حاصل کیا، لیکن 20٪ کمپیوٹنگ آپریشن کے ساتھ -- "اولین توجہ برداری سے آزاد، کونوالشن ایکٹیکچر جس نے کمپیوٹنگ آپریشنز کم کرتے ہوئے GPT کی کوالٹی میچ کی ہے" ، تحقیق کرنے والے لوگ لکھتے ہیں۔

در اگلے مرحلے مصنفین نے پروگرام کو جواب دہی کے کاموں پر ٹیسٹ کیا، جو سپرگلیو کے نام سے مشہور ہیں۔ یہ ٢٠١٩ میں نیو یارک یونیورسٹی، فیس بک آئی ریسرچ، گوگل کے ڈیپ مائنڈ کا اختیاری جزو اور یونیورسٹی آف واشنگٹن کے علماء نے متعارف کروائے تھے۔

مثال کے طور پر، جب دیا گیا جملہ ہو، "میرا جسم گھاس پر سایہ ڈال رہا ہے"، اور جو ممکنہ وجہیں ہوں، "سورج نکل رہا ہے" یا "گھاس کاٹی گئی ہے"، اور ایک کو دوسرے یا کوئی ایک منتخب کرنے کے لئے کہا گیا ہو، تو پروگرام مناسب جواب کے طور پر "سورج نکل رہا ہے" کو تشکیل دے گا۔

کئی تسکوں میں، ہائینا پروگرام نے اتنے ہی ٹریننگ ڈیٹا کے ساتھ ٹرین کیا ہونے کے باوجود، نقطہ حاصل کرنے میں گپٹ کے ایک ورژن کے برابر یا قریبی نتائج حاصل کیے ہیں۔

یہاں بھی: نئے بنگ کا استعمال کس طرح کیا جاتا ہے (اور یہ چیٹ جی پی ٹی سے کیسے مختلف ہے)

ادھر ذکر کرنے کے لائق یہ ہے کہ جب لکہیر نے اِن پٹ لفظوں کی لمبائی بڑھائی، تو کام کے اندر کی قابلیت میں بہتر اضافہ ہوا۔ 2048 "ٹوکن" تک، جو آپ الفاظ تصور کرسکتے ہیں، ہائینا زبانی کام کو مکمل کرنے کے لئے اِنتباہ نیہ لگانے والے ترجمہ پہ بھی کم وقت درکار ہوتا ہے۔

64,000 ٹوکنز پر، مصنفین بیان کرتے ہیں، "ہائینا تیزی میں 100 گنا اضافہ ہوتا ہے" - ایک سو گنا کامیابی کی بہتری۔

پولی اور ٹیم کا دعویٰ ہے کہ وہ نہ صرف ہائنا کے ساتھ ایک مختلف تجربہ کی کوشش کر چکے ہیں، بلکہ وہ "کواڈرٹک اوپریل کا رکاوٹ توڑنے" کا دعویٰ کرتے ہیں، جس نے ایک صلاحیتی تبدیلی پیدا کی ہے کہ کسی پروگرام کو نتائج حاصل کرنے کے لئے کتنی کٹھنائی پیدا ہوتی ہے۔

وہاں یہ تجاویز کرتے ہیں کہ کمیت کے نیچے مزید اہم تبدیلیاں بھی ہو سکتی ہیں: "کوانٹائر پردھانا بلکل نئی سمتیں کھولتا ہے، جیسا کہ مکمل کتابوں کو سیاق و سباق کی طرح استعمال کرنا، لمبی فارم میوزک تیار کرنا یا گیگاپکسل سکیل کی تصاویر کی پروسیسنگ کرنا"، وہ لکھتے ہیں۔

مصنفین کا کہنا ہے کہ ہائینا کو ہزاروں الفاظ پر مشتمل فلٹر استعمال کرنے کی صلاحیت ہونے کی بنا پر ایک زبانی پروگرام کو "سیاق و سباق" کے بارے میں پرسش کے لئے تقریباً کوئی حد نہیں ہو سکتی. یہ اس کے مراد کا مطلب ہے کہ یہ موجودہ گفتگو کے تھریڈ سے بہت دور متعلقہ متون یا اگلی گفتگو کے حصے کو یاد کر سکتا ہے - بالکل ہماری طرح ہائینا جو میلوں کا شکار کرتا ہے.

عنوان: بھی: چیت جی پی ٹی اور مزید مزید ڈھیلے سے استفادہ لینے کے لئے بہترین اے آئی چیٹ بوٹس

"ہائنا آپریٹرز کا بے حد سیاق و سباق ہوتا ہے"، وہ لکھتے ہیں۔ "یعنی ، علاوہ تمام چیزوں کے ، وہ مقام سے متعین کردہ حدود سے بے جبری سرکتی ہیں ، اور کوئی بھی منصوبے کے عناصر کے درمیان لمبے مدت کی طاقتور تعلقات سیکھ سکتے ہیں۔ "

علاوہ ازیں، الفاظ کے ساتھ ساتھ، اس پروگرام کو مختلف ماڈالیٹیز کے ڈیٹا پر بھی لاگو کیا جا سکتا ہے، جیسے تصاویر اور شاید ویڈیو اور آواز۔

یہ ضروری ہے کہ نوٹ کیا جائے کہ پیپر میں دکھائے گئے ہائینا پروگرام جی پی ٹی-4 یا حتی کہ جی پی ٹی-3 کے مقابلے میں سائز میں چھوٹا ہے۔ جبکہ جی پی ٹی-3 کے پارامیٹرز یعنی وزن لگ باؤ 175 بلین ہیں تو ہائینا کے سب سے بڑے ورژن میں صرف 1.3 بلین پارامیٹرز ہیں۔ لہذا، ابھی تک یہ دیکھنا باقی رہتا ہے کہ ہائینا جی پی ٹی-3 یا 4 کے ساتھ مکمل مقابلے میں کتنا اچھا کارنامہ کر پائے گا۔

لیکن، اگر حیوانات کے مختلف نمونوں پر حاصل شدہ کارکردگی بڑے پروگراموں میں بھی قائم رہتی ہے تو یہ ایک نئی مثال ہوسکتی ہے جو پچھلے دہائی کے دوران توجہ کے برابر اہمیت رکھتی ہے.

جیسا کہ پولی اور ٹیم کا خلاصہ ہے: "ہائینا جیسے مزید سادہ ذیلی-چوکٹ تخطیطوں کی بناوٹ، جو موجودہ اصول پر مبنی ہوتے ہیں اور آلیاتی تشریحی پیمائشوں پر تجرباتی جائزوں کی بنیاد بنا سکتے ہیں، بڑے پیمانے پر فعال ماڈلوں کی بنیاد ہو سکتے ہیں۔"

یہ نئی ٹیکنالوجی GPT-4 اور اسی کی طرح کو لے کر سب کچھ ختم کر سکتی ہے۔

متعلقہ مضامین