OpenAI کا غولی GPT-3 ، AI کے لئے زبانی ماڈلوں کی حدود کی نشاندہی کرتا ہے

ایک سال سے زیادہ پہلے، OpenAI نے سان فرانسسکو میں قائم ایک خودکار ذہنیاتی کمپنی، نے دنیا میں چھوڑنے والا تاثر دکھایا کہ کمپیوٹر کے قوت کے اظہار میں کیا تیزی قد آگئی، جو طبعی زبان کے جملات بنانے کی صلاحیت کو ظاہر کرتا تھا، اور حتی کہ سوالات حل کرنے کو بھی، مثال کے طور پر ایک جملے کو مکمل کرنا، اور لمبی تحریر کے مراحل کو شکل دینے کی صلاحیت رکھتا تھا جو لوگوں نے بہت زیادہ انسانی تصور کیا۔

ان ٹیم کے تازہ ترین کام نے ظاہر کیا ہے کہ اوپن اے آئی کی سوچ کچھ حیثیت سے پختگی حاصل کر گئی ہے۔ جو تازہ ترین تخلیق ہے اسے GPT-3 کہتے ہیں، پچھلی ورژن جیسے کچھ مہربانی سمیٹ کے بنائی گئی ہے، جس میں بھارت ٹی. ریڈفورڈ اور الائکس رادافورڈ کے ساتھ ساتھ اور ساتھ آئی یلیا سوٹسکیوور جیسے کچھ دیگر پارٹنرز بھی تھے، جن میں جانز ہاپکنز یونیورسٹی کے سائنسدان بھی شامل تھے۔

اب یہ بالکل ایک شیطانی زبانی نمونہ بن چکا ہے، جسے ٹریننگ کیساتھ وابستہ کی جاتی ہے، بہترجہ سے اس کے پہلے نمونے کے مقابلے میں دو آرڈرز کی تراکیب سے زیادہ متن کو اپنے اندر غاصب کرتا ہے.

لیکن یہ بڑا اچھا کرنے والا ٹھمکے کے اندر، واحد مصنوعی زہانت کی ٹیم گہرائوں تک پہنچنے کا مظہر بن رہی ہے، جس طرح ڈاکٹر ڈیوڈ باومین نے فلم 2001 کے اختتام پر معلومات کے حدوں کے قریب پہنچا تھا۔

72 صفحات والی پیپر کے ختمی حصے میں، جو زبان ماڈل کم شاٹ لرنرز کے نام سے گزر ہفتے پہلے اے آر ایکسیو پری-پرنٹ سرور پر پوسٹ کیا گیا، وہاں ایک کافی دلچسپ شناخت لکھی ہوئی ہے۔

"اس مضامین میں بیان شدہ عمومی ترکیب کی ایک مزید بنیادی حد یہ ہے کہ پیش آمد کے اصول کے حدود کے تقاضوں سے یہ کسی وقت دور ہوسکتی ہیں (یا پہلے ہی ہوسکتی ہیں)۔" لکھتے ہیں مصنفین۔

بات یہ ہے کہ نئورل نیٹ ورک بنانا جو کےصرف ایک جملے یا جملے کے بعد آنے والے الفاظ کی تحمیل اور احتمال کی پیش گوئی کرتا ہے، اس کے حدود ہو سکتے ہیں۔ بصرف اس کو مزید طاقتور بنانا اور اسے مزید متن کے ساتھ بھرنے سے بہتر نتائج حاصل نہیں ہوسکتے ہیں۔ یہ ایک اہم تسلیم ہے جو کہ کمپیوٹنگ کی طاقت کو مسئلے کو حل کرنے میں کمیابی سے کامیابی کی تفصیل کرتی ہوئی پیپر کے اندر سامرا جو پیشی کر رہا ہے۔

اس بات کو سمجھنے کے لئے کہ زمینے والوں کا نتیجہ کتنا اہم ہے، ہم یہ سوچیں کہ ہم کیسے یہاں پہنچے۔ اوپن اے آئی پر زبان کے بارے میں کام کی تاریخ ایک قسم کے تدریجی پیش روئی کا حصہ رہا ہے، جس کا سائنس بڑا ہوتا گیا اور ٹیکنالوجی میں کامیابیاں حاصل کی گئیں جبکہ ٹیکنالوجی کو مزید بڑا اور مزید بڑا کیا گیا گیا۔

اصل GPT اور GPT-2 دونوں میں کچھ وقت قبل گوگل میں پیش کی گئی ایک نئی تشکیل کی مضمون ٹرانسفارمر کی تضییف کی گئی ہے. ٹرانسفارمر ایک اہم عملیہ استعمال کرتا ہے جو توجہ کے نام سے مشہور ہے اور اس عملیے کی مدد سے کسی لفظ کی امکانات کو حساب لگائی جاتی ہیں، وہ لفظ جو ماحولی لفظوں کی خصوصیات سے منسلک ہوں. OpenAI نے ایک سال پہلے تقریباً جب وہ یہ کہہ کر بہوش کیا کہ وہ GPT-2 کے بڑے سائز کا سورس کوڈ ریلیز نہیں کرے گا، اس کا موقف بہت بحث کا باعث بنا، کیونکہ عثمان خان نے کہہ تھا کہ اُس کوڈ کو کسی پر چڑھن کا خدشہ ہو سکتا ہے اور وہ سازشی خبروں کی مدد سے لوگوں کو گمراہ کرنے کا استعمال کیا جا سکتا ہے۔

نئی کاغذ گی پی ٹی کو اور بڑا بنانے کے ذریعے اسے اگلے درجے پر لے جاتا ہے۔ گی پی ٹی-2 کا سب سے بڑا ورژن، جو سورس فارم میں پوسٹ نہیں کیا گیا تھا، ایک ارب پچاس کروڑ پیرامیٹرز تھا۔ گی پی ٹی-3 ایک ساتس شن بلین پیرامیٹرز ہے۔ پیرامیٹر ایک نورون نیٹ ورک میں ایک حساب کا اطلاق کرتا ہے جو ڈیٹا کے کچھ جانب کو درجہ بندی کرتا ہے تاکہ ڈیٹا کے سلسلے کے ٹکڑوں کو تبصرے سے زیادہ یا کم توجہ دیں۔ یہی وزن ڈیٹا کو شکل دیتے ہیں، اور نیورون نیٹ ورک کو ڈیٹا پر ماہرانہ نظریہ حاصل ہوتی ہے۔

وقت کے ساتھ وزن بڑھانے نے GPT خاندان کے پروگراموں اور دیگر بڑے ٹرانسفارمر وہمکش تحریرات کی نمونہ اعتبار کی جاتی ہیں، مثلاً گوگل کے BERT، جن کے نتائج قابل تعریف ہیں۔

یہ بات کوئی حاضر نہیں کرتا کہ بہت سے لوگوں نے نوٹس لیا ہے کہ یہ زبان ماڈلز حقیقت میں زبان کو کسی معنی خیز طریقے سے سمجھ رہے ہیں نہیں۔ وہ ٹیسٹوں کو کامیاب کر رہے ہیں ، اور یہ کچھ کھانے کے لئے کافی ہے۔

تازہ ترین ورژن ایک بار پھر تعدادی ترقی کا پیش خیمہ کرتا ہے۔ GPT-2 اور دیگر ٹرانسفارمر پر مبنی برامج کی طرح، GPT-3 کو ویب سے نکالے گئے تقریباً ایک ترلین لفظوں کے Embedding (segregate) متنوں کے لئے استعمال ہونے والا 'کامن کرال" کا ڈیٹا سیٹ پر تربیت دی گئی ہے۔ "Draft اگر بات کریں تو یہ کہنا غیر طبعی معنی رکھتا ہے کہ ڈیٹا سیٹ اور ماڈل کا سائز GPT-2 سے بہت بڑا ہے ،" مصنفین استعمال کرتے ہیں۔

GPT-3 کی 175 ارب پیرامیٹرز کے ساتھ وہ کچھ کرنے کی صلاحیت ہے جسے مصنفین نے "میٹا تعلیم" کے طور پر تشریح کیا ہے۔ میٹا تعلیم کا مطلب یہ ہے کہ GPT نیورل نیٹ کو سینٹنس کمپلیٹ کرنے جیسے کام کے لئے دوبارہ ٹرین نہیں کیا جاتا ہے۔ کسی مشکلت کے مثال دیئے جائیں جیسے نا مکمل جملہ کے لئے اور پھر مکمل جملہ دیئے جائیں تو GPT-3 کسی بھی نامکمل جملے کو مکمل کرنے والا کام کرتا ہے۔

GPT-3 صرف ایک پرومٹ کے ساتھ کسی ٹاسک کو سیکھنے میں قادر ہے ، کچھ معاملات میں ، ٹرانسفارمر کی صورت میں ، صرف اس ٹاسک کو مخصوص طور پر انجام دینے کے لئے فائن ٹیون کی گئی ورژنز سے بہتر سیکھتا ہے۔ لہذا ، جی پی ٹی-3 کا برقی فازلہ سب سے بالاتر ہے۔ بس اسے نصابی وزنوں تک ایک کثیر مقداری ٹیکسٹ کھلاؤ ، اور یہ مخصوص ٹاسکوں پر بہتر ادا کرنے کے لئے بغیر کسی مزید ترقی کے کام کر سکتا ہے۔

یہ وہ جگہ ہے جہاں کہانی نئے کاغذ میں دلچسپہ منتے کی منتے اختتام پاتی ہے۔ جب زبانی کاموں پر GPT-3 کے حیرت انگیز نتائج کو درج کرنے کے بعد، جملوں کے مکمل کرنے سے لے کر کچیزوں کی منطقی شاملیت تک اور زبانوں کے درمیان ترجمہ کرنے تک پہنچتے ہیں، تو ادیبان حوصلہ شکنیوں پر نغمہ بجاتے ہیں۔

"گی پی ٹی-3 کی مضبوط خفیہ اور کمیتی ترقیاں کے باوجود، خصوصاً اپنے سیدھے سلسلے والے سابقہ نمونے جی پی ٹی-2 سے مقابلے میں، اس کے کچھ ناپائیدار نقائص ہیں۔

ان کمزوریوں میں سے ایک یہ ہے کہ یہ استعاب نا کر سکتا ہے ایک مشہور اختلافی معنوں والے طبقات میں جو معمولی طور پر NLI کہلاتا ہے۔ NLI، یعنی طبیعی زبان کا استنباط، میں ٹیسٹ کیا جاتا ہے جہاں پروگرام کو دو جملوں کے درمیان تعلق تعین کرنا ہوتا ہے۔ فیس بک اور یونیورسٹی آف نارتھ کیرولائنا کے تحقیق کاروں نے اس کا اختلافی ورژن پیش کیا ہے، جہاں انسانیں جملوں کے جوڑے تشکیل دیتی ہیں جو کمپیوٹر کے لئے حل کرنے کے لئے مشکل ہوتے ہیں۔

GPT-3 اشیاء پر "چینس کے مقابلے میں تھوڑا بہتر" کام کرتا ہے، تحریر کرتے ہیں مصنفین۔ بدتر یہ کہ اپنے سسٹم کی پروسیسنگ کی قوت کو 175 بلین ویٹس تک اضافہ کرنے کے باوجود، مصنفین یقیناً نہیں جانتے کہ کچھ تسکوں میں وہ کیوں ناکام ہو رہے ہیں۔

یہاں وہ نتیجے پر آتے ہیں، جو پہلے بھی حوالے کیا گیا ہے، کہ شاید ایک بہت بڑے مشین کو صرف بہت بڑے متن کی تشکیل دینا آخری جواب نہیں ہو سکتا۔

اگلی تجسس بھی اور طاقت اور ہائپریون کی بہرحال ہے. لکھنے والوں کی تحریک کا مکمل عمل وکی ام کا افسوس ہوسکتا ہے. یہ گمان استادی ردی کا مطلب ہوسکتا ہے.

ہمیں خود سرپرست اھداف کے ساتھ، کام کی تفصیل پر پیش اجبار کا اعتماد ہے، "جبکہ انتہائی مفید زبانی نظام (مثلاً مجازی معاونتیں) بصورت میں محض پیشگوئی کو اتائل کرنے کی بجائے مقصد مند اقدامات کرنے کے لئے بہتر سمجھے جا سکتے ہیں۔"

لکھنے والوں نے یہ چھوڑ دیا ہے کہ وہ کیسے اس دلچسپ نئے رخ کا سامنا کریں گے۔

بڑا ہونے کے مخالف افکار کے باوجود ، جی پی ٹی-3 کے کئی مسائلوں پر بہتر نتائج کا کافی ووجود ہمیں یقیناً بڑے بڑے نیورل نیٹ ورکس کے خواہش کو مزیں نہ لیتے ہوئے بڑھائے گی. 175 بلین پیرامیٹر کے ساتھ جی پی ٹی-3 لمبے نیورل نیٹ ورکس کا بادشاہ بن گیا ہے، یہ لمحے کے لئے. ایپریل میں AI چپ کمپنی Tenstorrent کی پیشکش نے اس کے بعدی مستقبل کے نیورل نیٹ ورکس کے بیش از ایک تریلین پیرامیٹرس کا بیان کیا۔

ایک اچھے حصے مشین لرننگ کمیونٹی کے لئے ، بڑھتا ہوا اور بڑھتا ہوا زبانی ماڈلنگ ارتفاع کے طور پر رہے گا.

اوپن ای آئی کا بہت بڑا جی پی ٹی-3 آرٹیفیشل انٹیلی جنس طرازوں کی حدود کی طرف اشارہ کرتا ہے۔

متعلقہ مضامین