آج کل ہم اردو کے بارے میں بڑی سنجیدگی سے غور و فکر فرما رہے ہیں۔ اگرچہ اپنا تھیسز ہم انگریزی پر ہی کریں گے لیکن اردو پر اس کے علاوہ تحقیق کا ارادہ ہے۔ لسانیات میں ہمارا میدان کارپس ہے۔ ڈیٹا کو ٹیکسٹ فائلوں میں اکٹھا کرو اور اس کے بعد اس پر جو چاہے عمل کاری کرو۔
اردو کے سلسلے میں وسائل ابھی بہت محدود ہیں۔ ہمارے پاس اردو کا کوئی مناسب کارپس ہی موجود نہیں۔ کرلپ والے ایک کارپس مہیا کررہے ہیں جو شاید بیس ہزار الفاظ کے قریب ہے۔ لیکن یہ کارپس انگریزی سے ترجمہ کیا ہوا لگتا ہے۔ انگریزی اردو نیبالی متوازی کارپس منصوبے کا حصہ یہ کارپس ہمارے ذاتی خیال میں اردو کے اہل زبان سے حاصل کردہ ڈیٹا کا مقابلہ نہیں کرسکتا۔ اس کے مترجمین دس بارہ بھی ہوں تو بھی اردو کے فورمز یا بلاگز سے ڈیٹا حاصل کرنے کی صورت میں ہمارے پاس بہت زیادہ ورائٹی ہوگی۔ پچاس یا اس سے بھی زیادہ کی آبادی سے ڈیٹا حاصل کرنے سے بہت سی ایسی چیزیں سامنے آئیں گی جو اس کارپس پر تحقیق سے نہیں آسکتیں۔ مثلًا ہم انگریزی الفاظ کا بالکل بھی خیال نہیں رکھتے۔ اور اردو کے ساتھ انجانے میں رج کے کھلواڑ کرتے ہیں۔ اس سب کو سٹڈی کرنا بڑا دلچسپ کام ہے۔
کارپس کا مطلب یہ نہیں کہ ہم ٹیکسٹ اکٹھا کرکے رکھ لیں۔ اس کے بعد ہمیں اس کو کچھ مزید مراحل سے بھی گزارنا پڑتا ہے۔ اس کو اینوٹیشن Annotation کہا جاتا ہے۔ یعنی ہم کارپس کو مختلف انداز سے ٹیگ کرتے ہیں۔ جیسے ایچ ٹی ایم ایل کے ٹیگز ہوتے ہیں۔ اردو کا ٹیگ شدہ کارپس آپ کرلپ کی ویب سائٹ پر دیکھ سکتے ہیں۔ یہ گرامر کے لحاظ سے ٹیگ شدہ ہے جس میں ہر لفظ کے ساتھ لگا ٹیگ یہ بتاتا ہے کہ اس کا گرامر کے لحاظ سے کونسا زمرہ ہے، اسم، فعل، حرف جار وغیرہ وغیرہ۔
کرلپ کا کا کارپس ہاتھ سے ٹیگ شدہ ہے۔ جسے دو ماہرین لسانیات نے گھنٹوں کی محنت سے ٹیگ کیا۔ یہ طریقہ کار محدود مقاصد کے لیے تو بہترین ہے اور اس میں درستگی کی شرح بھی سو فیصد ہے لیکن ہر بار یہی کام کرنا بہت دشوار ہے۔ یہ بہت زیادہ وقت طلب کام ہے۔ میں اگر ایک لاکھ الفاظ کا کارپس بنانے کی سوچ رہا ہوں تو اس کو ٹیگ کرنا بہت بڑا مسئلہ ہوجائے گا جبکہ میرے پاس وقت کی بھی کمی ہے اور مالی وسائل کی بھی کہ دوسروں کو معاوضے پر اس کام کے لیے مہیا کرسکوں۔ ایسی صورت میں ہم مشین ٹیگنگ کی بات کرتے ہیں۔ انگریزی اور دنیا کی دوسری زبانوں میں اس سلسلے میں بہت ترقی کی ہے۔ انگریزی کے لیے ہمارے پاس درجن بھر ٹیگرز دستیاب ہیں۔ جبکہ اردو کے لیے ابھی تک صرف ایک ٹیگر دستیاب ہے۔ اس ٹیگر کی صلاحیت بھی محدود ہے۔ دس ہزار الفاظ کے ایک کارپس پر اسے ٹیسٹ کیا گیا جہاں اس نے ستانوے فیصد درستگی دکھائی۔ یہ کرلپ کے ہی ایک طالب علم کا ایم ایس کا پروجیکٹ تھا۔ 2007 میں مکمل ہونے والا یہ سافٹویر مزید اپڈیٹ نہیں کیا گیا۔ اس کارپس کو مزید ڈیٹا پر ٹریننگ کی ضرورت ہے اور اس کی ڈیٹابیس کو مزید بڑا کرنے کی ضرورت ہے تاکہ یہ عمومی مقاصد تحقیق کے لیے بھی کارآمد ثابت ہوسکے۔
اس سلسلے میں ہمیں مل کر کام کرنے کی ضرورت ہے۔ اردو ڈیٹا کی کلیکشن، اس کے ذریعے اردو ٹیگر کو ٹریننگ دینا۔ اس کی خامیاں اور نقائص دور کرنا وغیرہ۔ بہت سارے کام ہیں جو میں اکیلا نہیں کرسکتا۔ وقت کی کمی اور میری پروگرامنگ صلاحیتوں کا محدود ہونا اس کی بڑی وجہ ہیں۔
متعلقہ روابط اوپر تحریر میں موجود ہیں۔ احباب اگر اس سلسلے میں کوئی مدد کرسکتے ہوں تو کیا ہی بات ہے۔ اس سلسلے میں ڈیٹا کیلکشن کی ذمہ دار میں لے سکتا ہوں۔ اردو فورمز، بلاگز، نیوز سائٹس اور اخبارات کی ویب سائٹس سے ڈیٹا اکٹھا کرکے اس کی کانٹ چھانٹ کرنا میرا کام ہے۔ لیکن اس کے بعد ٹیگر کے پروگرامنگ مسائل کے حل کے لیے مجھے راجہ نعیم اور محترم نبیل حسن نقوی جیسے احباب کا تعاون درکار ہوگا۔ اس پروگرام کے سورس کوڈ کے لیے بھی ڈاکٹر سرمد سے درخواست کروں گا امید ہے وہ مہیا کردیں گے۔ اگر اس کو ڈویلپ کرنے والے صاحب سے رابطہ ہوجائے تو موج ہی ہوجائے۔
بہت خوشی ہوئی یہ سب جان کر، اللہ تعالیٰ آپ کو اپنے ارادوں میں کامیاب کریں۔
جواب دیںحذف کریںویسے تو مجھے آپکی بات کی زیادہ سمجھ نہیں آئی لیکن امید ہے جو کر رہے ہونگے اچھا ہی ہو گا۔
جواب دیںحذف کریںشائد کچھ سوفٹویر ہیں جو اس تکنیک کو استعمال کرتے ہوں خصوصا وہ جو مقداراتی کی بجائے معیاراتی ریسرچ کیلئے بنائے گئے ہیں۔
مثلا
http://www.qsrinternational.com/
پتہ نہیں آپکا بلاگ اس بارے تھا یا نہیں :)
شاکر بھائی آج بہت دن بعد آپ کا بلاگ وزٹ کیا. بھیا کچھ کارپس کا میٹیریل ہی دے دو. یا کوئ لنک- سائٹ جہاں سے مل سکے.
جواب دیںحذف کریںبہت شکریہ بھیا. اچھا لگا آپکا آن لائن انسٹینٹ رسپانس. کوئی کتب ہیں تو وہ بھی شیئر کیجیے گا. شکریہ.
جواب دیںحذف کریں