منگل، 28 اگست، 2007

اردو مارفالوجی ایپلیکیشن

آپ احباب انٹرنیٹ میری گفتگو سے یہ تو جان گئے ہونگے کہ میں نے بی کام کے بعد لسانیات میں ٹانگ اڑا لی ہے۔ یہ لمبی کہانی ہے بس یہ سمجھ لیں کہ کچھ راہنما مل گئے جنھوں نے مجھے پکڑ کر گھما ڈالا۔ کہنے کو تو میں انگلش لینگوئج ٹیچنگ میں ڈپلومہ کررہا ہوں جو اگلے سال ایم ایس سی میں بدل جائے گا (یعنی ایک سال کی ایم  ایس سی) لیکن انگریزی تو زبردستی ساتھ لگ گئی ہے۔ سمجھ لیں روزی روٹی کا معاملہ ہے ورنہ اپنی دلچسپی تو ازل سے اردو میں ہے۔ سوچا لسانیات میں رہ کر اردو کے لیے کچھ کیا جاسکتا ہے۔ اردو کی صوتیات (فونولوجی) پر فاسٹ لاہور میں بہت اچھا کام ہورہا ہے لیکن اس کے مشینی تجزیے کے سلسلے میں کوئی قابل ذکر کام نہیں ہوسکا۔ مشینی تجزیے سے مراد ہے کہ سافٹویر بنائے جائیں جو عبارت یعنی ٹیکسٹ کا تجزیہ کریں۔ اس کے ہر ہر لفظ کی گرامر کے لحاظ سے زمرہ بندی کریں۔ پھر اس بل پر شماریاتی فارمولے لگا کر زبان کے ٹرینڈز بتائے جائیں۔ میرا علم اس سلسلے میں ابھی محدود ہے۔ تاہم آپ مزید جاننا چاہیں تو Computational Linguistics  اور Corpus Linguistics کے نام سے وکی پیڈیا اور گوگل پر تلاش کرکے جان سکتے ہیں۔
میرے اساتذہ پاکستانی انگلش کے کارپس پر کام کررہے ہیں۔ جو کہ پاکستان میں کسی بھی زبان پر پہلا کارپس بیسڈ کام ہے۔ انھیں انگریزی پر کام کرنے کے لیے سافٹویرز کے حصول میں اچھی بھلی دشواریاں پیش آئیں تو مجھے اردو کے لیے کیا مل سکتا تھا بھلا۔ لیکن اتنا اندھیر بھی نہیں مچا۔ کہتے ہیں ڈھونڈنے والے کو خدا بھی مل جاتا ہے۔ چناچہ مجھے بھی پہلے سن گن ملی کہ جرمنی میں ایک پاکستانی صاحبہ ایک یوینورسٹی میں اردو گرامر پر کام کررہی ہیں۔اور اب ایک دن ایویں سرچ کرتے ہوئے میرے ہاتھ ایک پی ڈی ایف لگا جس میں سے ایک پاکستانی محمد ہمایوں جو کہ لاہور سے تعلق رکھتے ہیں اور اب سویڈن کی ایک یونیورسٹی میں ہوتے ہیں کا لکھا ہوا ایک آرٹیکل ملا۔ اس کی خصوصیات آپ کو کیا بتاؤں مجھے تو خزانہ مل گیا ہے۔ ایک تو اوپن سورس اطلاقیہ دوسرے یونیکوڈ کو سپورٹ کرتا ہے۔ ٹیکسٹ یونیکوڈ میں دیں اور ماحصل بھی یونیکوڈ میں۔ البتہ ٹیگز  انگریزی میں ہوتے ہیں۔ ان کو اردو میں شائع کروانے کے لیے ہم ترجمہ کروا لیں گے۔
ہمایوں بھائی نے میری بہت مدد کی۔ میں نے تو ایسے ہی ای میل کردی تھی کہ شاید جواب آئے شاید نہیں۔ لیکن انھوں نے ذاتی دلچسپی لے کر مجھے ہر ممکن تفصیل بتائی تاکہ میں سورس کوڈ کو کمپائل کرسکوں۔ جب میں نے بتایا کہ میرے پاس لینکس بھی ہے تو انھوں نے مجھے لینکس میں کمپائلیشن کی کمانڈز تک لکھ بھیجیں (اب یہ تو آپ اورمیں جانتے ہیں کہ اس طرح کے کام مجھے لینکس پر کرتے ہوئے عرصہ ہوچلا ہے)۔ خیر ان کی اس مدد کے بعد آج میں نے یہ ایپلی کیشن کمپائل کرکے چلالی۔ اپنے بلاگ کی ایک عدد پوسٹ کا اس سے تجزیہ بھی کروایا۔ جس کا ماحصل اس پوسٹ کے آخر میں ایک زپ فائل میں موجود ہےاور آپ دیکھ سکتے ہیں کہ یہ سافٹویر کافی اچھا کام کرتا ہے۔ اگرچہ اس کی ڈیٹا بیس چھوٹی ہے۔ کچھ الفاظ جیسے اسماء کو ابھی شناخت نہیں کرپاتا لیکن میرا ارادہ ہے کہ اس پر مزید کام کروں۔ اگرچہ میں پروگرامر نہیں ہوں۔ لیکن جاوا اور ہسکیل (شاید یہی لنگوئج ہے ) جس میں یہ لکھا گیا کے لیے اپنے اردو محفل کے احباب اور اس پروگرام کے خالق ہمایوں بھائی کو ضرور تنگ کروں گا۔
میرا پکا ارادہ بن گیا ہے کہ اسی سافٹویر کو استعمال کرکے اگلے سال اپنا ایم ایس سی کا تھیسس اردو مافولوجی پر لکھوں۔ ارے یہ تو میں بھول ہی گیا کہ مارفولوجی کا بتا دوں۔ مارفولوجی اصل میں لسانیات کی وہ شاخ ہے جو الفاظ کی تشکیل میں استعمال ہونے والے عوامل کو دیکھتی ہے۔ جیسے کرنا سے کیا، کیے ، کرتے، کرتا، کرتی ،کرتا تھا وغیرہ وغیرہ۔ وہی گردانیں جو کبھی مڈل میں ہم رٹے لگایا کرتے تھے۔ لیکن یہ صرف فعل کے ساتھ نہیں واحد سے جمع میں تبدیلی وغیرہ اور اسم مشتق وغیرہ جن سے کئی الفاظ بنتے ہیں، دو الفاظ کو ملا کر ایک بنا لینا وغیرہ وغیرہ سب اسی کے ذیل میں آجاتے ہیں۔ یہ ہمیں کسی زبان کی اہلیت کے بارے میں بتاتی ہے کہ اس میں الفاظ کس کس طرح سے بنتے ہیں۔ جو دوست محفل پر آج کل اوپن آفس کے لیے اردو پڑتال کار فہرست پر کام کررہے ہیں وہ مارفولوجی کو اچھی طرح سمجھ سکیں گے۔ بنیادی شکل یعنی کرنا اور پھر اس سے ثانوی اشکال کیا، کیا تھا، کرتا، کرتا تھا، کیے ، کیے تھے، کرنا تھا، کرتی، کرتی تھی، وغیرہ وغیرہ۔ اگر آپ کو مارفولوجی کی سمجھ نہ آئے تو وکی پیڈیا کو زحمت دے لیجیے وہاں پر پورا آرٹیکل موجود ہے اس بارے میں۔
اور آخرمیں اردو مارفولوجی ایپلیشکن کا ہوم پیج
اور یہ دیکھ کر آپ کو حیرت ہوگی کہ اس کے روابط میں اردو ویب کا ربط بھی شامل ہے۔ اس کی موجودہ اردو الفاظ کی ڈیٹا بیس (سکرین شاٹس دیکھ کر لگتا ہے کہ) اردو محفل ، اردو لائبریری اور اردو سیارہ کے بلاگز سے ٹیکسٹ لے کراس کا تجزیہ کرکے بنائی گئی ہے۔
میرے بلاگ کی ایک پوسٹ کا اردو تجزیہ اور میرے علم کے مطابق اس میں بہتری کی گنجائشیں۔

6 تبصرے:

  1. اللہ آپ کو نیک عمل میں کامیاب کرے ۔

    جواب دیںحذف کریں
  2. عمدہ بہت ہی بڑھیا۔ گرچہ مجھے ابھی بھی مارفولوجی کی کچھ سمجھ نہیں آئی مگر یہ اندازہ لگایا ہے کہ اس اپلیکیشن یا اسطرح کے کسی اور اطلاقیہ کی مدد سے اردو اسپیل چیکر اور تھیسارس وغیرہ کا کام آسان ہوسکتا ہے۔

    جواب دیںحذف کریں
  3. اجمل صاحب آپ کا شکریہ۔ آپ احباب کی دعائیں رہیں تو انشاءاللہ یہ کام ضرور ہوگا۔
    نعمان سپیل چیکر کے لیے یہ تو نہیں لیکن اس کا lexicon شاید کام دے جائے۔ یہ الفاظ کی فہرست یا اس کی ڈیٹا بیس ہے جس کے بل پر یہ مشینی تجزیہ کاری کرتا ہے۔ لیکن یہ فہرست ابھی بہت محدود ہے۔ اس بڑھوتری کی بہت گنجائش ہے۔ ویسے یہ اطلاقیہ ایک خاص مقصد کے لیے بنایا گیا ہے اور وہ ہے ٹیگنگ اور مارفولوجی۔ اور عام بندے کے لیے بے کار چیز ہے۔

    جواب دیںحذف کریں
  4. بہت خوب شاکر۔ یہ تحقیق واقعی کارآمد ثابت ہوگی۔ اس سوفٹویر کے ذریعے اردو کا statistical language model بنانے میں مدد مل سکتی ہے جو آگے کئی تحقیقی مقاصد کے لیے استعمال ہو سکتا ہے۔ مثال کے طور پر آپٹیکل کیریکٹر ریکگنیشن کے لیے اس طرح کا لینگویج ماڈل بہت مفید ثابت ہو سکتا ہے۔

    جواب دیںحذف کریں
  5. اس کا لیکسیکون واقعی کارآمد ہوسکتا ہے۔ لیکن وہ ابھی صرف پانچ ہزار الفاظ کا ہے۔ انشاءاللہ اس کو بڑھانے کے بندوبست کرتے ہیں۔ لیکن اس کے لیے اردو کا ایک خاصا بڑا کارپس چاہیے۔ یہ خام ٹیکسٹ اردو لائبریری ہی فراہم کرسکتی ہے۔

    جواب دیںحذف کریں
  6. ہمایوں بھائی نے میری تصحیح کردی وہ فرانس میں ہوتے ہیں۔ خاتون جن کا میں نے ان کےساتھ ذکر کیا ہے محترمہ ڈاکٹر مریم بٹ، یہ جرمن ہیں لیکن ان کے والد پاکستانی تھے۔

    جواب دیںحذف کریں

براہ کرم تبصرہ اردو میں لکھیں۔
ناشائستہ، ذاتیات کو نشانہ بنانیوالے اور اخلاق سے گرے ہوئے تبصرے حذف کر دئیے جائیں گے۔