در عصر دانایی با دانا خبر      دانایی؛ توانایی است      دانا خبر گزارشگر هر تحول علمی در ایران و جهان      دانایی کلید موفقیت در هزاره سوم      
کد خبر: ۱۳۲۰۴۱۱
تاریخ انتشار: ۱۳ آبان ۱۴۰۴ - ۰۷:۵۸
معیارهای سنجش عملکرد
مقایسه قدرت فنی مدلهای هوش مصنوعی نیازمند معیارهای دقیقتری فراتر از صرفاًتولید متن است. در این تحلیل، عملکرد ChatGPT را در برابر مدلهای پیشرو ایرانی با تکیه بردرک زبان فارسی، دانش تخصصی، توانایی استدلال و حساسیتهای فرهنگی، به صورت علمی وجزءبهجوت بررسی میکنیم.

به گزارش پایگاه خبری دانا، گروه دانش و فناوری:

تولید متنی که از لحاظ گرامری بینقص باشد، تنها نیمی از نبرد است. یک مدل زبانی موفق بایدبتواند استدلال کند، اطلاعات متناقض را شناسایی کند و در محیط فرهنگی خاصی که کاربر درآن قرار دارد، پاسخهای مناسبی ارائه دهد. در این بخش، به صورت دقیقتر، نقاط قوت و ضعفمدلهای فارسی در مواجهه با معمای استدلال و فرهنگ را مورد کنکاش قرار میدهیم. 

 (seitilibapaC gninosaeR)بخش اول:

توانایی های استدلالی 

توانایی استدلال (Inference) در LLMs به معنای توانایی مدل در پیگیری منطق چند مرحلهای وحل مسائل جدیدی است که مستقیماً در دادههای آموزشیاش وجود نداشتهاند. 

 استدلال ریاضی و منطقی

در این زمینه، شکاف عملکردی (Performance Gap) هنوز عمیق است. 

ChatGPT )GPT-4):

به دلیل معماری پیشرفته تر و فراگیری دادههای آموزشی شامل متون ریاضی و علمی سطح بالا، در حل مسائل پیچیده مانند اثبات های هندسی یا مسائل ترکیبیاتی که نیاز به نوشتن زنجیرهای از استدلال ها دارند، برتری دارد. این مدل ها از تکنیک هایی مانند -Chainof-Thought (Cot)Promptiبرای نمایش مراحل استدلال استفاده میکنند که در مدلهایایرانی هنوز به این بلوغ نرسیده است. 

مدلهای ایرانی:

 مدلهای بومی معمولاً در حل مسائل محاسباتی ساده و استنتاجهای روزمرهموفق هستند. با این حال، هنگامی که مسئله نیازمند جابجایی بین چند متغیر وابسته به هماست، یا باید از قوانین فیزیک یا ریاضی استنتاج کند، احتمال خطا یا تولید پاسخهای غیرمنطقی (Hallucination)افزایش مییابد.

دلیل اصلی این امر، تعداد کمتر پارامترها و عدم آموزشکافی بر روی مجموعههای دادهای است که به صراحت تواناییهای استدلالی را تقویت میکنند. 

 (gninosaeR cfiicepS-niamoD)استدلال مبتنی بر دانش تخصصی 

در حوزه هایی مانند حقوق، پزشکی یا مهندسی داخلی، مقایسه جالب تر میشود. 

اگر سؤال از یک مدل ایرانی در مورد آخرین تغییرات قانون تجارت ایران پرسیده شود، احتمالاًپاسخ دقیقتری نسبت به( ChatGPT که ممکن است دانشش تا یک تاریخ مشخص بهروز نشدهباشد یا اطلاعات کلی ارائه دهد) دریافت خواهیم کرد. اما اگر از هر دو مدل خواسته شود که یکسناریوی فرضی حقوقی را تحلیل کرده و بر اساس اصول جهانی حقوق قراردادها نظر دهند،مدلهای بزرگتر جهانی معمولاً تحلیل عمیقتر و جامعتری ارائه میدهند.

 بخش دوم: حساسیت و انطباق فرهنگی

ecnauN larutluc and Alignment

این بخش جایی است که مزیت نسبی مدلهای بومی شروع به آشکار شدن میکند. 

 درک اصطلاحات و ادبیات فارسی

زبان فارسی پر از کنایه، طنز و ارجاعات تاریخی است.

 کنایه و طنز:

 اگر از یک مدل خواسته شود تا کنایهی "ناز و ادا درآوردن" را در یک متن شرحدهد یا یک قطعه شعر از حافظ را تفسیر کند، مدلهای بومی به دلیل آموزش روی

مجموعه دادههای غنیتر ادبی فارسی، معمولاً عمق معنایی بیشتری را درک میکنند.

 ChatGPTممکن است تفسیر لغوی صحیحی ارائه دهد، اما در بیان ظرافتهای ادبیناکام بماند.

معادل یابی فرهنگی: 

هنگام ترجمه مفاهیم فرهنگ غرب به فارسی یا برعکس مدل های ایرانی در یافتن معادلهای فرهنگی مناسب نه صرفاً ترجمه لغوی عملکرد بهتری دارند. 

مثلاً در توضیح یک مفهوم مدیریتی، استفاده از اصطلاحات رایج در محافل مدیریتی تهران. 

 سوگیری ها و امنیت محتوا 

مدلهای بزرگ جهانی تحت نظارت شدید قرار دارند تا از تولید محتوای مضر، تبعیضآمیز یاغیراخلاقی جلوگیری شود. این فرآیند Alignment نامیده میشود.

چالش مدلهای ایرانی:

اگرچه هدف مدله ای بومی، بومی سازی این فیلترهاست، اما تعریف"محتوای مضر" در فرهنگ‌های مختلف متفاوت است. مدل‌های ایرانی باید دقیقاً مرزهای قانونی و عرفی ایران را درونی کنند، که این کار بسیار دشوار است. اگر فیلترها خیلی سختگیرانه باشند،مدل سانسورگر به نظر می‌رسد؛ اگر خیلی آزاد باشند، ریسک تولید محتوای نامناسب بالا میرود. 

مقایسه: ChatGPT در فیلترینگ محتوای جنسی یا خشونتآمیز بسیار سختگیر است گاهی اوقات افراطی مدلهای ایرانی این فیلترها را دارند، اما ممکن است در تشخیص ظرافت های سیاسی یا اجتماعی حساس به شیوهای که جامعه ایران میپذیرد، دچار ابهام باشند. 

بخش سوم: معیارهای سنجش عملکردی و بنچمارکهای فارسی

برای قضاوت علمی، نیاز به معیارهای استاندارد شدهای داریم:

فارسی سنج:

 مجموع هایی از تست ها که برای ارزیابی توانایی های مدل دردرک مطلب، پرسش و پاسخ، و استنتاج منطقی بر روی متون فارسی طراحی شدهاند.

نتایج نشان میدهند که درک مطلب عمومی، مدل های بزرگتر خارجی همچنان در صدرهستند، اما در تسته ای مبتنی بر داده های تخصصی فارسی مانند متون فقهی یا تاریخ معاصر ایران مدل های داخلی فاصله را کم کرده اند. 

 BLEU Score و erocS EGUOR:

 این معیارها در ترجمه و خلاصه سازی کاربرد دارند. درترجمه فارسی به انگلیسی، مدل های جهانی همچنان امتیازات بالاتری کسب میکنند، امادر خلاصه سازی متون فارسی، اگر متن بسیار تخصصی باشد، مدل‌های داخلی به دلیل آگاهی بیشتر از اصطلاحات تخصصی آن حوزه، گاهی اوقات امتیازات مشابهی کسب می کنند.

جمع بندی: 

توازن میان وسعت و عمق 

در نهایت، مقایسه عملکرد یک نبرد بین وسعت دانش که در اختیار مدلهای آموزش دیده برروی تریلیونها توکن قرار داردو عمق درک فرهنگی-زبانی که در مدلهای متمرکز بر یک زبانخاص شکوفا میشود است. 

ChatGPT :

برنده در استدلال چند مرحله ای، دانش عمومی جهانی و سرعت توسعه قابلیت های پایه 

مدلهای ایرانی:

برنده در انطباق فرهنگی، درک ظرایف محلی، و دسترسی پایدارتر به منابع دانش داخلی. 

هدف کوتاه مدت نباید صرفاً رسیدن به ChatGPT در هر مقیاسی باشد، بلکه تثبیت جایگاه خودبه عنوان ابزارهایی که میتوانند شکاف های فرهنگی و تخصصی را پر کنند که غول های جهانی نمیتوانند به سادگی آن را پوشش دهند. 

 

ارسال نظر