«تشات جي بي تي» يتعثر في اختبارات للمحاسبة

[ad_1]

«تشات جي بي تي» يتعثر في اختبارات للمحاسبة

الطلاب حققوا نتائج أفضل… والتطبيق لفق أحياناً بعض المراجع

الأحد – 3 شوال 1444 هـ – 23 أبريل 2023 مـ

«تشات جي بي تي» غير قادر على التنافس مع الطلاب في اختبارات المحاسبة (جامعة بريغهام يونغ)

القاهرة: حازم بدر

على الرغم من النجاح اللافت الذي حققه روبوت الدردشة «تشات جي بي تي» في بعض الاختبارات الأكاديمية والمهنية، بدرجة تفوق الطلاب والخريجين، فإن أداءه في امتحانات المحاسبة لم يكن على نفس هذا المستوى.
ونجح التطبيق في اختبار المحامين الأميركي بنسبة 90 %، وهو اختبار يتعين اجتيازه على كل من يسعى لأن يصبح محامياً بأميركا. كما اجتاز 13 من 15 اختباراً من اختبارات برنامج المستوى المتقدم، الذي صُمم في عام 1952 من قِبل مجموعة من المعلمين من أفضل المدارس المتوسطة والجامعات الأميركية، ويهدف لقياس مستوى طلاب المرحلة الثانوية في مجال دراسي مُعين من خلال اختبارات محددة.
وحصل على درجة مثالية تقريباً في اختبار تقييم الخريجين (GRE)، وهو اختبار قياسي ومعتمد وشرط للقبول في كليات الدراسات العليا.
وأراد الباحثون في جامعة «بريغهام يونغ» الأميركية و186 جامعة أخرى، معرفة كيف ستنجح تلك التقنية في اختبارات المحاسبة، لذلك وضعوها على المحك، لتقودهم نتائج التجارب المنشورة في 18 أبريل (نيسان) الحالي بدورية «قضايا في تعليم المحاسبة»، إلى أنه «بشكل عام فإن أداء الطلاب أفضل منها».
ويقول الباحث الرئيسي ديفيد وود، أستاذ المحاسبة بجامعة «بريغهام يونغ» الأميركية في تقرير نشره الموقع الإلكتروني للجامعة في 20 أبريل: «عندما ظهرت هذه التكنولوجيا لأول مرة، كان الجميع قلقاً من أن الطلاب يمكنهم الآن استخدامها للغش، لكن فرص الغش كانت موجودة دائماً، لذلك بالنسبة لنا، نحاول التركيز على ما يمكننا فعله بهذه التكنولوجيا الآن التي لم تكن متاحة من قبل، لتحسين عملية التدريس لأعضاء هيئة التدريس وعملية التعلم للطلاب، لذلك أجرينا الاختبار، وكان الأمر مدهشاً».
ومنذ ظهوره لأول مرة في نوفمبر (تشرين الثاني) 2022، أصبح «تشات جي بي تي» التكنولوجيا الأسرع نمواً على الإطلاق، إذ وصل إلى 100 مليون مستخدم في أقل من شهرين، واستجابة للنقاش المكثف بشأن كيفية تأثيره على التعليم، قرر ديفيد وود، تعيين أكبر عدد ممكن من الأساتذة لمعرفة كيف كان أداء الذكاء الصناعي مقابل طلاب المحاسبة الجامعيين الفعليين.
وشارك بالدراسة 327 مؤلفاً مشاركاً من 186 مؤسسة تعليمية في 14 دولة، وساهموا بـ 25 ألفاً و181 سؤالاً في اختبار المحاسبة.
كما تم تجنيد الطلاب الجامعيين في جامعة بريغهام، ومنهم جيسيكا ابنة المؤلف الرئيسي بالدراسة، لإدخال ألفين و268 سؤالاً آخر من بنك اختبار الكتاب الجامعي إلى التطبيق، وغطت الأسئلة أنظمة المعلومات المحاسبية (AIS)، والتدقيق، والمحاسبة المالية، والمحاسبة الإدارية والضرائب، وتنوعت في الصعوبة والنوع (صح / خطأ، الاختيار من متعدد، إجابة قصيرة).
وعلى الرغم من أن أداء «تشات جي بي تي» كان لافتاً، فإن أداء الطلاب كان أفضل، وسجل الطلاب متوسطاً إجمالياً قدره 76.7%، مقارنة بنتيجة «تشات جي بي تي» البالغة 47.4%.
وفي 11.3% من الأسئلة فقط، سجل التطبيق درجات أعلى من متوسط الطالب، وكان أداؤه جيداً بشكل خاص في أنظمة المعلومات المحاسبية (AIS)، والتدقيق، لكن الأداء كان أسوأ في التقييمات الضريبية والمالية والإدارية، وربما لأنه كافح مع العمليات الحسابية المطلوبة للنوع الأخير.
وعندما يتعلق الأمر بنوع السؤال، كان أداء التطبيق أفضل في أسئلة الصواب / الخطأ (68.7% صحيحة) وأسئلة الاختيار من متعدد (59.5%)، لكنه واجه صعوبة في الأسئلة ذات الإجابات القصيرة (بين 28.7 % و39.1%). وبشكل عام، كان من الصعب على «تشات جي بي تي» الإجابة عن الأسئلة ذات الترتيب الأعلى، وفي الواقع، قد يوفر التطبيق أحياناً أوصافاً مكتوبة موثوقة للإجابات غير الصحيحة، أو يجيب عن نفس السؤال بطرق مختلفة.
وتقول جيسيكا وود، وهي حالياً طالبة في جامعة «بريغهام يونغ»: «إن الأداة ليست مثالية، فهي لا تصلح للاستخدام في كل شيء، ومحاولة التعلم فقط باستخدامها هي مهمة خادعة». وكشف الباحثون أيضاً عن بعض الاتجاهات الرائعة الأخرى من خلال الدراسة، بما في ذلك، أن «تشات جي بي تي» يرتكب أخطاءً غير منطقية، مثل إضافة رقمين في مشكلة الطرح أو قسمة الأرقام بشكل غير صحيح.
وغالباً ما يقدم تفسيرات لإجاباته، حتى لو كانت غير صحيحة، وأحياناً يصنع الحقائق، فعلى سبيل المثال، عند تقديم مرجع، فإنه يُنشئ مرجعاً حقيقياً ملفقاً تماماً، وأحياناً يكتب مؤلفين غير موجودين.
ومع ذلك، يتوقع الباحثون أن يكون «جي بي تي 4»، النسخة الأحدث من «تشات جي بي تي»، أفضل بشكل كبير في تجاوز هذه السلبيات، ومعرفة الأسئلة المحاسبية المطروحة في دراستهم.
من جانبه، يرى مصطفى العطار، الباحث في مجال الذكاء الصناعي بــ«جامعة النيل» الأهلية بمصر، أن نتائج هذه الدراسة «ليست مفاجئة، فالأصل في هذه التطبيقات أنها ليست بديلاً للبشر، لذلك مهما بلغت من الكفاءة يجب أن يكون البشر أفضل منها، وإلا أثرت على الوظائف التي ستكون متاحة للخريجين، وهذا تحد أخلاقي كبير أخذ وقتاً كبيراً من المناقشة في أميركا ودول العالم المعنية بشكل كبير بتوظيف الذكاء الصناعي».
ويقول العطار لـ«الشرق الأوسط»: «يمكن أن يكون الذكاء الصناعي مُعيناً للبشر في أداء مهمة ما، لكنه يجب ألا يتفوق على البشر أو أن يكون بديلاً لهم، وهذا هو المعيار لما يسمى بـ(الذكاء الصناعي الآمن) المسموح به».