Epoch AI, कॅलिफोर्निया-आधारित संशोधन संस्थेने गेल्या आठवड्यात एक नवीन कृत्रिम बुद्धिमत्ता (AI) बेंचमार्क लाँच केला. FrontierMath डब केलेले, नवीन AI बेंचमार्क मोठ्या लँग्वेज मॉडेल्सची (LLMs) रीझनिंग आणि गणितीय समस्या सोडवण्याच्या क्षमतेवर चाचणी करते. एआय फर्मचा दावा आहे की सध्याचे गणित बेंचमार्क डेटा दूषित होणे आणि AI मॉडेल्सवर खूप उच्च स्कोअर मिळवणे यासारख्या घटकांमुळे फारसे उपयुक्त नाहीत. Epoch AI ने दावा केला आहे की आघाडीच्या LLM ने देखील नवीन बेंचमार्कवर दोन टक्क्यांपेक्षा कमी गुण मिळवले आहेत.
Epoch AI ने FrontierMath बेंचमार्क लाँच केले
मध्ये अ पोस्ट X (पूर्वी Twitter म्हणून ओळखले जाणारे) वर, AI फर्मने स्पष्ट केले की त्यांनी शेकडो मूळ आणि अप्रकाशित गणित समस्या निर्माण करण्यासाठी 60 पेक्षा जास्त गणितज्ञांशी सहयोग केला. Epoch AI चा दावा आहे की हे प्रश्न सोडवायला अगदी गणितज्ञांना तास लागतील. नवीन बेंचमार्क विकसित करण्यामागील कारण GSM8K आणि MATH सारख्या विद्यमान बेंचमार्कच्या मर्यादा म्हणून उद्धृत करण्यात आले होते, जेथे AI मॉडेल्स सामान्यतः उच्च गुण मिळवतात.
कंपनीने असा दावा केला आहे की LLM ने मिळवलेले उच्च स्कोअर मुख्यत्वे डेटा दूषित झाल्यामुळे आहेत. याचा अर्थ एआय मॉडेल्समध्ये प्रश्न कसेतरी आधीच दिले गेले होते, परिणामी ते प्रश्न सहजपणे सोडवतात.
FrontierMath डेटा दूषित होण्याशी संबंधित जोखीम कमी करून, अद्वितीय असलेल्या आणि कोठेही प्रकाशित न झालेल्या नवीन समस्यांचा समावेश करून समस्येचे निराकरण करते. पुढे, बेंचमार्कमध्ये संख्या सिद्धांत, वास्तविक विश्लेषण आणि बीजगणितीय भूमिती, तसेच झर्मेलो-फ्रेन्केल सेट सिद्धांत सारख्या विषयांसह संगणकीयदृष्ट्या गहन समस्यांचा समावेश आहे. एआय फर्म म्हणते की सर्व प्रश्न “अंदाज पुरावा” आहेत, म्हणजे ते भक्कम तर्काशिवाय चुकून सोडवता येत नाहीत.
Epoch AI ने ठळक केले की AI च्या योग्यतेचे मोजमाप करण्यासाठी, क्रिएटिव्ह समस्या-निराकरणावर बेंचमार्क तयार केले पाहिजेत जेथे AI ला अनेक पायऱ्यांवर तर्क राखणे आवश्यक आहे. विशेष म्हणजे, उद्योगातील अनेक दिग्गजांचा असा विश्वास आहे की एआय मॉडेल किती प्रगत आहे हे अचूकपणे मोजण्यासाठी विद्यमान बेंचमार्क पुरेसे नाहीत.
नवीन बेंचमार्कला प्रतिसाद देत अ पोस्टNoam Brown, OpenAI संशोधक जे कंपनीच्या o1 मॉडेलच्या मागे होते त्यांनी नवीन बेंचमार्कचे स्वागत केले आणि म्हटले, “मला फ्रंटियर मॉडेल्ससाठी इतक्या कमी पास दरांसह नवीन इव्हल पाहणे आवडते.”
नवीनतम तंत्रज्ञान बातम्या आणि पुनरावलोकनांसाठी, गॅझेट्स 360 वर फॉलो करा एक्स, फेसबुक, WhatsApp, धागे आणि Google बातम्या. गॅझेट्स आणि तंत्रज्ञानावरील नवीनतम व्हिडिओंसाठी, आमचे सदस्यता घ्या YouTube चॅनेल. तुम्हाला शीर्ष प्रभावकारांबद्दल सर्वकाही जाणून घ्यायचे असल्यास, आमच्या इन-हाउसचे अनुसरण करा कोण आहे 360 वर इंस्टाग्राम आणि YouTube.
Poco X7 Pro हा भारतात Xiaomi च्या HyperOS 2 सह पाठवणारा पहिला स्मार्टफोन असू शकतो
iQOO 13 कलर ऑप्शन्स 3 डिसेंबर रोजी भारतात लॉन्च होण्यापूर्वी उघड झाले

