Homeटेक्नॉलॉजीEpoch AI ने AI मॉडेल्सच्या क्षमता तपासण्यासाठी FrontierMath AI बेंचमार्क लाँच केला

Epoch AI ने AI मॉडेल्सच्या क्षमता तपासण्यासाठी FrontierMath AI बेंचमार्क लाँच केला

Epoch AI, कॅलिफोर्निया-आधारित संशोधन संस्थेने गेल्या आठवड्यात एक नवीन कृत्रिम बुद्धिमत्ता (AI) बेंचमार्क लाँच केला. FrontierMath डब केलेले, नवीन AI बेंचमार्क मोठ्या लँग्वेज मॉडेल्सची (LLMs) रीझनिंग आणि गणितीय समस्या सोडवण्याच्या क्षमतेवर चाचणी करते. एआय फर्मचा दावा आहे की सध्याचे गणित बेंचमार्क डेटा दूषित होणे आणि AI मॉडेल्सवर खूप उच्च स्कोअर मिळवणे यासारख्या घटकांमुळे फारसे उपयुक्त नाहीत. Epoch AI ने दावा केला आहे की आघाडीच्या LLM ने देखील नवीन बेंचमार्कवर दोन टक्क्यांपेक्षा कमी गुण मिळवले आहेत.

Epoch AI ने FrontierMath बेंचमार्क लाँच केले

मध्ये अ पोस्ट X (पूर्वी Twitter म्हणून ओळखले जाणारे) वर, AI फर्मने स्पष्ट केले की त्यांनी शेकडो मूळ आणि अप्रकाशित गणित समस्या निर्माण करण्यासाठी 60 पेक्षा जास्त गणितज्ञांशी सहयोग केला. Epoch AI चा दावा आहे की हे प्रश्न सोडवायला अगदी गणितज्ञांना तास लागतील. नवीन बेंचमार्क विकसित करण्यामागील कारण GSM8K आणि MATH सारख्या विद्यमान बेंचमार्कच्या मर्यादा म्हणून उद्धृत करण्यात आले होते, जेथे AI मॉडेल्स सामान्यतः उच्च गुण मिळवतात.

कंपनीने असा दावा केला आहे की LLM ने मिळवलेले उच्च स्कोअर मुख्यत्वे डेटा दूषित झाल्यामुळे आहेत. याचा अर्थ एआय मॉडेल्समध्ये प्रश्न कसेतरी आधीच दिले गेले होते, परिणामी ते प्रश्न सहजपणे सोडवतात.

FrontierMath डेटा दूषित होण्याशी संबंधित जोखीम कमी करून, अद्वितीय असलेल्या आणि कोठेही प्रकाशित न झालेल्या नवीन समस्यांचा समावेश करून समस्येचे निराकरण करते. पुढे, बेंचमार्कमध्ये संख्या सिद्धांत, वास्तविक विश्लेषण आणि बीजगणितीय भूमिती, तसेच झर्मेलो-फ्रेन्केल सेट सिद्धांत सारख्या विषयांसह संगणकीयदृष्ट्या गहन समस्यांचा समावेश आहे. एआय फर्म म्हणते की सर्व प्रश्न “अंदाज पुरावा” आहेत, म्हणजे ते भक्कम तर्काशिवाय चुकून सोडवता येत नाहीत.

Epoch AI ने ठळक केले की AI च्या योग्यतेचे मोजमाप करण्यासाठी, क्रिएटिव्ह समस्या-निराकरणावर बेंचमार्क तयार केले पाहिजेत जेथे AI ला अनेक पायऱ्यांवर तर्क राखणे आवश्यक आहे. विशेष म्हणजे, उद्योगातील अनेक दिग्गजांचा असा विश्वास आहे की एआय मॉडेल किती प्रगत आहे हे अचूकपणे मोजण्यासाठी विद्यमान बेंचमार्क पुरेसे नाहीत.

नवीन बेंचमार्कला प्रतिसाद देत अ पोस्टNoam Brown, OpenAI संशोधक जे कंपनीच्या o1 मॉडेलच्या मागे होते त्यांनी नवीन बेंचमार्कचे स्वागत केले आणि म्हटले, “मला फ्रंटियर मॉडेल्ससाठी इतक्या कमी पास दरांसह नवीन इव्हल पाहणे आवडते.”

नवीनतम तंत्रज्ञान बातम्या आणि पुनरावलोकनांसाठी, गॅझेट्स 360 वर फॉलो करा एक्स, फेसबुक, WhatsApp, धागे आणि Google बातम्या. गॅझेट्स आणि तंत्रज्ञानावरील नवीनतम व्हिडिओंसाठी, आमचे सदस्यता घ्या YouTube चॅनेल. तुम्हाला शीर्ष प्रभावकारांबद्दल सर्वकाही जाणून घ्यायचे असल्यास, आमच्या इन-हाउसचे अनुसरण करा कोण आहे 360 वर इंस्टाग्राम आणि YouTube.

Poco X7 Pro हा भारतात Xiaomi च्या HyperOS 2 सह पाठवणारा पहिला स्मार्टफोन असू शकतो


iQOO 13 कलर ऑप्शन्स 3 डिसेंबर रोजी भारतात लॉन्च होण्यापूर्वी उघड झाले


Source link

RELATED ARTICLES
- Advertisment -

Most Popular

टीकेनंतर एआय मॉडेल्सना प्रशिक्षण देण्यासाठी वापरल्या नसलेल्या फायली व्हेट्रान्सफरची पुष्टी करते, सेवा अटी अद्यतनित...

0
वापरकर्त्यांनी कंपनीच्या सेवेच्या अटींमध्ये बदल केल्याची टीका केल्यानंतर वापरकर्त्यांनी कृत्रिम बुद्धिमत्ता मॉडेल प्रशिक्षण देण्यासाठी वापरकर्त्यांद्वारे अपलोड केलेल्या फायली वापरणार नाहीत असे स्पष्टीकरण वेट्रान्सफरने जारी...

ओप्पो रेनो 14 मालिका प्रथम देखावा: रु. 2025 मध्ये 50,000?

0
ज्या वर्षात स्मार्टफोन इनोव्हेशन ट्रान्सफॉर्मेटिव्हपेक्षा जास्त वाटते, ओप्पोची रेनो 14 मालिका आत्मविश्वासाने शर्यत जिंकत आहे. रेनो 14 आणि रेनो 14 प्रो सह, ओप्पो फक्त...

भविष्यातील गॅलेक्सी झेड फोल्ड मॉडेलमध्ये एस-पेन परत आणण्यासाठी सॅमसंग नवीन तंत्रज्ञान विकसित करीत आहे:...

0
सॅमसंग अलीकडेच एस-पेनपासून दूर जात आहे. प्रथम, त्याने गॅलेक्सी एस 25 अल्ट्रा वरील स्टाईलससाठी ब्लूटूथ कार्यक्षमता काढून टाकली. आता, त्याचे नवीनतम पुस्तक-शैलीतील फोल्डेबल, गॅलेक्सी...

टीकेनंतर एआय मॉडेल्सना प्रशिक्षण देण्यासाठी वापरल्या नसलेल्या फायली व्हेट्रान्सफरची पुष्टी करते, सेवा अटी अद्यतनित...

0
वापरकर्त्यांनी कंपनीच्या सेवेच्या अटींमध्ये बदल केल्याची टीका केल्यानंतर वापरकर्त्यांनी कृत्रिम बुद्धिमत्ता मॉडेल प्रशिक्षण देण्यासाठी वापरकर्त्यांद्वारे अपलोड केलेल्या फायली वापरणार नाहीत असे स्पष्टीकरण वेट्रान्सफरने जारी...

ओप्पो रेनो 14 मालिका प्रथम देखावा: रु. 2025 मध्ये 50,000?

0
ज्या वर्षात स्मार्टफोन इनोव्हेशन ट्रान्सफॉर्मेटिव्हपेक्षा जास्त वाटते, ओप्पोची रेनो 14 मालिका आत्मविश्वासाने शर्यत जिंकत आहे. रेनो 14 आणि रेनो 14 प्रो सह, ओप्पो फक्त...

भविष्यातील गॅलेक्सी झेड फोल्ड मॉडेलमध्ये एस-पेन परत आणण्यासाठी सॅमसंग नवीन तंत्रज्ञान विकसित करीत आहे:...

0
सॅमसंग अलीकडेच एस-पेनपासून दूर जात आहे. प्रथम, त्याने गॅलेक्सी एस 25 अल्ट्रा वरील स्टाईलससाठी ब्लूटूथ कार्यक्षमता काढून टाकली. आता, त्याचे नवीनतम पुस्तक-शैलीतील फोल्डेबल, गॅलेक्सी...
error: Content is protected !!