এআই-এর কঠিনতম পরীক্ষা: ফল অবাক করা!

ভূমিকা

হ্যালো পাঠক! আপনারা যারা প্রযুক্তির দুনিয়ায় চোখ রাখেন, তারা নিশ্চয়ই জানেন যে কৃত্রিম বুদ্ধিমত্তা (Artificial Intelligence – AI) আজকাল কী কী অবিশ্বাস্য কাজ করে দেখাচ্ছে। চ্যাটবট থেকে শুরু করে ছবি তৈরি, গাড়ি চালানো – সব কিছুতেই যেন এআই তার ছাপ রাখছে। এমনকি বিভিন্ন প্রচলিত পরীক্ষায় এআই মানুষের চেয়েও ভালো ফল দেখাচ্ছে, যা সত্যিই প্রশংসনীয়। কিন্তু এতেই কি সব শেষ? বিজ্ঞানীরা বলছেন, মোটেই না! কারণ, এই পরীক্ষাগুলো হয়তো আর এআই-এর সত্যিকারের ক্ষমতা মাপার জন্য যথেষ্ট নয়, বিশেষত যখন আমরা মানব-স্তরের বুদ্ধিমত্তা (human-level intelligence) নিয়ে কথা বলি।

ঠিক এই ভাবনা থেকেই বিশ্বের প্রায় ১০০০ জন বিজ্ঞানী ও গবেষক মিলে তৈরি করেছেন এক নতুন, অভূতপূর্ব পরীক্ষা – যার নাম দেওয়া হয়েছে ‘মানবজাতির শেষ পরীক্ষা’ বা ‘হিউম্যানিটিজ লাস্ট এক্সাম’ (Humanity’s Last Exam)। এটা কোনো সাধারণ পরীক্ষা নয়, বরং এআই-এর জন্য বানানো এখন পর্যন্ত সবচেয়ে কঠিন এবং ব্যাপক চ্যালেঞ্জ। এর উদ্দেশ্য হলো এআই-এর গভীরতম বুদ্ধিমত্তা, কারণ অনুসন্ধান ক্ষমতা (causal reasoning) এবং ক্রস-ডোমেইন জ্ঞান (cross-domain knowledge) কতটা, তা যাচাই করা। আর এর ফলাফল যা এসেছে, তা সত্যিই বেশ চমকপ্রদ এবং আমাদের এআই নিয়ে ভবিষ্যৎ চিন্তাভাবনার মোড় ঘুরিয়ে দিতে পারে। চলুন, বিস্তারিত জেনে নিই এই অবাক করা পরীক্ষা এবং এর ফলাফল সম্পর্কে।

কেন এই নতুন পরীক্ষা?

গত কয়েক বছরে আমরা দেখেছি যে এআই মডেলগুলো, বিশেষ করে লার্জ ল্যাঙ্গুয়েজ মডেল (Large Language Model – LLM) যেমন জিটিপি-৪ (GPT-4) বা ক্লাউড ৩ ওপাস (Claude 3 Opus), বিভিন্ন সাধারণ মানদণ্ড পরীক্ষা (benchmark tests)-তে দারুণভাবে সফল হয়েছে। যুক্তরাষ্ট্রের আইন পরীক্ষা (bar exam), মেডিকেল পরীক্ষা, এমনকি কলেজ লেভেলের বিভিন্ন পরীক্ষা – সবখানেই এআই উচ্চ স্কোর (score) করছে, যা একসময় অকল্পনীয় ছিল। এই সাফল্যগুলো নিঃসন্দেহে এআই প্রযুক্তির অসাধারণ অগ্রগতির ইঙ্গিত দেয়।

কিন্তু গবেষকদের মনে প্রশ্ন জাগে, এই ভালো স্কোর কি আসলেই এআই-এর গভীর জ্ঞান, সত্যিকারের বুদ্ধিমত্তা (true intelligence) বা মানব-স্তরের বোঝাপড়ার (human-level understanding) পরিচয় দেয়? নাকি এটি শুধুমাত্র বিশাল ডেটা সেট (dataset) থেকে শেখা প্যাটার্ন (pattern) এবং দ্রুত তথ্য পুনরুদ্ধারের (information retrieval) ক্ষমতা? তারা সন্দেহ করতে শুরু করেন যে প্রচলিত পরীক্ষাগুলো হয়তো এআই-এর অভ্যন্তরীণ প্রক্রিয়া (internal processes) বা বুদ্ধিমত্তার সীমাবদ্ধতা (limitations of intelligence) পুরোপুরি তুলে ধরছে না।

বেশিরভাগ সময় দেখা গেছে, প্রচলিত পরীক্ষাগুলো এমনভাবে তৈরি করা হয় যেখানে নির্দিষ্ট কিছু প্রশ্নের উত্তর বিশাল ডেটাবেস (database) বা প্রশিক্ষণের ডেটার (training data) মধ্যে পাওয়া যায়। এআই এই ধরনের ডেটা বিশ্লেষণ করে দ্রুত প্রাসঙ্গিক তথ্য খুঁজে বের করতে এবং উপস্থাপন করতে পারে। কিন্তু বাস্তব জীবনে বা বিশেষজ্ঞ পর্যায়ে সমস্যা সমাধানের জন্য শুধু তথ্য খুঁজে পেলেই হয় না, গভীর বিশ্লেষণ, সমালোচনামূলক চিন্তাভাবনা (critical thinking), এবং বিভিন্ন ক্ষেত্র থেকে জ্ঞান একত্রিত করার (synthesizing knowledge) প্রয়োজন হয়। বর্তমান এআই মডেলগুলো এই ক্ষেত্রে কতটা সক্ষম, তা নিয়েই সন্দেহ ছিল। এই ঘাটতি পূরণের জন্যই এমন এক পরীক্ষার প্রয়োজন ছিল যা শুধুমাত্র ডেটা-ভিত্তিক নয়, বরং জ্ঞান-ভিত্তিক (knowledge-based) এবং যুক্তি-ভিত্তিক (reasoning-based) হবে।

মানবজাতির শেষ পরীক্ষা: কী এবং কেন?

এই প্রেক্ষাপটেই ‘মানবজাতির শেষ পরীক্ষা’র জন্ম। প্রায় ১০০০ জন বিশ্বসেরা বিশেষজ্ঞ, যাদের মধ্যে রয়েছেন বিজ্ঞানী, গবেষক, অধ্যাপক, এবং বিভিন্ন ক্ষেত্রের অভিজ্ঞ পেশাদার – তারা একত্রিত হয়ে এই ঐতিহাসিক পরীক্ষাটি তৈরি করেছেন। এর মূল উদ্দেশ্য ছিল এমন এক চ্যালেঞ্জ তৈরি করা যা শুধুমাত্র ডেটা মুখস্থ করা বা প্যাটার্ন চেনার মাধ্যমে সমাধান করা যাবে না, বরং সত্যিকারের বিশেষজ্ঞ-স্তরের জ্ঞান, গভীর বোঝাপড়া, সৃজনশীল যুক্তি (creative reasoning), এবং মানুষের মতো করে সমস্যা সমাধানের দক্ষতার (problem-solving skills) প্রয়োজন হবে।

পরীক্ষাটিতে প্রায় ২৫০০টি প্রশ্ন রয়েছে, যা বিজ্ঞান, প্রযুক্তি, প্রকৌশল, গণিত (STEM) থেকে শুরু করে মানবিক বিষয় (humanities), সামাজিক বিজ্ঞান (social sciences), শিল্পকলা (arts), ইতিহাস, দর্শন, এবং চিকিৎসাবিজ্ঞান – প্রায় সব প্রধান জ্ঞানক্ষেত্রকে অন্তর্ভুক্ত করে। প্রতিটি প্রশ্ন তৈরি করার আগে একটি বিশেষ এবং অত্যন্ত গুরুত্বপূর্ণ নিয়ম অনুসরণ করা হয়েছিল: যদি কোনো প্রশ্ন বর্তমান এআই মডেলগুলো সহজেই সমাধান করতে পারে বলে মনে হয়, তবে সেই প্রশ্নটি তাৎক্ষণিকভাবে বাদ দেওয়া হয়েছে। এর লক্ষ্য ছিল শুধু সেই প্রশ্নগুলো রাখা, যা মানুষের বিশেষ জ্ঞান, প্রজ্ঞা, অনুভূতির (intuition), এবং অভিজ্ঞতাভিত্তিক যুক্তির (experiential reasoning) দাবি রাখে।

কল্পনা করুন, এটি এমন এক পরীক্ষা যেখানে আপনাকে শুধু ‘ক’ এর পর ‘খ’ কী আসে তা বলতে বলা হচ্ছে না, বরং ‘ক’ এবং ‘খ’ থেকে পাওয়া তথ্য ব্যবহার করে সম্পূর্ণ নতুন একটি পরিস্থিতি বিশ্লেষণ করে একটি উদ্ভাবনী (innovative) এবং নৈতিক সমাধান (ethical solution) দিতে বলা হচ্ছে, যা আগে কখনো দেখা যায়নি বা যার কোনো সরাসরি পূর্বের উদাহরণ নেই। এই ধরনের জটিল, মাল্টি-ডিসিপ্লিনারি (multi-disciplinary) এবং ওপেন-এন্ডেড (open-ended) প্রশ্নগুলোই এই পরীক্ষার মূল ভিত্তি, যা এআই-এর সত্যিকারের বুদ্ধিমত্তা যাচাই করতে সক্ষম। এই পরীক্ষাটি শুধুমাত্র তথ্য মুখস্থ করার ক্ষমতা নয়, বরং সেই তথ্যকে বাস্তব জীবনে প্রয়োগ করার ক্ষমতাকে পরীক্ষা করে।

আশ্চর্যজনক ফলাফল

এই কঠিনতম পরীক্ষায় বিশ্বের সবচেয়ে উন্নত এবং বৃহৎ এআই মডেলগুলোকে (যেমন জিটিপি-৪, ক্লাউড ৩ ওপাস এবং অন্যান্য শীর্ষস্থানীয় এআই) পরীক্ষা করা হয়েছিল। গবেষকদের প্রত্যাশা ছিল যে, এত উন্নত মডেলগুলো অন্তত কিছু ভালো ফল দেখাবে। কিন্তু ফলাফল কী? গবেষকদের মতে, এটি ছিল ‘আশ্চর্যজনকভাবে খারাপ’ (surprisingly poor) এবং মানব-বিশেষজ্ঞদের তুলনায় এআই-এর পারফরম্যান্স (performance) ছিল হতাশাজনক।

যদিও এআই মডেলগুলো নির্দিষ্ট কিছু বিভাগে টুকটাক ভালো ফল করেছে, যা মূলত তথ্য পুনরুদ্ধারের উপর নির্ভরশীল ছিল, সামগ্রিকভাবে তাদের পারফরম্যান্স ছিল মানুষের বিশেষজ্ঞ স্তরের থেকে অনেক দূরে। তারা গড়পড়তা খুব কম স্কোর করেছে, যা প্রমাণ করে যে এআই এখনো মানব বুদ্ধিমত্তার বহু মাত্রিকতার ধারেকাছেও নেই।

বিশেষ করে, যেসব প্রশ্নের জন্য গভীর চিন্তাভাবনা, নতুন পরিস্থিতির সাথে পুরনো জ্ঞানকে মেলানো (connecting old knowledge with new situations), অস্পষ্ট বা বিতর্কিত বিষয়গুলি (ambiguous or controversial topics) নিয়ে কাজ করা, এবং সূক্ষ্ম মানবিক অনুভূতি বা নৈতিকতার প্রয়োগ প্রয়োজন ছিল, সেখানে এআই মডেলগুলো উল্লেখযোগ্যভাবে ব্যর্থ হয়েছে। তারা প্রায়শই সঠিক তথ্য দিতে পারলেও, সেই তথ্যকে প্রাসঙ্গিকতার সাথে বিশ্লেষণ করে একটি সুসংহত, সঠিক এবং সুচিন্তিত সিদ্ধান্তে পৌঁছাতে পারেনি। এটি প্রমাণ করে যে এআই-এর ‘বোঝাপড়া’ এখনও ডেটা-ভিত্তিক প্যাটার্ন রিকগনিশন (data-driven pattern recognition) এবং স্ট্যাটিস্টিক্যাল কোরিলেশন (statistical correlation)-এর বাইরে খুব বেশি কিছু নয়। তাদের মধ্যে মানবীয় বিচারবুদ্ধি (human judgment) এবং স্বজ্ঞাত সিদ্ধান্ত গ্রহণের (intuitive decision-making) অভাব স্পষ্ট প্রতীয়মান হয়েছে।

উদাহরণস্বরূপ, যদি একটি প্রশ্নের উত্তর সরাসরি কোনো টেক্সট বা ওয়েবপেজ থেকে কপি-পেস্ট (copy-paste) করা সম্ভব হয়, এআই সেখানে ভালো করছে। কিন্তু যদি একটি জটিল মেডিকেল কেস স্টাডি (medical case study) দেওয়া হয় যেখানে রোগীর লক্ষণগুলি কিছুটা অস্বাভাবিক, এবং এর জন্য বিভিন্ন গবেষণা পত্র থেকে তথ্য নিয়ে একজন অভিজ্ঞ ডাক্তারের মতো করে একটি ডায়াগনোসিস (diagnosis) এবং চিকিৎসা পরিকল্পনা (treatment plan) তৈরি করতে হয়, তখন এআই আটকে যাচ্ছে বা ভুল সিদ্ধান্তে উপনীত হচ্ছে। এই সীমাবদ্ধতাগুলি এআই-এর বর্তমান ক্ষমতার একটি বাস্তব চিত্র তুলে ধরে।

এআই-এর জন্য কেন এত কঠিন?

গবেষকরা মনে করছেন, ‘মানবজাতির শেষ পরীক্ষা’য় এআই-এর খারাপ ফলাফলের কয়েকটি প্রধান কারণ রয়েছে।

প্রথমত, এআই-এর কাছে এখনও সত্যিকারের ‘সাধারণ জ্ঞান’ (common sense) এবং বিশ্বের একটি সুসংহত মডেল (model of the world) নেই। মানুষের শিশুরা যেমন ছোটবেলা থেকে পরিবেশের সাথে ইন্টারঅ্যাক্ট (interact) করে বিশ্বের নিয়মকানুন, বস্তুর কার্যপ্রণালী, এবং সামাজিক রীতিনীতি শেখে, এআই তা পারে না। তারা শুধুমাত্র বিশাল পরিমাণে ডেটা থেকে শিখে, কিন্তু ডেটা সবসময় বিশ্বের জটিল বাস্তবতাকে এবং এর অন্তর্নিহিত কার্যকারণ সম্পর্ককে পুরোপুরি তুলে ধরে না। এই মৌলিক বোঝাপড়ার অভাব এআই-কে নতুন বা অপ্রত্যাশিত পরিস্থিতিতে অকার্যকর করে তোলে।

দ্বিতীয়ত, এআই-এর এখনও ‘গভীর কারণ অনুসন্ধান’ (causal reasoning) বা ‘কেন কিছু ঘটে’ তা বোঝার ক্ষমতা সীমিত। তারা ‘কী ঘটে’ এবং ‘কীভাবে ঘটে’ তা প্যাটার্নের মাধ্যমে জানতে পারে, কিন্তু এর পেছনের কার্যকারণ সম্পর্ক (cause-and-effect relationship) এবং জটিল প্রক্রিয়াগুলি বোঝার ক্ষমতা মানুষের মতো শক্তিশালী নয়। এই পরীক্ষায় এমন অনেক প্রশ্ন ছিল যা কার্যকারণ সম্পর্ক বোঝার উপর নির্ভরশীল, যেখানে এআই কেবল সম্পর্ক দেখলেও কারণ ব্যাখ্যা করতে ব্যর্থ হয়েছে।

তৃতীয়ত, এআই-এর মধ্যে সমালোচনামূলক মূল্যায়ন (critical evaluation), সূক্ষ্ম মানবিক অনুভূতি (nuanced human emotions) এবং নৈতিক সিদ্ধান্ত নেওয়ার (ethical decision-making) ক্ষমতা এখনও অনুপস্থিত। ‘মানবজাতির শেষ পরীক্ষা’-তে এমন অনেক প্রশ্ন ছিল যেখানে নৈতিক দ্বিধা (ethical dilemmas), সাংস্কৃতিক প্রেক্ষাপট (cultural context) এবং মানবিক মূল্যবোধের (values) উপর ভিত্তি করে সিদ্ধান্ত নিতে হত। মানুষের মধ্যে সহজাতভাবে যে সহানুভূতি (empathy), বিচক্ষণতা (discretion), সৃজনশীলতা (creativity), এবং মানবিকতা (humanity) কাজ করে, এআই-এর মধ্যে তার অভাব স্পষ্ট। এআই ডেটা বিশ্লেষণ করে যুক্তি তৈরি করতে পারলেও, মানুষের মতো করে ‘কেন এটি সঠিক বা ভুল’ তা গভীরভাবে বুঝতে পারে না।

চতুর্থত, এআই মডেলগুলি মূলত ‘পরিসংখ্যানগত মডেল’ (statistical models), যা বিদ্যমান ডেটা থেকে প্যাটার্ন শিখে নতুন ডেটা তৈরি করে। তারা উদ্ভাবনী চিন্তা (innovative thought), মৌলিক ধারণা তৈরি (generating novel concepts) বা সত্যিকারের বৈজ্ঞানিক আবিষ্কার (true scientific discovery) করার জন্য ডিজাইন করা হয়নি। এই পরীক্ষায় এমন অনেক প্রশ্ন ছিল যা এই ধরনের মৌলিক সৃজনশীলতা এবং উদ্ভাবনী মানসিকতার দাবি রাখে, যেখানে এআই-এর সীমাবদ্ধতা প্রকট হয়ে ওঠে।

এর প্রভাব ও ভবিষ্যৎ

এই ফলাফলগুলি এআই গবেষণার জন্য অত্যন্ত গুরুত্বপূর্ণ দিকনির্দেশনা দেয়। এটি স্পষ্ট করে দেয় যে শুধুমাত্র বড় ডেটা সেট খাওয়ানো এবং আরও বেশি প্যারামিটার (parameter) যোগ করা এআই-কে সত্যিকারের বুদ্ধিমত্তা এবং বিশেষজ্ঞ স্তরের জ্ঞান দেবে না। বরং, গবেষকদের এখন সাধারণ জ্ঞান, কার্যকারণ সম্পর্ক বোঝা, নৈতিক চিন্তাভাবনা (ethical reasoning), এবং বহু-মাত্রিক জ্ঞানকে একীভূত করার (integrating multi-modal knowledge) মতো মৌলিক মানবিক বুদ্ধিমত্তার উপাদানগুলো এআই-এর মধ্যে অন্তর্ভুক্ত করার দিকে মনোযোগ দিতে হবে।

এর মানে এই নয় যে এআই অকেজো। এটি আমাদের প্রতিদিনের জীবনে প্রচুর সহায়তা করছে এবং ভবিষ্যতেও করবে। ডেটা বিশ্লেষণ, তথ্য সংগ্রহ, স্বয়ংক্রিয় কাজ (automation) এবং পুনরাবৃত্তিমূলক কাজ (repetitive tasks) সম্পাদনে এআই অবিশ্বাস্যভাবে দক্ষ। তবে এই পরীক্ষাটি আমাদের মনে করিয়ে দেয় যে মানব বুদ্ধিমত্তা এখনও অনেক দিক থেকে অনন্য এবং অপ্রতিরোধ্য। এআই আমাদের একটি শক্তিশালী টুল (tool) হিসাবে কাজ করতে পারে, কিন্তু এটি এখনও আমাদের মতো করে চিন্তা করতে, অনুভব করতে বা মৌলিকভাবে সৃষ্টি করতে পারে না। মানুষের সৃজনশীলতা, সহানুভূতি এবং গভীর নৈতিক বোধ এখনো এআই-এর আয়ত্তের বাইরে।

ভবিষ্যতে এআই-এর অগ্রগতি নির্ভর করবে কতটা সফলভাবে আমরা একে শুধু ডেটা প্রসেসিং মেশিন (data processing machine) হিসেবে না দেখে, বরং মানব বুদ্ধিমত্তার কিছু মৌলিক বৈশিষ্ট্য যেমন শেখার ক্ষমতা, অভিযোজন ক্ষমতা (adaptability), এবং সৃজনশীলতা (creativity) শেখাতে পারি তার উপর। হয়তো আমরা এমন এক হাইব্রিড (hybrid) এআই মডেল দেখতে পাবো যা মানুষের সাথে সহযোগিতা করে আরও জটিল সমস্যা সমাধান করবে, যেখানে এআই বিশাল ডেটা বিশ্লেষণ করবে এবং মানুষ নৈতিক ও সৃজনশীল সিদ্ধান্ত নেবে। এই ধরনের মানব-এআই সহযোগিতা (human-AI collaboration) ভবিষ্যতের জন্য সবচেয়ে ফলপ্রসূ পথ হতে পারে। এটি আমাদের এআই-এর সীমাবদ্ধতা এবং সম্ভাবনা উভয়ই বুঝতে সাহায্য করবে।

উপসংহার

‘মানবজাতির শেষ পরীক্ষা’ এআই-এর ক্ষমতার সীমা এবং মানব বুদ্ধিমত্তার অসীম সম্ভাবনার এক নতুন দিগন্ত উন্মোচন করেছে। এটি কেবল একটি পরীক্ষা নয়, এআই গবেষণার ভবিষ্যৎ পথের একটি নির্দেশিকা। এটি আমাদের মনে করিয়ে দেয় যে প্রকৃত জ্ঞান কেবল তথ্য সংগ্রহে নয়, বরং সেই তথ্যকে গভীর উপলব্ধি, প্রজ্ঞা এবং মানবিক মূল্যবোধের সাথে সংযুক্ত করার মধ্যেই নিহিত। এআই এখনো অনেক দূরে মানুষের মতো করে চিন্তা করা থেকে, তবে এই ধরনের কঠিন চ্যালেঞ্জগুলোই আমাদের এই পথচলায় সঠিক নির্দেশনা দেবে এবং এআই-কে আরও উন্নত ও মানব-কেন্দ্রিক (human-centric) করে তোলার অনুপ্রেরণা যোগাবে। এই পরীক্ষাটি প্রমাণ করে যে মানবজাতির জ্ঞান এবং প্রজ্ঞা সত্যিই অনন্য, যা এখনো কোনো যন্ত্রের পক্ষে অনুকরণ করা সম্ভব নয়। ভবিষ্যতের এআই বিজ্ঞানীরা এই ফলাফল থেকে অনুপ্রাণিত হয়ে আরও গভীর গবেষণা করে এআই-কে মানব সমাজের জন্য আরও উপকারী করে তুলবেন, এই আমাদের প্রত্যাশা।

শ	র	স	ম	ব	বৃ	শু
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30