Pika e Verbër Miliarda-Dollarëshe: Pse Agjentët AI Ende Nuk Arrijnë të Bëjnë Detyra Bazike

Diçka e pazakontë po ndodh në teknologjinë enterprise. Kompanitë më të mëdha në botë — Anthropic, OpenAI, Google, Microsoft, Amazon dhe Meta — po shpenzojnë kolektivisht dhjetëra miliarda dollarë në agjentë AI: softuer që mund të arsyetojë mbi probleme komplekse, të shkruajë kod të nivelit të prodhimit dhe të kryejë kërkime multi-hap me mbikëqyrje minimale njerëzore. Modelet themelore janë të jashtëzakonshme. Claude Opus 4.6 i Anthropic mund të mbajë fokusin në një detyrë të vetme inxhinierike për mbi katërmbëdhjetë orë. Modeli më i fundit Codex i OpenAI ishte instrumental në krijimin e pasardhësit të vet. Agjentët e kodimit tani janë autorë të rreth katër përqind të gjithë kodit publik të committuar në GitHub.

E megjithatë, kërkoji ndonjërit nga këta agjentë të kopjojë një paragraf nga një dokument, ta ngjisë në një formular web dhe të klikojë "Dërgo", dhe ka një mundësi të arsyeshme që do të dështojë.

Kjo nuk është një çudi marxhinale. Është tensioni qendror që përcakton gjeneratën aktuale të agjentëve AI — dhe për drejtuesit e biznesit që vlerësojnë ku të investojnë, ndryshon plotësisht llogaritjen. Pyetja nuk është më nëse agjentët janë mjaft inteligjentë. Është nëse mund të kryejnë në mënyrë të besueshme operacionet e zakonshme, mekanike që përbëjnë shumicën dërrmuese të punës reale kompjuterike.

Gjendja Aktuale: Çdo Kompani e Madhe Ka Lëshuar Agjentë

Peizazhi i AI agjentike ka maturuar me shpejtësi. Në fillim të 2026, çdo platformë e madhe teknologjike ka lëshuar produkte agjentësh, dhe tregu ka filluar të konsolidohet përmes një serie blerjesh të profilit të lartë.

Anthropic ka ndërtuar toolkit-in më të gjerë. Claude Code, agjenti i tij i kodimit nativ për terminal, arriti disponueshmërinë e përgjithshme në maj 2025 dhe kontriboi në një rritje të ardhurave 4,5 herë. Lëshimi i shkurtit 2026 prezantoi Agent Teams — nën-agjentë të shumëfishtë që koordinojnë workstream-e paralele — dhe një sistem të dedikuar të rishikimit të kodit. Aftësia Computer Use e Claude, e lëshuar në fund të 2024, i lejon modelit të shohë dhe ndërveprojë me ndërfaqet desktop përmes screenshot-eve dhe veprimeve të simuluara të mouse-it dhe tastierës. Model Context Protocol (MCP), standardi i hapur i Anthropic për lidhjen e AI me mjete të jashtme, është adoptuar në të gjithë industrinë, me mbi dhjetë mijë serverë publikë aktivë dhe nëntëdhjetë e shtatë milionë shkarkime mujore të SDK-së.

OpenAI ka montuar një stack paralel. Operator, agjenti i tij i bazuar në browser i lëshuar në janar 2025, u integrua në ChatGPT Agent Mode brenda gjysmës së vitit. Agjenti i kodimit Codex ka arritur te GPT-5.3-Codex, dhe mbi një milion zhvillues e kanë përdorur.

Google ka një qasje të shpërndarë në shumë produkte. Project Mariner menaxhon automatizimin e browser-it. Jules, agjenti i tij i kodimit, doli nga beta në gusht 2025. Gemini Agent Mode orkestron përmes Gmail, Calendar, Search dhe Maps.

Microsoft ka ngulitur agjentët thellë në suitën e tij enterprise. Lëshimi Copilot Wave 3 i marsit 2026 prezantoi Copilot Cowork, ndërtuar me Claude-n e Anthropic.

Amazon AWS ndërtoi ofertën më të fokusuar në infrastrukturë, me Bedrock AgentCore. Meta bleu Manus AI për mbi dy miliardë dollarë në dhjetor 2025. Apple mbetet i vonuari i dukshëm, me veçoritë agentike të premtuara për Siri ende të palëshuara.

Kompania	Produktet Kryesore të Agjentëve	Arritja e Dukshme
Anthropic	Claude Code, Computer Use, MCP	Rritje ardhurave 4,5x, MCP dhuruar Linux Foundation
OpenAI	ChatGPT Agent Mode, Codex, Agents SDK	1M+ zhvillues në Codex, GPT-5.3-Codex
Google	Gemini Agent Mode, Jules, A2A, ADK	Acqui-hire Windsurf $2,4 miliardë
Microsoft	Copilot Cowork, GitHub Copilot Agent	Agent Framework i unifikuar, GA për të gjitha planet
Amazon	Bedrock AgentCore, Q Developer	66% pikë SWE-bench
Meta	Manus AI (blerë)	Blerje $2B+ për aftësi agentike

Paradoksi: Arsyetim Mbinjerëzor, Operacione Nënnjerëzore

Hendeku i aftësisë në zemër të agjentëve AI është po aq i habitshëm sa i nënvlerësuar. Këto sisteme mund të arkitekturojnë aplikacione të tëra nga një prompt i vetëm, të ristrukturojnë mijëra rreshta kodi legacy dhe të arsyetojnë përmes zinxhirëve debugging që do të zinin një inxhinier senior për një pasdite të tërë.

Por nuk arrijnë të bëjnë në mënyrë të besueshme atë që një punonjës tipik zyre bën qindra herë në ditë pa menduar: kopjimi i tekstit midis aplikacioneve, tërheqja e një skedari në një fushë upload-i, navigimi i një ekrani login-i, ose mbyllja e një banner-i cookie.

Kjo nuk është çështje inteligjence. Është çështje infrastrukture.

Operacionet me clipboard: rasti emblematik

Copy-paste është ndoshta operacioni kompjuterik më i përdorur shpesh në punën e dijes. Gjithashtu është kryesisht i prishur për agjentët AI. Agjentët e bazuar në browser operojnë në mjedise sandbox pa akses në clipboard-in e sistemit. Nuk ka mënyrë të besueshme që një agjent të verifikojë se ajo që kopjoi mbërriti vërtet në destinacion.

Drag and drop: pothuajse inekzistent

Drag-and-drop është një nga ndërveprimet GUI më të vështira për agjentët. Shumica e framework-eve mbështesin vetëm katër veprime bazike: klik, shkrim, lëvizje dhe vëzhgim përmes screenshot-it. Gjestet komplekse janë ose të pambështetura plotësisht ose arrijnë aq rrallë sa janë praktikisht të padobishme.

Autentifikimi: bllokuesi më i madh

Asnjë agjent prodhimi nuk mund të menaxhojë në mënyrë të besueshme procesin e login-it për faqe web dhe aplikacione arbitrare. CAPTCHA-të janë projektuar specifkisht për të bllokuar aksesin e automatizuar. Autentifikimi me dy faktorë e ndërlikon problemin.

AWS lëshoi Web Bot Auth në 2026, një protokoll draft që u jep agjentëve identitete kriptografike për të reduktuar fërkimin e CAPTCHA-ve.

Ndërveprimi UI: vdekje nga një mijë prera letre

Normat e Suksesit të Agjentëve AI në Detyra UI Reale

OSWorld (detyra desktop)15%

WebArena (detyra web)14%

Rikuperim gabimesh CLI85%

Rikuperim gabimesh rrjeti35%

Baza njerëzore (detyra web)78%

Matematika Që Ka Rëndësi: Normat e Dështimit të Përbëra

Numri më i rëndësishëm në AI agjentike nuk është ndonjë pikë benchmark individuale. Është norma e besueshmërisë së përbërë përmes workflow-eve multi-hap. Aritmetika është e pamëshirshme.

Nëse një agjent ka sukses në çdo hap individual tetëdhjetë e pesë përqind të rasteve, një workflow me dhjetë hapa do të ketë sukses vetëm rreth njëzet përqind të rasteve. Një workflow me njëzet hapa bie nën katër përqind.

Normat e Suksesit të Përbëra: 85% Besueshmëri Per-Hap

1 hap85%

5 hapa44%

10 hapa20%

15 hapa9%

20 hapa4%

Gartner ka parashikuar që dyzet përqind e projekteve të AI agjentike do të anulohen deri në 2027.

Konteksti, Memoria dhe Shpejtësia: Pengesat e Tjera

Dritaret e kontekstit janë të mëdha por jo të pafundme

Modelet frontier tani pranojnë nga një deri në dy milionë token-e hyrje. Por vëmendja nuk është uniforme përmes asaj dritareje. Detajet e prezantuara herët në një sesion të gjatë mund të harrohen efektivisht kur agjenti mbërrin te hapi dyzet.

Shpejtësia është kosto e fshehur

Çdo cikël screenshot-vëzhgo-vepro në një agjent computer use kërkon nga një deri në pesë sekonda inferenci modeli. Një detyrë që një njeriu i merr tridhjetë sekonda mund t'i marrë një agjenti dy deri në tre minuta. Kostot e token-eve shumëfishohen shpejt: një workflow që kushton pesë deri në pesëdhjetë dollarë në demo mund të gjenerojë tetëmbëdhjetë deri në nëntëdhjetë mijë dollarë mujore në vëllim prodhimi.

Rikuperimi i gabimeve është primitiv

Kur një njeri has një dialog të papritur, vlerëson situatën dhe përshtatet. Kur një agjent has një të tillë, shpesh ose ndalet plotësisht ose vazhdon me gjendje të korruptuar.

Ku Funksionojnë Tashmë Agjentët — Dhe Ku Jo

Fusha	Statusi	Pse Funksionon (ose Jo)
Gjenerim dhe rishikim kodi	Vlerë e provuar	I bazuar në tekst, cikle feedback të shpejta, fushë e strukturuar
Kërkim dhe analizë e strukturuar	Vlerë në zhvillim	Kryesisht tekst-hyrje/tekst-dalje, pa ndërveprim GUI kompleks
Workflow ndër-aplikacione	Ende i pabesueshëm	Kontekste autentifikimi të ndryshme, modele UI të ndryshme
Integrim me botën fizike	Ende jo i zbatueshëm	Hardware-i shton vonesë dhe fërkim pa zgjidhur besueshmërinë

Kodimi është pika e ndritshme e qartë. Claude Code, OpenAI Codex, Cursor dhe agjenti i kodimit i GitHub Copilot po prodhojnë vlerë reale. Q Developer i Amazon-it përditësoi një mijë aplikacione Java nga versioni 8 në 17 brenda dy ditëve. Claude Code gjeneron rreth 135,000 commit-e GitHub çdo ditë.

Rasti klasik i dështimit mbetet koordinimi ndër-aplikacione. "Më rezervo një fluturim, pastaj shtoje në kalendarin tim, pastaj dërgo itinerarin te asistenti im" është bërë pothuajse një shaka industrie.

Çfarë Vjen Pas: Harness, Jo Vetëm Modele

Konsensusi i industrisë në zhvillim është pragmatik. Pengesa nuk është më inteligjenca e modelit. Është infrastruktura që rrethon modelin — ajo që praktikuesit e quajnë gjithnjë e më shumë "agent harness".

Një agent harness përfshin logjikën e rikuperimit të gabimeve, mekanizmat e riprovës, pikat e kontrollit human-in-the-loop, sandboxing-un, urat e autentifikimit dhe shtresat e orkestrimit.

Model Context Protocol dhe standardi Agent2Agent po maturohen nga projekte eksperimentale në infrastrukturë institucionale
Protokolli Web Bot Auth i AWS përfaqëson përpjekjen e parë për të zgjidhur autentifikimin e agjentëve në nivel protokolli
Agent Framework i unifikuar i Microsoft dhe ADK e Google po ofrojnë abstraksione të nivelit më të lartë
Lëvizja drejt agjentëve në sfond anashkalon shumë nga problemet e ndërveprimit UI

Implikime për Drejtuesit e Biznesit

Filloni me workflow të bazuara në tekst, një-aplikacion. Implementimet e agjentëve me vlerën më të lartë dhe rrezikun më të ulët sot përfshijnë detyra kryesisht tekst-hyrje, tekst-dalje brenda një aplikacioni ose API të vetëm.

Vlerësoni cilësinë e harness-it, jo vetëm benchmark-et e modelit. Një sistem që merr pesë pikë më pak në benchmark por përfshin logjikë riprovë të fortë do të tejkalojë një model me pikë më të lartë në prodhim.

Buxhetoni për mbikëqyrje njerëzore. Implementimet më të suksesshme të agjentëve e trajtojnë AI-në si përshpejtues për punonjësit njerëzorë, jo zëvendësim.

Monitoroni standardet e infrastrukturës. MCP, A2A dhe Web Bot Auth janë të hershme por domethënëse. Organizatat që ndërtojnë mbi këto standarde tani do të jenë të pozicionuara më mirë.

Jini skeptikë ndaj premtimeve të automatizimit end-to-end. Çdo furnizues që premton workflow plotësisht autonome multi-hap përmes shumë aplikacioneve sot ose po mbivlerëson aftësinë e vet ose operon në një fushë shumë të ngushtë.

Përfundimi

Industria e agjentëve AI në fillim të 2026 paraqet një asimetri të habitshme. "Truri" — arsyetimi, gjenerimi i kodit, planifikimi — është përmirësuar në mënyrë dramatike. Por "trupi" — aftësia për të ndërvepruar në mënyrë të besueshme me botën dixhitale të çrregullt, të mbrojtur nga autentifikimi dhe vizualisht komplekse që njerëzit ndërtuan për veten — mbetet shumë prapa.

Çdo kompani e madhe teknologjike ka lëshuar agjentë. Asnjëra nuk e ka zgjidhur problemin e besueshmërisë së përbërë. Kompanitë që do të fitojnë në këtë fazë të radhës nuk do të jenë domosdoshmërisht ato me modelet më të fuqishme. Do të jenë ato që zgjidhin problemin e harness-it.

Për momentin, vlerësimi më i ndershëm është ky: agjentët AI janë vërtet transformues në kontekstin e duhur, dhe vërtet të pabesueshëm në atë të gabuar. Diferenca midis të dyve nuk është inteligjenca. Është hidraulika.

Nëse po vlerësoni se si agjentët AI përshtaten në strategjinë tuaj të biznesit, kontaktoni ekipin tonë për një konsultim falas. Ne ndihmojmë bizneset të ndajnë hype-in nga praktikja, të ndërtojnë infrastrukturën e duhur dixhitale dhe të implementojnë AI-në aty ku jep vërtet rezultate.

Pika e Verbër Miliarda-Dollarëshe: Agjentët AI Arsyetojnë si Ekspertë por Ende Nuk Dinë të Bëjnë Copy-Paste