Datu analīze ar Claude.ai Analysis tool
Autors: Aivis Brutāns, datu zinātnieks, Datu skolas aktīvists
Šī gada 24.oktobrī uzņēmums Anthropic papildināja Claude.ai tērzēšanas rīku ar datu analīzes funkciju Analysis tool, kas dod lietotājam augšuplādēt datu failus un veikt šo datu analīzi. Uzņēmums tādā veidā vēlas neatpalik no tirgū labu laiku pieejamās ChatGPT datu analīzes funkcijas. Šajā rakstā aplūkošu, cik labi šis rīks spēj analizēt Cēsu novada iedzīvotāju 2021.gada aptaujas rezultātus — datu kopa, kuru nupat izmantoju ChatGPT Canvas testēšanā.
Lai varētu izmantot šo funkcionalitāti, vispirms veic sekojošas darbības:
- sava Claude.ai profila iestatījumos (https://claude.ai/settings/profile) ir jāaktivizē artifacts lietošana (Enable artifacts),
- aktivizē Analysis tool lietošanu Feature preview logā.
Tālāk čatam pievieno failu un uzvednē norādi, lai veic šo datu analīzi. Taču ir jāņem vērā sekojošais:
- Claude.ai atļauj augšuplādēt tikai konkrētus failu formātus. Atbalstāmo faila formātu saraksts ir pieejams šeit. Piemēram, Excel failu pievienot neizdosies.
- Claude.ai rīks nevar analizēt lielus datu failus. Tiem ir jāiekļaujas Anthropic modeļu konteksta loga rāmjos. Pie tam, apjomu vēl ietekmē tas, vai lietotājs izmanto bezmaksas vai maksas plānu un kāda ir Claude.ai noslodze rīka izmantošanas brīdī.
Ar konteksta logu saprot maksimālo tokenu skaitu, ko valodu modelis spēj apstrādāt. Tokens ir vārds vai vārda daļa. Šeit ir pieejams OpenAI izstrādāts rīks, kurš vizuāli atspoguļo, kā izskatās tokenizēts teksts. Tātad, Anthropic valodu modeļiem ir ierobežots tokenu skaits, kurus tie var apstrādāt, tāpēc lielu datu failu gadījumā lietotājam neizdosies veikt analīzi.
Šeit ir piemērs ar konteksta loga ierobežojumu, kurā izmantoju pārveidotos Cēsu novada aptaujas datus:
Kā redzams, tad ChatGPT Canvas analīzē izmantoto datu failu Claude.ai nevar apstrādāt — bezmaksas piekļuves gadījumā tokenu skaits failā pret tokeniem, ko varu izmantot bez maksas, pārsniedz 9 reizes. Brīdī, kad gribēju veikt bezmaksas analīzi, nebija pieejams arī jaunākais Claude modelis:
Arī maksas plāna gadījumā tokenu skaits ir pārāk liels — tas pārsniedz 1/3 no pieļaujamā apjoma. Tāpēc šim nolūkam izmantoju saīsināto pētījumu datus, atmetot nost kolonnas, lai iekļautos konteksta loga ietvaros. Jāņem vērā, ka konteksta logu ietekmē ne tikai pats fails, bet arī uzvednes garums — jo garāks tas ir, jo vairāk tokenu tiek tērēts.
Lai saprastu, vai Analysis tool varēs apstrādāt .csv failu, izveidoju rīku (Token Counter), kurš rēķina cik daudz tokenu liels ir šis fails — ja tas pārsniedz vai ir ļoti tuvs Anthropic modeļu konteksta logam (~200 tūkst. tokenu), tad šo .csv failu Analysis tool apstrādāt nevarēs:
Izveidotais rīks rāda aptuvenu rezultātu, jo ir vēl citi faktori, kas ietekmē kopējo tokenu skaitu: kā .csv fails Claude.ai pusē tiek apstrādāts, uzvednes lielums (t.sk. sistēmas uzvedne, kas rīka lietotājam nav redzama) un pārlieku lielas Claude.ai noslodzes gadījumos tiek ierobežots konteksta loga apjoms — pat ja izvēlētais modelis spēj apstrādāt vairāk tokenus.
Analīzes rezultāts
Ja ir uzrakstīta viena liela uzvedne, kurā norādīts plašs uzdevumu klāsts, kas Claude.ai ir jāatspoguļo, tad var saskārties ar situāciju, ka rīks ir sasniedzis tokenu limitu, ko vienā atbildē tas spēj ģenerēt:
Tāpēc iztrūkstošo analīzes daļu jāprasa nākamajos soļos.
Tāpat kā ChatGPT datu analīzes rīks, arī Claude.ai Analysis tool spēj veidot grafikus un atspoguļotie skaitļi ir pareizi. Atgādināšu, ka līdzīgā datu analīzes uzdevumā ChatGPT Canvas mēdz skaitļus izdomāt, tāpēc bija jāveic papildu darbības, lai iegūtu pareizu rezultātu. Analysis tool vizualizācijas piemēri:
Lai gan tika prasīts pašvaldības servisus un infrastruktūras aspektus analizēt atsevišķi, nākamajās divās vizualizācijās šīs kategorijas ir saliktas kopā:
Analysis tool vizualizācija veidota Javascript programmēšanas valodā. Ja grafikos ir nepieciešams veikt izmaiņas, tad ir jāpārzina šī valoda. Lai rīks ģenerētu grafikus, tas ir jānodefinē uzvednē.
Pati datu analīze ir mazāk interesanta — tas ir rādītāju apkopojums, kurā norādīti vērtējumu vidējie lielumi un % sadalījums. Šāds apkopojums palīdz analīzes rakstīšanā, ko varētu mēģināt uzticēt ChatGPT Canvas.
Otrajā analīzes piegājienā iedevu tikai vienu uzdevumu:
Create a detailed survey analysis of each blocks (“qnum_”, “y_priority_”, “rate_service_”, “rate_availability_”, “y_using_”) considering respondents’ demographics (sex, age_category, education, occupation, residence_change_next_5_yrs and vehicle_to_riga).
Šeit, tāpat kā pirmajā piegājienā, pa punktiem salikti procentu un vidējo vērtējumu atspoguļojums. Interesanti, ka rīks savās atbildēs gandrīz koncentrējās tikai uz vienu demogrāfisko parametru — dzimumu. Taču patīkami pārsteidza analīzes daļa par respondentu pārvietošanās paradumiem. Tajā bija interesants secinājums — no sabiedriskā transporta lietotājiem visbiežāk to izmanto seniori, darba spēka vecuma respondenti vairāk izmanto automašīnu un lielākais velosipēdu izmantošanas īpatsvars ir bērnu un jauniešu vidū:
Tātad rīks ne tikai apkopoja rādītāju griezumu pēc vecuma grupas, bet arī atrada būtiskās atšķirības starp šīm vecuma grupām.
Kopsavilkums
- Lietojot Claude.ai Analysis tools bez maksas valodu modeļa konteksta loga un papildu ierobežojumu dēļ būs iespējams analizēt tikai mazas datu kopas. Arī maksas gadījumā ir jāpārdomā datu struktūra, jo pārāk lielus failus Claude.ai nespēj apstrādāt. Šis ir būtisks trūkums, jo no datu faila nācās izkļaut daļu parametru, kas atsevišķos gadījumos var ietekmēt analīzes rezultātu.
- Bezmaksas un Pro plāna lietotāju uzvednes tiek izmantotas Anthropic modeļu trenēšanā, tāpēc sensitīvu datu analīzei šis rīks nav piemērots. Modeļi netiek trenēti biznesam paredzētos produktos (Teams un Enterprise plāni, API pieprasījumi).
- Analysis tools rīks ir labs rādītāju apkopotājs, bet analīzes aprakstošo daļu ir vērts uzticēt kādam citam.
- Datu analīzes uzdevumu vēlams sadalīt vairākos soļos, jo vienā uzvednē, nodefinējot plašu uzdevumu klāstu, var saskārties ar situāciju, ka Claude.ai nepabeidz analīzi — tas būs sasniedzis maksimālo tokenu skaitu, ko vienā reizē spēj ģenerēt.
- Ar Analysis tools ir iespējams veidot grafikus, un, tā kā ir aktivizēta Artifacts funkcionalitāte, tad ar grafikiem var arī dalīties.
- Grafiku veidošanā Claude.ai izmanto Javascript valodu. Lai grafikos veiktu izmaiņas, ir jāpārzin šī programmēšanas valoda, vai arī jāpaļaujās uz valodu modeļiem, kuri var veikt izmaiņas lietotāja vietā.
- Lietotājs nevar labot atsevišķas analīzes daļas. Ja kāda analīzes sadaļa nav apmierinoša, tad jāveido jauna uzvedne, kurā precizē vēlamo rezultātu.
Ar Analysis tool izveidoto datu analīzi ir iespējams iepazīties šeit.