Stora språkmodeller kräver stora datamängder. I regel utgör fritt tillgänglig text insamlad från internet merparten av den träningsdata som ligger till grund för modellerna. Ofta kompletteras den med domän- eller företagsspecifik data för finträning, vilket in sin tur förbättras prestation. En framgångsfaktor för generativ AI är högkvalitativ data. Garbage in, garbage out osv.
Så vad händer när vi trålat all data vi kan hitta på internet och när vi samlat in all text producerat av vårt företag? Problemet är extra stort när man verkar i ett relativt litet språkområde som svenska. Då måste vi avancera. Vi behöver extrahera text från andra modaliteter: ljud och rörlig bild. Kostnaden i arbetstid och beräkningsresurser ökar snabbt. Min överslagsberäkning visar att kostnaden för att samla in 1 GB råtext (givet en dynamisk webbsida, hyfsat optimerade metoder och en molntjänst som AWS EC2) konservativt inte bör överstiga $100, där kostnaderna är baserade på prisuppgifter från AWS i februari 2024. Om vi vill extrahera motsvarande mängd rådata i textform från ljud handlar kostnaden snarare om $10 000 (givet en talhastighet på 150 ord per minut och en genomsnittlig ordlängd på fem bokstäver och en tal-till-text-modell som AWS Transcribe). Notera också att utvecklingstiden för ett liknande projekt handlar om veckor snarare än timmar, som i fallet med texttrålning.