Vad kostar data?

Stora språkmodeller kräver stora datamängder. I regel utgör fritt tillgänglig text insamlad från internet merparten av den träningsdata som ligger till grund för modellerna. Ofta kompletteras den med domän- eller företagsspecifik data för finträning, vilket in sin tur förbättras prestation. En framgångsfaktor för generativ AI är högkvalitativ data. Garbage in, garbage out osv. 

The Power of Beneath (1913) av Bob Satterfield via Wikimedia Commons
The Power of Beneath (1913) av Bob Satterfield via Wikimedia Commons.

Så vad händer när vi trålat all data vi kan hitta på internet och när vi samlat in all text producerat av vårt företag? Problemet är extra stort när man verkar i ett relativt litet språkområde som svenska. Då måste vi avancera. Vi behöver extrahera text från andra modaliteter: ljud och rörlig bild. Kostnaden i arbetstid och beräkningsresurser ökar snabbt. Min överslagsberäkning visar att kostnaden för att samla in 1 GB råtext (givet en dynamisk webbsida, hyfsat optimerade metoder och en molntjänst som AWS EC2) konservativt inte bör överstiga $100, där kostnaderna är baserade på prisuppgifter från AWS i februari 2024. Om vi vill extrahera motsvarande mängd rådata i textform från ljud handlar kostnaden snarare om $10 000 (givet en talhastighet på 150 ord per minut och en genomsnittlig ordlängd på fem bokstäver och en tal-till-text-modell som AWS Transcribe). Notera också att utvecklingstiden för ett liknande projekt handlar om veckor snarare än timmar, som i fallet med texttrålning.  

GPT-4o

Everyone in tech has an opinion on GPT-4o and I have one as well. Like everyone else, I love the capabilities, even though they are intrinsically flawed. Time and time again we see proof of wildly unhelpful and non-human behaviour. (By non-human, I’m referring mostly to the complete lack of common sense). However, I am not too concerned about that. There are dangers, of course, to the lack of veracity of GPT-4o. Especially considering the public’s immature understanding of AI. It seems to me that a lot of the non-professional users have a very vague understanding of the inner workings of a large language model – at best. I take comfort in the fact that a lot of the false information is quite obvious and rarely harmful.

But I am still critical. GPT4-o will be incredibly useful to me as an AI professional, but as a person – I hate it. The cultural context of GPT-4o appear detached and misantropic. I do not want to talk to an overtly flirty AI Valley girl. (No hate to Valleyspeak though – I actually love it.) The icing on the cake is the already famous tweet by Sam Altman, which simply states “her”. No more, no less. He is referencing the 2013 movie “Her” in which a man falls in love with his AI assistant. This is a long standing trope in science fiction based on the Pygmalion myth. In Greek mythology, Pygmalion was a sculptor who falls in love with a statue he carved. There is an excellent paper called Pygmalion Displacement: When Humanising AI Dehumanises Women (2023) where you can find a detailed history of the Pygmalion myth in sci-fi. Please read it.

Textival Litteraturfestival

I somras deltog jag som moderator på Textival Litteraturfestival under den suggestiva programpunkten “Neurologiska typografier”. Det var ett samtal om den artificiella intelligensens påverkan på den samtida konsten. Deltog gjorde också Johan Agorelius, författare till “Ammaseus horisont: AI tolkar Karin Boye” (2021), Dan Andersson och Annelie Horáková från Revet Scenkonst som 2022 turnerat med föreställningen “Nattygsbordet” vars manus genererats av GPT-2 samt Andreas Reefsgard, digital konstnär.

Samtalet ägde rum på Skeppet GBG och finns att ta del av som podd.

Ett modulärt bokhyllesystem

Hösten 2017 svämmade mitt rangliga billybibliotek över av böcker. Ursprungligen ville jag köpa nya hyllor men jag insåg snart att jag hade att välja på ett väldigt fult eller dyrt hyllsystem. Eftersom vi bor i en hyresrätt var platsbyggda bokhyllor inte heller något alternativ, och vi konstruerade därför ett eget system. Jag ville ha ett flexibelt hyllsystem med plats för mycket böcker. Det blev därför en lådbaserad konstruktion i vilken många mindre enheter staplas på varandra för att skapa höjd och bredd.

Continue reading “Ett modulärt bokhyllesystem”

Personen bakom pseudonymen Elena Ferrante

2018 publicerades en studie där italienska forskare med hjälp av språkteknologiska metoder gör ett försök att identifiera personen bakom pseudonymen Elena Ferrante.  I samband med detta gjorde jag ett framträdande i egenskap av jourhavande språkteknolog i PP3 för att prata om automatiska metoder för författarskapsbestämning. Idén bakom författarskapsbestämning (authorship attribution på engelska) är att alla människor har ett eget och unikt sätt att uttrycka sig på som påverkas av t.ex var vi bor, vår utbildningsnivå, könstillhörighet, kulturella influenser mm. Om vi kan ringa in en persons individuella språk så kan vi använda oss av den kunskapen för att avgöra om den aktuella personen står bakom ett visst verk eller ej.

Continue reading “Personen bakom pseudonymen Elena Ferrante”

Fake news at SLTC 2018

The seventh Swedish Language Technology Conference (SLTC) recently took place in Stockholm at Stockholm University. I was the moderator of a panel discussion on fake news and troll detection. Members of the panel were Maria Liakata from the University of Warwick, Staffan Truvé of Recorded Future, Leon Strømberg-Derczynski from the IT University of Copenhagen and Georgi Karadzhov from SiteGround Hosting.

Panel discussion on fake news at SLTC 2018.

Continue reading “Fake news at SLTC 2018”

Finding new words with trie data structure

Like the unworldly linguist that I am, I spent the election of 2018 making a bot that announces to the world everytime a new word occurs in Dagens Nyheter. You can find it on Twitter under the handle @nya_ord_i_dn. In addition to the word (which is tweeted as it occurs in the article), the bot provides a short concordance and a URL to the article in which it occurs.

Continue reading “Finding new words with trie data structure”

Review: “The History of My Insanity”

I love chick-lit, but I hate the term. It’s literature — shortened to ‘lit’, cute, right? — written by and marketed to women exclusively (as men, it seems, are uninterested in the lives of girls and women). But the only thing the target audience has in common is that we’re women; an experience so loosely knit, the fabric becomes useless. A well-established genre of chick-lit is the sex worker memoir. Trisha Paytas joins this tradition with her “The History of My Insanity” (and later, “The Stripper Diaries”). Paytas’s life as a stripper and an escort is not the main focus of the book, but it is a significant aspect. In “The History of My Insanity”, Paytas tells the story of her life so far. She is 25 years old when the book is first published.

Paytas posing in a straitjacket on the cover.

Continue reading “Review: “The History of My Insanity””