Skip to content

Vad är LLM (Large Language Model)?

Vad är LLM (Large Language Model)?

Large Language Model, även kända som LLM, är mycket stora djupinlärningsmodeller som är förtränade på stora mängder data.


Den underliggande transformatorn är en uppsättning neurala nätverk som består av en kodare och en avkodare med självuppmärksamhet. Kodaren och avkodaren extraherar betydelser från en textsekvens och förstår relationerna mellan ord och fraser i den.

molnstrategi

Varför är LLM:er viktiga?

Stora språkmodeller är otroligt flexibla. En modell kan utföra helt andra uppgifter som att svara på frågor, sammanfatta dokument, översätta språk och slutföra meningar. LLM:er har potential att störa innehållsskapandet och hur människor använder sökmotorer och virtuella assistenter.

 

Även om de inte är perfekta, visar LLM:er en anmärkningsvärd förmåga att göra förutsägelser baserat på ett relativt litet antal uppmaningar eller indata. LLM:er kan användas för generativ AI (artificiell intelligens) för att producera innehåll baserat på indatameddelanden på mänskligt språk.

LLM är stora, väldigt stora. De kan överväga miljarder parametrar och har många möjliga användningsområden. Här är några exempel:

 

  • Open AI:s GPT-3-modell har 175 miljarder parametrar. Dess kusin, ChatGPT, kan identifiera mönster från data och generera naturliga och läsbara utdata. Även om vi inte vet storleken på Claude 2, kan den ta upp till 100K tokens i varje prompt, vilket betyder att den kan fungera över hundratals sidor med teknisk dokumentation eller till och med en hel bok.

 

  • AI21 Labs Jurassic-1-modell har 178 miljarder parametrar och ett symboliskt ordförråd på 250 000 ord delar och liknande konversationsmöjligheter.

 

  • Coheres Command-modell har liknande möjligheter och kan fungera på mer än 100 olika språk.

 

  • LightOns Paradigm erbjuder grundmodeller med påstådda kapaciteter som överstiger GPT-3. Alla dessa LLM:er kommer med API:er som tillåter utvecklare att skapa unika generativa AI-applikationer.

Läs mer om generativ AI  »

Hur fungerar stora språkmodeller?

En nyckelfaktor för hur LLM fungerar är hur de representerar ord. Tidigare former av maskininlärning använde en numerisk tabell för att representera varje ord. Men denna form av representation kunde inte känna igen relationer mellan ord som ord med liknande betydelser. Denna begränsning övervanns genom att använda flerdimensionella vektorer, vanligen kallade ordinbäddningar, för att representera ord så att ord med liknande kontextuella betydelser eller andra relationer är nära varandra i vektorrummet.


Med hjälp av ordinbäddningar kan transformatorer förbearbeta text som numeriska representationer genom kodaren och förstå sammanhanget för ord och fraser med liknande betydelser såväl som andra relationer mellan ord som delar av tal. Det är då möjligt för LLM:er att tillämpa denna kunskap om språket genom avkodaren för att producera en unik utdata.

 

Vilka är tillämpningar av LLM?

Det finns många praktiska tillämpningar för LLM.

Copywriting

Förutom GPT-3 och ChatGPT skriver Claude, Llama 2, Cohere Command och Jurassican originalkopia. AI21 Wordspice föreslår ändringar av originalmeningar för att förbättra stil och röst.

 

Kunskapsbassvar

Ofta benämnt kunskapsintensiv naturlig språkbehandling (KI-NLP), avser tekniken LLM:er som kan svara på specifika frågor från informationshjälp i digitala arkiv. Ett exempel är förmågan hos AI21 Studio lekplats att svara på allmänna kunskapsfrågor.

 

Textklassificering

Med hjälp av klustring kan LLM:er klassificera text med liknande betydelser eller känslor. Användningsområden inkluderar mätning av kundsentiment, fastställande av förhållandet mellan texter och dokumentsökning.

 

Kodgenerering

LLM är skickliga i kodgenerering från naturliga språkuppmaningar. Exempel är Amazon CodeWhisperer och Open AI:s codex som används i GitHub Copilot, som kan koda i Python, JavaScript, Ruby och flera andra programmeringsspråk. Andra kodningsapplikationer inkluderar att skapa SQL-frågor, skriva skalkommandon och webbdesign. Läs mer om generering av AI-kod .

 

Textgenerering

I likhet med kodgenerering kan textgenerering slutföra ofullständiga meningar, skriva produktdokumentation eller, som Alexa Create, skriva en kort barnberättelse.

Hur träna man LLM?

Transformatorbaserade neurala nätverk är mycket stora. Dessa nätverk innehåller flera noder och lager. Varje nod i ett lager har kopplingar till alla noder i det efterföljande lagret, som var och en har en vikt och en bias. Vikter och fördomar tillsammans med inbäddningar är kända som modellparametrar. Stora transformatorbaserade neurala nätverk kan ha miljarder och miljarder parametrar. Modellens storlek bestäms i allmänhet av ett empiriskt samband mellan modellstorleken, antalet parametrar och storleken på träningsdata.

Utbildningen utförs med hjälp av en stor korpus av högkvalitativ data. Under träning justerar modellen iterativt parametervärden tills modellen korrekt förutsäger nästa token från en föregående sekvens av inmatade tokens. Den gör detta genom självlärande tekniker som lär modellen att justera parametrar för att maximera sannolikheten för nästa token i träningsexemplen.

När de väl har tränats kan LLM:er lätt anpassas för att utföra flera uppgifter med hjälp av relativt små uppsättningar av övervakad data, en process som kallas finjustering.

Det finns tre vanliga inlärningsmodeller:

  • Zero-shot inlärning; Base LLMs kan svara på ett brett utbud av förfrågningar utan explicit utbildning, ofta genom uppmaningar, även om svarsnoggrannheten varierar.
  • Enkel inlärning: Genom att tillhandahålla några relevanta träningsexempel förbättras basmodellens prestanda avsevärt inom det specifika området.
  • Finjustering: Detta är en förlängning av få-shot-inlärning genom att datavetare tränar en basmodell för att justera dess parametrar med ytterligare data som är relevanta för den specifika applikationen.

Vad är framtiden för LLM?

Införandet av LLM som ChatGPT, Claude 2 och Llama 2 som kan svara på frågor och generera text pekar på spännande möjligheter i framtiden. Sakta men säkert rör sig LLM:er närmare mänskliga prestanda. Den omedelbara framgången för dessa LLM:er visar ett stort intresse för LLM:er av robottyp som efterliknar och, i vissa sammanhang, överträffar den mänskliga hjärnan.

 

Här är några tankar om framtiden för LLM:

 

Ökade möjligheter

Hur imponerande de än är, den nuvarande tekniknivån är inte perfekt och LLM:er är inte ofelbara. Men nyare utgåvor kommer att ha förbättrad noggrannhet och förbättrade möjligheter när utvecklare lär sig hur de kan förbättra sin prestanda samtidigt som de minskar fördomar och eliminerar felaktiga svar.

 

Audiovisuell utbildning

Medan utvecklare tränar de flesta LLM:er med text, har vissa börjat träna modeller med video- och ljudingång. Denna form av utbildning bör leda till snabbare modellutveckling och öppna nya möjligheter när det gäller att använda LLM för autonoma fordon.

 

Arbetsplatsförvandling

LLM är en störande faktor som kommer att förändra arbetsplatsen. LLM:er kommer sannolikt att minska monotona och repetitiva uppgifter på samma sätt som robotar gjorde för repetitiva tillverkningsuppgifter. Möjligheterna inkluderar repetitiva kontorsuppgifter, chatbots för kundtjänst och enkel automatiserad copywriting.

 

Konversations-AI

LLM:er kommer utan tvekan att förbättra prestandan för automatiska virtuella assistenter som Alexa, Google Assistant och Siri. De kommer att bättre kunna tolka användarens avsikter och svara på sofistikerade kommandon.

 

Läs mer om konversations-AI

 

Hur kan OptiTech hjälpa till med LLM?

OptiTech erbjuder flera möjligheter för utvecklare av stora språkmodeller. Enklaste sättet att bygga och skala generativa AI- applikationer är med LLM. OptiTech  är en fullt hanterad företag som gör LLM:er från Microsoft och ledande AI-startups tillgängliga via ett API, så att du kan välja mellan olika LLM:er för att hitta den modell som är bäst lämpad för ditt användningsfall.

 

Azure  är ett maskininlärningsnav med grundmodeller, inbyggda algoritmer och förbyggda ML-lösningar som du kan distribuera med bara några klick Med SageMaker JumpStart kan du komma åt förtränade modeller, inklusive grundmodeller, för att utföra uppgifter som artikelsammanfattning och bildgenerering. Förutbildade modeller är helt anpassningsbara för ditt användningsfall med dina data, och du kan enkelt distribuera dem i produktion med användargränssnittet eller SDK.

 

Kom igång med LLM och AI på AWS genom att kontakta oss direkt så bokar vi ett möte.