AI LLM MOC

LLM = Large Language Models

Bygg chat bot for egen data

Chat med dokumentasjonen din
Chat med dokumentasjonen din - Nøkkelkonsepter
Chat med dokumentasjonen din - Implementasjon

Microsoft build 23.05.2023

Azure ai studio
Fabric
Azd

Begreper

Hallucinating

Lyver med selvtillit

Context Injection

Vi må injecte context for å klare å spørre om det vi vil spørre om.
Hvordan klarer vi å velge riktig context? Vi bruker embeddings.

Embeddings

  • Et vector space, altså samling av vektorer, hvor de vektorene som er like er nære hverandre.
  • Må vektorize input. Databaser har masse å velge mellom.
  • Om man skal. embedde text kan det være naturlig å splitte på header.
  • OpenAI har også APIer for å generere vektorer. Da kan man lagre dem i en hvilken som helst database som har vektor støtte.

Prompt engineering

  • Hvordan skal man formatere promptet for å få best mulig svar?
  • prmpts.AI - codesandbox for prompt engineering
  • Gi en identitet. "You are a very enthusiastic developer who loves to help people!"
  • Task - "Given the following sections from the docs, answer the question using only that information, outputted in markdown format"
  • Condition - "If you are unsure and the answer is not explicitly written in the documentation, sa "Sorry, I Dont know how to help with that".
  • Context sections (context injection) - Tekst som er hentet fra vector databasen
  • Question: """
  • """
  • OpenAI anbefaler å trykke det inn i """ for å vise ekstra godt hva spørsmålet er.
  • Ekstra hint: "Answer as markdown (include related code snippets if available)"

Vektor

Liste med tall

Vector database

Database hvor man kan lagre og gjøre spørre med vektorer
Eksempel databaser

  • Pinecone
  • PgVector i Postgres
  • Weaviate

Dev Verktøy

Pitfalls

The AI Dilemma - Center for Humane Technology
50% av forskere gir > 10% sjanse for at AI utsletter menneskeheten.

Emergent properties

Egenskaper modellen får etter at den når en viss størrelse, som den ikke hadde når den var mindre.
Eks: En modell trent på engelsk data kan plutselig snakke persisk.
Emergent Abilities of Large Language Models artikkel
Problemet med dette er at vi ikke vet hvilke egenskaper en modell faktisk har. De kan ligge skjult, uten at noen vet at de er der.

Relatert:
Sjakk har aldri vært mer populært, til tross for at maskiner er bedre enn mennesker
Emergence
Emergence Tower