Maskin læring og dokumenter – 3 relevante caser

Hvordan et nettverk av gravejournalister avdekket korrupsjon i Panama Papers saken.

Hvordan DNV og Inmeta ønsker å effektivisere ingeniørenes arbeidshverdag.

Hvordan Avant IT har hjulpet et forsikringsforetak med å spare tid og automatisering av arbeidsoppgaver.

Vår konklusjon rundt AI og maskin læring

Mange bedrifter snakker om kunstig intelligens (AI – Artificial Intelligence) og maskinlæring, men det er få som har tatt i bruk AI til noe virkelig nyttig.

Vi skal se på 3 gode caser hvor AI og ML er brukt til noe annet enn chatbots og løst noen reelle utfordringer i arbeidshverdagen.

Case 1 – ICIJ

ICIJ – International Consortium of Investagative Journalists er et nettverk av journalister som ønsker å inspirere og dyrke et samhold av journalister og lesere som har stor tro på at gravejournalistikk kan påvirke til positive endringer i verden.

ICIJ har hatt gjentatte utfordringer med å gå og grave seg gjennom gigantiske mengder data. De har nylig delt et skattefunn, bestående av 1.2 millioner lekkede dokumenter fra Mossack Fonseca, med sine partnere i den berømte Panama Papers saken.

Dette var i tillegg til 11.5 millioner filer i saken og som ble overlevert til ICIJ av den tyske avisa Süddeutsche Zeitung og basisen var 13.6 millioner dokumenter for sonderingen og kartlegging i Paradise Papers.

Hvis èn journalist hadde brukt ett minutt på å lese gjennom hver fil i saken så ville det ta 26 år å gå gjennom alt. Det sier seg selv at det ikke er et realistisk scenario.

Hvordan løste de det?

Ved å få laget en spesialutviklet søkemotor.

Selv om de kunne gjøre sofistikerte søk for research’en har utfordringene fortsatt å melde seg. Hva skal man gjøre når et søk kommer tilbake med 150.000 ubegripelige resultater? Det neste steget var å filtrere informasjonen, som var relevant til hver sin sak, på en intelligent måte.

Her er en beskrivelse på 3 steg – hvordan de effektiviserte prosessen med å gå gjennom enorme datamengder ved hjelp av maskinlæring og tilhørende teknologier:

Steg 1 – Transformasjon av big data

De har måttet håndtere millioner av dokumenter i lekkasjen rundt Paradise Papers, inkludert PDF’er, bilder og emailer. Det har også vært utfordrende å utføre ved hjelp av tradisjonelle verktøy som Excel. Big Data er beskrivelse på enorme ustrukturerte mengder data som må temmes til å bli strukturerte datasett.

De lastet opp lekkede filer til en server for indeksering og Apache Solr ble valgt til dette formålet. Apache Solr er open source programvare og er gratis i å ta i bruk.

OCR teknikken (Optical Character Recognition) ble brukt for gjenkjenning av tekst i dokumenter som ble lagret som bildefiler (signerte PDF’er som ble printet og så skannet).

ICIJ har selv utviklet et eget OCR-verktøy, Extract og det gjenkjenner og indekserer tekst ved å bruke kraften til 30 servere eller mer. Verktøyet bruker komponenter fra eksisterende open source verktøy som Apache Tika og Tesseract.

Deretter blir dataene transformert og analysert i Talend Studio og i dette verktøyet kan du flytte komponenter rundt og lage workflows visuelt.

Eksempelvis automatiseres et søk og resultatene lagres ved å lage en jobb i Talend, som søker på et uttrykk, navn på organisasjonen eller et individ som journalisten samler informasjon om, for eksempel «Glencore». Søket vil resultere med et treff bestående av informasjon fra teksten i dokumentene og disses metadata; dokumentID, navnet på filen, rotfilen, filtype og filstørrelse.

Søkeresultatene lagres i Solr, en database som gjenkjenner relasjonene mellom elementene.

Det var ikke nødvendig å lagre all teksten i dokumentene fordi analysen er en langsom prosess. De la heller til et filter som analyserte kun de første sidene eller ordene i dokumentene.

Steg 2 – Gruppering av dokumenter i klynger (cluster)

Klynging eller clustering er en teknikk som gir oss mulighet til å gruppere og samle like elementer. Istedenfor å skumme gjennom store mengder av PDF’er så kan man heller lage gruppe av dokumenter som har samme emne eller samme type dokument. Slik kan en reporter få tilgang til like dokumenter med en gang. Det kan for eksempel være dokumenter som handler om overføring av midler.

ICIJ brukte RapidMiner for å prosessere teksten og metadataene om dokumentene for deretter å lage clustere basert på felles ord og uttrykk. RapidMiner er et kraftig verktøy som gjør det enkelt å implementere algoritmer for datainnsamling og i tillegg har det et visuelt grensesnitt.

I neste steg behandles innholdet i dokumentene ved å transformere og bruke filtre på teksten i dokumentene i RapidMiner.

For den detaljorienterte leser – her er ICIJ sin arbeidsflyt i den spesifikke saken:

  • Tokenize: Denne prosessen separerer teksten i en sekvens av individuelle ord, eller «tokens», for forberedelser for videre databehandling.
  • Token filter (valgfritt steg): I noen tilfeller la dataforskerne hos ICIJ merke til at de mest relevante nøkkelordene og uttrykkene var skrevet i store bokstaver – så de la til et token filter for å analysere kun ord i store bokstaver som var lengre enn 3 tegn.
  • Eliminering av stopp-ord: Fjerne alle ord som finnes i dagligtale og som ikke har noen hensikt for å tyde og tolke dokumentene. Dette er ord som; «a», «and», «the», «be» (engelsk fordi ICIJ skulle analysere dokumenter på engelsk).
  • Stemming (stamming): Finne rotordet for alle tokens/ord i dokumentet. For eksempel; fisking, fisket og fisker stammer fra fisk. Noen typer stamming vil ikke resultere i reelle ord men vil være maskin kalkulert stamming. For eksempel; kan ordene «expression» og «expressive» blir forkortet til «express». Denne teknikken identifiserer temaet i et dokument ved å gjøre om alle derivater av rotordene til et enkelt token.
  • Klynging/Clustering: Felles ord og uttrykk i et dokument er klynget sammen, eller clustered, slik at likheten i dokumentene blir mer tydelig.

Med en slik prosess kan vi lage grupper av dokumenter som inneholder like tokens (ord).

I ICIJ etterforskning fant de følgende sett av transformerte token i dokumenter som var like:

  • loan agreement
  • share purchas agreement (denne vil plukke opp “share purchasing agreement” eller «share purchased agreement” siden den bruker rotordet)
  • altern director appoint confirm
  • written resolut sole sharehold adopt
  • fund agreement plc
  • transfer agreement
  • board director unanim written resolut herebi adopt
  • altern director resign
  • privat confidenti
  • power attornei
  • director appoint confirm

Etter behandlingen kunne de kjøre spørringer i Solr for å få en liste på dokumenter som traff på søkeparameterne. Uten å ha åpnet et eneste dokument hadde de nå kunnskap om hva slags dokument de hadde med å gjøre og om det var av interesse. Da hadde de også oversikt over ord og uttrykk for å finne de direkte.

Med denne strukturen så laget de et regneark i Talend. De hadde nå en liste med søkeresultatene, id på dokumentene, id på dokumentklyngene, et felt for token klynger og de første 500 tegnene på et dokument som fungerte som en slags forhåndsvisning før nedlastning. Regnearket inneholdt også URL’er slik at dokumenter kunne bli lastet ned direkte fra plattformen.

Denne type oversikt i et regneark tillot ICIJ å utforske dokumenter på en effektiv måte fordi reportere kunne avskrive dokumenter som de ikke var interessert i og lett kunne identifisere hvilke som var relevante.

Steg 3 – Automatisk fil-klassifisering

Etter å ha brukt prosessen i foregående punkt for å klassifisere lekkede dokumenter så kommer vi til punktet om å bruke maskinlæring for å automatisk klassifisere andre dokumenter som ICIJ ikke hadde åpnet.

Først, trengte de et strukturert datasett for å trene modellen for maskinlæring i RapidMiner. Denne modellen lærte da å klassifisere nye filer ved å bruke eksisterende data og metadata i neste skritt.

Etter å ha anvendt transformasjon og filtre som forklart i steg 1, kunne modellen ta hensyn til alle token (ord) og/eller uttrykk som måtte være til stede i en fil for å kunne klassifisere den tilsvarende.

Når de la til en fil så kunne modellen avgjøre hvilken kategori den kunne tildeles.

Modellen fra maskinlæringen kunne da plassere nye filer under følgende kategorier i saken:

  • NOMINEE AGREEMENT
  • LOAN AGREEMENT
  • UNANIMOUS WRITTEN RESOLUTIONS
  • SHARE TRANSFER AGREEMENT
  • SALE AND PURCHASE AGREEMENT
  • REGISTER OF SHAREHOLDER
  • REGISTER OF MEMBERS
  • POWER OF ATTORNEY
  • PLAN OF DISSOLUTION
  • OFFICER’S APPOINTMENT CONFIRMATION
  • OFFICER’S RESIGNATION NOTARIAL
  • CERTIFICATE
  • MANAGEMENT AGREEMENT
  • FUNDING AGREEMENT
  • FINANCE AGREEMENT
  • DIRECTORS ‘APPOINTMENT

Dette var ICIJ’s implementasjon av maskinlæring for å avsløre korrupsjon via enorme mengder data og dokumenter.

Maskinlærings-modeller krever at det vedlikeholdes. Ikke minst må verktøyene analyseres og modellene må også retrenes for å få høyere nøyaktighet.

Case 2 – DNV og Inmeta

Digi skrev i en artikkel om DNV GL sitt AI prosjekt som startet for ca 3 år siden og i fjor ble løsningen satt i produksjon. De har brukt maskinlæring til prosessen rundt godkjenning av skip.

De har i samarbeid med Inmeta fått laget en løsning som gjør at AI-løsningen kan skanne inn en tegning av et skip og så vil en algoritme finne ut av om de har lignende eller samme tegning fra før.

Slik kunne de få på konteksten i et dokument, se hva som er likt og hva prosjektet handler om – uten å åpne dokumentet.

Resultat

AI vil i dette tilfellet vil frigjøre tid slik at ingeniørene kan jobbe mer med det de er utdannet til å jobbe med, i stedet for kjedelig rutinearbeid.

Et eksempel er å se på maskinlæring for å finne jobber som må verifiseres. Ved godkjenning av båter må nemlig alle jobber verifiseres, men det er få jobber som virkelig krever korreksjon.

DNV prøver å finne karakteristika ved de jobbene som faktisk blir endret, og trener maskinlæringen til å finne ting. I stedet for å gå gjennom alle jobber to ganger, så lar de maskinlæringen gi dem de jobbene som antagelig trenger korreksjon.

AI & email-klassifisering

Et annet eksempel som er nevnt i artikkelen er de allerede er i gang med å bruke AI til å klassifisere eposter som kommer inn for å koble kundene mot de riktige ekspertene i selskapet. Maskinlæringsalgoritmer er trent opp på 200.000–300.000 eposter.

De har en tjeneste som sier at du skal få svar på ethvert spørsmål innen fire timer. De får inn titusenvis av eposter med spørsmål innenfor kanskje 2000 forskjellige kategorier.

Algoritmen vil klassifisere epostene slik at man slipper å gjøre det manuelt. Ved å trene de nevrale nettverkene med gamle eposter som man vet hvordan skal kategoriseres, har DNV GL klart å oppnå en treffprosent på mer enn 70 prosent.

Du kan lese hele artikkelen her

Case 3 – Avant IT sitt forskningsprosjekt med maskin læring

Vi i Avant IT har hatt et forskningsprosjekt på maskinlæring – kategorisering av dokumenter på Sharepoint – for en kunde i forsikringsbransjen.

Kunden har mange dokumenter på Sharepoint og kategorisering av dokumenter tar mye tid så de ville finne ut om det var mulig å spare tid og automatisere manuelt repeterende arbeid.

Vi kjørte et testprosjekt for å se om den tekniske fremgangsmåten lot seg gjennomføre og det ikke oppsto noen uforutsette tekniske hindringer.

Prosessen vi har brukt er beskrevet i 4 steg:

1.     Vi samlet sammen 500 Word dokumenter og genererte en Excel-fil som inneholdt dokumentnavn, tittel og kategori (område og type).

2.     Tekstanalyse ble utført på disse 500 dokumentene med Microsoft Cognitive Text Analytics – nøkkelord ble hentet fra Excelfilen i tillegg til dokumentnavn, tittel og kategori

3.     Dataene i Excelfilen ble brukt som treningsmodell for maskin læringen og modellen ville danne en sannsynlighetsberegning for hvilken kategori som er riktig.

4.     3 tester ble kjørt for å vurdere nøyaktigheten av foreslåtte kategori på dokument:

a.     Første test ga kategori med 62% nøyaktighet. En del data ble oppfattet som søppel og skapte støy for å finne et mønster for sannsynlighetsberegningen.

b.     Neste test ga 92% nøyaktighet etter at vi ryddet i treningsmodellen – vi lærte at det er viktig å ta stilling til hvilke data man bruker som treningsmodell

c.     I tredje test brukte vi ca 200 nye dokumenter fra en annen periode for å se hvilke kategorier som foreslått basert på treningsmodell og data fra test 1 og 2. Resultatet ble da 82% nøyaktighet.

Vi har skjønt at for å øke nøyaktigheten trenger vi større antall data fra rundt 50-100 000 dokumenter hvor både PDF’er og eposter også er med.

Et siste steg som vi tok for å øke nøyaktigheten – kjørte vi et nytt forsøk ved å retrene treningsmodellen ved å kjøre resultatene tilbake til treningsmodellen. Vi estimerer at vi med dette vil oppnå rundt 90% nøyaktighet.

I neste fase vil vi bruke maskin læring til å skape flere automatiserte prosesser:

  • Opprette oppgaver
  • Delegere saker til kø, team eller medarbeidere
  • Automatiserte kvitteringer
  • Status
  • Svar til parter i saken via ulike kanaler

Konklusjon

Vi ser at alle casene omhandler dokumentbehandling i en eller annen form.

Ved å bruke maskin læring og AI til dokumentbehandling og automatisere prosesser fører til en forenklet arbeidshverdag for ansatte og dette er riktig bruk av teknologi som gjør verden til et bedre sted å leve i.

Dette vil vi gjerne bidra med og vi kommer tilbake med mer rundt slike prosjekter.

Ønsker du å utforske muligheter for å forenkle hverdagen for dine ansatte i din bedrift ved hjelp av AI og maskin læring så ta gjerne kontakt med oss på: sukhvinder.singh@avantit.no

Avant IT er et fremtidsrettet teknologiselskap som skreddersyr løsninger for deg og ditt selskap.

Våre fokusområder består av:

  • Microsoft Dynamics 365 og custom utvikling
  • Software Utvikling
  • Skydrift – Azure
  • Microsoft Office 365
  • Print & Dokumentstyring

samt tilhørende Service & Support rundt disse områdene.

Våre utviklere og konsulenter har lang og bred erfaring i å skreddersy Dynamics 365 (CRM) etter ditt behov. Dette gjelder for alle bedrifter som har et behov innenfor salg, markedsføring, kundeservice, feltservice, prosjektstyring – eller rett og slett en kombinasjon av disse. Vi har også meget god erfaring med integrasjoner mot diverse ERP systemer, som blant annet Visma Global, Visma Lønn, 24 Seven Office og Uni Micro for å nevne noen.

I tillegg til disse ERP integrasjonene har vi flere ulike moduler som vi inkluderer i våre skreddersydde forretningssystemer for våre kunder.

Vi leverer i dag innovative løsninger innenfor våre fokusområder til kunder spredt rundt i Norden. Som en dedikert Microsoft Gold partner jobber vi kontinuerlig med å utvikle innovative løsninger for å imøtekomme våre kunders behov og ønsker.