Inden for cybersikkerhed har forskere og eksperter i stigende grad vendt sig til naturlig sprogbehandling (NLP) for at få indsigt og bekæmpe trusler. Med sit berygtede ry som et knudepunkt for ulovlige aktiviteter, viser darkweb sig som en guldgrube af brugbar data til at bekæmpe IT-kriminalitet, ved at udvinde og analysere cybertrusselsintelligens (CTI) og endda på en større skala.
For at løse disse udfordringer har et team af forskere fra Korea Advanced Institute of Science and Technology (KAIST) og dataintelligensfirmaet S2W udviklet DarkBERT – en sprogmodel, der er specielt fortrænet på dark web-data. Denne artikel udforsker de potentielle applikationer og ydeevnen af DarkBERT til at automatisere dark web mining til CTI.
DarkBERT: En tilpasset sprogmodel til det mørke web
Forskerne påbegyndte en mission for at bestemme effektiviteten af en specialtrænet sprogmodel til at udvinde værdifuld indsigt fra det mørke web. DarkBERT gennemgik omfattende fortræning på cirka 6,1 millioner sider med mørk web-data på engelsk, hvor forskerne filtrerede irrelevant og meningsløst indhold fra. Dens ydeevne blev derefter sammenlignet med to populære NLP-modeller - BERT, en maskesproget model introduceret af Google i 2018, og RoBERTa, en AI-tilgang udviklet af Facebook i 2019.
DarkBERT's USP'er:
Forskerne vurderede DarkBERTs evner gennem tre cybersikkerhedsrelaterede use cases:
1. Registrering af ransomware-lækagested:
Ransomware-bander bruger ofte det mørke web til at etablere lækagesider, hvor de offentliggør fortrolige data fra organisationer, der nægter at betale løsesum. DarkBERT udmærkede sig ved at identificere og klassificere sådanne websteder og overgik ydeevnen for de andre modeller. Forskerne bemærkede DarkBERTs fordel ved at forstå det sprog, der bruges i underjordiske hackingfora på det mørke web. Desuden understregede de vigtigheden af tekstforbehandling for at reducere uvedkommende information og forbedre DarkBERTs ydeevne.
2. Bemærkelsesværdig trådgenkendelse:
Mørke webfora tjener som platforme til udveksling af ulovlig information, hvilket kræver, at sikkerhedsforskere overvåger dem for bemærkelsesværdige tråde, der indikerer potentielle risici. Automatisering af opdagelsen og evalueringen af disse tråde kan reducere forskernes arbejdsbyrde betydeligt. På grund af opgavens forviklinger og det specifikke sprog, der blev brugt på det mørke web, var DarkBERTs overordnede præstation i den virkelige verden bemærkelsesværdig tråddetektion dog ikke så imponerende som i tidligere evalueringer. Ikke desto mindre anerkendte forskerne DarkBERTs betydelige præstationsforbedring sammenlignet med andre sprogmodeller. De udtrykte tillid til, at ved at inkorporere flere træningsprøver og yderligere funktioner, såsom forfatterinformation, kunne detektionsydelsen forbedres yderligere.
3. Trussel søgeordsslutning:
Forskere brugte udfyldningsmaske-funktionen til at identificere nøgleord forbundet med trusler og narkotikasalg på det mørke web. Denne tilgang udnyttede evnen til BERT-familiesprogmodeller til at identificere passende ord til at udfylde maskerede positioner, hvilket muliggjorde indfangning af trusselsindikerende nøgleord. DarkBERT klarede sig bedre end andre testede varianter i denne opgave og demonstrerede dens effektivitet til at identificere dark web-trusler.
Samlet vurdering
DarkBERT udviste overlegen ydeevne på tværs af alle de præsenterede opgaver og udkonkurrerede andre forudtrænede sprogmodeller. Forskerne konkluderede, at DarkBERT lover fremtidig forskning i det mørke web-domæne og cybertrusselsindustrien. De anerkendte imidlertid behovet for yderligere forfining og finjustering for at udvide dets anvendelighed. Fremtidige planer omfatter forbedring af ydeevnen af domænespecifikke fortrænede sprogmodeller til det mørke web ved hjælp af nyere arkitekturer og inkorporering af yderligere data for at udvikle en flersproget sprogmodel. Med fortsatte fremskridt kan DarkBERT potentielt revolutionere automatiseringen af dark web mining til cybertrusselintelligens, hvilket bidrager til forbedret cybersikkerhedspraksis.
Comments