LiRA-projektet

POST

LOGGET 20. jun. 2021

Bachelorprojekt udført i samarbejde med LiRA-projektet på DTU. Live Road Assessment bruger sensorer indbygget i almindelige personbiler til at modellere vejtilstand med machine learning — som erstatning for de dyre, specialiserede måleskøretøjer, vejmyndighederne traditionelt har brugt. Flere biler betyder mere data og hyppigere opdateringer, men det betyder også mere sensorstøj, flere dropouts og flere muligheder for, at en hel vejstrækning ender med for lidt brugbart signal til at konkludere noget fra.

Problemet

Når dataindsamling lægges i hænderne på forbrugerhardware og menneskelige bilister, er fejl ikke edge cases — de er datasættets default-tilstand. Sensorer fejler, GPS hopper, ture er for korte, segmenter overlapper, kalibrering driver. Det rå signal er heller ikke læsbart for mennesker: rækker af timestampede accelerometer-/gyroskop-/GPS-prøver springer ikke ud af en CSV og fortæller dig noget.

Før noget af det data kan fodre en machine learning-model, skal det valideres. Validering har to former:

Manuel inspektion — domæneeksperter, der stiller spørgsmål til data, kigger på specifikke vejstrækninger og sanity-checker det, sensorerne så, op mod det, de ved om ruten.
Automatisk validering — kodificerede regler og algoritmer, der i skala flagger dårlige ture, manglende segmenter eller utilstrækkelig dækning.

Specialet byggede værktøjet til at understøtte begge dele.

Hvad jeg byggede

En webplatform til at søge, filtrere og visualisere ture — med arkitekturen og primitivene til senere at udvide med automatiseret, regelbaseret validering.

Søg og filtrér ture på rute, tidsvindue, sensordækning og andre kriterier, så en domæneekspert kan isolere de segmenter, der er værd at inspicere, uden at skrive SQL.
Visualisér det optagne — geografisk kontekst på et kort, sensortraces over tid, gaps og outliers tydeligt markeret — så anomalier bliver iøjnefaldende i stedet for begravede.
Valider manuelt ved at markere ture som gode / dårlige / mistænkelige med noter, der flyder tilbage i datasættet.
Definér automatiske tjek — fundamentet for triggers og analysealgoritmer, der kan flagge mangelfuld data uden en menneskelig i loopet, planlagt som den naturlige udvidelse, når det manuelle workflow havde afsløret, hvilke tjek der var værd at automatisere.

Hele værktøjet var designet til at kunne bruges af ikke-programmører — en domæneekspert skulle kunne skære datasættet i skiver og nå en konklusion uden at forlade browseren.

Stack

React til UI’et. Den visuelle side af værktøjet er hele produktet — interaktive kort, tidsserier man kan scrubbe i, filterpaneler — så en komponentmodel med et hurtigt iterations-loop gjorde hverdagen behagelig.
MUI som designsystem. Det gav værktøjet et sammenhængende, professionelt look ud af kassen og frigav tid til det, der reelt var projektets eget (datasammenstilling, valideringsflows, visualiseringsvalg), i stedet for at genimplementere knapper og tabeller.
En REST API oven på LiRA-datasættet som backend-grænse, med tur- og sensormodeller tunet til filtrér- / visualisér- / annoter-flowet.

Resultat

Værktøjet blev sat i drift som den manuelle inspektionsfront i LiRAs datakvalitetspipeline og var grundlaget for det videre arbejde med at automatisere de valideringsskridt, domæneeksperterne lavede i hånden.

Specialet er katalogiseret hos DTU Findit, og bredere output fra LiRA-projektet er listet under LiRA publications.