Blik op reinforcement learning
Een nieuwe stap richting 100% datagedreven processen
De logistieke sector en maakindustrie ondergaan een snelle transformatie, aangewakkerd door de vooruitgang in datagestuurde technologieën. Met name ‘reinforcement learning’ (RL) toont vandaag een veelbelovend potentieel om supply chain-activiteiten te optimaliseren. Een blik op de RL-algoritmes en enkele mogelijke toepassingsgebieden…
Toegegeven, de termen reinforcement learning, machine learning (ML) en artificiële intelligentie (AI) belanden vaak samen op dezelfde hoop. Hoewel ze met elkaar verband houden, gaat het telkens om andere types processen en lopen dus ook de toepassingen ervan uiteen. Om hierover meteen klaarheid te scheppen: waar ‘AI’ de overkoepelende term vormt voor software die menselijke vaardigheden en capaciteiten vertoont, wijst de term ‘machine learning’ op alle technieken waarmee computers kunnen bijleren op basis van ingevoerde data en patronen.
Reinforcement learning is een bijzondere vorm van machine learning, die vandaag echter nog maar amper toepassingen kent. Het draait volledig rond het bepalen wat de beste volgende actie of set van acties is. Dan denken we bijvoorbeeld aan robots en autonome voertuigen, maar ook aan het uitvoeren van simulaties om er de best mogelijk strategie uit te bepalen. Het maakt van reinforcement learning een beloftevolle vorm van AI.
Dynamische processen
De logistiek van de toekomst is datagedreven. Daarover is zowat iedereen het eens. Bij logistieke operaties zijn tal van onderling verbonden processen betrokken, elk met een link naar data. Denk aan voorraadbeheer, het voorspellen van de vraag, de optimalisering van routes en het toewijzen van middelen. Die processen hebben vaak te maken met uitdagingen zoals variabele vraag, dynamische marktomstandigheden, beperkte middelen en onvoorziene verstoringen. Traditionele, logistieke systemen hebben vaak moeite om zich aan veranderende marktomstandigheden aan te passen en complexe besluitvorming te optimaliseren omdat ze vertrouwen op statische, op regels gebaseerde algoritmen.
In die dynamische besluitvorming en het bijhorende aanpassingsvermogen schuilt net het potentieel van reinforcement learning. Tijdens het AI Symposium for Operations Management in Utrecht focuste Martijn Mes, professor transport- en logistiek management aan de Universiteit van Twente, op enkele mogelijke toepassingsgebieden en op voorbeelden waar reinforcement learning een revolutie teweeg kan brengen in datagestuurde logistiek. Het optimaliseren van voorraadniveaus is er daar één van. Door te leren van historische gegevens, vraagpatronen en marktdynamieken, kan AI-software via reinforcement learning beslissingen nemen over aanvullingen, bestellingen en distributie, om zo de voorraadkosten te minimaliseren, de transportkosten te verlagen en meer klanttevredenheid te genereren.
Randfactoren
Daarnaast kunnen reinforcement learning-algoritmes ook leren om bezorgroutes te optimaliseren. Daarbij houden ze rekening met factoren als verkeersomstandigheden, het weer, tijdsvensters voor bezorging en klantenvoorkeuren. Dat leidt tot lagere transportkosten en een verbeterde leveringsefficiëntie en klantenervaring. Kijken we naar magazijnwerking, dan biedt reinforcement learning veel potentieel in de manier waarop middelen dynamisch kunnen worden toegewezen, aangepast aan veranderende ordervolumes en prioriteiten. Door magazijnlay-outs, productplaatsing en pickingstrategieën te optimaliseren, is het mogelijk afstanden te minimaliseren en pickfouten terug te dringen.
Vraagvoorspelling en dynamische prijzen
De potentiële impact op de bredere marktwerking situeert zich in vraagvoorspelling en dynamische prijsstelling. Nauwkeurige vraagvoorspelling is cruciaal voor efficiënte logistieke operaties. Door te leren van historische gegevens, markttrends en externe factoren, helpen reinforcement learning-algoritmes de nauwkeurigheid van vraagvoorspellingen te verbeteren, waardoor bedrijven hun voorraad-, productie- en distributieplanning kunnen optimaliseren. Daarnaast beschikt reinforcement learning over het potentieel om dynamische prijsstrategieën mogelijk te maken, door te leren van marktomstandigheden, prijzen van concurrenten en klantgedrag.
Deep reinforcement learning
Er is dus een groot potentieel weggelegd voor reinforcement learning op het vlak van productie- en voorraadplanning. In het bijzonder voor de toelevering van hightech-productie in kleine volumes vormt dat een complexe uitdaging. Lange doorlooptijden van productie, beperkte middelen en een zeer volatiele en niet-stationaire vraag maken het moeilijk om productie en voorraad ver vooruit te plannen.
Die uitdaging speelt ook bij ASML, producent van lithografiemachines voor de halfgeleiderindustrie waarmee onder meer de chips in de toestellen van Apple en Samsung worden geproduceerd. ASML verkent volop de mogelijke toepassingen – en bijhorende uitdagingen – van ‘deep reinforcement learning’ (DRL) voor zijn productie.
Hoewel DRL en RL heel wat gelijkenissen vertonen, is er toch een belangrijk verschil tussen beide technologieën. Zo kunnen we reinforcement learning zien als een dynamische leermethode die het resultaat van algoritmes via ‘trial and error’ maximaliseert. Bij deep reinforcement learning werken de algoritmes op basis van bestaande kennis die op nieuwe datasets wordt losgelaten.
De eerste onderzoeksresultaten voor een seriële toeleveringsketen bij ASML blijken alvast veelbelovend. Het DRL-algoritme blijkt in veel gevallen beter te presteren dan de gebruikelijke benchmarks en in een simulatiecontext met niet-stationaire vraag leunt het zelfs dicht tegen het optimum aan.
De onderzoekers bij ASML zetten de DRL-algoritmes in om de uitdagingen bij het plannen van de productievoorraad te helpen oplossen. Voor het bedrijf gaat het hier om supply chains op vele niveaus, in een context van beperkte productiecapaciteit en productietijden, en een onzekere vraag. Op basis van bestaande supply chain datasets bepaalt het DRL-algoritme welke acties de beste zijn om aan de vraag van de klant te voldoen en tegelijkertijd het totale kostenplaatje van de gehele supply chain te minimaliseren. Op die manier krijgt de oplossing training.
Concreet werd het DRL-algoritme getest op 28 supply chain netwerken, elk met een variërende onzekerheid in vraag, productietijden en kostenparameters. In de meeste testgevallen leidde voorraadbeleid op basis van de DRL-algoritmes tot betere resultaten dan het bestaande voorraadbeleid dat gangbaar is bij ASML. In gevallen met volatiele vraag blijken de kosten lager te liggen, net als in situaties met een krappe voorraad ten opzichte van de vraag. In gevallen met een meer stationaire vraag, zijn de verschillen minder uitgesproken. Hoe dan ook, algemeen beschouwd lijkt het DRL-algoritme een veelbelovende oplossing voor productie- en voorraaduitdagingen in een context van complexe en gelaagde supply chains.
Verdere optimalisering
Die eerste resultaten van de DRL-algoritmes bij ASML tonen in elk geval aan dat ze niet alleen in staat zijn te leren hoe de kosten in de hele supply chain omlaag kunnen, maar ook hoe bedrijven – die net als ASML te maken hebben met een hightech-productieproces in kleine volumes en met een complexe supply chain over diverse niveaus – hun voorraadbeheer kunnen optimaliseren in vergelijking met hun bestaande voorraadbeheer, dat nochtans voor die specifieke context ontworpen is.
De studie bij ASML levert verder bewijs dat neurale netwerken effectief kunnen bijdragen aan de ontwikkeling van betere methodes van voorraadbeheer. Toch blijven die methodes vandaag nog vaak een ‘black box’. Reinforcement learning blijkt een veelbelovende brugoplossing te zijn om voorraadbeheer op basis van neurale netwerken ingang te doen vinden en productievoorraadproblemen in complexe supply chains over verschillende niveaus mee op te lossen.
Inloggen/registreren
Om deze content te lezen, moet u zich inloggen.
Log in of registeer nu via onderstaande knop en krijg toegang tot deze inhoud.