Aug 01, 2023
Verbesserte Zündererkennung in X
Scientific Reports Band 13, Artikelnummer: 14262 (2023) Diesen Artikel zitieren Metrikdetails Die Erkennung von Zündern ist eine anspruchsvolle Aufgabe, da sie leicht fälschlicherweise als harmlos eingestuft werden können
Wissenschaftliche Berichte Band 13, Artikelnummer: 14262 (2023) Diesen Artikel zitieren
Details zu den Metriken
Das Erkennen von Zündern ist eine anspruchsvolle Aufgabe, da sie leicht fälschlicherweise als harmlose organische Masse eingestuft werden können, insbesondere bei Szenarien mit hohem Gepäckdurchsatz. Von besonderem Interesse ist der Schwerpunkt auf der automatisierten Sicherheits-Röntgenanalyse zur Zünderdetektion. Die komplexen Sicherheitsszenarien erfordern immer fortschrittlichere Kombinationen computergestützter Sicht. Wir schlagen eine umfangreiche Reihe von Experimenten vor, um die Fähigkeit von Convolutional Neural Network (CNN)-Modellen zu bewerten, Zünder zu erkennen, wenn die Qualität der Eingabebilder durch Manipulation verändert wurde. Wir nutzen aktuelle Fortschritte im Bereich der Wavelet-Transformationen und etablierte CNN-Architekturen – da beide zur Objekterkennung genutzt werden können. Dabei kommen verschiedene Methoden der Bildmanipulation zum Einsatz und darüber hinaus wird die Erkennungsleistung evaluiert. Es wurden sowohl rohe Röntgenbilder als auch manipulierte Bilder mit der Contrast Limited Adaptive Histogram Equalization (CLAHE), auf Wavelet-Transformationen basierenden Methoden und der gemischten CLAHE-RGB-Wavelet-Methode analysiert. Die Ergebnisse zeigten, dass eine beträchtliche Anzahl von Operationen, wie z. B. Kantenverstärkungen, veränderte Farbinformationen oder unterschiedliche Frequenzkomponenten, die durch Wavelet-Transformationen bereitgestellt werden, verwendet werden können, um zwischen nahezu ähnlichen Merkmalen zu unterscheiden. Es wurde festgestellt, dass das Wavelet-basierte CNN die höhere Erkennungsleistung erzielte. Insgesamt verdeutlicht diese Leistung das Potenzial für einen kombinierten Einsatz der Manipulationsmethoden und Deep CNNs für Flughafensicherheitsanwendungen.
Die Erkennung gefährlicher Objekte in Röntgenbildern von Gepäck ist insbesondere aufgrund steigender Kriminalitätsraten1 wichtig geworden. Die Leistung von Screening-Geräten wird stark von der Zielsichtbarkeit, der Bilddarstellungstechnologie und dem Wissen der Sicherheitsbeamten beeinflusst. Die visuelle Inspektion dieser Bilder stellt jedoch eine große Herausforderung dar, da die Häufigkeit von Zielen gering ist, die Sichtbarkeit des Ziels schwankt (was zu einer mangelnden Präzision der Objektform führt), sich überlappende Objekte bilden, der Kontrast schlecht ist, wodurch Bilddetails verdeckt werden und die Gefahr besteht, dass Fehlalarme ausgelöst werden2 ,3. Darüber hinaus kann die konstante und sich wiederholende Natur der Aufgabe, d. h. dass die Sicherheitsbeamten ständig auf Bildschirme schauen und häufig auf die gleichen Arten von erkannten Objekten stoßen, zu Aufmerksamkeitsermüdung und beeinträchtigtem Urteilsvermögen führen4.
Die gefährlichsten verbotenen Gegenstände im Passagiergepäck sind sogenannte improvisierte Sprengkörper. Den Zünder einer Bombe aufzuspüren, kann selbst für gut ausgebildete Sicherheitskräfte eine Herausforderung darstellen. Um diese Probleme anzugehen, wurden zahlreiche Algorithmen und Techniken entwickelt, um die Qualität von 2D-Röntgenbildern zu verbessern5,6,7,8,9,10,11,12,13. Die Bag-of-Visual-Words (BoVW)-Erkennungstechnik, die auf der Verarbeitung natürlicher Sprache und dem Informationsabruf basiert, nutzt einen statistischen Prozess zur Objekterkennung und -klassifizierung6. Diese Technik wurde erfolgreich zur Detektion von Sprengstoffen eingesetzt. Es wurde zusammen mit verschiedenen anderen Methoden verwendet, einschließlich überwachtem Feature-Learning durch Autoencoder-Ansatz7, K-Nearest Neighbors, Logistic Regression8 und Decision Trees9. BoVW wurde auch zur Erkennung von Schusswaffen, Shuriken oder Rasierklingen eingesetzt. Diese Techniken basieren auf Wörterbüchern, die für jede Klasse erstellt werden, und die Erkennung besteht aus Scale Invariant Feature Transform (SIFT)-Merkmalsdeskriptoren von zufällig zugeschnittenen Bildfeldern10. Das BoVW-Modell korrelierte mit dem SURF-Deskriptor (Speeded up Robust Features) und dem SVM-Klassifikator (Support Vector Machine) und wurde zur Schusswaffenerkennung verwendet. Dabei wurde eine optimale Richtig-Positiv-Rate von 99,07 % bei einer Falsch-Positiv-Rate von 20 % erreicht11. Zur Schusswaffenerkennung wurden sowohl Random-Forest- als auch SVM-Algorithmen verwendet, und es wurde eine statistische Genauigkeit von 94 % gemeldet12. Zur Beurteilung der Klassifizierungsleistung wurden einzelne, zwei und mehrere Röntgenansichten sowie vier Klassifikatoren (d. h. Scale-Invariant Feature Transform, Oriented FAST und Rotated BRIEF, Binary Robust Invariant Scalable Keypoints und SURF) berücksichtigt. Eine bessere Leistung der Klassifizierung wurde hervorgehoben, wenn eine Kombination aus zwei und mehreren Röntgenansichten in Betracht gezogen wurde13.
In den letzten Jahren haben CNNs im Bereich der Röntgenbildanalyse für die Gepäckkontrolle erheblich an Popularität gewonnen14,15,16,17,18,19,20. Die Augmentationstechnik, ein Feature-Enhancement-Modul und eine Multi-Scale-Fusion-Region-of-Interest-Methode ermöglichten die Entwicklung neuer CNNs mit genaueren und robusteren Erkennungsfähigkeiten. Diese CNNs weisen eine deutlich verbesserte Leistung auf, wenn sie bei der Röntgen-Gepäckkontrolle mit dichtem Hintergrund arbeiten14. Verschiedene Techniken wurden eingesetzt, um unterschiedliche Mängel von Deep CNNs zu überwinden, die durch einen Mangel an Trainingsbildern verursacht wurden. So wurden das Transfer-Learning-Paradigma15,16, regionalbasiertes CNN (R-CNN), maskenbasiertes CNN (Mask R-CNN) und Erkennungsarchitekturen wie RetinaNet verwendet, um Objektlokalisierungsvarianten17,18 bereitzustellen oder verschiedene Elemente in zu erkennen das Röntgenbild des Gepäcks. In ähnlicher Weise wurde die You Only Look Once (YOLO)-Architektur für Röntgenbilder zur Gepäckklassifizierung und zur Identifizierung gefährlicher Materialien verwendet19. Darüber hinaus wurde eine ankerfreie CNN-basierte Objekterkennungsmethode vorgeschlagen, um das Problem der Erkennung gefährlicher Objekte anzugehen20.
Wavelet-Transformationen sind ein beliebtes Werkzeug zur Bildrauschunterdrückung. Sie werden meist bei Entrauschungsvorgängen ohne Vorkenntnisse des Rauschmodells eingesetzt. Außerdem sind sie ein nützliches Werkzeug zur Bildverbesserung. Abgesehen von der Bildrauschunterdrückung, die ein subjektiver Prozess ist, verändert die Bildverbesserung die Bildmerkmale, um sie für das menschliche Auge ansprechender zu machen21. Wavelet-Kanteneffekte sind in den verarbeiteten Bildern erkennbar, Wavelets werden jedoch derzeit nicht bei der Röntgensicherheitsprüfung verwendet. Die Implementierung der Wavelet-Transformationen für die Röntgensicherheitsinspektion mangelt aufgrund ihrer starken Vorhersagefähigkeiten immer noch, auch wenn sie in verschiedenen Kontexten von Röntgenaufnahmen des Brustkorbs häufig verwendet werden. Verschiedene Studien berichteten lediglich über die Implementierung von Radiomics-Modellen für maschinelles Lernen oder Deep Learning zur Vorhersage der COVID-19-Prognose, basierend auf Kantenerkennung oder Extraktion radiomischer Merkmale22,23,24. Während die Nutzung von Wavelet-Transformationen mit CNNs in der medizinischen Bildverarbeitung ausführlich untersucht wurde, war ihre Anwendung in anderen Bereichen, wie der Luftfahrt- und Transportsicherheit, relativ begrenzt.
Im Fall von Röntgendaten zur Flughafensicherheit stehen nicht immer große Mengen an Trainingsdaten zur Verfügung und das Sammeln von Röntgendaten mit der speziellen Anforderung der Datenannotation ist sehr kostspielig. In Ref. 25 wurde eine Studie durchgeführt, die sich mit der Leistung der Screener-Bewertung bei der Erkennung von Bombenzündern mit 2D- und 3D-Bildgebung befasste. Trotz der geringeren Bildqualität bei der 3D-Bildgebung ergab diese Studie, dass die Leistung fast der der 2D-Bildgebung ähnelte. In einem anderen Ansatz wurde ein USM + CLAHE-Algorithmus mit Unscharfmaskierung zur Verarbeitung radiografischer Bilder für die Flughafensicherheit entwickelt, um die durch die CLAHE-Bildverbesserung verursachte Farbverzerrung effektiv zu überwinden26. Im Allgemeinen konzentrierten sich die meisten bisherigen Studien hauptsächlich auf die Erkennung sekundärer Sprengkörper (wie C4, TNT usw.) in Röntgenbildern bei der Gepäckkontrolle. Heutzutage gibt es nur wenige Studien, die sich speziell mit der Erkennung von Zündern bei der Röntgen-Gepäckkontrolle befassen. Beispielsweise wurde eine Dual-Energy-Methode verwendet, um gefährliche Objekte, einschließlich Zünder, zu erkennen, indem zwischen organischen und anorganischen Materialien unterschieden wurde27. Die meisten vorhandenen wissenschaftlichen Veröffentlichungen, die sich mit diesem Thema befassen, konzentrieren sich auf verschiedene Algorithmen zur Verbesserung der Bildqualität und zur Verbesserung der Erkennungsleistung von Zündern28, aber nur wenige konzentrieren sich auf die Wavelet-basierte Erkennung von Zündern in Röntgenbildern.
Das Ziel dieser Arbeit besteht darin, ein neues und effizientes Schema zur Erkennung von Zündern in Röntgenbildern von Gepäck vorzustellen, indem verschiedene Bildbearbeitungsmethoden verglichen und deren Einfluss auf die Vorhersagefähigkeiten der Klassifizierungsmodelle bewertet werden. Um die unzureichende Nutzung von Wavelets bei Röntgensicherheitsinspektionen zu überwinden, führen wir Wavelets als Manipulationsmethode ein, mit der Bilder mit höherer Auflösung und definierteren Details erhalten werden können. Dies ermöglichte es uns, Einblicke in die Gültigkeit der Manipulationsprozesse und deren Zusammenhang mit der Leistung der Zündererkennung zu gewinnen. Die Experimente werden mithilfe der Datenbank High Tech Detection Systems (HTDS) durchgeführt. Im vorgeschlagenen Ansatz haben wir eine gut etablierte CNN-Architektur ausgewählt und aufgebaut, die eine hervorragende Leistung bei der Objektklassifizierung und -erkennung erzielt hat29. Wir haben eine umfangreiche Ablationsstudie durchgeführt, um ein optimales Konfigurationsmodell mit guter Leistung im gesamten Datensatz zu etablieren30,31. Daher haben wir mit verschiedenen Bildern experimentiert, die durch Gauß- und Salz-und-Pfeffer-Rauschen, verschiedene veränderte Hyperparameter und verschiedene Schichtstrukturen verfälscht wurden. Die vorgeschlagenen CNN-Architekturen führen zwei Analysestufen durch: (i) Zündererkennung im Rohröntgenbild mithilfe des tiefen CNN-basierten Klassifikators, der TensorFlow- und Keras-Bibliotheken, und (ii) bei der Eingabe wird dasselbe CNN-Klassifikator-Framework verwendet Der Bildsatz wird mit den folgenden Methoden vorverarbeitet: dem CLAHE-Algorithmus, der unabhängig auf den RGB-Bildern und darüber hinaus auch auf den einzelnen Farbkanälen arbeitet, der Wavelet-Transformation mit den HH- und HL-Unterbändern und einer Kombination von CLAHE und RGB-Wavelet-Transformationstechniken. Die Ergebnisse werden hinsichtlich Genauigkeit, Präzision, Rückruf, F1-Score und Klassifizierung analysiert.
Unsere neuartigen Beiträge im Vergleich zu anderen hochmodernen Ansätzen lassen sich wie folgt zusammenfassen:
Wir haben einen Multiskalen-Ansatz vorgeschlagen, indem wir CLAHE, Wavelet-Transformationen und RGB-Wavelet-Transformationen mit CNNs kombinieren, um das Problem anzugehen, dass unterschiedliche Faktoren der Röntgenbildqualität die Erkennung der Zünder zu einer schwierigen Aufgabe machen können.
Wir führen Experimente mit manipulierten Bildern durch, um die richtige Technik zu finden, mit der sich die höchste Erkennungsleistung erzielen lässt.
Die benutzerdefinierte CNN-Architektur erwies sich als mit verschiedenen Bildbearbeitungstechniken kompatibel und konnte die Unterscheidbarkeit zwischen Gepäckklassen mit und ohne Zünder im Inneren nutzen.
Die vorgeschlagenen Methoden der Bildmanipulation emulieren verschiedene technische Spezifikationen und bewerten die Erkennungsleistung. Neben der praktischen Relevanz ist ein Vergleich dieser Manipulationsmethoden auch von theoretischem Interesse. Die vorgeschlagene Studie validiert Wavelets als neuen Rahmen für weitere Studien zur multivariaten Multiauflösungsanalyse der Röntgenuntersuchung von Passagiergepäck.
Unserer Meinung nach befinden sich diese Experimente auf der Proof-of-Concept-Ebene. Wir haben versucht zu zeigen, dass unsere Idee in die Realität umgesetzt werden kann. Allerdings stehen zum jetzigen Zeitpunkt nur relativ begrenzte Datensätze für einen fundierten Schulungs- und Testbetrieb zur Verfügung.
In diesem Artikel haben wir untersucht, wie durch Manipulation der Qualität von Röntgenbildern eine Merkmalskarte erstellt werden kann, die zu einer verbesserten Unterscheidung gefährlicher Materialien wie Zündern führt. Die tiefe CNN-Architektur arbeitet mit den TensorFlow- und Keras-Bibliotheken, basierend auf der High Tech Detection Systems (HTDS)-Datenbank. Das tiefe CNN hat nur zwei Klassen, nämlich Zünder und Nicht-Zünder. Wir verwendeten Augmentationstechniken, um die Anzahl der Stichproben zu erhöhen und eine Überanpassung zu vermeiden. Der endgültige Datensatz besteht aus 15.115 Proben, von denen 4535 Proben für unsere Tests verwendet wurden. Es wurde eine zufällige 70/30-Trainings-/Testaufteilung des Datensatzes durchgeführt. Aufgrund der Probenknappheit im Originaldatensatz verwendeten wir beim Training der Rohröntgenbilder eine fünffache Kreuzvalidierung. Für alle Experimente wurde die gleiche CNN-Architektur aufgebaut.
Tabelle 1 zeigt die binäre Klassifizierungsleistung für den Rohbilddatensatz. Es wird eine Klassifizierungsgenauigkeit von 0,9808 angegeben. Alle Vorhersagen zum Zündort sind korrekt.
Um die Auswirkungen der Kontrastverstärkung und der Wavelet-Transformation auf die Erkennungseffizienz zu analysieren, wurde die Leistung der Klassifizierung für jeden vorgeschlagenen Ansatz untersucht. Eine visuelle Darstellung, wie das Röntgenbild durch die Verwendung der CLAHE-Methode verbessert wurde, ist in Abb. 1 dargestellt. Die Ergebnisse des CLAHE-Bildverbesserungsalgorithmus sind in Tabelle 2 dargestellt.
CLAHE-Verbesserung des ursprünglichen Röntgenbildes und seiner Ergebnisse für jeden Farbkanal für ein RGB-Bild (a) Original; (b) Roter Kanal; (c) Grüner Kanal; (d) Blauer Kanal; (e) RGB-Bild.
Die CLAHE-Methode funktioniert sehr gut auf den grünen und blauen Kanälen sowie auf RGB-Bildern. In beiden Fällen wurde eine Genauigkeit von 1,00 erreicht. Diese Werte sind mit einer Differenz von 1,92 % höher als die Genauigkeit der rohen Röntgenbilder (Tabelle 1). Alle Zündpunktvorhersagen sind für die G- und B-Kanäle sowie für die RGB-Bilder korrekt. Auch wenn es unrealistisch ist, Genauigkeitswerte von 100 % zu erwarten, stellen wir fest, dass der CLAHE das Unterscheidungspotenzial erhöhen kann, indem er den Kontrast und die Bildqualität verbessert und den Detailverlust im Bild reduziert. Allerdings ist die Anzahl der TP-Proben (Bilder mit Zünder) geringer.
Um die Auswirkungen der Zerlegung eines Bildes in eine Reihe von Wavelets zu untersuchen und die Verbesserungen der lokalen spektralen und zeitlichen Informationsextraktion zu analysieren, wurde die Röntgenbildzerlegung unter Verwendung der Wavelet-Funktionen Haar, Db2, Coif2 und Sym2 durchgeführt. Von Interesse sind die HL- und HH-Detailkoeffizienten oder Teilbänder. Die Ergebnisse sind in Abb. 2 dargestellt und Einzelheiten zur Leistung der Klassifizierung sind in Tabelle 3 dargestellt.
Wavelet-Transformation des ursprünglichen Röntgenbildes und die erhaltenen Ergebnisse für zwei Teilbänder, HH und HL. Für die Transformation werden die Wavelet-Funktionen Daubechies2 (Db2), Haar, Coiflet2 (Coif2) und Symlet2 (Sym2) verwendet.
Wie man sehen kann, erreichte die Coif2-Funktion auf der Ebene HH eine Genauigkeit von 0,995, was etwas höher als Sym2 (0,994) und höher als Db2 und Haar (0,990 und 0,986) ist. Auf HL-Ebene ergab die Haar-Funktion eine Genauigkeit von 1,00 und übertraf damit alle anderen Funktionen: Db2 (0,999), Coif2 (0,998) und Sym2 (0,995).
Darüber hinaus zeigen die Daten in Tabelle 3, dass die durch Wavelet-Transformationen erzielten Genauigkeitsergebnisse der Genauigkeit überlegen sind, die erreicht wird, wenn rohe Röntgenbilder direkt an das CNN eingespeist werden (Tabelle 1). Es zeigt auch, dass die Haar-Transformation hinsichtlich der Genauigkeit (100 %) die gleiche Leistung wie die Farbkanalzerlegung aufweist. Allerdings ist die Anzahl der wirklich positiven TP-Proben (Bilder mit Zündern) im Fall der RGB-Kanalzerlegung geringer, während die Anzahl der wirklich negativen TN-Proben ähnlich ist.
Wenn sowohl die CLAHE-RGB- als auch die Wavelet-Transformationsmethode kombiniert werden, ist das Ergebnis der Vorverarbeitung in Abb. 3 dargestellt. Eine Zusammenfassung der Klassifizierungsleistung ist in Tabelle 4 angegeben.
Bildvorverarbeitung mit den CLAHE RGB- und Wavelet-Transformationen. Das Röntgenbild im RGB-Raum wird mit CLAHE kontrastverstärkt. Das Ergebnis wird durch die Instrumentalität der Wavelet-Transformation zerlegt, die in den HH- und HL-Unterbändern angewendet wird.
Es ist zu beobachten, dass das Haar-Wavelet auf der HH-Ebene eine Genauigkeit von 0,999 erreichte. Dies ist die höchste Genauigkeit unter den anderen Mutter-Wavelet-Funktionen, nämlich Db2 (0,999), Coif2 (0,997) und Sym2 (0,992). Für die HL-Ebene erreichten die Haar- und Coif2-Wavelets eine Genauigkeit von 0,999, was im Vergleich zu Db2 (0,996) und Sym2 (0,995) immer noch die höchste ist.
Im Allgemeinen ist die Genauigkeit der Klassifizierung, die mit der CLAHE-RGB-Wavelet-Methode erzielt wird, deutlich höher als die Genauigkeit, die für rohe Röntgenbilder erzielt wird, ähnelt jedoch fast den Ergebnissen, die durch die Wavelet-Zerlegung erzielt werden. Wir betonen noch einmal, dass die Leistungskennzahlen zwar sehr gute Werte aufweisen, diese allein jedoch nicht ausreichen, um auf eine Verbesserung der Zündererkennung hinzuweisen. Im Fall der Wavelet-Zerlegung ist die Anzahl der TP-Samples (Bilder mit Zündern) höher als im Fall der RGB-Kanalzerlegung oder Wavelet-Transformation, während die Anzahl der echten Negative (TN-Samples) nahezu identisch ist. Es gibt eine unbedeutende Anzahl von FN-Stichproben (dh Fehler vom Typ II) in der Klassifizierung. Um die Ergebnisse unserer Studie zusammenzufassen, finden Sie in Abb. 4 eine deskriptive Statistik der Genauigkeit.
Die durchschnittliche CNN-Klassifizierungsgenauigkeit für Rohröntgenbilder sowie die Genauigkeiten der vorgeschlagenen Vorverarbeitungsmodelle. Die mittleren Linien geben die mittleren Genauigkeitswerte und die Kästchen den Interquartilbereich an. Die Whisker geben den kleinsten und größten Wert an. Sowohl die rohen Röntgenbilder als auch die HL-Wavelet-verarbeiteten Bilder weisen hinsichtlich der Genauigkeitsverteilung keine Abweichung auf. Die übrigen Methoden zeigen Genauigkeiten mit einer leicht negativ verzerrten Verteilung. Insgesamt haben wir mit der Haar-Wavelet-Transformation im HL-Subband zusammen mit der CLAHE- und RGB-Bildmethode die beste Leistung erzielt.
Obwohl viele Forscher klassische Methoden zur Kontrastverstärkung verwendet haben, führen wir Wavelets als Manipulationsmethode ein, um Bilder mit höherer Auflösung und definierteren Details zu erhalten. Mit diesem Ansatz untersuchten wir die Genauigkeit der Erkennung bei geringfügigen Unterschieden in den Bilddetails, z. B. Kantenverstärkungen, veränderten Farbinformationen oder unterschiedlichen Frequenzkomponenten, die durch Wavelet-Transformationen bereitgestellt werden. All dies könnte verwendet werden, um zwischen nahezu ähnlichen Merkmalen in Bildern zu unterscheiden. Wir haben verbesserte Klassifizierungsergebnisse erzielt, indem wir die durch Wavelet-Transformationen bereitgestellten High-Level-Funktionen genutzt haben. Das erste wichtige Ergebnis, das in diesem Artikel vorgestellt wird, ist, dass das Vorhandensein von Zündern durch herkömmliche Bildverarbeitungsmethoden wie Wavelet-Zerlegung oder durch die Kombination von Kontrastverstärkungstechniken und Haar-Wavelet-Transformationen im HL-Subband in Kombination mit einem tiefen CNN-Modell effektiv unterschieden werden kann. Die Verwendung der tiefen CNNs zur Zündererkennung führte zu einer verbesserten Erinnerung (die Fähigkeit, die positive Klasse, also Bilder mit Zündern, zu identifizieren) und Präzision (wie genau die positiven Vorhersagen sind).
Obwohl tiefe CNNs die Bildklassifizierung vorangetrieben haben, sind wir uns bewusst, dass sowohl die Qualität eines Bildes als auch die Max-Pooling-Downsampling-Methode einige für die Klassifizierung wichtige Merkmale verwässern oder entfernen können. Um die optimale Architektur und Konfiguration unseres CNN-Modells zu bestimmen, wurde eine Ablationsstudie durchgeführt, um ein klares Verständnis der Leistung des Modells zu erhalten. Die Änderung einiger Komponenten oder Hyperparameter hatte zur Folge, dass die Leistung des Modells abnahm. Die aktuelle Netzwerkarchitektur bietet eine optimale Leistung bei geringem Rechenaufwand (siehe Tabellen 6 und 7). Das vorgeschlagene CNN verwendet einen integrierten Mechanismus, um verschiedene Merkmale auf hoher Ebene zu extrahieren und räumliche Invarianz einzuführen. Auch die Lernfähigkeit des Netzwerks wird durch seine Struktur verbessert. Die Faltungsschichten führen dazu, dass unterschiedliche Bildmerkmale in unterschiedlichem Ausmaß extrahiert werden, und der Pooling-Vorgang schafft die Möglichkeit, dasselbe Merkmal in verschiedenen Bildern zu erkennen. Indem dieselbe CNN-Architektur mit verschiedenen Varianten des Originalbilds gespeist wird (d. h. verschiedene Merkmale werden durch Manipulation hervorgehoben), kann das Netz optimaler trainiert werden und seine Mustererkennungsfähigkeit und Bildinterpretationsleistung werden somit verbessert.
Die Wavelet-Transformationen sorgen für eine effektive Entfernung des Gaußschen Rauschens und können die Details von Bildern ziemlich gut extrahieren. Die HH- und HL-Komponenten enthalten Texturdarstellungen des Originalbildes. Es ist erwähnenswert, dass bei Verwendung unterschiedlicher Frequenzkomponenten und unterschiedlicher Merkmale der Farbkanäle informativere Merkmale extrahiert und eine bessere Erkennungsleistung erzielt wurden. Wir konnten feine und grobe Details des Bildes erfassen und die Bildqualität verbessern. Die CLAHE-Methode führt Pixel für Pixel einen lokalen Histogrammausgleich durch und verbessert so sowohl den Kontrast als auch die Bildqualität. Andererseits stellt die Wavelet-Transformationsmethode im Allgemeinen Merkmale aus interessierenden Bereichen wieder her und verarbeitet das Bild in Pixelpaaren.
Bei dualen Röntgenbildern könnten die Farbinformationen für die Erkennung relevant sein. Wir haben festgestellt, dass RGB-Bilder bessere Ergebnisse liefern. Bestimmte Farben weisen auf das Vorhandensein oder Fehlen verbotener Gegenstände hin und das Modell kann diese Zusammenhänge erlernen. Es ist wichtig zu beachten, dass die Konvertierung von RGB-Bildern in Graustufen- oder Farbkanäle in manchen Fällen zu Verzerrungen und Verzerrungen führen kann. In diesem Fall gelingt es der Verbesserungsmethode möglicherweise nicht, die Bereiche mit ungleichmäßiger Beleuchtung auszugleichen, und einige Details werden unsichtbar, da subtile Farbabweichungen auftreten.
Es ist ersichtlich, dass Bilder, die mit der CLAHE RGB-Wavelet-Methode (HH- und HL-Unterbänder) und Wavelet-Transformationen in den HH- und HL-Unterbändern verarbeitet wurden, im Gegensatz zu den Originalbildern unter falsch-negativen und falsch-positiven Ergebnissen leiden. Mit dem CLAHE RGB- und Haar-Wavelet (HL-Subband) verarbeitete Bilder weisen weder falsch positive noch falsch negative Ergebnisse auf. Unsere vorläufigen Ergebnisse zeigen, dass die CLAHE- und RGB-Bildmethoden (Tabelle 2) zusammen mit der Haar-Wavelet-Transformation, die für das HL-Subband angewendet wird (Tabelle 3), eine 100 % echte positive Rate erreichen. Dies bedeutet, dass diese Methoden gut für die Zünderidentifizierung durch den CNN-Ansatz geeignet sind. Die (wenn auch sehr geringen) Unterschiede zwischen den Bildmanipulationsergebnissen bei der Zündererkennung lassen sich wie folgt erklären: Die Kontrastverstärkung nutzt die Intensitätskarte der Pixel, reduziert den Detailverlust und verändert die Pixelposition im Bild nicht. CLAHE wendet den Farbausgleich durch Histogrammanpassung an. Berücksichtigt wird der Beitrag der lokalen spektralen und zeitlichen Informationen zur Kantenextraktion, die durch die Wavelet-Transformationen bereitgestellt wird. Normalerweise liegen die Rauschinformationen in der Hochfrequenzkomponente vor und die Niederfrequenzkomponente enthält die relevanten Informationen über das Bild. HL-Bilder gleichen beide Aspekte aus und CLAHE reduziert das Rauschen im HL-Subband besser.
Um die Ergebnisse unserer Studie zusammenzufassen, haben wir festgestellt, dass eine Erhöhung der Anzahl der Vorverarbeitungsaufgaben (wir beziehen uns hier auf das CLAHE-RGB-Haar-Wavelet und die HH- und HL-Unterbänder) nicht unbedingt zu einer Erhöhung der Genauigkeit führt. Diese hochfrequenten HH- und HL-Subbänder speicherten die meisten Informationen, sodass das CNN mehr Merkmale bewahren und eine genaue Klassifizierung bereitstellen konnte.
Tabelle 5 zeigt den Vergleich der in unserer Arbeit gemeldeten Genauigkeitswerte und anderer Klassifizierungsansätze sowie der Erkennungsstrategien, die auf tiefen CNN-Architekturen, CLAHE-Verbesserung und Wavelet-Transformationen basieren. Wir vergleichen unsere experimentellen Ergebnisse mit einigen früheren Studien, die mit den gleichen Methoden, aber mit unterschiedlichen Bildtypen und Datenbanken (nur Genauigkeiten) experimentiert haben. Für faire Vergleiche haben wir die Experimente zur Zündererkennung mit zwei vorab trainierten Modellen durchgeführt, EfficientNetV2B0 und AlexNet. Beide werden mithilfe der ImageNet-Datenbank vorab trainiert, die Millionen beschrifteter Bilder enthält.
Wie in Tabelle 5 gezeigt, erzeugt AlexNet zwar eine hohe Genauigkeit (0,9945), erzeugt jedoch eine Reihe falsch positiver Ergebnisse (durchschnittlich 16). Das EfficientNetV2B0 hat die schlechteste Leistung, während unser Netzwerk es übertrifft, unabhängig davon, wie die Bilder manipuliert werden. Diese Ergebnisse zeigen die Robustheit unseres Ansatzes.
Unsere Experimente befinden sich auf der Proof-of-Concept-Ebene, zeigen aber, dass unsere Idee in die Realität umgesetzt werden könnte. Allerdings gibt es in dieser Phase einige Einschränkungen. Der Datensatz war relativ klein, um unser CNN zu trainieren. Die Datenerweiterung war die Methode unserer Wahl, um mit der Überanpassung umzugehen, aber wir widmen uns auch der Entropiekapazität unseres CNN-Modells, also der Menge an Informationen, die das CNN-Modell speichern kann. Die Architektur unseres CNN-Modells ermöglicht die Speicherung einer großen Menge an Informationen, sodass sein Potenzial für eine höhere Genauigkeit durch die Nutzung weiterer Funktionen erhöht wurde. Eine weitere Einschränkung könnte sich aus der Unübersichtlichkeit des Röntgenbild-Eingabedatensatzes ergeben. Dies könnte dazu führen, dass CNN die Zünder nicht erkennt. Die vorgeschlagene Lösung zeigt, dass das CNN ein genaues Werkzeug ist, da das Vorkommen von FN-Proben unbedeutend ist (Tabellen 3, 4). Eine komplexere und umfassendere Studie (mehr Bilder, verschiedene Gepäckgrößen, Extraktion spezifischer Merkmale der organischen Probe, ein anderer neuronaler Netzwerktyp usw.) wird in Zukunft durchgeführt. Außerdem wäre es interessant, die Forschung auf die Klassifizierung mehrerer Klassen auszuweiten, einschließlich anderer gefährlicher Objekte in Röntgenbildern wie TNT, C4 und PBX (kunststoffgebundene Sprengstoffe).
Um verdächtige Objekte wie Zünder in den 2D-Röntgenbildern von Gepäck aus der HTDS-Datenbank zu erkennen, werden im vorgeschlagenen Blockdiagramm in Abb. 5 die durchgeführten Experimente dargestellt.
Blockdiagramm der vorgeschlagenen Methode nach der Ablationsstudie. HH (High-High) und HL (High-Low) sind zwei Teilbänder der Zerlegung bei der Wavelet-Transformation.
Die in dieser Studie verwendete Datenbank stammt von High Tech Detection Systems (HTDS), einem französischen Unternehmen, das auf den Verkauf und die Wartung von High-Tech-Sicherheitsausrüstung für die Passagierkontrolle, Gepäck- und Fahrzeugsicherheit sowie Fracht spezialisiert ist36. Der anfängliche Datensatz besteht aus 6.500 Bildern, die in zwei Typen unterteilt sind: Klasse 0, die aus 5.500 Bildern mit Zündern besteht, und Klasse 1, die aus 1.000 Bildern ohne Zünder besteht, wie in Abb. 6 dargestellt.
Beispiele für Röntgenbilder von Gepäckstücken mit mehreren Gegenständen (obere Reihe) und ohne/mit Zünder im Inneren (untere Reihe). Das Detail eines Zünders ist dargestellt. Verschiedene Materialien, die in unterschiedlichen Farben auf einem Pseudofarbbild aus Dual-Energy-Röntgenscans dargestellt werden, verdeutlichen die geringe Qualität und Auflösung des 2D-Bildes.
Der Datensatz wurde in Trainings- (70 %) und Testsätze (30 %) aufgeteilt, sodass jede Aufteilung eine ähnliche Klassenverteilung aufweist. Der Testsatz enthält Proben, die nie für das Training verwendet wurden. Um die Anzahl der Stichproben in beiden Klassen auszugleichen, haben wir für jede Stichprobe zufällige Rotationen durchgeführt, um den Datensatz zu erweitern. Der endgültige Datensatz besteht aus 15.115 Proben. Die Leistung der Klassifizierung wird anhand des Testdatensatzes bewertet.
Die CLAHE-Verstärkungsmethode wird verwendet, um die Bildqualität und den Kontrast in den Dual-Energy-Röntgenbildern zu verbessern23. Der Kontrast kann durch Ändern der Intensitätskarte der Pixel manipuliert werden. Es optimiert die Objektidentifizierung, bewahrt Details durch morphologische Verarbeitung und führt eine RGB-Konvertierung (Rot, Grün, Blau) durch.
Diskrete Wavelet-Transformationen können Spektralmerkmale extrahieren. Bei einer 2D-Wavelet-Transformation wird das Bild durch einen Tiefpass- und einen Hochpassfilter geleitet und es werden ungefähre und detaillierte Teile bereitgestellt. Dieses Multi-Resolution-Framework generiert vier Unterbänder, nämlich einen Approximationskoeffizienten (LL) und drei Detailkoeffizienten, horizontal (HL), vertikal (LH) und diagonal (HH). Das LL-Teilband enthält keine Kante und ist für unser Ziel nicht nützlich. Sowohl das HL- als auch das LH-Unterband enthalten nahezu ähnliche Informationen und aus Effizienzgründen wird nur das HL untersucht. Zu diesem Zweck haben wir die folgenden Mutterfunktionen verwendet: Haar, Daubechies2 (Db2), Symlet2 (Sym2) und Coiflet2 (Coif2)21,22. Während der Wavelet-Transformationen wird das Eingabebild mit Tiefpass- und Hochpassfiltern gefaltet und heruntergetastet, um die Wavelet-Unterbänder zu erhalten. Es wird nur die Wavelet-Zerlegung der ersten Ebene verwendet. Sowohl die HL- als auch die HH-Bilder werden durch versteckte Faltungsschichten geleitet, dann ermöglicht die Stapelnormalisierung eine schnellere Ausführung und löst das Problem der schlechten Konvergenz. Schließlich wird eine Softmax-Schicht verwendet, um die Dual-Energy-Röntgenbilder zu kategorisieren. Um zu beurteilen, ob die vorverarbeiteten Bilder für die tiefe CNN-Klassifizierungsaufgabe aussagekräftig sind, kombinieren wir auch die CLAHE-RGB-Konvertierung mit HH- und HL-Subband-Wavelet-Transformationen unter Verwendung derselben Mutterfunktionen.
Die Ablationsstudie ermöglicht ein klares Verständnis des vorgeschlagenen Modells, indem sie die Folgen der Veränderung von Bildern und Komponenten der CNN-Architektur analysiert. Für faire Vergleiche wurden die Roh- und Wavelet-transformierten Bilder aus der HTDS-Datenbank verwendet. Die Ergebnisse der gesamten Ablationsstudie sind in den Tabellen 6 und 7 aufgeführt. Zur Bewertung der Leistung des Ablationsprozesses wurden dieselben Metriken (Genauigkeit, Präzision, Erinnerung und F1-Score) verwendet.
Es ist ersichtlich, dass die CNN + Wavelet-Transformationsmodelle für alle Wavelet-Familien bessere Genauigkeitswerte erzielen und das CNN-Modell übertreffen, das Rohbilder als Eingabe verwendet.
Wir haben umfangreiche Experimente durchgeführt, um die Stärke des vorgeschlagenen CNN-Modells für die binäre Klassifizierung von Dual-Energy-Röntgenbildern in zwei Klassen zu untersuchen: Zünder und Nicht-Zünder. Die CNN-Architektur wird mit TensorFlow und Keras implementiert. TensorFlow ist eine kostenlose Open-Source-Softwarebibliothek für Datenfluss und differenzierbare Programmierung durch eine Vielzahl von Funktionen. Es ist sehr praktisch und flexibel für die Erstellung der aktuellen Deep-Learning-Modelle37. Keras ist eine in Python geschriebene Open-Source-Bibliothek für neuronale Netzwerke, die auf TensorFlow38 läuft. Das tiefe CNN basiert vollständig auf fünf tief trennbaren Schichten (dh drei Faltungsschichten und zwei dichten Schichten). Tabelle 8 zeigt die vorgeschlagenen Hyperparameter für das tiefe CNN-Architekturmodell nach der Ablationsstudie. Die erste Faltungsschicht hat 16 Einheiten, die zweite Schicht hat 32 Einheiten und die dritte Schicht hat 64 Einheiten. Es wird die Aktivierungsfunktion Rectified Linear Unit (ReLU) verwendet, da es sich um eine nichtlineare Funktion handelt und den Vorteil hat, Backpropagation-Fehler zu vermeiden. Der Adam-Optimierer (Adaptive Moment Estimation) wird mit der Standardlernrate von 0,001 und einem Zerfall von 1e − 6 verwendet. Die Losgröße 32 ist die optimale Lösung. Die richtige Anzahl von Epochen hängt von der inhärenten Komplexität des Datensatzes ab. Wir hatten sechs Werte für die Epoche (60, 80, 100, 120, 140, 160) verwendet, um unser Modell zu verbessern. Die Anzahl der Epochen ohne Verbesserung des Verlustfunktionsplateaus lag bei allen Experimenten zwischen 55 und 65. Die Zeit pro Epoche liegt zwischen 72 und 76 s, mit einem durchschnittlichen Verlust von 0,0677. Wir haben festgestellt, dass etwa Epoche 60 ein guter Zeitpunkt zum Beenden des Trainings ist. Die Genauigkeit des vorgeschlagenen CNN mit 60 Epochen wurde als optimale Option mit weniger Zeitaufwand und geringeren Verlusten ausgewählt. Dichte Schichten sind vollständig verbundene Schichten, die einen 1D-Merkmalsvektor in einen Klassifizierungsvektor umwandeln. Darauf folgen die ReLU-Aktivierungsfunktionen. Für die letzte dichte Schicht ist keine Aktivierungsfunktion angegeben, da die Logit-Werte verwendet werden und die Klassifizierung mithilfe einer Softmax-Aktivierungsfunktion durchgeführt wird.
Für Basisvergleiche quantifizieren wir unsere vorgeschlagenen CNNs im Hinblick auf Wirksamkeit und Effizienz mit zwei häufig verwendeten Modellen, EfficientNetV2B0 und AlexNet. Für faire Vergleiche werden alle Netzwerke mit denselben Datensätzen trainiert.
Die Leistung der Klassifizierung wird durch Vergleich der durchschnittlichen Genauigkeit, Präzision, Erinnerung und F1-Bewertung unter Verwendung desselben Testdatensatzes und vorgeschlagener Manipulationsmethoden bewertet. Diese Maße wurden mithilfe der binären Klassifizierungsprobleme der Verwirrungsmatrix (dh einer 2 × 2-Matrix) berechnet. Die binäre Verwirrungsmatrix liefert genaue Einblicke in die Leistung des Modells und bestimmt, ob das Modell effektiv zwischen Klassen unterscheiden und bestimmte Vorhersagefehler identifizieren kann, die zu Modellverbesserungen oder -anpassungen führen können. Die Verwirrungsmatrix umfasst die folgenden Elemente: TP = wahr positive Ergebnisse, TN = wahr negative Ergebnisse, FP = falsch positive Ergebnisse, FN = falsch negative Ergebnisse. Die aus dieser Matrix abgeleiteten Leistungsmetriken sind: Rückruf = [TP/(TP + FN)], Präzision = [TP/(TP + FP)], Genauigkeit = [(TP + TN)/(TP + TN + FP + FN )]), F1-Score = 2[(Präzision × Rückruf)/(Präzision + Rückruf)]. Alle Ergebnisse werden über den Testdatensatz gemittelt. Die durchschnittliche Genauigkeit der Zündererkennung über alle Proben gibt an, wie viele unserer Zünder- und Nicht-Zünder-Vorhersagen richtig sind. Der durchschnittliche Rückruf gibt an, wie viele der Zünderproben als solche vorhergesagt wurden, und die durchschnittliche Präzision zeigt, wie viele unserer Zündervorhersagen korrekt sind.
Der Datensatz ist auf Anfrage bei High Tech Detection Systems (HTDS, https://www.htds.fr/) erhältlich. Die Daten sind nicht öffentlich verfügbar. Die Daten, die die Ergebnisse dieser Studie stützen, sind auf begründete Anfrage beim Erstautor [LO] erhältlich.
Der Quellcode wird unter https://gitfront.io/r/user-3214156/oGn8DHKwkwzB/inspection-by-image/ zur Verfügung gestellt.
Pozzo, FRD International und EU-Rechtsrahmen für die Luftsicherheit. In Air Transport Security (Hrsg. Szyliowicz, JS, Zamparini, L.) 43–62 (2018). https://doi.org/10.4337/9781786435200.00011.
Partridge, T. et al. Verbesserte Erkennung von Bedrohungsmaterialien durch Dunkelfeld-Röntgenbildgebung in Kombination mit tiefen neuronalen Netzen. Nat. Komm. 13, 4651. https://doi.org/10.1038/s41467-022-32402-0 (2022).
Artikel ADS CAS PubMed PubMed Central Google Scholar
Vukadinovic, D., Anderson, D. Röntgengepäckkontrolle und KI, EUR 31123 EN, Amt für Veröffentlichungen der Europäischen Union, Luxemburg, JRC129088 (2022). https://doi.org/10.2760/46363.
Bolfing A., Halbherr T., Schwaninger A. Wie bildbasierte Faktoren und menschliche Faktoren zur Bedrohungserkennungsleistung bei der Röntgenkontrolle der Luftsicherheit beitragen. In Lecture Notes in Computer Science (Hrsg. HCI and Usability for Education and Work, Holzinger, A.) 419–438 (Springer, 2008). https://doi.org/10.1007/978-3-540-89350-9_30.
Mery, D., Pieringer, C. Computer Vision für Röntgentests: Bildgebung, Systeme, Bilddatenbanken und Algorithmen (Springer International Publishing, 2021). https://doi.org/10.1007/978-3-030-56769-9.
Zhang, Y., Jin, R. & Zhou, Z.-H. Bag-of-Words-Modell verstehen: Ein statistischer Rahmen. Int. J. Mach. Lernen. Cybern. 1, 43–52. https://doi.org/10.1007/s13042-010-0001-0 (2010).
Artikel Google Scholar
Chouai, M., Merah, M., Sancho-Gómez, J.-L. & Mimi, M. Überwachtes Merkmalslernen durch einen kontradiktorischen Autoencoder-Ansatz zur Objektklassifizierung in dualen Röntgenbildern von Gepäckstücken. J. Intell. Hersteller 31, 1101–1112. https://doi.org/10.1007/s10845-019-01498-5 (2020).
Artikel Google Scholar
Larsen, K., Petersen, JH, Budtz-Jørgensen, E. & Endahl, L. Interpretation von Parametern im logistischen Regressionsmodell mit zufälligen Effekten. Biometrie 56, 909–914. https://doi.org/10.1111/j.0006-341X.2000.00909.x (2000).
Artikel CAS PubMed MATH Google Scholar
Andrews, JTA, Jaccard, N., Rogers, TW, Griffin, LD Darstellungslernen zur Anomalieerkennung in komplexen Röntgenfrachtbildern. In der Anomalieerkennung und Bildgebung mit Röntgenstrahlen (ADIX) II (SPIE, 2017). https://doi.org/10.1117/12.2261101.
Mery, D., Svec, E. & Arias, M. Objekterkennung bei Röntgentests mithilfe adaptiver, dünn besetzter Darstellungen. J. Nondestr. Bewertung. 35, 45. https://doi.org/10.1007/s10921-016-0362-8 (2016).
Artikel Google Scholar
Turcsany D., Mouton A., Breckon TP Verbesserung der merkmalsbasierten Objekterkennung für die Gepäcksicherheitskontrolle mit Röntgenstrahlen mithilfe präparierter visueller Wörter. In Proceedings IEEE International Conference on Industrial Technology (ICIT), Kapstadt, Südafrika, 1140–1145 (2013). https://doi.org/10.1109/ICIT.2013.6505833.
Kundegorski, ME, Akçay, S., Devereux, M., Mouton, A., Breckon, TP Über die Verwendung von Merkmalsdeskriptoren als visuelle Wörter für die Objekterkennung bei der Gepäcksicherheitskontrolle mit Röntgenstrahlen. In Proceedings of the 7th International Conference on Imaging for Crime Detection and Prevention (ICDP 2016), vol. 12(6) (2016). https://doi.org/10.1049/ic.2016.0080.
Tuli, A., Bohra, R., Moghe, T., Chaturvedi, N., Mery, D. Automatische Bedrohungserkennung in Einzel-, Stereo- (zwei) und Mehrfach-Röntgenbildern. In Proceedings of IEEE 17th India Council International Conference (INDICON), Neu-Delhi, Indien 1–7 (2020). https://doi.org/10.1109/INDICON49873.2020.9342253.
Gu, B., Ge, R., Chen, Y., Luo, L. & Coatrieux, G. Automatische und robuste Objekterkennung bei der Röntgengepäckinspektion unter Verwendung tiefer Faltungs-Neuronalnetze. IEEE Trans. Ind. Elektron. 68, 10248–10257. https://doi.org/10.1109/TIE.2020.3026285 (2021).
Artikel Google Scholar
Akçay S., Kundegorski ME, Devereux M., Breckon TP Transferlernen mit Faltungs-Neuronalen Netzen zur Objektklassifizierung in Röntgenbildern der Gepäcksicherheit. In Proceedings of IEEE International Conference on Image Processing (ICIP), 2016, Phoenix, AZ, USA 1057–1061 (2016). https://doi.org/10.1109/ICIP.2016.7532519.
Griffin, LD, Caldwell, M., Andrews, JTA & Bohler, H. Unerwarteter Gegenstand im Verpackungsbereich: Anomalieerkennung in Röntgensicherheitsbildern. IEEE Trans. Inf. Forensik sicher. 14, 1539–1553. https://doi.org/10.1109/TIFS.2018.2881700 (2019).
Artikel Google Scholar
Gaus YFA, Bhowmik N., Akçay S., Guillén-Garcia PM, Barker JW et al. Evaluierung einer dualen Faltungs-Neuronalen Netzwerkarchitektur zur objektweisen Anomalieerkennung in unübersichtlichen Röntgensicherheitsbildern. In Proceedings of International Joint Conference on Neural Networks (IJCNN), Budapest, Ungarn 1–8 (2019). https://doi.org/10.1109/IJCNN.2019.8851829.
Subramani, M., Rajaduari, K., Choudhury, SD, Topkar, A. & Ponnusamy, V. Evaluierung der einstufigen Detektorarchitektur eines Faltungs-Neuronalen Netzwerks zur Erkennung von Bedrohungsobjekten mithilfe von Röntgenbildgebung zur Gepäcksicherheit. Revue d'Intelligence Artificielle 34, 495–500. https://doi.org/10.18280/ria.340415 (2020).
Artikel Google Scholar
Ponnusamy, V., Marur, DR, Dhanaskodi, D. & Palaniappan, T. Deep-Learning-basierte Erkennung gefährlicher Gegenstände im Röntgengepäck – eine FPGA-Implementierung. Revue d'Intelligence Artificielle 35, 431–435. https://doi.org/10.18280/ria.350510 (2021).
Artikel Google Scholar
Wei, Y., Zhu, Z., Yu, H. & Zhang, W. Ein automatisiertes Erkennungsmodell von Bedrohungsobjekten für die Röntgengepäckinspektion basierend auf einer in der Tiefe trennbaren Faltung. J. Echtzeit-Bildverarbeitung. 18, 923–935. https://doi.org/10.1007/s11554-020-01051-1 (2021).
Artikel Google Scholar
Danso, S. et al. Bildverarbeitungsmethoden für Sicherheitsinspektionen unter Anwendung von Wavelet-Transformationsfiltern auf aktive Terahertz-Bilder. Forschungsmagazin Universidad del Quindío 34, 37–51. https://doi.org/10.33975/riuq.vol34n1.853 (2022).
Artikel Google Scholar
Yasar, H. & Ceylan, M. Eine neue Deep-Learning-Pipeline zur Erkennung von Covid-19 auf Röntgenbildern des Brustkorbs mithilfe lokaler binärer Muster, Dual-Tree-Komplex-Wavelet-Transformation und Faltungs-Neuronalen Netzen. Appl. Intel. 51, 2740–2763. https://doi.org/10.1007/s10489-020-02019-1 (2021).
Artikel Google Scholar
Rahman, T. et al. Untersuchung der Auswirkung von Bildverbesserungstechniken auf die COVID-19-Erkennung anhand von Röntgenbildern des Brustkorbs. Berechnen. Biol. Med. 132, 104319. https://doi.org/10.1016/j.compbiomed.2021.104319 (2021).
Artikel CAS PubMed PubMed Central Google Scholar
Rao, K., Bansal, M. & Kaur, G. Retinex-zentrierte Kontrastverstärkungsmethode für histopathologische Bilder mit gewichtetem CLAHE. Araber. J. Sci. Ing. 47, 13781–13798. https://doi.org/10.1007/s13369-021-06421-w (2022).
Artikel CAS Google Scholar
Hättenschwiler, N., Mendes, M. & Schwaninger, A. Erkennung von Bomben in Röntgenbildern von aufgegebenem Gepäck: 2D- versus 3D-Bildgebung. Summen. Faktoren 61, 305–321. https://doi.org/10.1177/0018720818799215 (2019).
Artikel PubMed Google Scholar
Gao, Q., Hong, R., Zhu, X., Liu, X. Ein Röntgenbildverbesserungsalgorithmus für gefährliche Güter bei der Sicherheitskontrolle am Flughafen. In Proceedings of Asia-Pacific Conference on Communications Technology and Computer Science (ACCTCS), Shenyang, China 43–46 (2021). https://doi.org/10.1109/ACCTCS52002.2021.00017.
Pincu, R., Kleinberger-Riedrich, O. Ein Überblick über die digitale Radiographie im Dienste der Sicherheit. Auf der 18. Weltkonferenz für zerstörungsfreie Prüfung, 2012, 17, Durban, Südafrika. www.ndt.net/?id=12810.
Gupta, P., Sinno, Z., Jack, L., Glover, JL, Paulter, NG et al. Vorhersage der Erkennungsleistung auf Sicherheitsröntgenbildern als Funktion der Bildqualität. In IEEE Transactions on Image Processing, vol. 28, 3328–3342 (2019) https://doi.org/10.1109/TIP.2019.2896488.
Moldovanu, S., Damian Michis, FA, Biswas, KC, Culea-Florescu, A. & Moraru, L. Klassifizierung von Hautläsionen basierend auf fraktalen Oberflächendimensionen und statistischen Farbclustermerkmalen unter Verwendung eines Ensembles maschineller Lerntechniken. Krebserkrankungen 13, 5256. https://doi.org/10.3390/cancers13215256 (2021).
Artikel PubMed PubMed Central Google Scholar
Montaha, S. et al. BreastNet18: Ein hochpräzises, fein abgestimmtes VGG16-Modell, das mithilfe einer Ablationsstudie zur Diagnose von Brustkrebs anhand verbesserter Mammographiebilder evaluiert wurde. Biologie. 10, 1347. https://doi.org/10.3390/biology10121347 (2021).
Artikel PubMed PubMed Central Google Scholar
Montaha, S. et al. MNet-10: Ein robustes flaches Faltungs-Neuronales Netzwerkmodell, das eine Ablationsstudie an medizinischen Bildern durchführt und die Wirksamkeit der Anwendung einer optimalen Datenerweiterungstechnik bewertet. Vorderseite. Med. 9, 924979. https://doi.org/10.3389/fmed.2022.924979 (2022).
Artikel Google Scholar
Verma, AK et al. Wavelet- und Deep-Learning-basierter Nachweis von SARS-nCoV aus Thorax-Röntgenbildern für schnelle und effiziente Tests. Expertensystem. Appl. 185, 115650. https://doi.org/10.1016/j.eswa.2021.115650 (2021).
Artikel PubMed PubMed Central Google Scholar
Kusrini, K., Arif, M., Yudianto, A. & Al Fatta, H. Die Auswirkung des Gaußschen Filters und der Datenvorverarbeitung auf die Klassifizierung von Punakawan-Puppenbildern mit dem Convolutional Neural Network-Algorithmus. Int. J. Elektr. Berechnen. Ing. 12, 3752–3761. https://doi.org/10.11591/ijece.v12i4.pp3752-3761 (2022).
Artikel Google Scholar
Wu, Y., Dai, Q. & Lu, H. COVID-19-Diagnose mithilfe von Wavelet-basiertem kontrastivem Lernen mit Brust-CT-Bildern. Chemom. Intel. Labor. Syst. 236, 104799. https://doi.org/10.1016/j.chemolab.2023.104799 (2023).
Artikel CAS Google Scholar
Hussein, F. et al. Hybride tiefe neuronale CLAHE-CNN-Netzwerke zur Klassifizierung von Lungenerkrankungen anhand von Röntgenaufnahmen. Elektronik 11, 19. https://doi.org/10.3390/electronics11193075 (2022).
Artikel Google Scholar
High-Tech-Erkennungssysteme, „SÛRETÉ & DÉTECTION“ (2023). https://www.htds.fr/ (abgerufen am 27. Februar 2023).
Yu, L., Li, B. & Jiao, B. Forschung und Implementierung von CNN basierend auf TensorFlow. IOP-Konf. Ser. Mater. Wissenschaft. Ing. 490, 042022. https://doi.org/10.1088/1757-899X/490/4/042022 (2019).
Artikel Google Scholar
Jose, R. Ein Convolutional Neural Network (CNN)-Ansatz zur Gesichtserkennung mithilfe von Tensorflow und Keras. Rochester, NY, 2019. https://papers.ssrn.com/abstract=3599641 (abgerufen am 5. März 2023).
Referenzen herunterladen
Diese Arbeit wurde durch das Projekt „DINAMIC“ unterstützt, finanziert vom rumänischen Ministerium für Forschung und Innovation, Vertrags-Nr. 12PFE/2021. Die Arbeit der MSc-Studentin Lynda Oulhissane wurde von der l'Agence Universitaire de la Francophonie (AUF), Programm „Eugen Ionescu“ 2021–2022 (Bourse de recherche doctorale/postdoctorale), gefördert. Der Autor ist dafür sehr dankbar.
Labor für Signale und Systeme (LSS), Fakultät für Naturwissenschaften und Technologie, Abdelhamid Ibn Badis Universität Mostaganem, 11 Route Nationale, Kharouba, 27000, Mostaganem, Algerien
Lynda Oulhissane & Mostefa Merah
Abteilung für Informatik und Informationstechnologie, Fakultät für Automatisierung, Computer, Elektrotechnik und Elektronik, Dunărea de Jos University of Galati, 2 Stiintei Str., 800146, Galati, Rumänien
Simona Moldovanu
Modellierungs- und Simulationslabor MSlab, Untere Donau-Universität Galati, 47, 800008, Galati, Rumänien
Simona Moldovanu & Luminita Moraru
Abteilung für Chemie, Physik und Umwelt, Fakultät für Naturwissenschaften und Umwelt, Dunărea de Jos Universität Galati, 47 Domneasca Str., 800008, Galati, Rumänien
Luminita Moraru
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
SM, LO und LM gestalteten Forschung. LO und MM sammelten Daten. SM, LO, MM und LM analysierten Daten. LO und LM haben das Manuskript geschrieben. Alle Autoren haben das Manuskript überprüft.
Korrespondenz mit Luminita Moraru.
Die Autoren geben an, dass keine Interessenkonflikte bestehen.
Springer Nature bleibt neutral hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten.
Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative-Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.
Nachdrucke und Genehmigungen
Oulhissane, L., Merah, M., Moldovanu, S. et al. Verbesserte Detonatorerkennung bei der Röntgengepäckinspektion durch Bildmanipulation und Deep Convolutional Neural Networks. Sci Rep 13, 14262 (2023). https://doi.org/10.1038/s41598-023-41651-y
Zitat herunterladen
Eingegangen: 23. Mai 2023
Angenommen: 29. August 2023
Veröffentlicht: 31. August 2023
DOI: https://doi.org/10.1038/s41598-023-41651-y
Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:
Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.
Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt
Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.