NLP models - Coriolis Technologies

We assisted a security ISV to develop a solution for detecting sensitive information in multilingual datasets. This project aimed to improve data protection and regulatory compliance by addressing the challenges of handling sensitive information in different languages, ensuring the security of data used across various sectors, including finance and government services.

Wir haben einem Sicherheits-ISV geholfen, eine Lösung zur Erkennung sensibler Informationen in mehrsprachigen Datensätzen zu entwickeln. Dieses Projekt hatte zum Ziel, den Datenschutz und die Einhaltung von Vorschriften zu verbessern, indem die Herausforderungen im Umgang mit sensiblen Informationen in verschiedenen Sprachen angegangen wurden, um die Sicherheit von Daten in verschiedenen Sektoren, einschließlich Finanz- und Regierungsdiensten, zu gewährleisten.

Client overview

Our customer is the data security division of a global technology company that specializes in developing products and solutions for aerospace, defense, transportation and digital security. They are known for creating advanced systems such as avionics, cybersecurity solutions and defense technologies.

Kundenübersicht

Unser Kunde ist die Datensicherheitsabteilung eines globalen Technologieunternehmens, das sich auf die Entwicklung von Produkten und Lösungen für Luft- und Raumfahrt, Verteidigung, Transport und digitale Sicherheit spezialisiert hat. Sie sind dafür bekannt, fortschrittliche Systeme wie Avionik, Cybersicherheitslösungen und Verteidigungstechnologien zu entwickeln.

Challenge

Our client used regular expressions to detect sensitive data in text but this approach did not scale due to the rigid pattern matching. Context sensitive data such as addresses and names were difficult to detect as the context varies between languages and geographies.
They needed a solution which could do the following:

Switch over to a ML based approach to detection of sensitive data.

Detection across different languages, English and Portuguese to begin with.

Herausforderung

Unser Kunde verwendete reguläre Ausdrücke, um sensible Daten im Text zu erkennen, aber dieser Ansatz war aufgrund der starren Mustererkennung nicht skalierbar. Kontextabhängige Daten wie Adressen und Namen waren schwer zu erkennen, da der Kontext zwischen Sprachen und geografischen Regionen variiert.
Sie benötigten eine Lösung, die Folgendes leisten konnte:

Umstellung auf einen ML-basierten Ansatz zur Erkennung sensibler Daten.

Erkennung in verschiedenen Sprachen, zunächst Englisch und Portugiesisch.

Solution

We addressed the challenge by developing custom Named Entity Recognition (NER) models tailored to the client’s needs. Our approach included several key components:

Custom NER models

We proposed and built NER models specifically designed to handle multilingual data. These models leveraged pretrained BERT embeddings for contextual understanding and detection of sensitive entities. The service acted as a middleware between the client applications and cloud data services.

Fine-Tuning for specific languages

The models were fine-tuned using carefully annotated datasets to detect sensitive information in English and Portuguese. This process involved preparing the data to accommodate the unique linguistic features of each language.

Scanning for sensitive entities

Our models were configured to scan documents for sensitive items, significantly improving the efficiency and accuracy of the identification process, especially in domains requiring compliance with regulations like GDPR and HIPAA.

Scalability for future needs

While the initial solution focused on English and Portuguese, the architecture was designed to be scalable, enabling the client to extend support for additional languages in the future as their needs evolve.

Lösung

Wir haben die Herausforderung angegangen, indem wir benutzerdefinierte Named Entity Recognition (NER)-Modelle entwickelt haben, die auf die Bedürfnisse des Kunden zugeschnitten sind. Unser Ansatz umfasste mehrere wichtige Komponenten:

Benutzerdefinierte NER-Modelle

Feinabstimmung für spezifische Sprachen

Die Modelle wurden mit sorgfältig annotierten Datensätzen feinabgestimmt, um sensible Informationen in Englisch und Portugiesisch zu erkennen. Dieser Prozess umfasste die Vorbereitung der Daten, um die einzigartigen sprachlichen Merkmale jeder Sprache zu berücksichtigen.

Scannen nach sensiblen Entitäten

Unsere Modelle wurden so konfiguriert, dass sie Dokumente auf sensible Elemente scannen, wodurch die Effizienz und Genauigkeit des Identifikationsprozesses erheblich verbessert wurden, insbesondere in Bereichen, die die Einhaltung von Vorschriften wie GDPR und HIPAA erfordern.

Skalierbarkeit für zukünftige Bedürfnisse

Während die anfängliche Lösung auf Englisch und Portugiesisch fokussiert war, wurde die Architektur so konzipiert, dass sie skalierbar ist und es dem Kunden ermöglicht, die Unterstützung für zusätzliche Sprachen in Zukunft zu erweitern, während sich seine Bedürfnisse weiterentwickeln.

Results

Improved accuracy over existing system

The NER model successfully detected local addresses and other sensitive entities missed by regular expressions.

Compliance Assurance

The client now meets stringent regulatory requirements, minimizing legal and reputational risks.

Ergebnisse

Verbesserte Genauigkeit gegenüber dem bestehenden System

Das NER-Modell erkannte erfolgreich lokale Adressen und andere sensible Entitäten, die von regulären Ausdrücken übersehen wurden.

Einhaltung von Vorschriften

Der Kunde erfüllt nun strenge regulatorische Anforderungen und minimiert rechtliche und reputationsbezogene Risiken.

Fazit

Unsere mehrsprachigen NER-Modelle ermöglichten es dem Kunden, die Datensicherheit in verschiedenen Sektoren zu verbessern und die Compliance- und regulatorischen Anforderungen sicherzustellen. Diese skalierbare Lösung ist darauf ausgelegt, in Zukunft zusätzliche Sprachen zu unterstützen, und stärkt damit die Datenschutzbemühungen des Unternehmens weiter.

AI & ML, Security

Custom NLP models for enhanced data security

Benutzerdefinierte NLP-Modelle für verbesserte Datensicherheit