We assisted a security ISV to develop a solution for detecting sensitive information in multilingual datasets. This project aimed to improve data protection and regulatory compliance by addressing the challenges of handling sensitive information in different languages, ensuring the security of data used across various sectors, including finance and government services.
Wir haben einem Sicherheits-ISV geholfen, eine Lösung zur Erkennung sensibler Informationen in mehrsprachigen Datensätzen zu entwickeln. Dieses Projekt hatte zum Ziel, den Datenschutz und die Einhaltung von Vorschriften zu verbessern, indem die Herausforderungen im Umgang mit sensiblen Informationen in verschiedenen Sprachen angegangen wurden, um die Sicherheit von Daten in verschiedenen Sektoren, einschließlich Finanz- und Regierungsdiensten, zu gewährleisten.
Our customer is the data security division of a global technology company that specializes in developing products and solutions for aerospace, defense, transportation and digital security. They are known for creating advanced systems such as avionics, cybersecurity solutions and defense technologies.
Unser Kunde ist die Datensicherheitsabteilung eines globalen Technologieunternehmens, das sich auf die Entwicklung von Produkten und Lösungen für Luft- und Raumfahrt, Verteidigung, Transport und digitale Sicherheit spezialisiert hat. Sie sind dafür bekannt, fortschrittliche Systeme wie Avionik, Cybersicherheitslösungen und Verteidigungstechnologien zu entwickeln.
Our client used regular expressions to detect sensitive data in text but this approach did not scale due to the rigid pattern matching. Context sensitive data such as addresses and names were difficult to detect as the context varies between languages and geographies.
They needed a solution which could do the following:
Switch over to a ML based approach to detection of sensitive data.
Detection across different languages, English and Portuguese to begin with.
Unser Kunde verwendete reguläre Ausdrücke, um sensible Daten im Text zu erkennen, aber dieser Ansatz war aufgrund der starren Mustererkennung nicht skalierbar. Kontextabhängige Daten wie Adressen und Namen waren schwer zu erkennen, da der Kontext zwischen Sprachen und geografischen Regionen variiert.
Sie benötigten eine Lösung, die Folgendes leisten konnte:
Umstellung auf einen ML-basierten Ansatz zur Erkennung sensibler Daten.
Erkennung in verschiedenen Sprachen, zunächst Englisch und Portugiesisch.
We addressed the challenge by developing custom Named Entity Recognition (NER) models tailored to the client’s needs. Our approach included several key components:
We proposed and built NER models specifically designed to handle multilingual data. These models leveraged pretrained BERT embeddings for contextual understanding and detection of sensitive entities. The service acted as a middleware between the client applications and cloud data services.
The models were fine-tuned using carefully annotated datasets to detect sensitive information in English and Portuguese. This process involved preparing the data to accommodate the unique linguistic features of each language.
Our models were configured to scan documents for sensitive items, significantly improving the efficiency and accuracy of the identification process, especially in domains requiring compliance with regulations like GDPR and HIPAA.
While the initial solution focused on English and Portuguese, the architecture was designed to be scalable, enabling the client to extend support for additional languages in the future as their needs evolve.
Wir haben die Herausforderung angegangen, indem wir benutzerdefinierte Named Entity Recognition (NER)-Modelle entwickelt haben, die auf die Bedürfnisse des Kunden zugeschnitten sind. Unser Ansatz umfasste mehrere wichtige Komponenten:
We proposed and built NER models specifically designed to handle multilingual data. These models leveraged pretrained BERT embeddings for contextual understanding and detection of sensitive entities. The service acted as a middleware between the client applications and cloud data services.
Die Modelle wurden mit sorgfältig annotierten Datensätzen feinabgestimmt, um sensible Informationen in Englisch und Portugiesisch zu erkennen. Dieser Prozess umfasste die Vorbereitung der Daten, um die einzigartigen sprachlichen Merkmale jeder Sprache zu berücksichtigen.
Unsere Modelle wurden so konfiguriert, dass sie Dokumente auf sensible Elemente scannen, wodurch die Effizienz und Genauigkeit des Identifikationsprozesses erheblich verbessert wurden, insbesondere in Bereichen, die die Einhaltung von Vorschriften wie GDPR und HIPAA erfordern.
Während die anfängliche Lösung auf Englisch und Portugiesisch fokussiert war, wurde die Architektur so konzipiert, dass sie skalierbar ist und es dem Kunden ermöglicht, die Unterstützung für zusätzliche Sprachen in Zukunft zu erweitern, während sich seine Bedürfnisse weiterentwickeln.
The NER model successfully detected local addresses and other sensitive entities missed by regular expressions.
The client now meets stringent regulatory requirements, minimizing legal and reputational risks.
Das NER-Modell erkannte erfolgreich lokale Adressen und andere sensible Entitäten, die von regulären Ausdrücken übersehen wurden.
Der Kunde erfüllt nun strenge regulatorische Anforderungen und minimiert rechtliche und reputationsbezogene Risiken.
Our multilingual NER models enabled the client to enhance data security across various sectors, ensuring compliance and regulatory requirements. This scalable solution is designed to support additional languages in the future, further strengthening the company’s data protection efforts.
Unsere mehrsprachigen NER-Modelle ermöglichten es dem Kunden, die Datensicherheit in verschiedenen Sektoren zu verbessern und die Compliance- und regulatorischen Anforderungen sicherzustellen. Diese skalierbare Lösung ist darauf ausgelegt, in Zukunft zusätzliche Sprachen zu unterstützen, und stärkt damit die Datenschutzbemühungen des Unternehmens weiter.