Markus Begerow Follow🇩🇪Markus Begerow unterstützt Start-ups, Unternehmen und Organisationen dabei, das strategische Potenzial von Daten, künstlicher Intelligenz und Blockchain-Technologien zu erschließen. Mit über 15 Jahren Erfahrung in der strategischen Beratung analysiert er regelmäßig die digitalen Geschäftsmodelle und den technologischen Reifegrad von Zielunternehmen und identifiziert Möglichkeiten zur Modernisierung von IT-Architekturen, zum Ausbau von Daten- und KI-Fähigkeiten sowie zur Steigerung des langfristigen Geschäftswerts.
🇬🇧About the author: Markus Begerow helps start-ups, enterprises and organisations to unlock the strategic potential of data, artificial intelligence and blockchain technologies. With over 15 years' experience in strategic consultancy, he regularly analyses the digital business models and technological maturity of target companies, identifying opportunities to modernise IT architectures, expand data and AI capabilities, and increase long-term business value.🔗 Connect via: LinkedIn (Follow) | Twitter | Instagram (Follow)
Invisible Unicode Threat Scanner
43 sec read
Moderne KI-Systeme und Coding-Assistenten, wie zum Beispiel Cursor oder GitHub Copilot, verarbeiten Texte auf Ebene einzelner Unicode-Zeichen. Das ist ein Sicherheitsrisiko: Mit Unicode-Zeichen, die man nicht sehen kann, kann man heimlich Befehle in Texten oder Code-Dateien verstecken.
Für Menschen bleiben diese Zeichen vollständig unsichtbar. Sprachmodelle, sogenannte Large Language Modells (LLMs), erkennen sie jedoch als reguläre Bestandteile des Eingabetextes. Dadurch können Angreifer versteckte Instruktionen einschleusen, etwa um Sicherheitsmechanismen zu umgehen, sensible Daten auszulesen oder manipulierten Code zu erzeugen. Besonders kritisch wird dies bei Markdown-Dateien, Konfigurationsdateien oder AI-Rulesets, welche direkt von KI-Systemen verarbeitet werden. Was früher vor allem durch SQL-Injections bei Datenbanken bekannt wurde, zeigt sich im Zeitalter generativer KI zunehmend in Form sogenannter Prompt-Injections.
Genau deshalb habe ich dieses kleine Tool entwickelt: den Invisible Unicode Threat Scanner. Damit kannst du Texte, Prompts, Markdown-Dateien oder Konfigurationsdateien schnell darauf prüfen, ob versteckte Unicode-Zeichen enthalten sind. Gerade im Zeitalter von KI-gestützter Softwareentwicklung wird es immer wichtiger, nicht nur sichtbaren Code, sondern auch unsichtbare Manipulationen zu verstehen.
Live Preview
Scan results are saved anonymously for research. Your IP is stored as a one-way hash only.
0invisible chars
Risk Level:—
Invisible:0Visible:0Total:0
Annotated Preview
Highlighted markers (◦) show invisible characters. Hover for codepoint details.
Detected Characters
Position
Codepoint
Name
Role in Attack
Decoded Hidden Message(s)
Learn More
How does this attack work?
Attackers encode instructions as binary using zero-width Unicode characters: U+200C represents a 0 bit and U+2063 represents a 1 bit, bracketed by a U+200B start marker and U+200D end marker. The resulting sequence is completely invisible to human readers but is processed as valid input by LLMs, which may silently follow the hidden instructions.
Any LLM that processes text without first filtering invisible Unicode characters is potentially vulnerable — including ChatGPT, Claude, Gemini, and AI coding assistants like GitHub Copilot and Cursor. The risk is especially high when the LLM reads external files, configuration files, or documents controlled by a third party.
How do I protect my AI pipelines?
Sanitize all text before passing it to a language model. Maintain a Unicode allowlist and strip or reject codepoints outside it. Always review configuration files (such as .cursorrules or .mdc files) in their raw byte form rather than rendered output. Use this scanner as a pre-processing step or CI gate.
What do the colour-coded markers mean?
Purple ◦ = Zero Width Space (start marker). Green ◦ = Zero Width Non-Joiner (bit 0). Amber ◦ = Invisible Separator (bit 1). Red ◦ = Zero Width Joiner (end marker). Violet ◦ = BOM/Zero Width No-Break Space. Pink ◦ = Word Joiner. Blue ◦ = LTR Mark. Orange ◦ = RTL Mark.
👉 Teste das Tool gerne selbst mit eigenen Texten oder kopierten Inhalten aus dem Internet. 👉 Wenn du das Thema spannend findest, teile den Scanner gerne mit Freunden, Kollegen oder anderen Entwicklern, um mehr Aufmerksamkeit für diese oft unterschätzte Sicherheitslücke zu schaffen.
Teile diesen Artikel:
Markus Begerow Follow🇩🇪Markus Begerow unterstützt Start-ups, Unternehmen und Organisationen dabei, das strategische Potenzial von Daten, künstlicher Intelligenz und Blockchain-Technologien zu erschließen. Mit über 15 Jahren Erfahrung in der strategischen Beratung analysiert er regelmäßig die digitalen Geschäftsmodelle und den technologischen Reifegrad von Zielunternehmen und identifiziert Möglichkeiten zur Modernisierung von IT-Architekturen, zum Ausbau von Daten- und KI-Fähigkeiten sowie zur Steigerung des langfristigen Geschäftswerts.
🇬🇧About the author: Markus Begerow helps start-ups, enterprises and organisations to unlock the strategic potential of data, artificial intelligence and blockchain technologies. With over 15 years' experience in strategic consultancy, he regularly analyses the digital business models and technological maturity of target companies, identifying opportunities to modernise IT architectures, expand data and AI capabilities, and increase long-term business value.🔗 Connect via: LinkedIn (Follow) | Twitter | Instagram (Follow)