Модели и исследования

Мультимодальная архитектура обнаружения

Наша миссия — защитить цифровую экосистему от синтетических манипуляций. ZeroTrue использует ансамбль моделей, ориентированных на доказательства, для обнаружения контента, созданного ИИ, в тексте, коде, голосе, музыке и видео.

ZeroTrue Architecture Diagram
Текст
Код
Голос/TTS
Музыка
Видео

Архитектуры по модальностям

Наши специализированные пайплайны разработаны для захвата уникальных артефактов, оставляемых генеративными моделями в каждой области.

2.1 Генерация текста

Технический подход

Гибридные детекторы, сочетающие тесты правдоподобия/перплексии, контролируемые классификаторы (файн-тюнинг RoBERTa/DeBERTa) и стилометрические признаки.

Ключевые техники

Гистограммы рангов токеновВсплески энтропииВзрывчатостьСоотношение служебных слов
МетрикиAUROC, AUPRC, TPR при 1%/2% FPR
ОбъяснимостьТепловые карты токенов, пороговые полосы для FPR@TPR.
БенчмаркиHC3/HC3+, наборы устойчивости RAID

2.2 LLM-код

Технический подход

Двухпутевой анализ с использованием контентно-независимых детекторов (признаки AST/CFG) и считывателей водяных знаков с учетом происхождения.

Ключевые техники

Базовые модели GraphCodeBERTГрадиентный бустинг стилометрииЭнтропия идентификаторов
МетрикиAUROC, TPR@FPR≤5%, Устойчивость к правкам
ОбъяснимостьОбоснование аномалий через рецензирующий LLM.
БенчмаркиAIGCodeSet, исследования ACL/AAAI

2.3 Клонирование голоса / TTS

Технический подход

Спектрограммные модели CNN/Conformer, объединенные с признаками анти-спуфинга LFCC/EFCC и вариантами ECAPA-TDNN.

Ключевые техники

Аугментация воспроизведенияСимуляция кодековСинхронизация rPPG (при наличии видео)
МетрикиEER, min t-DCF
ОбъяснимостьОбласти спектральных аномалий.
БенчмаркиASVspoof 2019/2021 (LA/PA/DF), ADD 2022, FakeAVCeleb

2.4 Генерация музыки

Технический подход

Многомасштабные спектрограммные отпечатки и тембральные/гармонические остатки, объединенные с теоретико-музыкальными признаками.

Ключевые техники

Анализ стабильности тональностиАккордовые прогрессии N-граммОбнаружение артефактов VQ-VAE
МетрикиAUROC, Согласованность сегментов
ОбъяснимостьОценки согласованности тембра.
БенчмаркиВнутренние наборы данных (OpenAI Jukebox, Suno, Udio)

2.5 Дипфейк видео

Технический подход

Пространственно-временные детекторы (Xception/EfficientNet + TimeSformer) с частотными и физиологическими вспомогательными элементами.

Ключевые техники

Обнаружение морганияИзвлечение пульса rPPGПокадровый анализ
МетрикиVideo-AUC, Frame-AUC, Обобщение между наборами данных
ОбъяснимостьВременные тепловые карты, уверенность по кропу лица.
БенчмаркиDFDC, FaceForensics++, Celeb-DF, DeeperForensics-1.0

Наборы данных и протоколы оценки

Набор данныхДоменРазмер / ПримечанияМетрика(и)
HC3 / HC3+ТекстВысококачественный ChatGPT vs ЧеловекAUROC, FPR@TPR
RAIDТекстСостязательные атаки и доменыОценка устойчивости
AIGCodeSetКодЗадачи генерации PythonAUROC
ASVspoof 2019/21АудиоЛогический/Физический доступEER, min t-DCF
ADD 2022АудиоОбнаружение аудиодипфейковEER
DFDCВидео100k+ клипов, при поддержке FacebookVideo-AUC
FaceForensics++ВидеоРазличные методы манипуляцииFrame-AUC
Celeb-DFВидеоВысококачественные дипфейкиAUC

* Мы также отслеживаем GenImage для базовых показателей генерации изображений.

Метрики оценки

Текст
AUROC
TPR @ 1% FPR
Код
AUROC
TPR @ 5% FPR
Аудио
EER
min t-DCF
Видео
Video-AUC
Frame-AUC

Операционные диапазоны

Рекомендуемые пороги действий на основе оценки уверенности.

0-20% (Безопасно)
20-50% (На проверку)
50-100% (Высокая вероятность)

Происхождение и стандарты

ZeroTrue дополняет статистическое обнаружение криптографическим подтверждением происхождения. Там, где это доступно, мы анализируем и отображаем C2PA Content Credentials наряду с вердиктами наших детекторов. Это обеспечивает двухуровневую защиту: проверку "подлинной" цепочки поставок при статистическом выявлении вероятных манипуляций.

Проверка C2PA
Чтение водяных знаков
ПОДПИСАНО
Манифест происхождения
C2PA
Учетные данные контента
Подписано производителем камеры

План исследований

Q3 2025

Мультимодельная атрибуция

Фингерпринтинг конкретных версий генераторов (например, Midjourney v6 против DALL-E 3).

Q4 2025

Слияние с учетом водяных знаков

Интеграция скрытых водяных знаков в оценку уверенности.

Q1 2026

Состязательное усиление

Пост-тренировочная устойчивость к новым атакам уклонения.