Модели и исследования

Мультимодальная архитектура обнаружения

Наша миссия — защитить цифровую экосистему от синтетических манипуляций. ZeroTrue использует ансамбль моделей, ориентированных на доказательства, для обнаружения контента, созданного ИИ, в тексте, коде, голосе, музыке и видео.

Текст

Код

Голос/TTS

Музыка

Видео

Архитектуры по модальностям

Наши специализированные пайплайны разработаны для захвата уникальных артефактов, оставляемых генеративными моделями в каждой области.

2.1 Генерация текста

Технический подход

Гибридные детекторы, сочетающие тесты правдоподобия/перплексии, контролируемые классификаторы (файн-тюнинг RoBERTa/DeBERTa) и стилометрические признаки.

Ключевые техники

Гистограммы рангов токеновВсплески энтропииВзрывчатостьСоотношение служебных слов

МетрикиAUROC, AUPRC, TPR при 1%/2% FPR

ОбъяснимостьТепловые карты токенов, пороговые полосы для FPR@TPR.

БенчмаркиHC3/HC3+, наборы устойчивости RAID

2.2 LLM-код

Технический подход

Двухпутевой анализ с использованием контентно-независимых детекторов (признаки AST/CFG) и считывателей водяных знаков с учетом происхождения.

Ключевые техники

Базовые модели GraphCodeBERTГрадиентный бустинг стилометрииЭнтропия идентификаторов

МетрикиAUROC, TPR@FPR≤5%, Устойчивость к правкам

ОбъяснимостьОбоснование аномалий через рецензирующий LLM.

БенчмаркиAIGCodeSet, исследования ACL/AAAI

2.3 Клонирование голоса / TTS

Технический подход

Спектрограммные модели CNN/Conformer, объединенные с признаками анти-спуфинга LFCC/EFCC и вариантами ECAPA-TDNN.

Ключевые техники

Аугментация воспроизведенияСимуляция кодековСинхронизация rPPG (при наличии видео)

МетрикиEER, min t-DCF

ОбъяснимостьОбласти спектральных аномалий.

БенчмаркиASVspoof 2019/2021 (LA/PA/DF), ADD 2022, FakeAVCeleb

2.4 Генерация музыки

Технический подход

Многомасштабные спектрограммные отпечатки и тембральные/гармонические остатки, объединенные с теоретико-музыкальными признаками.

Ключевые техники

Анализ стабильности тональностиАккордовые прогрессии N-граммОбнаружение артефактов VQ-VAE

МетрикиAUROC, Согласованность сегментов

ОбъяснимостьОценки согласованности тембра.

БенчмаркиВнутренние наборы данных (OpenAI Jukebox, Suno, Udio)

2.5 Дипфейк видео

Технический подход

Пространственно-временные детекторы (Xception/EfficientNet + TimeSformer) с частотными и физиологическими вспомогательными элементами.

Ключевые техники

Обнаружение морганияИзвлечение пульса rPPGПокадровый анализ

МетрикиVideo-AUC, Frame-AUC, Обобщение между наборами данных

ОбъяснимостьВременные тепловые карты, уверенность по кропу лица.

БенчмаркиDFDC, FaceForensics++, Celeb-DF, DeeperForensics-1.0

Наборы данных и протоколы оценки

Набор данных	Домен	Размер / Примечания	Метрика(и)
HC3 / HC3+	Текст	Высококачественный ChatGPT vs Человек	AUROC, FPR@TPR
RAID	Текст	Состязательные атаки и домены	Оценка устойчивости
AIGCodeSet	Код	Задачи генерации Python	AUROC
ASVspoof 2019/21	Аудио	Логический/Физический доступ	EER, min t-DCF
ADD 2022	Аудио	Обнаружение аудиодипфейков	EER
DFDC	Видео	100k+ клипов, при поддержке Facebook	Video-AUC
FaceForensics++	Видео	Различные методы манипуляции	Frame-AUC
Celeb-DF	Видео	Высококачественные дипфейки	AUC

* Мы также отслеживаем GenImage для базовых показателей генерации изображений.

Метрики оценки

Текст

AUROC

TPR @ 1% FPR

Код

AUROC

TPR @ 5% FPR

Аудио

EER

min t-DCF

Видео

Video-AUC

Frame-AUC

Операционные диапазоны

Рекомендуемые пороги действий на основе оценки уверенности.

0-20% (Безопасно)

20-50% (На проверку)

50-100% (Высокая вероятность)

Происхождение и стандарты

ZeroTrue дополняет статистическое обнаружение криптографическим подтверждением происхождения. Там, где это доступно, мы анализируем и отображаем C2PA Content Credentials наряду с вердиктами наших детекторов. Это обеспечивает двухуровневую защиту: проверку "подлинной" цепочки поставок при статистическом выявлении вероятных манипуляций.

Проверка C2PA

Чтение водяных знаков

ПОДПИСАНО

Манифест происхождения

Учетные данные контента

Подписано производителем камеры

Избранные ссылки

План исследований

Q3 2025

Мультимодельная атрибуция

Фингерпринтинг конкретных версий генераторов (например, Midjourney v6 против DALL-E 3).

Q4 2025

Слияние с учетом водяных знаков

Интеграция скрытых водяных знаков в оценку уверенности.

Q1 2026

Состязательное усиление

Пост-тренировочная устойчивость к новым атакам уклонения.