
Главное
• FRP — это лицензированная библиотека на 720 000 треков для профессиональных диджеев — с распознаванием музыки в стиле Shazam, голосовым ИИ-сборщиком плейлистов, метаданными по BPM и тональности и синхронизацией с Serato в одной платформе, которую мы выпустили для frp.live.
• Аудиоотпечатки (audio fingerprinting) заменяют просьбу «зашазамь мне этот трек». Хэш в виде «созвездия» пиков спектрограммы за 5–10 секунд сопоставляет фрагмент живого сета с каталогом меньше чем за секунду — даже поверх шума толпы.
• Голосовой ИИ-ассистент превращает обычную речь в плейлисты. Фраза «дай мне итальянскую поп-музыку 90-х на 140 BPM» проходит через Whisper (0,45 ₽/мин), GPT-4o для фильтрации и Amazon Polly для голосового ответа — полный цикл занимает меньше двух секунд.
• Бюджет на разработку в 2026 году скромнее, чем кажется. При agent-engineered-подходе платформа уровня FRP (веб + десктоп на Electron + iOS/Android + распознавание + голосовой ИИ) укладывается в средний шестизначный диапазон в долларах (около 30–45 млн ₽), а не в семизначный.
• Сложнее всего лицензирование и синхронизация с Serato, а не код. Контракты с Sony, Universal и Virgin и отсутствие официального SDK у Serato — именно это убивает большинство проектов диджейских пулов ещё до запуска. Мы разбираем обе проблемы.
Почему Фора Софт написала этот гайд
Фора Софт выпускает продукты для аудио и видео в реальном времени с 2005 года — более 625 готовых продуктов, 21 год специализации и 100% успешных проектов из тех, что мы берём в работу. Franchise Record Pool — один из аудиопроектов, которыми мы гордимся больше всего, именно потому что почти каждая его подсистема — это как раз то, про что заказчику обычно говорят: «без огромной команды такое не построить».
Мы выпустили всё семейство продуктов FRP — веб-консоль, десктопное приложение на Electron, нативные по ощущениям клиенты для iOS и Android, движок распознавания по аудиоотпечаткам, голосового ассистента на базе LLM и синхронизацию с Serato — для живого каталога из 720 000 лицензированных треков от Sony, Universal и Virgin. Эта статья — тот самый гайд, который мы хотели бы вручить каждому основателю music-tech-стартапа ещё до того, как он напишет своё первое техзадание. Читайте её как рабочую оценку того, что нужно, чтобы выпустить современную диджейскую платформу, а не как маркетинговый текст.
Если вы взвешиваете «строить или купить» для собственной музыкальной библиотеки, переходите сразу к разделам обзор рынка диджейских пулов и модель затрат. Если вы оцениваете объём разработки, то эталонная архитектура и подводные камни — это то, где экономятся настоящие деньги.
Строите диджейский пул или продукт для распознавания музыки?
30 минут с нашей командой по аудиостримингу — этого достаточно, чтобы проверить на прочность ваш объём работ, путь к лицензированию и модель затрат ещё до того, как вы выберете подрядчика.
Бриф FRP в одном абзаце
Franchise Record Pool — это платформа по подписке для профессиональных диджеев. В одном аккаунте она даёт сразу три вещи: лицензированный каталог на 720 000 треков, где в каждой строке указаны BPM, тональность, ремиксы и метаданные об источнике; движок распознавания «Shazam для диджеев», который подсказывает, что только что поставил другой диджей в своём сете, и добавляет трек в вашу подборку; и голосовой ИИ-ассистент, который собирает тематические плейлисты из одной фразы. Поверх этих трёх возможностей лежат веб-панель, десктопное приложение на Electron, клиенты на React Native для iOS/Android, синхронизация с Serato и слой WebRTC для аудиосвязи между диджеем и фанатами.
FRP — это не клон Spotify. Это рабочий инструмент для людей, чья работа — это четырёхчасовой сет, и это меняет каждое продуктовое решение: от того, как быстро грузится волновая форма, до того, как поиск ранжирует версии Clean и Dirty.
Выбирайте кастомную диджейскую платформу, когда: ваш каталог превышает 250 тыс. треков, вашим диджеям нужны метаданные для гармоничного сведения или у вас есть лицензионные соглашения, которые white-label-сервисы вроде BPM Supreme или DJcity разместить не смогут.
Что профессиональным диджеям на самом деле нужно от трек-пула
Прежде чем строить FRP, мы наблюдали за работой диджеев в клубах, на свадьбах, радиорезиденциях и корпоративных мероприятиях. Бриф, который вышел из этого исследования, — это тот же бриф, что должен лежать в основе любого продукта-диджейского пула, и он уже, чем ожидает большинство основателей.
1. Clean и Dirty — быстро. Работающему диджею нужно в одно касание переключаться между explicit-версией и radio-edit одного и того же трека. Поиск, который прячет «Clean» за тремя фильтрами, теряет пользователей в течение недели.
2. BPM и тональность в каждой строке. Гармоничное сведение работает на колесе Камелот (12 тональностей × мажор/минор = 24 ячейки). Если метаданные тональности отсутствуют или ошибочны более чем у 2% каталога, диджеи замечают это на первом же выступлении и меняют провайдера.
3. Ремиксы в той же панели, что и оригинал. Эдиты, redrum-версии, версии с интро/аутро и акапеллы должны быть в одном касании от исходного трека — с указанием автора ремикса, разницы в BPM и длительности.
4. Распознавание «что они поставили?». Диджеи следят друг за другом. Они записывают фрагмент на телефон, открывают ваше приложение и ждут, что трек определится меньше чем за секунду — а потом ждут, что добавят его в свою подборку одним касанием.
5. Синхронизация с их диджейским ПО. Если библиотека не доходит до Serato, rekordbox или Traktor, платформа превращается в брошюру «только для чтения». Именно эта функция отличает диджейские пулы от любого другого музыкального продукта.
6. Надёжная работа офлайн на площадках. WiFi в клубах ужасен. Десктопные и мобильные клиенты должны кэшировать очереди загрузок, возобновлять их после переподключения и никогда не падать молча на оборванной передаче.
Внутри платформы FRP — функции, которые важны
FRP несёт плотный набор функций. Те, что ниже, — это то, за что мы бы боролись, оставляя их даже в более скромном MVP, если бы бюджет урезали вдвое.
Лицензированный каталог на 720 000 треков с полными метаданными
Каждый трек в FRP лицензирован у крупных лейблов (Sony Music, Universal, Virgin Records и список независимых дистрибьюторов). В каждой строке доступны тональность, BPM, жанр, поджанр, дата релиза, семейство ремиксов/эдитов и короткая превью-волна. Ни один другой диджейский пул из нашего исследования не выводит всё это в одной строке выдачи.
Распознавание музыки («Shazam для диджеев»)
Загрузите или запишите 5–10 секунд аудио — и FRP вернёт подходящий трек с оценкой уверенности. Он также вернёт ближайшие ремиксы из каталога FRP — именно эта функция превращает распознавание из «забавного демо» в «добавляет треки в мою подборку».
Голосовой ИИ-сборщик плейлистов
Одна кнопка микрофона запускает диалог. «Собери плейлист с итальянской поп-музыкой из 90-х, около 140 BPM, без explicit». Ассистент подтверждает, генерирует плейлист и зачитывает вслух название и первые пять треков.
Нативная синхронизация библиотеки с Serato
Треки, скачанные из FRP, появляются в Serato с сохранёнными метаданными FRP — без повторной разметки, без повторного импорта, без ручного управления папками. Это первая функция, которую профессионалы проверяют перед оформлением подписки.
Веб + десктоп на Electron + мобильные на React Native
Одна дисциплина общей кодовой базы, три поверхности. Десктопное приложение на Electron — это там, где идёт тяжёлая работа с библиотекой; мобильное приложение — то, что открывают в диджейской будке или прямо на улице, когда хотят «зашазамить» трек; веб-приложение — это слой биллинга и администрирования.
Канал связи с фанатами (только в мобильном приложении)
В мобильном приложении диджеи могут транслировать короткие аудиосообщения и превью подписчикам по каналу на базе WebRTC. Именно эта функция оставляет приложение на главном экране в перерывах между выступлениями.
Движок распознавания музыки — как работает «Shazam для диджеев»
Современное распознавание музыки использует алгоритм «созвездий» (constellation algorithm): берётся короткий фрагмент, вычисляется его спектрограмма, извлекаются пиковые точки в координатах «время — частота», хэшируются пары пиков, и эти хэши сопоставляются с предварительно проиндексированной базой хэшей, вычисленных для каждого трека в каталоге. Эйвери Ванг опубликовал каноническое описание на ISMIR 2003; каждый движок в стиле Shazam с тех пор строится на нём.
Движок переживает фоновый шум, потому что отбрасывает амплитуду и интересуется только паттерном пиков — пики, которые остаются после толпы, звона бокалов и плохого PA, всё ещё совпадают с пиками оригинального трека. 5-секундного фрагмента достаточно для базы из нескольких миллионов треков.
Построить, лицензировать или гибрид — три реалистичных пути
1. Сделать своё. Dejavu (open-source на Python), audfprint (Дэн Эллис, Колумбийский университет) или конвейер на Chromaprint/AcoustID. Бесплатно по лицензии, но вы берёте на себя стоимость вычисления отпечатков (GPU-часы) и стоимость хостинга индекса хэшей. Подходит для каталогов до ~500 тыс. треков при наличии собственной ML-команды.
2. Коммерческий API. ACRCloud, AudibleMagic или Gracenote. Оплата за каждое распознавание или фиксированный enterprise-тариф. Быстрее выпустить; стоимость растёт линейно с нагрузкой; вы зависите от их аптайма.
3. Гибрид. Используйте open-source-фингерпринтер против своего каталога, а для треков вне каталога переключайтесь на коммерческий API. Именно так делает FRP — это ощутимо дешевле на масштабе и удерживает задержку распознавания в заданных рамках.
Выбирайте гибридное распознавание, когда: ваш каталог больше 150 тыс. треков и вы ожидаете более 10 тыс. вызовов распознавания в день — юнит-экономика разворачивается против чисто коммерческого API примерно на этом объёме.
Голосовой ИИ-ассистент для тематических плейлистов
Голосовой ассистент FRP намеренно узкий. Он делает одну вещь хорошо: превращает произнесённый бриф в запрос к каталогу, а затем в плейлист. У конвейера четыре подвижные части.
1. Whisper расшифровывает речь. OpenAI Whisper по цене 0,45 ₽/мин, с захватом звука в браузере на 16 кГц. Язык определяется автоматически; диджеи в нашей аудитории говорят на четырёх-пяти языках, и Whisper хорошо справляется с переключением между ними.
2. GPT-4o извлекает фильтр. Системный промпт велит модели выдать строгий JSON-объект: массив жанров, диапазон BPM, набор тональностей, диапазон лет, флаг explicit, настроение, язык. К поисковому сервису уходит только JSON — мы никогда не позволяем LLM писать SQL напрямую.
3. Поиск по каталогу выполняется детерминированно. JSON-фильтр попадает в наш собственный индекс метаданных (MongoDB + денормализованная поисковая проекция). LLM никогда не видит каталог; каталог никогда не видит LLM.
4. Amazon Polly зачитывает результат. Короткое подтверждение («Собрал сет из 23 треков итальянской поп-музыки со средним темпом 138 BPM») проигрывается естественным голосом. Polly Neural стоит 1 200 ₽ за миллион символов — погрешность округления в расчёте на сессию.
Эта архитектура делает галлюцинации невозможными: модель не может выдумать трек, потому что вообще не касается библиотеки. Тот же паттерн мы разбираем в нашем гайде по ИИ-ассистентам для звонков и в сравнении библиотек синтетического голоса.
// System prompt used by FRP (abbreviated)
You are a DJ-assistant router. Return ONLY a JSON object:
{
"genre": string[],
"subgenre": string[],
"bpm_min": number, "bpm_max": number,
"key_set": string[], // Camelot notation
"year_min": number, "year_max": number,
"explicit_ok": boolean,
"language": string[],
"mood": string[]
}
No prose. No track names. No commentary.
If the user is ambiguous, default the bpm range to +/-3 around
the implied style (e.g. "house" -> 120..128).
BPM, тональность и обогащение метаданных
Метаданные лейблов непоследовательны, неполны и часто ошибочны. На масштабе FRP вам приходится переанализировать аудио самостоятельно. Мы используем Essentia (библиотеку MTG из Барселоны) для определения BPM, тональности и настроения; она бесплатна, с открытым исходным кодом и при сверке с Mixed In Key показывает совпадение примерно на 99% на стандартных тестовых наборах MIREX.
Essentia извлекает более 200 аудиодескрипторов на трек — мы храним около 15 из них (BPM, уверенность, тональность по Камелот, энергичность, танцевальность, громкость, спектральная сложность и короткий набор тегов настроения). Анализ запускается один раз при загрузке трека на дешёвых CPU-воркерах; четырёхминутный трек обрабатывается за ~12 секунд на скромной виртуальной машине. Для каталога из 720 тыс. треков это примерно 2 400 воркер-часов, амортизированных на годы.
Интеграция с Serato, rekordbox и Traktor
Ни один из трёх крупных вендоров диджейского ПО не публикует официальный SDK. Интеграция делается через запись в форматы, которые они читают:
1. Serato хранит подборки как бинарные файлы .crate в папке ~/Music/_Serato_/Subcrates. Точки cue и метки битгрида лежат во фреймах ID3 GEOB внутри самих аудиофайлов. Десктопное приложение FRP пишет и то, и другое атомарно в момент загрузки трека.
2. rekordbox (Pioneer) использует XML-файл библиотеки (rekordbox.xml) плюс базу SQLite в новых версиях. Путь через XML по-прежнему остаётся надёжным для сторонних программ записи.
3. Traktor (Native Instruments) использует коллекционный XML (collection.nml), который сторонние инструменты вроде Lexicon и DJ Conversion Utility уже надёжно разбирают.
Серьёзный диджейский пул выпускает сначала синхронизацию с Serato, затем с rekordbox, затем с Traktor. Это порядок долей рынка профессиональных диджеев в 2026 году.
Эталонная архитектура (веб, десктоп, мобайл)
FRP построен на понятной четырёхслойной архитектуре, которую мы рекомендуем для любого диджейского продукта с лицензированным каталогом. Адаптируйте границы слоёв, но не саму форму.
| Слой | Зона ответственности | Технологии в FRP | Что ломается, если сделать неправильно |
|---|---|---|---|
| Клиенты | UI библиотеки, очередь загрузок, захват для распознавания, голосовые намерения, запись в Serato | React (веб), Electron (десктоп), React Native (iOS/Android) | Разные наборы функций на платформах → рассинхрон |
| Граница API | Аутентификация, поиск, права доступа, подписанные URL для загрузки, биллинг | Node.js + Express, JWT, Stripe | Утечка загрузок = потеря лицензионной сделки |
| Сервисы | Аудиоотпечатки, обогащение метаданных, маршрутизация намерений через LLM, генератор плейлистов | Python-воркеры, Essentia, Whisper, GPT-4o, Polly | Медленные конвейеры блокируют загрузку новых релизов |
| Данные | Метаданные треков, библиотека пользователя, права доступа, аналитика | MongoDB (гибкие метаданные), MySQL (транзакции) | Задержка поиска > 300 мс убивает UX |
| Медиа | Мастер-файлы, транскодинг, превью, отпечатки | S3-совместимое объектное хранилище + мульти-CDN, превью по WebRTC | Плохая гео-привязка CDN → зависание загрузок перед выступлением |
WebRTC несёт аудио между диджеем и фанатами и превью с низкой задержкой, потому что альтернативы слишком медленные. WebRTC держит задержку «от стекла до стекла» около 200–500 мс. RTMP — около 3–5 секунд. Обычный HLS — 10–30 секунд. Для диджея, который сводит в трек, только WebRTC читается как «мгновенно». Подробнее этот компромисс мы разбираем в нашем гайде про альтернативу Agora.io.
Хотите второе мнение по вашей аудиоархитектуре?
Мы разберём вместе с вами размер каталога, объём распознавания и требования к синхронизации с ПО — и подскажем, где сидят настоящие затраты и риски, ещё до подписания любого договора.
Обзор рынка диджейских пулов — FRP против BPM Supreme, DJcity и Beatport
Если вы оцениваете кастомную разработку вместо лицензированной подписки, вам стоит знать, что предлагают игроки рынка. Матрица ниже — наш рабочий срез по состоянию на апрель 2026 года; перед публикацией цен внутри компании сверьтесь с вендором.
| Пул | Размер каталога | В месяц (₽) | Распознавание | Голосовой ИИ-поиск | Синхронизация с Serato |
|---|---|---|---|---|---|
| FRP | ~720 тыс. лицензированных | Pro-тариф | Да (в приложении) | Да (Whisper + GPT-4o) | Да |
| BPM Supreme | ~500 тыс. | ~1 400–2 600 ₽ | Нет | Нет | Да |
| DJcity | ~300 тыс. | ~2 200 ₽ | Нет | Нет | Да |
| Beatport LINK | ~10 млн (только стриминг) | ~1 100–2 900 ₽ | Нет | Нет | Частично (только в приложении) |
| ZipDJ | ~200 тыс. | ~1 800 ₽ | Нет | Нет | Частично |
Две ячейки, которые важнее всего для позиционирования FRP, — это «распознавание в приложении» и «голосовой ИИ-поиск». Обе пусты у каждого игрока рынка — именно поэтому кастомная разработка здесь оправдана.
Лицензирование 720 000 треков — юридический слой
Разработка — это лёгкая половина диджейского пула. Тяжёлая половина — это соглашения по каталогу. Каждому треку нужны две лицензии: на мастер-запись (от лейбла — Sony, Universal, Warner, Virgin, BMG плюс независимые дистрибьюторы) и на композицию (от издателей через механические права или от общества по коллективному управлению правами). Диджейские пулы обычно договариваются с лейблами о фиксированной помесячной лицензии на промо-использование в расчёте на пользователя, с отчётностью по загрузкам.
Две практические вещи, которые стоит заложить заранее: окна удаления контента в стиле DMCA (лейблы периодически снимают отдельные треки) и водяные знаки (некоторые лейблы требуют промо-DRM, чтобы треки нельзя было перепродать). Обе вещи нужны на уровне архитектуры с первого дня — приделать их позже превращается в восьминедельный аврал.
Выбирайте кастомный пул только когда: у вас есть как минимум одно принципиальное соглашение с крупным лейблом и реалистичная операция по отчётности и нанесению водяных знаков. Иначе white-label поверх существующего каталога быстрее и дешевле.
Хранилище, CDN и масштаб каталога
Для каталога из 720 тыс. треков в виде FLAC-мастеров плюс транскоды MP3-320 и MP3-128 вы планируете примерно 20–28 ТБ объектного хранилища. В 2026 году это небольшая цифра; затраты сидят в исходящем трафике, а не в хранении.
Мульти-CDN-подход (Cloudflare плюс региональный запасной вариант или AWS CloudFront плюс Fastly) — это способ удержать скорость загрузки стабильной по всем регионам. Spotify публично сообщал о снижении исходящего трафика примерно на 35% после перехода на Opus и мульти-CDN — аналогичная арифметика работает на любом серьёзном масштабе каталога. Предварительно подписанные URL с коротким TTL плюс возобновление по байтовым диапазонам закрывают случай «WiFi в клубе отвалился» без кастомного клиентского кода.
Что касается хранения отпечатков, сами индексированные хэши малы (~1–2 КБ на трек); индекс отпечатков на 1 млн треков комфортно помещается на одной машине с большим объёмом RAM. Это та часть системы, где чаще всего случается переусложнение.
Стек, который мы выбрали (и почему)
Точный стек за FRP — и причина, почему каждый его элемент именно здесь, а не правдоподобная альтернатива.
- React + TypeScript для всего клиентского UI. Одна библиотека компонентов, три поверхности. Выбраны вместо Svelte/Vue, потому что глубина рынка найма важна, когда у вас три клиента параллельно.
- Electron для десктопного приложения. Синхронизации с Serato, локальному кэшу и офлайн-очереди загрузок нужен доступ к файловой системе, который браузер дать не может.
- React Native для iOS и Android. Мы переиспользуем ~70% логики React-компонентов с веба; нативные модули отвечают за захват аудио и мобильные экспорты по аналогии с Serato.
- Node.js + Express для границы API. Легко нанимать, хорошо подходит для нагрузки, в основном состоящей из CRUD и поиска.
- Python-воркеры для ML и аудиоанализа. Essentia, клиент Whisper и индекс отпечатков живут здесь.
- MongoDB для метаданных (схема постоянно дрейфует по мере того, как лейблы добавляют поля). MySQL для транзакционных данных (подписки, права доступа, биллинг).
- WebRTC для аудио между диджеем и фанатами и для превью. Меньше 500 мс и без дополнительного плагина.
- OpenAI Whisper + GPT-4o + Amazon Polly для голосового ассистента. Логику выбора мы разобрали в материале «7 лучших ИИ-инструментов для аудиоприложений».
Модель затрат для похожей платформы
Ориентировочные диапазоны на 2026 год для продукта уровня FRP — без учёта лицензирования каталога и операций по отчётности перед лейблами. Это оценки Фора Софт по методу Agent-Engineered, который быстрее и точнее классических аутсорсинговых ориентиров; сверяйтесь со своим вендором, а не экстраполируйте.
| Объём | Поверхности | ИИ-функции | Сроки | Диапазон бюджета |
|---|---|---|---|---|
| Минимальный MVP | Только веб + iOS | Распознавание (через коммерческий API) | 4–5 месяцев | 7–15 млн ₽ |
| Полный запуск | Веб + Electron + iOS + Android | Распознавание + голосовые плейлисты | 8–10 месяцев | 30–45 млн ₽ |
| Аналог FRP | Все четыре + синхронизация с Serato/rekordbox/Traktor + канал для фанатов | Гибридное распознавание + голос + гармонические рекомендации | 10–14 месяцев | 50–67 млн ₽ |
Текущие эксплуатационные расходы поверх разработки: закладывайте примерно 2–4% выручки от подписок на ИИ-API (Whisper по 0,45 ₽/мин, GPT-4o по его текущему тарифу, Polly по 1 200 ₽ за миллион символов) плюс исходящий трафик CDN, который растёт с числом загрузок. По части ИИ-API у нас есть полноценный материал: «6 лучших библиотек синтетического голоса для разработки приложений».
Подводные камни, которые мы прошли за вас
1. Воспринимать распознавание как ML-проект, а не как проект про индексацию. Команды сжигают месяцы, обучая всё более хитрые фингерпринтеры. Выигрыш почти всегда в индексе — кардинальности, распределении хэшей и в том, как быстро можно шардировать поиск. Начните с понятной схемы хэширования и измеряйте.
2. Пускать LLM напрямую к базе данных. Как только модель пишет ваш поисковый запрос, она начинает выдумывать треки. Маршрутизируйте через строгий JSON и детерминированный поиск; LLM — это парсер, а не извлекатель данных.
3. Игнорировать Serato с первого дня. Интеграция с Serato после запуска — это аврал на шесть-восемь недель без какой-либо видимой пользователю отдачи. Пишите в папку Serato с первого релиза.
4. Доверять метаданным лейблов. BPM отсутствует примерно в 30% фидов лейблов; тональность — в 60%; настроение — почти во всех. Переанализируйте при загрузке.
5. Откладывать DRM «на потом». Если какой-то из ваших контрактов с лейблами требует промо-водяных знаков, конвейер загрузки должен генерировать отпечатки на каждого пользователя при каждой загрузке. Прикрутить это к уже работающему каталогу — самая дорогая ошибка из тех, что мы видим.
Метрики, которые важны для диджейского пула
Метрики качества. Точность распознавания (цель ≥ 98% top-1 на 5-секундных фрагментах против собственного каталога), точность BPM против эталонных данных (≥ 99%), точность тональности (≥ 95%), точность распознавания намерения голосовой команды (≥ 92% на отложенном тестовом наборе). Эти цифры важны, потому что диджеи проверяют вас в первый же день; всё, что ниже, читается как «сломано».
Бизнес-метрики. Доля активных диджеев в месяц (D28 ≥ 55% от платящих пользователей), загрузок на диджея в неделю (≥ 25 для здорового пула), отток (< 4% в месяц), конверсия из бесплатного в платный (≥ 8% пробных пользователей). Ниже этих порогов ваша юнит-экономика почти всегда уходит в минус после выплат лейблам.
Метрики надёжности. p95 поиска по каталогу ≤ 250 мс, p95 распознавания ≤ 1,2 с, доля успешного возобновления загрузок ≥ 99,5%, доля сессий десктопного приложения без сбоев ≥ 99,8%. Клубный WiFi не прощает ничего другого.
Когда НЕ стоит строить это с нуля
Кастомный диджейский пул окупается, только когда у вас есть реальное преимущество в каталоге, сообществе или интеграции с ПО. Если его нет, вы заплатите за то, чтобы заново построить то, что и так работает лучше.
Не стройте, когда: ваш каталог останется меньше 50 тыс. треков; у вас нет отношений с лейблом или дистрибьютором; ваш план — привлечь меньше 2 000 платящих диджеев в первый год; или ваше отличие — это «интерфейс приятнее, чем у BPM Supreme». Лучше переоформите лицензированный продукт под себя.
Стройте, когда: вы лейбл или дистрибьютор с правами на каталог, которые игроки рынка не могут получить; у вас есть региональное лицензионное преимущество (Латинская Америка, Корея, рынки MENA — все они недообслужены); или ваш продукт по сути — это рабочий инструмент для диджейского процесса с библиотекой, а не библиотека с плеером.
Выбирайте white-label-пул, когда: вам просто нужен брендированный музыкальный фид для уже существующего сообщества — каталог меньше 50 тыс., распознавание в приложении не нужно, синхронизация с Serato не требуется. Кастомная разработка тут — неподходящий инструмент.
Частые вопросы
Вы правда можете определить трек по шумному клубному фрагменту меньше чем за секунду?
Да — против вашего собственного каталога. Хорошо настроенный фингерпринтер в стиле «созвездий» возвращает ответ top-1 на уровне API меньше чем за 500 мс для 5-секундного фрагмента, с точностью 95%+ при клубном уровне шума. Задержку определяет сеть, а не само сопоставление.
Нам использовать ACRCloud или строить свой фингерпринтер?
Сначала коммерческий, если ваш каталог меньше ~150 тыс. треков, а объём распознавания меньше ~10 тыс. вызовов в день; гибрид, как только вы перешагнёте любой из этих порогов. Точка перехода определяется ценой за распознавание и тем, насколько вам важно распознавать треки вне вашего собственного каталога.
Как вы не даёте LLM выдумывать несуществующие треки?
Никогда не позволяйте ей генерировать результаты напрямую. LLM выдаёт только структурированный JSON-фильтр (жанр, диапазон BPM, набор тональностей, диапазон лет, язык). Этот JSON попадает в детерминированный поиск по каталогу, который контролируете вы. Модель не может выдумать трек, потому что вообще не касается списка треков.
Почему для десктопа Electron, а не нативная сборка?
Десктопное приложение переиспользует ~80% веб-кодовой базы, выпускается быстрее и при этом имеет полный доступ к файловой системе для записи в Serato и для очереди загрузок. Нативная разработка (Swift/C++) дала бы нам меньший размер бинарника и чуть меньший расход RAM ценой двух параллельных команд. Для FRP выбор был очевидно в пользу Electron.
Сколько на самом деле стоит работа ИИ-функций на масштабе?
Голосовой ввод через Whisper стоит 0,45 ₽/мин; типичный диджей произносит меньше 3 минут голоса в месяц, так что расшифровка — это копейки. GPT-4o для разбора намерений — это короткий по контексту вызов (< 500 токенов). Зачитывание ответа через Amazon Polly по 1 200 ₽ за миллион символов пренебрежимо мало. В расчёте на активного диджея закладывайте меньше 18 ₽/мес расходов на ИИ-API.
Можете ли вы поддержать rekordbox и Traktor так же, как Serato?
Да — мы написали Serato первым, потому что это лидер рынка профессиональных диджеев. Интеграция с rekordbox делается через запись в rekordbox.xml; интеграция с Traktor — через запись в collection.nml. Каждая — это дополнение на три-пять недель после того, как Serato работает надёжно.
Какой каталог может удержать эта архитектура?
Форма FRP масштабируется до нескольких миллионов треков без архитектурных изменений. Узкие места, по порядку: память индекса отпечатков (решается шардированием), p95 поиска по метаданным (решается отдельным поисковым движком вроде OpenSearch или Meilisearch) и экономика исходящего трафика CDN (решается вторым CDN-провайдером).
Сколько времени от брифа до первого платящего диджея?
Для минимального MVP (веб + iOS, коммерческое распознавание, без голосового ассистента) 4–5 месяцев — это реалистично с agent-engineered-командой. Полный объём уровня FRP занимает 10–14 месяцев. Честный сдерживающий фактор — это переговоры о лицензировании с лейблами, а не разработка.
Что почитать дальше
ИИ-стек для аудио
7 лучших ИИ-инструментов для аудиоприложений
AssemblyAI, Deepgram, ElevenLabs, OpenAI, Krisp, Dolby и Suno — когда какой выбирать.
Глубокий разбор TTS
6 лучших библиотек синтетического голоса
ElevenLabs, OpenAI, Google, Polly, Azure, Cartesia — как выбрать нужный TTS для озвучки в приложении.
Архитектура WebRTC
Альтернатива Agora.io в 2026 году
Кастомный WebRTC с LiveKit, mediasoup, Jitsi и Janus — реальное сравнение затрат.
Маршрутизация голоса
ИИ-ассистенты для звонков: гайд по сторонним API
Тот же паттерн Whisper + LLM + TTS, применённый к голосовому бизнес-софту.
Живое аудио
Преобразование речи в текст в живом стриминге
Цены на API, бюджет задержки и паттерны интеграции для конвейеров живого аудио.
Готовы построить собственную аудиоплатформу на базе ИИ?
Franchise Record Pool — это доказательство того, что продукт-диджейский пул в 2026 году — это три инженерные дисциплины, сшитые вместе: лицензированный каталог, сервис распознавания на базе отпечатков и узко очерченная LLM, обёрнутая вокруг детерминированного поиска. По отдельности ни одна из них не экзотика; выигрыш — в том, чтобы выпустить их как один продукт, которым профессиональные диджеи реально пользуются на выступлениях.
Если ваш продукт ориентирован на аудио — диджейский пул, music-tech SaaS, караоке-платформа, инструмент для вещания, бэкенд для радио — Фора Софт это та команда, которая уже такое выпускала и честно скажет вам, где ваш объём работ занижен, а где он начнёт болеть.
Начните с 30-минутного звонка. Мы вернёмся либо с постатейной оценкой объёма, либо с честной причиной, почему это стоит делать как white-label-сборку. Оба ответа сэкономят вам деньги.
Готовы выпустить диджейский или музыкальный продукт?
Получите на свой звонок ту же команду по аудиостримингу, что выпустила FRP. Архитектура, модель затрат, путь к лицензированию — за одну встречу.
