Транскрибация видео/аудио
Содержание
1. Зачем психологу уметь транскрибировать видео
Когда психолог начинает работать с записями – будь то супервизия, терапевтическая сессия или вебинар – он неизбежно оказывается в плену звуков. И чтобы увидеть суть, эти звуки нужно превратить в текст – точный, живой, отражающий интонацию и смысл. Если вам приходилось раньше делать транскрибацию записи — перевода звука в текст, то вы знаете, какая это трудоемкая работа.
Теперь можно использовать Whisper Desktop – бесплатный инструмент от OpenAI, который автоматически превращает речь (из видео или аудио) в текст.
Для психолога это значит:
- экономия времени при расшифровке интервью или сессий;
- возможность анализировать текст клиента с помощью ИИ;
- создание обучающих материалов на основе собственных лекций или семинаров.
100 % соблюдение профессиональной этике психолога
Whisper работает прямо на вашем локальном устройстве, поэтому все аудио и текстовые данные не покидают ваш компьютер. Это значит, что вы полностью сохраняете конфиденциальность: никакие записи, голоса или транскрипции не отправляются в интернет и не хранятся на внешних серверах. 100 % приватности и соответствие профессиональной этике психолога.
Важно!
Для быстрой работы Whisper нужна мощная видеокарта с большим объёмом видеопамяти (VRAM) или хороший многоядерный процессор.
2. Как Whisper понимает речь лучше человека
Whisper – это открытая модель искусственного интеллекта от OpenAI, созданная для распознавания и транскрибации речи. Её выпустили в сентябре 2022 года, и с тех пор она заслужила репутацию одного из самых точных инструментов в своей нише.
Ключевые особенности:
- Поддержка 99 языков – от английского и китайского до исландского и суахили.
- Умение работать с шумными аудиодорожками (например, запись с вечеринки или уличного интервью).
- Распознавание специфических терминов, имён и редких слов.
- Возможность переводить речь в текст, определять язык автоматически и переводить с одного языка на другой
- Модель знает акценты: от техасского английского до индийского варианта хинди.
- Понимает контекст: отличает «там» от «том» даже в неразборчивой речи.
- Распознаёт паузы, смех, кашель и другие невербальные звуки.
- Умеет «думать» на нескольких языках одновременно. Например, если в аудио есть фразы на французском и немецком, она корректно переключится между ними.
Секрет модели — в её обучении. OpenAI использовала 680 000 часов размеченных аудиоданных с YouTube, подкастов, телефонных разговоров и даже радиопередач. Это в 100 раз больше, чем датасеты для предыдущих моделей!
3. Выбор модели автоматического распознования
Whisper – не одна программа, а целое семейство моделей, и каждая из них будто обладает своим характером. Одни – быстрые, но не слишком внимательные, другие – медленные, зато слышат даже шёпот и акцент. Важно выбрать ту, что подойдёт именно вам – под ваш компьютер и под ваши задачи.
Выбор модели
Выбирайте модель под задачи и ресурсы компьютера.
Если важна скорость и лёгкость — подойдёт Tiny/Base.
Если приоритет — точность и глубина распознавания — выбирайте Medium/Large.
Не знаете точных характеристик устройства и не определились с задачами – начните со Small
4. Установка и запуск Whisper Desktop (шаг за шагом)
1. Скачайте архив программы и подходящую модель автоматического распознавания речи
Модели периодически обновляются. Проверяйте актуальность на странице всех моделей.
2. Распакуйте Zip-архив с программой в любую папку
3. В эту же папку скопируйте файл модели.
* Вы можете скачать несколько моделей и все поместить в папку с программой. Позже вы сможете выбирать нужную модель в настройках.
4. Первый запуск
Откройте программу и выберите нужную модель.
5. Загрузите файл для транскрибации, выберите язык распознавания и формат вывода.
Если поставить галочку на Translate, то Whisper переведёт речь на английский язык во время транскрибации.
Output Format (Формат вывода)
Определяет, в каком виде сохранить результат транскрибации. Доступные варианты:
- Text file – обычный текстовый файл .txt без таймкодов.
- Text with timestamps — текстовый файл с отметками времени (удобно для анализа речи и сопоставления с моментами видео/аудио).
- SubRip subtitles (.srt) – формат субтитров для видео, который поддерживается большинством видеоплееров и YouTube.
- WebVTT subtitles (.vtt) – формат субтитров для веб-плееров.
Если стоит галочка Place that file to the input folder – итоговый файл (текст или субтитры) будет сохранён в ту же папку, где находится исходное видео.
6. Чтобы сменить модель распознавания, нажмите кнопку Back – вы вернетесь на гравный экран, где выберите новую модель
7. Режим распознавания аудио в прямой записи
Кнопка Audio Capture позволяет записать звук напрямую с микрофона или системы и сразу транскрибировать его.
Выберите язык, микрофон, укажите название файла и нажмите Capture.
Если отмечен пункт Append to that file, новый текст будет добавляться к существующему файлу (а не перезаписывать его).
Это удобно при длительных записях – весь текст сохраняется в одном документе.
1. Скачайте файл программы с расширением .dmg с официльного сайта:
Releases · PVAS-Development/whisperdesk
или по прямой ссылке — СКАЧАТЬ WhisperDesk-1.8.0-universal.dmg

2. Установите приложение.
- Откройте папку Downloads.
- Дважды кликните по скачанному файлу .dmg.
- Подождите, пока откроется окно установщика.
- В открывшемся окне вы увидите иконку WhisperDesk.
- Перетащите иконку WhisperDesk в папку Applications.
- Дождитесь завершения копирования.
- Закройте окно установщика.
3. Первый запуск
- Откройте папку Applications.
- Найдите WhisperDesk.
- Кликните правой кнопкой мыши по приложению.
- Выберите Open.
- Появится предупреждение безопасности.
- Нажмите Open ещё раз.
Если macOS заблокирует запуск:
- Откройте System Settings.
- Перейдите в раздел Privacy & Security.
- Пролистайте вниз до блока Security.
- Нажмите Open Anyway рядом с WhisperDesk.
- Подтвердите запуск.
4. Установка FFmeg.
WhisperDesk просит установить FFmpeg. Без него транскрибация не запустится.
На Mac это делается через терминал.

Шаг 1. Открыть Терминал
- Нажмите Cmd + Space
- Введите: Terminal
- Нажмите Enter
Откроется чёрное окно.
- Скопируйте и вставьте в терминал:
/bin/bash -c «$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)»
- Нажмите Enter и дождитесь завершения установки.
Может попросить пароль – вводите пароль от вашего Mac (символы не отображаются, это нормально). Устанавливает долго, дождитесь окончания. - После установки закройте терминал и откройте снова.
Шаг 2. Установить FFmpeg
- Теперь введите:
brew install ffmpeg
- Нажмите Enter.
- Подождите 3–5 минут.
- Когда установка закончится, терминал снова покажет строку для ввода.
Шаг 3. Проверка
- Введите:
ffmpeg -version
- Если видите информацию о версии – всё установлено.
Шаг 4. Вернуться в WhisperDesk
- Откройте WhisperDesk
- Нажмите кнопку
«I have installed FFmpeg« - Если всё установлено правильно – предупреждение исчезнет.








