Транскрибация видео/аудио

Содержание

1. Зачем психологу уметь транскрибировать видео

Когда психолог начинает работать с записями – будь то супервизия, терапевтическая сессия или вебинар – он неизбежно оказывается в плену звуков. И чтобы увидеть суть, эти звуки нужно превратить в текст – точный, живой, отражающий интонацию и смысл. Если вам приходилось раньше делать транскрибацию записи — перевода звука в текст, то вы знаете, какая это трудоемкая работа. 

Теперь можно использовать Whisper Desktop – бесплатный инструмент от OpenAI, который автоматически превращает речь (из видео или аудио) в текст.

Для психолога это значит:

  • экономия времени при расшифровке интервью или сессий;
  • возможность анализировать текст клиента с помощью ИИ;
  • создание обучающих материалов на основе собственных лекций или семинаров.

100 % соблюдение профессиональной этике психолога

Whisper работает прямо на вашем локальном устройстве, поэтому все аудио и текстовые данные не покидают ваш компьютер. Это значит, что вы полностью сохраняете конфиденциальность: никакие записи, голоса или транскрипции не отправляются в интернет и не хранятся на внешних серверах. 100 % приватности и соответствие профессиональной этике психолога.

Важно!

Для быстрой работы Whisper нужна мощная видеокарта с большим объёмом видеопамяти (VRAM) или хороший многоядерный процессор.

2. Как Whisper понимает речь лучше человека

Whisper – это открытая модель искусственного интеллекта от OpenAI, созданная для распознавания и транскрибации речи. Её выпустили в сентябре 2022 года, и с тех пор она заслужила репутацию одного из самых точных инструментов в своей нише.

Ключевые особенности:

  • Поддержка 99 языков – от английского и китайского до исландского и суахили.
  • Умение работать с шумными аудиодорожками (например, запись с вечеринки или уличного интервью).
  • Распознавание специфических терминов, имён и редких слов.
  • Возможность переводить речь в текст, определять язык автоматически и переводить с одного языка на другой
  • Модель знает акценты: от техасского английского до индийского варианта хинди.
  • Понимает контекст: отличает «там» от «том» даже в неразборчивой речи.
  • Распознаёт паузы, смех, кашель и другие невербальные звуки.
  • Умеет «думать» на нескольких языках одновременно. Например, если в аудио есть фразы на французском и немецком, она корректно переключится между ними.

Секрет модели — в её обучении. OpenAI использовала 680 000 часов размеченных аудиоданных с YouTube, подкастов, телефонных разговоров и даже радиопередач. Это в 100 раз больше, чем датасеты для предыдущих моделей!

3. Выбор модели автоматического распознования

Whisper – не одна программа, а целое семейство моделей, и каждая из них будто обладает своим характером. Одни – быстрые, но не слишком внимательные, другие – медленные, зато слышат даже шёпот и акцент. Важно выбрать ту, что подойдёт именно вам – под ваш компьютер и под ваши задачи.

Выбор модели

Выбирайте модель под задачи и ресурсы компьютера.

Если важна скорость и лёгкость — подойдёт Tiny/Base.
Если приоритет — точность и глубина распознавания — выбирайте Medium/Large.

Не знаете точных характеристик устройства и не определились с задачами – начните со Small

4. Установка и запуск Whisper Desktop (шаг за шагом)

1. Скачайте архив программы и подходящую модель автоматического распознавания речи

2. Распакуйте Zip-архив с программой в любую папку

3. В эту же папку скопируйте файл модели.

* Вы можете скачать несколько моделей и все поместить в папку с программой. Позже вы сможете выбирать нужную модель в настройках.

4. Первый запуск

Откройте программу и выберите нужную модель.

5. Загрузите файл для транскрибации, выберите язык распознавания и формат вывода.

Если поставить галочку на Translate, то Whisper переведёт речь на английский язык во время транскрибации.

Output Format (Формат вывода)

Определяет, в каком виде сохранить результат транскрибации. Доступные варианты:

  • Text file – обычный текстовый файл .txt без таймкодов.
  • Text with timestamps — текстовый файл с отметками времени (удобно для анализа речи и сопоставления с моментами видео/аудио).
  • SubRip subtitles (.srt) – формат субтитров для видео, который поддерживается большинством видеоплееров и YouTube.
  • WebVTT subtitles (.vtt) – формат субтитров для веб-плееров.

Если стоит галочка Place that file to the input folder – итоговый файл (текст или субтитры) будет сохранён в ту же папку, где находится исходное видео.

6. Чтобы сменить модель распознавания, нажмите кнопку Back – вы вернетесь на гравный экран, где выберите новую модель

7. Режим распознавания аудио в прямой записи

Кнопка Audio Capture позволяет записать звук напрямую с микрофона или системы и сразу транскрибировать его.

Выберите язык, микрофон, укажите название файла и нажмите Capture.

Если отмечен пункт Append to that file, новый текст будет добавляться к существующему файлу (а не перезаписывать его).
Это удобно при длительных записях – весь текст сохраняется в одном документе.

1. Скачайте файл программы с расширением .dmg с официльного сайта:

Releases · PVAS-Development/whisperdesk

или по прямой ссылке — СКАЧАТЬ WhisperDesk-1.8.0-universal.dmg

2. Установите приложение.

  • Откройте папку Downloads.
  • Дважды кликните по скачанному файлу .dmg.
  • Подождите, пока откроется окно установщика.
  • В открывшемся окне вы увидите иконку WhisperDesk.
  • Перетащите иконку WhisperDesk в папку Applications.
  • Дождитесь завершения копирования.
  • Закройте окно установщика.

 

3. Первый запуск

  • Откройте папку Applications.
  • Найдите WhisperDesk.
  • Кликните правой кнопкой мыши по приложению.
  • Выберите Open.
  • Появится предупреждение безопасности.
  • Нажмите Open ещё раз.
  •  

Если macOS заблокирует запуск:

  • Откройте System Settings.
  • Перейдите в раздел Privacy & Security.
  • Пролистайте вниз до блока Security.
  • Нажмите Open Anyway рядом с WhisperDesk.
  • Подтвердите запуск.

4. Установка FFmeg.

WhisperDesk просит установить FFmpeg. Без него транскрибация не запустится.

На Mac это делается через терминал.

 

Шаг 1. Открыть Терминал

  • Нажмите Cmd + Space
  • Введите: Terminal
  • Нажмите Enter

Откроется чёрное окно. 

  • Скопируйте и вставьте в терминал:

/bin/bash -c «$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)»

  • Нажмите Enter и дождитесь завершения установки.

    Может попросить пароль – вводите пароль от вашего Mac (символы не отображаются, это нормально). Устанавливает долго, дождитесь окончания.
  • После установки закройте терминал и откройте снова.

 

Шаг 2. Установить FFmpeg

  • Теперь введите:

brew install ffmpeg

  • Нажмите Enter.
  • Подождите 3–5 минут.
  • Когда установка закончится, терминал снова покажет строку для ввода.

 

Шаг 3. Проверка

  • Введите:

ffmpeg -version

  • Если видите информацию о версии – всё установлено.

 

Шаг 4. Вернуться в WhisperDesk

  • Откройте WhisperDesk
  • Нажмите кнопку
    «I have installed FFmpeg«
  • Если всё установлено правильно – предупреждение исчезнет.