Нейросеть Magenta позволила услышать песни умерших музыкантов

Игра в имитацию: как Deepfake используют для «воскрешения» умерших музыкантов и доводят подражание до абсолюта Статьи редакции

Теперь даже Фрэнка Синатру можно «заставить» петь о чём угодно.

Принято считать, что дипфейки популярны в видеоформате — например, в порно или для имитации роликов со знаменитостями и политиками. Однако The Guardian вспомнил о существовании Jukebox — одного из «Deepfake для музыки» от OpenAI, который позволяет исполнить композицию в стиле известных музыкантов, в том числе ушедших из жизни. TJ публикует пересказ материала и рассказывает подробности о работе алгоритмов.

«It’s Christmas time! It’s hot tub time!», — слышится в композиции «Classic Pop, in the style of Frank Sinatra» голос Фрэнка Синатры, но поёт не он. Песню можно было бы принять за потерянную демо-запись известного певца — его голос кажется устрашающе знакомым, даже когда качество оставляет желать лучшего.

Но композиция — не подлинный трек Синатры, а очень точная имитация, созданная компанией OpenAI, работающей над развитием искусственного интеллекта. Её инструмент Jukebox использует машинное обучение для создания музыки с вокалом в разных жанрах и стилях музыкантов. Помимо Синатры, можно выбрать многих других, например, Кэти Пэрри, Элвиса Пресли, Simon & Garfunkel, 2Pac или Селин Дион.

OpenAI использовала 1,2 миллиона песен из интернета вместе с текстами и метеданными, чтобы обучить Jukebox. На выходе получилась система, которая может выдавать исходное аудио на несколько минут длиной на основе того, какие вводные данные она получит. Например, если «скормить» ей Queen или Моцарта, родится приблизительно такая же музыка, хотя и не её прямая копия.

Во время работы над Jukebox исследователям пришлось столкнуться с проблемами, часть которых были препятствиями для автоматизации музыки многие годы. Главной проблемой стал объём данных.

Как рассказывали исследователи в блоге OpenAI, люди научились автоматически генерировать музыку больше полувека назад с появлением первых пианороллов — рулонов с отверстиями, которые позволяли автоматизировать игру на пианино. Однако у них было много ограничений: например, они не могли передавать голос человека и многие тонкие тембры, динамику и экспрессивность как при игре человеком.

Сейчас технологии позволяют использовать другой подход к генерации музыки — моделировать «чистое» аудио. Но в стандартной четырёхминутной песне в CD-качестве (44 кГц, 16 бит) около 10 миллионов временных отметок, и она сложна для моделей с точки зрения семантики — им придётся работать с очень далекоидущими зависимостями.

Один из способов решения проблемы — использовать автокодировщик, который сожмёт «чистое» аудио и снизит объём данных, отбросив «несущественные» для восприятия биты информации. Модель можно научить работать только с этим сжатым пространством и затем увеличивать детализацию исходного звука.

Именно по такому пути пошли в OpenAI — в Jukebox использовали модель автокодировщика, которая сжимает аудио с помощью подхода VQ-VAE, построенного на основе квантования. Система разбивает диапазон значений на ограниченное число уровней и округляет значения до ближайших к ним уровней.

Затем исследователи обучили алгоритмы генерировать музыку в диапазоне, сжатом с помощью VQ-VAE. Для этого использовали три модели: основная генерирует наиболее сжатые данные, а две других увеличивают детализацию и выдают менее сжатые значения.

Модель верхнего уровня в Jukebox отвечает за работу с «длинной структурой» музыки: этот алгоритм выдаёт сэмплы низкого качества, но улавливает высокоуровневую семантику вроде пения и мелодичности. Средняя и нижняя модели повышают качество «исходника» и добавляют деталей вроде тэмбра.

Все алгоритмы тренировали по авторегрессионным моделям глубокого обучения — они позволяют предсказывать будущие значения на основе прошлых значений. Каждая из моделей состоит из 72 слоёв «внимания» и соответствует 24, 6 и 1,5 секундам «чистого» аудио на высоком, среднем и низшем уровнях соответственно.

Для обучения Jukebox OpenAI использовала 1,2 миллиона композиций, 600 тысяч из которых были на английском. Текст и метаданные об артистах, жанрах и годе выхода песен взяли из LyricWiki. Модель сама научилась объединять похожих артистов и жанры: например, она поместила рядом Дженнифер Лопез и Долли Партон.

Ещё одним вызовом для исследователей стало объединение текста песни с музыкой. В распоряжении OpenAI отдельно оказались сами композиции и слова к ним — у модели не было данных о соответствии текста музыке, кроме того, многие артисты по-разному исполняют одни и те же песни.

Чтобы сопоставить разные части песен, исследователи занялись эвристикой: сначала они просто распределили текст по всей длине каждой песни, а потом уложили его по отдельным «окнам» из символов вокруг конкретного сегмента композиции. Как отметили в OpenAI, эта стратегия сработала на удивление хорошо, но не подошла для жанров с быстрой лирикой вроде хип-хопа, поэтому авторам пришлось увеличить окно и точнее выравнивать текст на уровне слов — для этого используют Spleeter и NUS AutoLyricsAlign.

Как отметил музыкант, исследователь и академик Goldsmiths доктор Мэттью Йи-Кинг (Matthew Yee-King), решение OpenAI «впечатляет с инженерной точки зрения». По его мнению, подобные алгоритмы позволят создать новые возможности для творчества — например, люди смогут спросить у модели, которая изучила миллионы песен, чего ещё не было, найти это «белое пятно» и создать в нём что-то новое.

Они [OpenAI] разбивают аудиосигнал на набор музыкальных лексем — словарь, если хотите — в трёх разных уровнях времени, а потом выдают вам набор базовых фрагментов, которые воссозданы на основе музыки, которую вы им скормили. Алгоритм потом может переставлять эти фрагменты на основе ваших пожеланий. Например, дайте ему немного Эллы Фитцджеральд и он найдёт, а потом соединит вместе кусочки из словаря в её музыкальном пространстве.

В представлении Йи-Кинга, в будущем машины будут способны сгенерировать «идеальное произведение» для любого человека в любое время на основе предпочтений, которые тот установит. Нечто похожее уже пытаются сделать в стартапах Endel, и даже в российском Mubert. «Просто скормите людям наиболее оптимизированный звуковой поток, и можно будет совсем избавиться от артистов», — пояснил исследователь.

Похожего мнения придерживается и музыкант Мат Драйхёрст (Mat Dryhurst), который несколько лет работал с технологиями искусственного интеллекта. По его словам, алгоритмы откроют новые горизонты для музыкальной индустрии и поп-музыки.

Ближайшая аналогия — это сэмплирование. Эти модели создают новое измерение — теперь можно выбрать между готовой записью голоса Боуи или Боуи, который будет петь всё, что вы захотите. Это одновременно исключительная сила и ответственность.

Но не все относятся к генерации музыки так же позитивно. Как напомнили в The Guardian, некоторые лейблы уже начали требовать удаления видео с дипфейк-имитацией голоса Jay-Z, которые исполняет рэп о Шейкспире и Билли Джоэле. В компании Roc Nation тогда заявили, что подобный контент «незаконно использует ИИ» для подражания голосу исполнителей. Лейбл обратился в YouTube с требованием удалить видео за нарушение авторских прав, но компания не подчинилась и потребовала «предоставить больше информации от заявителя», а ролик восстановили.

Читайте также  Все жанры музыки

Крупные лейблы отказались комментировать «будущие проблемы с имитацией музыки» по запросу The Guardian. Даже британский регулятор BPI отказался под запись заявить журналистам, на какие шаги он может пойти для защиты артистов.

Дипфейками не всегда довольны и слушатели. Судя по всему, для некоторых людей прослушивание имитации на давно умерших музыкантов приводит к «эффекту зловещей долины». Например, под записями от Jukebox на Soundcloud можно найти комментарии вроде «это крики проклятых» и «звучит чертовски зловеще».

Появление дипфейков для музыки также поднимает этические вопросы — что делает артистов особенными, почему люди слушают определённую музыку и как она вызывает эмоции. Как предположили в The Guardian, если люди потеряют эмоциональную связь с артистами, это может лишить музыку нечта фундаментального. По мнению Драйхёрста, чтобы этого избежать, алгоритмы должны стремиться не заменить людей, а помочь им.

Несмотря на прогресс Jukebox, результаты алгоритмов пока далеки от музыки, созданной людьми — это понимают и в OpenAI. Исследователи открыто признают, что хотя система выдаёт согласованные композиции и следует традиционным партиям, в её песнях не услышать более крупных структур вроде повторяющихся припевов, а процесс повышения детализации добавляет заметный шум.

Пока модели также медленно работают из-за авторегрессионной природы их обучения. Для получения одной минуты звука требуется девять часов обработки — это не позволяет использовать Jukebox в интерактивных сервисах. Кроме того, модели пока в основном работают с английским языком и западной музыкой.

В будущем OpenAI планирует дорабатывать алгоритмы генерации музыки и создать возможности для коллаборации людей и машинного обучения. Помимо прочего, в компании уже изучают вопросы предвзятости алгоритмов и защиты авторских прав. Чтобы лучше понять последствия, исследователи выдали доступ к Jukebox десятку разноплановых музыкантов. Артисты пришли к единому мнению, что инструмент пока не получится применить в творческом процессе.

В ближайшие годы дипфейк-музыка приведёт к трансформации музыкальной индустрии по мере того, как направлением станут интересоваться всё больше компаний, пишет The Guardian. Над проектами уже работают Google с Magenta Project, множество небольших стартапов вроде Amper Music и Spotify, у которого есть целое подразделение по исследованию ИИ.

Журналисты считают, что дипфейки в музыке неизбежно столкнутся с этическими и юридическими трудностями. Ведь в скором времени никому больше не нужно будет платить за использование музыки любимого исполнителя в фильме, телешоу или рекламе — можно будет создать собственную идеальную имитацию. А стриминговые сервисы смогут создавать подборки на основе известных артистов, но не платить им отчислений.

Как минимум в Великобритании, где находятся многие крупные звукозаписывающие компании, законы пока не позволяют ограничить применение дипфейков. Как рассказал The Guardian главный юрист лейбла Beggars Group Руперт Скеллетт, в стране действуют два разных закона об авторском праве на музыку — один для самих мелодий и другой для текстов. «Если кто-то не использовал настоящую запись, а создал симулякр с помощью ИИ, вы не сможете предъявить никаких исков», — пояснил юрист.

Нейросеть с пугающей точностью написала музыку новых песен The Doors, Nirvana и Джимми Хендрикса. Аудио

Организация Over the Bridge, которая помогает музыкантам бороться с психическими заболеваниями, выпустила альбом «Потерянные записи клуба 27» («Lost Tapes of the 27 Club»), состоящий из песен в стиле культовых рок-музыкантов, созданных искусственным интеллектом Magenta.

Треки опубликованы в YouTube.

Отметим, что Magenta удалось настолько точно воспроизвести музыкальные стили Эми Уайнхаус, The Doors, Nirvana и Джимми Хендрикса, что во время прослушивания не покидает чувство, будто это реальные потерянные треки умерших исполнителей.

«Мы взяли от 20 до 30 песен от каждого из наших исполнителей в виде MIDI-файлов и разбили их на дорожки с басом, соло-гитарами, ритм-гитарами и так далее и пропустили через программу по одной за раз. Если вы ставите целые песни, программа начинает действительно путаться в том, как это должно звучать. Но если у вас просто есть куча риффов, Magenta сгенерирует около пяти минут новых риффов, 90% из которых плохие, и их тяжело слушать. А дальше вы просто начинаете отбирать удачные моменты», — рассказал Шон О’Коннор, входящий в совет директоров Over the Bridge.

Добавим, что, к сожалению, вокальные партии нейросеть пока что создавать не умеет. Например, в песне «Drowned in the Sun» вместо Курта Кобейна поет Эрик Хоган, вокалист трибьют-группы Atlanta Nirvana.

Клуб 27 (англ. 27 Club) — общее название известных музыкантов, умерших в возрасте 27 лет, иногда при странно сложившихся обстоятельствах.
Первым в списке из семи музыкантов оказался блюзмен Роберт Джонсон. В список также вошли Джимми Хендрикс, Джим Моррисон и Дженис Джоплин. Самой главной деталью их смерти, которая и послужила толчком к созданию Клуба, стало то, что они умерли за промежуток времени продолжительностью в 10 месяцев. Позже в список был включён Брайан Джонс; при этом Моррисон и Джонс умерли в один день, но с разницей в два года. Затем в Клуб был включён Курт Кобейн, застрелившийся в 1994 году на пике популярности. После смерти в 2011 году британской певицы Эми Уайнхаус её также причислили к Клубу 27 многие издания.

Нейросеть создает песни Nirvana, Эми Уайнхаус и других музыкантов

Искусственный интеллект выпускает песни, которые могли бы создать умершие из-за проблем с ментальным здоровьем музыканты.

После смерти Курта Кобейна в 1994 году поклонники Nirvana обсуждали, какую еще музыку он мог написать, если бы остался жив. Музыканту было 27 лет, и поклонники ожидали от него новых работ.

Lost Tapes of the 27 Club привлекает внимание к творчеству артистов, умерших из-за проблем с ментальным здоровьем. Проект с помощью нейросетей создает песни, стилизованные под известные треки. Каждый трек — результат анализа искусственным интеллектом около 30 песен каждого исполнителя.

Над проектом работает организация Over the Bridge из Торонто, которая помогает представителям музыкальной индустрии бороться с психологическими расстройствами. «Что если бы у всех любимых нами музыкантов была психическая поддержка? — сказал Rolling Stone Шон О’Коннор, член совета директоров Over the Bridge и креативный директор рекламного агентства Rethink. — Почему-то в музыкальной индустрии депрессия считается нормальным явлением и романтизируется… Их музыка воспринимается как подлинное страдание».

Для создания треков О’Коннор и сотрудники организации использовали программу искусственного интеллекта Google Magenta , которая создает музыку в стиле определенных исполнителей, анализируя их работы. Это программное обеспечение ранее использовала Sony для создания «новой» песни The Beatles, а группа Yacht — для написания альбома Chain Tripping (2019).

«Чтобы показать миру, что было потеряно из-за кризисов, связанных с психологическим здоровьем, мы использовали искусственный интеллект для создания альбома, который „Клуб 27“ никогда не сможет выпустить, — говорится в обращении Lost Tapes of the 27 Club. — Этим альбомом мы призываем как можно больше представителей музыкальной индустрии получить необходимую для них психологическую поддержку, чтобы они могли продолжать создавать музыку, которую мы все будем любить долгие годы. Потому что искусственный интеллект никогда не заменит настоящую вещь».

Читайте также  Satyricon объединились с Музеем Мунка

Drowned in the Sun достаточно точно передает атмосферу Nirvana, особенно если сравнить работу с треком You Know Your Right, считает участник трибьют-группы Nevermind Эрик Хоган. Он исполнил текст песни вместо Кобейна. «Курт просто писал все, что, черт возьми, он хотел написать. И если ему это нравилось, это (созданная ИИ композиция. — прим.) была песня Nirvana», — сказал Хоган.

Он отметил, что тексты Кобейна всегда были «своего рода мешаниной», и слова в новой композиции обращаются более прямо, не теряя при этом типичные послания Кобейна. «В песне есть слова: „Я чудак, но мне она нравится“. Это настоящий Курт Кобейн. Настроение — именно то, что он бы и сказал. „Солнце светит тебе, но я не знаю как“ — это здорово», — сказал Хоган.

Нейросеть написала новые песни для музыкантов Клуба 27

Искусственный интеллект написал новые песни The Doors, Nirvana, Джими Хендрикса и Эми Уайнхаус — все эти легендарные музыканты входят в печально известный «Клуб 27», артистов, погибших в возрасте 27 лет.

Инициаторами необычного проекта «Lost Tapes of the 27 Club» («Потерянные записи «Клуба 27») выступила компания Over the Bridge из Торонто, помогающая представителям музыкальной индустрии бороться с психическими заболеваниями. Сотрудники компании использовали разработанную Google программу Magenta, способную генерировать новую музыку на основе реальных песен.

Мы взяли от 20 до 30 песен от каждого из наших артистов в виде файлов MIDI, разбили их на хук, соло, вокальную мелодию или ритм-гитару и пропустили по частям. Затем программа преобразовала высоту звука и ритм в цифровой код, который можно передать через синтезатор для воссоздания песни. Новые композиции создавались путем изучения выбора нот каждого исполнителя, ритмических причуд и гармонических предпочтений. Аналогичным образом создавались и тексты.

Но с характерной мелодикой Nirvana алгоритм сначала справиться не смог, выдавая при анализе полных песен лишь бесформенную стену звука. Специалисты смогли добиться нужного результата лишь загружая в память программы не целые треки, а отдельные риффы. И если музыкальную часть программа смогла сымитировать сама, то сымитировать голос Курта Кобейна компьютер пока не может. Поэтому для записи «потерянного» трека Nirvana, получившего название «Drowned in the Sun», был приглашен Эрик Хоган, вокалист одной из трибьют-групп Nirvana.

The Roads Are Alive» в духе The Doors

«You’re Gonna Kill Me» в стиле Джими Хендрикса

«Man, I Know» в стиле Эми Вайнхаус

Понравилась статья? Поделиться с друзьями:
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: