找出歌名,让歌出名:来头不小的 Shazam 是怎么来的?
2022-8-26 16:30:36 Author: sspai.com(查看原文) 阅读量:19 收藏

找出歌名,让歌出名:来头不小的 Shazam 是怎么来的?

2022 年 8 月 19 日,苹果公司的在线音乐服务 Apple Music 上线了一份名为 20 Years of Shazam Hits 的纪念歌单,这份歌单的时间跨度长达二十年,以「一年一曲」的标准收录了二十首脍炙人口的经典曲目。在推荐算法横行、漫天都是大数据的今天,歌单的发布其实算不上什么新闻,但这份榜单的值得关注之处就在于其独一无二的评选标准:Shazam 识别次数。

Shazam 是苹果公司旗下的一项音乐识别服务,自发布至今的 20 年以来,Shazam 拥有 2.25 亿月度活跃用户,累计识别歌曲 700 亿次,是迄今为止最受欢迎的音乐平台之一。如今,在听到陌生歌曲的时候打开手机「Shazam 一下」已经成为了世界各地流行音乐爱好者的共识——也许在这之中会有不少人以为 Shazam 和 Apple 一样来自硅谷的嬉皮士们在 20 年前的天马行空;实际上,Shazam 的故事是一个友情的故事,这一切起源于三位 MBA和一位 DSP 工程师的奇思妙想,以及他们在一起喝过的几杯啤酒。

1998 年,哈斯商学院迎来了一批前来修读 MBA 学位的新生。隶属于伯克利加州大学的哈斯商学院是美国 MBA 教育的顶流之一,能够进入哈斯的学生就算不是天赋异禀的商界奇才,也至少是悬梁刺股的超级卷王,他们可能早在入学之前已经小有成就,来此的目的也算不得「镀金」,而是为自己那本就金光闪闪的 24K 人生镶上几颗钻石。这些未来的社会精英们个个踌躇满志,根本想不到自己也会遭受来自他人的「精神内耗」——可他们之中恰好就有两位既才华横溢又卷到没边的专业选手:克里斯·巴顿(Chris Barton)和菲利普·英格布雷克特(Philip Inghelbrecht)。

克里斯·巴顿,图片来自 Founder of Shazam

如果说 90 年代末的硅谷已经开始了从技术至上的创新之地逐渐向商业社区转型的进程,那么克里斯·巴顿绝对是这一时期的典型人物。克里斯从 11 岁开始接触计算机和软件编程,他的父母都是大学教授:父亲主攻核物理学,而母亲则精通于计算机科学。

不夸张的说,克里斯的人生起跑线已经成功超越了大多数人的终点线,而且还是刚一出生就在终点线买了一套海景房的那种,简直 high 到不行。在如此高精尖的家庭环境影响下,克里斯的学习能力自然堪比开挂,他从小学开始一路高歌猛进,在顺利考入加州大学之后还能在主修经济、辅修商业的同时再选修一门计算机,三头六臂的功夫堪称加大小哪吒。在进入哈斯之前,克里斯已经完成了金融学的入门课程,因此他被获准直接从二年级开始修读;按理说这种主角光环缠身的开局之后就应该是直接走上人生巅峰的标准剧情,但克里斯很快发现,自己遇到的并不是什么好事。

哈斯商学院,图片来自 Berkeley Haas

在实力至上的哈斯商学院,老鸟们对新生的冷落排挤并不是什么稀罕事。像克里斯这种自带嘲讽效果还能在高年级招摇过市的家伙更是成了众人施加冷暴力的活靶子,以至于都没有人想要坐在他的旁边。一路顺风顺水惯了的克里斯第一次尝到了吃瘪的滋味,如果没有菲利普·英格布雷克特的出现和帮助,他很可能会这样一直消沉下去。

和专业做题家出身的克里斯不同,菲利普在进入哈斯商学院之前就在银行和投资界混迹多年,大老远跑到加州的大部分原因是为了寻找机会和散心。因为菲利普已经在鲁汶大学取得了 BBA 学位,因此他也被准许跳过一年级的 MBA 课程;可能是因为阅历丰富,与克里斯同为新生的菲利普就显得比较老成,在二年级学生中反而吃得很开。菲利普其实很早就注意到了克里斯,但他一开始只认为克里斯是个社恐宅男,所以两人一直没有什么交集。

菲利普·英格布雷克特,图片来自 THRIVE GLOBAL

哈斯商学院的教学方案包括 30% 的实习项目,这样的项目通常需要至少两名学生合作完成。眼看着二年级的学生们鱼找鱼虾找虾,不受待见的克里斯却还是孑然一身,本来想和前辈贴贴的菲利普心里犯起了嘀咕。也许是在社会上摸爬滚打的经历让他对克里斯产生了惺惺相惜之感,在一番心理斗争之后,菲利普在某天晚上拨通了克里斯的电话——就像剧本里写好的一样,本来形同陌路的两人一见如故,相谈甚欢;他们很快开始合作实习项目,成为了形影不离的挚友。

克里斯和菲利普都对创业抱有超乎寻常的热情,他们喜欢在聚会上把酒言欢,谈论自己对未来的猜想和规划。在哈斯商学院的第一年接近尾声的时候,喝高了的克里斯和菲利普站在装啤酒的木桶上达成了一向「协议」,他们相互承诺一起创业,虽然谁也不知道自己要做什么。

1999 年,克里斯进入了微软 MSN 部门进行暑假实习,他也因此从加州暂时搬到了伦敦。巧合的是,克里斯的一位老朋友迪拉吉·穆克吉(Dhiraj Mukherjee)在旧金山一家名为 Viant 的互联网咨询公司任职,他也在 1999 年来到伦敦,意在为公司开拓海外业务。

迪拉吉·慕克吉,图片来自 Dhiraj Mukherjee

如果单看出身地,那么迪拉吉很可能会被划分到硅谷的「印度帮」。迪拉吉的父亲是印度航空公司的经理,由于这份工作的特殊性,他几乎每隔三年就要搬一次家。迪拉吉在德里出生,在孟买和加尔各答成长,在雅典、巴黎、日内瓦等城市接受教育,最后才在加州安顿下来,成为了一个「基本上的美国人」。迪拉吉对计算机充满兴趣,但他很快意识到自己作并没有传承到故乡那充满玛莎拉和咖喱风味的代码编辑能力,于是他放弃了计算机,转而攻读斯坦福商学院的 MBA 学位;在进入 Viant 之前,迪拉吉曾在甲骨文公司工作过一年,他在那里接触到了硅谷最前沿的技术,并且一如既往的为此感到痴迷。

自然而然的,克里斯和迪拉吉都打听到了对方的消息,并且很快就在伦敦见了面。老朋友相见总归要叙叙旧和聊聊近况,克里斯向迪拉吉提到了自己在哈斯商学院的经历,也提到了菲利普和他们目前还是一张白纸的创业计划。单从这件事情来说,克里斯就算去买房地产也肯定是一把好手:谁也不知道他那天给迪拉吉灌了什么迷魂汤,竟然就能让迪拉吉十分坚定的相信那个素未谋面的菲利普和超人唯一的区别就是把内裤穿在了里面。

在克里斯的疯狂推销和三杯啤酒的催化作用下,有点上头了的迪拉吉决定加入他们的创业计划。没过多久,克里斯就把正在加州写论文的菲利普给请了过来,所谓英雄所见略同,迪拉吉和菲利普惊喜的发现对方又着和自己一样脱离了低级趣味的爱好:他们都喜欢坐在酒吧的吧台边上,一边喝着鸡尾酒一边向女招待搭讪。

1999 年的夏天正是互联网泡沫的高峰期,三位联合创始人终日泡在酒吧和咖啡馆里高谈阔论,却想不出什么实际可行的项目。本质上,彼时的和现在的互联网创业者都是看到什么就想往互联网上塞,只不过 20 年前塞的是报纸和杂志,20 年后塞的是宇宙和次元。基于互联网的流媒体服务在 1999 年还没起步,调频广播依然是人们获取音乐的最佳渠道,当时的酒吧、俱乐部、咖啡馆等场所都有 24 小时的音乐电台不间断播放流行曲目,克里斯很快注意到几乎到处都有人询问广播里现正在播放的歌曲名称——那么,为什么不利用软件整合电台的播放列表,然后用电话服务告知用户正在播放的歌曲呢?这就是 Shazam 最初的灵感来源。

在最初的兴奋过后,三人很快发现这个项目行不通:虽然大多数音乐电台都有每日更新的播放列表,但以当时的技术条件,加上电台节目时长和间隔的不确定性,要将这些信息准确同步到当日的时间轴上是非常困难的,而且谁也保不齐会有哪个 high 上了天的 DJ 即兴换曲,只是这样再平常不过的操作就足以把整个服务掀的人仰马翻;另一个无法解决的问题是这个基于信息整合的服务需要用户在电话上通过输入预设的代码来定位到正在收听的电台,除了输入错误和忘记代码这种常见错误之外,用户还得在查询之前先人肉识别一下自己听的是什么电台,如果耽误时间还容易错过自己要查询的歌曲,简直是脱了裤子放屁。

一张 90 年代的电台播放清单,图片来自 CATALYST

几个月的苦思冥想没取得什么进展,克里斯完成了自己在 MSN 为时六个月的实习工作,又从哈斯商学院的 MBA 项目转到了伦敦商学院,以延长自己在英国停留的时间。整件事的转折发生在十月的某个夜晚,刚刚上完「战略创新课」的克里斯回到家中,这些天来他就像魔怔了似的一直念叨着他的创业计划,这些挥之不去的执念就算没有让他夜不能寐,那么至少也是寝食难安。毫不夸张的说,此时的克里斯才算是经历了一次真正意义上的头脑风暴,几个月以来的各种想法在他的脑海里混作一团,而他终于察觉到这些剪不断理还乱的思绪都指向了一个最基本的问题——想要识别一首歌,真的需要预先知道电台正在播放什么吗?

一瞬间的灵光乍现几乎将克里斯从床上弹了起来:手机,这就是终极解决方案。

克里斯很快在下一次聚会上把自己的想法分享给了两位朋友兼合伙人:不必提前获取电台的播放列表,不必让用户在手机上输入任何代码,任何人只需打进电话,然后把手机对准音乐录制几秒钟,就能以短信形式获得答案,而可供查询的范围也不再仅限于电台。菲利普和迪拉吉都为克里斯的提议感到激动万分,三人很快就此达成一致,只是还有一个小小的问题需要被解决:有谁会做这样的算法呢?

克里斯提出的音乐识别服务实质上并不是对音频的实时比对,而是基于录制和后处理的声音识别技术。使用手机录音进行音乐识别的主要难点在于环境噪音的不可控:手机麦克风的采集范围是针对通话而非音乐设计的,在嘈杂环境的影响下,手机通常会优先采集近距离的人声,其次是环境中的人声,而处于最低优先级的音乐则被编码器过滤掉,这使得最终获得的样本只包含一些零散的片断,很难直接用来识别。

经过一段时间的研究之后,三人发现能够解决这一问题的技术被称为音频信号处理,属于 DSP 的一个子类别,于是他们开始着手建立一份 DSP 领域的权威名单并对这些候选人进行逐一拜访,但由于要求的技术过于超前,他们的努力大多无功而返;直到 2000 年,终于有一位在斯坦福大学 CCRMA 任教的朱利叶斯·史密斯(Julius Smith)教授愿意作为顾问加入他们的公司,朱利叶斯为他们带来了一个关键人物:艾弗利·王(Avery Wang)。

菲利普·英格布雷克特、艾弗利·王、克里斯·巴顿和迪拉吉·慕克吉,图片来自 Medium

艾弗利·王是朱利叶斯的博士生,也是当时 DSP 社区中的关键人物。虽然受到了邀请,但他并不看好这个在 1999 年简直是异想天开的项目。艾弗利从一开始并没有做出回应,但是他招架不住克里斯的电子邮件轰炸,只得答应先和他们见面,然后再做打算。

一开始,艾弗利只是想要找机会拒绝邀请,但是他很快就被对方的诚意所打动:为了达成合作,克里斯和菲利普在赴约之前做了十足的准备,他们对技术开发、市场环境、竞争对手、应用生态、商业模式、运营细节等方面进行了大量调研,看起来似乎万事俱备,只欠东风;意识到这个项目并非一时兴趣的儿戏之后,艾弗利欣然接受了他们的邀请,成为了公司的第四位联合创始人。

2000 年 5 月的一天,克里斯和迪拉吉走进了汇丰银行的办公室,建立了他们的第一个商业银行账户。接待他们的银行职员是一个年轻的金发美女,她彬彬有礼,态度友好,但是对他们的商业前景抱有一丝疑虑。在被问到打算为公司投入多少资金的时候,心里没底的两人报出了一百美元的天文数字——45 分钟后,他们带着刚刚开户的银行卡走了出来,账户中的余额为 100 英镑,离预定的目标还有一点差距。

在菲利普忙着组建公司、艾弗利潜心研究算法的同时,克里斯和迪拉吉正带着他们的 ppt 四处筹款。此前在 Viant 负责信息咨询业务的迪拉吉认为他们现在的项目与当时流行的交互式语音应答系统(IVR)在技术上有一定的共通之处,这可能会是他们获得投资的突破口,而且当时能够建立 IVR 系统的公司都不算太小,比如 IBM。

一连三个月的时间,Shazam 取得了 100 万美元的天使投资,这笔钱足够建立起一个完整的产品演示,以确保下一轮风险投资的顺利进行。克里斯等人在伦敦的 Soho 区租下了一间办公室,拖迪拉吉的人情,他们在一位前 Viant 的天使投资人的帮助下雇佣到了三位来自慕尼黑的服务器工程师,还在硅谷招募到了一位前苹果公司的技术顾问来帮助建立数据库和搜索引擎。2001 年 7 月,初具规模的 Shazam 获得了 750 万美元的风险投资,而艾弗利负责的算法部分也在此时取得了突破。

手机采集的音频样本的质量很差,感官上的描述就是「呕哑嘲哳难为听」。所以,通过降噪和升调等后期处理来提取所需音频的做法基本没有可行性,只能重新开辟一条新路径。在朱利叶斯的帮助下,艾弗利发现特定音频的能量峰值在样本中具有相对稳定性,只要将样本的能量峰值绘制成散点图就可以从中筛选和提取出其中包含的音频「指纹」,再将这些特征与数据库中存储的歌曲「指纹」进行匹配就可以检索到相应的信息。这一技术的显著优势在于服务器只需存储歌曲的「指纹」信息而非整首歌曲,工作时也只需将用户提交的音频样本转换一次,在保证识别速度和准确率的同时避免了无休止的资源浪费。艾弗利用了将近一年的时间来完善自己的设计,在这段时间里,Shazam 的规模迅速扩张到超过一百人。

艾弗利在开发 Shazam 时使用的白板,图片来自 Medium

2002 年 4 月 19 日,Shazam 在测试中准确识别出了 T.Rex 的 Jeepster,这一成果让公司的所有人都备受鼓舞。2002 年 8 月 19 日,在获得 A 轮融资 13 个月之后,Shazam 正式在英国提供音乐识别服务。

在克里斯等人的不懈努力下,Shazam 在上线之前已经和除维珍移动(Virgin Mobile)之外的所有英国电信运营商展开了合作,有趣的是,他们促成合作的主要方式是贩卖焦虑:克里斯和菲利普会在谈判桌上不断强调不支持音乐识别服务的电信运营商将在未来的竞争中处于如何不利的地位,指出他们「不会希望自己在 Shazam 推出时成为唯一没有接入识别功能的运营商」——虽然不吃这一套的维珍移动直到现在也活的好好的,但这一招的确非常奏效。

在 Shazam 推出的首日,全英国 95% 拥有手机的人都可以拨打 2580——这是手机键盘上唯一成直线的四位数——然后将自己的手机听筒朝向正在播放的音乐,他们将在 15 秒后收到一条带有艺术家和歌曲名称的短信,Shazam 则会通过运营商从用户的话费中扣除 50 便士的服务费用,识别不成功则不扣费。几年之后,Shazam 推出了基于 BREW 和 Java 的应用程序,转为每月 3 美元的订阅制。

然而,直到 iPhone 和 App Store 的出现,Shazam 才真正开始成为一项全球化的服务。2008 年 7 月的正式上架 App Store 和 2018 年 9 月 的正式加入 Apple 是 Shazam 二十年发展历程中最重要的里程碑事件。在 Apple 以人为本的企业文化和多元共融的价值观影响下,如今的 Shazam 已然成为了全球流行文化的重要组成部分。

Shazam 以一种无视时空维度的方式将作品、艺术家和听众连接起来:「Shazam 一下」代表的是一种发自内心的认可和鼓励,而不在乎一个人是否名满天下,也无所谓一首歌是否脍炙人口;但它也确实让很多人因此名满天下,让很多歌因此脍炙人口。

8 月 19 日,Apple 发布了纪念 Shazam 诞生 20 周年的新闻稿。感兴趣的读者可以点击下方链接,在欣赏纪念歌单的同时回顾 Shazam 的重要时刻和里程碑事件。

参考资料

Kiririn

夸克级游戏玩家|赛博打工人|摸鱼高手高手高高手|上班打怪猎终身成就奖获得者|少数派编辑


文章来源: https://sspai.com/post/75362
如有侵权请联系:admin#unsafe.sh