やっと日本でも使えるようになったiTunes Matchですが「iTunes Matchはどのように曲を識別し、マッチングをしているのか?」という疑問がわいたので少し調べてみました。かなりアバウトですが詳細は以下から。
Gracenote Japan@GracenoteJapan
ついにiTunes Matchが日本でも始まります! http://t.co/jAWJog2NJE
iTunesのデータベースやマッチングを支える技術は米Gracenote(グレースノート)の技術を元にしているそうで、Gracenoteのサイト「Music Solutions」にも明記されています。
[Scan & Match -Gracenote]
AppleとGracenote
AppleとGracenoteの関係は2000年4月にAppleからGracenoteにかかってきた1本の電話から始まったそうです。その時、Appleははっきりと明言はしなかったものの「Gracenoteはさらに多くのサーバーを購入する必要がある(You need to buy more servers)」と忠告したそうです。
それから数年経たないうちに再びJobsがAppleのCEOなりGracenoteは当時まだ2歳でしたが、その時点でユーザーがCDをリッピングした時に必要となるメタデータを多数のソフトウェアに提供しており、その中の1つに後にAppleに買収されiTunesとして生まれ変わるジュークボックスアプリ「SoundJam MP」があったそうです。
[SoundJam – ArsTechnica]
At that point, Gracenote had built a respectable business collecting and providing metadata for the compact discs that people were ripping onto their computers, and it relied on software partners to get in front of the music consumers doing the uploading. One of those partners was a popular Mac jukebox application called SoundJam MP.
2001年1月のMacworldでAppleはSoundJam技術に基づいたiTunes 1を発表し、多くのMacintoshにインストールされ、さらに2001年10月にiPodが発売されることによりGracenoteのトラフィックは増加していったそうで、現在(2013年4月)では月に150億Queryのトラフィックがあるそうです。
Then, at MacWorld in January 2001, Apple released the first version of iTunes (based on the SoundJam technology) and grew Gracenote’s footprint by putting it on more machines. In October 2001, Apple released the iPod and changed Gracenote’s life forever.
そして現在GracenoteはAppleと深く関わっており、iTunesのGeniusやiTunes Matchの技術やデータベースとして使用されているそうです。
音響指紋
以上のようにAppleとGracenoteは古くから技術提供をしており、iCloud上の曲と私達が持っているiTunesライブラリの曲をマッチングさせる祭に使用される「音声指紋(Audio Fingerprinting)」技術も提供しているそうです。
Gracenoteが全てを公開しているわけではないのでiTunes Matchでのマッチング時に何が行われているか断言できませんが、Cult fo MacやApp Culture、Forum[1, 2, 3]の記事やGracenoteのサイトを見る限りiTunes Matchでは
・Gracenote Music IDとリッチメタデータ(ID3タグ?)の情報
・音声認識技術を元にしたGracenote Scan & Match技術
と1億曲以上とも言われているGracenoteの楽曲データベースを使用して曲のFingerprintからマッチングを行っているようです。
*音声認識技術は「Audio Fingerprinting Technology(音声指紋技術)」としてよく知られているもので、アプリではShazamなどが有名です。 音声指紋技術については専門的すぎてよく理解できませんがWikipediaを見る限りでは曲のテンポやスペクトル、トーンの情報から音声や曲を識別するそうです。
>Perceptual characteristics often exploited by audio fingerprints include average zero crossing rate, estimated tempo, average spectrum, spectral flatness, prominent tones across a set of bands, and bandwidth.
関連リンク:
・Mobile MusicID / Gracenote Mobile MusicIDのしくみ
・Gracenote, Incへインターンシップへ行ったノースウェスタン大学Ph.D. のブログ
・Gracenote、楽曲認識技術「MusicID」を高速化 – AV Watch
更新 [2014/05/09] :誤字脱字修正しました。
コメント
Sonyに一時期買収されて去年売りに出されたという話が無いな
ここ数年だがデータベースの質が落ちた感じがあるんだよな
久しぶりにCDをエンコードし直して、マッチングすると曲名が酷い状態になって
殆ど手直しする羽目になって酷い目にあったよ
人気のある曲だと正しい表記どころかたくさん選択肢与えられるよね
150億クリエはクエリの間違いだな
クリエ…
CLIE SONY…
管理人さんおつかれさま!