火山引擎DataLeap:更强的数据目录搜索能力,做到一步找数
随着数据管理变得更加复杂,元数据的重要性呈指数级增加。如今,Data Catalog(数据目录)被看成是元数据管理的最佳工具,而一个通用的Data Catalog平台,通常包含元数据管理,搜索,血缘,标签,术语等功能。其中,搜索是Data Catalog的入口功能,承担着让用户“找到数”
更新日期:2023-02-20
来源:系统之家
近日,网易云音乐2篇论文《TG-Critic: A Timbre-Guided Model for Reference-Independent Singing evaluation》《TrOMR:Transformer-based Polyphonic Optical Music Recognition》入选ICASSP2023,论文提出的两种算法模型均优于现有最先进模型。
一种是歌唱评价算法模型TG-Critic,利用它可以仅依靠一段演唱音频判断歌手演唱水平,实验结果表明,算法模型评估的歌曲与人工专家评价“演唱水平好”的歌曲,相似度达91%;另一种是识别图像乐谱的算法模型,通过模型识别图片中的五线谱,实验结果在复音乐谱上的错误率最高也仅为2.1%。
据了解,ICASSP(International Conference on Acoustics, Speech and Signal Processing)即国际声学、语音与信号处理会议,是IEEE主办的全世界最大的,也是最全面的信号处理及其应用方面的顶级会议,在国际上享有盛誉并具有广泛的学术影响力。此次入选,代表了网易云音乐在国际舞台上,展示出了在音乐音频领域的技术实力。
而且凭借在音乐技术领域的积累创新,网易云音乐也不断将前沿领域研究成果应用于实践。依靠目前准确率最高的歌曲质量评价算法,歌唱评价将不再依赖人力手工准备模板物料,歌手也不再需要模仿模板以获取高分,更鼓励歌手的个性化演绎。而且相比卡拉ok中的传统歌唱评价,该模型未来将用于更加丰富的使用场景,如歌曲分发、优质歌手挖掘、声音社交等等领域。而利用识别图像乐谱的算法模型,可以将模糊的图片乐谱准确识别,方便转换为利用率更高的格式,服务于音乐人、用户在欣赏、教育、创作等场景的需要。
三大技术创新拆解“开口跪”,将全球最优算法准确率至少提升4%
当歌唱老师和专家听到一首歌,就能迅速可以判断出歌手的演唱水平,而普通人则会用“开口跪”表达夸赞。当人们评价歌声质量时,人声的音色是影响判断的重要因素。受其启发,网易云音乐首创提出了一个音色为指导的歌唱评价模型:TG-Critic,将全球最优算法准确率提升4%以上。
据介绍,网易云音乐音频实验室在歌唱评价模型的设计过程中引入了三个主要创新点:
1.首次在模型中显式引入音色信息辅助歌声评价:研究表明,歌手的"音色"是影响人们对于歌声感受的重要因素。但不同于音准、节奏等较为简单的属性,音色是一系列复杂而抽象的感受的集合,因此其提取过程更为复杂,更难被模型直接捕捉到。至今为止的歌声自动评价系统中,还没有研究聚焦音色特征对于模型预测的影响。 为了填补这一空缺,团队创新性地使用原本为“歌手识别”任务设计的预训练模型,提取与音色相关的高级特征,并将其用作歌声评价模型的输入。尽管这些特征原本并非为歌声质量设计,但是来自质量标签为“好”和“差”的样本的特征,在高维空间中分别呈现出较明显的聚集现象,证明了其与歌声质量的相关性。
2.迁移高分辨率网络结构处理声谱特征:除了音色特征输入,团队从音频样本中提取CQT声谱特征作为模型的主要输入。为了解决卷积网络局部性带来的问题,团队将图像分割领域较为常用的“高分辨率网络”迁移到歌声评价任务中,分别通过高、中、低三个不同的分辨率分支分别处理特征。通过高分辨率特征捕捉局部信息(如演唱技巧、小瑕疵等)、低分辨率特征捕捉长距离信息(气息稳定性、音准等),从而实现保持高效性的同时,提升模型提取有用信息的能力。
3.提出循环自动数据标注降低人工成本: 对于一个模型的训练,可靠的标注数据尤为重要。团队收集了3万余条歌声数据样本,以及其对应的机器打分(针对音准、节奏等)、红心数、评论数等可以一定程度反映歌声质量的元数据。通过一个循环迭代过程,只需要人工标注其中小部分样本,便能获得足够可靠的自动数据标签,大大降低了标注所需的人工成本。
实验结果表明,在各类公开数据集上,网易云音乐提出的TG-Critic均达到国际最先进水平,相比已有算法,准确率提升至少4%,部分数据集提升10%以上。而且应用于网易云音乐业务测听的结果显示:在音乐人业务:运营评估歌曲推荐值≥3共159首歌曲中,算法评价为“演唱水平好”共144首,准确率达90.5%;在直播业务:运营提供100首算法判定“演唱水平好”歌曲的人工验证,准确率91%;在500+全演唱水平分类实验中,准确率81.2%。
据了解,TG-Critic歌曲质量评价模型将进一步减少人力依赖并扩大应用场景在直播、音乐人等内容分发场景,可协助人工挑选优质内容,可服务于作品审核、分发或推荐,优质歌手挖掘在社交、游戏等C端场景,可提供“开口跪挑战”等运营玩法。
懂AI又懂乐理,看图识谱技术上的又一次突破
随着深度学习方法的应用,OCR(图像文字识别 )近年得到了长足的进步,而OMR(图像乐谱识别)却始终处于研究应用的初级阶段。由于这个方向属于交叉学科,既要懂视觉算法又要懂乐理。目前市面上的商业或开源软件都不具备可用的准确率。
因此,网易云音乐音视频实验室采用基于端到端的算法识别路线,优化识别流程:1)拿到一个乐谱图片,检测图片中的曲谱位置坐标;2)提取曲谱区域,进行曲谱识别,识别出乐谱中的内容信息,如下图:
针对该乐谱识别模型,网易云音乐音频实验室也做了多方面的创新,大大提高了准确性。例如,将Transformer引入到乐谱识别任务中,通过该结构可以实现更大的感受野,有利于对长序列进行预测,提升识别准确率;同时,将乐谱的信息维度将乐谱符号分为:乐谱符号全局表征+乐谱符号局部表征+音符音高。这样的拆分方式更利于机器理解和学习。
值得注意的是,团队还精心设计了一套乐谱图片拍摄的方案。为了收集大量真实的数据,使用手机作为拍照工具,模仿最真实的拍照场景,对明、暗光场景的纸质乐谱进行拍照,以及对显示在显示屏上的乐谱进行拍照。
实验结果表示,网易云音乐的乐谱识别算法的准确性已经超过目前最好的端到端音乐谱识别方法,大幅降低错误率。下图中第一行为正确的乐谱识别结果,第二行为目前最好的复音乐谱识别方法的识别结果,第三行为本技术提出方案的识别结果,红框标记的为错误区域。
据介绍,该方法可以准确地将图片乐谱转换为midi、musicxml等格式,未来可用于音乐辅助教育、听歌搜谱等场景中,致力于在音乐欣赏、教育、创作等场景上,为音乐人、用户提供更好的服务。
火山引擎DataLeap:更强的数据目录搜索能力,做到一步找数
随着数据管理变得更加复杂,元数据的重要性呈指数级增加。如今,Data Catalog(数据目录)被看成是元数据管理的最佳工具,而一个通用的Data Catalog平台,通常包含元数据管理,搜索,血缘,标签,术语等功能。其中,搜索是Data Catalog的入口功能,承担着让用户“找到数”
火山引擎ByteHouse助力大地量子精准、高效预测天气
伴随着气象技术的发展以及城市气象设施的完善,气象监测服务能力在不断提高,实现短期甚至中长期的气象预测成为可能。短期、长期的天气形势预测,不仅能帮助相关行业、有关部门针对性地进行极端天气防范准备,降低气象灾害带来的影响;还可以提升对风力、水力等可再生能
ISC 2023技术高峰会召开,赛博昆仑创始人郑文彬分享网络空间对抗新观点
8月9日,第十一届互联网安全大会(ISC 2023)AI新场景·安全新边界技术高峰会在北京召开。大会汇聚了业界专家学者、企业领袖和技术专业人员,分享AI新场景下前沿技术、创新产品及实践经验。赛博昆仑创始人兼CEO郑文彬受邀到会,并以“漏洞持久战”为题发表演讲,分享了包
登顶2023年上半年新能源汽车质量“榜一大哥”,极狐汽车用实力说话
近日,《2023年上半年新能源汽车质量排行》出炉,极狐阿尔法T、极狐阿尔法S分别以远高于平均值的绝对优势,成为“新能源中型SUV”与“新能源中大型车”两个细分榜单的“榜一大哥”,印证着国产新能源汽车也能“开不坏”的事实。《2023年上半年新能源汽车质量排行》以中
新华·AIGC人才培优工程暨“数字人”产品发布会圆满举行
AI赋能教育,创新引领未来。8月8日,由中国广告协会融媒体工作委员会支持,中国东方教育集团主办,石家庄新华电脑学校、河北新华未来技工学校、中广AIGC产业发展联盟承办,北京中广华云智能科技有限公司、石家庄燕阵网络科技有限公司协办的新华·AIGC人才培优工程暨“数字人
那些把爱好当事业的人,最后怎么样了?
你选工作时,会选择喜欢的?还是大家眼里稳妥的“好工作”?在各种压力的“威胁”下,大部分人都会被迫选择后者。于是,“不喜欢现在的工作”,几乎成为了当代年轻人的通病。但今天,我们却见识到了两位执着于自我爱好的青年,一不小心就把兴趣玩成了事业,甚至完全转换了
央视关注抖音反网暴举措,一键防暴等功能被关注
近日,央视《法治在线》栏目报道了面对网络暴力,社会各界该如何联合治理的话题。节目对抖音平台在反网络暴力所做出的策略、产品、规范和倡议等进行了重点关注。报道称,抖音上线了一键防暴等功能,系统治理网络暴力现象,对网暴事件进行了积极预防和快速响应。超200万
第二代The Freestyle三星随享智能投影仪开启预约登记,快来解锁多重专属好礼
近日,第二代The Freestyle三星随享智能投影仪即将上市,三星商城已开启新品预约登记服务。8月1日至8月31日期间进行预约登记的用户可尊享腾讯视频VIP年卡、投影仪便捷式移动电源底座与Skin外壳多项专属好礼,赠品数量有限,先到先得。据悉,该款备受关注的新品将于9月1
合合信息借AI破解版面分析与还原难题 以科技创新解决实际应用
现阶段,文档的智能化处理是计算机视觉在产业中的重要应用方向,现阶段还面临着诸多挑战。合合信息敏锐的捕捉到其中的发展机会,并通过技术性创新积极推动在相关领域的落地。合合信息表示,随着OCR技术应用面的持续拓宽,复杂多变的版面、多样化的文本内容给文档的识别
火山引擎首发“会表演”的有声内容创作平台
近日,火山引擎正式推出有声内容创作平台。该平台历经2年研发,相较传统平台,其具备多情感演绎和自动化预测两大优势。据了解,多情感演绎上,有声内容创作平台的“声音超市”不仅提供70余款适配不同题材的精品音色,还可通过丰富的情感实现更精彩的演绎;自动化预测层面
蒙牛的“2049”:更绿色,更营养,更智慧
8月4日,蒙牛集团在呼和浩特举办了全球合作伙伴答谢会。此次盛会正值蒙牛集团成立24周年,以面向第二个百年奋斗目标2049年为时间节点,旨在回顾过去、展望未来,围绕乳业发展愿景进行深入研讨。出席本次活动的嘉宾涵盖了来自政府机关、行业协会、科研院所及高校等负责人,以
让战力更“9”!掠夺者 · 擎Neo全新配置i9 HX版火爆预售中!
掠夺者·擎Neo作为相当亲民的高端电竞本,自面世以来便受到玩家追捧,全系搭载英特尔13代酷睿HX发烧级芯片,性能狂野。而全新13代i9 HX的掠夺者·擎Neo如约而至,战力全面进阶,带来强大又亲民的i9 HX“战神之力”!HX发烧芯片,战力狂野掠夺者·擎Neo高端电竞本搭载英特
小天才旗舰Z9少年版即将上市!或成为中学生手表最佳选择!
针对未成年人这个细分市场,小天才通过深挖孩子的日常习惯,洞察青少年个性化需求,持续推出多款行业领先的电话手表。此前,小天才旗舰Z9正式上市,新品带来更强大的实时定位、更丰富的健康监测,设计工艺的升级也带来更多元的产品形态。在上一代产品小天才旗舰Z8上,小
蒙牛总裁五条锦囊畅享《奶业的世界2049》
8月伊始的蒙牛,可谓是双喜临门,蒙牛不仅迎来了24周岁生日,还迎来了家乡重磅盛事——在中国乳都呼和浩特举办的世界奶业大会。蒙牛总裁卢敏放在会上畅谈了《奶业的世界2049》。卢敏放笑言,2049年我们的新中国已经迎来了第一个百年,蒙牛也到了50岁的知天命之年,而我也已经
挑战传统:AEKE领跑新时代的健康运动
近年来,健身行业蓬勃发展,随之而来的是不断涌现的新兴品牌。在这激烈竞争的市场中,家居智能运动品牌AEKE以其独特的“轻力量运动体系”成为了行业的领跑者。不拘泥于传统,AEKE坚信轻力量是一种更有效的运动方式,并在市场上取得了显著的成功。AEKE的轻力量运动体系具备许