火山引擎DataLeap:更强的数据目录搜索能力,做到一步找数
随着数据管理变得更加复杂,元数据的重要性呈指数级增加。如今,Data Catalog(数据目录)被看成是元数据管理的最佳工具,而一个通用的Data Catalog平台,通常包含元数据管理,搜索,血缘,标签,术语等功能。其中,搜索是Data Catalog的入口功能,承担着让用户“找到数”
更新日期:2023-05-31
来源:系统之家
近日,火山引擎安全研究团队对外开源了Jeddak-DPSQL(项目地址:https://github.com/bytedance/Jeddak-DPSQL),这是基于差分隐私的SQL代理工具,适用于数据管理者可信的场景模式,以中间件的形式接收SQL统计查询请求,返回满足差分隐私的查询结果。
据悉,火山引擎对于用户敏感数据尤为重视,在火山引擎提供的数据分析产品中,广泛采用差分隐私技术对用户敏感信息进行保护。此类数据产品通常构建于 ClickHouse 等数据引擎之上,以 SQL 查询方式来执行计算逻辑,且查询逻辑往往较为复杂,因此对差分隐私的应用提出了以下要求:
零改造、零感知:最大程度避免影响业务现有查询方式,最好做到业务零感知、零改造;
良好、灵活的适配性:能够适配不同数据引擎的查询语法,以及能够处理包含多层嵌套、多重计算、多表连接等情形的复杂 SQL 语句;
安全性与可用性平衡:能够根据业务数据质量要求,计算合理的隐私预算,在安全性和数据可用性之间保持平衡;
为更好解决数据安全和隐私合规治理相关问题,火山引擎安全研究团队进行了产品调研,目前市面上在SQL查询场景下加入差分隐私能力的产品,发现这些产品大多都没有提供SQL 的自动化分析能力,需主动调用 API 或是在 SQL 中调用 UDF 来引入差分隐私能力,接入成本较高。其中OpenDP产品限定了输入 SQL 的方言,仅支持 SQL 92标准,难以在 Hive、ClickHouse 等主流数仓引擎中透明应用。
同时,火山引擎安全研究团队也注意到云服务厂商在To B场景下会提供多款数据分析产品,部分产品的模式面临泄漏用户隐私、法律合规的风险,该类产品通常是通过数据库引擎使用面向实时分析的 clickhouse,计算逻辑用SQL查询的方式执行,因此考虑结合差分隐私技术提供隐私保护的SQL查询能力。
基于上述挑战,火山引擎安全研究团队自主研发了Jeddak-DPSQL ,希望能够为同样面临该类问题的企业和个人提供一定参考和帮助,同时也希望能够有更多的外部开发者能够一起对该开源项目进行共建,完善 Jeddak-DPSQL 产品功能,共同构建更完备的应用生态。
据了解,Jeddak-DPSQL 能够兼容多种数据引擎和SQL方言,内嵌多种差分噪声扰动算法,具备隐私预算管理能力,并且能够与底层数据引擎结合,在数据分析师无感的情况下,对 SQL 语句进行自动化分析和结果加噪处理。同时,Jeddak-DPSQL 已经在抖音集团相关业务中得到了普遍应用与验证。
一、全面了解 Jeddak-DPSQL
1、 Jeddak-DPSQL介绍
Jeddak-DPSQL采用中心化差分隐私(Centralized Differential Privacy,简称CDP,适用于数据管理者可信的场景)模式,以中间件的形式接收SQL统计查询请求,返回满足差分隐私的查询结果。一个典型的查询请求处理流程如下:
●首先,核心服务接受客户提交的SQL查询语句,对该语句进行解析和重写,以便于计算隐私噪声(如将AVG计算改为SUM/COUNT);
●然后,核心服务调用元数据管理服务,计算重写后的SQL查询所对应的数据表敏感度,同时在数据库上执行重写后的SQL查询,得到原始的查询结果;
●最后,核心服务调用隐私预算管理服务得到为该查询分配的隐私预算,并结合敏感度在原始的查询结果中添加噪声并返回。
2、 Jeddak-DPSQL解决的问题
案例背景
假设有一个数据库 business,存储用户消费数据,使用 clickhouse 引擎,其中一个表 user 存储用户信息,表中存在以下列:uid,name,age,sex,city,代表用户id、姓名、年龄、性别、城市。
查询需求
假设要查询用户数量和平均年龄的城市分布,使用 SQL 语句 1:
风险
如果不应用隐私保护技术,可能面临差分攻击的风险,比如攻击者通过某渠道得知张三的 uid 为 803719,构造下面的 SQL 语句 2:
#FormatImgID_2#
通过执行上面的 SQL语句1 和 SQL 语句2,可分别得到两个查询结果:
那么就可以通过比较两次查询结果得知张三所在的城市是北京,年龄大约 61 岁(120008*49.3276 = 5919706.62,120007*49.3275 = 5919645.29,5919706.62 - 5919645.29 约等于 61)
以上是一个简单的例子,现实场景中,攻击者可能通过背景知识构造更多样、更复杂的查询语句达到窃取隐私的目的。
因此,在上述SQL查询场景下,可以通过接入Jeddak-DPSQL对SQL进行分析和重写,最终执行重写后的SQL能够保证返回给使用者的数据满足差分隐私要求,进而达到对个人隐私保护的效果。
3、 Jeddak-DPSQL在火山引擎的应用验证
1.Jeddak-DPSQL已接入火山引擎的增长分析(finder)、A/B 测试等产品,间接服务300+外部客户,日均处理查询请求 200+。Jeddak-DPSQL服务不仅帮助业务满足了隐私保护和业务合规的需求,同时也成为创新型隐私计算技术应用的典范案例。
2.开放隐私计算OpenMPC对外公布了“隐私计算2021年度优秀应用案例TOP10”。火山引擎云安全凭借“融合差分隐私的火山引擎DPSQL服务”案例,成功入选TOP10。
二、如何使用Jeddak-DPSQL
GitHub 开源项目地址:https://github.com/bytedance/Jeddak-DPSQL
1. 下载
#FormatImgID_4#
2. 快速部署
完成Jeddak-DPSQL下载后,按照README中的部署引导部分完成服务部署,整个部署过程包括以下步骤:
●服务依赖包安装:进入项目根目录,使用pip install -r requirements.txt安装服务所需完整pip包
●metaData存储准备:在使用DPSQL时,需要维护源数据表的metaData信息,为后续加噪计算敏感度作准备。Jeddak-DPSQL使用Mysql对相应元数据信息进行存储,因此需要用户提前在自己的Mysql数据库中创建相应的表
●隐私预算消耗存储准备:使用Jeddak-DPSQL系统过程,可以记录对表级别的数据查询时的隐私预算消耗。主要通过Mysql进行记录,因此需要用户提前在自己的Mysql数据库中创建相应的表
●数据库连接配置:Jeddak-DPSQL中使用数据库主要有Mysql和Redis,因此需要对这两个数据库连接地址进行配置
●服务启动:完成上述配置后可以在项目根目录运行bootstrap.sh脚本启动服务
3. 正式使用
完成Jeddak-DPSQL部署后,按照README中的快速开始部分可以进行功能体验,整个过程如下:
●选择要测试的数据源(Hive或ClickHouse),导入要进行查询测试的原始数据集
●初始化metadata和隐私预算
○生成 metadata
启动dpsql服务后, 调用接口 /api/v1/metadata/generate,生成metadata,可参考:
○确认metadata 生成完成
调用 /api/v1/metadata/get 接口,确认 metadata 生成完成
●调用隐私保护查询接口,获得经过差分隐私保护的查询结果
更多接口使用方式可以参考项目README中的API documentation部分。
三、后续计划
火山引擎安全研究部门相关负责人表示,Jeddak-DPSQL会长期维护,欢迎大家使用。他也指出,近期开源的Jeddak-DPSQL是首个版本,因此还存在很多不完善的地方,也希望有更多的外部开发者能够一起对该开源项目进行共建,完善产品功能,构建更完备的应用生态。(作者:崔世高)
火山引擎DataLeap:更强的数据目录搜索能力,做到一步找数
随着数据管理变得更加复杂,元数据的重要性呈指数级增加。如今,Data Catalog(数据目录)被看成是元数据管理的最佳工具,而一个通用的Data Catalog平台,通常包含元数据管理,搜索,血缘,标签,术语等功能。其中,搜索是Data Catalog的入口功能,承担着让用户“找到数”
火山引擎ByteHouse助力大地量子精准、高效预测天气
伴随着气象技术的发展以及城市气象设施的完善,气象监测服务能力在不断提高,实现短期甚至中长期的气象预测成为可能。短期、长期的天气形势预测,不仅能帮助相关行业、有关部门针对性地进行极端天气防范准备,降低气象灾害带来的影响;还可以提升对风力、水力等可再生能
ISC 2023技术高峰会召开,赛博昆仑创始人郑文彬分享网络空间对抗新观点
8月9日,第十一届互联网安全大会(ISC 2023)AI新场景·安全新边界技术高峰会在北京召开。大会汇聚了业界专家学者、企业领袖和技术专业人员,分享AI新场景下前沿技术、创新产品及实践经验。赛博昆仑创始人兼CEO郑文彬受邀到会,并以“漏洞持久战”为题发表演讲,分享了包
登顶2023年上半年新能源汽车质量“榜一大哥”,极狐汽车用实力说话
近日,《2023年上半年新能源汽车质量排行》出炉,极狐阿尔法T、极狐阿尔法S分别以远高于平均值的绝对优势,成为“新能源中型SUV”与“新能源中大型车”两个细分榜单的“榜一大哥”,印证着国产新能源汽车也能“开不坏”的事实。《2023年上半年新能源汽车质量排行》以中
新华·AIGC人才培优工程暨“数字人”产品发布会圆满举行
AI赋能教育,创新引领未来。8月8日,由中国广告协会融媒体工作委员会支持,中国东方教育集团主办,石家庄新华电脑学校、河北新华未来技工学校、中广AIGC产业发展联盟承办,北京中广华云智能科技有限公司、石家庄燕阵网络科技有限公司协办的新华·AIGC人才培优工程暨“数字人
那些把爱好当事业的人,最后怎么样了?
你选工作时,会选择喜欢的?还是大家眼里稳妥的“好工作”?在各种压力的“威胁”下,大部分人都会被迫选择后者。于是,“不喜欢现在的工作”,几乎成为了当代年轻人的通病。但今天,我们却见识到了两位执着于自我爱好的青年,一不小心就把兴趣玩成了事业,甚至完全转换了
央视关注抖音反网暴举措,一键防暴等功能被关注
近日,央视《法治在线》栏目报道了面对网络暴力,社会各界该如何联合治理的话题。节目对抖音平台在反网络暴力所做出的策略、产品、规范和倡议等进行了重点关注。报道称,抖音上线了一键防暴等功能,系统治理网络暴力现象,对网暴事件进行了积极预防和快速响应。超200万
第二代The Freestyle三星随享智能投影仪开启预约登记,快来解锁多重专属好礼
近日,第二代The Freestyle三星随享智能投影仪即将上市,三星商城已开启新品预约登记服务。8月1日至8月31日期间进行预约登记的用户可尊享腾讯视频VIP年卡、投影仪便捷式移动电源底座与Skin外壳多项专属好礼,赠品数量有限,先到先得。据悉,该款备受关注的新品将于9月1
火山引擎首发“会表演”的有声内容创作平台
近日,火山引擎正式推出有声内容创作平台。该平台历经2年研发,相较传统平台,其具备多情感演绎和自动化预测两大优势。据了解,多情感演绎上,有声内容创作平台的“声音超市”不仅提供70余款适配不同题材的精品音色,还可通过丰富的情感实现更精彩的演绎;自动化预测层面
蒙牛的“2049”:更绿色,更营养,更智慧
8月4日,蒙牛集团在呼和浩特举办了全球合作伙伴答谢会。此次盛会正值蒙牛集团成立24周年,以面向第二个百年奋斗目标2049年为时间节点,旨在回顾过去、展望未来,围绕乳业发展愿景进行深入研讨。出席本次活动的嘉宾涵盖了来自政府机关、行业协会、科研院所及高校等负责人,以
让战力更“9”!掠夺者 · 擎Neo全新配置i9 HX版火爆预售中!
掠夺者·擎Neo作为相当亲民的高端电竞本,自面世以来便受到玩家追捧,全系搭载英特尔13代酷睿HX发烧级芯片,性能狂野。而全新13代i9 HX的掠夺者·擎Neo如约而至,战力全面进阶,带来强大又亲民的i9 HX“战神之力”!HX发烧芯片,战力狂野掠夺者·擎Neo高端电竞本搭载英特
小天才旗舰Z9少年版即将上市!或成为中学生手表最佳选择!
针对未成年人这个细分市场,小天才通过深挖孩子的日常习惯,洞察青少年个性化需求,持续推出多款行业领先的电话手表。此前,小天才旗舰Z9正式上市,新品带来更强大的实时定位、更丰富的健康监测,设计工艺的升级也带来更多元的产品形态。在上一代产品小天才旗舰Z8上,小
蒙牛总裁五条锦囊畅享《奶业的世界2049》
8月伊始的蒙牛,可谓是双喜临门,蒙牛不仅迎来了24周岁生日,还迎来了家乡重磅盛事——在中国乳都呼和浩特举办的世界奶业大会。蒙牛总裁卢敏放在会上畅谈了《奶业的世界2049》。卢敏放笑言,2049年我们的新中国已经迎来了第一个百年,蒙牛也到了50岁的知天命之年,而我也已经
挑战传统:AEKE领跑新时代的健康运动
近年来,健身行业蓬勃发展,随之而来的是不断涌现的新兴品牌。在这激烈竞争的市场中,家居智能运动品牌AEKE以其独特的“轻力量运动体系”成为了行业的领跑者。不拘泥于传统,AEKE坚信轻力量是一种更有效的运动方式,并在市场上取得了显著的成功。AEKE的轻力量运动体系具备许
相聚原神☆FES ROG化身福利官高能助力
8月10日-13日,原神☆FES“跨越尘世·于此相聚”即将于上海国家会展中心召开。此次盛会不仅有旅行者熟知的部分CV大大、知名二创UP主作为特邀嘉宾亲临现场,还有全新原神☆FES福利官的加入。ROG携旗下掌机、笔记本等人气产品赴往“提瓦特大陆”,开启高能玩法,只为让此