2024 vivo开发者大会于10月10日在广东深圳正式召开,vivo发布自研大模型——全新蓝心大模型矩阵,为用户和开发者带来诸多惊喜。在同日举办的人工智能会场上,vivo AI团队分享了在AI领域取得的最新成果,以前沿解决方案引领大模型创新与用户体验升级,助力开发者高效创新。
全新蓝心大模型矩阵
长期以来,vivo持续在AI领域深耕,紧跟前沿技术,不断探索AI在终端设备上的用户使用场景,致力于为用户带来更优质的用机体验。vivo AI算法技术总监李方圆表示,随着大模型技术日益成熟,vivo在语言、图像、语音、多模态等全模态的AI技术上逐步升级为大模型能力,正从传统的AI技术时代迈向大模型AI技术时代。
vivo AI算法技术总监李方圆
全新蓝心大模型带来4项核心升级:
1、语言大模型升级:BlueLM-70B 2.0模型较1.0模型能力提升30%,新增多模态多轮指令理解、工具使用和代码能力等亮点功能;
2、图像大模型创新:推出中文原生文生图大模型,突破文字可控生成技术难题;
3、全模态技术扩展:新增语音和多模态理解大模型,实现全模态AI技术升级;
4、端侧大模型发布:隆重推出3B端侧大模型,能力更强、速度更快、更加安全和应用更广的4大特性。
全新语言大模型带来3项核心升级:
1、云端语言大模型升级:BlueLM-70B 2.0新增学习了1亿知识问答,500w篇的论文,以及1.2亿代码仓库等高质量数据,模型整体能力提升30%。新增了多模态多轮对话能力,支持400+手机系统工具和180+三方工具的调用,以及全面升级了大模型的代码生成能力,能实现数理计算和Excel的数据分析能力。
2、重磅推出3B端侧大模型:带来手机终端黄金尺寸3B端侧大模型,在模型能力领跑行业5B以下模型,在写作对话、摘要总结、信息抽取等业务能力上,超越行业7B-9B模型。极致出词速度达到80字/s,内存占用仅1.4G,真正打破了“模型小、能力强、消耗低“的不可能三角定律”。
3、语言大模型新增图像理解能力:通过将文本、图像抽象成统一的token表示,vivo为语言大模型新增了看世界的“眼睛”,能够理解手机上的文字和图片多种模态的信息。BlueLM-V-3B模型,领跑行业4B及以下的多模态大模型。
语音大模型四大核心能力,让智能语音交互更简单、高效
语音技术在智能手机中的地位日益凸显,广泛应用于出行、家居娱乐、办公及无障碍功能等多个领域。vivo AI语音中心负责人陈彬彬指出,vivo自2017年起便致力于语音技术的研发,并将多项创新成果融入其产品中。为进一步提升体验,vivo带来了自研语音大模型。
vivo AI语音中心负责人陈彬彬
vivo自研语音大模型基于蓝心文本大模型开发,通过离散化编码结合文本大模型学习,实现更智能、丰富和简单的语音交互。它具备四大核心能力:语音合成、音色复刻、语音翻译和方言自由说。语音合成能将文本转化为逼真拟人的语音,支持多语言及方言;音色复刻则只需用户一句话即可复制音色;方言自由说功能不仅满足用户方言交流需求,还助力方言文化的保护与传承;语音翻译能力则能直接将语音转化为目标语言文本,提高翻译效率。vivo将继续深耕语音大模型在各场景的应用,提升用户体验,并期待与各界共同探索大模型技术的更多可能性,造福社会。未来,vivo计划将语音大模型能力逐步开放至智能体平台,以更广泛地服务于用户和开发者。
让图像生成技术触手可及,实现AI普惠
随着扩散模型与AI架构的深度融合,图像生成技术迎来了指数级飞跃,其中文生图技术尤为显著。vivo AIGC图像大模型技术总监阮晓虎在论坛上介绍了vivo的文生图大模型——蓝心图像大模型BlueLM-Art,该模型精通中文语境,融合了中国特色与东方美学,其在中文理解、中国文化诠释、人物摄影美学及中文文字绘制等多个维度都取得了出色的效果,多次荣登SuperCLUE-Image基准榜单中文领域榜首。
vivo AIGC图像大模型技术总监阮晓虎
通过在算法架构、数据处理、工程以及算力上的全面优化,使蓝心图像大模型BlueLM-Art拥有诸多特性,不仅精通中文,拥有出色的指令跟随性,还能生成与图文完美结合的中文字符,并提供艺术字绘制插件。同时,蓝心图像大模型BlueLM-Art在人物摄影美学方面有着卓越表现,能呈现美观、真实、富有质感的人物形象。最后,BlueLM-Art还拥有可控性生成能力,能在图像创作中保持更高的主体一致性。
基于蓝心图像大模型BlueLM-Art,vivo在蓝心小V中推出了图像创作、AI消除、图像风格化、艺术字创作等一系列AI功能,并在PAD的原子笔记中加入了AI涂鸦美化功能,极大地提升了用户的创作体验。后续vivo将继续优化文生图大模型及其相关AIGC功能,为用户提供更多创意资源,让先进的AI技术惠及更广泛的用户群体,持续推动图像生成技术的创新与发展。
大模型端侧化,用户体验持续升级
vivo AI端计算负责人鲁晶分享了vivo在全模态大模型端侧化的探索与成就。AI算法端侧化作为平衡体验、安全与成本的解决方案,不仅保障了用户在无网或弱网环境下的智能体验,还确保了个人数据安全,并有效降低了使用成本。
vivo AI端计算负责人鲁晶
大模型时代,vivo持续推进各模态大模型端侧化能力建设,探索大模型在各业务场景端侧产品落地,覆盖“听、说、读、写、画”各应用场景。在“听”方面,vivo升级应用语音识别大模型,让语音操作随时可用;在“说”方面,利用语音生成大模型生成超拟人音色,为故事讲述赋予更鲜活的魅力;在“读”方面,利用多模态大模型针对视障用户打造图像问答功能;在“写”方面,将语言大模型在端侧更广泛的应用,同时升级为3B端侧大模型,给用户更为优质的体验。此外,vivo还探索了图像大模型端侧化,为用户带来随时可用的AI消除功能。。
针对全模态大模型端侧化,vivo 从算法模型设计,到量化、性能瓶颈分析工具建设,再到底层运行时异构方案设计和业务框架层灵活的多业务部署架构建设,提供了完整的解决方案。通过软硬件协同,充分挖掘芯片潜力,确保大模型在端侧运行时的强悍性能。未来,vivo计划开放成熟算法能力与端侧加速能力,与行业开发者合作,共同打造创新、便利、智能的业务场景,为用户提供更优质的智能化体验。
攻克AI三大挑战,打造高效稳定的大模型工程体系
vivo AI工程架构专家陈崇沛分享了vivo在大规模高性能计算领域的探索与创新。他指出,大规模训练、高性能推理及海量算力治理是AI落地面临的三大挑战。为此,vivo构建了大模型工程体系,解决了大规模训练的问题,让模型能按天迭代;解决高性能推理的问题,能秒级生成图片;搭建了坚如磐石的万卡集群,算力能持续稳定输出。这一体系全面支撑了vivo各模态、模型的训练与推理,广泛应用于vivo的AI产品中。
vivo AI工程架构专家陈崇沛
展望未来,vivo要打造出强有力的个人化智能产品,就要具备o1这类强逻辑推断能力的模型。而大模型工程的关键是性能和灵活性兼具的强化学习训练框架,这样才能发挥出强化学习Scaling law的威力。为了实现这个目标,vivo的思路是:以训推一体架构为基础,整合自研推理引擎和训练框架,满足多模型训练推理协同的要求,支持高性能、高灵活性的自博弈强化学习。o1的技术路线目前只露出冰山一角,还有很大的探索空间,让我们拭目以待。
vivo意图框架,实现精准服务分发与全场景智能化体验
如今AI改变了人机交互方式,在AI大模型的加持下,智能化体验有了较大升级,用户可以通过对话等方式来替代传统的交互方式,实现以AI为中心的交互模式变革。vivo AI系统技术总监许胜华表示,智慧服务在体验升级的同时,也面临全新的挑战,vivo持续与生态伙伴探索高效精准的服务分发模式,基于此vivo面向开发者提供了意图框架解决方案。
vivo AI系统技术总监许胜华
通过意图框架,连接开发者和系统,结合AI能力理解用户意图,再通过系统入口将生态服务精准分发至用户,从而提供全场景、智能化的服务体验。在原系统5(Origin OS 5)上,意图框架已经跟系统的蓝心小V、原子岛、小V建议等交互入口全面打通,带给用户带来便捷贴心的用机体验。目前vivo意图框架已上线24个垂域,53个意图标准,方便开发者接入使用。
蓝心智能体开放平台赋能,助力构建智能体生态
vivo AI解决方案中心高级经理蔡永超介绍了蓝心智能体开放平台,该平台可以提升AI与人的协作体验。基于智能体开放平台,还支撑起vivo 1+X+N智能体协作体系的构建,为用户提供温暖、智能的体验。
vivo AI解决方案中心高级经理蔡永超
vivo为开发者提供一站式智能体开发、分发、运营平台,助力开发者高效、便捷地实现智能体的开发。在流量方面,vivo提供了包含锁屏、息屏、通知、负一屏、全搜、蓝心小V等入口在内的多个分发入口,为开发者带来亿级流量曝光和转化。
vivo蓝心智能体的创建流程简单快捷,只需创建、配置、调试、发布四个步骤即可快速搭建一个智能体。目前平台已与支付宝AI健康管家、携程、百度地图、懂车帝、同程旅行等应用合作,提供多种智能服务。
蓝心智能体平台将协同开发者共同构建智能体生态,以大模型+智能体平台为基座,以OS内核+应用为依托,服务用户、开发者和行业伙伴。后续,蓝心智能体开放平台将逐步开放更多AI能力,基于智能体平台开发的智能体应用,经过安全审核可以上线到蓝心千询APP及PC供广大开发者使用,并支持发布到三方应用。
未来,vivo将持续以用户为中心,深化AI技术研发与应用,携手开发者与生态伙伴,共同推动AI技术的普惠与发展,为用户带来更智能、更便捷、更安全的用机体验。
本文采摘于网络,不代表本站立场,转载联系作者并注明出处:/showinfo-2-13931-0.html