进阶的AI手机

Mark wiens

发布时间:2023-03-28

进阶的AI手机

  当下人工智能手机进入了早期发展阶段,部分功能已举足轻重,人工智能手机的题中之义是通过AI技术让手机软硬件升级的效用最大化,重在“升级”而非“颠覆”,并以视觉、语音等重头应用场景为核心。

  2018年人工智能手机在商业化、应用场景、消费认知和体验上实现了全面进阶。而经济、政策、资本、行业的支撑,是人工智能手机行业得以发展的基础条件。

  人工智能手机(AIPhone)是新兴起的概念,业界尚未完全统一认知。艾瑞认为人工智能手机广义上是指搭载了满足AI算力需求的移动端芯片、且加载了深度学习AI功能的智能手机。满足AI算力需求的终端芯片是指:(1)芯片内置独立的神经网络计算单元;(2)通过CPU、GPU、DSP及其他通用计算单元联动赋予芯片深度学习能力。本报告围绕满足上述标准的人工智能手机展开研究分析,描绘人工智能手机行业的发展现状。

  人工智能手机与过去只加载了AI功能,但没有AI芯片的手机不能割裂地看待,后者是人工智能手机的序曲。过去手机上的语音助手已经通过智能语音语义等AI技术开始为手机赋能,为日后人工智能手机兴起埋下了伏笔。2015年起,智能相册分类、APP预加载等功能出现,背后的人脸识别、深度学习等AI技术开始广泛地落地在手机场景上,由此进入了人工智能手机的预热阶段。2017年是人工智能手机元年,AI芯片相继发布,基础层算力成熟落地,头部手机厂商推出AI旗舰机型,AI双摄、NPU、人脸解锁等相继成为热词,带动起人工智能手机的小,市场已经萌芽。当下部分AI功能如AI双摄/三摄已经成了主流手机的刚需,并经历了一轮技术方案的迭代,人工智能手机正如“孩童”,处于早期成长阶段,未来将在AI智慧上达到更高层次。

  人工智能手机的主流功能不仅在实时性、准确性、处理效率等指标上表现优秀,还在AI算法与算力的支持下,通过自我学习理解人类世界的逻辑,通过自主服务变得更便捷,提升了用户体验。随着使用,人工智能手机会学习用户的习惯,优化手机功能,比如人脸解锁会学习用户外貌的细微改变降低拒识率,智慧助手可以按照用户的习惯处理常规任务。人工智能手机把以往针对碎片化需求的服务融合进手机功能,主动地、一步直达地给出用户需要的结果,比起繁杂的手动操作进步明显,例如,过去需要调光、对焦、修图等复合手动操作才能得到的“”,变得自主优化、随拍即美。这些功能与服务的融合重构了终端产品逻辑,使人工智能手机交互更人性、应用更灵活。

  根据AI功能调用手机软硬件结构的差异,我们将人工智能手机的AI能力划分为基础层、软件层、移动应用层,各层在技术和商业上有所交叉。技术上的交叉主要体现为,在不同型号的手机上,同一种功能是通过不同层级AI能力实现的,这主要是技术方案的差异和迭代导致,如利用可见光/红外光进行2D人脸识别主要基于软件层实现,而3D结构光人脸识别则需要基础层芯片与软件层联动。商业上的交叉主要是指,许多原本属于移动应用层的热门功能下沉为手机内置功能,并由技术提供方针对机型做专门方案与优化,效果更好、实时性更强,如美颜拍照类APP启发了手机内置相机拍人更美的需求,短视频APP的AR特效也让市场意识到AR的卖点、开发了类似Animoji的内置功能。

  手机中AI算法可以通过终端或云端来运行,其中终端运行是主流方式。终端AI目前有两类方案,分别是算法在SoC上运行和在局部元器件上运用协处理器运行。在SoC中算法可以通过调用通用硬件单元实现多种AI应用,也可以加入独立处理单元完成,是当下最成熟,也是应用最多的解决办法;在局部元器件上的协处理器中实现AI处理并且已经产品化了的,目前只有智能图像处理的案例,算法主要通过调用处理单元矩阵,在摄像头上对照片处理进行智能加速,实现单摄虚化等效果,目前谷歌在其自身的手机产品上探索和使用这一方案。

  计算机视觉通过对采集的图片或视频进行处理以获得相应场景的信息,人工智能手机广泛应用了计算机视觉技术,使人脸解锁、相册分类等功能得以实现。计算机视觉技术在AI手机的典型技术流程是由终端设备首先获取图像并进行预处理,提取图像特征并识别比对,完成图像识别、图像分类等任务。

  过去几年,计算机视觉的识别精度与分类准确率有了质的飞跃,并出现了两个技术里程碑:一是2014年香港中文大学汤晓鸥团队将卷积神经网络应用到人脸识别上,在LFW人脸数据集上第一次得到超过人类水平的识别精度,二是2017年ImageNet大赛图像分类错误率降至2.3%的历史最低值,计算机视觉整体技术走向成熟。

  如今,计算机视觉技术达到了实时性、可靠性等在手机落地的关键要求,以人脸解锁为例,手机人脸解锁速度约为几百毫秒,误识率约万分之一,部分机型可以达到百万分之一,并支持检测,有效防止照片或视频攻击。

  智能语音交互是基于语音输入的交互模式,人工智能手机中的语音助手功能主要应用了该技术。从整体来看,智能语音交互技术主要包括感知层(语音识别+语音合成)和认知层(自然语言处理NLP)。目前,智能语音交互中语音识别技术已经达到较高精度,能够满足用户日常使用需求。不过,由于语言的模糊性与复杂性更高,语音交互中的自然语言处理技术依然存在一些不足。具体来看,一是对语音的处理受复杂的中文同音字、方言等因素影响,二是对意图的理解受上下文环境的影响,三是对语言的理解还需要感知用户的语气和情绪,这些都可能导致系统对于语义的理解出现偏差,手机答非所问。

  目前,业内期望通过加强对多轮语音交互的研究、强化自然语言处理技术来优化智能语音交互功能,使手机在理解、思考与学习上走的更远。

  深度学习为人工智能手机相关应用的实现提供了强大支持,例如手机中的图像识别、文字识别、语音识别、网页推荐等功能主要通过深度学习中的卷积神经网络算法得以实现。该算法擅长识别非结构化数据(图像、声音、视频、文本、时间序列),之后经过卷积层滤波器的特征检测、池化层的聚合统计、全连接层的特征分类,最终输出分类结果。深度学习通过神经网络模型的构建和海量数据集的训练,对AI手机获取的具有表示性的特征(图片中的单一元素、声音的结构等)进行学习,进一步提升了准确性。随着对于深度学习研究的逐渐深入,未来将会使得手机的大脑得以进一步升级与优化,为用户带来更多丰富和人性化的体验。

  AI手机产业链上游由“硬基础”供应商与“软基础”供应商组成,与传统手机产业链有所区别的地方主要在于,芯片环节由新的AI架构设计商和传统芯片厂商合作提供AI芯片,集成环节引入了AI算法提供商。在移动端想要获得更顺畅、更重度的AI体验,在算法与算力上需要提升与创新,芯片制造商与技术提供商在其中起到关键作用;中游主要由手机品牌商和代工厂商组成,使AI手机产品化,形成商业落地;下游由销售渠道、运营商和APP服务商组成,使产品最终抵达消费者手中。整条产业链分工明确、布局清晰,承载了众多国际巨头型公司,为AI手机发展持续提供动力。

  判定AI手机最重要的标准就在于芯片。在确保成本可控的前提下,手机芯片巨头厂商为行业带来了不同的AI实现路径。高通通过神经处理引擎NPE对其SoC中CPU、GPU、DSP进行调度,意图打造均衡且适配广泛的AI解决办法;苹果、联发科、三星和华为海思则研发独立AI处理模块,对AI应用进行加速,以实现智能化。目前,这两种途径在效果上目前尚无明显差距。芯片服务商的发展与多样化创新,为AI手机行业持续提供前进动力。

  随着AI技术向更多行业渗透,手机凭借丰富的使用场景、日益强大的硬件基础和高频的人机互动成为了其天然的承载平台。与苹果、三星软硬一体的整体解决方案不同,如华为、小米、OPPO、vivo等中国手机品牌与技术提供商从研发环节合作,开发更适合手机场景的AI解决办法,共同打造人工智能手机,这其中不止体现出对技术提供商的认可与信任,也表明巨头愿意为技术买单的决心。中国人工智能技术提供商近些年来发展迅猛,备受行业和资本的注目,其中涌现出了如商汤科技、科大讯飞等具有国际水平的企业,其自身良性的发展也为人工智能技术商业落地奠定了基础。

  智能手机行业经过多年的“装备竞赛”已经将屏幕、摄像头、机身材料等组件的可提升空间压缩的很小,手机的发展达到瓶颈,需要引入人工智能技术来打破桎梏。而常规的智能手机虽然可以运行AI应用,但它们在流畅度和能耗方面不能满足用户更高层次的需求,所以打造一款被市场认可的AI手机,就成为了手机品牌商的诉求和下一轮竞逐的方向,巨头厂商在其中扮演了引领者的角色,从多方面推动AI手机落地。据预测,到2022年,搭载AI功能的智能型手机出货量占比,将从2017年的不到10%提升到80%,年销量将超13亿部。AI手机将是未来手机行业的产品方向。

  作为人工智能手机产业链中重要的组成部分,电信运营商迎合发展进行自我升级,是AI手机落地的一大助力。随着以手机为代表的终端应用的不断发展,通信网络需要面临两方面的重要变化:一是连接数量和流量规模的爆发式增长;二是终端用户对网络的容量、速率、时延、稳定、安全、规模等新能的差异化需求。伴随AI时代、物联网时代的到来,电信运营商作为内容承载和连接传输的重要组成部分,从基础上进行重构,引入SDN(软件定义网络)/NFV(网络功能虚拟化)、云计算、大数据、AI等新型信息通信技术,从网络层发力促进全行业发展。

  经过摸索,国内手机公司和技术提供方的合作模式已渐清晰。技术提供方围绕底层技术提供解决方案、针对机型做专门的AI功能优化,终端手机厂商则注重将更大的屏占比、更灵敏的传感器等硬件与更智慧的算法进行集成,与此同时,对未来IoT发展的商业预期使双方具备扎实的合作基础。在具体的技术合作上,依据手机厂商的需求,双方可以通过采购底层算法或是完整解决方案的形式合作,其中前者客户的相关算法自研团队更偏重集成,其对底层技术的研究也更多是出于集成调优、备用的考虑,而非发展成技术提供方的替代。技术提供方与头部厂商合作落地后,会将技术方案整合成半标准化SDK,基于一定程度的标准化进行定制合作,未来双方还将进行标准化、平台式合作,实现AI对手机的快速赋能,满足双方对提效降本的需求。

  技术提供方越来越广泛地为人工智能手机上的移动互联网应用进行AI赋能。典型体现AI赋能内容的是AR应用,AR技术中高视频帧率、强实时性、高清显示等特性对手机传感器、结构件、芯片的要求较高,主流人工智能手机能够支持。海外的谷歌ARCore、苹果ARKit、国内的商汤科技SenseAR、华为AR Engine等通过三维注册技术、虚实融合显示技术以及人机交互技术等实现的3D展示、人脸与肢体特效,满足移动互联网应用的新鲜玩法需求。以谷歌、商汤科技为代表的技术提供方与移动互联网厂商通过紧密的项目合作、战略合作乃至资本联结的方式建立起较为广泛的协同关系,AI技术与移动互联网的融合趋势渐强。未来技术提供方和手机厂商也可能联合建立生态联盟,共同向移动互联网厂商提供开放性技术平台,如商汤科技与OPPO合作的ARunit开发者平台,即为业内一次重要尝试。

  自AI芯片开始发力,行业内对AI手机生态入口的抢占已经来到手机算力的源头——基础层芯片。互联网巨头、手机厂商、人工智能公司纷纷与移动终端芯片展开合作,芯片级的预装合作对优化用户体验、抢滩生态地位都有重要意义,行业上下游共同定义前沿应用方向与人工智能软硬件架构成为常态:商汤科技等企业向高通等芯片公司提供多种预先训练的神经网络,以支持图像与摄像头特性;百度DuerOS对话式人工智能系统将在高通骁龙Aqstic软硬件上实现参考应用优化;vivo X21与高通基于人工智能引擎的合作实现更高效的AI应用,vivo NEX则向楼氏定制了专用人工智能语音芯片提升Jovi性能。

  同时,在人工智能手机移动应用层面,各类玩家则注重在上游应用开发者平台下功夫,以期获得AI手机乃至IoT的行业生态主导权,如华为HiAI、AR Engine及华为与百度PaddlePaddle共建合作生态,商汤科技的SenseAR平台,小米Mobile AICompute Engine(MACE)等,长远来看都有在行业标准上争取更强话语权的意味。

  今年过去还不足2/3,但AI企业融资总额已经接近之前三年的总和,这在金融业监管趋严、募资难、杠杆收紧的2018年,显然是资本市场产业投资人与财务投资人对AI持续看好的信号。前几年诞生的独角兽也已经陆续进入轮次偏后的C轮至战略融资,平均单笔融资额高,计算机视觉技术、智能语音、AI芯片、自动驾驶等仍是热门赛道。AI投资逻辑是通过技术提升生产端的效率,并由普罗大众成为体验提升的受益人与最终付费者,基础设施与软硬件何时成熟决定行业风口何时到来,而对赋能行业的布局决定谁能抢滩。已经进入技术、商业、平台混动发展的AI独角兽,需要对应用AI赋能落地条件相对成熟的行业进行布局,手机与移动互联网是触达用户的入口行业之一,具有较高战略地位。

  人脸解锁的出现解决了过去密码解锁和按压式指纹解锁需要手指操作、沾水情况下难以解锁等问题,无需触碰传感器和屏幕,解锁速度一般是几百毫秒,在操作和实时性上实现了无感化,特别是在大屏/全面屏手机的浪潮下,传统解锁方式需要移动虎口或手指,操作不便,也使人脸解锁的优势凸显出来。人脸解锁还可解决盗用照片、视频或利用面具解锁的问题,安全可靠。人脸解锁主要包括2D与3D两种技术方案,2D人脸识别是对于人脸的平面特征进行识别,目前该技术应用较广;而3D Sensing人脸识别是基于立体深度的面部特征进行识别,主要有结构光(包括编码结构光和散斑结构光)、TOF和立体视觉三类。相比而言,3D Sensing在已商用的识别方案中较为前沿,在识别速度、误识率和拒识率方面都略胜一筹。

  AR技术目前在手机中主要以美化人像的互娱应用为主,通过AR工具和渲染工具,将摄像头、GPS等传感器铺捉到的实物场景进行加工,呈现增强现实特效。伴随着AR技术与AI技术的结合,人脸识别、肢体识别等技术使AR场景产生动态效果,直播、短视频中被人们熟知的“手势控雨”等效果就是其应用的体现。随着3D结构光技术突破工业红线,如苹果、商汤科技等率先将3D结构光人脸识别,与AR相结合,推出如Animoji和SenseMoji等动态表情应用,极大地丰富了社交的互动性。

  在过去,智能语音助手已经能够为用户提供信息发送、日程提醒、天气查询等基本功能,目前通过广泛接入第三方应用和相关软硬件的升级,智能语音助手可以根据用户的语音/文本指令向联系人发微信、查找附近服务、查询路线、播放影音、翻译识别等,如同贴身管家一般。部分机型搭载的语音助手还凭借底层芯片能力和智能语音语义算法向“智慧2.0”进阶,已经可以实现在锁屏状态下唤醒语音助手,同时系统识别用户的声纹进行解锁,在对话体验上,语音助手的回复变得更自然诙谐,避免“我不懂这句话”一类的尬聊,在功能延深上,能实现如截屏、关机、撤回消息等底层操作,在交互上,支持根据上下文对话识别用户意图、根据用户喜好推荐服务,在深度命令上,可以实现一步到位的执行多个层级的复合命令,比如要求助手“打开支付宝付款码”,就可以直接展示付款码,而普通语音助手则需要一步一步展示回到桌面、打开支付宝、打开付款码。这些升级让语音助手能真正做到先理解再执行,使之更灵活更实用。

  人工智能手机系统支持通过学习用户操作习惯,利用AI自主进行功耗管理、内存管理等。平时手机监测应用的内存占用、运行情况,自动清理垃圾、修复系统,并使常用APP在后台低功耗运行,避免打开时加载过久,并关闭不常用APP;根据用户使用习惯进行标签式分类,提供定制化节电方案;用户在玩游戏时,设置后台通讯应用程序悬浮查看、通话悬浮窗接听等,并专属优化后台程序和网络条件、保证整体运行的流畅性,同时人工智能手机的底层芯片在游戏画面渲染、系统热稳定性等方面有良好表现,某些机型还可通过智能学习用户虎口形状避免误碰操作,这对于全面屏手机而言实用性尤强。虽然系统优化不会带给用户直接的感官体验,认知度低于语音助手、人脸解锁等热门功能,但由于对用户体验的提升明显,尤其对安卓用户“越用越灵敏”正是直击痛点,故用户需求度很高,在人工智能手机上必不可少。

  根据本次调研结果显示,中国AI手机用户在中外手机品牌选择中,84%的用户选择使用国产品牌,其中以华为、小米、OPPO、vivo等品牌最具代表性,在人工智能推动的新一轮变革中,国产手机品牌与国际巨头站在了同一起跑线;在功能方面,语音助手、人脸解锁、智能光线拍摄(如逆光拍摄)、智能美颜和智能识图是中国AI手机用户最经常使用的TOP 5 AI功能,结合中国消费者对视觉效果有偏好的需求特性,以计算机视觉为基础的图像处理类功能,成为行业探究方向。

  通过对中国手机用户一款手机的使用时长调查,发现手机使用半年到一年时想要换机的人群,大于往期换机人群,而使用一年半到两年半才换手机的人群小于往期换机人群,整体呈前倾趋势,中国手机用户的换机周期在缩短。虽然2017年全球手机销量出现下滑趋势,但市场仍保有活力。数据显示,58.4%的用户预计在2019年更换手机,这对于AI手机而言是又一利好,市场需求将为其发展提供充足的空间与动力。

免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186