清华立异架构芯片量产!全球首款可重构超低功
来源:少年网 发表于2019-07-04 05:45:16 编辑:李连杰
摘要: 亮点:揭秘首款CGRA架构语音AI芯片的功用参数,和它背面的技能暗码。 智东西6月27日音讯,最近,脱胎于清华大学微电子所Thinker团队的AI芯片创企清微智能

   亮点:揭秘首款CGRA架构语音AI芯片的功用参数,和它背面的技能暗码。

   智东西6月27日音讯,最近,脱胎于清华大学微电子所Thinker团队的AI芯片创企清微智能迎来新进展:

   全球首款可重构超低功耗语音人工智能芯片TX210已完结规划化量产,于6月中旬正式交给商场,而此刻清微智能距树立还不到1年。

   这是一款语音SoC芯片,针对手机、可穿戴设备、等多种运用场景的智能终端产品开发,作业功耗不超越2mW,语音活动检测功耗小于100uW,延时不到10ms。

   清微智能,拆开来,便是清华、微电子、人工智能,也就代表了这家公司的定位——专心可重构核算芯片,供给以端侧为根底,并向云侧延伸的芯片产品及解决计划。

   其中心技能团队来自清学研讨所,其芯片所选用的架构正是我国芯片技能学术领军者——我国半导体职业协会IC规划分会理事长、清华大学微电子所所长魏少军教授所带领研制的可重构核算架构。

   今天,智东西来到清微智能的办公室,和创始人兼CEO王博深化沟通,看这家身世“名门”、行将满1周岁的AI芯片新秀,怎样带着清华大学前沿的立异架构踏入工业的大门,怎样快速在逐步炽热的AI芯片商场站稳脚跟。

   谋定而后动,脱胎清华微电子系

   清微智能树立于2019年7月,其技能脱胎于清华大学微电子学Thinker团队。

   现在的芯片工业,放眼望去,不计其数的国内外半导体企业高管从清华大学电子工程系和微电子所走出。

   而微电子所的魂灵人物——现任清华大学微电子研讨所所长、我国半导体职业协会IC规划分会理事长魏少军教授,在曩昔的十几年间一向深耕于一项中心技能——“软件界说芯片”,即可重构核算芯片技能。

   意识到可重构核算架构关于芯片算力进步和功耗下降的巨大优势,2019年,魏少军教授牵头树立了清华大学可重构核算研讨团队,而这支团队后来成为清微智能的中心。

   2019年,AI复兴,对芯片运算才干产生了远高于传统芯片的要求,这个时分,沉寂了9年的可重构核算因其与AI算法符合的特性,开端从头进入“聚光灯下”。

   自2019年起,依据可重构核算架构,魏少军教授团队中的清华大学微纳电子系副系主任尹首一副教授带队规划研制了4款Thinker系列的低功耗终端AI芯片,分别是试验性质的验证芯片Thinker I、人脸辨认芯片Thinker II、语音辨认芯片Thinker S、语音辨认芯片Thinker IM。

   这三款芯片的规划计划一问世,就收成了世界学术界的认可。比方Thinker-I初次呈现在2019VLSI世界研讨会上时,外界点评它“突破了神经网络核算和访存瓶颈,完结了高能效多模态混合神经网络核算。”

   而清微智能CEO王博的本科和硕士均在北京邮电大学核算机专业就读,他与清华大学Thinker团队的相识,却来自一段同学缘分。

   彼时,王博还在一家云核算计划供给商作业,担任智能硬件产品,他在做一款人脸辨认智能门锁时,想要找到适宜的芯片,却发现市面上的高通等公司无法满意他们对能耗比等功用的需求。

   尹首一副教授的大学同学是王博的高中同学,两人因而结识。

   王博得知尹首一副教授在带领Thinker团队做AI芯片,看到其芯片规划计划具有超卓的能耗比,再通过深化了解他们所规划的可重构核算架构的技能,王博对这一架构的扩展性感到认可,觉得这条道路是可行的。

   预测到AIoT商场将步入全面迸发期后,2019年7月,王博牵头在北京树立了清微智能公司,将技能产品化,由王博任CEO,尹首一副教授为首席科学家,欧阳任CTO和Thinker芯片主架构师。

  

   Thinker团队原本就分为两部分,一部分是尹首一副教授带领一些博士生从事整个架构的规划和优化作业,另一部分是清华以社招办法招进来的专门担任芯片完结的工程师。

   清微智能的初始技能团队首要来自Thinker团队中担任完结芯片的工程师们,约一二十人,现在其团队数量已扩展到70多人。团队成员来自清华大学、NVIDIA、Sony等闻名高校和企业,在半导体职业具有多年经历。

   上一年第三季度,清微智能拿到百度战投领投的近亿元天使轮融资,由百度战投、分众传媒、禧筠本钱、国隆本钱、西子联合控股等联合出资,而新一轮融资计划也将于近期发动。

   而清微智能在树立缺乏一年的时刻,就交出了TX210语音芯片百万数量级的量产,图画芯片也将于本年12月量产,这一成果,源自清华大学十多年厚实的技能堆集、200多项技能专利。

   软件界说芯片:可重构核算芯片架构

   在本年的全球AI芯片峰会GTIC 2019上,魏少军教授曾展现这样一张PPT。他将芯片分红三部分:榜首部分是可更多编程的,如CPU;第二部分是能少量编程的,如GPU;第三部分是不能编程的,如专用芯片。

   除了可编程性,这些不同核算架构的首要不同在于能效。专用芯片到GPU之间有1000倍的能效距离,而1000倍是一个很重要的分界线。

   魏少军教授表明,假如咱们的AI芯片做不到比GPU高1000倍的能效,就不能满意人们在终端侧的需求。

   传统的终端AI芯片,首要依据CPU、DSP、GPU、NPU等架构,这些架构实质归于指令驱动的核算形式,归于冯·架构。

   这些架构在详细核算进程中,面向某一特定范畴,往往存在高能效和灵敏性不行兼得的问题,比方旗舰手机中强壮的麒麟芯片,就不适用于安防摄像头、智能家居等场景。

   它们需求从指令存储器中加载指令并解析指令,然后辅导履行单元进行核算。在数据核算中,这是一种灵敏可是低效的时域核算形式。

   此外,在AI芯片的研制进程中,也有团队运用单指令流多数据流的办法来进步数据复用,然后削减指令解析,可是SIMD面向的是同构的操作,当指令功用改换时,仍需求重复前面的进程。

   为了兼具高能效和可编程性,清华大学Thinker团队致力于研讨的是一种无需指令驱动的核算形式,即动态可重构核算架构,也便是上图赤色区域。

   它是一种非冯·诺依曼架构,简略而言,便是将软件通过不同的管道输送到硬件中来履行功用,使得芯片可以实时地依据软件/产品的需求改动功用,完结愈加灵敏的芯片规划。

   传统的芯片需求让运用来习惯架构,而CGRA架构愈加灵敏,可以依据数据流的特色,让软件来调整芯片的核算才干,在最合理分配和运用算力的一起,成倍节省了数据存储和传输带宽。

   王博介绍说,CGRA架构合适AI、编解码、语音处理等核算密集型场景,但不适用于以逻辑判别为主的非核算密集型场景。

   CGRA依据数据流图,面向的是异构的空域核算,一次装备构成固定的电路结构,然后以挨近ASIC功率重复履行,资源运用率和数据复用率高。

   一起,比较专用集成电路办法的固定电路结构,它又可以依据运用或许算法进行电路装备,使得硬件从头构成不同的核算电路结构,具有十分强的灵敏性。

   ▲“指令驱动”的时域核算形式 v.s. “数据驱动、动态重构”的空间核算形式

   以这个更低能耗和更强灵敏性的架构为根底,清微智能CTO欧阳鹏泄漏,清微智能在详细的芯片规划上,又做了两方面深化。

   1、支撑混合精度核算

   干流神经网络算法具有混合数据精度表明的特色,即不同的神经网络层可用不同数据位宽来表达中心数据或许权重数据的精度。

   但是,传统AI架构无法高效支撑混合精度核算,一般只能支撑单一精度核算,或许只能通过扩展资源办法支撑少量几种精度。

   相较而言,清微AI芯片产品能支撑从1bit-16bit的混合精度核算,一起,不同的神经网络层可以选用不同的精度表明,可以实时切换精度。

   这源自CGRA架构的特色,在详细完结进程中,可重构形式动态重组核算资源和带宽,依据精度表明,让核算资源和带宽挨近满负荷进行核算,然后将混合精度网络下的核算资源和带宽的运用率迫临极限,高效支撑多种混合精度的神经网络。

   2、优化非神经网络核算功率

   AI算法不止有神经网络中卷积层、全衔接层等逻辑,还有非神经网络核算逻辑。

   比方在人脸检测和辨认中,有NMS以及仿射改换;在语音辨认中,有FBANK/MFCC特征提取以及声学解码等。

   而与此一起,非神经网络算法也在快速演进。比方最新NMS现已演化到Soft-NMS。

   传统AI芯片架构强调了神经网络逻辑的核算功率,却忽视了非神经网络逻辑的核算功率。

   针对非神经网络逻辑,一般依然选用CPU或许DSP进行处理,或许选用ASIC进行固化。

   清微AI芯片产品针对神经网络部分和非神经网络部分均进行了核算功率考虑。

   针对非神经网络处理逻辑,从算法数据流图进行空间映射,以挨近ASIC功率核算。

   一起,其产品通过装备构成不同的电路结构来动态处理不同非神经网络核算逻辑,在确保灵敏性条件下,核算功率有极大进步。

   首款语音AI芯片量产,超强能效比

   依据立异的CGRA架构,清微智能榜首款完结规划化量产的语音AI芯片TX210具有抢先的算力、能耗比、时延、面积和本钱。

   据介绍,TX210选用台积电40nm ULP工艺,支撑WLCSP和QFN两种产品封装。

   该芯片支撑离线语音唤醒功用,支撑5个唤醒词和10个指令词,还支撑声纹辨认。它支撑3-5m的远场语音唤醒和辨认,作业频率为50MHz,推迟不到10ms。

   承继CGRA架构的特色,TX210芯片可编程、可重构,在结构上有着极强的灵敏性,支撑多比特DNN神经网络,可以支撑1-16bit位宽的神经网络核算,也支撑FFT/MEL FILTER等。

   因为语音AI芯片的运用场景十分丰厚,可以运用至智能手机、可穿戴智能设备、小、咱们电、玩具及车载等许多场景中,而低能耗又是从终端设备到用户都十分重视的功用。

   对此,TX210针对语音交互场景做了更多优化。

   比方为了保持在低功耗状况,它选用多级功耗唤醒形式,只要在通过麦克风检测到人声时,它才会被激活,精确监听到“唤醒词”后,TX210才会去唤醒处于休眠状况的主控处理器芯片。

   别的,芯片支撑一语直达功用,处理器只需求处理唤醒词之后的语音信号内容。

   通过多重优化,TX210将作业功耗控制在2mW内,将语音活动检测功耗降至100uW内。

   该语音AI芯片的另一个特色是用极小的芯片面积支撑丰厚的接口和电源办理。

   TX210的WLCSP封装面积仅有2.3 x 1.9mm2,适用于手机,蓝牙耳机等对体积要求严苛的运用场景;一起TX210集成了LDO/ADC/BANDGAP/PGA等模仿器材,支撑32K crystal输入,极大下降了用户的运用本钱。

   除此之外,在降噪方面,TX210也做了进一步优化,单麦依据深度学习进行降噪,双麦则是将传统算法与深度学习相结合,在典型信噪比下,TX210的唤醒辨认率达95%,误辨认率小于24小时一次。

   据介绍,在TX210正式上市前,清微智能已与一些大型的公司、智能手机及家电厂商树立了协作关系。

   而这仅仅清微智能依据CGRA架构芯片的开端,他们的视觉芯片估计将在本年12月量产。

   王博告知智东西,现在他们规划CGRA架构18个月一迭代,下一代架构有望将算力再进步5-10倍。跟着Thinker团队继续迭代更新CGRA架构,未来其语音芯片和视觉芯片的算力和能效比都将进一步进步。

   在算法方面,清微智能在在算法紧缩,量化以及硬件友爱化规划方面有长时间的堆集,并与中科院、清华大学、乔治理工大学等展开了深化协作。

   清微智能还研制了一套CGRA软件开发渠道,这个渠道兼容TensorFlow、Caffe等干流AI结构,可主动完结转化、解析、编译、生成等进程。他们自己的编译渠道,答应用户从其它结构无缝搬迁清微智能的芯片。

   清微智能挑选先切入终端AI芯片商场,这与当下的大环境不无相关。

   上一年,智能终端产品呈井喷式开展,智能音箱在2019年第四季度的出货量增长了95%。日前,工信部电子委副主任莫玮曾表明:“我国已成为全球最大的智能终端出产和消费国。”

   但业界普遍以为,终端智能的浸透率尚缺乏1%。这意味着,智能终端商场规划远未到达预期,也意味着终端AI芯片商场的巨大潜力。

   依据CGRA架构研制芯片的不止清微智能一家,创企Wave Computing选用这一架构的第二代DPU芯片估计将在下一年问世,是一款7nm云端AI芯片。

   至于清微智能是否有进军云端AI芯片的计划,王博表明,Thinker团队之前曾做出过成功的云端芯片,考虑到公司规划和投入阶段问题,他们想先在端侧验证架构的表现是超卓的,等下一阶段有了满意堆集,再去做云端芯片。

   立异架构是AI芯片开展的要害

   现在AI芯片工业化还在起步阶段,从算法到算力,能耗比刚刚能满意用户根底的需求。

   因为AI核算需求很大算力,但传统的冯·诺依曼架构在核算密集型使命方面遇到了瓶颈,芯片规划底层架构的立异成为未来继续开展要害,王博以为,这也是许多AI创业公司会集呈现的原因,咱们都在同一起跑线上。

   即使选用同一类架构,如CGRA,规划思路在实质上不会有太多不同,但每个处理元素中怎样规划、让它完结怎样的功用、处理元素之间怎样衔接更高效……这些细节的规划与立异会决议各家芯片的差异。

   除了架构立异,工艺、近阈值的技能等办法的进化也很重要,他们能在先进架构的根底上进一步进步芯片的功用。

   王博也谈到,做芯片的实质上仍是要独立流片以及树立一个完好的生态系统,而不是把各种功用的IP堆在一起就行。做好芯片的条件,是要具有很多的芯片职业堆集。

   芯片还需面对越来越多的场景去界说立异,才干将前期费用分摊下去,才干盈余,假如没有几千万的场景去支撑,做芯片的含义就不存在了。

   关于终端智能而言,上传云端的稳定性、延时、隐私、布置本钱等问题仍亟待解决,行将呈现的5G将使得更多设备可以联网互通,使得这些设备对终端智能的要求愈加清晰和丰厚。

   结语:终端AI芯片落地新战在即

   从清微智能身上,咱们看到愈加新颖的一种芯片团队组合,他们不只具有来自学术大牛带队研制的前沿立异架构,还具有工业经历丰厚的工程师们。两强结合之下,清微智能既具有高功用+极低功耗的芯片,又能快速推动产品完结变现。

   近一两年,一批新玩家涌入终端AI芯片商场,但撇除那些为了完结笔直化整合或优化本身全体计划的AI算法公司、设备供货商等跨界玩家,商场时机逐步聚拢在少量具有立异架构的玩家身上。

   终端AI芯片的落地之战才刚刚开端,技能途径、掩盖场景、落地速度、生态扩张等要素都有可能将这些玩家摆开距离,商场将查验出谁是能打持久战的企业。

  本文首发于微信大众号:智东西。文章内容属作者个人观点,不代表和讯网态度。出资者据此操作,危险请自担。

注册即送
投稿邮箱:
相关推荐
闵子骞孝行的文学撒播
闵子骞孝行的文学撒播

编者按 本期刊布的宿州学院陈国龙教授和鄢化志教授的论文经过对闵子骞孝行

注册即送2019-07-03 10:27:09

《楚辞》草木训诂文献的本草学价值
《楚辞》草木训诂文献的本草学价值

作者:罗建新 所涉草木尤多,举凡江蓠、芙蓉、杜若、薜荔、木兰、白薠、留

注册即送2019-07-02 14:55:08

2019羽毛球世青赛单项夺冠 四位新冠军自评生长
2019羽毛球世青赛单项夺冠 四位新冠军自评生长

上一年羽毛球世青赛,中国队仅夺得集体冠军,但在五个单项赛中未能染金。本

注册即送2019-07-02 14:54:58