恒耀平台

首页
恒耀平台能力

恒耀平台能力

坚持创新，持续探索，引领人工智能想象力

恒耀平台大脑

多模态大模型

核心技术

核心算法
恒耀平台产品

恒耀平台产品

恒耀平台为众多企业提供AI赋能的数字化产品及体验

大模型一体机

MetaLoop AI 开发平台

恒耀平台灵犀数据智能平台

恒耀平台边缘计算平台

恒耀平台列车巡检机器人

恒耀平台轨道巡检机器人

智能自主飞行负载系统
解决方案

AI 赋能产业数字化变革

深入行业场景，将核心技术与行业应用深度融合，构建领先的数字化解决方案，为企业的数字变革保驾护航

智慧金融

智慧金融解决方案

城市管理

车路协同解决方案

智慧交管解决方案

智慧商业

智慧加能站解决方案

智慧地产解决方案

轨交运维

恒耀平台列车智能运维解决方案

恒耀平台线路智能巡检解决方案

体育健康

智慧校园体育解决方案

元宇宙

空间型XR解决方案
客户案例

客户案例

以持续可信赖的服务，赋能企业智慧经营管理

智慧金融

城市管理

智慧商业

轨交运维

体育健康

元宇宙
资源中心

资源中心

关注AI科技最新动向，分享AI前瞻洞察与最佳实践

AI 知识库

视频中心

资料下载
Glint-MVT
关于我们

关于我们

赋能智慧管理，引导健康生活，推动可持续发展

关于我们

加入我们

新闻中心
投资者关系

投资者关系

致力于为股东创造更大价值

最新公告

定期报告

联系方式

赋能，让世界更美好

技术领先，不止于此

坚持创新，持续探索，引领人工智能想象力

深耕场景，核心技术全栈自研

深?理解行业典型场景和挑战，始终专注核心技术的?主创新与研发，发布面向多个场景的产品及解决?案，积累了可?持多场景应用的全栈技术能?，牵头或参与制定多项?业技术标准。

人机交互，以人为中心的视觉理解

在计算机视觉基础模型上进?步构建三维视觉模型，围绕以人为中心的需求和使用场景，进行语义级的理解和逻辑推理，模型在复杂的多对象分析的同时考量场景语义，并进行逻辑推理，以输出更富有意义的解释，更易于与自然语?处理等其他技术进行融合，打造更智能、自然的?机交互体验。

开放共享，开源数据集和训练模型

·Glint360k 人脸数据集
·PartialFC 大规模人脸识别训练算法
·NgeNet 底重叠点云配准算法
·EasyQuant 模型int8量化算法
·Unicom（ICLR23）视觉预训练模型
·ALIP（ICCV23）图?预训练模型
......

恒耀平台大脑

恒耀平台大脑作为公司核心技术的底层驱动平台，全面赋能公司产品及解决方案的技术实现，推动人工智能技术在各个领域的落地应用。
恒耀平台大脑可以支持数十亿训练数据、数亿类别任务、数十亿参数模型的训练，大幅提高算法模型的研发效率和自动化水平，为公司提供了有力的研发创新和业务场景应用支撑。

业务应用层

智慧金融

城市管理

智慧商业

轨交运维

体育健康

元宇宙

核心技术层

3D立体视觉技术

多目传感器标定与深度估计

人体姿态及动作分析

3D重建与立体视觉分析

大规？缇底纷偌际

人脸识别

百亿级人员聚集

以图搜图

机器人感知与控制技术

实时定位与建图

机械臂视觉反馈

路径规划与自主导航

沉浸式交互感知技术

行为识别技术

基于时序光点编码的RelD技术

道具动作识别与定位显示技术

自动化交通场景感知与事件识别技术

多精度目标检测与跟踪

多目标属性识别与对象关联

交通场景理解及事件监测识别

算法层

2D算法

人脸相关算法

预训练大模型

人体相关算法

视频分析算法

3D算法

人体3D算法

深度估计算法

多视角几何算法

点云算法

机器人相关算法

SLAM

环境感知

轨迹规划

机械臂规划与控制

基础设施层

多模态大模型

数据平台

数据采集
数据标注
数据预处理

训练平台

模型优选
模型训练
模型小型化

恒耀平台大脑

多模态大模型

恒耀平台自主研发的多模态大模型采用先进的弱监督学习技术，有效降低数据标注成本，其在少量样本学习中提升精确度，具备优秀的零样本泛化能力，便于模型快速启动。通过MetaLoop AI平台，用户可以轻松接入预训练模型，并利用自主学习方案快速微调模型以满足特定行业需求。

恒耀平台的多模态大模型已在金融、城市管理、轨交运维等领域实现应用，提高了算法准确性并缩短了开发周期，为行业智能化升级提供了强大动力。

智慧金融解决方案

城市管理解决方案

智慧商业解决方案

轨交运维解决方案

履职解决方案

云

金融大模型

城市治理大模型

商业大模型

轨交大模型

履职大模型

基础多模态大模型

数据处理

模型训练

模型评估

模型部署

AI 开发平台

边端

智能摄像机

可穿戴设备

智能盒子

边缘节点设备

机器人

核心技术

3D立体视觉技术

大规？缇底纷偌际

机器人感知与控制技术

沉浸式交互感知技术

自动化交通场景感知与事件识别技术

3D立体视觉技术

公司在3D立体视觉领域进行了深入的算法创新和应用实践，突破传统方法的局限，在复杂环境中实现精细化的三维建：头治，大幅提升算法在交通、体育等领域的适用性。

在体育运动场景中，运用双目相机的三维重建技术，结合人体动作学知识，实现了高精度的三维人体关键点检测，使运动姿态和动作分析更加精准。

在轨交运维场景中，依托独特的三维重建与匹配算法，将分散的车厢和部件图像信息整合重组，进行高效的列车零部件的识别、定位和质量检测，实现对故障和异物的精确诊断。

大规？缇底纷偌际

公司完全自主研发了国内领先的大规？缇低啡肆匙纷偌际，在人脸标准测试集上的准确率达99.1%。

在人脸识别算法方面，开源了多个行业标杆级的数据集和模型代码，如TrillionPairs和Glint360K两个人脸识别数据集以及PartialFC训练代码，加速推动该领域技术的进步。

在以图搜图引擎方面，支持多架构、不同计算设备上的图片检索功能，实现数十亿级图像秒级大规模匹配检索。针对海量图片检索场景，实现单机检索30亿人脸图片20秒内返回结果的性能，集群部署后可实现包含百亿人脸图片的分布式秒级检索。

机器人感知与控制技术

公司自主研发的机器人感知与控制技术，将实时高精度定位、场景三维建模、机械臂视觉反馈和自主规划导航技术进行有机结合，应用于轨交的列车、轨道运维等复杂场景。

自主研发的机器人相关核心算法实现了对机器人自身状态的准确估计、对环境中动态障碍物的实时感知，并进行快速安全的路径规划与跟踪控制，使机器人在复杂狭窄的轨交环境中，可实现1米/秒的高速自主运动，避开运营中的列车，完成轨道检测、设备维护等任务，大幅提升了机器人在复杂场景中的环境适应能力和运动自主性。

恒耀平台能力图_03.jpg

沉浸式交互感知技术

沉浸式交互感知技术是一种利用传感器和计算机视觉技术，实现人与虚拟环境自然交互的技术。

搭载公司自主研发的三维人体关键点识别、跟踪、定位算法，实现毫秒级的动作捕捉和实时画面反馈。支持大量用户同时进入虚拟环境，通过动作、语音等多模态交互，可以实时感知每个用户的意图和行为，实现自然的人机交互和虚拟协作。

结合自研双目立体摄像头捕捉用户的动作，实现精准的人体运动追踪和深度感知，为虚拟现实、增强现实和运动游戏等领域带来更真实、沉浸式的交互体验。

自动驾驶.jpg

自动化交通场景感知与事件识别技术

公司自主研发国内领先的自动化交通场景感知与事件识别技术，在车辆识别方面能够对多种类型车牌进行高精度多角度识别，支持45°内倾斜车牌，准确率超过98%，车辆及人体属性识别准确率达95%以上。

在交通事件识别方面，通过自适应交通场景理解和车辆重识别技术，实现对交通视频的无需人工标注的自动化分析，可准确识别闯红灯、不按导向行驶等11类典型违法事件，并自动定位车辆位置，进行风险预警和自动化违法审核，实现交通场景的智能化监测与管理。

沉浸式.jpg

核心算法

自主研发大量人工智能领域核心算法，多次在国内外竞赛中名列前茅

2D算法

3D算法

机器人相关算法

人脸相关算法

人体相关算法

预训练大模型

视频分析算法

_0005_人脸识别.jpg

人脸识别

人脸识别（Face Recognition）通过人脸检测、关键点定位、人脸矫正和特征提。匀肆辰芯嫉谋榷院图焖。恒耀平台在千万张人脸的大规模底库下，Top1准确率超过99%；在：、过曝、带口罩等困难场景下，万分之一误识率下，识别率大于95%。

曾在NIST举办国际性人脸识别测试FRVT中获得综合第一名，在公安部治安局举办的亿级人像算法评测获得第一名。恒耀平台向学术界开源了TrillionPairs和Glint360K两个人脸识别数据集，开源了PartialFC训练算法，推动学术界进展。

_0004_人脸聚类.jpg

人脸聚类

人脸聚类（Face Cluster）是利用人脸识别特征通过聚类技术进行人员聚档。结构化后的人脸特征和历史特征进行查询和比对，通过聚类技术把人脸图片聚档。人脸聚类可以在很大的时空范围内进行人脸的聚类分析，在安防和商超场景中应用广泛，具体的像行动轨迹、停留时间、人和物的关系分析、人员置信、安防管控、人物画像统计等。

通过恒耀平台自主研发的局部特征融合模型和多级时空网络聚类算法，在千万级ID的大规模人脸聚类中纯度能达到99%以上，散度低于1.2，召回达到95%以上。在戴口罩、夜晚、大角度等困难场景中也达到很好的聚类效果。

人体检测.jpg

人体检测

人体检测（Human detection）基于深度学习检测图像中的所有人体，并返回图像中人体坐标值以及置信度。恒耀平台拥有丰富姿态的海量数据库，不仅包含常见站立行走以及少有的坐、蹲、躺等特殊姿态，还拥有丰富场景数据，包括中远距离俯拍和不同角度平拍视角，在密集行人检测crowdhuman benchmark上达到SOTA，根据不同场景中调用不同的模型，结果更加准确可靠。

人体姿态估计

人体姿态估计（Human Pose Estimation）是基于人体检测后的图像检测人体的2Dpose。恒耀平台基于精度更高的Top-down方法，在网络中采用多层特征融合方式聚合多尺度特征，在编码解码过程中都优化了量化误差，使其在关键点预测中能达到更高的精度。

同时恒耀平台拥有丰富的人体2D姿态数据，包括篮球、跳绳、引体向上、仰卧起坐、银行场景等，在AI体育、银行等场景的业务中都获得了成功的应用。

行人 ReID

行人重识别（Person Re-identification）也称行人再识别（简称：ReID），是利用计算机视觉判断图像或者视频序列中是否存在特定行人的技术。

ReID有一个非常重要的特性就是能够根据输入的特定行人图片，检索跨摄像头、跨视频序列下的目标行人，目前恒耀平台在换衣、遮挡、低分辨率、姿态和视角变化等方向都有研究，在公开数据集Market1501、DukeMTMC、Occluded-Duke上达到SOTA，在城市管理场景中，万分之一误识率下的召回率达到98.14%。

行为识别

行为识别（Action Recognition）是从视频剪辑（2D帧序列）中识别不同动作的技术。在金融安全、城市管理、文娱训练等场景中，基于时空信息端到端行为识别算法能实时解析视频流推理出异常行为，比如：人员摔倒、拉扯打架、损坏公物、攀爬等。

基于骨骼动作特征的行为识别能够识别行为动作或者流程是否符合标准，行为识别算法已在实际项目中进行落地迭代，推动视频分类和表示学习的发展。

预训练大模型

预训练大模型技术通过在大规模数据集上进行模型预训练，获得具有通用泛化能力的预训练模型，然后在下游任务上利用预训练的模型进行微调，来提高下游任务的精度。

基于此，恒耀平台提出了高效的预训练框架，在大规模的数据上训练出一系列不同规模的预训练大模型，并在银行、高铁、安防场景下的业务中获得成功应用。恒耀平台还将自研预训练大模型应用于Kaggle地标识别竞赛，并荣获金牌。

_0003_视频分析算法.jpg

视频分析算法

通过优化各种算子，实现了在千万级视频数据下高效的视频预训练。将视频预训练模型与Linear probe、Adaptor tuning、Finetuning等技术结合，可以将海量数据下预训练模型学到的知识迁移到行为分析、目标跟踪等多种下游任务，显著提高业务性能并大幅缩短研发周期。

预训练模型能够学习到丰富的视觉表示，经过适当的微调后，可以快速适配到具体的下游任务，实现知识的有效迁移，减少人工特征工程，降低训练样本需求。

人体3D算法

多视角几何算法

深度估计算法

点云算法

单目3D姿态估计

单目3D人体姿态估计(Monocular 3D Human Pose Estimation)是根据单个RGB相机检测人体3DPose，可广泛应用于个人健身、学校体育训练等场景。

目前恒耀平台构建了包含各种运动的大规模3D人体姿态数据集，如篮球、排球、乒乓球、瑜伽、舞蹈、武术、跳绳、仰卧起坐、单双杠等。未来我们将继续丰富姿态数据规：统【，以提升单目3D姿态估计的鲁棒性和泛化能力。

多目3D姿态估计

多目3D姿态估计(Multiple Cameras Multiple People 3D Human Pose Estimation)是指利用多相机同步采集覆盖一个区域（如篮球场、足球。┑耐枷，实时重建和跟踪场内所有人员的三维姿态。

目前恒耀平台多目3D姿态估计技术已成功应用于篮球场景(对场上球员进行实时姿态分析)和大规模人机交互解决方案。

_0002_单目3D表面重建.jpg

单目3D表面重建

单目人体3D表面重建（Monocular Human Mesh Reconstruction)技术是基于单张RGB图像预测10个表示人体高矮胖瘦信息的shape参数和24个控制人体pose的关节旋转参数，其中每个关节点旋转参数采用三维向量来表示该关节相对其父关节分别沿着 x, y, z 轴的旋转角，并基于预定义人体 template mesh可以通过shape和pose参数预测人体表面密集点（6890个）的三维坐标。

该技术可以用于基于视觉的人体动作捕捉，驱动虚拟人物做出与真人完全匹配的动作，也可以应用在体育等需要进行人体关节角度估计的应用场景。

_0001_2D多视图输入的3D重建.jpg

2D多视图输入的3D重建

基于RGB多视图三维重建技术，是一种计算机视觉方法，通过从多个视角拍摄的RGB图像来还原场景的三维结构。SFM（Structure From Motion）通过计算相机的运动轨迹和场景中的三维点云，还原场景的几何结构和外观信息。

SFM技术的主要步骤包括特征提取、特征匹配、相机姿态估计、三维点云重建和优化等。SFM技术的优势在于它能够从无序的图像集合中恢复出场景的三维结构，而无需额外的深度传感器或特殊设备。基于RGB多视图三维重建的SFM技术在许多领域有着广泛的应用，包括虚拟现实、增强现实、三维建模、文化遗产保护、室内导航和自动驾驶等。

激光点云多视图输入的3D重建

基于激光雷达等多传感器融合、SLAM等技术能够快速重建厘米级精度的点云，能够在一个小时能完成对电厂、高铁动车所、工厂、园区等环境的三维重建，配合不同载具也可进行空天地、室内外一体化建图，并且能够与主流设计软件（3DS Max、Revit、AutoCAD）打通，方便设计师快速生成厘米级、部件化的标准数字孪生模型，并供Unity、Unreal、WebGL使用。

另外生成的模型还可服务于物联网设备的管理、机器人定位、园区自动驾驶、面向C端室内外精细化导航、办公环境招商、承载元宇宙容器等功能。

_0000_多模态输入的3D重建.jpg

多模态输入的3D重建

基于RGBD多模态三维重建技术，结合了RGB图像和深度图像的信息，能够更准确地还原场景的几何结构。该技术主要步骤包括建立TSDF（Truncated Signed Distance Function）体素网格，利用Marching Cubes算法进行表面提。谕加呕惴ǘ灾亟ń杏呕。

目前该技术方案成功应用于高铁转向架模型重建等任务，可以获得高精度的3D重建模型并应用于故障诊断分析。

双目深度估计

双目立体匹配（stereo matching）是基于标定好的双目相机计算出深度值，是双目相机产品的重要基础技术。首先进行匹配代价计算，获取左右视图的相似度度量张量，然后进行代价聚合计算视差（disparity），并通过一些正则项对视差进行优化，再通过几何关系计算出深度图。

恒耀平台在匹配代价和代价聚合阶段采用卷积神经网络提取特征，并通过循环神经网络融合多帧之间的时序关系，将立体匹配技术在嵌入式芯片上做到了实时，同时通过实际数据与虚拟数据相结合的方式提升了算法的泛化能力，使其在各个业务场景中都有较好的表现。

单目深度估计

单目深度估计是指通过一张单目图像预测场景中每个像素点的深度或距离信息，通过单目深度估计获得精确的场景深度，还原场景的三维结构。

单目深度估计采用卷积神经网络的编码器-解码器结构实现端到端的深度估计，再将深度反投影回3D空间（如体素空间）输入到后处理网络中进行细化。

目前该技术在计算机视觉和机器人领域有广泛的应用，包括三维重建、虚实融合、自动驾驶、增强现实等。

点云配准

点云配准即求解两个具有重叠区域的点云之间的旋转平移变换，使得两个点云的坐标处于同一坐标系下。

相较于传统点云配准算法icp(iterative closest point)，恒耀平台提出基于深度学习的点云配准技术，发表论文Leveraging Inlier Correspondences Proportion for Point Cloud Registration，基于点云几何结构和多层特征投票机制提升正确匹配点云比例，从而提升点云配准精度，在学术数据集3DMatch、3DLoMatch、KITTI、MVP-RG等数据集均取得sota结果。

在真实业务测试集上旋转向量误差小于1度、平移向量误差小于0.3mm，该技术为产品落地起到了至关重要的作用。点云配准在无人驾驶、三维重建等领域具有广泛的应用。

SLAM

SLAM(Simultaneous Localization and Mapping)即实时定位与建图，使用相机、激光雷达、IMU等传感器的感知信息来计算图像（视觉）或点云（激光）的帧间位姿关系，进而实现移动机器人在未知场景下的建图与定位。

SLAM技术已经广泛应用于自动驾驶、室内导航、三维重建等领域，在高铁检修场景下，基于激光雷达以及IMU的激光SLAM方案可快速地为检修车间、列车底部坑道、转向架建立高质量的三维点云地图，为搭载了机械臂和深度相机的移动机器人提供机械臂碰撞模型以及准确的里程计定位信息，并通过停车点的全局里程计校正来解决长距离、退化场景下里程计累计误差增大的问题，使机器人能在列车底部自主运动并控制机械臂完成任意项点的数据采集任务。

机械臂规划与控制

机械臂规划与控制算法在非结构化环境中控制机械臂快速进行避障路径规划，到达指定的目标位置完成相应任务。

传统路径规划算法在多自由度机械臂上存在建模难度高、搜索效率低等问题，恒耀平台结合深度强化学习技术，针对避障任务设计了强化学习奖励函数，实现多轴机械臂避障任务，且规划时间更少、路径更短。目前，恒耀平台已将该技术成功应用于轨交运维的机器人产品中。

环境感知

环境感知算法指通过使用固态激光与摄像头等传感器，实时感知机器人周围的环境信息。这些传感器可以帮助机器人获取关于障碍物、地形、距离等方面的数据，以便机器人能够正确地理解和适应其周围的环境。

在高铁巡检中，恒耀平台结合SLAM技术、3D点云、2D图像联合识别与分割以及点云的处理技术，实时完成对周围环境的碰撞损失地图构建以及高铁的位置感知，用来辅助机器人避障、机械臂规划控制以及确定高铁的巡检检测位置。

轨迹规划

轨迹规划算法为机器人生成最优巡检路径。通过综合考虑机器人的当前位置、目标位置、环境信息以及其他约束条件，计算出最佳的巡检顺序和？康。

在高铁巡检场景中，机器人能够实时感知高铁及障碍物信息，并自动调整路径规避障碍，保证巡检任务的高效完成。通过视觉与路径优化技术的有效结合，实现了自动化、智能化的巡检流程，避免了传统人工作业的低效率与不确定性。

发挥创造力，共赴AI向深向广

即刻开启企业AI之旅

预约咨询
企业微信

该信息仅用于恒耀平台与您沟通以及了解您的业务需求，如您不同意提供个人信息，请关闭本表单页面。

*联系人：

*联系电话：

*联系邮箱：

*获取验证码：

点击获取验证码

立即提交

提交成功

感谢提交，近期将有恒耀平台工作人员与您取得联系，请您保持电话畅通。

资料下载

*姓名：

*手机号：

*邮箱：

*获取验证码：

点击获取验证码

*公司名称：

*职位：

*您是否有其他具体的业务需求？

是，请尽快与我取得联系

否，暂时无其他需求

立即下载

【网站地图】【sitemap】