恒耀平台

  • pbanbg.jpg
    icon-ai.png
    赋能,让世界更美好
    技术领先,不止于此
    坚持创新,持续探索,引领人工智能想象力
    gn-hov1.png
    深耕场景,核心技术全栈自研
    深?理解行业典型场景和挑战,始终专注核心技术的?主创新与研发,发布面向多个场景的产品及解决?案,积累了可?持多场景应用的全栈技术能?,牵头或参与制定多项?业技术标准。
    gn-hov1.png
    人机交互,以人为中心的视觉理解
    在计算机视觉基础模型上进?步构建三维视觉模型,围绕以人为中心的需求和使用场景,进行语义级的理解和逻辑推理,模型在复杂的多对象分析的同时考量场景语义,并进行逻辑推理,以输出更富有意义的解释,更易于与自然语?处理等其他技术进行融合,打造更智能、自然的?机交互体验。
    gn-hov1.png
    开放共享,开源数据集和训练模型
    ·Glint360k 人脸数据集
    ·PartialFC 大规模人脸识别训练算法
    ·NgeNet 底重叠点云配准算法
    ·EasyQuant 模型int8量化算法
    ·Unicom(ICLR23)视觉预训练模型
    ·ALIP(ICCV23)图?预训练模型
    ......
    gn-hov1.png gn-hov1.png gn-hov1.png
    恒耀平台大脑
    恒耀平台大脑作为公司核心技术的底层驱动平台,全面赋能公司产品及解决方案的技术实现,推动人工智能技术在各个领域的落地应用。
    恒耀平台大脑可以支持数十亿训练数据、数亿类别任务、数十亿参数模型的训练,大幅提高算法模型的研发效率和自动化水平,为公司提供了有力的研发创新和业务场景应用支撑。
    业务应用层
    智慧金融
    城市管理
    智慧商业
    轨交运维
    体育健康
    元宇宙
    核心技术层
    3D立体视觉技术
    多目传感器标定与深度估计
    人体姿态及动作分析
    3D重建与立体视觉分析
    大规?缇底纷偌际
    人脸识别
    百亿级人员聚集
    以图搜图
    机器人感知与控制技术
    实时定位与建图
    机械臂视觉反馈
    路径规划与自主导航
    沉浸式交互感知技术
    行为识别技术
    基于时序光点编码的RelD技术
    道具动作识别与定位显示技术
    自动化交通场景感知与事件识别技术
    多精度目标检测与跟踪
    多目标属性识别与对象关联
    交通场景理解及事件监测识别
    算法层
    2D算法
    人脸相关算法
    预训练大模型
    人体相关算法
    视频分析算法
    3D算法
    人体3D算法
    深度估计算法
    多视角几何算法
    点云算法
    机器人相关算法
    SLAM
    环境感知
    轨迹规划
    机械臂规划与控制
    基础设施层
    多模态大模型
    数据平台
    数据采集
    数据标注
    数据预处理
    训练平台
    模型优选
    模型训练
    模型小型化
    恒耀平台大脑
    多模态大模型

    恒耀平台自主研发的多模态大模型采用先进的弱监督学习技术,有效降低数据标注成本,其在少量样本学习中提升精确度,具备优秀的零样本泛化能力,便于模型快速启动。通过MetaLoop AI平台,用户可以轻松接入预训练模型,并利用自主学习方案快速微调模型以满足特定行业需求。

    恒耀平台的多模态大模型已在金融、城市管理、轨交运维等领域实现应用,提高了算法准确性并缩短了开发周期,为行业智能化升级提供了强大动力。


    智慧金融解决方案
    城市管理解决方案
    icon.png
    智慧商业解决方案
    轨交运维解决方案
    履职解决方案
    金融大模型
    城市治理大模型
    商业大模型
    轨交大模型
    履职大模型
    基础多模态大模型
    数据处理
    模型训练
    模型评估
    模型部署
    AI 开发平台
    边端
    智能摄像机
    可穿戴设备
    智能盒子
    边缘节点设备
    gnp5.png
    机器人
    核心技术
    hx-icon10.png hx-icon11.png
    3D立体视觉技术
    hx-icon20.png hx-icon21.png
    大规?缇底纷偌际
    hx-icon30.png hx-icon31.png
    机器人感知与控制技术
    hx-icon40.png hx-icon41.png
    沉浸式交互感知技术
    hx-icon50.png hx-icon51.png
    自动化交通场景感知与事件识别技术
    3D立体视觉技术
    公司在3D立体视觉领域进行了深入的算法创新和应用实践,突破传统方法的局限,在复杂环境中实现精细化的三维建:头治,大幅提升算法在交通、体育等领域的适用性。

    在体育运动场景中,运用双目相机的三维重建技术,结合人体动作学知识,实现了高精度的三维人体关键点检测,使运动姿态和动作分析更加精准。

    在轨交运维场景中,依托独特的三维重建与匹配算法,将分散的车厢和部件图像信息整合重组,进行高效的列车零部件的识别、定位和质量检测,实现对故障和异物的精确诊断。
    a2.jpg
    大规?缇底纷偌际
    公司完全自主研发了国内领先的大规模跨镜头人脸追踪技术,在人脸标准测试集上的准确率达99.1%。

    在人脸识别算法方面,开源了多个行业标杆级的数据集和模型代码,如TrillionPairs和Glint360K两个人脸识别数据集以及PartialFC训练代码,加速推动该领域技术的进步。

    在以图搜图引擎方面,支持多架构、不同计算设备上的图片检索功能,实现数十亿级图像秒级大规模匹配检索。针对海量图片检索场景,实现单机检索30亿人脸图片20秒内返回结果的性能,集群部署后可实现包含百亿人脸图片的分布式秒级检索。
    01.png
    机器人感知与控制技术
    公司自主研发的机器人感知与控制技术,将实时高精度定位、场景三维建模、机械臂视觉反馈和自主规划导航技术进行有机结合,应用于轨交的列车、轨道运维等复杂场景。

    自主研发的机器人相关核心算法实现了对机器人自身状态的准确估计、对环境中动态障碍物的实时感知,并进行快速安全的路径规划与跟踪控制,使机器人在复杂狭窄的轨交环境中,可实现1米/秒的高速自主运动,避开运营中的列车,完成轨道检测、设备维护等任务,大幅提升了机器人在复杂场景中的环境适应能力和运动自主性。
    恒耀平台能力图_03.jpg
    沉浸式交互感知技术
    沉浸式交互感知技术是一种利用传感器和计算机视觉技术,实现人与虚拟环境自然交互的技术。

    搭载公司自主研发的三维人体关键点识别、跟踪、定位算法,实现毫秒级的动作捕捉和实时画面反馈。支持大量用户同时进入虚拟环境,通过动作、语音等多模态交互,可以实时感知每个用户的意图和行为,实现自然的人机交互和虚拟协作。

    结合自研双目立体摄像头捕捉用户的动作,实现精准的人体运动追踪和深度感知,为虚拟现实、增强现实和运动游戏等领域带来更真实、沉浸式的交互体验。
    自动驾驶.jpg
    自动化交通场景感知与事件识别技术
    公司自主研发国内领先的自动化交通场景感知与事件识别技术,在车辆识别方面能够对多种类型车牌进行高精度多角度识别,支持45°内倾斜车牌,准确率超过98%,车辆及人体属性识别准确率达95%以上。

    在交通事件识别方面,通过自适应交通场景理解和车辆重识别技术,实现对交通视频的无需人工标注的自动化分析,可准确识别闯红灯、不按导向行驶等11类典型违法事件,并自动定位车辆位置,进行风险预警和自动化违法审核,实现交通场景的智能化监测与管理。
    沉浸式.jpg
    核心算法
    自主研发大量人工智能领域核心算法,多次在国内外竞赛中名列前茅
    icon-sf1.png
    2D算法
    icon-sf2.png
    3D算法
    icon-sf3.png
    机器人相关算法
    icon-sf10.png
    人脸相关算法
    icon-sf11.png
    人体相关算法
    icon-sf12.png
    预训练大模型
    icon-sf13.png
    视频分析算法
    _0005_人脸识别.jpg
    sf11.png
    人脸识别
    人脸识别(Face Recognition)通过人脸检测、关键点定位、人脸矫正和特征提。匀肆辰芯嫉谋榷院图焖鳌:阋教ㄔ谇蛘湃肆车拇蠊婺5卓庀,Top1准确率超过99%;在模糊、过曝、带口罩等困难场景下,万分之一误识率下,识别率大于95%。

    曾在NIST举办国际性人脸识别测试FRVT中获得综合第一名,在公安部治安局举办的亿级人像算法评测获得第一名。恒耀平台向学术界开源了TrillionPairs和Glint360K两个人脸识别数据集,开源了PartialFC训练算法,推动学术界进展。
    _0004_人脸聚类.jpg
    sf14.png
    人脸聚类
    人脸聚类(Face Cluster)是利用人脸识别特征通过聚类技术进行人员聚档。结构化后的人脸特征和历史特征进行查询和比对,通过聚类技术把人脸图片聚档。人脸聚类可以在很大的时空范围内进行人脸的聚类分析,在安防和商超场景中应用广泛,具体的像行动轨迹、停留时间、人和物的关系分析、人员置信、 安防管控、人物画像统计等。

    通过恒耀平台自主研发的局部特征融合模型和多级时空网络聚类算法,在千万级ID的大规模人脸聚类中纯度能达到99%以上,散度低于1.2,召回达到95%以上。在戴口罩、 夜晚、大角度等困难场景中也达到很好的聚类效果。
    人体检测.jpg
    rt11.png
    人体检测
    人体检测(Human detection)基于深度学习检测图像中的所有人体,并返回图像中人体坐标值以及置信度。恒耀平台拥有丰富姿态的海量数据库,不仅包含常见站立行走以及少有的坐、蹲、躺等特殊姿态,还拥有丰富场景数据,包括中远距离俯拍和不同角度平拍视角,在密集行人检测crowdhuman benchmark上达到SOTA,根据不同场景中调用不同的模型,结果更加准确可靠。
    rt22.png
    rt21.png
    人体姿态估计
    人体姿态估计(Human Pose Estimation)是基于人体检测后的图像检测人体的2Dpose。恒耀平台基于精度更高的Top-down方法,在网络中采用多层特征融合方式聚合多尺度特征,在编码解码过程中都优化了量化误差,使其在关键点预测中能达到更高的精度。

    同时恒耀平台拥有丰富的人体2D姿态数据,包括篮球、跳绳、引体向上、仰卧起坐、银行场景等,在AI体育、银行等场景的业务中都获得了成功的应用。
    rt31.png
    行人 ReID
    行人重识别(Person Re-identification)也称行人再识别(简称:ReID),是利用计算机视觉判断图像或者视频序列中是否存在特定行人的技术。

    ReID有一个非常重要的特性就是能够根据输入的特定行人图片,检索跨摄像头、跨视频序列下的目标行人,目前恒耀平台在换衣、遮挡、低分辨率、姿态和视角变化等方向都有研究,在公开数据集Market1501、DukeMTMC、Occluded-Duke上达到SOTA,在城市管理场景中,万分之一误识率下的召回率达到98.14%。
    17721652.jpg
    rt41.png
    行为识别
    行为识别(Action Recognition)是从视频剪辑(2D帧序列)中识别不同动作的技术。在金融安全、城市管理、文娱训练等场景中,基于时空信息端到端行为识别算法能实时解析视频流推理出异常行为,比如:人员摔倒、拉扯打架、损坏公物、攀爬等。

    基于骨骼动作特征的行为识别能够识别行为动作或者流程是否符合标准,行为识别算法已在实际项目中进行落地迭代,推动视频分类和表示学习的发展。
    xl11.png
    预训练大模型
    预训练大模型技术通过在大规模数据集上进行模型预训练,获得具有通用泛化能力的预训练模型,然后在下游任务上利用预训练的模型进行微调,来提高下游任务的精度。

    基于此,恒耀平台提出了高效的预训练框架,在大规模的数据上训练出一系列不同规模的预训练大模型,并在银行、高铁、安防场景下的业务中获得成功应用。恒耀平台还将自研预训练大模型应用于Kaggle地标识别竞赛,并荣获金牌。
    _0003_视频分析算法.jpg
    sp11.png
    视频分析算法
    通过优化各种算子,实现了在千万级视频数据下高效的视频预训练。将视频预训练模型与Linear probe、Adaptor tuning、Finetuning等技术结合,可以将海量数据下预训练模型学到的知识迁移到行为分析、目标跟踪等多种下游任务,显著提高业务性能并大幅缩短研发周期。

    预训练模型能够学习到丰富的视觉表示,经过适当的微调后,可以快速适配到具体的下游任务,实现知识的有效迁移,减少人工特征工程,降低训练样本需求。
    3d1.png
    人体3D算法
    icon-sf12.png
    多视角几何算法
    3d2.png
    深度估计算法
    3d3.png
    点云算法
    3drt62.png
    3drt61.png
    单目3D姿态估计
    单目3D人体姿态估计(Monocular 3D Human Pose Estimation)是根据单个RGB相机检测人体3DPose,可广泛应用于个人健身、学校体育训练等场景。

    目前恒耀平台构建了包含各种运动的大规模3D人体姿态数据集,如篮球、排球、乒乓球、瑜伽、舞蹈、武术、跳绳、仰卧起坐、单双杠等。未来我们将继续丰富姿态数据规模和场景,以提升单目3D姿态估计的鲁棒性和泛化能力。




    3drt52.png
    3drt51.png
    多目3D姿态估计
    多目3D姿态估计(Multiple Cameras Multiple People 3D Human Pose Estimation)是指利用多相机同步采集覆盖一个区域(如篮球场、足球。┑耐枷,实时重建和跟踪场内所有人员的三维姿态。

    目前恒耀平台多目3D姿态估计技术已成功应用于篮球场景(对场上球员进行实时姿态分析)和大规模人机交互解决方案。
    _0002_单目3D表面重建.jpg
    3drt41.png
    单目3D表面重建
    单目人体3D表面重建(Monocular Human Mesh Reconstruction)技术是基于单张RGB图像预测10个表示人体高矮胖瘦信息的shape参数和24个控制人体pose的关节旋转参数,其中每个关节点旋转参数采用三维向量来表示该关节相对其父关节分别沿着 x, y, z 轴的旋转角,并基于预定义人体 template mesh可以通过shape和pose参数预测人体表面密集点(6890个)的三维坐标。

    该技术可以用于基于视觉的人体动作捕捉,驱动虚拟人物做出与真人完全匹配的动作,也可以应用在体育等需要进行人体关节角度估计的应用场景。
    _0001_2D多视图输入的3D重建.jpg
    3drt31.png
    2D多视图输入的3D重建
    基于RGB多视图三维重建技术,是一种计算机视觉方法,通过从多个视角拍摄的RGB图像来还原场景的三维结构。SFM(Structure From Motion)通过计算相机的运动轨迹和场景中的三维点云,还原场景的几何结构和外观信息。

    SFM技术的主要步骤包括特征提取、特征匹配、相机姿态估计、三维点云重建和优化等。SFM技术的优势在于它能够从无序的图像集合中恢复出场景的三维结构,而无需额外的深度传感器或特殊设备。基于RGB多视图三维重建的SFM技术在许多领域有着广泛的应用,包括虚拟现实、增强现实、三维建模、文化遗产保护、室内导航和自动驾驶等。
    20240529-123126.jpg
    3drt21.png
    激光点云多视图输入的3D重建
    基于激光雷达等多传感器融合、SLAM等技术能够快速重建厘米级精度的点云,能够在一个小时能完成对电厂、高铁动车所、工厂、园区等环境的三维重建,配合不同载具也可进行空天地、室内外一体化建图,并且能够与主流设计软件(3DS Max、Revit、AutoCAD)打通,方便设计师快速生成厘米级、部件化的标准数字孪生模型,并供Unity、Unreal、WebGL使用。

    另外生成的模型还可服务于物联网设备的管理、机器人定位、园区自动驾驶、面向C端室内外精细化导航、办公环境招商、承载元宇宙容器等功能。
    _0000_多模态输入的3D重建.jpg
    3drt11.png
    多模态输入的3D重建
    基于RGBD多模态三维重建技术,结合了RGB图像和深度图像的信息,能够更准确地还原场景的几何结构。该技术主要步骤包括建立TSDF(Truncated Signed Distance Function)体素网格,利用Marching Cubes算法进行表面提。谕加呕惴ǘ灾亟ń杏呕

    目前该技术方案成功应用于高铁转向架模型重建等任务,可以获得高精度的3D重建模型并应用于故障诊断分析。
    sd12.png
    sd11.png
    双目深度估计
    双目立体匹配(stereo matching)是基于标定好的双目相机计算出深度值,是双目相机产品的重要基础技术。首先进行匹配代价计算,获取左右视图的相似度度量张量,然后进行代价聚合计算视差(disparity),并通过一些正则项对视差进行优化,再通过几何关系计算出深度图。

    恒耀平台在匹配代价和代价聚合阶段采用卷积神经网络提取特征,并通过循环神经网络融合多帧之间的时序关系,将立体匹配技术在嵌入式芯片上做到了实时,同时通过实际数据与虚拟数据相结合的方式提升了算法的泛化能力,使其在各个业务场景中都有较好的表现。
    sd22.png
    sd21.png
    单目深度估计
    单目深度估计是指通过一张单目图像预测场景中每个像素点的深度或距离信息,通过单目深度估计获得精确的场景深度还原场景的三维结构。

    单目深度估计采用卷积神经网络的编码器-解码器结构实现端到端的深度估计,再将深度反投影回3D空间(如体素空间)输入到后处理网络中进行细化。

    目前该技术在计算机视觉和机器人领域有广泛的应用,包括三维重建、虚实融合、自动驾驶、增强现实等。
    20240529-122859.jpg
    dy11.png
    点云配准
    点云配准即求解两个具有重叠区域的点云之间的旋转平移变换,使得两个点云的坐标处于同一坐标系下。

    相较于传统点云配准算法icp(iterative closest point),恒耀平台提出基于深度学习的点云配准技术,发表论文Leveraging Inlier Correspondences Proportion for Point Cloud Registration,基于点云几何结构和多层特征投票机制提升正确匹配点云比例,从而提升点云配准精度,在学术数据集3DMatch、3DLoMatch、KITTI、MVP-RG等数据集均取得sota结果。

    在真实业务测试集上旋转向量误差小于1度、平移向量误差小于0.3mm,该技术为产品落地起到了至关重要的作用。点云配准在无人驾驶、三维重建等领域具有广泛的应用。
    jq42.png
    j141.png
    SLAM
    SLAM(Simultaneous Localization and Mapping)即实时定位与建图,使用相机、激光雷达、IMU等传感器的感知信息来计算图像(视觉)或点云(激光)的帧间位姿关系,进而实现移动机器人在未知场景下的建图与定位。

    SLAM技术已经广泛应用于自动驾驶、室内导航、三维重建等领域,在高铁检修场景下,基于激光雷达以及IMU的激光SLAM方案可快速地为检修车间、列车底部坑道、转向架建立高质量的三维点云地图,为搭载了机械臂和深度相机的移动机器人提供机械臂碰撞模型以及准确的里程计定位信息,并通过停车点的全局里程计校正来解决长距离、退化场景下里程计累计误差增大的问题,使机器人能在列车底部自主运动并控制机械臂完成任意项点的数据采集任务。
    20240529-123354.jpg
    jq31.png
    机械臂规划与控制
    机械臂规划与控制算法在非结构化环境中控制机械臂快速进行避障路径规划,到达指定的目标位置完成相应任务。

    传统路径规划算法在多自由度机械臂上存在建模难度高、搜索效率低等问题,恒耀平台结合深度强化学习技术,针对避障任务设计了强化学习奖励函数,实现多轴机械臂避障任务,且规划时间更少、路径更短。目前,恒耀平台已将该技术成功应用于轨交运维的机器人产品中。
    20240419175919834.png
    jq11.png
    环境感知
    环境感知算法指通过使用固态激光与摄像头等传感器,实时感知机器人周围的环境信息。这些传感器可以帮助机器人获取关于障碍物、地形、距离等方面的数据,以便机器人能够正确地理解和适应其周围的环境。

    在高铁巡检中,恒耀平台结合SLAM技术、3D点云、2D图像联合识别与分割以及点云的处理技术,实时完成对周围环境的碰撞损失地图构建以及高铁的位置感知,用来辅助机器人避障、机械臂规划控制以及确定高铁的巡检检测位置。
    20240430160142786.jpg
    jq21.png
    轨迹规划
    轨迹规划算法为机器人生成最优巡检路径。通过综合考虑机器人的当前位置、目标位置、环境信息以及其他约束条件,计算出最佳的巡检顺序和?康。

    在高铁巡检场景中,机器人能够实时感知高铁及障碍物信息,并自动调整路径规避障碍,保证巡检任务的高效完成。通过视觉与路径优化技术的有效结合,实现了自动化、智能化的巡检流程,避免了传统人工作业的低效率与不确定性。
    发挥创造力,共赴AI向深向广
    即刻开启企业AI之旅
    该信息仅用于恒耀平台与您沟通以及了解您的业务需求,如您不同意提供个人信息,请关闭本表单页面。
    *联系人:
    *联系电话:
    *联系邮箱:
    *获取验证码:
    点击获取验证码
    立即提交
    提交成功
    感谢提交,近期将有恒耀平台工作人员与您取得联系, 请您保持电话畅通。
    资料下载
    *姓名:
    *手机号:
    *邮箱:
    *获取验证码:
    点击获取验证码
    *公司名称:
    *职位:
    *您是否有其他具体的业务需求?
    是,请尽快与我取得联系
    否,暂时无其他需求
    立即下载
    【网站地图】【sitemap】