2024年9月6日,海天瑞声披露接待调研公告,公司于9月4日接待源乐晟资产管理有限公司、北京鸿道投资管理有限责任公司、兴合基金管理有限公司3家机构调研。
公告显示,海天瑞声参与本次接待的人员共1人,为证券部总经理张哲。调研接待地点为券商策略会。
据了解,海天瑞声在2024年上半年的收入增长主要得益于多模态大模型的发展、政策环境的改善以及境外营销体系的持续投入,特别是境外业务收入同比增长了50.00%。净利润的增长则归因于标准化数据集产品收入占比的提升、训练数据定制服务毛利率的显著增长,以及研发投入的自然回落和销售及管理费用的有效降低。此外,公司在全球化业务增长方面,得益于大模型技术的快速发展和应用领域的拓展,以及政策环境的改善,境外业务收入显著增长。
在大模型业务上,海天瑞声加大了研发投入,增厚了数据储备,并与清华大学联合启动了多语种语音大模型研发计划。在智能驾驶领域,公司加强了高级别数据标注工具的研发,优化了算法中台中枢能力,并在全世界内扩展了道路采集业务。
对于未来的数据需求,随着大模型产品的推出和迭代,预计有关数据需求将持续明显地增长,特别是在预训练阶段和强化学习阶段。智能驾驶市场的参与者包括品牌数据服务商、客户自建团队和中小服务商,海天瑞声通过提升平台和算法能力、拓展客户资源,有望在该领域实现快速地增长。尽管客户自建团队可能会对市场产生一定影响,但由于成本和规模化效益的考虑,第三方数据服务的需求仍将持续。智能驾驶数据领域的核心竞争力体现在平台能力、算法能力和数据安全能力上。
2024年上半年,受益于多模态大模型的发展、《促进和规范数据跨境流动规定》出台带来的政策环境改善和公司在境外营销体系的持续投入,公司境外业务收入同比增长50.00%,拉动公司整体营业收入快速增长。
公司在上半年收入增长的同时,由于标准化数据集产品收入占比大幅度的提高,同时公司整体数据交付能力在管理能力、平台技术提升、供应链进一步整合和扩展等因素的一同推动下,使训练数据定制服务的毛利率也同比明显地增长,共同驱动公司整体毛利率增加至70.34%。同时,在研发投入方面,随着首发募投项目的结项,公司在传统深度学习数据集建设等方向已达到阶段性成熟状态,整体研发投入强度呈现自然回落;同时,在销售及管理投入方面为逐步提升整体运营效率,公司做了资源的合理配置和流程的优化,使得销售费用和管理费用大大降低,以上因素共同驱动公司上半年净利润大幅度增长,实现扭亏为盈。
2024年上半年,受益于大模型技术的快速发展以及应用领域不断拓展,以智能终端厂商为代表的科技巨头纷纷加大多模态数据投入,全球数据服务市场持续增长。在此背景下,公司凭借多年来在语言研究以及自然语言方面的技术积累、以及全球领先的标准化数据集储备,进一步赢得了境外客户信赖。与此同时,《促进和规范数据跨境流动规定》等法规出台,为数据出境提供了更高效简明的路径。以上行业发展以及政策环境的改善,使得公司境外业务收入较上年同期明显地增长50.00%至4,369.53万元。
2024年上半年,公司继续加大大模型数据方向的研发投入,增厚大模型领域的数据储备,已完成并持续建设包括“大语言模型中文对话预训练数据集”、“语音大模型(声音复刻、歌曲)微调数据集”、“语音大模型(多语种)预训练及微调数据集”、“视觉大模型(图像-文本)预训练及微调数据集”、“视觉大模型(视频-文本)预训练及微调数据集”等在内的多领域大模型数据集。同时,针对大模型在特定行业的应用需求,公司重点开发了医疗、金融、法律、艺术等垂直领域的标注资源,形成垂直领域专家库,为企业来提供高质量行业数据服务奠定坚实基础。与此同时,为更好理解大模型技术方向,公司通过前瞻性研究,探索大模型数据的规模化生产方式。公司已和清华大学联合启动多语种语音大模型研发计划,该项目将基于最新的语音大模型框架技术,自研多语种数据清洗技术,训练多个不同规模的语音大模型,有效提升多语种语音数据处理的效率和准确性。
为更好抢抓智能驾驶行业机遇,同时应对更复杂的数据处理需求,2024年上半年,公司加大了对高级别数据标注工具的研发力度,截至6月底,DOTS-AD平台新增3D动静分离标注工具,BEV多图层4D车道线标注工具,并升级点云分割工具支持连续帧叠加标注和4D分段加载等核心能力,有效支撑了无人驾驶BEV和OCC主流算法演进对数据标注工具的需求。此外,公司一直在优化算法中台中枢能力,开发了2D-3D融合的动静分离检测追踪算法,在点云连续帧融合产线%以上,迭代优化点云分割算法和地面检测算法,在点云分割产线%以上。此外,为进一步支撑我国车企的国际化战略,公司在全世界内扩展了道路采集业务,可提供包括采集方案设计、采集人员组织、车队管理、车辆改装及数据清洗与脱敏等在内的全链条服务。2024年上半年,公司采集业务已覆盖包括德国、西班牙、捷克等多个国家,为公司构建智能驾驶全球化数据服务能力奠定了基础。
6、目前已经有很多大模型陆续发布,未来数据需求是会持续增长还是下降?原因是什么?
随着更多大模型产品面向公众推出上线、以及不断进行版本迭代,未来的大模型有关数据需求会持续、明显地增长,这符合当AI进行应用侧后,对数据的需求才会规模性增长的规律。预期该类增长将大多数表现在预训练阶段对高质量、大规模的版权数据、公共数据、多模态数据、垂直领域的实际场景数据等方面的需求,以及不断的提高其交互精准度的强化学习阶段各类数据需求等。例如,若某大模型应用领域为文学创作,就会需要来自版权方的散文、小说、诗词等数据来进行创作能力训练;若某大模型拟提升其在民生政务领域的客服能力,则来自民生政务服务平台的此类对话数据将产生重要价值。未来,随着大模型向更高级、更多维、更广泛垂向拓展,大模型数据需求将呈现迅速增加趋势。
智能驾驶市场主要参与者有品牌数据服务商,客户自建团队以及一些中小服务商。从目前行业格局来看,品牌服务商占据较大比例的市场占有率。海天从21年集中性发力该领域,并将会通过持续提升平台和算法的能力、拓展客户资源,加速培育能力,在该领域实现高速增长。
客户自建团队在整个AI训练数据市场并非新现象,而是伴随着整个AI行业的发展一直存在的。但客户自建团队主要解决其自身的部分数据需求,如敏感数据等,对那些需要投入较高研发力量以及数据安全要求比较高的复杂数据,客户出于成本以及规模化效益考虑,仍会大量购买数据服务提供商的数据及服务。
相较于客户自建团队,海天历来都是对接众多大型科技公司、头部AI企业、科研院所等,项目经验比较丰富,积累了大量的know-how,对数据处理的理解更广、更深刻,同时我们搭建了成熟的数据处理算法平台,通过更高效的人机交互实现降本增效,保证数据质量的同时能大大降低成本,为客户提供更超高的性价比的训练数据产品/服务。
因此,公司判断,智能驾驶数据业务市场空间足够大,即便部分客户未来会长期维持自建团队,但出于成本以及规模化效益考虑,仍会持续大量购买第三方数据服务,不会影响海天在智能驾驶领域的整体收入体量和增长趋势。
智能驾驶数据领域的核心竞争力大多数表现在三个方面,分别是平台能力、算法能力及数据安全能力。
平台能力是数据标注能力的基石。平台功能点覆盖的丰富度是评价平台水平的核心要素,目前同时具备2D、3D、4D标注能力的供应商比较有限,能以最快速度覆盖更多功能需求的数据服务商将能更好掌握智能驾驶数据市场的主动权以及议价能力。
第二个核心要素是算法能力。平台的智能化程度越高,对人的依赖程度越低,在提高平台的生产效率的同时可以大幅度降低生产成本。
第三个要素是数据安全能力。智能驾驶数据不同于传统的语音类数据,由于其采集图像涉及大量的地理及个人隐私信息,为更好防范数据安全风险,国家相关法律和法规要求数据流转链条上各类企业一定做好充分的数据安全保障。因此,未来不具备有关数据安全能力的供应商将逐渐被市场淘汰。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
美媒爆料:特朗普与泽连斯基通话期间 马斯克闪现加入对线次降水!将影响广东!
台积电对部分企业断供7nm代工?知情人士:目前只要求企业配合核查投片资质
《编码物候》展览开幕 北京时代美术馆以科学艺术解读数字与生物交织的宇宙节律
谷歌“自曝”Pixel Watch Performance Loop 表带:棕、绿两色