2023年1月18日
高效的数据处理和分析是大数据时代的重要课题,随着数字化技术不断融入生产和人们的生活,在不同应用场景中对数据质量和分析精度的要求日益增加。
日立中国研究院拥有一支致力于数字技术研究和数字解决方案开拓的研究团队,在数据分析、优化、物联网平台搭建等领域积累了丰富的技术经验,并积极参与学术交流活动。日前,日立中国研究院数字技术研究部主任研究员俞松受邀参加第二届健康大数据与智慧体育国际学术会议(2022 2nd International Conference on Health Big Data and Smart Sports , HBDSS2022),并作为唯一一位来自企业的受邀嘉宾,在会上以《Introduction of data processing research in industrial and medical fields(工业和医疗领域的数据处理研究)》为题发表主旨演讲,介绍了研究院的数据分析相关技术在流程工业*¹及健康医疗领域中的应用案例。
受邀演讲证书
在我国,流程工业占规模以上工业总产值的比例已超4成,通过数字化手段优化产品质量、降低生产能耗的需求不断增加。
当前流程工业生产指标优化主要依赖于熟练操作员手动调整,不利于生产和管理的标准化。另一方面,流程工业制造具有不平衡、不稳定、非线性等特点,机理建模优化面临难度高、成本高,精度和可靠性难保证等问题。
针对上述课题,日立中国研究院基于机器学习、统计分析、启发式算法等提出了面向流程制造企业的质量-能耗优化方案。该方案能在生产过程中,筛选和产品质量息息相关的能耗指标,采用合理的模型分析生产过程中各项数据,在确保能耗消耗范围的前提下,寻找质量指标的最优解,从而有针对性地优化生产系统。
优化技术的流程细节
经验证,该方案的预测误差可以稳定控制在10%以内,同时,可以根据短时间内的数据不断更新模型,输出不同时频优化的结果,在实际应用中大大提高方案的通用性和灵活性。
医疗健康领域涉及患者的信息大多较为敏感,因此数据分析的一大难题是数据收集困难导致样本数不足。针对这一课题,日立中国研究院开发了健康医疗模拟数据生成技术,针对不同的数据类型建立不同的模型,利用少量数据通过机器学习后可以生成大量符合原始数据特征的模拟数据。经测试验证,基于64项健康医疗指标的300条原始数据,通过此方法可模拟生成10万条数据,且模拟数据与原始数据的吻合精度达80%以上。大量可信样本导入预测模型进行训练,可以有效提升模型的预测效力。
模拟数据生成的系统架构
医疗模拟数据生成技术已经应用在日立的病情迁移预测系统中,还能应用于医学、制药等领域数据分析、模型训练及性能检测,对健康医疗领域数据分析发展有积极的推动作用。
一直以来,日立中国研究院重视数字技术的研发,坚持以“数字、绿色、创新”为驱动力,结合市场需求提出有效的数字解决方案,为日立集团和中国企业的数字化发展做贡献。研究院今后将继续巩固自身优势,挖掘数字技术应用更多的可能性。
*1 流程工业(Process industry):又称过程工业,是指通过物理变化和化学变化进行的生产过程。如石化、电力、冶金、造纸、医药、食品等均属于流程工业,原料和产品多为均一相(固、液或气体)的物料,而非由零部件组装成的物品。