2022-02-19 信息来源:研工部
郭亚庆,计算机与信息技术学院计算机科学与技术专业博士研究生 。
继本科毕业两年之后,在父母的支持和鼓励下,郭亚庆于2016年重新回到母校山西大学攻读硕士学位,并在这一年结识了恩师王文剑教授。2018年,在与王文剑老师促膝长谈之后,她决定通过硕博连读的形式继续攻读博士学位。在之后的三年半求学生涯中,在王老师的引导教学下,她对如何解决低质数据下的不可靠监督学习问题产生了较为浓厚的学习兴趣,并将其确定为整个博士生涯的科学研究方向。
机器学习是指利用某些算法指导计算机利用已知数据得出适当的模型,并利用此模型对新的情景给出判断的过程。故数据质量较差会大大降低机器学习的可信度,进而影响模型决策的正确性!然而,在开放环境下,由于数据采集环境的复杂性、采集设备性能的限制和人为因素的影响,大数据时代下收集到的数据往往含有噪声、异常点、不确切数据和缺失数据等,即数据的可用性较低。在许多现实应用领域中,低质量的数据造成的不可信机器学习问题已经对可靠人工智能带来了巨大的影响,如低质量数据引起的人脸识别出错、疾病诊断出错、特斯拉撞人事件和图像解混出错等。此外,低质量数据对人工智能造成的冲击已经引起了许多国内外学者的广泛关注。AAAI(2016)年会报告和美国2016年白宫报告皆指出“如果数据不完整或者存在偏差,人工智能可能只会加剧问题,而不是解决问题,机器学习结果的正确性是机器学习领域的主要挑战之一”。因此,如何有效解决数据低质问题以确保机器学习结果的正确性是可信人工智能不可回避且必须解决的问题。作为极其重要的机器学习任务,监督学习内容丰富、应用广泛,它使学得模型能够对任意给定的输入对应的输出做出一个较好的预测。监督学习任务同样面临着上述问题,在大数据时代下,低质量数据问题常常使现有的监督学习模型无法取得成功。故在博士科研工作期间,郭亚庆将精力主要聚焦在如何解决低质量数据引起的不可靠监督学习问题上,通过研究稳健建模工具以较好地解决低质量数据给监督学习任务带来的模型泛化能力较差、模型复杂度较高和特征选择过程紊乱等问题。
求学生涯是枯燥乏味的,每当她失落迷茫的时候,总是有许多可敬可爱的人们用他们的经验点醒她,用他们的爱治愈她。郭亚庆说:“王文剑老师总是在我的科研工作进入瓶颈期的时候与我一起冷静分析问题出处并找出解决问题的关键点,给濒临崩溃的我一剂强心剂;爸爸妈妈总是无怨无悔地为我付出,在精神和经济上支持着我,他们从来没有因为我没有工作而向我施加压力,总是告诉我不要着急,慢慢来;陪伴我一起成长的小伙伴们每次都毫无保留地帮助我解决学习上遇到的难题,在与他们讨论科研问题的过程当中,许许多多的问题被迎刃而解,是他们让我的科研生涯变得没有那么艰辛,变得丰富多彩。”转眼间,博士生涯已经快接近尾声,对于今后的日子里,她信心满满,她将一如既往地戒骄戒躁,潜心研究,积极投身于科学研究工作当中,为祖国的光明未来添砖加瓦。