NeurIPS 2024的最新成果公布,来自中国人民大学附属中学的高中生吴悠,以其独立创作的论文成功入选高中生赛道,并荣获Spotlight Project荣誉。
NeurIPS首次针对高中生设立了专门的论文征集通道,旨在激发年轻人才对人工智能领域的兴趣与探索。此次吴悠同学的研究成果,不仅展示了其卓越的学术能力,也标志着高中生在AI领域的参与度正逐步提升。
吴悠的论文《Vision-Braille:中文盲文图像转文本的端到端解决方案》聚焦于开发一种能够实现中文盲文图像到文本自动翻译的工具。这一创新性的研究,自2022年吴悠加入北京大学计算机学院张铭教授的实验室时便已萌芽。
该项目的核心技术基于谷歌的mT5模型,通过课程学习的方法进行优化调整,最终形成了一套高效的盲文翻译系统。项目面临的主要挑战在于数据集的缺乏及盲文特性的复杂性,尤其是同音字的处理问题。
数据集不足:中文盲文翻译的数据资源极为有限,收集相关数据耗时耗力。盲文的特性:中文盲文通过少量单元格表达复杂的汉字信息,且在实际应用中常省略声调标记,增加了翻译难度。同音字问题:中文中同音字众多,声调的缺失使得翻译过程更加复杂。为解决上述难题,研究团队构建了多个版本的中文-盲文对照数据集,包括完整声调、无声调以及10%声调保留的三种类型。这些数据集基于莱比锡数据库中筛选出的100万条中文句子,经过转换后形成,为模型训练提供了宝贵的资料支持。
在技术实现上,研究团队利用RetinaNet算法完成盲文OCR任务,实现了从图像到数字盲文字符的高效转换。随后,通过三个阶段的课程学习策略对mT5模型进行了针对性训练,逐步克服了翻译过程中的各项挑战。
实验结果表明,该模型在验证集和测试集上的表现优异,BLEU得分分别为62.4和62.3,有效提升了中文盲文翻译的精确度。目前,该研究已上线Demo版本,供公众体验。
值得一提的是,吴悠在高三期间完成了此项研究,并已成功申请至美国康奈尔大学继续深造,主修计算机科学与生物医学工程双学位。他的研究工作得到了张铭教授及其团队成员袁野博士生的悉心指导和支持。
张铭教授,作为北京大学计算机学院的知名学者,长期致力于文本挖掘、知识图谱等领域研究,其研究成果获得了广泛认可。
NeurIPS高中生赛道的设立,体现了国际顶级会议对青少年科学家的支持与鼓励,也为更多有志于科学研究的高中生提供了展示自我、挑战自我的舞台。
除了NeurIPS,其他重要国际会议如CVPR也在积极探索与高中生的合作模式,例如组织专业讲座等活动,旨在激发青少年对科学的兴趣与热情。
感兴趣的读者可以通过下方链接访问论文全文及项目演示页面:
论文地址:https://arxiv.org/abs/2407.06048Demo地址:https://vision-braille.com/