西北师大发布DeepJiandu数据集:AI解密简牍 全球与众共享
中新网兰州3月28日电 (丁思 刘玉桃)为破解智能化简牍文字识别与内容理解这一重大难题,近日,西北师范大学联合甘肃简牍博物馆推出了DeepJiandu数据集,全球与众共享。
DeepJiandu数据集,是在该校简牍学术资源数据共享平台的基础之上,研究发布的全球首个专门用于复杂场景下简牍字符检测与识别的大规模数据集。该数据集的发布,极大促进人工智能技术对简牍文献信息的理解,为简牍学搭上AI技术快车提供有力支撑。
图为DeepJiandu数据集的字符标注示例,标注框标明了字符的位置和类别。西北师范大学供图 该工作由西北师范大学简牍研究院、甘肃省简牍智能计算与数字人文工程研究中心张强教授团队负责开展,甘肃简牍博物馆、上海中西书局、甘肃文化出版社、西南大学等单位参与了该项工作。
据张强介绍,在纸张普及前的千余年中,简牍是中国古代记录历史信息的重要媒介,承载了战国、秦、汉、魏晋等时期的典籍、律令、契约等,形成了完整的文明记忆链条,简牍是文字传播的核心媒介。
然而,简牍因竹木材质易受腐蚀,尤其在出土后易出现氧化、变色或粘连问题;同时由于简牍材料的脆弱性,长期埋藏环境导致字符模糊、字迹缺损、产生畸变等问题,使得人工识别与整理这些珍贵文献极为困难。现有的数字化技术虽在甲骨文、东巴文、古彝文、古希腊铭文、古埃及象形文字、玛雅文字等相关文献资料等领域取得突破,但在简牍文献资料的智能化处理与分析程度不高,特别缺乏高质量的数据集,制约了人工智能技术在该领域的应用。
图为DeepJiandu数据集图像示例。西北师范大学供图 “DeepJiandu数据集的构建正是为了解决这一问题。”张强介绍说,研究团队通过高光谱成像、图像增强、多光谱融合等技术,确保了高质量的数据构建。数据集涵盖2242种字符类别,并由简牍学专家与计算机专家合作标注,确保数据的专业性与准确性。此外,数据集的设计考虑到简牍中字符的残损、异形字、多种布局等复杂场景,有效提升了模型对历史文献的适应能力。
DeepJiandu数据集的发布,填补了历史文献数字化与人工智能结合的空白,为简牍整理与自动识别提供了重要支持,提升考古学者对简牍文献的解读效率。此外,结合计算机视觉与历史语言学,该数据集还将推动文博机构的数字化转型,为多模态文化遗产保护提供新的技术路径。
张强表示,随着DeepJiandu数据集的推广,研究团队预计将有更多深度学习、计算机视觉领域的研究者加入简牍文献的数字化处理研究,并推动人工智能在历史文献解析、文化遗产保护等多学科交叉领域的应用。未来,团队将继续优化数据集,并探索多模态融合等前沿技术,为数字人文研究提供更强大的技术支持。
目前,DeepJiandu数据集已载入西北师范大学简牍学术资源数据共享平台。该平台已开发了实物库、释文库、字形库、著录库、文献库和专家库六个库,利用人工智能、大数据分析、虚拟现实等先进技术,完成了对4万枚西北汉简的数字化收录,不仅为专家学者提供了便捷的研究工具,也向公众展示了简牍文化的独特魅力。该平台现拥有千余名国内外在线用户,覆盖了国内外384个科研、文化机构和高等院校。(完)
- 青年博士的科研路:在深耕中凝练方向 在思辨中突破桎梏
- 第二十七届海峡两岸经贸交易会将在福州举办
- 作风建设重在化风成俗(深入学习贯彻习近平新时代中国特色社会主义思想)
- 有人因此“毁容”!遇到这种虫子千万不能拍
- 从“硒”出发 专家学者聚首河南济源共探硒产业新发展机遇
- 促排卵会造成卵巢早衰?一次取几个卵泡合适?听专家科普
- 今年前4个月两岸进出口贸易额同比增长14.7%
- 习言道|新时代的中俄关系更加从容自信、稳定坚韧
- 孩子长大哮喘自然就好了?别信!医生提醒→
- 中国科学院团委举办青年先进典型宣讲活动
- 习近平指出,中俄双方要坚持合作大方向,排除外部干扰,让合作“稳”的基础更坚实、“进”的动能更充足
- “数理+AI+工程”打造未来卓越工程师 上海交大推出首届“笛卡尔班”
-
“把脉会诊”助力智慧田管 “数智”良方夺高产 农业焕发新活力
2015.12.16 -
运动是加速衰老,还是延缓衰老?真相揭开
2015.12.16 -
钙含量是牛奶近8倍的“补钙王者” 吃它这一点要注意
2015.12.16 -
新华图讯丨习近平出席俄罗斯纪念苏联伟大卫国战争胜利80周年庆典
2015.12.16