请选择 进入手机版 | 继续访问电脑版

书香江苏在线

搜索
热搜: 活动
微信
qq
weixin
书香江苏在线 首页 域外资讯 “识典古籍”数字化平台:从“活”到“火”,古籍数字化之路越走越宽

“识典古籍”数字化平台:从“活”到“火”,古籍数字化之路越走越宽

2024-5-22| 发布者: shiyun| 查看: 196| 评论: 0|原作者: 中国新闻出版广电报|来自: 江苏省新闻出版局

摘要: 一直以来,古籍数字化整理面临着技术、资金等方面的诸多困难,导致数字化进展缓慢,或使用体验不佳等。为解决这些难题,2022年3月,字节跳动公司与北京大学开展合作,以“北京大学—字节跳动数字人文开放实验室”为 ...
  一直以来,古籍数字化整理面临着技术、资金等方面的诸多困难,导致数字化进展缓慢,或使用体验不佳等。为解决这些难题,2022年3月,字节跳动公司与北京大学开展合作,以“北京大学—字节跳动数字人文开放实验室”为研发基地,打造“识典古籍”数字化平台。这是一个非营利性公益平台,通过OCR(光学字符识别)、句读、实体识别、知识图谱构建等方面的多种技术,实现古籍的智能化整理,让古籍能够以文本的形态加以检索、关联阅读和深度挖掘、利用。
  “识典古籍”数字化平台于2022年10月开始向公众免费开放,截至今年4月24日,已上线4100部经典古籍。该平台产品相关负责人近日告诉记者,平台未来将陆续完成1万种古籍的智能化整理工作,基本覆盖儒家、道家和佛学的核心典籍目录。

  技术赋能,古籍数字化开新篇
  古籍数字化的作用是活化,要让越来越多的人了解与使用古籍。但古籍数字化并非易事,如果按照传统方式解决古籍数字化过程中大量异体字、生僻字、标点、阅读顺序等问题,相关单位需要一本本、一页页进行人工扫描、校对,会耗费大量人力、物力,这成为古籍数字化的拦路虎。在这种背景下,具有很多互联网和人工智能技术经验的字节跳动,开始思索如何用技术为古籍数字化赋能。
  作为一家以内容为主的公司,字节跳动在内容识别、内容检索等方面的技术上拥有天然的优势,而这也反映在古籍数字化方面。字节跳动相关负责人告诉记者,“识典古籍”数字化平台解决了古籍数字化的两大难题:古籍扫描准确率以及转换效率较低。目前行业内OCR的识别准确率平均为93%—94%,而“识典古籍”数字化平台将这个数字提高到96%—97%。
  由于古籍没有标点符号,因此以往需要人工添加标点符号。而“识典古籍”数字化平台通过算法,给原本缺少断句的古籍自动打上标点符号。此外,为了进一步提升文字识别的精准度,命名实体识别技术会通过预测文字的实体标签,识别包括人名、地名、书籍、时间、官职在内的5种类型的专有名词。
  该相关负责人表示,除了应用于古籍阅读之外,“识典古籍”数字化平台还将致力于提高古籍智能整理的能力,通过提供开放、一站式的古籍智能化整理工具,吸引更多收藏家自主上传古籍资源。“我们不断优化OCR等算法,支撑不同样式和扫描条件的古籍,借助飞书编辑器框架,打造体验良好、协作性强的校对、校勘体验,简单培训后普通人也能上手。对于愿意将整理后的古籍通过‘识典古籍’开放给大众阅读的机构,可以免费使用‘识典古籍’的整理平台及其智能技术。”

  古籍活化,建立可打通知识图谱
  把古籍的文字从纸张油墨转变为数字化的“1、0”,并不是古籍活化的关键。古籍活化就是要把古籍里面蕴含的信息文化知识活化,让年轻读者了解古籍蕴含的文化知识,而“识典古籍”数字化平台的知识图谱化整理在这方面发挥了重大作用。
  据了解,使用者可以根据自己的需求进行关键词检索,快速找到所需信息;还可以根据实体(时代、人物、地点等)作整体性分析和关联检索,让分散在同一本古籍不同位置,或不同古籍的相关知识快速、全面聚合,打造一个完善的知识图谱。
  “这相当于搭建了一座古籍智能化数字图书馆,让研究者找资料时,不再需要一本本书查找、一页页翻阅。比如用户检索‘道义’,就可以了解该概念起源于哪个朝代的哪本典籍,以及它在各种书籍中的出现情况,从而快速推动相关研究,这对传统文化研究具有重要意义。”字节跳动相关负责人表示。
  知识图谱的作用远不止如此。据悉,“识典古籍”数字化平台还可以在专有名词基础上识别这些专有名词之间的关系,把人名、地名、官名、书名都识别出来,并试图提取人、地和官职之间的关系,转化成图谱形态,再与百科、各种问答应用、旅游产品等联系在一起,实现全方位的数字化赋能。
  据了解,字节跳动向全社会开放古籍阅读检索研究权限,任何人都可以通过平台搭建自己的古籍知识图谱。他们无需亲自翻阅多本书籍,就可以获取完整的词义,节省了研究者和读者的时间。

  开放合作,宣传让古籍“火”起来
  让古籍“活”起来只是第一步,还要让古籍“火”起来。字节跳动相关负责人表示,“识典古籍”数字化平台的一个重要功能就是古籍活化传承,通过古籍数字化提供更多的延展内容和趣味玩法。
  据了解,“识典古籍”数字化平台上线了电脑网页版以及手机移动版,用户在此可以实现分词检索、图文对照、繁简转换、字典释义、文白对照、实体百科等功能。同时,今日头条还专门开放古籍平台,展示平台成果。截至今年4月24日,已经累计有超过6231万人次通过今日头条古籍频道、网页版等了解和阅读古籍。
  在古籍数字化的基础上,字节跳动公益还联合中国文物保护基金会、中国国家图书馆发起“寻找古籍守护人”活动,招募创作者,通过抖音、西瓜视频、今日头条等平台,创作相关内容,推动古籍活化,助力传统文化传承;此外,还推出古籍活化纪录片《穿越时空的古籍》、VR互动纪录片《古籍寻游记》,以及系列古籍公开课等,整理古籍活化成果。一整套组合拳下来,成效斐然。
  其中,“寻找古籍守护人”活动约有7万名创作者参与,视频累计播放量24亿次;古籍公开课共发布25期公开课,25位名师开讲,涵盖“识典古籍”数字化平台上20余部古籍,观看量超过9600万次。“现在我们以多元形式传播古籍知识,受到了行业的关注和认可,特别是受到年轻人的喜爱。这给予我们信心,因为古籍的传承在年轻人,古籍‘活’化和‘火’起来的种子,也要靠他们播撒。”字节跳动相关负责人说道。

鲜花

握手

雷人

路过

鸡蛋
版权所有:江苏现代快报传媒有限公司 指导单位:江苏省新闻出版局 江苏省全民阅读办 主管单位:江苏凤凰出版传媒集团 主办单位:江苏现代快报传媒有限公司  协办单位:江苏省全民阅读促进会
备案号:苏ICP备10080896号-8  地址:南京市洪武北路55号置地广场 邮编:210005 电话:025-84783597 传真:025-84783531 技术支持:江苏现代快报传媒有限公司   隐私政策
返回顶部