全球最大的拉丁文献库,正在等待人工智能来破解

 


手写的拉丁文献,既不容易检索,也不容易阅读。

人工智能正在破译体量庞大的拉丁文献库。

位于梵蒂冈的梵蒂冈机密档案馆拥有全球最大的拉丁文献库存。始建于 1611 年,并经由历代教皇不断增加库存,目前的梵蒂冈机密档案馆拥有超过 600 个全宗,所有文件的书架排列在一起全长超过 85 公里。

但问题是,这些拉丁档案很难利用。由于数量过于庞大,检索本身就已经是一个巨大的难题。如果文献本身足够规整,就可以被纳入 Google 的图书计划当中,通过文字识别,录入为数字格式。然而,该档案馆所收录的文献并不适用传统文字识别技术。

传统的文字识别技术利用字母与字母之间的间隙,将单词分割成字母。随后将字母的图像与标准图像进行比对。不过,手抄拉丁文更像是一种书法,字母之间通常连笔。传统文字识别技术无法识别单个字母,因此也就失去了作用。

意大利的一组科学家发起一项名为 In Codice Ratio 的研究计划试图解决这一难题。他们首先做的就是优化文字识别技术,将识别的基本单位从字母变成笔画。研究人员认为,墨迹较淡之处,即为一个笔画的开始或结束的地方。笔画之间会被重新组合,从而生成一个可供与标准字母比对的图像。

手抄字母千奇百怪,而这就是人工智能机器学习可以发挥作用的地方了。研究人员招募了一批高中学生,让他们对人工智能进行最基础的调教。如下图所示,绿色部分是标准、清晰的字母 g 的写法,红色部分是错误的字母 g 的写法,最下方则是新的文字识别系统识别出的单个字母。学生们需要从中选出字母 g,而人工智能则会根据学生的选择进行学习。

人工智能学习的过程也会进行优化。例如研究人员统计了一批拉丁文献中特定字母组合出现的概率,这样一来,人工智能就更倾向于将 nn 识别为 nn 而不是 iiii 。

经过优化后,该人工智能对于首批 18000 页的拉丁文献进行了识别。结果喜忧参半,有三分之一的单词存在一处或多处的识别错误,主要集中于 m、n、i 这些字母之上。但研究人员 Paolo Merialdo 认为,96% 的字母识别成功,“不成功的识别可以提供足够多的信息和语境,从而让原本难以被利用的文献供研究者使用”。

目前,研究人员仍然寄希望于该人工智能系统能够不断进化。庞大的梵蒂冈机密档案馆可能将在未来浓缩成互联网上的一个数据库,供人随时查阅。

 

10 Comments

  1. Cuore 2018年5月7日 at 上午8:28

    意大利人的手写体 他们自己有时候都看不懂!!!!🤪

     
  2. 哈梨 2018年5月6日 at 下午10:23

    中国传统文化这么注重文献,但是保留下来的古籍却这么少,真是令人痛心

     
  3. Sunrea 2018年5月6日 at 下午6:15

    我希望以后当我输入验证码的时候会有人给我打一笔“参与人工智能开发”的酬劳。

     
  4. 广州高纺奢侈品包包 2018年5月6日 at 下午1:06

    人工智能比开发者智商高?

     
  5. Alex@Mead🌞 2018年5月6日 at 上午11:35

    我是因为裘花点进来的…

     
  6. Khan 2018年5月6日 at 上午10:38

    看起来很靠谱的样子

     
  7. 猫月 2018年5月6日 at 上午10:13

    文末竟然没写题图出处:「年轻的教宗」,十分推荐!

     
  8. 2018年5月6日 at 上午9:59

    封图好评,裘德洛帅爆了,期待第二季。

     
  9. 星球冰 2018年5月6日 at 上午8:38

    搞不好未来会成立“人工智能语言学”的学科

     
  10. 国服第一投资人 2018年5月6日 at 上午8:22

    这告诉我们不要写连体字😏

     

Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.