OCR 提取文本、表格、数学公式
在阅读 PDF 的文献和书籍时,经常遇到扫描版的文件,此时,要想摘录其中的文本信息,就变得非常麻烦。另外,现在的 PDF 文件对表格,数学公式的数据复制和提取也非常不友好
为解决这个难题,Lattics 采用最先进的 AI 算法,通过对文档结构信息进行分析,可以非常准确的提取出 PDF 文档中的文本,表格,数学公式,代码块和图形。识别率非常高,识别后的内容将自动转为 Lattics 卡片,文本、表格、数学公式、代码块都可以进行二次编辑和修改
使用 OCR 的方法也非常便捷,在阅读 PDF 文件时,框选整页或者其中部分内容,在弹出菜单中选择 OCR 选项,AI 算法即会自动识别和提取其中的信息,并自动保存为一张卡片,同时会将 PDF 的文献元数据保存到卡片中,包括论文/书籍名称,作者,出版时间,以及摘录的页码,这些元数据将可成为参考文献的引用信息。有些 PDF 文件并未携带文献元数据,此时可以在卡片的扩展界面中手动补充元数据信息即可

注意:
- Lattics 的 OCR 识别采用的 AI 算法,依然会存在一些识别误差,并且此算法专门针对学术文献,商业文档,印刷体的书籍等进行高精度识别,其他格式的文档会存在较大识别误差
- 支持 41 种语言,包括:简体中文,繁体中文,英文,法文、德文、日文、韩文、意大利文、西班牙文、葡萄牙文、俄文、乌克兰文、荷兰文,瑞典文、波兰文,土耳其文,匈牙利文、拉丁文、印尼文等
- 以后将支持简体中文、繁体中文,及日文的竖排版文档识别