前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >推荐一款Apache开源的文档内容解析工具

推荐一款Apache开源的文档内容解析工具

原创
作者头像
shigen
发布2024-01-06 18:44:02
2530
发布2024-01-06 18:44:02
举报

shigen坚持更新文章的博客写手,擅长Java、python、vue、shell等编程语言和各种应用程序、脚本的开发。记录成长,分享认知,留住感动。

hello,伙伴们,在闲暇的时候逛了一下掘金,发现了这样的一篇文章:spring boot+apache tika实现文档内容解析,对里边提到的tika很感兴趣,感兴趣的原因之一就是当时在研究文档识别和文本识别的时候,找了很多的工具类:

shigen当时写的文档解析代码
shigen当时写的文档解析代码

其中,用到的处理word的工具是aspose,巧了,还要收费。相信用过的都知道怎么找license实现白嫖。总之呢,用起来还行,就是有风险。而且,对于各种文档,就需要找到对应的文档处理工具类,需要的依赖很多。

毕竟是Apache开源的东西,肯定很好用,于是继续研究了一下。发现宣传的有这些的特色:

官方文档介绍
官方文档介绍

摘自Apache tika官方文档

getting start 页面也列举了命令行工具的使用,其他的jar包和maven项目的结合,已有的文章已经很详细了:

当然,结合魔法,我相信我们获取相关技术的速度会得到很大程度上的提升。


接下来我讲一下让我觉得惊奇的jar命令行工具吧:

jar文件介绍
jar文件介绍

这里,我们只需要下载对应的jar包即可。当然,shigen也为大家提供了对应的镜像下载地址

下载完毕之后,直接java -jar启动即可:

代码语言:shell
复制
java -jar tika-app-2.9.1.jar
程序界面
程序界面

这里解析各种文件都是可以的:

直接将文件拖拽到程序界面即可。

读取Excel

读取Excel
读取Excel

这里可以快速的读取Excel的内容并展示出来。支持六种格式,如常用的json格式。

读取ppt

读取ppt
读取ppt

当然,这里的PPT图片是不能正常显示的。

读取pdf

读取pdf
读取pdf

这里都是PDF的文字版本。

剩下的文件格式大家自行研究吧,分享点我觉得比较炸裂的功能。

读取图片

faker-util
faker-util

这是shigen之前在文章一个脚本,实现随机数据生成自由的代码,我们用tika打开会怎么样。

读取图片结果
读取图片结果

发现直接可以把图片中的文本识别出来。这里我们并没有安装任何的AI识别库或者模型,在10s内直接识别出来了,真的是相当的智能。

所以,tika可以成为我们命令行中的又一个相当好用的工具了。

大招

貌似文章在这里就应该结束了,但是不觉得很奇怪吗,命令行就是为了启动GUI界面吗,事实并不是。

代码语言:shell
复制
java -jar tika-app-2.9.1.jar fake-util.png -T

我们可以直接在命令行打开文件并规定格式,参考官方文档和.jar文件的帮助文档。

控制台输出
控制台输出

那最后的结果和直接GUI操作一样的,我们的代码也是可以直接粘贴出来或者输出导入到一个文件直接运行的(当然,括号之类的特殊字符还要改一些的)。

以上就是今天分享的全部内容了,觉得不错的话,记得点赞 在看 关注支持一下哈

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 读取Excel
  • 读取ppt
  • 读取pdf
  • 读取图片
  • 大招
相关产品与服务
命令行工具
腾讯云命令行工具 TCCLI 是管理腾讯云资源的统一工具。使用腾讯云命令行工具,您可以快速调用腾讯云 API 来管理您的腾讯云资源。此外,您还可以基于腾讯云的命令行工具来做自动化和脚本处理,以更多样的方式进行组合和重用。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
http://www.vxiaotou.com