问了大模型,目前用 pdfinfo/pdffonts/pdfimages 结合来,准确度不理想。
1
tool2dx 15 天前
纯扫描版就是 jpg 内嵌大图,没有具体文字可以选中,用 pdf 文字提取工具,很容易识别的吧。
|
2
shintendo 15 天前
文件体积除以页数
|
4
paopjian 15 天前
直接用脚本尝试提取文字不可以吗?多于几个字就算是文字版
|
5
mclxly OP |
7
sketcherly 15 天前
直接解析 pdf 统计字数呢
|
8
CLMan 15 天前
就算是用 文件大小/页 ,准确率应该也差不到哪里去。
|
9
cowcomic 15 天前
如果是大面上的区分的话,大小除以页数应该就是比较迅速的方式了
除非要求比较精确,百分之多少是图片之类的 |
10
mclxly OP |
11
xiaomageit 15 天前
降精
|
12
israinbow 14 天前 via Android
文字版 pdf 转成 html 看起来会很有逻辑.
|