文本挖掘----基于OCR的文档关键字提取

发布时间：2021-05-29 18:17:30 所属栏目：大数据来源：网络整理

导读：前言紧急添加：有人反馈看不懂。那是因为没有看姐妹篇，《你有没有想到，这样的观点挖掘引擎？》。请先阅读本文，再继续看下去！做了一段时间的OCR，把大量的图片、PDF处理成了文本。请注意：这些文本在互联网上属于稀有资源。这些文本以前都放在一个盒子

前言

紧急添加：有人反馈看不懂。那是因为没有看姐妹篇，《你有没有想到，这样的观点挖掘引擎？》。请先阅读本文，再继续看下去！

做了一段时间的OCR，把大量的图片、PDF处理成了文本。请注意：这些文本在互联网上属于稀有资源。这些文本以前都放在一个盒子里，如今，用OCR做钥匙打开盒子。取出东西，是好是坏也没人知道。但是，总得取出来看看。

所以，Text Mining就有了用处。我们把这些稀缺数据拿来挖一挖。万一挖到宝了，可就发了。。。

数据可视化后，你将得到这样的结果：

数据可视化，谷震平的专栏

别高兴，我将给你列出一堆坑。。。。

在自己的微信公众号上，写过一篇文章—-《你有没有想到，这样的观点挖掘引擎？》。这篇文章主要是对观点挖掘引擎做了简单的概述，给出了每个步骤大致需要实现怎样的功能。但是，没有涉及到技术和框架的东西。所以特地在CSDN上讲讲技术层面的东西。

这是一个很重要的过程—-数据预处理，直接影响最后的挖掘结果。难点有两个：

不要妄想自己能解决这两个问题，请交给专业人士去搞，因为比较头疼。但是对于一般的开发者而言，或者精度要求不那么高的同学而言，直接用OCR的成熟东西就好，比如Tesseract。

给出一篇文章：《OCR—-Python调用Tesseract引擎(Ubuntu下)》。参照来做，没有问题的。

自己写算法去挖掘处理好的文本，简直可笑。。。因为水很深很深。主要的难点：

所以，对于一般的开发者而言，或者公司快速生成而言，用框架吧。推荐两款：（1）结巴分词，（2）清华大学的中文分词THUTag。

我使用的是jieba，感觉API讲解的好。

操作指南就不秀了，也没什么可写的。当你装完环境，可能只是这样：

# abstract word extract
tags_output = jieba.analyse.extract_tags(text,topK=20,withWeight = True)

对，我并没有开玩笑。。。only one code !

数据可视化，这是个可深可浅的活。有时候，谁都能干；有时候，需要深知业务逻辑的人才。吓得我都不敢多说一句了。。。

这块也是现在比较火的BI工程师的职业范畴。BI Engineers用什么，我不知道。但是，我用的可视化工具是Echart，百度开源的（PS：支持国产的好处就是API都是中文的哎。。。）。

Echart3和Echart2整体的功能没有多少改变，但是样式和风格变了很多。抛开版本不说，EChart框架貌似不太适合含有逻辑关系数据的展现。做分类结果展示还可以，但是关系图，我只能呵呵。

最近，在尝试D3的技术，有空再码。

关键词提取也好，观点挖掘也好，都没有本质的区别。我做的这个东东，主要是在数据结构上用创新。毕竟是图片、PDF，不是纯文本。

更多技术交流，欢迎评论。毕竟在技术方面还是个渣渣，所以有不对的地方，欢迎批评指正。感谢！

下面是公众号的二维码，扫一扫关注更多精彩原创内容：

谷震平的专栏微信公众号二维码

（编辑：核心网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

2022年制造业七大趋向	大数据转型方式首推数
孩子的工程思维计算思	重建通天塔 Meta策划建