您当前的位置: 首页> 系列活动 发布 线上发布
重邮师生共创 “智分析”SmartAnalyze文本大数据挖掘平台正式发布
时间:2022-08-22

  “智分析”SmartAnalyze,文本大数据挖掘平台(https://saz.codeghub.com),是一个基于SaaS云服务模式的自然语言文本语义挖掘平台,由中科院计算所西部高等技术研究院与重庆邮电大学共建的智能安全联合实验室打造,重邮师生共同创业,专为人文社科研究服务。自2021年上线以来,已累计帮助上万用户方便、快捷地使用文本大数据分析方法。目前“智分析”平台用户已经覆盖了清华大学、北京大学、中国人民大学、复旦大学、浙江大学等全国各地几百所高校




在使用“智分析”的过程中,用户仅需在平台上注册号,即可对文本大数据进行数据挖掘及可视化。为降低社会科学研究者的研究难度,平台还提供了数据采集、数据清洗等集中式服务。“智分析”平台主要面向高校人文社科教师、学生以及党校、社科院、社会主义学院、党史研究室等科研机构的科研人员。用户无需具备数学、人工智能算法技术基础,仅需要在了解自然语言处理核心思想(如:分词、词性、分类、聚类等)前提下,结合自身领域专业知识,利用“智分析”平台对目标文本进行深度语义挖掘,得出情理之中、意料之外的结果。“智分析”通过“人工+智能”的使用模式,大幅度提升了自然语言处理算法的精确性,其独创的交互式主题模型分析方法,在业界处于领先水平。“智分析”为人文社科研究者提供了一条切实可行的掌握大数据分析方法的路径。

为加速在社会科学研究各领域的深度应用,“智分析”对历年来国家社会科学基金和教育部人文社会科学研究项目选题分析的基础上,已经形成了包括马克思主义理论、中共党史党建等学科核心方向在内的多个分类领域词库以及专题文本语料库。这些词库是“智分析”在应用过程中结合监督学习的方式,所形成的专业词库。其中,领域短语占了相当一部分比例,在潜在语义挖掘和主题聚类时,短语能够更好地表达语义,有利于人工解读。在专题文本语料库上,已经涵盖了党的政治建设、思想建设、组织建设、作风建设、纪律建设、制度建设等各个方面的典型文本。

国内首个系统性的文本分析平台

“智分析”之前,国内市面上几乎没有完整且具有系统性的文本分析软件。因此,要想运用自然语言处理技术进行文本数据分析,几乎都得涉及编程,有的做个词云图,都得耗费大量的精力查阅相关的资料,对于非技术人员来说,是一个门槛极高的过程。而很多文学领域,更需要使用文本分析从海量文本中提取重要信息,而对于大多数文学研究者来说,他们基本上是不懂编程的!自然语言处理技术,对于他们来说,是一个奢侈的技术。

而国外,早已有层出不穷的文本分析软件(即自然语言处理工具,例如Gavagai、T-lab、NaturalText),使用这些软件,不需要编程,更不需要查很多技术资料。对于使用者来说几乎做到无门槛!

为什么国外就有这么多的NLP(即Natural Language Processing,自然语言处理,是人工智能的一个子领域,文本分析技术的核心,以下都简称为NLP)软件,而在国内却寥寥无几?是咱们国家发展落后了?是咱们的技术赶不上人家了? 很大程度上,并不是!那是因为什么呢?

汉语的博大精深!汉语本身就要比世界上其他大多数语言难得多,不说什么唐诗宋词,就连最最基础的分词(分词,是NLP中最基础也是最重要的技术,一般NLP是以词为单位进行分析处理,而英文单词本身就是一个词,且词与词之间是自然隔开的。汉语不同,汉语里的词是由字构成,词与词之间并没有明显符号隔开,因此从某种角度上说,汉语NLP要比英文NLP难很多),都会碰到各种难解决的问题。例如下面这句话:

已结婚的和尚未结婚的青年都得实现计划生育。

分词不同,意思完全不同:

已结婚/的/和/尚未/结婚/的/青年/都/得/实行/计划/生育。

已结婚/的/和尚/未结婚/的/青年/都/得/实行/计划/生育。

这就造成了分词歧义的难题。而除此之外,还有好多词库(分词时可以参考词库中的词进行分词,目前虽然有很多自动化、不需要人工干预的分词算法,但效果都不理想。现在一般流行的是词库+算法的半自动分词模式)未收录的词,比如说人名、地名以及一些新的流行词,例如:“耗子为汁”“一带一路”等,亦或者是某个专业领域的领域词,更是无从下手。同时,加上国内很多研究者直接把国外Paper上的算法照搬到国内来分析汉语,效果自然很不理想。因此,目前国内的NLP工具少之又少。

“智分析”,便是来解决这一问题的。看到这里的你可能会有疑问:“智分析”是如何解决以上问题的呢?

虽然对于某些特定领域而言,中文NLP技术还不算成熟,即使很多在国外已经成熟的算法,一旦运用在汉语上,准确率就显得没那么高。但是,不成熟并不代表不能运用,并不能全盘否定。何况,要让中文NLP技术走向成熟,靠的不仅仅是算法研究者、数学研究者,更不仅仅是那些技术研究者、编程的人!因为汉语本身,就属于人文社科领域的范畴,而对于这项技术而言,靠的不仅仅是技术,更多还需要人文社科研究者们一起齐头并进!

“智分析”就是来做这样的事情的,人文社科研究者亦或者是普通的媒体工作者,都可以用它来做领域的专业词库(用传统的方法做词库是枯燥无趣且繁杂的,同时也许还需专业领域人士才能完成。而“智分析”通过新词发现算法,能通过数据,自动筛选出有可能成为新词的词语,只需要人工挑选即可)。但并不是为了做词库而去做词库,因为做词库,仅仅是使用“智分析”的必经过程之一,是为了让“智分析”的结果更加精确!用另一句话说就是,顺便而已。

“智分析”提供关键词分析词关联性分析主题分析计数项分析等功能,且都是通过可视化图形的形式来调试及展现结果,把复杂的数学算法隐藏在最底层,使用者可通过可视化的结果导向进行调试,最大程度降低NLP技术的使用门槛,让即使一点都不懂技术的人,也能使用NLP技术,发现文本奥秘。

“智分析”能做什么?

“智分析”简介如下:“智分析”SmartAnalyze是一款基于自然语言处理技术的文本分析工具,同时通过可视化技术,大大减小了使用自然语言处理技术的门槛,主打傻瓜式、自动化,最大限度减少人工成本,完全不懂技术的用户也可以无障碍使用。同时“智分析”秉着人工+智能=越用越智能”理念,使人工仅专注于领域内知识的析,相关技术性的东西可以完全交给“智分析”来处理,且人工也会使“智分析”更加的智能,分析得到更准确的结果。此外,还可用“智分析”来做领域词库,让人文社科专业领域的NLP更加准确,同时也助力于汉语NLP技术的发展,带领汉语NLP技术更上一层楼。

 那么你一定会好奇,“智分析”到底能做什么呢?

 它能根据领导讲话内容作出这样的词云图,来展现领导讲话中的关键词:

也能作出这样的主题树图,来展现领导讲话中的主题分布:

还能通过时间字段来展现关键词以及主题的趋势:


还能通过计数项分析,分析出各类数据占比,同时还可结合时间、关键词等多维分析:


还能根据区块链相关专利的文本内容分析出,区块链技术运用在存证领域中最为广泛:

“智分析”还能做的事情很多很多,还请大家自行使用尝试。

“智分析”怎么用?

     看到这里,可能有人会问,“智分析”到底怎么用呢?其实使用方法很简单,前面已经说到:“智分析”已经尽量避免用户接触晦涩难懂的专业技术,把专业的东西都做到了最底层。首先,只需要注册一个“智分析”用户,登进去后便可创建项目,然后上传文本文件(注意:普通用户上传的文件大小限制在100KB以内,如果没有文本文件,可在创建项目页面下载示例文件进行上传分析,上传的文本文件会通过特殊加密处理,保证其不会泄露)。创建项目完成后,点击项目即可进入项目,然后开始分析,即可开启你的“智分析”之旅,详细步骤请参考“智分析”官方使用手册中的快速入门中的四步开启“智分析”之旅。

然后怎么使用呢?一方面,可通过新词发现功能进行词库的添加,另一方面可通过关键词提取功能进行停用词库的添加,添加完毕后,点击查看文件即可进行重新分析,详细步骤请参考“智分析”官方使用手册中的快速入门中的结果调试。



到这里,使用“智分析”的精髓就差不多啦,是不是特别简单?还不赶快注册“智分析”体验一下!更多的详细使用帮助请参考“智分析”官方使用手册,建议一边操作,一边阅读使用手册。