万页文体分析系统简介

发布者:刘峰发布时间:2020-11-19浏览次数:10

万页文体分析系统简介

 

 

万页公司,一家以机器学习为基础,结合国内顶尖算法工程师、专业作家与编辑,经过近多年的努力,开发了人工智能处理文本模型,为文本的海量学习、研究提供专业化、技术化的服务机构。基于数字人文的理念,搭建人工智能模型处理人文学科文本,从源头解决阅读、学习、教学、研究的效率、质量、方法问题。开发了国内首个用于人文学科文本研究的人工智能文本分析系统。

《万页文本分析系统》包含两大文本处理软件工具『 知识眼 』和『 小简 』。本系统采用NLP自然语言处理、句法分析、语义依赖分析、无监督学习算法,数百万字长篇秒读,5秒钟绘制情节曲线,掌握故事大致脉络与情节走向;迅速掌握故事关键词云、人物、地点、场景TOP分布、人物占比与羁绊关系;重要场景、情节曲线、情节竞争力事件,华彩章节,一目了然。快速阅读与精准分析,既能帮助实现千百万字网文的快速阅读,也能迅速实现各类文学作品的判断评估。能在10分钟内迅速按需求数量提取主要情节,大大提高阅读速度。从源头解决文科院系师生阅读、研究的质量与效率问题,为论文写作提供更便捷的研究手段,更多元的研究角度,是人文学科研究领域方法论的重大变革。


 

一、研发背景

20世纪90年代以来,随着数字技术和信息技术的不断发展,计算方法逐渐深入人文学科领域,并逐渐改变其研究范式,对人文学科未来发展以及文学研究转型具有重要启示意义。各种电子资料库、数据库等的建立和阅览检索方式的改变,正逐渐改变传统意义上的纸质媒体为主要对象、文本细读为主要方法的人文学科研究。

近几年“数字人文”正逐渐成为人文学科研究领域中的崭新的方法论,为人文学科的研究提供了一个前所未有方法,应用主要体现在如下两个方面:

一是,利用AI技术帮助研究人员从海量的文字中发现那些单纯依靠人工无法发现,但又客观存在的事实。主要通过文本挖掘、主体建模、智能分析等分析工具可视化、系统化、规范化地呈现研究对象。这种文本分析方式,较之于传统的研究方法,促进了人文学科研究工具的革新,正逐渐开辟出一条突破时空界限、实现“技术-艺术-文学”合一、量化研究与质性研究交织的人文研究路径。

二是,依靠人工智能的方式,为研究者预测那些我们不知道的信息,用科学的方法来验证研究者的设想,为研究者提供研究方向。通过深度分析文本,可得出研究者所期望预测研究文本的主题情感、人物形象或故事情节。这一研究路径突破了传统文学研究的局限,利于人文研究学者发现新的问题,并对某一重要问题进行相关预测性研究。

总之,“数字人文”的诞生使得传统的人文学科研究带有科学的方法论和科学的精神,并且在这场新的革命性变革中,研究者得以使用当代计算机科学技术更新传统的人文学科研究范式,为人文研究者带来了便利、实现了新的“创新”和“建造”;另一方面,数字技术的介入为文学研究构建了新的认知方式、新的研究范式以及新的实践方式。数字人文在认识论和方法论上的学术价值及发展前景。

二、产品介绍

基于“数字人文”的广阔应前景,充分利人工智能先进技术,团队集结顶尖算法工程师与专业作家、编辑,开发了《文本分析系统》,旨在从源头解决学术研究的方法、效率、质量问题。《文本分析系统》主要包括「知识眼」文本结构分析模块和「小简」文本精华提取模块。

 

 

功能模块如下图:

 

 

 

 

1、『 知识眼 』

利用AI技术将文本数据化、可视化,将文学作品中的高频词、人物、地点等,以数值、图表、词云等更直观的形式体现,实现质化研究和量化研究的完美结合,提高学习效率,为科研、论文写作提供全新的角度;数百万字长篇秒读,5分钟绘掌握情节走向,提取高频词、人物、地点等相关重要因素,并分析其关系。

 

2、『 万页小简』

运用NLP自然语言处理、句法分析、语义依赖分析、无监督学习算法……能在10分钟内迅速按需求数量提取主要情节;客观公正,无任何人为解读,人工智能按比例浓缩提取全书精华,不增加、不修改原文;保留全书知识结构框架,避免断章取义,形成脉络清晰的知识导读;可调整模型中各项的权重,实现在不同粒度、不同压缩比下对文本的压缩,适应各类场景的不同需要;大大提高阅读速度。

通过对模型输入层和输出层的优化,秒速、按需压缩几十万字中文出版物,提取全书精华,提取内容纲要,让您1年读完1800本书成为可能!

三、技术简介

1.知识眼:文本结构分析软件

「知识眼」的题材分析工具,「关系分析模型」采用了语义分析和统计分析相结合的方式来分析元素间的关联强弱。首先,模型找到文中当前关键词指向的语义元素所在的全部位置,然后逐对进行语义分析,比如“小明和小红是中学同学”就会加强“小明”和“小红”之间的关联,最终模型统计全部的结果,进行后置处理,并绘制关系图。

模型兼顾短距关联和长距关联,也不限于人物、地点等元素类型,比如对于学术类内容的抽象概念,也可以进行类似分析。

部分分析结果示例图:

 

 

「知识眼」的冲突曲线模型包含了公司独创的研究成果。

我们发现,如果想用一条简单的线条描绘一个故事的“形状”,那么其中需要包含情绪情感、结构意义、节奏节拍等几个维度的特征。

我们使用了当前自然语言处理领域多项前沿的模型,来分别刻画文本在这些维度上的特征,比如基于深度学习的情感极性分析等。然后,为了综合这些特征并视觉化成符合人类心理预期的形状,我们通过采集读者/观众微表情的实证研究方法,进行了大量的实验,最终找到了目前使用的模型算法和曲线数学表示。

我们深知,优秀的基础模型只是好产品的基础,为了让曲线模型真正成为一个好用的研究工具,我们在性能优化和产品交互上进行了大量投入,开发了诸如曲线文本双向对应跳转、关键文本位置标记、曲线粒度调节等多项便捷功能。

作品情绪曲线示例图:

 

 

2、小简:文本精华提取软件

「小简」是万页在文摘领域的研究创新。

小简的模型承袭了学界多年的研究成果,并对文摘技术在商业场景进行应用的多项弱点进行了针对性的强化。

首先,模型对文本进行分句和分词处理,然后将文本并行输送到几个分析单元进行不同侧重的语义分析,其中有的侧重语法层面的统计特征,有的侧重语义特征,有的侧重文本的高层次结构特征等。经这些分析单元处理之后,文本变成了一系列的“语义权重矩阵”,然后由一个加权单元综合这些结果,得到统一的语义矩阵,并最终输送到最后的排序器,使用万页改良过的图排序(Graph-ranking)算法进行最终的选择和输出。

另外由于加权单元的存在,小简还可以“动态”调整自己的“理解侧重”,来更好适应特定类型的内容,比如新闻、学术著作等,从而得到更好的结果。

    文本精华提取示例图:

 

四、应用案例

(一)部分典型用户及成果

1、复旦大学、南京大学、同济大学、上海大学、杭州师范大学、巴金故居研究会

······

2、利用本秕已发表的部分成果:

《‹收获›刊载小说的数据性考察(1979--2018)》,发表于《中国现代文学研究(从刊)》

《网络小说的数据法与类型论--2018年的749部中国网络小说为考察对象》,发表于《扬子江评论》

《数据分析视角下的茅盾文学奖研究》,预计发表在2020《中国比较文学》第二期;

······     

(二)用户利用系统正在进行的部分研究课题

1、北京师范大学张教授共同完成127位中国当代新锐男女作家以及10位著名作家“我们时代的性别观”词频统计,观察作家不同性别、不同代际的用词变化(预计2020.5月出书);

2、华东师范大学项教授共同完成2000-2019中国作家地域空间变迁研究(预计2020年完成该课题);

3、北京大学邵教授共同完成路遥《平凡的世界》对网络文学逆袭模式的叙事结构影响;

4、上海戏剧学院陆教授共同完成论文《用科技手段促进戏曲创作新发展——人工智能助力新时代的新戏曲》,预计2020年发表;

5、巴金故居合作完成《2009-2019年巴金研究状况的数据统计》,已于2019.10.19-20,第十三届巴金国际学术研讨会上印行推出;

6、华东师范大学宣传部合作完成《2009-2019高校教师舆情监控研究状况的数据统计》,预计2019年底完成;

五、服务方式

1SAAS系统服务,免除您维护之忧

   IP控制,远程访问,按年付费                                  

2、不断升级增加新功能

   系统不断升级中,更多功能给您带来更多惊喜

                                          

六、试用帐号

访问地址

https://read.laixi.pro

用户名

Test10

Test11

密码

Test1600

Test1944

有效期限

202011

20211