万页文体分析系统简介

发布者：刘峰发布时间：2020-11-19浏览次数：2672

万页文体分析系统简介

前言

万页公司，一家以机器学习为基础，结合国内顶尖算法工程师、专业作家与编辑，经过近多年的努力，开发了人工智能处理文本模型，为文本的海量学习、研究提供专业化、技术化的服务机构。基于数字人文的理念，搭建人工智能模型处理人文学科文本，从源头解决阅读、学习、教学、研究的效率、质量、方法问题。开发了国内首个用于人文学科文本研究的人工智能文本分析系统。

《万页文本分析系统》包含两大文本处理软件工具『知识眼』和『小简』。本系统采用NLP自然语言处理、句法分析、语义依赖分析、无监督学习算法，数百万字长篇秒读，5秒钟绘制情节曲线，掌握故事大致脉络与情节走向；迅速掌握故事关键词云、人物、地点、场景TOP分布、人物占比与羁绊关系；重要场景、情节曲线、情节竞争力事件，华彩章节，一目了然。快速阅读与精准分析，既能帮助实现千百万字网文的快速阅读，也能迅速实现各类文学作品的判断评估。能在10分钟内迅速按需求数量提取主要情节，大大提高阅读速度。从源头解决文科院系师生阅读、研究的质量与效率问题，为论文写作提供更便捷的研究手段，更多元的研究角度，是人文学科研究领域方法论的重大变革。

一、研发背景

自20世纪90年代以来，随着数字技术和信息技术的不断发展，计算方法逐渐深入人文学科领域，并逐渐改变其研究范式，对人文学科未来发展以及文学研究转型具有重要启示意义。各种电子资料库、数据库等的建立和阅览检索方式的改变，正逐渐改变传统意义上的纸质媒体为主要对象、文本细读为主要方法的人文学科研究。

近几年“数字人文”正逐渐成为人文学科研究领域中的崭新的方法论，为人文学科的研究提供了一个前所未有方法，应用主要体现在如下两个方面：

一是，利用AI技术帮助研究人员从海量的文字中发现那些单纯依靠人工无法发现，但又客观存在的事实。主要通过文本挖掘、主体建模、智能分析等分析工具可视化、系统化、规范化地呈现研究对象。这种文本分析方式，较之于传统的研究方法，促进了人文学科研究工具的革新，正逐渐开辟出一条突破时空界限、实现“技术-艺术-文学”合一、量化研究与质性研究交织的人文研究路径。

二是，依靠人工智能的方式，为研究者预测那些我们不知道的信息，用科学的方法来验证研究者的设想，为研究者提供研究方向。通过深度分析文本，可得出研究者所期望预测研究文本的主题情感、人物形象或故事情节。这一研究路径突破了传统文学研究的局限，利于人文研究学者发现新的问题，并对某一重要问题进行相关预测性研究。

总之，“数字人文”的诞生使得传统的人文学科研究带有科学的方法论和科学的精神，并且在这场新的革命性变革中，研究者得以使用当代计算机科学技术更新传统的人文学科研究范式，为人文研究者带来了便利、实现了新的“创新”和“建造”；另一方面，数字技术的介入为文学研究构建了新的认知方式、新的研究范式以及新的实践方式。数字人文在认识论和方法论上的学术价值及发展前景。

二、产品介绍

基于“数字人文”的广阔应前景，充分利人工智能先进技术，团队集结顶尖算法工程师与专业作家、编辑，开发了《文本分析系统》，旨在从源头解决学术研究的方法、效率、质量问题。《文本分析系统》主要包括「知识眼」文本结构分析模块和「小简」文本精华提取模块。

功能模块如下图：

1、『知识眼』

利用AI技术将文本数据化、可视化，将文学作品中的高频词、人物、地点等，以数值、图表、词云等更直观的形式体现，实现质化研究和量化研究的完美结合，提高学习效率，为科研、论文写作提供全新的角度；数百万字长篇秒读，5分钟绘掌握情节走向，提取高频词、人物、地点等相关重要因素，并分析其关系。

2、『万页小简』

运用NLP自然语言处理、句法分析、语义依赖分析、无监督学习算法……能在10分钟内迅速按需求数量提取主要情节；客观公正，无任何人为解读，人工智能按比例浓缩提取全书精华，不增加、不修改原文；保留全书知识结构框架，避免断章取义，形成脉络清晰的知识导读；可调整模型中各项的权重，实现在不同粒度、不同压缩比下对文本的压缩，适应各类场景的不同需要；大大提高阅读速度。

通过对模型输入层和输出层的优化，秒速、按需压缩几十万字中文出版物，提取全书精华，提取内容纲要，让您1年读完1800本书成为可能！

三、技术简介

1.知识眼：文本结构分析软件

「知识眼」的题材分析工具，「关系分析模型」采用了语义分析和统计分析相结合的方式来分析元素间的关联强弱。首先，模型找到文中当前关键词指向的语义元素所在的全部位置，然后逐对进行语义分析，比如“小明和小红是中学同学”就会加强“小明”和“小红”之间的关联，最终模型统计全部的结果，进行后置处理，并绘制关系图。

模型兼顾短距关联和长距关联，也不限于人物、地点等元素类型，比如对于学术类内容的抽象概念，也可以进行类似分析。

部分分析结果示例图：

「知识眼」的冲突曲线模型包含了公司独创的研究成果。

我们发现，如果想用一条简单的线条描绘一个故事的“形状”，那么其中需要包含情绪情感、结构意义、节奏节拍等几个维度的特征。

我们使用了当前自然语言处理领域多项前沿的模型，来分别刻画文本在这些维度上的特征，比如基于深度学习的情感极性分析等。然后，为了综合这些特征并视觉化成符合人类心理预期的形状，我们通过采集读者/观众微表情的实证研究方法，进行了大量的实验，最终找到了目前使用的模型算法和曲线数学表示。

我们深知，优秀的基础模型只是好产品的基础，为了让曲线模型真正成为一个好用的研究工具，我们在性能优化和产品交互上进行了大量投入，开发了诸如曲线文本双向对应跳转、关键文本位置标记、曲线粒度调节等多项便捷功能。

作品情绪曲线示例图:

2、小简：文本精华提取软件

「小简」是万页在文摘领域的研究创新。

小简的模型承袭了学界多年的研究成果，并对文摘技术在商业场景进行应用的多项弱点进行了针对性的强化。

首先，模型对文本进行分句和分词处理，然后将文本并行输送到几个分析单元进行不同侧重的语义分析，其中有的侧重语法层面的统计特征，有的侧重语义特征，有的侧重文本的高层次结构特征等。经这些分析单元处理之后，文本变成了一系列的“语义权重矩阵”，然后由一个加权单元综合这些结果，得到统一的语义矩阵，并最终输送到最后的排序器，使用万页改良过的图排序（Graph-ranking）算法进行最终的选择和输出。

另外由于加权单元的存在，小简还可以“动态”调整自己的“理解侧重”，来更好适应特定类型的内容，比如新闻、学术著作等，从而得到更好的结果。

文本精华提取示例图：

四、应用案例

（一）部分典型用户及成果

1、复旦大学、南京大学、同济大学、上海大学、杭州师范大学、巴金故居研究会

······

2、利用本秕已发表的部分成果：

《‹收获›刊载小说的数据性考察（1979--2018）》，发表于《中国现代文学研究（从刊）》

《网络小说的数据法与类型论--以2018年的749部中国网络小说为考察对象》，发表于《扬子江评论》

《数据分析视角下的茅盾文学奖研究》，预计发表在2020《中国比较文学》第二期；

······

（二）用户利用系统正在进行的部分研究课题