亚搏下载客户端亚搏下载客户端


亚搏彩票客服

AI帮助您提取摘要:87行代码可以实现挽救懒惰的癌症患者

    当我们不想读长篇小说时,QbitAI,这个公共数字让计算机帮助我们提取文章摘要。这是懒惰的癌症患者的福音,而且它也可以节省很多时间。现在,有人正在教您如何使用Python进行此操作,甚至不教您如何训练模型,这很容易理解。Praveen Dubey,一个完整的堆栈工程师,在Medium上分享了他的代码。现在我们来看看他的想法。Praveen Dubey首先面临几个步骤中提取摘要的方法选择问题。一般来说,生成抽象有两种方法:抽象和提取。抽象方法基于语义理解来选择单词,并对文章的内容进行总结,从而生成新的短文本。提取规则是通过选择保留最重要的词子集来总结文章。作者选择了提取方法。与抽象方法相比,这种方法不需要对文章有深入的理解。此外,提取方法得到的结果通常比抽象方法得到的结果要好,因为它使用原始文本中的词,与抽象方法不同,仍然存在自然语言生成的问题。本文采用无监督学习方法,基于相似度矩阵,对句子进行排序,找出句子之间的相似度并进行排序。这样做的另一个优点是不需要使用项目前培训和模型构建。概率是:将输入文章分成句子删除停止词建立相似度矩阵排序,基于矩阵选择前N个句子进行总结。接下来,按照以下步骤创建自己的摘要生成器。导入必要的软件库,从NLTK导入停止字,安装numpy和其他依赖库。从nltk.corpus导入停止字,从nltk...util导入cosine_.import numpy as npimport Networkx as NX生成简明句子def read_.(file_name):file=open(file_name,"r")filedata=file.readlines().=filedata[0]。对句子(句子)句子进行拆分。追加([R])。^a-zA-Z]、““”……的相似矩阵。拆分(“)”,句子。pop()返回句使用余弦相似度来发现句子之间的相似度。所谓余弦相似度就是两个向量的角度余弦,它用来度量向量之间的相似度。Def build_.y_.(句子,stop_.):\为范围中的idx1(len(句子),为范围中的idx1(句子):对于范围中的idx2(句子):如果idx1==idx2:\忽略相似句子矩阵[idx1][句子相似句子句子句子句子句子句子句子相似度]创建一个空相似度矩阵相似度矩阵对于范围中的idx1(句子):],句子[idx2],stop_.)返回相似度矩阵生成摘要方法将保持调用的所有其他辅助函数以保持摘要流水线的运行。Def._.y(file_name,top_n=5):s top_.=s top.。单词(.).y_text=[]步骤1-读取文本和标记语句s=read_.(file_name)步骤2-跨句子s_._.y_martix=build_.y_.(ces,s top_.)句子3-相似性martix中的秩语句Entence_.y_.=nx.from_numpy_.(s entence_._martix_martix)ity_martix).=nx.pagerank(s entence_.y_.)#步骤4-对秩进行排序,并拾取顶级entence s ranked_s entence=sorted((.[i],s)表示i,s n枚举率(s entence s),.=True)打印(“top_ranked_s entence s的索引是”ranked_s entence)表示I._n):Summ_text.追加join(ranked_.[i][1])步骤5-Off.,输出摘要文本r打印(“Summarize Text:

    “。”join(._text)“总结了上面的代码,以便获得完整的代码。作者对微软新闻的314个单词段落进行了实验,获得了不到100个单词的摘要。效果明显。如果你认为减少是不够的,你可以做更多的减少字符的数量。作者在程序中使用TextRank对语句进行排序,这是一种基于图的通用NLP排序算法。TextRank不依赖于任何训练数据,并且可以处理任何文本。此外,还有许多先进的技术可以用来提取文本摘要。作者还提供了两篇这方面的文章。如果你对这个话题感兴趣,你可以进一步研究。门户项目地址:https://github.com/edubey/text-.r文本摘要技术概述:https://arxiv.org/abs/1707.02268v3自然语言生成调查:核心任务、应用和评估:https://arxiv.org/abs/1703.09902v1

欢迎阅读本文章: 王文家

亚博88国际在线

亚搏彩票客服