首页
您所在的位置:首页 > 句子 > 正文

NLP中文句子类型判别和分类实现

作者:句子 来源:原创 日期:2021/9/14 21:27:02 人气:110 加入收藏 标签:文件 例如 句子 疑问 比较

内容

一、汉语句型的主要分类

一、声明

2. 特别句

3. 问题

2.汉语简单句型分析

3.结合句法分析和正则化来标记句子类型

4. 句型研究与规则总结

5. 中文句型分类工具sentypes的实现

主题第一(Subject_front),例如每个人都非常热衷于此。主题为首(theme_front),例如红绿灯,真的很有趣复合句(复杂),例如他们飞得很高很远,穿过白云,飞过海洋

ba_struct(ba_struct),例如:太阳用字(bei_struct)驱走了寒冷的冬天,例如:衣服被雨淋湿了,存在(exist),例如:门口有两只狮子(叹气) ) , 示例:非常感谢!当务之急,例如:小心!结扎句(lian_struct),例如:我不仅眼睛不舒服,而且我的耳朵似乎也很痛。是一个句子(shi_struct),例如:我父亲是老师比较句子(compare),例如:我比你强

问题词(question_words),例如:你什么时候回来对或错的问题(是否),例如:今天你会准时下课吗?选择题(choice),例如:he come by train 是的,还是car come的正反题(pos_and_neg),例如:Are you are far of the wind 吹气附加题(attach),例如:这是小明的,是不是反了,比如:你不喜欢他吗? ?

1.陈述句

陈述句的五种基本句型:

主语+连接动词+谓语,主语+谓语(不及物动词) 主语+谓语(及物动词)+宾语主语+谓语(及物动词)+间接宾语+直接宾语主语+谓语(及物动词) v.+宾语+宾语补语;其中,主语中心的主语一般是人,通常有多个复合句平行动宾结构。

2, 感叹句

感慨万千的句子。表达强烈的感情,如高兴、惊奇、悲伤、厌恶、恐惧等。感叹句一般用降调,句末用感叹号(!)。

由感叹词组成的感叹句

哎呀!帮助哟!

由名词组成的感叹句

天哪!这一定是死了!

口号或祝贺感叹句

全国各族人民团结万岁!

由“许多、多少、好、真”等副词和句尾情态助词组成的感叹句

应该多棒!

3.祈使句

祈使句的功能是请求、请求或命令、劝告、煽动、建议别人做或不做某事。感叹号通常用在祈使句的末尾,但有些祈使句语气弱,可以以句号结尾。祈使句可以以情态助词“ba”结尾,也可以不加情态助词。祈使句可以表达命令、请求、禁止、劝阻等。祈使句的主语常被省略。

(1) 表示命令的祈使句:保持安静!起来!站立!起来!去灭火吧!等待

(2)请求的语句格式:请……(请等我);例如:请给我们更多的意见!请坐下!回答这个问题!帮我个忙!等待

(3) 被禁止的句子:no..., no..., dont...(这里禁止停车!);例如:别动!不要胡说八道!这里禁止吸烟!你别走!不要随便说话!等待

(4)表达劝阻的句型:Dont...(不要在车里吃喝);例子:听老师的话!诸位,歇会儿吧!简单说几句吧!不要取笑他!

4.疑问句(见)

(1) 是/非问题

主要特点是回答时使用肯定或否定回答句,情态助词“?”一般用于是/非疑问句;

例如:将

(2) 具体问题(question question)

具体问题的词序与陈述句相同。对于问题的哪一部分,将疑问词置于该部分的位置,并加上疑问语调,陈述句成为具体疑问句。

具体参考问题疑问词绝大多数是疑问代词,如“谁、哪里、什么”等;有些疑问词采用“多+形容词”的形式,如“多大、多高、多长”等。

(3)选择题

选择题采用选择的形式提出两种(或更多)不同的情况,并要求对方选择其中一种情况作为答案。选择题常与“是……或……”相连,“是”也可以省略。

(4)正反题

正反疑问句是将谓语的正反形式放在一起然后提出问题的问题。被访者可以选择其中之一作为答案。正反疑问句可以加也可以不加,但不能加“?”。

比如:会不会,会不会,能不能,信不信,怕不怕,能不能,能算吗?

(5) 反问句

反问句用于以疑问句的形式表达肯定或否定的意思,重点突出。

比如:难,难不难,怎么可能,怎么可能,怎么可能,难不难,难不难?

注意:对错题和正反题的区别,对错题一般用情态助词“?”,对错题和正反题有很大关系,有的比较难区分。

5. 特别句

?特殊句中的ba词句、be词句、存在句、连字句和yes词句可以通过关键词和语法结构来判断。

(1) 存在句

存在句:某处(某人)有/没有某物

(2)比较句

比较句:现代汉语比较句是指谓语中包含比较词或比较形式的句子。

介词比;太湖比西湖还大

固定结构:same as (and, same, and, like)……;今天和昨天一样温暖吗? (常规的)

有比较句的介绍进行比较;弟弟(不)和哥哥一样高

用inferior来介绍比较;看这种电影还是睡觉比较好

用like引入比较对象;像安娜 她妈妈那么漂亮?

比较带有“越来越多”的句子;天气越来越暖和

数据集语料可以选择开放对话数据集:对话数据集下载;你可以使用 LTP、StanfordCoreNLP 等。分析句型的语法结构; LTP中文句法分析;根据句子特定结构的关键字构造正则表达式;结合正则表达式和句法分析,标记疑问句、陈述句和特殊句;可以使用 XGBoost 等模型进行训练和测试或直接使用正则和句法结构进行判别;

使用语料库:一个话语数据的数据集;结合正则和句法分析来分析句子:基于Python的正则表达式;基于Python的LTP语法分析;根据正则句法分析总结出句型、正则式和句法结构等规则;使用人工标注的句型数据进行测试,逐步完善语法规则;测试结果符合预期

1.基于C++中的regex库组件构造一个正则表达式接口类RegularEX;

2、完成Linux下句法分析LTP的C++源代码的编译和测试;

3. 构建一个基于C++的解析类Parsing,可用于分词、词性标注和句法分析;

4、根据正则EX、解析和句型规则等完成所有句型的分类代码;

5、编写Makefile文件;

6、将库文件、模型文件和代码文件打包,在该文件夹下,执行make命令生成可执行文件sentypes,即句型分类工具;

文件主要包括: (1) 依赖库文件:include、lib、第三方; (2) LTP模型:ltp_model; (3) 语法分析和正则表达式类的头文件:parsing.h、regular_ex.h; (4)句型分类主程序:sentence_type .cpp; (5) Makefile文件

7. sentypes 工具包含两个命令参数,分别是输入文件和输出文件。其中,输入文件为句子文件,输出文件为标注了句子类型的结果文件;

示例:Linux下运行sentypes工具

结果如下:

其中,输入文件test_sen的格式和部分内容如下

输出文件结果的格式和结果如下

笔记:

句型判别工具sentypes的句子优先级为:正反题、反题、选择题、疑问题、对错题;祈使句、八字句、被子句、比较句、存在句、是字句、连字句;陈述句;其他句子。

(1)目前句型有14种,其中疑问句型5种,特殊句型7种。在陈述句中,简单句和复合句归为一类,即以主语为首的陈述句类型,未识别的句型标记为“其他”。

(2)如果句子同时有两个或两个以上的句型,则按优先级标记句型;

?

句型分类工具已上传到GitHub,关注我github。可下载试用版:sentypes 句型判别工具? ?//目前只提供思路,暂时不支持下载

?

8.句型分类工具优化及版本更新

(1) Segmentation fault (core dumped) 问题解决

在 Linux 下运行 sentypes 工具。如果出现以下错误,请使用?sentypes_v1.2?版本

sentypes_v1.2?工具包含五个命令参数,分别是输入文件和输出文件、分词模型(cws.model)、词性标注模型(pos.model)和句法分析模型(parser.model)

模型下载:ltp_data_v3.4.0.zip

Linux下运行sentypes_v1.2工具:

本文网址:http://yancijuji.com/juzi/3388.html
读完这篇文章后,您心情如何?
  • 0
  • 0
  • 0
  • 0
  • 0
  • 0
  • 0
  • 0