内容
一、汉语句型的主要分类
一、声明
2. 特别句
3. 问题
2.汉语简单句型分析
3.结合句法分析和正则化来标记句子类型
4. 句型研究与规则总结
5. 中文句型分类工具sentypes的实现
主题第一(Subject_front),例如每个人都非常热衷于此。主题为首(theme_front),例如红绿灯,真的很有趣复合句(复杂),例如他们飞得很高很远,穿过白云,飞过海洋
ba_struct(ba_struct),例如:太阳用字(bei_struct)驱走了寒冷的冬天,例如:衣服被雨淋湿了,存在(exist),例如:门口有两只狮子(叹气) ) , 示例:非常感谢!当务之急,例如:小心!结扎句(lian_struct),例如:我不仅眼睛不舒服,而且我的耳朵似乎也很痛。是一个句子(shi_struct),例如:我父亲是老师比较句子(compare),例如:我比你强
问题词(question_words),例如:你什么时候回来对或错的问题(是否),例如:今天你会准时下课吗?选择题(choice),例如:he come by train 是的,还是car come的正反题(pos_and_neg),例如:Are you are far of the wind 吹气附加题(attach),例如:这是小明的,是不是反了,比如:你不喜欢他吗? ?
1.陈述句
陈述句的五种基本句型:
主语+连接动词+谓语,主语+谓语(不及物动词) 主语+谓语(及物动词)+宾语主语+谓语(及物动词)+间接宾语+直接宾语主语+谓语(及物动词) v.+宾语+宾语补语;其中,主语中心的主语一般是人,通常有多个复合句平行动宾结构。
2, 感叹句
感慨万千的句子。表达强烈的感情,如高兴、惊奇、悲伤、厌恶、恐惧等。感叹句一般用降调,句末用感叹号(!)。
由感叹词组成的感叹句
哎呀!帮助哟!
由名词组成的感叹句
天哪!这一定是死了!
口号或祝贺感叹句
全国各族人民团结万岁!
由“许多、多少、好、真”等副词和句尾情态助词组成的感叹句
应该多棒!
3.祈使句
祈使句的功能是请求、请求或命令、劝告、煽动、建议别人做或不做某事。感叹号通常用在祈使句的末尾,但有些祈使句语气弱,可以以句号结尾。祈使句可以以情态助词“ba”结尾,也可以不加情态助词。祈使句可以表达命令、请求、禁止、劝阻等。祈使句的主语常被省略。
(1) 表示命令的祈使句:保持安静!起来!站立!起来!去灭火吧!等待
(2)请求的语句格式:请……(请等我);例如:请给我们更多的意见!请坐下!回答这个问题!帮我个忙!等待
(3) 被禁止的句子:no..., no..., dont...(这里禁止停车!);例如:别动!不要胡说八道!这里禁止吸烟!你别走!不要随便说话!等待
(4)表达劝阻的句型:Dont...(不要在车里吃喝);例子:听老师的话!诸位,歇会儿吧!简单说几句吧!不要取笑他!
4.疑问句(见)
(1) 是/非问题
主要特点是回答时使用肯定或否定回答句,情态助词“?”一般用于是/非疑问句;
例如:将
(2) 具体问题(question question)
具体问题的词序与陈述句相同。对于问题的哪一部分,将疑问词置于该部分的位置,并加上疑问语调,陈述句成为具体疑问句。
具体参考问题疑问词绝大多数是疑问代词,如“谁、哪里、什么”等;有些疑问词采用“多+形容词”的形式,如“多大、多高、多长”等。
(3)选择题
选择题采用选择的形式提出两种(或更多)不同的情况,并要求对方选择其中一种情况作为答案。选择题常与“是……或……”相连,“是”也可以省略。
(4)正反题
正反疑问句是将谓语的正反形式放在一起然后提出问题的问题。被访者可以选择其中之一作为答案。正反疑问句可以加也可以不加,但不能加“?”。
比如:会不会,会不会,能不能,信不信,怕不怕,能不能,能算吗?
(5) 反问句
反问句用于以疑问句的形式表达肯定或否定的意思,重点突出。
比如:难,难不难,怎么可能,怎么可能,怎么可能,难不难,难不难?
注意:对错题和正反题的区别,对错题一般用情态助词“?”,对错题和正反题有很大关系,有的比较难区分。
5. 特别句
?特殊句中的ba词句、be词句、存在句、连字句和yes词句可以通过关键词和语法结构来判断。
(1) 存在句
存在句:某处(某人)有/没有某物
(2)比较句
比较句:现代汉语比较句是指谓语中包含比较词或比较形式的句子。
介词比;太湖比西湖还大
固定结构:same as (and, same, and, like)……;今天和昨天一样温暖吗? (常规的)
有比较句的介绍进行比较;弟弟(不)和哥哥一样高
用inferior来介绍比较;看这种电影还是睡觉比较好
用like引入比较对象;像安娜 她妈妈那么漂亮?
比较带有“越来越多”的句子;天气越来越暖和
数据集语料可以选择开放对话数据集:对话数据集下载;你可以使用 LTP、StanfordCoreNLP 等。分析句型的语法结构; LTP中文句法分析;根据句子特定结构的关键字构造正则表达式;结合正则表达式和句法分析,标记疑问句、陈述句和特殊句;可以使用 XGBoost 等模型进行训练和测试或直接使用正则和句法结构进行判别;
使用语料库:一个话语数据的数据集;结合正则和句法分析来分析句子:基于Python的正则表达式;基于Python的LTP语法分析;根据正则句法分析总结出句型、正则式和句法结构等规则;使用人工标注的句型数据进行测试,逐步完善语法规则;测试结果符合预期
1.基于C++中的regex库组件构造一个正则表达式接口类RegularEX;
2、完成Linux下句法分析LTP的C++源代码的编译和测试;
3. 构建一个基于C++的解析类Parsing,可用于分词、词性标注和句法分析;
4、根据正则EX、解析和句型规则等完成所有句型的分类代码;
5、编写Makefile文件;
6、将库文件、模型文件和代码文件打包,在该文件夹下,执行make命令生成可执行文件sentypes,即句型分类工具;
文件主要包括: (1) 依赖库文件:include、lib、第三方; (2) LTP模型:ltp_model; (3) 语法分析和正则表达式类的头文件:parsing.h、regular_ex.h; (4)句型分类主程序:sentence_type .cpp; (5) Makefile文件
7. sentypes 工具包含两个命令参数,分别是输入文件和输出文件。其中,输入文件为句子文件,输出文件为标注了句子类型的结果文件;
示例:Linux下运行sentypes工具
结果如下:
其中,输入文件test_sen的格式和部分内容如下
输出文件结果的格式和结果如下
笔记:
句型判别工具sentypes的句子优先级为:正反题、反题、选择题、疑问题、对错题;祈使句、八字句、被子句、比较句、存在句、是字句、连字句;陈述句;其他句子。
(1)目前句型有14种,其中疑问句型5种,特殊句型7种。在陈述句中,简单句和复合句归为一类,即以主语为首的陈述句类型,未识别的句型标记为“其他”。
(2)如果句子同时有两个或两个以上的句型,则按优先级标记句型;
?
句型分类工具已上传到GitHub,关注我github。可下载试用版:sentypes 句型判别工具? ?//目前只提供思路,暂时不支持下载
?
8.句型分类工具优化及版本更新
(1) Segmentation fault (core dumped) 问题解决
在 Linux 下运行 sentypes 工具。如果出现以下错误,请使用?sentypes_v1.2?版本
sentypes_v1.2?工具包含五个命令参数,分别是输入文件和输出文件、分词模型(cws.model)、词性标注模型(pos.model)和句法分析模型(parser.model)
模型下载:ltp_data_v3.4.0.zip
Linux下运行sentypes_v1.2工具: