update data and readme

carlos9310 · carlos9310 · commit 64176a6919c7 · 2019-08-19T23:17:51.000+08:00
diff --git a/README.md b/README.md
@@ -1,27 +1,56 @@
-# Spring-Boot-Neo4j-Movies
-Spring-Boot集成Neo4j并利用Spark的朴素贝叶斯分类器实现基于电影知识图谱的智能问答系统
-博客地址：https://blog.csdn.net/appleyk
+# Spring-Boot-KBQA
 
+以Spring Boot框架为载体，通过集成hanLP、neo4j、spark-mllib实现基于电影知识图谱的简易问答系统。
 
-升级Spark依赖，由原来的2.3升级到2.4，GitHub官方提醒> = 1.0.0，<= 2.3.2之间的版本容易受到攻击
-spark2.4  == >scala2.11 and scala2.12
+首先启动springboot后在浏览器中访问8080端口，接着在网页上输入关于电影的一些问题，前端页面通过AJAX请求将问题发送到后端接口，后端接收到请求后，先加载问题模板、字典、分类模型及自定义字典；再对问题分词后利用分类模型将原问题匹配到对应的问题模板上；最后针对不同种类的问题从图数据库neo4j中查询对应的答案并返回。
 
+# 数据
+- mysql (/data/movie_data_import.sql)
+- neo4j (先将mysql的数据导出csv文件，再导入到neo4j中，有利于比较两种数据库的关系，图数据库更适合对关系的处理。也可直接将/data/import.rar压缩包内的文件直接导入到neo4j中)
+    ```
 
-<!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core -->
-<dependency>
-	<groupId>org.apache.spark</groupId>
-	<artifactId>spark-core_2.12</artifactId>
-	<version>2.4.0</version>
-</dependency>
-<!-- https://mvnrepository.com/artifact/org.apache.spark/spark-mllib -->
-<dependency>
-	<groupId>org.apache.spark</groupId>
-	<artifactId>spark-mllib_2.12</artifactId>
-	<version>2.4.0</version>
-	<scope>runtime</scope>
-</dependency>
+    找到neo4j的安装路径，并在D:\neo4j-community-3.4.0\目录下创建import目录
+    完整路径如下D:\neo4j-community-3.4.0\import
+    因为neo4j支持导入csv文件，其默认目录入口是 ...\import
 
 
+    //导入节点 电影类型  == 注意类型转换
+    LOAD CSV WITH HEADERS  FROM "file:///genre.csv" AS line
+    MERGE (p:Genre{gid:toInteger(line.gid),name:line.gname})
 
 
-如果down下来的demo在本地无法运行，请自行降低版本，保证本地spark环境的版本号和pom中的spark依赖的jar包版本一致！
+    //导入节点 演员信息
+    LOAD CSV WITH HEADERS FROM 'file:///person.csv' AS line
+    MERGE (p:Person { pid:toInteger(line.pid),birth:line.birth,
+    death:line.death,name:line.name,
+    biography:line.biography,
+    birthplace:line.birthplace})
+
+
+    // 导入节点 电影信息
+    LOAD CSV WITH HEADERS  FROM "file:///movie.csv" AS line
+    MERGE (p:Movie{mid:toInteger(line.mid),title:line.title,introduction:line.introduction,
+    rating:toFloat(line.rating),releasedate:line.releasedate})
+
+
+    // 导入关系 actedin  电影是谁参演的 1对多
+    LOAD CSV WITH HEADERS FROM "file:///person_to_movie.csv" AS line
+    match (from:Person{pid:toInteger(line.pid)}),(to:Movie{mid:toInteger(line.mid)})
+    merge (from)-[r:actedin{pid:toInteger(line.pid),mid:toInteger(line.mid)}]->(to)
+
+    //导入关系  电影是什么类型 == 1对多
+    LOAD CSV WITH HEADERS FROM "file:///movie_to_genre.csv" AS line
+    match (from:Movie{mid:toInteger(line.mid)}),(to:Genre{gid:toInteger(line.gid)})
+    merge (from)-[r:is{mid:toInteger(line.mid),gid:toInteger(line.gid)}]->(to)
+    ```
+- 问题模板 (/data/question)
+- hanLP的数据 (https://github.com/hankcs/HanLP/releases 中的新数据包data-for-1.7.4.zip)
+- 自定义词典 (/data/自定义词典.zip解压后放到hanLP的相关目录下，具体路径参考/src/main/resources/application.properties)
+
+
+# windows下spark环境
+
+- [https://pan.baidu.com/s/1ZIsh5yRChR0zAJXnUui4jw](https://pan.baidu.com/s/1ZIsh5yRChR0zAJXnUui4jw)
+
+# 参考
+- [基于电影知识图谱的智能问答系统（八） -- 终极完结篇](https://blog.csdn.net/appleyk/article/details/80422055)
diff --git a/data/import.rar b/data/import.rar
diff --git a/data/movie_data_import.sql b/data/movie_data_import.sql
diff --git a/data/question/question_classification.txt b/data/question/question_classification.txt
@@ -0,0 +1,14 @@
+0:nm 评分
+1:nm 上映时间
+2:nm 类型
+3:nm 简介
+4:nm 演员列表
+5:nnt 介绍
+6:nnt ng 电影作品
+7:nnt 电影作品
+8:nnt 参演评分 大于 x
+9:nnt 参演评分 小于 x
+10:nnt 电影类型
+11:nnt nnr 合作 电影列表
+12:nnt 电影数量
+13:nnt 出生日期
diff --git a/data/question/vocabulary.txt b/data/question/vocabulary.txt
@@ -0,0 +1,190 @@
+0:一
+1:地区
+2:谁
+3:口碑
+4:分
+5:哪家
+6:公司
+7:将
+8:上
+9:关键人物
+10:下
+11:准备
+12:推动
+13:喜欢
+14:出品
+15:故事梗概
+16:与
+17:怎么样
+18:演
+19:片长
+20:吗
+21:相同
+22:多
+23:拍摄
+24:影院
+25:拿到
+26:编剧
+27:分数
+28:扮演者
+29:还有
+30:好看
+31:在
+32:哪里
+33:来自
+34:正在
+35:个
+36:背景
+37:成就
+38:中
+39:类似
+40:是
+41:由
+42:当中
+43:剧情
+44:列表
+45:多少
+46:风格
+47:这部
+48:放
+49:分析
+50:简介
+51:时长
+52:重要
+53:片
+54:格调
+55:相似
+56:之中
+57:豆瓣
+58:线索
+59:收获
+60:类似于
+61:情节
+62:网
+63:打
+64:国家
+65:全篇
+66:奖
+67:国人
+68:首映
+69:做
+70:公司出品
+71:上映
+72:多久
+73:这个
+74:出镜率
+75:赢得
+76:步
+77:介绍
+78:扮演
+79:核心人物
+80:受欢迎程度
+81:代表作品
+82:获奖
+83:差不多
+84:相关
+85:影响
+86:未来
+87:执导
+88:类型
+89:影评
+90:计划
+91:要
+92:出版
+93:观众
+94:了
+95:哪个
+96:看到
+97:出生于
+98:制片公司
+99:和
+100:中演
+101:演员表
+102:发行
+103:导演
+104:接受度
+105:热门
+106:得
+107:写
+108:情况
+109:多长时间
+110:什么样
+111:评价
+112:身份
+113:较高
+114:度
+115:生日
+116:题材
+117:主要
+118:多长
+119:放映
+120:发展
+121:走向
+122:时间
+123:讲
+124:筹划
+125:饰演
+126:人
+127:评
+128:首播
+129:过去
+130:梗概
+131:过
+132:演员
+133:拍
+134:经典作品
+135:获得
+136:电影
+137:评分
+138:成绩
+139:网上
+140:票房
+141:高
+142:角色介绍
+143:还
+144:给
+145:个人
+146:哪一天
+147:制片
+148:可以
+149:内容
+150:出品公司
+151:名字
+152:剧情简介
+153:人物
+154:片子
+155:部
+156:奖项
+157:故事
+158:哪
+159:叫
+160:作品
+161:制作
+162:时候
+163:怎么
+164:角色
+165:程度
+166:版权
+167:出生日期
+168:那天
+169:对
+170:即将
+171:出
+172:属于
+173:上线
+174:中的
+175:拿
+176:大于
+177:出生
+178:喜剧
+179:ng
+180:出演
+181:以上
+182:以下
+183:小于
+184:种类
+185:合作
+186:一起
+187:合拍
+188:nnr
+189:信息
diff --git a/data/question/【0】评分.txt b/data/question/【0】评分.txt
@@ -0,0 +1,9 @@
+nm的评分是多少
+nm得了多少分
+nm的评分有多少
+nm的评分
+nm的分数是
+nm电影分数是多少
+nm评分
+nm的分数是多少
+nm这部电影的评分是多少
diff --git a/data/question/【10】某演员出演过哪些类型的电影.txt b/data/question/【10】某演员出演过哪些类型的电影.txt
@@ -0,0 +1,6 @@
+nnt演过哪些风格的电影
+nnt演过的电影都有哪些风格
+nnt演过的电影有哪些类型
+nnt演过风格的电影
+nnt演过类型的电影
+nnt演过题材的电影
diff --git a/data/question/【11】演员A和演员B合作了哪些电影.txt b/data/question/【11】演员A和演员B合作了哪些电影.txt
@@ -0,0 +1,5 @@
+﻿nnt和nnr合作的电影有哪些
+nnt和nnr一起拍了哪些电影
+nnt和nnr一起演过哪些电影
+nnt与nnr合拍了哪些电影
+nnt和nnr合作了哪些电影
diff --git a/data/question/【12】某演员一共演过多少电影.txt b/data/question/【12】某演员一共演过多少电影.txt
@@ -0,0 +1,4 @@
+﻿nnt一共参演过多少电影
+nnt演过多少部电影
+nnt演过多少电影
+nnt参演的电影有多少
diff --git a/data/question/【13】演员出生日期.txt b/data/question/【13】演员出生日期.txt
@@ -0,0 +1,12 @@
+nnt的出生日期
+nnt的生日
+nnt生日多少
+nnt的出生是什么时候
+nnt的出生是多少
+nnt生日是什么时候
+nnt生日什么时候
+nnt出生日期是什么时候
+nnt什么时候出生的
+nnt出生于哪一天
+nnt的出生日期是哪一天
+nnt哪一天出生的
diff --git a/data/question/【1】上映.txt b/data/question/【1】上映.txt
@@ -0,0 +1,8 @@
+nm的上映时间是什么时候
+nm的首映时间是什么时候
+nm什么时候上映
+nm什么时候首映
+nm什么时候在影院上线
+什么时候可以在影院看到nm
+nm什么时候在影院放映
+nm什么时候首播
diff --git a/data/question/【2】风格.txt b/data/question/【2】风格.txt
@@ -0,0 +1,7 @@
+nm的风格是什么
+nm是什么风格的电影
+nm的格调是什么
+nm是什么格调的电影
+nm是什么类型的电影
+nm的类型是什么
+nm是什么类型的
diff --git a/data/question/【3】剧情.txt b/data/question/【3】剧情.txt
@@ -0,0 +1,11 @@
+nm的剧情是什么
+nm主要讲什么内容
+nm的主要剧情是什么
+nm主要讲什么故事
+nm的故事线索是什么
+nm讲了什么
+nm的剧情简介
+nm的故事内容
+nm的主要情节
+nm的情节梗概
+nm的故事梗概
diff --git a/data/question/【4】某电影有哪些演员出演.txt b/data/question/【4】某电影有哪些演员出演.txt
@@ -0,0 +1,6 @@
+nm有哪些演员出演
+nm是由哪些人演的
+nm中参演的演员都有哪些
+nm中哪些人演过
+nm这部电影的演员都有哪些
+nm这部电影中哪些人演过
diff --git a/data/question/【5】演员简介.txt b/data/question/【5】演员简介.txt
@@ -0,0 +1,12 @@
+nnt
+nnt
+nnt
+nnt
+nnt
+nnt是
+nnt是谁
+nnt的介绍
+nnt的简介
+谁是nnt
+nnt的详细信息
+nnt的信息
diff --git a/data/question/【6】某演员出演过的类型电影有哪些.txt b/data/question/【6】某演员出演过的类型电影有哪些.txt
@@ -0,0 +1,7 @@
+nnt演过哪些ng电影
+nnt演哪些ng电影
+nnt演过ng电影
+nnt演过什么ng电影
+nnt演过ng电影
+nnt演过的ng电影有哪些
+nnt出演的ng电影有哪些
diff --git a/data/question/【7】某演员演了什么电影.txt b/data/question/【7】某演员演了什么电影.txt
diff --git a/data/question/【8】演员参演的电影评分【大于】.txt b/data/question/【8】演员参演的电影评分【大于】.txt
diff --git a/data/question/【9】演员参演的电影评分【小于】.txt b/data/question/【9】演员参演的电影评分【小于】.txt
diff --git a/data/自定义词典.zip b/data/自定义词典.zip