3 months ago · 4506a7dfa5
--- a/agent/cdss/libs/cdss_helper.py
+++ b/agent/cdss/libs/cdss_helper.py
@@ -100,7 +100,7 @@ class CDSSHelper(GraphHelper):
 
																                 continue
															
 
																             if os.path.exists(os.path.join(CACHED_DATA_PATH, f"relationship_med_{i}.json")):
															
 
																                 print(f"load entity data {CACHED_DATA_PATH}\\relationship_med_{i}.json")
															
 
																-                with open(f"{CACHED_DATA_PATH}\\relationship_med_{i}.json", "r", encoding="utf-8") as f:
															
 
																+                with open(os.path.join(CACHED_DATA_PATH, f"relationship_med_{i}.json"), "r", encoding="utf-8") as f:
															
 
																                     data = {"src": [], "dest": [], "type": [], "weight": []}
															
 
																                     relations = json.load(f)
															
 
																                     for item in relations:
															
--- a/main.py
+++ b/main.py
@@ -6,13 +6,15 @@ from typing import Optional, Set
 
																 # 导入FastAPI及相关模块
															
 
																 import os
															
 
																 import uvicorn
															
 
																+from fastapi.staticfiles import StaticFiles
															
 
																+from fastapi.middleware.cors import CORSMiddleware
															
 
																-from agent.cdss.capbility import CDSSCapability
															
 
																+# from agent.cdss.capbility import CDSSCapability
															
 
																 from router.knowledge_dify import dify_kb_router
															
 
																 from router.knowledge_saas import saas_kb_router
															
 
																 from router.text_search import text_search_router
															
 
																 from router.graph_router import graph_router
															
 
																-from router.knowledge_nodes_api import knowledge_nodes_api_router
															
 
																+# from router.knowledge_nodes_api import knowledge_nodes_api_router
															
 
																 # 配置日志
															
 
																 logging.basicConfig(
															
@@ -32,8 +34,18 @@ app.include_router(dify_kb_router)
 
																 app.include_router(saas_kb_router)
															
 
																 app.include_router(text_search_router)
															
 
																 app.include_router(graph_router)
															
 
																-app.include_router(knowledge_nodes_api_router)
															
 
																-
															
 
																+# app.include_router(knowledge_nodes_api_router)
															
 
																+
															
 
																+# 挂载静态文件目录，将/books路径映射到本地books文件夹
															
 
																+app.mount("/books", StaticFiles(directory="books"), name="books")
															
 
																+# 允许所有来源（仅用于测试，生产环境应限制）
															
 
																+app.add_middleware(
															
 
																+    CORSMiddleware,
															
 
																+    allow_origins=["*"],  # 允许所有来源（或指定 ["http://localhost:3000"]）
															
 
																+    allow_credentials=True,  # 允许携带 Cookie
															
 
																+    allow_methods=["*"],  # 允许所有方法（或指定 ["GET", "POST"]）
															
 
																+    allow_headers=["*"],  # 允许所有请求头
															
 
																+)
															
 
																 # 需要拦截的 URL 列表（支持通配符）
															
 
																 INTERCEPT_URLS = {
															
--- a/model/trunks_model.py
+++ b/model/trunks_model.py
@@ -15,6 +15,7 @@ class Trunks(Base):
 
																     title = Column(String(255))
															
 
																     referrence = Column(String(255))
															
 
																     meta_header = Column(String(255))
															
 
																+    page_no = Column(Integer) 
															
 
																     def __repr__(self):
															
 
																         return f"<Trunks(id={self.id}, file_path={self.file_path})>"
															
--- a/router/knowledge_saas.py
+++ b/router/knowledge_saas.py
@@ -64,6 +64,28 @@ async def paginated_search(
 
																             'load_props': True
															
 
																         }
															
 
																         result = service.paginated_search(search_params)
															
 
																+        
															
 
																+        # 定义prop_title的排序顺序
															
 
																+        prop_title_order = [
															
 
																+            '基础信息', '概述', '病因学', '流行病学', '发病机制', '病理学',
															
 
																+            '临床表现', '辅助检查', '诊断', '鉴别诊断', '并发症', '治疗', '护理', '预后', '预防'
															
 
																+        ]
															
 
																+        
															
 
																+        # 处理每个记录的props，过滤并排序
															
 
																+        for record in result['records']:
															
 
																+            if 'props' in record:
															
 
																+                # 只保留指定的prop_title
															
 
																+                filtered_props = [prop for prop in record['props'] if prop.get('prop_title') in prop_title_order]
															
 
																+                
															
 
																+                # 按照指定顺序排序
															
 
																+                sorted_props = sorted(
															
 
																+                    filtered_props,
															
 
																+                    key=lambda x: prop_title_order.index(x.get('prop_title')) if x.get('prop_title') in prop_title_order else len(prop_title_order)
															
 
																+                )
															
 
																+                
															
 
																+                # 更新记录中的props
															
 
																+                record['props'] = sorted_props
															
 
																+        
															
 
																         return StandardResponse(
															
 
																             success=True,
															
 
																             data={
															
--- a/router/text_search.py
+++ b/router/text_search.py
@@ -1,4 +1,4 @@
 
																-from fastapi import APIRouter, HTTPException
															
 
																+from fastapi import APIRouter, HTTPException, Depends
															
 
																 from pydantic import BaseModel, Field, validator
															
 
																 from typing import List, Optional
															
 
																 from service.trunks_service import TrunksService
															
@@ -6,9 +6,15 @@ from utils.text_splitter import TextSplitter
 
																 from utils.vector_distance import VectorDistance
															
 
																 from model.response import StandardResponse
															
 
																 from utils.vectorizer import Vectorizer
															
 
																+# from utils.find_text_in_pdf import find_text_in_pdf
															
 
																+import os
															
 
																 DISTANCE_THRESHOLD = 0.8
															
 
																 import logging
															
 
																 import time
															
 
																+from db.session import get_db
															
 
																+from sqlalchemy.orm import Session
															
 
																+from service.kg_node_service import KGNodeService
															
 
																+from service.kg_prop_service import KGPropService
															
 
																 logger = logging.getLogger(__name__)
															
 
																 router = APIRouter(prefix="/text", tags=["Text Search"])
															
@@ -51,6 +57,10 @@ class TextCompareMultiRequest(BaseModel):
 
																     origin: str
															
 
																     similar: str
															
 
																+class NodePropsSearchRequest(BaseModel):
															
 
																+    node_id: int
															
 
																+    props_ids: List[int]
															
 
																+
															
 
																 @router.post("/search", response_model=StandardResponse)
															
 
																 async def search_text(request: TextSearchRequest):
															
 
																     try:
															
@@ -107,14 +117,14 @@ async def search_text(request: TextSearchRequest):
 
																                 )
															
 
																             # 处理搜索结果
															
 
																-            for result in search_results:
															
 
																-                distance = result.get("distance", DISTANCE_THRESHOLD)
															
 
																+            for search_result in search_results:
															
 
																+                distance = search_result.get("distance", DISTANCE_THRESHOLD)
															
 
																                 if distance >= DISTANCE_THRESHOLD:
															
 
																                     result_sentences.append(sentence)
															
 
																                     continue
															
 
																                 # 检查是否已存在相同引用
															
 
																-                existing_ref = next((ref for ref in all_references if ref["id"] == result["id"]), None)
															
 
																+                existing_ref = next((ref for ref in all_references if ref["id"] == search_result["id"]), None)
															
 
																                 current_index = reference_index
															
 
																                 if existing_ref:
															
 
																                     current_index = int(existing_ref["index"])
															
@@ -122,13 +132,15 @@ async def search_text(request: TextSearchRequest):
 
																                     # 添加到引用列表
															
 
																                     reference = {
															
 
																                         "index": str(reference_index),
															
 
																-                        "id": result["id"],
															
 
																-                        "content": result["content"],
															
 
																-                        "file_path": result.get("file_path", ""),
															
 
																-                        "title": result.get("title", ""),
															
 
																+                        "id": search_result["id"],
															
 
																+                        "content": search_result["content"],
															
 
																+                        "file_path": search_result.get("file_path", ""),
															
 
																+                        "title": search_result.get("title", ""),
															
 
																                         "distance": distance,
															
 
																-                        "referrence": result.get("referrence", "")
															
 
																+                        "referrence": search_result.get("referrence", "")
															
 
																                     }
															
 
																+                    
															
 
																+                    
															
 
																                     all_references.append(reference)
															
 
																                     reference_index += 1
															
@@ -302,4 +314,191 @@ async def compare_text(request: TextCompareMultiRequest):
 
																         logger.info(f"mr_match接口耗时: {(end_time - start_time) * 1000:.2f}ms")
															
 
																         raise HTTPException(status_code=500, detail=str(e))
															
 
																+@router.post("/eb_search", response_model=StandardResponse)
															
 
																+async def node_props_search(request: NodePropsSearchRequest, db: Session = Depends(get_db)):
															
 
																+    try:
															
 
																+        start_time = time.time()
															
 
																+        # 初始化服务
															
 
																+        trunks_service = TrunksService()
															
 
																+        node_service = KGNodeService(db)
															
 
																+        prop_service = KGPropService(db)
															
 
																+
															
 
																+        # 根据node_id查询节点信息
															
 
																+        node = node_service.get_node(request.node_id)
															
 
																+        if not node:
															
 
																+            raise ValueError(f"节点不存在: {request.node_id}")
															
 
																+
															
 
																+        node_name = node.get('name', '')
															
 
																+
															
 
																+        # 初始化结果
															
 
																+        result = {
															
 
																+            "id": request.node_id,
															
 
																+            "name": node_name,
															
 
																+            "category": node.get('category', ''),
															
 
																+            "props": [],
															
 
																+            "files": [],
															
 
																+            "distance": 0
															
 
																+        }
															
 
																+
															
 
																+        # 遍历props_ids查询属性信息
															
 
																+        for prop_id in request.props_ids:
															
 
																+            prop = prop_service.get_props_by_id(prop_id)
															
 
																+
															
 
																+            if not prop:
															
 
																+                logger.warning(f"属性不存在: {prop_id}")
															
 
																+                continue
															
 
																+
															
 
																+            prop_title = prop.get('prop_title', '')
															
 
																+            prop_value = prop.get('prop_value', '')
															
 
																+
															
 
																+            # 拆分属性值为句子
															
 
																+            sentences = TextSplitter.split_text(prop_value)
															
 
																+            prop_result = {
															
 
																+                "id": prop_id,
															
 
																+                "category": prop.get('category', 0),
															
 
																+                "prop_name": prop.get('prop_name', ''),
															
 
																+                "prop_value": prop_value,
															
 
																+                "prop_title": prop_title,
															
 
																+                "type": prop.get('type', 1)
															
 
																+            }
															
 
																+
															
 
																+            # 添加到结果中
															
 
																+            result["props"].append(prop_result)
															
 
																+
															
 
																+            # 处理属性值中的句子
															
 
																+            result_sentences = []
															
 
																+            all_references = []
															
 
																+            reference_index = 1
															
 
																+
															
 
																+            # 对每个句子进行向量搜索
															
 
																+            i = 0
															
 
																+            while i < len(sentences):
															
 
																+                original_sentence = sentences[i]
															
 
																+                sentence = original_sentence
															
 
																+                
															
 
																+                # 如果当前句子长度小于10且不是最后一句，则与下一句合并
															
 
																+                if len(sentence) < 10 and i + 1 < len(sentences):
															
 
																+                    next_sentence = sentences[i + 1]
															
 
																+                    combined_sentence = sentence + " " + next_sentence
															
 
																+                    # 添加原短句到结果，flag为空
															
 
																+                    result_sentences.append({
															
 
																+                        "sentence": sentence,
															
 
																+                        "flag": ""
															
 
																+                    })
															
 
																+                    # 使用合并后的句子进行搜索
															
 
																+                    search_text = f"{node_name}:{prop_title}:{combined_sentence}"
															
 
																+                    i += 1  # 跳过下一句，因为已经合并使用
															
 
																+                elif len(sentence) < 10:
															
 
																+                    # 如果是最后一句且长度小于10，直接添加到结果，flag为空
															
 
																+                    result_sentences.append({
															
 
																+                        "sentence": sentence,
															
 
																+                        "flag": ""
															
 
																+                    })
															
 
																+                    i += 1
															
 
																+                    continue
															
 
																+                else:
															
 
																+                    # 句子长度足够，直接使用
															
 
																+                    search_text = f"{node_name}:{prop_title}:{sentence}"
															
 
																+                
															
 
																+                i += 1
															
 
																+
															
 
																+                # 进行向量搜索
															
 
																+                search_results = trunks_service.search_by_vector(
															
 
																+                        text=search_text,
															
 
																+                        limit=1,
															
 
																+                        type='trunk'
															
 
																+                )
															
 
																+
															
 
																+                # 处理搜索结果
															
 
																+                if not search_results:
															
 
																+                    # 没有搜索结果，添加原句子，flag为空
															
 
																+                    result_sentences.append({
															
 
																+                        "sentence": sentence,
															
 
																+                        "flag": ""
															
 
																+                    })
															
 
																+                    continue
															
 
																+                    
															
 
																+                for search_result in search_results:
															
 
																+                    distance = search_result.get("distance", DISTANCE_THRESHOLD)
															
 
																+                    if distance >= DISTANCE_THRESHOLD:
															
 
																+                        # 距离过大，添加原句子，flag为空
															
 
																+                        result_sentences.append({
															
 
																+                            "sentence": sentence,
															
 
																+                            "flag": ""
															
 
																+                        })
															
 
																+                        continue
															
 
																+
															
 
																+                    # 检查是否已存在相同引用
															
 
																+                    existing_ref = next((ref for ref in all_references if ref["id"] == search_result["id"]), None)
															
 
																+                    current_index = reference_index
															
 
																+                    if existing_ref:
															
 
																+                        current_index = int(existing_ref["index"])
															
 
																+                    else:
															
 
																+                        # 添加到引用列表
															
 
																+                        reference = {
															
 
																+                            "index": str(reference_index),
															
 
																+                            "id": search_result["id"],
															
 
																+                            "content": search_result["content"],
															
 
																+                            "file_path": search_result.get("file_path", ""),
															
 
																+                            "title": search_result.get("title", ""),
															
 
																+                            "distance": distance,
															
 
																+                            "page_no": search_result.get("page_no", ""),
															
 
																+                            "referrence": search_result.get("referrence", "")
															
 
																+                        }
															
 
																+                        
															
 
																+                        all_references.append(reference)
															
 
																+                        reference_index += 1
															
 
																+
															
 
																+                    # 添加句子和引用标记（作为单独的flag字段）
															
 
																+                    result_sentences.append({
															
 
																+                        "sentence": sentence,
															
 
																+                        "flag": str(current_index)
															
 
																+                    })
															
 
																+
															
 
																+            # 更新属性值，添加引用信息
															
 
																+            if all_references:
															
 
																+                prop_result["references"] = all_references
															
 
																+
															
 
																+            # 将处理后的句子添加到结果中
															
 
																+            if result_sentences:
															
 
																+                prop_result["answer"] = result_sentences
															
 
																+
															
 
																+        # 处理所有引用中的文件信息
															
 
																+        all_files = set()
															
 
																+        for prop_result in result["props"]:
															
 
																+            if "references" in prop_result:
															
 
																+                for ref in prop_result["references"]:
															
 
																+                    referrence = ref.get("referrence", "")
															
 
																+                    if referrence and "/books/" in referrence:
															
 
																+                        # 提取/books/后面的文件名
															
 
																+                        file_name = referrence.split("/books/")[-1]
															
 
																+                        if file_name:
															
 
																+                            # 根据文件名后缀确定文件类型
															
 
																+                            file_type = ""
															
 
																+                            if file_name.lower().endswith(".pdf"):
															
 
																+                                file_type = "pdf"
															
 
																+                            elif file_name.lower().endswith(".doc") or file_name.lower().endswith(".docx"):
															
 
																+                                file_type = "doc"
															
 
																+                            elif file_name.lower().endswith(".xls") or file_name.lower().endswith(".xlsx"):
															
 
																+                                file_type = "excel"
															
 
																+                            elif file_name.lower().endswith(".ppt") or file_name.lower().endswith(".pptx"):
															
 
																+                                file_type = "ppt"
															
 
																+                            else:
															
 
																+                                file_type = "other"
															
 
																+                            
															
 
																+                            all_files.add((file_name, file_type))
															
 
																+        
															
 
																+        # 将文件信息添加到结果中
															
 
																+        result["files"] = [{
															
 
																+            "file_name": file_name,
															
 
																+            "file_type": file_type
															
 
																+        } for file_name, file_type in all_files]
															
 
																+        
															
 
																+        end_time = time.time()
															
 
																+        logger.info(f"node_props_search接口耗时: {(end_time - start_time) * 1000:.2f}ms")
															
 
																+        return StandardResponse(success=True, data=result)
															
 
																+    except Exception as e:
															
 
																+        logger.error(f"Node props search failed: {str(e)}")
															
 
																+        raise HTTPException(status_code=500, detail=str(e))
															
 
																+
															
 
																 text_search_router = router
															
--- a/service/kg_prop_service.py
+++ b/service/kg_prop_service.py
@@ -29,6 +29,26 @@ class KGPropService:
 
																             logger.error(f"根据ref_id查询属性失败: {str(e)}")
															
 
																             raise ValueError("查询失败")
															
 
																+    def get_props_by_id(self, id: int, prop_name: str = None) -> List[dict]:
															
 
																+        try:
															
 
																+            query = self.db.query(KGProp).filter(KGProp.id == id)
															
 
																+            if prop_name:
															
 
																+                query = query.filter(KGProp.prop_name == prop_name)
															
 
																+            props = query.first()
															
 
																+            if not props:
															
 
																+                raise ValueError("props not found")
															
 
																+            return {
															
 
																+                'id': props.id,
															
 
																+                'category': props.category,
															
 
																+                'prop_name': props.prop_name,
															
 
																+                'prop_value': props.prop_value,
															
 
																+                'prop_title': props.prop_title,
															
 
																+                'type': props.type
															
 
																+            }
															
 
																+        except Exception as e:
															
 
																+            logger.error(f"根据id查询属性失败: {str(e)}")
															
 
																+            raise ValueError("查询失败")
															
 
																+
															
 
																     def create_prop(self, prop_data: dict) -> KGProp:
															
 
																         try:
															
 
																             new_prop = KGProp(**prop_data)
															
--- a/service/trunks_service.py
+++ b/service/trunks_service.py
@@ -73,6 +73,7 @@ class TrunksService:
 
																                 Trunks.embedding.l2_distance(embedding).label('distance'),
															
 
																                 Trunks.title,
															
 
																                 Trunks.embedding,
															
 
																+                Trunks.page_no,
															
 
																                 Trunks.referrence
															
 
																             )
															
 
																             if metadata_condition:
															
@@ -88,6 +89,7 @@ class TrunksService:
 
																                 'distance': round(r.distance, 3),
															
 
																                 'title': r.title,
															
 
																                 'embedding': r.embedding.tolist(),
															
 
																+                'page_no': r.page_no,
															
 
																                 'referrence': r.referrence
															
 
																             } for r in results]