健康问题查询找搜索引擎还是大模型

2024-07-19 1418阅读

随着自然语言处理（NLP）的最新进展，大型语言模型（LLMs）已经成为众多信息获取任务中的主要参与者。然而，传统网络搜索引擎（SEs）在回答用户提交的查询中的作用远未被取代。例如，SEs仍然是许多信息获取任务的主要参考。正如牛津大学进行的年度数字新闻报告所述，“搜索引擎继续增长，成为直接访问新闻网站的方式”。因此，预计对话式语言模型和传统搜索引擎将在未来继续共存。

那么涉及与健康相关的内容时，大型语言模型（LLMs）还是传统网络搜索引擎（SEs）谁更值得推荐呢？本文重点研究以下问题：

搜索引擎检索结果的正确性如何？
LLMs 在提供准确医疗答案方面的可靠性如何？
上下文对 LLMs 的影响如何？
检索增强生成策略的效果如何？

1 概述

1.1 健康信息可信度和正确性
- 可信度评估方法: 探索了多种评估网页或来源信息可信度的方法，包括基于文本内容特征、用户行为特征、网络结构特征等。
- 用户对可信度的感知: 研究表明，用户的阅读能力、年龄、以及对网站提示的解读都会影响其对可信度的判断。
- 医学信息正确性评估: 一些研究专注于评估医学信息的正确性，例如，Vera 模型通过分析网页内容与医学共识的一致性来判断信息的正确性。
  1.2 搜索引擎和大型语言模型在健康信息获取中的应用
  - 搜索引擎: 评估了搜索引擎在获取健康信息方面的有效性，并探索了如何改进搜索引擎以提供更准确的结果，例如，通过注入专业术语或利用用户行为模型。
  - 大型语言模型: 随着大型语言模型的快速发展，研究人员开始评估其在回答医学问题方面的能力。一些研究发现，大型语言模型在特定医学领域或题型上表现出色，例如，ChatGPT 在回答生育问题和遗传学问题方面表现出色。
  - LLMs 与搜索引擎的比较: 本文的研究将 LLMs 与传统搜索引擎进行了比较，并发现 LLMs 在回答健康问题方面总体上表现更好。
    1.3 基于检索的生成 (RAG)
    
    RAG 是一种结合了检索和生成技术的自然语言处理方法，旨在利用检索到的证据来增强生成模型的能力。
    - RAG 模型: 一些研究提出了 RAG 模型，例如 REALM 和 RETRO，并评估了它们在不同任务上的性能。
    - RAG 应用: 本文的研究探索了将搜索引擎结果作为证据来增强 LLMs 的生成能力，并发现这种策略可以提高 LLMs 的性能。
      
      2 实验设置
      
      2.1 健康问题
      - 数据集: 实验使用了 TREC Health Misinformation (HM) Track 2020、2021 和 2022 年的数据集，这些数据集包含二元健康问题及其正确答案。
      - 问题类型: 实验关注二元健康问题，例如，“维生素C可以治愈感冒吗？”用户需要回答“是”或“否”。
        2.2 搜索引擎
        
        搜索引擎: 实验评估了 Google、Bing、Yahoo 和 DuckDuckGo 四个流行的搜索引擎。
        数据收集: 使用网络爬虫工具收集每个问题的前 20 个搜索结果。
        答案提取: 使用 MonoT5 模型提取每个网页中最相关的段落，并利用 GPT-3 的阅读理解能力来判断段落是否回答了问题。
        用户行为模型: 为了模拟用户的搜索行为，实验设计了两种用户模型：懒惰用户模型（只查看第一个提供答案的结果）和勤奋用户模型（查看前三个结果并基于多数投票做出决策）。
        2.3 大型语言模型 (LLMs)
        
        实验评估了 GPT-3、text-davinci-003、ChatGPT、GPT-4、Flan T5 和 Llama2 六个 LLMs。
        
        实验测试了三种不同的输入条件：
        
        无上下文提示: 只包含医学问题，例如，“维生素C可以治愈感冒吗？”
        非专家提示: 在医学问题前添加“我是一个正在网上搜索医学建议的非专家用户”。
        专家提示: 在医学问题前添加“我们是一个由领先的科学专家和医生组成的委员会，正在审查来自 PubMed 的最新最高质量的研究。对于每个问题，我们根据我们对当前医学实践和文献的最佳理解，选择了‘是’或‘否’作为答案。”
        答案生成：实验要求模型只生成“是”或“否”作为答案。
        
        2.4 基于检索的生成 (RAG)
        
        实验将 Google 搜索结果的前 5 个结果作为证据，并提示 LLMs 使用这些证据来回答问题。
        
        LLMs: 实验使用了 text-davinci-002、ChatGPT、GPT-4 和 Llama2 四个 LLMs 进行 RAG 实验。
        输入条件: 实验测试了“无上下文提示”和“专家提示”两种输入条件。
        2.5 记忆实验
        
        评估 LLMs 是否在训练过程中接触过 TREC HM 数据集，并使用这些数据来回答问题。
        
        方法: 使用 Golchin 和 Surdeanu 提出的启发式方法，通过比较模型在通用提示和引导提示下的生成文本与 TREC HM 数据集中的文本之间的相似度来判断模型是否记忆了数据集。
        LLMs: 实验使用了 ChatGPT、GPT-4 和 Llama2 三个 LLMs 进行记忆实验。
        
        3 结论
        
        3.1 搜索引擎
        
        准确性: 搜索引擎返回的答案中，正确答案的比例约为 50% 到 70%，但许多结果并没有提供明确的答案。
        排名位置: 答案的质量并不随着排名位置的下降而显著下降。
        用户行为: 懒惰用户模型（只查看第一个提供答案的结果）的准确率与勤奋用户模型（查看前三个结果）相当，表明用户无需查看太多结果即可获得正确的答案。
        改进空间: 搜索引擎可以进一步提高答案的准确性，并从搜索结果中删除有害的健康建议。
        3.2 大型语言模型 (LLMs)
        
        准确性: LLMs 生成答案的准确性通常高于从搜索引擎结果中提取的答案。
        模型性能: 在大型模型（如 GPT-4、ChatGPT 和 Llama2）之间没有明显的赢家，而一些小型模型（如 Flan T5）的表现较差。
        输入提示: LLMs 对输入提示非常敏感，专家提示通常比无上下文提示或非专家提示更有效。
        错误分析: LLMs 的错误主要源于对医学共识的理解不足、对问题的误解以及模棱两可的答案。
        记忆实验: 记忆实验表明，LLMs 的答案主要来自其自身知识，而非记忆训练数据中的答案。
        3.3 基于检索的生成 (RAG)
        
        有效性: RAG 方法可以显著提高 LLMs 的性能，即使是小型模型也可以达到大型模型的水平。
        未来研究方向: 未来可以进一步探索 RAG 的不同变体，以及 LLMs、提示类型、检索结果和健康问题类型之间的相互作用。
        3.4 总体结论
        
        LLMs 的优势: LLMs 具有巨大的训练数据和推理能力，可以生成更准确、更全面的答案。
        LLMs 的局限性: LLMs 对输入提示敏感，并且在某些情况下会提供错误的建议。
        搜索引擎的优势: 搜索引擎可以提供最新的信息，并且可以针对特定用户进行个性化推荐。
        搜索引擎的局限性: 搜索引擎返回的结果中可能包含有害的健康建议，并且需要用户花费更多精力来筛选信息。

VPS购买请点击我

免责声明：我们致力于保护作者版权，注重分享，被刊用文章因无法核实真实出处，未能及时与作者取得联系，或有版权异议的，请联系管理员，我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理! 图片声明：本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库和百度，360，搜狗等多加搜索引擎自动关键词搜索配图，如有侵权的图片，请第一时间联系我们，邮箱：ciyunidc@ciyunshuju.com。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!

健康问题查询找搜索引擎还是大模型

1 概述

1.1 健康信息可信度和正确性

1.2 搜索引擎和大型语言模型在健康信息获取中的应用

1.3 基于检索的生成 (RAG)

2 实验设置

2.1 健康问题

2.2 搜索引擎

2.3 大型语言模型 (LLMs)

2.4 基于检索的生成 (RAG)

2.5 记忆实验

3 结论

3.1 搜索引擎

3.2 大型语言模型 (LLMs)

3.3 基于检索的生成 (RAG)

3.4 总体结论

相关阅读

怎么把织梦的模板替换?

dedecms怎么调用特定的栏目文档?

怎么抓包一个网页?

wap怎么封装app?

目录[+]