云文档网 - 专业文章范例文档资料分享平台

面向Web的数据挖掘技术

来源:网络收集 时间:2024-05-04 下载这篇文档 手机版
说明:文章内容仅供预览,部分内容可能不全,需要完整文档或者需要复制内容,请下载word后使用。下载word有问题请添加微信号:xuecool-com或QQ:370150219 处理(尽可能给您提供完整文档),感谢您的支持与谅解。点击这里给我发消息
 [摘要] 随着Internet的发展,Web数据挖掘有着越来越广泛的应用,Web数据挖掘是数据挖掘技术在Web信息集合上的应用。本文阐述了Web数据挖掘的定义、特点和分类,并对Web数据挖掘中使用的技术及应用前景进行了探讨。
  [关键词] 数据挖掘Web挖掘路径分析电子商务
  
  一、引言
  
  近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。数据挖掘是面向发现的数据分析技术,通过对大型的数据集进行探查。可以发现有用的知识,从而为决策支持提供有力的依据。
  Web目前已成为信息发布、交互和获取的主要工具,它是一个巨大的、分布广泛的、全球性的信息服务中心。它涉及新闻、广告、消费信息、金融管理、教育、政府、电子商务和其他许多信息服务。面向Web的数据挖掘就是利用数据挖掘技术从Web文档及Web服务中自动发现并提取人们感兴趣的、潜在的有用模型或隐藏的信息。
  
  二、概述
  
  1.数据挖掘的基本概念
  数据挖掘是从存放在数据库、数据仓库、电子表格或其他信息库中的大量数据中挖掘有趣知识的过程。数据挖掘基于的数据库类型主要有: 关系型数据库、面向对象数据库、事务数据库、演绎数据库、时态数据库、多媒体数据库、主动数据库、空间数据库、遗留数据库、异质数据库、文本型、Internet 信息库以及新兴的数据仓库等。
  
  2.Web数据挖掘
  Web上有少量的数据信息,相对传统的数据库的数据结构性很强,即其中的数据为完全结构化的数据。Web上的数据最大特点就是半结构化。所谓半结构化是相对于完全结构化的传统数据库的数据而言。由于Web的开放性、动态性与异构性等固有特点,要从这些分散的、异构的、没有统一管理的海量数据中快速、准确地获取信息也成为Web挖掘所要解决的一个难点,也使得用于Web的挖掘技术不能照搬用于数据库的挖掘技术。因此,开发新的Web挖掘技术以及对Web文档进行预处理以得到关于文档的特征表示,便成为Web挖掘的重点。
  
  三、Web数据挖掘分类
  
  Web 数据有三种类型, 它们分别是: HTML 标记的Web 文档数据、Web 文档内的廉洁的结构数据和用户访问数据, 相应地,Web 数据挖掘可分为三类: 内容挖掘(Web content mining) 、结构挖掘(Web structure mining) 和用户访问模式挖掘(Web usage mining)。如下图所示。
  
  1.Web内容挖掘
  Web内容挖掘是从文档内容或其描述中抽取有用信息的过程,Web内容挖掘按实现方法分为两大类:信息检索(IR)方法和数据库方法。且有两种策略:直接挖掘文档的内容和在其他工具搜索的基础上进行改进。
  IR方法主要处理非结构数据和Web中由HTML标记的半结构化数据。前者一般采用词集方法,用一组组词条来表示无结构的文本。后者主要利用传统的数据挖掘技术:如关联规则、分类算法、演绎逻辑和规则学习等。
  
  2.Web结构挖掘
  Web结构挖掘是从Web组织结构和链接关系中推导知识。挖掘页面的结构和Web结构,可以用来指导对页面进行分类和聚类,找到权威页面、中心页面,从而提高检索的性能。同时还可以用来指导页面采集工作,提高采集效率。Web结构挖掘可以分为Web文档内部结构挖掘和文档问的超链接结构挖掘。
  Web结构挖掘的基本思想是将Web 看作一个有向图,他的顶点是Web页面,页面间的超链就是图的边。然后利用图论对Web 的拓扑结构进行分析。常见的算法有HITS (Hypertext Induced Topic Search), PageRank,发现虚拟社区的算法、发现相似页面的算法、发现地理位置的算法和页面分类算法。Web 结构挖掘的算法一般可分为查询相关算法和查询无关算法两类。查询相关算法需要为每一个查询进行一次超链分析从而进行一次值的指派;而查询独立算法则为每个文档仅进行一次值的指派,对所有的查询都使用此值。HITS和PageRank分别是查询相关算法和查询独立算法的代表。

百度搜索“yundocx”或“云文档网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,云文档网,提供经典计算机面向Web的数据挖掘技术在线全文阅读。

面向Web的数据挖掘技术.doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印 下载失败或者文档不完整,请联系客服人员解决!
本文链接:https://www.yundocx.com/shiyong/120249.html(转载请注明文章来源)
Copyright © 2018-2022 云文档网 版权所有
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ:370150219 邮箱:370150219@qq.com
苏ICP备19068818号-2
Top
× 游客快捷下载通道(下载后可以自由复制和排版)
单篇付费下载
限时特价:7 元/份 原价:20元
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信:xuecool-com QQ:370150219