煤炭信息研究院产品介绍

系统构成

三、系统构成
    网络资源整合系统采用先进的系统架构和智能信息处理核心,具有极高的系统稳定性和检索效率,在大用户量并发的情况下仍保持优异的性能表现。该系统主要由站点镜像子系统、站点监控子系统、信息采集子系统、网络数据库挖掘子系统、信息过滤子系统、信息智能处理子系统和站内检索子系统等构成。这里介绍系统中的重要模块及其功能特色:

    (1)站点镜像子系统
    站点镜像功能是把网上站点"拷贝"到本地。本模块包括如下特色功能:
    *多语言
    英语、中文网站代表了一大类站点。但仍存相当一部分其他语种如日文、德文、法文的站点。即使同一种语言的站点也可采取不同的编码,例如中文站点有GB2312编码、BIG5编码。本模板内置支持各种语言、各种编码的站点的镜像,如简体中文、繁体中文、日文、英语、法语、德语等。
    *全文检索 
    利用先进的全文检索服务器对镜像站点的资料进行分词、索引。因而对镜像的内容可直接进行词基础上的全文检索。
    *自动发布
    *边下载边发布。既可以发布到IIS虚目录,又可以发布到光盘、数据库等多种存储设备。支持任意次数的发布。
    (2)站点监控子系统
    站点监控模块追踪敏感站点的页面变化。可支持同时追踪2000个站点。本模块扩展了站点镜像模块地功能,还具有如下特色功能:
    *网页区域监控
    可跟踪网页某个区域的变化,如新闻站点的国内新闻板块。跟踪区域不受限制。跟踪的区域数目不受限制。
    *变化通知
    除通过Web浏览站点变化之外,还支持以电子邮件的接受变化通知。
    (3)信息采集子系统
    本模块具有如下特色功能:
    *利用独有的信息提取技术,精确分析提取网页内容
    *内置的主动搜索机制,支持专题信息采集
    *高并行可扩展的实时信息采集机制
    (4)网络数据库挖掘子系统
    有相当一部分有价值的数据在数据库中,并通过WEB的形式发布出来。常规的手段无法获取后台数据库中的内容。本模块通过主动查询技术实现了如下功能:
    *自动去除无效信息
    数据库中的有效数据混在HTML文件中,本模块能从HTML文件中自动提取有效数据。
*一挖到底
    通过学习人的搜索过程,自动进行翻页和阅读搜索结果。只要给定搜索主题,就能保证挖掘出WEB数据库中所有相关的数据。
    *自动配置
    配置过程通过学习模仿人的行为自动进行。系统提供多种可供选择的配置工具,能自动配置搜索命令、编码格式、结果区域等。
    (5)信息过滤子系统
    信息过滤模块,能有效去除垃圾信息,并提供有力的信息发布控制手段。本模块包括如下特色功能:
    *基于超链接的过滤
    过滤时能针对超链接中的文本、超链接的结构、主机地址进行设定。通过超链接的过滤,能去掉50%以上的垃圾信息。
    *基于下载资源的类型的过滤
    系统将资源分成:HTML、图像、PDF、ZIP等多种形式,可以定制仅下载需要的类型。
    *基于结构的过滤
    提供了正则表达式过滤条件,这样为高级用户提供了除关键词以外的另一种选择。
    *基于内容相似性的过滤
    允许用户提供一批样本作为过滤条件,仅下载跟这批文章内容相似的网络资源。
    (6)信息智能处理子系统
    信息智能处理子系统是资源整合系统的核心模块之一,它对采集来的资源进行去粗取精,有效组织关联采集来信息,实现现有信息的有效增值。本模块包括如下特色功能:
    *信息实时自动分类
    信息的自动分类就是使无序信息有序化,实现信息的分类导航。该子系统内置了3种实时分类器,分类准确率可达90%以上。
    *信息自动排重
    自动剔除来自不同信息源的重复信息,有效解决信息过载问题,大大减轻服务器和用户负担。
    *主题相关知识网络的自动构建
    对现有信息资源进行分析处理,实现信息间的有效组织和关联,使用户一步即可获得相关主题的所有资料,大大方便用户使用。
    (7)站内检索子系统
    采用先进的检索理念,保证即时采集即时检索。性能优秀的检索子系统在大访问量并发条件下,保持亚秒级的响应速度;纵横交错的知识网络保证用户从任一知识点出发即找到所有相关资料,大大加快了检索速度并提供了检索质量。

 

咨询服务电话: 010-84657792  联系人:刘志文    郑志峰 
E-mail:
lzw@coalinfo.net.cn