企业网站建设

建站知识

今日已发布信息: 276400
累计注册用户: 75953775

网站制作与制作网站的区分

网站制作

概述: 将网站设计图片原稿用html方式展现出来。 实现有段有div+css,以及table,不管网站使用的是什么语言,若是想要上线运营都必须进行网站制作步骤!   制作网站,包含了网站制作这一流程,有网站设计、数据库设计、网站制作、程序嵌套,还包含了正式上线所需的空间、域名等等...   虽然从概念上来说两者有所区分,但是我们发现在百度搜索网站制作或者制作网站的效果都是差不多的,都是暗指整个网站制作流程,大家对这两种概念有所区分、了解就可以了。

对网站建设并不了解的朋友很容易把网站制作与制作网站画上等号,但从专业角度来说北京网站制作与制作网站却是不同的概念。
  网站制作就是通过网站页面结构定位布局,将网站设计图片原稿用html方式展现出来。

 

  库尔勒快速建站  北京大学   今日推荐免费建站   分类信息   格尔木网站建设公司

 


实现有段有div+css,以及table,不管网站使用的是什么语言,若是想要上线运营都必须进行网站制作步骤!   制作网站,包含了网站制作这一流程,有网站设计、数据库设计、网站制作、程序嵌套,还包含了正式上线所需的空间、域名等等...   虽然从概念上来说两者有所区分,但是我们发现在百度搜索网站制作或者制作网站的效果都是差不多的,都是暗指整个网站制作流程,大家对这两种概念有所区分、了解就可以了。
 

 

SEO之“不要轻易使用泛剖析”

SEO优化之“不要轻易使用泛解析”

半夜三更的突然想起这个老想提出或者大家都知道的问题!

先续在这里,之后给予全面补充!

 

什么是泛解析:

体,严格来讲,是这样的:

假如对 abc.com 解释到 0.0.0.0 这个 IP 地址,而且提供解释的 DNS 服务器支持泛解释,那么除了“可以解释”的域名外,其它没有明确“指示”的域名将全部解释到 0.0.0.0 上。

什么叫“可以解释”的域名呢? 就是说有明确设置转向的域名。比如 DNS 设置如下:

abc.com -> 0.0.0.0

bbs.abc.com -> 0.0.0.1

那么,访问 BBS.abc.com 就正常转到 0.0.0.1 上,访问其它任意 *.abc.com,只要那个 * 不是 BBS,那么都会转到 0.0.0.0 上。

泛域名解析域名域名解析的区别


泛域名解析是:*.域名解析到同一ip。
域名解析是:子域名.域名解析到同一ip。
注意:只有客户的空间是独立ip的时候泛域名才有意义。而域名解析则没有此要求。

泛域名解析的用途:

1.可以让域名支持无限的子域名(这也是泛域名解析最大的用途)。
2.防止用户错误输入导致的网站不能访问的问题。

在DNS服务器里面设置泛域名解析有2种方式

1. 在域名解析里面设置 *.a.com的A记录或者CName 记录指向某一个IP/服务器名(这种方式 虚拟主机用户是不支持的)
2. 在域名转发里面设置 *.a.com 转发到 http://www.a.com( 虚拟主机可以支持这种转发方式,用户在自己的程序中可以判断访问者要访问的域名)。

使用了泛解析之后那么可以说可以有N个二,三级域名。比如“xxx.alibaba.com,,xxx.taobao.com,xxx.51.com,xxxx.163.com”。

好处一:这么多站点的访问流量也许是独立的,但是站长关心的ALEXA排名却将所有子域名的分值总结后给予总域名。

好处二:可以大量的使用来去做搜索引擎优化“作弊”。比如就建立一个单独的页面在服务器上,而捏造N个二级域名来让搜索引擎收录和去排行,稍微有点脑壳的站长会稍微多做点页面,争取每个子域名的内容是不一样的!可是这样的方式也都可以程序实现!

好处三:太多了不列举了,就SEO优化来重要的第2个吧!

当做了泛解析后N个站,可以在瞬间收录后起到铺天盖地“强  奸”搜索引擎效果。比如当年2004年的一个强 奸百度的行为。好些SEO或者关注百度的人们给予百度的极大鄙视和技术讽刺!

之后也陆续出现过,可是百度痛定思痛都给予了出生就夭折的“处理”。

进步 ~~~

但是有些站“门户站”当然务必为了体现自己的强大和规模就必须和有意的要使用到泛解析功能。给使用者和访问者一个良好的URL展示。

2005年飘哥使用程序自动采集XXX站并且赋予一个自动ID然后在自动生成一个和其他不一样的内容的二级域名站点。短时间内瞬间被百度和YAHOO,GOOGLE收录达到10万。在短时间内创造日IP20万记录。这些就是好处和效果!

之后的时间内:

百度首先给予非所有二级玉米站的删除(除重要频道外的其他生成类)

分析:类似性大,无创造性,并且垃圾诸多(因为XXX站的内容也很垃圾,只查看了前半部分内容后采取了如此活动,可等全部生完查看时咋全部是“该站点正在建设”)你说垃圾不垃圾~这样的东西怎么要搜索引擎百度拿出来展示给访问者?我都很内疚!

当然一些频道的二级玉米站还存在,毕竟那是在IIS捆绑了的,是用来展示那些垃圾站的,内容是“相当”充实!

流量遭受了跳楼的打击!

Google反应:

因为收录很慢,那时的他就是比现在慢,甚至慢到人们总结他是3天一次的 更新和收录。非现在的随时收录和变化!收录的页先要经过沙盒再能释放出来,再经过一些SEO质量考虑因素才给予排名,当然一些冷门的还是都在首页。暂时支撑了部分流量,可是价值很不乐观!

百度视为垃圾的他也不会给予好的评价,毕竟全站如白纸怎么给予排名?派哪个蜘蛛来就会跑走!怎么排名?

最后也响应的收录数量减少!

YAHOO反应:

因为那时他和3721,YISOU整合着呢,所以收录数据小于百度大于GOOGLE,毕竟他在争取上百亿的收录量的,飘哥此举他甚是喜欢!

流量来路和其2大搜索完全不一样,他收录的先是全站垃圾页再是质量页。比如论坛发布了,他首先把你什么注册啊,列表啊,错误提示页啊什么的根本不是给予访问者直接展示的页去先收录,你就是怎么搞也不会有排名吧!

所以开始每见效,之后他大批收录,大批排名。

甚至那时因为一个“传 销公司”(之后被定为)被我站收录和被他收录和被更多想了解的人们所搜索而每天带来上百流量!叹~~~

慢慢的都开始拒绝收录和进行排行,到最后被百度砍的只剩下5个频道,并且给予降权!

GOOGLE彻底“补充材料”

YAHOO也删除部分收录。

看到此现象飘哥给予了手术,将那些垃圾二级站改变成现有的被收录的二级频道目录页。比如将a.abc.com 转换到pindao.abc.com/a 可是已经晚点了,比火车晚点还晚!

那时这些起源来自当时的51.net,那时SEO都去51申请免费空间大量作弊,在GOOGLE上边耀武扬威,任意复制,粘贴,重叠直到全面封杀51。同时封杀的 有中华站的空间页,新浪等~~~

一个51被干了,另外的51又来搞“测试”那就是51.com

风风火火的融资,开站,宣传,推广,到现在N站的蔓延。随时可见网友说帮我“踩”一下啊,踩什么?踩他的51,而不是QQ ZONE!

SEO们拿他来SEO作弊,作弊手段就不说了。毕竟这些是作弊!

到4月百度给予了彻底封杀,只有现在是www.51.com首页的存在。

 


你说51是故意用泛解析去搞流量?搞ALEXA吗?搞第N次的融资吗?不是的。他是为了做的吾人不知的状态,可是却忽视了中国SEO的存在和那些在51上做“个人主页”的菜鸟“站长”们!稍微有点经验的也会去一元买个玉米,50元买个全能空间立即下个程序安装一个纯粹的“个人网站”来!

那些菜鸟恨不得把HAO123全部粘贴进去,恨不得把所有可以看见的图片放到“相册”,恨不得一天把那免费的百兆用完!可是这些对于搜索引擎的友好度却大大折扣!使51的整体质量下降!

SEO们1分钟不到申请个“主页”还是二级玉米的,虽然使用了框架的51二级玉米站却还是能被现在的百度和GOOGLE识别到框架内的内容而给予检索!

这些SEO就使用能作弊的手段充斥着整个“个人网站”,然后做点连接,百度来了,GOOGLE也来了。就是他只要发布了站点51的列表至少会显示和连接,那么就有50%被收录了!

下来就开始作弊了,手段不给予列举,请自我发现!

下来你会在GOOGLE和百度里有着相当的商业词语站点在进行拥挤的排行。1-10页的位置他们都有!如同百度空间被利用了在GOOGLE里做排行一样!

物极必反的时刻该到了,百度怒了!

51你请离开我的搜索者们的眼球吧!不是我看不惯你和我的HI.抢风头,而是你的内容实在太不能进入视线了,那样人们会说我的搜索技术不够高深,怎么收录这样的垃圾页/站点。套出是弹窗和漂浮和跳转呢?

=========

两个51(我要)都挂了,还有“谁要”?

还有一个51.la是提供统计的,我想不会挂!至少他是JS代码到最后的路径为 /?=ID  希望这样不会惹怒了百度!

一直SEO追求的是流量,而搜索引擎里百度占据了80%的流量,那么从SEO是为GOOGLE诞生的角度来说我们对百度还是别太过分的“SEO”了!

泛解析不要轻易使用!

否则你也要挂了!

引用:http://www.yookee.org/dispbbs_17_313_1.htm



 

凤巢栖来风云突变 Baidu快照更新已无任何规律可言

  一般来说,百度快照的更新是有规律的。地球人都知道,百度快照及收录大更新时间是每月11号 和 26号,特别是26号,更新幅度最大,K站也是最多的。小更新时间是每周四,更新时刻都在凌晨4点。一般凌晨4点更新,对网站流量都没啥影响,只有到中午的时候,百度对网站的关键字搜索进行重新调整之后,才会有流量上的大的变化。

  但自从进入2009年12月份,凤巢栖来,风云突变,百度快照的更新越来越没有规律可言了。可能这个时期是百度的调整期,也可能是百度有意为之,让广大站长无规律可循,增加百度的神秘感吧。就拿这个星期来说吧,周四过后大多数网站快照没有丝毫动静,周五依然没有变化,直到周六今天12.19号,在沉闷了很多天后,百度终于更新了。更新现象总结如下:

  1,很多快照在11-27,26,28的站,快照都到了12-5,6,7,而倚天网络的快照则从11-28日恢复到12-18日。二十天来快照终于开始更新了。

  2,很多site不在第一或是首页的站,site已经是第一了。但是有的站没有恢复,如果在周一的时候还不恢复考虑删除这样的友情链接,并排除了百度取消首页降权的算法机制。也就说site第一与否和网站的权重还有一定关系的。

  3,收录明显增加了。倚天网络的收录量从680条增加到742条。

  4,排名变化较大。很多新站的排名都没有了,而老站的排名依然如故。长期看来,权重的高低对网站的排名还是有影响的。新站的权重一般比较低,要想获得好的排名还是需要时间的考验。

  但是业内知名网站seowhy仍然没有恢复,可以宣布seowhy正式被k,因为今天已经更新过了,但seo却还没有出现。

解读Baidu新搜索时代下的优化战略影响排序的要素

  笔者近期通过学习百度lee的一次内部分享文件《解读百度新搜索时代下的优化策略》感触颇深,把其中最关键的几项百度公布的影响网站排序算法的因素和大家进行一下详细的解读,好,咱们闲话短续进入正题。

  第一,内容的相关性因素。这一点不难理解,就是网站的低层文章能否支撑网站主题思想,也就是网站中所有的内容建设时候在为网站主旨服务,比如你的网站是做减肥的,但是你的主题要牢牢的围绕这个主旨进行,比如栏目构建,运动减肥,饮食减肥,药物减肥都要围绕全站减肥这个主旨来进行,具体的文章全部围绕栏目展开,添加的网站内容也一定要具备相关性与栏目主旨吻合,由点到面逐步衬托整个网站主旨。

  第二,权威性因素分析。权威性因素这一点我们也非常容易理解,就是专业程度和可信度。作为自己企业网站我们在优化过程中如何提高权威度呢?常见的有我们的产品相关证书,我们发布的信息得到那些行业专家的肯定?我们的产品参数是否符合国家相关标准?以此为契机,挖掘我们企业能够提供的符合国家、行业标准的东西来赢得客户的信任,赢得大家对企业的认可。

  第三,时效性。主要表现在新闻的及时性问题上,比如很多行业门户诸如新浪、网页、百度这些平台本身在各地就会有非常多的驻地记者,以娱乐圈为例子一旦发生最新的娱乐资讯这些平台往往第一时间获得一手资料,而作为个人站长,我们当然不能以这些东西和别人去拼,我们以个人网站为例子,如果自己运维的如果是地方网站,作为自己本身就可以充当记者的身份,可以第一时间把握当地有效信息,这些信息就是百度要求的时效性最佳的体现。平时多观察,多思索、多总结相信你一定会具备一双发现的慧眼。

  第四,丰富度。

  第五,用户多需求的调整。我们知道用户需求不可能是一成不变的,往往是多元化的,而且随着时间的推移用户的需求也在不断发生变化,这就是用户需求的调整问题,就是要不断调整网站细节满足相关的用户需求度,我们如何去扑捉这一信息呢?常见的有百度搜索风云榜、针对我们关键词的百度下拉框,百度相关搜索,百度知道这些百度自己的产品就足以让我们研究了,分析不同的时间节点用户需求是什么?把近期新的用户需求整理出来对于网站进行适当调整,提供迎合当下用户口味的栏目或者文章,笔者认为这就是我们为什么要进行用户需求调整的原因所在。

  第六,用户的满足度分析。我们知道我们网站每天都在进行文章更新,内容撰写,但是这些东西能否真正满足用户需求,是否是用户想要的,除了分析以上五点之外,还要针对用户需求度进行分析,其实第六点就是以上五点的总结,由因到果,在由果索因的过程,这一点就是我们经常说的网站数据分析,分析网站跳出率、pv量,借助百度相关工具分析用户进入网站停留页面和点击情况就是对于我们网站内容能否满足用户的最好反馈。

怎么做好SEO参考数据与剖析数据

  现在百度统计的功能很强大,一个小小的统计工具就能够帮助我们完成很多以前不能够完成的事情,比如说用户是从哪个地方来的,又是通过什么搜索词进入的,百度统计都能够详细的提供这些数据


 

  第一、访问来源网站必须理清

  访问来源网站可以有效的帮助我们获得外链布局,虽然我们可以在搜索引擎中利用domain:+域名的方法来搜索外链,但是这些外链搜索下来有很多是不确定性的,而通过来源网站来分析外链就能够让我们把握主动,大家想一下既然你的用户都能够通过其他的网站进入你的站点了,这是不是代表你的网站已经被其他网站所认可了呢?我建议我们在利用来源网站这个功能的时候最好做到下面几点:

  1、将来源网站的网址利用txt或者excel记载下来。

  2、通过记载下来的网站我们可以再次去加大宣传力度,因为说明有用户在其他网站认可我们的行为。

  第二、输入搜索词必须理顺

  我们的网站在运营的过程中很多时候都是靠用户的搜索词而产生盈利的,用户在搜索引擎输入框中输入关键词的时候代表着用户的想法,假如你是做研究生考试网站的,那么用户或许会输入研究生考试内容有哪些这个词,而如果用户通过这个词进入了你的网站,这就能够说明你的网站已经通过这个关键词展现在了用户的面前,因此我们就要巩固这个词的效果,大家可以看到图片中的搜索词,那个网站是我才建立起来的,目前还没有被收录,每天就是我自己利用搜索引擎输入这个词观察网站,而在真正的网站运营中我们却要准备一个小本子,通过用笔记本的方法让我们拿去与现实进行对照,这样时间一长我们的网站关键自然而然就能够跟随感觉走了,下面举个例子:

  我们在网站运营中想到的与用户在现实中的体会是不一样的,比如减肥这个词,我们有可能做的就是减肥产品,但是用户在搜索的时候一般都是搜索“哪种减肥产品有好的效果啊”, 而这就是用户的想法,因此我们必须通过笔记本手记下来,然后根据记下来的内容去现实中咨询真正需要的这群人,听听他们的想法,最后我们在查找到最适合网站做的词语,这就为网站的持续发展和基础优化奠定了坚实的基础。

  第一节文章就写到这里了,文章中提到的这两点各位站长一定要记住,必须进行分析,这是我们检验外链效果与理清长尾词的基础,如果这两方面没有做好就不要想到进行下一步的网站优化工作了。

微博背后的那些算法

引言

微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作: ,前四个是针对短博文, ,关注某个人就意味着你成为他的粉丝,而他成为你的好友;@某个人意味着你想要他看到你的微博信息。

微博被人们认为是“自媒体”,即普通大众分享与本身相关的“新闻”的途径。最近,有些人使用自己在自媒体上的影响力而盈利的报道屡见不鲜。那微博上个人影响力是怎样计算的呢?微博上还有哪些算法作为看不见的手在管理着我们?我们的每一个行为怎样影响着算法呢?

直观上看,微博其实是人类社会的一个简单的缩影,微博网络的一些特点,也许可以启发我们得到真实的社会网络上的规律。得益于社交网络的爆发式发展,“社会计算”尤其是社交网络分析成为数据挖掘的新宠儿。下面我们就针对微博网络分析的一些算法进行简单的介绍,其中的有些算法对于其他的社交应用可能也适用。

标签传播

微博用户量浩大,不同的人有不同的兴趣。挖掘每个用户的兴趣有助于更加精准的广告投放、内容推荐。为了得到每个用户的兴趣,可以为用户打上标签,每个标签代表用户的一个兴趣,用户可以拥有一个或多个标签。为了得到最终的用户标签,先做第一个假设:

每个用户的好友(或粉丝)中与该用户具有相同兴趣的人占多数。

这就引出了本文介绍的第一个算法,即标签传播算法。在这个算法中,每个用户的标签取其好友或粉丝中标签最多的一个或多个。当然,可以将好友和粉丝的标签都考虑进来,整合的时候可以考虑赋予好友的标签和粉丝的标签不同的权重。标签传播算法的过程如下:

1)对一部分用户给出初始标签;

2)对每一个用户,统计其好友和粉丝的标签数目,赋予该用户出现次数最多的一个或者多个标签。

3)循环进行第2步,直到用户的标签不再发生大的变化为止。

用户相似度计算

标签传播算法实现起来比较简单,其缺点在于当所做的假设不符合事实时,比如为了社交上的礼貌,我们一般会把自己的亲友添加关注,这些人不一定和我们拥有同样的标签;该算法的结果就会变得很差。解决的办法就是通过计算用户之间的相似度来衡量好友或粉丝的标签对用户标签的贡献率。因而得到第二个假设:

与用户越相似的好友或粉丝,其标签越可能是用户的标签。

那么,如何衡量用户之间的相似度呢?这就需要考虑到用户发表的微博信息了,包括转发的和原创的。这里是要考虑用户之间的相似度而不是用户微博之间的相似度,因而在实际计算时,将某个用户的所有微博信息聚集到一起进行计算。一个可选的方法是使用词袋法将微博信息表示成词语向量,然后直接使用余弦方法等计算其相似度。但这个方法太过简单,不容易达到好的结果,这里介绍一种基于LDA(隐含狄利克雷分布)的相似度计算方法。

LDA仍然使用词袋法表示文本,但是在中间添加了一个主题层,形成了“文档-主题-词语”三层概率模型,即每篇文档看成是主题的一种概率分布,主题又被看成是单词的概率分布。在LDA模型下,文档可以被看成按照如下方式生成:

1)对于每篇文档:

2)从主题分布中抽取一个主题;

3)从该主题的词语分布中抽取一个词语;

4)重复第2步和第3步,直到该文档的所有词语都生成。

LDA模型参数的估计算法不在本文的讨论范围之内。这里只需要知道,通过LDA可以得到每个用户的微博信息的主题分布。然后使用余弦方法、KL距离等计算相似度的方法来得到用户间主题分布的相似度,以之作为用户之间的相似度。而后使用该相似度对标签传播进行加权。

时间因素和网络因素

上述的算法还有什么缺点呢?

随着时间的变化,用户的兴趣是会变化的,计算用户相似度的时候每次都把所有微博信息都聚合在一起不太合理。对此,可以通过选取距离当前时间较近的N条微博。比如,对每个用户,选取距离当前时间最近的50条微博聚在一起放到LDA中训练。此处的N既不能太大也不能太小。太大则不容易反映用户兴趣的时间变化,太小则由于用户发表微博的随机性容易引起兴趣的漂移。为了使效果最好,可以不拘泥于一个固定的N,比如可以考虑对每个用户按照其发表微博的时间序列做N值的自适应。

至此, 所构成的网络信息。以转发为例,如果在用户的微博中频繁的转发某个好友的微博,那么用户和该好友的相似度相比其他好友来说应该会更高。这里可以看做是假设三:

用户转发某好友的微博的频率越高,用户与该好友的兴趣相似度越大。

相似的,可以得到假设四:

 ,用户与该好友的兴趣相似度越大。

由此就得到了计算相似度的另外的因素。有很多方法可以添加一个新的因素到原有的相似度计算方法中,比如可以考虑将转发频率量化为值,作为权重添加到相似度的衡量中去。

社区发现

微博社区是指在微博中关系紧密的人组成的团体,社区内部的人之间联系紧密,社区之间的联系则比较稀疏。这里所指的关系紧密有两层含义,第一是社区内部的人之间的兴趣相似度大;第二是指社区内部的人之间的关系要近,比如要求社区内部的两个用户不能超过二度关联,二度关联即好友的好友。

兴趣相似度在上文已有叙述,关系相似度则需要利用用户之间的关注关系来进行计算。以用户的关注关系为单向链,可以将所有的微博用户之间的关系表示为一个巨大的有向图。用户之间的关系相似度可以简单的考虑,比如使用用户间的最短路径的倒数。但是这种方法衡量的不精确,我们知道,在现实世界中,存在着六度理论,在微博网络及其他社交网络中,往往关系会更加紧密。因而这种简单的关系相似度只能有至多六个离散值,显然不够精确。

为了达到更好的效果,这里不仅以最短路径作为显式量度,还要考虑一些隐式的量度。这里先给出两个假设,分别为假设五和假设六:

两个用户的共同好友越多,这两个好友的关系相似度越高。

两个用户的共同粉丝越多,这两个好友的关系相似度越高。

这里可以借鉴Jaccard相似度的计算方式,将这两种假设的量化函数表示为交集的大小与并集的大小之商。以假设五为例,其量化指标又被称为共指向性相似度,量化时使用两个用户共同好友的数目除以两个用户所有好友的数目。假设六的量化指标被称为共被指向性相似度,计算方式与共指向性相似度类似。从意义上讲,这两种相似度不仅仅是关系上的度量,在一定程度上也衡量了用户之间的兴趣相似程度,直观上看,两个用户共同关注的好友越多,他们的兴趣相似程度也越大。这两种相似度还有一个专业的名字,是基于结构情景的相似度计算。

得到了最短路径相似度、共指向性相似度、共被指向性相似度后,可以采用一种加权函数将它们融合起来,得到最后的相似度。之后,可以采用一些聚类算法如K-Means、DBSCAN等进行聚类操作,得到最后的社区簇。也可以采用相似度加权的标签传播算法,把具有相同标签的人作为一个社区。

影响力计算

在社区发现中,使用微博中的关系网络可以提高相似度计算的精确度。但关系网络能做的事情还有很多,影响力计算便是其中比较重要的应用。

说到影响力的计算,这里借鉴了网页排名中的算法。网页排名中广为人知的算法当属PageRank了,该算法由google创始人拉里佩奇和谢尔盖布林发明,随着google在商业上的成功而声名鹊起。该算法根据网页之间的链接来确定网页的排名,其核心在于一个假设,质量高的网页所指向的网页的质量必定也高。

根据PageRank的思想,可以得到微博上影响力的假设,称之为假设七:

影响力高的用户关注的用户的影响力必定也高。

将用户看成是PageRank中的网页,将关注关系看做是网页中的链接关系。从而,可以根据PageRank的算法流程得到在微博关注网络上的影响力计算算法:

1)赋予所有用户相同的影响力权重;

2)将每个用户的影响力权重按照其关注的人数等量分配;

3)对每个用户来说,其影响力等于其粉丝分配给他的权重之和;

4)第2步和第3步迭代,直到权重不再发生大的变化为止。

在网页排名中,基于网络关系的算法还有HITS、HillTop算法等,这些算法也可以借鉴到影响力计算中来。

上面的算法有什么缺点呢?

如果只是基于关系网络的话,那么很容易就造成,粉丝数目多的人影响力必然会很高。这样就导致有些用户去购买一些僵尸粉就可以达到很高的影响力了。这样的算法显然是不能应对实际情况的,因为还有太多的信息没有用到。

用户的影响力除了他的微博关系之外,还与他的个人属性有很大的关系,比如用户的活跃度、微文的质量等。用户的活跃度可以使用其发表微博的频度来衡量,微文的质量可以采用其被转发的数目、被回复的数目来得到。通过对这些值进行衡量,再加上上面算法的结果,就可以得到更加精确的影响力结果。

当然,也可以这样考虑, 网络,它们也有相应的假设,分别为假设八、假设九、假设十:

影响力越高的用户回复的微博的影响力越高,从而使该微博主人的影响力变高。

影响力越高的用户转发的微博的影响力越高,从而使该微博原创作者的影响力变高。

 户。

 络,借鉴PageRank算法,可以得到另外的三种影响力结果。将它们与关系网络的影响力结果进行融合,就可以最终的影响力结果了。这里的融合可以简单的考虑成结果的加权和,复杂的融合方法不在本文的范围之内。

话题因素和领域因素

得到了影响力的计算方法之后,可以做些什么呢?

可以对当前的热点话题进行影响力分析,得到谁在微博上成为当前热点话题的意见领袖。具体做法是这样,找到和当前热点话题相关的微文,从而找到参与当前热点话题的用户。如何找到和当前热点话题相关的微文呢?有话题标签的微文自不必说,对于没有话题标签的微文来说,可以使用上文中介绍的LDA算法,它可以在用户的所有微文中找到用户的主题分布,也可以对一条微文找到主题分布,一般来说,由于微文的字数限制在140以内,比较短,因而一条微文包含的主题数目不会太多,取该微文的主题分布中概率最高的主题当做其主题即可。

找到话题对应的微文与用户之后,运行影响力计算算法,就可以得到该话题中影响力较大的用户了。这也是舆情监测、社会热点监控的一个方面。

对于标签传播算法得到的结果,对同一标签下的用户运行影响力计算算法,可以得到该标签下的影响力排名,即领域内影响力排名。比如,李开复在全部领域内的影响力或许不是最高的,但在IT领域,其影响力绝对是数一数二的。

垃圾用户识别

在影响力计算中,提到要避免僵尸用户对影响力计算的干扰。在算法中,如果可以识别这样的用户,在计算影响力时将其排出在外,不仅可以提高效果,还可以降低计算量。

与影响力计算相似,垃圾用户的识别要同时考虑用户属性与链接关系两方面的因素。

对于垃圾用户来说,有一些统计上的特征与正常用户不同。比如如下几点:

垃圾用户一般发微文具有一定的时间规律性,可以使用熵值对此进行衡量,熵是衡量随机性的一种量度,随机性越大,熵值越小。具体做法为将一定的粒度进行时间切片统计,得到每个时间片内的博文概率,然后依照概率进行熵值的计算。熵值越大代表用户发微文的时间越有规律,越有可能是垃圾用户。

 , 高。

有些垃圾用户的微文中为了进行广告的推广,添加大量的URL。可以通过微文中的URL比例进行衡量。也有些用户为了骗取URL的点击,微文中的内容与URL对应界面的内容不一致,这时需要判断微文与URL内容的一致程度,简单的做法可以使用词袋法将微文与URL对应界面表示成词语向量,查看微文中的词语在URL对应网页中出现的频度。

对于那些为做广告推销的用户,还可以对其微文进行文本分类,判断其微文是否是广告,如果某用户的相当一部分微文是广告,则该用户可能是垃圾用户。

垃圾用户一般随意的关注用户,故其粉丝数目与好友数目的比例与正常用户会有差别。而且正常用户一般是通过好友关系添加好友的,这样会形成关注三角形,如A看到其好友B关注了C,那么若A也去关注C,就形成了A关注B、C,B关注C的三角形。一般来说,由于垃圾用户关注的随意性,其关注三角形的比例与正常用户不同。

当然,垃圾用户与正常用户的不同之处不止这些,本文不再一一枚举。垃圾用户的识别本质上是一个二分类问题,获得了这些属性之后,就可以将这些信息输入到一个机器学习的分类模型中,比如逻辑斯蒂回归(LR)、决策树、朴素贝叶斯等,就可以对其进行分类了。

当然,还没有用到链接信息。一般来说,垃圾用户会去关注正常用户,而正常用户不会关注垃圾用户。这即是假设十一:

正常用户不倾向于关注垃圾用户。

这样就可以再次使用PageRank算法来对用户是否是垃圾用户的概率进行计算。这里需要注意的是,算法初始化时采用上面的分类器结果,将垃圾用户的概率设为1,正常用户的概率设为0。在PageRank计算过程中,不能通过简单的求和公式计算,比如如果一个用户关注了多个垃圾用户的时候,求和后概率可能大于1;因而需要使用一些归一化方法或指数族函数进行概率的更新。

结语

本文对微博中常见的问题的对应算法进行了简单的介绍,在实际应用中的算法比介绍的要复杂的多。当然,本文覆盖的主题并不全,比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”,希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。

在文中,可以看到黑体标出的假设,这些假设看起来都与我们的直观感觉一致。而根据这些可以引申出很多有效的算法。所以有时候,只要你肯发现,算法就在身边。

转自:伯乐在线

http://kel.kvov.com.cn/jzxx6062.html

今日推荐知识库
解梦
梦见别人赠马给自己,会在军事部门担任高级职务。
经典语录
现在逛食品店,看见这么多好吃的东西,真是过瘾——当然是过眼瘾,我已经进入了“有豆没牙”的年龄,医生和太太以保健为名,联合起来努力遏制我解馋的快乐。当我看到人们用薪酬中相对不大的比例就能享受我们过去做梦也享受不着的美味,我真是高兴。——摘自《柳传志写给年后人们的信》
语录
没有人能给你无时不刻的安全感,除了你自己。
语录
抬头仰望天空,有时侯像一块丝手帕,十分透明,蓝天上停留着细碎的云块,像是绣有纱巾上的白玉兰花。有时却没有一丝云彩,只有太阳公公高高地挂在空中,耀眼的光芒刺得我们眯着眼睛,像广阔安静的大海。天气很好时,抬头一望,湛蓝湛蓝的天空,极明,极静,极宽广,顿时觉得视野开阔,心旷神怡。
解梦
梦见妻子背叛,表现得满不在乎,这在潜意识之中说明自己容易受到引诱,害怕被妻子无视,害怕她不再爱自己。原因在于自卑,在于觉得自己比不上那个朋友。