<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>在线营销</title>
	<atom:link href="http://www.dwhzy.com/feed" rel="self" type="application/rss+xml" />
	<link>http://www.dwhzy.com</link>
	<description></description>
	<lastBuildDate>Tue, 24 Aug 2010 01:13:54 +0000</lastBuildDate>
	<generator>http://wordpress.org/?v=2.9.2</generator>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
		
<!-- Start Of Script Generated By WP-PostViews Plus -->
<script type='text/javascript' src='http://www.dwhzy.com/wp-includes/js/jquery/jquery.js?ver=1.3.2'></script>
<script type="text/javascript">
/* <![CDATA[ */
/* ]]> */
</script>
<!-- End Of Script Generated By WP-PostViews Plus -->
	<item>
		<title>什么是团队？</title>
		<link>http://www.dwhzy.com/149.html</link>
		<comments>http://www.dwhzy.com/149.html#comments</comments>
		<pubDate>Tue, 24 Aug 2010 01:13:28 +0000</pubDate>
		<dc:creator>在线营销</dc:creator>
				<category><![CDATA[头条]]></category>
		<category><![CDATA[team]]></category>
		<category><![CDATA[什么是团队]]></category>
		<category><![CDATA[团队]]></category>

		<guid isPermaLink="false">http://www.dwhzy.com/?p=149</guid>
		<description><![CDATA[什么是团队？我们平常一直讲团队，但是我们了解什么才是真正的团队吗？下面就让我们一起来看一下，什么是团队！]]></description>
			<content:encoded><![CDATA[<p><a rel="attachment wp-att-150" href="http://www.dwhzy.com/149.html/42-25341619"><img class="alignleft size-full wp-image-150" title="什么是团队" src="http://www.dwhzy.com/wp-content/uploads/2010/08/teamwork.jpg" alt="" width="350" height="261" /></a></p>
<p>团队：A team is a group of people who agree on a goal and agree that the only way to achieve the goal is to work together. （Park, G.M. 1990） 翻译过来就是“团队是为了一个共同的目标而一起努力的一群人”。这里面涉及到三个要素：共同的目标，一起努力，一群人。这三者缺一不可。</p>
<div id="_mcePaste">无论是个体还是团队，没有目标，远景，就失去了努力的意义，一个清晰的目标会吸引众人加入一个团队，而这个目标通常是个体难以实现，或者实现起来没有团队那么有效率，那么有成就感。</div>
<div id="_mcePaste">“一起努力”，则隐含着这样一个概念，个体的努力无法企及，无法相比团队努力的果效。更深远的，团队的成功可以让个体更充分的实现个体的价值。</div>
<div id="_mcePaste">“一群人”，毫无疑问是说多个人。但是一群人可以是乌合之众，也可以高效有战斗力的集体。对于团队来说每个人都应该认可并尊重的一个重要的原则是: There is no “I” in a team, but there are “M” and “E”. 虽然看起来像是语言游戏，可是背后的概念是非常重要的。 主语地位的我，要让位于团队的我们，我只是团队中的一员，一部分，做宾语而不是作主语。</div>
<div id="_mcePaste">事实上，世界上80%的团队都不能算是成功的团队，而且有两种团队特别容易失败：</div>
<div id="_mcePaste">整个团队都是由聪明人组成的。</div>
<div id="_mcePaste">整个团队都是由个性相近的人组成的。</div>
<div id="_mcePaste">而这两种团队，恰恰是我们在商业环境下组建团队的一种倾向性标准。</div>
<div id="_mcePaste">团队的一些基本原则：</div>
<div id="_mcePaste">第一，沟通。 沟通说起来简单，实践起来困难。 比如说在网络的环境下。很早以前我认为，对于学习来说论坛不是一个最有效的沟通方式。在技术类的论坛上，你常会发现，一个人技术上的长进更多发生在他在论 坛中看得多，说得少，思考得勤，回复得精，尊重别人多，要求自尊少的阶段。这一点也不奇怪，因为沟通中重要的是听，而不是说，对应论坛来说，就是，看和 读，而不是急于表达自己。好的倾听，是关注对方表达的含义，而不是对方表达的方式，争论的焦点在于观点的内容，而不是对方如何的用词，坚持的原则重在观点 的意义，而不是自己的面子，甚至变成教导对方如何使用中文。上帝毕竟给我们每个人一个嘴巴，两个耳朵。</div>
<div id="_mcePaste">第二，制定游戏规则。团队是集体，当然应该有游戏规则，这可以帮助团队成员很好的界定自己应该如何的表现，团队的利益要高于个体的利益。这点也是很不容易 让人接受的一点。所以作为团队的leader, 掌握好团队和个体的平衡，需要的是大智慧。规则制定是为了明确团队中每个成员的角色，每个人都做自己最擅长的工作，每个人都平等，而且同样重要。</div>
<div id="_mcePaste">第三，尊重。尊重是一种认可，尊重包括批评和自我批评，但是团队中最容易发生的一个陷阱，却是对领袖的个人崇拜。中国是个喜欢偶像的国度，没有偶像，都要 创造出偶像。 因着每人的经验和阅历的不同，各自的偶像当然就不一样，于是团队中很容易形成不同的派别和小团体，这不是说不许每个人保持各自的喜好，而是不让自己的感觉 蒙蔽你的双眼。尊重和偶像的建立是无缘的。团队需要尊重，不需要偶像。</div>
<div id="_mcePaste">第四，独立思考和学习。团队提供了很多机会给每个个体，保持独立思考和学习是非常重要的，一个有效的团队，至少包含着这样一个元素：个体和团队共同成长，共同分享。</div>
<p>无论是个体还是团队，没有目标，远景，就失去了努力的意义，一个清晰的目标会吸引众人加入一个团队，而这个目标通常是个体难以实现，或者实现起来没有团队那么有效率，那么有成就感。<br />
“一起努力”，则隐含着这样一个概念，个体的努力无法企及，无法相比团队努力的果效。更深远的，团队的成功可以让个体更充分的实现个体的价值。<br />
“一群人”，毫无疑问是说多个人。但是一群人可以是乌合之众，也可以高效有战斗力的集体。对于团队来说每个人都应该认可并尊重的一个重要的原则是: There is no “I” in a team, but there are “M” and “E”. 虽然看起来像是语言游戏，可是背后的概念是非常重要的。 主语地位的我，要让位于团队的我们，我只是团队中的一员，一部分，做宾语而不是作主语。<br />
事实上，世界上80%的团队都不能算是成功的团队，而且有两种团队特别容易失败：整个团队都是由聪明人组成的。整个团队都是由个性相近的人组成的。而这两种团队，恰恰是我们在商业环境下组建团队的一种倾向性标准。<br />
团队的一些基本原则：<br />
第一，沟通。 沟通说起来简单，实践起来困难。 比如说在网络的环境下。很早以前我认为，对于学习来说论坛不是一个最有效的沟通方式。在技术类的论坛上，你常会发现，一个人技术上的长进更多发生在他在论 坛中看得多，说得少，思考得勤，回复得精，尊重别人多，要求自尊少的阶段。这一点也不奇怪，因为沟通中重要的是听，而不是说，对应论坛来说，就是，看和 读，而不是急于表达自己。好的倾听，是关注对方表达的含义，而不是对方表达的方式，争论的焦点在于观点的内容，而不是对方如何的用词，坚持的原则重在观点 的意义，而不是自己的面子，甚至变成教导对方如何使用中文。上帝毕竟给我们每个人一个嘴巴，两个耳朵。<br />
第二，制定游戏规则。团队是集体，当然应该有游戏规则，这可以帮助团队成员很好的界定自己应该如何的表现，团队的利益要高于个体的利益。这点也是很不容易 让人接受的一点。所以作为团队的leader, 掌握好团队和个体的平衡，需要的是大智慧。规则制定是为了明确团队中每个成员的角色，每个人都做自己最擅长的工作，每个人都平等，而且同样重要。<br />
第三，尊重。尊重是一种认可，尊重包括批评和自我批评，但是团队中最容易发生的一个陷阱，却是对领袖的个人崇拜。中国是个喜欢偶像的国度，没有偶像，都要 创造出偶像。 因着每人的经验和阅历的不同，各自的偶像当然就不一样，于是团队中很容易形成不同的派别和小团体，这不是说不许每个人保持各自的喜好，而是不让自己的感觉 蒙蔽你的双眼。尊重和偶像的建立是无缘的。团队需要尊重，不需要偶像。<br />
第四，独立思考和学习。团队提供了很多机会给每个个体，保持独立思考和学习是非常重要的，一个有效的团队，至少包含着这样一个元素：个体和团队共同成长，共同分享。</p>
<p>这才是团队，至于时常挂在嘴边的这两个字，现在你应该了解了。</p>
<h3  class="related_post_title">随便看一些在线营销的文章吧</h3><ul class="related_post"><li><a href="http://www.dwhzy.com/118.html" title="什么是跳出率（Bounce Rate）？">什么是跳出率（Bounce Rate）？</a></li><li><a href="http://www.dwhzy.com/123.html" title="什么是网页停留时间？">什么是网页停留时间？</a></li><li><a href="http://www.dwhzy.com/140.html" title="数学之美 系列 4 &#8212; 怎样度量信息">数学之美 系列 4 &#8212; 怎样度量信息</a></li><li><a href="http://www.dwhzy.com/102.html" title="谷歌：数学之美系列一——统计语言模型">谷歌：数学之美系列一——统计语言模型</a></li><li><a href="http://www.dwhzy.com/120.html" title="什么是网站停留时间（time on site）?">什么是网站停留时间（time on site）?</a></li><li><a href="http://www.dwhzy.com/113.html" title="什么是PV？">什么是PV？</a></li><li><a href="http://www.dwhzy.com/104.html" title="数学之美 系列二 &#8212; 谈谈中文分词">数学之美 系列二 &#8212; 谈谈中文分词</a></li><li><a href="http://www.dwhzy.com/115.html" title="什么是visitor？">什么是visitor？</a></li><li><a href="http://www.dwhzy.com/88.html" title="开博第一篇，一样的优化，不一样的观点。">开博第一篇，一样的优化，不一样的观点。</a></li><li><a href="http://www.dwhzy.com/111.html" title="什么是Visit？">什么是Visit？</a></li></ul>]]></content:encoded>
			<wfw:commentRss>http://www.dwhzy.com/149.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>数学之美 系列 4 &#8212; 怎样度量信息</title>
		<link>http://www.dwhzy.com/140.html</link>
		<comments>http://www.dwhzy.com/140.html#comments</comments>
		<pubDate>Wed, 11 Aug 2010 05:02:59 +0000</pubDate>
		<dc:creator>在线营销</dc:creator>
				<category><![CDATA[推荐阅读]]></category>
		<category><![CDATA[谷歌的秘密]]></category>
		<category><![CDATA[怎样度量信息]]></category>
		<category><![CDATA[数学之美]]></category>

		<guid isPermaLink="false">http://www.dwhzy.com/?p=140</guid>
		<description><![CDATA[Google 一直以 “整合全球信息，让人人能获取，使人人能受益” 为使命。那么究竟每一条信息应该怎样度量呢？]]></description>
			<content:encoded><![CDATA[<p>信息是个很抽象的概念。我们常常说信息很多，或者信息较少，但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多少信息量。直到 1948 年，<a href="http://www.itedu-tsinghua.com/ReadNews.asp?NewsID=309" target="_blank">香农</a>提出了“<a href="http://boole.cs.iastate.edu/book/5-%BC%AF(%CE%C4%D1%A7)/2-%CD%F8%C2%E7%D4%D3%D6%BE/%D6%D0%B9%FA%D1%D0%BE%BF/%D6%D0%B9%FA%D1%D0%BE%BF/www.topsin.net/zgyj/zgyj1999/zgyj9910/g991007e.htm" target="_blank">信息熵</a>”(shāng) 的概念，才解决了对信息的量化度量问题。</p>
<p>一条信息的信息量大小和它的不确定性有直接的关系。比如说，我们要搞清楚一件非常非常不确定的事，或是我们一无所知的事情，就需要了解大量的信息。相反，如果我们对某件事已经有了较多的了解，我们不需要太多的信息就能把它搞清楚。所以，从这个角度，我们可以认为，信息量的度量就等于不确定性的多少。</p>
<p>那么我们如何量化的度量信息量呢？我们来看一个例子，马上要举行世界杯赛了。大家都很关心谁会是冠军。假如我错过了看世界杯，赛后我问一个知道比赛结果的观众“哪支球队是冠军”？ 他不愿意直接告诉我， 而要让我猜，并且我每猜一次，他要收一元钱才肯告诉我是否猜对了，那么我需要付给他多少钱才能知道谁是冠军呢? 我可以把球队编上号，从 1 到 32， 然后提问： “冠军的球队在 1-16 号中吗?” 假如他告诉我猜对了， 我会接着问： “冠军在 1-8 号中吗?” 假如他告诉我猜错了， 我自然知道冠军队在 9-16 中。 这样只需要五次， 我就能知道哪支球队是冠军。所以，谁是世界杯冠军这条消息的信息量只值五块钱。</p>
<p>当然，香农不是用钱，而是用 “比特”（bit）这个概念来度量信息量。 一个比特是一位二进制数，计算机中的一个字节是八个比特。在上面的例子中，这条消息的信息量是五比特。（如果有朝一日有六十四个队进入决赛阶段的比赛，那么“谁世界杯冠军”的信息量就是六比特，因为我们要多猜一次。） 读者可能已经发现, 信息量的比特数和所有可能情况的对数函数 log 有关。 (log32=5, log64=6。）</p>
<p>有些读者此时可能会发现我们实际上可能不需要猜五次就能猜出谁是冠军，因为象巴西、德国、意大利这样的球队得冠军的可能性比日本、美国、韩国等队大的多。因此，我们第一次猜测时不需要把 32 个球队等分成两个组，而可以把少数几个最可能的球队分成一组，把其它队分成另一组。然后我们猜冠军球队是否在那几只热门队中。我们重复这样的过程，根据夺冠概率对剩下的候选球队分组，直到找到冠军队。这样，我们也许三次或四次就猜出结果。因此，当每个球队夺冠的可能性（概率）不等时，“谁世界杯冠军”的信息量的信息量比五比特少。香农指出，它的准确信息量应该是</p>
<p>= -（p1*log p1 + p2 * log p2 +　．．．　＋p32 *log p32)，</p>
<p>其中，p1，p2 ，　．．．，p32 分别是这 32 个球队夺冠的概率。香农把它称为“信息熵” (Entropy)，一般用符号 H 表示，单位是比特。有兴趣的读者可以推算一下当 32 个球队夺冠概率相同时，对应的信息熵等于五比特。有数学基础的读者还可以证明上面公式的值不可能大于五。对于任意一个随机变量 X（比如得冠军的球队），它的熵定义如下：</p>
<p><a rel="attachment wp-att-141" href="http://www.dwhzy.com/140.html/equation1-729041-gif"><img class="alignleft size-full wp-image-141" title="equation1-729041.gif" src="http://www.dwhzy.com/wp-content/uploads/2010/08/equation1-729041.gif.jpg" alt="数学之美系列 4 -- 怎样度量信息" width="177" height="34" /></a></p>
<p>变量的不确定性越大，熵也就越大，把它搞清楚所需要的信息量也就越大。</p>
<p>有了“熵”这个概念，我们就可以回答本文开始提出的问题，即一本五十万字的中文书平均有多少信息量。我们知道常用的汉字（一级二级国标）大约有 7000 字。假如每个字等概率，那么我们大约需要 13 个比特（即 13 位二进制数）表示一个汉字。但汉字的使用是不平衡的。实际上，前 10% 的汉字占文本的 95% 以上。因此，即使不考虑上下文的相关性，而只考虑每个汉字的独立的概率，那么，每个汉字的信息熵大约也只有 8-9 个比特。如果我们再考虑上下文相关性，每个汉字的信息熵只有5比特左右。所以，一本五十万字的中文书，信息量大约是 250 万比特。如果用一个好的算法压缩一下，整本书可以存成一个 320KB 的文件。如果我们直接用两字节的国标编码存储这本书，大约需要 1MB 大小，是压缩文件的三倍。这两个数量的差距，在信息论中称作“冗余度”（redundancy)。 需要指出的是我们这里讲的 250 万比特是个平均数，同样长度的书，所含的信息量可以差很多。如果一本书重复的内容很多，它的信息量就小，冗余度就大。</p>
<p>不同语言的冗余度差别很大，而汉语在所有语言中冗余度是相对小的。这和人们普遍的认识“汉语是最简洁的语言”是一致的。</p>
<p>在下一集中， 我们将介绍信息熵在信息处理中的应用以及两个相关的概念互信息和相对熵。</p>
<p>对中文信息熵有兴趣的读者可以读我和王作英教授在电子学报上合写的一篇文章<br />
<a href="http://engine.cqvip.com/content/citation.dll?id=2155540" target="_blank">《语信息熵和语言模型的复杂度》</a></p>
<h3  class="related_post_title">更多与在线营销有关的文章</h3><ul class="related_post"><li><a href="http://www.dwhzy.com/129.html" title="数学之美 系列三——隐含马尔可夫模型在语言处理中的应用">数学之美 系列三——隐含马尔可夫模型在语言处理中的应用</a></li><li><a href="http://www.dwhzy.com/104.html" title="数学之美 系列二 &#8212; 谈谈中文分词">数学之美 系列二 &#8212; 谈谈中文分词</a></li></ul>]]></content:encoded>
			<wfw:commentRss>http://www.dwhzy.com/140.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>数学之美 系列三——隐含马尔可夫模型在语言处理中的应用</title>
		<link>http://www.dwhzy.com/129.html</link>
		<comments>http://www.dwhzy.com/129.html#comments</comments>
		<pubDate>Tue, 10 Aug 2010 05:21:58 +0000</pubDate>
		<dc:creator>在线营销</dc:creator>
				<category><![CDATA[头条]]></category>
		<category><![CDATA[谷歌的秘密]]></category>
		<category><![CDATA[数学之美]]></category>
		<category><![CDATA[隐含马尔可夫模型]]></category>

		<guid isPermaLink="false">http://www.dwhzy.com/?p=129</guid>
		<description><![CDATA[谷歌的黑板报又恢复正常了，之前谷歌耍小脾气差点被和谐，导致黑板报的网址时而能打开，时而打不开，现在应该是恢复正常了，接着转载，不过发现涉及到的数学问题多了很多。。。看来不得不去碰一下数学。]]></description>
			<content:encoded><![CDATA[<p>谷歌的黑板报又恢复正常了，之前谷歌耍小脾气差点被和谐，导致黑板报的网址时而能打开，时而打不开，现在应该是恢复正常了，接着转载，不过发现涉及到的数学问题多了很多。。。看来不得不去碰一下数学。</p>
<p>前言：隐含马尔可夫模型是一个数学模型，到目前为之，它一直被认为是实现快速精确的语音识别系统的最成功的方法。复杂的语音识别问题通过隐含马尔可夫模型能非常简单地被表述、解决，让我不由由衷地感叹数学模型之妙。</p>
<p>自然语言是人类交流信息的工具。很多自然语言处理问题都可以等同于通信系统中的解码问题 &#8212; 一个人根据接收到的信息，去猜测发话人要表达的意思。这其实就象通信中，我们根据接收端收到的信号去分析、理解、还原发送端传送过来的信息。以下该图就表示了一个典型的通信系统：</p>
<p style="text-align: center;"><a rel="attachment wp-att-133" href="http://www.dwhzy.com/129.html/channel-712509"><img class="size-medium wp-image-133  aligncenter" title="隐含马尔可夫模型在语言处理中的应用" src="http://www.dwhzy.com/wp-content/uploads/2010/08/channel-712509-300x225.jpg" alt="隐含马尔可夫模型在语言处理中的应用" width="300" height="225" /></a></p>
<p style="text-align: center;">
<p>其中 s1，s2，s3&#8230;表示信息源发出的信号。o1, o2, o3 &#8230; 是接受器接收到的信号。通信中的解码就是根据接收到的信号 o1, o2, o3 &#8230;还原出发送的信号 s1，s2，s3&#8230;。</p>
<p>其实我们平时在说话时，脑子就是一个信息源。我们的喉咙（声带），空气，就是如电线和光缆般的信道。听众耳朵的就是接收端，而听到的声音就是传送过来的信号。根据声学信号来推测说话者的意思，就是语音识别。这样说来，如果接收端是一台计算机而不是人的话，那么计算机要做的就是语音的自动识别。同样，在计算机中，如果我们要根据接收到的英语信息，推测说话者的汉语意思，就是机器翻译； 如果我们要根据带有拼写错误的语句推测说话者想表达的正确意思，那就是自动纠错。</p>
<p>那么怎么根据接收到的信息来推测说话者想表达的意思呢？我们可以利用叫做“<a href="http://www.google.com/search?hl=zh-CN&amp;q=%E9%9A%90%E5%90%AB%E9%A9%AC%E5%B0%94%E5%8F%AF%E5%A4%AB%E6%A8%A1%E5%9E%8B&amp;btnG=Google+%E6%90%9C%E7%B4%A2&amp;lr=" target="_blank">隐含马尔可夫模型</a>”（Hidden Markov Model）来解决这些问题。以语音识别为例，当我们观测到语音信号 o1,o2,o3 时，我们要根据这组信号推测出发送的句子 s1,s2,s3。显然，我们应该在所有可能的句子中找最有可能性的一个。用数学语言来描述，就是在已知 o1,o2,o3,&#8230;的情况下，求使得条件概率<br />
P (s1,s2,s3,&#8230;|o1,o2,o3&#8230;.) 达到最大值的那个句子 s1,s2,s3,&#8230;</p>
<p>当然，上面的概率不容易直接求出，于是我们可以间接地计算它。利用贝叶斯公式并且省掉一个常数项，可以把上述公式等价变换成</p>
<p>P(o1,o2,o3,&#8230;|s1,s2,s3&#8230;.) * P(s1,s2,s3,&#8230;)<br />
其中<br />
P(o1,o2,o3,&#8230;|s1,s2,s3&#8230;.) 表示某句话 s1,s2,s3&#8230;被读成 o1,o2,o3,&#8230;的可能性, 而<br />
P(s1,s2,s3,&#8230;) 表示字串 s1,s2,s3,&#8230;本身能够成为一个合乎情理的句子的可能性，所以这个公式的意义是用发送信号为 s1,s2,s3&#8230;这个数列的可能性乘以 s1,s2,s3&#8230;本身可以一个句子的可能性，得出概率。</p>
<p>（读者读到这里也许会问，你现在是不是把问题变得更复杂了，因为公式越写越长了。别着急，我们现在就来简化这个问题。）我们在这里做两个假设：</p>
<p>第一，s1,s2,s3,&#8230; 是一个马尔可夫链，也就是说，si 只由 si-1 决定 (详见<a href="http://googlechinablog.com/2006/04/blog-post.html" target="_blank">系列一</a>)；<br />
第二， 第 i 时刻的接收信号 oi 只由发送信号 si 决定（又称为独立输出假设, 即 P(o1,o2,o3,&#8230;|s1,s2,s3&#8230;.) = P(o1|s1) * P(o2|s2)*P(o3|s3)&#8230;。<br />
那么我们就可以很容易利用算法 <a href="http://www.comp.leeds.ac.uk/roger/HiddenMarkovModels/html_dev/viterbi_algorithm/s2_pg1.html" target="_blank">Viterbi</a> 找出上面式子的最大值，进而找出要识别的句子 s1,s2,s3,&#8230;。</p>
<p>满足上述两个假设的模型就叫隐含马尔可夫模型。我们之所以用“隐含”这个词，是因为状态 s1,s2,s3,&#8230;是无法直接观测到的。</p>
<p>隐含马尔可夫模型的应用远不只在语音识别中。在上面的公式中，如果我们把 s1,s2,s3,&#8230;当成中文，把 o1,o2,o3,&#8230;当成对应的英文，那么我们就能利用这个模型解决机器翻译问题； 如果我们把 o1,o2,o3,&#8230;当成扫描文字得到的图像特征，就能利用这个模型解决印刷体和手写体的识别。</p>
<p>P (o1,o2,o3,&#8230;|s1,s2,s3&#8230;.) 根据应用的不同而又不同的名称，在语音识别中它被称为“声学模型” (Acoustic Model)， 在机器翻译中是“翻译模型” (Translation Model) 而在拼写校正中是“纠错模型” (Correction Model)。 而P (s1,s2,s3,&#8230;) 就是我们在系列一中提到的语言模型。</p>
<p>在利用隐含马尔可夫模型解决语言处理问题前，先要进行模型的训练。 常用的训练方法由伯姆（Baum）在60年代提出的，并以他的名字命名。隐含马尔可夫模型在处理语言问题早期的成功应用是语音识别。七十年代，当时 IBM 的 <a href="http://www.clsp.jhu.edu/people/jelinek/" target="_blank">Fred Jelinek</a> (贾里尼克) 和卡内基·梅隆大学的 Jim and Janet Baker <a href="http://www.google.com/search?hl=zh-CN&amp;q=Jim+Janet+Baker+Hidden+Markov+Model&amp;btnG=%E6%90%9C%E7%B4%A2&amp;lr=" target="_blank">(贝克夫妇</a>，李开复的师兄师姐) 分别独立地提出用隐含马尔可夫模型来识别语音，语音识别的错误率相比人工智能和模式匹配等方法降低了三倍 (从 30% 到 10%)。 八十年代李开复博士坚持采用隐含马尔可夫模型的框架， 成功地开发了世界上第一个大词汇量连续语音识别系统 Sphinx。</p>
<p>我最早接触到隐含马尔可夫模型是几乎二十年前的事。那时在《随机过程》（清华“著名”的一门课）里学到这个模型，但当时实在想不出它有什么实际用途。几年后，我在清华跟随王作英教授学习、研究语音识别时，他给了我几十篇文献。 我印象最深的就是贾里尼克和李开复的文章，它们的核心思想就是隐含马尔可夫模型。复杂的语音识别问题居然能如此简单地被表述、解决，我由衷地感叹数学模型之妙。</p>
<h3  class="related_post_title">更多与在线营销有关的文章</h3><ul class="related_post"><li><a href="http://www.dwhzy.com/140.html" title="数学之美 系列 4 &#8212; 怎样度量信息">数学之美 系列 4 &#8212; 怎样度量信息</a></li><li><a href="http://www.dwhzy.com/104.html" title="数学之美 系列二 &#8212; 谈谈中文分词">数学之美 系列二 &#8212; 谈谈中文分词</a></li></ul>]]></content:encoded>
			<wfw:commentRss>http://www.dwhzy.com/129.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>什么是新访问者与回访者？</title>
		<link>http://www.dwhzy.com/126.html</link>
		<comments>http://www.dwhzy.com/126.html#comments</comments>
		<pubDate>Thu, 05 Aug 2010 14:43:37 +0000</pubDate>
		<dc:creator>在线营销</dc:creator>
				<category><![CDATA[推荐阅读]]></category>
		<category><![CDATA[数据分析基本概念]]></category>
		<category><![CDATA[cookies]]></category>
		<category><![CDATA[什么是新访问者]]></category>
		<category><![CDATA[回访者]]></category>
		<category><![CDATA[新访问者]]></category>

		<guid isPermaLink="false">http://www.dwhzy.com/?p=126</guid>
		<description><![CDATA[新访问者，就是第一次访问你网站的用户，而回访者是指已经访问过你网站的用户，判断用户是新访问者还是回访者的依据是cookies！]]></description>
			<content:encoded><![CDATA[<p>新访问者，就是第一次访问你网站的用户，而回访者是指已经访问过你网站的用户，判断用户是新访问者还是回访者的依据是cookies！</p>
<p>如果用户电脑中已经有了cookies，那么统计工具会判断为是回访者，否则就是新访问者。需要注意的是，统计工具依据cookies判断的新访问者与回访者实际上并不是真正的网站新访问者和回访者，比如，一个用户在A电脑上访问了你的网站，之后又在B电脑上访问你的网站，统计工具会认为这个用户是新访问者，实际上，这是回访者。</p>
<p>推荐阅读：什么是cookies？</p>
<h3  class="related_post_title">随便看一些在线营销的文章吧</h3><ul class="related_post"><li><a href="http://www.dwhzy.com/88.html" title="开博第一篇，一样的优化，不一样的观点。">开博第一篇，一样的优化，不一样的观点。</a></li><li><a href="http://www.dwhzy.com/111.html" title="什么是Visit？">什么是Visit？</a></li><li><a href="http://www.dwhzy.com/149.html" title="什么是团队？">什么是团队？</a></li><li><a href="http://www.dwhzy.com/118.html" title="什么是跳出率（Bounce Rate）？">什么是跳出率（Bounce Rate）？</a></li><li><a href="http://www.dwhzy.com/140.html" title="数学之美 系列 4 &#8212; 怎样度量信息">数学之美 系列 4 &#8212; 怎样度量信息</a></li><li><a href="http://www.dwhzy.com/104.html" title="数学之美 系列二 &#8212; 谈谈中文分词">数学之美 系列二 &#8212; 谈谈中文分词</a></li><li><a href="http://www.dwhzy.com/102.html" title="谷歌：数学之美系列一——统计语言模型">谷歌：数学之美系列一——统计语言模型</a></li><li><a href="http://www.dwhzy.com/113.html" title="什么是PV？">什么是PV？</a></li><li><a href="http://www.dwhzy.com/123.html" title="什么是网页停留时间？">什么是网页停留时间？</a></li><li><a href="http://www.dwhzy.com/115.html" title="什么是visitor？">什么是visitor？</a></li></ul>]]></content:encoded>
			<wfw:commentRss>http://www.dwhzy.com/126.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>什么是网页停留时间？</title>
		<link>http://www.dwhzy.com/123.html</link>
		<comments>http://www.dwhzy.com/123.html#comments</comments>
		<pubDate>Wed, 04 Aug 2010 14:31:25 +0000</pubDate>
		<dc:creator>在线营销</dc:creator>
				<category><![CDATA[推荐阅读]]></category>
		<category><![CDATA[数据分析基本概念]]></category>
		<category><![CDATA[什么是网页停留时间]]></category>
		<category><![CDATA[网页停留时间]]></category>

		<guid isPermaLink="false">http://www.dwhzy.com/?p=123</guid>
		<description><![CDATA[简单说，网页停留时间就是指访问者在页面上所停留的时间，而网站停留时间是用户在网站上的停留时间，网站和网页，一字之差，意义可不同。]]></description>
			<content:encoded><![CDATA[<p>简单说，网页停留时间就是指访问者在页面上所停留的时间，而网站停留时间是用户在网站上的停留时间，网站和网页，一字之差，意义可不同，大家在看数据统计的时候一定要认清，本人就曾经犯过这样的错误，从而纠结网站的数据统计为什么前后不一致。。。</p>
<p>推荐阅读：<a title="网站停留时间" href="http://www.dwhzy.com/120.html" target="_blank"><strong>网站停留时间</strong></a></p>
<h3  class="related_post_title">更多与在线营销有关的文章</h3><ul class="related_post"><li><a href="http://www.dwhzy.com/120.html" title="什么是网站停留时间（time on site）?">什么是网站停留时间（time on site）?</a></li></ul>]]></content:encoded>
			<wfw:commentRss>http://www.dwhzy.com/123.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>什么是网站停留时间（time on site）?</title>
		<link>http://www.dwhzy.com/120.html</link>
		<comments>http://www.dwhzy.com/120.html#comments</comments>
		<pubDate>Tue, 03 Aug 2010 15:35:29 +0000</pubDate>
		<dc:creator>在线营销</dc:creator>
				<category><![CDATA[推荐阅读]]></category>
		<category><![CDATA[数据分析基本概念]]></category>
		<category><![CDATA[time on site]]></category>
		<category><![CDATA[网站停留时间]]></category>
		<category><![CDATA[网页停留时间]]></category>

		<guid isPermaLink="false">http://www.dwhzy.com/?p=120</guid>
		<description><![CDATA[网站停留时间是衡量访问质量的一种途径。由于访问者经常保持浏览器窗口为打开状态，实际却并不浏览或使用您的网站，因此"网站停留时间"可能具有误导性。]]></description>
			<content:encoded><![CDATA[<p>网站停留时间是衡量访问质量的一种途径。由于访问者经常保持浏览器窗口为打开状态，实际却并不浏览或使用您的网站，因此&#8221;网站停留时间&#8221;可能具有误导性。</p>
<p>需要注意的是，网站停留时间和网页停留时间是有区别的。</p>
<p><strong>详细请看：</strong></p>
<p><a title="网页停留时间" href="http://www.dwhzy.com/123.html" target="_blank">什么是网页停留时间</a>？</p>
<p>网站停留时间和网页停留时间的区别</p>
<h3  class="related_post_title">更多与在线营销有关的文章</h3><ul class="related_post"><li><a href="http://www.dwhzy.com/123.html" title="什么是网页停留时间？">什么是网页停留时间？</a></li></ul>]]></content:encoded>
			<wfw:commentRss>http://www.dwhzy.com/120.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>什么是跳出率（Bounce Rate）？</title>
		<link>http://www.dwhzy.com/118.html</link>
		<comments>http://www.dwhzy.com/118.html#comments</comments>
		<pubDate>Mon, 02 Aug 2010 14:14:13 +0000</pubDate>
		<dc:creator>在线营销</dc:creator>
				<category><![CDATA[推荐阅读]]></category>
		<category><![CDATA[数据分析]]></category>
		<category><![CDATA[Bounce Rate]]></category>
		<category><![CDATA[什么是跳出率]]></category>
		<category><![CDATA[跳出率]]></category>

		<guid isPermaLink="false">http://www.dwhzy.com/?p=118</guid>
		<description><![CDATA[这里的跳出率是谷歌分析中的一项网站数据统计指标，我仔细查看了一下目前对于跳出率概念的理解，都不一样，这里给出的是谷歌官方的定义。]]></description>
			<content:encoded><![CDATA[<p>这里的跳出率（Bounce Rate）是谷歌分析中的一项网站数据统计指标，我仔细查看了一下目前对于跳出率概念的理解，都不一样，这里给出的是谷歌官方的定义。</p>
<p>跳出率：</p>
<p>跳出率指单页访问次数（即访问者从进入页离开网站的访问次数）百分比。跳出率是访问质量的衡量指标，高跳出率通常表示网站进入（目标）页与您的访问者无相关性。</p>
<h3  class="related_post_title">随便看一些在线营销的文章吧</h3><ul class="related_post"><li><a href="http://www.dwhzy.com/113.html" title="什么是PV？">什么是PV？</a></li><li><a href="http://www.dwhzy.com/149.html" title="什么是团队？">什么是团队？</a></li><li><a href="http://www.dwhzy.com/111.html" title="什么是Visit？">什么是Visit？</a></li><li><a href="http://www.dwhzy.com/88.html" title="开博第一篇，一样的优化，不一样的观点。">开博第一篇，一样的优化，不一样的观点。</a></li><li><a href="http://www.dwhzy.com/102.html" title="谷歌：数学之美系列一——统计语言模型">谷歌：数学之美系列一——统计语言模型</a></li><li><a href="http://www.dwhzy.com/140.html" title="数学之美 系列 4 &#8212; 怎样度量信息">数学之美 系列 4 &#8212; 怎样度量信息</a></li><li><a href="http://www.dwhzy.com/120.html" title="什么是网站停留时间（time on site）?">什么是网站停留时间（time on site）?</a></li><li><a href="http://www.dwhzy.com/115.html" title="什么是visitor？">什么是visitor？</a></li><li><a href="http://www.dwhzy.com/126.html" title="什么是新访问者与回访者？">什么是新访问者与回访者？</a></li><li><a href="http://www.dwhzy.com/104.html" title="数学之美 系列二 &#8212; 谈谈中文分词">数学之美 系列二 &#8212; 谈谈中文分词</a></li></ul>]]></content:encoded>
			<wfw:commentRss>http://www.dwhzy.com/118.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>什么是visitor？</title>
		<link>http://www.dwhzy.com/115.html</link>
		<comments>http://www.dwhzy.com/115.html#comments</comments>
		<pubDate>Tue, 27 Jul 2010 14:25:20 +0000</pubDate>
		<dc:creator>在线营销</dc:creator>
				<category><![CDATA[数据分析]]></category>
		<category><![CDATA[什么是visitor]]></category>

		<guid isPermaLink="false">http://www.dwhzy.com/?p=115</guid>
		<description><![CDATA[visitor，翻译过来就是访问者，也就是访问你网站的用户。]]></description>
			<content:encoded><![CDATA[<p>visitor，翻译过来就是访问者，也就是访问你网站的用户。</p>
<h3  class="related_post_title">随便看一些在线营销的文章吧</h3><ul class="related_post"><li><a href="http://www.dwhzy.com/140.html" title="数学之美 系列 4 &#8212; 怎样度量信息">数学之美 系列 4 &#8212; 怎样度量信息</a></li><li><a href="http://www.dwhzy.com/104.html" title="数学之美 系列二 &#8212; 谈谈中文分词">数学之美 系列二 &#8212; 谈谈中文分词</a></li><li><a href="http://www.dwhzy.com/149.html" title="什么是团队？">什么是团队？</a></li><li><a href="http://www.dwhzy.com/118.html" title="什么是跳出率（Bounce Rate）？">什么是跳出率（Bounce Rate）？</a></li><li><a href="http://www.dwhzy.com/102.html" title="谷歌：数学之美系列一——统计语言模型">谷歌：数学之美系列一——统计语言模型</a></li><li><a href="http://www.dwhzy.com/126.html" title="什么是新访问者与回访者？">什么是新访问者与回访者？</a></li><li><a href="http://www.dwhzy.com/113.html" title="什么是PV？">什么是PV？</a></li><li><a href="http://www.dwhzy.com/111.html" title="什么是Visit？">什么是Visit？</a></li><li><a href="http://www.dwhzy.com/120.html" title="什么是网站停留时间（time on site）?">什么是网站停留时间（time on site）?</a></li><li><a href="http://www.dwhzy.com/88.html" title="开博第一篇，一样的优化，不一样的观点。">开博第一篇，一样的优化，不一样的观点。</a></li></ul>]]></content:encoded>
			<wfw:commentRss>http://www.dwhzy.com/115.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>什么是PV？</title>
		<link>http://www.dwhzy.com/113.html</link>
		<comments>http://www.dwhzy.com/113.html#comments</comments>
		<pubDate>Mon, 26 Jul 2010 14:46:48 +0000</pubDate>
		<dc:creator>在线营销</dc:creator>
				<category><![CDATA[数据分析]]></category>
		<category><![CDATA[什么是PV]]></category>

		<guid isPermaLink="false">http://www.dwhzy.com/?p=113</guid>
		<description><![CDATA[PV，即：page view。中文翻译为页面浏览量，是网站基本的统计数据之一。]]></description>
			<content:encoded><![CDATA[<p>PV，即：page view。中文翻译为页面浏览量，是网站基本的统计数据之一。</p>
<p><strong>PV的定义：</strong></p>
<p>一次页面阅览就是一次页面的下载，访问者成功地阅览到页面应该在他的浏览器上完整地看到该页面。</p>
<p><strong>PV的度量方法： </strong></p>
<p>一次浏览器请求即可算作一次页面阅览。</p>
<p>注意：通过浏览器打开某个页面，没有等到页面全部打开就离开了，这算一次浏览吗？判断此的依据是页面中的代码有没有加载，如果有，那么就算，没有，自然不算。</p>
<h3  class="related_post_title">随便看一些在线营销的文章吧</h3><ul class="related_post"><li><a href="http://www.dwhzy.com/140.html" title="数学之美 系列 4 &#8212; 怎样度量信息">数学之美 系列 4 &#8212; 怎样度量信息</a></li><li><a href="http://www.dwhzy.com/149.html" title="什么是团队？">什么是团队？</a></li><li><a href="http://www.dwhzy.com/118.html" title="什么是跳出率（Bounce Rate）？">什么是跳出率（Bounce Rate）？</a></li><li><a href="http://www.dwhzy.com/120.html" title="什么是网站停留时间（time on site）?">什么是网站停留时间（time on site）?</a></li><li><a href="http://www.dwhzy.com/88.html" title="开博第一篇，一样的优化，不一样的观点。">开博第一篇，一样的优化，不一样的观点。</a></li><li><a href="http://www.dwhzy.com/104.html" title="数学之美 系列二 &#8212; 谈谈中文分词">数学之美 系列二 &#8212; 谈谈中文分词</a></li><li><a href="http://www.dwhzy.com/129.html" title="数学之美 系列三——隐含马尔可夫模型在语言处理中的应用">数学之美 系列三——隐含马尔可夫模型在语言处理中的应用</a></li><li><a href="http://www.dwhzy.com/115.html" title="什么是visitor？">什么是visitor？</a></li><li><a href="http://www.dwhzy.com/111.html" title="什么是Visit？">什么是Visit？</a></li><li><a href="http://www.dwhzy.com/123.html" title="什么是网页停留时间？">什么是网页停留时间？</a></li></ul>]]></content:encoded>
			<wfw:commentRss>http://www.dwhzy.com/113.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>什么是Visit？</title>
		<link>http://www.dwhzy.com/111.html</link>
		<comments>http://www.dwhzy.com/111.html#comments</comments>
		<pubDate>Tue, 15 Jun 2010 16:07:11 +0000</pubDate>
		<dc:creator>在线营销</dc:creator>
				<category><![CDATA[数据分析]]></category>
		<category><![CDATA[Visit]]></category>

		<guid isPermaLink="false">http://www.dwhzy.com/?p=111</guid>
		<description><![CDATA[Visit中文翻译即访问。当你访问到一个网站时，你就是一个访问者(Visitor)，你可能只访问1个页面，也可能东看西看走了N多个页面，那么当你完成浏览这个网站的行为最终关掉这个网站所有页面离开时，那么你就对这个网站完成了一次访问。]]></description>
			<content:encoded><![CDATA[<p><span style="font-family: Verdana;">Visit中文翻译即访问。当你访问到一个网站时，你就是一个访问者(Visitor)，你可能只访问1个页面</span><span style="font-family: Verdana;">，也可能东看西看走了N多个页面，那么当你完成浏览这个网站的行为最终关掉这个网站所有页面离开</span><span style="font-family: Verdana;">时，那么你就对这个网站完成了一次访问。</span></p>
<p><span style="font-family: Verdana;">通常要看网站分析工具对Visit的定义了，如果我们定义1个Visit是一系列在网站上浏览点动鼠标的动</span><span style="font-family: Verdana;">作，如果你的网站分析工具对 Visit的定义中两个点击网站页面链接的间隔为10分钟，那么上述情况就</span><span style="font-family: Verdana;">要被算所2个Visit咯。</span></p>
<h3  class="related_post_title">随便看一些在线营销的文章吧</h3><ul class="related_post"><li><a href="http://www.dwhzy.com/113.html" title="什么是PV？">什么是PV？</a></li><li><a href="http://www.dwhzy.com/88.html" title="开博第一篇，一样的优化，不一样的观点。">开博第一篇，一样的优化，不一样的观点。</a></li><li><a href="http://www.dwhzy.com/120.html" title="什么是网站停留时间（time on site）?">什么是网站停留时间（time on site）?</a></li><li><a href="http://www.dwhzy.com/140.html" title="数学之美 系列 4 &#8212; 怎样度量信息">数学之美 系列 4 &#8212; 怎样度量信息</a></li><li><a href="http://www.dwhzy.com/102.html" title="谷歌：数学之美系列一——统计语言模型">谷歌：数学之美系列一——统计语言模型</a></li><li><a href="http://www.dwhzy.com/104.html" title="数学之美 系列二 &#8212; 谈谈中文分词">数学之美 系列二 &#8212; 谈谈中文分词</a></li><li><a href="http://www.dwhzy.com/149.html" title="什么是团队？">什么是团队？</a></li><li><a href="http://www.dwhzy.com/129.html" title="数学之美 系列三——隐含马尔可夫模型在语言处理中的应用">数学之美 系列三——隐含马尔可夫模型在语言处理中的应用</a></li><li><a href="http://www.dwhzy.com/126.html" title="什么是新访问者与回访者？">什么是新访问者与回访者？</a></li><li><a href="http://www.dwhzy.com/118.html" title="什么是跳出率（Bounce Rate）？">什么是跳出率（Bounce Rate）？</a></li></ul>]]></content:encoded>
			<wfw:commentRss>http://www.dwhzy.com/111.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
