回复: 36
点击: 639

关于咔嗒器(或称响片器)训练的理论基础

楼主 jackycomes 发表于 2008-2-21 21:54:58  http://bbs.chinapet.com/showtopic-484366.html
离线 jackycomes
头像
等级: 无名宝宝
贴子: 173
牛牛: 201 我的牛牛
注册: 2005年12月27日

 

关于咔嗒器(或称响片器)训练的理论基础

关于咔嗒器(或称响片器)训练的理论基础

 

 

偶尔在国内一些网站上会看到一些谈咔嗒器和咔嗒器训练的帖子,我也把自己所了解的知识和大家分享一下。请指正。谢谢!

 

 

咔嗒器在动物训练(有人主张也可以用在人的行为塑造上)上的运用是基于巴甫洛夫的“古典(或称“经典”)条件化理论(Classical Conditioning Theory)”和斯金纳的“操作条件化理论(Operant Conditioning Theory)”。

 

 

巴甫洛夫(Ivan Pavlov,18491936)最著名的实验是"流口水的狗"。它讲的是通过一定的方法,一个第二性的刺激(比如铃声)可以获得犬只如同对本原性刺激(比如肉)一样的反应。把第二性刺激和本原性刺激联系在一起的过程叫做条件化。(为了和后来的操作条件化区别,人们称此为古典条件化)对第二性刺激产生的如同对本原性刺激一样的反应叫做条件反射。(相对且区别于见光瞳孔收缩,敲膝盖下部位小腿弹起等无条件反射。饿狗见到食物流口水也是无条件反射。)进一步的实验还发现,引入第二刺激有助于动物的学习。动物训练里采用的标识(口头表扬、无声笛、咔嗒器)就是第二刺激。动物训练中引入第二刺激的另一个帮助是使得对行为的肯定和奖励可以分离开来(桥梁作用)。

 

 

斯金纳(Burrhus Frederic Skinner19041990)将巴氏的理论称为古典条件化,ThorndikeInstrumental Conditioning称为操作条件化。“斯金纳的盒子”是广为人知的。老鼠在盒子里自由的行动,它偶然发生的行为引起了不同的后果,有些后果令老鼠更愿意发生刚才引起这个后果的行为,这些后果称为强化();有些后果令老鼠发生引起后果的行为几率降低,这类后果称为惩罚()。后果如果是原本的环境里没有的,称为正面的;后果如果是环境里原本有的消失了,称为负面的。组合起来就有正面强化,负面强化,正面惩罚,负面惩罚四种后果。操作条件理论讲的是“后果跟随着行为,后果的性质会修正将来产生这些行为的倾向”。通过操控后果来获得期望行为(或令不理想的行为消失)就是这个理论的应用。

 

 

实验还发现了强化的频率和时间与对所强化的行为的关系。有四种不同的安排:

1〉定时,如每隔三分钟对理想行为强化一次。发现强化后发生率降低,到时间快到时升高。

2〉不定时,如三分钟奖励一次然后五分钟然后二分钟。30分钟里行为次数比1〉多,且没有1〉的“鱼鳞”状曲线。

3〉定比,如每发生三次理想行为强化一次,效果比2〉好,尤其在学习新的行为时很有效。(每次都强化也是定比。)

4〉不定比,如先是发生三次强化一次,然后五次奖一次,两次奖一次… 同样时间里发生理想行为的次数为四者中最多。对维持巳学会的行为尤其好。

 

 

塑形也是Skinner理论的一部分,是解答如何获得复杂行为这个问题的, 后被称为“连续渐近法塑造行为(Shaping by the Method of Successive Approximation)”。斯氏刚开始实验时就是通过此法逐步让老鼠去踩踏板的。动物训练中经常应用这个方法。即把一个目标行为细分成许多步,一步一步的训练,用一定的顺序(许多情况中用“反顺序”或“倒链子(Back-Chain)”)串连在一起。

 

 

咔嗒器或称响片器在训练中用作标识物(marker)是因为与其他方法如口头发声相比它便携、易用、声音的独特性和一致性以及通常与背景声的不同。它依据的是经典条件化理论和操作条件化理论,故在实际运用时亦要遵循这些原则,如第二性刺激的建立(条件反射),渐进塑形,强化的时间表,等等。

 

 

Dr. Keller BrelandDr. Marian Breland夫妇两人均师从斯金纳并于1944年离开学校开办了第一家用操作条件化训练动物的公司Animal Behavior Enterprises。他们在1940中期推出咔嗒器Clicker,但商业上并不成功。直到1960年代Karen Pryor出山,咔嗒器才得以广泛地被认可和使用。Karen Pryor著作中最有名的大概就是《别毙了那只狗》,台湾有出版中译本。(顺便讲一句,我对书中一些例子应该归为正面强化/惩罚还是负面强化/惩罚是有不同看法的。)

 

 

Karen Pryor认为在训练中使用咔嗒器和咔嗒器训练方法是完全不同的两回事。前者只是在传统的训练方法中用咔嗒器作为标识的工具,称为“跨界(Cross-Over)”训练师;而后者则是完全以正面强化为本的新一代的训练师。

 

 



[此贴子已经被作者于2008-2-22 7:54:18编辑过]

离线 乐乐三宝
头像
等级: 版主
贴子: 524
牛牛: 947 我的牛牛
注册: 2005年10月29日

2008-2-25 17:17:00  

对一些名词的解释还要牢记才能往下看,记不住还要回头再看,首先要记住名词。

谢谢!长学问了!
离线 jasonh
头像
等级: 版主
贴子: 380
牛牛: 498 我的牛牛
注册: 2007年01月24日

背椅 2008-2-26 21:20:00  

我刚有时间看了老赵的帖子。

我看了好几遍了《别毙了那只狗》并想推荐给我们圈里的朋友所以定了一批《别毙了那只狗》应该在从台湾到京的路上。

我看了您的帖子在看完《别毙了那只狗》第一边时,很兴奋因为是以前没接触过的理论(随去澳洲学过响片训练,但只停留在实际操作中。理论学习没有这么深刻)。有些地方也不太明白,后来又看了些其他资料有所了解。

响片训练同样也会使用负增强,因为在训练中是不可避免的。

负增强:

负强化是指当个体正在承受厌恶刺激时,一旦个体表现出期望的良好行为,便立即撤除其正在承受的厌恶刺激,那么以后在同样的情境下,该行为的出现次数就会增加。负强化的作用与正强化同样,都可以增加行为的出现率。

还有负强化可以是很轻微的,也可能是很强烈的。取决与接受者的感受而不是实施者。

所以有时我们的转身、回避、不理、不动或在训练最好时停止,在响片训练中都属于厌恶刺激。甚至带牵引本身就是一种厌恶刺激。但有些灰色地带是无法避免的。

响片训练者原则是不使用:威胁、恐吓、疼痛、的方法训练狗儿



[此贴子已经被作者于2008-2-26 21:25:47编辑过]

离线 jackycomes
头像
等级: 无名宝宝
贴子: 173
牛牛: 201 我的牛牛
注册: 2005年12月27日

2008-2-29 8:19:00  只看该作者  

负增强是个很有趣的话题。动物在自然环境里的学习过程中的负增强是个自然的过程。而训练中要创造负增强的的环境通常先要引入一个在负增强时需要从环境里去掉的刺激物,即先要有个“正面惩罚”的过程。这就是争议点所在。这也是我前文讲的我对《别毙了那只狗》作者对书中的一些具体情景的定义有异议的地方。她不谈她加入的正面惩罚从而降低了它将来发生该行为的概率的而只讲动物为规避这个惩罚而产生的行为且在事先并没有定义这个理想行为是什么。所以是正面惩罚,而不是作者讲的负面强化。
何先生推广这本书是件大好事!正如他所讲的,如果能再看一些基本的理论,那就能批判性地去读书了。
离线 jasonh
头像
等级: 版主
贴子: 380
牛牛: 498 我的牛牛
注册: 2007年01月24日

52008-2-29 11:36:00  

今天我已在北京收到书了。
离线 南希之家
头像
等级: 无名宝宝
贴子: 227
牛牛: 336 我的牛牛
注册: 2006年11月10日

62008-2-29 22:21:00  

以下是引用 jasonh 在08-02-29 11:36:30的发言:
今天我已在北京收到书了。

何老师,能不能给我一本啊?

离线 jasonh
头像
等级: 版主
贴子: 380
牛牛: 498 我的牛牛
注册: 2007年01月24日

72008-3-1 23:22:00  

以下是引用 南希之家 在08-02-29 22:21:17的发言:
以下是引用 jasonh 在08-02-29 11:36:30的发言:
今天我已在北京收到书了。

何老师,能不能给我一本啊?

当然

离线 jasonh
头像
等级: 版主
贴子: 380
牛牛: 498 我的牛牛
注册: 2007年01月24日

82008-3-1 23:32:00  

以下是引用 jackycomes 在08-02-29 08:19:36的发言:
负增强是个很有趣的话题。动物在自然环境里的学习过程中的负增强是个自然的过程。而训练中要创造负增强的的环境通常先要引入一个在负增强时需要从环境里去掉的刺激物,即先要有个“正面惩罚”的过程。这就是争议点所在。这也是我前文讲的我对《别毙了那只狗》作者对书中的一些具体情景的定义有异议的地方。她不谈她加入的正面惩罚从而降低了它将来发生该行为的概率的而只讲动物为规避这个惩罚而产生的行为且在事先并没有定义这个理想行为是什么。所以是正面惩罚,而不是作者讲的负面强化。
何先生推广这本书是件大好事!正如他所讲的,如果能再看一些基本的理论,那就能批判性地去读书了。

没看懂,您能举个例子吗?

离线 jackycomes
头像
等级: 无名宝宝
贴子: 173
牛牛: 201 我的牛牛
注册: 2005年12月27日

92008-3-3 22:18:00  只看该作者  

以下是引用 jasonh 在08-03-01 23:32:32的发言:
以下是引用 jackycomes 在08-02-29 08:19:36的发言:
负增强是个很有趣的话题。动物在自然环境里的学习过程中的负增强是个自然的过程。而训练中要创造负增强的的环境通常先要引入一个在负增强时需要从环境里去掉的刺激物,即先要有个“正面惩罚”的过程。这就是争议点所在。这也是我前文讲的我对《别毙了那只狗》作者对书中的一些具体情景的定义有异议的地方。她不谈她加入的正面惩罚从而降低了它将来发生该行为的概率的而只讲动物为规避这个惩罚而产生的行为且在事先并没有定义这个理想行为是什么。所以是正面惩罚,而不是作者讲的负面强化。
何先生推广这本书是件大好事!正如他所讲的,如果能再看一些基本的理论,那就能批判性地去读书了。

没看懂,您能举个例子吗?

先说明一下基点。我对“正”、“负、“增强(强化)”、“惩罚”的理解是依照斯金纳博士“操作条件化理论”里的定义。如果我的理解错了,或如果我们谈论“正”、“负、“增强(强化)”、“惩罚”用的是不同的定义,那我们就要先来统一一下基本定义了。斯金纳博士“操作条件化理论”里的定义是“老鼠在盒子里自由的行动(称为Operant),它偶然发生的行为引起了不同的后果,有些后果令老鼠更愿意发生刚才引起这个后果的行为,这些后果称为强化()。有些后果令老鼠发生引起后果的行为几率降低,这类后果称为惩罚()。后果如果是原本的环境里没有的,称为正面的;后果如果是环境里原本有的消失了,称为负面的。组合起来就有正面强化,负面强化,正面惩罚,负面惩罚四种后果。”
           

那么用什么方法来辨别某一事件是“正”、“负、“增强(强化)”、“惩罚”呢?可以通过问下列问题来判断事件属于“正”、“负、“增强(强化)”、“惩罚”四个组合中的哪一个:

1〉哪个具体行为增多了或减少了?

2〉该行为增多了还是减少了?

3〉那个行为的后果是什么?

4〉那个后果是“加入的”还是“减去了”?

我们来看一个具体的例子。

请翻到《商周出版社》2007425日初版的中译本《别毙了那只狗》第38页,即第一章“哪些是负增强”那节里关于骆马的例子。

1〉哪个具体行为增多了或减少了?骆马当人走近时站着不动。

2〉该行为增多了还是减少了?增多了。

3〉那个行为的后果是什么?人走开了。

4〉那个后果是“加入的”还是“减去了”?减去了。

行为增多了=强化/增强

后果是“减去了”=负面

所以这是“负面强化”的例子。我觉得这是书中最佳的“负面强化”例子。

而要实施这种负面强化的训练,先要加入书中所称的“厌恶刺激”,在该例中就是人向骆马靠近。该例也是“系统脱敏法”的一个很好的案例。

再看一个人为实验/训练中的“负面强化通常先要引入正面惩罚”的例子。为训练老鼠站立,给鼠笼通电,老鼠触电立起来时立即断电。当狗老实随行时即刻放松P链也是同一种做法,即先加入正面惩罚(抽紧P链,令它乱冲的行为停止并以后少发生),当理想的行为出现时立即去掉“厌恶刺激”。正是这个加入的“厌恶刺激”使得负面强化很具争议性。

离线 jackycomes
头像
等级: 无名宝宝
贴子: 173
牛牛: 201 我的牛牛
注册: 2005年12月27日

102008-3-3 22:20:00  只看该作者  

我们再来看一个具体的例子。


           
“有次我穿着一套全新的黑色羊毛西装参加晚宴,女主人的白色长毛猫老是跳到我大腿上。女主人觉得这个行为很可爱,可我并不希望我的黑色西装沾上白色的猫毛。我在女主人没有看到时把手指放入酒里,然后把酒弹到猫脸上,它立即离开而且没有再跑回来。”

1〉哪个具体行为增多了或减少了?猫跳到我大腿上。

2〉该行为增多了还是减少了?减少了。

3〉那个行为的后果是什么?猫的脸上被弹到酒。

4〉那个后果是“加入的”还是“减去了”?加上的。

行为减少了=惩罚

后果是“加上的”=正面

所以这是“正面惩罚”的例子。

请翻到《商周出版社》2007425日初版的中译本《别毙了那只狗》第171页,看第二段,即“反训练”中“第三招:负增强”的最后一段,这个例子就在那里。我不是狂妄,责疑大师;我只是认真。类似的定义不当(依我所见)在该书中还有好几处。这些疑问有机会一定要向先学请教。

“暂停(Time Out)”通常被认为是“负惩罚”,我也赞同这个归类,因为它是通过从环境中“减去”犬只喜爱的因素而使它某些行为“减少”发生。比如犬只见到主人时高兴地扑过来时主人转身、回避、不理、不动(减去它与主人的交往机会);犬只在训练时得意忘形时静静地把它带离场地关到笼子里(减去它自我享乐的机会);等等。书中把“暂停”称为“负增强”,我觉得也是不当的,也是与作者书中其他的“负增强”概念不一致的。

不好意思,写得长了点。不过要说明这么复杂的概念,我实在没有能力简短扼要啊。