Tuesday morning tap at "Challenges"
authorM. Taylor Saotome-Westlake <ultimatelyuntruethought@gmail.com>
Tue, 7 Dec 2021 19:08:19 +0000 (11:08 -0800)
committerM. Taylor Saotome-Westlake <ultimatelyuntruethought@gmail.com>
Tue, 7 Dec 2021 19:08:19 +0000 (11:08 -0800)
content/drafts/challenges-to-yudkowskys-pronoun-reform-proposal.md

index 2f2c056..2f5efbe 100644 (file)
@@ -85,23 +85,15 @@ Unfortunately, I don't have a study with objective measurements on hand (let me
 
 Let's relate this is Yudkowsky's specialty of artificial intelligence. In a post on ["Multimodal Neurons in Artificial Neural Networks"](https://openai.com/blog/multimodal-neurons/), Gabriel Goh _et al._ explore the capabilities and biases of the [CLIP](https://openai.com/blog/clip/) neural network trained on textual and image data.
 
-There are some striking parallels between CLIP's behavior, and phenomena observed in neuroscience. Neurons in the human brain have been observed to respond to the same concept represented in different modalities (_e.g._, [Quiroga _et al._](/papers/quiroga_et_al-invariant_visual_representation_by_single_neurons.pdf) observed a neuron in one patient that responded to photos and sketches of actress Halle Berry, as well as the text string "Halle Berry"), and so do CLIP neurons. Futhermore, CLIP is vulnerable to a Stroop-like effect where its image-classification capabilities can be fooled by "typographic attacks"—a dog with instances of the text "$$$" superimposed over it gets classified as a piggy bank, an apple with a handwritten sign saying "LIBRARY" gets classified as a library. The network knows perfectly what dogs and apples look like under ordinary circumstances, and yet still reacts differently when presented with clashing textual labels.
+There are some striking parallels between CLIP's behavior, and phenomena observed in neuroscience. Neurons in the human brain have been observed to respond to the same concept represented in different modalities (_e.g._, [Quiroga _et al._](/papers/quiroga_et_al-invariant_visual_representation_by_single_neurons.pdf) observed a neuron in one patient that responded to photos and sketches of actress Halle Berry, as well as the text string "Halle Berry"), and so do CLIP neurons. Futhermore, CLIP is vulnerable to a Stroop-like effect where its image-classification capabilities can be fooled by "typographic attacks"—a dog with instances of the text "$$$" superimposed over it gets classified as a piggy bank, an apple with a handwritten sign saying "LIBRARY" gets classified as a library. The network knows perfectly what dogs and apples look like, and yet still reacts differently if adjacent text calls them something else.
 
-I conjecture that the appeal of subject-chosen pronouns lies _precisely_ in how they exert Stroop-like effects on speakers' cognition. (Once again, if it were _actually true_ that _she_ and _he_ had no difference in meaning, _there would be no reason to care_.) [Pronoun badges](/2018/Oct/sticker-prices/) are, quite literally, a typographic attack against native English speakers' brains.
+I conjecture that the appeal of subject-chosen pronouns lies _precisely_ in how they exert Stroop-like effects on speakers' and listeners' cognition. (Once again, if it were _actually true_ that _she_ and _he_ had no difference in meaning, _there would be no reason to care_.) [Pronoun badges](/2018/Oct/sticker-prices/) are, quite literally, a typographic attack against native English speakers' brains.
 
-Note, I mean this as a value-free description of how the convention _actually functions_ in the real world, [not a condemnation](https://www.lesswrong.com/posts/N9oKuQKuf7yvCCtfq/can-crimes-be-discussed-literally). One could consistently hold that these "attacks" are morally good
+Note, I mean this as a value-free description of how the convention _actually functions_ in the real world, [not a condemnation](https://www.lesswrong.com/posts/N9oKuQKuf7yvCCtfq/can-crimes-be-discussed-literally). One could consistently hold that these "attacks" are morally good. (Analagously, [supernormal stimuli](https://www.lesswrong.com/posts/Jq73GozjsuhdwMLEG/superstimuli-and-the-collapse-of-western-civilization) like chocolate or pornography are "attacks" against the brain's evolved nutrition and reproductive-opportunity detectors, but most people are fine with this, because our goals are not evolution's.)
 
+Is susceptibility to Stroop-like effects an indication of bad mind design? I mean, probably! One would expect that an intelligently-designed agent (as contrasted to messy human brains coughed up [blind evolution](https://www.lesswrong.com/posts/jAToJHtg39AMTAuJo/evolutions-are-stupid-but-work-anyway) or [lucky](https://www.lesswrong.com/posts/dpzLqQQSs7XRacEfK/understanding-the-lottery-ticket-hypothesis) neural networks found by gradient descent) could easily bind and re-bind symbols on the fly, such that a sane AI from the future could use whatever pronouns without dredging up any inapplicable mental associations, and tell you the color of the text "<span style="color:blue;">red</span>" just as easily as "<span style="color:red;">red</span>". But it seems kind of idle to criticize humans for not having a capability that we can't even give our best AIs.
 
-Is susceptibility to Stroop-like effects an indication of bad mind design? I mean, maybe! You could argue that! One would expect that an _intelligently_-designed agent (as contrasted to messy human brains coughed up [blind evolution](https://www.lesswrong.com/posts/jAToJHtg39AMTAuJo/evolutions-are-stupid-but-work-anyway) or [lucky](https://www.lesswrong.com/posts/dpzLqQQSs7XRacEfK/understanding-the-lottery-ticket-hypothesis) neural networks found by gradient descent) could easily bind and re-bind symbols on the fly: 
-
-
-
-
-
-
-[TODO: let's related this to Yudkowsky's specialty multimodal neurons— both CLIP and biological neurons respond to text/images; typographic attacks are the same thing as pronoun badges; you would expect the people aligning language models to be able to think these thoughts]
-
-Importantly, Kerr is _explicitly_ appealing to psychological effects of different pronoun conventions. She is absolutely _not_ claiming that the use of preferred pronouns is itself a "lie" about some testable proposition. She writes:
+Back to Kerr's article—importantly, Kerr is _explicitly_ appealing to psychological effects of different pronoun conventions. She is absolutely _not_ claiming that the use of preferred pronouns is itself a "lie" about some testable proposition. She writes:
 
 > I've heard many people tell me they don't mind doing this, as a courtesy, although it takes some effort to keep up the mental gymnastics of perceiving one sex, but consistently using pronouns for the other. That's a personal choice, and I respect the reasons why some people make it.
 
@@ -123,20 +115,17 @@ Apparently, to play dumb. In the comments of the Facebook post, Yudkowsky claims
 
 I'm sorry, but I can't take this self-report literally. I certainly [don't think Yudkowsky was _consciously_ lying](https://www.lesswrong.com/posts/bSmgPNS6MTJsunTzS/maybe-lying-doesn-t-exist) when he wrote that. (When speaking or writing quickly without taking the time to scrupulously check, [it's common for little untruths and distortions to slip into one's speech](https://www.lesswrong.com/posts/pZSpbxPrftSndTdSf/honesty-beyond-internal-truth).) Nevertheless, I am _incredibly_ skeptical that Yudkowsky _actually_ doesn't know what it feels like from the inside to feel like a pronoun is attached to sex more firmly than a proper name is attached to someone's appearance.
 
-I realize this must seem impossibly rude and presumptuous of me. Yudkowsky _said_ he doesn't know what it feels like from the inside! That's a report out his own mental state, which he has privileged introspective access to, and I don't! What grounds could I possibly, _possibly_ have to think he's not telling the truth about his own mind? 
+I realize this must seem impossibly rude, presumptuous, and uncharitable of me. Yudkowsky _said_ he doesn't know what it feels like from the inside! That's a report out his own mental state, which he has privileged introspective access to, and I don't! What grounds could I possibly, _possibly_ have to think he's not telling the truth about his own mind? 
 
 It's a good question. And my answer is, even without mind-reading technology, people's minds are still part of the same cause-and-effect physical universe that I can (must) make probabilistic inferences about, and verbal self-reports aren't my _only_ source of evidence about someone's mind. In particular, if someone's verbal self-report mis-predicts what we know about their _behavior_, it's far from clear that we should trust the report more than our senses.
 
-The thing is, Eliezer Yudkowsky is a native English speaker born in 1979. As a native English speaker born in 1987, I have a _pretty good_ mental model of how native English speakers born in the late 20th century use language.
+And the thing is, Eliezer Yudkowsky is a native English speaker born in 1979. As a native English speaker born in 1987, I have a _pretty good_ mental model of how native English speakers born in the late 20th century use language. And one of the things native English speakers born in the late 20th century are _very good_ at doing, is noticing what sex people are and using the corresponding pronouns without consciously thinking about it, because the pronouns are attached to the concept of sex in their heads more firmly than proper names are attached to something in their heads.
 
-And one of the things native English speakers born in the late 20th century are _very good_ at doing, is noticing what sex people are and using the corresponding pronouns without consciously thinking about it, because the pronouns are attached to the concept of sex in their heads more firmly than proper names are attached to something in their heads.
-
-I would bet at very generous odds at some point in his four decades on Earth, Eliezer Yudkowsky has used _she_ or _he_ on the basis of perceived sex to refer to someone whose name he didn't know. Because _all native English speakers do this_. Moreover, we can say something about the cognitive algorithm underlying _how_ they do this: [people can recognize sex from facial structure _alone_ (hair covered, males clean-shaven) at 96% accuracy](/papers/bruce_et_al-sex_discrimination_how_do_we_tell.pdf)
-
-
-I would also bet at very generous odds that in his four decades on Earth, Eliezer Yudkowsky has very rarely if ever assumed what someone's name is on the basis of their appearance without being told.
+I would bet at very generous odds at some point in his four decades on Earth, Eliezer Yudkowsky has used _she_ or _he_ on the basis of perceived sex to refer to someone whose name he didn't know. Because _all native English speakers do this_. Moreover, we can say something about the cognitive algorithm underlying _how_ they do this: [people can recognize sex from facial photos _alone_ (hair covered, males clean-shaven) at 96% accuracy](/papers/bruce_et_al-sex_discrimination_how_do_we_tell.pdf). In naturalistic settings where we can see and hear more [secondary sex characteristics](https://en.wikipedia.org/wiki/Secondary_sex_characteristic) than just someone's face, accuracy would be even greater. It's not a mystery why people can get sex-based pronouns "right" the vast majority of the time without having to be told or remember specific people's pronouns.
 
+Conversely, I would also bet at very generous odds that in his four decades on Earth, Eliezer Yudkowsky has very rarely if ever assumed what someone's name is on the basis of their appearance without being told. Because _no native English speakers do this_ (seriously, rather than as a joke or a troll). 
 
+[...]
 
 > My current policy stance is that anybody who does feel that way needs to get some perspective about how it can be less firmly attached in other people's heads; and how their feelings don't get to control everybody's language protocol or accuse non-protocol users of lying; especially when different people with firm attachments have _different_ firm attachments and we can't make them all be protocol.
 
@@ -146,7 +135,8 @@ The sheer _chutzpah_ here is jaw-dropping. Someone's feelings don't get to contr
 
 > In terms of important things? Those would be all the things I've read—from friends, from strangers on the Internet, above all from human beings who are people—describing reasons someone does not like to be tossed into a Male Bucket or Female Bucket, as it would be assigned by their birth certificate, or perhaps at all.
 
-Okay, so Yudkowsky 
+Okay, so Yudkowsky never thought sex-based pronouns were a good idea in the first place. But the _important thing_ is that 
+
 
 [TODO: self-identity is a Schelling point]
 
@@ -229,3 +219,13 @@ https://www.womenarehuman.com/extra-jail-time-for-incarcerated-women-who-use-mal
 Spanish speakers screw up he/she—because they're used to dropping pronouns! https://cogsci.mindmodeling.org/2017/papers/0639/paper0639.pdf
 
 a rationality community that can't think about this stuff, but can get existential risk stuff right, is like asking for self-driving car software that can drive red cars but not blue cars
+
+https://twitter.com/RichardDawkins/status/1468204472908369926
+
+> misgendering sucks, but what feels even more violent is when people get my pronouns right and i can tell they still perceive me as a man
+https://twitter.com/AFROlNCOGNlTO/status/1389080592084463618
+
+> a lot of cis people use 'learning someone's pronoun' as a copout from doing the important internal work of actually reconsidering their impression of the person's gender
+https://twitter.com/pangmeli/status/1079097805250224130
+> like let's be real - the reason you have a hard time "remembering" her pronoun is because you don't really think of her as a her. if you practiced thinking of her as a her, her pronoun would just come. and then you wouldn't be privately betraying her in your head all the time.
+https://twitter.com/pangmeli/status/1079142303183327232
\ No newline at end of file